CN110020035B

CN110020035B - 数据识别方法和装置、存储介质及电子装置

Info

Publication number: CN110020035B
Application number: CN201710800502.6A
Authority: CN
Inventors: 黄宙舒; 万明月
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2023-05-12
Anticipated expiration: 2037-09-06
Also published as: CN110020035A

Abstract

本发明公开了一种数据识别方法和装置、存储介质及电子装置。其中，该方法包括：获取资源提供设备所提供的媒体资源被请求展示的展示记录；根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录；根据使用记录获取与目标媒体资源匹配的特征数据，其中，特征数据用于指示目标媒体资源在当前周期内的展示特征；从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。本发明解决了现有的数据识别方法中存在的识别准确性较低的技术问题。

Description

数据识别方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据识别方法和装置、存储介质及电子装置。

背景技术

随着互联网多媒体发展，网络数据也在膨胀式增加。其中，对于各个网络服务提供商，往往需要获取从大量的网络数据中识别出的热点事件的相关数据，以向用户提供与上述识别出的热点事件相关的服务，从而达到提高来自用户的关注度的目的。其中，热点事件通常指在互联网中关注度较高的题材或事件。

目前，常用的数据识别方法通常包括以下两种：

1)人工识别，运营人员关注网络上面的流行的，有话题性的事件；观察评论数据、口碑评分数据、用户分享数据等等获取热点事件；并使用自身的有关热点发现的经验，进行一定的热点预测等。但工作量大，覆盖面不够全面，且容易加入个人喜好；

2)统计数据识别：按照播放量、分享、转发、评论、付费等数据进行统计，按照给定的比例排序得到排在靠前位置的热点事件。但是使用机器进行统计时，会存在水军恶意刷分或恶意提高播放量等导致误判的行为；同时由于流量入口有限，且不同用户偏好不同，使得覆盖的热点范围也不够广泛；此外，还可能会混入一些用户日常需求的热点事件，比如说《新闻联播》、《天气预报》等。

也就是说，在采用现有技术提供的数据识别方法来识别热点事件的相关数据时，存在数据识别不够准确的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种数据识别方法和装置、存储介质及电子装置，以至少解决现有的数据识别方法中存在的识别准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据识别方法，包括：获取资源提供设备所提供的媒体资源被请求展示的展示记录；根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录；根据使用记录获取与目标媒体资源匹配的特征数据，其中，上述特征数据用于指示上述目标媒体资源在当前周期内的展示特征；从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。

根据本发明实施例的另一方面，还提供了一种数据识别装置，包括：第一获取单元，用于获取资源提供设备所提供的媒体资源被请求展示的展示记录；第一确定单元，用于根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录；第二获取单元，用于根据使用记录获取与目标媒体资源匹配的特征数据，其中，上述特征数据用于指示上述目标媒体资源在当前周期内的展示特征；识别单元，用于从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，上述程序运行时执行上述数据识别的方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器通过上述计算机程序执行上述数据识别的方法。

在本发明实施例中，在获取资源提供设备所提供的媒体资源被请求展示的展示记录之后，根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录，并根据使用记录获取与目标媒体资源匹配，且用于指示目标媒体资源在当前周期内的展示特征的特征数据，利用该特征数据从目标媒体资源中识别出满足预定条件的热点媒体资源，也就是说，利用未得到使用授权的第三方设备展示目标媒体资源的使用记录(即盗链记录)来识别热点媒体数据，而不再限于利用统计数据来进行识别，以避免统计过程中人为恶意修改所导致的误判，从而使得识别出的热点媒体资源更加准确，此外，盗链记录所覆盖的范围更加广泛，进一步保证了数据识别的准确性。进而解决了现有的数据识别方法中存在的识别准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据识别方法的应用环境示意图；

图2是根据本发明实施例的一种可选的数据识别方法的流程图；

图3是根据本发明实施例的一种可选的数据识别方法的示意图；

图4是根据本发明实施例的另一种可选的数据识别方法的流程图；

图5是根据本发明实施例的另一种可选的数据识别方法的示意图；

图6是根据本发明实施例的又一种可选的数据识别方法的示意图；

图7是根据本发明实施例的一种可选的数据识别装置的示意图；

图8是根据本发明实施例的一种可选的识别单元的示意图；

图9是根据本发明实施例的另一种可选的识别单元的示意图；

图10是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一方面，在本实施例中，上述数据识别方法可以但不限于应用于如图1所示的应用环境中。作为一种可选的实施例，在该数据识别方法中，服务器106通过网络104获取到资源提供设备102所提供的媒体资源被请求展示的展示记录，并根据获取到的展示记录确定出第三方设备108在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录，并根据该使用记录获取与目标媒体资源匹配，且用于指示目标媒体资源在当前周期内的展示特征的特征数据，并从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。

在本实施例中，在获取资源提供设备所提供的媒体资源被请求展示的展示记录之后，根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录，并根据使用记录获取与目标媒体资源匹配，且用于指示目标媒体资源在当前周期内的展示特征的特征数据，利用该特征数据从目标媒体资源中识别出满足预定条件的热点媒体资源，也就是说，利用未得到使用授权的第三方设备展示目标媒体资源的使用记录(即盗链记录)来识别热点媒体数据，而不再限于利用统计数据来进行识别，以避免统计过程中人为恶意修改所导致的误判，从而使得识别出的热点媒体资源更加准确，此外，盗链记录所覆盖的范围更加广泛，进一步保证了数据识别的准确性。

可选地，在本实施例中，上述资源提供设备可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机、数字电视、服务器及其他可以作为资源提供源的硬件设备。上述网络可以包括但不限于以下至少之一：广域网、城域网、局域网。上述媒体资源可以包括但不限于：文字、图片、语音、视频以及其他可以作为媒体资源的数据。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，提供了一种数据识别方法，如图2所示，该方法包括：

S202，获取资源提供设备所提供的媒体资源被请求展示的展示记录；

S204，根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录；

S206，根据使用记录获取与目标媒体资源匹配的特征数据，其中，特征数据用于指示目标媒体资源在当前周期内的展示特征；

S208，从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。

可选地，在本实施例中，上述数据识别方法可以但不限于应用于需要进行热点数据识别的场景中，比如新闻应用、社交应用、浏览器应用、电子阅读应用、娱乐应用等终端应用，也可以但不限于应用于各种需要进行大数据分析的场景，例如，热点数据统计、热点数据预测等等。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述数据识别方法可以但不限于应用于如图3所示的系统中，该系统可以包括但不限于：用于提供媒体资源的资源提供设备302，用于在未得到使用授权的情况下，对资源提供设备302所提供的媒体资源进行盗链的第三方设备304，用于进行数据识别的数据库308。其中，该数据库308可以位于网络306中的任意一个网络设备中。上述盗链可以但不限于为服务提供商(如第三方设备)自己不提供服务的内容，通过技术手段绕过其他有利益的最终用户界面(如资源提供设备的界面)，直接在自己的网站上向最终用户提供其他服务提供商的服务内容，骗取浏览和点击率。

在本实施例中，用于进行数据识别的数据库308通过网络306获取所提供的媒体资源的展示记录，其中该展示记录中包括：得到资源提供设备的使用授权的使用记录，及未得到使用授权的使用记录。例如，该展示记录可以为各个展示平台展示上述资源提供设备302所提供的媒体资源的展示数据。从数据库308得到的全部展示记录中，确定出第三方设备通过盗链方式展示目标媒体资源所得到的使用记录(也可称作盗用记录)，并根据该使用记录获取到用于指示目标媒体资源在当前周期内的展示特征的特征数据，从而实现从目标媒体资源中准确识别出特征数据满足预定条件的热点媒体资源。

需要说明的是，在本实施例中，上述展示记录可以但不限于资源提供设备所提供的媒体资源被请求在各个展示平台进行展示的展示情况记录。如以视频资源提供设备(如视频网站)为例进行说明，视频网站可以提供视频资源链接，以通过该视频资源链接展示对应的视频资源。其中，展示平台A在获取视频网站的使用授权后，可在自身的展示平台中引用该视频资源链接，以便于向用户提供合法的访问渠道。通过该方式获取到的使用记录为得到使用授权的合法使用记录。而展示平台B在并未获取到视频网站的使用授权的情况下，在自身的展示平台中非法盗用该视频资源链接，以吸引更多用户该展示平台B，则构成盗链。通过该方式获取到的使用记录为未得到使用授权的非法使用记录。其中，上述展示记录可以包括但不限于媒体资源在预定周期内被展示的展示量、被展示的总展示量及其他数据记录。上述仅是一种示例，本实施例里中对此不做任何限定。

可选地，在本实施例中，上述特征数据可以但不限于用于指示目标媒体资源在当前周期内的展示特征，其中，该展示特征可以包括但不限于：目标媒体资源在当前周期内被展示的展示量、目标媒体资源被展示的总展示量、目标媒体资源在当前周期内相对于上一个周期变化的使用上升指数、目标媒体资源在当前周期内热点指数。其中，在本实施例中，上述使用上升指数可以但不限于用于指示目标媒体资源在相邻周期的使用变化情况，上述热点指数可以但不限于用于指示有潜力但未被重视的程度。

此外，在本实施例中，上述特征数据可以但不限于为对使用记录进行数据统计后得到的。本实施例中对于获取特征数据的方式不做限定。

可选地，在本实施例中，从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源可以包括但不限于以下步骤：

1)根据上述特征数据获取独立的，且与目标媒体资源对应的第一特征值；根据对上述第一特征值进行排序的排序结果确定热点媒体资源。

需要说明的是，在本实施例中，上述第一特征值可以包括但不限于以下至少之一：目标媒体资源在当前周期内被第三方设备展示的特征展示量对应的特征值、目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的使用上升指数二者确定后的特征值、目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的热点指数二者确定后的特征值、目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的使用上升指数和目标媒体资源在当前周期内的热点指数三者确定后的特征值。也就是说，在本实施例中，可以但不限于直接利用盗链的目标媒体资源的特征数据计算后得到的第一特征值的排序结果，来识别获取热点媒体资源，从而避免主观人为恶意修改统计数据所导致的误判问题，进而实现提高数据(热点媒体资源对应的热点数据)识别的准确性的效果。

2)将特征数据传入分类模型，得到与目标媒体资源对应的第二特征值，其中，分类模型根据获取到的正面事件及负面事件训练得到，正面事件包括热点事件，负面事件包括非热点事件，热点事件与热点媒体资源关联；将第二特征值大于第一预定阈值的目标媒体资源确定为热点媒体资源。

需要说明的是，在本实施例中，上述分类模型可以但不限于根据预先获取到的正面事件和负面事件经过训练得到。其中，上述正面事件中所包括的热点事件可以包括但不限于：被预先标记的热点事件、付费产生的热点事件；上述负面事件中所包括的非热点事件可以但不限于：被预先标记的非热点事件、日常事件。上述仅是一种示例，本实施例中对此不做任何限定。其中，在本实施例中，上述分类模型可以包括但不限于以下至少之一：逻辑回归、决策树分类器、支持向量机分类器、朴素贝叶斯、K-近邻算法、因子分解机、神经网络分类器、深度学习以及由上述算法组合起来的组合算法。上述仅是示例，本实施例中对此不做任何限定。

也就是说，在本实施例中，可以结合盗链的特征数据及正面事件和负面事件，来训练分类模型，以便于利用该分类模型快速而准确地识别出与热点事件关联的热点媒体资源。

具体可结合图4所示来说明上述数据识别过程，具体步骤可以如下：S402，数据整理，从图4左侧所示提供的数据来源获取资源提供设备所提供的数据，如媒体资源被请求展示的展示记录，对展示记录进行整理，其中，上述数据来源可以包括但不限于盗链打击数据、视频网站热门数据、聚合平台热门数据微博、贴吧热门数据、网盘热门数据等；

S404，特征提取，由上述展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录，并通过上述使用记录提取与目标媒体资源匹配的特征数据；

S406，模型分析器，将提取得到的特征数据传入模型分析器(如上文训练得到的分类模型)，通过模型分析器的分析，得到符合条件的与热点事件关联的热点媒体资源；

S408，结果展示，展示与热点事件关联的热点媒体资源。

S410，输出结果。需要说明的是，在本实施例中，可以但不限于利用输出结果的反馈，对上述模型分析器进行优化调整，以提高模型分析器的分析准确性，进而保证识别结果的准确性。

通过本申请实施例，在获取资源提供设备所提供的媒体资源被请求展示的展示记录之后，根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录，利用未得到使用授权的第三方设备展示目标媒体资源的使用记录(即盗链记录)来识别热点媒体数据，而不再限于利用统计数据来进行识别，以避免统计过程中人为恶意修改所导致的误判，从而使得识别出的热点媒体资源更加准确，此外，盗链记录所覆盖的范围更加广泛，进一步保证了数据识别的准确性。

作为一种可选的方案，从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源包括：

S1，根据获取到的特征数据获取与目标媒体资源对应的第一特征值；

S2，根据对第一特征值进行排序的排序结果确定热点媒体资源。

需要说明的是，在本实施例中，上述第一特征值可以包括但不限于根据特征数据中获取到的独立的特征值，利用该特征值的排序结果来确定与热点事件关联的热点媒体资源(也可称作热点数据)。

其中，上述第一特征值可以包括但不限于以下至少之一：目标媒体资源在当前周期内被第三方设备展示的特征展示量对应的特征值、目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的使用上升指数二者确定后的特征值、目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的热点指数二者确定后的特征值、目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的使用上升指数和目标媒体资源在当前周期内的热点指数三者确定后的特征值。

其中，目标媒体资源x在当前周期t内被第三方设备展示的特征展示量可以用fre_t(x)表示；目标媒体资源x在当前周期t内的使用上升指数可以用hotLinkRatio_t(x)表示；目标媒体资源x在当前周期内t的热点指数可以用linkStealingRatio_t(x)表示。

进一步，在本实施例中，使用上升指数可以但不限于通过以下公式计算得到：

其中，目标媒体资源x在当前周期t之前的上一个周期t-1内被第三方设备展示的历史特征展示量可以用fre_t-1(x)表示，α用于表示平滑因子。

在本实施例中，热点指数可以但不限于通过以下公式计算得到：

其中，目标媒体资源x被展示的总展示量可以用playCnt_t(x)表示，α用于表示平滑因子。

假设第一特征值以目标媒体资源在当前周期内被第三方设备展示的特征展示量与目标媒体资源在当前周期内的使用上升指数和目标媒体资源在当前周期内的热点指数三者确定后的特征值为例进行说明，假设第一特征值为三者加权求和的结果，用S标识。

具体结合图5所示进行说明，假设多个目标媒体资源(如目标媒体资源x1至目标媒体资源x3)的第一特征值的排序结果如图5所示，s1>s2>s3。其中，目标媒体资源x1的第一特征值s1最高，则可确定目标媒体资源x1的特征数据满足预定条件，被识别为热点媒体资源。

通过本申请实施例，通过根据特征数据获取与目标媒体资源对应的第一特征值，并通过对第一特征值进行排序来确定热点媒体资源，直接利用计算得到的独立的第一特征值的排序结果来识别热点媒体资源，不仅保证了识别的准确性，还将大大提高识别出热点媒体资源的识别效率。

作为一种可选的方案，根据获取到的特征数据获取与目标媒体资源对应的第一特征值包括：

S1，从特征数据中获取目标媒体资源在当前周期内被第三方设备展示的特征展示量，作为与目标媒体资源对应的第一特征值；

S2，从特征数据中获取目标媒体资源在当前周期内被第三方设备展示的特征展示量；根据特征展示量获取以下至少一个参考指数：目标媒体资源在当前周期内的使用上升指数、目标媒体资源在当前周期内的热点指数；根据特征展示量及获取到的参考指数确定与目标媒体资源对应的第一特征值。

例如，假设以目标媒体资源在当前周期内被第三方设备展示的特征展示量为第一特征值。假设目标媒体资源为所展示的文章，包括文章1至文章3。其中，文章1在2017年7月被第三方设备展示(被盗链)的特征展示量为10000次，文章2在2017年7月被第三方设备展示(被盗链)的特征展示量为20000次，文章3在2017年7月被第三方设备展示(被盗链)的特征展示量为12000次。则对应的，在2017年7月，文章1的第一特征值为10000，文章2的第一特征值为20000，文章3的第一特征值为12000。对文章1、文章2、文章3的第一特征值进行排序，可以识别得到文章2为热点媒体资源。

通过本申请提供的实施例，将从特征数据中获取到的目标媒体资源在当前周期内被第三方设备展示的特征展示量单独作为第一特征值，或者，将特征展示量及以下至少一种参考指数进行组合得到第一特征值：目标媒体资源在当前周期内的使用上升指数、目标媒体资源在当前周期内的热点指数，从而实现利用计算得到的第一特征值的排序结果快速准确地识别出与热门事件关联的热点媒体资源。

作为一种可选的方案，根据特征展示量获取目标媒体资源在当前周期内的使用上升指数包括：

S1，从特征数据中获取在当前周期之前的上一个周期内目标媒体资源被第三方设备展示的历史特征展示量；

S2，根据特征展示量以及历史特征展示量确定目标媒体资源的使用上升指数。

其中，目标媒体资源的使用上升指数可以但不限于通过以下公式获得：

其中，fre_t(x)用于表示目标媒体资源x在当前周期t内被第三方设备展示的特征展示量，fre_t-1(x)用于表示目标媒体资源x在当前周期t的上一个周期t-1内被请求展示的历史特征展示量，α为平滑因子。hotLinkRatio_t(x)为目标媒体资源在当前周期t内的使用上升指数。

例如，(假如平滑因子α设置为0)，文章1在2017年7月被第三方设备展示(被盗链)的特征展示量为10000次，而在2017年6月份被第三方设备展示(被盗链)的特征展示量为5000次，则文章1的使用上升指数为10000/5000*100％＝200％；文章2在2017年7月被第三方设备展示(被盗链)的特征展示量为20000次，而在2017年6月份被第三方设备展示(被盗链)的特征展示量为30000次，则文章2的使用上升指数为20000/30000*100％＝66.7％；文章3在2017年7月被第三方设备展示(被盗链)的特征展示量为12000次，在2017年6月份被第三方设备展示(被盗链)的特征展示量为12000次，则文章3的使用上升指数为12000/12000*100％＝100％。最终得到：文章1的使用上升指数为200％，文章2的使用上升指数为66.7％，文章3的使用上升指数为100％。

通过本申请提供的实施例，在获取目标媒体资源的使用上升指数后，可将该使用上升指数与当前周期内的特征展示量结合得到第一特征值，以便于利用该第一特征值来识别热点媒体资源，从而保证识别的准确性。

作为一种可选的方案，根据特征展示量获取目标媒体资源在当前周期内的热点指数包括：

S1，从特征数据中获取在当前周期内目标媒体资源被展示的总展示量；

S2，根据特征展示量以及总展示量确定目标媒体资源的热点指数。

其中，上述目标媒体资源的热点指数可以但不限于通过以下公式获得：

其中，playCnt_t(x)用于表示目标媒体资源被展示的总展示量，α为平滑因子，linkStealingRatio_t(x)用于表示目标媒体资源在当前周期t的热点指数。

例如，(假如平滑因子α设置为0)，文章1在2017年7月被第三方设备展示(被盗链)的特征展示量为10000次，而文章1在2017年7月的总展示量为20000次，则文章1的热点指数为10000/20000＝50％；文章2在2017年7月被第三方设备展示(被盗链)的特征展示量为20000次，而文章2在2017年7月的总展示量为80000次，则文章2的热点指数为20000/80000＝25％；文章3在2017年7月被第三方设备展示(被盗链)的特征展示量为12000次，而文章3在2017年7月的总展示量为15000次，则文章3的热点指数为12000/15000＝80％。

通过本申请提供的实施例，在获取目标媒体资源的热点指数后，可将该热点指数与当前周期内的特征展示量结合得到第一特征值，以便于利用该第一特征值来识别热点媒体资源，从而保证识别的准确性。

S1，将特征数据传入分类模型，得到与目标媒体资源对应的第二特征值，其中，分类模型根据获取到的正面事件及负面事件训练得到，正面事件包括热点事件，负面事件包括非热点事件，热点事件与热点媒体资源关联；

S2，将第二特征值大于第一预定阈值的目标媒体资源确定为热点媒体资源。

需要说明的是，在本实施例中，上述分类模型可以但不限于根据预先获取到的正面事件和负面事件经过训练得到。其中，上述正面事件中所包括的热点事件可以包括但不限于：被预先标记的热点事件、付费产生的热点事件；上述负面事件中所包括的非热点事件可以但不限于：被预先标记的非热点事件、日常事件。上述仅是一种示例，本实施例中对此不做任何限定。

此外，在本实施例中，上述分类模型可以包括但不限于以下至少之一：逻辑回归、决策树分类器、支持向量机分类器、朴素贝叶斯、K-近邻算法、因子分解机、神经网络分类器、深度学习以及由上述算法组合起来的组合算法。上述仅是一种示例，本实施例中对此不做任何限定。

具体结合图6所示进行说明，利用预先获取到的已被区分的正面事件和负面事件，训练逻辑回归分类模型，其中，模型是使用sigmoid函数预测类别的。然后，将上述特征数据结合到该分类模型中，利用输出的第二特征值与第一预定阈值的大小比对结果识别出热点媒体资源。

通过本申请提供的实施例，结合已获取到的正面事件和负面事件训练得到分类模型，从而实现利用分类模型输出的第二特征值识别出热点媒体资源，从而保证识别的准确性。

作为一种可选的方案，将特征数据传入分类模型，得到与目标媒体资源对应的第二特征值包括：

S1，对获取到的特征数据进行预处理，得到处理后的特征数据，其中，特征数据包括：目标媒体资源在当前周期内被第三方设备展示的特征展示量、目标媒体资源在当前周期内被展示的总展示量，以及根据特征展示量获取到的以下至少一个参考指数：目标媒体资源在当前周期内的使用上升指数、目标媒体资源在当前周期内的热点指数；

S2，将处理后的特征数据传入分类模型，得到第二特征值。

可选地，在本实施例中，对获取到的特征数据进行预处理，得到处理后的特征数据包括：

按照以下公式获取处理后的特征数据：

其中，f_t(x)用于表示在当前周期t内目标媒体资源x的特征数据，σ用于表示在当前周期t内从展示记录中确定出的多个目标媒体资源的特征数据的数据标准差，F用于表示目标媒体资源x的处理后的特征数据。

作为一种可选的实施方式，可以但不限于按照以下公式得到处理后的特征展示量：

其中，f_t(x)表示在当前周期t内目标媒体资源x被第三方设备展示的特征展示量，σ1用于表示在当前周期t内多个目标媒体资源的特征展示量的数据标准差，F1用于表示目标媒体资源x处理后的特征展示量。

作为一种可选的实施方式，可以但不限于按照以下公式得到处理后的使用上升指数：

其中，hotLinkRatio_t(x)表示在当前周期t内目标媒体资源x的使用上升指数，σ2用于表示在当前周期t内多个目标媒体资源的使用上升指数的数据标准差，F2用于表示目标媒体资源x的处理后的上升指数。

作为一种可选的实施方式，可以但不限于按照以下公式得到处理后的总展示量：

其中，playCnt_t(x)表示在当前周期t内目标媒体资源x的总展示量，σ3用于表示在当前周期t内多个目标媒体资源的总展示量的数据标准差，F3用于表示目标媒体资源x的处理后的总展示量。

作为一种可选的实施方式，可以但不限于按照以下公式得到处理后的热点指数：

其中，linkStealingRatio_t(x)表示在当前周期t内目标媒体资源x的热点指数，σ4用于表示在当前周期t内多个目标媒体资源的热点指数的数据标准差，F4用于表示目标媒体资源x的处理后的热点指数。

通过本申请提供的实施例，通过上述公式对特征数据进行预处理，获取第二特征值，利用第二特征值与第一预定阈值进行比对的比对结果识别热点媒体资源，以保证识别的准确性和效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

根据本发明实施例的另一方面，还提供了一种用于实施上述数据识别方法的数据识别装置，如图7所示，该装置包括：

1)第一获取单元702，用于获取资源提供设备所提供的媒体资源被请求展示的展示记录；

2)第一确定单元704，用于根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录；

3)第二获取单元706，用于根据使用记录获取与目标媒体资源匹配的特征数据，其中，特征数据用于指示目标媒体资源在当前周期内的展示特征；

4)识别单元708，用于从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。

可选地，在本实施例中，上述数据识别装置可以但不限于应用于上述实施例1中所提到的应用环境中，如图1所示。本实施例中对此不再赘述。

可选地，在本实施例中，上述数据识别装置可以但不限于应用于如图3所示的系统中，该系统可以包括但不限于：用于提供媒体资源的资源提供设备302，用于在未得到使用授权的情况下，对资源提供设备302所提供的媒体资源进行盗链的第三方设备304，用于进行数据识别的数据库308。其中，该数据库308可以位于网络306中的任意一个网络设备中。上述数据识别装置可以但不限于应用于包含上述数据库的服务器中。上述盗链可以但不限于为服务提供商(如第三方设备)自己不提供服务的内容，通过技术手段绕过其他有利益的最终用户界面(如资源提供设备的界面)，直接在自己的网站上向最终用户提供其他服务提供商的服务内容，骗取浏览和点击率。

可选地，在本实施例中，上述特征数据可以但不限于用于指示目标媒体资源在当前周期内的展示特征，其中，该展示特征可以包括但不限于：目标媒体资源在当前周期内被展示的展示量、目标媒体资源被展示的总展示量、目标媒体资源在当前周期内相对于上一个周期变化的使用上升指数、目标媒体资源在当前周期内热点指数。其中，在本实施例中，上述使用上升指数可以但不限于用于指示目标媒体资源在相邻周期的使用变化情况，上述热点指数可以但不限于用于指示有潜力但未被重视的程度。此外，在本实施例中，上述特征数据可以但不限于为对使用记录进行数据统计后得到的。本实施例中对于获取特征数据的方式不做限定。

可选地，在本实施例中，上述识别单元708可以但不限于能够执行如下步骤：

S408，结果展示，展示与热点事件关联的热点媒体资源。

作为一种可选的方案，如图8所示，上述识别单元708还包括：

1)第一获取模块802，用于根据获取到的特征数据获取与目标媒体资源对应的第一特征值；

2)第一确定模块804，用于根据对第一特征值进行排序的排序结果确定热点媒体资源。

作为一种可选的方案，上述第一获取模块802包括：

1)第一获取子模块，用于从特征数据中获取目标媒体资源在当前周期内被第三方设备展示的特征展示量，作为与目标媒体资源对应的第一特征值；或者

2)第二获取子模块，从特征数据中获取目标媒体资源在当前周期内被第三方设备展示的特征展示量；第三获取子模块，用于根据特征展示量获取以下至少一个参考指数：目标媒体资源在当前周期内的使用上升指数、目标媒体资源在当前周期内的热点指数；根据特征展示量及获取到的参考指数确定与目标媒体资源对应的第一特征值。

作为一种可选的方案，第三获取子模块通过以下步骤实现根据特征展示量获取目标媒体资源在当前周期内的使用上升指数：

作为一种可选的方案，第三获取子模块通过以下步骤实现根据特征展示量获取目标媒体资源在当前周期内的热点指数：

作为一种可选的方案，如图9所示，上述识别单元708还包括：

1)传入模块902，用于将特征数据传入分类模型，得到与目标媒体资源对应的第二特征值，其中，分类模型根据获取到的正面事件及负面事件训练得到，正面事件包括热点事件，负面事件包括非热点事件，热点事件与热点媒体资源关联；

2)第二确定模块904，用于将第二特征值大于第一预定阈值的目标媒体资源确定为热点媒体资源。

作为一种可选的方案，上述传入模块902还包括：

1)预处理子模块，用于对获取到的特征数据进行预处理，得到处理后的特征数据，其中，特征数据包括：目标媒体资源在当前周期内被第三方设备展示的特征展示量、目标媒体资源在当前周期内被展示的总展示量，以及根据特征展示量获取到的以下至少一个参考指数：目标媒体资源在当前周期内的使用上升指数、目标媒体资源在当前周期内的热点指数；

2)传入子模块，用于将处理后的特征数据传入分类模型，得到第二特征值。

按照以下公式获取处理后的特征数据：

作为另一种可选的实施方式，可以但不限于按照以下公式得到处理后的特征展示量：

作为又一种可选的实施方式，可以但不限于按照以下公式得到处理后的使用上升指数：

作为又一种可选的实施方式，可以但不限于按照以下公式得到处理后的总展示量：

作为又一种可选的实施方式，可以但不限于按照以下公式得到处理后的热点指数：

根据本发明实施例的又一方面，还提供了一种用于实施上述数据识别方法的电子装置，如图10所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1001、存储器1003、显示器1005以及用户接口1007。

其中，存储器1003可用于存储软件程序以及模块，如本发明实施例中的文本数据显示方法和装置对应的程序指令/模块，处理器1001通过运行存储在存储器1003内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本数据显示方法。存储器1003可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1003可进一步包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以位于网络中的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取资源提供设备所提供的媒体资源被请求展示的展示记录；

S2，根据展示记录确定第三方设备在未得到资源提供设备的使用授权的情况下，对资源提供设备所提供的目标媒体资源进行展示的使用记录；

S3，根据使用记录获取与目标媒体资源匹配的特征数据，其中，特征数据用于指示目标媒体资源在当前周期内的展示特征；

S4，从目标媒体资源中识别出特征数据满足预定条件的热点媒体资源。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据识别方法，其特征在于，包括：

获取资源提供设备所提供的媒体资源被请求展示的展示记录，所述展示记录的数据来源于盗链打击数据和统计数据；

根据所述展示记录确定对所述资源提供设备所提供的进行盗链的目标媒体资源进行展示的使用记录；

根据所述使用记录获取与所述目标媒体资源匹配的特征数据，其中，所述特征数据用于指示所述目标媒体资源在当前周期内的展示特征；

从所述目标媒体资源中识别出所述特征数据满足预定条件的热点媒体资源。

2.根据权利要求1所述的方法，其特征在于，所述从所述目标媒体资源中识别出所述特征数据满足预定条件的热点媒体资源包括：

根据获取到的所述特征数据获取与所述目标媒体资源对应的第一特征值；

根据对所述第一特征值进行排序的排序结果确定所述热点媒体资源。

3.根据权利要求2所述的方法，其特征在于，所述根据获取到的所述特征数据获取与所述目标媒体资源对应的第一特征值包括：

从所述特征数据中获取所述目标媒体资源在所述当前周期内被第三方设备展示的特征展示量，作为与所述目标媒体资源对应的所述第一特征值；或者

从所述特征数据中获取所述目标媒体资源在所述当前周期内被第三方设备展示的特征展示量；根据所述特征展示量获取以下至少一个参考指数：所述目标媒体资源在所述当前周期内的使用上升指数、所述目标媒体资源在所述当前周期内的热点指数；根据所述特征展示量及获取到的所述参考指数确定与所述目标媒体资源对应的所述第一特征值。

4.根据权利要求3所述的方法，其特征在于，根据所述特征展示量获取所述目标媒体资源在所述当前周期内的使用上升指数包括：

从所述特征数据中获取在所述当前周期之前的上一个周期内所述目标媒体资源被所述第三方设备展示的历史特征展示量；

根据所述特征展示量以及所述历史特征展示量确定所述目标媒体资源的所述使用上升指数。

5.根据权利要求3所述的方法，其特征在于，根据所述特征展示量获取所述目标媒体资源在所述当前周期内的热点指数包括：

从所述特征数据中获取在所述当前周期内所述目标媒体资源被展示的总展示量；

根据所述特征展示量以及所述总展示量确定所述目标媒体资源的所述热点指数。

6.根据权利要求1所述的方法，其特征在于，所述从所述目标媒体资源中识别出所述特征数据满足预定条件的热点媒体资源包括：

将所述特征数据传入分类模型，得到与所述目标媒体资源对应的第二特征值，其中，所述分类模型根据获取到的正面事件及负面事件训练得到，所述正面事件包括热点事件，所述负面事件包括非热点事件，所述热点事件与所述热点媒体资源关联；

将所述第二特征值大于第一预定阈值的所述目标媒体资源确定为所述热点媒体资源。

7.根据权利要求6所述的方法，其特征在于，将所述特征数据传入分类模型，得到与所述目标媒体资源对应的第二特征值包括：

对获取到的所述特征数据进行预处理，得到处理后的所述特征数据，其中，所述特征数据包括：所述目标媒体资源在当前周期内被第三方设备展示的特征展示量、所述目标媒体资源在所述当前周期内被展示的总展示量，以及根据所述特征展示量获取到的以下至少一个参考指数：所述目标媒体资源在所述当前周期内的使用上升指数、所述目标媒体资源在所述当前周期内的热点指数；

将处理后的所述特征数据传入所述分类模型，得到所述第二特征值。

8.根据权利要求7所述的方法，其特征在于，所述对获取到的所述特征数据进行预处理，得到处理后的所述特征数据包括：

按照以下公式获取处理后的所述特征数据：

其中，f_t(x)用于表示在所述当前周期t内目标媒体资源x的特征数据，σ用于表示在所述当前周期t内从所述展示记录中确定出的多个目标媒体资源的特征数据的数据标准差，F用于表示所述目标媒体资源x的处理后的所述特征数据。

9.一种数据识别装置，其特征在于，包括：

第一获取单元，用于获取资源提供设备所提供的媒体资源被请求展示的展示记录，所述展示记录的数据来源于盗链打击数据和统计数据；

第一确定单元，用于根据所述展示记录确定对所述资源提供设备所提供的进行盗链的目标媒体资源进行展示的使用记录；

第二获取单元，用于根据所述使用记录获取与所述目标媒体资源匹配的特征数据，其中，所述特征数据用于指示所述目标媒体资源在当前周期内的展示特征；

识别单元，用于从所述目标媒体资源中识别出所述特征数据满足预定条件的热点媒体资源。

10.根据权利要求9所述的装置，其特征在于，所述识别单元还包括：

第一获取模块，用于根据获取到的所述特征数据获取与所述目标媒体资源对应的第一特征值；

第一确定模块，用于根据对所述第一特征值进行排序的排序结果确定所述热点媒体资源。

11.根据权利要求10所述的装置，其特征在于，所述第一获取模块包括：

第一获取子模块，用于从所述特征数据中获取所述目标媒体资源在所述当前周期内被第三方设备展示的特征展示量，作为与所述目标媒体资源对应的所述第一特征值；或者

第二获取子模块，用于从所述特征数据中获取所述目标媒体资源在所述当前周期内被第三方设备展示的特征展示量；第三获取子模块，用于根据所述特征展示量获取以下至少一个参考指数：所述目标媒体资源在所述当前周期内的使用上升指数、所述目标媒体资源在所述当前周期内的热点指数；根据所述特征展示量及获取到的所述参考指数确定与所述目标媒体资源对应的所述第一特征值。

12.根据权利要求11所述的装置，其特征在于，所述第三获取子模块通过以下步骤实现根据所述特征展示量获取所述目标媒体资源在所述当前周期内的使用上升指数：

13.根据权利要求11所述的装置，其特征在于，所述第三获取子模块通过以下步骤实现根据所述特征展示量获取所述目标媒体资源在所述当前周期内的热点指数：

14.根据权利要求9所述的装置，其特征在于，所述识别单元还包括：

传入模块，用于将所述特征数据传入分类模型，得到与所述目标媒体资源对应的第二特征值，其中，所述分类模型根据获取到的正面事件及负面事件训练得到，所述正面事件包括热点事件，所述负面事件包括非热点事件，所述热点事件与所述热点媒体资源关联；

第二确定模块，用于将所述第二特征值大于第一预定阈值的所述目标媒体资源确定为所述热点媒体资源。

15.根据权利要求14所述的装置，其特征在于，所述传入模块还包括：

预处理子模块，用于对获取到的所述特征数据进行预处理，得到处理后的所述特征数据，其中，所述特征数据包括：所述目标媒体资源在当前周期内被第三方设备展示的特征展示量、所述目标媒体资源在所述当前周期内被展示的总展示量，以及根据所述特征展示量获取到的以下至少一个参考指数：所述目标媒体资源在所述当前周期内的使用上升指数、所述目标媒体资源在所述当前周期内的热点指数；

传入子模块，用于将处理后的所述特征数据传入所述分类模型，得到所述第二特征值。

16.根据权利要求15所述的装置，其特征在于，所述预处理子模块通过以下步骤实现对获取到的所述特征数据进行预处理，得到处理后的所述特征数据：

按照以下公式获取处理后的所述特征数据：

17.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，

所述程序运行时执行所述权利要求1至8任一项中所述的方法。

18.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。