CN103605914A

CN103605914A - 一种网络影视资源侵权预测指数的计算方法

Info

Publication number: CN103605914A
Application number: CN201310572083.7A
Authority: CN
Inventors: 班志远
Original assignee: NANJING YUNCHUAN INFORMATION TECHNOLOGY Co Ltd
Current assignee: NANJING YUNCHUAN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2014-02-26
Anticipated expiration: 2033-11-15
Also published as: CN103605914B

Abstract

本发明公开了一种网络影视资源侵权预测指数的计算方法，具体包括如下步骤：S1、获得待分析的影视资源；S2、对每一个影视资源进行分析，提取属性参数；S3、计算每个影视资源在网络中出现时间距离其上映时间的间隔T和每个影视资源的质量指数；S4、将影视资源分成不同的影视内容，并统计每个内容包括的资源总量N_total和盗版资源数量N_piracy；S5、计算未进行盗版检测的影视资源基于自身的侵权预测指数piracy_s=w_t·v_t+w_q·v_q+w_p·v_p；S6、根据侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测。本发明对盗版检测的影视资源进行预处理，提高盗版检测的速度及有效性。

Description

一种网络影视资源侵权预测指数的计算方法

技术领域

本发明涉及一种预测指数的计算方法，更具体的涉及一种网络影视资源侵权预测指数的计算方法，属于计算机数据处理技术领域。

背景技术

随着数字电视技术、数字传输技术、数字多媒体终端技术的迅速发展，网络上影视内容已经成为继即时通信、搜索、音乐、新闻之后的第五大应用。网络影视内容的来源主要分为原创和集成两种。对于原创内容来说，虽然有部分大型视频网站也参与内容创作，但其相对数量还是较少的。目前，视频网站原创内容主要来源于网民主动上传自行拍摄的影视作品；集成内容是指把他人创作的影像内容在其网站上分类汇集起来，供网民选择播放。集成的途径有两条：一是购买版权，二是盗版。由于影视内容的数字化，内容的复制、储存、传播变得更加便利，成本更加低廉，使得影视内容可以被自由地免费复制、传播、共享和使用。这些导致当前网络上影视内容的盗版现象十分广泛，极大地损害了内容提供者的利益和声誉，也使得消费者无法享受到高品质的节目内容。因此，网络反盗版成为迫切需要解决的问题。

反盗版措施主要包括两个方面。首先是防盗版，通过颁布法律法规、采取DVD防拷贝技术（包括已在应用中的三种比较可靠的管理技术，即内容加扰系统（CSS）、模拟信号防护系统（APS）和拷贝管理系统（CGMS）），增加盗版的代价及难度，从而在源头上减少盗版影视内容资源的数量；其次是盗版检测，通过采用先进技术实现对网络影视内容的版权检测，如数字水印，哈希转换技术、内容DNA技术等。

由于数字化影视内容的便于传播性，网络中影视内容的数量相当庞大。上述盗版检测技术用于影视内容识别，在识别力、精确度、实用性与扩展性等方面存在一定的局限性，且检测时间随着影视内容数量的增大而不断增加，不能很好地满足信息安全、版权保护、内容监管等方面日益增长的需求。目前为止，还没有一种识别系统的精确度、稳定性和可扩展性能够达到数量呈爆炸性增长的视频内容的要求。

发明内容

本发明所要解决的技术问题是，克服现有技术的缺点，提供一种网络影视资源侵权预测指数的计算方法，对盗版检测的影视资源进行预处理，提高盗版检测的速度及有效性。

为了解决以上技术问题，本发明提供一种网络影视资源侵权预测指数的计算方法，包括承载网络影视资源的网络服务器和对网络影视资源进行侵权预测指数计算的侵权预测指数计算平台，所述侵权预测指数计算平台与网络服务器通过网络接口进行双向通信，具体包括如下步骤：

S1、侵权预测指数计算平台通过接口在网络服务器中获得待分析的影视资源；

S2、对每一个影视资源进行分析，提取影视资源属性中的资源大小ResourceSize、资源格式ResourceFormat、资源播放时长ResourceLength和资源出版时间ReleaseTime；

S3、根据人工输入的资源上映时间及步骤S2中提取的资源出版时间ReleaseTime，计算每个影视资源在网络中出现时间距离其上映时间的间隔T，所述间隔T以月为单位；

根据步骤S2中提取的资源大小ResourceSize和资源播放时长ResourceLength，计算每个影视资源的质量指数

同时计算最小质量指数Q_min和最大质量指数Q_max；

S4、对每一个影视资源进行分析，提取影视资源属性中的制作人员ContentMaker和参与人员ContentActor，根据提取的制作人员ContentMaker和参与人员ContentActor将影视资源分成不同的影视内容，并通过影视资源属性中的盗版属性统计每个内容包括的资源总量N_total和盗版资源数量N_piracy；

S5、计算未进行盗版检测的影视资源基于自身的侵权预测指数piracy_s=w_t·v_t+w_q·v_q+w_p·v_p，其中，

T为步骤S3中计算得到的资源在网络中出现时间距离其上映时间的间隔；

Q为步骤S3中计算的质量指数，Q_min为步骤S3中计算的最小质量指数，Q_max为步骤S3中计算的最大质量指数；

N_total为步骤S4中提取的每个内容包括的资源总量，N_piracy为步骤S4中提取的每个内容包括的盗版资源数量；w_t、w_q和w_p为设置的权值；

S6、网络服务器根据侵权预测指数计算平台传送的影视资源基于自身的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测。

本发明技术方案的进一步限定为，执行步骤S3后，还包括影视资源过滤步骤，具体为：预设影视资源为盗版的时效性阈值T_t和质量指数阈值Q_t，当步骤S3中计算得到的每个影视资源在网络中出现时间距离其上映时间的间隔T<T_t，和/或每个影视资源的质量指数Q<Q_t时，判定此影视资源为盗版影视资源并进行标识过滤。

进一步地，步骤S5中计算每个影视资源侵权预测指数后，对影视资源进行聚类，并计算影视资源基于聚类的侵权预测指数，步骤S6中，网络服务器根据影视资源基于聚类的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测；上述对影视资源进行聚类，并计算影视资源基于聚类的侵权预测指数的方法包括如下步骤：

Q1、根据步骤S5中计算得到的v_t和v_q计算待分析的影视资源之间的资源粒度距离

D_{r} (R_{1}, R_{2}) = \sqrt{{(v_{t} (R_{1}) - v_{t} (R_{2}))}^{2} + {(v_{q} (R_{1}) - v_{q} (R_{2}))}^{2}},

其中R1和R2为两个影视资源；根据步骤S4中提取的影视资源的制作人员ContentMaker和参与人员ContentActor，计算待分析的影视资源之间的内容粒度距离

其中，C_R={θ₁,θ₂,…}，|C_R1∩C_R2|为影视资源R1和R2共有的相关人员的数目；

Q2、根据步骤Q1中得到的影视资源之间的资源粒度距离和内容粒度距离，计算得到两个影视资源之间的距离为D(R₁,R₂)=λ·D_r(R₁,R₂)+(1-λ)·D_c(R₁,R₂)，其中，λ为预设的权值；

Q3、根据步骤Q2中计算得到的两个影视资源之间的距离对待分析的影视资源根据K-means聚类算法进行聚类，得到k个聚类；

Q4、统计每个聚类中包括的资源总量JN_total和盗版资源数量JN_piracy，计算每个聚类中未进行盗版检测的影视资源的基于聚类的侵权预测指数

piracy_c = \frac{{JN}_{piracy}}{{JN}_{total}} .

进一步地，步骤Q3中所述的K-means聚类算法具体包括如下步骤：

K1、预设待分析的影视资源为资源集合S，在资源集合S中随机选择k个影视资源作为初始中心簇C₁～C_k，上述K个影视资源之间的距离D大于预设值m，其中，距离D为步骤Q2中得到的距离值；

K2、任取资源集合S中的一个资源s，根据步骤Q2中的算法计算资源s到每个初始中心簇C₁～C_k之间的距离d₁～d_k，求得与资源s距离最近的两个初始中心簇C_i和C_j，如果资源s到上述两个距离最近的两个初始中心簇C_i和C_j之间的距离差大于预设的阈值，即|di-dj|>δ，则资源s加入到距离最近的初始中心簇中；否则，加入到两个初始中心簇Ci和Cj中资源数目少的一个中心簇中，如果初始中心簇Ci和Cj中资源数目相同，则随机加入到两个中心簇中的任意一个中；

K3、重复执行步骤K2至遍历资源集合S中的每个资源，得到k个新生的资源簇集合C，遍历资源簇集合C中的影视资源，更新簇中心

其中，v_t和v_q为步骤S5中计算得到，v_u=|C_R1∩C_R2|为步骤Q1中计算得到；

K4、步骤K3中的簇中心无变化时，完成对待分析影视资源的聚类，得到K个聚类。

进一步地，步骤S5中计算影视资源基于聚类的侵权预测指数后计算影视资源的综合侵权预测指数，步骤S6中，网络服务器根据影视资源的综合侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测；影视资源的综合侵权预测指数的计算方法为：piracy=w_s·piracy_s+w_c·piracy_c，其中w_s为影视资源基于自身的侵权预测指数的权值；piracy_s为步骤S3中计算得到的影视资源基于自身的侵权预测指数；w_c为影视资源基于聚类的侵权预测指数的权值；piracy_c为影视资源基于聚类的侵权预测指数。

本发明的有益效果是：本发明提供一种网络影视资源侵权预测指数的计算方法，应用于影视资源盗版检测之前，对网络中的影视内容资源进行预处理，通过计算内容资源的盗版可能性，对于盗版可能性较大的内容资源优先进行盗版检测，从而能够在较短的时间内检测出更多的盗版内容资源，提高盗版检测的速度及有效性；本发明一方面，通过基于侵权预测指数的预处理过程，优先检测盗版可能性较大的影视内容资源，从而提高盗版影视内容资源的检测效率，同时作为盗版检测技术的补充，通过分析影视内容资源侵权预测指数的取值可以辅助发现盗版检测技术误判的内容资源；另一方面，侵权预测指数通过将盗版检测技术得到的检测结果作为反馈来动态修正影视内容资源的侵权预测指数，提高侵权预测指数的可信性。

附图说明

图1为本发明的网络影视资源侵权预测指数的计算方法的流程示意图；

图2为本发明的待分析的影视资源进行过滤后的分布示意图；

图3为本实施例中基于质量指数及时效性的资源过滤后的分布示意图；

图4为本实施中基于质量指数及时效性的过滤准确率的示意图；

图5为本实施例中盗版检测效率对比曲线图；

图6为本实施例中盗版检出率对比曲线图。

具体实施方式

实施例1

本实施例提供的一种网络影视资源侵权预测指数的计算方法，包括承载网络影视资源的网络服务器和对网络影视资源进行侵权预测指数计算的侵权预测指数计算平台，所述侵权预测指数计算平台与网络服务器通过网络接口进行双向通信。

侵权预测指数平台对网络服务器上的影视资源进行侵权指数预测，本实施中进行基于影视内容资源本身的侵权预测指数和不同影视内容资源协同的侵权预测指数。其中，基于影视内容资源本身的侵权预测指数是仅仅根据影视内容资源自身计算得到的，计算依据来源于影视资源自身固有属性以及同内容的多个资源的版权状况；而不同影视内容资源协同的侵权预测指数是由不同内容但相似的多个影视内容资源协同计算得到。综合考虑上述两部分计算得到的侵权预测指数能够较全面的反映网络中的版权状况，具有较高的可信性。此外，影视内容资源的侵权预测指数周期计算，其数值随着网络中盗版影视内容资源的数量变化而实时改变，具有较好的实时性。

本实施例的方法的流程图如图1所示，具体包括如下步骤：

S1、侵权预测指数计算平台通过接口在网络服务器中获得待分析的影视资源。

S2、对每一个影视资源进行分析，提取影视资源属性中的资源大小ResourceSize、资源格式ResourceFormat、资源播放时长ResourceLength和资源出版时间ReleaseTime。

网络上的影视文件有着内容和资源之分，它们之间是一对多的关系。其中，资源特指某个影视文件本身，不同的文件大小，不同的文件格式，甚至不同的文件名称都对应着不同的资源；而内容不指定某个特定的资源，而是泛指一类本质上相同的资源。以影片《霸王别姬》为例，《霸王别姬》可以称为一个内容，它包含了一类本质上相同的资源，如霸王别姬.avi、霸王别姬.rmvb、霸王别姬剪辑版等。

本实施例首先从网络影视内容以及资源自身基本参数出发，选取了若干版权相关的属性，定义了网络影视内容资源的多属性统一描述框架，从而为进一步的基于影视内容资源本身的侵权预测指数以及不同影视内容资源协同的侵权预测指数的计算奠定基础。影视内容资源的多属性定义如表1所示：

表1：

本实施例主要采用上述两类属性（即ResourceAttr和ContentAttr）对网络影视内容资源进行统一描述。其中，ResourceAttr以资源为粒度，用于描述某个影视资源的相关参数，包含ResourceSize、ResourceFormat、ResourceLength、ReleaseTime和PiracyState；ContentAttr则以内容为粒度，用于描述某个影视内容的相关参数，包含ContentMaker和ContentActor。上述各参数的说明如表1所示。

基于上述影视内容资源的多属性定义，对每一个影视资源进行分析，提取影视资源属性中的资源大小ResourceSize、资源格式ResourceFormat、资源播放时长ResourceLength、资源出版时间ReleaseTime和盗版标识PiracyState。

S3、根据人工输入的资源上映时间及步骤S2中提取的资源出版时间ReleaseTime，计算每个影视资源在网络中出现时间距离其上映时间的间隔T，所述间隔T以月为单位。间隔T的计算方法为：时间为Date格式，提取月份方法为：Date.getMonth()。

同时计算最小质量指数Q_min和最大质量指数Q_max。其中，ResourceSize为影视资源占用空间大小，以MB为单位；ResourceLength为影视资源播放时长，以分钟为单位，质量指数表示了网络影视资源单位时间的空间占用情况。因此，质量指数越小，影视资源质量越差。

S4、根据上述时间间隔T和质量指数Q，对待分析的影视资源进行过滤，具体为：预设影视资源为盗版的时效性阈值T_t和质量指数阈值Q_t，当步骤S3中计算得到的每个影视资源在网络中出现时间距离其上映时间的间隔T<T_t，和/或每个影视资源的质量指数Q<Q_t时，判定此影视资源为盗版影视资源并进行标识过滤。

网络中存在一些资源，出现时间在官方的保护期内或是其自身质量低于一定阈值。以上两种情况下，该资源以极大的可能性为盗版。因此，对其进行侵权预测指数计算以及接下来的盗版检测会带来额外的开销，往往是不必要的。需要首先进行一个过滤过程将上述两类资源过滤掉，从而减少网络影视内容资源总量。

网络影视内容资源多属性定义中，ResourceAttr各参数综合起来的每个影视资源的质量指数Q可以表征某个网络影视资源的质量，如在相同格式以及相同播放时长条件下，影视资源所占用的空间越大，则质量越好，反之亦然。

另外，ReleaseTime可以表征影视资源的时效性。一部新电影在院线上映时出于版权保护考虑往往会存在一段时间的保护期，一般情况下该保护期为一个月。在此保护期内网络上是不会有正版资源发行的。因此，本专利定义T为某资源在网络中的出现时间距离其上映日期的间隔。接下来根据该资源质量指数及该资源距离上映日期的间隔对网络中的资源进行过滤，过滤的结果如图2所示，区域1内的影视资源被判定为盗版影视资源，直接被过滤，不参与后续的分析及盗版检测。图2中，横坐标为影视资源在网络中出现的时间距离其上映日期的间隔，以月为单位；纵坐标为影视资源的质量指数。T_t为影视资源为盗版的时效性阈值，本实施例中，取值为1；Q_t为影视资源为盗版的质量指数阈值。不同的资源格式由于编码原因，其质量指数阈值存在一定的差别，与影视资源格式ResourceFormat有关系，其对应关系如表2所示：

表2：

影视资源格式	影视资源质量阈值
		AVI	6
RMVB	3
		MKV	5

当Q<Q_t时，即某影视资源质量指数低于其阈值，该影视资源质量过差，则认定该资源为盗版；若T<T_t，即网络上某影视资源在保护期内出现，则该影视资源认定为盗版资源。基于以上两个假设，图2中区域1内的影视资源被判定为盗版影视资源。对于该部分资源，不再进行侵权预测指数计算，也不会进行相应的盗版检测。通过该过滤过程，减少了参与侵权预测指数计算及盗版检测的影视资源的数量，从而大大减小了时间复杂度。

S5、对每一个影视资源进行分析，提取影视资源属性中的制作人员ContentMaker和参与人员ContentActor，根据提取的制作人员ContentMaker和参与人员ContentActor将影视资源分成不同的影视内容，并通过影视资源属性中的盗版属性统计每个内容包括的资源总量N_total和盗版资源数量N_piracy。

资源属性中包含盗版的标识，默认标记为正版。通过后续步骤中基于侵权指数的预处理，进而采用盗版检测技术判定该资源为盗版时，将其资源属性中的盗版标识标记为盗版。通过实时统计某个内容所包含资源的盗版标识标记为盗版的数目得到盗版资源的数量。因此，盗版资源数量初始情况下为0，随系统运行动态增加。

S6、计算未进行盗版检测的影视资源的侵权预测指数。

本实施例中，影视资源的侵权预测指数从三个方面的任何一种进行计算：

（1）基于影视资源自身的侵权预测指数的计算

对于上述过滤过程后保留下来的影视内容资源需要进一步进行侵权预测指数的计算。侵权预测指数为一位于0，1之间的数值。侵权预测指数越大，表明该资源为盗版的可能性越大。根据资源的质量及其距离上映日期时间间隔计算其侵权预测指数。对于侵权预测指数，本实施例有如下三个假设：①资源质量越差，盗版可能性越大，侵权预测指数相应越高。②资源在网络上出现时间距离上映时间间隔越小，资源热度越大，盗版可能性越大，侵权预测指数相应越高。③资源对应内容的盗版比例越大，该资源的盗版可能性越大，侵权预测指数相应越高。据此，侵权预测指数计算公式为:piracy_s=w_t·v_t+w_q·v_q+w_p·v_p,其中，v_t为资源时效性的度量，v_q为资源质量的度量，v_q为资源对应内容的盗版比例，w_t、w_q和w_p为各参数对应的权值，根据经验设置，与具体的网络环境有关，常用的权值设置为：wt=0.3，wq=0.4，wp=0.3。

同时为避免不同参数间数量级的差异，需要对其进行归一化操作，将其对应于0，1间的数值。

资源时效性的度量

其中，v_t∈[0,1],T>1，T为步骤S3中计算得到的资源在网络中出现时间距离其上映时间的间隔，以月为单位。

资源质量的度量其中，v_q∈[0,1],Q为步骤S3中计算的资源的质量指数，Q_min为步骤S3中计算的所有资源中质量指数的最小值，Q_max为步骤S3中计算的所有资源中质量指数的最大值。

资源对应内容的盗版比例

其中，N_piracy为步骤S4中提取的资源对应内容的盗版资源数量，N_total为步骤S4中提取的资源对应内容的资源总量。

（2）基于影视资源聚类的侵权预测指数的计算

其实，不同的盗版影视内容资源间存在一定的相似性。如大多数盗版影视内容资源的质量都相对较差。另外，某导演或演员出演的影视内容由于受欢迎度相近，具有相似的观众群体，因此同导演或同演员的影视内容资源具有相似的盗版可能性。通过采用多个属性对影视内容资源进行统一描述，并据此计算各影视内容资源间的相似性，将相似的资源聚类在一起，进一步以聚类中盗版资源占资源总量的比例生成聚类中各资源的侵权预测指数。

本实施例采取K-means聚类算法对网络中影视资源进行聚类。K-means算法以距离来衡量相似度，距离越小，相似度越大。

对影视资源进行聚类，并计算影视资源基于聚类的侵权预测指数，具体方法为：

Q1、实现聚类需要首先计算各影视资源间的距离。本实施例中资源间距离的计算同时考虑ResourceAttr以及ContentAttr两类属性。

对于ResourceAttr，采用v_t及v_q来计算影视资源间ResourceAttr相关的距离，认为两个资源间的质量指数差别越大，在网络中出现时间相聚越远，资源间的差别越大，距离越大。

待分析的影视资源之间的资源粒度距离

D_{r} (R_{1}, R_{2}) = \sqrt{{(v_{t} (R_{1}) - v_{t} (R_{2}))}^{2} + {(v_{q} (R_{1}) - v_{q} (R_{2}))}^{2}},

其中R1和R2为两个影视资源。

对于ContentAttr，通过计算影视资源的制作人员ContentMaker和参与人员ContentActor的差异来计算影视资源间ContentAttr相关的距离，认为两个资源对应内容的重合度越差，资源间的差别越大，距离越大。每个资源的ContentAttr属性由集合表示，即C_R={θ₁,θ₂,…}，该集合表示某影视内容的相关人员的集合，集合中的元素为该影视内容相关的制作人员（ContentMaker）及参与人员（ContentActor）。待分析的影视资源之间的内容粒度距离：

其中，|C_R1∩C_R2|为影视资源R1和R2共有的相关人员的数目。

Q2、根据步骤Q1中得到的影视资源之间的资源粒度距离和内容粒度距离，计算得到两个影视资源之间的距离为D(R₁,R₂)=λ·D_r(R₁,R₂)+(1-λ)·D_c(R₁,R₂)，其中，λ为预设的权值。权值根据经验设置，与具体的应用环境有关。系统提供自定义入口，用户可根据实际需求自行设置。默认的权值设置为：λ=0.6。

Q3、根据步骤Q2中计算得到的两个影视资源之间的距离对待分析的影视资源根据K-means聚类算法进行聚类，得到k个聚类。

所述的K-means聚类算法具体包括如下步骤：

K1、预设待分析的影视资源为资源集合S，在资源集合S中随机选择k个影视资源作为初始中心簇C1～Ck，上述k个影视资源之间的距离D大于预设值m，其中，距离D为步骤Q2中得到的距离值。初始影视资源的数量k，系统提供自定义入口，用户可根据实际资源数量自行定制，默认值为10。预设值m系统也提供自定义入口，用户可根据实际系统性能需求自行定制，使得k个初始中心相对分散。

K2、任取资源集合S中的一个资源s，根据步骤Q2中的算法计算资源s到每个初始中心簇C1～Ck之间的距离d1～dk，求得与资源s距离最近的两个初始中心簇Ci和Cj，如果资源s到上述两个距离最近的两个初始中心簇Ci和Cj之间的距离差大于预设的阈值，即|di-dj|>δ，则资源s加入到距离最近的初始中心簇中；否则，加入到两个初始中心簇Ci和Cj中资源数目少的一个中心簇中，如果初始中心簇Ci和Cj中资源数目相同，则随机加入到两个中心簇中的任意一个中。本实施例中，阈值δ为10^-3。

K3、重复执行步骤K2至遍历资源集合S中的每个资源，得到k个新生的资源簇集合C，遍历资源簇集合C中的影视资源，更新簇中心其中，v_t和v_q为步骤S5中计算得到，v_u=|C_R1∩C_R2|为步骤Q1中计算得到。

实现上述K-means聚类算法的软件代码为：

Q4、通过影视资源属性中的盗版属性统计每个聚类中包括的资源总量JN_total和盗版资源数量JN_piracy，计算每个聚类中未进行盗版检测的影视资源的基于聚类的侵权预测指数

影视资源所处聚类中盗版资源的比例越大，表明与该资源相似的资源存在较为普遍的盗版情况。因此，该资源的盗版可能性也较大，侵权预测指数相应越大。

（3）基于影视资源综合信息的侵权预测指数的计算

结合基于影视资源自身的侵权预测指数以及基于影视资源聚类的侵权预测指数，得到资源的综合侵权预测指数。影视资源的综合侵权预测指数的计算方法为：piracy=w_s·piracy_s+w_c·piracy_c，其中w_s为影视资源基于自身的侵权预测指数的权值；piracy_s为步骤S3中计算得到的影视资源基于自身的侵权预测指数；w_c为影视资源基于聚类的侵权预测指数的权值；piracy_c为影视资源基于聚类的侵权预测指数。

S7、网络服务器根据侵权预测指数计算平台传送的影视资源的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测。

当侵权预测指数计算平台只计算基于影视资源自身的侵权预测指数时，侵权预测指数计算平台将基于影视资源自身的侵权预测指数传送至网络服务器，网络服务器根据基于影视资源自身的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测。

当侵权预测指数计算平台只计算基于影视资源聚类的侵权预测指数时，侵权预测指数计算平台将基于影视资源聚类的侵权预测指数传送至网络服务器，网络服务器根据基于影视资源聚类的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测。

当侵权预测指数计算平台只计算基于影视资源综合信息的侵权预测指数时，侵权预测指数计算平台将基于影视资源综合信息的侵权预测指数传送至网络服务器，网络服务器根据基于影视资源综合信息的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测。

为验证上述方法的有效性，本实施例在网络服务器中随机选取10个影视内容，针对每个影视内容选取100个资源，共计10*100=1000个资源。为实现验证，该1000个资源的版权状态已知。

（1）根据提出的多属性统一描述框架对所有资源进行统一描述，计算每个资源的侵权预测指数并计算每个资源在网络中出现时间距离上映日期的间隔，并据此对资源进行过滤，得到的基于质量指数及时效性的影视资源过滤图如图3所示。图3中，区域2内共有涉及6个影视内容的25个资源被认定为盗版，区域3内的影视内容为待分析的数据。根据已知的资源版权状态，我们针对每个内容统计过滤出的资源确实为盗版的数目，计算本专利提出的过滤方法的准确性，基于质量指数及时效性的过滤准确率如图4所示，本过滤方法的准确性基本都在100%，不过也存在一定的误判率，图5中对于内容5的误判率为40%。误判的原因来源于过滤过程中资源时效性阈值的取值，该资源的院线上映期较短，正版资源在网络中发布时间较早。这种情况可以调低时效性阈值，时效性阈值越低，过滤准确性越高，过滤效果越差，时效性阈值越高，过滤效果越好，但准确性相对较低。

（2）接下来就需要计算基于影视资源自身的侵权预测指数以及基于影视资源聚类的侵权预测指数，然后计算基于影视资源综合信息的侵权预测指数。最终将得到的基于影视资源综合信息的侵权预测指数传送至网络服务器，网络服务器对资源进行降序排序，并依次进行盗版检测。传统的方法没有根据资源盗版可能性大小进行排序，而是按照资源获取顺序进行盗版检测。

本实施例中定义了盗版检测效率（E_chk），

本实施例的盗版检测方法与传统的盗版检测方法随时间的盗版检测效率对比如图5所示，曲线4为本方法预处理之后对盗版软件的检测效率，曲线5为传统方法对盗版软件的检测效率，由图5可以看出，本发明的方法在检测初期可以获得非常高的盗版检测效率，随着时间推移，检测成功率逐渐降低，但仍然高于传统方法，而传统的方法，其检测效率均处在一个较低的水平。

另外，本专利定义了盗版检出率（p_chk），

本实施例的盗版检测方法与传统的盗版检测方法随时间的盗版检出率对比如图6所示，曲线6为本发明预处理之后对盗版软件的检出率，曲线7为传统方法对盗版软件的检出率，由图6可以看出，本发明的方法在t时刻检测出全部盗版资源的90%。

本发明的方法采取计算侵权预测指数对影视资源进行预处理，优化盗版检测的顺序，提高了盗版检测的效率和检出率。盗版检测所需时间与所采取的具体的盗版检测技术有关，这里将每检测200个影视资源所需时间定义为t₂₀₀。对于两种方法的检测效率及检出率，具体对比数据如表3所示。本发明的方法具有较高的检测效率及检出率，检测出所有盗版资源所用时间比传统方法减少近50%。

表3：

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种网络影视资源侵权预测指数的计算方法，其特征在于，包括承载网络影视资源的网络服务器和对网络影视资源进行侵权预测指数计算的侵权预测指数计算平台，所述侵权预测指数计算平台与网络服务器通过网络接口进行双向通信，具体包括如下步骤：

同时计算最小质量指数Q_min和最大质量指数Q_max；

2.根据权利要求1所述的一种网络影视资源侵权预测指数的计算方法，其特征在于，执行步骤S3后，还包括影视资源过滤步骤，具体为：预设影视资源为盗版的时效性阈值T_t和质量指数阈值Q_t，当步骤S3中计算得到的每个影视资源在网络中出现时间距离其上映时间的间隔T<T_t，和/或每个影视资源的质量指数Q<Q_t时，判定此影视资源为盗版影视资源并进行标识过滤。

3.根据权利要求1所述的一种网络影视资源侵权预测指数的计算方法，其特征在于，步骤S5中计算每个影视资源侵权预测指数后，对影视资源进行聚类，并计算影视资源基于聚类的侵权预测指数，步骤S6中，网络服务器根据影视资源基于聚类的侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测；上述对影视资源进行聚类，并计算影视资源基于聚类的侵权预测指数的方法包括如下步骤：

D_{r} (R_{1}, R_{2}) = \sqrt{{(v_{t} (R_{1}) - v_{t} (R_{2}))}^{2} + {(v_{q} (R_{1}) - v_{q} (R_{2}))}^{2}},

其中R1和R2为两个影视资源；根据步骤S4中提取的影视资源的制作人员ContentMaker和参与人员ContentActor，计算待分析的影视资源之间的内容粒度距离其中，C_R={θ₁,θ₂,…}，为影视内容的相关人员集合，|C_R1∩C_R2|为影视资源R1和R2共有的相关人员的数目；

4.根据权利要求3所述的一种网络影视资源侵权预测指数的计算方法，其特征在于，步骤Q3中所述的K-means聚类算法具体包括如下步骤：

5.根据权利要求3所述的一种网络影视资源侵权预测指数的计算方法，其特征在于，步骤S5中计算影视资源基于聚类的侵权预测指数后计算影视资源的综合侵权预测指数，步骤S6中，网络服务器根据影视资源的综合侵权预测指数对影视资源进行降序排序后，依次对影视资源进行盗版检测；影视资源的综合侵权预测指数的计算方法为：piracy=w_s·piracy_s+w_c·piracy_c，其中w_s为影视资源基于自身的侵权预测指数的权值；piracy_s为步骤S3中计算得到的影视资源基于自身的侵权预测指数；w_c为影视资源基于聚类的侵权预测指数的权值；piray_c为影视资源基于聚类的侵权预测指数。