CN111061983B

CN111061983B - 一种侵权数据抓取优先级的评估方法及其网络监控系统

Info

Publication number: CN111061983B
Application number: CN201911313587.0A
Authority: CN
Inventors: 朱向军; 杨峰; 汪晴川; 吴冠勇
Original assignee: SHANGHAI GUANYONG INFORMATION TECHNOLOGY CO LTD
Current assignee: SHANGHAI GUANYONG INFORMATION TECHNOLOGY CO LTD
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2024-01-09
Anticipated expiration: 2039-12-17
Also published as: CN111061983A

Abstract

本发明涉及侵权数据抓取优先级的评估方法及其网络监控系统，步骤包括：S1根据搜索结果获取包括：第一兴趣信息I1、第二兴趣信息I2、标题S、作品信息K、关键词信息K1、当前作品优先级wl、当前关键词优先级kl、搜索结果中的页码p和排名ps；S2计算排名因子cp＝1/(p*31+ps)*F且令min(cp)＝1，cp向上取整；其中所述F为调整数，以确保计算结果区间为正数；S3计算作品信息相似度ws＝sim(S，K)，其中sim(S，K)定义为字符串K中按顺序出现在字符串S内的最大字符数与K包含的总字符数之比；S4计算关键词相似度ks＝sim(S，K1)，其中sim(S，K1)定义为字符串K1中按顺序出现在字符串S内的最大字符数与K1包含的总字符数之比；S5相似度带入计算cl＝cp*ks*C1+cp*ws；S6计算影响力ei＝I2+I1*C2；S7计算搜索结果的抓取优先级ap＝wl*C3+kl*C4+cl+C5*In(ei+1)并根据ap数值排序。

Description

一种侵权数据抓取优先级的评估方法及其网络监控系统

技术领域

本发明涉及侵权数据调查技术领域，尤其涉及侵权数据抓取优先级的评估方法及侵权数据网络监控系统。

背景技术

随着版权产业的发展和各类影视、音乐、图片、文学网站/APP的普及，需要对这些网站上发布的内容进行监测，找出其中侵犯著作权的内容，对其作通知下线等处理。为了对大量版权作品持续进行监测，现有技术中提出了利用网络监控技术，对相关作品名等关键词对网站自动发出搜索请求，并在搜索结果中选取较有可能属于侵权的内容，进一步对网站发出播放请求，由此抓取到内容片段，与版权作品内容加以比对，确定其是否构成侵权，从而完成整个侵权数据检测过程。

然而一个存在的问题是，由于互联网数据量始终保持着惊人的膨胀，因此采用上述现有技术进行侵权检测的过程中，在搜索阶段会产生数据巨大的搜索结果，而单位时间内能通过自动发送播放请求，而抓取到的内容片段数量是有限的，因此随着时间推移，单位时间内所能检测到的有效侵权结果将会逐渐下降，除非系统的配置及人员成本对应增加，但这样做显然并不现实，更不经济。

发明内容

本发明的主要目的在于提供一种侵权数据抓取优先级的评估方法，以对侵权搜索阶段的结果进行评估，并根据其构成侵权的可能性大小排序。

为了实现上述目的，根据本发明的第一个方面，提供了一种侵权数据抓取优先级的评估方法，步骤包括：

S1根据搜索结果获取包括：第一兴趣信息I1、第二兴趣信息I2、标题S、作品信息K、关键词信息K1、当前作品优先级wl、当前关键词优先级kl、搜索结果中的页码p和排名ps；

S2计算排名因子cp＝1/(p*31+ps)*F且令min(cp)＝1，cp向上取整；其中该F为调整数，以确保计算结果区间为正数；

S3计算作品信息相似度ws＝sim(S，K)，其中sim(S，K)定义为字符串K中按顺序出现在字符串S内的最大字符数与K包含的总字符数之比；

S4计算关键词相似度ks＝sim(S，K1)，其中sim(S，K1)定义为字符串K1中按顺序出现在字符串S内的最大字符数与K1包含的总字符数之比；

S5相似度带入计算cl＝cp*ks*C1+cp*ws，其中C1为第一常量；

S6计算影响力ei＝I2+I1*C2，其中C2为第二常量；

S7计算搜索结果的抓取优先级ap＝wl*C3+kl*C4+cl+C5*ln(ei+1)，并根据ap数值排序，其中C3、C4、C5分别为第三、四、五常量。

在可能的替换实施方式中，根据本发明的第一个方面，其中步骤S3中，当S包含整个K时，sim(S，K)＝1；其中步骤S4中，当S包含整个K1时，sim(S，K1)＝1。

在可能的替换实施方式中，根据本发明的第一个方面，其中该作品优先级wl为根据第一预设指标，设定wl不超过20的正实数，数值大者优先。

在可能的替换实施方式中，根据本发明的第一个方面，其中该关键词优先级kl为根据第二预设指标，设定kl为不超过50的正实数，数值大者优先。

在可能的替换实施方式中，根据本发明的第一个方面，其中该第一预设指标为根据作品靶向要求预设。

在可能的替换实施方式中，根据本发明的第一个方面，其中该第二预设指标为通过历史侵权情况预设。

在可能的替换实施方式中，根据本发明的第一个方面，其中该第一常量5＜C1＜15，该第二常量500＜C2＜1000，该第三常量300＜C3＜600，该第四常量30＜C4＜60，该第五常量30＜C5＜50。

在可能的替换实施方式中，根据本发明的第一个方面，其中该第一常量C1＝10，该第二常量C2＝1000，该第三常量C3＝500，该第四常量C4＝50，该第五常量C5＝40，，该调整数F＝1000。

在可能的替换实施方式中，根据本发明的第一个方面，其中该第一兴趣信息I1包括：分享数，该第二兴趣信息I2包括：点赞数、阅读数、播放数中的至少两者数目之和。

通过本发明提供的该侵权数据抓取优先级的评估方法，能够有效评估搜索结果的侵权可能性，并加以排序，以供验证，相比现有技术在同等条件下，能有效提高单位时间内抓取有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务。

本发明的另一个目的在于提供一种侵权数据网络监控系统，以对侵权搜索阶段的结果进行评估，并根据其构成侵权的可能性大小排序，以供验证模块依次验证。

为了实现上述目的，根据本发明的第二个方面，提供了一种侵权数据网络监控系统，其包括：搜索模块，优先级评估模块，验证模块，其中该优先级评估模块能够执行侵权数据抓取优先级的评估方法，以对搜索模块给出的搜索结果信息进行优先级评估排序，以供验证模块依次验明。

通过本发明提供的该侵权数据网络监控系统，能够有效的根据搜索模块给出的搜索结果进行侵权可能性评估，并加以排序，以供验证模块验证，相比现有技术在同等条件下，能有效提高验证模块单位时间内抓取到有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的侵权数据抓取优先级的评估方法第一实施例的流程示意图；

图2为本发明的侵权数据网络监控系统的系统结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域的技术人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

(一)

本发明为了能够提高单位时间内抓取有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务，请参阅图1，根据本发明第一实施例，提供了一种侵权数据抓取优先级的评估方法，步骤包括：

步骤S1：根据搜索结果获取包括：第一兴趣信息I1、第二兴趣信息I2、标题S、作品信息K、关键词信息K1、当前作品优先级wl、当前关键词优先级kl、搜索结果中的页码p和排名ps。其中该作品信息K包括：作品名、作者名、作品的网络代称等与作品相关的信息数据，而本实施例以作品名为例进行说明，而另一方面该关键词信息K1包括：关键词、关键句等与关键词相关的信息数据，而本实施例以关键词为例进行说明。

步骤S2：计算排名因子cp＝1/(p*31+ps)*F且令min(cp)＝1，cp向上取整；其中该F为调整数，以确保计算结果区间为正数。

步骤S3：计算作品信息相似度ws＝sim(S，K)，其中sim(S，K)定义为字符串K中按顺序出现在字符串S内的最大字符数与K包含的总字符数之比，当S包含整个K时，sim(S，K)＝1。

例如：

作品名K：《一人之下》

标题S第一形态：冯宝宝一人之下迅雷高清种子；

标题S第二形态：一人下在线播放高清；

作品名K为4个字符，标题S第一形态中都包含，则4/4＝1；标题相似度为1；标题S第二形态中按顺序的包含3个字符，则3/4＝0.75；相似度为0.75。

步骤S4：计算关键词相似度ks，其计算步骤与步骤S3计算原理相仿，该ks＝sim(S，K1)，其中sim(S，K1)定义为字符串K1中按顺序出现在字符串S内的最大字符数与K1包含的总字符数之比，当S包含整个K1时，sim(S，K1)＝1。

步骤S5：相似度带入计算cl＝cp*ks*C1+cp*ws，其中C1为第一常量，其作用主要为确保ks值的权重较高，而具体高出的占比数值，可根据实际情况调整。

步骤S6：计算影响力ei＝I2+I1*C2，其中C2为第二常量，其主要作用为提高第一兴趣信息I1的权重，应位该第一兴趣信息I1数据的影响力定位要远高于其它值数。

如在本优选实施例中，该第一兴趣信息I1包括：分享数，其影响力由于属于对外传播属性数据，因此影响力较高，而该第二兴趣信息I2包括：点赞数、阅读数、播放数中的至少两者数目之和，而本实施例中优选为点赞数、阅读数、播放数三者述目之和，同时该点赞数、阅读数、播放数信息，由于一般仅为当前网站或站点的本地属性信息，因此相比分享数影响力有限。

此外本领域技术人员应当理解的是，该第二兴趣信息I2的内容可根据被检测网站的人气显示模式等，不同手段进行变化设置，而非固定，如知识付费类网站还可以考虑打赏金额数，恶搞类网站还可以考虑差评数等类似显示人气的数据信息；而该第一兴趣信息I1的内容则可根据被检测网站的显示转发传播量级的数据信息等，不同手段进行变化设置，而非固定，如网络红包领取数等显示转发传播量级的数据信息，因此本实施例并未对此进行限制，而上述优选实施方式仅为示例，本领域技术人员应当理解，任何符合上述条件的相关兴趣信息的变化取值方式，皆属于本实施例的揭露范围中。

步骤S7：计算搜索结果的抓取优先级ap＝wl*C3+kl*C4+cl+C5*ln(ei+1)，并根据ap数值排序，其中C3、C4、C5分别为第三、四、五常量。需要说明的是，该C3、C4、C5主要分别对该作品优先级wl，关键词优先级kl，影响力ei(如门户网站、专业网站等网络站点，其本身具有特定领域影响力)的权重占比进行控制，以变根据实际情况进行调整，提高本方案的适应性及灵活性。

其中为了调整该作品优先级wl，以在整体计算方案中体现其贡献的同时，稳定评估结果的准确性，其中该作品优先级wl为根据第一预设指标，即根据作品靶向要求预设，而该作品靶向要求即根据监控者对于该作品侵权检测的紧要程度进行人为设定，以提高该作品被优先检测，并排序在前。如在本实施例中，优选可设定wl不超过20的正实数，数值大者优先，例如对普通作品可取为1，重点作品取为10-20。

其中为了调整该键词优先级kl，以在整体计算方案中体现其贡献的同时，稳定评估结果的准确性，其中该关键词优先级kl为根据第二预设指标，即通过历史侵权情况预设，而该历史侵权情况，即根据监控者对于该作品曾被侵权时所会惯常使用的关键词等进行人为设定，以提高该关键词被优先检测，并排序在前。如在本实施例中，优选可设定kl为不超过50的正实数，数值大者优先。

(二)

本发明为了能够提高单位时间内抓取有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务，根据本发明第二实施例，还提供了一种优选实施方式，其中该侵权数据抓取优先级的评估方法，步骤包括：

步骤S2：计算排名因子cp＝1/(p*31+ps)*1000且令min(cp)＝1，cp向上取整。

例如：

作品名K：《一人之下》

标题S第一形态：冯宝宝一人之下迅雷高清种子；

标题S第二形态：一人下在线播放高清；

步骤S5：相似度带入计算cl＝cp*ks*C1+cp*ws，其中C1为第一常量，且5＜C1＜15。

步骤S6：计算影响力ei＝I2+Ｉ1*C2，其中C2为第二常量，且500＜C2＜1000。

步骤S7：计算搜索结果的抓取优先级ap＝wl*C3+kl*C4+cl+C5*ln(ei+1)，并根据ap数值排序，其中C3、C4、C5分别为第三、四、五常量。

需要说明的是，该C3、C4、C5主要分别对该作品优先级wl，关键词优先级kl，影响力ei(如门户网站、专业网站等网络站点，其本身具有特定领域影响力)的权重占比进行控制，以变根据实际情况进行调整，提高本方案的适应性及灵活性，而在本实施例中，该第三常量优选300＜C3＜600，该第四常量优选30＜C4＜60，该第五常量优选30＜C5＜50。

其中在本优选实施例中，该第一兴趣信息I1包括：分享数，其影响力由于属于对外传播属性数据，因此影响力较高，而该第二兴趣信息I2包括：点赞数、阅读数、播放数中的至少两者数目之和，而本实施例中优选为点赞数、阅读数、播放数三者述目之和，同时该点赞数、阅读数、播放数信息，由于一般仅为当前网站或站点的本地属性信息，因此相比分享数影响力有限。

(三)

本发明为了能够提高单位时间内抓取有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务，根据本发明第三实施例，还提供了一种优选实施方式，其中该侵权数据抓取优先级的评估方法，步骤包括：

例如：

作品名K：《一人之下》

标题S第一形态：冯宝宝一人之下迅雷高清种子；

标题S第二形态：一人下在线播放高清；

步骤S5：相似度带入计算cl＝cp*ks*C1+cp*ws，其中C1为第一常量，且C1＝10。

步骤S6：计算影响力ei＝I2+I1*C2，其中C2为第二常量，且C2＝1000。

需要说明的是，该C3、C4、C5主要分别对该作品优先级wl，关键词优先级kl，影响力ei(如门户网站、专业网站等网络站点，其本身具有特定领域影响力)的权重占比进行控制，以变根据实际情况进行调整，提高本方案的适应性及灵活性，而在本实施例中，该第三常量优选C3＝500，该第四常量优选C4＝50，该第五常量优选C5＝40。

通过本发明上述实施例提供的该侵权数据抓取优先级的评估方法，能够有效评估搜索结果的侵权可能性，并加以排序，以供验证，相比现有技术在同等条件下，能有效提高单位时间内抓取有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务。

(四)

请参阅图2为了实现上述目的，根据本发明的第四实施例，提供了一种侵权数据网络监控系统，其包括：搜索模块，优先级评估模块，验证模块，其中所述搜索模块用于获取包括：URL、第一兴趣信息11、第二兴趣信息I2、标题S、作品信息K、关键词信息K1、当前作品优先级wl、当前关键词优先级kl、搜索结果中的页码p和排名ps等搜索结果信息。

并通过该优先级评估模块执行上述第一至第三实施例中任一的侵权数据抓取优先级的评估方法，以对搜索模块给出的搜索结果信息进行优先级评估并对对应的URL进行排序，以供验证模块依该排列顺序依次验明。

从而通过本发明提供的该侵权数据网络监控系统，能够有效的根据搜索模块给出的搜索结果进行侵权可能性评估，并加以排序，以供验证模块验证，相比现有技术在同等条件下，能有效提高验证模块单位时间内抓取到有效侵权结果的效率，从而更经济可靠的实现高效的网络侵权监控服务。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

此外实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种侵权数据抓取优先级的评估方法，步骤包括：

S2计算排名因子cp=1/(p*31+ps)*F且令min(cp)=1，cp向上取整；其中F为调整数，以确保计算结果区间为正数；

S3计算作品信息相似度ws=sim(S,K)，其中sim(S,K)定义为字符串K中按顺序出现在字符串S内的最大字符数与K包含的总字符数之比；其中当S包含整个K时，sim(S,K)=1；

S4计算关键词相似度ks=sim(S,K1),其中sim(S,K1)定义为字符串K1中按顺序出现在字符串S内的最大字符数与K1包含的总字符数之比；其中当S包含整个K1时，sim(S,K1)=1；

S5相似度带入计算cl=cp*ks*C1+cp*ws，其中C1为第一常量；

S6计算影响力ei=I2+I1*C2，其中C2为第二常量；

S7计算搜索结果的抓取优先级ap=wl*C3+kl*C4+cl+C5*ln(ei+1) 并根据ap数值排序，其中C3、C4、C5分别为第三、四、五常量。

2.根据权利要求1所述的侵权数据抓取优先级的评估方法，其中所述作品优先级wl为根据第一预设指标，设定wl不超过20的正实数。

3.根据权利要求1所述的侵权数据抓取优先级的评估方法，其中所述关键词优先级kl为根据第二预设指标，设定kl为不超过50的正实数。

4.根据权利要求2所述的侵权数据抓取优先级的评估方法，其中所述第一预设指标为根据作品靶向要求预设。

5.根据权利要求3所述的侵权数据抓取优先级的评估方法，其中所述第二预设指标为通过历史侵权情况预设。

6.根据权利要求1所述的侵权数据抓取优先级的评估方法，其中所述第一常量5<C1<15，所述第二常量500<C2<1000，所述第三常量300<C3<600，所述第四常量30<C4<60，所述第五常量30<C5<50。

7.根据权利要求1所述的侵权数据抓取优先级的评估方法，其中所述第一常量C1=10，所述第二常量C2=1000，所述第三常量C3=500，所述第四常量C4=50，所述第五常量C5=40，所述调整数F=1000。

8.根据权利要求1所述的侵权数据抓取优先级的评估方法，其中所述第一兴趣信息I1包括：分享数，所述第二兴趣信息I2包括：点赞数、阅读数、播放数中的至少两者数目之和。

9.一种侵权数据网络监控系统，其包括：搜索模块，优先级评估模块，验证模块，其特征在于，所述优先级评估模块执行如权利要求1至8中任一侵权数据抓取优先级的评估方法，对搜索模块给出的搜索结果信息进行优先级评估排序，以供验证模块依次验明。