CN106547780A - 文章转载量的统计方法及装置 - Google Patents
文章转载量的统计方法及装置 Download PDFInfo
- Publication number
- CN106547780A CN106547780A CN201510605466.9A CN201510605466A CN106547780A CN 106547780 A CN106547780 A CN 106547780A CN 201510605466 A CN201510605466 A CN 201510605466A CN 106547780 A CN106547780 A CN 106547780A
- Authority
- CN
- China
- Prior art keywords
- article
- cryptographic hash
- reprinted
- similarity
- websites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种文章转载量的统计方法及装置。其中,该方法包括:获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;获取预先设定的且包含在目标网站所发布的文章中的参考句;根据获取的第一哈希值、第二哈希值和参考句判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章;在判断结果为是时,统计目标网站所发布的文章的转载量。本发明解决了由于仅仅通过哈希值来统计文章转载量,则可能导致某些文章由于被遗漏而无法准确统计出其真实的转载情况的技术问题。
Description
技术领域
本发明涉及互联网领域,具体而言,涉及一种文章转载量的统计方法及装置。
背景技术
文章转载量是指文章发布后,被其他网站转载的次数。政府部门一般会要求下级部门的网站转载其上级部门的网站的发文。比如,某天央网(www.gov.cn)发布了一篇重要的政策性文章,此后,如果中央想在一定程度上了解各级政府对该政策的宣传情况,则可以通过统计各级政府的网站对该文章的转载情况来了解。
目前,文章转载量的统计方案主要有三种:一种是人工浏览各级政府的网站,统计其是否转载了相关文章,此方法速度慢、耗时长,统计时容易发生遗漏;另一种是使用搜索引擎搜索相关文章,此方法虽然速度快,但是由于搜索引擎的搜索结果列表可能会掺杂非常多的需要人工识别才能剔除的不相关的网站内容,或者可能会遗漏一些根本没有被搜索引擎收录的网站内容,因此会影响到最终的统计结果的准确度;再一种是直接对比某个页面上转载的文章的哈希值与目标原文的哈希值,当其两个哈希值的相似度大于一定程度时,认为该页面上的文章正是目标原文的转载文章,虽然这种方法减少了人工识别成本,并且在一定程度上提高了统计文章转载量的统计速度和准确度,但是由于某些门户网站如政府门户网站在转载其上级部门的网站上的政策性文章时,一般会附加一份自己的发文,此时如果仅仅通过哈希值来统计文章转载量,则可能导致某些文章由于被遗漏而无法准确统计出其真实的转载情况。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文章转载量的统计方法及装置,以至少解决由于仅仅通过哈希值来统计文章转载量,则可能导致某些文章由于被遗漏而无法准确统计出其真实的转载情况的技术问题。
根据本发明实施例的一个方面,提供了一种文章转载量的统计方法,包括:获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;获取预先设定的且包含在上述目标网站所发布的文章中的参考句;根据获取的上述第一哈希值、上述第二哈希值和上述参考句判断上述其他网站所转载的文章是否为上述目标网站所发布的文章的转载文章;在判断结果为是时,统计上述目标网站所发布的文章的转载量。
进一步地,根据获取的上述第一哈希值、上述第二哈希值和上述参考句判断上述其他网站所转载的文章是否为上述目标网站所发布的文章的转载文章包括:确定上述其他网站所转载的文章的上述第二哈希值与上述目标网站所发布的文章的上述第一哈希值的相似度;判断上述相似度是否大于等于第一相似度阈值;在上述相似度大于等于上述第一相似度阈值时,确定上述其他网站所转载的文章为上述目标网站所发布的文章的转载文章。
进一步地,根据获取的上述第一哈希值、上述第二哈希值和上述参考句判断上述其他网站所转载的文章是否为上述目标网站所发布的文章的转载文章还包括:在上述相似度小于上述第一相似度阈值时,进一步判断上述相似度是否大于等于第二相似度阈值,其中,上述第二相似度阈值小于上述第一相似度阈值;在上述相似度小于上述第一相似度阈值且大于等于上述第二相似度阈值时,检测上述其他网站所转载的文章中是否完全包含上述参考句;在检测到上述其他网站所转载的文章中完全包含上述参考句时,确定上述其他网站所转载的文章为上述目标网站所发布的文章的转载文章。
进一步地,确定上述其他网站所转载的文章的上述第二哈希值与上述目标网站所发布的文章的上述第一哈希值的相似度包括:由上述目标网站所发布的文章的上述第一哈希值和上述其他网站所转载的文章的上述第二哈希值计算对应的汉明距离;由上述汉明距离和预先设定的哈希值的位数或哈希值的长度计算上述相似度。
进一步地,获取文章的哈希值的步骤包括:通过网络爬虫爬取目标URL对应的页面内容;从上述页面内容中解析出目标文章的正文部分;计算上述正文部分的哈希值,并将计算结果作为上述目标文章的哈希值。
进一步地,通过网络爬虫爬取目标URL对应的页面内容包括:通过网络爬虫爬取上述其他网站上的所有URL对应的所有页面内容,并将爬取的上述所有页面内容存储在队列中。
根据本发明实施例的另一方面,还提供了一种文章转载量的统计装置,包括:第一获取单元,用于获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;第二获取单元,用于获取预先设定的且包含在上述目标网站所发布的文章中的参考句;判断单元,用于根据获取的上述第一哈希值、上述第二哈希值和上述参考句判断上述其他网站所转载的文章是否为上述目标网站所发布的文章的转载文章;统计单元,用于在判断结果为是时,统计上述目标网站所发布的文章的转载量。
进一步地,上述判断单元包括:第一确定模块,用于确定上述其他网站所转载的文章的上述第二哈希值与上述目标网站所发布的文章的上述第一哈希值的相似度;第一判断模块,用于判断上述相似度是否大于等于第一相似度阈值;第二确定模块,用于在上述相似度大于等于上述第一相似度阈值时,确定上述其他网站所转载的文章为上述目标网站所发布的文章的转载文章。
进一步地,上述判断单元还包括:第二判断模块,用于在上述相似度小于上述第一相似度阈值时,进一步判断上述相似度是否大于等于第二相似度阈值,其中,上述第二相似度阈值小于上述第一相似度阈值;检测模块,用于在上述相似度小于上述第一相似度阈值且大于等于上述第二相似度阈值时,检测上述其他网站所转载的文章中是否完全包含上述参考句;第三确定模块,用于在检测到上述其他网站所转载的文章中完全包含上述参考句时,确定上述其他网站所转载的文章为上述目标网站所发布的文章的转载文章。
进一步地,上述第一确定模块包括:第一计算子模块,用于由上述目标网站所发布的文章的上述第一哈希值和上述其他网站所转载的文章的上述第二哈希值计算对应的汉明距离;第二计算子模块,用于由上述汉明距离和预先设定的哈希值的位数或哈希值的长度计算上述相似度。
进一步地,上述装置还包括:第三获取单元,用于获取文章的哈希值,上述第三获取单元包括:爬取模块,用于通过网络爬虫爬取目标URL对应的页面内容;解析模块,用于从上述页面内容中解析出目标文章的正文部分;计算模块,用于计算上述正文部分的哈希值,并将计算结果作为上述目标文章的哈希值。
进一步地,上述爬取模块还用于通过网络爬虫爬取上述其他网站上的所有URL对应的所有页面内容,并将爬取的上述所有页面内容存储在队列中。
在本发明实施例中,采用对比文章的哈希值来判断文章转载方式,通过获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;获取预先设定的且包含在目标网站所发布的文章中的参考句;根据获取的第一哈希值、第二哈希值和参考句判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章;在判断结果为是时,统计目标网站所发布的文章的转载量,达到了自动、快速识别转载文章并统计转载量并减少误统计或遗漏统计的目的,从而实现了减少人工识别成本,提高统计文章转载量的统计速度和准确度的技术效果,进而解决了由于仅仅通过哈希值来统计文章转载量,则可能导致某些文章由于被遗漏而无法准确统计出其真实的转载情况的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明可选实施例的一种文章转载量的统计方法的流程图;以及
图2是根据本发明可选实施例的一种文章转载量的统计装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文章转载量的统计方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明可选实施例的一种文章转载量的统计方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;
步骤S104,获取预先设定的且包含在目标网站所发布的文章中的参考句;
步骤S106,根据获取的第一哈希值、第二哈希值和参考句判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章;
步骤S108,在判断结果为是时,统计目标网站所发布的文章的转载量。
实施时,对于每一篇由其他网站所转载的文章(以下称为待统计文章),如果要判断该文章是否为目标网站所发布的目标文章(即原始文章,以下简称原文)的转载文章,则需要先通过计算分别获取原文的哈希值(即第一哈希值)和该文章的哈希值(即第二哈希值),以及预先设定的且包含在目标网站所发布的文章中的参考句,再根据这些哈希值的大小或相似度等指标并结合参考句来判断上述的待统计文章是否是上述的原文的转载文章。如果是,则记录该待统计文章的相关信息,如其所对应的页面的URL信息等,进而根据记录内容统计目标网站所发布的文章即上述的原文的转载量。
也即,通过对比两篇文章的哈希值,并从原文中提取出几个完整的句子作为参考句,同时检查目标页面中的待统计文章中是否包含已经提取出的参考句,若两者哈希值匹配达到一定程度,同时目标页面中完全包含从原文中提取的所有参考句,则可以认为是转载。哈希值越高说明两篇文章的匹配度越大,本发明通过放宽哈希值匹配的要求,增加关键句子(如参考句)匹配,可以提高判断的准确度,尤其适用于下级单位在转载文章时附加自己政策解读的情况。
此外,在本发明实施例中,在判断结果为否时,可以不做任何处理,即不将由其他网站所转载的当前文章统计为目标网站所发布的文章的转载量。
通过上述步骤,通过文章的哈希值与参考句的结合来判断某篇文章是不是原文的转载文章,进而统计原文的转载量,可以克服仅仅通过文章的哈希值统计原文的转载量时,由于对各哈希值的阈值或者对两个哈希值的相似度的阈值限制过宽而导致的统计结果的准确度低的缺陷,实现减少人工识别成本,提高统计文章转载量的统计速度和准确度的技术效果。
另外,需要说明的是,此处的哈希值(即表示为hash)一般被翻译做“散列”,也有直接音译为“哈希”的,它是用于将任意长度的输入值(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出值,该输出值就是散列值,也即哈希值。这种转换是一种压缩映射。换言之,散列值的空间通常远小于输入值的空间,不同的输入值可能会散列成相同的输出值,因此不可能从散列值来唯一确定输入值。简单的说,Hash就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
可选地,根据获取的第一哈希值、第二哈希值和参考句判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章包括:
S2,确定其他网站所转载的文章的第二哈希值与目标网站所发布的文章的第一哈希值的相似度;
S4,判断相似度是否大于等于第一相似度阈值;
S6,在相似度大于等于第一相似度阈值时,确定其他网站所转载的文章为目标网站所发布的文章的转载文章。
使用这两个哈希值的相似度来确定待统计文章是否是原文的转载文章,与直接根据原文的哈希值和待统计文章的哈希值的大小是否相等来确定待统计文章是否是原文的转载文章相比,可以防止统计时出现遗漏统计的情况,如与原文相比,仅仅存在形式上的差别而在内容实际上是相同的待统计文章被漏统计的情况等。
另外,此处的相似度阈值可以根据实际的统计需要和工作经验预先设定。例如,假设第一相似度阈值为0.90,如果原文A与待统计文章B的哈希值的相似度X满足X>0.90,则可以认为B是对A的转载;此时记录B的信息,进而按照本发明所提供的方法继续处理下一页面中的待统计文章。
在本发明实施例中,由于先设定一个数值较大的相似度阈值(如0.90),因此,在实际操作时,只要两篇文章的相似度大于这个数值较大的相似度阈值,就可以忽略对参考句的检测步骤,直接认为待统计文章是原文的转载文章,加快了统计速率。
进一步可选地,根据获取的第一哈希值、第二哈希值和参考句判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章还包括:
S8,在相似度小于第一相似度阈值时,进一步判断相似度是否大于等于第二相似度阈值,其中,第二相似度阈值小于第一相似度阈值;
S10,在相似度小于第一相似度阈值且大于等于第二相似度阈值时,检测其他网站所转载的文章中是否完全包含参考句;
S12,在检测到其他网站所转载的文章中完全包含参考句时,确定其他网站所转载的文章为目标网站所发布的文章的转载文章。
与前述实施方式相比,在本实施方式中,设置了一大一小两个相似度阈值,其中,若两篇文章的哈希值的相似度大于较大的相似度阈值时,直接认为待统计文章是原文的转载文章,并统计之;若两篇文章的哈希值的相似度介于较大的相似度阈值和较小的相似度阈值之间时,则需要借助参考句来确定待统计文章是否是原文的转载文章。例如,第一相似度阈值可以设置为0.90,第二相似度阈值可以设置为0.80。
通过本发明实施例,既可以防止由于相似度阈值设置过小而影响统计效率,又可以防止由于相似度阈值设置过大而影响统计结果的准确度。
可选地,确定其他网站所转载的文章的第二哈希值与目标网站所发布的文章的第一哈希值的相似度包括:
S14,由目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值计算对应的汉明距离;
S16,由汉明距离和预先设定的哈希值的位数或哈希值的长度(即可用HashSide表示)值计算相似度。
具体地,可以通过以下公式计算上述两个哈希值的相似度:X=(HashSide-D)/HashSide。其中,X表示相似度;HashSide即为Hash的位数或长度,如32为或64位等,实际计算时,HashSide值可以根据待统计文章的文章数量等需求预先设置;D表示汉明距离。使用汉明距离和HashSide并根据上述公式计算任意两个HashSide值的相似度,可以简化计算过程,提高计算效率和计算结果的准确度。
进一步地,汉明距离是指两个等长字符串在对应位置上所出现的不同字符的个数。换言之,它就是将一个字符串变换成另外一个等长度字符串时所需要替换的字符的个数。例如:1011101与1001001之间的汉明距离是2;2143896与2233796之间的汉明距离是3;"toned"与"roses"之间的汉明距离是3。
可选地,获取文章的哈希值的步骤包括:
S18,通过网络爬虫爬取目标URL对应的页面内容;
S20,从页面内容中解析出目标文章的正文部分;
S22,计算正文部分的哈希值,并将计算结果作为目标文章的哈希值。
需要说明的时,此处,上述获取文章的哈希值的步骤可以适用于获取原文和待统计文章的哈希值。由于特定的原文往往只是一篇文章,而该原文的转载文章则可以不计其数,因此,获取这两类文章(即原文和转载文章)的哈希值的过程可以略有不同。
例如,获取原文的哈希值的过程如下:先获取原文的URL(即,统一资源定位符)地址,并设置网络爬虫的种子信息和层级信息,再由网络爬虫根据种子信息和层级信息爬取原文的URL地址所对应的页面内容,然后根据预先设定的正文标签或者正文关键字符从页面内容中解析出原文的正文部分,进而通过调用哈希接口函数或编程的方式计算该正文部分的哈希值,并将计算结果作为原文的哈希值。
再如,获取转载文章的哈希值的过程如下:先获取需要统计转载数据的网站地址列表,并设置网络爬虫的种子信息和层级信息,再由网络爬虫根据种子信息和层级信息爬取上述地址列表中所有页面的页面内容,并将爬取的页面内容保存在队列、和/或数据库,和/或其他存储系统中,以存储在队列中为例,计算各页面的转载文章的哈希值时,需要从队列中逐次提取所爬取的每个页面的页面内容,并根据预先设定的正文标签或者正文关键字符从中解析出转载文章的正文部分,进而通过调用哈希接口函数或编程的方式计算该正文部分的哈希值,并将计算结果作为该篇转载文章的哈希值。需要说明的是,每次从队列中提取所爬取的页面的页面内容之前,可以先判断队列中的数据已被取尽。如果其中的数据已经被取尽,则结束程序;如果其中的数据没有被取尽,则按照上述逻辑继续执行程序。
通过本发明实施例,一方面,使用网络爬虫技术,可以按照预设的层级信息进行相应深度的爬取操作,以防止获取的页面内容不全面而导致统计结果不准确;另一方面,采用计算文章的正文部分的哈希值代替计算文章的全文部分的哈希值的方式,可以防止转载文章非正文部分的由于出现微小改变而影响统计结果的准确度。
可选地,通过网络爬虫爬取目标URL对应的页面内容包括:
S24,通过网络爬虫爬取其他网站上的所有URL对应的所有页面内容,并将爬取的所有页面内容存储在队列中。
由于队列属于缓存系统,因此,使用队列缓存页面内容时的速度快,可以提高缓存效率,进而提高文章转载量的统计速度,但是掉电后,队列中的缓存数据会丢失,这样,如果系统在实施本发明实施例的中途掉电,则在重启后,需要重新爬去相应的页面内容,才能继续统计文章转载量。而如果将页面内容存储在数据库中,则可以防止其由于掉电而丢失,但是此时会影响数据的存储速度,进而影响统计文章转载量的效率。
实施例2
根据本发明实施例,提供了一种文章转载量的统计装置的装置实施例。
图2是根据本发明可选实施例的一种文章转载量的统计装置的示意图,如图2所示,该装置包括:第一获取单元202、第二获取单元204、判断单元206和统计单元208。第一获取单元202,用于获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;第二获取单元204,用于获取预先设定的且包含在目标网站所发布的文章中的参考句;判断单元206,用于根据获取的第一哈希值、第二哈希值和参考句判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章;统计单元208,用于在判断结果为是时,统计目标网站所发布的文章的转载量。
实施时,对于每一篇由其他网站所转载的文章(以下称为待统计文章),如果要判断该文章是否为目标网站所发布的目标文章(即原始文章,以下简称原文)的转载文章,则需要先通过计算分别获取原文的哈希值和该文章的哈希值,以及预先设定的且包含在目标网站所发布的文章中的参考句,再根据这些哈希值的大小或相似度等指标并结合参考句来判断上述的待统计文章是否是上述的原文的转载文章。如果是,则记录该待统计文章的相关信息,如其所对应的页面的URL信息等,进而根据记录内容统计目标网站所发布的文章即上述的原文的转载量。
也即,通过对比两篇文章的哈希值,并从原文中提取出几个完整的句子作为参考句,同时检查目标页面中的待统计文章中是否包含已经提取出的参考句,若两者哈希值匹配达到一定程度,同时目标页面中完全包含从原文中提取的所有参考句,则可以认为是转载。哈希值越高说明两篇文章的匹配度越大,本发明通过放宽哈希值匹配的要求,增加关键句子(如参考句)匹配,可以提高判断的准确度,尤其适用于下级单位在转载文章时附加自己政策解读的情况。
此外,在本发明实施例中,在判断结果为否时,可以不做任何处理,即不将由其他网站所转载的当前文章统计为目标网站所发布的文章的转载量。
通过上述实施例,通过文章的哈希值与参考句的结合来判断某篇文章是不是原文的转载文章,进而统计原文的转载量,可以克服仅仅通过文章的哈希值统计原文的转载量时,由于对各哈希值的阈值或者对两个哈希值的相似度的阈值限制过宽而导致的统计结果的准确度低的缺陷,实现减少人工识别成本,提高统计文章转载量的统计速度和准确度的技术效果。
另外,需要说明的是,此处的Hash一般被翻译做“散列”,也有直接音译为“哈希”的,它是用于将任意长度的输入值(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出值,该输出值就是散列值,也即哈希值。这种转换是一种压缩映射。换言之,散列值的空间通常远小于输入值的空间,不同的输入值可能会散列成相同的输出值,因此不可能从散列值来唯一确定输入值。简单的说,Hash就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
可选地,判断单元包括:第一确定模块,用于确定其他网站所转载的文章的第二哈希值与目标网站所发布的文章的第一哈希值的相似度;第一判断模块,用于判断相似度是否大于等于第一相似度阈值;第二确定模块,用于在相似度大于等于第一相似度阈值时,确定其他网站所转载的文章为目标网站所发布的文章的转载文章。
使用这两个哈希值的相似度来确定待统计文章是否是原文的转载文章,与直接根据原文的哈希值和待统计文章的哈希值的大小是否相等来确定待统计文章是否是原文的转载文章相比,可以防止统计时出现遗漏统计的情况,如与原文相比,仅仅存在形式上的差别而在内容实际上是相同的待统计文章被漏统计的情况等。
另外,此处的相似度阈值可以根据实际的统计需要和工作经验预先设定。例如,假设第一相似度阈值为0.90,如果原文A与待统计文章B的哈希值的相似度X满足X>0.90,则可以认为B是对A的转载;此时记录B的信息,进而按照本发明所提供的方法继续处理下一页面中的待统计文章。
在本发明实施例中,由于先设定一个数值较大的相似度阈值(如0.90),因此,在实际操作时,只要两篇文章的相似度大于这个数值较大的相似度阈值,就可以忽略对参考句的检测步骤,直接认为待统计文章是原文的转载文章,加快了统计速率。
可选地,判断单元还包括:第二判断模块,用于在相似度小于第一相似度阈值时,进一步判断相似度是否大于等于第二相似度阈值,其中,第二相似度阈值小于第一相似度阈值;检测模块,用于在相似度小于第一相似度阈值且大于等于第二相似度阈值时,检测其他网站所转载的文章中是否完全包含参考句;第三确定模块,用于在检测到其他网站所转载的文章中完全包含参考句时,确定其他网站所转载的文章为目标网站所发布的文章的转载文章。
与前述实施方式相比,在本实施方式中,设置了一大一小两个相似度阈值,其中,若两篇文章的哈希值的相似度大于较大的相似度阈值时,直接认为待统计文章是原文的转载文章,并统计之;若两篇文章的哈希值的相似度介于较大的相似度阈值和较小的相似度阈值之间时,则需要借助参考句来确定待统计文章是否是原文的转载文章。例如,第一相似度阈值可以设置为0.90,第二相似度阈值可以设置为0.80。
通过本发明实施例,既可以防止由于相似度阈值设置过小而影响统计效率,又可以防止由于相似度阈值设置过大而影响统计结果的准确度。
可选地,第一确定模块包括:第一计算子模块,用于由目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值计算对应的汉明距离;第二计算子模块,用于由汉明距离和预先设定的哈希值的位数或哈希值的长度(即可用HashSide表示)计算相似度。
具体地,可以通过以下公式计算上述两个哈希值的相似度:X=(HashSide-D)/HashSide。其中,X表示相似度;HashSide即为Hash的位数或长度,如32为或64位等,实际计算时,HashSide值可以根据待统计文章的文章数量等需求预先设置;D表示汉明距离。使用汉明距离和HashSide并根据上述公式计算任意两个HashSide值的相似度,可以简化计算过程,提高计算效率和计算结果的准确度。
进一步地,汉明距离是指两个等长字符串在对应位置上所出现的不同字符的个数。换言之,它就是将一个字符串变换成另外一个等长度字符串时所需要替换的字符的个数。例如:1011101与1001001之间的汉明距离是2;2143896与2233796之间的汉明距离是3;"toned"与"roses"之间的汉明距离是3。
可选地,上述装置还包括:第三获取单元,用于获取文章的哈希值,第三获取单元包括:爬取模块,用于通过网络爬虫爬取目标URL对应的页面内容;解析模块,用于从页面内容中解析出目标文章的正文部分;计算模块,用于计算正文部分的哈希值,并将计算结果作为目标文章的哈希值。
需要说明的时,此处,上述获取文章的哈希值的步骤可以适用于获取原文和待统计文章的哈希值。由于特定的原文往往只是一篇文章,而该原文的转载文章则可以不计其数,因此,获取这两类文章(即原文和转载文章)的哈希值的过程可以略有不同。
例如,获取原文的哈希值的过程如下:先获取原文的URL地址,并设置网络爬虫的种子信息和层级信息,再由网络爬虫根据种子信息和层级信息爬取原文的URL地址所对应的页面内容,然后根据预先设定的正文标签或者正文关键字符从页面内容中解析出原文的正文部分,进而通过调用哈希接口函数或编程的方式计算该正文部分的哈希值,并将计算结果作为原文的哈希值。
再如,获取转载文章的哈希值的过程如下:先获取需要统计转载数据的网站地址列表,并设置网络爬虫的种子信息和层级信息,再由网络爬虫根据种子信息和层级信息爬取上述地址列表中所有页面的页面内容,并将爬取的页面内容保存在队列、和/或数据库,和/或其他存储系统中,以存储在队列中为例,计算各页面的转载文章的哈希值时,需要从队列中逐次提取所爬取的每个页面的页面内容,并根据预先设定的正文标签或者正文关键字符从中解析出转载文章的正文部分,进而通过调用哈希接口函数或编程的方式计算该正文部分的哈希值,并将计算结果作为该篇转载文章的哈希值。需要说明的是,每次从队列中提取所爬取的页面的页面内容之前,可以先判断队列中的数据已被取尽。如果其中的数据已经被取尽,则结束程序;如果其中的数据没有被取尽,则按照上述逻辑继续执行程序。
通过本发明实施例,一方面,使用网络爬虫技术,可以按照预设的层级信息进行相应深度的爬取操作,以防止获取的页面内容不全面而导致统计结果不准确;另一方面,采用计算文章的正文部分的哈希值代替计算文章的全文部分的哈希值的方式,可以防止转载文章非正文部分的由于出现微小改变而影响统计结果的准确度。
可选地,爬取模块还用于通过网络爬虫爬取其他网站上的所有URL对应的所有页面内容,并将爬取的所有页面内容存储在队列中。
由于队列属于缓存系统,因此,使用队列缓存页面内容时的速度快,可以提高缓存效率,进而提高文章转载量的统计速度,但是掉电后,队列中的缓存数据会丢失,这样,如果系统在实施本发明实施例的中途掉电,则在重启后,需要重新爬去相应的页面内容,才能继续统计文章转载量。而如果将页面内容存储在数据库中,则可以防止其由于掉电而丢失,但是此时会影响数据的存储速度,进而影响统计文章转载量的效率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种文章转载量的统计方法,其特征在于,包括:
获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;
获取预先设定的且包含在所述目标网站所发布的文章中的参考句;
根据获取的所述第一哈希值、所述第二哈希值和所述参考句判断所述其他网站所转载的文章是否为所述目标网站所发布的文章的转载文章;
在判断结果为是时,统计所述目标网站所发布的文章的转载量。
2.根据权利要求1所述的方法,其特征在于,根据获取的所述第一哈希值、所述第二哈希值和所述参考句判断所述其他网站所转载的文章是否为所述目标网站所发布的文章的转载文章包括:
确定所述其他网站所转载的文章的所述第二哈希值与所述目标网站所发布的文章的所述第一哈希值的相似度;
判断所述相似度是否大于等于第一相似度阈值;
在所述相似度大于等于所述第一相似度阈值时,确定所述其他网站所转载的文章为所述目标网站所发布的文章的转载文章。
3.根据权利要求2所述的方法,其特征在于,根据获取的所述第一哈希值、所述第二哈希值和所述参考句判断所述其他网站所转载的文章是否为所述目标网站所发布的文章的转载文章还包括:
在所述相似度小于所述第一相似度阈值时,进一步判断所述相似度是否大于等于第二相似度阈值,其中,所述第二相似度阈值小于所述第一相似度阈值;
在所述相似度小于所述第一相似度阈值且大于等于所述第二相似度阈值时,检测所述其他网站所转载的文章中是否完全包含所述参考句;
在检测到所述其他网站所转载的文章中完全包含所述参考句时,确定所述其他网站所转载的文章为所述目标网站所发布的文章的转载文章。
4.根据权利要求2所述的方法,其特征在于,确定所述其他网站所转载的文章的所述第二哈希值与所述目标网站所发布的文章的所述第一哈希值的相似度包括:
由所述目标网站所发布的文章的所述第一哈希值和所述其他网站所转载的文章的所述第二哈希值计算对应的汉明距离;
由所述汉明距离和预先设定的哈希值的位数或哈希值的长度计算所述相似度。
5.根据权利要求1所述的方法,其特征在于,获取文章的哈希值的步骤包括:
通过网络爬虫爬取目标URL对应的页面内容;
从所述页面内容中解析出目标文章的正文部分;
计算所述正文部分的哈希值,并将计算结果作为所述目标文章的哈希值。
6.根据权利要求5所述的方法,其特征在于,通过网络爬虫爬取目标URL对应的页面内容包括:
通过网络爬虫爬取所述其他网站上的所有URL对应的所有页面内容,并将爬取的所述所有页面内容存储在队列中。
7.一种文章转载量的统计装置,其特征在于,包括:
第一获取单元,用于获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;
第二获取单元,用于获取预先设定的且包含在所述目标网站所发布的文章中的参考句;
判断单元,用于根据获取的所述第一哈希值、所述第二哈希值和所述参考句判断所述其他网站所转载的文章是否为所述目标网站所发布的文章的转载文章;
统计单元,用于在判断结果为是时,统计所述目标网站所发布的文章的转载量。
8.根据权利要求7所述的装置,其特征在于,所述判断单元包括:
第一确定模块,用于确定所述其他网站所转载的文章的所述第二哈希值与所述目标网站所发布的文章的所述第一哈希值的相似度;
第一判断模块,用于判断所述相似度是否大于等于第一相似度阈值;
第二确定模块,用于在所述相似度大于等于所述第一相似度阈值时,确定所述其他网站所转载的文章为所述目标网站所发布的文章的转载文章。
9.根据权利要求8所述的装置,其特征在于,所述判断单元还包括:
第二判断模块,用于在所述相似度小于所述第一相似度阈值时,进一步判断所述相似度是否大于等于第二相似度阈值,其中,所述第二相似度阈值小于所述第一相似度阈值;
检测模块,用于在所述相似度小于所述第一相似度阈值且大于等于所述第二相似度阈值时,检测所述其他网站所转载的文章中是否完全包含所述参考句;
第三确定模块,用于在检测到所述其他网站所转载的文章中完全包含所述参考句时,确定所述其他网站所转载的文章为所述目标网站所发布的文章的转载文章。
10.根据权利要求8所述的装置,其特征在于,所述第一确定模块包括:
第一计算子模块,用于由所述目标网站所发布的文章的所述第一哈希值和所述其他网站所转载的文章的所述第二哈希值计算对应的汉明距离;
第二计算子模块,用于由所述汉明距离和预先设定的哈希值的位数或哈希值的长度计算所述相似度。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:第三获取单元,用于获取文章的哈希值,所述第三获取单元包括:
爬取模块,用于通过网络爬虫爬取目标URL对应的页面内容;
解析模块,用于从所述页面内容中解析出目标文章的正文部分;
计算模块,用于计算所述正文部分的哈希值,并将计算结果作为所述目标文章的哈希值。
12.根据权利要求11所述的装置,其特征在于,所述爬取模块还用于通过网络爬虫爬取所述其他网站上的所有URL对应的所有页面内容,并将爬取的所述所有页面内容存储在队列中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510605466.9A CN106547780A (zh) | 2015-09-21 | 2015-09-21 | 文章转载量的统计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510605466.9A CN106547780A (zh) | 2015-09-21 | 2015-09-21 | 文章转载量的统计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106547780A true CN106547780A (zh) | 2017-03-29 |
Family
ID=58364644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510605466.9A Pending CN106547780A (zh) | 2015-09-21 | 2015-09-21 | 文章转载量的统计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547780A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967364A (zh) * | 2017-12-22 | 2018-04-27 | 新华网股份有限公司 | 网络文章传播力评估方法及装置 |
WO2019011294A1 (zh) * | 2017-07-14 | 2019-01-17 | 众安信息技术服务有限公司 | 一种信息认证方法及系统 |
CN112084776A (zh) * | 2020-09-15 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090043760A1 (en) * | 2007-08-10 | 2009-02-12 | Kabushiki Kaisha Toshiba | Program searching apparatus and program searching method |
CN102063485A (zh) * | 2010-12-29 | 2011-05-18 | 深圳市永达电子股份有限公司 | 一种在线分析网络流中短文本信息聚类的方法 |
CN102541912A (zh) * | 2010-12-17 | 2012-07-04 | 北大方正集团有限公司 | 一种网络文章传播影响力的评价系统及方法 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
CN102693304A (zh) * | 2012-05-22 | 2012-09-26 | 北京邮电大学 | 一种搜索引擎的反馈信息处理方法及搜索引擎 |
CN103778163A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种基于指纹的网页快速去重算法 |
CN103970722A (zh) * | 2014-05-07 | 2014-08-06 | 江苏金智教育信息技术有限公司 | 一种文本内容去重的方法 |
CN104572679A (zh) * | 2013-10-16 | 2015-04-29 | 北大方正集团有限公司 | 舆情数据存储方法和装置 |
-
2015
- 2015-09-21 CN CN201510605466.9A patent/CN106547780A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090043760A1 (en) * | 2007-08-10 | 2009-02-12 | Kabushiki Kaisha Toshiba | Program searching apparatus and program searching method |
CN102541912A (zh) * | 2010-12-17 | 2012-07-04 | 北大方正集团有限公司 | 一种网络文章传播影响力的评价系统及方法 |
CN102063485A (zh) * | 2010-12-29 | 2011-05-18 | 深圳市永达电子股份有限公司 | 一种在线分析网络流中短文本信息聚类的方法 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
CN102693304A (zh) * | 2012-05-22 | 2012-09-26 | 北京邮电大学 | 一种搜索引擎的反馈信息处理方法及搜索引擎 |
CN103778163A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种基于指纹的网页快速去重算法 |
CN104572679A (zh) * | 2013-10-16 | 2015-04-29 | 北大方正集团有限公司 | 舆情数据存储方法和装置 |
CN103970722A (zh) * | 2014-05-07 | 2014-08-06 | 江苏金智教育信息技术有限公司 | 一种文本内容去重的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019011294A1 (zh) * | 2017-07-14 | 2019-01-17 | 众安信息技术服务有限公司 | 一种信息认证方法及系统 |
JP2020511059A (ja) * | 2017-07-14 | 2020-04-09 | ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド | 情報認証方法及びシステム |
CN107967364A (zh) * | 2017-12-22 | 2018-04-27 | 新华网股份有限公司 | 网络文章传播力评估方法及装置 |
CN112084776A (zh) * | 2020-09-15 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
CN112084776B (zh) * | 2020-09-15 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
CN109145216B (zh) | 网络舆情监控方法、装置及存储介质 | |
CN106611052B (zh) | 文本标签的确定方法及装置 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN105528422B (zh) | 一种主题爬虫处理方法及装置 | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN106709345A (zh) | 基于深度学习方法推断恶意代码规则的方法、系统及设备 | |
CN103678528B (zh) | 基于段落抄袭检测的电子作业反抄袭系统和方法 | |
CN107566376A (zh) | 一种威胁情报生成方法、装置及系统 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN107220300A (zh) | 信息挖掘方法、电子装置及可读存储介质 | |
CN108875366A (zh) | 一种面向php程序的sql注入行为检测系统 | |
CN110175851B (zh) | 一种作弊行为检测方法及装置 | |
CN104317891B (zh) | 一种对页面标注标签的方法及装置 | |
CN106815208A (zh) | 法律裁判文书的解析方法及装置 | |
CN110569350B (zh) | 法条推荐方法、设备和存储介质 | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN113706322B (zh) | 基于数据分析的服务分发方法、装置、设备及存储介质 | |
CN104765882B (zh) | 一种基于网页特征字符串的互联网网站统计方法 | |
CN112989348A (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN108229170A (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN104268289B (zh) | 链接url的失效检测方法和装置 | |
CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170329 |