CN106776609B - 网站转载数量的统计方法及装置 - Google Patents

网站转载数量的统计方法及装置 Download PDF

Info

Publication number
CN106776609B
CN106776609B CN201510809659.6A CN201510809659A CN106776609B CN 106776609 B CN106776609 B CN 106776609B CN 201510809659 A CN201510809659 A CN 201510809659A CN 106776609 B CN106776609 B CN 106776609B
Authority
CN
China
Prior art keywords
website
original article
result
article
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510809659.6A
Other languages
English (en)
Other versions
CN106776609A (zh
Inventor
冯鸳鹤
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510809659.6A priority Critical patent/CN106776609B/zh
Publication of CN106776609A publication Critical patent/CN106776609A/zh
Application granted granted Critical
Publication of CN106776609B publication Critical patent/CN106776609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站转载数量的统计方法及装置。其中,该方法包括:利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;合并原创文章的第一网站转载结果及第二网站转载结果。本发明解决了相关技术中由于转载遗漏造成的网站转载情况统计不准确的技术问题。

Description

网站转载数量的统计方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网站转载数量的统计方法及装置。
背景技术
网站转载情况是指网站上的原创文章被其他网站转载到自己网站上以新的页面展示出来的情况,包括网站转载量等信息,它是衡量网站的传播影响力的重要指标之一,既能说明网站的权威性,也能根据每篇原创文章的转载情况分析出网民的关注热点。因此,统计网站的转载情况是对网站内容进行评估的前提条件,特别是随着某些政策性文件的出台,网站的转载情况被明确的列为考核政府网站内容的互联网影响力的核心指标之一。
目前,市面上很少有能提供计算网站转载情况功能或者服务的供应商,主要原因是:首先,确定转载需要使用自然语言处理技术,判断两个页面主要内容的一致性;其次,需要提取转载来源和时间。这两项技术就目前而言都是比较高端的技术。即使一些高新技术机构能够分析出两篇文章是否为转载关系,但他们对文章的获取都是通过爬虫对互联网各网站的爬取来实现的。这样网站转载情况的计算范围就受到很大限制。
目前,能够提供计算网站转载情况的系统都采用爬虫对互联网网页进行逐个爬取的方式来确定检测网站转载的范围,所以必然存在转载遗漏的问题。其中,转载遗漏是指实际是网站中原创文章的转载文章,但在计算网站转载情况时并没有被计算在内。发明人发现,引起转载遗漏的原因大概有两种,即检测范围不足和转载不规范(如转载时没有明示转载来源)。转载遗漏将直接导致了以下两个严重问题:得到的网站转载数量明显偏少;得到的网站中被转载的文章是错误的,并不能体现网民的关注热点。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站转载数量的统计方法及装置,以至少解决相关技术中由于转载遗漏造成的网站转载情况统计不准确的技术问题。
根据本发明实施例的一个方面,提供了一种网站转载数量的统计方法,包括:利用爬虫爬取原创文章的转载体,得到上述原创文章的第一网站转载结果,其中,上述原创文章为在目标网站上首发的文章;获取上述原创文章的属性信息,其中,上述属性信息包括标题信息和/或关键词信息;根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体,得到上述原创文章的第二网站转载结果;合并上述原创文章的上述第一网站转载结果及上述第二网站转载结果。
进一步地,合并上述原创文章的上述第一网站转载结果及上述第二网站转载结果包括:删除上述原创文章的上述第二网站转载结果中与上述第一网站转载结果中的重复部分;将删除了上述重复部分的第二网站转载结果叠加到上述第一网站转载结果中。
进一步地,根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体,得到上述原创文章的第二网站转载结果包括:根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体;对上述原创文章与其转载体进行相似度分析;根据相似度分析结果确定上述原创文章的第二网站转载结果。
进一步地,根据相似度分析结果确定上述原创文章的第二网站转载结果包括:根据上述相似度分析结果确定出与上述原创文章的相似度大于相似度阈值的转载体;判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间;在判断结果为与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间晚于上述原创文章的首发时间的情况下,确定该转载体属于上述原创文章的第二网站转载结果。
进一步地,在判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间之前,上述方法还包括:检测与上述原创文章的相似度大于上述相似度阈值的转载体是否有文章来源标识,其中,在检测结果为与上述原创文章的相似度大于上述相似度阈值的转载体没有上述文章来源标识的情况下,判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间。
根据本发明实施例的另一方面,还提供了一种网站转载数量的统计装置,包括:爬取单元,用于利用爬虫爬取原创文章的转载体,得到上述原创文章的第一网站转载结果,其中,上述原创文章为在目标网站上首发的文章;获取单元,用于获取上述原创文章的属性信息,其中,上述属性信息包括标题信息和/或关键词信息;搜索单元,用于根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体,得到上述原创文章的第二网站转载结果;合并单元,用于合并上述原创文章的上述第一网站转载结果及上述第二网站转载结果。
进一步地,上述合并单元包括:删除模块,用于删除上述原创文章的上述第二网站转载结果中与上述第一网站转载结果中的重复部分;叠加模块,用于将删除了上述重复部分的第二网站转载结果叠加到上述第一网站转载结果中。
进一步地,上述搜索单元包括:搜索模块,用于根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体;分析模块,用于对上述原创文章与其转载体进行相似度分析;确定模块,用于根据相似度分析结果确定上述原创文章的第二网站转载结果。
进一步地,上述确定模块包括:第一确定子模块,用于根据上述相似度分析结果确定出与上述原创文章的相似度大于相似度阈值的转载体;判断子模块,用于判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间;第二确定子模块,用于在判断结果为与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间晚于上述原创文章的首发时间的情况下,确定该转载体属于上述原创文章的第二网站转载结果。
进一步地,上述确定模块还包括:检测子模块,用于在判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间之前,检测与上述原创文章的相似度大于上述相似度阈值的转载体是否有文章来源标识,其中,上述判断子模块还用于在检测结果为与上述原创文章的相似度大于上述相似度阈值的转载体没有上述文章来源标识的情况下,判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间。
在本发明实施例中,采用利用搜索引擎深度搜索以修正爬虫爬取的网站转载结果的方式,通过利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;合并原创文章的第一网站转载结果及第二网站转载结果,达到了深度搜索减少转载遗漏的目的,从而实现了提高网站转载情况统计的准确性的技术效果,进而解决了相关技术中由于转载遗漏造成的网站转载情况统计不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的网站转载数量的统计方法的流程图;
图2是根据本发明实施例的另一种可选的网站转载数量的统计方法的流程图;
图3是根据本发明实施例的一种可选的网站转载数量的统计装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种网站转载数量的统计方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的网站转载数量的统计方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;
步骤S104,获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;
步骤S106,根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;
步骤S108,合并原创文章的第一网站转载结果及第二网站转载结果。
其中,原创文章是指本网站首发的文章,是被其他网站进行转载的原文章。转载文章是指将其他网站的原创文章转载到本网站形成的新文章,是原创文章的转载体,是转载的结果文章。转载遗漏是指实际对原创文章进行了转载的转载文章,但在计算网站转载情况时并没有统计在内。
实施时,首先需要通过爬虫对各种网站页面进行爬取,并逐个对页面爬取结果进行网站转载分析,即分析页面爬取结果是否转载了某篇指定的原创文章,得到该原创文章的第一网站转载结果。由于利用爬虫爬取页面时,一般会设置爬取深度,并且为了提高爬取效率,该爬取深度一般会较低,这样得到的第一网站转载结果肯定存在转载遗漏的问题。
由于搜索引擎具有较高的搜索深度,因此,为了克服第一网站转载结果中存在转载遗漏的缺陷,可以使用搜索引擎深度搜索的结果来修正该第一网站转载结果。其中,原创文章的属性信息可以包括主标题和/或副标题,实施时,可以使用原创文章的主标题和/或副标题和/或关键词信息在各大搜索引擎进行检索,比如使用原创文章的标题、副标题和文章关键词作为搜索关键词在百度、搜狐和360等各大搜索引擎上进行搜索,并将搜索结果与上一步得到的第一网站转载结果进行比较,将上一步的转载结果中不包含的页面搜索结果全部保存下来,得到最终的网站转载结果。
通过上述实施例,可以实现通过在各大搜索引擎对原创文章进行搜索来扩大检测范围、加大检索力度的目的,这样就从根本上解决了转载遗漏的问题,保障了计算得到的网站转载情况尽可能准确,既能准确地体现真实的网站传播影响力,也能反映出网民真正关注的热点所在。
合并原创文章第一网站转载结果及第二网站转载结果的方法可以包括多种,在此不作限定,比如可以对上述两个结果进行简单的叠加,但是该方式又会存在重复统计的情况,导致统计结果不准确。优选地,合并原创文章的第一网站转载结果及第二网站转载结果可以是取两者的并集,其具体步骤包括:
S2,删除原创文章的第二网站转载结果中与第一网站转载结果中的重复部分;
S4,将删除了重复部分的第二网站转载结果叠加到第一网站转载结果中。
实施时,可以将第二网站转载结果中的转载页面逐一与第一网站转载结果中的转载页面进行比较,如果相同,则认为两者是重复的,需要将重复的转载页面从第二网站转载结果中删除,最终将删除了重复部分的第二网站转载结果叠加到第一网站转载结果中,得到准确的网站转载结果。
通过本发明实施例,将通过搜索引擎搜索得到的网站转载情况和通过爬虫爬取得到的网站转载情况进行合并处理,可以将重复的转载页面去掉,将遗漏的转载页面添加上,从而组成最终的较为准确的网站转载情况。
可选地,根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果包括:
S6,根据获取的属性信息利用搜索引擎搜索原创文章的转载体;
S8,对原创文章与其转载体进行相似度分析;
S10,根据相似度分析结果确定原创文章的第二网站转载结果。
例如,可以同时使用原创文章的主标题和副标题及其关键词(或关键句,如文章的第一句和最后一句等)在各大搜索引擎搜索上进行搜索,并将搜索结果与原创文章进行相似度分析。具体地,可以预先设定相似度阈值,如果搜索结果与原创文章相似度大于该相似度阈值,则认为该搜索结果是原创文章的转载文章,否则认为其不是原创文章的转载文章。进一步地,在该搜索结果是原创文章的转载文章时将其统计在原创文章的第二网站转载结果中,否则不对其做统计处理。
由于确定是否是某一原创文章的转载文章的依据至少可以包括两个,分别是:两者在内容上是否相似;后者在发布时间上是否晚于前者。因此,仅仅基于相似度这一依据来判断,难以排除发布时间上不符合条件的转载文章,为了克服该缺陷,可选地,根据相似度分析结果确定原创文章的第二网站转载结果可以包括:
S12,根据相似度分析结果确定出与原创文章的相似度大于相似度阈值的转载体;
S14,判断与原创文章的相似度大于相似度阈值的转载体的发布时间是否晚于原创文章的首发时间;
S16,在判断结果为与原创文章的相似度大于相似度阈值的转载体的发布时间晚于原创文章的首发时间的情况下,确定该转载体属于原创文章的第二网站转载结果。
也即,在相似度分析过程中,如果转载体与对应的原创文章相比,相似度高于相似度阈值时,则可以进一步分析两者的发布时间,如果前者的发布时间晚于后者的发布时间,才会认为该转载体属于原创文章的第二网站转载结果,如果前者的发布时间早于后者的发布时间,则认为该转载体不属于原创文章的第二网站转载结果。
另外,虽然转载体与对应的原创文章的相似度大于相似度阈值,但其发布时间早于或者等于原创文章的首发时间时,确定该转载体实际上并不属于原创文章的第二网站转载结果,统计时需要将该转载体剔除。
可选地,在判断与原创文章的相似度大于相似度阈值的转载体的发布时间是否晚于原创文章的首发时间之前,上述方法还包括:
S18,检测与原创文章的相似度大于相似度阈值的转载体是否有文章来源标识,其中,在检测结果为与原创文章的相似度大于相似度阈值的转载体没有文章来源标识的情况下,判断与原创文章的相似度大于相似度阈值的转载体的发布时间是否晚于原创文章的首发时间。
另外,在检测结果为与原创文章的相似度大于相似度阈值的转载体有文章来源标识的情况下,无需判断该转载体的发布时间是否晚于原创文章的首发时间,直接对其进行文章相似度分析即可。换言之,对于检索结果中明确标记了文章来源的转载体,在进行转载分析时,可以仅仅分析文章的相似度;对于检索结果中没有明确标记文章来源的转载体,在进行转载分析时,除了分析文章的相似度之外,还需要进一步分析文章的发布时间。
通过本发明实施例,对于没有明确标记文章来源的搜索结果,可以根据内容相似度和发布时间进行分析,过滤掉不规范的转载体,提高确定网站转载情况的准确性。
以下以一个具体实施例详细阐述本发明:
步骤S202,开始;
步骤S204,使用爬虫爬取互联网网页;
步骤S206,对需要分析转载情况的原创文章和爬取结果进行转载分析;
步骤S208,获取当前原创文章的主标题、副标题和文章关键词等属性信息;
步骤S210,将前述属性信息作为搜索词在所有搜索引擎中进行检索;
步骤S212,判断检索结果页面中是否有明确的转载来源,若是,则执行步骤S214,若否,则执行步骤S216;
步骤S214,先对检索结果文章进行转载分析,再跳转至步骤S226;
步骤S216,确定检索结果文章与原创文章的相似度;
步骤S218,判断相似度是否满足要求,若是,则执行步骤S220;
步骤S220,比较原创文章的首发时间与转载文章的发布时间;
步骤S222,判断原创文章的首发时间是否在先,若是,则执行步骤S224;
步骤S224,确定搜索结果页面为原创文章的转载页面;
步骤S226,将所有转载分析结果进行合并处理;
步骤S228,结束。
实施例2
根据本发明实施例,提供了一种网站转载数量的统计装置的装置实施例。
图3是根据本发明实施例的一种可选的网站转载数量的统计装置的示意图,如图3所示,该装置包括:爬取单元302,用于利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;获取单元304,用于获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;搜索单元306,用于根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;合并单元308,用于合并原创文章的第一网站转载结果及第二网站转载结果。
其中,原创文章是指本网站首发的文章,是被其他网站进行转载的原文章。转载文章是指将其他网站的原创文章转载到本网站形成的新文章,是原创文章的转载体,是转载的结果文章。转载遗漏是指实际对原创文章进行了转载的转载文章,但在计算网站转载情况时并没有统计在内。
实施时,首先需要通过爬虫对各种网站页面进行爬取,并逐个对页面爬取结果进行网站转载分析,即分析页面爬取结果是否转载了某篇指定的原创文章,得到该原创文章的第一网站转载结果。由于利用爬虫爬取页面时,一般会设置爬取深度,并且为了提高爬取效率,该爬取深度一般会较低,这样得到的第一网站转载结果肯定存在转载遗漏的问题。
由于搜索引擎具有较高的搜索深度,因此,为了克服第一网站转载结果中存在转载遗漏的缺陷,可以使用搜索引擎深度搜索的结果来修正该第一网站转载结果。其中,原创文章的属性信息可以包括主标题和/或副标题,实施时,可以使用原创文章的主标题和/或副标题和/或关键词信息在各大搜索引擎进行检索,比如使用原创文章的标题、副标题和文章关键词作为搜索关键词在百度、搜狐和360等各大搜索引擎上进行搜索,并将搜索结果与上一步得到的第一网站转载结果进行比较,将上一步的转载结果中不包含的页面搜索结果全部保存下来,得到最终的网站转载结果。
通过上述实施例,可以实现通过在各大搜索引擎对原创文章进行搜索来扩大检测范围、加大检索力度的目的,这样就从根本上解决了转载遗漏的问题,保障了计算得到的网站转载情况尽可能准确,既能准确地体现真实的网站传播影响力,也能反映出网民真正关注的热点所在。
合并原创文章第一网站转载结果及第二网站转载结果的方法可以包括多种,在此不作限定,比如可以对上述两个结果进行简单的叠加,但是该方式又会存在重复统计的情况,导致统计结果不准确。优选地,上述合并单元可以用于取原创文章的第一网站转载结果及第二网站转载结果的并集,包括:删除模块,用于删除原创文章的第二网站转载结果中与第一网站转载结果中的重复部分;叠加模块,用于将删除了重复部分的第二网站转载结果叠加到第一网站转载结果中。
实施时,可以将第二网站转载结果中的转载页面逐一与第一网站转载结果中的转载页面进行比较,如果相同,则认为两者是重复的,需要将重复的转载页面从第二网站转载结果中删除,最终将删除了重复部分的第二网站转载结果叠加到第一网站转载结果中,得到准确的网站转载结果。
通过本发明实施例,将通过搜索引擎搜索得到的网站转载情况和通过爬虫爬取得到的网站转载情况进行合并处理,可以将重复的转载页面去掉,将遗漏的转载页面添加上,从而组成最终的较为准确的网站转载情况。
可选地,上述搜索单元包括:搜索模块,用于根据获取的属性信息利用搜索引擎搜索原创文章的转载体;分析模块,用于对原创文章与其转载体进行相似度分析;确定模块,用于根据相似度分析结果确定原创文章的第二网站转载结果。
例如,可以同时使用原创文章的主标题和副标题及其关键词(或关键句,如文章的第一句和最后一句等)在各大搜索引擎搜索上进行搜索,并将搜索结果与原创文章进行相似度分析。具体地,可以预先设定相似度阈值,如果搜索结果与原创文章相似度大于该相似度阈值,则认为该搜索结果是原创文章的转载文章,否则认为其不是原创文章的转载文章。进一步地,在该搜索结果是原创文章的转载文章时将其统计在原创文章的第二网站转载结果中,否则不对其做统计处理。
由于确定是否是某一原创文章的转载文章的依据至少可以包括两个,分别是:两者在内容上是否相似;后者在发布时间上是否晚于前者。因此,仅仅基于相似度这一依据来判断,难以排除发布时间上不符合条件的转载文章,为了克服该缺陷,可选地,上述确定模块包括:第一确定子模块,用于根据相似度分析结果确定出与原创文章的相似度大于相似度阈值的转载体;判断子模块,用于判断与原创文章的相似度大于相似度阈值的转载体的发布时间是否晚于原创文章的首发时间;第二确定子模块,用于在判断结果为与原创文章的相似度大于相似度阈值的转载体的发布时间晚于原创文章的首发时间的情况下,确定该转载体属于原创文章的第二网站转载结果。
也即,在相似度分析过程中,如果转载体与对应的原创文章相比,相似度高于相似度阈值时,则可以进一步分析两者的发布时间,如果前者的发布时间晚于后者的发布时间,才会认为该转载体属于原创文章的第二网站转载结果,如果前者的发布时间早于后者的发布时间,则认为该转载体不属于原创文章的第二网站转载结果。
另外,虽然转载体与对应的原创文章的相似度大于相似度阈值,但其发布时间早于或者等于原创文章的首发时间时,确定该转载体实际上并不属于原创文章的第二网站转载结果,统计时需要将该转载体剔除。
可选地,上述确定模块还包括:检测子模块,用于在判断与原创文章的相似度大于相似度阈值的转载体的发布时间是否晚于原创文章的首发时间之前,检测与原创文章的相似度大于相似度阈值的转载体是否有文章来源标识,其中,判断子模块还用于在检测结果为与原创文章的相似度大于相似度阈值的转载体没有文章来源标识的情况下,判断与原创文章的相似度大于相似度阈值的转载体的发布时间是否晚于原创文章的首发时间。
另外,在检测结果为与原创文章的相似度大于相似度阈值的转载体有文章来源标识的情况下,无需判断该转载体的发布时间是否晚于原创文章的首发时间,直接对其进行文章相似度分析即可。换言之,对于检索结果中明确标记了文章来源的转载体,在进行转载分析时,可以仅仅分析文章的相似度;对于检索结果中没有明确标记文章来源的转载体,在进行转载分析时,除了分析文章的相似度之外,还需要进一步分析文章的发布时间。
通过本发明实施例,对于没有明确标记文章来源的搜索结果,可以根据内容相似度和发布时间进行分析,过滤掉不规范的转载体,提高确定网站转载情况的准确性。
上述网站转载数量的统计装置包括处理器和存储器,上述爬取单元、获取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;合并原创文章的第一网站转载结果及第二网站转载结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种网站转载数量的统计方法,其特征在于,包括:
利用爬虫爬取原创文章的转载体,得到所述原创文章的第一网站转载结果,其中,所述原创文章为在目标网站上首发的文章;
获取所述原创文章的属性信息,其中,所述属性信息包括标题信息和/或关键词信息;
根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体,得到所述原创文章的第二网站转载结果;
合并所述原创文章的所述第一网站转载结果及所述第二网站转载结果;
其中,合并所述原创文章的所述第一网站转载结果及所述第二网站转载结果包括:删除所述原创文章的所述第二网站转载结果中与所述第一网站转载结果中的重复部分;将删除了所述重复部分的第二网站转载结果叠加到所述第一网站转载结果中;
根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体,得到所述原创文章的第二网站转载结果包括:根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体;对所述原创文章与其转载体进行相似度分析;根据相似度分析结果确定所述原创文章的第二网站转载结果。
2.根据权利要求1所述的方法,其特征在于,根据相似度分析结果确定所述原创文章的第二网站转载结果包括:
根据所述相似度分析结果确定出与所述原创文章的相似度大于相似度阈值的转载体;
判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间;
在判断结果为与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间晚于所述原创文章的首发时间的情况下,确定该转载体属于所述原创文章的第二网站转载结果。
3.根据权利要求2所述的方法,其特征在于,在判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间之前,所述方法还包括:
检测与所述原创文章的相似度大于所述相似度阈值的转载体是否有文章来源标识,
其中,在检测结果为与所述原创文章的相似度大于所述相似度阈值的转载体没有所述文章来源标识的情况下,判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间。
4.一种网站转载数量的统计装置,其特征在于,包括:
爬取单元,用于利用爬虫爬取原创文章的转载体,得到所述原创文章的第一网站转载结果,其中,所述原创文章为在目标网站上首发的文章;
获取单元,用于获取所述原创文章的属性信息,其中,所述属性信息包括标题信息和/或关键词信息;
搜索单元,用于根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体,得到所述原创文章的第二网站转载结果;
合并单元,用于合并所述原创文章的所述第一网站转载结果及所述第二网站转载结果;
其中,所述合并单元包括:删除模块,用于删除所述原创文章的所述第二网站转载结果中与所述第一网站转载结果中的重复部分;叠加模块,用于将删除了所述重复部分的第二网站转载结果叠加到所述第一网站转载结果中;
所述搜索单元包括:搜索模块,用于根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体;分析模块,用于对所述原创文章与其转载体进行相似度分析;确定模块,用于根据相似度分析结果确定所述原创文章的第二网站转载结果。
5.根据权利要求4所述的装置,其特征在于,所述确定模块包括:
第一确定子模块,用于根据所述相似度分析结果确定出与所述原创文章的相似度大于相似度阈值的转载体;
判断子模块,用于判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间;
第二确定子模块,用于在判断结果为与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间晚于所述原创文章的首发时间的情况下,确定该转载体属于所述原创文章的第二网站转载结果。
6.根据权利要求5所述的装置,其特征在于,所述确定模块还包括:
检测子模块,用于在判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间之前,检测与所述原创文章的相似度大于所述相似度阈值的转载体是否有文章来源标识,
其中,所述判断子模块还用于在检测结果为与所述原创文章的相似度大于所述相似度阈值的转载体没有所述文章来源标识的情况下,判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间。
CN201510809659.6A 2015-11-19 2015-11-19 网站转载数量的统计方法及装置 Active CN106776609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510809659.6A CN106776609B (zh) 2015-11-19 2015-11-19 网站转载数量的统计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510809659.6A CN106776609B (zh) 2015-11-19 2015-11-19 网站转载数量的统计方法及装置

Publications (2)

Publication Number Publication Date
CN106776609A CN106776609A (zh) 2017-05-31
CN106776609B true CN106776609B (zh) 2020-05-22

Family

ID=58886357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510809659.6A Active CN106776609B (zh) 2015-11-19 2015-11-19 网站转载数量的统计方法及装置

Country Status (1)

Country Link
CN (1) CN106776609B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156546A (zh) * 2016-07-29 2016-11-23 苏州商信宝信息科技有限公司 一种针对社交网络原创内容盗用的信息提示方法
CN109255018A (zh) * 2018-08-31 2019-01-22 沈文策 一种识别相似文章的方法和装置
CN111444450A (zh) * 2019-01-16 2020-07-24 北大方正集团有限公司 转载数据确定方法及设备
CN111859063B (zh) * 2019-04-30 2023-11-03 北京智慧星光信息技术有限公司 一种用于监控互联网中转载文章信息的控制方法及装置
CN110674443B (zh) * 2019-09-18 2022-10-11 苏州达家迎信息技术有限公司 一种信息扩展方法、装置、终端、服务器及存储介质
CN111666428B (zh) * 2020-06-04 2023-08-08 杭州凡闻科技有限公司 网络媒体传播力评估方法
CN112084776B (zh) * 2020-09-15 2023-11-10 腾讯科技(深圳)有限公司 相似文章的检测方法、装置、服务器和计算机存储介质
CN113190683B (zh) * 2021-07-02 2021-09-17 平安科技(深圳)有限公司 基于聚类技术的企业esg指数确定方法及相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101499098A (zh) * 2009-03-04 2009-08-05 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统
CN103744876A (zh) * 2013-12-19 2014-04-23 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
CN104063456A (zh) * 2014-06-25 2014-09-24 红麦聚信(北京)软件技术有限公司 基于向量查询的自媒体传播图谱分析方法和装置
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101499098A (zh) * 2009-03-04 2009-08-05 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统
CN103744876A (zh) * 2013-12-19 2014-04-23 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
CN104063456A (zh) * 2014-06-25 2014-09-24 红麦聚信(北京)软件技术有限公司 基于向量查询的自媒体传播图谱分析方法和装置
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置

Also Published As

Publication number Publication date
CN106776609A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776609B (zh) 网站转载数量的统计方法及装置
US9223880B2 (en) Evaluation of web pages
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
CN110321466B (zh) 一种基于语义分析的证券资讯查重方法及系统
US20150356072A1 (en) Method and Apparatus of Matching Text Information and Pushing a Business Object
CN109145110B (zh) 标签查询方法和装置
CN106874165B (zh) 网页检测方法和装置
CN106708886B (zh) 站内搜索词的显示方法及装置
CN106372202B (zh) 文本相似度计算方法及装置
CN106844640A (zh) 一种网页数据分析处理方法
CN104462532A (zh) 网页正文提取的方法和装置
CN109033203A (zh) 一种面向大数据的特征提取并行处理方法
CN106933916B (zh) Json字符串的处理方法及装置
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN106446123A (zh) 一种网页中验证码元素识别方法
CN108388556B (zh) 同类实体的挖掘方法及系统
CN110020134B (zh) 一种知识服务信息的推送方法、系统、存储介质和处理器
CN108255891B (zh) 一种判别网页类型的方法及装置
CN112287201A (zh) 对爬虫的请求去重的方法、装置、介质以及电子设备
US9521164B1 (en) Computerized system and method for detecting fraudulent or malicious enterprises
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN105099996B (zh) 网站验证方法及装置
CN106815196B (zh) 软文展现次数统计方法和装置
CN108228609B (zh) 信息过滤方法和装置
CN114880540A (zh) 一种基于智慧金融文本评论的智能提醒方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant