CN104346443B - 网络文本处理方法及装置 - Google Patents

网络文本处理方法及装置 Download PDF

Info

Publication number
CN104346443B
CN104346443B CN201410559608.8A CN201410559608A CN104346443B CN 104346443 B CN104346443 B CN 104346443B CN 201410559608 A CN201410559608 A CN 201410559608A CN 104346443 B CN104346443 B CN 104346443B
Authority
CN
China
Prior art keywords
network text
network
text
participle set
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410559608.8A
Other languages
English (en)
Other versions
CN104346443A (zh
Inventor
余德乐
陈俊宏
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410559608.8A priority Critical patent/CN104346443B/zh
Publication of CN104346443A publication Critical patent/CN104346443A/zh
Application granted granted Critical
Publication of CN104346443B publication Critical patent/CN104346443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络文本处理方法及装置。该网络文本处理方法包括:获取网络发布的第一网络文本和第二网络文本;计算第一网络文本与第二网络文本的相似度;判断相似度是否大于预设阈值;如果相似度大于预设阈值,则确定第一网络文本与第二网络文本存在转载关系;以及如果相似度不大于预设阈值,则确定第一网络文本与第二网络文本不存在转载关系。通过本发明解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,进而达到了提高网络文本传播路径分析的准确性的效果。

Description

网络文本处理方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网络文本处理方法及装置。
背景技术
随着社会化媒体营销渠道的发展,商家们逐渐开始重视用户在网络渠道上发出的言论,通过分析人们发出的这些言论来提高自己商业效益。同时也对网络上的负面言论设置警报,可及时发现对于品牌或商家有威胁的公关危机,并且分析这些负面言论的传播形式与途径,进行追根述源的剖析。基于上述原因,判断文章或言论的传播途径变得尤为重要。现在存在的对传播途径的分析仅仅停留在用网络爬虫抓取网页上的文章,通过网络爬虫抓取到的表示转发来源的标志词(如,此文章转自:新浪)来判断文章的转发源头。
上述方法有很大的局限性,一旦网站上没有标记文章的转摘出处时,就无从判断文章的转发源头。但是,如果在不同网站上采集到内容完全相同的多篇文章,则可以通过查看文章内容是否完全相同来查看是否是转载关系,但这种方法也有很大的局限性,该方法仅仅能对文章内容完全相同的情况给予判断,但现在的网络媒体大多会对原文稍作修改,再进行发布,而该方法无法对这类情况进行文章传播路径的分析。
针对相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网络文本处理方法及装置,以解决相关技术中无法确定未标识转载来源的网络文本的转载关系的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网络文本处理方法。
根据本发明的网络文本处理方法包括:获取网络发布的第一网络文本和第二网络文本;计算第一网络文本与第二网络文本的相似度;判断相似度是否大于预设阈值;如果相似度大于预设阈值,则确定第一网络文本与第二网络文本存在转载关系;以及如果相似度不大于预设阈值,则确定第一网络文本与第二网络文本不存在转载关系。
进一步地,获取网络发布的第一网络文本和第二网络文本包括:由第一目标网站抓取文本数据,得到第一网络文本;由第二目标网站抓取文本数据,得到第二网络文本,在获取第一网络文本和第二网络文本之后,方法还包括:将第一网络文本和第二网络文本存储至目标数据库,计算第一网络文本与第二网络文本的相似度包括:从目标数据库中取出第一网络文本和第二网络文本;计算取出的第一网络文本与第二网络文本的相似度。
进一步地,计算第一网络文本与第二网络文本的相似度包括:对第一网络文本进行分词,得到第一分词集合,对第二网络文本进行分词,得到第二分词集合;统计第一分词集合与第二分词集合中相同词语的个数;统计第一分词集合与第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度。
进一步地,根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度包括:统计第一分词集合与第二分词集合中词语的总数;计算第一分词集合与第二分词集合中相同词语的个数与第一分词集合与第二分词集合中词语的总数的比值,得到第一比值;统计相同词语两两组合的总数;计算相同词语组合的个数与相同词语两两组合的总数的比值,得到第二比值;以及通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度。
进一步地,在确定第一网络文本与第二网络文本存在转载关系后,方法包括:获取第一网络文本的发布时间和发布网站;获取第二网络文本的发布时间和发布网站;以及如果第一网络文本的发布时间晚于第二网络文本的发布时间,则确定第一网络文本的发布网站转载自第二网络文本的发布网站,如果第一网络文本的发布时间早于第二网络文本的发布时间,则确定第二网络文本的发布网站转载自第一网络文本的发布网站。
为了实现上述目的,根据本发明的另一方面,提供了一种网络文本处理装置。
根据本发明的网络文本处理装置包括:获取单元,用于获取网络发布的第一网络文本和第二网络文本;计算单元,用于计算第一网络文本与第二网络文本的相似度;判断单元,用于判断相似度是否大于预设阈值;以及确定单元,用于当相似度大于预设阈值时,则确定第一网络文本与第二网络文本存在转载关系,当相似度不大于预设阈值时,则确定第一网络文本与第二网络文本不存在转载关系。
进一步地,获取单元包括:第一抓取模块,用于由第一目标网站抓取文本数据,得到第一网络文本;第二抓取模块,用于由第二目标网站抓取文本数据,得到第二网络文本,该装置还包括:存储模块,用于在获取第一网络文本和第二网络文本之后,将第一网络文本和第二网络文本存储至目标数据库,计算单元包括:取出模块,用于从目标数据库中取出第一网络文本和第二网络文本;第一计算模块,用于计算取出的第一网络文本与第二网络文本的相似度。
进一步地,计算单元包括:分词模块,用于对第一网络文本进行分词,得到第一分词集合,对第二网络文本进行分词,得到第二分词集合;第一统计模块,用于统计第一分词集合与第二分词集合中相同词语的个数;第二统计模块,用于统计第一分词集合与第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及第二计算模块,用于根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度。
进一步地,第二计算模块包括:第一统计子模块,用于统计第一分词集合与第二分词集合中词语的总数;第一计算子模块,用于计算第一分词集合与第二分词集合中相同词语的个数与第一分词集合与第二分词集合中词语的总数的比值,得到第一比值;第二统计子模块,用于统计第一分词集合与第二分词集合中相同词语两两组合的总数;第二计算子模块,用于计算相同词语组合的个数与相同词语两两组合的总数的比值,得到第二比值;以及第三计算子模块,用于通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度。
进一步地,在确定单元确定第一网络文本与第二网络文本存在转载关系后,该装置包括:第一获取单元,用于获取第一网络文本的发布时间和发布网站;第二获取单元,用于获取第二网络文本的发布时间和发布网站;以及第一确定单元,用于当第一网络文本的发布时间晚于第二网络文本的发布时间时,确定第一网络文本的发布网站转载自第二网络文本的发布网站,当第一网络文本的发布时间早于第二网络文本的发布时间时,确定第二网络文本的发布网站转载自第一网络文本的发布网站。
通过本发明,采用计算第一网络文本与第二网络文本的相似度,并通过判断该相似度是否大于预设阈值来确定第一网络文本与第二网络文本的转载关系,解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,进而达到了提高网络文本传播路径分析的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网络文本处理方法的流程图;
图2是根据本发明第二实施例的网络文本处理方法的流程图;
图3是根据本发明实施例的网络文本处理装置示意图;以及
图4是根据本发明第二实施例的网络文本处理装置示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了多个元器件的系统、产品或设备不必限于清楚地列出的那些元器件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它元器件。
本发明实施例提供了一种网络文本处理方法,图1是根据本发明实施例的网络文本处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S110:
步骤S102:获取网络发布的第一网络文本和第二网络文本。
第一网络文本和第二网络文本可以是不同网站的网络文本,也可以是相同网站不同时间发布的网络文本。可以通过网络爬虫来获取网络文本,通过设置网络爬虫抓取数据的规则,可以使得网络爬虫抓取网站上符合要求的数据,例如,通过设置可以使得网络爬虫从网站上抓取含有标题的网络文本,在获得网络文本后,通过设置可以使网络爬虫获取该网络文本的名词词语。
优选地,为了提高获取网络文本的效率与质量,获取网络发布的第一网络文本和第二网络文本包括:由第一目标网站抓取文本数据,得到第一网络文本;由第二目标网站抓取文本数据,得到第二网络文本。
第一目标网站和第二目标网站都是预设的需要进行网络文本转载关系分析的目标网站。这些目标网站可以是用户经常浏览的网站,例如网易、新浪、搜狐等网站,也可以是竞争对手的网站。通过从第一目标网站获取第一网络文本,从第二目标网站获取第二网络文本,这样可以避免从不相关的网站获取网络文本,提高获取的网络文本的效率与质量。
由于每天网络上都会发布海量的文本数据,为了分析这些网络文本的传播路径,首先需要分析不同网站发布的网络文章之间的转载关系。由于事先无法确定哪些网络文本被转载,也无法确定那些被转载的网络文本转载后的位置,因此需要获取大量的网络文本,并分别对这些网络文本进行转载关系判断,这种缺乏目的性的实现方式会造成较低的效率。面对网络上数量巨大的网络文本数据,可以通过预先设定多个目标网站。通过从目标网站获取网络文本,可以降低网络文本的获取量,同时增加网络文本传播路径分析的针对性,提高获取的网络文本的质量。
在获取第一网络文本和第二网络文本之后,将第一网络文本和第二网络文本存储至目标数据库,在计算第一网络文本与第二网络文本的相似度时,从目标数据库中取出第一网络文本和第二网络文本;计算取出的第一网络文本与第二网络文本的相似度。
目标数据库是存储网络爬虫从网站上抓取的数据的数据库。在该目标数据库中,不仅存储了网络文本,还存储了网络文本对应的发布时间和发布网站。将获取的所有的网络文本存储至目标数据库中,有利于批量进行网络文本间的相似度计算。通过分别计算数据库中所有网络文本间的相似度来整体分析网络文本的转载关系,进而分析网络文本的传播路径。
步骤S104:计算第一网络文本与第二网络文本的相似度。
第一网络文本与第二网络文本的相似度是指这两个网络文本的相似程度,可以通过统计第一网络文本的关键词语和第二网络文本的关键词语相同的个数占关键词语的总数来衡量,也可以通过一些比较复杂的算法来计算。
由于网络媒体在转载网络文章时,通常会对网络文章进行一定的修改之后再发布,而且不标识转载来源,这种情况会造成难以分析网络文章的转载关系。但是,经过修改的网络文章跟原网络文章大部分内容还是相似的,通过计算两篇网络文章的相似度,可以得出两篇网络文章的相似程度。可以通过两篇网络文章的相似程度来确定它们之间是否有转载关系。
计算两个网络文本的相似度的算法较多,例如向量空间模型法,该方法通过将文本内容中的词转化为向量形式,从而计算向量间的关系,该方法实现较为复杂。由于存在转载关系的两个网络文本,就算进行了一定程度的修改,两者之间的相似度还是很高,因此,无需采用复杂的算法去计算两个网络文本的相似度,为了降低计算量,提高计算效率,优选地,如图2所示,可以通过如下方法计算两个网络文本的相似度:
步骤S202:对第一网络文本进行分词,得到第一分词集合,对第二网络文本进行分词,得到第二分词集合。
分别对第一网络文本和第二网络文本进行分词,将完整的网络文本划分成一个一个的词语,第一网络文本进行分词后的词语组成第一分词集合,第二网络文本进行分词后的词语组成第二分词集合。由于网络文本中存在一些停用词,例如语气词、连接词等,这些词对于网络文本相似度的计算不起作用,可选地,可以过滤掉这些停用词。
步骤S204:统计第一分词集合与第二分词集合中相同词语的个数。
分别比较第一分词集合与第二分词集合中的词语,识别出相同的词语,并统计相同词语的个数。
步骤S206:统计第一分词集合与第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同。
分别将第一分词集合与第二分词集合中相同词语按照在网络文本出现的顺序两两进行组合,只有两个相同词语在第一网络文本中出现的次序与这两个相同词语在第二网络文本中出现的次序相同时,这两个相同词语才构成一个相同词语组合。
例如,第一分词集合与第二分词集合中都存在相同词语A、B,在第一网络文本中,A、B的组合AB中A排在B前,在第二网路文本中A、B的组合为AB,A排在B前,则AB为一个相同词语组合。
步骤S208:根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度。
在得到第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数后,可选地,统计第一分词集合与第二分词集合中词语的总数;计算第一分词集合与第二分词集合中相同词语的个数与第一分词集合与第二分词集合中词语的总数的比值,得到第一比值;统计相同词语两两组合的总数;计算相同词语组合的个数与相同词语两两组合的总数的比值,得到第二比值;以及通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度。
通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度时,可以预设两个比值的权重,例如,第一比值为85%,权重为0.7,第二比值为70%,权重为0.3,则将85%*0.7+70%*0.3作为两个网络文本的相似度。
步骤S106:判断相似度是否大于预设阈值。
预设阈值用来筛选出那些相似度较高的网络文本,比较第一网络文本和第二网络文本的相似度和预设阈值的大小,只有当相似度大于预设阈值时,第一网络文本和第二网络文本的相似度才较高。由于当两个网络文本的相似度过低时,则这两个网络文本存在转载关系的可能性较低。因此需要通过设置阈值来剔筛选出相似度较高的两个网络文本,来过滤掉相似度较低的两个网络文本。阈值的设置可以根据多次试验得到一个合适的阈值,例如,可以取预设阈值为80%。通过比较相似度和预设阈值来确定两个网络文本是否存在转载关系。
步骤S108:如果相似度大于预设阈值,则确定第一网络文本与第二网络文本存在转载关系。
步骤S110:如果相似度不大于预设阈值,则确定第一网络文本与第二网络文本不存在转载关系。
当第一网络文本与第二网络文本的相似度大于预设阈值,则说明第一网络文本与第二网络文本相似度较高,存在转载关系,当第一网络文本与第二网络文本的相似度不大于预设阈值,则说明第一网络文本与第二网络文本相似度较低,不存在转载关系。
本发明实施例通过计算两个网络文本的相似度,并通过判断该相似度是否大于预设阈值来确定这两个网络文本的是否存在转载关系,当相似度大于预设阈值时,则这两个网络文本存在转载关系,当相似度不大于预设阈值时,则这两个网络文本不存在转载关系,解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题。
优选地,在确定第一网络文本与第二网络文本存在转载关系后,方法包括:获取第一网络文本的发布时间和发布网站;获取第二网络文本的发布时间和发布网站;以及如果第一网络文本的发布时间晚于第二网络文本的发布时间,则确定第一网络文本的发布网站转载自第二网络文本的发布网站,如果第一网络文本的发布时间早于第二网络文本的发布时间,则确定第二网络文本的发布网站转载自第一网络文本的发布网站。
第一网络文本的发布时间和发布网站以及第二网络文本的发布时间和发布网站同样存储在目标数据库中,而且在目标数据库中建立了第一网络文本与第一网络文本的发布时间、发布网站的对应关系,以及第二网络文本与第二网络文本的发布时间、发布网站的对应关系,通过第一网络文本可以查询到第一网络文本的发布时间、发布网站,通过第二网络文本也同样可以查询到第二网络文本的发布时间、发布网站。
由于进行网络文本转载关系分析的目的是用来分析网络文本的传播路径。因此在确定第一网络文本与第二网络文本存在转载关系后,可以进一步分析第一网络文本与第二网络文本的传播路径。在将网络文本存入数据库的同时,将该网络文本的发布时间和发布网站等信息同时存入数据库,并在数据库中建立该网络文本与该网络文本的发布时间和发布网站的对应关系。因此,从数据库中可以快速的获取网络文本对应的发布时间和发布网站。通过比较两个网络文本的发布时间的先后可以确定该两个网络文本的传播路径。例如,网络文本1与网络文本2存在转载关系,网络文本1发布时间为2014-8-26,发布网站为新浪,网络文本2的发布时间为2014-6-9,发布网站为网易,则说明新浪网站转载了网易网站的网络文本2,该网络文本2的传播路径为从网易网站至新浪网站。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例通过计算第一网络文本和第二网络文本的相似度,并与预设阈值比较来判断第一网络文本和第二网络文本是否存在转载关系,解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题,在确定第一网络文本和第二网络文本存在转载关系后,通过分别获取第一网络文本和第二网络文本的发布时间和发布网站来确定网络文本的传播路径,从而实现了对为标识转载来源的网络文本的传播路径的分析,进一步提高了网络文本传播路径分析的准确性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例的另一方面,提供了一种网络文本处理装置,该网络文本处理装置可以用于执行本发明实施例的网络文本处理方法,本发明实施例的网络文本处理方法也可以通过本发明实施例的网络文本处理装置来执行。
如图3所示,该装置包括:获取单元10、计算单元20、判断单元30和确定单元40。
获取单元10,用于获取网络发布的第一网络文本和第二网络文本。
第一网络文本和第二网络文本可以是不同网站的网络文本,也可以是相同网站不同时间发布的网络文本。可以通过网络爬虫来获取网络文本,通过设定网络爬虫抓取数据的规则,可以使得网络爬虫抓取网站上符合要求的数据,例如,通过设置可以使得网络爬虫从网站上抓取含有标题的网络文本,在获得网络文本后,通过设置可以使网络爬虫获取该网络文本的名词词语。
面对如此数量巨大的网络文本数据,优选地,可以通过预先设定多个目标网站,这些目标网站可以是用户经常浏览的网站,例如网易、新浪、搜狐等网站,在需要判断竞争对手有没有转载网站发布的网络文本时,也可以将一些竞争对手的网站设为目标网站。通过从目标网站获取网络文本,可以降低网络文本的获取量,同时增加网络文本传播路径分析的针对性。
计算单元20,用于计算第一网络文本与第二网络文本的相似度。
第一网络文本与第二网络文本的相似度是指这两个网络文本的相似程度,可以通过统计第一网络文本的关键词语和第二网络文本的关键词语相同的个数占两个网络文本中关键词语的总数来衡量,也可以通过一些比较复杂的算法来计算。
由于网络媒体在转载网络文章时,通常会对网络文章进行一定的修改之后再发布,而且不标识转载来源,这种情况会造成难以分析网络文章的转载关系。但是,经过修改的网络文章跟原网络文章大部分内容还是相似的,通过计算两篇网络文章的相似度,可以得出两篇网络文章的相似程度。可以通过两篇网络文章的相似程度来确定它们之间是否有转载关系。
判断单元30,用于判断相似度是否大于预设阈值。
预设阈值用来筛选出那些相似度较高的网络文本,比较第一网络文本和第二网络文本的相似度和预设阈值的大小,只有当相似度大于预设阈值时,第一网络文本和第二网络文本的相似度才较高。由于当两个网络文本的相似度过低时,则这两个网络文本存在转载关系的可能性较低。因此需要通过设置阈值来剔筛选出相似度较高的两个网络文本,来过滤掉相似度较低的两个网络文本。阈值的设置可以根据多次试验得到一个合适的阈值,例如,可以取预设阈值为80%。通过比较相似度和预设阈值来确定两个网络文本是否存在转载关系。
确定单元40,用于当相似度大于预设阈值时,则确定第一网络文本与第二网络文本存在转载关系,当相似度不大于预设阈值时,则确定第一网络文本与第二网络文本不存在转载关系。
当第一网络文本与第二网络文本的相似度大于预设阈值,则说明第一网络文本与第二网络文本相似度较高,存在转载关系,当第一网络文本与第二网络文本的相似度不大于预设阈值,则说明第一网络文本与第二网络文本相似度较低,不存在转载关系。
本发明实施例通过计算单元20计算两个网络文本的相似度,并通过判断单元30判断该相似度是否大于预设阈值来确定这两个网络文本的是否存在转载关系,当相似度大于预设阈值时,确定单元40则确定这两个网络文本存在转载关系,当相似度不大于预设阈值时,确定单元40则确定这两个网络文本不存在转载关系,解决了相关技术中无法确定未标识转载来源的网络文本的转载关系的问题。
优选地,为了提高获取网络文本的效率与质量,获取单元10包括:第一抓取模块,用于由第一目标网站抓取文本数据,得到第一网络文本;第二抓取模块,用于由第二目标网站抓取文本数据,得到第二网络文本,该装置还包括:存储模块,用于在获取第一网络文本和第二网络文本之后,将第一网络文本和第二网络文本存储至目标数据库,计算单元20包括:取出模块,用于从目标数据库中取出第一网络文本和第二网络文本;第一计算模块,用于计算取出的第一网络文本与第二网络文本的相似度。
第一目标网站和第二目标网站都是预设的需要进行网络文本转载关系分析的目标网站。这些目标网站可以是用户经常浏览的网站,例如网易、新浪、搜狐等网站,也可以是竞争对手的网站。通过从第一目标网站获取第一网络文本,从第二目标网站获取第二网络文本,这样可以避免从不相关的网站获取网络文本,提高获取的网络文本的效率与质量。
由于每天网络上都会发布海量的文本数据,为了分析这些网络文本的传播路径,首先需要分析不同网站发布的网络文章之间的转载关系。由于事先无法确定哪些网络文本被转载,也无法确定那些被转载的网络文本转载后的位置,因此需要获取大量的网络文本,并分别对这些网络文本进行转载关系判断,这种缺乏目的性的实现方式会造成较低的效率。面对网络上数量巨大的网络文本数据,可以通过预先设定多个目标网站。通过从目标网站获取网络文本,可以降低网络文本的获取量,同时增加网络文本传播路径分析的针对性,提高获取的网络文本的质量。
目标数据库是存储网络爬虫从网站上抓取的数据的数据库。在该目标数据库中,不仅存储了网络文本,还存储了网络文本对应的发布时间和发布网站。将获取的所有的网络文本存储至目标数据库中,有利于批量进行网络文本间的相似度计算。通过分别计算数据库中所有网络文本间的相似度来整体分析网络文本的转载关系,进而分析网络文本的传播路径。
优选地,为了降低计算第一网络文本和第二网络文本的相似度的计算量,提高计算效率,如图4所示,计算单元20包括:分词模块201,第一统计模块202,第二统计模块203和第二计算模块204。
分词模块201,用于对第一网络文本进行分词,得到第一分词集合,对第二网络文本进行分词,得到第二分词集合。
分别对第一网络文本和第二网络文本进行分词,将完整的网络文本划分成一个一个的词语,第一网络文本进行分词后的词语组成第一分词集合,第二网络文本进行分词后的词语组成第二分词集合。由于网络文本中存在一些停用词,例如语气词、连接词等,这些词对于网络文本相似度的计算不起作用,可选地,可以过滤掉这些停用词。
第一统计模块202,用于统计第一分词集合与第二分词集合中相同词语的个数。
分别比较第一分词集合与第二分词集合中的词语,识别出相同的词语,并统计相同词语的个数。
第二统计模块203,用于统计第一分词集合与第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同。
分别将第一分词集合与第二分词集合中相同词语按照在网络文本出现的顺序两两进行组合,只有两个相同词语在第一网络文本中出现的次序与这两个相同词语在第二网络文本中出现的次序相同时,这两个相同词语才构成一个相同词语组合。
例如,第一分词集合与第二分词集合中都存在相同词语A、B,在第一网络文本中,A、B的组合AB中A排在B前,在第二网路文本中A、B的组合为AB,A排在B前,则AB为一个相同词语组合。
第二计算模块204,用于根据第一分词集合与第二分词集合中相同词语的个数和第一分词集合与第二分词集合中相同词语组合的个数计算第一网络文本与第二网络文本的相似度。
可选地,第二计算模块204包括:第一统计子模块,用于统计第一分词集合与第二分词集合中词语的总数;第一计算子模块,用于计算第一分词集合与第二分词集合中相同词语的个数与第一分词集合与第二分词集合中词语的总数的比值,得到第一比值;第二统计子模块,用于统计第一分词集合与第二分词集合中相同词语两两组合的总数;第二计算子模块,用于计算相同词语组合的个数与相同词语两两组合的总数的比值,得到第二比值;以及第三计算子模块,用于通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度。
通过第一比值和第二比值计算第一网络文本与第二网络文本的相似度时,可以预设两个比值的权重,例如,第一比值为85%,权重为0.7,第二比值为70%,权重为0.3,则将85%*0.7+70%*0.3作为两个网络文本的相似度。
在确定单元40确定第一网络文本与第二网络文本存在转载关系后,该装置包括:第一获取单元,用于获取第一网络文本的发布时间和发布网站;第二获取单元,用于获取第二网络文本的发布时间和发布网站;以及第一确定单元,用于当第一网络文本的发布时间晚于第二网络文本的发布时间时,确定第一网络文本的发布网站转载自第二网络文本的发布网站,当第一网络文本的发布时间早于第二网络文本的发布时间时,确定第二网络文本的发布网站转载自第一网络文本的发布网站。
第一网络文本的发布时间和发布网站以及第二网络文本的发布时间和发布网站同样存储在目标数据库中,而且在目标数据库中建立了第一网络文本与第一网络文本的发布时间、发布网站的对应关系,以及第二网络文本与第二网络文本的发布时间、发布网站的对应关系,通过第一网络文本可以查询到第一网络文本的发布时间、发布网站,通过第二网络文本也同样可以查询到第二网络文本的发布时间、发布网站。
由于进行网络文本转载关系分析的目的是用来分析网络文本的传播路径。因此在确定第一网络文本与第二网络文本存在转载关系后,可以进一步分析第一网络文本与第二网络文本的传播路径。在将网络文本存入数据库的同时,将该网络文本的发布时间和发布网站等信息同时存入数据库,并在数据库中建立该网络文本与该网络文本的发布时间和发布网站的对应关系。因此,从数据库中可以快速的获取网络文本对应的发布时间和发布网站。通过比较两个网络文本的发布时间的先后可以确定该两个网络文本的传播路径。例如,网络文本1与网络文本2存在转载关系,网络文本1发布时间为2014-8-26,发布网站为新浪,网络文本2的发布时间为2014-6-9,发布网站为网易,则说明新浪网站转载了网易网站的网络文本2,该网络文本2的传播路径为从网易网站至新浪网站。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种网络文本处理方法,其特征在于,包括:
获取网络发布的第一网络文本和第二网络文本;
计算所述第一网络文本与所述第二网络文本的相似度;
判断所述相似度是否大于预设阈值;
如果所述相似度大于所述预设阈值,则确定所述第一网络文本与所述第二网络文本存在转载关系;以及
如果所述相似度不大于所述预设阈值,则确定所述第一网络文本与所述第二网络文本不存在转载关系;
其中,计算所述第一网络文本与所述第二网络文本的相似度包括:
对所述第一网络文本进行分词,得到第一分词集合,对所述第二网络文本进行分词,得到第二分词集合;
统计所述第一分词集合与所述第二分词集合中相同词语的个数;
统计所述第一分词集合与所述第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及
根据所述第一分词集合与所述第二分词集合中相同词语的个数和所述第一分词集合与所述第二分词集合中相同词语组合的个数计算所述第一网络文本与所述第二网络文本的相似度;
其中,在获取网络发布的第一网络文本和第二网络文本之后,所述方法还包括:
将所述第一网络文本和所述第二网络文本存储至目标数据库,在所述目标数据库中,还存储有所述第一网络文本的发布时间和发布网站以及所述第二网络文本的发布时间和发布网站;
其中,在确定所述第一网络文本与所述第二网络文本存在转载关系之后,所述方法还包括:
在所述目标数据库分别获取所述第一网络文本和所述第二网络文本的发布时间和发布网站;
通过比较所述第一网络文本和所述第二网络文本的发布时间的先后,确定所述第一网络文本和所述第二网络文本的传播路径;
其中,在获取网络发布的第一网络文本和第二网络文本之前,所述方法还包括:
预先设定多个目标网站,其中,所述目标网站用于获取网络文本。
2.根据权利要求1所述的网络文本处理方法,其特征在于,
获取网络发布的第一网络文本和第二网络文本包括:由第一目标网站抓取文本数据,得到第一网络文本;由第二目标网站抓取文本数据,得到第二网络文本,
在获取所述第一网络文本和所述第二网络文本之后,所述方法还包括:将所述第一网络文本和所述第二网络文本存储至目标数据库,
计算所述第一网络文本与所述第二网络文本的相似度包括:从所述目标数据库中取出所述第一网络文本和所述第二网络文本;计算取出的所述第一网络文本与所述第二网络文本的相似度。
3.根据权利要求1所述的网络文本处理方法,其特征在于,根据所述第一分词集合与所述第二分词集合中相同词语的个数和所述第一分词集合与所述第二分词集合中相同词语组合的个数计算所述第一网络文本与所述第二网络文本的相似度包括:
统计所述第一分词集合与所述第二分词集合中词语的总数;
计算所述第一分词集合与所述第二分词集合中相同词语的个数与所述第一分词集合与所述第二分词集合中词语的总数的比值,得到第一比值;
统计所述第一分词集合与所述第二分词集合中相同词语两两组合的总数;
计算所述相同词语组合的个数与所述相同词语两两组合的总数的比值,得到第二比值;以及
通过所述第一比值和所述第二比值计算所述第一网络文本与所述第二网络文本的相似度。
4.根据权利要求1所述的网络文本处理方法,其特征在于,在确定所述第一网络文本与所述第二网络文本存在转载关系后,所述方法包括:
获取所述第一网络文本的发布时间和发布网站;
获取所述第二网络文本的发布时间和发布网站;以及
如果所述第一网络文本的发布时间晚于所述第二网络文本的发布时间,则确定所述第一网络文本的发布网站转载自所述第二网络文本的发布网站,如果所述第一网络文本的发布时间早于所述第二网络文本的发布时间,则确定所述第二网络文本的发布网站转载自所述第一网络文本的发布网站。
5.一种网络文本处理装置,其特征在于,包括:
获取单元,用于获取网络发布的第一网络文本和第二网络文本;
计算单元,用于计算所述第一网络文本与所述第二网络文本的相似度;
判断单元,用于判断所述相似度是否大于预设阈值;以及
确定单元,用于当所述相似度大于所述预设阈值时,则确定所述第一网络文本与所述第二网络文本存在转载关系,当所述相似度不大于所述预设阈值时,则确定所述第一网络文本与所述第二网络文本不存在转载关系;
所述计算单元包括:
分词模块,用于对所述第一网络文本进行分词,得到第一分词集合,对所述第二网络文本进行分词,得到第二分词集合;
第一统计模块,用于统计所述第一分词集合与所述第二分词集合中相同词语的个数;
第二统计模块,用于统计所述第一分词集合与所述第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及
第二计算模块,用于根据所述第一分词集合与所述第二分词集合中相同词语的个数和所述第一分词集合与所述第二分词集合中相同词语组合的个数计算所述第一网络文本与所述第二网络文本的相似度;
其中,所述网络文本处理装置,还用于将所述第一网络文本和所述第二网络文本存储至目标数据库,在所述目标数据库中,还存储有所述第一网络文本的发布时间和发布网站以及所述第二网络文本的发布时间和发布网站;
其中,所述网络文本处理装置,还用于在所述目标数据库分别获取所述第一网络文本和所述第二网络文本的发布时间和发布网站;通过比较所述第一网络文本和所述第二网络文本的发布时间的先后,确定所述第一网络文本和所述第二网络文本的传播路径;
其中,所述装置还用于预先设定多个目标网站,其中,所述目标网站用于获取网络文本。
6.根据权利要求5所述的网络文本处理装置,其特征在于,
所述获取单元包括:第一抓取模块,用于由第一目标网站抓取文本数据,得到第一网络文本;第二抓取模块,用于由第二目标网站抓取文本数据,得到第二网络文本,
所述装置还包括:存储模块,用于在获取所述第一网络文本和所述第二网络文本之后,将所述第一网络文本和所述第二网络文本存储至目标数据库,
所述计算单元包括:取出模块,用于从所述目标数据库中取出所述第一网络文本和所述第二网络文本;第一计算模块,用于计算取出的所述第一网络文本与所述第二网络文本的相似度。
7.根据权利要求5所述的网络文本处理装置,其特征在于,所述第二计算模块包括:
第一统计子模块,用于统计所述第一分词集合与所述第二分词集合中词语的总数;
第一计算子模块,用于计算所述第一分词集合与所述第二分词集合中相同词语的个数与所述第一分词集合与所述第二分词集合中词语的总数的比值,得到第一比值;
第二统计子模块,用于统计所述第一分词集合与所述第二分词集合中相同词语两两组合的总数;
第二计算子模块,用于计算所述相同词语组合的个数与所述相同词语两两组合的总数的比值,得到第二比值;以及
第三计算子模块,用于通过所述第一比值和所述第二比值计算所述第一网络文本与所述第二网络文本的相似度。
8.根据权利要求5所述的网络文本处理装置,其特征在于,在所述确定单元确定所述第一网络文本与所述第二网络文本存在转载关系后,所述装置包括:
第一获取单元,用于获取所述第一网络文本的发布时间和发布网站;
第二获取单元,用于获取所述第二网络文本的发布时间和发布网站;以及
第一确定单元,用于当所述第一网络文本的发布时间晚于所述第二网络文本的发布时间时,确定所述第一网络文本的发布网站转载自所述第二网络文本的发布网站,当所述第一网络文本的发布时间早于所述第二网络文本的发布时间时,确定所述第二网络文本的发布网站转载自所述第一网络文本的发布网站。
CN201410559608.8A 2014-10-20 2014-10-20 网络文本处理方法及装置 Active CN104346443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410559608.8A CN104346443B (zh) 2014-10-20 2014-10-20 网络文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410559608.8A CN104346443B (zh) 2014-10-20 2014-10-20 网络文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN104346443A CN104346443A (zh) 2015-02-11
CN104346443B true CN104346443B (zh) 2018-08-03

Family

ID=52502034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410559608.8A Active CN104346443B (zh) 2014-10-20 2014-10-20 网络文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN104346443B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447130B (zh) * 2015-11-18 2018-12-25 北京奇虎科技有限公司 网络小说新章节的获取方法及装置
CN106777283B (zh) * 2016-12-29 2021-02-26 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN107967364B (zh) * 2017-12-22 2021-11-23 新华网股份有限公司 网络文章传播力评估方法及装置
CN109325105B (zh) * 2018-11-23 2021-06-29 泰康保险集团股份有限公司 代码匹配方法、装置及存储介质
CN109635084B (zh) * 2018-11-30 2020-11-24 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
CN115878791A (zh) * 2022-04-20 2023-03-31 北京中关村科金技术有限公司 信息识别方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
CN101231641A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103179198A (zh) * 2012-11-02 2013-06-26 中国人民解放军国防科学技术大学 基于多关系网络的话题影响力个体挖掘方法
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850930B2 (en) * 2001-03-13 2005-02-01 Honeywell International Inc. Method for transforming words to unique numerical representation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
CN101231641A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN103179198A (zh) * 2012-11-02 2013-06-26 中国人民解放军国防科学技术大学 基于多关系网络的话题影响力个体挖掘方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Also Published As

Publication number Publication date
CN104346443A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104346443B (zh) 网络文本处理方法及装置
TWI496015B (zh) Text matching method and device
CN110020122B (zh) 一种视频推荐方法、系统及计算机可读存储介质
CN109857935B (zh) 一种信息推荐方法及装置
CN105488023B (zh) 一种文本相似度评估方法及装置
CN106506266B (zh) 基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法
CN102473190A (zh) 为网页分配关键词
CN104348871B (zh) 一种同类账号扩展方法及装置
CN107832344A (zh) 一种基于storm流计算框架的食品安全网络舆情分析方法
CN107679119A (zh) 生成品牌衍生词的方法和装置
CN105095209B (zh) 文档聚类方法及装置、网络设备
CN106534784A (zh) 一种用于视频分析数据结果集的采集分析存储统计系统
CN107633347A (zh) 一种数据指标统计方法及装置
CN109658129A (zh) 一种用户画像的生成方法及装置
CN103744918A (zh) 基于垂直领域的微博搜索排序方法及系统
CN103218368A (zh) 一种挖掘热词的方法与装置
CN107301373B (zh) 数据处理方法、装置及存储介质
CN102982011B (zh) 一种用于识别失序文本的方法与设备
CN103617261B (zh) 图片内容属性识别方法和系统
CN108459936B (zh) 一种基于内容模块化的精准统计方法及装置
CN104536964A (zh) 网络数据展示方法及装置
CN104331490A (zh) 网络数据处理方法及装置
CN107590672A (zh) 基于马斯洛需求层次理论的推荐方法及装置
CN107369066A (zh) 一种评论对象之间的特征比较方法及装置
CN103514227B (zh) 一种更新数据库的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Web text processing method and web text processing device

Effective date of registration: 20190531

Granted publication date: 20180803

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180803

PP01 Preservation of patent right