CN106649214A

CN106649214A - 互联网信息内容相似定义方法

Info

Publication number: CN106649214A
Application number: CN201610919663.2A
Authority: CN
Inventors: 杨飞龙
Original assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Current assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-05-10

Abstract

一种互联网信息内容相似定义方法，步骤如下：每次文章入库前，根据语义将文章内容中的所有完整的句子分割出来，然后将句子按照由长到短的顺序排序，选取前十个句子，如果文章内容中没有十个句子，就选取所有的句子；然后将选取的句子进行取MD5数据指纹，并对句子的MD5数据指纹码进行自然排序，最后存入到数据库中；在比较两个文章内容的相似性时，就比较两个文章内容的MD5数据指纹。本发明内容相似定义方法就是在ElasticSearch搜索服务器的基础上开发的一个插件，文章数据在存入ElasticSearch时最多找出文章中10个最长句子，然后进行取MD5数据指纹存入ElasticSearch库中。在对两条文章内容进行相似比较时，对比两条数据的MD5数据指纹的相同比率，来判断是否相似。

Description

互联网信息内容相似定义方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种互联网信息内容相似定义方法。

背景技术

随着信息技术的快速发展，“大数据(big data，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯)”的概念已经广为熟知。伴随着大数据产生的便是对大量数据进行检索与对比。对比大量数据，或者对一定数量的数据检索只能依靠电脑完成，人工检索几乎是不可能完成的。

在当今这个信息爆炸的时代，我们会发现在互联网上对于一个新闻事件的报道，在传播的过程中可能由于转载、修改或其他的原因。导致很多的新闻信息的文章存在一些差异，但是其主要表达的内容相似。从而造成用户在查看某个新闻信息数据时，由于没有对相似的新闻进行归类显示，而出现大量的冗余信息，对用户的阅读造成很大的影响。

发明内容

本发明提供一种互联网信息内容相似定义方法，以解决上述背景技术中提出的问题。

本发明所解决的技术问题采用以下技术方案来实现：本发明提供一种互联网信息内容相似定义方法，步骤如下：

第一步：每次文章入库前，根据语义将文章内容中的所有完整的句子分割出来，

第二步：然后将句子按照由长到短的顺序排序，选取前十个句子，如果文章内容中没有十个句子，就选取所有的句子；

第三步：然后将选取的句子进行取MD5数据指纹，并对句子的MD5数据指纹码进行自然排序，最后存入到数据库中；

第四步：在比较两个文章内容的相似性时，就比较两个文章内容的MD5数据指纹。

本发明的有益效果为：内容相似定义方法就是在ElasticSearch搜索服务器的基础上开发的一个插件，文章数据在存入ElasticSearch时最多找出文章中10个最长句子，然后进行取MD5数据指纹存入ElasticSearch库中。在对两条文章内容进行相似比较时，对比两条数据的MD5数据指纹的相同比率，来判断是否相似。

具体实施方式

以下对本发明做进一步描述：一种互联网信息内容相似定义方法，消重的步骤如下：

例如：A文章内容有n个MD5数据指纹，B文章内容有m个MD5数据指纹，他们比较后有y个相同的MD5数据指纹，最后判断文章内容是否相似，可以根据自适应的阀值来判断内容资讯是否语义相同。

内容相似定义方法就是在ElasticSearch搜索服务器的基础上开发的一个插件，文章数据在存入ElasticSearch时最多找出文章中10个最长句子，然后进行取MD5数据指纹存入ElasticSearch库中。在对两条文章内容进行相似比较时，对比两条数据的MD5数据指纹的相同比率，来判断是否相似。

最后说明的是，选取上述实施例并对其进行了详细的说明和描述是为了更好的说明本发明专利的技术方案，并不是想要局限于所示的细节。本领域的技术人员对本发明的技术方案进行修改或同等替换，而不脱离本发明技术方案的宗旨和范围的，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种互联网信息内容相似定义方法，其特征在于：步骤如下：