CN106649214A - 互联网信息内容相似定义方法 - Google Patents
互联网信息内容相似定义方法 Download PDFInfo
- Publication number
- CN106649214A CN106649214A CN201610919663.2A CN201610919663A CN106649214A CN 106649214 A CN106649214 A CN 106649214A CN 201610919663 A CN201610919663 A CN 201610919663A CN 106649214 A CN106649214 A CN 106649214A
- Authority
- CN
- China
- Prior art keywords
- article
- sentences
- data
- sentence
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种互联网信息内容相似定义方法,步骤如下:每次文章入库前,根据语义将文章内容中的所有完整的句子分割出来,然后将句子按照由长到短的顺序排序,选取前十个句子,如果文章内容中没有十个句子,就选取所有的句子;然后将选取的句子进行取MD5数据指纹,并对句子的MD5数据指纹码进行自然排序,最后存入到数据库中;在比较两个文章内容的相似性时,就比较两个文章内容的MD5数据指纹。本发明内容相似定义方法就是在ElasticSearch搜索服务器的基础上开发的一个插件,文章数据在存入ElasticSearch时最多找出文章中10个最长句子,然后进行取MD5数据指纹存入ElasticSearch库中。在对两条文章内容进行相似比较时,对比两条数据的MD5数据指纹的相同比率,来判断是否相似。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种互联网信息内容相似定义方法。
背景技术
随着信息技术的快速发展,“大数据(big data,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯)”的概念已经广为熟知。伴随着大数据产生的便是对大量数据进行检索与对比。对比大量数据,或者对一定数量的数据检索只能依靠电脑完成,人工检索几乎是不可能完成的。
在当今这个信息爆炸的时代,我们会发现在互联网上对于一个新闻事件的报道,在传播的过程中可能由于转载、修改或其他的原因。导致很多的新闻信息的文章存在一些差异,但是其主要表达的内容相似。从而造成用户在查看某个新闻信息数据时,由于没有对相似的新闻进行归类显示,而出现大量的冗余信息,对用户的阅读造成很大的影响。
发明内容
本发明提供一种互联网信息内容相似定义方法,以解决上述背景技术中提出的问题。
本发明所解决的技术问题采用以下技术方案来实现:本发明提供一种互联网信息内容相似定义方法,步骤如下:
第一步:每次文章入库前,根据语义将文章内容中的所有完整的句子分割出来,
第二步:然后将句子按照由长到短的顺序排序,选取前十个句子,如果文章内容中没有十个句子,就选取所有的句子;
第三步:然后将选取的句子进行取MD5数据指纹,并对句子的MD5数据指纹码进行自然排序,最后存入到数据库中;
第四步:在比较两个文章内容的相似性时,就比较两个文章内容的MD5数据指纹。
本发明的有益效果为:内容相似定义方法就是在ElasticSearch搜索服务器的基础上开发的一个插件,文章数据在存入ElasticSearch时最多找出文章中10个最长句子,然后进行取MD5数据指纹存入ElasticSearch库中。在对两条文章内容进行相似比较时,对比两条数据的MD5数据指纹的相同比率,来判断是否相似。
具体实施方式
以下对本发明做进一步描述:一种互联网信息内容相似定义方法,消重的步骤如下:
第一步:每次文章入库前,根据语义将文章内容中的所有完整的句子分割出来,
第二步:然后将句子按照由长到短的顺序排序,选取前十个句子,如果文章内容中没有十个句子,就选取所有的句子;
第三步:然后将选取的句子进行取MD5数据指纹,并对句子的MD5数据指纹码进行自然排序,最后存入到数据库中;
第四步:在比较两个文章内容的相似性时,就比较两个文章内容的MD5数据指纹。
例如:A文章内容有n个MD5数据指纹,B文章内容有m个MD5数据指纹,他们比较后有y个相同的MD5数据指纹,最后判断文章内容是否相似,可以根据自适应的阀值来判断内容资讯是否语义相同。
内容相似定义方法就是在ElasticSearch搜索服务器的基础上开发的一个插件,文章数据在存入ElasticSearch时最多找出文章中10个最长句子,然后进行取MD5数据指纹存入ElasticSearch库中。在对两条文章内容进行相似比较时,对比两条数据的MD5数据指纹的相同比率,来判断是否相似。
最后说明的是,选取上述实施例并对其进行了详细的说明和描述是为了更好的说明本发明专利的技术方案,并不是想要局限于所示的细节。本领域的技术人员对本发明的技术方案进行修改或同等替换,而不脱离本发明技术方案的宗旨和范围的,均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种互联网信息内容相似定义方法,其特征在于:步骤如下:
第一步:每次文章入库前,根据语义将文章内容中的所有完整的句子分割出来,
第二步:然后将句子按照由长到短的顺序排序,选取前十个句子,如果文章内容中没有十个句子,就选取所有的句子;
第三步:然后将选取的句子进行取MD5数据指纹,并对句子的MD5数据指纹码进行自然排序,最后存入到数据库中;
第四步:在比较两个文章内容的相似性时,就比较两个文章内容的MD5数据指纹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610919663.2A CN106649214A (zh) | 2016-10-21 | 2016-10-21 | 互联网信息内容相似定义方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610919663.2A CN106649214A (zh) | 2016-10-21 | 2016-10-21 | 互联网信息内容相似定义方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649214A true CN106649214A (zh) | 2017-05-10 |
Family
ID=58856117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610919663.2A Pending CN106649214A (zh) | 2016-10-21 | 2016-10-21 | 互联网信息内容相似定义方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649214A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019642A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN110245275A (zh) * | 2019-06-18 | 2019-09-17 | 中电科大数据研究院有限公司 | 一种大规模相似新闻标题快速归一化方法 |
CN111859063A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网中转载文章信息的控制方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN102012846A (zh) * | 2010-12-12 | 2011-04-13 | 成都东方盛行电子有限责任公司 | 大视频文件完整性校验方法 |
CN103425639A (zh) * | 2013-09-06 | 2013-12-04 | 广州一呼百应网络技术有限公司 | 一种基于信息指纹的相似信息识别方法 |
CN104216968A (zh) * | 2014-08-25 | 2014-12-17 | 华中科技大学 | 一种基于文件相似度的排重方法及系统 |
-
2016
- 2016-10-21 CN CN201610919663.2A patent/CN106649214A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN102012846A (zh) * | 2010-12-12 | 2011-04-13 | 成都东方盛行电子有限责任公司 | 大视频文件完整性校验方法 |
CN103425639A (zh) * | 2013-09-06 | 2013-12-04 | 广州一呼百应网络技术有限公司 | 一种基于信息指纹的相似信息识别方法 |
CN104216968A (zh) * | 2014-08-25 | 2014-12-17 | 华中科技大学 | 一种基于文件相似度的排重方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019642A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN111859063A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网中转载文章信息的控制方法及装置 |
CN111859063B (zh) * | 2019-04-30 | 2023-11-03 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网中转载文章信息的控制方法及装置 |
CN110245275A (zh) * | 2019-06-18 | 2019-09-17 | 中电科大数据研究院有限公司 | 一种大规模相似新闻标题快速归一化方法 |
CN110245275B (zh) * | 2019-06-18 | 2023-09-01 | 中电科大数据研究院有限公司 | 一种大规模相似新闻标题快速归一化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615593B (zh) | 微博热点话题自动检测方法及装置 | |
US20150142760A1 (en) | Method and device for deduplicating web page | |
CN103425777B (zh) | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 | |
CN103257957A (zh) | 一种基于中文分词的文本相似性识别方法及装置 | |
CN109597983B (zh) | 一种拼写纠错方法及装置 | |
CN111191022A (zh) | 商品短标题生成方法及装置 | |
CN106909669B (zh) | 一种推广信息的检测方法及装置 | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
Kleedorfer et al. | Oh Oh Oh Whoah! Towards Automatic Topic Detection In Song Lyrics. | |
CN103246687A (zh) | 基于特征信息的Blog自动摘要方法 | |
Mandal et al. | Overview of the FIRE 2017 IRLeD Track: Information Retrieval from Legal Documents. | |
CN106649214A (zh) | 互联网信息内容相似定义方法 | |
CN102945246A (zh) | 网络信息数据的处理方法及装置 | |
CN106227719A (zh) | 中文分词歧义消除方法和系统 | |
Sintaha et al. | An empirical study and analysis of the machine learning algorithms used in detecting cyberbullying in social media | |
Kotenko et al. | Evaluation of text classification techniques for inappropriate web content blocking | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN112287102B (zh) | 数据挖掘方法和装置 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN107239455B (zh) | 核心词识别方法及装置 | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN105786929B (zh) | 一种信息监测方法及装置 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
Saputra et al. | Keyphrases extraction from user-generated contents in healthcare domain using long short-term memory networks | |
CN115438147A (zh) | 面向轨道交通领域的信息检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |
|
WD01 | Invention patent application deemed withdrawn after publication |