CN106202055A - 一种针对长文本的相似性判定方法 - Google Patents
一种针对长文本的相似性判定方法 Download PDFInfo
- Publication number
- CN106202055A CN106202055A CN201610594557.1A CN201610594557A CN106202055A CN 106202055 A CN106202055 A CN 106202055A CN 201610594557 A CN201610594557 A CN 201610594557A CN 106202055 A CN106202055 A CN 106202055A
- Authority
- CN
- China
- Prior art keywords
- text
- analyzed
- unique features
- long
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息技术领域,特别是一种针对长文本的相似性判定方法,包括以下步骤,步骤S101:文本语句片段分割,根据采集到的待分析文本内容进行语句片段分割;步骤S102:长句组合,将文本分割后的长句片段进行随意组合;步骤S103:文本相似性判断,判断待分析文本的长句组合是否出现相同的集合;如果是,则待分析文本内容相似;如果否,则待分析文本内容不相似。采用上述方法后,本发明计算简单,容易实现,大大减少时间、空间计算复杂度;相对于其他相似判定方法,对于数据量大的采集系统是一种简洁而非常有效的文本相似判定方法。
Description
技术领域
本发明涉及信息技术领域,特别是一种针对长文本的相似性判定方法。
背景技术
随着互联网的发展和信息时代的到来,人们从互联网获取信息资源已经成为一种非常重要的途径。互联网成为人们沟通、交流的重要平台,每天互联网会产生大量的信息资源,而这些资源信息的内容在很大程度上都是重复和相似的。据相关统计数据表明,互联网上近似重复的网页的数量占网页总数量的比例高达29%,在一个大型的信息采集系统中,采集到的网页信息内容有大多数完全重复或近似重复的。所以,在一个信息采集系统中,判断文本内容相似成为一个很重要的环节,该发明就是提供了一个简单而有效文本相似判定方法用于信息采集系统中对文本内容进行相似判定,便于系统信息进行分组归类整合。
中国发明专利CN 103389987 A文本相似性比较方法,首先提取各待分析文件的各特征向量及各特征向量的值;然后将各待分析文件的特征向量进行削峰处理,即将各待分析文件的排序最高的一个或多个特征向量移除;再根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。此发明不是针对长文本的相似性进行判定的。
发明内容
本发明需要解决的技术问题是提供一种针对长文本的实时高效的文档相似性判定方法。
为解决上述的技术问题,本发明的一种针对长文本的相似性判定方法,包括以下步骤,
步骤S101:文本语句片段分割,根据采集到的待分析文本内容进行语句片段分割;
步骤S102:长句组合,将文本分割后的长句片段进行随意组合;
步骤S103:文本相似性判断,判断待分析文本的长句组合是否出现相同的集合;如果是,则待分析文本内容相似;如果否,则待分析文本内容不相似。
进一步的,所述步骤S102长句组合,具体包括以下步骤,
步骤S1021:排序筛选,对文本内容分割后的语句片段进行长句排序筛选,选择特定数量的长句片段形成集合;
步骤S1022:唯一特征值计算,针对排序筛选形成的集合进行唯一特征值计算,形成唯一特征值集合;
步骤S1023:唯一特征值随意组合,在形成的唯一特征值集合中随意选取特定数量唯一特征值,形成唯一特征值随意选取集合。
更进一步的,所述步骤S103文本相似性判断为将唯一特征值随意选取集合中的唯一特征值进行对比,如果唯一特征值相同,则待分析文本内容相似;如果唯一特征值不同,则待分析文本内容不相似。
更进一步的,步骤S1021中选择长句片段的特定数量为n,步骤S1023中随意选取唯一特征值的特定数量为m,形成的唯一特征值随意选取集合总数量为C(n,m)=n!/((n-m)!*m!)。
采用上述方法后,本发明计算简单,容易实现,大大减少时间、空间计算复杂度;相对于其他相似判定方法,对于数据量大的采集系统是一种简洁而非常有效的文本相似判定方法。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种针对长文本的相似性判定方法的流程图。
具体实施方式
如图1所示,本发明的一种针对长文本的相似性判定方法,包括以下步骤,
步骤S101:文本语句片段分割,根据采集到的待分析文本内容进行语句片段分割。本实施方式中,以待分析的文本A、B为例,由于文本内容长度不一,句子、段落很多,提取语句片段非常关键,不同的规则分成的语句片段也不同,因此统一采用指定的规则进行内容分割成语句片段。待分析文本A、B分割后的语句片段集合分别为C、D。
步骤S102:长句组合,将文本分割后的长句片段进行随意组合;具体包括以下步骤,
步骤S1021:排序筛选,对文本内容分割后的语句片段集合分别为C、D进行长句排序筛选,选择特定数量的长句片段形成集合E、F,本实施方式中长句片段的特定数量为n。长句片段选择的数量是随意选择的,选择的数量越大组合越多,这个是根据需要可以调控选择的,本实施方式中选择的数量n取4。
步骤S1022:唯一特征值计算,针对排序筛选形成的长句片段集合E、F进行唯一特征值计算,形成唯一特征值集合G、H。唯一特征值计算,是为了保持数据的唯一性。
步骤S1023:唯一特征值随意组合,在形成的唯一特征值集合中随意选取特定数量唯一特征值,形成唯一特征值随意选取集合I、J。这个特定的数量也是可以随意选择的,数量越大说明相似度的阈值越高,数量越小相似度的阈值越低,即两文本中的相似度达到该阈值才判定两篇文本相似。该取值与长句片段的数量n有关系,本实施方式中特定数量m为3。进行组合得到的唯一特征值集合总数量计算公式C(n,m)=n!/((n-m)!*m!)。
步骤S103:文本相似性判断,判断待分析文本的长句组合是否出现相同的集合;如果是,则待分析文本内容相似;如果否,则待分析文本内容不相似。本实施方式中,判断的是集合中唯一特征值是否相同。所述步骤S103文本相似性判断为将唯一特征值随意选取集合I、J中的唯一特征值进行对比,如果唯一特征值相同,则待分析文本内容相似;如果唯一特征值不同,则待分析文本内容不相似。
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式做出多种变更或修改,而不背离发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。
Claims (4)
1.一种针对长文本的相似性判定方法,其特征在于,包括以下步骤,
步骤S101:文本语句片段分割,根据采集到的待分析文本内容进行语句片段分割;
步骤S102:长句组合,将文本分割后的长句片段进行随意组合;
步骤S103:文本相似性判断,判断待分析文本的长句组合是否出现相同的集合;如果是,则待分析文本内容相似;如果否,则待分析文本内容不相似。
2.按照权利要求1所述的一种针对长文本的相似性判定方法,其特征在于:所述步骤S102长句组合,具体包括以下步骤,
步骤S1021:排序筛选,对文本内容分割后的语句片段进行长句排序筛选,选择特定数量的长句片段形成集合;
步骤S1022:唯一特征值计算,针对排序筛选形成的集合进行唯一特征值计算,形成唯一特征值集合;
步骤S1023:唯一特征值随意组合,在形成的唯一特征值集合中随意选取特定数量唯一特征值,形成唯一特征值随意选取集合。
3.按照权利要求2所述的一种针对长文本的相似性判定方法,其特征在于:所述步骤S103文本相似性判断为将唯一特征值随意选取集合中的唯一特征值进行对比,如果唯一特征值相同,则待分析文本内容相似;如果唯一特征值不同,则待分析文本内容不相似。
4.按照权利要求2所述的一种针对长文本的相似性判定方法,其特征在于:步骤S1021中选择长句片段的特定数量为n,步骤S1023中随意选取唯一特征值的特定数量为m,形成的唯一特征值随意选取集合总数量为C(n,m)=n!/((n-m)!*m!)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610594557.1A CN106202055A (zh) | 2016-07-27 | 2016-07-27 | 一种针对长文本的相似性判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610594557.1A CN106202055A (zh) | 2016-07-27 | 2016-07-27 | 一种针对长文本的相似性判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106202055A true CN106202055A (zh) | 2016-12-07 |
Family
ID=57495452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610594557.1A Pending CN106202055A (zh) | 2016-07-27 | 2016-07-27 | 一种针对长文本的相似性判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202055A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595439A (zh) * | 2018-05-04 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
WO2022061833A1 (zh) * | 2020-09-27 | 2022-03-31 | 西门子股份公司 | 文本相似度确定方法、装置及工业诊断方法、系统 |
CN115209188A (zh) * | 2022-09-07 | 2022-10-18 | 北京达佳互联信息技术有限公司 | 多帐号同时直播的检测方法、装置、服务器及存储介质 |
CN117688138A (zh) * | 2024-02-02 | 2024-03-12 | 中船凌久高科(武汉)有限公司 | 一种基于段落划分的长文本相似度比对方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201570025U (zh) * | 2009-04-07 | 2010-09-01 | 慧科讯业有限公司 | 重复文本识别系统 |
CN101859309A (zh) * | 2009-04-07 | 2010-10-13 | 慧科讯业有限公司 | 重复文本识别系统及方法 |
CN103176962A (zh) * | 2013-03-08 | 2013-06-26 | 深圳先进技术研究院 | 文本相似度的统计方法及系统 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103389987A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 文本相似性比较方法及系统 |
-
2016
- 2016-07-27 CN CN201610594557.1A patent/CN106202055A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201570025U (zh) * | 2009-04-07 | 2010-09-01 | 慧科讯业有限公司 | 重复文本识别系统 |
CN101859309A (zh) * | 2009-04-07 | 2010-10-13 | 慧科讯业有限公司 | 重复文本识别系统及方法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103389987A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 文本相似性比较方法及系统 |
CN103176962A (zh) * | 2013-03-08 | 2013-06-26 | 深圳先进技术研究院 | 文本相似度的统计方法及系统 |
Non-Patent Citations (1)
Title |
---|
韦永壮等: "CCDet:一种高效的大规模中文重复网页检测方法", 《计算机研究与发展》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595439A (zh) * | 2018-05-04 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
CN108595439B (zh) * | 2018-05-04 | 2022-04-12 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
WO2022061833A1 (zh) * | 2020-09-27 | 2022-03-31 | 西门子股份公司 | 文本相似度确定方法、装置及工业诊断方法、系统 |
CN115209188A (zh) * | 2022-09-07 | 2022-10-18 | 北京达佳互联信息技术有限公司 | 多帐号同时直播的检测方法、装置、服务器及存储介质 |
CN115209188B (zh) * | 2022-09-07 | 2023-01-20 | 北京达佳互联信息技术有限公司 | 多帐号同时直播的检测方法、装置、服务器及存储介质 |
CN117688138A (zh) * | 2024-02-02 | 2024-03-12 | 中船凌久高科(武汉)有限公司 | 一种基于段落划分的长文本相似度比对方法 |
CN117688138B (zh) * | 2024-02-02 | 2024-04-09 | 中船凌久高科(武汉)有限公司 | 一种基于段落划分的长文本相似度比对方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202055A (zh) | 一种针对长文本的相似性判定方法 | |
Christian et al. | Exploration of classification using NBTree for predicting students' performance | |
US9705816B2 (en) | Method and apparatus for allocating resource reflecting adaptive evaluation in cloud computing for high-throughput computing | |
CN104462053B (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN110363252A (zh) | 趋向于端到端的场景文字检测与识别方法以及系统 | |
US10002296B2 (en) | Video classification method and apparatus | |
JP6428795B2 (ja) | モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体 | |
CN103345528A (zh) | 一种基于关联分析和knn的文本分类方法 | |
CN101251896B (zh) | 一种基于多分类器的物体检测系统及方法 | |
CN103218405A (zh) | 基于维数约简的集成迁移文本分类方法 | |
CN109522562A (zh) | 一种基于文本图像融合识别的网页知识抽取方法 | |
US20170046422A1 (en) | Data Mining Method and Apparatus | |
US20160335249A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
CN103310013A (zh) | 一种面向主题的网页采集系统 | |
CN108876452A (zh) | 用电客户需求信息获取方法、装置以及电子设备 | |
KR20180005153A (ko) | 상인의 상업지역 정보의 표시 | |
CN108959293A (zh) | 一种文本数据分类方法及服务器 | |
CN107423285A (zh) | 一种基于文本规则的公司简称识别方法及系统 | |
CN106033444B (zh) | 文本内容的聚类方法和装置 | |
Passalacqua et al. | Sex determination of human skeletal populations using latent profile analysis | |
CN102495944B (zh) | 一种时间序列预测方法、设备和系统 | |
CN113033709A (zh) | 链路预测方法和装置 | |
CN102034102B (zh) | 图像显著对象提取方法、互补显著度图学习方法及系统 | |
CN104298975B (zh) | 一种分布式图像识别方法 | |
Zingg et al. | Smart food waste management: embedded machine learning vs cloud based solutions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |