CN102314418B - 一种基于上下文关联的中文相似性比较方法 - Google Patents
一种基于上下文关联的中文相似性比较方法 Download PDFInfo
- Publication number
- CN102314418B CN102314418B CN 201110303533 CN201110303533A CN102314418B CN 102314418 B CN102314418 B CN 102314418B CN 201110303533 CN201110303533 CN 201110303533 CN 201110303533 A CN201110303533 A CN 201110303533A CN 102314418 B CN102314418 B CN 102314418B
- Authority
- CN
- China
- Prior art keywords
- text
- fragment
- suspicious
- similarity
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于上下文关联的中文相似性比较方法,应用于中文相似性比较技术领域,该方法首先将要进行比较的两篇文本的文本流进行分词和索引,为每一个文本建立倒排表,然后对倒排表进行相似性检测,得到可疑相似片段,最后对可疑相似片段进行聚合,得到相似文本块,在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾,实现对两篇文本的相似性比较。
Description
技术领域
本发明涉及中文相似性比较技术领域,具体是一种基于上下文关联的中文相似性比较方法。
背景技术
中文相似性比较技术广泛应用于抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域,因为计算机对自然语言,尤其是中文的理解很困难,所以一直是人们研究的热点和难点。
相似性比较方法的目的是判断两篇文本是否“相似”。这里所说的“相似”,应该是指语义层面的所谓的“形不似而神似”。即两篇“相似”的文章,在经过(1)语法结构改变;(2)语序调换;(3)部分词语替换;(4)加入其他内容之后,仍然能检测出其相关性。其相似度大小取决于相似片段长度、改动程度等因素。
目前文本相似性比较广泛采用基于词频统计的方法,该方法基于VSM(向量空间模型),对粒度设置很敏感,粒度过小则会将大量不相关的片段判定为相似,粒度过大则会产生大量漏判。使用基于词频统计的方法的技术包括SCAM(N Shivakumar,H Garcia-Molina,SCAM:A Copy Detection Mechanism for Digital Documents,1995)、CHECK(Antonio Si Hong Va Leong Rynson W.H.Lau,CHECK:A Document PlagiarismDetection System,1997)等。
上述基于VSM的中文相似性比较方法是把一篇文本或其中的一个粒度单位作为一个向量,其中的每一个词或字作为该向量的一个维;这个词或字出现的次数即为该向量在该维度上的值。这种方法相当于把一个粒度范围内的文本完全拆散成为孤立的字或词,而忽略了这些字或词之间的上下文关联。然而在判定两篇文本是否相似的时候,其上下文经常会提供重要的信息。现有的这些方法并没有充分利用这些上下文信息。
有关VSM的知识可以参考N Shivakumar,H Garcia-Molina的论文:SCAM:ACopy Detection Mechanism for Digital Documents。
发明内容
本发明针对现有基于VSM的中文相似性比较方法并没有充分利用上下文信息进行比较的问题,提出了一种基于上下文关联的中文相似性比较方法。
本发明一种基于上下文关联的中文相似性比较方法,具体包括以下步骤:
步骤1、首先将要进行比较的两篇文本的文本流进行分词,然后为每一个文本建立倒排表,具体是:通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段(suspicious fragment);步骤3、对可疑相似片段进行聚合,得到最终的相似文本块(Similar Chunk)及该相似文本块的相似度。
所述的步骤2具体又包括:
步骤2.1、首先使用倒排表对中心词进行映射:若词X同时在文本S的倒排表和文本D的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度n=2r+1的一对可疑相似片段;步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;
所述的步骤3中生成相似文本块,是针对文本S中每个核心可疑相似片段,进行下面过程:寻找该核心可疑相似片段的直接密度可达集合,将生成的直接密度可达集合中的核心可疑相似片段的最小的起始位置索引号作为所要生成的相似文本块的起始位置,最大的终止位置索引号作为所要生成的相似文本块的结束位置。
本发明的优点与积极效果在于:本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾。
附图说明
图1是本发明的中文相似性比较方法的整体步骤流程图;
图2是本发明方法步骤二中使用倒排表对中心词进行映射的示意图;
图3是一个可疑相似片段的数据结构所包含的信息。
具体实施方式
下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。
本发明的基于上下文关联的中文相似性比较方法,如图1所示,具体包括以下步骤:
步骤一、读取要进行比较的文本S和文本D,将两篇文本的文本流(Text Stream)进行分词和索引。
从句子中划分出的每个有独立意义的词被称作分词。由于中文的词与词之间没有明确的边界,因此,中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。本发明方法采用基于二元迭代的自适应中英文分词算法(参考文献:曹勇刚,曹羽中等,《面向信息检索的自适应中文分词系统》,软件学报,2006年3月)。该自适应中英文分词算法利用它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词搜索引擎的倒排索引,筛选候选词并进行歧义消解。在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度,达到了进行消歧和识别新词,为用户提供检索的中心词的目的。
在分词之后,为每一个文本建立倒排表(Indexed Doc),具体是:通过词汇内容建立索引,词汇本身作为索引的键,词汇在文本中的位置作为索引值。
步骤二、对倒排表进行相似性检测,得到可疑相似片段。
在建立索引之后,使用较小粒度进行相似性检测,得到可疑的相似片段。所述的可疑相似片段要经过进一步判定才可以确定是否属于一个相似文本块。
步骤2.1、寻找可疑相似片段的时候,首先使用倒排表对中心词进行映射,如图2所示。对于每一个可疑相似片段,设立中心词和一个半径r,则可疑相似片段长度n=2r+1。如图2所示:在待比较的两篇文本S和文本D的倒排表中,若某一个词X同时在S的倒排表和D的倒排表中出现,则将该词X作为中心词,建立该中心词X的关系映射。
经过实验,选取可疑相似片段半径r=2,如图2所示,画斜线部分为可疑相似片段长度,该长度为5,即由步骤一产生的5个词为一个粒度进行相似性检测。
步骤2.2、以n个词作为一个粒度进行相似性检测,并确定可疑相似片段的相似度。令S表示候选文本、D表示待检测(或者查询)文本;令s表示候选片段,s∈S,d表示待检测(或者查询)片段,d∈D,F(s)表示片段s的词汇向量,即VSM模型中的“向量”,该向量以所有可能的词汇作为维度,以某维度上的词汇出现在文本S中的次数作为该维度上的数值,F(d)表示片段d的词汇向量,以某维度上的词汇出现在文本D中的次数作为该维度上的数值。rsf(s,d)表示一对可疑相似片段s、d的相似度。可疑相似片段的相似度rsf(s,d)可以使用经典的VSM算法进行计算(SCAM中的算法):
其中,N表示文本S和文本D中包含的词语的总个数,αi表示第i个词语的权重向量。
下面说明在不涉及到可疑相似片段s,d的讨论时,rsf(s,d)简写为rsf。
另外,每一个可疑相似片段的数据结构都包含其相似度和在两篇文本中的位置等信息,如图3所示,文本S与文本D的一对可疑相似片段s、d具有相同的数据结构,该数据结构中包含该可疑相似片段s与d的相似度rsf(s,d)、片段s在文本S中的起始位置索引号s_StartIndex、片段s在文本S中的终止位置索引号s_EndIndex、片段d在文本D中的起始位置索引号d_StartIndex和片段d在文本D中的终止位置索引号d_EndIndex。
步骤2.3、确定文本S和文本D的相似值。令w表示某个词语,这个词语可以同时出现在待比较的两篇文本中,也可以只出现在一篇文本中;词语w可能同时被包含在多个可疑相似区段中,令为第j个包含w的可疑片段的相似度,则词语w的相似度为:
则,文本S对文本D的相似度为:
其中,wi表示S中第i个词语,表示词语wi的相似度,将词语w=wi代入式(2)能够得到 表示对文本S中所有的词语的相似度求和,NS表示文本S中包含的词的总个数。文本D对文本S的相似度RD,S类似得到RS,D的方法可得到。
则一对文本(S,D)的相似值定义为:
步骤三、对步骤二中得到的可疑相似片段进行聚合,生成相似文本块。在此处影响聚合的因素包括可疑相似片段的相似度rsf,以及可疑相似片段在两篇文本S和D中出现的位置,所述的在两篇文本S和D中出现的位置就是上下文关联信息。首先进行如下定义:
定义1:给定可疑相似片段半径ε(以同一篇文本内的倒排表词的索引序号计算,可疑相似片段的索引号定义为其中心词X的索引号)内的相邻区域称为可疑相似片段的ε邻域。
定义2:如果可疑相似片段ε邻域内至少包含最小数目为K的可疑相似片段,则称该可疑相似片段为K的核心可疑相似片段,在K值明确的情况下,简称为核心可疑相似片段。在可疑相似片段半径r取2情况下,实验中ε取15~25,K取2~5可以取得比较好的效果。
定义3:给定一个可疑相似片段集合C,对于可疑相似片段p,q∈C,若p在q的ε邻域内,而q是一个核心可疑相似片段,则称从p到q是直接密度可达的。
定义4:如果存在一个可疑相似片段链p1,p2,p3,...pm,pi到pi+1是直接密度可达的,i为从1到(m-1)的整数,则称p1到pm是密度可达的。
生成最终的相似文本块的具体步骤如下:
步骤1、找出文本S中的所有核心可疑相似片段。
步骤2、从文本S的第一个未经本步骤计算的核心可疑相似片段Pi开始,计算核心可疑相似片段Pi的直接密度可达集合Reachable(Pi):Reachable(Pi)={p|Pi到p是直接密度可达的}。
步骤3、对于集合Reachable(Pi)中的每个核心可疑相似片段p,确定其各自的直接密度可达集合Reachable(p),并将其加入Reachable(Pi)。
步骤4、递归执行步骤3,直到Reachable(Pi)的大小不再发生变化。
步骤5、由对可疑相似片段的数据结构的定义可知道,Reachable(Pi)中的每一个可疑相似片段p,都包含一个起始位置索引号(start index)和一个终止位置索引号(end index)。寻找其中最小的起始位置索引号作为相似文本块的起始位置,最大的终止位置索引号作为相似文本块的结束位置。完成该相似文本块的生成。
步骤6、重复步骤2至步骤5,直至文本S中所有的核心可疑相似片段都经过了处理,完成所有相似文本块的生成。
采用本发明方法得到的相似文本块,能够应用在抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域,判断两篇文本是否相似。
Claims (5)
1.一种基于上下文关联的中文相似性比较方法,其特征在于,该方法具体包括如下步骤:
步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词,然后为每一个文本建立倒排表,具体是:通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;
步骤2、对倒排表进行相似性检测,得到可疑相似片段,具体是:
步骤2.1、首先使用倒排表对中心词进行映射:若词X同时在文本S的倒排表和文本D的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度n=2r+1的一对可疑相似片段;
步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;
所述的文本S对文本D的相似度RS,D具体通过式(1)得到:
αi表示第i个词的权重向量,s表示候选片段,s∈文本S,d表示待检测片段,d∈文本D,F(s)表示片段s的词汇向量,F(d)表示片段d的词汇向量,N表示文本S和文本D中包含的词语的总个数;
文本D对文本S的相似度RD,S类似RS,D能够得到;
步骤3、对可疑相似片段进行聚合,生成相似文本块。
2.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于,步骤2.1中所述的r为2。
3.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于,步骤2中所述的可疑相似片段,其数据结构包括如下元素:包含该可疑相似片段s与d的相似度rsf(s,d)、片段s在文本S中的起始位置索引号s_StartIndex、片段s在文本S中的终止 位置索引号s_EndIndex、片段d在文本D中的起始位置索引号d_StartIndex和片段d在文本D中的终止位置索引号d_EndIndex。
4.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于,步骤3中所述的生成最终的相似文本块的具体步骤如下:
步骤1、找出文本S的所有核心可疑相似片段;
步骤2、从文本S的第一个未经本步骤计算的核心可疑相似片段Pi开始,计算核心可疑相似片段Pi的直接密度可达集合Reachable(Pi):Reachable(Pi)={p|Pi到p是直接密度可达的};所述的直接密度可达定义为:给定一个可疑相似片段集合C,对于可疑相似片段p,q∈C,若p在q的ε邻域内,而q是一个核心可疑相似片段,则称从p到q是直接密度可达的;所述核心可疑相似片段定义为:如果可疑相似片段邻域内至少包含最小数目为K的可疑相似片段,则称该可疑相似片段为K的核心可疑相似片段,在K值明确时,简称为核心可疑相似片段;
步骤3、对于集合Reachable(Pi)中的每个核心可疑相似片段p,确定其直接密度可达集合Reachable(p),并将其加入Reachable(Pi);
步骤4、递归执行步骤3,直到Reachable(Pi)的大小不再发生变化;
步骤5、寻找集合Reachable(Pi)中的每一个可疑相似片段p的起始位置索引号和终止位置索引号,将其中最小的起始位置索引号作为生成相似文本块的起始位置,最大的终止位置索引号作为相似文本块的结束位置;
步骤6、重复步骤2至步骤5,直至文本S中所有的核心可疑相似片段都经过了处理,完成所有相似文本块的生成。
5.根据权利要求4所述的一种基于上下文关联的中文相似性比较方法,其特征在于,所述的可疑相似片段,在半径r取2情况下,设置ε取15~25,K取2~5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110303533 CN102314418B (zh) | 2011-10-09 | 2011-10-09 | 一种基于上下文关联的中文相似性比较方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110303533 CN102314418B (zh) | 2011-10-09 | 2011-10-09 | 一种基于上下文关联的中文相似性比较方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102314418A CN102314418A (zh) | 2012-01-11 |
CN102314418B true CN102314418B (zh) | 2013-07-24 |
Family
ID=45427601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110303533 Expired - Fee Related CN102314418B (zh) | 2011-10-09 | 2011-10-09 | 一种基于上下文关联的中文相似性比较方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102314418B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750344B (zh) * | 2012-06-06 | 2015-02-04 | 新浪网技术(中国)有限公司 | 基于知识问答平台的回答排重方法及装置 |
CN102750341B (zh) * | 2012-06-06 | 2015-02-11 | 宇龙计算机通信科技(深圳)有限公司 | 微博显示方法和系统 |
CN103176962B (zh) * | 2013-03-08 | 2015-11-04 | 深圳先进技术研究院 | 文本相似度的统计方法及系统 |
CN107766319B (zh) | 2016-08-19 | 2021-05-18 | 华为技术有限公司 | 序列转换方法及装置 |
CN106844625B (zh) * | 2017-01-17 | 2020-07-28 | 清华大学 | 银行运维规章制度变更的合规性查验方法及装置 |
KR102400514B1 (ko) * | 2017-07-10 | 2022-05-20 | 인투픽스 | 디지털 데이터 압축을 위한 방법 및 디바이스 |
CN108829780B (zh) * | 2018-05-31 | 2022-05-24 | 北京万方数据股份有限公司 | 文本检测方法、装置、计算设备及计算机可读存储介质 |
CN110866407B (zh) * | 2018-08-17 | 2024-03-01 | 阿里巴巴集团控股有限公司 | 确定互译文本及文本间相似度分析方法、装置及设备 |
CN109710574B (zh) * | 2018-12-25 | 2020-08-11 | 东软集团股份有限公司 | 一种从文献中提取关键信息的方法和装置 |
CN111913912A (zh) * | 2020-07-16 | 2020-11-10 | 北京字节跳动网络技术有限公司 | 文件处理方法、文件匹配方法、装置、电子设备和介质 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
CN112883704B (zh) * | 2021-04-29 | 2021-07-16 | 南京视察者智能科技有限公司 | 一种大数据相似文本去重预处理方法、装置及终端设备 |
CN116340467B (zh) * | 2023-05-11 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、及计算机可读存储介质 |
CN117592455B (zh) * | 2023-11-29 | 2024-07-19 | 云南大学 | 一种文本的动态可变邻近语义连贯性评估方法与装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153361A (ja) * | 1997-08-05 | 1999-02-26 | Hitachi Ltd | 文書と付加情報間の対応付け方法 |
CN100416570C (zh) * | 2006-09-22 | 2008-09-03 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
CN101196898A (zh) * | 2007-08-21 | 2008-06-11 | 新百丽鞋业(深圳)有限公司 | 将词组索引技术应用在互联网搜索引擎中的方法 |
CN101620616A (zh) * | 2009-05-07 | 2010-01-06 | 北京理工大学 | 一种基于小世界特性的中文近似网页去重方法 |
-
2011
- 2011-10-09 CN CN 201110303533 patent/CN102314418B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102314418A (zh) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102314418B (zh) | 一种基于上下文关联的中文相似性比较方法 | |
CN108804495B (zh) | 一种基于增强语义的自动文本摘要方法 | |
Wang et al. | Integrating extractive and abstractive models for long text summarization | |
CN102945228B (zh) | 一种基于文本分割技术的多文档文摘方法 | |
CN106909655B (zh) | 基于产生式别名挖掘的知识图谱实体发现和链接方法 | |
US8447588B2 (en) | Region-matching transducers for natural language processing | |
US8266169B2 (en) | Complex queries for corpus indexing and search | |
US8510097B2 (en) | Region-matching transducers for text-characterization | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN110489745B (zh) | 基于引文网络的论文文本相似性的检测方法 | |
CN110134942B (zh) | 文本热点提取方法及装置 | |
CN107871002B (zh) | 一种基于指纹融合的跨语言剽窃检测方法 | |
CN105912514A (zh) | 基于指纹特征的文本复制检测系统及方法 | |
CN113377927A (zh) | 一种相似文档检测方法、装置、电子设备及存储介质 | |
CN111680509A (zh) | 基于共现语言网络的文本关键词自动抽取方法和装置 | |
CN104216968A (zh) | 一种基于文件相似度的排重方法及系统 | |
CN106407195B (zh) | 用于网页消重的方法和系统 | |
Iyer et al. | Style Change Detection Using BERT. | |
Ghannay et al. | Acoustic Word Embeddings for ASR Error Detection. | |
CN110019674A (zh) | 一种文本抄袭检测方法及系统 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
CN103049434B (zh) | 一种变形词证认系统及证认方法 | |
CN114138936A (zh) | 一种文本摘要的生成方法、装置、电子设备和存储介质 | |
Wang et al. | Exploiting sentence-level features for near-duplicate document detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130724 Termination date: 20141009 |
|
EXPY | Termination of patent right or utility model |