CN113688954A - 一种计算文本相似度的方法、系统、设备和存储介质 - Google Patents
一种计算文本相似度的方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN113688954A CN113688954A CN202111240614.3A CN202111240614A CN113688954A CN 113688954 A CN113688954 A CN 113688954A CN 202111240614 A CN202111240614 A CN 202111240614A CN 113688954 A CN113688954 A CN 113688954A
- Authority
- CN
- China
- Prior art keywords
- text
- compared
- word
- matching
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 88
- 230000011218 segmentation Effects 0.000 claims abstract description 49
- 230000004044 response Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 abstract description 5
- 238000003379 elimination reaction Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 241000220225 Malus Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 241000234295 Musa Species 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000581835 Monodora junodii Species 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种计算文本相似度的方法、系统、设备和存储介质,方法包括:分别将待比对文本和基准文本进行预处理;统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及响应于所述相似度值达到阈值,将相似部分高亮显示。本发明通过对文本进行中文分词和剔除停用词,提高了文本相似度计算的精度,实现了对任意两段文本之间的相似度计算。
Description
技术领域
本发明涉及人工智能领域,更具体地,特别是指一种计算文本相似度的方法、系统、设备和存储介质。
背景技术
伴随着信息和计算机技术在现代社会的广泛应用和普及,各种各样的信息充斥在人们的周围,并在不断地扩大和膨胀。虽然信息爆炸给人类提供了更多便利的条件,但同时也带来了信息冗余和信息过量等诸多困扰人们的问题。
面对这些海量信息,近年来论文抄袭成为长时间困扰学术界的严重问题之一,面对论文文档抄袭对社会的严重影响,很多国内外学者进行了大量相关文本分析的研究,尤其在人工智能领域的中文文本分类,文本分类积累了大量的技术实现方法,主要分为“基于传统机器学习的文本分类”和“基于深度学习的文本分类”。目前中文的文本分类技术和流程主要有:文本预处理、中文分词、构建词向量空间、权重测量(TF-IDF)、分类器、评价分类结果等步骤。基于人工智能领域的文本分析较多,但是应用于论文相似度的研究较少,而且多是针对于短文本的相似度分析,缺少定制化的检测工具,对于简单结构的长文本的论文文档(包含题目、摘要、关键词、正文、参考文献5项基本内容)相似度分析研究较少,此外人工进行文档相似度查看需要耗费大量的时间和精力,缺少定制化、针对性的检测工具,因此亟需基于人工智能领域的中文文本分类算法,研究一种基于长文本的相似度计算方法以及定制化的检测系统,从而能够提供准确的相似度对比结果以及便捷的工具,有效地避免人工对比论文时存在的查全率不高、效率低下、工作量大等问题。
目前关于文本相似度的研究主要集中在文本查重中涉及的各种算法的研究,例如:中文分词算法、向量空间模型、欧几里得距离、皮尔逊相关系数等。而且在人工智能领域对于文本的分类算法也有很多,例如朴素贝叶斯、逻辑回归、支持向量机和随机森林、以及深度学习中的LSTM(Long Short-Term Memory)长短期记忆网络等。因此有关文本相似度的算法研究目前比较成熟,但是关于将人工智能领域的文本分类算法应用在文本查重中的实际案例相对较少,尤其针对于论文查重等特殊性的需求,缺少比较实用的定制化检测工具,而且对于长文本的相似度研究较少。
发明内容
有鉴于此,本发明实施例的目的在于提出一种计算文本相似度的方法、系统、计算机设备及计算机可读存储介质,本发明通过对文本进行中文分词和剔除停用词,提高了文本相似度计算的精度,实现了对任意两段文本之间的相似度计算,设置了相似度阈值,并实现了对相似度结果的排序,可根据对相似或重复内容的突出显示,直观了解不同文本之间的相似程度。
基于上述目的,本发明实施例的一方面提供了一种计算文本相似度的方法,包括如下步骤:分别将待比对文本和基准文本进行预处理;统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及响应于所述相似度值达到阈值,将相似部分高亮显示。
在一些实施方式中,所述分别将待比对文本和基准文本进行预处理包括:分别将待比对文本和基准文本划分成段落,将段落划分成句子,将经过处理得到的每一个句子进行中文分词,并将每一个句子中的停用词进行删除。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词包括:每次取最末端的预设数量个字符作为匹配字段,将所述匹配字段与分词词典中的词条进行匹配;以及响应于匹配成功,将所述匹配字段作为词语进行保留。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词还包括:响应于匹配失败,去掉匹配字段最前面的一个字,将剩下的匹配字段与所述分词词典中的词条进行匹配。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词还包括:响应于匹配字段只有一个字,将所述匹配字段与停用词词库中的词条进行匹配;以及响应于匹配成功,从所述匹配字段的前一个字开始取最末端的预设数量个字符作为匹配字段。
在一些实施方式中,所述根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量包括:根据所述待比对文本和所述基准文本不同词语的种类确定特征向量的维数,根据每种词语分别在所述待比对文本和所述基准文本中的频率确定所述词语在对应的特征向量中的权重。
在一些实施方式中,所述采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值包括:计算所述待比对文本的特征向量和所述基准文本的特征向量的夹角余弦值。
本发明实施例的另一方面,提供了一种计算文本相似度的系统,包括:处理模块,配置用于分别将待比对文本和基准文本进行预处理;转化模块,配置用于统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;计算模块,配置用于采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及显示模块,配置用于响应于所述相似度值达到阈值,将相似部分高亮显示。
本发明实施例的又一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:通过对文本进行中文分词和剔除停用词,提高了文本相似度计算的精度,实现了对任意两段文本之间的相似度计算,设置了相似度阈值,并实现了对相似度结果的排序,可根据对相似或重复内容的突出显示,直观了解不同文本之间的相似程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的计算文本相似度的方法的实施例的示意图;
图2为本发明提供的计算文本相似度的系统的实施例的示意图;
图3为本发明提供的计算文本相似度的计算机设备的实施例的硬件结构示意图;
图4为本发明提供的计算文本相似度的计算机存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明实施例的第一个方面,提出了一种计算文本相似度的方法的实施例。图1示出的是本发明提供的计算文本相似度的方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
S1、分别将待比对文本和基准文本进行预处理;
S2、统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;
S3、采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及
S4、响应于所述相似度值达到阈值,将相似部分高亮显示。
文本数据与非文本数据之间有本质的区别,文本数据属于非结构化的数据,在对文档进行相似度计算时,需要将这些非结构化的文本数据转化为特定的模型(即向量表示),然后计算机才能进一步进行数据处理,但是在建立文本数据的表示模型之前,必须对文档中的文本进行预处理,预处理过程包括:中文分词和停用词处理两部分内容。
分别将待比对文本和基准文本进行预处理。
在一些实施方式中,所述分别将待比对文本和基准文本进行预处理包括:分别将待比对文本和基准文本划分成段落,将段落划分成句子,将经过处理得到的每一个句子进行中文分词,并将每一个句子中的停用词进行删除。文本预处理的第一个关键步骤是“中文分词”,在进行中文分词之前需要将一篇文本进行分段、段落分句,然后将经过处理得到的每一个句子进行中文分词。简单来说,中文分词(Chinese Word Segmentation)是将一串中文汉字序列切分成一个一个独立的词语。分词就是按照一定的规则将连续的汉字序列重新组合成词序列的过程。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词包括:每次取最末端的预设数量个字符作为匹配字段,将所述匹配字段与分词词典中的词条进行匹配;以及响应于匹配成功,将所述匹配字段作为词语进行保留。本发明采用逆向最大匹配算法(Reverse Maximum Matching Method)进行中文分词处理。该方法是从被处理文档的末端开始匹配扫描,每次取最末端的n个字符作为匹配字段,然后与分词词典中的词条进行匹配,若匹配成功,将该匹配字段作为词语进行保留;若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。逆向最大匹配的分词精度更高。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词还包括:响应于匹配失败,去掉匹配字段最前面的一个字,将剩下的匹配字段与所述分词词典中的词条进行匹配。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词还包括:响应于匹配字段只有一个字,将所述匹配字段与停用词词库中的词条进行匹配;以及响应于匹配成功,从所述匹配字段的前一个字开始取最末端的预设数量个字符作为匹配字段。
本发明中所提的中文分词方法的大致流程如下:首先设置字符串最大处理长度为4(中文词语的最大长度一般为4个字符),记录待处理文本的字符总长度。然后从被处理文档的末端开始匹配扫描,每次取最末端的4个字符作为匹配字段,与分词词库中的词条进行匹配:1、若匹配失败,再与停用词库中的词条进行匹配,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配;2、若与分词词库匹配失败,再与停用词库中的词条进行匹配,若匹配成功,增加已处理字符的长度,但该停用词语不记录在分词数组中,然后继续从未处理字符串的末端读取4个字符(若未处理字符串长度小于4,则直接读取该字符串长度),进行匹配;3、若与分词词库匹配成功,将该词语存储到分词数组中,并记录已处理字符的长度,然后继续从未处理字符串的末端读取4个字符(若未处理字符串长度小于4,则直接读取该字符串长度),进行匹配。
文本预处理的第二个关键步骤是“停用词”。在中文文本中,存在着一些对文本内容区别意义不大,但出现频率很高的词,在文本挖掘中,称为停用词。例如“的、了、这、和”等,可以看出这些词在任何一篇中文文档中几乎都会出现,而且这些词对文本也没有贡献率,容易在计算文本相似度时产生较大的误差。因此,很有必要将这些词从文档中剔除,从而达到降维的目的,提高相似度计算的精度。系统通过创建一个停用词表来完成停用词的删除。停用词表中涵盖了几乎所有的停用词,本发明实施例使用停用词表来剔除停用词,对每一个词条,查询其是否位于停用词表中,如果存在则将其从词条串中删除。
统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量。
在一些实施方式中,所述根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量包括:根据所述待比对文本和所述基准文本不同词语的种类确定特征向量的维数,根据每种词语分别在所述待比对文本和所述基准文本中的频率确定所述词语在对应的特征向量中的权重。
本发明实施例中选用向量空间模型算法作为文档相似度计算的方法。在该模型中,以假设词与词之间不相关、没有任何关系为前提,用向量来表示文本,将文本以简单的向量形式来表示,这种计算机制通过为文档中的索引项分配权重来实现,权重需要体现词语在文档中的重要程度。有关于词语的权重计算,系统利用统计的方法获得,通常使用词频来表示。
把文本标识为T,这个文本有n个不同的词,Ti用来表示文本中的每一个词,那么该文本T可以表示为T=(T1,T2,…,Tn),这个文本数据集的特征空间为n维,每一维对应一个词。然后为文本向量的每一维计算相应的值,这个值代表了这个词与该文本之间的相关程度,称为权值,用Wi表示,那么文本向量T可以表示为W=(W1,W2,…,Wn)。将(T1,T2,…,Tn)看成一个n维坐标系中的坐标轴,(W1,W2,…,Wn)为对应的坐标值。这样由(T1,T2,…,Tn)分解而得到的词条矢量就构成了一个文本向量空间,然后该文本向量T就映射成为n维空间中的一个点。权值Wi的计算方法如下:设ni为Ti在文本T中出现的个数(即词频),即为权重值。那么词语权重计算公式为:
Wi=ni i=1,2…n
同理,可以计算出另一个文本T’的文本向量W’=(W’ 1,W’ 2,…,W’ n)。
采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值。
在一些实施方式中,所述采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值包括:计算所述待比对文本的特征向量和所述基准文本的特征向量的夹角余弦值。
两个文本之间的相似度值采用文本向量之间的夹角余弦值进行计算。也叫做Cosine距离,具体公式如下:
响应于所述相似度值达到阈值,将相似部分高亮显示。
下面以一个示例对上述步骤进行说明:
(1)文档内容读取和文本预处理
本发明中要求论文文档以word形式进行存储,论文文档中的题目、摘要和关键词是体现整篇论文的核心和思想,本发明实现了论文文档间这4个不同内容项之间的相似度计算,分别计算题目的相似度、摘要的相似度、关键词和正文的相似度。故首先需要读取文档中这4个内容项的内容。
(2)文本预处理
将上述4项内容(题目、摘要、关键词、正文)读取之后,需要将内容进行文本预处理工作。题目需要利用逆向最大匹配法进行中文分词和停用词剔除,摘要和正文需要进行分句、句子再进行中文分词处理和停用词剔除,关键词部分直接读取、无需再分词。
(3)相似度计算
通过统计词频,将预处理后的4项内容用向量表示。以文本A(我喜欢吃苹果和香蕉)和B(我不喜欢绿色的苹果)为例,计算文本A和B的相似度。文本A分词结果为:我/喜欢/吃/苹果/和/香蕉,文本B分词结果为:我/不/喜欢/绿色/的/苹果。A与B词语的并集为(我,不,喜欢,吃,绿色,苹果,香蕉),以此建立一个7维向量空间直角坐标系,然后通过统计文本A和B中每一个词的词频,作为文本中该词的权重,则两个文本的向量表示为A(1,0,1,1,0,1,1)、B(1,1,1,0,1,1,0),然后计算A和B的夹角余弦值,得到两个文本的相似度值。
本发明实施例通过对文本进行中文分词和剔除停用词,提高了文本相似度计算的精度,实现了对任意两段文本之间的相似度计算,设置了相似度阈值,并实现了对相似度结果的排序,可根据对相似或重复内容的突出显示,直观了解不同文本之间的相似程度。
需要特别指出的是,上述计算文本相似度的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于计算文本相似度的方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种计算文本相似度的系统。如图2所示,系统200包括如下模块:处理模块,配置用于分别将待比对文本和基准文本进行预处理;转化模块,配置用于统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;计算模块,配置用于采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及显示模块,配置用于响应于所述相似度值达到阈值,将相似部分高亮显示。
在一些实施方式中,所述处理模块配置用于:分别将待比对文本和基准文本划分成段落,将段落划分成句子,将经过处理得到的每一个句子进行中文分词,并将每一个句子中的停用词进行删除。
在一些实施方式中,所述处理模块还配置用于:每次取最末端的预设数量个字符作为匹配字段,将所述匹配字段与分词词典中的词条进行匹配;以及响应于匹配成功,将所述匹配字段作为词语进行保留。
在一些实施方式中,所述处理模块还配置用于:响应于匹配失败,去掉匹配字段最前面的一个字,将剩下的匹配字段与所述分词词典中的词条进行匹配。
在一些实施方式中,所述处理模块还配置用于:响应于匹配字段只有一个字,将所述匹配字段与停用词词库中的词条进行匹配;以及响应于匹配成功,从所述匹配字段的前一个字开始取最末端的预设数量个字符作为匹配字段。
在一些实施方式中,所述转化模块配置用于:根据所述待比对文本和所述基准文本不同词语的种类确定特征向量的维数,根据每种词语分别在所述待比对文本和所述基准文本中的频率确定所述词语在对应的特征向量中的权重。
在一些实施方式中,所述计算模块配置用于:计算所述待比对文本的特征向量和所述基准文本的特征向量的夹角余弦值。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:S1、分别将待比对文本和基准文本进行预处理;S2、统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;S3、采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及S4、响应于所述相似度值达到阈值,将相似部分高亮显示。
在一些实施方式中,所述分别将待比对文本和基准文本进行预处理包括:分别将待比对文本和基准文本划分成段落,将段落划分成句子,将经过处理得到的每一个句子进行中文分词,并将每一个句子中的停用词进行删除。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词包括:每次取最末端的预设数量个字符作为匹配字段,将所述匹配字段与分词词典中的词条进行匹配;以及响应于匹配成功,将所述匹配字段作为词语进行保留。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词还包括:响应于匹配失败,去掉匹配字段最前面的一个字,将剩下的匹配字段与所述分词词典中的词条进行匹配。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词还包括:响应于匹配字段只有一个字,将所述匹配字段与停用词词库中的词条进行匹配;以及响应于匹配成功,从所述匹配字段的前一个字开始取最末端的预设数量个字符作为匹配字段。
在一些实施方式中,所述根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量包括:根据所述待比对文本和所述基准文本不同词语的种类确定特征向量的维数,根据每种词语分别在所述待比对文本和所述基准文本中的频率确定所述词语在对应的特征向量中的权重。
在一些实施方式中,所述采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值包括:计算所述待比对文本的特征向量和所述基准文本的特征向量的夹角余弦值。
如图3所示,为本发明提供的上述计算文本相似度的计算机设备的一个实施例的硬件结构示意图。
以如图3所示的装置为例,在该装置中包括一个处理器301以及一个存储器302。
处理器301和存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的计算文本相似度的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现计算文本相似度的方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算文本相似度的方法的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个计算文本相似度的方法对应的计算机指令303存储在存储器302中,当被处理器301执行时,执行上述任意方法实施例中的计算文本相似度的方法。
执行上述计算文本相似度的方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行计算文本相似度的方法的计算机程序。
如图4所示,为本发明提供的上述计算文本相似度的计算机存储介质的一个实施例的示意图。以如图4所示的计算机存储介质为例,计算机可读存储介质401存储有被处理器执行时执行如上方法的计算机程序402。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,计算文本相似度的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种计算文本相似度的方法,其特征在于,包括如下步骤:
分别将待比对文本和基准文本进行预处理;
统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;
采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及
响应于所述相似度值达到阈值,将相似部分高亮显示。
2.根据权利要求1所述的方法,其特征在于,所述分别将待比对文本和基准文本进行预处理包括:
分别将待比对文本和基准文本划分成段落,将段落划分成句子,将经过处理得到的每一个句子进行中文分词,并将每一个句子中的停用词进行删除。
3.根据权利要求2所述的方法,其特征在于,所述将经过处理得到的每一个句子进行中文分词包括:
每次取最末端的预设数量个字符作为匹配字段,将所述匹配字段与分词词典中的词条进行匹配;
响应于匹配成功,将所述匹配字段作为词语进行保留。
4.根据权利要求3所述的方法,其特征在于,所述将经过处理得到的每一个句子进行中文分词还包括:
响应于匹配失败,去掉匹配字段最前面的一个字,将剩下的匹配字段与所述分词词典中的词条进行匹配。
5.根据权利要求4所述的方法,其特征在于,所述将经过处理得到的每一个句子进行中文分词还包括:
响应于匹配字段只有一个字,将所述匹配字段与停用词词库中的词条进行匹配;以及
响应于匹配成功,从所述匹配字段的前一个字开始取最末端的预设数量个字符作为匹配字段。
6.根据权利要求1所述的方法,其特征在于,所述根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量包括:
根据所述待比对文本和所述基准文本不同词语的种类确定特征向量的维数,根据每种词语分别在所述待比对文本和所述基准文本中的频率确定所述词语在对应的特征向量中的权重。
7.根据权利要求1所述的方法,其特征在于,所述采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值包括:
计算所述待比对文本的特征向量和所述基准文本的特征向量的夹角余弦值。
8.一种计算文本相似度的系统,其特征在于,包括:
处理模块,配置用于分别将待比对文本和基准文本进行预处理;
转化模块,配置用于统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;
计算模块,配置用于采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及
显示模块,配置用于响应于所述相似度值达到阈值,将相似部分高亮显示。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240614.3A CN113688954A (zh) | 2021-10-25 | 2021-10-25 | 一种计算文本相似度的方法、系统、设备和存储介质 |
PCT/CN2022/090187 WO2023071118A1 (zh) | 2021-10-25 | 2022-04-29 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240614.3A CN113688954A (zh) | 2021-10-25 | 2021-10-25 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113688954A true CN113688954A (zh) | 2021-11-23 |
Family
ID=78587784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111240614.3A Pending CN113688954A (zh) | 2021-10-25 | 2021-10-25 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113688954A (zh) |
WO (1) | WO2023071118A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051869A (zh) * | 2021-05-24 | 2021-06-29 | 杭州有数金融信息服务有限公司 | 一种结合语义识别实现标识文本差异内容的方法及系统 |
CN114139523A (zh) * | 2021-11-25 | 2022-03-04 | 北京中交兴路信息科技有限公司 | 名称比对的方法、装置、电子设备及介质 |
CN114742029A (zh) * | 2022-04-20 | 2022-07-12 | 中国传媒大学 | 一种汉语文本比对方法、存储介质及设备 |
CN116010603A (zh) * | 2023-01-31 | 2023-04-25 | 浙江中电远为科技有限公司 | 一种用于商业文本分类的特征聚类降维方法 |
WO2023071118A1 (zh) * | 2021-10-25 | 2023-05-04 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484830B (zh) * | 2023-06-26 | 2023-12-26 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于大数据的互联网广告智能监测系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN108710613A (zh) * | 2018-05-22 | 2018-10-26 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
CN111767724A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种文本相似度计算方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102086749B1 (ko) * | 2017-02-02 | 2020-03-09 | 단국대학교 산학협력단 | 텍스트 마이닝을 이용한 안드로이드 실행 파일의 유사도 측정 시스템 및 방법 |
CN112560444A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN111104794B (zh) * | 2019-12-25 | 2023-07-04 | 同方知网数字出版技术股份有限公司 | 一种基于主题词的文本相似度匹配方法 |
CN113688954A (zh) * | 2021-10-25 | 2021-11-23 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
-
2021
- 2021-10-25 CN CN202111240614.3A patent/CN113688954A/zh active Pending
-
2022
- 2022-04-29 WO PCT/CN2022/090187 patent/WO2023071118A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN108710613A (zh) * | 2018-05-22 | 2018-10-26 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
CN111767724A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种文本相似度计算方法及系统 |
Non-Patent Citations (1)
Title |
---|
张志军: "《大数据技术在高校中的应用研究》", 30 September 2017 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051869A (zh) * | 2021-05-24 | 2021-06-29 | 杭州有数金融信息服务有限公司 | 一种结合语义识别实现标识文本差异内容的方法及系统 |
CN113051869B (zh) * | 2021-05-24 | 2023-08-08 | 浙江有数数智科技有限公司 | 一种结合语义识别实现标识文本差异内容的方法及系统 |
WO2023071118A1 (zh) * | 2021-10-25 | 2023-05-04 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
CN114139523A (zh) * | 2021-11-25 | 2022-03-04 | 北京中交兴路信息科技有限公司 | 名称比对的方法、装置、电子设备及介质 |
CN114742029A (zh) * | 2022-04-20 | 2022-07-12 | 中国传媒大学 | 一种汉语文本比对方法、存储介质及设备 |
CN114742029B (zh) * | 2022-04-20 | 2022-12-16 | 中国传媒大学 | 一种汉语文本比对方法、存储介质及设备 |
CN116010603A (zh) * | 2023-01-31 | 2023-04-25 | 浙江中电远为科技有限公司 | 一种用于商业文本分类的特征聚类降维方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023071118A1 (zh) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113688954A (zh) | 一种计算文本相似度的方法、系统、设备和存储介质 | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
US10346257B2 (en) | Method and device for deduplicating web page | |
CN108038096A (zh) | 知识库文档快速检索方法、应用服务器计算机可读存储介质 | |
CN109344399B (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN112417863B (zh) | 基于预训练词向量模型与随机森林算法的中文文本分类方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111325033B (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN115098690A (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN111651675A (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
CN114202443A (zh) | 政策分类方法、装置、设备及存储介质 | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN113792131B (zh) | 一种关键词的提取方法、装置、电子设备及存储介质 | |
CN115860004A (zh) | 文本语义相似度匹配方法、装置、设备及存储介质 | |
US20090234836A1 (en) | Multi-term search result with unsupervised query segmentation method and apparatus | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
Zulkifeli et al. | Classic term weighting technique for mining web content outliers | |
Khalaf et al. | News retrieval based on short queries expansion and best matching | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211123 |
|
RJ01 | Rejection of invention patent application after publication |