CN111767724A - 一种文本相似度计算方法及系统 - Google Patents

一种文本相似度计算方法及系统 Download PDF

Info

Publication number
CN111767724A
CN111767724A CN202010530241.2A CN202010530241A CN111767724A CN 111767724 A CN111767724 A CN 111767724A CN 202010530241 A CN202010530241 A CN 202010530241A CN 111767724 A CN111767724 A CN 111767724A
Authority
CN
China
Prior art keywords
word
segmentation result
sentence
vector
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010530241.2A
Other languages
English (en)
Inventor
余祥
李强
陈立哲
朱峰
李腾飞
顾正海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Lvben Technology Co ltd
Original Assignee
Anhui Lvben Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Lvben Technology Co ltd filed Critical Anhui Lvben Technology Co ltd
Priority to CN202010530241.2A priority Critical patent/CN111767724A/zh
Publication of CN111767724A publication Critical patent/CN111767724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本发明公开了一种文本相似度计算方法及系统,属于信息检索技术领域,包括:对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。本发明中相似度计算是基于当前文本,依赖少,在保证较高准确的同时能够保持较快的速度。

Description

一种文本相似度计算方法及系统
技术领域
本发明涉及信息检索技术领域,特别涉及一种基于相似度计算的文本匹配方法。
背景技术
文本相似度计算是信息检索处理中一项很重要的研究工作,电子文件密级甄别准确性很大程度上取决于语句相似度计算的准确性。
传统的文本相似度计算有编辑距离计算、简单单词匹配(比较文本出现相同单词个数),基于语料库和知识库的语义相似度计算等方法。编辑距离或简单单词匹配以及其改进方法在比较结果准确性上并不高,基于语料库和知识库的文本相似度计算方法主要依赖语料库和知识库,预处理要求较高,且训练时间长,时间复杂度高。
发明内容
本发明的目的在于克服上述背景技术中的不足,提供一种准确的文本相似度计算方案。
为实现以上目的,本发明采用一种文本相似度计算方法,包括如下步骤:
对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;
对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;
基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。
进一步地,所述对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量,包括:
结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征;
基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。
进一步地,所述结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征,包括:
分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量;
将每个语句作为语句序列中的一个元素,计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量;
利用同一单词的局部上下文特征向量和全局上下文特征向量,得到该单词在语境中的词义表示特征。
进一步地,所述基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量,包括:
基于组合语义模型将句子分析成一棵依存句法树,并使用句法分析工具进行句法分析;
将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图;
从叶子节点开始,按照树所表示的节点层次关系,从底层叶子节点开始逐层向上进行有序的组合,得到所述单词对应的整个文本的句意表示向量。
进一步地,所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度,具体为:
利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D1,D2),公式如下:
Figure BDA0002535124030000031
其中,score1k表示文本D1的各个维度的特征向量,score2k表示文本D2的各个维度的特征向量,k表示单个向量维度,n表示向量维度,D1,D2分别表示需要比较的两个文本。
进一步地,在所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度之后,还包括:
将所述相似度sim(D1,D2)与相似度阈值λ进行比较;
当λ≤sim(D1,D2)时,表示两个语句相似;
当λ>sim(D1,D2)时,表示两个语句不相似。
另一方面,采用一种文本相似度计算系统,包括分词模块、向量表示模块和相似度计算模块,其中:
分词模块用于对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;
向量表示模块用于对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;
相似度计算模块基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。
进一步地,所述向量表示模块包括词义表示特征单元和句意表示单元;
词义表示特征单元用于结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征;
句意表示单元用于基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。
进一步地,所述词义表示特征单元包括局部上下文特征向量计算子单元、全局上下文特征向量计算子单元和词义表示特征子单元;
局部上下文特征向量计算子单元用于分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量;
全局上下文特征向量计算子单元用于将每个语句作为语句序列中的一个元素,计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量;
词义表示特征子单元用于利用同一单词的局部上下文特征向量和全局上下文特征向量,得到该单词在语境中的词义表示特征。
进一步地,所述句意表示单元包括句法分析子单元、变换子单元和句意表示子单元;
句法分析子单元用于基于组合语义模型将句子分析成一棵依存句法树,并使用句法分析工具进行句法分析;
变换子单元用于将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图;
句意表示子单元用于从叶子节点开始,按照树所表示的节点层次关系,从底层叶子节点开始逐层向上进行有序的组合,得到所述单词对应的整个文本的句意表示向量。
与现有技术相比,本发明存在以下技术效果:本发明针对待比较两个文本对应的分词结果中的单词,学习单词在语境中的表示,并进行词义的组合,形成整个文本的句意表示向量,根据两个短文本的句意表示向量来计算两个短文本之间的相似性。相似度计算是基于当前文本,依赖少,在保证较高准确的同时能够保持较快的速度。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种文本相似度计算方法的流程示意图;
图2是一种文本相似度计算系统的结构示意图;
图3是“如何增加提现额度”得到的句子依存树;
图4是组合关系树状层级图示例。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种文本相似度计算方法,包括如下步骤S1至S3:
S1、对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;
需要说明的是,本实施例采用的分词处理方法,可采用基于多层隐马模型的分词方法,也可以采用其他类似的分词方法。得到的分词结果是一个词语的序列,也就是说将一个文本进行划分,比如:李鸿章故居是一个合肥的旅游景点。划分为:李鸿章故居/是/一个/合肥/的/旅游景点。上述语句文本的分词结果是一个包括6个词语的单词序列。
S2、对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;
S3、基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。
进一步地,上述步骤S2:对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量,包括如下细分步骤S21至S22:
S21、结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征;
S22、基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。
进一步地,上述步骤S21中,结合所述分词结果中的单词在局部和全局的上下文信息,学习单词在语境中的词义表示特征,具体包括如下步骤S211至S213:
目标词表示的特征提取公式:
Cs,d=∑w∈V max(0,1-g(s,d)+g(sw,d))
其中,Cs,d表示文档d中出现的分词序列s的特征,sw是s中目标词(即分词结果中的单词序列中的一个单词)替换成词汇表V(词汇表来自语料库,来自多次分词结果的集合)中词w后的序列,g(…)是一个神经网络模型计算公式,用来计算单词的词义;对于词汇表V中每一个词w,希望g(s,d)的值比g(sw,d)大,且差距控制在1以内,从而优化每一对(s,d)的排序作用。
S211、根据所述单词在所处的分词序列s计算该单词的局部上下文特征向量scorel,局部上下文特征由目标词在所处的分词序列s计算而来,具体过程如下:
首先将分词序列s转换为一个有序向量x=(x1,x2,…,xm-1,xm),xi表示词序列中第i个词语,x是矩阵L∈Rn×|V|的一个列,|V|表示的是词汇表的大小,矩阵L中的每一列都是一个分词序列向量,在训练过程中不断变化其中的数值。
使用带有一个循环神经网络或递归网络来计算局部上下文特征结果,其中网络的输入是文档和分词序列,输出是局部上下文特征向量值:
a1=f(w1[x1;x2;…;xm-1;xm]+b1)
scorel=w2a2+b2
其中,[x1;x2;…;xm-1;xm]是组成分词序列s的m个词的向量表示,f是一个元素智能激活函数,例如双曲正切函数,a1∈Rh×1是有h个隐藏节点的隐藏层的激活函数,w1∈Rh×(mn)和w2∈R1×h是第一层和第二层神经网络的权重,b1和b2是隐藏层的平衡因子。这里的循环神经网络或递归神经网络,主要由输入层(Input Layer)、隐藏层Hidden Layer)、输出层(Output Layer)三部分组成。
需要说明的是,所有文档组成一个文档序列(集合),对每个文档进行分词可以得到包含单词序列的一个分词结果。语句序列由文本根据标点符号进行划分,语句可以作为相似度计算的基本单位。
对于全局上下文特征的获取,是将所有的文档作为一个序列,每个文档作为序列中的一个元素。这里所有文档,一般是指建立的文献库或语料库,此文献库或语料库与当前需要比较的文本专业性接近,如步骤S212。
S212、计算单词的全局上下文特征向量scoreg,全局上下文特征的提取是将所有文档作为一个序列,每个文档作为文档序列中的一个元素d=(d1,d2,…,dk),计算文档中所有分词向量的加权平均值:
Figure BDA0002535124030000091
其中,w(ti)是计算分词ti在语句中权重的函数,使用逆向文件频率IDF来计算权重,使用两层神经网络(即将递归神经网络递归两次)来计算全局上下文特征向量scoreg,计算过程与上面类似:
Figure BDA0002535124030000092
Figure BDA0002535124030000093
其中,[c;xm]是文本的加权平均值C和上下文分词序列s中最后目标分词xm组成的向量关系,
Figure BDA0002535124030000094
是有h(g)个隐藏节点的隐藏层的激活函数,
Figure BDA0002535124030000095
Figure BDA0002535124030000096
是第一层和第二层神经网络的权重,
Figure BDA0002535124030000097
Figure BDA0002535124030000098
是平衡因子。
需要说明的是,w(ti)即计算分词权重的函数,本实施例使用的是常见的逆向文件频率计算方法,是一种用于信息检索与数据挖掘的常用加权技术。其主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
S213、利用该单词的局部上下文特征向量scorel和该单词的全局上下文特征向量scoreg,得到该单词在语境中的词义表示特征score,具体为将这两个子向量相加得到:score=scorel+scoreg
需要说明的是,局部上下文特征scorel保留了词序信息和句法信息,而全局特征scoreg使用了类似于词袋模型的加权平均分,使得最后的结果能够捕捉到更多的句意和文档的主题信息。在实际模型训练中,使用目标词的前后各5个词作为局部上下文信息。
进一步地,文本的表达的含义由构成文本的各个部分的含义及其之间的组合方式共同作用而成。通过依存句法分析研究语句的组成结构,分析各个部分之间的作用关系,进而结合词义表示模型,把语句各组成部分的含义进行组合计算,最终得到整个语句的含义表示。
上述步骤S22:基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量,具体包括如下步骤S221至S223:
S221、基于组合语义模型进行词义的组合,将句子分析成一棵依存句法树,并使用句法分析工具进行句法分析;
需要说明的是,组合语义模型即通过组合语义模型对词义表示特征进行组合。组合语义模型主要包括句法分析和语义组合构建。句法分析可以得到句子各单词之间的依存关系。
一个句子中存在一个成分称之为根(root),这个成分不依赖于其它成分,找到root根后,根据依存关系构建句子的组合关系树状层级图,并从树的叶子节点开始计算父节点的表示向量,最终得到整个句子的表示向量。
需要说明的是,本实施例中使用句法分析工具分析得到的结果是语句的依存关系,表示为一个句法的树形结构。
S222、将分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图;
这里提到的依存关系,即组合句子的各个单词之间的关系,有一个核心,其它单词依此通过依存关系展开。通过依存关系可以更好的理解句子,找到句子的核心语义。每一个句子都可以分析成一颗依存句法树,这颗树描述了组成句子的各个词语之间的依存关系,也就是指出了词语之间在句法上的搭配,这种搭配关系是和语义相关的。比如:
“如何增加提现额度”得到的句子依存树如图3所示,其中:
HED:表示依存句法关系;ADV:表示语义角色类型语义角色类型。
句子依存树的构建方法:
第一步:找到句子的HED(核心)作为ROOT根;
第二步:找到依存于HED的其它单词作为叶子节点;
第三步:循环迭代依次展开完成树的构建。
分析得到的结果是语句的依存关系,表示为一个句法的树形结构。由于语义组合构建需要使用到语句不同成分之间的语义表达的组合关系,需要将上述工具分析得到的结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图,如图4所示。
S223、从叶子节点开始,按照树所表示的节点层次关系,从底层叶子节点开始逐层向上进行有序的组合,得到所述单词对应的整个文本的句意表示,具体为:利用如下公式计算父节点:
p=α×pi+β×pj
其中,p是子节点pi和pj的父节点,α和β是加权因子,整个句子的句意表示向量由上述公式迭代计算得到。
进一步地,上述步骤S3:基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度,具体为:
利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D1,D2),公式如下:
Figure BDA0002535124030000121
其中,score1k表示文本D1的各个维度的特征向量,score2k表示文本D2的各个维度的特征向量,k表示单个向量维度,n表示向量维度,D1,D2分别表示需要比较的两个文本。
应当理解的是,文本的特征向量包括了两个维度,即局部上下文和全局上下文特征向量,与前述对应。
进一步地,在上述步骤S3:基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度之后,还包括:
将所述相似度sim(D1,D2)与相似度阈值λ进行比较;
当λ≤sim(D1,D2)时,表示两个语句相似;
当λ>sim(D1,D2)时,表示两个语句不相似。
需要说明的是,这里的相似度阈值是通过多次试验,人工取值的,取值范围一般在0.3-0.6之间。
如图2所示,本实施例公开了一种文本相似度计算系统,包括:分词模块10、向量表示模块20和相似度计算模块30,其中:
分词模块10用于对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;
向量表示模块20用于对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;
相似度计算模块30基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。
进一步地,所述向量表示模块20包括词义表示特征单元和句意表示单元;
词义表示特征单元用于结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征;
句意表示单元用于基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。
进一步地,所述词义表示特征单元包括局部上下文特征向量计算子单元、全局上下文特征向量计算子单元和词义表示特征子单元;
局部上下文特征向量计算子单元用于分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量;
全局上下文特征向量计算子单元用于将每个语句作为语句序列中的一个元素,计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量;
词义表示特征子单元用于利用同一单词的局部上下文特征向量和全局上下文特征向量,得到该单词在语境中的词义表示特征。
进一步地,所述句意表示单元包括句法分析子单元、变换子单元和句意表示子单元;
句法分析子单元用于基于组合语义模型将句子分析成一棵依存句法树,并使用句法分析工具进行句法分析;
变换子单元用于将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图;
句意表示子单元用于从叶子节点开始,按照树所表示的节点层次关系,从底层叶子节点开始逐层向上进行有序的组合,得到所述单词对应的整个文本的句意表示向量。
进一步地,所述相似度计算模块30用于利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D1,D2),公式如下:
Figure BDA0002535124030000141
其中,score1k表示文本D1的各个维度的特征向量,score2k表示文本D2的各个维度的特征向量,k表示单个向量维度,n表示向量维度,D1,D2分别表示需要比较的两个文本。
需要说明的是,该处公开的文本相似度计算系统与上述实施例公开的文本相似度计算方法具有相同或相应的技术特征,可实现相同的技术效果,该处关于具体技术细节不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本相似度计算方法,其特征在于,包括:
对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;
对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;
基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。
2.如权利要求1所述的文本相似度计算方法,其特征在于,所述对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量,包括:
结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征;
基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。
3.如权利要求2所述的文本相似度计算方法,其特征在于,所述结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征,包括:
分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量;
将每个语句作为语句序列中的一个元素,计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量;
利用同一单词的局部上下文特征向量和全局上下文特征向量,得到该单词在语境中的词义表示特征。
4.如权利要求2所述的文本相似度计算方法,其特征在于,所述基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量,包括:
基于组合语义模型将句子分析成一棵依存句法树,并使用句法分析工具进行句法分析;
将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图;
从叶子节点开始,按照树所表示的节点层次关系,从底层叶子节点开始逐层向上进行有序的组合,得到所述单词对应的整个文本的句意表示向量。
5.如权利要求1所述的文本相似度计算方法,其特征在于,所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度,具体为:
利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D1,D2),公式如下:
Figure FDA0002535124020000031
其中,score1k表示文本D1的各个维度的特征向量,score2k表示文本D2的各个维度的特征向量,k表示单个向量维度,n表示向量维度,D1,D2分别表示需要比较的两个文本。
6.如权利要求5所述的文本相似度计算方法,其特征在于,在所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度之后,还包括:
将所述相似度sim(D1,D2)与相似度阈值λ进行比较;
当λ≤sim(D1,D2)时,表示两个语句相似;
当λ>sim(D1,D2)时,表示两个语句不相似。
7.一种文本相似度计算系统,其特征在于,包括:分词模块、向量表示模块和相似度计算模块,其中:
分词模块用于对两待比较文本分别进行分词处理,得到两待比较文本对应的分词结果,分别为第一分词结果和第二分词结果;
向量表示模块用于对于第一分词结果中的单词和第二分词结果中的单词,分别形成单词所在整个文本的句意表示向量,得到两待比较文本对应的句意表示向量;
相似度计算模块基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。
8.如权利要求7所述的文本相似度计算系统,其特征在于,所述向量表示模块包括词义表示特征单元和句意表示单元;
词义表示特征单元用于结合所述分词结果中的单词在局部和全局的上下文信息,学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征;
句意表示单元用于基于组合语义模型进行词义的组合,形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。
9.如权利要求8所述的文本相似度计算系统,其特征在于,所述词义表示特征单元包括局部上下文特征向量计算子单元、全局上下文特征向量计算子单元和词义表示特征子单元;
局部上下文特征向量计算子单元用于分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量;
全局上下文特征向量计算子单元用于将每个语句作为语句序列中的一个元素,计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量;
词义表示特征子单元用于利用同一单词的局部上下文特征向量和全局上下文特征向量,得到该单词在语境中的词义表示特征。
10.如权利要求8所述的文本相似度计算系统,其特征在于,所述句意表示单元包括句法分析子单元、变换子单元和句意表示子单元;
句法分析子单元用于基于组合语义模型将句子分析成一棵依存句法树,并使用句法分析工具进行句法分析;
变换子单元用于将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图;
句意表示子单元用于从叶子节点开始,按照树所表示的节点层次关系,从底层叶子节点开始逐层向上进行有序的组合,得到所述单词对应的整个文本的句意表示向量。
CN202010530241.2A 2020-06-11 2020-06-11 一种文本相似度计算方法及系统 Pending CN111767724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010530241.2A CN111767724A (zh) 2020-06-11 2020-06-11 一种文本相似度计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010530241.2A CN111767724A (zh) 2020-06-11 2020-06-11 一种文本相似度计算方法及系统

Publications (1)

Publication Number Publication Date
CN111767724A true CN111767724A (zh) 2020-10-13

Family

ID=72720779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010530241.2A Pending CN111767724A (zh) 2020-06-11 2020-06-11 一种文本相似度计算方法及系统

Country Status (1)

Country Link
CN (1) CN111767724A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688954A (zh) * 2021-10-25 2021-11-23 苏州浪潮智能科技有限公司 一种计算文本相似度的方法、系统、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN109597994A (zh) * 2018-12-04 2019-04-09 挖财网络技术有限公司 短文本问题语义匹配方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN109597994A (zh) * 2018-12-04 2019-04-09 挖财网络技术有限公司 短文本问题语义匹配方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖和 等: "神经网络与组合语义在文本相似度中的应用", 计算机工程与应用, pages 139 - 142 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688954A (zh) * 2021-10-25 2021-11-23 苏州浪潮智能科技有限公司 一种计算文本相似度的方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110688834B (zh) 基于深度学习模型进行智能文稿风格改写的方法和设备
CN111625624A (zh) 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111694927A (zh) 一种基于改进词移距离算法的文档自动评阅方法
CN109271636B (zh) 词嵌入模型的训练方法及装置
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113962228A (zh) 一种基于记忆网络语义融合的长文档检索方法
Batra et al. Neural caption generation for news images
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111767724A (zh) 一种文本相似度计算方法及系统
CN112231476A (zh) 一种改进的图神经网络科技文献大数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination