CN110990537B - 一种基于边缘信息和语义信息的句子相似度计算方法 - Google Patents

一种基于边缘信息和语义信息的句子相似度计算方法 Download PDF

Info

Publication number
CN110990537B
CN110990537B CN201911268215.0A CN201911268215A CN110990537B CN 110990537 B CN110990537 B CN 110990537B CN 201911268215 A CN201911268215 A CN 201911268215A CN 110990537 B CN110990537 B CN 110990537B
Authority
CN
China
Prior art keywords
similarity
word
sentence
value
word pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911268215.0A
Other languages
English (en)
Other versions
CN110990537A (zh
Inventor
张琳
叶家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911268215.0A priority Critical patent/CN110990537B/zh
Publication of CN110990537A publication Critical patent/CN110990537A/zh
Application granted granted Critical
Publication of CN110990537B publication Critical patent/CN110990537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种基于边缘信息和语义信息的句子相似度计算方法,包括:输入待处理的比较语句,计算句子长度差值;对待处理的比较语句进行文本预处理,动态生成单词对向量;基于边缘信息和语义信息计算单词对向量相似度,得到混合相似度;利用相似度整体变量修正相似度向量;通过依赖模型,根据单词对向量计算句子依赖变量;利用句子依赖变量、句子长度差值对修正后的向量继续进一步修正,输出最终的相似度得分。本发明提供的相似度计算方法,综合提高单词相似度计算精度,利用句子整体相似度变量降低句子长度对句子相似度计算精度的影响,利用依赖变量和句子长度差值综合修正句子整体相似度,提高句子相似度计算精度。

Description

一种基于边缘信息和语义信息的句子相似度计算方法
技术领域
本发明涉及自然语言处理技术领域,更具体的,涉及一种基于边缘信息和语义信息的句子相似度计算方法。
背景技术
现有的计算单词或者语句的相似度方法可以分为四类[1]:1)基于单词共现计算相似度[2];2)基于语料库数据计算相似度[3];3)基于网络引擎计算相似度[4];4)基于词嵌入,使用神经网络计算相似度。
首先,基于单词共现计算相似度的方法是将单词放于树状知识库中,利用单词子概念之间的最短路径长度、公共节点深度、概念密度等特征量化单词的相似度,这种方法存在明显的缺陷,其缺陷在于该方法忽略了单词在句子中的位置信息,忽略了单词在特定语句中的适当含义;基于语料库的计算相似度的方法性能与语料库的大小和类型相关,相同的单词在不同领域的语料库中呈现的意思是截然不同的。
基于网络引擎的计算相似度的方法主要分为基于单词搜索共现页面和机遇单词搜索共现窗口两种,不同的搜索引擎会导致不同的单词相似度结果,而且即使单词对出现在一个页面中共同出现,也无法确定两个单词之间的相干关系,所有这种方法难以确保单词计算相似度的精确性。
基于神经网络计算相似度的方法模型复杂,而且对不符合通用语法的句子的相似度计算性能难以满足用户需求。
发明内容
本发明为克服现有的句子相似度计算方法存在精确性低、计算复杂程度高的技术缺陷,提供一种基于边缘信息和语义信息的句子相似度计算方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于边缘信息和语义信息的句子相似度计算方法,包括以下步骤:
S1:输入待处理的比较语句,计算句子长度差值;
S2:对待处理的比较语句进行文本预处理,动态生成第一单词对向量和第二单词对向量;
S3:基于边缘信息和语义信息计算第一单词对向量、第二单词对向量相似度,得到混合相似度;
S4:利用相似度整体变量修正相似度向量,得到修正后的向量;
S5:通过依赖模型,根据第一单词对向量、第二单词对向量计算句子依赖变量;
S6:利用句子依赖变量、句子长度差值对修正后的向量继续进一步修正,输出最终的相似度得分。
其中,所述步骤S1具体为:将两个比较语句分别进行分词处理,将两个语句的分词数相减后取绝对值,从而得到句子长度差值lenth。
其中,在所述步骤S2中,对待处理的比较语句进行删除停用词和词性标注的文本预处理;所述的删除停用词为将两个比较语句进行分词,将分词后的结果与停用词表中的数据一一比对,若分词后得到的词语出现在停用词表中,则删除语句,而对比删除后剩下的词语作为元素动态生成词向量,标注为第一单词对向量、第二单词对向量。
其中,所述步骤S3具体包括以下步骤:
S31:根据单词对在WordNet中的边缘信息,将第一单词对向量与第二单词对向量进行对比,计算WordNet相似度;
S32:根据Spacy模型中基于语义信息,计算第一单词对向量与第二单词对向量的Spacy相似度;
S33:将WordNet相似度和Spacy相似度进行加权结合,得到混合相似度向量。
其中,所述步骤S31包括以下步骤:
S311:将第一单词对向量与第二单词对向量进行一一对比;
S312:将第一单词对向量与第二单词对向量的对比的单词分别输入到WordNet中,利用单词对在WordNet中的边缘信息,即子概念最短路径长度和父节点最浅深度两个特征量化单词相似度,其中:子概念相似度计算公式具体为:
f(l)=e-al
其中,f(l)表示子概念相似度,l为子概念间最短路径长度,a为路径修正系数,为0.2;父节点深度计算公式具体为:
Figure BDA0002313459510000031
其中,g(h)表示父节点深度,h为子概念间父节点最浅深度,β为父节点修正系数,为0.45;至此得到多组子概念相似程度、父节点深度;
S313:取最大相似度作为该项单词在WordNet相似度得分,最终得到第一单词对向量与第二单词对向量的WordNet相似度,其中,子概念之间的最大相似度得分具体计算公式为:
Figure BDA0002313459510000032
其中,Sim(word1,word2)为word1在WordNet的相似度。
上述方案中,子概念最短路径长度特征衡量了单词子概念之间的相似程度,子概念路径长度越小,子概念之间的概念相似程度越高,父节点最浅深度特征衡量了单词子概念对之间共信息量的大小,父节点处于树状知识库的深度越深,共信息量越大,子概念相似程度越高。
其中,所述步骤S311具体为:将第一单词对向量的首项与第二单词对向量的所有项进行一一比对;再取第一单词对向量的第二项与第二单词对向量的所有项进行一一比对;以此类推,完成第一单词对向量和第二单词对向量的一一比对。
其中,所述步骤S33具体包括以下步骤:
S331:将WordNet相似度与Spacy相似度的差值的绝对值作为差值d,设参数α为混合因子,同时设置相差阈值、高相似度阈值和中相似度阈值;
S332:判断WordNet相似度、Spacy相似度的大小关系,分别作为较大值和较小值;
S333:当较大值大于高相似度阈值时,判断差值d是否大于相差阈值,同时较小值大于0;若是,则混合相似度表示为:α*较大值+(1-α)*较小值;否则,将较大值作为混合相似度;
S334:当较大值小于高相似度阈值但大于中相似度阈值,同时,较小值大于中相似度阈值时,混合相似度表示为:α*较大值+(1-α)*较小值;
S335:当较大值大于中相似度阈值,同时中相似度阈值大于较小值时,判断较小值是否为0,若是,则将较大值作为混合相似度;否则,混合相似度表示为α*较大值+(1-α)*较小值;
S336:当较大值和较小值均小于中相似度阈值时,判断差值d是否大于相差阈值,若是,混合相似度表示为:α*Spacy相似度+(1-α)*WordNet相似度;否则,混合相似度表示为:0.5*Spacy相似度+0.5*WordNet相似度。
上述方案中,当其中一个相似度值大于高相似度阈值、另一个相似度值相差值大于相差阈值但不为0时,将高相似度值取高权值,低相似度值取低权值,加权求和计算混合相似度。当相似度相差大于相差阈值时,两种相似度都可能存在误值,将两种相似度加权合并的方式以降低相似度偏正程度;当一个相似度大于高相似阈值,与另一个相似度值相差小于相差阈值或者另一个相似度值为0时,以高相似度值作为混合相似度。在前面一种情况下,相似度相差小于相差阈值,而且两种计算方式将单词相似度置于同一区间,高相似度值较为精确[1];在后面一种情况下,当一个相似度为0时,0相似度值的算法很可能出现单词信息遗漏的情况,以另一个相似度值作为混合值进行补充。
上述方案中,当两个相似度的值都大于高相似度阈值,通过高相似度值取高权值,低相似度值取低权值加权合并计算混合相似度,在这种情况下,两个单词的相似度取值较大,将高相似度值以加权的方式轻微修正;当两个相似度位于中相似度阈值的左右区间,一个相似度值高,而另一相似度值低时,高相似度值高权重,低相似度值取低权重加权合并计算混合相似度。这种情况下,两个单词之间更有可能是意思相似的,所以高相似度值取高权重[1]。
上述方案中,当两个相似度值都小于中等阈值时,当两个相似度相差值不超过相差阈值,取平均值作为混合相似度,其他情况下取Spacy相似度以高权值加权合并计算混合相似度,这是由于在相似度较低时,语义信息能更好地反映单词间的相关性,结果较为准确[1]。
其中,所述步骤S4具体为:
S41:根据R&G的定义,当单词相似度值大于0.8025,单词对可对定义为近义词,因此统计两个混合相似度向量中超出0.8025值的数据数量,计算相似度整体变量,具体为:
ω=sum(C1,C2)/γ
其中,C1、C2分别表示第一单词对向量V1与第二单词对向量V2中混合相似度大于0.8025的数据个数,γ为相似度整体变量修正系数;
S42:根据相似度整体变量对句子相似度进行修正,具体计算公式为:
Sim(text1,text2)_second=||V1||*||V2||/ω
其中,Sim(text1,text2)_second表示修正后的向量。
其中,所述步骤S5具体为:
S51:计算句子在Spacy语言模型中的依赖变量dep_gobal[7];
S52:将第一单词对向量、第二单词对向量输入到Spacy模型中,依赖变量初始化为0,将第一单词对向量、第二单词对向量中的单词根据词性分成三类:词根、动词、名词;
S53:对属性为词根的单词对进行比对,如果两个单词对中的子概念有交集,则依赖变量不变,否则依赖变量加一;动词和名词部分分别进行同样的处理计算依赖变量,完成句子依赖变量的计算。
其中,所述步骤S6具体为:
S61:根据依赖变量结合句子长度差值求出依赖索引dep_index,具体计算公式为:
dep_index=0.1/tan(dep_gobal)+0.1*log(lenth+1);
S62:利用依赖索引修正句子相似度,得到最终的句子相似度得分,具体计算公式为:
Sim_final(text1,text2)=Sim(text1,text2)_second-dep_index。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的一种基于边缘信息和语义信息的句子相似度计算方法,利用单词在词林WordNet中的子概念最短路径长度和父节点最浅深度两个特征,利用边缘信息计算单词在知识库中的相似度,结合单词在语言模型Spacy中的语义信息,综合提高单词相似度计算精度,利用句子整体相似度变量降低句子长度对句子相似度计算精度的影响,利用依赖变量和句子长度差值综合修正句子整体相似度,提高句子相似度计算精度。
附图说明
图1为本发明所述方法流程图;
图2为R&G(Rubenstein and Goodenough)单词对皮尔森(Pearson)系数性能示意图;
图3为算法性能对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于边缘信息和语义信息的句子相似度计算方法,包括以下步骤:
S1:输入待处理的比较语句,计算句子长度差值;
S2:对待处理的比较语句进行文本预处理,动态生成第一单词对向量和第二单词对向量;
S3:基于边缘信息和语义信息计算第一单词对向量、第二单词对向量相似度,得到混合相似度;
S4:利用相似度整体变量修正相似度向量,得到修正后的向量;
S5:通过依赖模型,根据第一单词对向量、第二单词对向量计算句子依赖变量;
S6:利用句子依赖变量、句子长度差值对修正后的向量继续进一步修正,输出最终的相似度得分。
更具体的,所述步骤S1具体为:将两个比较语句分别进行分词处理,将两个语句的分词数相减后取绝对值,从而得到句子长度差值lenth。
更具体的,在所述步骤S2中,对待处理的比较语句进行删除停用词和词性标注的文本预处理;所述的删除停用词为将两个比较语句进行分词,将分词后的结果与停用词表中的数据一一比对,若分词后得到的词语出现在停用词表中,则删除语句,而对比删除后剩下的词语作为元素动态生成词向量,标注为第一单词对向量、第二单词对向量。
更具体的,所述步骤S3具体包括以下步骤:
S31:根据单词对在WordNet中的边缘信息,将第一单词对向量与第二单词对向量进行对比,计算WordNet相似度;
S32:根据Spacy模型中基于语义信息,计算第一单词对向量与第二单词对向量的Spacy相似度;
S33:将WordNet相似度和Spacy相似度进行加权结合,得到混合相似度向量。
更具体的,所述步骤S31包括以下步骤:
S311:将第一单词对向量与第二单词对向量进行一一对比;
S312:将第一单词对向量与第二单词对向量的对比的单词分别输入到WordNet中,利用单词对在WordNet中的边缘信息,即子概念最短路径长度和父节点最浅深度两个特征量化单词相似度,其中:子概念相似度计算公式具体为:
f(l)=e-al
其中,f(l)表示子概念相似度,l为子概念间最短路径长度,a为路径修正系数,为0.2;父节点深度计算公式具体为:
Figure BDA0002313459510000071
其中,g(h)表示父节点深度,h为子概念间父节点最浅深度,β为父节点修正系数,为0.45;至此得到多组子概念相似程度、父节点深度;
S313:取最大相似度作为该项单词在WordNet相似度得分,最终得到第一单词对向量与第二单词对向量的WordNet相似度,其中,子概念之间的最大相似度得分具体计算公式为:
Figure BDA0002313459510000072
其中,Sim(word1,word2)为word1在WordNet的相似度。
在具体实施过程中,子概念最短路径长度特征衡量了单词子概念之间的相似程度,子概念路径长度越小,子概念之间的概念相似程度越高,父节点最浅深度特征衡量了单词子概念对之间共信息量的大小,父节点处于树状知识库的深度越深,共信息量越大,子概念相似程度越高。
更具体的,所述步骤S311具体为:将第一单词对向量的首项与第二单词对向量的所有项进行一一比对;再取第一单词对向量的第二项与第二单词对向量的所有项进行一一比对;以此类推,完成第一单词对向量和第二单词对向量的一一比对。
更具体的,所述步骤S33具体包括以下步骤:
S331:将WordNet相似度与Spacy相似度的差值的绝对值作为差值d,设参数α为混合因子,同时设置相差阈值、高相似度阈值和中相似度阈值;
S332:判断WordNet相似度、Spacy相似度的大小关系,分别作为较大值和较小值;
S333:当较大值大于高相似度阈值时,判断差值d是否大于相差阈值,同时较小值大于0;若是,则混合相似度表示为:α*较大值+(1-α)*较小值;否则,将较大值作为混合相似度;
S334:当较大值小于高相似度阈值但大于中相似度阈值,同时,较小值大于中相似度阈值时,混合相似度表示为:α*较大值+(1-α)*较小值;
S335:当较大值大于中相似度阈值,同时中相似度阈值大于较小值时,判断较小值是否为0,若是,则将较大值作为混合相似度;否则,混合相似度表示为α*较大值+(1-α)*较小值;
S336:当较大值和较小值均小于中相似度阈值时,判断差值d是否大于相差阈值,若是,混合相似度表示为:α*Spacy相似度+(1-α)*WordNet相似度;否则,混合相似度表示为:0.5*Spacy相似度+0.5*WordNet相似度。
在具体实施过程中,当其中一个相似度值大于高相似度阈值、另一个相似度值相差值大于相差阈值但不为0时,将高相似度值取高权值,低相似度值取低权值,加权求和计算混合相似度。当相似度相差大于相差阈值时,两种相似度都可能存在误值,将两种相似度加权合并的方式以降低相似度偏正程度;当一个相似度大于高相似阈值,与另一个相似度值相差小于相差阈值或者另一个相似度值为0时,以高相似度值作为混合相似度。在前面一种情况下,相似度相差小于相差阈值,而且两种计算方式将单词相似度置于同一区间,高相似度值较为精确[1];在后面一种情况下,当一个相似度为0时,0相似度值的算法很可能出现单词信息遗漏的情况,以另一个相似度值作为混合值进行补充。
在具体实施过程中,当两个相似度的值都大于高相似度阈值,通过高相似度值取高权值,低相似度值取低权值加权合并计算混合相似度,在这种情况下,两个单词的相似度取值较大,将高相似度值以加权的方式轻微修正;当两个相似度位于中相似度阈值的左右区间,一个相似度值高,而另一相似度值低时,高相似度值高权重,低相似度值取低权重加权合并计算混合相似度。这种情况下,两个单词之间更有可能是意思相似的,所以高相似度值取高权重[1]。
在具体实施过程中,当两个相似度值都小于中等阈值时,当两个相似度相差值不超过相差阈值,取平均值作为混合相似度,其他情况下取Spacy相似度以高权值加权合并计算混合相似度,这是由于在相似度较低时,语义信息能更好地反映单词间的相关性,结果较为准确[1]。
在具体实施过程中,如图2所示,计算的参数取值如下:高相似阈值取值0.8,中相似阈值取值0.6,相差阈值取值0.3,当混合因子为0.65时,皮尔森系数取得最高值0.9115。
实施例2
更具体的,在实施例1的基础上,如图3所示,本发明提出的算法皮尔森系数高于现有的传统算法的皮尔森系数,性能优于现有的传统算法。表1为R&G单词对相似度数据表,具体为:
表1 R&G单词对相似度数据表
Figure BDA0002313459510000091
Figure BDA0002313459510000101
Figure BDA0002313459510000111
以上表格为利用本算法计算R&G单词对相似度的具体数值。
更具体的,所述步骤S4具体为:
S41:根据R&G的定义,当单词相似度值大于0.8025,单词对可对定义为近义词[6],因此统计两个混合相似度向量中超出0.8025值的数据数量,计算相似度整体变量,具体为:
ω=sum(C1,C2)/γ
其中,C1、C2分别表示第一单词对向量V1与第二单词对向量V2中混合相似度大于0.8025的数据个数,γ为相似度整体变量修正系数,取值为1.8;
S42:根据相似度整体变量对句子相似度进行修正,具体计算公式为:
Sim(text1,text2)_second=||V1||*||V2||/ω
其中,Sim(text1,text2)_second表示修正后的向量。
更具体的,所述步骤S5具体为:
S51:计算句子在Spacy语言模型中的依赖变量dep_gobal[7];
S52:将第一单词对向量、第二单词对向量输入到Spacy模型中,依赖变量初始化为0,将第一单词对向量、第二单词对向量中的单词根据词性分成三类:词根、动词、名词;
S53:对属性为词根的单词对进行比对,如果两个单词对中的子概念有交集,则依赖变量不变,否则依赖变量加一;动词和名词部分分别进行同样的处理计算依赖变量,完成句子依赖变量的计算。
更具体的,所述步骤S6具体为:
S61:根据依赖变量结合句子长度差值求出依赖索引dep_index,具体计算公式为:
dep_index=0.1/tan(dep_gobal)+0.1*log(lenth+1);
S62:利用依赖索引修正句子相似度,得到最终的句子相似度得分,具体计算公式为:
Sim_final(text1,text2)=Sim(text1,text2)_second-dep_index。
表2 R&G句子对相似度数据列表
Figure BDA0002313459510000121
/>
Figure BDA0002313459510000131
/>
Figure BDA0002313459510000141
/>
Figure BDA0002313459510000151
/>
Figure BDA0002313459510000161
/>
Figure BDA0002313459510000171
/>
Figure BDA0002313459510000181
/>
Figure BDA0002313459510000191
/>
Figure BDA0002313459510000201
以上表格为本算法计算的R&G句子对相似度的具体数据;根据表2的数据,该算法计算的相似度结果接近人类标准相似度,证明算法的有效性。
在具体实施过程中,本发明提供的一种基于边缘信息和语义信息的句子相似度计算方法,利用单词在词林WordNet中的子概念最短路径长度和父节点最浅深度两个特征,利用边缘信息计算单词在知识库中的相似度,结合单词在语言模型Spacy中的语义信息,综合提高单词相似度计算精度,利用句子整体相似度变量降低句子长度对句子相似度计算精度的影响,利用依赖变量和句子长度差值综合修正句子整体相似度,提高句子相似度计算精度。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
[1].Y.Li,D.McLean,Z.A.Bandar,J.D.O'Shea and K.Crockett,"Sentencesimilarity based on semantic nets and corpus statistics,"in IEEE Transactionson Knowledge and Data Engineering,vol.18,no.8,pp.1138-1150,Aug.2006.doi:10.1109/TKDE.2006.130
[2].C.T.Meadow,B.R.Boyce,and D.H.Kraft,Text Information RetrievalSystems,second ed.Academic Press,2000.
[3].P.W.Foltz,W.Kintsch,and T.K.Landauer,“The Measurement of TextualCoherence with Latent Semantic Analysis,”Discourse Processes,vol.25,nos.2-3,pp.285-307,1998.
[4].Cilibrasi R L,Vitanyi P M B.The Google Similarity Distance[J].IEEE Transactions on Knowledge and Data Engineering
[5].H.Pu,G.Fei,H.Zhao,G.Hu,C.Jiao and Z.Xu,"Short Text SimilarityCalculation Using Semantic Information,"2017 3rd International Conference onBig Data Computing and Communications(BIGCOM),Chengdu,2017,pp.144-150.doi:10.1109/BIGCOM.2017.53
[6].H.Rubenstein and J.B.Goodenough,“Contextual correlates of synonymy,”Commun.ACM,vol.8,no.10,pp.627–633,1965.
[7].A.Pawar and V.Mago,"Challenging the Boundaries of UnsupervisedLearning for Semantic Similarity,"in IEEE Access,vol.7,pp.16291-16308,2019.

Claims (7)

1.一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:包括以下步骤:
S1:输入待处理的比较语句,计算句子长度差值;
S2:对待处理的比较语句进行文本预处理,动态生成第一单词对向量和第二单词对向量;
S3:基于边缘信息和语义信息计算第一单词对向量、第二单词对向量相似度,得到混合相似度;具体包括以下步骤:
S31:根据单词对在WordNet中的边缘信息,将第一单词对向量与第二单词对向量进行对比,计算WordNet相似度;包括以下步骤:
S311:将第一单词对向量与第二单词对向量进行一一对比;
S312:将第一单词对向量与第二单词对向量的对比的单词分别输入到WordNet中,利用单词对在WordNet中的边缘信息,即子概念最短路径长度和父节点最浅深度两个特征量化单词相似度,其中:子概念相似度计算公式具体为:
f(l)=e-al
其中,f(l)表示子概念相似度,l为子概念间最短路径长度,a为路径修正系数;父节点深度计算公式具体为:
Figure FDA0004099978650000011
其中,g(h)表示父节点深度,h为子概念间父节点最浅深度,β为父节点修正系数,至此得到多组子概念相似程度、父节点深度;
S313:取最大相似度作为该项单词在WordNet相似度得分,最终得到第一单词对向量与第二单词对向量的WordNet相似度,其中,子概念之间的最大相似度得分具体计算公式为:
Figure FDA0004099978650000012
其中,Sim(word1,word2)为word1在WordNet的相似度;
S32:根据Spacy模型中基于语义信息,计算第一单词对向量与第二单词对向量的Spacy相似度;
S33:将WordNet相似度和Spacy相似度进行加权结合,得到混合相似度向量;
S4:利用相似度整体变量修正相似度向量,得到修正后的向量;具体为:
S41:根据R&G的定义,当单词相似度值大于0.8025,单词对可对定义为近义词,因此统计两个混合相似度向量中超出0.8025值的数据数量,计算相似度整体变量,具体为:
ω=sum(C1,C2)/γ
其中,C1、C2分别表示第一单词对向量V1与第二单词对向量V2中混合相似度大于0.8025的数据个数,γ为相似度整体变量修正系数;
S42:根据相似度整体变量对句子相似度进行修正,具体计算公式为:
Sim(text1,text2)_second=||V1||*||V2||/ω
其中,Sim(text1,text2)_second表示修正后的向量;
S5:通过依赖模型,根据第一单词对向量、第二单词对向量计算句子依赖变量;
S6:利用句子依赖变量、句子长度差值对修正后的向量继续进一步修正,输出最终的相似度得分。
2.根据权利要求1所述的一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:所述步骤S1具体为:将两个比较语句分别进行分词处理,将两个语句的分词数相减后取绝对值,从而得到句子长度差值lenth。
3.根据权利要求2所述的一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:在所述步骤S2中,对待处理的比较语句进行删除停用词和词性标注的文本预处理;所述的删除停用词为将两个比较语句进行分词,将分词后的结果与停用词表中的数据一一比对,若分词后得到的词语出现在停用词表中,则删除语句,而对比删除后剩下的词语作为元素动态生成词向量,标注为第一单词对向量、第二单词对向量。
4.根据权利要求3所述的一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:所述步骤S311具体为:将第一单词对向量的首项与第二单词对向量的所有项进行一一比对;再取第一单词对向量的第二项与第二单词对向量的所有项进行一一比对;以此类推,完成第一单词对向量和第二单词对向量的一一比对。
5.根据权利要求4所述的一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:所述步骤S33具体包括以下步骤:
S331:将WordNet相似度与Spacy相似度的差值的绝对值作为差值d,设参数α为混合因子,同时设置相差阈值、高相似度阈值和中相似度阈值;
S332:判断WordNet相似度、Spacy相似度的大小关系,分别作为较大值和较小值;
S333:当较大值大于高相似度阈值时,判断差值d是否大于相差阈值,同时较小值大于0;若是,则混合相似度表示为:α*较大值+(1-α)*较小值;否则,将较大值作为混合相似度;
S334:当较大值小于高相似度阈值但大于中相似度阈值,同时,较小值大于中相似度阈值时,混合相似度表示为:α*较大值+(1-α)*较小值;
S335:当较大值大于中相似度阈值,同时中相似度阈值大于较小值时,判断较小值是否为0,若是,则将较大值作为混合相似度;否则,混合相似度表示为α*较大值+(1-α)*较小值;
S336:当较大值和较小值均小于中相似度阈值时,判断差值d是否大于相差阈值,若是,混合相似度表示为:α*Spacy相似度+(1-α)*WordNet相似度;否则,混合相似度表示为:0.5*Spacy相似度+0.5*WordNet相似度。
6.根据权利要求5所述的一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:所述步骤S5具体为:
S51:计算句子在Spacy语言模型中的依赖变量dep_gobal;
S52:将第一单词对向量、第二单词对向量输入到Spacy模型中,依赖变量初始化为0,将第一单词对向量、第二单词对向量中的单词根据词性分成三类:词根、动词、名词;
S53:对属性为词根的单词对进行比对,如果两个单词对中的子概念有交集,则依赖变量不变,否则依赖变量加一;动词和名词部分分别进行同样的处理计算依赖变量,完成句子依赖变量的计算。
7.根据权利要求6所述的一种基于边缘信息和语义信息的句子相似度计算方法,其特征在于:所述步骤S6具体为:
S61:根据依赖变量结合句子长度差值求出依赖索引dep_index,具体计算公式为:
dep_index=0.1/tan(dep_gobal)+0.1*log(lenth+1);
S62:利用依赖索引修正句子相似度,得到最终的句子相似度得分,具体计算公式为:
Sim_final(text1,text2)=Sim(text1,text2)_second-dep_index。
CN201911268215.0A 2019-12-11 2019-12-11 一种基于边缘信息和语义信息的句子相似度计算方法 Active CN110990537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911268215.0A CN110990537B (zh) 2019-12-11 2019-12-11 一种基于边缘信息和语义信息的句子相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911268215.0A CN110990537B (zh) 2019-12-11 2019-12-11 一种基于边缘信息和语义信息的句子相似度计算方法

Publications (2)

Publication Number Publication Date
CN110990537A CN110990537A (zh) 2020-04-10
CN110990537B true CN110990537B (zh) 2023-06-27

Family

ID=70092474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911268215.0A Active CN110990537B (zh) 2019-12-11 2019-12-11 一种基于边缘信息和语义信息的句子相似度计算方法

Country Status (1)

Country Link
CN (1) CN110990537B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463953B (zh) * 2020-11-30 2022-06-17 杭州孚嘉科技有限公司 一种基于税务咨询问题的热句排序方法
CN113392630A (zh) * 2021-07-01 2021-09-14 浙江工业大学 一种基于语义分析的中文句子相似度计算方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN106610954A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于统计学的文本特征词汇提取方法
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
CN109062892A (zh) * 2018-07-10 2018-12-21 东北大学 一种基于Word2Vec的中文语句相似度计算方法
CN110135450A (zh) * 2019-03-26 2019-08-16 中电莱斯信息系统有限公司 一种基于密度聚类的热点路径分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN106610954A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于统计学的文本特征词汇提取方法
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
CN109062892A (zh) * 2018-07-10 2018-12-21 东北大学 一种基于Word2Vec的中文语句相似度计算方法
CN110135450A (zh) * 2019-03-26 2019-08-16 中电莱斯信息系统有限公司 一种基于密度聚类的热点路径分析方法

Also Published As

Publication number Publication date
CN110990537A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN108052588B (zh) 一种基于卷积神经网络的文档自动问答系统的构建方法
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN108549626B (zh) 一种慕课的关键词提取方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
EP1396795B1 (en) Method and apparatus for aligning bilingual corpora
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110929043B (zh) 业务问题提取方法及装置
CN111159412B (zh) 分类方法、装置、电子设备及可读存储介质
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
CN107832297B (zh) 一种面向特征词粒度的领域情感词典构建方法
AU2019201244A1 (en) Natural language processing and artificial intelligence based search system
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN110990537B (zh) 一种基于边缘信息和语义信息的句子相似度计算方法
Chuan-An et al. A unified RvNN framework for end-to-end chinese discourse parsing
CN104714977A (zh) 一种实体与知识库项的关联方法及装置
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN111767724A (zh) 一种文本相似度计算方法及系统
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN114943220B (zh) 一种面向科研立项查重的句向量生成方法及查重方法
CN116070620A (zh) 一种基于大数据的信息处理方法及系统
CN109657079A (zh) 一种图像描述方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant