CN110705612A - 一种混合多特征的句子相似度计算方法、存储介质及系统 - Google Patents

一种混合多特征的句子相似度计算方法、存储介质及系统 Download PDF

Info

Publication number
CN110705612A
CN110705612A CN201910882386.6A CN201910882386A CN110705612A CN 110705612 A CN110705612 A CN 110705612A CN 201910882386 A CN201910882386 A CN 201910882386A CN 110705612 A CN110705612 A CN 110705612A
Authority
CN
China
Prior art keywords
sentence
similarity
word
dependency
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910882386.6A
Other languages
English (en)
Inventor
刘继明
谭云丹
袁野
万晓榆
于敏敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910882386.6A priority Critical patent/CN110705612A/zh
Publication of CN110705612A publication Critical patent/CN110705612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种混合多特征的句子相似度计算方法、存储介质及系统,包括以下步骤:获取句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量;计算机基于平滑逆频率算法,由词向量利用加权和去除非信息噪音,来计算句子词向量相似度;基于“词语依存三元组”结构,分别计算上述测试句子和由筛选出的相似度前10的句子依存句法的相似度;基于得到的两种句子向量计算的句子混合相似度,并采用P@N和MRR(平均排序倒数)参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。由于本发明考虑了句子中关键词、词向量和句法结构等多方面的特点,更为精确地表达句子的深层含义,以正确判断句子内容的相似性。

Description

一种混合多特征的句子相似度计算方法、存储介质及系统
技术领域
本发明属于自然语言处理技术领域,尤其涉及句子相似度计算方法。
背景技术
句子相似度计算是在计算机被赋予丰富涵义词汇的基础上,通过句子间的特征构建句子相似度计算模型,使计算机能够快速匹配系统中最为相似的句子。句子相似度计算在自然语言处理方面的各个领域都有着广泛的应用。例如在自动问答系统中常问问题库的检索,如何根据用户的提问在知识库中查找到对应的答案,通过计算提问的句子和知识库中对应的句子之间相似度来解决的。在信息过滤技术中,通过句子相似度计算,可自动过滤用户可能并不想看到的信息。同样,在机器翻译中、自动文摘中均用到该技术,以获取需要的信息。
在现有技术中,判断句子相似度的方法主要分为五大类。第一类:基于句子浅层特征的相似度计算,该方法通过比较句子间词序、句长和编辑距离等相似性来衡量句子浅层信息相似度,但仅使用该方法来判断句子间相似性的效果不佳,因此常和其他类别的句子相似度计算方法结合使用;第二类:基于关键词的相似度计算,该方法通过关键词对句子含义的反映程度来区别句子间的相似度。例如TF-IDF方法,通过其中的IDF算法提取关键词,但该算法的简单结构较难反映词语的重要程度;还有部分文献通过提取公共关键词来衡量句子的相似度,但该方法遗漏了除关键词外的其他词语对句子含义的贡献。因此通过关键词来比较句子的相似性的效果并不是很理想;第三类:基于语义的相似度计算,该方法需要借助大型完备的语义词典,该词典由词语概念间的层次关系构建而成,具有代表性的主要有基于HowNet、WordNet或同义词词林的句子相似度计算方法。由于这些方法的语义词典没考虑未登录词语或未及时更新词语语义信息,进而导致句子相似度计算精度不高;第四类:基于词向量的相似度计算,该方法的思想为将词语映射为空间中的一个特定的向量,由词向量构成句向量来计算相似度,例如Google提出的词向量训练工具Word2Vec,在给定的语料库上对CBOW和Skip-Gram两种模型进行训练,然后输出语料库中每个词语对应的词向量,但该训练工具需要依赖庞大的语料库才能保证训练的词向量的准确性;第五类:基于句法结构的相似度计算,该方法主要是借助句子词语间的依存关系来计算相似度,例如利用句子中的“主谓宾介”中各对应成分之间进行相似度计算,消除了主语、谓语、宾语和介词短语之间混杂计算存在的弊端,对句子成分结构理解更为充分,理论上是一种较为理想的计算方法。
在充分分析上述方面的不足后,本发明综合考虑关键词、词向量及句法结构多方面的特点,在平滑逆频率(Smooth Inverse Frequency:平滑逆频率)算法的基础上,结合依存句法对句子相似度进行研究,更为精确地表达句子的深层含义,以正确判断句子内容的相似性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高句子相似度计算的精准度的混合多特征的句子相似度计算方法、存储介质及系统。本发明的技术方案如下:
一种混合多特征的句子相似度计算方法、存储介质及系统,其包括以下步骤:
步骤1、计算机构建句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量;
步骤2、计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度;
步骤3、计算机基于“词语依存三元组”结构,分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法的相似度;
步骤4、计算机基于步骤2和步骤3得到的两种句子向量计算的句子混合相似度,并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。
进一步的,所述步骤1计算机获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的词向量,具体包括:
首先计算机利用词向量工具对自然语言语料进行训练,以获取各词语对应的向量训练得到词向量模型,所述词向量模型包含词向量,每个词语用一个向量来表示;其次将选取的测试句子和训练集中的句子进行分词,随机选取测试集中第i句子Xi,句子Xi经过分词后得到关于Xi的词语集合为xi={x1,x2,…,xn},n为构成句子Xi的词语个数,将每个词语与对应的词向量一一匹配,得到句子Xi中每个词语形成的词向量集合为Vx={vx1,vx2,…vxn},其中vxn表示词语xn对应的词向量。
进一步的,所述步骤2计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度,具体包括:
(11)计算句子Xi中每个词语的权重,根据词语在语料库中出现的频率赋予相应的权重,计算句子Xi每个词语的权重ωn,计算公式如下:
Figure BDA0002206266370000031
其中,p(xn)为每个词在语料库中出现的概率,a为常数,取a=0.0001;
(12)计算句子Xi的句向量Vsxi,计算公式如下:
Figure BDA0002206266370000032
M=U·∑·VT
Vsxi=(1-VVT)V’sxi
其中,V’sxi为去主成分前的句向量,M为所有句向量组成的矩阵,U是一个正交阵,Σ是对称阵,V是一个正交阵,VT为V’sxi的最大主成分向量;
(13)计算词向量的句子相似度,根据句子Xi的句向量Vsxi,计算句子Xi和测试集中每一个句子的余弦相似度,其中,句子Xi和Yj的基于平滑逆频率的句向量的余弦相似度SIF_Sim(Xi,Yj)计算公式如下:
Figure BDA0002206266370000033
其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的句向量Vsyj
(14)将步骤(13)计算的句子相似度值由大到小排序,选取训练集中相似度前10的句子,进入下一步依存句法的句子相似度计算。
进一步的,所述的步骤3基于“词语依存三元组”结构,分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法的相似度,具体包括:
设上述句子Yj在这10个句子中,具体公式为:
(21)计算机对句子Xi和Yj进行句法分析,将句子Xi和Yj进行分词后,根据句子中各词语所做的成分,得出词语间的依存关系;
(22)计算机构造“词语依存三元组”结构,句子中的依存关系提取出来,构成多个“词语依存三元组”结构,设词语间的依存关系表示为一个三元组T=(A,B,R),其中A表示被依存词,B表示依存词,R表示词语A、B间的依存关系,A和B共同称为一对“依存对”,设句子Xi和Yj中的有效词语依存对数量分别为k、g;
(23)计算机计算句子Xi和Yj中每个依存对的相似度值,根据上述方法形成的句子中的“词语依存三元组”结构,针对三元组之间的相似性来判断句子间的依存句法相似度Depen_Sim(Xi,Yj)。
进一步的,所述步骤4根据步骤2和步骤3得到的两种句子向量计算的句子相似度,并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子,具体包括:
(31)所述采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,具体包括:
通过P@N和MRR(mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数:
P@N:表示正确结果出现在前N个结果中的比例;
MRR:表示返回结果中第一个相关结果所在位置的平均倒数,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均;
β的取值依据:根据β的不同取值来计算P@N和MRR的大小,当P@N和MRR的值为最大时,所对应的β值衡量基于混合多特征的句子相似度的值最为理想;
(32)计算句子Xi与选取的训练集中相似度值前10的句子的词向量和依存句法的混合相似度值,其中,句子Xi和Yj的混合相似度计算公式如下:
Final_Sim(Xi,Yj)=max(βXSIF_Sim(Xi,Yj)+(1-β)XDepgn_Sim(Xi,Yj))
其中,β为常数,β∈[0,1]。
一种存储介质,该存储介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述任一项的方法。
一种混合多特征的句子相似度计算系统,其包括:
词向量获取模块:用于计算机构建句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量;
词向量相似度计算模块:用于计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度;
依存句法相似度计算模块:用于计算机基于“词语依存三元组”结构,分别计算上述测试句子和由词向量相似度计算模块的结果筛选出的相似度前10的句子依存句法的相似度;
相似度句子获取模块:用于根据词向量相似度、依存句法相似度计算模块得到的两种句子向量计算的句子相似度,并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。
本发明的优点及有益效果如下:
由于本发明的一种混合多特征的句子相似度计算方法、存储介质及系统,综合考虑关键词、词向量以及句法结构对句子含义的影响,其中平滑逆频率的计算方法的思想为将句子中的每个词语,赋予相应的权重,计算句子中词向量的加权平均值,然后并减去与该平均值的首位奇异向量(最大公共成分),最终得到待比较句子的句向量。依存句法的句子相似度方法,其核心在考虑了句子间的成分信息,并通过设计“词语三元组”结构,针对每个三元组结构单元计算相似度。词语间的依存关系既可以体现词语的成分特征,又可以反映词语的重要性,一句话中参与构成“主谓关系”和“动宾关系”的词语相比如“定中关系”、“状中关系”更重要。此外,词语间的依存关系还可以在一定程度上体现词序,如构成“主谓关系”的词语,主语在谓语的前面,构成“动宾关系”的词语,宾语在谓语的后面。最后将两种向量计算出来的相似度值混合加权得出最终的句子相似度值,避免只考虑单一特征带来的偏差,能更全面、更准确地评估句子间的相似度。本发明首先通过基于平滑逆频率的句子相似度算法,筛选出相似度前10的训练集句子;然后将这10个句子与测试句子计算依存句法相似度,在计算依存句法相似度时,将句子中的依存关系提取出来,构成多个“词语依存三元组”结构,针对三元组之间的相似性来判断句子间的依存句法相似度;最后将这两种句子相似度计算方法的值进行混合加权,利用P@N和MRR(mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数,使句子相似度计算的结果更加准确。
附图说明
图1是本发明提供优选实施例提出的一种混合多特征的句子相似度计算方法、存储介质及系统的主要步骤;
图2为本发明提出的一种混合多特征的句子相似度计算方法、存储介质及系统的具体逻辑流程图;
图3为例句的句法依存树结构示意图;
图4为句子中词语的依存关系R的取值图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1、图2所示,本发明是一种混合多特征的句子相似度计算方法、存储介质及系统,包括以下步骤:
步骤(1),获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中各词语对应的词向量,进一步包括:
本实施方式中,可对自然语言语料通过词向量工具(例如:Word2Vec等工具)进行训练,以获取测试集和训练集中各词语对应的向量。
将选取的测试句子和训练集中的句子进行分词后,训练得到词向量模型,所述词向量模型包含词向量,每个词语可以用一个向量来表示(通常为300维)。随机选取测试集中第i句子Xi,句子Xi经过分词后得到关于Xi的词语集合为xi={x1,x2,…,xn},n为构成句子Xi的词语个数,将每个词语与对应的词向量一一匹配,得到句子Xi中每个词语形成的词向量集合为Vx={vx1,vx2,…vxn},其中vxn表示词语xn对应的词向量。
步骤(2),计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度,进一步包括:
(1)计算句子Xi中每个词语的权重(提取关键词)。一般而言,在语料库中,一个词或字出现的频次越大,那么这个词或字对句子含义的影响就越小,比如“在”、“的”、“了”、“我想”等词或字在一句话中的意义作用很小,因此赋予这类词或字较小的权重,同时在一定程度上也省去了去停用词的步骤。根据词语在语料库中出现的频率赋予相应的权重,计算上述句子Xi每个词语的权重ωn,计算公式如下:
Figure BDA0002206266370000071
其中,p(xn)为每个词在语料库中出现的概率,a为常数,取a=0.0001
(2)计算上述句子Xi的句向量Vsxi,计算公式如下:
Figure BDA0002206266370000072
M=U·∑·VT
Vsxi=(1-VVT)V’sxi
其中,V’sxi为去主成分前的句向量,M为所有句向量组成的矩阵,U是一个正交阵,Σ是对称阵,V是一个正交阵,VT为V’sxi的最大主成分向量;
(3)计算基于词向量的句子相似度。根据句向量计算上述句子Xi和测试集中每一个句子的余弦相似度SIF_Sim(Xi,Yj),其中,句子Xi和Yj的词语权重的句向量的余弦相似度计算公式如下:
其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的词语权重的句向量Vsyj
(4)将上述计算的句子相似度值由大到小排序,选取训练集中相似度前10的句子,进入下一步基于依存句法的句子相似度计算。
步骤(3),基于“词语依存三元组”结构,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的句子依存句法的相似度,进一步包括:
设上述句子Yj在这10个句子中
(1)对句子Xi和Yj进行句法分析。本发明借助哈尔滨工业大学的LTP平台“句法分析”工具,分别得出句子Xi和Yj中词语间的依存关系,并去除对句法分析没有实际意义的含有停用词和标点符号的依存关系;
(2)构造“词语依存三元组”结构。句子中的依存关系提取出来,构成多个“词语依存三元组”结构,设词语间的依存关系表示为一个三元组T=(A,B,R),其中A表示被依存词,B表示被依存词,R表示词语A、B间的依存关系,R的取值由依存词与被依存词间的关系决定,参考图3所示。A和B共同称为一对“依存对”,设句子Xi和Yj中的有效词语依存对数量分别为k、g,如例句“重庆市出台了哪些优惠政策吸引高层次人才”,其中“重庆市”与“出台”之间的依存关系为主谓关系,“出台”为被依存词,“重庆市”为依存词,该句子的句法依存树结构图参考图4所示;
(3)计算句子Xi和Yj中每个依存对的相似度值。根据上述方法形成的句子中的“词语依存三元组”结构,针对三元组之间的相似性来判断句子间的依存句法相似度Depen_Sim(Xi,Yj),设Xi的第p个依存对的三元组表示为Txip=(Axip,Bxip,R(Axip,Bxip)),其中1<p<k,Axip表示句子Xi中的第p个依存对中的被依存词,Bxip,表示句子Xi中的第p个依存对中的依存词,R(Axip,Bxip)表示词语Axip、Bxip间的依存关系函数,设句子Xi第p个依存对与Yj中的每一个词语依存对的相似度值的最大值为S(Txip),计算公式如下所示:
当依存关系为“核心关系”时,其被依存词默认为“root”,此时设Xi的第p个依存对的三元组表示为的词语三元组为Txip=(root,Bxip,R(root,Bxip)),则计算S(Txip)的计算公式为:
其中,表示句子Xi中的第p个依存词与Yj中的每一个依存词的最大相似度值,根据两个词的词向量的余弦值确定;
当依存关系为“非核心关系”时,则计算S(Txip)的计算公式为:
Figure BDA0002206266370000093
其中,
Figure BDA0002206266370000094
表示句子Xi中的第p个被依存词与Yj中的每一个被依存词的最大相似度值,根据两个词的词向量的余弦值确定;max1<q<g(Sim(Bxip,Byjq)︱Sim(Axip,Ayjq))表示在满足句子Xi的第p个被依存词Yj中的某一个被依存词最相似的情况下,句子Xi中的第p个依存词与Yj中的该依存词的最大相似度值,根据两个词的词向量的余弦值确定;R_Sim(Txip,Tyjq)表示句子Xi中的第p个词语依存对与Yj中的第q词语依存对关系的判断函数,若这两对的依存关系相同,则R_Sim(Txip,Tyjq)的值为1,反之为0;
计算句子Xi和Yj的依存句法的句子相似度Depen_Sim,计算公式如下:
Figure BDA0002206266370000095
其中,
Figure BDA0002206266370000096
Figure BDA0002206266370000097
分别表示句子Xi中的第p个词语和Yj中的第q词语根据词性的调节参数。
步骤(4),基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用P@N和MRR(平均排序倒数)参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。进一步包括:
(1)通过P@N和MRR(mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数:
P@N:表示正确结果出现在前N个结果中的比例;
MRR:表示返回结果中第一个相关结果所在位置的平均倒数,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均;
β的取值依据:根据β的不同取值来计算P@N和MRR的大小,当P@N和MRR的值为最大时,所对应的β值衡量基于混合多特征的句子相似度的值最为理想;
(2)计算句子Xi与选取的训练集中相似度值前10的句子的词向量和依存句法的混合相似度值,其中,句子Xi和Yj的混合相似度计算公式如下:
Final_Sim(Xi,Yj)=max(β×SIF_Sim(Xi,Yj)+(1-β)×Depen_Sim(Xi,Yj))
其中,β为常数,β∈[0,1]。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种混合多特征的句子相似度计算方法,其特征在于,包括以下步骤:
步骤1、计算机构建句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量;
步骤2、计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度;
步骤3、计算机基于“词语依存三元组”结构,分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法相似度,句子依存句法即将句子分析成一棵依存句法树,描述出各个词语之间的依存关系;
步骤4、计算机基于步骤2和步骤3得到的两种句子向量计算的句子混合相似度,并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。
2.根据权利要求1所述的一种混合多特征的句子相似度计算方法,其特征在于,所述步骤1计算机获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的词向量,具体包括:
首先计算机利用词向量工具对自然语言语料进行训练,以获取各词语对应的向量训练得到词向量模型,所述词向量模型包含词向量,每个词语用一个向量来表示;其次将选取的测试句子和训练集中的句子进行分词,随机选取测试集中第i句子Xi,句子Xi经过分词后得到关于Xi的词语集合为xi={x1,x2,…,xn},n为构成句子Xi的词语个数,将每个词语与对应的词向量一一匹配,得到句子Xi中每个词语形成的词向量集合为Vx={vx1,vx2,…vxn},其中vxn表示词语xn对应的词向量。
3.根据权利要求2所述的一种混合多特征的句子相似度计算方法,其特征在于,所述步骤2计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度,具体包括:
(11)计算句子Xi中每个词语的权重,根据词语在语料库中出现的频率赋予相应的权重,计算句子Xi每个词语的权重ωn,计算公式如下:
Figure FDA0002206266360000021
其中,p(xn)为每个词在语料库中出现的概率,a为常数,取a=0.0001;
(12)计算句子Xi的句向量Vsxi,计算公式如下:
Figure FDA0002206266360000022
M=U·∑·VT
Vsxi=(1-VVT)V’sxi
其中,V’sxi为去主成分前的句向量,M为所有句向量组成的矩阵,U是一个正交阵,Σ是对称阵,V是一个正交阵,VT为V’sxi的最大主成分向量;
(13)计算基于词向量的句子相似度,根据句子Xi的句向量Vsxi,计算句子Xi和测试集中每一个句子的余弦相似度,其中,句子Xi和Yj的基于平滑逆频率的句向量的余弦相似度SIF_Sim(Xi,Yj)计算公式如下:
其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的句向量Vsyj
(14)将步骤(13)计算的句子相似度值由大到小排序,选取训练集中相似度前10的句子,进入下一步依存句法的句子相似度计算。
4.根据权利要求3所述的一种混合多特征的句子相似度计算方法,其特征在于,所述的步骤3基于“词语依存三元组”结构,分别计算上述测试句子和由步骤2的结果筛选出的相似度前10的句子依存句法的相似度,具体包括:
设上述句子Yj在这10个句子中,具体公式为:
(21)计算机对句子Xi和Yj进行句法分析,将句子Xi和Yj进行分词后,根据句子中各词语所做的成分,得出词语间的依存关系;
(22)计算机构造“词语依存三元组”结构,句子中的依存关系提取出来,构成多个“词语依存三元组”结构,设词语间的依存关系表示为一个三元组T=(A,B,R),其中A表示被依存词,B表示依存词,R表示词语A、B间的依存关系,A和B共同称为一对“依存对”,设句子Xi和Yj中的有效词语依存对数量分别为k、g;
(23)计算机计算句子Xi和Yj中每个依存对的相似度值,根据上述方法形成的句子中的“词语依存三元组”结构,针对三元组之间的相似性来判断句子间的依存句法相似度Depen_Sim(Xi,Yj)。
5.根据权利要求4所述的一种混合多特征的句子相似度计算方法,其特征在于,计算机基于步骤2和步骤3得到的两种句子向量计算的句子混合相似度,并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子,具体包括:
(31)通过P@N和MRR(mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数:
P@N:表示正确结果出现在前N个结果中的比例;
MRR:表示返回结果中第一个相关结果所在位置的平均倒数,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均;
β的取值依据:根据β的不同取值来计算P@N和MRR的大小,当P@N和MRR的值为最大时,所对应的β值衡量基于混合多特征的句子相似度的值最为理想;
(32)计算句子Xi与选取的训练集中相似度值前10的句子的词向量和依存句法的混合相似度值,其中,句子Xi和Yj的混合相似度计算公式如下:
Final_Sim(Xi,Yj)=max(β×SIF_Sim(Xi,Yj)+(1-β)×Depen_Sim(Xi,Yj))
其中,β为常数,β∈[0,1]。
6.一种存储介质,该存储介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~5任一项的方法。
7.一种混合多特征的句子相似度计算系统,其特征在于,包括:
词向量获取模块:用于计算机构建句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量;
词向量相似度计算模块:用于计算机基于平滑逆频率算法,由步骤1的词向量利用加权和去除非信息噪音,来计算句子词向量相似度;
依存句法相似度计算模块:用于计算机基于“词语依存三元组”结构,分别计算上述测试句子和由词向量相似度计算模块的结果筛选出的相似度前10的句子依存句法的相似度;
相似度句子获取模块:用于根据词向量相似度、依存句法相似度计算模块得到的两种句子向量计算的句子相似度,并采用P@N和MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。
CN201910882386.6A 2019-09-18 2019-09-18 一种混合多特征的句子相似度计算方法、存储介质及系统 Pending CN110705612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910882386.6A CN110705612A (zh) 2019-09-18 2019-09-18 一种混合多特征的句子相似度计算方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910882386.6A CN110705612A (zh) 2019-09-18 2019-09-18 一种混合多特征的句子相似度计算方法、存储介质及系统

Publications (1)

Publication Number Publication Date
CN110705612A true CN110705612A (zh) 2020-01-17

Family

ID=69196086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910882386.6A Pending CN110705612A (zh) 2019-09-18 2019-09-18 一种混合多特征的句子相似度计算方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN110705612A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111476026A (zh) * 2020-03-24 2020-07-31 珠海格力电器股份有限公司 语句向量的确定方法、装置、电子设备及存储介质
CN111737988A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN112417860A (zh) * 2020-12-08 2021-02-26 携程计算机技术(上海)有限公司 训练样本增强方法、系统、设备及存储介质
CN112507688A (zh) * 2020-12-16 2021-03-16 咪咕数字传媒有限公司 文本相似度分析方法、装置、电子设备及可读存储介质
CN112559691A (zh) * 2020-12-22 2021-03-26 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备
CN112613295A (zh) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN113064931A (zh) * 2021-02-23 2021-07-02 北京航空航天大学 一种基于Skip-Gram模型的城际高速路网重点通道识别方法
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113312908A (zh) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN114970551A (zh) * 2022-07-27 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法、装置和电子设备
CN116306558A (zh) * 2022-11-23 2023-06-23 北京语言大学 一种计算机辅助中文文本改编的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544216A (zh) * 2013-09-23 2014-01-29 Tcl集团股份有限公司 一种结合图像内容和关键字的信息推荐方法及系统
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544216A (zh) * 2013-09-23 2014-01-29 Tcl集团股份有限公司 一种结合图像内容和关键字的信息推荐方法及系统
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘启华: "《泛在商务环境下的信息聚合与推荐》", 30 November 2014, 复旦大学出版社 *
刘继明等: "基于平滑逆频率和依存句法的句子相似度计算方法", 《科学技术与工程》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111476026A (zh) * 2020-03-24 2020-07-31 珠海格力电器股份有限公司 语句向量的确定方法、装置、电子设备及存储介质
CN111737988A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN112417860A (zh) * 2020-12-08 2021-02-26 携程计算机技术(上海)有限公司 训练样本增强方法、系统、设备及存储介质
CN112507688A (zh) * 2020-12-16 2021-03-16 咪咕数字传媒有限公司 文本相似度分析方法、装置、电子设备及可读存储介质
CN112613295A (zh) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN112613295B (zh) * 2020-12-21 2023-12-22 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN112559691B (zh) * 2020-12-22 2023-11-14 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备
CN112559691A (zh) * 2020-12-22 2021-03-26 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备
CN113312908A (zh) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN113312908B (zh) * 2021-01-26 2024-02-06 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN113064931A (zh) * 2021-02-23 2021-07-02 北京航空航天大学 一种基于Skip-Gram模型的城际高速路网重点通道识别方法
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN114970551A (zh) * 2022-07-27 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法、装置和电子设备
CN116306558B (zh) * 2022-11-23 2023-11-10 北京语言大学 一种计算机辅助中文文本改编的方法及装置
CN116306558A (zh) * 2022-11-23 2023-06-23 北京语言大学 一种计算机辅助中文文本改编的方法及装置

Similar Documents

Publication Publication Date Title
CN110705612A (zh) 一种混合多特征的句子相似度计算方法、存储介质及系统
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN105989040B (zh) 智能问答的方法、装置及系统
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
JP5936698B2 (ja) 単語意味関係抽出装置
US8147250B2 (en) Cooccurrence and constructions
KR101923650B1 (ko) 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
CN108549634A (zh) 一种中文专利文本相似度计算方法
CN109408811B (zh) 一种数据处理方法及服务器
US20130158982A1 (en) Computer-Implemented Systems and Methods for Content Scoring of Spoken Responses
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN107402912B (zh) 解析语义的方法和装置
WO2011057497A1 (zh) 一种词汇质量挖掘评价方法及装置
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
US20200175390A1 (en) Word embedding model parameter advisor
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及系统
CN112686025B (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN109766547B (zh) 一种句子相似度计算方法
CN104572631A (zh) 一种语言模型的训练方法及系统
KR101396131B1 (ko) 패턴 기반 관계 유사도 측정 장치 및 방법
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117