CN109766547B - 一种句子相似度计算方法 - Google Patents

一种句子相似度计算方法 Download PDF

Info

Publication number
CN109766547B
CN109766547B CN201811601236.5A CN201811601236A CN109766547B CN 109766547 B CN109766547 B CN 109766547B CN 201811601236 A CN201811601236 A CN 201811601236A CN 109766547 B CN109766547 B CN 109766547B
Authority
CN
China
Prior art keywords
sentence
word
similarity
vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811601236.5A
Other languages
English (en)
Other versions
CN109766547A (zh
Inventor
刘继明
谭云丹
袁野
万晓榆
王正强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811601236.5A priority Critical patent/CN109766547B/zh
Publication of CN109766547A publication Critical patent/CN109766547A/zh
Application granted granted Critical
Publication of CN109766547B publication Critical patent/CN109766547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明请求保护一种句子相似度计算方法,包括以下步骤:步骤(1),获取句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的语义向量;步骤(2),基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度;步骤(3),基于词序的句向量,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的句子的相似度;步骤(4),基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用MRR(平均排序倒数)参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。由于本发明考虑了影响句子相似度的词语权重和词序因素来计算,大大提高了句子相似度计算的精准度。

Description

一种句子相似度计算方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及句子相似度计算方法。
背景技术
句子相似度计算是在计算机被赋予丰富涵义词汇的基础上,通过句子间的 特征构建句子相似度计算模型,使计算机能够快速匹配系统中最为相似的句子。 句子相似度计算在自然语言处理方面的各个领域都有着广泛的应用。例如在自 动问答系统中常问问题库的检索,如何根据用户的提问在知识库中查找到对应 的答案,通过计算提问的句子和知识库中对应的句子之间相似度来解决的。在 信息过滤技术中,通过句子相似度计算,可自动过滤掉用户可能并不想看到的 信息。同样,在机器翻译中、自动文摘中均用到该技术,以获取需要的信息。
在现有技术中,句子之间的匹配是没有考虑到除去与句子语义相似度关系 不大的最大主成分特征向量,造成在计算句子相似度时包含了一些冗余的成分; 此外,一些算法少有考虑到组成句子间的词序问题,这导致对句子的语义的把 握不准确,比如“老师叫小明去教室”和“小明叫老师去教室“,如果只按照句子语 义计算相似度,那么这两个句子的意思就为一样的了,但显然他们的意思有区 别。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高句子相似度计算的精 准度的句子相似度计算方法。本发明的技术方案如下:
一种句子相似度计算方法,其包括以下步骤:
步骤(1)、获取句子相似度计算的测试集和训练集,并通过词向量模型获取 测试集和训练集中各词语对应的语义向量;
步骤(2)、基于词语权重的句向量,分别计算测试集中某一测试句子与训练 集中每个训练句子的余弦相似度;
步骤(3)、基于词序的句向量,分别计算上述测试句子和由步骤(2)的结 果筛选出的相似度前10的训练句子的相似度;
步骤(4)、基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似 度,并采用MRR(平均排序倒数)参数确定方法来调节优化系数β,得出与训 练集中句子相似度最大的句子。
进一步的,所述步骤(1)获取句子相似度计算的测试集和训练集,并通过词 向量模型获取测试集和训练集中各词语对应的语义向量,具体包括:
对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量;
将选取的测试句子和训练集中的句子进行分词后,训练得到词向量模型,所 述词向量模型包含词向量,每个词语用一个向量来表示,随机选取测试集中第i句 子Xi,句子Xi经过分词后得到关于Xi的词语集合为xi={x1,x2,…,xn},n为构成句 子Xi的词语个数,将每个词语与对应的语义向量一一匹配,得到句子Xi中每个词 语形成的语义向量集合为Vx={vx1,vx2,…vxn},其中vxn表示词语xn对应的语义向 量。
进一步的,所述步骤(2)基于词语权重的句向量,分别计算测试集中某一 测试句子与训练集中每个训练句子的余弦相似度,具体包括:
(11)根据词语在语料库中出现的频率赋予相应的权重,计算句子Xi每个词 语的权重ωn,计算公式如下:
Figure BDA0001922546760000021
其中f(xn)为每个词在语料库中的词频,a为常数,取a=0.0001;
(12)计算句子Xi的词语权重的句向量Vsxi,计算公式如下:
Figure BDA0001922546760000022
Vsxi=(1-uuT)V’sxi
其中,V’sxi为去主成分前的句子向量,u为V’sxi的最大主成分向量;
(13)基于词语权重的句向量,计算句子Xi和测试集中每一个句子的余弦相 似度,其中,句子Xi和Yj的词语权重的句向量的余弦相似度计算公式如下:
Figure BDA0001922546760000031
其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的词语权重的句向量Vsyj
(14)将上述计算的句子相似度值由大到小排序,选取训练集中相似度前10 的句子,进入下一步基于词序的句子相似度计算。
进一步的,所述的步骤(3)基于词序的句向量,分别计算上述测试句子和 由步骤(2)的结果筛选出的相似度前10的训练句子的相似度,具体包括:
设上述句子Yj在这10个句子中,具体公式为:
(21)将句子Xi和Yj进行分词、去停用词和同义词替换后,根据测试句子Xi和 Yj中词语在句子中的词序,形成基于词序的句向量,分别得到按照词语顺序的词 序集合为xi、yj
(22)当词语集合xi与词语集合yj的词语个数相同时,以句子Xi或Yj为基准, 若xi和yj中没有相匹配的词语则为0,计算这两个句子的词序向量相似度 Order_Sim(Xi,Yj);
当词语集合xi与词语集合yj的词语个数不相同时,以词语数量多的句子为基 准,xi和yj中没有相匹配的词语则为0,计算这两个句子的词序向量相似度 Order_Sim(Xi,Yj);
若以词语集合xi为基准,则Order_Sim(Xi,Yj)的计算公式如下:
Figure BDA0001922546760000032
其中,Mxi表示句子Xi的词序向量,M′xi表示句子Yj按照句子Xi为基准的词序 向量,D(Mxi,M′xi)为向量Mxi,M′xi对应每个维度上距离的和,maxD为D(Mxi,M′xi) 的最大值,即M′xi相对于Mxi为完全逆序时D(Mxi,M′xi)取得最大值。
进一步的,所述步骤(4)基于步骤(2)和步骤(3)得到的两种句子向量 计算的句子相似度,并采用MRR平均排序倒数参数确定方法来调节优化系数β, 得出与训练集中句子相似度最大的句子,具体包括:
计算句子Xi与选取的训练集中相似度值前10的句子的权重和词序的融合相 似度值,其中,句子Xi和Yj的融合相似度计算公式如下:
Final_Sim(Xi,Yj)=max(β×Weight_Sim(Xi,Yj)+(1-β)×
Order_Sim(Xi,Yj))
其中,β为常数,β∈[0,1]。
进一步的,所述β接近0.85时,基于权重和词序向量的融合句子相似度的值 最为理想。
本发明的优点及有益效果如下:
本发明采用上述方案后,由于本发明基于一个词在语料库中出现的频次与其 重要性成反比的思想,赋予词语相应的权重、通过词向量工具(例如:word2vec 等工具)进行训练,以获取各词语对应的向量、将词语权重和词语的语义向量 结合,形成一个句子的词语权重向量、根据词语在句子中的词序,形成一个句 子的词序向量、将两种向量分别计算的句子间相似度进行融合加权,通过MRR (mean reciprocal rank:平均排序倒数)参数确定方法来调节优化系数,使句子相 似度计算的结果更加准确。
由于本发明借鉴TF-IDF算法中IDF(逆向文件频率)的思想:如果包含词 语t的文档越少,也就是n越小,IDF越大,则说明词语t具有很好的类别区分 能力。依据此原理,本技术将以词语在语料库中出现的频次赋予相应的权重, 将词语权重和词语语义结合并除去语义无关的冗余成分后,得出句子的词语权 重向量;根据词语在句子中的词序,得出句子的词序向量,最后将两种向量计 算出来的相似度值融合加权得出最终的句子相似度值,以有效的评估两个句子 间的相似度。
附图说明
图1是本发明提供优选实施例提出的一种句子相似度计算方法的主要步骤;
图2为本发明提出的一种句子相似度计算方法的具体逻辑流程图
图3为句子词语数量相同时的句子词序结构示意图;
图4为句子词语数量不相同时的句子词序结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1、图2所示,本发明是一种句子相似度计算方法,包括以下步骤:
步骤(1),获取句子相似度计算的测试集和训练集,并通过词向量模型获取 测试集和训练集中各词语对应的语义向量,进一步包括:
本实施方式中,可对自然语言语料通过词向量工具(例如:word2vec等工 具)进行训练,以获取测试集和训练集中各词语对应的向量。
将选取的测试句子和训练集中的句子进行分词后,训练得到词向量模型,所 述词向量模型包含词向量,每个词语可以用一个向量来表示(通常为300维)。随 机选取测试集中第i句子Xi,句子Xi经过分词后得到关于Xi的词语集合为 xi={x1,x2,…,xn},n为构成句子Xi的词语个数,将每个词语与对应的语义向量一 一匹配,得到句子Xi中每个词语形成的语义向量集合为Vx={vx1,vx2,…vxn},其 中vxn表示词语xn对应的语义向量。
步骤(2),基于词语权重的句向量,分别计算测试集中某一测试句子与训练 集中每个训练句子的余弦相似度,进一步包括:
(1)根据词语在语料库中出现的频率赋予相应的权重。一般而言,在语料 库中,一个词或字出现的频次越大,那么这个词或字对句子含义的影响就越小, 比如“在”、“的”、“了”、“我想”等词或字在一句话中的意义作用很小,因此 赋予这类词或字较小的权重,同时在一定程度上也省去了去停用词的步骤。根 据词语在语料库中出现的频率赋予相应的权重,计算上述句子Xi每个词语的权重 ωn,计算公式如下:
Figure BDA0001922546760000051
其中f(xn)为每个词在语料库中的词频,a为常数,取a=0.0001
(2)计算上述句子Xi的词语权重的句向量Vsxi,计算公式如下:
Figure BDA0001922546760000061
Vsxi=(1-uuT)V’sxi
其中,V’sxi为去主成分前的句子向量,u为V’sxi的最大主成分向量
(3)基于词语权重的句向量,计算上述句子Xi和测试集中每一个句子的余弦 相似度,其中,句子Xi和Yj的词语权重的句向量的余弦相似度计算公式如下:
Figure BDA0001922546760000062
其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的词语权重的句向量Vsyj
(4)将上述计算的句子相似度值由大到小排序,选取训练集中相似度前10 的句子,进入下一步基于词序的句子相似度计算。
步骤(3),基于词序的句向量,分别计算上述测试句子和由步骤2的结果 筛选出的相似度前10的训练句子的相似度,进一步包括:
设上述句子Yj在这10个句子中
(1)将句子Xi和Yj进行分词、去停用词和同义词替换后,根据测试句子Xi和 Yj中词语在句子中的词序,形成基于词序的句向量,分别得到按照词语顺序的词 序集合为xi、yj
(2)当词语集合xi与词语集合yj的词语个数相同时,以句子Xi或Yj为基准,若 xi和yj中没有相匹配的词语则为0,计算这两个句子的词序向量相似度 Order_Sim(Xi,Yj);
当词语集合xi与词语集合yj的词语个数不相同时,以词语数量多的句子为基 准,xi和yj中没有相匹配的词语则为0,计算这两个句子的词序向量相似度 Order_Sim(Xi,Yj);
若以词语集合xi为基准,则Order_Sim(Xi,Yj)的计算公式如下:
Figure BDA0001922546760000071
其中,Mxi表示句子Xi的词序向量,M′xi表示句子Yj按照句子Xi为基准的词序 向量,D(Mxi,M′xi)为向量Mxi,M′xi对应每个维度上距离的和,max D为D(Mxi,M′xi) 的最大值,即M′xi相对于Mxi为完全逆序时D(Mxi,M′xi)取得最大值
当两个比较的句子的词语数量相同时,参考图3所示,设句子Xi和Yj的词语 集合分别为xi={老师,叫,小明,去,教室}、yj={小明,叫,老师,去,教室},以句子Xi或Yj为基准时,xi的词序向量Mx=(1,2,3,4,5),yj所对应的词序向量M′x= (3,2,1,4,5),计算这两个句子的词序为基准的词序向量相似度,计算公式如下:
Figure BDA0001922546760000072
当两个比较的句子的词语数量不相同时,参考图4所示,设句子Xi和Yj的词 语集合分别为xi={老师,叫,小明,去,教室,学习}、yj={小明,叫,老师,去,教室}, 以词语数量多的句子Xi为基准时,xi的词序向量Mx=(1,2,3,4,5,6),yj所对应的 词序向量M′x=(3,2,1,4,5,0),计算这两个句子的词序为基准的词序向量相似度, 计算公式如下:
Figure BDA0001922546760000073
步骤(4),基于权重和词序的句子相似度值赋予权重,得出与训练集中句 子相似度最大的句子。进一步包括:
计算句子Xi与选取的训练集中相似度值前10的句子的权重和词序的融合相 似度值,其中,其中句子Xi和Yj的融合相似度计算公式如下:
Final_Sim(Xi,Yj)=max(β×Weight_Sim(Xi,Yj)+(1-β)×Order_Sim(Xi,Yj))
其中,β为常数,β∈[0,1]
通过MRR(mean reciprocal rank:平均排序倒数)参数确定方法来调节优 化系数,当β=0时,即只考虑词序向量相似度的结果,MRR的值为0.30;当 β=0.25时,MRR的值为0.35;当β=0.5时,MRR的值为0.43;当β=0.85时 MRR的值为0.49,当β=1时,即只考虑词语权向量相似度的结果,MRR的值 为0.46。因此,当β接近0.85时,基于权重和词序向量的融合句子相似度的值最 为理想。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范 围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或 修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种句子相似度计算方法,其特征在于,包括以下步骤:
步骤(1)、获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的语义向量;
步骤(2)、基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度;
步骤(3)、基于词序的句向量,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度;
步骤(4)、基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子;
所述步骤(2)基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度,具体包括:
(11)根据词语在语料库中出现的频率赋予相应的权重,计算句子Xi每个词语的权重ωn,计算公式如下:
Figure FDA0003761994730000011
其中f(xn)为每个词在语料库中的词频,a为常数,取a=0.0001;
(12)计算句子Xi的词语权重的句向量Vsxi,计算公式如下:
Figure FDA0003761994730000012
Vsxi=(1-uuT)V’sxi
其中,V’sxi为去主成分前的句子向量,u为V’sxi的最大主成分向量;
(13)基于词语权重的句向量,计算句子Xi和测试集中每一个句子的余弦相似度,其中,句子Xi和Yj的词语权重的句向量的余弦相似度计算公式如下:
Figure FDA0003761994730000013
其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的词语权重的句向量Vsyj
(14)将上述计算的句子相似度值由大到小排序,选取训练集中相似度前10的句子,进入下一步基于词序的句子相似度计算;
所述的步骤(3)基于词序的句向量,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度,具体包括:
设上述句子Yj在这10个句子中,具体公式为:
(21)将句子Xi和Yj进行分词、去停用词和同义词替换后,根据测试句子Xi和Yj中词语在句子中的词序,形成基于词序的句向量,分别得到按照词语顺序的词序集合为xi、yj
(22)当词语集合xi与词语集合yj的词语个数相同时,以句子Xi或Yj为基准,若xi和yj中没有相匹配的词语则为0,计算这两个句子的词序向量相似度Order_Sim(Xi,Yj);
当词语集合xi与词语集合yj的词语个数不相同时,以词语数量多的句子为基准,xi和yj中没有相匹配的词语则为0,计算这两个句子的词序向量相似度Order_Sim(Xi,Yj);
若以词语集合xi为基准,则Order_Sim(Xi,Yj)的计算公式如下:
Figure FDA0003761994730000021
其中,Mxi表示句子Xi的词序向量,M′xi表示句子Yj按照句子Xi为基准的词序向量,D(Mxi,M′xi)为向量Mxi,M′xi对应每个维度上距离的和,maxD为D(Mxi,M′xi)的最大值,即M′xi相对于Mxi为完全逆序时D(Mxi,M′xi)取得最大值。
2.根据权利要求1所述的一种句子相似度计算方法,其特征在于,所述步骤(1)获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的语义向量,具体包括:
对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量;
将选取的测试句子和训练集中的句子进行分词后,训练得到词向量模型,所述词向量模型包含词向量,每个词语用一个向量来表示,随机选取测试集中第i句子Xi,句子Xi经过分词后得到关于Xi的词语集合为xi={x1,x2,...,xn},n为构成句子Xi的词语个数,将每个词语与对应的语义向量一一匹配,得到句子Xi中每个词语形成的语义向量集合为Vx={vx1,vx2,...vxn},其中vxn表示词语xn对应的语义向量。
3.根据权利要求1所述的一种句子相似度计算方法,其特征在于,所述步骤(4)基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用MRR平均排序倒数参数确定方法来调节优化系数β,对这两种相似度赋予权重,得出与训练集中句子相似度最大的句子,具体包括:
计算句子Xi与选取的训练集中相似度值前10的句子的权重和词序的融合相似度值,其中,句子Xi和Yj的融合相似度计算公式如下:
Final_Sim(Xi,Yj)=max(β×Weight_Sim(Xi,Yj)+(1-β)×Order_Sim(Xi,Yj))
其中,β为常数,β∈[0,1]。
4.根据权利要求3所述的一种句子相似度计算方法,其特征在于,所述β接近0.85时,基于权重和词序向量的融合句子相似度的值最为理想。
CN201811601236.5A 2018-12-26 2018-12-26 一种句子相似度计算方法 Active CN109766547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811601236.5A CN109766547B (zh) 2018-12-26 2018-12-26 一种句子相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811601236.5A CN109766547B (zh) 2018-12-26 2018-12-26 一种句子相似度计算方法

Publications (2)

Publication Number Publication Date
CN109766547A CN109766547A (zh) 2019-05-17
CN109766547B true CN109766547B (zh) 2022-10-18

Family

ID=66450886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811601236.5A Active CN109766547B (zh) 2018-12-26 2018-12-26 一种句子相似度计算方法

Country Status (1)

Country Link
CN (1) CN109766547B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598078B (zh) * 2019-09-11 2022-09-30 京东科技控股股份有限公司 数据检索方法及装置、计算机可读存储介质、电子设备
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN111753057A (zh) * 2020-06-28 2020-10-09 青岛科技大学 一种提升句子相似度准确率判断的方法
CN112364647A (zh) * 2020-11-24 2021-02-12 南方电网海南数字电网研究院有限公司 一种基于余弦相似度算法的查重方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN107957993A (zh) * 2017-12-13 2018-04-24 北京邮电大学 英文句子相似度的计算方法及装置
CN107992472A (zh) * 2017-11-23 2018-05-04 浪潮金融信息技术有限公司 句子相似度计算方法及装置、计算机存储介质和终端
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509415B (zh) * 2018-03-16 2021-09-24 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN107992472A (zh) * 2017-11-23 2018-05-04 浪潮金融信息技术有限公司 句子相似度计算方法及装置、计算机存储介质和终端
CN107957993A (zh) * 2017-12-13 2018-04-24 北京邮电大学 英文句子相似度的计算方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sentences similarity analysis based on word embedding and syntax analysis;Xinchen Xu 等;《2017 IEEE 17th International Conference on Communication Technology (ICCT)》;20171231;全文 *
一种基于向量词序的句子相似度算法研究;程志强 等;《计算机仿真》;20140731;第31卷(第7期);全文 *

Also Published As

Publication number Publication date
CN109766547A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN109766547B (zh) 一种句子相似度计算方法
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN105989040B (zh) 智能问答的方法、装置及系统
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN107562717B (zh) 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
CN111125334B (zh) 一种基于预训练的搜索问答系统
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN103425635B (zh) 一种答案推荐方法和装置
CN109960756B (zh) 新闻事件信息归纳方法
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN108269125B (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
US20200073890A1 (en) Intelligent search platforms
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN109213998A (zh) 中文错字检测方法及系统
CN108073571A (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Moser et al. Refined distractor generation with LSA and stylometry for automated multiple choice question generation
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant