CN106970912A - 中文语句相似度计算方法、计算装置以及计算机存储介质 - Google Patents

中文语句相似度计算方法、计算装置以及计算机存储介质 Download PDF

Info

Publication number
CN106970912A
CN106970912A CN201710265407.0A CN201710265407A CN106970912A CN 106970912 A CN106970912 A CN 106970912A CN 201710265407 A CN201710265407 A CN 201710265407A CN 106970912 A CN106970912 A CN 106970912A
Authority
CN
China
Prior art keywords
similarity
user
semantic
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710265407.0A
Other languages
English (en)
Inventor
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom Technology Development Co Ltd
Original Assignee
Beijing Wisdom Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Technology Development Co Ltd filed Critical Beijing Wisdom Technology Development Co Ltd
Priority to CN201710265407.0A priority Critical patent/CN106970912A/zh
Publication of CN106970912A publication Critical patent/CN106970912A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

提供一种基于语义的中文语句相似度计算方法、计算装置以及计算机存储介质,该计算方法包括:接受用户输入的问题A;对用户输入的问题A进行预处理;对经过预处理的用户输入的问题A进行分词;将用户输入的问题A与问题模板中的每个问题B进行匹配计算,获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2;根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score;从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式:score=a*score1+b*score2,a+b=1。

Description

中文语句相似度计算方法、计算装置以及计算机存储介质
技术领域
本发明的实施例涉及一种基于语义的中文语句相似度计算方法、计算装置以及计算机存储介质。
背景技术
随着网络技术的发展和Internet上信息量的迅速增加,信息检索系统已成为网络信息平台中的一个重要组成部分。但是,传统的信息检索仅仅是基于语法层面上的简单匹配,缺乏信息资源统一的语义描述,存在着信息的误检、漏检等问题。为了使用户搜索到更加准确、全面的网络信息,信息检索中概念间的语义相似度计算具有重要的作用。
近几年来,很多学者都在不断地研究语义相似度的计算方法。在基于语义距离的概念相似性匹配基础上,全面考虑了概念之间的继承关系和语义距离关系,通过语义相似度来衡量概念间的匹配程度,但它没有考虑到概念自身所含有的信息量。
发明内容
本发明的实施例提供一种基于语义的中文语句相似度计算方法、基于语义的计算装置以及计算机存储介质,能够获得准确率高的语句相似度计算结果,当用于智能问答系统时,能够很好地匹配用户的问题。
一方面,本发明的实施例提供一种基于语义的中文语句相似度计算方法,包括:接受用户输入的问题A;对用户输入的问题A进行预处理;对经过预处理的用户输入的问题A进行分词;将用户输入的问题A与问题模板中的每个问题B进行匹配计算,获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2;根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score;从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式:score=a*score1+b*score2,a+b=1。
示例性地,问题模板是通过对问题文件进行预处理、分词后生成的。
示例性地,预处理包括去除空格、去除标点符号以及过滤停留词。
示例性地,将用户输入的问题A与问题模板中的每个问题B进行匹配计算,获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1包括:获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B);根据编辑距离Dis(A,B)计算得到语句形态相似度score1,其中Max(A,B)为问题A和问题B的句子的最大长度,编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。
示例性地,编辑操作包括插入、删除和替换,插入、删除和替换的代价数均为1。
示例性地,获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)包括:获取分词后的问题A的词语个数n和问题B的词语个数m;创建m*n维的二维数组d(n,m);初始化该二维数组d(n,m),其中d[0,0]=0,d[0,i]=i,1≦i≦m,d[j,0]=j,1≦j≦n;计算并获得j≠0且i≠0时的任意d[i,j]得到赋值后的二维数组d(n,m);将d[n,m]作为用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。
示例性地,计算并获得j≠0且i≠0时的任意d[i,j]得到赋值后的二维数组d(n,m)包括:利用删除操作由d[i][j-1]+删除操作的代价数计算得到d1[i,j];利用插入操作由d[i-1][j]+插入操作的代价数计算得到d2[i,j];利用替换操作由d[i-1][j-1]+替换操作的代价数计算得到d3[i,j];将d1[i,j]、d2[i,j]和d3[i,j]取最小值而使得d[i,j]等于该最小值。
示例性地,获得用户输入的问题A与问题模板中的每个问题B之间的语义相似度score2包括:根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度;对于问题A中的每个词语,选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对;问题A或问题B中的没有建立对应关系的词语与空词语对应,该词语对的相似度为零;将所有词语对的相似度值相加后除以词语对的总对数而得到语义相似度score2。
示例性地,根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括:利用知网来提取其丰富的语义信息;采用义原相似度计算公式计算义原相似度;利用义原相似度计算得到义项相似度;利用义项相似度得到词语相似度,所述义原相似度计算公式为:
其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数。α取值为1.6;
利用义项相似度得到词语相似度的计算公式为:
其中W1和W2为两个汉语词语,W1有n个义项:S11、S12……S1n,W2有m个义项:S21、S22……S2m
示例性地,两个概念S1和S2的义项相似度Sim(S1,S2)由以下四部分构成:
第一基本义原,这一部分的相似度记为Sim1(S1,S2);
其它基本义原描述,将两个概念的这一部分的相似度记为Sim2(S1,S2);
关系义原描述,将两个概念的这一部分的相似度记为Sim3(S1,S2);
关系符号描述,将两个概念的这一部分的相似度记为Sim4(S1,S2)。
Sim(S1,S2)=beta1*Sim1(S1,S2)+beta2*Sim2(S1,S2)+beta3*Sim3(S1,S2)+beta4*Sim4(S1,S2)
其中beta1=0.5,beta2=0.2,beta3=0.17,beta4=0.13。
另一方面,本发明的实施例提供一种基于语义的中文语句相似度计算装置,包括处理器和存储器,存储器存储有指令,当处理器执行指令时,执行如以上所描述的计算方法。
再一方面,本发明的实施例提供一种计算机存储介质,其上存储有计算机可执行指令,当指令被计算装置执行时,执行如以上所描述的计算方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1示出了根据本发明第一实施例的基于语义的中文语句相似度计算方法的流程图;以及
图2示出了根据本发明第一实施例的语义相似度score2计算方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
第一实施例
本发明的第一实施例提供一种基于语义的中文语句相似度计算方法,图1示出了基于语义的中文语句相似度计算方法1000的流程图,如图1所示,该计算方法包括:在步骤S1100中,接受用户输入的问题A;在步骤S1200中,对用户输入的问题A进行预处理;在步骤S1300中,对经过预处理的用户输入的问题A进行分词;在步骤S1400中,将用户输入的问题A与问题模板中的每个问题B进行匹配计算,获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2;在步骤S1500中,根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score;在步骤S1600中,从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式:score=a*score1+b*score2,a+b=1。
示例性地,以上公式中,a和b是加权值,二者是通过实验确定的,确定a和b时,先对a进行取值,a的值从0变到1,相应地,b=a-1,然后记录实验结果最好的a和b的值作为公式中的取值。
示例性地,在根据本发明实施例的基于语义的中文语句相似度计算方法中,对于问题模板中的每个问题B是通过对预先确定的问题文件进行预处理、中文分词后生成的。
示例性地,预处理可以包括去除空格、去除标点符号以及过滤停留词等,经过预处理之后的语句去除了与语句匹配度无关的因素,从而使得后续对语句的处理更准确。
示例性地,在根据本发明实施例的基于语义的中文语句相似度计算方法中,将用户输入的问题A与问题模板中的每个问题B进行匹配计算,获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1包括:获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B);根据编辑距离Dis(A,B)计算得到语句形态相似度score1,其中Max(A,B)为问题A和问题B的句子的最大长度,编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。
示例性地,在根据本发明实施例的基于语义的中文语句相似度计算方法中,获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)包括:获取分词后的问题A的词语个数n和问题B的词语个数m;创建m*n维的二维数组d(n,m);初始化该二维数组d(n,m),其中d[0,0]=0,d[0,i]=i,1≦i≦m,d[j,0]=j,1≦j≦n;计算并获得j≠0且i≠0时的任意d[i,j]得到赋值后的二维数组d(n,m);将d[n,m]作为用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。
示例性地,计算并获得j≠0且i≠0时的任意d[i,j]得到赋值后的二维数组d(n,m)包括:利用删除操作由d[i][j-1]+删除操作的代价数计算得到d1[i,j];利用插入操作由d[i-1][j]+插入操作的代价数计算得到d2[i,j];利用替换操作由d[i-1][j-1]+替换操作的代价数计算得到d3[i,j];将d1[i,j]、d2[i,j]和d3[i,j]取最小值而使得d[i,j]等于该最小值。
示例性地,在根据本发明实施例的基于语义的中文语句相似度计算方法中,编辑操作可以包括插入、删除和替换,相应地,插入、删除和替换的代价数均为1。
下面结合具体的示例对用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。
以“我爱吃苹果”和“他爱吃梨”两个句子进行说明编辑距离计算流程,对这两个句子分词后的结果分别为:我/爱吃/苹果,他/爱吃/梨。结合表1和表2对编辑距离计算流程进行详细说明。
表格中的第i行、第j列表示将原序列B=(b1,b2,…bj)通过插入、删除、替换三种操作,变换为目标序列A=(a1,a2,…ai)所需要的最小距离,标记为d[i][j]。对于任意i,d[i][0]=i(对于序列B全部使用插入操作),对于任意j,d[0][j]=j(对于序列B全部使用删除操作),由此我们可以得到初始化矩阵如表1。
表1编辑距离计算初始化矩阵
在初始化矩阵的基础上,对于j≠0且i≠0时的任意d[i,j],我们可以依据动态转移方程而计算得到,d[i][j]可以由序列B先删除b[j],然后通过d[i][j-1]得到,还可以通过序列B先插入a[i],然后通过d[i-1][j]得到,还可以由序列B将b[j]替换为a[i],然后通过d[i-1][j-1]得到,然后对通过三种编辑操作得到的结果取最小值,从而得到d[i][j],最终结果如表2所示。由表2可以得出,“我爱吃苹果”和“他爱吃梨”这两个句子的最小编辑距离为d[3][3],即2。
表2编辑距离计算结果矩阵
图2示出了根据本发明第一实施例的语义相似度score2计算方法2000的流程图。如图2所示,在步骤S2100中,在步骤S根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度;在步骤S2200中,对于问题A中的每个词语,选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对;在步骤S2300中,问题A或问题B中的没有建立对应关系的词语与空词语对应,该词语对的相似度为零;在步骤S2400中,将所有词语对的相似度值相加后除以词语对的总对数而得到语义相似度score2,如图2所示。
示例性地,根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括:利用知网来提取其丰富的语义信息;采用义原相似度计算公式计算义原相似度;利用义原相似度计算得到义项相似度;利用义项相似度得到词语相似度,其中义原相似度计算公式为:
其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数,α取值为1.6;
利用义项相似度得到词语相似度的计算公式为:
其中W1和W2为两个汉语词语,W1有n个义项:S11、S12……S1n,W2有m个义项:S21、S22……S2m
示例性,两个概念S1和S2的义项相似度Sim(S1,S2)由以下四部分构成:
第一基本义原,这一部分的相似度记为Sim1(S1,S2);
其它基本义原描述,将两个概念的这一部分的相似度记为Sim2(S1,S2);
关系义原描述,将两个概念的这一部分的相似度记为Sim3(S1,S2);
关系符号描述,将两个概念的这一部分的相似度记为Sim4(S1,S2);
Sim(S1,S2)=beta1*Sim1(S1,S2)+beta2*Sim2(S1,S2)+beta3*Sim3(S1,S2)+beta4*Sim4(S1,S2)
其中beta1=0.5,beta2=0.2,beta3=0.17,beta4=0.13。
根据本发明第一实施例的基于语义的中文语句相似度计算方法,基于知网的相似度计算,利用了知网中词语的上下位关系,并且综合考虑了句子语序的因素,在计算语句相似度时,综合考虑了句子之间的语句形态相似度score1和语义相似度score2而得到语句相似度,从而将基于知网的相似度计算和编辑距离的相似度计算结合起来,相对于以前的方法在语句相似度的准确性方面有了很大提升。在应用于智能问答系统时,可以很好的匹配用户的问题,匹配准确率高。
第二实施例
本发明的第二实施例提供一种基于语义的中文语句相似度计算装置,包括处理器和存储器,该存储器存储有指令,当该处理器执行指令时,执行如本发明第一实施例所描述的计算方法。为了简洁,对于根据本发明第一实施例的计算方法这里将不再进行赘述。
本发明的第二实施例还提供一种计算机存储介质,其上存储有计算机可执行指令,当该指令被计算装置执行时,执行如如本发明第一实施例所描述的计算方法。为了简洁,对于根据本发明第一实施例的计算方法这里将不再进行赘述。
根据本发明实施例的基于语义的中文语句相似度计算方法,包括:接受用户输入的问题A;对所述用户输入的问题A进行预处理;对经过所述预处理的所述用户输入的问题A进行分词;将所述用户输入的问题A与所述问题模板中的每个问题B进行匹配计算,获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2;根据所述语句形态相似度score1和所述语义相似度score2计算获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句相似度score;从所述问题模板中选择与所述用户输入的问题A具有最高语句相似度的问题的答案推送给所述用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式:score=a*score1+b*score2,a+b=1。在语句相似度计算方法中,在计算语句相似度时,综合考虑了句子之间的语句形态相似度score1和语义相似度score2而得到语句相似度,从而将基于知网的相似度计算和编辑距离的相似度计算结合起来,相对于以前的方法在语句相似度的准确性方面有了很大提升。在应用于智能问答系统时,可以很好的匹配用户的问题,匹配准确率高。
以上所述,仅为本发明的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。

Claims (12)

1.一种基于语义的中文语句相似度计算方法,包括:
接受用户输入的问题A;
对所述用户输入的问题A进行预处理;
对经过所述预处理的所述用户输入的问题A进行分词;
将所述用户输入的问题A与所述问题模板中的每个问题B进行匹配计算,获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2;
根据所述语句形态相似度score1和所述语义相似度score2计算获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句相似度score;
从所述问题模板中选择与所述用户输入的问题A具有最高语句相似度的问题的答案推送给所述用户,
其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式:score=a*score1+b*score2,a+b=1。
2.根据权利要求1所述的基于语义的中文语句相似度计算方法,其中所述问题模板是通过对问题文件进行预处理、分词后生成的。
3.根据权利要求1或2所述的基于语义的中文语句相似度计算方法,其中所述预处理包括去除空格、去除标点符号以及过滤停留词。
4.根据权利要求2所述的基于语义的中文语句相似度计算方法,其中将所述用户输入的问题A与所述问题模板中的每个问题B进行匹配计算,获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语句形态相似度score1包括:
获得所述用户输入的问题A与所述问题模板中的每个问题B之间的编辑距离Dis(A,B);
根据所述编辑距离Dis(A,B)计算得到语句形态相似度score1,
其中Max(A,B)为问题A和问题B的句子的最大长度,所述编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。
5.根据权利要求4所述的基于语义的中文语句相似度计算方法,其中所述编辑操作包括插入、删除和替换,所述插入、所述删除和所述替换的代价数均为1。
6.根据权利要求5所述的基于语义的中文语句相似度计算方法,其中获得所述用户输入的问题A与所述问题模板中的每个问题B之间的编辑距离Dis(A,B)包括:
获取分词后的所述问题A的词语个数n和所述问题B的词语个数m;
创建m*n维的二维数组d(n,m);
初始化该二维数组d(n,m),其中d[0,0]=0,d[0,i]=i,1≦i≦m,d[j,0]=j,1≦j≦n;
计算并获得j≠0且i≠0时的任意d[i,j]得到赋值后的二维数组d(n,m);
将d[n,m]作为所述用户输入的问题A与所述问题模板中的每个问题B之间的编辑距离Dis(A,B)。
7.根据权利要求6所述的基于语义的中文语句相似度计算方法,其中计算并获得j≠0且i≠0时的任意d[i,j]得到赋值后的二维数组d(n,m)包括:
利用删除操作由d[i][j-1]+删除操作的代价数计算得到d1[i,j];
利用插入操作由d[i-1][j]+插入操作的代价数计算得到d2[i,j];
利用替换操作由d[i-1][j-1]+替换操作的代价数计算得到d3[i,j];
将d1[i,j]、d2[i,j]和d3[i,j]取最小值而使得d[i,j]等于该最小值。
8.根据权利要求2所述的基于语义的中文语句相似度计算方法,其中获得所述用户输入的问题A与所述问题模板中的每个问题B之间的语义相似度score2包括:
根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度;
对于问题A中的每个词语,选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对;
问题A或问题B中的没有建立对应关系的词语与空词语对应,该词语对的相似度为零;
将所有词语对的相似度值相加后除以词语对的总对数而得到所述语义相似度score2。
9.根据权利要求8所述的基于语义的中文语句相似度计算方法,其中
根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括:
利用知网来提取其丰富的语义信息;
计算义原相似度;
利用义原相似度计算得到义项相似度;
利用义项相似度得到词语相似度,
所述义原相似度计算公式为:
S i m ( p 1 , p 2 ) = α d + α
其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数,α取值为1.6;
利用义项相似度得到词语相似度的计算公式为:
S i m ( W 1 , W 2 ) = m a x i = 1.. n , j = 1 ... m S i m ( S 1 i , S 2 j )
其中W1和W2为两个汉语词语,W1有n个义项:S11、S12……S1n,W2有m个义项:S21、S22……S2m。
10.根据权利要求9所述的基于语义的中文语句相似度计算方法,其中两个概念S1和S2的义项相似度Sim(S1,S2)由以下四部分构成:
第一基本义原,这一部分的相似度记为Sim1(S1,S2);
其它基本义原描述,将两个概念的这一部分的相似度记为Sim2(S1,S2);
关系义原描述,将两个概念的这一部分的相似度记为Sim3(S1,S2);
关系符号描述,将两个概念的这一部分的相似度记为Sim4(S1,S2);
Sim(S1,S2)=beta1*Sim1(S1,S2)+beta2*Sim2(S1,S2)+beta3*Sim3(S1,S2)+beta4*Sim4(S1,S2)
其中beta1=0.5,beta2=0.2,beta3=0.17,beta4=0.13。
11.一种基于语义的中文语句相似度计算装置,包括处理器和存储器,所述存储器存储有指令,当所述处理器执行所述指令时,执行如权利要求1-10中任一项所述的计算方法。
12.一种计算机存储介质,其上存储有计算机可执行指令,当所述指令被计算装置执行时,执行如权利要求1-10中任一项所述的计算方法。
CN201710265407.0A 2017-04-21 2017-04-21 中文语句相似度计算方法、计算装置以及计算机存储介质 Pending CN106970912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710265407.0A CN106970912A (zh) 2017-04-21 2017-04-21 中文语句相似度计算方法、计算装置以及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710265407.0A CN106970912A (zh) 2017-04-21 2017-04-21 中文语句相似度计算方法、计算装置以及计算机存储介质

Publications (1)

Publication Number Publication Date
CN106970912A true CN106970912A (zh) 2017-07-21

Family

ID=59332511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710265407.0A Pending CN106970912A (zh) 2017-04-21 2017-04-21 中文语句相似度计算方法、计算装置以及计算机存储介质

Country Status (1)

Country Link
CN (1) CN106970912A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN107967303A (zh) * 2017-11-10 2018-04-27 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN108182222A (zh) * 2017-12-26 2018-06-19 东软集团股份有限公司 一种文本匹配方法及装置
CN109308352A (zh) * 2018-08-01 2019-02-05 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN109325241A (zh) * 2018-09-19 2019-02-12 传神语联网网络科技股份有限公司 基于一致性计算的翻译机器人优选方法及其计算机系统
CN109360017A (zh) * 2018-09-11 2019-02-19 广东神马搜索科技有限公司 为查询语句确定广告保留价的方法和装置
CN109582761A (zh) * 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答系统方法
CN109785698A (zh) * 2017-11-13 2019-05-21 上海流利说信息技术有限公司 用于口语水平评测的方法、装置、电子设备以及介质
CN109857841A (zh) * 2018-12-05 2019-06-07 厦门快商通信息技术有限公司 一种faq问句文本相似度计算方法及系统
CN109947917A (zh) * 2019-03-07 2019-06-28 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN110019665A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 文本检索方法及装置
CN110297994A (zh) * 2019-06-03 2019-10-01 北京金蝶管理软件有限公司 网页数据的采集方法、装置、计算机设备和存储介质
CN111625619A (zh) * 2019-02-28 2020-09-04 北京沃东天骏信息技术有限公司 查询省略方法、装置、计算机可读介质及电子设备
CN113505593A (zh) * 2021-07-23 2021-10-15 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
US20150347393A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Exemplar-based natural language processing
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
US20150347393A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Exemplar-based natural language processing
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李月雷: "汉语语句语义相似度的计算方法", 《2008年中国信息技术与应用学术论坛文集》 *
王春雨: "基于编辑距离的字符串模式匹配算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高尚: "《分布估计算法及其应用》", 31 January 2016 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN110019665A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 文本检索方法及装置
CN107967303A (zh) * 2017-11-10 2018-04-27 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN107967303B (zh) * 2017-11-10 2021-03-26 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN109785698A (zh) * 2017-11-13 2019-05-21 上海流利说信息技术有限公司 用于口语水平评测的方法、装置、电子设备以及介质
CN108182222A (zh) * 2017-12-26 2018-06-19 东软集团股份有限公司 一种文本匹配方法及装置
CN108182222B (zh) * 2017-12-26 2020-12-01 东软集团股份有限公司 一种文本匹配方法及装置
CN109308352A (zh) * 2018-08-01 2019-02-05 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN109308352B (zh) * 2018-08-01 2021-10-22 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN109360017A (zh) * 2018-09-11 2019-02-19 广东神马搜索科技有限公司 为查询语句确定广告保留价的方法和装置
CN109325241A (zh) * 2018-09-19 2019-02-12 传神语联网网络科技股份有限公司 基于一致性计算的翻译机器人优选方法及其计算机系统
CN109325241B (zh) * 2018-09-19 2023-07-04 传神语联网网络科技股份有限公司 基于一致性计算的翻译机器人优选方法及其计算机系统
CN109582761A (zh) * 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答系统方法
CN109857841A (zh) * 2018-12-05 2019-06-07 厦门快商通信息技术有限公司 一种faq问句文本相似度计算方法及系统
CN111625619A (zh) * 2019-02-28 2020-09-04 北京沃东天骏信息技术有限公司 查询省略方法、装置、计算机可读介质及电子设备
CN111625619B (zh) * 2019-02-28 2024-03-01 北京沃东天骏信息技术有限公司 查询省略方法、装置、计算机可读介质及电子设备
CN109947917A (zh) * 2019-03-07 2019-06-28 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN110297994A (zh) * 2019-06-03 2019-10-01 北京金蝶管理软件有限公司 网页数据的采集方法、装置、计算机设备和存储介质
CN113505593A (zh) * 2021-07-23 2021-10-15 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN113505593B (zh) * 2021-07-23 2024-03-29 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN107204184B (zh) 语音识别方法及系统
CN106570148B (zh) 一种基于卷积神经网络的属性抽取方法
CN104899304B (zh) 命名实体识别方法及装置
CN105843897B (zh) 一种面向垂直领域的智能问答系统
CN106815192B (zh) 模型训练方法及装置和语句情感识别方法及装置
CN105630768B (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN103970864B (zh) 基于微博文本的情绪分类和情绪成分分析方法及系统
CN106776503A (zh) 文本语义相似度的确定方法及装置
CN104133855B (zh) 一种输入法智能联想的方法及装置
CN105389307A (zh) 语句意图类别识别方法及装置
CN104090890A (zh) 关键词相似度获取方法、装置及服务器
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN109190007A (zh) 数据分析方法及装置
CN108984661A (zh) 一种知识图谱中实体对齐方法和装置
CN107305578A (zh) 人机智能问答方法和装置
CN108228758A (zh) 一种文本分类方法及装置
CN110110092B (zh) 一种知识图谱构建方法及相关设备
CN107861944A (zh) 一种基于Word2Vec的文本标签提取方法及装置
CN105912645A (zh) 一种智能问答方法及装置
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
Gao et al. Text classification research based on improved Word2vec and CNN
CN107436916A (zh) 智能提示答案的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170721