CN105095188A - 句子相似度计算方法及装置 - Google Patents

句子相似度计算方法及装置 Download PDF

Info

Publication number
CN105095188A
CN105095188A CN201510502241.0A CN201510502241A CN105095188A CN 105095188 A CN105095188 A CN 105095188A CN 201510502241 A CN201510502241 A CN 201510502241A CN 105095188 A CN105095188 A CN 105095188A
Authority
CN
China
Prior art keywords
word
sentence
similarity
deposit
orphan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510502241.0A
Other languages
English (en)
Other versions
CN105095188B (zh
Inventor
刘佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510502241.0A priority Critical patent/CN105095188B/zh
Publication of CN105095188A publication Critical patent/CN105095188A/zh
Application granted granted Critical
Publication of CN105095188B publication Critical patent/CN105095188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种准确度高的句子相似度计算方法及装置。该句子相似度计算方法,包括:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存词仅属于第二句子;根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有第一孤存词与所有第二孤存词之间的相似程度越高,G数值越大;根据公式计算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,表示第一句子对应的第一句向量,表示第二句子对应的第二句向量。

Description

句子相似度计算方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种句子相似度计算方法及装置。
背景技术
句子相似度计算是自然语言处理的一项重要研究内容,近年来在信息检索、机器翻译、问答系统、自动文摘等应用领域中的作用越来越重要。
传统方法多通过余弦相似性(cosinesimiliarity)来衡量两个句子的相似程度。具体过程为:先将需要比较相似度的两个句子分别转换为句向量表示,然后计算两个句向量的夹角的余弦值,。计算结果数值是0到1之间,数值越大说明两个句子越相似。更多详情可以参考维基百科https://en.wikipedia.org/wiki/Cosine_similarity。该方法简便易行,但是不够准确。
例如:需要比较“是高清吧”和“这是高清的吗”这两个句子的相似度。切词后的两个句子分别是“是/高清/吧”和“这是/高清/的/吗”。假设词的权重值都是1,各词对应的向量维度下标为:是->维度下标1,高清->维度下标2,吧->维度下标3,这是->维度下标4,的->维度下标5,吗->维度下标6,则两个句子分别对应的句向量是[1,1,1,0,0,0]和[0,1,0,1,1,1]。计算这两个句向量的夹角的余弦值:
c o s θ = 1 × 0 + 1 × 1 + 1 × 0 + 0 × 1 + 0 × 1 + 0 × 1 1 2 + 1 2 + 1 2 + 0 2 + 0 2 + 0 2 × 0 2 + 1 2 + 0 2 + 1 2 + 1 2 + 1 2 = 0.2887
上述方法计算出来的余弦值很小、句子相似度不高,然而人工判断两个句子实际上非常相似,由此可见上述方法存在准确度低的缺陷。
发明内容
有鉴于此,本发明旨在克服现有技术的准确度低的缺陷,提供一种准确度高的句子相似度计算方法及装置。
为实现上述目的,根据本发明的一个方面,提供了一种句子相似度计算方法,包括:步骤S1:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子,所述第二孤存词仅属于所述第二句子;步骤S2:根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述G数值越大;步骤S3:根据公式计算SIM(A,B),其中SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子对应的第一句向量,表示所述第二句子对应的第二句向量。
可选地,所述步骤S2包括:
步骤S21:将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以及所述匹配孤存词对的相似度贡献值G;
步骤S22:将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值G
可选地,所述为步骤S21包括:步骤S211:确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;步骤S212:根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];步骤S213:判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;步骤S214:判断所述并集集合是否为空集,如果否,跳至步骤S211。
可选地,所述词权重采用词频-逆文档频率。
为实现上述目的,根据本发明的一个方面,提供了一种句子相似度计算装置,包括:确定模块,用于针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子,所述第二孤存词仅属于所述第二句子;第一计算模块,根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述G数值越大;第二计算模块,用于根据公式计算SIM(A,B),其中SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子对应的第一句向量,表示所述第二句子对应的第二句向量。
可选地,所述第一计算模块还用于:将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以及该匹配孤存词对的相似度贡献值G;将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值G
可选地,所述第一计算模块还用于:确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;判断所述并集集合是否为空集,如果否,重复执行以上处理。
可选地,所述词权重采用词频-逆文档频率。
根据本发明的技术方案,在计算过程中考虑字面不相同、词义近似的词对句子相似度的贡献,这样计算得到的相似度会更加准确可靠。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的句子相似度计算方法的主要步骤的示意图。
图2是根据本发明实施例的句子相似度计算装置的主要部件的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在传统的余弦相似度计算句子相似度的技术方案中,“是高清吧”和“这是高清的吗”只有一个词“高清”相同,其他词都不相同。但是从语义角度来看“是”和“这是”、“吧”和“吗”意义比较接近,应该在计算句子相似度时用上却没有用。针对于此,本发明旨在提出一种计算句子相似度的方法及装置,在计算过程中考虑字面不相同、词义近似的词对句子相似度的贡献,这样计算得到的相似度会更加准确可靠。
图1是根据本发明实施例的句子相似度计算方法的主要步骤的示意图。如图1所示,该句子相似度计算方法,包括以下步骤S1至步骤S3。
步骤S1:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词。其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存词仅属于第二句子。
需要说明的是,第一句子和第二句子中不一定同时包含重复词、第一孤存词和第二孤存词这三者。重复词的集合、第一孤存词的集合以及第二孤存词的集合都有可能是空集。
步骤S2:根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有第一孤存词与所有第二孤存词之间的相似程度越高,G数值越大。
可选地,步骤S1可以具体包括如下的步骤S21和步骤S22(图1中未示出)。
步骤S21:将所有第一孤存词在所有第二孤存词进行语义匹配,以得到匹配孤存词对以及该匹配孤存词对的相似度贡献值G。需要说明的是,通过进行匹配,最终有可能得到一个或多个匹配孤存词对,也有可能未能得到任何孤存词对。
步骤S22:将所有的匹配孤存词对的相似度贡献值G求和,得到孤存词相似度总贡献值G
步骤S3:根据公式计算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,表示第一句子对应的第一句向量,表示第二句子对应的第二句向量。
需要说明的是,将第一句子和第二句子分别表示为第一句向量和第二句向量该过程与背景技术中提到的“余弦相似度”技术中相同,故此处不赘述。
由于步骤S2中已经阐明,所有第一孤存词与所有第二孤存词之间的相似程度越高,G数值越大,因此计算得到的第一句子和第二句子的句子相似度SIM(A,B)越大。
由上可知,根据本发明实施例的句子相似度计算方法,考虑了重复词之外的孤存词之间的语义相似性质对句子相似度的贡献,因此具有考虑全面周到,计算结果准确度高的优点。
在本发明的实施方式中,步骤S21的具体过程可以包括步骤S211至步骤S214(图1中未示出)。
步骤S211:确定当前所有第一孤存词和所有第二孤存词的并集集合中的词权重最大词X。
要说明的是,某个词语的词权重越大,说明该词语在句子中的意义越重要,越优先进行匹配。例如实词的词权重通常大于虚词(例如“的”)的词权重。词权重可以通过查询语料数据库获得,它是一个确定的数值,不因为所在的句子不同而不同。例如:“明天是星期一”和“会议安排在明天”两个句子中,“明天”一词的词权重是相同的。通常地,词权重可以采用词频-逆文档频率(termfrequency–inversedocumentfrequency,TF-IDF),该TF-IDF是一个正数。
步骤S212:根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X)。其中:G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值。集合U在X是第一孤存词的情况下表示当前所有第二孤存词构成的集合,集合U在X是第二孤存词的情况下表示当前所有第一孤存词构成的集合。Yi表示集合U中的元素。Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1]。
需要说明的是,步骤S212可以理解为,如果词语X是第一孤存词,在当前所有第二孤存词中选出最匹配者与该第一孤存词X进行匹配;如果词语X是第二孤存词,在当前所有第一孤存词中选出最匹配者与该第二孤存词X进行匹配。
还需要说明的是,WX、WYi和similarity(X,Yi)均可以通过查找语料数据库得到或者预先计算得到,是已知的参数。由于WX和WYi为正数,并且similarity(X,Yi)为非负数,因此G(X)也为非负数。
步骤S212:判断G(X)是否大于0。如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除。如果G(X)=0,将所述X从所述并集集合中删除。
换言之,如果成功匹配得到了孤存词对,那么将参与配对的两个孤存词从并集集合中删除。如果匹配失败,则将X从并集集合中删除。无论是上述两种情况中的哪种情况,并集集合中的元素是逐渐减少的。
步骤S214:判断所述并集集合是否为空集,如果否,跳至步骤S211。即,重复执行步骤S211至步骤S213,直至并集集合变为空集。
为使本领域技术人员更好地理解,下面用本发明的计算句子相似度的方法来计算句子①“这可以无理由退吗”和句子②“能退货么这个”的相似度。
(1)对句子①和句子②分词,得到“这个|可以|包邮|帝都|吗”和“北京|上海|免运费|么|这个”。两个句子的分词结果中,“这个”一词雷同,其余八词不雷同,因此两个句子中共有九个词。对这九个词编排向量维度下标,并且从语料数据库查找各个词的TF-IDF值作为该词的词权重(记为W),如表1所示。
表1句子分词结果所对应的向量维度下标以及词权重
句子①分词结果 这个 可以 包邮 帝都
句子②分词结果 这个 北京 上海 免运费
向量维度下标 1 2 3 4 5 6 7 8 9
词权重(W) 0.8 0.6 7 5 0.3 4.3 4.8 6 1
因此,将句子①和句子②分别写成向量形式如下:
句向量 A → = 0.8 , 0.6 , 7 , 5 , 0.3 , 0 , 0 , 0 , 0
句向量 B → = 0.8 , 0 , 0 , 0 , 0 , 4.3 , 4.8 , 6 , 1
(2)剔除雷同词“这个”一词之后,剩下八个孤存词。将八个孤存词根据词权重进行排序,得到有序集合{包邮,免运费,帝都,上海,北京,么,可以,吗}。假设查询语料库数据可以知道词和词之间的相似度(similarity)如表2所示:
表2词与词之间的相似度数据表
北京 上海 免运费
可以 0 0 0 0
包邮 0 0 1 0
帝都 1 0.2 0 0
0 0 0.6 0.7
首先为句子①中的“包邮”一词在句子②中剩下的“北京”、“上海”、“免运费”和“么”四个词中进行匹配。计算:
W包邮×W北京×similarity(包邮,北京)=7×4.3×0=0
W包邮×W上海×similarity(包邮,上海)=7×4.8×0=0
W包邮×W免运费×similarity(包邮,免运费)=7×6×1=42
W包邮×W×similarity(包邮,么)=7×1×0=0
G(包邮)=max{W包邮×W北京×similarity(包邮,北京),W包邮×W上海×similarity(包邮,上海),W包邮×W免运费×similarity(包邮,免运费),W包邮×W×similarity(包邮,么)}=W包邮×W免运费×similarity(包邮,免运费)=42>0
由上可知,“包邮”和“免运费”最匹配,成功地组成孤存词对且该孤存词对的相似度贡献值为42。删掉“包邮”和“免运费”两词。
然后为句子①中的“帝都”一词在句子②中剩下的“北京”、“上海”和“么”三个词中寻找匹配词。计算:
W帝都×W北京×similarity(帝都,北京)=5×4.3×1=21.5
W帝都×W上海×similarity(帝都,上海)=5×4.8×0.2=0.018
W帝都×W×similarity(帝都,么)=5×1×0=0
G(帝都)=W帝都×W北京×similarity(帝都,北京)=21.5>0
由上可知,“帝都”和“北京”最匹配,成功地组成孤存词对且该孤存词对的相似度贡献值为21.5。删掉“帝都”和“北京”两词。
然后为句子②中的“上海”在句子①中剩下的“可以”、“吗”寻找匹配词。计算:
W上海×W可以×similarity(上海,可以)=4.8×0.6×0=0
W上海×W×similarity(上海,吗)=4.8×0.3×0=0
G(上海)=0
由上可知,“上海”在句子②中没有近似的匹配词。删掉“上海”一词。
然后为句子②中的“么”在句子①中剩下的“可以”、“吗”寻找匹配词。
W×W可以×similarity(么,可以)=1×0.6×0=0
W×W×similarity(么,吗)=1×0.3×0.7=0.21
G(么)=W×W×similarity(么,吗)=0.21>0
由上可知,“么”和“吗”最匹配,成功地组成孤存词对且该孤存词对的相似度贡献值为0.21。删掉“么”和“吗”两词。
然后,并集集合中剩下唯一的第一孤存词“可以”,句子②中无剩余词与“可以”匹配。删去“可以”。
最后,并集集合为空集,匹配过程结束。
至此,完成了句子①和句子②中所有不相同的词语的匹配工作。计算:
G=42+21.5+0.21=63.71
按照本发明的方法最后一步骤计算句子相似度SIM(A,B):
说明句子①和句子②相似程度较高。
而按照传统方法计算结果为认为句子①和句子②的相似程度很低。由此可见,本发明与传统方法相比,本发明的计算结果更符合实际情况,准确度更高。
在准确度测试实验中,设定SIM(A,B)的匹配阈值是0.7,即大于等于0.7则认为两个句子是整体相似的,小于0.7则认为是整体不相似的。对大量两个句子的组合运用本发明的句子相似度计算方法计算,然后进行人工标注,发现本发明的准确度高达92%。
图2是根据本发明实施例的句子相似度计算装置的主要部件的示意图。如图2所示,该句子相似度计算装置20主要包括确定模块21、第一计算模块22和第二计算模块23。
确定模块21用于针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词。其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存词仅属于第二句子。
第一计算模块22用于根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有第一孤存词与所有第二孤存词之间的相似程度越高,G数值越大。
第二计算模块23用于根据公式计算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,表示第一句子对应的第一句向量,表示第二句子对应的第二句向量。
可选地,第一计算模块22还用于:将所有第一孤存词在所有第二孤存词进行语义匹配,以得到匹配孤存词对以及该匹配孤存词对的相似度贡献值G;将所有的匹配孤存词对的相似度贡献值G求和,得到孤存词相似度总贡献值G
可选地,第一计算模块22还用于将所有第一孤存词按照词权重降序排列得到第一集合,依次针对第一集合中的各个元素进行以下处理:确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;判断所述并集集合是否为空集,如果否,重复执行以上处理。
可选地,词权重可以采用词频-逆文档频率。
由上可知,根据本发明实施例的句子相似度计算装置,考虑了重复词之外的孤存词之间的语义相似性质对句子相似度的贡献,因此具有考虑全面周到,计算结果准确度高的优点。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种句子相似度计算方法,其特征在于,包括:
步骤S1:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子,所述第二孤存词仅属于所述第二句子;
步骤S2:根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述G数值越大;
步骤S3:根据公式计算SIM(A,B),其中SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子对应的第一句向量,表示所述第二句子对应的第二句向量。
2.根据权利要求1所述的句子相似度计算方法,其特征在于,所述步骤S2包括:
步骤S21:将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以及所述匹配孤存词对的相似度贡献值G;
步骤S22:将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值G
3.根据权利要求2所述的句子相似度计算方法,其特征在于,所述为步骤S21包括:
步骤S211:确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;
步骤S212:根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];
步骤S213:判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;
步骤S214:判断所述并集集合是否为空集,如果否,跳至步骤S211。
4.根据权利要求3所述的句子相似度计算方法,其特征在于,所述词权重采用词频-逆文档频率。
5.一种句子相似度计算装置,其特征在于,包括:
确定模块,用于针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子,所述第二孤存词仅属于所述第二句子;
第一计算模块,根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,G≥0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述G数值越大;
第二计算模块,用于根据公式计算SIM(A,B),其中SIM(A,B)表示所述第一句子和第二句子的句子相似度,表示所述第一句子对应的第一句向量,表示所述第二句子对应的第二句向量。
6.根据权利要求5所述的句子相似度计算装置,其特征在于,所述第一计算模块还用于:
将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以及该匹配孤存词对的相似度贡献值G;
将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值G
7.根据权利要求5所述的句子相似度计算装置,其特征在于,所述第一计算模块还用于:
确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X;
根据公式G(X)=max{WX×WYi×similarity(X,Yi)|Yi∈集合U}计算G(X),其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,Wx表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的词义相似度且取值范围为[0,1];
判断G(X)是否大于0,如果G(X)>0,则确认X和所述G(X)对应的Yi两个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集集合中删除,如果G(X)=0,将所述X从所述并集集合中删除;
判断所述并集集合是否为空集,如果否,重复执行以上处理。
8.根据权利要求5所述的句子相似度计算装置,其特征在于,所述词权重采用词频-逆文档频率。
CN201510502241.0A 2015-08-14 2015-08-14 句子相似度计算方法及装置 Active CN105095188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510502241.0A CN105095188B (zh) 2015-08-14 2015-08-14 句子相似度计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510502241.0A CN105095188B (zh) 2015-08-14 2015-08-14 句子相似度计算方法及装置

Publications (2)

Publication Number Publication Date
CN105095188A true CN105095188A (zh) 2015-11-25
CN105095188B CN105095188B (zh) 2018-02-16

Family

ID=54575660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510502241.0A Active CN105095188B (zh) 2015-08-14 2015-08-14 句子相似度计算方法及装置

Country Status (1)

Country Link
CN (1) CN105095188B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
CN107562714A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 一种语句相似度计算方法及装置
CN108509415A (zh) * 2018-03-16 2018-09-07 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN109697286A (zh) * 2018-12-18 2019-04-30 众安信息技术服务有限公司 一种基于词向量的诊断标准化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110087483A1 (en) * 2009-10-09 2011-04-14 Institute For Information Industry Emotion analyzing method, emotion analyzing system, computer readable and writable recording medium and emotion analyzing device
CN103034627A (zh) * 2011-10-09 2013-04-10 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110087483A1 (en) * 2009-10-09 2011-04-14 Institute For Information Industry Emotion analyzing method, emotion analyzing system, computer readable and writable recording medium and emotion analyzing device
CN103034627A (zh) * 2011-10-09 2013-04-10 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘宏哲: "一种基于本体的句子相似度计算方法", 《计算机科学》 *
吕强 等: "句子语义相似度计算", 《计算机工程与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106021223B (zh) * 2016-05-09 2020-06-23 Tcl科技集团股份有限公司 一种句子相似度的计算方法及系统
CN107562714A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 一种语句相似度计算方法及装置
CN107562714B (zh) * 2016-06-30 2021-02-09 北京儒博科技有限公司 一种语句相似度计算方法及装置
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
CN108509415A (zh) * 2018-03-16 2018-09-07 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法
CN108509415B (zh) * 2018-03-16 2021-09-24 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN109697286A (zh) * 2018-12-18 2019-04-30 众安信息技术服务有限公司 一种基于词向量的诊断标准化方法及装置

Also Published As

Publication number Publication date
CN105095188B (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN105095188A (zh) 句子相似度计算方法及装置
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
CN105224648A (zh) 一种实体链接方法与系统
CN110597870A (zh) 一种企业关系挖掘方法
CN101136015A (zh) 一种计算图像之间相似度的方法
CN106886601A (zh) 一种基于子空间混合超图学习的交叉模态检索算法
CN101840397A (zh) 词义消歧方法和系统
CN103514255A (zh) 一种基于项目层次类别的协同过滤推荐方法
Scheffler et al. Matching points of interest from different social networking sites
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN104978320A (zh) 一种基于相似度的知识推荐方法和设备
CN104216949A (zh) 一种融合空间信息的图像特征聚合表示方法及系统
JP2015007975A (ja) マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法
CN103020321B (zh) 近邻搜索方法与系统
CN104462327A (zh) 语句相似度的计算、搜索处理方法及装置
CN101388019A (zh) 文献字段标准化的方法
CN104714950A (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN105574265B (zh) 面向模型检索的装配体模型定量描述方法
CN105989001A (zh) 图像搜索方法及装置、图像搜索系统
An et al. Hypergraph propagation and community selection for objects retrieval
CN109977131A (zh) 一种房型匹配系统
CN106651461A (zh) 基于灰理论的电影个性化推荐方法
CN104714977A (zh) 一种实体与知识库项的关联方法及装置
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant