CN106021223A - 一种句子相似度的计算方法及系统 - Google Patents

一种句子相似度的计算方法及系统 Download PDF

Info

Publication number
CN106021223A
CN106021223A CN201610305004.XA CN201610305004A CN106021223A CN 106021223 A CN106021223 A CN 106021223A CN 201610305004 A CN201610305004 A CN 201610305004A CN 106021223 A CN106021223 A CN 106021223A
Authority
CN
China
Prior art keywords
sentence
similarity
participle
word
contribution margin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610305004.XA
Other languages
English (en)
Other versions
CN106021223B (zh
Inventor
吴成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201610305004.XA priority Critical patent/CN106021223B/zh
Publication of CN106021223A publication Critical patent/CN106021223A/zh
Application granted granted Critical
Publication of CN106021223B publication Critical patent/CN106021223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的两个句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将两个句子中分词的贡献值相加,得到句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。

Description

一种句子相似度的计算方法及系统
技术领域
本发明涉及语言信息处理领域,尤其涉及的是一种句子相似度的计算方法及系统。
背景技术
文本相似度计算在自然语言处理领域是一个重要部分,在信息检索,文档分类,问答系统等有重要的作用。文本相似度根据文本长度又可以分为长文本(篇章级别),短文本(语句级别,词语级别)相似度计算。长度不同的文本使得各种计算方法各有优劣。对于句子级别的相似度,不仅要考虑到句子内各个词语的含义,还要考虑到词语组合的顺序,使得该类研究比较复杂。
传统计算句子相似度方法主要是将句子向量化,通过对每个词语在句子中的权重,构成权重向量,进而计算向量之间的相似度。还有仅仅考虑句子文本的编辑距离(Levenshtein距离),该类计算方法没有考虑到词语的含义。从句法分析着手的方法,通过发现句子中词语之间的语法关系来计算其相似度,该类方法考虑到词语的语义,也更能体现句子的语义相似度,但是该类方法需要提前人工构建大量的语法训练库,工作量大。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种句子相似度的计算方法及系统,克服现有技术中句子相似度计算中工作量大或者相似度准确率低的缺陷。
本发明解决技术问题所采用的技术方案如下:
一种句子相似度的计算方法,其中,包括以下步骤:
步骤A、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
步骤B、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子中每个分词与第二句子各个分词之间的相似度;
步骤C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
步骤D、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
所述句子相似度的计算方法,其中,所述步骤A之前还包括:
A0、通过网络爬虫获取海量词语,组建语料库。
所述句子相似度的检测方法,其特征在于,所述步骤D还包括:
D1、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
D2、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
所述句子相似度的计算方法,其中,所述步骤B还包括:
通过以下公式计算分词之间的相似度:
S i m ( word i , word j ) = Σ l = 1 L v i l × v j l ( Σ l = 1 L v i l 2 ) × ( Σ l = 1 L v j l 2 ) ;
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
所述句子相似度的计算方法,其中,所述步骤C中相似度贡献值的计算公式为:
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
一种句子相似度的计算系统,其中,包括:
语料库训练模块,用于利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
词相似度计算模块,用于对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;
贡献值计算模块,用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
句间相似度计算模块,用于将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
所述句子相似度的计算系统,其中,包括:
语料库组建模块,用于通过网络爬虫获取海量词语,组建语料库。
所述句子相似度的计算系统,其中,所述句间相似度计算模块还包括:
贡献值获取单元,用于获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
相似度平均单元,用于计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
所述句子相似度的计算系统,其中,所述贡献值计算模块,用于通过以下公式计算分词之间的相似度:
S i m ( word i , word j ) = Σ l = 1 L v i l × v j l ( Σ l = 1 L v i l 2 ) × ( Σ l = 1 L v j l 2 ) ;
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
所述句子相似度的计算系统,其中,所述句间相似度计算模块中相似度贡献值得计算公式为:
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
有益效果,本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将第一句子和第二句子中分词的贡献值相加,得到第一句子和第二句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,较少的人工干预,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。
附图说明
图1是本发明的一种句子相似度的计算方法步骤流程图。
图2是本发明的一种句子相似度的计算系统的原理结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供了一种句子相似度的计算方法,如图1所示,所述方法包括:
S1、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量。
语料库训练
word2vec训练获取词语的向量,训练的语料库越大所获取的词向量也越准确;该步骤的语料库获取可以通过网上爬取相关新闻资讯等作为训练语料库。
可以想到的是,本领域技术人员可以根据需要,在设置专用某一个技术领域的语料库,只通过获取训练包含某一个或者多个领域可能会使用的词语的语料库,来提高训练的效率和提高匹配词语向量的准确度,实现更好的计算句子之间的相似度。
S2、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度。
通过训练得到的结果格式:
词语 向量
word1 v11,…,v1L
wordn vn1,…,vnL
L为每个词向量的长度。
通过上述训练结果,定义词与词之间的相似度如下:
S i m ( word i , word j ) = Σ l = 1 L v i l × v j l ( Σ l = 1 L v i l 2 ) × ( Σ l = 1 L v j l 2 ) - - - ( 1 )
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
分别将第一句子和第二句子中含有的词进行一一智能划分出,并从上述步骤S1中训练好的语料库中一一获取划分出的分词相对应的向量,并使用上式(1)计算两个句子之间每个分词之间的相似度。
S3、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值。
分别计算第一句子中每个分词与第二句子中各个分词之间的相似度,获取相似度超过预定阈值的两组分词集合,所述预定阈值可以根据需要自定义设置,也可以系统默认设置,较佳的,所述预定阈值可以设置为:70%-85%之间的任何值,优选的,可以设置为75%。
具体的,本步骤中相似度贡献值得计算公式为:
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
本步骤中,首先获取相似度超过预定阈值的两组分词集合,然后根据所述两组分词集合中两组分词各个在句子中位置的偏移量计算该分词为该句子贡献的相似度分量,最后再将这个句子中分词贡献的相似度分量进行相加后,得到这个句子相对于另一个句子的相似度。
具体的,首先记{WA1,...,WAm}{WB1,...,WBn}分别为句子A,B句子分词后的按先后顺序排列的词语,记第一句子A,第二句子B任意两个分词的相似度记为Sim(WAi,WBk);
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1, (2)
M(A,i,B)为句子B中分词WBk与句子A中第i个词语WAi相似度大于α的词语位置集合。
并且记B中序号在M(A,i,B)中的分词与A中分词WAi的偏移量为:
定义:
其中,C(A,i,B)为第一句子A中分词Ai为句子A相对于第二句子B总体相似度的贡献值,其中N=max(m,n),为第一句子和第二句子中划分出的分词数较大的一个。
S4、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
在上述步骤S3中计算出了第一句子或者第二句子中分词为所属句子提供的相似度贡献值,则将每个分词所提供的相似度贡献值相加,得到句子与句子之间的相似度值。
因此,定义:
S i m ( A , B ) = 1 m Σ i = 1 m C ( A , i , B ) - - - ( 5 )
为句子A相对于句子B的相似度,它表征A相对于B的相似程度,用同样的方法计算得到Sim(B,A),它表征B相对于A的相似程度。一般情况下,Sim(A,B)≠Sim(B,A),最后定义句子A,B的总体相似度为:
S ( A , B ) = S i m ( A , B ) + S i m ( B , A ) 2 - - - ( 6 )
也即是,为了更准确的得到第一句子和第二句子的相似度,本步骤取两个句子相对应相似度的平均值。
为了实现更好的组建语料库,所述步骤S1之前还包括:
S0、通过网络爬虫获取海量词语,组建语料库。由于网络上含有海量词语,而且还是实时更新,因此从网络中可以获取较多较新的词语信息,为准确的查找出待计算相似度句子中分词的向量提供技术支持。
所述步骤S4还包括:
S41、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值。
S42、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
由于第一句子中分词相对于第二句子中分词在计算相似度贡献值时,排列的顺序不同,其相似度贡献值可能不同,因此为了更加准确的获取第一句子与第二句子的相似度,本步骤中分别计算第一句子相对于第二句子的相似度和第二句子相对于第一句子的相似度,并取两者的平均值作为第一句子和第二句子的最终相似度。
下面以网络商品评价相似度计算为例,对本发明所述方法及系统做进一步的说明。
计算评价A:“送货员也很赞”,B:“快递服务很给力”的相似度。
分词后分别为:A(“送货员”,“也”,“很”,“赞”),B(“快递”,“服务”,“很”,“给力”),通过网上爬取获得相关评价语料库,通过word2vec训练,获得词语间相似度如下。
以α=0.75为例,通过公式(3)可以计算得到偏移量矩阵为:
通过公式(4)可以计算得到贡献值矩阵为:
C ( A , 1 , B ) = Σ k ∈ M ( A , i , B ) 4 - d ( A , i , B , k ) 4 × S i m ( W A i , W B k ) Σ k ∈ M ( A , i , B ) 4 - d ( A , i , B , k ) 4 = 4 - 0 4 × 0.90 + 4 - 3 4 × 0.76 4 - 0 4 + 4 - 3 4 = 0.84
同理可计算得到:
C(A,1,B) C(A,2,B) C(A,3,B) C(A,4,B)
0.84 0 1 0.95
C(B,1,A) C(B,2,A) C(B,3,A) C(B,4,A)
0.90 0 1 0.87
于是由公式(5)得到
S i m ( A , B ) = 0.84 + 0 + 1 + 0.95 4 = 0.70
S i m ( B , A ) = 0.90 + 0 + 1 + 0.87 4 = 0.69
于是由公式(6)得到
S ( A , B ) = S i m ( A , B ) + S i m ( B , A ) 2 = 0.70 + 0.69 2 = 0.695
在上述方法的基础上,本发明还提供了一种句子相似度的计算系统,如图2所示,所述系统包括:
语料库训练模块100,用于利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;其功能如步骤S1所述。
词相似度计算模块200,用于对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;其功能如步骤S2所述。
贡献值计算模块300,用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;其功能如步骤S3所述。
句间相似度计算模块400,用于将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度,其功能如步骤S4所述。
所述句子相似度的计算系统,还包括:
语料库组建模块,用于通过网络爬虫获取海量词语,组建语料库。
所述句间相似度计算模块还包括:
贡献值获取单元,用于获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
相似度平均单元,用于计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
所述贡献值计算模块,用于通过以下公式计算分词之间的相似度:
S i m ( word i , word j ) = Σ l = 1 L v i l × v j l ( Σ l = 1 L v i l 2 ) × ( Σ l = 1 L v j l 2 ) ;
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
所述句间相似度计算模块中相似度贡献值得计算公式为:
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
有益效果,本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将第一句子和第二句子中分词的贡献值相加,得到第一句子和第二句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,较少的人工干预,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种句子相似度的计算方法,其特征在于,包括以下步骤:
步骤A、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
步骤B、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子中每个分词与第二句子各个分词之间的相似度;
步骤C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
步骤D、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
2.根据权利要求1所述句子相似度的计算方法,其特征在于,所述步骤A之前还包括:
A0、通过网络爬虫获取海量词语,组建语料库。
3.根据权利要求1所述句子相似度的检测方法,其特征在于,所述步骤D还包括:
D1、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
D2、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
4.根据权利要求1所述句子相似度的计算方法,其特征在于,所述步骤B还包括:
通过以下公式计算分词之间的相似度:
S i m ( word i , word j ) = Σ l = 1 L v i l × v j l ( Σ l = 1 L v i l 2 ) × ( Σ l = 1 L v j l 2 ) ;
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
5.根据权利要求1所述句子相似度的计算方法,其特征在于,所述步骤C中相似度贡献值的计算公式为:
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词A和B之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中分词与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
6.一种句子相似度的计算系统,其特征在于,包括:
语料库训练模块,用于利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
词相似度计算模块,用于对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;
贡献值计算模块,用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
句间相似度计算模块,用于将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
7.根据权利要求6所述句子相似度的计算系统,其特征在于,所述计算系统还包括:
语料库组建模块,用于通过网络爬虫获取海量词语,组建语料库。
8.根据权利要求6所述句子相似度的计算系统,其特征在于,所述句间相似度计算模块还包括:
贡献值获取单元,用于获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
相似度平均单元,用于计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
9.根据权利要求6所述句子相似度的计算系统,其特征在于,所述贡献值计算模块,通过以下公式计算分词之间的相似度:
S i m ( word i , word j ) = Σ l = 1 L v i l × v j l ( Σ l = 1 L v i l 2 ) × ( Σ l = 1 L v j l 2 ) ;
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
10.根据权利要求6所述句子相似度的计算系统,其特征在于,所述句间相似度计算模块中相似度贡献值得计算公式为:
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词A和B之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中分词与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
CN201610305004.XA 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统 Active CN106021223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610305004.XA CN106021223B (zh) 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610305004.XA CN106021223B (zh) 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统

Publications (2)

Publication Number Publication Date
CN106021223A true CN106021223A (zh) 2016-10-12
CN106021223B CN106021223B (zh) 2020-06-23

Family

ID=57099301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610305004.XA Active CN106021223B (zh) 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统

Country Status (1)

Country Link
CN (1) CN106021223B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质
CN106980870A (zh) * 2016-12-30 2017-07-25 中国银联股份有限公司 短文本之间的文本匹配度计算方法
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107273501A (zh) * 2017-06-16 2017-10-20 合肥美的智能科技有限公司 语料生成方法及系统、智能设备和计算机装置
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN108241650A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 训练分类标准的训练方法和装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
WO2018153215A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种自动生成语义相近句子样本的方法
CN108932320A (zh) * 2018-06-27 2018-12-04 广州优视网络科技有限公司 文章搜索方法、装置及电子设备
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109117474A (zh) * 2018-06-25 2019-01-01 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN109325108A (zh) * 2018-08-13 2019-02-12 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN109597992A (zh) * 2018-11-27 2019-04-09 苏州浪潮智能软件有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法
CN109766527A (zh) * 2019-01-16 2019-05-17 武汉瓯越网视有限公司 一种文本相似度的计算方法以及相关设备
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置
CN111178059A (zh) * 2019-12-07 2020-05-19 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN111767714A (zh) * 2020-06-28 2020-10-13 平安科技(深圳)有限公司 一种文本通顺度确定方法、装置、设备及介质
CN112559798A (zh) * 2019-09-26 2021-03-26 北京新唐思创教育科技有限公司 音频内容质量的检测方法及装置
CN112948557A (zh) * 2021-03-09 2021-06-11 哈尔滨工业大学 一种以说明文档为辅助的可迭代的基于常用问题集的智能客服系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105095188A (zh) * 2015-08-14 2015-11-25 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105095188A (zh) * 2015-08-14 2015-11-25 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨松 等: "基于向量空间模型附加词义特征的句子相似度研究", 《成都信息工程学院学报》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776548B (zh) * 2016-12-06 2019-12-13 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN108241650B (zh) * 2016-12-23 2020-08-11 北京国双科技有限公司 训练分类标准的训练方法和装置
CN108241650A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 训练分类标准的训练方法和装置
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN106980870A (zh) * 2016-12-30 2017-07-25 中国银联股份有限公司 短文本之间的文本匹配度计算方法
TWI662425B (zh) * 2017-02-27 2019-06-11 大陸商芋頭科技(杭州)有限公司 一種自動生成語義相近句子樣本的方法
WO2018153215A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种自动生成语义相近句子样本的方法
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质
CN107273501A (zh) * 2017-06-16 2017-10-20 合肥美的智能科技有限公司 语料生成方法及系统、智能设备和计算机装置
CN107436864B (zh) * 2017-08-04 2021-03-02 识因智能科技(北京)有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN107480143B (zh) * 2017-09-12 2020-05-29 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019669B (zh) * 2017-10-31 2021-06-29 北京国双科技有限公司 一种文本检索方法及装置
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109033066B (zh) * 2018-06-04 2022-05-17 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109117474A (zh) * 2018-06-25 2019-01-01 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN108932320A (zh) * 2018-06-27 2018-12-04 广州优视网络科技有限公司 文章搜索方法、装置及电子设备
CN109325108A (zh) * 2018-08-13 2019-02-12 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
CN109325108B (zh) * 2018-08-13 2022-05-27 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
US11216618B2 (en) 2018-08-13 2022-01-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Query processing method, apparatus, server and storage medium
CN109597992B (zh) * 2018-11-27 2023-06-27 浪潮金融信息技术有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法
CN109597992A (zh) * 2018-11-27 2019-04-09 苏州浪潮智能软件有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法
CN109766547B (zh) * 2018-12-26 2022-10-18 重庆邮电大学 一种句子相似度计算方法
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN109766527B (zh) * 2019-01-16 2023-02-14 武汉瓯越网视有限公司 一种文本相似度的计算方法以及相关设备
CN109766527A (zh) * 2019-01-16 2019-05-17 武汉瓯越网视有限公司 一种文本相似度的计算方法以及相关设备
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置
CN112559798B (zh) * 2019-09-26 2022-05-17 北京新唐思创教育科技有限公司 音频内容质量的检测方法及装置
WO2021057270A1 (zh) * 2019-09-26 2021-04-01 北京新唐思创教育科技有限公司 音频内容质量检测方法及装置
CN112559798A (zh) * 2019-09-26 2021-03-26 北京新唐思创教育科技有限公司 音频内容质量的检测方法及装置
CN111178059A (zh) * 2019-12-07 2020-05-19 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN111178059B (zh) * 2019-12-07 2023-08-25 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN111767714B (zh) * 2020-06-28 2022-02-11 平安科技(深圳)有限公司 一种文本通顺度确定方法、装置、设备及介质
CN111767714A (zh) * 2020-06-28 2020-10-13 平安科技(深圳)有限公司 一种文本通顺度确定方法、装置、设备及介质
CN112948557A (zh) * 2021-03-09 2021-06-11 哈尔滨工业大学 一种以说明文档为辅助的可迭代的基于常用问题集的智能客服系统

Also Published As

Publication number Publication date
CN106021223B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN106021223A (zh) 一种句子相似度的计算方法及系统
CN103235772B (zh) 一种文本集人物关系自动提取方法
CN104573046A (zh) 一种基于词向量的评论分析方法及系统
CN106611052A (zh) 文本标签的确定方法及装置
CN106055673A (zh) 一种基于文本特征嵌入的中文短文本情感分类方法
CN108108433A (zh) 一种基于规则和数据网络融合的情感分析方法
CN104484374B (zh) 一种创建网络百科词条的方法及装置
CN105975458B (zh) 一种基于细粒度依存关系的中文长句相似度计算方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN106383817A (zh) 利用分布式语义信息的论文标题生成方法
CN104063502B (zh) 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN102662931A (zh) 一种基于协同神经网络的语义角色标注方法
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN108664633A (zh) 一种利用多样化文本特征进行文本分类的方法
CN109492213A (zh) 句子相似度计算方法和装置
CN106227718A (zh) 基于cnn的陆空通话语义一致性校验方法
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN109684449A (zh) 一种基于注意力机制的自然语言语义表征方法
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN107133212A (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
Gomaa et al. Arabic short answer scoring with effective feedback for students
CN106095791A (zh) 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
CN107844608A (zh) 一种基于词向量的句子相似度比较方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 516006 TCL technology building, No.17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co., Ltd

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL RESEARCH AMERICA Inc.

GR01 Patent grant
GR01 Patent grant