CN106021223B - 一种句子相似度的计算方法及系统 - Google Patents

一种句子相似度的计算方法及系统 Download PDF

Info

Publication number
CN106021223B
CN106021223B CN201610305004.XA CN201610305004A CN106021223B CN 106021223 B CN106021223 B CN 106021223B CN 201610305004 A CN201610305004 A CN 201610305004A CN 106021223 B CN106021223 B CN 106021223B
Authority
CN
China
Prior art keywords
sentence
similarity
participles
corpus
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610305004.XA
Other languages
English (en)
Other versions
CN106021223A (zh
Inventor
吴成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Priority to CN201610305004.XA priority Critical patent/CN106021223B/zh
Publication of CN106021223A publication Critical patent/CN106021223A/zh
Application granted granted Critical
Publication of CN106021223B publication Critical patent/CN106021223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的两个句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将两个句子中分词的贡献值相加,得到句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。

Description

一种句子相似度的计算方法及系统
技术领域
本发明涉及语言信息处理领域,尤其涉及的是一种句子相似度的计算方法及系统。
背景技术
文本相似度计算在自然语言处理领域是一个重要部分,在信息检索,文档分类,问答系统等有重要的作用。文本相似度根据文本长度又可以分为长文本(篇章级别),短文本(语句级别,词语级别)相似度计算。长度不同的文本使得各种计算方法各有优劣。对于句子级别的相似度,不仅要考虑到句子内各个词语的含义,还要考虑到词语组合的顺序,使得该类研究比较复杂。
传统计算句子相似度方法主要是将句子向量化,通过对每个词语在句子中的权重,构成权重向量,进而计算向量之间的相似度。还有仅仅考虑句子文本的编辑距离(Levenshtein距离),该类计算方法没有考虑到词语的含义。从句法分析着手的方法,通过发现句子中词语之间的语法关系来计算其相似度,该类方法考虑到词语的语义,也更能体现句子的语义相似度,但是该类方法需要提前人工构建大量的语法训练库,工作量大。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种句子相似度的计算方法及系统,克服现有技术中句子相似度计算中工作量大或者相似度准确率低的缺陷。
本发明解决技术问题所采用的技术方案如下:
一种句子相似度的计算方法,其中,包括以下步骤:
步骤A、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
步骤B、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子中每个分词与第二句子各个分词之间的相似度;
步骤C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
步骤D、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
所述句子相似度的计算方法,其中,所述步骤A之前还包括:
A0、通过网络爬虫获取海量词语,组建语料库。
所述句子相似度的检测方法,其特征在于,所述步骤D还包括:
D1、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
D2、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
所述句子相似度的计算方法,其中,所述步骤B还包括:
通过以下公式计算分词之间的相似度:
Figure BDA0000985233350000021
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
所述句子相似度的计算方法,其中,所述步骤C中相似度贡献值的计算公式为:
Figure BDA0000985233350000031
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
Figure BDA0000985233350000032
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
一种句子相似度的计算系统,其中,包括:
语料库训练模块,用于利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
词相似度计算模块,用于对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;
贡献值计算模块,用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
句间相似度计算模块,用于将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
所述句子相似度的计算系统,其中,包括:
语料库组建模块,用于通过网络爬虫获取海量词语,组建语料库。
所述句子相似度的计算系统,其中,所述句间相似度计算模块还包括:
贡献值获取单元,用于获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
相似度平均单元,用于计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
所述句子相似度的计算系统,其中,所述贡献值计算模块,用于通过以下公式计算分词之间的相似度:
Figure BDA0000985233350000041
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
所述句子相似度的计算系统,其中,所述句间相似度计算模块中相似度贡献值得计算公式为:
Figure BDA0000985233350000042
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
Figure BDA0000985233350000051
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
有益效果,本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将第一句子和第二句子中分词的贡献值相加,得到第一句子和第二句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,较少的人工干预,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。
附图说明
图1是本发明的一种句子相似度的计算方法步骤流程图。
图2是本发明的一种句子相似度的计算系统的原理结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供了一种句子相似度的计算方法,如图1所示,所述方法包括:
S1、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量。
语料库训练
word2vec训练获取词语的向量,训练的语料库越大所获取的词向量也越准确;该步骤的语料库获取可以通过网上爬取相关新闻资讯等作为训练语料库。
可以想到的是,本领域技术人员可以根据需要,在设置专用某一个技术领域的语料库,只通过获取训练包含某一个或者多个领域可能会使用的词语的语料库,来提高训练的效率和提高匹配词语向量的准确度,实现更好的计算句子之间的相似度。
S2、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度。
通过训练得到的结果格式:
词语 向量
word1 v<sub>11</sub>,…,v<sub>1L</sub>
wordn v<sub>n1</sub>,…,v<sub>nL</sub>
L为每个词向量的长度。
通过上述训练结果,定义词与词之间的相似度如下:
Figure BDA0000985233350000061
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
分别将第一句子和第二句子中含有的词进行一一智能划分出,并从上述步骤S1中训练好的语料库中一一获取划分出的分词相对应的向量,并使用上式(1)计算两个句子之间每个分词之间的相似度。
S3、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值。
分别计算第一句子中每个分词与第二句子中各个分词之间的相似度,获取相似度超过预定阈值的两组分词集合,所述预定阈值可以根据需要自定义设置,也可以系统默认设置,较佳的,所述预定阈值可以设置为:70%-85%之间的任何值,优选的,可以设置为75%。
具体的,本步骤中相似度贡献值得计算公式为:
Figure BDA0000985233350000071
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
Figure BDA0000985233350000072
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
本步骤中,首先获取相似度超过预定阈值的两组分词集合,然后根据所述两组分词集合中两组分词各个在句子中位置的偏移量计算该分词为该句子贡献的相似度分量,最后再将这个句子中分词贡献的相似度分量进行相加后,得到这个句子相对于另一个句子的相似度。
具体的,首先记{WA1,...,WAm}{WB1,...,WBn}分别为句子A,B句子分词后的按先后顺序排列的词语,记第一句子A,第二句子B任意两个分词的相似度记为Sim(WAi,WBk);
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1, (2)
M(A,i,B)为句子B中分词WBk与句子A中第i个词语WAi相似度大于α的词语位置集合。
并且记B中序号在M(A,i,B)中的分词与A中分词WAi的偏移量为:
Figure BDA0000985233350000081
定义:
Figure BDA0000985233350000082
其中,C(A,i,B)为第一句子A中分词Ai为句子A相对于第二句子B总体相似度的贡献值,其中N=max(m,n),为第一句子和第二句子中划分出的分词数较大的一个。
S4、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。
在上述步骤S3中计算出了第一句子或者第二句子中分词为所属句子提供的相似度贡献值,则将每个分词所提供的相似度贡献值相加,得到句子与句子之间的相似度值。
因此,定义:
Figure BDA0000985233350000083
为句子A相对于句子B的相似度,它表征A相对于B的相似程度,用同样的方法计算得到Sim(B,A),它表征B相对于A的相似程度。一般情况下,Sim(A,B)≠Sim(B,A),最后定义句子A,B的总体相似度为:
Figure BDA0000985233350000091
也即是,为了更准确的得到第一句子和第二句子的相似度,本步骤取两个句子相对应相似度的平均值。
为了实现更好的组建语料库,所述步骤S1之前还包括:
S0、通过网络爬虫获取海量词语,组建语料库。由于网络上含有海量词语,而且还是实时更新,因此从网络中可以获取较多较新的词语信息,为准确的查找出待计算相似度句子中分词的向量提供技术支持。
所述步骤S4还包括:
S41、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值。
S42、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
由于第一句子中分词相对于第二句子中分词在计算相似度贡献值时,排列的顺序不同,其相似度贡献值可能不同,因此为了更加准确的获取第一句子与第二句子的相似度,本步骤中分别计算第一句子相对于第二句子的相似度和第二句子相对于第一句子的相似度,并取两者的平均值作为第一句子和第二句子的最终相似度。
下面以网络商品评价相似度计算为例,对本发明所述方法及系统做进一步的说明。
计算评价A:“送货员也很赞”,B:“快递服务很给力”的相似度。
分词后分别为:A(“送货员”,“也”,“很”,“赞”),B(“快递”,“服务”,“很”,“给力”),通过网上爬取获得相关评价语料库,通过word2vec训练,获得词语间相似度如下。
Figure BDA0000985233350000101
以α=0.75为例,通过公式(3)可以计算得到偏移量矩阵为:
Figure BDA0000985233350000102
通过公式(4)可以计算得到贡献值矩阵为:
Figure BDA0000985233350000103
同理可计算得到:
C(A,1,B) C(A,2,B) C(A,3,B) C(A,4,B)
0.84 0 1 0.95
C(B,1,A) C(B,2,A) C(B,3,A) C(B,4,A)
0.90 0 1 0.87
于是由公式(5)得到
Figure BDA0000985233350000104
Figure BDA0000985233350000111
于是由公式(6)得到
Figure BDA0000985233350000112
在上述方法的基础上,本发明还提供了一种句子相似度的计算系统,如图2所示,所述系统包括:
语料库训练模块100,用于利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;其功能如步骤S1所述。
词相似度计算模块200,用于对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;其功能如步骤S2所述。
贡献值计算模块300,用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;其功能如步骤S3所述。
句间相似度计算模块400,用于将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度,其功能如步骤S4所述。
所述句子相似度的计算系统,还包括:
语料库组建模块,用于通过网络爬虫获取海量词语,组建语料库。
所述句间相似度计算模块还包括:
贡献值获取单元,用于获取第一句子中分词相当于第二句子中分词的第一相似度贡献值,以及第二句子中分词相对于第一句子中分词的第二相似度贡献值;
相似度平均单元,用于计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度,取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。
所述贡献值计算模块,用于通过以下公式计算分词之间的相似度:
Figure BDA0000985233350000121
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度。
所述句间相似度计算模块中相似度贡献值得计算公式为:
Figure BDA0000985233350000122
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词WAi和WBk之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中第k位分词WBk与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
Figure BDA0000985233350000123
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
有益效果,本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将第一句子和第二句子中分词的贡献值相加,得到第一句子和第二句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,较少的人工干预,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种句子相似度的计算方法,其特征在于,包括:
A、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
B、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子中每个分词与第二句子各个分词之间的相似度;
C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
D、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度;
所述步骤C中相似度贡献值的计算公式为:
Figure FDA0002421530690000011
当M(A,i,B)≠Φ;
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词A和B之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中分词与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
Figure FDA0002421530690000012
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
2.根据权利要求1所述句子相似度的计算方法,其特征在于,所述步骤A之前还包括:
A0、通过网络爬虫获取海量词语,组建语料库。
3.根据权利要求1所述句子相似度的计算方法,其特征在于,所述步骤B还包括:
通过以下公式计算分词之间的相似度:
Figure FDA0002421530690000021
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度,L表示待计算相似度分词的向量vil和vjl的长度。
4.一种句子相似度的计算系统,其特征在于,包括:
语料库训练模块,用于利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;
词相似度计算模块,用于对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;
贡献值计算模块,用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;
句间相似度计算模块,用于将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度;
所述贡献值计算模块中相似度贡献值得计算公式为:
Figure FDA0002421530690000031
当M(A,i,B)≠Φ;
其中,Sim(WAi,WBk)为第一句子和第二句子中任意两个分词A和B之间的相似度;
M(A,i,B)={k|Sim(WAi,WBk)>α},0<α<1为第二句子中分词与第一句子中第i位分词WAi相似度大于预设阈值的分词位置集合;
Figure FDA0002421530690000032
为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词WAi的偏移量;N为所述第一句子和第二句子中含有的分词数中较大的分词数。
5.根据权利要求4所述句子相似度的计算系统,其特征在于,包括:
语料库组建模块,用于通过网络爬虫获取海量词语,组建语料库。
6.根据权利要求4所述句子相似度的计算系统,其特征在于,所述词相似度计算模块,用于通过以下公式计算分词之间的相似度:
Figure FDA0002421530690000033
其中,vil和vjl代表两个待计算相似度分词的向量,i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置,Sim(wordi,wordj)代表待计算相似度分词的相似度,L表示待计算相似度分词的向量vil和vjl的长度。
CN201610305004.XA 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统 Active CN106021223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610305004.XA CN106021223B (zh) 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610305004.XA CN106021223B (zh) 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统

Publications (2)

Publication Number Publication Date
CN106021223A CN106021223A (zh) 2016-10-12
CN106021223B true CN106021223B (zh) 2020-06-23

Family

ID=57099301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610305004.XA Active CN106021223B (zh) 2016-05-09 2016-05-09 一种句子相似度的计算方法及系统

Country Status (1)

Country Link
CN (1) CN106021223B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776548B (zh) * 2016-12-06 2019-12-13 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
CN108241650B (zh) * 2016-12-23 2020-08-11 北京国双科技有限公司 训练分类标准的训练方法和装置
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN106980870B (zh) * 2016-12-30 2020-07-28 中国银联股份有限公司 短文本之间的文本匹配度计算方法
CN108509409A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种自动生成语义相近句子样本的方法
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质
CN107273501B (zh) * 2017-06-16 2020-06-26 合肥美的智能科技有限公司 语料生成方法及系统、智能设备和计算机装置
CN107436864B (zh) * 2017-08-04 2021-03-02 识因智能科技(北京)有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN109492213B (zh) * 2017-09-11 2023-04-07 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN107480143B (zh) * 2017-09-12 2020-05-29 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN110019669B (zh) * 2017-10-31 2021-06-29 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108363692B (zh) * 2018-02-13 2021-04-02 成都智库二八六一信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109033066B (zh) * 2018-06-04 2022-05-17 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109117474B (zh) * 2018-06-25 2022-05-03 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN108932320B (zh) * 2018-06-27 2021-01-26 阿里巴巴(中国)有限公司 文章搜索方法、装置及电子设备
CN109325108B (zh) * 2018-08-13 2022-05-27 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
CN109597992B (zh) * 2018-11-27 2023-06-27 浪潮金融信息技术有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法
CN109766547B (zh) * 2018-12-26 2022-10-18 重庆邮电大学 一种句子相似度计算方法
CN109766527B (zh) * 2019-01-16 2023-02-14 武汉瓯越网视有限公司 一种文本相似度的计算方法以及相关设备
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置
CN112559798B (zh) * 2019-09-26 2022-05-17 北京新唐思创教育科技有限公司 音频内容质量的检测方法及装置
CN111178059B (zh) * 2019-12-07 2023-08-25 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN111767714B (zh) * 2020-06-28 2022-02-11 平安科技(深圳)有限公司 一种文本通顺度确定方法、装置、设备及介质
CN112948557A (zh) * 2021-03-09 2021-06-11 哈尔滨工业大学 一种以说明文档为辅助的可迭代的基于常用问题集的智能客服系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105095188A (zh) * 2015-08-14 2015-11-25 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105095188A (zh) * 2015-08-14 2015-11-25 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于向量空间模型附加词义特征的句子相似度研究;杨松 等;《成都信息工程学院学报》;20120630;第27卷(第3期);第239-242页 *

Also Published As

Publication number Publication date
CN106021223A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021223B (zh) 一种句子相似度的计算方法及系统
CN107085581B (zh) 短文本分类方法和装置
CN107944559B (zh) 一种实体关系自动识别方法及系统
US9684649B2 (en) Method and system for discovering suspicious account groups
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
Pacheco et al. Random Forest with Increased Generalization: A Universal Background Approach for Authorship Verification.
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN113673223A (zh) 一种基于语义相似性的关键词抽取方法及系统
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Zhang et al. Research on text classification for identifying fake news
Prasad Micro-blogging sentiment analysis using bayesian classification methods
CN116364072B (zh) 一种基于人工智能的教育信息监管方法
CN113158669B (zh) 一种用工平台正负面评论识别的方法及系统
CN114970554A (zh) 一种基于自然语言处理的文档校验方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 516006 TCL technology building, No.17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co., Ltd

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL RESEARCH AMERICA Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant