CN104102626B - 一种用于短文本语义相似度计算的方法 - Google Patents

一种用于短文本语义相似度计算的方法 Download PDF

Info

Publication number
CN104102626B
CN104102626B CN201410319852.7A CN201410319852A CN104102626B CN 104102626 B CN104102626 B CN 104102626B CN 201410319852 A CN201410319852 A CN 201410319852A CN 104102626 B CN104102626 B CN 104102626B
Authority
CN
China
Prior art keywords
similarity
word
text
short text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410319852.7A
Other languages
English (en)
Other versions
CN104102626A (zh
Inventor
洪志令
吴梅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIAMEN TUITE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
XIAMEN TUITE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIAMEN TUITE INFORMATION TECHNOLOGY Co Ltd filed Critical XIAMEN TUITE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410319852.7A priority Critical patent/CN104102626B/zh
Publication of CN104102626A publication Critical patent/CN104102626A/zh
Application granted granted Critical
Publication of CN104102626B publication Critical patent/CN104102626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:1)提取短文本的特征;2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。本发明的有益效果为:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。

Description

一种用于短文本语义相似度计算的方法
技术领域
本发明涉及文本挖掘技术领域,尤其是涉及一种用于短文本语义相似度计算的方法。
背景技术
不同年龄段、不同职业背景的人们,每天在微博上就国内外新闻、影视娱乐和个人生活等等话题进行评论或分享。目前,对于微博话题的归类,完全依赖于用户手工在微博内容中使用“#”符号添加话题标签,对于共同话题的归类使用的是最简单的字符串匹配方法。在这种场景下,任何两个不能完全匹配的字符串都会被当作是不同的话题。例如,“去旅游”和“去旅行”这两个具有相同语义的话题标签,就会因为字符串无法匹配而被当作是不同的话题。再或者,假如用户没有为微博内容添加话题标签,那么这条微博就成了孤立内容,除了被粉丝评论和转发,用户得不到任何其它关于所发表内容的话题的反馈。
基于相似词语的文本相似度计算方法则利用WordNet、知网等本体论或语义词典,完成对两个文本中词语之间的相似度计算,在此基础上再通过某种计算公式得到文本之间的相似度。这种方法充分考虑了语义模糊性问题,但是却忽略了文本中词语的权重,对文本关键词的把握效果不好。
发明内容
本发明的目的是为了克服现有技术的不足,提供了一种高精度环保用于短文本语义相似度计算的方法笔头。
本发明是通过以上技术方案实现:
本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:
1)提取短文本的特征;
2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。
优选的,所述提取短文本的特征具体包括以下步骤:
将短文本中的中文分词;
在中文分词后的短文本中选择文本特征;
对选择的文本特征进行权值计算。
优选的,所述将短文本中的中文分词具体为:通过分词算法对短文本进行分词。
优选的,所述在中文分词后的短文本中选择文本特征具体为:根据设定的规则从特征集中选择部分最有效的特征,形成文本特征向量。
优选的,所述对选择的文本特征进行权值计算具体为:将文本特征向量转化成数学模型。
优选的,所述将文本特征向量转化成数学模型具体为:
首先使用TF-IDF加权方法,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度,步骤如下:
a)计算词在该文件中出现的频次、词频TF,具体公式如下:
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和;
b)计算逆向文件频率IDF,具体公式如下:
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量;
c)计算词语t对于文档库D中特定文件d的重要性TF-IDF,公式如下:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D);
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,其中,
T={t1,t2,...,tm}
W={w1,w2,...,wm}。
优选的,所述将提取的短文本的特征进行匹配,计算出短文本语义相似度具体以下步骤:
1)词汇语义相似度计算;
2)词汇相似度矩阵;
3)短文本高相似词向量;
4)文本向量相似度计算。
优选的,所述词汇语义相似度计算具体为:利用相似度计算方法计算两个关键词之间的相似度,然后,把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题,最后得到两个词汇的语义相似度。
优选的,所述步骤2)中词汇相似度矩阵,具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度,得到相似度矩阵。
优选的,其中步骤3)短文本高相似词向量,基于步骤2)中得到的相似度矩阵,获取高相似词向量;具体步骤如下:
首先遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似度最高的词语组合构成的向量,其中,k为自然数;
其中步骤4)文本向量相似度计算,结合了向量空间模型和词汇语义相似度模型来计算文本的相似度,具体步骤如下:
首先,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词;
然后,结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。
本发明的有益效果为:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。
附图说明
图1是本发明中的用于短文本语义相似度计算的方法的流程图;
图2是本发明中的短文本特征提取流程图;
图3为本发明中的短文本特征匹配流图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以右结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明中的用于短文本语义相似度计算的方法的流程图。
本发明实施例提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括:本发明提供了一种用于短文本语义相似度计算的方法,该用于短文本语义相似度计算的方法包括以下步骤:
1)提取短文本的特征;
2)将提取的短文本的特征进行匹配,计算出短文本语义相似度。
其中的提取短文本的特征具体包括以下步骤:
将短文本中的中文分词;
具体为:通过分词算法对短文本进行分词。
在中文分词后的短文本中选择文本特征;
具体的,根据设定的规则从特征集中选择部分最有效的特征,形成文本特征向量。
对选择的文本特征进行权值计算。
具体的,将文本特征向量转化成数学模型其中,将文本特征向量转化成数学模型具体为:
首先使用TF-IDF加权方法,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度,步骤如下:
a)计算词在该文件中出现的频次、词频TF,具体公式如下:
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和;
b)计算逆向文件频率IDF,具体公式如下:
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量;
c)计算词语t对于文档库D中特定文件d的重要性TF-IDF,公式如下:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D);
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,其中,
T={t1,t2,...,tm}
W={w1,w2,...,wm}。
优选的,所述将提取的短文本的特征进行匹配,计算出短文本语义相似度具体以下步骤:
1)词汇语义相似度计算;
具体的,所述词汇语义相似度计算具体为:利用相似度计算方法计算两个关键词之间的相似度,然后,把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题,最后得到两个词汇的语义相似度。
2)词汇相似度矩阵;
具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度,得到相似度矩阵。
3)短文本高相似词向量;
具体的,基于步骤2)中得到的相似度矩阵,获取高相似词向量;具体步骤如下;
首先遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似度最高的词语组合构成的向量,其中,k为自然数。
4)文本向量相似度计算。
具体的,结合向量空间模型和词汇语义相似度模型来计算文本的相似度,具体步骤如下:
首先,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词;
然后,结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。
通过上述方法可以看出:本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重,能够准确的把握文本关键词的效果。
为了对本发明提供的方法能够详细的了解,下面结合具体实施施力进行说明。
其中,文本的特征提取过程,如图2所示,包括如下步骤:
(1)中文分词
(2)特征选择
(3)权值计算
其中,步骤(1)中所描述的中文分词处理方法,具体描述如下:
中文分词是中文自然语言处理的首要步骤,目前中文分词的方法主要有基于语料库的正向或逆向最大匹配法、基于统计机器学习的方法等。经过多年发展,目前的中文分词技术已经较为成熟,国内外已有不少开源项目,这里可以选用任意一种较好的分词算法对短文本进行分词,如ICTCLAS,MMSeg等。
其中,步骤(2)的特征是根据一定的规则从特征集中选择部分最有效的特征,形成文本特征向量。
在本发明中步骤(2)可以运用两种特征选择方法来实现:一种是为分词器增加停用词词典,使其在分词过程中自动过滤掉这些无关词;另外一种是根据词频进行筛选,将出现频率非常高的单字或词进行过滤。
其中,步骤(3)权值计算的特征在于将文本转化为具有一定意义的数学模型。
本发明的实施例中,使用TF-IDF加权技术,利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度。
所描述的TF-IDF加权技术,主要方法具体如下:
某个词语对于特定文件的重要程度,与它在该文件中出现的频次成正比,而与它在所有文件中出现的频次成反比,即某个词的权重与词频TF和逆向文件频率IDF两部分相关,分别如下列公式所示:
其中,nt,d表示词t在文件d中的出现次数,分母表示该文件中所有词的出现次数的总和。
其中,N为文档库D中的文件数量,分母表示文档库D中包含有词t的文件的数量。最后,词语t对于文档库D中特定文件d的重要性TF-IDF如下所示:
w=tfidf(t,d,D)=tf(t,d)×idf(t,D) (3)
对于一个输入的短文本,经过上述步骤处理后,将得到一个文本向量T及其对应的权重向量W,即:
T={t1,t2,...,tm}
W={w1,w2,...,wm}
另一部分为短文本特征的匹配过程:
令两个短文本输入的文本向量分别为T1,T2,如下所示:
T1={t11,t12,...,t1m}
T2={t21,t22,...,t2n}
其中m≥n,它们对应的权重向量分别为W1,W2
W1={w11,w12,...,w1m}
W2={w21,w22,...,w2n}
则这两个短文本特征的匹配流程如图3所示,具体步骤如下:
词汇语义相似度计算
词汇相似度矩阵
短文本高相似词向量
文本向量相似度计算
其中步骤1)中,词汇语义相似度的计算过程主要利用知网(HowNet)提供的计算方式。
在知网中,“概念”和“义原”是语义表达的两个重要方式。每个词可以表达为多个概念,而每个概念使用义原进行描述,义原是最基本的、不能再分割的用于描述概念的最小意义单位。
对于两个词语W1和W2,如果W1由概念集合{S11,S12,…,S1m}组成,W2由概念集合{S21,S22,…,S2n}组成,那么W1和W2的相似度如下所示:
这样,就把两个词之间的相似度问题归结为两个概念之间的相似度问题。知网中对实词的描述表示为一个特征结构,该特征结构含有以下四个特征:第一基本义原描述、其它基本义原描述、关系义原描述、关系符号描述。于是,两个概念语义表达式的整体相似度记为上述四个特征的部分相似度的加权和,即
其中,βi是可调节的参数,满足:β1≥β2≥β3≥β4。而所有的概念又都是由义原来描述的,所以该问题最终归结为义原之间的相似度问题。由于所有的义原根据上下位关系构成了一个树状层次体系,对于树型结构,任何两个结点之间有且只有一条路径,因此可以根据义原之间的路径距离来计算两者的相似度。
其中步骤2)词汇相似度矩阵,具体表示过程如下:
设f为词的语义相似度函数,对两个文本向量中的每个词分别计算它们之间的语义相似度,可以得到如下的相似度矩阵:
该矩阵为对称矩阵,f(t1i,t2j)为利用上述词汇语义相似度方法计算所得值,f(t1i,t2j)∈[0,1],并且当i=j时,有f(t1i,t2j)=1,即矩阵对角线上的值为1。
其中步骤3)短文本高相似词向量,具体步骤如下:
基于步骤2)中得到的相似度矩阵,获取高相似词向量。基本思想是:遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除,依次取余下矩阵中相似度最大的组合,直到矩阵为空,最后得到由k对相似对最高的词语组合构成的向量。具体步骤如下:
①由于矩阵的对称性,对矩阵左下部分的相似度值进行排序,即对相似度值f(t11,t22),f(t12,t22),...,f(t1m序列从大到小排序,并记录值对应于矩阵的位置;
②设定一个阈值,对于相似度排序序列的每个值,如果大于,则执行如下操作:取出对应的矩阵位置i和j,从文本向量,取得相应词汇,从权重向量,取得相应权重;同时划掉第j行和第j列。
最后得到k对最高相似词语组合构成的文本向量及其对应的权重向量。其中,向量中的每个元素为词在语义词典中的概念,且与原向量中词对应。
其中步骤4)文本向量相似度计算,具体步骤如下:
通过上述处理,对于原文本向量中的部分词进行了重新排序,并找到了另一向量中与之最相似的对应词。结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法,最后,的相似度定义如下:
其中,w′为原向量中对应词的TF-IDF权重,f(t′1i,t′2i)为词的语义相似度函数。公式(6)的含义是,将两个文本向量的相似度看作是它们相似度最高的若干词组在向量空间上的相似度乘以语义偏差值,对于其中任意一组相似词而言,词的权重、语义偏差越大,对文本相似度的影响就越大。如果这些相似词组在语义上是完全相同的,那么在向量空间中就是可替换的。该方法结合了向量空间模型和词汇语义相似度模型来计算文本的相似度,与空间距离度量的关系如下所示:
其中,α是一个可调节的参数,表示当相似度为0.5时的距离值。
虽然本发明已以优选实例公开如上,然而所公开实例并非用以限制本发明的范围。可以理解:在不脱离本发明的精神的情况下,在此可以产生各种附加、修改和替换。本领域普通技术人员很清楚:在不脱离本发明的精神或本质特性的情况下,可以以其他特殊形式、结构、布置、比例、以及利用其他元件、材料和部件来实现本发明。本领域的技术人员将意识到:本发明可以使用发明实际中使用的结构、布置、比例、材料以及部件和其他的许多修改,这些修改在不脱离本发明的原理的情况下而特别适应于特殊环境和操作需求。因此,当前公开的实施例在所有方面应被理解为说明性的而非对其请求保护的范围的限制。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种用于短文本语义相似度计算的方法,其特征在于所述方法包括如下步骤:
(1)对短文本进行中文分词及特征选择后,以TF-IDF加权技术获取短文本特征;
(2)基于知网(HowNet),将词分解为概念,进一步通过计算义原之间的路径距离来计算两个词之间的相似度;
(3)通过计算两个短文本的文本向量中每个词之间词汇的相似度,形成词汇相似度矩阵;并在此基础上抽取保留高相似的词,即语义上高相似的词,以及对应的TF-IDF特征向量值;
(4)通过相似度最高的若干词组在对应TF-IDF向量空间上的相似度乘以其语义偏差值,最终获得两个短文本的相似度。
2.根据权利要求1所述的一种用于短文本语义相似度计算的方法,其特征在于,权利1中步骤(3)抽取保留高相似度词的过程,即获取语义上高相似词的过程,是先对两个短文本之间的词两两之间基于知网的算法进行词相似度的计算,形成词汇相似度矩阵,在此基础上,通过遍历矩阵,取出相似度最大的词语组合,然后将其所属行和列从矩阵中删除的方式逐步获取k个相似对最高的词语,以及这些词语在原TF-IDF特征向量中高相似度词语所对应的权重,即:
3.根据权利要求1所述的一种用于短文本语义相似度计算的方法,其特征在于,权利1中步骤(4)获取短文本相似度的过程,最终的相似度计算,是在相似度最高的若干词组成的向量空间上展开的,是原始特征向量维度缩减的结果;同时,计算时综合考虑了统计的相似度和语义的偏差值,即
统计相似度和语义偏差值的计算仅需在缩减的特征向量上进行;对于其中任意一组相似词而言,词的权重、语义偏差越大,对文本相似度的影响就越大;该方法结合了向量空间模型和词汇语义相似度模型来计算文本的相似度。
CN201410319852.7A 2014-07-07 2014-07-07 一种用于短文本语义相似度计算的方法 Active CN104102626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410319852.7A CN104102626B (zh) 2014-07-07 2014-07-07 一种用于短文本语义相似度计算的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410319852.7A CN104102626B (zh) 2014-07-07 2014-07-07 一种用于短文本语义相似度计算的方法

Publications (2)

Publication Number Publication Date
CN104102626A CN104102626A (zh) 2014-10-15
CN104102626B true CN104102626B (zh) 2017-08-15

Family

ID=51670791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410319852.7A Active CN104102626B (zh) 2014-07-07 2014-07-07 一种用于短文本语义相似度计算的方法

Country Status (1)

Country Link
CN (1) CN104102626B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346443B (zh) * 2014-10-20 2018-08-03 北京国双科技有限公司 网络文本处理方法及装置
CN104391828B (zh) * 2014-11-11 2017-11-17 百度在线网络技术(北京)有限公司 确定短文本相似度的方法和装置
CN105701120B (zh) * 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
CN105095188B (zh) * 2015-08-14 2018-02-16 北京京东尚科信息技术有限公司 句子相似度计算方法及装置
CN105245680A (zh) * 2015-09-09 2016-01-13 陈包容 对移动终端的新增联系人进行通讯录分组的方法及装置
CN106708789B (zh) * 2015-11-16 2020-07-14 重庆邮电大学 一种文本处理方法及装置
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105718441B (zh) * 2016-01-13 2018-10-23 南京大学 一种查找不同平台间功能相似ui组件的方法和装置
CN107133835A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种分析商品质量的方法及装置
CN107229939B (zh) * 2016-03-24 2020-12-04 北大方正集团有限公司 相似文档的判定方法和装置
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106610949A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种基于语义分析的文本特征提取方法
CN106610953A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于基尼指数求解文本相似度的方法
CN107885718B (zh) * 2016-09-30 2020-01-24 腾讯科技(深圳)有限公司 语义确定方法及装置
CN106502981B (zh) * 2016-10-09 2019-01-11 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法
CN106569999A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 多粒度短文本语义相似度比较方法及系统
CN106776559B (zh) * 2016-12-14 2020-08-11 东软集团股份有限公司 文本语义相似度计算的方法及装置
CN108399597A (zh) * 2017-02-07 2018-08-14 深圳前海明磊融创科技有限公司 关键信息处理方法和装置
CN106844346B (zh) * 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN106951407A (zh) * 2017-03-15 2017-07-14 南京理工大学 基于Spark平台的快速高精度语义相关度计算方法
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN107506348A (zh) * 2017-07-22 2017-12-22 长沙兔子代跑网络科技有限公司 一种基于聊天内容挖掘代跑客户的方法及装置
CN109325509B (zh) * 2017-07-31 2023-01-17 北京国双科技有限公司 相似度确定方法及装置
CN107577774A (zh) * 2017-09-08 2018-01-12 北京智诚律法科技有限公司 一种智能选择拟定合同律师的系统
CN107958061A (zh) * 2017-12-01 2018-04-24 厦门快商通信息技术有限公司 一种文本相似度的计算方法及计算机可读存储介质
CN108021703B (zh) * 2017-12-26 2021-12-24 广西师范大学 一种谈话式智能教学系统
CN108197102A (zh) 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
CN109993190B (zh) * 2018-01-02 2021-05-11 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN108549640A (zh) * 2018-04-24 2018-09-18 易联众信息技术股份有限公司 一种基于统计学的企业名称相似度计算方法
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN110929498B (zh) * 2018-09-20 2023-05-09 中国移动通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109325035A (zh) * 2018-11-29 2019-02-12 阿里巴巴集团控股有限公司 相似表的识别方法及装置
CN111368061B (zh) * 2018-12-25 2024-04-12 深圳市优必选科技有限公司 短文本过滤方法、装置、介质及计算机设备
CN109783816B (zh) * 2019-01-11 2023-04-07 河北工程大学 短文本聚类方法及终端设备
CN110033236A (zh) * 2019-04-11 2019-07-19 国网山东省电力公司 一种基于并发任务的项目查重方法及系统
CN110276640A (zh) * 2019-06-10 2019-09-24 北京云莱坞文化传媒有限公司 版权的多粒度拆分及其商业价值的挖掘方法
CN112528666A (zh) * 2019-08-30 2021-03-19 北京猎户星空科技有限公司 一种语义识别方法、装置及电子设备
CN110705247B (zh) * 2019-08-30 2020-08-04 山东科技大学 基于χ2-C的文本相似度计算方法
CN110598066B (zh) * 2019-09-10 2022-05-10 民生科技有限责任公司 基于词向量表达和余弦相似度的银行全称快速匹配方法
CN112116011B (zh) * 2020-09-21 2021-07-27 上海晓材科技有限公司 一种用于cad图形的特征编码方法和相似度比较方法
CN112597284B (zh) * 2021-03-08 2021-06-15 中邮消费金融有限公司 公司名称的匹配方法、装置、计算机设备及存储介质
CN113672695A (zh) * 2021-05-11 2021-11-19 山西大学 一种基于加权网络的中文短文本相似性度量方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123111A (ja) * 2006-11-09 2008-05-29 Kyushu Institute Of Technology 文書類似性導出装置及びそれを用いた回答支援システム
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及系统
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123111A (ja) * 2006-11-09 2008-05-29 Kyushu Institute Of Technology 文書類似性導出装置及びそれを用いた回答支援システム
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
语义分析与词频统计相结合的中文文本相似度量方法研究;华秀丽 等;《计算机应用研究》;20120331;第29卷(第3期);第834页第1节-第835页第3节 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法

Also Published As

Publication number Publication date
CN104102626A (zh) 2014-10-15

Similar Documents

Publication Publication Date Title
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
Rathi et al. Sentiment analysis of tweets using machine learning approach
Chen et al. Neural sentiment classification with user and product attention
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
Kanakaraj et al. Performance analysis of Ensemble methods on Twitter sentiment analysis using NLP techniques
Chowdhury et al. Performing sentiment analysis in Bangla microblog posts
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
Hussain et al. An approach to detect abusive bangla text
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN104731768B (zh) 一种面向中文新闻文本的事件地点抽取方法
CN104008187B (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN106610955A (zh) 基于词典的多维度情感分析方法
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
Psomakelis et al. Comparing methods for twitter sentiment analysis
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN103473380A (zh) 一种计算机文本情感分类方法
CN104360993A (zh) 一种从文本提取所需内容的方法
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
Toh et al. Improving twitter named entity recognition using word representations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant