CN109190117B - 一种基于词向量的短文本语义相似度计算方法 - Google Patents
一种基于词向量的短文本语义相似度计算方法 Download PDFInfo
- Publication number
- CN109190117B CN109190117B CN201810929693.0A CN201810929693A CN109190117B CN 109190117 B CN109190117 B CN 109190117B CN 201810929693 A CN201810929693 A CN 201810929693A CN 109190117 B CN109190117 B CN 109190117B
- Authority
- CN
- China
- Prior art keywords
- similarity
- word
- text
- semantic
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于词向量的短文本语义相似度计算方法,涉及短文本相似度技术领域,包括对获取的语料库进行分词,并对分词进行词向量模型处理,构建词向量库;对样本集中的两个短文本进行分词,并提取文本特征集合;计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,选择最优相似度集合,并计算最优相似度集合中的各相似度的权重;以最优相似度集合中各相似度为计算项,对待测的两个短文本的各文本特征的相似度加权求和。本发明的基于词向量的短文本语义相似度计算方法,提取待测文本的词性特征、语意特征和文本结构特征,从中选择最优相似度集合进行匹配计算短文本语义相似度,提高短文本语义相似度计算的精度。
Description
技术领域
本发明涉及短文本相似度技术领域,具体涉及一种基于词向量的短文本语义相似度计算方法。
背景技术
随着计算机科学技术和互联网的迅猛发展,各类信息资料的数量以惊人的速度增长,越来越多的数据以短文本的形式出现在互联网上。许多研究都表明短文本相似度计算能促进许多自然语言处理任务,克服语料库中的信息冗余,如事件检测,信息检索,文本正规化,自动文本摘要,文本分类和聚类等。
目前,短文本相似度的计算方法大多是直接利用原始短文本集合丰富的词对信息进行特征提取,这样可能会放大噪音特征产生的不利影响,因此具有很大的局限性,不能准确地表达短文本的语义含义。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于词向量的短文本语义相似度计算方法,提高短文本语义相似度计算的精度。
为达到以上目的,本发明采取的技术方案是:一种基于词向量的短文本语义相似度计算方法,包括以下步骤:
获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;
对样本集中的两个短文本进行分词,并提取文本特征集合,文本特征集合包括词性特征、语意特征和文本结构特征;
从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;
根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;
以最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。
在上述技术方案的基础上,对语料库进行分词后还需进行数据清理,得到语料库中的中文分词。
在上述技术方案的基础上,词向量模型为word2vec模型。
在上述技术方案的基础上,构建词向量库的具体方法为:将word2vec模型生成的词向量写入Mysql数据库中,并对分词建立相应的索引。
在上述技术方案的基础上,选择最优相似度集合的具体方法为:样本集包括训练样本和测试样本,利用训练样本的两个短文本的各文本特征相似度分布建立混合高斯模型,每个高斯模型对应一个文本特征相似度,利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数,然后将测试样本输入混合高斯模型,计算实际相似度和理论相似度的欧式距离,去掉欧式距离大于预设阈值的文本特征的相似度,余下的为最优相似度集合。
在上述技术方案的基础上,词性特征的相似度包括:名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度。
在上述技术方案的基础上,语意特征对应的词长向量是将短文本的主干词串联,结合相应的词向量,构成的词长向量。
在上述技术方案的基础上,语意特征的相似度包括:语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度。
在上述技术方案的基础上,文本结构相似度包括:第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比。
在上述技术方案的基础上,相似度计算的结果a的取值范围是[-1,1],当a=1时表示语义完全相似,当a=-1时表示语义完全不同。
与现有技术相比,本发明的优点在于:
本发明的基于词向量的短文本语义相似度计算方法,提取待测文本的词性特征、语意特征和文本结构特征,结合词性相似度、语意相似度和文本结构相似度,从中选择最优相似度集合进行匹配计算短文本语义相似度,提高短文本语义相似度计算的精度。
附图说明
图1为本发明实施例中基于词向量的语义相似度计算的系统流程图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种基于词向量的短文本语义相似度计算方法,包括以下步骤:
S1、获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;
S2、对样本集中的两个短文本进行分词,并提取文本特征集合,文本特征集合包括词性特征、语意特征和文本结构特征;
S3、从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并采用最长公共子串算法找出文本结构特征对应的最长公共子串;
S4、根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;
S5、以最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度。
具体地说,可以根据需要任意选择互联网语料库,本实施例选用搜狗实验室的2008版互联网语料库,由于语料库较大,选择使用的为sougouT2.0的第二份语料库。
较佳地,在对语料库进行分词后还需进行数据清理,以剔除语料库中的分词的词性标注、中文特殊字符、网页链接、无效数字等冗余信息,最终得到语料库中的中文分词。词向量模型为word2vec模型。Word2vec是为一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。使用word2vec对清洗过的分词构建词向量,词向量维度选为100维。
由于word2vec生成的词向量过多,直接在保存词向量的txt文本中对某个词进行索引的话,耗时过长,因此将词向量写入Mysql数据库中,并对分词建立相应的索引,大大提升了词向量的查询速度。
本实施例中,词性特征即词性相似的特征,使用分词工具后,待测文本被切分为一系列单词,同时给出了该词的词性。以此为依据,取一段文本中的名词、时间词、动词、数词、介词和量词,进行归类存储。通过词向量查询,将这些被提取出来的词进行数字化,以便于比较待匹配的两段文本中,同类词性词的相似性。例如“今天我在商店买了一本书”这个语句可以拆分为:今天(时间词),我(名词),在(介词),商店(名词),买(动词),一(数词),本(量词),书(名词),识别出词性的词为主干词,其中“了”为非主干词。
词性特征的相似度包括:名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度。
其中,两文本的所有名词的词向量相互内积,取内积的均值即为名词相似度;两文本的所有时间词词向量相互内积,取内积的均值即为时间词相似度;两文本的所有动词词向量相互内积,取内积的均值即为动词相似度;两文本的所有数词词向量相互内积,取内积的均值即为数词相似度;两文本的所有介词词向量相互内积,取内积的均值即为介词相似度;两文本的所有量词词向量相互内积,取内积的均值即为量词相似度。
假设文本A有x个名词,文本B有y个名词,A中的名词与B中的名词逐个两两作内积,总共有x×y个内积,对x×y个内积求平均值,即为名词相似度。同理可得其它词性特征的相似度。
语意特征即语意相似的特征,将待计算文本的主干词串联,结合相应的词向量,构成该语意特征的词长向量。比较两个句子词长向量的相似性,即可进行语意相似性的评价。若两个句子中词的数量不一样,则以短句子为基准,对较多词的句子进行排列组合构成与短句子数量相同的词数,再进行相似性计算。
语意特征的相似度包括:语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度。
其中,两文本语意词长向量相互内积,取最小值即为语意最小相似度;两文本语意词长向量相互内积,取最大值即为语意最大相似度;两文本语意词长向量相互内积,取最中值即为语意最大相似度;两文本语意词长向量相互内积,取均值即为语意最大相似度。
假设有文本A和文本B,按文本的顺序提取主干词,若文本A和文本B提取的主干词数量不一致,以短句子为基准,长句子通过排列组合方式剔除一定数量的主干词,使主干词数量与短句子一致,每一种情况下的主干词句子形成一个词长向量,假设有x种剔除情况,计算文本A和文本B的词长向量内积,则共x个内积,取x个内积的最小值,即为语意最小相似度。同理可得其它语意特征的相似度。
文本结构特征是从文本的结构进行特征提取,通过词向量查询和最长公共子串算法,可将这些被提取出来的特征进行数字化,找到对应的词向量和最长公共字符串,以便于计算文本结构特征的相似度。
文本结构相似度包括:第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比。
其中,计算文本A中每个词向量和文本B所有词向量的内积,取最大值保留,对所有最大值进行求平均值即为第一词义最大相似度均值;计算文本B每个词向量和文本A所有词向量内积,取最大值保留,全部计算完成后,对所有最大值进行求平均值即为第二词义最大相似度均值。
假设第一文本为文本A,共有x个词,第二文本为文本B,共有y个词,取文本A中的第一个词与文本B中的每个词求内积,则一共有y个内积,记录其中最大值M1,然后取文本A中第二个词与文本B中的每个词求内积,记录其中最大值M2,重复上述内积至取文本A中的第x个词与文本B中的每个词求内积,记录其中最大值Mx,取x个最大值的平均值,即为第一词义最大相似度均值。同理可得第二词义最大相似度均值。
最长公共子串最小耗费为最长公共子串跨越的最小字符长度与第一文本字符串的长度比;其中,最长公共子串跨越的最小字符长度包括非主干词长度,若两文本之间无公共子串,则此相似度为-1。
第一最长公共子串特征为最长公共子串与第一文本字符串的长度比;第二最长公共子串特征为最长公共子串与第二文本字符串的长度比;字符长度比:较短字符串与较长字符串的长度比。
计算相似度时,首先需要对要计算的词向量作归一化处理,然后以内积结果作为输出。对由多个词向量串联成的代表主干词串联的词长向量,也作同样处理,即先归一化再以内积求相似性。相似度计算的结果a的取值范围是[-1,1],当a=1时表示语义完全相似,当a=-1时表示语义完全不同,相似度a介于-1和1之间时,与1越靠近,相似性越高,与-1越靠近,表示二者越不相关。
选择最优相似度集合时,在样本集中取训练样本和测试样本,样本集中的每个样本均为两个短文本,且已知短文本的相似度。对训练样本和测试样本进行分词以及特征提取。计算训练样本的各文本特征的相似度,利用各文本特征的相似度分布建立混合高斯模型,每个高斯模型对应一个文本特征相似度,利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数,然后将测试样本输入混合高斯模型,计算实际相似度和理论相似度的欧式距离,去掉欧式距离大于预设阈值的文本特征的相似度,余下的为最优相似度集合。最后只需以最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和,即可得出短文本语义相似度。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (6)
1.一种基于词向量的短文本语义相似度计算方法,其特征在于,包括以下步骤:
获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;
对样本集中的两个短文本进行分词,并提取文本特征集合,所述文本特征集合包括词性特征、语意特征和文本结构特征;
从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;
根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;
以所述最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度;
所述词性特征的相似度包括:名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度;
两文本的所有名词的词向量相互内积,取内积的均值即为名词相似度;两文本的所有时间词的词向量相互内积,取内积的均值即为时间词相似度;两文本的所有动词的词向量相互内积,取内积的均值即为动词相似度;两文本的所有数词的词向量相互内积,取内积的均值即为数词相似度;两文本的所有介词的词向量相互内积,取内积的均值即为介词相似度;两文本的所有量词的词向量相互内积,取内积的均值即为量词相似度;
所述语意特征对应的词长向量是将短文本的主干词串联,结合相应的词向量,构成的词长向量;若两个句子中词的数量不一样,则以短句子为基准,对较多词的句子进行排列组合构成与短句子数量相同的词数,再进行相似性计算;
所述语意特征的相似度包括:语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度;
两文本语意词长向量相互内积,取最小值即为语意最小相似度;两文本语意词长向量相互内积,取最大值即为语意最大相似度;两文本语意词长向量相互内积,取最中值即为语意中值相似度;两文本语意词长向量相互内积,取均值即语意均值相似度;
所述文本结构特征的相似度包括:第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比;
计算文本A中每个词向量和文本B所有词向量的内积,取最大值保留,对所有最大值进行求平均值即为第一词义最大相似度均值;计算文本B中每个词向量和文本A所有词向量内积,取最大值保留,全部计算完成后,对所有最大值进行求平均值即为第二词义最大相似度均值;最长公共子串最小耗费为最长公共子串跨越的最小字符长度与文本A字符串的长度比;第一最长公共子串特征为最长公共子串与文本A字符串的长度比;第二最长公共子串特征为最长公共子串与文本B字符串的长度比;字符长度比为较短字符串与较长字符串的长度比。
2.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述对语料库进行分词后还需进行数据清理,得到语料库中的中文分词。
3.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述词向量模型为word2vec模型。
4.如权利要求3所述的基于词向量的短文本语义相似度计算方法,其特征在于,所述构建词向量库的具体方法为:将word2vec模型生成的词向量写入Mysql数据库中,并对分词建立相应的索引。
5.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于,选择所述最优相似度集合的具体方法为:所述样本集包括训练样本和测试样本,利用训练样本的两个短文本的各文本特征相似度分布建立混合高斯模型,每个高斯模型对应一个文本特征相似度,利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数,然后将测试样本输入混合高斯模型,计算实际相似度和理论相似度的欧式距离,去掉欧式距离大于预设阈值的文本特征的相似度,余下的为最优相似度集合。
6.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于,所述相似度计算的结果a的取值范围是[-1,1],当a=1时表示语义完全相似,当a=-1时表示语义完全不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810929693.0A CN109190117B (zh) | 2018-08-10 | 2018-08-10 | 一种基于词向量的短文本语义相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810929693.0A CN109190117B (zh) | 2018-08-10 | 2018-08-10 | 一种基于词向量的短文本语义相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190117A CN109190117A (zh) | 2019-01-11 |
CN109190117B true CN109190117B (zh) | 2023-06-23 |
Family
ID=64917984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810929693.0A Active CN109190117B (zh) | 2018-08-10 | 2018-08-10 | 一种基于词向量的短文本语义相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190117B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475603B (zh) * | 2019-01-23 | 2023-07-04 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
CN110442863B (zh) * | 2019-07-16 | 2023-05-05 | 深圳供电局有限公司 | 一种短文本语义相似度计算方法及其系统、介质 |
CN110688196B (zh) * | 2019-08-22 | 2022-03-01 | 曲阜师范大学 | 多人工智能云服务下的虚拟机的讯息处理方法 |
KR102187554B1 (ko) * | 2019-08-27 | 2020-12-07 | 주식회사 한글과컴퓨터 | 스프레드시트 상에서 지정된 두 영역 간의 유사도 측정이 가능한 전자 장치 및 그 동작 방법 |
CN110704621B (zh) * | 2019-09-25 | 2023-04-21 | 北京大米科技有限公司 | 文本处理方法、装置及存储介质和电子设备 |
CN111199148B (zh) * | 2019-12-26 | 2023-01-20 | 东软集团股份有限公司 | 文本相似度确定方法、装置、存储介质和电子设备 |
CN111259113B (zh) * | 2020-01-15 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111737988B (zh) * | 2020-06-24 | 2023-06-06 | 深圳前海微众银行股份有限公司 | 一种复述句识别的方法及装置 |
CN111814447B (zh) * | 2020-06-24 | 2022-05-27 | 平安科技(深圳)有限公司 | 基于分词文本的电子病例查重方法、装置、计算机设备 |
CN112100381B (zh) * | 2020-09-22 | 2022-05-17 | 福建天晴在线互动科技有限公司 | 一种文本相似度进行量化的方法及其系统 |
CN112199937B (zh) * | 2020-11-12 | 2024-01-23 | 深圳供电局有限公司 | 一种短文本相似度分析方法及其系统、计算机设备、介质 |
CN112733520B (zh) * | 2020-12-30 | 2023-07-18 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN112668307B (zh) * | 2020-12-30 | 2022-06-21 | 清华大学 | 一种双语句子自动对齐方法及装置 |
CN113573128B (zh) * | 2021-02-25 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、终端以及存储介质 |
CN112988954B (zh) * | 2021-05-17 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、电子设备和计算机可读存储介质 |
CN114298055B (zh) * | 2021-12-24 | 2022-08-09 | 浙江大学 | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 |
CN116187307B (zh) * | 2023-04-27 | 2023-07-14 | 吉奥时空信息技术股份有限公司 | 一种政务文章标题关键字提取方法、设备及存储设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455623B (zh) * | 2013-09-12 | 2017-02-15 | 广东电子工业研究院有限公司 | 一种融合多种语言文献的聚类机制 |
CN104008166B (zh) * | 2014-05-30 | 2017-05-24 | 华东师范大学 | 一种基于形态和语义相似度的对话短文本聚类方法 |
CN104699763B (zh) * | 2015-02-11 | 2017-10-17 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN106294350B (zh) * | 2015-05-13 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
US10282468B2 (en) * | 2015-11-05 | 2019-05-07 | International Business Machines Corporation | Document-based requirement identification and extraction |
CN107085581B (zh) * | 2016-02-16 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN105893611B (zh) * | 2016-04-27 | 2020-04-07 | 南京邮电大学 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
CN107644010B (zh) * | 2016-07-20 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 一种文本相似度计算方法及装置 |
CN108205551B (zh) * | 2016-12-16 | 2020-09-29 | 北京酷我科技有限公司 | 一种歌曲推荐方法和歌曲推荐系统 |
CN106980639B (zh) * | 2016-12-29 | 2020-07-28 | 中国银联股份有限公司 | 短文本数据聚合系统及方法 |
CN108090047B (zh) * | 2018-01-10 | 2022-05-24 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
CN108319734A (zh) * | 2018-04-11 | 2018-07-24 | 中国计量大学 | 一种基于线性组合器的产品特征结构树自动构建方法 |
-
2018
- 2018-08-10 CN CN201810929693.0A patent/CN109190117B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109190117A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN106776562B (zh) | 一种关键词提取方法和提取系统 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN109783806B (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
Gulati et al. | A novel technique for multidocument Hindi text summarization | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
Jayasiriwardene et al. | Keyword extraction from Tweets using NLP tools for collecting relevant news | |
Gopan et al. | Comparative study on different approaches in keyword extraction | |
Zehtab-Salmasi et al. | FRAKE: fusional real-time automatic keyword extraction | |
Chader et al. | Sentiment Analysis for Arabizi: Application to Algerian Dialect. | |
Ahmed et al. | Question analysis for Arabic question answering systems | |
Wu et al. | Text categorization using automatically acquired domain ontology | |
Alqaraleh | Turkish Sentiment Analysis System via Ensemble Learning | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
Dehghani et al. | Semi-automatic detection of Persian stopwords using FastText library | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 | |
Doostmohammadi et al. | Perkey: A persian news corpus for keyphrase extraction and generation | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |