CN106844346B - 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 - Google Patents

基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 Download PDF

Info

Publication number
CN106844346B
CN106844346B CN201710070391.8A CN201710070391A CN106844346B CN 106844346 B CN106844346 B CN 106844346B CN 201710070391 A CN201710070391 A CN 201710070391A CN 106844346 B CN106844346 B CN 106844346B
Authority
CN
China
Prior art keywords
text
word
model
vector
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710070391.8A
Other languages
English (en)
Other versions
CN106844346A (zh
Inventor
曹杰
冯雨晖
宿晓坤
杨睿
何源浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710070391.8A priority Critical patent/CN106844346B/zh
Publication of CN106844346A publication Critical patent/CN106844346A/zh
Application granted granted Critical
Publication of CN106844346B publication Critical patent/CN106844346B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统,方法包括:将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型。通过本发明提供的技术方案,在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果,创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别;从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率。

Description

基于深度学习模型Word2Vec的短文本语义相似性判别方法和 系统
技术领域
本发明涉及中文自然语言处理技术领域,尤其涉及一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统。
背景技术
自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。它并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。它是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。现有的NLP处理工具有OpenNLP,FudanNLP和哈工大的语言技术平台(LTP);当前中文自然语言处理技术难点在于单词的边界确定、词义消歧,句法模糊性,错误性输入等,尤其社交网络文本,由于其口语化、方言化,且以短文本居多,给NLP带来了新的挑战。
深度学习是近十年来人工智能领域取得的最重要的突破之一,在语音识别、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。在自然语言处理领域,虽然深度学习方法也收到越来越多的关注,在很多任务上也取得了一定效果,但是并没有其它领域那么显著。传统的主流自然语言处理方法是基于统计机器学习的方法,所使用的特征大多数是基于onehot向量表示的各种组合特征。这个特征表示方式会导致特征空间非常大,但也带来一个优点,就是在非常高维的特征空间中,很多任务上都是近似线性可分的。因此,在很多任务上,使用线性分类器就是可以取得比较满意的性能。研究者更加关注于如何去提取能有效的特征,也就是“特征工程”。和传统统计机器学习不同,在自然语言处理中使用深度学习模型首先需要将特征表示从离散的onehot向量表示转换为连续的稠密向量表示,也叫分布式表示。分布式表示的一个优点是特征之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。早期研究者采用比较保守的方法,将离散特征的分布式表示作为辅助特征引入传统的算法框架,取得了一定的进展,但提升都不太显著。近两年来,随着对深度学习算法的理解逐渐加深,越来越多的研究者开始从输入到输出全部采用深度学习模型,并进行端到端的训练,在很多任务上取得了比较大的突破。
2012年,杨震等人提出一种短文本间语义距离的计算机辅助计算方法,其方法是将两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算,但是该方法存在两点不足:(1)句法结构距离仅在句法结构规则的情况下表现良好,而且还受到句长的影响;(2)单元语义距离的计算是基于《同义词词林扩展版》中词语的五级结构,同时引入中文关键词与近义词。随着新词的不断涌现和社交网络词语口语化,基于同义词和近义词词典的方法需要投入大量的人工维护成本,且词语的覆盖度有限。综上所述,杨震的发明并不能满足网络短文本的语义相似度计算需求。
发明内容
本发明提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统,研究对象为网络短文本,旨在基于深度学习模型解决短文本语义相似性判别问题。达到创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别,从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率的目的。
为达到上述目的,本发明一方面提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法,包括:
将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;
提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型。
进一步的,所述将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合,包括:
获取中文语料集,所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种;
将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据;
将预处理后的文本数据输入至深度学习模型word2vec中,并调取word2vec中的参数进行模型训练,得到目标维度的词向量集合。
进一步的,所述提取所述多维的词向量集合的特征数据,包括但不限于:
提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据。
进一步的,提取词粒度的语义特征数据的方法包括:
通过公式
Figure BDA0001222547180000031
在词粒度上对短文本对进行最大值,中位数,最小值等三个语义特征的提取;
其中,(Sl,Ss)为文本对,Sl表示较长的文本,Ss表示较短的文本,avgsl表示训练语料集中句子的平均长度,k1和b为模型参数,起到平滑的作用,IDF(w)是词w的逆向文档频率,词w和短文本S之间的语义相似性可以表示为sem(w,s):
Figure BDA0001222547180000032
其中函数fsem为计算的两个词向量之间的语义相似度,使用的是余弦相似度,词向量源于训练得到的word2vec模型。
fsts计算的总体分值可以基于词粒度表征短文本之间的语义相似性,但是为了获取更多的特征,对fsts计算过程中的累加项进行提取,分别提取最大值,中位数,最小值等三个特征。
优选的,若word2vec深度学习模型不包含的词w,则该词用一个随机生成的n维向量表示,向量各维度取值在[0,1],且相同词对应同一个随机向量。
进一步的,提取文本粒度的语义相似性特征数据的方法包括:
一个文本的向量定义为T,词向量w通过公式:
Figure BDA0001222547180000041
计算文本向量后,分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据;其中,N表示短文本中词的数量。
进一步的,提取文本粒度的向量维度特征数据的方法包括:
设短文本对为(Sn1,Sn2),对应的文本向量为(Tn1,Tn2),分别计算向量Tn1和Tn2对应维度的差值Δi,i=(1,2,......,K)。定义差值区间,依据短文本对各维度的差值Δi隶属的区间范围,分别统计每个差值区间中特征的数量,作为文本向量的特征数据。
进一步的,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型,包括:
将特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中,同时调取词向量集、特征提取算子进行模型训练,将训练的预测模型输出,得到短文本语义相似性判别模型。
本发明还提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别系统,包括:
第一模型训练模块,用于将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;
第二模型训练模块,用于提取第一模型训练模块中的所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型。
进一步的,所述第一模型训练模块,包括:
获取单元,用于获取中文语料集,所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种;
预处理单元,用于将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据;
第一模型训练单元,用于将预处理后的文本数据输入至深度学习模型word2vec中,并调取word2vec中的参数进行模型训练,得到目标维度的词向量集合。
进一步的,所述第二模型训练模块,包括:
提取单元,用于提取所述多维的词向量集合的特征数据,包括但不限于:提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据;
第二模型训练单元,用于将提取单元提取的特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中,同时调取词向量集、特征提取算子进行模型训练,将训练的预测模型输出,得到短文本语义相似性判别模型。
进一步的,所述提取单元包括:
词粒度的语义特征数据提取单元,用于提取词粒度的语义特征数据,包括:通过公式
Figure BDA0001222547180000051
在词粒度上对短文本对进行最大值,中位数,最小值等三个语义特征的提取;
其中,(Sl,Ss)为文本对,Sl表示较长的文本,Ss表示较短的文本,avgsl表示训练语料集中句子的平均长度,k1和b为模型参数,起到平滑的作用,IDF(w)是词w的逆向文档频率,词w和短文本S之间的语义相似性可以表示为sem(w,s):
Figure BDA0001222547180000052
其中函数fsem为计算的两个词向量之间的语义相似度,使用的是余弦相似度,词向量源于训练得到的word2vec模型。
fsts计算的总体分值可以基于词粒度表征短文本之间的语义相似性,但是为了获取更多的特征,对fsts计算过程中的累加项进行提取,分别提取最大值,中位数,最小值等三个特征;
文本粒度的语义相似性特征数据提取单元,用于提取文本粒度的语义相似性特征数据,包括:一个文本的向量定义为T,词向量w通过公式:
Figure BDA0001222547180000061
计算文本向量后,分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据;其中,N表示短文本中词的数量;
文本粒度的向量维度特征数据提取单元,用于提取文本粒度的向量维度特征数据,包括:设短文本对为(Sn1,Sn2),对应的文本向量为(Tn1,Tn2),分别计算向量Tn1和Tn2对应维度的差值Δi,i=(1,2,......,K)。定义差值区间,依据短文本对各维度的差值Δi隶属的区间范围,分别统计每个差值区间中特征的数量,作为文本向量的特征数据。
优选的,还包括随机向量生成单元,用于若word2vec深度学习模型不包含的词w,则该词用一个随机生成的n维向量表示,向量各维度取值在[0,1],且相同词对应同一个随机向量。
本发明还提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别设备,包括前述任一项所述的系统。
本发明通过将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型的技术方案,在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果,创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别;从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率。
附图说明
图1为根据本发明的基于深度学习模型Word2Vec的短文本语义相似性判别方法的实施例一的流程图;
图2为根据本发明的基于深度学习模型Word2Vec的短文本语义相似性判别系统的实施例二的示意图;
图3为根据本发明的第一模型训练模块的实施例二的示意图;
图4为根据本发明的第二模型训练模块的实施例二的示意图;
图5为根据本发明的提取单元的实施例二的示意图;
图6为根据本发明的基于深度学习模型Word2Vec的短文本语义相似性判别设备的实施例三的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
参照图1,图1示出了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法的流程图。包括:步骤S110和步骤S120。
在步骤S110中,将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合。
在步骤S120中,提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型。
进一步的,所述将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合,包括:
获取中文语料集,所述中文语料集包括但不限于中文维基百科中文语料集;本发明实施例一优选用中文维基百科中文语料集为中文语料集,该中文语料集包含25万多篇中文语料,约1.2G。
将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据;
预处理的步骤包括:对中文语料集经过繁体转简体、字符编码统一换成UTF-8、分词、所有英文字符小写等预处理为深度学习模型word2vec支持的输入格式的文本数据。
将预处理后的文本数据输入至深度学习模型word2vec中,并调取word2vec中的参数调优后进行模型训练,得到目标维度的词向量集合。
模型训练的参数优选如下:用skip-gram模型,采样阈值为10-5,训练窗口大小为5,输出向量维度为300,其它参数使用默认值,模型训练完成后即可以得到维度为300的词向量集合。
进一步的,所述提取所述多维的词向量集合的特征数据,包括但不限于:
提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据。
进一步的,提取词粒度的语义特征数据的方法包括:
通过公式
Figure BDA0001222547180000081
在词粒度上对短文本对进行最大值,中位数,最小值等三个语义特征的提取;
其中,(Sl,Ss)为文本对,Sl表示较长的文本,Ss表示较短的文本,avgsl表示训练语料集中句子的平均长度,k1和b为模型参数,起到平滑的作用,IDF(w)是词w的逆向文档频率,词w和短文本S之间的语义相似性可以表示为sem(w,s):
Figure BDA0001222547180000091
其中函数fsem为计算的两个词向量之间的语义相似度,使用的是余弦相似度,词向量源于训练得到的word2vec模型。
fsts计算的总体分值可以基于词粒度表征短文本之间的语义相似性,但是为了获取更多的特征,对fsts计算过程中的累加项进行提取,分别提取最大值,中位数,最小值等三个特征。
优选的,若word2vec深度学习模型不包含的词w,则该词用一个随机生成的n维向量表示,如用300维向量表示,向量各维度取值在[0,1],且相同词对应同一个随机向量。
进一步的,提取文本粒度的语义相似性特征数据的方法包括:
一个文本的向量定义为T,词向量w通过公式:
Figure BDA0001222547180000092
计算文本向量后,分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据;其中,N表示短文本中词的数量。
进一步的,提取文本粒度的向量维度特征数据的方法包括:
设短文本对为(Sn1,Sn2),对应的文本向量为(Tn1,Tn2),分别计算向量Tn1和Tn2对应维度的差值Δi,i=(1,2,......,K)。定义差值区间,依据短文本对各维度的差值Δi隶属的区间范围,分别统计每个差值区间中特征的数量,作为文本向量的特征数据。
一优选实施例,定义差值区间为高度相似维度差值区间、中等相似维度差值区间、一般相似维度差值区间和不相似维度差值区间,统计短文本对的文本向量中高度相似维度、中等相似维度、一般相似维度和不相似维度的数量,作为短文本对的四个特征。其中,通过实验确定四个差值区间的差值范围如表1所示:
表1
差值区间 差值范围
高度相似 负无穷-0.001
中等相似 0.001-0.01
一般相似 0.01-0.02
不相似 0.02-无穷大
两个向量之间的余弦相似度,可以解释成不同维度上差异性的聚合,但其本身也未提炼出两个向量之间所有的相似性或差异性。例如,在大部分维度都相似但少数维度不同的两个向量,与所有维度都有细微差异的两个向量,余弦相似度的计算结果可能相同;但从直观上理解,这两种情况的相似度应该是不同的,本发明提供的提取文本粒度的向量维度特征数据的方法可以解决上述技术问题。
进一步的,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型,包括:
将特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中,同时调取词向量集、特征提取算子进行模型训练,将训练的预测模型输出,得到短文本语义相似性判别模型。
一具体应用例子,在word2vec模型训练的高维词向量的基础上,以同/近义短文本库作为标注数据,该数据集由短文本对和对应的标注标签组成,标注标签取值范围为{0,1},1表示语义相似,0表示语义不相似,通过特征提取算子为每对短文本共提取9个特征与标注数据输入SVC模型进行训练。算法流程如下:
输入:短文本对列表
[(S11,S12),(S21,S22),……,(Sn1,Sn2)]
输入:标注标签列表L=[L1,L2,……,Ln]
数据需求:词向量集[WE1,WE2,……,WEm]
数据需求:特征提取算子[fe1,fe2,……,fek]
输出:已训练的预测模型M
步骤:
Figure BDA0001222547180000111
在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果。
本发明实施例一通过将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型的技术方案,在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果,创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别;从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率。
实施例二
参照图2,图2示出了本发明提供的一种基于深度学习模型Word2Vec的短文本语义相似性判别系统200一实施例的结构图,包括:
第一模型训练模块21,用于将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合。
第二模型训练模块22,用于提取第一模型训练模块中的所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型。
进一步的,如图3所示,所述第一模型训练模块21,包括:
获取单元211,用于获取中文语料集,所述中文语料集包括但不限于中文维基百科中文语料集。
预处理单元212,用于将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据。
第一模型训练单元213,用于将预处理后的文本数据输入至深度学习模型word2vec中,并调取word2vec中的参数进行模型训练,得到目标维度的词向量集合。
进一步的,如图4所示,所述第二模型训练模块22,包括:
提取单元221,用于提取所述多维的词向量集合的特征数据,包括但不限于:提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据;
第二模型训练单元222,用于将提取单元提取的特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中,同时调取词向量集、特征提取算子进行模型训练,将训练的预测模型输出,得到短文本语义相似性判别模型。
进一步的,如图5所示,所述提取单元221包括:
词粒度的语义特征数据提取单元2211,用于提取词粒度的语义特征数据,包括:通过公式
Figure BDA0001222547180000121
在词粒度上对短文本对进行最大值,中位数,最小值等三个语义特征的提取;
其中,(Sl,Ss)为文本对,Sl表示较长的文本,Ss表示较短的文本,avgsl表示训练语料集中句子的平均长度,k1和b为模型参数,起到平滑的作用,IDF(w)是词w的逆向文档频率,词w和短文本S之间的语义相似性可以表示为sem(w,s):
Figure BDA0001222547180000131
其中函数fsem为计算的两个词向量之间的语义相似度,使用的是余弦相似度,词向量源于训练得到的word2vec模型。
fsts计算的总体分值可以基于词粒度表征短文本之间的语义相似性,但是为了获取更多的特征,对fsts计算过程中的累加项进行提取,分别提取最大值,中位数,最小值等三个特征;
文本粒度的语义相似性特征数据提取单元2212,用于提取文本粒度的语义相似性特征数据,包括:一个文本的向量定义为T,词向量w通过公式:
Figure BDA0001222547180000132
计算文本向量后,分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据;其中,N表示短文本中词的数量;
文本粒度的向量维度特征数据提取单元2213,用于提取文本粒度的向量维度特征数据,包括:设短文本对为(Sn1,Sn2),对应的文本向量为(Tn1,Tn2),分别计算向量Tn1和Tn2对应维度的差值Δi,i=(1,2,......,K)。定义差值区间,依据短文本对各维度的差值Δi隶属的区间范围,分别统计每个差值区间中特征的数量,作为文本向量的特征数据。
优选的,还包括随机向量生成单元(图中未示),用于若word2vec深度学习模型不包含的词w,则该词用一个随机生成的n维向量表示,向量各维度取值在[0,1],且相同词对应同一个随机向量。
由于本实施例二的系统所实现的处理及功能基本相应于前述图1所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本发明实施例二通过第一模型训练模块将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;又通过第二模型训练模块提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型的技术方案,在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果,创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别;从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率。
实施例三
参照图6,图6示出了本发明提供的一种基于深度学习模型Word2Vec的短文本语义相似性判别设备300,包括实施例二中的任一项所述的系统200。
本发明实施例三通过将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型的技术方案,在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果,创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别;从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种基于深度学习模型word2vec的短文本语义相似性判别方法,其特征在于,包括:
将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;
提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型;
所述提取所述多维的词向量集合的特征数据,包括但不限于:
提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据;
提取词粒度的语义特征数据的方法包括:
通过公式
Figure FDA0002493877220000011
在词粒度上对短文本对进行最大值,中位数,最小值三个语义特征的提取;
其中,(sl,ss)为文本对,sl表示较长的文本,ss表示较短的文本,avgsl表示训练语料集中句子的平均长度,k1和b为模型参数,起到平滑的作用,IDF(w)是词w的逆向文档频率,词w和短文本s之间的语义相似性表示为sem(w,s):
Figure FDA0002493877220000012
其中函数fsem为计算的两个词向量之间的语义相似度,使用的是余弦相似度,词向量源于训练得到的word2vec模型;
fsts计算的总体分值基于词粒度表征短文本之间的语义相似性,但是为了获取更多的特征,对fsts计算过程中的累加项进行提取,分别提取最大值,中位数,最小值三个特征。
2.如权利要求1所述的方法,其特征在于,所述将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合,包括:
获取中文语料集,所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种;
将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据;
将预处理后的文本数据输入至深度学习模型word2vec中,并调取word2vec中的参数进行模型训练,得到目标维度的词向量集合。
3.如权利要求1所述的方法,其特征在于,若word2vec深度学习模型不包含词w,则该词用一个随机生成的n维向量表示,向量各维度取值在[0,1],且相同词对应同一个随机向量。
4.如权利要求1所述的方法,其特征在于,提取文本粒度的语义相似性特征数据的方法包括:
一个文本的向量定义为T,词向量w通过公式:
Figure FDA0002493877220000021
计算文本向量后,分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据;其中,N表示短文本中词的数量,wi表示第i个词向量。
5.如权利要求1所述的方法,其特征在于,提取文本粒度的向量维度特征数据的方法包括:
设短文本对为(Sn1,Sn2),对应的文本向量为(Tn1,Tn2),分别计算向量Tn1和Tn2对应维度的差值Δi,i=(1,2,......,K);定义差值区间,依据短文本对各维度的差值Δi隶属的区间范围,分别统计每个差值区间中特征的数量,作为文本向量的特征数据。
6.如权利要求1所述的方法,其特征在于,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型,包括:
将特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中,同时调取词向量集、特征提取算子进行模型训练,将训练的预测模型输出,得到短文本语义相似性判别模型。
7.一种基于深度学习模型word2vec的短文本语义相似性判别系统,其特征在于,包括:
第一模型训练模块,用于将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;
第二模型训练模块,用于提取第一模型训练模块中的所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型;
所述第二模型训练模块包括提取单元,用于提取所述多维的词向量集合的特征数据,包括但不限于:提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据;
所述提取单元包括词粒度的语义特征数据提取单元,用于提取词粒度的语义特征数据,包括:通过公式
Figure FDA0002493877220000031
在词粒度上对短文本对进行最大值,中位数,最小值三个语义特征的提取;
其中,(sl,ss)为文本对,sl表示较长的文本,ss表示较短的文本,avgsl表示训练语料集中句子的平均长度,k1和b为模型参数,起到平滑的作用,IDF(w)是词w的逆向文档频率,词w和短文本s之间的语义相似性表示为sem(w,s):
Figure FDA0002493877220000032
其中函数fsem为计算的两个词向量之间的语义相似度,使用的是余弦相似度,词向量源于训练得到的word2vec模型;
fsts计算的总体分值基于词粒度表征短文本之间的语义相似性,但是为了获取更多的特征,对fsts计算过程中的累加项进行提取,分别提取最大值,中位数,最小值三个特征。
8.如权利要求7所述的系统,其特征在于,所述第一模型训练模块,包括:
获取单元,用于获取中文语料集,所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种;
预处理单元,用于将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据;
第一模型训练单元,用于将预处理后的文本数据输入至深度学习模型word2vec中,并调取word2vec中的参数进行模型训练,得到目标维度的词向量集合。
9.如权利要求7所述的系统,其特征在于,所述第二模型训练模块,还包括:
第二模型训练单元,用于将提取单元提取的特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中,同时调取词向量集、特征提取算子进行模型训练,将训练的预测模型输出,得到短文本语义相似性判别模型。
10.如权利要求9所述的系统,其特征在于,所述提取单元还包括:
文本粒度的语义相似性特征数据提取单元,用于提取文本粒度的语义相似性特征数据,包括:一个文本的向量定义为T,词向量w通过公式:
Figure FDA0002493877220000041
计算文本向量后,分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据;其中,N表示短文本中词的数量,wi表示第i个词向量;
文本粒度的向量维度特征数据提取单元,用于提取文本粒度的向量维度特征数据,包括:设短文本对为(Sn1,Sn2),对应的文本向量为(Tn1,Tn2),分别计算向量Tn1和Tn2对应维度的差值Δi,i=(1,2,......,K);定义差值区间,依据短文本对各维度的差值Δi隶属的区间范围,分别统计每个差值区间中特征的数量,作为文本向量的特征数据。
11.如权利要求10所述的系统,其特征在于,还包括随机向量生成单元,用于若word2vec深度学习模型不包含词w,则该词用一个随机生成的n维向量表示,向量各维度取值在[0,1],且相同词对应同一个随机向量。
12.一种基于深度学习模型word2vec的短文本语义相似性判别设备,其特征在于,包括如权利要求9-11任一项所述的系统。
CN201710070391.8A 2017-02-09 2017-02-09 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 Expired - Fee Related CN106844346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710070391.8A CN106844346B (zh) 2017-02-09 2017-02-09 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710070391.8A CN106844346B (zh) 2017-02-09 2017-02-09 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统

Publications (2)

Publication Number Publication Date
CN106844346A CN106844346A (zh) 2017-06-13
CN106844346B true CN106844346B (zh) 2020-08-25

Family

ID=59122596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710070391.8A Expired - Fee Related CN106844346B (zh) 2017-02-09 2017-02-09 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统

Country Status (1)

Country Link
CN (1) CN106844346B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291699B (zh) * 2017-07-04 2020-11-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN108932647A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测相似物品及训练其模型的方法和装置
US11823013B2 (en) * 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
CN107729300B (zh) * 2017-09-18 2021-12-24 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN107797985B (zh) * 2017-09-27 2022-02-25 百度在线网络技术(北京)有限公司 建立同义鉴别模型以及鉴别同义文本的方法、装置
CN107977676A (zh) * 2017-11-24 2018-05-01 北京神州泰岳软件股份有限公司 文本相似度计算方法及装置
CN108491380B (zh) * 2018-03-12 2021-11-23 思必驰科技股份有限公司 用于口语理解的对抗多任务训练方法
CN108597519B (zh) * 2018-04-04 2020-12-29 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及系统
CN110555305A (zh) * 2018-05-31 2019-12-10 武汉安天信息技术有限责任公司 基于深度学习的恶意应用溯源方法及相关装置
CN109034248B (zh) * 2018-07-27 2022-04-05 电子科技大学 一种基于深度学习的含噪声标签图像的分类方法
CN110209832A (zh) * 2018-08-08 2019-09-06 腾讯科技(北京)有限公司 上下位关系的判别方法、系统和计算机设备
CN109214002A (zh) * 2018-08-27 2019-01-15 成都四方伟业软件股份有限公司 一种文本对比方法、装置及其计算机存储介质
CN109376352B (zh) * 2018-08-28 2022-11-29 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN110969023B (zh) * 2018-09-29 2023-04-18 北京国双科技有限公司 文本相似度的确定方法及装置
CN109543175B (zh) * 2018-10-11 2020-06-02 北京诺道认知医学科技有限公司 一种查找同义词的方法及装置
CN109284366A (zh) * 2018-10-17 2019-01-29 徐佳慧 一种面向投融资机构的同质网络的构建方法及装置
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
CN109635383A (zh) * 2018-11-28 2019-04-16 优信拍(北京)信息科技有限公司 一种基于word2vec的车系相关度确定的方法及装置
CN111291561B (zh) * 2018-12-07 2023-04-18 阿里巴巴集团控股有限公司 文本识别方法、装置和系统
CN109766693A (zh) * 2018-12-11 2019-05-17 四川大学 一种基于深度学习的跨站脚本攻击检测方法
CN110046332B (zh) * 2019-04-04 2024-01-23 远光软件股份有限公司 一种相似文本数据集生成方法及装置
CN110688452B (zh) * 2019-08-23 2022-09-13 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110633359B (zh) * 2019-09-04 2022-03-29 北京百分点科技集团股份有限公司 语句等价性判断方法和装置
CN110569331A (zh) * 2019-09-04 2019-12-13 出门问问信息科技有限公司 一种基于上下文的关联性预测方法、装置及存储设备
CN110956033A (zh) * 2019-12-04 2020-04-03 北京中电普华信息技术有限公司 一种文本相似度计算方法及装置
CN111144129B (zh) * 2019-12-26 2023-06-06 成都航天科工大数据研究院有限公司 一种基于自回归与自编码的语义相似度获取方法
CN111243364A (zh) * 2020-01-09 2020-06-05 东华大学 一种基于HanLP的注册电气工程师考试主观题自动评分方法
CN111309933B (zh) * 2020-02-13 2023-11-10 中国科学院自动化研究所 文化资源数据自动标注系统
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111428180B (zh) * 2020-03-20 2022-02-08 创优数字科技(广东)有限公司 一种网页去重方法、装置和设备
CN112000802A (zh) * 2020-07-24 2020-11-27 南京航空航天大学 基于相似度集成的软件缺陷定位方法
CN112528653B (zh) * 2020-12-02 2023-11-28 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统
CN112861536A (zh) * 2021-01-28 2021-05-28 张治� 研究性学习能力画像方法、装置、计算设备和存储介质
CN113569036A (zh) * 2021-07-20 2021-10-29 上海明略人工智能(集团)有限公司 一种媒体信息的推荐方法、装置及电子设备
CN113643703B (zh) * 2021-08-06 2024-02-27 西北工业大学 一种语音驱动虚拟人的口令理解方法
CN113761942B (zh) * 2021-09-14 2023-12-05 合众新能源汽车股份有限公司 基于深度学习模型的语义分析方法、装置及存储介质
CN116860703B (zh) * 2023-07-13 2024-04-16 杭州再启信息科技有限公司 基于人工智能的数据处理系统、方法及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN104391828A (zh) * 2014-11-11 2015-03-04 百度在线网络技术(北京)有限公司 确定短文本相似度的方法和装置
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
CN104102626B (zh) * 2014-07-07 2017-08-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN104391828A (zh) * 2014-11-11 2015-03-04 百度在线网络技术(北京)有限公司 确定短文本相似度的方法和装置
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Also Published As

Publication number Publication date
CN106844346A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106844346B (zh) 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN107085581B (zh) 短文本分类方法和装置
CN106502994B (zh) 一种文本的关键词提取的方法和装置
CN105095204B (zh) 同义词的获取方法及装置
CN106776548B (zh) 一种文本的相似度计算的方法和装置
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN106611041A (zh) 一种新的文本相似度求解方法
CN107844608B (zh) 一种基于词向量的句子相似度比较方法
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN110674378A (zh) 基于余弦相似度和最小编辑距离的中文语义识别方法
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN112270191A (zh) 提取工单文本主题的方法及装置
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
Abdolahi et al. Sentence matrix normalization using most likely n-grams vector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200825

CF01 Termination of patent right due to non-payment of annual fee