CN106844346B

CN106844346B - 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统

Info

Publication number: CN106844346B
Application number: CN201710070391.8A
Authority: CN
Inventors: 曹杰; 冯雨晖; 宿晓坤; 杨睿; 何源浩
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-02-09
Filing date: 2017-02-09
Publication date: 2020-08-25
Anticipated expiration: 2037-02-09
Also published as: CN106844346A

Abstract

本发明提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统，方法包括：将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型。通过本发明提供的技术方案，在社交网络文本分析场景中，将待判别的两个短文本输入到上一步训练的模型中，即可输出语义相似性的判别结果，创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别；从词粒度到文本粒度构建特征工程，详尽地表达了短文本局部及总体特征，提升了短文本语义相似性判别的准确率。

Description

基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统

技术领域

本发明涉及中文自然语言处理技术领域，尤其涉及一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统。

背景技术

自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。它并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。它是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。现有的NLP处理工具有OpenNLP，FudanNLP和哈工大的语言技术平台(LTP)；当前中文自然语言处理技术难点在于单词的边界确定、词义消歧，句法模糊性，错误性输入等，尤其社交网络文本，由于其口语化、方言化，且以短文本居多，给NLP带来了新的挑战。

深度学习是近十年来人工智能领域取得的最重要的突破之一，在语音识别、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。在自然语言处理领域，虽然深度学习方法也收到越来越多的关注，在很多任务上也取得了一定效果，但是并没有其它领域那么显著。传统的主流自然语言处理方法是基于统计机器学习的方法，所使用的特征大多数是基于onehot向量表示的各种组合特征。这个特征表示方式会导致特征空间非常大，但也带来一个优点，就是在非常高维的特征空间中，很多任务上都是近似线性可分的。因此，在很多任务上，使用线性分类器就是可以取得比较满意的性能。研究者更加关注于如何去提取能有效的特征，也就是“特征工程”。和传统统计机器学习不同，在自然语言处理中使用深度学习模型首先需要将特征表示从离散的onehot向量表示转换为连续的稠密向量表示，也叫分布式表示。分布式表示的一个优点是特征之间存在“距离”概念，这对很多自然语言处理的任务非常有帮助。早期研究者采用比较保守的方法，将离散特征的分布式表示作为辅助特征引入传统的算法框架，取得了一定的进展，但提升都不太显著。近两年来，随着对深度学习算法的理解逐渐加深，越来越多的研究者开始从输入到输出全部采用深度学习模型，并进行端到端的训练，在很多任务上取得了比较大的突破。

2012年，杨震等人提出一种短文本间语义距离的计算机辅助计算方法，其方法是将两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算，但是该方法存在两点不足：(1)句法结构距离仅在句法结构规则的情况下表现良好，而且还受到句长的影响；(2)单元语义距离的计算是基于《同义词词林扩展版》中词语的五级结构，同时引入中文关键词与近义词。随着新词的不断涌现和社交网络词语口语化，基于同义词和近义词词典的方法需要投入大量的人工维护成本，且词语的覆盖度有限。综上所述，杨震的发明并不能满足网络短文本的语义相似度计算需求。

发明内容

本发明提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统，研究对象为网络短文本，旨在基于深度学习模型解决短文本语义相似性判别问题。达到创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别，从词粒度到文本粒度构建特征工程，详尽地表达了短文本局部及总体特征，提升了短文本语义相似性判别的准确率的目的。

为达到上述目的，本发明一方面提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法，包括：

将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；

提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型。

进一步的，所述将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合，包括：

获取中文语料集，所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种；

将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据；

将预处理后的文本数据输入至深度学习模型word2vec中，并调取word2vec中的参数进行模型训练，得到目标维度的词向量集合。

进一步的，所述提取所述多维的词向量集合的特征数据，包括但不限于：

提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据。

进一步的，提取词粒度的语义特征数据的方法包括：

通过公式

在词粒度上对短文本对进行最大值，中位数，最小值等三个语义特征的提取；

其中，(S_l，S_s)为文本对，S_l表示较长的文本，S_s表示较短的文本，avgsl表示训练语料集中句子的平均长度，k₁和b为模型参数，起到平滑的作用，IDF(w)是词w的逆向文档频率，词w和短文本S之间的语义相似性可以表示为sem(w,s):

其中函数f_sem为计算的两个词向量之间的语义相似度，使用的是余弦相似度，词向量源于训练得到的word2vec模型。

f_sts计算的总体分值可以基于词粒度表征短文本之间的语义相似性，但是为了获取更多的特征，对f_sts计算过程中的累加项进行提取，分别提取最大值，中位数，最小值等三个特征。

优选的，若word2vec深度学习模型不包含的词w，则该词用一个随机生成的n维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

进一步的，提取文本粒度的语义相似性特征数据的方法包括：

一个文本的向量定义为T，词向量w通过公式：

计算文本向量后，分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据；其中，N表示短文本中词的数量。

进一步的，提取文本粒度的向量维度特征数据的方法包括：

设短文本对为(S_n1，S_n2)，对应的文本向量为(T_n1，T_n2)，分别计算向量T_n1和T_n2对应维度的差值Δ_i，i＝(1,2,......,K)。定义差值区间，依据短文本对各维度的差值Δ_i隶属的区间范围，分别统计每个差值区间中特征的数量，作为文本向量的特征数据。

进一步的，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型，包括：

将特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中，同时调取词向量集、特征提取算子进行模型训练，将训练的预测模型输出，得到短文本语义相似性判别模型。

本发明还提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别系统，包括：

第一模型训练模块，用于将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；

第二模型训练模块，用于提取第一模型训练模块中的所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型。

进一步的，所述第一模型训练模块，包括：

获取单元，用于获取中文语料集，所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种；

预处理单元，用于将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据；

第一模型训练单元，用于将预处理后的文本数据输入至深度学习模型word2vec中，并调取word2vec中的参数进行模型训练，得到目标维度的词向量集合。

进一步的，所述第二模型训练模块，包括：

提取单元，用于提取所述多维的词向量集合的特征数据，包括但不限于：提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据；

第二模型训练单元，用于将提取单元提取的特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中，同时调取词向量集、特征提取算子进行模型训练，将训练的预测模型输出，得到短文本语义相似性判别模型。

进一步的，所述提取单元包括：

词粒度的语义特征数据提取单元，用于提取词粒度的语义特征数据，包括：通过公式

f_sts计算的总体分值可以基于词粒度表征短文本之间的语义相似性，但是为了获取更多的特征，对f_sts计算过程中的累加项进行提取，分别提取最大值，中位数，最小值等三个特征；

文本粒度的语义相似性特征数据提取单元，用于提取文本粒度的语义相似性特征数据，包括：一个文本的向量定义为T，词向量w通过公式：

计算文本向量后，分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据；其中，N表示短文本中词的数量；

文本粒度的向量维度特征数据提取单元，用于提取文本粒度的向量维度特征数据，包括：设短文本对为(S_n1，S_n2)，对应的文本向量为(T_n1，T_n2)，分别计算向量T_n1和T_n2对应维度的差值Δ_i，i＝(1,2,......,K)。定义差值区间，依据短文本对各维度的差值Δ_i隶属的区间范围，分别统计每个差值区间中特征的数量，作为文本向量的特征数据。

优选的，还包括随机向量生成单元，用于若word2vec深度学习模型不包含的词w，则该词用一个随机生成的n维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

本发明还提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别设备，包括前述任一项所述的系统。

本发明通过将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型的技术方案，在社交网络文本分析场景中，将待判别的两个短文本输入到上一步训练的模型中，即可输出语义相似性的判别结果，创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别；从词粒度到文本粒度构建特征工程，详尽地表达了短文本局部及总体特征，提升了短文本语义相似性判别的准确率。

附图说明

图1为根据本发明的基于深度学习模型Word2Vec的短文本语义相似性判别方法的实施例一的流程图；

图2为根据本发明的基于深度学习模型Word2Vec的短文本语义相似性判别系统的实施例二的示意图；

图3为根据本发明的第一模型训练模块的实施例二的示意图；

图4为根据本发明的第二模型训练模块的实施例二的示意图；

图5为根据本发明的提取单元的实施例二的示意图；

图6为根据本发明的基于深度学习模型Word2Vec的短文本语义相似性判别设备的实施例三的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

参照图1，图1示出了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法的流程图。包括：步骤S110和步骤S120。

在步骤S110中，将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合。

在步骤S120中，提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型。

获取中文语料集，所述中文语料集包括但不限于中文维基百科中文语料集；本发明实施例一优选用中文维基百科中文语料集为中文语料集，该中文语料集包含25万多篇中文语料，约1.2G。

预处理的步骤包括：对中文语料集经过繁体转简体、字符编码统一换成UTF-8、分词、所有英文字符小写等预处理为深度学习模型word2vec支持的输入格式的文本数据。

将预处理后的文本数据输入至深度学习模型word2vec中，并调取word2vec中的参数调优后进行模型训练，得到目标维度的词向量集合。

模型训练的参数优选如下：用skip-gram模型，采样阈值为10^-5，训练窗口大小为5，输出向量维度为300，其它参数使用默认值，模型训练完成后即可以得到维度为300的词向量集合。

进一步的，提取词粒度的语义特征数据的方法包括：

通过公式

优选的，若word2vec深度学习模型不包含的词w，则该词用一个随机生成的n维向量表示，如用300维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

一个文本的向量定义为T，词向量w通过公式：

进一步的，提取文本粒度的向量维度特征数据的方法包括：

一优选实施例，定义差值区间为高度相似维度差值区间、中等相似维度差值区间、一般相似维度差值区间和不相似维度差值区间，统计短文本对的文本向量中高度相似维度、中等相似维度、一般相似维度和不相似维度的数量，作为短文本对的四个特征。其中，通过实验确定四个差值区间的差值范围如表1所示：

表1

差值区间	差值范围
		高度相似	负无穷-0.001
中等相似	0.001-0.01
		一般相似	0.01-0.02
不相似	0.02-无穷大

两个向量之间的余弦相似度，可以解释成不同维度上差异性的聚合，但其本身也未提炼出两个向量之间所有的相似性或差异性。例如，在大部分维度都相似但少数维度不同的两个向量，与所有维度都有细微差异的两个向量，余弦相似度的计算结果可能相同；但从直观上理解，这两种情况的相似度应该是不同的，本发明提供的提取文本粒度的向量维度特征数据的方法可以解决上述技术问题。

一具体应用例子，在word2vec模型训练的高维词向量的基础上，以同/近义短文本库作为标注数据，该数据集由短文本对和对应的标注标签组成，标注标签取值范围为{0,1}，1表示语义相似，0表示语义不相似，通过特征提取算子为每对短文本共提取9个特征与标注数据输入SVC模型进行训练。算法流程如下：

输入：短文本对列表

[(S₁₁,S₁₂),(S₂₁,S₂₂),……,(S_n1,S_n2)]

输入：标注标签列表L＝[L₁,L₂,……,L_n]

数据需求：词向量集[WE₁,WE₂,……,WE_m]

数据需求：特征提取算子[fe₁,fe₂,……,fe_k]

输出：已训练的预测模型M

步骤：

在社交网络文本分析场景中，将待判别的两个短文本输入到上一步训练的模型中，即可输出语义相似性的判别结果。

本发明实施例一通过将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型的技术方案，在社交网络文本分析场景中，将待判别的两个短文本输入到上一步训练的模型中，即可输出语义相似性的判别结果，创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别；从词粒度到文本粒度构建特征工程，详尽地表达了短文本局部及总体特征，提升了短文本语义相似性判别的准确率。

实施例二

参照图2，图2示出了本发明提供的一种基于深度学习模型Word2Vec的短文本语义相似性判别系统200一实施例的结构图，包括：

第一模型训练模块21，用于将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合。

第二模型训练模块22，用于提取第一模型训练模块中的所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型。

进一步的，如图3所示，所述第一模型训练模块21，包括：

获取单元211，用于获取中文语料集，所述中文语料集包括但不限于中文维基百科中文语料集。

预处理单元212，用于将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据。

第一模型训练单元213，用于将预处理后的文本数据输入至深度学习模型word2vec中，并调取word2vec中的参数进行模型训练，得到目标维度的词向量集合。

进一步的，如图4所示，所述第二模型训练模块22，包括：

提取单元221，用于提取所述多维的词向量集合的特征数据，包括但不限于：提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据；

第二模型训练单元222，用于将提取单元提取的特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中，同时调取词向量集、特征提取算子进行模型训练，将训练的预测模型输出，得到短文本语义相似性判别模型。

进一步的，如图5所示，所述提取单元221包括：

词粒度的语义特征数据提取单元2211，用于提取词粒度的语义特征数据，包括：通过公式

文本粒度的语义相似性特征数据提取单元2212，用于提取文本粒度的语义相似性特征数据，包括：一个文本的向量定义为T，词向量w通过公式：

文本粒度的向量维度特征数据提取单元2213，用于提取文本粒度的向量维度特征数据，包括：设短文本对为(S_n1，S_n2)，对应的文本向量为(T_n1，T_n2)，分别计算向量T_n1和T_n2对应维度的差值Δ_i，i＝(1,2,......,K)。定义差值区间，依据短文本对各维度的差值Δ_i隶属的区间范围，分别统计每个差值区间中特征的数量，作为文本向量的特征数据。

优选的，还包括随机向量生成单元(图中未示)，用于若word2vec深度学习模型不包含的词w，则该词用一个随机生成的n维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

由于本实施例二的系统所实现的处理及功能基本相应于前述图1所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

本发明实施例二通过第一模型训练模块将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；又通过第二模型训练模块提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型的技术方案，在社交网络文本分析场景中，将待判别的两个短文本输入到上一步训练的模型中，即可输出语义相似性的判别结果，创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别；从词粒度到文本粒度构建特征工程，详尽地表达了短文本局部及总体特征，提升了短文本语义相似性判别的准确率。

实施例三

参照图6，图6示出了本发明提供的一种基于深度学习模型Word2Vec的短文本语义相似性判别设备300，包括实施例二中的任一项所述的系统200。

本发明实施例三通过将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型的技术方案，在社交网络文本分析场景中，将待判别的两个短文本输入到上一步训练的模型中，即可输出语义相似性的判别结果，创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别；从词粒度到文本粒度构建特征工程，详尽地表达了短文本局部及总体特征，提升了短文本语义相似性判别的准确率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习模型word2vec的短文本语义相似性判别方法，其特征在于，包括：

提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型；

所述提取所述多维的词向量集合的特征数据，包括但不限于：

提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据；

提取词粒度的语义特征数据的方法包括：

通过公式

在词粒度上对短文本对进行最大值，中位数，最小值三个语义特征的提取；

其中，(s_l，s_s)为文本对，s_l表示较长的文本，s_s表示较短的文本，avgsl表示训练语料集中句子的平均长度，k₁和b为模型参数，起到平滑的作用，IDF(w)是词w的逆向文档频率，词w和短文本s之间的语义相似性表示为sem(w,s):

其中函数f_sem为计算的两个词向量之间的语义相似度，使用的是余弦相似度，词向量源于训练得到的word2vec模型；

f_sts计算的总体分值基于词粒度表征短文本之间的语义相似性，但是为了获取更多的特征，对f_sts计算过程中的累加项进行提取，分别提取最大值，中位数，最小值三个特征。

2.如权利要求1所述的方法，其特征在于，所述将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合，包括：

3.如权利要求1所述的方法，其特征在于，若word2vec深度学习模型不包含词w，则该词用一个随机生成的n维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

4.如权利要求1所述的方法，其特征在于，提取文本粒度的语义相似性特征数据的方法包括：

一个文本的向量定义为T，词向量w通过公式：

计算文本向量后，分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据；其中，N表示短文本中词的数量，w_i表示第i个词向量。

5.如权利要求1所述的方法，其特征在于，提取文本粒度的向量维度特征数据的方法包括：

设短文本对为(S_n1，S_n2)，对应的文本向量为(T_n1，T_n2)，分别计算向量T_n1和T_n2对应维度的差值Δ_i，i＝(1,2,......,K)；定义差值区间，依据短文本对各维度的差值Δ_i隶属的区间范围，分别统计每个差值区间中特征的数量，作为文本向量的特征数据。

6.如权利要求1所述的方法，其特征在于，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型，包括：

7.一种基于深度学习模型word2vec的短文本语义相似性判别系统，其特征在于，包括：

第二模型训练模块，用于提取第一模型训练模块中的所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型；

所述第二模型训练模块包括提取单元，用于提取所述多维的词向量集合的特征数据，包括但不限于：提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据；

所述提取单元包括词粒度的语义特征数据提取单元，用于提取词粒度的语义特征数据，包括：通过公式

8.如权利要求7所述的系统，其特征在于，所述第一模型训练模块，包括：

9.如权利要求7所述的系统，其特征在于，所述第二模型训练模块，还包括：

10.如权利要求9所述的系统，其特征在于，所述提取单元还包括：

计算文本向量后，分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据；其中，N表示短文本中词的数量，w_i表示第i个词向量；

文本粒度的向量维度特征数据提取单元，用于提取文本粒度的向量维度特征数据，包括：设短文本对为(S_n1，S_n2)，对应的文本向量为(T_n1，T_n2)，分别计算向量T_n1和T_n2对应维度的差值Δ_i，i＝(1,2,......,K)；定义差值区间，依据短文本对各维度的差值Δ_i隶属的区间范围，分别统计每个差值区间中特征的数量，作为文本向量的特征数据。

11.如权利要求10所述的系统，其特征在于，还包括随机向量生成单元，用于若word2vec深度学习模型不包含词w，则该词用一个随机生成的n维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

12.一种基于深度学习模型word2vec的短文本语义相似性判别设备，其特征在于，包括如权利要求9-11任一项所述的系统。