CN109783643A

CN109783643A - 一种近似语句推荐方法及装置

Info

Publication number: CN109783643A
Application number: CN201910018337.8A
Authority: CN
Inventors: 窦志成; 高逵; 谢峰; 高阳
Original assignee: Beijing Wisdom Data Technology Co Ltd
Current assignee: Beijing Wisdom Data Technology Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-05-21

Abstract

本申请公开了一种近似语句推荐方法及装置，所述方法包括：利用Sent2Vec模块获取目标句子的句向量；利用KMeans预测模块获取所述目标句子的句向量所属簇的标签；利用相似度计算模块加载与所述目标句子的句向量为同一簇的所有句向量，计算所述目标句子的句向量与同一簇中所有句向量的余弦相似度；选择N个最大的余弦相似度，查找所述N个最大的余弦相似度对应的句子集合，N为正整数。

Description

一种近似语句推荐方法及装置

技术领域

本申请涉及语句推荐技术，尤其涉及一种基于词向量的实时近似语句推荐方法及装置。

背景技术

句子相似度的计算方法有很多，例如：基于向量空间模型的计算和基于词向量空间模型的计算。其中，词嵌入结合神经网络中Siamese-LSTM模型可以计算句子的相似度，但这种方法是监督学习，需要大量标记数据，而且这是分类模型，无法对句子相似度进行度量。

申请内容

为解决上述技术问题，本申请实施例提供了一种近似语句推荐方法及装置。

本申请实施例提供的近似语句推荐方法，包括：

利用Sent2Vec模块获取目标句子的句向量；

利用KMeans预测模块获取所述目标句子的句向量所属簇的标签；

利用相似度计算模块加载与所述目标句子的句向量为同一簇的所有句向量，计算所述目标句子的句向量与同一簇中所有句向量的余弦相似度；选择N个最大的余弦相似度，查找所述N个最大的余弦相似度对应的句子集合，N为正整数。

本申请实施例中，所述利用Sent2Vec模块获取目标句子的句向量，包括：

加载Word2Vec模型和TF值表，计算所述目标句子的句向量。

本申请实施例中，所述利用KMeans预测模块获取所述目标句子的句向量所属簇的标签，包括：

加载KMeans模型，计算所述目标句子的句向量所属簇的标签。

本申请实施例中，所述方法还包括：

利用Word2Vec模块加载句子集合训练所述Word2Vec模型。

本申请实施例中，所述方法还包括：

利用Sent2Vec模块加载句子集合提取词语的TF值，生成TF值表；加载所述Word2Vec模型和所述TF值表，使用所述句子集合训练Sent2Vec模型。

本申请实施例中，所述方法还包括：

利用KMeans训练模块加载所述Sent2Vec模型训练KMeans模型。

本申请实施例提供的近似语句推荐装置，包括：

Sent2Vec模块，用于获取目标句子的句向量；

KMeans预测模块，用于获取所述目标句子的句向量所属簇的标签；

相似度计算模块，用于加载与所述目标句子的句向量为同一簇的所有句向量，计算所述目标句子的句向量与同一簇中所有句向量的余弦相似度；选择N个最大的余弦相似度，查找所述N个最大的余弦相似度对应的句子集合，N为正整数。

本申请实施例中，所述Sent2Vec模块，用于：加载Word2Vec模型和TF值表，计算所述目标句子的句向量。

本申请实施例中，所述KMeans预测模块，用于：加载KMeans模型，计算所述目标句子的句向量所属簇的标签。

本申请实施例中，所述装置还包括：

Word2Vec模块，用于加载句子集合训练所述Word2Vec模型。

本申请实施例中，所述Sent2Vec模块，还用于加载句子集合提取词语的TF值，生成TF值表；加载所述Word2Vec模型和所述TF值表，使用所述句子集合训练Sent2Vec模型。

本申请实施例中，所述装置还包括：

KMeans训练模块，用于加载所述Sent2Vec模型训练KMeans模型。

采用本申请实施例的技术方案，构建了能进行大规模语料训练，并保证实时近似语句推荐的模型，进而通过该模型实现了对句子相似度的度量。其中，使用KMeans对Sent2Vec模型文件进行聚类，极大地减少相似度计算过程的耗时。

附图说明

图1为本申请实施例提供的近似语句推荐方法的流程示意图；

图2-1本申请实施例的近似语句推荐的总体流程图；

图2-2为图2-1中各个模块的具体处理流程；

图2-3为图2-1中左侧的具体流程图；

图2-4为图2-1中右侧的具体流程图；

图3为本申请实施例的近似语句推荐装置的结构组成示意图；

图4为本申请实施例提供的近似语句推荐设备的体系结构图；

图5为本申请实施例提供的关键词信息的处理流程图；

图6为本申请实施例提供的词向量模型文件的示意图；

图7为本申请实施例提供的句向量模型文件的示意图。

具体实施方式

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关概念进行说明。

依据所利用的特征信息，句子相似度计算可分为四类：基于关键词的计算，基于语义的计算，基于句法依存的计算和基于多特征融合的计算。依据所使用的特征映射空间，句子相似度计算可分为两类：基于向量空间模型的计算和基于词向量空间模型的计算。以下对各个计算方法进行说明。

1)基于关键词的计算

TF-IDF是基于句子浅层的关键词信息，它没有考虑词本身的语义信息和句子的句法信息，而仅考虑词在上下文中的统计特性即词频。

2)基于语义的计算

基于语义的计算分为基于语义词典的计算和基于语料库的计算。

基于语义词典的计算使用最短距离或编辑距离来度量词语间的语义距离，通过词语间的语义距离计算出词语间的语义相似度，进而计算出句子间的语义相似度。中文的语义词典有HowNet和同义词词林，英文的是WordNet。

基于语料库的计算如LSI，通过统计词语间的上下文概率分布来寻找词语间的语义相似度，进而求出句子间的语义相似度。它考虑词本身的语义信息，但忽略句子的句法信息(如词序)。

3)基于句法依存的计算

基于句法依存的计算是基于句子深层的依存关系，它使用句子的谓语中心词来度量其整体结构，先计算句子间整体结构的相似性，再计算句子间各主要成分的相似性。由于依存分析是计算密集型的，因此很难保证系统的实时性。

4)基于多特征融合的计算

基于多特征融合的计算，是通过遗传算法来计算出关键词，语义和句法依存这三个特征的最佳权重分配的。

5)基于向量空间模型的计算

词袋模型(BoW)将文档映射成一个高维稀疏矩阵，当考虑关键词的词频及其语义时，由于矩阵的奇异值分解是计算密集型和内存密集型的操作，因此很难保证对大规模语料的训练。

6)基于词向量空间模型的计算

词嵌入技术(Word2Vec)将文档中每个不同的词映射成一个低维连续向量，它综合考虑了词在上下文中的统计词频，词本身的语义以及句子的句法信息，但忽略了词的情感极性，因此适合于弱情感极性语料的训练。

基于词嵌入，可以计算句子的相似度，现有两种策略：1.词嵌入通过加权平均生成句嵌入，使用句子的句向量来计算句子的相似度。2.基于词移动距离，使用一个句子中每个词嵌入移动到另一个句子中对应词嵌入的最小累积距离来度量句子相似度，这种方法的时间复杂度很大。

词嵌入结合神经网络中Siamese-LSTM模型也可以计算句子的相似度，但这是监督学习，需要大量标记数据，而且这是分类模型，无法对句子相似度进行度量。

为此，本申请的目的是构建能进行大规模语料训练，并保证实时近似语句推荐的模型。

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

图1为本申请实施例提供的近似语句推荐方法的流程示意图，如图1所示，所述近似语句推荐方法包括以下步骤：

步骤101：利用Sent2Vec模块获取目标句子的句向量。

具体地，加载Word2Vec模型和TF值表，计算所述目标句子的句向量。

步骤102：利用KMeans预测模块获取所述目标句子的句向量所属簇的标签。

具体地，加载KMeans模型，计算所述目标句子的句向量所属簇的标签。

步骤103：利用相似度计算模块加载与所述目标句子的句向量为同一簇的所有句向量，计算所述目标句子的句向量与同一簇中所有句向量的余弦相似度；选择N个最大的余弦相似度，查找所述N个最大的余弦相似度对应的句子集合，N为正整数。

这里的N的取值可以灵活设置，例如N＝20。需要说明的是，上述方案属于预测过程，预测过程中所加载的模型通过以下方式训练：

1)利用Word2Vec模块加载句子集合训练所述Word2Vec模型。

2)利用Sent2Vec模块加载句子集合提取词语的TF值，生成TF值表；加载所述Word2Vec模型和所述TF值表，使用所述句子集合训练Sent2Vec模型。

3)利用KMeans训练模块加载所述Sent2Vec模型训练KMeans模型。

为便于理解本申请实施例的技术方案，以下对本申请实施例的技术进行详细说明。

图2-1本申请实施例的近似语句推荐的总体流程图，图2-2为图2-1中各个模块的具体处理流程，图2-3为图2-1中左侧的具体流程图，图2-4为图2-1中右侧的具体流程图，如图2-1、图2-2以及图2-3所示，包括以下三个阶段：

预处理阶段：

1、输入为分词过的文章集合，根据句号，问号和叹号将文章集合拆分成句子集合，输出为句子集合，句子集合分别保存到磁盘和MongoDB数据库。

训练阶段：

2、使用步骤1生成的句子集合训练Word2Vec词向量模型并保存词向量模型文件。词向量是用一个连续向量来表示一个词，词向量模型文件的格式是第一行是向量个数和向量维度，其他行是词及其向量表示，如图6所示。

3、使用步骤1生成的句子集合提取词语的TF(TermFrequency，词频)值，保存为TF表。

4、加载步骤2生成的Word2Vec词向量模型文件和步骤3生成的TF表，使用步骤1生成的句子集合训练Sent2Vec句向量模型，并分别保存句向量模型文件到磁盘和MongoDB数据库。句向量是用一个连续向量来表示一个句子，句向量模型文件在MongoDB数据库中是以键值对进行存储，如图7所示，第一个键值对的值是句子索引，第二个键值对的值是句子的向量表示。

5、加载步骤3生成的Sent2Vec句向量模型文件，对句向量进行KMeans聚类并保存KMeans模型文件。

预测阶段：

6、加载步骤2生成的Word2Vec词向量模型文件，对目标句子进行结巴分词并获得其句向量。

7、加载步骤4生成的KMeans模型文件，计算目标句子的句向量所属簇的标签。

8、从步骤2保存到MongoDB的句向量模型中加载与目标句子的句向量为同一簇的所有句向量。

9、计算目标句子的句向量与同一簇中所有句子的句向量的余弦相似度，得到Top20相似度。

10、从步骤1保存到MongoDB的句子集合中查找Top20相似度对应的句子集合。

图3为本申请实施例的近似语句推荐装置的结构组成示意图，如图3所示，所述装置包括：

Sent2Vec模块301，用于获取目标句子的句向量；

KMeans预测模块302，用于获取所述目标句子的句向量所属簇的标签；

相似度计算模块303，用于加载与所述目标句子的句向量为同一簇的所有句向量，计算所述目标句子的句向量与同一簇中所有句向量的余弦相似度；选择N个最大的余弦相似度，查找所述N个最大的余弦相似度对应的句子集合，N为正整数。

在一实施方式中，所述Sent2Vec模块301，用于：加载Word2Vec模型和TF值表，计算所述目标句子的句向量。

在一实施方式中，所述KMeans预测模块302，用于：加载KMeans模型，计算所述目标句子的句向量所属簇的标签。

在一实施方式中，所述装置还包括：

Word2Vec模块304，用于加载句子集合训练所述Word2Vec模型。

在一实施方式中，所述Sent2Vec模块301，还用于加载句子集合提取词语的TF值，生成TF值表；加载所述Word2Vec模型和所述TF值表，使用所述句子集合训练Sent2Vec模型。

在一实施方式中，所述装置还包括：

KMeans训练模块305，用于加载所述Sent2Vec模型训练KMeans模型。

本领域技术人员应当理解，图3所示的近似语句推荐装置中的各模块的实现功能可参照前述近似语句推荐方法的相关描述而理解。图3所示的近似语句推荐装置中的各模块的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

图4为本申请实施例提供的近似语句推荐设备的体系结构图，如图4所示，包括以下三个部分：

应用层

应用层对外提供满足HTTP请求的功能，用户可以通过指定的API接口，传入需要推荐近似语句的句子，而核心层推荐的近似语句也将通过HTTP请求返回。

核心层

作为该系统的核心，核心层分为训练和预测两个阶段。训练阶段依次通过Word2Vec模块,Sent2Vec模块和KMeans训练模块，并将Sent2Vec模型保存到数据层的MongoDB数据库。预测阶段接收应用层的HTTP请求，依次通过Sent2Vec模块，KMeans预测模块和相似度计算模块，最后推荐Top20近似语句。

数据层

作为该系统的基础，本方案采用MongoDB数据库来存储句子集合和Sent2Vec模型文件来保证系统的实时性。随着文章集合的增加，Word2Vec和KMeans两个模型的大小增长缓慢(模型大小分别为MB和KB级别)，而Sent2Vec模型的大小则急剧增长(线性增长至GB级别)，另外，近似语句最后是通过查找句子集合来获得的。

核心层模块

核心层分为训练和测试两个阶段，训练阶段会依次训练Word2Vec,Sent2Vec和KMeans三个模型，预测阶段则会使用Word2Vec，KMeans和Sent2Vec这三个模型来为输入语句推荐Top20近似语句。这三个模型的说明如下：

1)Word2Vec模型

词向量的表示分为离散表示和连续表示。离散表示就是one-hot表示，词出现的那个维度为1，其他维度都为0，这种表示容易陷入维度灾难，而且不能表达两个词之间的相似度。连续表示则把词映射到固定大小的维度上(如100维)，每个维度都是一个浮点数，这种表示能够表达两个词之间的相似度。

Word2Vec模型的训练模式分为CBOW与Skip-Gram。CBOW模型的输入是某一个特征词的上下文的词向量，而输出就是这个特征词的词向量。Skip-Gram模型的输入是某一个特征词的词向量，而输出是这个特征词的上下文的词向量。

Word2Vec模型的训练方法分为Hierarchical Softmax和Negative Sampling。Hierarchical Softmax使用霍夫曼树来代替神经网络，来提高模型的训练效率。而Negative Sampling则通过采样N个不同的中心词做负例，来加速训练模型。

本方案使用Gensim开源包中Word2Vec方法来训练词向量，其中训练模型为CBOW模型，训练方法为Negative Sampling，使用LineSentence来构建输入的句子集合，词向量维度为100，上下文窗口大小为5，最小词频为5。

2)Sent2Vec模型

Sent2Vec模型负责将句子集合转化为对应的句向量集合，便于使用余弦相似度来计算两个句子之间相似度。

Sent2Vec模型首先对词嵌入进行加权平均生成句嵌入，然后使用主成分分析找出句嵌入的主要成分，最后，句嵌入减去句嵌入在主要成分上的投影，这就可以删除与频率和句法有关的信息(即停用词)，它们和语义的联系不大，同时保留对语义贡献较大的信息(即关键词)。

参照图5，具体流程如下：

第一步，对词向量进行加权平均生成句向量，其中词向量的权重是TF的函数，即W＝a/(a+p(w))，其中a一般设置为0.001，而p(w)是词语在语料中出现的相对频率，即TF值。

第二步，对加权后得到的句向量进行主成分分析，找出句向量的主要成分。

第三步，句嵌入减去句嵌入在主要成分上的投影，这就删除和语义联系不大的停用词信息，并保留对语义贡献较大的关键词信息。

3)KMeans模型

为推荐Top20近似语句，需要计算目标句子的句向量与句子集合中所有句子的句向量的余弦相似度，并对相似度值进行降序排序。随着句子集合的增加，余弦相似度的计算成为影响计算效率和系统实时性的主要瓶颈。为加快计算效率来保证系统实时性，我们在训练阶段对Sent2Vec模型中句向量进行KMeans聚类分析，并将每个句向量所属的簇标签保存在KMeans模型中。

在本方案中使用scikit-learn开源包中MiniBatchKMeans方法来训练KMeans模型，MiniBatchKMeans算法是KMeans算法的变种，采用小批量的数据子集来减小计算时间，同时仍试图优化目标函数，其中小批量是指每次训练算法时所随机抽取的数据子集，采用小批量的数据子集来训练算法，大大减小了收敛时间，而且算法的收敛结果一般只略差于标准算法。

具体步骤如下：

第一步，在训练阶段，加载Sent2Vec模型文件，对其中句向量进行KMeans聚类，并将每个句向量所属的簇标签保存在KMeans模型中。

第二步，在预测阶段，一旦获得目标句子的句向量后，加载KMeans模型对目标句子的句向量进行计算，获得对应簇的标签。

第三步，从MongoDB数据库中加载Sent2Vec模型中，加载与目标句子的句向量属于同一簇的所有句子的句向量。

第四步，计算目标句子的句向量与同一簇中所有句子的句向量的余弦相似度，并按相似度降序排列。

第五步，根据Top20相似度，从MongoDB数据库存储的句子集合中查找对应的Top20句子。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种近似语句推荐方法，其特征在于，所述方法包括：

利用Sent2Vec模块获取目标句子的句向量；

2.根据权利要求1所述的方法，其特征在于，所述利用Sent2Vec模块获取目标句子的句向量，包括：

加载Word2Vec模型和TF值表，计算所述目标句子的句向量。

3.根据权利要求1所述的方法，其特征在于，所述利用KMeans预测模块获取所述目标句子的句向量所属簇的标签，包括：

加载KMeans模型，计算所述目标句子的句向量所属簇的标签。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

利用Word2Vec模块加载句子集合训练所述Word2Vec模型。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

利用KMeans训练模块加载所述Sent2Vec模型训练KMeans模型。

7.一种近似语句推荐装置，其特征在于，所述装置包括：

Sent2Vec模块，用于获取目标句子的句向量；

8.根据权利要求7所述的装置，其特征在于，所述Sent2Vec模块，用于：加载Word2Vec模型和TF值表，计算所述目标句子的句向量。

9.根据权利要求7所述的装置，其特征在于，所述KMeans预测模块，用于：加载KMeans模型，计算所述目标句子的句向量所属簇的标签。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

Word2Vec模块，用于加载句子集合训练所述Word2Vec模型。