CN107895000A

CN107895000A - 一种基于卷积神经网络的跨领域语义信息检索方法

Info

Publication number: CN107895000A
Application number: CN201711035417.1A
Authority: CN
Inventors: 黄青松; 王兆凯; 李帅彬; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-04-10
Anticipated expiration: 2037-10-30
Also published as: CN107895000B

Abstract

本发明涉及一种基于卷积神经网络的跨领域语义信息检索方法，属计算机自然语言处理领域。本发明通过词向量SVM进行短文本分类，降低无效检索域从而提高近似句的准确率，再将分类后的文本拼接成向量矩阵放入卷积神经网络，将卷积神经网络的最后一层用转换层进行近似句的检索计算。最终模型提高了近似语义检索的准确率。

Description

一种基于卷积神经网络的跨领域语义信息检索方法

技术领域

本发明涉及一种基于卷积神经网络的跨领域语义信息检索方法，属计算机自然语言处理领域。

背景技术

当前基于关键词检索的方式已被广泛认知，但命中率较低。命中率较低的原因包括基于搜索引擎的关键词检索需要大量语料，但许多场景下，小规模或中等规模的语料很难达到理想的效果，且Zhao(<Chinese Journal of Computers>,2005)提出关键词匹配计算方法将词语看成是孤立的元素，相互之间没有联系是不合理的。目前，Zhao(<全国第八届计算语言学联合学术会议>,2005)将句子相似度的研究方法可以归纳为：1)基于词特征的句子相似度计算、2)基于词义特征的句子相似度计算、3)基于句法分析特征的句子相似度计算。词特征方法进行句相似度计算一般依靠构建向量空间，但这类方法的明显缺陷是特征稀疏，用在稍大点的语料上效果不理想。为了解决特征稀疏问题，Wang(<arXiv.org>,2006)提出的基于词汇分解与组合的句子相似度计算，其将对比的句子进行向量化，对形成的句子特征矩阵进行分解，用于近似语句计算，但是此方法对环境的实时计算能力要求较高。词义特征的方法主要依赖外源语义词典，如You(<Computer Systems&Applications>,2013)提出的基于HowNet的信息量计算语义相似度算法，但是这类方法局限性太强，外源语义词典的完整性直接影响着模型的准确率。句法分析特征计算句子相似度的方法，如Li(<Journal of Computer Research and Development>,2013)提出的基于框架语义分析的汉语句子相似度计算，其主要利用依存关系提取核心词构建相似矩阵进行相似度计算，这类方法其实还是停留在浅层词义的分析上，进行相似度计算时忽略了句子中词与词之间的关系，在短文本分析中效果较不理想。

发明内容

本发明提供了一种基于卷积神经网络的跨领域语义信息检索方法，相比传统检索方式不仅仅依靠字面意思进行信息检索，而是能挖掘信息的潜在语义，达到提高相似信息的检索命中率。

本发明的技术方案是：一种基于卷积神经网络的跨领域语义信息检索方法，所述方法具体步骤如下：

Step1、首先对知识库中被检索的信息进行预处理，然后对处理后的信息进行句向量表示，其次利用LibSVM的SVM分类器对句向量进行分类训练，得到SVM分类模型，利用分类模型对用户检索信息进行分类，得到用户检索信息的类别；

Step2、将用户检索信息转换成句特征矩阵，根据Step1中确定的类别，使用对应的近似语义卷积神经网络检索模型进行处理，近似语义卷积神经网络检索模型转换层会将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘，根据点乘结果得到用户检索信息与被检索信息的相似度值C，根据相似度值由大到小排序，得到与用户检索信息相似的被检索信息列表；

Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值，筛选出最相似的p个待重排被检索信息，对p个待重排被检索信息的原始特征进行相似度C₁计算后再重排处理，得到重排后的p个推荐信息；

Step4、将Step3中生成的p个推荐信息提供给用户，记录用户的点击行为；当用户对信息满意度进行评分时，记录评分数值；

Step5、将Step4中获取的用户点击行为和评分数值用于下一次模型更新训练，以便更好地实现信息检索。

所述步骤Step1的具体步骤如下：

Step1.1、输入知识库中被检索的信息，对被检索的信息进行分词和过滤停用词处理，将过滤后的每个词映射成一个词向量，再将词向量相加形成被检索信息的句向量；

Step1.2、利用LibSVM的SVM分类器对步骤Step1.1中生成的被检索信息的句向量进行分类训练，得到SVM分类模型；

Step1.3、利用Step1.2中训练好的SVM分类模型对用户检索信息进行分类，得到用户检索信息所属类别。

所述步骤Step2的具体步骤如下：

Step2.1、将用户检索信息转换成句特征矩阵；

Step2.2、根据Step1.3中用户检索信息的类别，使用相应类别的近似语义卷积神经网络检索模型进行处理，得到用户检索信息的语义特征表示；

Step2.3、通过聚类方法处理，得到被检索信息的聚类特征；

Step2.4、近似语义卷积神经网络检索模型将Step2.2中用户检索信息的语义特征和step2.3中被检索信息的聚类特征通过转换层进行映射点乘，得到用户检索信息与被检索信息的语义相似度值，根据相似度值排序得到被检索信息列表。

所述步骤Step3的具体步骤如下：

Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值，筛选出最相似的p个待重排被检索信息；

Step3.2、将用户检索信息与Step3.1中p个待重排被检索信息的原始特征进行相似度C₁计算，根据计算结果优化重排，得到最终重排的p个推荐信息。

所述步骤Step4的具体步骤如下：将Step3.2中得到的推荐信息推送给用户，如果用户进行点击则表示用户意图和信息题目相关，将此行为记录到日志中，经过多次用户反馈，把用户点击次数较多信息和用户进行检索的信息进行归类，即用户检索信息和点击的推荐信息成对归类；当用户对信息满意度进行评分时，记录评分数值。

所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成；所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘，根据点乘结果得到用户检索信息与被检索信息的相似度值其中，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数；W_n表示被检索信息的句子中第n个词对应的词向量，S表示被检索信息的句子中所含词的总数，t_i表示第i个聚类中心的词向量，cos()表示余弦函数。

所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。

所述其中，β为调整系数，t_n表示用户检索信息的句子S₁与待重排被检索信息的句子S_j的原始特征的相似性，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示待重排被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数，S₁表示用户检索信息的句子，S_j表示待重排被检索信息的句子，W_k表示S₁中第k个词对应的词向量，W'_z表示S_j中第z个词对应的词向量，Len(S₁)表示S₁中词的个数。

本发明的有益效果是：

1、本发明利用gensim的word2vec模块进行词向量训练，由于词的向量是由词的邻近词计算出来的，所以向量里会隐含语义信息，适合用于语义的信息提取。此外，本发明采用快速搜索与寻找密度峰值的聚类方法处理大数据，其利用局部密度和高密度最小距离作为聚类标准，相比传统聚类速度更快且效果较好。

2、在前期数据准备过程中，将数据进行分类。因为不同领域的相同词，特征倾向有很大的不同，所以对句子进行近似计算前进行文本分类，会减少无效检索域。传统的SVM将词作为独立维度，如果选用的特征词过少，难以表达特征少且特征空间高的短文本特征，会使分类性能降低；如果选用的特征词过多，会造成整体维度较高，使得特征极其稀疏，最终导致短文本分类效果不尽人意。所以，本发明选用词向量为基础生成的句向量作为SVM的训练特征数据，相比传统以字为特征单元有更强的特征表达能力，且分类准确率有明显提高，同时克服了SVM用于短文本分类时特征稀疏的问题。

3、本发明基于卷积神经网络进行跨领域的语义信息检索模型，其将信息的两种特征进行自映射无监督训练，不像其它模型依靠人工筛选相似句子进行训练。模型在训练过程中会根据句子词向量片段提取显著特征，这些特征蕴含语义信息，利用这些语义信息进行检索，相比关键词匹配有更高的命中率。在中小型信息库中进行检索其优势尤为明显。

综上，这种基于卷积神经网络的跨领域语义信息检索方法通过词向量SVM进行短文本分类，降低无效检索域从而提高近似句的准确率，再将分类后的文本拼接成向量矩阵放入卷积神经网络，将卷积神经网络的最后一层用转换层进行近似句的检索计算。最终模型提高了近似语义检索的准确率。

附图说明

图1为语义检索模型的结构图；

图2为本发明中部分数据聚类特征生成示意图；

图3为本发明中改进的词向量SVM分类准确率对比图；

图4为本发明中未分类模型-已分类模型的性能对比图。

具体实施方式

下面结合附图和实施例，对本发明作进一步说明，但本发明的内容并不限于所述范围。

实施例1：如图1-4所示，一种基于卷积神经网络的跨领域语义信息检索方法，所述方法具体步骤如下：

进一步地，可以设置所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成；所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘，根据点乘结果得到用户检索信息与被检索信息的相似度值其中，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数；W_n表示被检索信息的句子中第n个词对应的词向量，S表示被检索信息的句子中所含词的总数，t_i表示第i个聚类中心的词向量，cos()表示余弦函数。

进一步地，可以设置所述其中，β为调整系数，t_n表示用户检索信息的句子S₁与待重排被检索信息的句子S_j的原始特征的相似性，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示待重排被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数，S₁表示用户检索信息的句子，S_j表示待重排被检索信息的句子，W_k表示S₁中第k个词对应的词向量，W'_z表示S_j中第z个词对应的词向量，Len(S₁)表示S₁中词的个数。

实施例2：如图1-4所示，一种基于卷积神经网络的跨领域语义信息检索方法，所述方法具体步骤如下：

进一步地，可以设置所述步骤Step1的具体步骤如下：

进一步地，可以设置所述步骤Step2的具体步骤如下：

Step2.1、将用户检索信息转换成句特征矩阵；

Step2.3、通过聚类方法处理，得到被检索信息的聚类特征；

进一步地，可以设置所述步骤Step3的具体步骤如下：

进一步地，可以设置所述步骤Step4的具体步骤如下：将Step3.2中得到的推荐信息推送给用户，如果用户进行点击则表示用户意图和信息题目相关，将此行为记录到日志中，经过多次用户反馈，把用户点击次数较多信息和用户进行检索的信息进行归类，即用户检索信息和点击的推荐信息成对归类；当用户对信息满意度进行评分时，记录评分数值。

进一步地，可以设置所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。

实施例3：如图1-4所示，一种基于卷积神经网络的跨领域语义信息检索方法，所述方法具体步骤如下：

所述步骤Step1的具体步骤为：

本发明考虑到将文本分为多个字符组成的字符串形式，会造成原文本中字、词、段落之间语言学信息的丢失。所以信息进行预处理工作，其中包括中文分词、去停用词。方便后续工作的进行。将词映射成词向量，最后将被检索句子中所有词的词向量相加得到句向量。

利用gensim的word2vec模块进行词向量训练。不同的信息具有不同的特征，为了检索的方便，将知识库中被检索的信息进行分类，有助于缩小检索范围，提高检索效率。预先定义了12种类别(企业管理，社会民生，健康生活，文化艺术，电脑网络，行政地区，医疗卫生，经济金融，法律法规，科学教育，体育运动和娱乐休闲)。

对知识库中的语料根据常用类别分为12类，分别对每类中的句子利用句子中词对应的词向量累加生成句子的句向量。使用的词向量由word2vec工具中的CBOW模型进行训练生成。在实验中，我们利用每类1000条句子作为训练数据对模型进行分类训练。使用每类100条句子作为测试数据进行类别判断，图3为对词向量SVM分类和其他模型的测试结果。

分类对于近似检索可以缩小信息的无效检索域，最终达到提到准确率的目的。为了对比分类对模型的影响，拿未分类和经过四分类处理模型进行测试，测试类别为：财经，体育，娱乐和科技。将四类分别取200，500，800和1000条作为分类后检索模型的训练数据，即被检索数据，每个类别构建独立的近似语义卷积神经网络模型。从四类中随机抽取200，500，800和1000条作为未分类处理模型的训练数据，构建一个混合类别的卷积神经网络模型，实验结果如下图4所示。可以看出两种模型Top5准确率都会随着数据量的增加而下降，但经过分类处理的模型的下降速率相对更小。

所述步骤Step2的具体步骤为：

Step2.1、将用户检索信息转换成句特征矩阵；

为了得到用户检索信息的特征表示，将用户检索信息中的词的词向量转换成矩阵的形式，其中矩阵行数与句子包含的词数相同，列数是每个词对应的词向量的维度，从而得到用户检索信息的句特征矩阵，如图2所示。

对用户检索信息使用相应类别的卷积神经网络进行卷积、池化处理和隐藏层处理得到用户检索信息的语义信息，使得用户检索信息语义丰富的同时，利于后续计算。

Step2.3、通过聚类方法处理，得到被检索信息的聚类特征；所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。

为了表示被检索信息，将语料首先词聚类，然后根据被检索信息句子中词与聚类的中心词的相似度值，得到词的倾向性，最后得到被检索信息句子的聚类特征表示。

本步骤中具体：根据用户检索信息类别加载对应类别的近似语义检索卷积神经网络模型。模型由卷积层，池化层，隐藏层和转换层组成。卷积层输入为一个特征矩阵，每行都表示一个词对应的词向量。卷积层的卷积窗口宽度为词向量的固定长度，高度为h，模型中有h为2卷积窗口，h为3卷积窗口，h为4层卷积窗口和h为5层卷积窗口各400个。转换层的神经元个数为对词库信息进行词聚类后的聚类个数。训练阶段转换层会将相同句子的隐藏层特征和聚类特征进行点乘训练。模型使用时，将用户检索信息的抽象特征与知识库中被检索信息的聚类特征进行点乘计算，其中被检索信息与用户检索信息类别相同，根据点乘值，得到被检索信息与用户检索信息相似度值。最后，根据相似度值排序得到被检索信息列表。

Step3、根据Step2中被检索信息列表中与用户检索信息的相似度值，筛选出最相似的Top10个信息，对Top10信息的原始特征进行优化重排处理，得到重排后的Top10个推荐信息列表。

所述步骤Step3的具体步骤如下：

Step3.1、根据Step2.4中被检索信息列表中被检索信息与用户检索信息的相似度值，筛选出最相似的Top10个被检索信息(待重排Top10个信息)；

Step3.2、将用户检索信息与Step3.1中Top10个被检索信息(待重排Top10个信息)的原始特征进行相似度计算，根据计算结果优化重排，得到最终重排的Top10个推荐信息；

本步骤中具体：Step3.1中Top10个被检索信息是根据聚类特征相似度值得到，为了更好的展示，发明计算用户检索信息与Top10个被检索信息(待重排Top10个信息)的原始特征相似度，据此重新排序推荐给用户。就是将Top10个被检索信息进行分词，然后转化为词向量形式，将用户检索信息和待重排的被检索信息进行相似度计算，得到相似度值C₁。计算公式如下：

所述其中，β为调整系数，实验取0.01；t_n表示用户检索信息的句子S₁与待重排被检索信息的句子S_j的原始特征的相似性，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示待重排被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数，S₁表示用户检索信息的句子，S_j表示待重排被检索信息的句子，W_k表示S₁中第k个词对应的词向量，W'_z表示S_j中第z个词对应的词向量，Len(S₁)表示S₁中词的个数。

为了比较近似语义卷积神经网络检索模型(CNNModel)与其它常用近似计算方法，这里从Top1，Top5，Top10这三个指标的准确率进行对比，用1000条短文本作为匹配目标语句，结果如表1所示。

表1

由表1可以明显看出，近似语义卷积神经网络比n-gram overlap，同义词扩展和编辑距离有更高的准确率，这是由于n-gram overlap和编辑距离过度依赖字面匹配，同义词扩展则忽略了邻近词之间的关系，而近似语义卷积神经网络模型利用词向量和卷积神经网络特性弥补了这两方面的不足。

对Top10被检索检索信息进行重排序推荐结果对比：

未重排序前对1000条问答句子进行测试，准确率如下所示。

表2

	Top1	Top5	Top10
				准确率	0.70	0.80	0.89

从上表可知模型已发现89％测试数据的近似语句，但Top1的准确率相对较低。重排计算后准确率如表3所示。

表3

	Top1	Top5	Top10
				准确率	0.81	0.85	0.90

Step4、将Step3中生成的Top10推荐信息列表提供给用户，记录用户的点击行为。当用户对信息满意度进行评分时，记录评分数值。

所述步骤Step4的具体步骤如下：

Step4.1、将Step3.2种得到的推荐信息推送给用户，如果用户进行点击则表示用户意图和信息题目相关，将此行为记录到日志中。经过多次用户反馈，把用户点击次数较多信息和用户检索的信息进行归类，即用户检索信息和点击的推荐信息成对归类；当用户对信息满意度进行评分时，记录评分数值。

本发明中，基于卷积神经网路的近似语义计算模型由卷积层，池化层，隐藏层和转化层组成，整体结构如图1所示：

此模型的建立基于两个假设：

(1)与每句句子相似度最大的句子是句子本身。

(2)两句子语义相似则其句子片段必定有多处语义接近。

基于以上假设，本文提出了将相同句子的不同表达特征使用卷积神经网络模型进行映射训练，从而达到近似句计算的目的。

卷积层

卷积层将预处理后用户检索信息转化成的句特征矩阵进行卷积，为了使句特征矩阵中的不同特征被尽可能地被提取，利用不同的卷积窗口卷积出不同的卷积向量。图1中有三个卷积窗口，由于每个卷积窗口是按行卷积，所以每个窗口卷积出的特征个数为：

L＝H-h+1

其中，H为特征矩阵高度，h为卷积窗口高度。每次进行卷积的卷积值为：

其中，表示第L个卷积窗口生成的第q个卷积值，W^L表示第L个卷积窗口的卷积系数，b^L表示第L个卷积窗口的卷积偏置值。实验模型中，设定卷积层由h为2卷积窗口，h为3卷积窗口，h为4层卷积窗口和h为5层卷积窗口各400个组成。

池化层

从卷积层获得的卷积向量表示的是不同卷积窗口中的特征，为了表示句特征矩阵在卷积窗口中的特征强弱，需要使用池化层来过滤，一般选用最大值的过滤方式。最终r个卷积窗口生成一个r维特征向量。对文本特征进行池化的好处在于最终特征的输出个数不会随输入句子的长度变化而变化。同时池化处理在不损失显著特征的前提下减少输出结果的维度，减少模型计算量。

转化层

作为模型的最后一层，也是映射卷积神经网络最重要的一层。其目的是把经过池化层和隐藏层生成的句子特征进行映射，映射到新的特征空间上。转换层的每个节点表示词库经过语义聚类后的类别，即转换层神经元个数为词聚类的类别个数。隐藏层输出的系数作为句子中词所在类别的修正系数，利用句子级别的特征弥补词级别特征的不足。近似值C计算方式如下：

其中，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数；W_n表示被检索信息的句子中第n个词对应的词向量，S表示被检索信息的句子中所含词的总数，t_i表示第i个聚类中心的词向量，cos()表示余弦函数。

模型初始训练时将同一句子抽象特征和聚类特征自映射。而更新训练时，利用用户反馈记录生成的归类信息作为训练语料进行模型训练。这些语料包含多个句集合，训练时将一句子和其所在的句集合抽象特征映射到这句子聚类特征上。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述方法具体步骤如下：

2.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述步骤Step1的具体步骤如下：

3.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.1、将用户检索信息转换成句特征矩阵；

Step2.3、通过聚类方法处理，得到被检索信息的聚类特征；

4.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述步骤Step3的具体步骤如下：

5.根据权利要求1所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述步骤Step4的具体步骤如下：将Step3.2中得到的推荐信息推送给用户，如果用户进行点击则表示用户意图和信息题目相关，将此行为记录到日志中，经过多次用户反馈，把用户点击次数较多信息和用户进行检索的信息进行归类，即用户检索信息和点击的推荐信息成对归类；当用户对信息满意度进行评分时，记录评分数值。

6.根据权利要求1或3所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述近似语义卷积神经网络检索模型由句卷积层、池化层、隐藏层和转化层组成；所述转化层将用户检索信息泛化后的特征和被检索信息的聚类特征进行映射点乘，根据点乘结果得到用户检索信息与被检索信息的相似度值其中，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数；W_n表示被检索信息的句子中第n个词对应的词向量，S表示被检索信息的句子中所含词的总数，t_i表示第i个聚类中心的词向量，cos()表示余弦函数。

7.根据权利要求3所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述聚类方法为采用快速搜索与寻找密度峰值的聚类方法。

8.根据权利要求1或4所述的基于卷积神经网络的跨领域语义信息检索方法，其特征在于：所述其中，β为调整系数，t_n表示用户检索信息的句子S₁与待重排被检索信息的句子S_j的原始特征的相似性，O_i表示隐藏层第i个输出系数，且0≤O_i≤1，m_i表示待重排被检索信息的句子在聚类特征上的第i个系数，t表示聚类特征的个数，S₁表示用户检索信息的句子，S_j表示待重排被检索信息的句子，W_k表示S₁中第k个词对应的词向量，W'_z表示S_j中第z个词对应的词向量，Len(S₁)表示S₁中词的个数。