CN109697288A

CN109697288A - 一种基于深度学习的实例对齐方法

Info

Publication number: CN109697288A
Application number: CN201811589849.1A
Authority: CN
Inventors: 张春霞; 郭钰; 罗妹秋; 刘东磊; 牛振东
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-04-30
Anticipated expiration: 2038-12-25
Also published as: CN109697288B

Abstract

本发明公开了一种基于深度学习的实例对齐方法，属于信息融合及Web挖掘技术领域。本发明包括如下步骤：构建实例语料集；构建实例对集合；对实例对集合进行预处理；基于段落向量模型Doc2vec和词向量模型Word2vec生成实例对的特征向量；基于训练集实例对训练双向长短期记忆‑卷积神经网络模型；利用经过训练的双向长短期记忆‑卷积神经网络模型对测试集实例对进行实例对齐判别，输出实例对齐结果。本发明将实例对齐问题转换为分类问题，通过双向长短期记忆‑卷积神经网络模型判别实例对齐，提高了实例对齐的识别性能，在信息检索、问答系统、意见挖掘等领域具有广阔的应用前景。

Description

一种基于深度学习的实例对齐方法

技术领域

本发明涉及一种基于深度学习的实例对齐方法，属于信息融合和Web挖掘技术领域。

背景技术

本体对齐也称本体映射。本体对齐是指识别不同本体的概念、实例、属性的等价关系。实例对齐是本体对齐的重要研究内容，它是指判断不同数据源或本体中的实体是否指称现实世界中的相同事物。

本体对齐技术包括基于语言学的本体对齐方法、基于结构的本体对齐方法、基于推理的对齐方法，以及基于机器学习的本体对齐方法。

基于语言学的本体对齐方法是指根据自然语言处理技术、知识词典来计算本体元素的相似性。基于语言学的本体对齐方法可分为基于字符串的本体对齐方法、基于自然语言处理技术的本体对齐方法、基于知识的本体对齐方法。

基于结构的本体对齐技术是指根据本体结构信息构建本体元素的对应关系。基于推理的本体对齐方法是指使用可满足性求解器来解决本体对齐问题。基于机器学习的本体对齐方法是指利用监督式机器学习或非监督式机器学习方法来判断本体元素的对齐关系。

词向量模型Word2vec是一种构建词向量的神经网络模型。词向量模型Word2vec是基于词语的上下文来生成每个词语的向量表示。文档向量模型Doc2vec是基于词向量模型改进的神经网络模型。文档向量模型Doc2vec能够将一段句子或文档表示为向量。

卷积神经网络是一种前馈神经网络，它主要由输入层、卷积层、池化层、全连接层组成。卷积层用于特征提取，池化层用于降低数据维度，全连接层用于分类。长短期记忆模型是一种用于解决长期依赖问题的神经网络模型。长短期记忆模型是由若干神经网络模块构成的链式结构。在神经网络模块中，长短期记忆模型通过输入门、遗忘门和输出门来实现信息的遗忘和记忆功能。

现有的本体对齐方法包括基于语言学的方法、基于结构的方法、基于推理的方法，以及基于机器学习的方法。实例对齐是本体对齐领域的重要研究问题。目前采用深度学习技术进行实例对齐的研究工作较少。

发明内容

本发明的目的在于针对现有基于深度学习的实例对齐方法存在对齐性能较低的技术缺陷，提出了一种基于深度学习的实例对齐方法。

所述实例对齐是指对于不同数据源的实例词条，判别哪些实例词条描述同一客观事物。

所述深度学习的实例对齐方法，包括如下内容：其一，基于段落向量模型Doc2vec和词向量模型Word2vec来构建文本表示向量，通过段落向量模型Doc2vec模型生成段落层面的文本特征，通过词向量模型Word2vec模型生成文本高频词特征；其二，通过双向长短期记忆-卷积神经网络模型进行不同实例词条的对齐；双向长短期记忆模型(BidirectionalLong-term Short-term Memory Model，简称BiLSTM)能够保留过去和未来的上下文的时序特征；卷积神经网络模型(Convolutional Neural Network，简称CNN)能够选择特征和具有良好的数据泛化能力，双向长短期记忆模型和卷积神经网络模型的融合能够增强语义捕获能力。

本发明的目的是通过以下技术方案实现的。

一种基于深度学习的实例对齐方法，包括如下步骤：

步骤1：由语料采集模块构建实例语料集，具体为：从多个百科网站采集实例词条文件，并将其保存到计算机；

步骤2：由实例对构建模块构建实例对集合，具体为：从百科网站E_i和E_j采集实例词条文件，构建实例对(e_i,e_j)，所有的实例对组成了实例对集合；

其中，e_i是来自百科网站E_i的实例词条，e_j是来自百科网站E_j的实例词条，i,j为整数；

步骤3：由实例对预处理模块对实例对集合进行预处理；

其中，实例对集合预处理包括数据清洗和中文分词；数据清洗是指过滤掉实例词条中的符号和停用词；符号是指除了中文汉字、字母和阿拉伯数字以外的符号，包括中文标点符号、英文标点符号、括号、引号、星号(*)、井号(#)。停用词是指没有表示实际意义的词语，例如，连词“但是”、介词“在”、感叹词“啊”。

中文分词是指采用分词工具对实例词条进行分词。对于实例对(e_i,e_j)，经预处理后，将该实例对表示为：(w_i1,w_i2,…,w_ip,w_j1,w_j2,….,w_jq)，其中w_i1,w_i2,…,w_ip为实例词条e_i中的词语，w_j1,w_j2,….,w_jq为实例词条e_j中的词语，p,q为整数；

步骤4：由特征向量生成模块生成训练集实例对的特征向量；

基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量，该特征向量由实例对的段落向量和实例对的高频词向量构成；

步骤4.1：基于段落向量模型Doc2vec生成训练集实例对的段落向量；

对于任一实例对，采用段落向量模型Doc2vec生成实例对的段落向量。将一个实例对看做一个段落进行向量训练。对于实例对(e_i,e_j)，设生成的段落向量表示为V_ij，V_ij＝(y₁,y₂,…,y_m)，m为整数，y₁,y₂,…,y_m为实数；

步骤4.2：基于词向量模型Word2vec生成训练集实例对的高频词向量；

对任一实例对，首先，计算实例对包含的词语的频率，并按照词语频率的非升序方式对词语进行排列。然后，提取排列在前面的k个词语。最后，基于词向量模型Word2vec生成k个词语的d维向量，进一步构建实例对的高频词向量。

对于实例对(e_i,e_j)，该实例对的高频词向量U_ij表示为：

U_ij＝(x₁₁,x₁₂,…,x_1d,x₂₁,x₂₂,…,x_2d,…,x_k1,x_k2,…,x_kd)

其中，(x_i1,x_i2,…,x_id)为第i个词语的d维向量，x_ij为实数，1≤i≤k，1≤j≤d。

根据实例对的段落向量和实例对的高频词向量来构建实例对的特征向量。对于实例对(e_i,e_j)，该实例对的特征向量W_ij为其段落向量V_ij和其高频词向量U_ij的拼接，即：

W_ij＝V_ij+U_ij，其中“+”表示向量拼接；

步骤5：基于训练集实例对，由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型；

双向长短期记忆-卷积神经网络模型的输入是特征向量。双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层。通过隐藏层捕捉序列特征，通过卷积层的卷积操作提取局部特征，通过池化层的最大池化操作来保留显著特征，通过全连接层输出实例对齐结果。

双向长短期记忆模型不仅能够保持特征的时序语义信息，而且能够捕获文本的上下文信息。卷积神经网络能够捕捉局部相关性，进行局部感知、权值共享，降低噪声。

步骤6：实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行实例对齐判别，输出实例对齐结果。

步骤6.1，构建测试集实例对的特征向量；

对于测试集实例对，如同步骤4基于段落向量模型Doc2vec和词向量模型Word2vec生成测试集实例对的特征向量；

步骤6.2：利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行对齐判别；

通过双向长短期记忆-卷积神经网络模型的全连接层，对测试集实例对进行两个类别的分类判别，两个类别包括实例对齐和实例不对齐，输出实例对对齐结果。

至此，就完成了本方法的全部过程。

基于上述方法构建的一种基于深度学习的实例对齐判别系统，包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块、实例对齐判别模块。语料采集模块与实例对构建模块相连。实例对构建模块与实例对预处理模块相连。实例对预处理模块与特征向量生成模块相连。特征向量生成模块与深度学习模型训练模块相连。深度学习模型训练模块与实例对齐判别模块相连；

所述语料采集模块用于构建实例语料集；

所述实例对构建模块用于对所述语料采集模块构建的实例语料集来构建实例对集合；

所述实例对预处理模块用于对所述实例对构建模块构建的实例对集合进行预处理；

所述特征向量生成模块用于对实例对预处理模块处理的训练集实例对来生成训练集实例对的特征向量；

所述深度学习模型训练模块用于对所述特征向量生成模块生成的训练集实例对的特征向量来训练双向长短期记忆-卷积神经网络模型；

所述实例对齐判别模块对用于对所述深度学习模型训练模块训练的双向长短期记忆-卷积神经网络模型进行测试集实例对的实例对齐判别，输出实例对齐结果。

有益效果

一种基于深度学习的实例对齐方法，与现有本体对齐方法以基于语言学的方法、基于结构的方法、基于推理的方法，以及基于机器学习的方法相比，具有如下有益效果：

1.本发明的实例对齐方法具有开放性，实例词条来自百科网站，不受限于实例词条的领域和主题；

2.本发明基于段落向量模型Doc2vec和词向量模型Word2vec来生成两种不同粒度的文本表示向量，进一步融合为文本表示向量；通过段落向量模型Doc2vec生成段落向量，通过词向量模型Word2vec生成高频词向量，进一步将段落向量和高频词向量融合为文本表示向量；段落向量能够保留段落层面的语义信息，高频词向量能够增强文本的主题信息；这种文本表示向量的构建方法不需要人工构建文本特征，以一种自动方式实现对文本的语义建模，提高了实例对齐方法的灵活性；

3.本发明采用的基于双向长短期记忆-卷积神经网络模型的实例对齐方法中，一方面，双向长短期记忆模型能够保留过去和未来的时序上下文信息；另一方面，卷积神经网络模型具有良好的数据泛化能力，双向长短期记忆模型和卷积神经网络模型的融合能够刻画文本的隐含语义信息；因此，该实例对齐方法提高了实例对齐的判别性能；

4.本发明所述方法能够提高实例对齐的性能，在信息检索、问答系统、意见挖掘等领域具有广阔的应用前景。

附图说明

图1为本发明实施例一种实例对齐判别的流程示意图；

图2为本发明实施例一种实例对齐判别系统的组成结构示意图。

具体实施方式

下面结合实施例对本发明方法的优选实施方式进行详细说明。

实施例

本实施例叙述了采用本发明所述的一种基于深度学习的实例对齐判别方法的流程，如图1所示。

从图1可以看出，具体包括如下步骤：

步骤1：由语料采集模块构建实例语料集；

从多个百科网站采集实例词条文件，并将其保存到计算机；例如，百科网站可以是百度百科网站、互动百科网站、维基百科网站；

步骤2：由实例对构建模块构建实例对集合；

设从百科网站E_i和E_j采集实例词条文件，构建实例对(e_i,e_j)，其中e_i是来自百科网站E_i的实例词条，e_j是来自百科网站E_j的实例词条；

例如，对于采集的百度百科网站词条集合E_b、互动百科网站词条集合E_h、维基百科网站词条集合E_w，构建实例对(e_i,e_j)，(e_i,e_k)，(e_j,e_k)。其中，e_i是来自百度百科网站的实例词条集合E_b，e_j是来自互动百科网站的实例词条集合E_h，e_k是来自维基百科网站的实例词条集合E_w，i,j,k为整数。对于来自百度百科网站的实例词条“斯德哥尔摩_b”与来自互动百科网站的实例词条“斯德哥尔摩_h”，构建实例对(斯德哥尔摩_b，斯德哥尔摩_h)，这两个实例词条指向同一客观事物，构成对齐关系。对于来自百度百科网站的实例词条“苹果_b”与来自互动百科网站的实例词条“苹果_h”，构建实例对(苹果_b，苹果_h)，“苹果_b”是指蔷薇科苹果属果实，“苹果_h”是指公司，这两个实例词条指向不同客观事物，不构成对齐关系。

步骤3：由实例对预处理模块对实例对集合进行预处理；

实例对集合预处理包括数据清洗和中文分词。数据清洗是指过滤掉实例词条中的符号和停用词。符号是指除了中文汉字、字母和阿拉伯数字以外的符号，包括中文标点符号、英文标点符号、括号、引号、星号(*)、井号(#)。停用词是指没有表示实际意义的词语，例如，连词“但是”、介词“在”、感叹词“啊”。

中文分词是指采用分词工具对实例词条进行分词。本实施例采用Jieba分词工具进行分词。对于实例对(e_i,e_j)，经预处理后，将该实例对表示为：(w_i1,w_i2,…,w_ip,w_j1,w_j2,….,w_jq)，其中w_i1,w_i2,…,w_ip为实例词条e_i中的词语，w_j1,w_j2,….,w_jq为实例词条e_j中的词语，p,q为整数；

步骤4：由特征向量生成模块生成训练集实例对的特征向量；

基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量，该特征向量由实例对的段落向量和实例对的高频词向量构成。

例如，一实例对的50维段落向量为：

(0.8776458,-0.08583971,0.51683015,-0.7163322,0.6889271,0.4393551,-0.8924358,-0.17663553,-0.17723355,0.6971458,-.07159367,-.0010829,0.03765607,0.15656911,0.66449714,0.5947003,0.06735937,-.64578694,-.07207327,0.38739118,-.34428546,1.3648946,0.01405714,0.13922204,0.8339424,-0.16757068,-0.18972449,-.1419887,0.2581704,0.21455202,-0.665458,0.5563938,0.08304888,-0.33694595,0.03604816,-0.02815954,-0.24967998,0.01980442,0.71370316,-0.9094115,-0.38368478,-0.29982486,0.43883863,-0.11248431,-0.6596637,1.2798346,-0.5344551,0.59593713,0.19075109,0.4296212)。

对于实例对(e_i,e_j)，该实例对的高频词向量U_ij表示为：

例如：一实例对的高频词向量为：

(0.40692407,-1.4222343,1.3663188,1.0949209,0.35140678,1.493906,-0.36583182,-0.2124255,-0.44481152,0.79690564,0.15333992,-1.8623912,1.1483903,1.8237,0.6760602,2.0964797,0.56734097,-0.25807074,-0.17868093,1.6521981,3.5204954,-5.1852007,0.5040737,-1.9438875,1.1702276,3.2616816,-2.8691363,-2.440555,1.9423966,3.8161159,0.04169573,-0.6256945,0.3850351,0.15866673,0.41135004,0.6789893,-0.47155154,-0.3643711,-0.18702565,0.34810296,5.4573073,6.064143,8.541241,1.1249971,3.4528527,7.988612,2.4507773,-3.0371041,-1.4498938,-0.52321756)。

W_ij＝V_ij+U_ij，其中“+”表示向量拼接；

步骤6：实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型模型对测试集实例对进行实例对齐判别，输出实例对齐结果。

步骤6.1，构建测试集实例对的特征向量；

至此，从步骤1到步骤6，完成了一种基于深度学习的实例对齐方法。

基于上述方法构建的一种基于深度学习的实例对齐判别系统，如图2所示，包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块、实例对齐判别模块。语料采集模块与实例对构建模块相连。实例对构建模块与实例对预处理模块相连。实例对预处理模块与特征向量生成模块相连。特征向量生成模块与深度学习模型训练模块相连。深度学习模型训练模块与实例对齐判别模块相连；

所述语料采集模块用于构建实例语料集；

为说明本发明的实例对齐判别效果，本实验是在同等条件下，以相同的训练集和测试集分别采用两种方法进行比较。第一种方法是基于支持向量机的实例对齐判别，第二种方法是本发明的基于深度学习的实例对齐判别方法。采用的评测指标为准确率(Accuracy)，计算公式为：

其中，N₁为被正确判别的实例对是否对齐的数量，N₂为所有判别的实例对的数量。

实例对判别结果为：已有技术的基于支持向量机的实例对判别方法的准确率为92.59％，采用本发明方法的准确率为99.92％，通过实验表明了本发明提出的基于深度学习的实例对齐判别方法的有效性。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于深度学习的实例对齐方法，所依托的一种基于深度学习的实例对齐判别系统，其特征在于：包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块以及实例对齐判别模块；语料采集模块与实例对构建模块相连；实例对构建模块与实例对预处理模块相连；实例对预处理模块与特征向量生成模块相连；特征向量生成模块与深度学习模型训练模块相连；深度学习模型训练模块与实例对齐判别模块相连，所述实例对齐方法，其特征在于：包括如下步骤：

步骤1：由语料采集模块构建实例语料集；

步骤2：由实例对构建模块构建实例对集合；

步骤3：由实例对预处理模块对实例对集合进行预处理；

其中，实例对集合预处理包括数据清洗和中文分词；数据清洗是指过滤掉实例词条中的符号和停用词；符号是指除了中文汉字、字母和阿拉伯数字以外的符号，包括中文标点符号、英文标点符号、括号、引号、星号*和井号#；停用词是指没有表示实际意义的词语；

中文分词是指采用分词工具对实例词条进行分词；

步骤4：由特征向量生成模块生成训练集实例对的特征向量，具体为：

基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量；

其中，特征向量由实例对的段落向量和实例对的高频词向量构成；

其中，双向长短期记忆-卷积神经网络模型的输入是特征向量；双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层；通过隐藏层捕捉序列特征，通过卷积层的卷积操作提取局部特征，通过池化层的最大池化操作来保留显著特征，通过全连接层输出实例对齐结果；

双向长短期记忆模型不仅能够保持特征的时序语义信息，而且能够捕获文本的上下文信息；卷积神经网络能够捕捉局部相关性，进行局部感知、权值共享，降低噪声；

2.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：步骤1，具体为：从多个百科网站采集实例词条文件，构建实例语料集，并将实例语料集保存到计算机。

3.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：步骤2，具体为：从百科网站E_i和E_j采集实例词条文件，构建实例对(e_i,e_j)，所有的实例对组成了实例对集合；

其中，e_i是来自百科网站E_i的实例词条，e_j是来自百科网站E_j的实例词条，i,j为整数。

4.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：步骤3中，停用词主要包括连词“但是”、介词“在”以及感叹词“啊”；

步骤3中对实例对(e_i,e_j)，经预处理后，将该实例对表示为：(w_i1,w_i2,…,w_ip,w_j1,w_j2,….,w_jq)，其中w_i1,w_i2,…,w_ip为实例词条e_i中的词语，w_j1,w_j2,….,w_jq为实例词条e_j中的词语，p,q为整数。

5.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：

步骤4，具体包括如下子步骤：

对于任一实例对，采用段落向量模型Doc2vec生成实例对的段落向量，即将一个实例对看作一个段落进行向量训练；对于实例对(e_i,e_j)，设生成的段落向量表示为V_ij，V_ij＝(y₁,y₂,…,y_m)，m为整数，y₁,y₂,…,y_m为实数；

对任一实例对，首先，计算实例对包含的词语的频率，并按照词语频率的非升序方式对词语进行排列；然后，提取排列在前面的k个词语；最后，基于词向量模型Word2vec生成k个词语的d维向量，进一步构建实例对的高频词向量；

对于实例对(e_i,e_j)，该实例对的高频词向量U_ij表示为：

U_ij＝(x₁₁,x₁₂,…,x_1d,x₂₁,x₂₂,…,x_2d,…,x_k1,x_k2,…,x_kd)；

其中，(x_i1,x_i2,…,x_id)为第i个词语的d维向量，x_ij为实数，1≤i≤k，1≤j≤d；

根据实例对的段落向量和实例对的高频词向量来构建实例对的特征向量；对于实例对(e_i,e_j)，该实例对的特征向量W_ij为其段落向量V_ij和其高频词向量U_ij的拼接，即：

W_ij＝V_ij+U_ij，其中“+”表示向量拼接。

6.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：步骤6，具体包括如下子步骤：

步骤6.1，构建测试集实例对的特征向量；