CN107729497A

CN107729497A - 一种基于知识图谱的词嵌入深度学习方法

Info

Publication number: CN107729497A
Application number: CN201710982103.6A
Authority: CN
Inventors: 黄震华
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2018-02-23
Anticipated expiration: 2037-10-20
Also published as: CN107729497B

Abstract

本发明公开一种基于知识图谱的词嵌入深度学习方法。训练样本集构造阶段，首先依据语义强度对知识图谱中的实体关系进行划分，然后基于划分后的各实体关系组来产生不同路径长度的训练样本。词嵌入深度学习阶段，通过构造由word2vec编码器、卷积神经网络、门控循环单元网络、softmax分类器以及逻辑回归器等部件组成的三任务深度神经网络结构，然后以前一阶段所产生的训练样本集为输入来迭代优化深度神经网络结构的参数。训练完成后，保留word2vec编码器和卷积神经网络两个部件构成词嵌套编码器。与现有技术相比，本发明具有词嵌入准确度高、泛化能力强以及简单易实现等优点，能够有效应用于大数据分析、电子商务、智能交通、医疗健康以及智能制造等领域。

Description

一种基于知识图谱的词嵌入深度学习方法

技术领域

本发明涉及计算机应用技术领域，尤其是涉及一种词嵌入的机器学习方法。

背景技术

词嵌入(Word embedding)是一项非常重要且应用广泛的技术，可以将文本和词语转换为机器能够接受的一维数值向量，其中向量长度可以根据需要而灵活设定。

在词嵌入技术早期，研究人员提出并使用独热(One-hot)方法将单词转换成一维向量。该向量的长度是词表大小，其中绝大多数元素为0，只有一个分量的值为1，这个分量就代表了当前的词。例如“小明是个童星”，进行分词处理后，被划分为“小明|是|个|童星”。那么在这个句子中总共存在四个词语，因此我们给予“小明”的编码是“0001”，“是”的编码是“0010”，“个”的编码是“0100”以及“童星”的编码是“1000”。很显然，One-hot方法的主要缺点是为了表示每个词，我们需要一个很长的向量，而且任意两个词之间都是孤立的，缺少关联。

为了克服One-hot方法的缺陷，研究人员提出了向量空间模型(VSM：Vector SpaceModel)，该模型基于分布式语义理论将近似语义的词语映射到连续向量空间的点进行聚类处理，它在自然语言处理中有着广泛的应用。目前，向量空间模型大致可以分为两类方法：基于统计的方法和基于预测的方法，其中基于统计方法将语料库中出现相邻词语的频率转换为针对于每个词语的一个小的稠密向量，而基于预测的方法从邻近词语进行推理从而将其映射为一个稠密向量。

目前，最常用也是最成功的词嵌入技术是Google公司Tomas Mikolo等人于2013年提出的word2vec方法。该方法是基于具有一个隐含层的神经元网络模型来训练词嵌入过程，模型的输入为词表向量，当输入一个训练样本时，对于样本中的每一个词，我们把这个词在词表中出现位置的取值置为1，否则置为0，同时，模型的输出也是词表向量，对于训练样本标签中的每一个词，我们把这个词在词表中出现位置的取值置为1，否则置为0。我们用该浅层神经网络模型训练并迭代优化所有输入样本，当收敛之后，将从输入层到隐含层的那些权重，作为每一个词表中词的表示向量。

我们发现word2vec方法虽然在一定程度上能够学习出单词的一维向量表示，然而由于它的训练模型只包含一个隐含层的浅层神经元网络模型，因此很难捕获词语的深层特征表示，而且它没有考虑训练数据间的语义信息，从而使得学到的词语向量缺乏语义关联。

发明内容

本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种准确度高、泛化能力强以及简单易实现的词嵌入深度学习方法。

本发明技术方案：

一种基于知识图谱的词嵌入深度学习方法，其特征在于，该方法主要由训练样本集构造和词嵌入深度学习两个阶段组成。

第一阶段(训练样本集构造)主要包含两个步骤，即知识图谱实体关系划分和训练样本集生成。

在步骤1中，本发明首先以知识图谱为输入，计算其中所有实体的信息度，并将实体按其信息度从大到小或者从小到大排序，进而把排序后的实体平均划分成h个组，每个组为一个信息度类别，其中h的取值由用户指定，并且不小于20。同时，计算知识图谱中所有实体关系的语义强度，并将实体关系按其语义强度从大到小或者从小到大排序，进而把排序后的实体关系平均划分成k个组，每个组为一个语义强度类别，其中k的取值由用户指定，并且不小于10。

在步骤2中，本发明针对实体关系的每个分组，通过无放回的方式从中随机选取m个实体关系，其中m的取值由用户指定，并且不小于该分组实体关系数的1/10。接着，对于每个被选取的实体关系，路径长度设定最小值为2而最大值为s，其中s的取值由用户指定，并且在[4,7]之间。然后，对于每个路径长度值l，产生n个正训练样本和a×n个负训练样本，其中n和a的取值由用户指定，并且分别不小于50和4。正负训练样本的产生过程为：通过无放回的方式随机选取与当前实体关系相连的实体关系，直到达到该路径长度值，如果此时第一实体关系的左实体与最后一个实体关系的右实体之间存在直接实体关系，那么就产生1个新的正训练样本<(d,z),(1,f(z),g(d))>，其中d是实体关系组成的路径，包括路径上的所有实体关系和实体，即d＝<实体1,实体关系1,实体2,实体关系2,…,实体l+1>，而z为路径第一个实体和最后一个实体间的直接实体关系，f(z)为z的语义强度类别，g(d)为d第一个实体的信息度类别。在该正训练样本的基础上，我们用a个与z不同的实体关系r₁,r₂,…,r_a，去替换z，从而得到a个新的负训练样本<(d,r₁),(0,f(z),g(d))>,<(d,r₂),(0,f(z),g(d))>,…,<(d,r_a),(0,f(z),g(d))>。

第二阶段(词嵌入深度学习)首先构造用于词嵌入学习的深度神经网络模型，主要由word2vec编码器、卷积神经网络(CNN：Convolutional Neural Network)、门控循环单元网络(GRU：Gated Recurrent Units)、softmax分类器以及逻辑回归器等部件组成。在词嵌入学习训练过程中，对于路径长度为l的正训练样本<(d,z),(1,f(z),g(d))>或负训练样本<(d,z),(-1,f(z),g(d))>，该训练样本含有l+1个实体和l个实体关系，因此需要l+1个GRU部件、2l+2个word2vec编码器部件、2l+2个CNN部件、1个逻辑回归器部件以及2个softmax多分类器部件。其中，第i个实体和第i个实体关系(1≤i≤l)分别通过各自的word2vec编码器部件生成一维输入向量，并分别经过各自的CNN部件来生成一维卷积向量，然后，第i个GRU部件接收这两个一维卷积向量以及前一个GRU生成的一维循环向量，并输出其相应的一维循环向量，而第l+1个实体由于后面没有再连接实体关系，因此，本发明将它经由word2vec编码器部件和CNN部件生成的一维卷积向量和一个一维全零向量，连同第l个GRU生成的一维循环向量一起作为输入输进第l+1个GRU部件来最终生成一维路径向量。另一方面，实体1与实体l+1间的直接实体关系z通过word2vec编码器部件和CNN部件来生成一维卷积向量。此外，所有的word2vec编码器部件之间、CNN部件之间和GRU部件之间的参数均是共享的。

在此基础上，本发明构造三个训练任务：1)任务1为一维路径向量与z对应一维卷积向量间的相似度训练，如果输入是正训练样本，那么最大化其相似度的逻辑回归值，反之最小化其相似度的逻辑回归值；2)任务2为实体关系z的语义强度分类训练，假设z的语义强度类别为c，那么最大化softmax多分类器的c类别概率值；3)任务3为实体1的信息度分类训练，假设实体1的信息度类别为b，那么最大化softmax多分类器的b类别概率值。本发明通过联合这三个训练任务来构造目标损失函数，并通过随机优化算法来迭代优化模型的参数，直到参数收敛为止。

当模型训练完成后，本发明从该模型中抽取出实体关系z所对应的word2vec编码器部件和CNN部件，从而构成词嵌套编码器。

本发明具有以下优点：

1.本发明引入知识图谱来增加词语的语义信息，并基于不同语义强度的实体关系来构造大规模训练样本，这样能够显著提高词嵌入深度学习模型的准确度。

2.本发明基于深度学习技术，并通过三任务学习来联合优化目标损失函数，这样能够显著提高词嵌入深度学习模型的泛化能力。

3.本发明主要由2个阶段组成，每个阶段的实施过程简单、容易实现，同时不受具体开发工具和编程软件的限制，并且能够快速扩展到分布式和并行化的开发环境中。

附图说明

图1本发明的技术框架图

图2词嵌套学习的深度神经网络逻辑结构图

具体实施方式

以下结合附图对本发明技术方案进行介绍。

本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种准确度高、泛化能力强以及简单易实现的词嵌入深度学习方法，技术框架如图1所示。

本发明主要由训练样本集构造和词嵌入深度学习两个阶段组成。

第二阶段(词嵌入深度学习)首先构造用于词嵌入学习的深度神经网络模型，其逻辑结构如图2所示，主要由word2vec编码器、卷积神经网络(CNN：Convolutional NeuralNetwork)、门控循环单元网络(GRU：Gated Recurrent Units)、softmax分类器以及逻辑回归器等部件组成。

在词嵌入学习训练过程中，对于路径长度为l的正训练样本<(d,z),(1,f(z),g(d))>或负训练样本<(d,z),(-1,f(z),g(d))>，该训练样本含有l+1个实体和l个实体关系，因此需要l+1个GRU部件、2l+2个word2vec编码器部件、2l+2个CNN部件、1个逻辑回归器部件以及2个softmax多分类器部件。其中，第i个实体和第i个实体关系(1≤i≤l)分别通过各自的word2vec编码器部件生成一维输入向量，并分别经过各自的CNN部件来生成一维卷积向量，然后，第i个GRU部件接收这两个一维卷积向量以及前一个GRU生成的一维循环向量，并输出其相应的一维循环向量，而第l+1个实体由于后面没有再连接实体关系，因此，本发明将它经由word2vec编码器部件和CNN部件生成的一维卷积向量和一个一维全零向量，连同第l个GRU生成的一维循环向量一起作为输入输进第l+1个GRU部件来最终生成一维路径向量。另一方面，实体1与实体l+1间的直接实体关系z通过word2vec编码器部件和CNN部件来生成一维卷积向量。此外，所有的word2vec编码器部件之间、CNN部件之间和GRU部件之间的参数均是共享的。

以下给出具体实施方式对本发明技术方案进一步详述。

在第一阶段(训练样本集构造)的步骤1(知识图谱实体关系划分)中，对于知识图谱G中的任何一个实体e，它的信息度计算公式为：

其中g^E为G中不同的实体类型个数，num(e)为e在G中出现的次数。当所有实体的信息度均计算完毕之后，本发明将实体按其信息度从小到大排序，并把把排序后的实体平均划分成30个组，记为E₁,E₂,…,E₃₀，同时把这30个组的信息度类别依次标记为1～30。对于知识图谱G中的任何一个实体关系r，它的语义强度计算公式为：

其中g^R为G中不同的实体关系类型个数，e₁和e₂分别是实体关系r的左实体和右实体，num(e₁)、num(e₂)和num(r)分别为实体e₁和e₂以及实体关系r在G中出现的次数，而num(r,e₂)为三元组事实<*,r,e₂>在G中出现的次数，*为通配符。当所有实体关系的语义强度均计算完毕之后，我们将实体关系按其语义强度从小到大排序，并把把排序后的实体关系平均划分成20个组，记为R₁,R₂,…,R₂₀，同时把这20个组的语义强度类别依次标记为1～20。

在步骤2(训练样本集生成)中，对于实体关系平均划分的20个分组中的每个分组R_i(1≤i≤20)，本发明通过无放回的方式从中随机选取个实体关系，其中|R_i|为E_i中的实体关系数量，|G^(r)|为知识图谱G中的实体关系数量，为取上界整数的符号，对于被选取的每个实体关系q₁，生成训练样本的路径长度l分别取4个值，即从2开始，到5结束。对于所取的每个路径长度l，本发明首先产生80个正训练样本，每个正训练样本的产生方式如下：从q₁开始，通过无放回的方式随机选取与q₁相连的实体关系q₂，然后再随机选取与q₂相连的实体关系q₃，一直重复该过程直到路径长度达到l，即实体关系q_l被随机选取为止，此时，如果q₁的左实体e₁和q_l的右实体e_l+1直接存在直接实体关系z，那么就产生1个新的正训练样本<(d,z),(1,f(z),g(d))>，其中d＝<e₁,q₁,e₂,q₂,…,e_l,q_l,e_l+1>为实体关系组成的路径，包括路径上的所有实体关系和实体，f(z)为z的语义强度类别，取值1～20之间，由步骤1标定，g(d)为e₁的信息度类别，取值1～30之间，由步骤1标定。当正训练样本<(d,z),(1,f(z),g(d))>生成之后，本发明用5个与z不同的实体关系r₁,r₂,…,r₅去替换z，同时保证这5个实体关系不能是e₁和e_l+1间的直接实体关系，从而，我们得到5个新的负训练样本<(d,r₁),(0,f(z),g(d))>,<(d,r₂),(0,f(z),g(d))>,…,<(d,r₅),(0,f(z),g(d))>。

当步骤1和步骤2均处理完毕，本发明总共生成个正训练样本和个负训练样本，并构成训练样本集合T。

在第二阶段(词嵌入深度学习)的深度神经网络模型构造方面，本发明实施如下：1)word2vec编码器部件直接采用google公司的word2vec工具，其产生的一维输入向量的长度设定为1000；2)卷积神经网络CNN部件由相隔的3个卷积层和3个最大池化层、以及2个全连接层组成，其中第1个卷积层的卷积核数量为8个、大小为2×1、滑动步长为2，第2个卷积层的卷积核数量为16个、大小为4×1、滑动步长为2，第3个卷积层的卷积核数量为32个、大小为6×1、滑动步长为2，而每个最大池化层的滑动窗口大小均为4×1、滑动步长为1，第1个全连接层的神经元个数为1000，而第二个全连接层的神经元个数为1500，即生成长度为1500的一维卷积向量；3)门控循环单元网络GRU部件包含1个细胞核、1个更新门和1个重置门，其产生的一维循环向量和一维路径向量的长度设定为1500；4)相似度逻辑回归器部件使用两个向量夹角的余弦值作为相似度的计算值x，并将该相似度值输入到Sigmoid函数1/(1+e^-x)中来生成0～1间的逻辑回归值。5)语义强度softmax多分类器和信息度softmax多分类器分别采用20个类别和30个类别，并分别与语义强度分组R₁,R₂,…,R₂₀和信息度分组E₁,E₂,…,E₃₀相对应；6)所有word2vec编码器部件间的参数相同、所有CNN部件间的参数相同以及所有GRU部件间的参数相同，即这3类部件间的参数分别是共享的。

本发明通过3个训练任务(任务1～3)来构造联合目标损失函数，其表示为：

L(Υ,T)＝α₁L₁(Υ,T)+α₂L₂(Υ,T)+α₃L₃(Υ,T)，

其中Υ为深度神经网络模型的参数集合，T为训练样本集合，包括正训练样本集合T⁺和负训练样本集合T^-，α₁、α₂和α₃为3个任务所占的权重，其和等于1，L₁(Υ,T)、L₂(Υ,T)和L₃(Υ,T)分别为3个任务的损失函数：

其中|T|为T中的训练样本数，S为Sigmoid函数，P为条件概率，t.z为训练样本t中第一实体与最后一个实体间的直接实体关系，c为z的语义强度类别，t.e₁为t中第一实体，b为e₁的信息度类别。

在联合目标损失函数L(Υ,T)的基础上，本发明利用Adam(Adaptive MomentEstimation：自适应矩估计)随机优化算法来调整并优化深度神经网络模型中的所有参数。当所有参数收敛时，迭代优化过程终止，从而得到最终的深度神经网络模型。

最后，本发明从该深度神经网络模型中抽取出模型最右边直接实体关系所对应的word2vec编码器部件和CNN部件，并将它们组成词嵌套编码器。

Claims

1.一种基于知识图谱的词嵌入深度学习方法，其特征在于，该方法主要由训练样本集构造和词嵌入深度学习两个阶段组成；

第一阶段(训练样本集构造)主要包含两个步骤，即知识图谱实体关系划分和训练样本集生成；

在步骤1中，首先以知识图谱为输入，计算其中所有实体的信息度，并将实体按其信息度从大到小或者从小到大排序，进而把排序后的实体平均划分成h个组，每个组为一个信息度类别，其中h的取值由用户指定，并且不小于20；同时，计算知识图谱中所有实体关系的语义强度，并将实体关系按其语义强度从大到小或者从小到大排序，进而把排序后的实体关系平均划分成k个组，每个组为一个语义强度类别，其中k的取值由用户指定，并且不小于10；

在步骤2中，针对实体关系的每个分组，通过无放回的方式从中随机选取m个实体关系，其中m的取值由用户指定，并且不小于该分组实体关系数的1/10；接着，对于每个被选取的实体关系，路径长度设定最小值为2而最大值为s，其中s的取值由用户指定，并且在[4,7]之间；然后，对于每个路径长度值l，产生n个正训练样本和a×n个负训练样本，其中n和a的取值由用户指定，并且分别不小于50和4；正负训练样本的产生过程为：通过无放回的方式随机选取与当前实体关系相连的实体关系，直到达到该路径长度值，如果此时第一实体关系的左实体与最后一个实体关系的右实体之间存在直接实体关系，那么就产生1个新的正训练样本<(d,z),(1,f(z),g(d))>，其中d是实体关系组成的路径，包括路径上的所有实体关系和实体，即d＝<实体1,实体关系1,实体2,实体关系2,…,实体l+1>，而z为路径第一个实体和最后一个实体间的直接实体关系，f(z)为z的语义强度类别，g(d)为d第一个实体的信息度类别；在该正训练样本的基础上，用a个与z不同的实体关系r₁,r₂,…,r_a，去替换z，从而得到a个新的负训练样本<(d,r₁),(0,f(z),g(d))>,<(d,r₂),(0,f(z),g(d))>,…,<(d,r_a),(0,f(z),g(d))>；

第二阶段(词嵌入深度学习)首先构造用于词嵌入学习的深度神经网络模型，主要由word2vec编码器、卷积神经网络(CNN：Convolutional Neural Network)、门控循环单元网络(GRU：Gated Recurrent Units)、softmax分类器以及逻辑回归器部件组成；

在词嵌入学习训练过程中，对于路径长度为l的正训练样本<(d,z),(1,f(z),g(d))>或负训练样本<(d,z),(-1,f(z),g(d))>，该训练样本含有l+1个实体和l个实体关系，因此需要l+1个GRU部件、2l+2个word2vec编码器部件、2l+2个CNN部件、1个逻辑回归器部件以及2个softmax多分类器部件，其中，第i个实体和第i个实体关系(1≤i≤l)分别通过各自的word2vec编码器部件生成一维输入向量，并分别经过各自的CNN部件来生成一维卷积向量，然后，第i个GRU部件接收这两个一维卷积向量以及前一个GRU生成的一维循环向量，并输出其相应的一维循环向量，而第l+1个实体由于后面没有再连接实体关系，将经由word2vec编码器部件和CNN部件生成的一维卷积向量和一个一维全零向量，连同第l个GRU生成的一维循环向量一起作为输入输进第l+1个GRU部件来最终生成一维路径向量；另一方面，实体1与实体l+1间的直接实体关系z通过word2vec编码器部件和CNN部件来生成一维卷积向量；此外，所有的word2vec编码器部件之间、CNN部件之间和GRU部件之间的参数均是共享的；

在此基础上，构造三个训练任务：1)任务1为一维路径向量与z对应一维卷积向量间的相似度训练，如果输入是正训练样本，那么最大化其相似度的逻辑回归值，反之最小化其相似度的逻辑回归值；2)任务2为实体关系z的语义强度分类训练，假设z的语义强度类别为c，那么最大化softmax多分类器的c类别概率值；3)任务3为实体1的信息度分类训练，假设实体1的信息度类别为b，那么最大化softmax多分类器的b类别概率值；

通过联合这三个训练任务来构造目标损失函数，并通过随机优化算法来迭代优化模型的参数，直到参数收敛为止；

当模型训练完成后，从该模型中抽取出实体关系z所对应的word2vec编码器部件和CNN部件，从而构成词嵌套编码器。