CN111522961B

CN111522961B - 一种基于注意力机制及实体描述的产业图谱构建方法

Info

Publication number: CN111522961B
Application number: CN202010272951.XA
Authority: CN
Inventors: 熊盛武; 陈小英; 谢泽丰; 陈伟; 王盛
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-04-07
Anticipated expiration: 2040-04-09
Also published as: CN111522961A

Abstract

本发明公开了一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法，基于远程监督的思想使用已有的知识图谱对无标注的语料数据进行产业实体对和产业实体关系的自动标注。在输入端加入语料语句每个词的位置特征，通过卷积层和多段池化层得到包含位置特征的句向量，使用r＝e₁‑e₂来表示实体对之间的关系特征，引入注意力层并计算每个句子在注意力机制下的特征向量。在训练分段卷积神经网络中，以句子实体对与可能存在关系的匹配概率和句子中实体描述特征距离作为目标函数来提高对语料句的标注准确度。通过训练好的模型可以自动标注语料库中的语料数据，从而构建产业图谱。

Description

一种基于注意力机制及实体描述的产业图谱构建方法

技术领域

本发明属于知识图谱技术领域，具体涉及一种产业图谱的构建方法，具体涉及一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法；为知识图谱领域提供了基于产业图谱的语义集成、知识推理等方面提供了技术基础，为宏观经济领域探寻经济运行新规律，提升经济管理和决策水平，完善调控体系，提升政府治理能力、推动政府治理精准化提供提供了技术支持。

背景技术

近年来，人工智能在全球蓬勃发展，其成功离不开知识图谱的贡献。目前知识大量存在于无结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。构建知识图谱的主要目的是获取大量的、让计算机可读的知识。当前在知识图谱构建方面，主要方法还是依赖于传统NLP和基于深度学习模型两类方法，利用信息提取技术对中文命名实体关系进行提取，对于复杂的非结构化数据，越来越倾向于使用深度学习来抽取实体间的关系。

虽然深度学习技术在图像和语音方面当前取得了突破性的进展，但应用在文本方面，优化实体抽取方式，提高知识的覆盖率与准确率，跨语言知识融合等方向还有很大发展空间。这一方面受限于自然语言的离散化表示形式；另一方面，在经济等特有领域知识图谱构建过程中，缺乏深度学习依赖的大量标注数据，难以进行大规模实体及关系提取。因此，利用NLP、深度学习、图卷积神经网络等技术，有效利用开放域普通文本数据，研究知识图谱实体和关系提取技术，对构建经济领域知识图谱具有重要意义。

发明内容

本发明针对背景技术中提出的产业领域知识图谱缺乏问题，本发明提供了一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法。

本发明所采用的技术方案是：一种基于注意力机制及实体描述的产业图谱构建方法，其特征在于，包括以下步骤：

步骤1：获取无标注的产业领域语料数据并统一存储，获得产业语料库；

步骤2：利用知识图谱中的三元关系组r(e₁,e₂)将语料数据根据实体对分成多个语料包，记录每个语料包中实体对可能的实体对关系，其中e₁和e₂代表实体对，r代表实体对的关系；

步骤3：将每个语料包中每条句子的每个词和每个词的位置向量化，将词向量和词位置向量级联后作为分段卷积神经网络的输入；

步骤4：根据实体对位置将句子分割为三段，使用三个最大池对三段语句的特征向量分别进行最大池化后将得到的三个特征向量拼接得到整个句子的特征向量，通过非线性函数得到句子特征向量；

步骤5：在注意力层对语料包中每条句子注意力权值和每条句子特征向量计算加权和，获得实体对所在语料包的特征向量，通过softmax计算得到包中每条句子与实体对每个可能关系的置信度；

步骤6：通过卷积神经网络提取实体描述句子的特征向量，计算每条句子中实体特征向量与实体描述特征向量的距离；

步骤7：以句子中实体对与所有可能关系的置信度概率以及实体特征向量与实体描述特征向量的距离为目标函数，训练分段卷积神经网络；使用训练后的分段卷积神经网络自动标注语料库中语料并使用标注好的语料数据构建产业图谱。

作为优选，步骤1中所述产业领域语料数据包括产业相关企业基本信息及在生产经营情况，产业相关新闻事件，公开发布的产业分析报告，产业结构、产业链材料数据。

作为优选，步骤2中，基于多示例学习的方法论，使用已有的基础知识图谱(如YAGO，WikiData等中文知识图谱)的现存三元关系组，根据已有的三元组中的实体对，在产业语料库中查找包含e₁和e₂实体对的句子，并将这些句子根据实体对的不同分为不同的包，将语料库中所有语料根据实体对分为若干语料包，每个语料包的标签组是当前预料包实体对所在三元组的所有可能的关系；每个包在包级的关系标签标记为关系r，包内每条句子的关系标签标记为未知。

作为优选，步骤3中，将语料句中每个词通过word2vec方法向量化，得到每个词的词向量；提取每条句子中每个词与每条句子中实体对的相对位置信息，通过编码得到每个词的位置特征向量。

作为优选，步骤4中，通过一个双曲正切的非线性函数来输出句子的特征向量。

作为优选，步骤5中，在注意力层，将实体对关系表示为e₁+r≈e₂，通过计算得到每条句子的注意力权重。

作为优选，步骤7中，通过训练好的分段卷积神经网络计算语料包中每条句子实体对之间关系与所有可能的关系的置信度，并通过选取置信度最高的关系，标注出语料句子中的实体对和实体对之间置信度最高的关系。

本发明的有益效果在于：本发明提出了一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法，使用远程监督的方法论，将无标注的语料数据可以通过这种方法自动标注实体对及关系。使用多示例学习方法对语料进行分包，并将语句标注问题转化为同一实体对的语料包中，实体对的关系置信度计算。使用分段卷积神经网络(分段卷积神经网络[PCNN]是一种基于传统卷积网络[CNN]的变种，特征在于经过传统卷积层后，可以对输入的数据进行多段池化。例如传统的CNN网络中输入的变量有n个，经过卷积后获得n个中间值，n个中间值将一同输入池化层进行池化。而在PCNN中，可以对输入的n个变量进行分割，本发明中就是针对句子中的两个实体位置将句子分割为三个部分，因此输入到卷积层的变量为3*n，但在池化层，并非对所有变量一同进行池化，而是针对三段中每一段的n个变量分别进行池化，这种分段池化的特征是区别于传统的CNN的池化层的)来考虑实体对的位置信息，引入注意力机制来增加关系匹配的准确率，使用实体描述信息特征来更好的表示实体。

通过本发明可以有效的解决在图谱构建中对无标注的纯文本语料的关系提取问题。避免人工标注这些训练数据费时昂贵的问题。使用本发明可以通过网络自动标注大规模训练数据，自动获取更多的训练数据来训练模型。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的分段卷积神经网络结构图。

具体实施方案

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明针对背景提出的产业领域知识图谱缺乏问题，在产业图谱构建中对无标注的纯文本语料的关系提取是非常重要的步骤，而训练关系抽取模型往往需要高精度的人工标注语料库数据作为训练集，但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型，本发明基于远程监督的方法论，将纯文本与现有知识图谱进行对齐，能够自动标注大规模训练数据。

远程监督的提出主要基于以下假设：两个实体如果在知识库中存在某种关系，则包含该两个实体的非结构化句子均能表示出这种关系。该方法的具体步骤是1、从已有知识库中抽取存在关系的实体对2、从非结构化文本中抽取含有实体对的句子作为训练样例。

远程监督的方法虽然从一定程度上减少了模型对人工标注数据的依赖，但该类方法也存在明显的缺点：1、假设过于肯定，难免引入大量的噪声数据。2、数据构造过程依赖于NER等NLP工具，中间过程出错会造成错误传播问题。

本发明基于注意力机制及实体描述的分段卷积神经网络对无标注的产业领域语料进行关系提取，获取实体关系三元组，并构建成产业领域的知识图谱。

请见图1、图2，本发明提供的一种基于注意力机制及实体描述的产业图谱构建方法，包括以下步骤：

本实施例从百度百科、维基中国等爬取产业领域的语料，包括产业相关企业基本信息及在生产经营情况，产业相关新闻事件，从有关部门或行业协会获取的公开发布的产业分析报告，产业结构、产业链材料等相关语料数据，通过一定的命名规则存储到语料库中。产业语料库是构建图谱的基础，规范的产业图谱语料库可以便于后续对语料数据的训练及产业图谱的构建。

本实施例基于多示例学习的思想，将之应用到无标注语料的实体关系标注问题中，使用已有的中文知识图谱对语料库中无标注的纯文本句子进行分包，分包操作的原理在于，通过在已有的中文知识图谱(如YAGO，WikiData等中文知识图谱)中发现的三元关系组r(e₁,e₂)，其中e₁和e₂代表实体对，r代表实体对的关系。在产业语料库中查找包含e₁和e₂实体对的句子，并将这些句子根据实体对的不同分为不同的包。每个包在包级的关系标签标记为关系r，包内每条句子的关系标签标记为未知。

本实施例通过word2vec将各包中的语料句子的每个词向量化，得到词向量w。提取语料句子中每个词与句子中出现的实体对相对位置特征信息，对句子中每个词与句子中出现的实体对(e₁,e₂)的相对位置进行组合，每个词都有两个位置信息，分为是距离实体e₁的位置、距离实体e₂的位置。并将相对位置信息组合向量化，得到PF₁及PF₂。其中PF₁和PF₂分别对应每个词相对实体e₁和实体e₂的相对位置。编码后得到每个词的位置特征向量。将句子每个词的词向量与位置向量级联后作为分段卷积神经网络的输入。

本实施例中，根据句中实体对位置将句子分割为三段，将输入向量卷积化，获得卷积结果矩阵C，计算如公式1所示，其中c_ij为矩阵C中的元素，W代表卷积神经网络的权重矩阵，q代表每个句子的句向量，s代表句子条数，n代表过滤层层数，w代表过滤层长度，i与j的取数范围为1≤i≤n，1≤j≤s+w-1，需要特别说明的是，当取的向量q不存在时，会以一个零向量代替。

c_ij＝W_iq_j-w+1:j 公式1

根据句子中(e₁,e₂)实体对的位置，将句子分为三段，在经过卷积层后一句话可以获得的三个向量{c_i1,c_i2,c_i3}，并在分段最大池中，使用公式2将一句话的三段向量计算获得一个最终的句子特征向量p。

p_ij＝max(c_ij) 公式2

将最大池化后的向量通过一个双曲正切的非线性函数来输出句子的特征向量，计算过程如公式3所示。使用卷积和分段最大池化以及非线性函数得到句子的特征向量。

b＝tanh(p_1:n) 公式3

其中，1:n代指的是从1到n进行计算，其中p_i是一个三维向量，存在关系p_i＝{p_i1,p_i2,p_i3}，对应公式2中计算得到的向量p_ij；

本实施例中，要进行包级特征向量计算，首先需要计算注意力权值。在注意力层，将实体对关系表示为e₁+r≈e₂，可以得到v_relation＝e₁-e₂，通过公式4及公式5计算每个句子的注意力权值。b_a是偏差权重矩阵。n是句子数量。W_a是一个权重矩阵。可以通过注意力权值与句特征向量的乘积计算得到加入注意力机制的句向量。可以通过公式6计算得到每个实体对包级的包特征向量。通过softmax计算语料包中每条句子与每个包标签之间的置信度。通过公式7得到网络输出向量，通过公式8计算置信度，公式8中θ＝(E,W,PF₁，PF₂，W_a，W_s)，其中E表示使用skip-gram方法对单词进行向量化获得的词向量；W代表公式1中的过滤层网络权重矩阵；其中PF₁和PF₂分别对应每个词相对实体e₁和实体e₂的相对位置(详见步骤三)；Wa代表中间矩阵，在公式4中用于调整向量维数，以便公式4中得到的数值可用于公式5进行注意力权值的运算；Ws是一个权重矩阵；b是加入注意力机制的包的特征向量，b_s是偏差矩阵；从公式7中计算得到的向量o代指获得注意力机制后的句向量，用于后续softmax的计算；B表示bag；p(r_i|B；θ)代指第i个关系的条件概率。公式7中需要特别注明的是，

从而有

因此在公式8中的累加是j＝1累加到n₀。

其中W_s是一个权重矩阵，b是加入注意力机制的包的特征向量，b_s是偏差矩阵。

步骤6：通过卷积神经网络提取实体描述句子的特征向量，计算实体特征向量与实体描述特征向量的距离；本步骤中计算的并非是每条句子中的实体特征向量，而是在独立于纯文本内容的实体描述句子，是针对实体可能具有多种含义的情况。详细结构可见图1。

本实施中，通过一个常规的卷积神经网络对实体描述特征进行提取，获得实体描述向量d_i，使用公式9计算实体向量与实体描述向量的距离。

公式9表示纯文本中实体的特征向量与实体描述句子中实体的特征向量的距离。其中D＝{(e_i-d_i)|i＝1,…,|D|}，|D|表示的是实体具有描述含义的数量。例如苹果，可以代指苹果水果，也可以代指苹果公司。如果仅有两条对苹果实体的描述语句，|D|为2

本实施例中，使用公式10对句级注意力的分段卷积神经网络进行训练，并以公式11作为训练目标。其中W是所有训练句子特征向量中的权重矩阵，W_a是注意力层的权重矩阵，W_s是计算softmax中的权重矩阵，E是词向量，PF1与PF2分别是词相对于实体对e₁和e₂的位置向量。训练句子层面注意力的分段卷积神经网络，使用该网络模型对语料库中无标注的语料数据进行远程监督自动标注。并使用有标注的语料数据构建得到产业图谱。

min L＝L_A+λL_e 公式11

本实施例基于远程监督的思想使用已有的知识图谱对无标注的语料数据进行产业实体对和产业实体关系的自动标注。在输入端加入语料语句每个词的位置特征，通过卷积层和多段池化层得到包含位置特征的句向量，使用r＝e₁-e₂来表示实体对之间的关系特征，引入注意力层并计算每个句子在注意力机制下的特征向量。在训练分段卷积神经网络中，以句子实体对与可能存在关系的匹配概率和句子中实体描述特征距离作为目标函数来提高对语料句的标注准确度。通过训练好的模型可以自动标注语料库中的语料数据，从而构建产业图谱。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制及实体描述的产业图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法，其特征在于：步骤1中所述产业领域语料数据包括产业相关企业基本信息及在生产经营情况，产业相关新闻事件，公开发布的产业分析报告，产业结构、产业链材料数据。

3.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法，其特征在于：步骤2中，基于多示例学习的方法论，使用已有的基础知识图谱的现存三元关系组，根据已有的三元组中的实体对，在产业语料库中查找包含e₁和e₂实体对的句子，并将这些句子根据实体对的不同分为不同的包，将语料库中所有语料根据实体对分为若干语料包，每个语料包的标签组是当前预料包实体对所在三元组的所有可能的关系；每个包在包级的关系标签标记为关系r，包内每条句子的关系标签标记为未知。

4.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法，其特征在于：步骤3中，将语料句中每个词通过word2vec方法向量化，得到每个词的词向量；提取每条句子中每个词与每条句子中实体对的相对位置信息，通过编码得到每个词的位置特征向量。

5.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法，其特征在于：步骤4中，通过一个双曲正切的非线性函数来输出句子的特征向量。

6.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法，其特征在于：步骤5中，在注意力层，将实体对关系表示为e₁+r≈e₂，通过计算得到每条句子的注意力权重。

7.根据权利要求1-6任意一项所述的基于注意力机制及实体描述的产业图谱构建方法，其特征在于：步骤7中，通过训练好的分段卷积神经网络计算语料包中每条句子实体对之间关系与所有可能的关系的置信度，并通过选取置信度最高的关系，标注出语料句子中的实体对和实体对之间置信度最高的关系。