CN108304911B

CN108304911B - 基于记忆神经网络的知识抽取方法以及系统和设备

Info

Publication number: CN108304911B
Application number: CN201810018789.1A
Authority: CN
Inventors: 包红云; 郑孙聪; 周鹏; 齐振宇; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2020-03-13
Anticipated expiration: 2038-01-09
Also published as: CN108304911A

Abstract

本发明涉及知识抽取领域，具体涉及一种基于记忆神经网络的知识抽取方法以及系统和设备，目的在于解决现有技术中存在的信息冗余问题。本发明在给定预定义关系类型的前提下，首先利用卷积神经网络获取输入文本中可能具有的关系类型，及其语义编码向量；再利用双向长短时记忆神经网络进行语义编码，得到语义向量；将关系类型作为双向长短时记忆网络的初始值以及解码模块中的第一个标签，进而将关系类型信息融入到编码信息以及解码模块的标签信息中；最后采用单向长短时记忆网络结构的解码模块得到标签序列，然后通过解析标签序列得到结构化信息。本发明不但极大地提高了结构化信息抽取的效率，而且克服了现有技术中存在的信息冗余问题。

Description

基于记忆神经网络的知识抽取方法以及系统和设备

技术领域

本发明涉及本发明涉及知识抽取领域，具体涉及一种基于记忆神经网络的知识抽取方法以及系统和设备。

背景技术

互联网的快速发展，使得网络上的文本数据呈爆炸式的增长，海量文本数据蕴含着大量知识同时也存在着信息冗余的问题。一方面，从用户的角度而言，如何从日益增多的海量文本数据中快速获取真正需要的关键性信息，已经成为人们日常生活和工作中迫切的需求；另一方面，从智能应用角度而言，各种智能化应用，如：自动问答、智能搜索、个性化推荐等，都需要知识资源的支撑，而大量的知识资源只有以结构化的知识图谱形式组织在一起，才可以被机器利用。为推动各领域智能化应用的发展，需要不断地去丰富和完善已有的知识图谱。

人们目前获取信息的主要方式还是搜索引擎。搜索引擎是基于对网页进行检索的技术，根据用户输入的查询词，返回与查询词相关的网页并根据相关性排序。这种基于网页检索的知识获取方式，需要对检索返回的网页进行后续的人工阅读和理解才能获取所需的信息，这种基于人工整理的方式的成本太高，而且不能满足快速全面地获取信息和知识的需求。

知识抽取作为一种从半结构化和非结构化文本数据中自动化地抽取实体、关系以及实体属性等结构化信息的技术，对丰富已有知识资源具有着十分重要的意义。不同于信息检索技术，知识抽取技术是一种比信息检索更深层次的文本挖掘方法，它可以发现并整合蕴含在海量信息中的特定目标信息，减少人工筛选和归纳的工作，提高获取信息的速度和质量。因此，在大数据时代，知识抽取技术有助于人们更高效地获取所需信息。

知识抽取任务可以概述为从非结构化或半结构化的文本中识别相关要素，并以结构化的形式存储，如RDF(Resource Description Framework，资源描述框架)中的三元组{主语(subject)，谓词(predicate)，宾语(object)}形式。其中，对于预定义关系类型的知识抽取任务，其目的是从非结构化文本中抽取出满足预定义关系类型的三元组。抽取出的三元组中的“谓词(predicate)”不再是单纯来自于输入文本内容中的动词或谓词，而是预定义关系集合中的关系值，主语和宾语都是输入文本中的词语。

已有的预定义关系类型的三元组抽取算法可以简单地分为两类：一类是串联抽取方法，其优势是便于单独优化实体识别任务和关系抽取任务，但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标，而实体识别的结果会进一步影响关系抽取的结果，导致误差的累积；另一类是实体和关系的关联性抽取算法，这类方法通过增强实体和关系的关联性来提升三元组抽取的效果。虽然这些方法各有优势，但是它们的基本思想都是先获取实体元组和关系元组，进而得到基本知识单元“三元组”，最终都会造成信息冗余。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于记忆神经网络的知识抽取方法以及系统和设备，能够自动地从互联网中的非结构化文本中抽取得到满足预定义关系类型的结构化信息，有助于丰富已有的知识图谱资源，进而为各种智能化应用更好地服务。

本发明的一方面，提出一种基于记忆神经网络的知识抽取方法，包括以下步骤：

步骤A1，接收待解析文本，利用训练好的词向量层生成句子的矩阵化表示；

步骤A2，根据所述句子的矩阵化表示，以及预定义关系类型集合，通过训练好的卷积神经网络模型获取待解析文本中存在的预定义关系类型，并分别获取所述待解析文本中的各关系类型对应的编码向量；

步骤A3，根据所述句子的矩阵化表示，以及所述待解析文本中的各关系类型对应的编码向量，通过训练好的双向长短时记忆网络模型，对所述待解析文本进行语义编码，得到每一个词的语义向量；

步骤A4，根据所述每一个词的语义向量和所述待解析文本中的各关系类型对应的编码向量，通过训练好的单向长短时记忆网络模型对所述待解析文本进行序列标注，得到一个标签序列；

步骤A5，根据所述标签序列，解析所述待解析文本得到抽取的结构化信息；

其中，

所述结构化信息，包括：第一实体元素、第二实体元素，以及关系类型元素；

对所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络模型和所述单向长短时记忆网络模型进行训练的方法，包括：

步骤B1，输入一个训练文本，在所述词向量层中利用查表法得到每一个词的向量化表示，进而将所述每一个词的向量化表示组合起来，得到句子的矩阵化表示；并使用dropout技术对词向量层进行正则；

步骤B2，根据预定义关系类型集合，通过所述卷积神经网络模型获取所述训练文本中存在的预定义关系类型，并分别获取所述训练文本中的各关系类型对应的编码向量；

步骤B3，根据所述句子的矩阵化表示，以及所述训练文本中各关系类型对应的编码向量，通过所述双向长短时记忆网络模型，对所述训练文本进行语义编码，得到每一个词的语义向量；

步骤B4，根据所述每一个词的语义向量和所述训练文本中的各关系类型对应的编码向量，通过所述单向长短时记忆网络模型对所述训练文本进行序列标注，得到一个标签序列；

步骤B5，根据所述标签序列，解析得到所述训练文本中的结构化信息；

步骤B6，计算损失函数，判断是否达到预设的收敛条件，若未达到，则分别调整所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络模型和所述单向长短时记忆网络模型的参数，转至步骤B1继续训练。

优选地，步骤B2中，“根据预定义关系类型集合，通过所述卷积神经网络模型获取所述训练文本中存在的关系类型，并分别获取所述训练文本中的各关系类型对应的编码向量”，包括：

在步骤B1生成的所述句子的矩阵化表示上进行一维卷积，获取卷积后的特征矩阵；

在所述卷积后的特征矩阵上进行最大池化操作对特征进行压缩，得到句子的向量化表示；

对所述句子的向量化表示进行线性变换得到输出向量，并使用dropout技术对所述词向量层进行正则；

根据所述预定义关系类型集合，以及所述输出向量，使用Softmax函数计算所述训练文本对应的各预定义关系类型的概率，得到所述训练文本中存在的关系类型，并将所述训练文本中各关系类型对应的语义编码向量作为所述训练文本中各关系类型对应的编码向量。

优选地，步骤B3中，“根据所述句子的矩阵化表示，以及所述训练文本中各关系类型对应的编码向量，通过所述双向长短时记忆网络模型，对所述训练文本进行语义编码，得到每一个词的语义向量”，包括：

将所述训练文本中各关系类型对应的编码向量作为所述双向长短时记忆网络模型中编码模块的正序和逆序的初始词向量，根据所述句子的矩阵化表示，按照长短时记忆网络的记忆模块计算方式，从正序和逆序的两种形式对每一个词进行语义编码，合并该词的正序和逆序的语义编码向量，得到该词的语义向量。

优选地，步骤B4中，“根据所述每一个词的语义向量和所述训练文本中的各关系类型对应的编码向量，通过所述单向长短时记忆网络模型对所述训练文本进行序列标注，得到一个标签序列”，包括：

将步骤B3得到的所述每一个词的语义向量作为所述单向长短时记忆网络模型的解码层输入信息；将步骤B2得到的所述训练文本中的各关系类型对应的编码向量作为该解码层的初始化标签信息；利用所述单向长短时记忆网络模型生成每一个词的标签向量信息；

根据所述每一个词的标签向量信息，使用Softmax函数计算每一个词分别对应的预定义标签类型的概率，并选取最大概率的预定义标签作为该词的标签；将每个词的标签组合起来，得到一个标签序列；

其中，

所述预定义标签，包括：词的位置信息部分、词的关系角色部分；

所述词的位置信息部分，包括：词在实体的开头、词在实体的中间、词在实体的结束位置或词本身是一个完整的实体；

所述词的关系角色部分，包括：预设的第一关系角色或预设的第二关系角色；

所述预设的第一关系角色，与结构化信息中的第一个实体元素对应；

所述预设的第二关系角色，与结构化信息中的第二个实体元素对应。

优选地，步骤B5中，“根据所述标签序列，从所述待解析文本中抽取结构化信息”，包括：

根据步骤B4得到的所述标签序列，选择所述标签序列中距离最近的一对包含预设的第一关系角色的标签和包含预设的第二关系角色的标签；

将选择出的所述包含预设的第一关系角色的标签对应的词作为结构化信息中的第一个实体元素，将选择出的所述包含预设的第二关系角色的标签对应的词作为结构化信息中的第二个实体元素，将通过所述卷积神经网络获取的所述训练文本中存在的预定义关系类型作为结构化信息中的关系类型元素，从而得到所述训练文本中的结构化信息。

优选地，步骤B6中，“计算损失函数，判断是否达到预设的收敛条件”，包括：

利用下式计算交叉熵损失函数：

若L(θ)值不再减小，则达到所述预设的收敛条件；

其中，m表示预定义关系类型的总个数；r_i是预定义关系类型的概率值，取值为0或1；

是预测的第i个关系类型的概率值；M是预定义标签的总个数；y_j是第j个预定义标签的概率值，取值为0或1；

是预测的第j个标签的概率值；θ表示模型中所有的参数。

优选地，步骤B1中，“在所述词向量层中利用查表法得到每一个词的向量化表示，进而将所述每一个词的向量化表示组合起来，得到句子的矩阵化表示”，具体为：

给定一个训练好的word2vec词向量集合，则任意段落中长度为n的句子可表示成：

s＝(w₁；w₂；...；w_n)

其中，w_i为利用查表法在词向量集合中找到的第i个词对应的向量化表示。

优选地，所述知识抽取方法，还包括评价结构化信息抽取性能的步骤：

分别计算抽取结果的精确率Pre、召回率Rec以及F1值作为评价指标：

其中，N_r是抽取出的结构化信息中正确信息的个数，N_e是抽取出的所有结构化信息的个数，N_all是测试样本中实际包含的符合预定义关系类型的结构化信息的个数。

本发明的第二方面，提出一种基于记忆神经网络的知识抽取系统，基于上面所述的基于记忆神经网络的知识抽取方法，包括：词向量层、卷积神经网络模型、双向长短时记忆网络模型、单向长短时记忆网络模型、解析模块、参数调整模块；

所述词向量层，配置为：接收输入文本，生成句子的矩阵化表示；

所述卷积神经网络模型，配置为：根据所述句子的矩阵化表示，以及预定义关系类型集合，获取输入文本中存在的预定义关系类型，并分别获取所述输入文本中的各关系类型对应的编码向量；

所述双向长短时记忆网络模型，配置为：根据所述输入文本中的各关系类型对应的编码向量，对所述输入文本进行语义编码，得到每一个词的语义向量；

所述单向长短时记忆网络模型，配置为：根据所述每一个词的语义向量和所述输入文本中的各关系类型对应的编码向量，对所述输入文本进行序列标注，得到一个标签序列；

所述解析模块，配置为：根据所述标签序列，从所述输入文本中抽取结构化信息；

所述参数调整模块，在模型训练时使用，配置为：计算损失函数，判断是否达到预设的收敛条件，若未达到，则分别调整所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络模型和所述单向长短时记忆网络模型的参数；

其中，所述输入文本为：训练文本或待解析文本；当所述知识抽取系统进行模型训练时，所述输入文本为训练文本；当训练结束之后，所述知识抽取系统进行知识抽取时，所述输入文本为待解析文本。

本发明的第三方面，提出一种存储设备，其中存储有程序，所述程序适于由处理器加载并执行，以实现上面所述的基于记忆神经网络的知识抽取方法。

本发明的第四方面，提出一种处理设备，包括：处理器与存储设备；

所述处理器，适于执行程序；所述存储设备，适于存储该程序；所述程序适于由处理器加载并执行以实现上面所述的基于记忆神经网络的知识抽取方法。

本发明的有益效果：

本发明在给定预定义关系类型的前提下，首先利用卷积神经网络获取输入文本中可能具有的关系类型，以及这些关系类型的语义编码向量；再利用双向长短时记忆神经网络对输入文本进行语义编码，将输入文本中的词转化成相应的语义向量；将关系类型作为一种特殊的词作为双向长短时记忆网络的初始值以及解码模块中的第一个标签，进而将关系类型信息融入到输入文本的编码信息以及解码模块的标签信息中；最后采用单向长短时记忆网络结构的解码模型得到输入文本的标签序列，然后通过解析标签序列得到输入文本中的结构化信息。本发明能够在给定关系类型的前提下，有效地抽取非结构化文本中的知识并形成结构化信息，采用这种抽取方法，不但极大地提高了结构化信息抽取的效率，而且克服了现有技术中存在的信息冗余问题。有助于大数据下的语义知识图谱构建，同时还有助于帮助人们快速发现特定目标信息解决人们在互联网时代的信息过载问题。

附图说明

图1是本发明的一个简单的抽取的示例；

图2是本发明实施例的网络模型训练方法流程示意图；

图3是本发明实施例中词向量层和卷积神经网络的构成及数据流向示意图；

图4是本发明实施例中双向长短时记忆网络的构成及数据流向示意图；

图5是本发明实施例中单向长短时记忆网络的构成及数据流向示意图；

图6是本发明实施例的抽取过程和数据流向示意图；

图7是本发明实施例中基于记忆神经网络的知识抽取方法的流程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

图1是本发明的一个简单的抽取的示例。如图1所示，给定的输入文本中包含了：美国总统信息以及苹果公司的创建信息。其中，“国家-总统”和“公司-创始人”是预定义集合中的关系类型，面向预定义关系类型的知识抽取的目标就是要获取满足预定义关系类型的知识并以上述的三元组的形式表示，最终抽取的结果为：“{美国，国家-总统，特然普}”和“{苹果公司，公司-创始人，乔布斯}”，这两个结构化的知识单元。

面向预定义关系类型的知识抽取任务是在已知关系类型集合的前提下进行的知识抽取任务。如果能够获取关系类型的语义信息，然后再充分利用已知的关系类型信息去辅助知识抽取任务，这样不仅可以有效的提升抽取效果还可以更好的满足抽取需求。例如，如果我只想抽取满足“国家-总统”这类关系的三元组，那么我们只需输入“国家-总统”的语义信息去激活输入文本，并从中抽取满足“国家-总统”的三元组。如果我们想抽取满足关系集合中的所有关系类型的三元组，那么我们可以首先对输入文本进行关系预分类，得到用于激活输入文本的关系类型，然后再利用该激活关系类型去抽取其对应的三元组信息。

本发明提出了一种基于记忆神经网络的知识抽取方法用于预定义关系类型的知识抽取任务，能够自动地从互联网中的非结构化文本中抽取得到满足预定义关系类型的结构化信息，有助于丰富已有的知识图谱资源，进而为各种智能化应用更好地服务。

本发明方法的总体构思是，给定训练文本，通过卷积神经网络模型，获取输入文本的关系类型以及关系类型的编码向量；同时，通过双向长短时记忆网络对输入文本进行语义编码，得到每一个词的语义向量；将关系类型的编码向量作为编码模块的初始化信息以及解码模块的第一个标签信息，实现关系信息与输入文本信息的融合；然后，通过基于单向长短时记忆网络模型的解码模块对输入文本进行序列标注；根据输入文本的序列标注结果解析得到文本中的结构化信息。最后，通过对比预测的结构化信息与训练文本中给出的真实的结构化信息来训练模型，并使用训练好的模型来预测测试文本中的结构化信息。给定一个待解析文本，先通过训练好的卷积神经网络模型计算所述文本中可能存在的关系类型以及这些关系的语义编码向量；通过训练好的双向长短时记忆网络对输入文本进行语义编码，得到每一个词的语义向量；融合词的语义向量和关系语义向量并解码生成每一个词的标签向量。利用生成的标签向量特征，经过Softmax函数计算得到最大概率的标签值。通过解析生成的标签序列得到输入文本中的结构化信息。

图2是本发明实施例的网络模型训练方法流程示意图。如图2所示，对所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络和所述单向长短时记忆网络模型进行训练的方法，包括：

步骤B1，输入一个训练文本，在所述词向量层中利用查表法得到每一个词的向量化表示，进而将所述每一个词的向量化表示组合起来，得到句子的矩阵化表示；并使用dropout技术(是神经网络和深度学习模型的一种简单而有效的正则化方式)对词向量层进行正则；

步骤B5，根据所述标签序列，解析得到所述训练文本中的结构化信息。

图3是本发明实施例中词向量层和卷积神经网络的构成及数据流向示意图。如图3所示，其中的卷积层和最大池化层组成了卷积神经网络。

本实施例中，步骤B1中，“在所述词向量层中利用查表法得到每一个词的向量化表示，进而将所述每一个词的向量化表示组合起来，得到句子的矩阵化表示”，具体为：

给定一个训练好的word2vec词向量集合W∈R^|V|×d，其中d为词向量的维度，V为构建的词向量表，|V|表示词向量表的大小，则对于任意段落中长度为n的句子，可得到如公式(1)所示的句子的矩阵化表示：

s＝(w₁；w₂；...；w_n) (1)

其中，w_i为利用查表法在词向量集合中找到的第i个词对应的向量化表示。若词w_i未出现在已训练好的词向量集合中，则本发明的示例性实施例中直接对其进行随机初始化表示。

本实施例中，步骤B2中，“根据预定义关系类型集合，通过所述卷积神经网络模型获取所述训练文本中存在的关系类型，并分别获取所述训练文本中的各关系类型对应的编码向量”，具体包括：

在步骤B21中，在步骤B1生成的所述句子的矩阵化表示上进行一维卷积，获取卷积后的特征矩阵；

这里，句子s中从第i个词起始的l个连续词特征表示为公式(2)：

s_i:i+l-1＝(w_i；w_i+1；...；w_i+l-1) (2)

给定一个一维卷积核W_c1∈R^l×d，则对这l个连续词特征卷积后的卷积特征为公式(3)：

则句子s的特征经过W_c1∈R^l×d卷积后，如公式(4)所示：

其中，R^l×d表示实数域中l行d列的矩阵，l表示卷积窗口的大小，d表示词向量的维度，b⁽¹⁾是偏置项，f是激活函数。

在步骤B22中，在所述卷积后的特征矩阵上进行最大池化操作对特征进行压缩，得到句子的向量化表示；

本实施例中采用的最大池化操作，如公式(5)所示：

至此，每个卷积核会生成一个特征值

如果使用了k个卷积核，则经过一个卷积层，句子向量化表示的维度为k，最终会得到句子的向量化表示为公式(6)：

在步骤B23中，对所述句子的向量化表示进行线性变换得到输出向量，并使用dropout技术对所述词向量层进行正则；

具体地，对句子向量表示进行线性变换，得到输出向量如公式(7)所示：

y_r＝W^(r)·h⁽²⁾+b^(r) (7)

其中，输出向量y_r是m维的行向量，

W^(r)∈R^m×k是预先设定的关系向量矩阵，m是预定义关系类型的个数，预定义关系类型i的语义编码向量r∈R^k对应W^(r)∈R^m×k中的第i行元素，b^(r)是偏置项。使用Dropout技术可以防止过拟合，从而增强神经网络模型的鲁棒性。

在步骤B24中，根据所述预定义关系类型集合，以及公式(7)得到的输出向量，使用Softmax函数计算所述训练文本对应的各预定义关系类型的概率，得到所述训练文本中存在的关系类型，并将所述训练文本中各关系类型对应的语义编码向量作为所述训练文本中各关系类型对应的编码向量(将用于后续步骤B3中双向长短时记忆网络模型初始化和步骤B41中单向长短时记忆网络模型初始化)。

其中,根据预定义关系类型集合，以及输出向量使用Softmax激活函数计算各预定义关系类型的概率值，如公式(8)所示：

是表示句子对应第i个预定义关系类型的概率值,后续步骤B6中进行损失函数计算时将要用到该概率值，m表示预定义关系类型的个数。

若

大于等于预设的关系类型概率阈值，则表明所述训练文本中包含了第i个预定义关系类型；因此，我们可以得到训练文本中可能存在的一个或多个预定义关系类型，当然也可能一个都不存在。

对训练文本中存在的各关系类型，分别在关系向量矩阵W^(r)中选取对应的行，作为训练文本中各关系类型对应的编码向量。

图4是本发明实施例中双向长短时记忆网络的构成及数据流向示意图。

本实施例中，步骤B3中，“根据所述句子的矩阵化表示，以及所述训练文本中各关系类型对应的编码向量，通过所述双向长短时记忆网络模型，对所述训练文本进行语义编码，得到每一个词的语义向量”，包括：

将所述训练文本中各关系类型对应的编码向量作为所述双向长短时记忆网络模型中编码模块的正序和逆序的初始词向量，根据所述句子的矩阵化表示，按照长短时记忆网络的记忆模块计算方式，从正序和逆序的两种形式对每一个词进行语义编码，合并该词的正序和逆序的语义编码向量，得到该词的语义向量。具体操作包括：

通过循环方式逐个输入句子中的各个词w_t，并维护一个隐藏层

(

逆序)，隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出，正序编码的数学形式为公式(9)：

逆序编码的数学形式为公式(10)：

其中，w_t表示t时刻输入的词，

表示t时刻的行向量，

均表示t-1时刻的行向量，

均表示t+1刻的行向量，lstm是每一步的计算模块，其计算结构如图4所示，具体的数学形式为公式(11)-(16)：

i_t＝δ(W_wiw_t+W_hih_t-1+W_cic_t-1+b_i) (11)

f_t＝δ(W_wfw_t+W_hfh_t-1+W_cfc_t-1+b_f) (12)

z_t＝tanh(W_wcw_t+W_hch_t-1+b_c) (13)

c_t＝f_tc_t-1+i_tz_t (14)

o_t＝δ(W_wow_t+W_hoh_t-1+W_coc_t+b_o) (15)

h_t＝o_ttanh(c_t) (16)

i_t、f_t、o_t分别表示输入门、遗忘门和输出门；W_wi、W_hi、W_ci、W_wf、W_hf、W_cf、W_wc、W_hc、W_wo、W_ho、W_co分别表示权重矩阵；b_i、b_f、b_c、b_o分别表示偏置项；这里的δ以及图4中的σ均表示非线性函数，比如双曲正切函数tanh；h_t为词w_t的语义向量。

图5是本发明实施例中单向长短时记忆网络的构成及数据流向示意图。

本实施例中，步骤B4中，“根据所述每一个词的语义向量和所述训练文本中的各关系类型对应的编码向量，通过所述单向长短时记忆网络模型对所述训练文本进行序列标注，得到一个标签序列”，包括：

在步骤B41中，将步骤B3得到的所述每一个词的语义向量作为所述单向长短时记忆网络模型的解码层输入信息；将步骤B2得到的所述训练文本中的各关系类型对应的编码向量作为该解码层的初始化标签信息；利用所述单向长短时记忆网络模型生成每一个词的标签向量信息。

该步骤中，通过循环方式逐个输入句子中词w_t的语义编码向量h_t，计算得到词w_t对应的标签向量T_t。具体操作是通过维护一个解码隐藏层

解码隐藏层的输入不仅包括语义编码向量h_t还包括上一时刻解码隐藏层的输出

以及上一时刻的标签向量T_t-1，其具体计算结构如图5所示，数学形式如公式(17)-(23)所示：

分别表示输入门、遗忘门和输出门；

W_ts分别表示权重矩阵；

b_t分别表示偏置项；这里的δ以及图5中的σ均表示非线性函数，比如双曲正切函数tanh；线性变换后的标签向量T_t是M维的行向量，

M表示预定义标签类型的个数。

在步骤B42中，根据每一个词的标签向量信息，使用Softmax函数计算每一个词分别对应的预定义标签类型的概率，并选取最大概率的预定义标签作为该词的标签；将每个词的标签组合起来，得到一个标签序列；

其中，

根据每一个词的标签向量信息，使用Softmax函数计算每一个词分别对应的预定义标签类型的概率，如公式(24)所示：

表示词w_t对应第i个标签类型的概率值，该概率值也将在后续步骤B6中的损失函数计算时使用，M是预定义标签类型的个数。

我们取最大的

值对应的预定义标签类型作为词w_t的标签；将每个词的标签组合起来，就得到一个标签序列。

所述预定义标签，包括：词的位置信息部分、词的关系角色部分；所述词的位置信息部分，包括：词在实体的开头、词在实体的中间、词在实体的结束位置或词本身是一个完整的实体；所述词的关系角色部分，包括：预设的第一关系角色或预设的第二关系角色；所述预设的第一关系角色，与结构化信息中的第一个实体元素对应；所述预设的第二关系角色，与结构化信息中的第二个实体元素对应。这是所说的第一个实体元素和第二个实体元素，分别指的是：构成三元组的主语和宾语，有可能由一个词(如，美国)或者多个词(如，中华人民共和国)组成。

输入句子中的每一个词语都被赋予了一个标签，该标签包含着结构化信息。本实施例中，标签“O”对应的词语是和结果无关的词。除了标签“O”，其它的标签都由两部分信息组成：词在实体中的位置信息、词的关系角色。我们采用“BIES(Begin,Inside,End,Single)”四种符号表示词语在实体中的位置情况，其中“B”表示词语在实体的开头，“I”表示词语在实体的中间，“E”表示词语在实体的结束位置，S则表示当前词就是一个完整的实体。实体的关系角色采用数字“1”和“2”表示，数字“1”表示该词对应着“实体1”，数字“2”表示该词属于“实体2”。

本实施例中，步骤B5中，“根据所述标签序列，从所述待解析文本中抽取结构化信息”，包括：

具体操作是：将标签序列中距离最近的一对包含“1”和“2”的实体词进行匹配。其中，结构化信息中的第一个实体元素是包含数字“1”的标签对应的词语；结构化信息中的第二个实体元素是包含数字“2”的标签对应的词语；结构化信息中的关系类型元素是由卷积神经网络生成的关系类型值R。

本实施例中，步骤B6具体包括：

使用交叉熵损失函数作为训练目标函数，计算方法如公式(25)所示：

其中，m表示预定义关系类型的总个数，r_i是预定义关系类型的概率值，取值为0或1，

是预测的第i个关系类型的概率值，M是预定义标签的总个数，y_j是第j个预定义标签的概率值，取值为0或1，

是预测的第j个标签的概率值，θ表示模型中所有的参数。

当公式(25)计算出的L(θ)值不再减小时，即达到所述预设的收敛条件，可以停止训练。若没有达到预设的收敛条件，则分别调整所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络和所述单向长短时记忆网络模型的参数，然后返回到步骤B1继续训练。

图6为本发明实施例的抽取过程和数据流向示意图。如图6所示，输入文本为：“新任美国总统唐纳德特然普”；通过词向量层可以得到5个对应的词向量w₁～w₅；词向量经过卷积神经网络CNN后得到关系类型值R；词向量经过双向长短时记忆网络Bi-LSTM进行语义编码之后，得到语义向量h₁～h₅；再经单向长短时记忆网络LSTMd进行解码之后，得到标签序列T₁～T₅；使用Softmax激活函数计算标签类型的概率值，确定每个词对应的标签；最终选择S-1和B-2两个标签作为距离最近的一对包含“1”和“2”的标签(B-2和E-2共同组成的是一个词)；将这两个标签对应的实体词(“美国”、“唐纳德特然普”)分别作为结构化信息中的第一个实体元素和第二个实体元素，将关系类型值R(“国家-总统”)作为结构化信息中的关系类型元素；最终的抽取结果是：“{美国，国家-总统，唐纳德特然普}”。

图7是本发明实施例中基于记忆神经网络的知识抽取方法的流程示意图。如图7所示，本实施例的抽取方法包括以下步骤：

步骤A1，接收待解析文本，利用训练好的词向量层生成所述句子的矩阵化表示；

步骤A2，根据所述句子的矩阵化表示，以及预定义关系类型集合，通过训练好的卷积神经网络模型获取待解析文本中的可能存在预定义关系类型，并分别获取所述待解析文本中的各关系类型对应的编码向量；

步骤A3，根据所述句子的矩阵化表示，以及所述待解析文本中的各预定义关系类型对应的编码向量，通过训练好的双向长短时记忆网络模型，对所述待解析文本进行语义编码，得到每一个词的语义向量。

步骤A4，根据所述每一个词的语义向量和所述待解析文本中的各关系类型对应的编码向量，通过训练好的单向长短时记忆网络模型对所述待解析文本进行序列标注，得到一个标签序列。

其中，所述结构化信息，包括：第一实体元素、第二实体元素，以及关系类型元素。

上述步骤A1至A5的计算过程与前述训练过程中的步骤B1至B5的计算过程基本相同，只是其中不包含对词向量层进行正则的步骤。

为了准确评估本发明方法的结构化信息抽取性能，本发明通过计算抽取结果的精确率、召回率以及F1值作为评价指标。其中，精确率的定义如公式(26)所示：

N_r是抽取出的结构化信息中正确信息的个数，N_e是抽取出的所有结构化信息的个数。召回率的定义如公式(27)所示：

N_all是测试样本中实际包含的符合预定义关系类型的结构化信息的个数。F1值的定义如公式(28)所示：

本发明试验中采用采用百度百科和互动百科的回标语料。训练数据直接采用回标语料，这样可以保证训练集规模不受人工标注的影响，节省人力，但同时会引入回标误差。测试集是人工手动标注，保证了评测数据的准确性，能够有效验证方法好坏。我们共选取三类实体：人物、机构、地点，每类实体下面选择5种的关系，具体统计信息如表1所示：

表1

本发明试验中采用以下对比方法：

对比方法一：基于LSTM-CRF和CNN的方法，该方法先利用LSTM-CRF模型识别输入句子中的实体信息，然后再利用CNN模型判别各实体对之间的关系类型，进而获取文本中的结构化信息；

对比方法二：基于LSTM-CRF和LSTM的方法，该方法先利用LSTM-CRF模型识别输入句子中的实体信息，然后再利用LSTM模型判别各实体对之间的关系类型，进而获取文本中的结构化信息；

对比方法三：基于LSTM-LSTM和CNN的方法，该方法先利用LSTM-LSTM模型识别输入句子中的实体信息，然后再利用CNN模型判别各实体对之间的关系类型，进而获取文本中的结构化信息；

对比方法四：基于LSTM-LSTM和LSTM的方法，该方法先利用LSTM-LSTM模型识别输入句子中的实体信息，然后再利用LSTM模型判别各实体对之间的关系类型，进而获取文本中的结构化信息；

本发明的抽取方法和上述四个对比方法在三个数据集上的结构化信息抽取评测结果，如表2所示：

表2

从表2可以看出，在人物、机构、地点三类数据中，本发明方法的F1值都明显高于其他四个对比方法，并且除了地点相关的数据集中准确率(Pre)低于对比方法三外，本发明方法的准确率和召回率(Rec)都要高于其他四个对比方法。因此，本发明抽取方法的性能显著优越于其他对比方法。

本发明实施例的一种基于记忆神经网络的知识抽取系统，基于上面所述的基于记忆神经网络的知识抽取方法，包括：词向量层、卷积神经网络模型、双向长短时记忆网络模型、单向长短时记忆网络模型、解析模块、参数调整模块。

所述词向量层，配置为：接收输入文本，生成句子的矩阵化表示。

所述卷积神经网络模型，配置为：根据所述句子的矩阵化表示，以及预定义关系类型集合，获取输入文本中存在的预定义关系类型，并分别获取所述输入文本中的各关系类型对应的编码向量。

所述双向长短时记忆网络模型，配置为：根据所述输入文本中的各关系类型对应的编码向量，对所述输入文本进行语义编码，得到每一个词的语义向量。

所述单向长短时记忆网络模型，配置为：根据所述每一个词的语义向量和所述输入文本中的各关系类型对应的编码向量，对所述输入文本进行序列标注，得到一个标签序列。

所述解析模块，配置为：根据所述标签序列，从所述输入文本中抽取结构化信息。

所述参数调整模块，配置为：计算损失函数，判断是否达到预设的收敛条件，若未达到，则分别调整所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络模型和所述单向长短时记忆网络模型的参数。

参数调整模块只有在模型训练时才使用，其他各模块和网络模型，在模型训练和后续的抽取工作中都会用到。

本发明实施例的一种存储设备，其中存储有程序，所述程序适于由处理器加载并执行，以实现上面所述的基于记忆神经网络的知识抽取方法。

本发明实施例的一种处理设备，包括：处理器和存储设备。

其中，处理器适于执行程序；存储设备适于存储该程序；所述程序适于由处理器加载并执行以实现上面所述的基于记忆神经网络的知识抽取方法。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于记忆神经网络的知识抽取方法，其特征在于，包括以下步骤：

其中，

2.根据权利要求1所述的知识抽取方法，其特征在于，步骤B2中，“根据预定义关系类型集合，通过所述卷积神经网络模型获取所述训练文本中存在的关系类型，并分别获取所述训练文本中的各关系类型对应的编码向量”，包括：

3.根据权利要求1所述的知识抽取方法，其特征在于，步骤B3中，“根据所述句子的矩阵化表示，以及所述训练文本中各关系类型对应的编码向量，通过所述双向长短时记忆网络模型，对所述训练文本进行语义编码，得到每一个词的语义向量”，包括：

4.根据权利要求1所述的知识抽取方法，其特征在于，步骤B4中，“根据所述每一个词的语义向量和所述训练文本中的各关系类型对应的编码向量，通过所述单向长短时记忆网络模型对所述训练文本进行序列标注，得到一个标签序列”，包括：

其中，

5.根据权利要求4所述的知识抽取方法，其特征在于，步骤B5中，“根据所述标签序列，解析得到所述训练文本中的结构化信息”，包括：

6.根据权利要求5所述的知识抽取方法，其特征在于，步骤B6中，“计算损失函数，判断是否达到预设的收敛条件”，包括：

利用下式计算交叉熵损失函数：

若L(θ)值不再减小，则达到所述预设的收敛条件；

是预测的第j个标签的概率值；θ表示模型中所有的参数。

7.根据权利要求1所述的知识抽取方法，其特征在于，步骤B1中，“在所述词向量层中利用查表法得到每一个词的向量化表示，进而将所述每一个词的向量化表示组合起来，得到句子的矩阵化表示”，具体为：

s＝(w₁；w₂；...；w_n)

其中，w_n为利用查表法在词向量集合中找到的第n个词对应的向量化表示。

8.根据权利要求1-7中任一项所述的知识抽取方法，其特征在于，还包括评价结构化信息抽取性能的步骤：

9.一种基于记忆神经网络的知识抽取系统，其特征在于，基于权利要求1-7中任一项所述的基于记忆神经网络的知识抽取方法，包括：词向量层、卷积神经网络模型、双向长短时记忆网络模型、单向长短时记忆网络模型、解析模块、参数调整模块；

所述参数调整模块，配置为：计算损失函数，判断是否达到预设的收敛条件，若未达到，则分别调整所述词向量层、所述卷积神经网络模型、所述双向长短时记忆网络模型和所述单向长短时记忆网络模型的参数；

10.一种存储设备，其中存储有程序，所述程序适于由处理器加载并执行，以实现权利要求1-7中任一项所述的基于记忆神经网络的知识抽取方法。

11.一种处理设备，包括：

处理器，适于执行程序；以及

存储设备，适于存储该程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7中任一项所述的基于记忆神经网络的知识抽取方法。