CN110968660B

CN110968660B - 基于联合训练模型的信息抽取方法和系统

Info

Publication number: CN110968660B
Application number: CN201911253350.8A
Authority: CN
Inventors: 饶璐; 孙锐
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2022-05-06
Anticipated expiration: 2039-12-09
Also published as: CN110968660A

Abstract

本发明提出一种基于联合训练模型的信息抽取方法和系统，属于自然语言处理和深度学习技术领域。为解决现有信息抽取技术中存在的耗费大量的人力和时间、模型的灵活性不高、错误传递和信息抽取不完全的问题，本发明包括：对语料进行标注，得到包含标注信息的训练语料；对训练语料进行采样；将采样后的语料中的每个字转化成词向量；将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练，迭代更新联合模型的神经网络参数，得到训练好的信息抽取联合模型；将待抽取的文本输入所述信息抽取联合模型，提取出包含头实体、尾实体和实体关系的三元组信息。

Description

基于联合训练模型的信息抽取方法和系统

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种基于联合训练模型的信息抽取方法和系统。

背景技术

随着信息技术的迅速发展和硬件设备的不断升级，利用海量数据通过深度学习模型从文本中提取相应信息的需求越来越大，并应用于各种不同的场景中。信息抽取就是从非结构化的文本中提取出结构化的信息，通常情况下，信息抽取任务主要分为实体抽取和关系抽取两个子任务，常用的方法包括基于规则的方法，基于机器学习的方法和基于深度学习的方法。

早期的信息抽取任务主要是基于规则和统计的方法，该方法可分为两个阶段：一是构建规则表达式，二是利用规则表达式对文本进行信息抽取。这种方法需要规则构建人员具有丰富的语言学知识，并且能够穷举到尽可能多的需要匹配的文本元素，所以该方法存在的问题就是需要大量的人力和时间，一个具有较高准确度和精确性的信息抽取模型需要耗费很多人力资源和时间才能完成。

现有技术中，申请号为CN 108647194 A的专利申请提供了一种信息抽取方法及装置，该方法利用统计模型来识别所述文本中的实体和依存成分，从一定程度上扩大了识别词汇的范围，但仍需要通过构建规则来对统计模型进行调用，针对不同的语言场景需要更换不同的规则，模型灵活性不高且前期的规则编写耗时耗力。

申请号为CN 109165279 A的专利申请提供了一种信息抽取方法及装置，该方法完全摆脱了规则的束缚，利用标注语料和深度学习算法来对信息抽取模型进行训练，有效提高了信息抽取的效率。但该方法仅利用双向长短期记忆网络(Bi-LSTM)来对文本中的部分功能性词汇进行抽取，没有抽取出文本中的实体和实体关系。

申请号为CN 108959286 A的专利申请提供了一种信息抽取方法和信息抽取设备，该信息抽取方法采用的是目前较为常用的先识别实体后识别关系的方式，但这种方式存在错误传递的问题，一旦识别实体模块出现错误，该错误将会被传递到关系抽取模块。同时，该方法无法识别出同一对实体存在多种不同关系的情况。

综上所述，现有信息抽取技术存在以下几点问题：

1)基于规则的方法需要耗费大量的人力和时间来对规则进行编写，而且规则无法覆盖复杂的语法结构，模型的灵活性不高。

2)常用的基于机器学习和深度学习的信息抽取模型，采用先识别实体后识别关系的方式，这种方式通常存在错误传递的问题，如果实体抽取错误，那么关系抽取模块也将受到影响。

3)目前的大多数信息抽取模型在抽取三元组时，由于序列标注模型的限制，一般一对实体之间只能预测一种关系，但实际往往同一对实体存在多种关系的情况，所以该类方法存在信息抽取不完全的问题。

发明内容

本发明的目的是提供一种基于联合训练模型的信息抽取方法和系统，解决现有信息抽取技术中存在的耗费大量的人力和时间、模型的灵活性不高、错误传递和信息抽取不完全的问题。

本发明解决其技术问题，采用的技术方案是：基于联合训练模型的信息抽取方法，包括如下步骤：

步骤1、对语料进行标注，得到包含标注信息的训练语料；

步骤2、对训练语料进行采样；

步骤3、将采样后的语料中的每个字转化成词向量；

步骤4、将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练，迭代更新联合模型的神经网络参数，得到训练好的信息抽取联合模型；

步骤5、将待抽取的文本输入所述信息抽取联合模型，提取出包含头实体、尾实体和实体关系的三元组信息。

进一步的是，步骤2中，对训练语料的采样的方法，包括：对每条文本中的实体和关系进行随机采样或者全采样。

进一步的是，步骤3中，将语料中的文本转换成词向量的方法，包括：随机生成的词向量表示方法，或基于深度学习的语言模型训练得到的向量表示方法，或其它预训练语言模型训练得到的词向量表示方法。

进一步的是，步骤4中，将所述词向量输入的两个基于不同神经网络的深度学习模型，包括：一个用于识别头实体的神经网络模型和一个用于识别尾实体和关系的神经网络模型，用于识别头实体的模型采用双向GRU神经网络和卷积神经网络，模型输入为待抽取文本，输出为头实体位置信息，用于识别尾实体和关系的模型主要采用卷积神经网络，模型输入为待抽取文本和头实体位置信息，输出为含有关系标签的尾实体位置信息。

进一步的是，步骤4中，迭代更新联合模型的神经网络参数的方法，包括：使用焦点损失函数来计算预测值与真实值之间的差距，采用梯度下降算法来对神经网络参数进行优化。

进一步的是，步骤5中，将待抽取的文本输入所述信息抽取联合模型后，提取出包含实体和实体关系的三元组信息的方法，包括：根据头实体模型预测出来的位置信息判断出头实体，再根据头实体的位置信息预测出尾实体和实体关系。

基于联合训练模型的信息抽取系统，包括：

语料标注单元，用于对语料进行标注，得到包含标注信息的训练语料；

语料采样单元，对训练语料进行采样；

文本词向量转换单元，用于将所述语料中的每个字转化成词向量；

深度学习模型联合训练单元，用于将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练，迭代更新联合模型的神经网络参数，得到训练好的信息抽取联合模型；

信息抽取三元组生成单元，将待抽取的文本输入所述信息抽取联合模型，提取出包含头实体、尾实体和实体关系的三元组信息。

本发明的有益效果是，通过上述基于联合训练模型的信息抽取方法和系统，本发明不需要大量的人力和时间来对规则进行编写，本发明是基于联合训练的深度学习模型，不会产生错误传递问题，提高了信息抽取任务的准确度；本发明能够识别多样的实体对和关系类型，能够有效识别出同一对实体存在多种关系的情况，以及一个实体存在于多对不同关系和实体对中的情况。

附图说明

图1为本发明基于联合训练的信息抽取方法的流程图；

图2为本发明基于联合训练的信息抽取方法中的用于识别头实体的模型框架图；

图3为本发明基于联合训练的信息抽取方法中的用于识别尾实体和对应关系的模型框架图；

图4为本发明基于联合训练的信息抽取系统的系统架构图。

具体实施方式

下面结合附图，详细描述本发明的技术方案。

本发明所述基于联合训练的信息抽取方法，其流程图参见图1，其中，该方法包括：

步骤1、对语料进行标注，得到包含标注信息的训练语料。

标注语料的方法，包括：采用非人工标注方式，通过非监督的方式进行远程标注，得到标注好的训练语料。

步骤2、对训练语料进行采样。

训练语料的采样方法，包括：对每条文本中的实体和实体关系进行随机采样，具体方式是对头实体进行随机采样，再匹配出与该头实体相关联的所有尾实体和关系信息。

训练语料的采样方法，还包括：对文本中的所有实体对和关系进行全采样。

步骤3、将所述采样后的语料中的每个字转化成词向量。

将所述采样后的语料中的每个字转化成词向量的方法，包括：随机生成一定长度的向量表示，在模型训练过程中根据模型参数的迭代更新而更新。

将所述采样后的语料中的每个字转化成词向量的方法，还包括：利用深度学习模型预训练词向量，这样的深度学习模型有word2vec模型，Glove模型等。

步骤4、将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练，迭代更新联合模型的神经网络参数，得到训练好的信息抽取联合模型。

两个基于不同神经网络的深度学习模型，具体为：一个用于识别文本中头实体的深度学习模型，和一个用于识别与头实体对应的尾实体以及他们对应关系的深度学习模型。用于识别头实体的模型主要采用双向GRU神经网络和卷积神经网络，模型输入为待抽取文本，输出为头实体位置信息，用于识别尾实体和关系的模型主要采用卷积神经网络，模型输入为待抽取文本和头实体位置信息，输出为含有关系标签的尾实体位置信息。

迭代更新联合模型的神经网络参数的方法，包括：使用焦点损失函数来计算预测值与真实值之间的差距，采用梯度下降算法来对神经网络参数进行优化。

从待抽取文本中提取出包含实体和实体关系的三元组信息，具体为：先将文本传入头实体预测模型，根据预测出的头实体的位置信息判断出头实体，再将头实体位置信息和待抽取文本传入尾实体和关系预测模型，预测出尾实体和它们之间对应的关系。

如图2所示，是本发明基于联合训练的信息抽取方法中的用于识别头实体的模型框架图，包括：

输入文本向量表示的输入层，随机去掉部分神经元的Dropout层，若干双向GRU网络层，若干卷积层和池化层，采用Sigmoid激活函数的输出层，最后预测出头实体位置信息。

如图3所示，是本发明基于联合训练的信息抽取方法中的用于识别尾实体和对应关系的模型框架图，包括：

输入文本向量表示和头实体位置信息的输入层，将文本信息和头实体位置信息合并的全连接层，若干卷积层和池化层，随机去掉部分神经元的Dropout层，采用Softmax激活函数的输出层，最后预测出尾实体位置信息和其对应的关系。

根据本发明提供的方法，针对任意输入的文本，所述方法能够迅速识别出文本中的实体和实体关系信息，技术人员不需要花费大量的时间和精力来对信息抽取的规则进行编写，同时能够避免常用的信息抽取方法中存在的错误传递问题，提高信息抽取任务的准确度，除此之外，还能够有效识别出存在重叠关系的实体对和关系信息。

如图4所示，是本发明提出的基于联合训练的信息抽取系统的系统架构图，包括：

语料采样单元，对训练语料进行采样；

文本词向量转换单元，用于将所述采样后的语料中的每个字转化成词向量；

根据本发明提供的基于联合训练的信息抽取系统，不需要花费大量的人力和时间在前期的规则编写工作上，能够有效避免传统方法中存在的错误传递问题，还能够识别出同一对实体存在多种关系和同一实体处在不同关系中的复杂三元组信息，提高了信息抽取任务的准确率和召回率。

Claims

1.基于联合训练模型的信息抽取方法，其特征在于，包括如下步骤：

步骤1、对语料进行标注，得到包含标注信息的训练语料；

步骤2、对训练语料进行采样；

步骤3、将采样后的语料中的每个字转化成词向量；

步骤5、将待抽取的文本输入所述信息抽取联合模型，提取出包含头实体、尾实体和实体关系的三元组信息；

步骤4中，将所述词向量输入的两个基于不同神经网络的深度学习模型，包括：一个用于识别头实体的神经网络模型和一个用于识别尾实体和关系的神经网络模型，用于识别头实体的模型采用双向GRU神经网络和卷积神经网络，模型输入为待抽取文本，输出为头实体位置信息，用于识别尾实体和关系的模型采用卷积神经网络，模型输入为待抽取文本和头实体位置信息，输出为含有关系标签的尾实体位置信息。

2.根据权利要求1所述的基于联合训练模型的信息抽取方法，其特征在于，步骤2中，对训练语料的采样的方法，包括：对每条文本中的实体和关系进行随机采样或者全采样。

3.根据权利要求1所述的基于联合训练模型的信息抽取方法，其特征在于，步骤3中，将语料中的文本转换成词向量的方法，包括：随机生成的词向量表示方法，或基于深度学习的语言模型训练得到的向量表示方法，或其它预训练语言模型训练得到的词向量表示方法。

4.根据权利要求1所述的基于联合训练模型的信息抽取方法，其特征在于，步骤4中，迭代更新联合模型的神经网络参数的方法，包括：使用焦点损失函数来计算预测值与真实值之间的差距，采用梯度下降算法来对神经网络参数进行优化。

5.根据权利要求1所述的基于联合训练模型的信息抽取方法，其特征在于，步骤5中，将待抽取的文本输入所述信息抽取联合模型后，提取出包含实体和实体关系的三元组信息的方法，包括：根据头实体模型预测出来的位置信息判断出头实体，再根据头实体的位置信息预测出尾实体和实体关系。

6.基于联合训练模型的信息抽取系统，其特征在于，包括：

语料采样单元，对训练语料进行采样；

深度学习模型联合训练单元，用于将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练，迭代更新联合模型的神经网络参数，得到训练好的信息抽取联合模型；将所述词向量输入的两个基于不同神经网络的深度学习模型，包括：一个用于识别头实体的神经网络模型和一个用于识别尾实体和关系的神经网络模型，用于识别头实体的模型采用双向GRU神经网络和卷积神经网络，模型输入为待抽取文本，输出为头实体位置信息，用于识别尾实体和关系的模型采用卷积神经网络，模型输入为待抽取文本和头实体位置信息，输出为含有关系标签的尾实体位置信息；