CN112215004A

CN112215004A - 一种基于迁移学习在军事装备文本实体抽取中的应用方法

Info

Publication number: CN112215004A
Application number: CN202010920424.5A
Authority: CN
Inventors: 徐建; 吴蔚; 阮国庆; 王鑫鹏
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-01-12
Anticipated expiration: 2040-09-04
Also published as: CN112215004B

Abstract

本发明提供了一种基于迁移学习在军事装备文本实体抽取中的应用方法，包括：步骤1，建立用于边界抽取和文本片段分类的网络模型做为文本实体抽取的骨架模型，有效的克服了不同领域抽取实体类型不同带来的网络结构的差异；步骤2，分析源领域数据，构造源领域问题集，实现任务适配；步骤3，利用基于掩码的语言模型实现领域适配；步骤4，将完成领域适配和任务适配的模型应用在目标领域，完成军事装备文本信息的抽取。发明有效的克服了不同领域抽取实体类型不同带来的网络结构的差异；本发明充分利用已有的开源序列标注数据，在此基础上训练命名实体识别模型，并将学到的知识应用在目标领域，有效的减少了目标领域数据标注工作。

Description

一种基于迁移学习在军事装备文本实体抽取中的应用方法

技术领域

本发明涉及一种基于迁移学习在军事装备文本实体抽取中的应用方法。

背景技术

命名实体识别(NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别。

命名实体识别是自然语言处理研究领域中的一项很重要的基础性任务，是实体关系抽取和事件抽取等高层任务重要基石。

军事装备试验鉴定文本是指通过规范化的组织形式和试验活动，对被试对象进行全面考核并作出评价结论的国家最高检验行为，涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域，涉及面广、专业性强。

由于该领域特殊性及专业性，开放语料非常匮乏，标注过程也需要多次迭代进行：独立标注、交叉检查、专家复核、修改迭代的方式，保证标注一致性，可以看到整个标注过程非常复杂和繁琐。如何在缺乏标注语料或只有少量标注语料条件下，提高命名实体识别的效果是自然语言处理领域的一个重要研究方向。

发明内容

发明目的：本发明所要解决的技术问题是在缺乏标注语料或只有少量标注语料条件下，提高命名实体识别的效果，并具体提供一种基于迁移学习在军事装备文本实体抽取中的应用方法，包括如下步骤：

步骤1，建立用于边界抽取和文本片段分类的网络模型做为文本实体抽取的骨架模型，有效的克服了不同领域抽取实体类型不同带来的网络结构的差异；

步骤2，分析源领域数据，构造源领域问题集，实现任务适配；

步骤3，利用基于掩码的语言模型实现领域适配；

步骤4，将完成领域适配和任务适配的模型应用在目标领域，完成军事装备文本信息的抽取。

步骤1包括：

步骤1-1，文本编码；

步骤1-2，检测实体边界；

步骤1-3，文本片段分类。

步骤1-1包括：给定问题Q和段落P，问题Q：

段落P:

(问题和段落都是由字符组成的，字符用tok_i、tok_j表示)，添加开头和结尾的两个特殊字符[CLS],[SEP]作为自然语言处理模型bert的输入，然后经过自然语言处理模型bert的L层transfomer模块编码得到句子的上下文向量表示h_i：

h_i＝TransformerBlock_L(tok_i)

其中tok_i表示句子的单个字符，问题的字符长度为M，段落的字符长度为N。

参考文献：BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding。

步骤1-2包括：

边界检测的目的是希望得到实体的边界，也就是判断当前字符是否是实体的开始或者结束位置，利用两个全连接的网络结构做字符层面的分类。

将句子的上下文向量表示h_i经过一个多层感知机分类器MLP_start，再经过一个softmax层得到字符tok_i是实体开始位置的概率

(参考文献地址：http://deeplearning.net/tutorial/mlp.html)：

利用另一个多层感知机分类器MLP_end得到字符是实体结束位置的概率

将所有实体出现的位置作为正样本，将训练的损失函数定义为所有实现出现位置的损失函数之和，如下所示：

其中

表示开始位置的损失函数，

表示结束位置的损失函数，Loss_boundary表示开始位置和结束位置损失函数之和。

表示字符i是否是实体的开始位置，如果是则标记为1否则标记为0，

表示字符i是否是实体的结束位置，如果是则标记为1否则标记为0；

和

表示网络输出，

代表了位置i作为开始位置的概率，

代表了位置i作为结束位置的概率，得到开始和结束位置即能够得到文本片段。

步骤1-3包括：

军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类，将步骤1-2抽取的文本片段划分到这4个类中，如果不属于任何类别标记为其他：

设定文本片段表示为{tok_i,.....,tok_j}，利用自然语言处理模型bert编码后的向量表示为{h_i,....h_j}，h_j表示段落中第j个字符tok_j利用自然语言处理模型bert编码后的向量表示，记V_span＝[h_i,h_j]为文本片段span的向量表示，经过一个多层感知机MLP分类器，以及softmax层得到文本片段span的网络预测输出P_span：

P_span＝softmax(MLP_span(V_span))

利用交叉熵作为训练损失函数：

其中k是类别个数，

表示span是否是类别t，

表示文本片段sp属于类别t的概率，

表示多标签交叉熵损失。

步骤1-4包括：综合步骤1-2中的实体边界损失和和步骤1-3中的片段分类损失，采用如下公式联合训练边界抽取和片段分类：

Loss＝Loss_boundary+Loss_sp，

其中实体边界损失Loss_boundary来自于步骤1-2，片段分类损失Loss_sp来自于步骤1-3，Loss表示综合损失。

步骤2包括：

将MRC应用到序列标注任务中，主要思想就是构建阅读理解问题，然后将该问题与原始文本passage进行拼接，然后利用上述两个步骤做信息抽取。因此，query问题的质量关系到整个任务的完成情况。

针对源领域的lic2020-ee数据集，将事件类型与论元类型进行合并，得到217条不同的标签label形态，将所述217条不同的标签形态视作要做序列标注的217种不同的标签，针对每种标签构建一个适用于该标签的问题，在对这217种标签进行分析后，将它们分为四类：通用性的标签、事件强相关的标签、对于数字类的标签、其他。

a)、通用性的标签，比如所有事件类型中的时间、人数、人物对象等论元都是具有一定通用性的，这种标签即使跟不同的事件类型进行整合后，表达的含义基本相同。因此这类论元对应的问题基本都不用变化，只需要在query之前增加事件类型字符串以示区分：

获奖-时间：找到获奖事件发生的时间,包含年、月、日、天、周、时、分、秒等求婚-时间：找到求婚事件发生的时间,包含年、月、日、天、周、时、分、秒等

b)、事件强相关的标签。这类标签通常与具体的事件类型有一定的关联，例如晋级-晋级方，罚款-执法机构等。这类标签的query可能需要提到事件类型的某些属性：

罚款-执法机构：拥有相对独立的法律地位和组织结构的行政机构

c)、对于数字类的标签：例如回答死亡人数时，将年龄答案预测为了该答案。这种错误可以理解为数字类的回答通常都比较短小，且由数字和某个计量单位组成，因此模型很容易将其混淆。而我原始的问题生成时，对于大部分的数字问题都使用了原始的论元描述，需要针对数字问题专门设计问题，例如袭击-死亡人数：袭击-死亡人数：袭击导致了多少人死亡？通常以人数为计量单位。

d)、其他：只是单纯保留其原始的论元类型描述，与事件类型整合，例如涨停-涨停股票等：涨停-涨停股票：涨停-涨停股票。

步骤3包括：

需要迁移到的目标领域是军事装备试验鉴定数据集，利用语言模型作为沟通这两个领域的桥梁，为了训练语言模型，通过抓取国际防务快讯网站(http://www.dsti.net/Information/NewsList/)的语料构建语言模型。

步骤3-1，

针对防务快讯网站，利用网页解析工具BeautifulSoup抽取其网页中div类型为newsContent的标签，得到网页正文，并过滤掉英文文章；将文章分段，并且保证每个段落长度少于200个字符；

步骤3-2，利用步骤3-1抓取的文章做目标领域适配，利用掩码语言模型maskedlanguage model来预测随机掩盖掉的单词，该过程称为伪极大似然(Pseudo Log-Likelihood)，该过程损失函数L_MLM(θ；D)记为：

其中|D|表示所有样本个数；X表示字符组成的单个样本；|X|表示句子单词个数；t表示样本中每个单词，x_t是单词的t的向量表示，X\t表示句子中去除掉t以后的剩余单词；上述公式刻画了根据给定单词的上下文最大化该单词的预测概率。

步骤3-3，对文章利用开源库jieba进行分词，对其中15％单词进行替换，具体包括3种形式的操作，80％的单词用[MASK]替换，10％的单词用随机的单词替换，10％的单词保持不变；

步骤3-4，联合任务同时优化：

利用源领域的标注数据和目标领域的无标注数据完成领域适配和任务适配(源领域标注数据就是训练数据，目标领域无标注数据就是爬虫爬取的防务快讯)，并利用这两个过程的损失函数之和记为最后的损失函数Loss：

Loss＝Loss_boundary+L_MLM，其中参数L_MLM来自于步骤3-2中掩码语言模型；

其中Loss_boundary自步骤1-2，表示抽取损失和文本片段分类损失函数之和。

步骤4包括：

步骤4-1：构建目标领域问题：

针对军事装备试验鉴定文本，需要抽取的实体类型包括4类：试验要素、性能指标、系统组成和任务场景。试验要素是指试验鉴定工作的对象以及完成该试验鉴定所需的条件；性能指标是试验要素在性能方面的定性和定量描述；系统组成是指试验对象的组成结构；任务场景是试验要素发挥价值需要的条件；

利用信息增益计算每个类别的关键词集合，并将关键词集合拼接到实体类型的描述之后构建该实体类型的问题，计算信息增益的具体过程如下：

利用卡方检定判断关键词在其类别的权重：通过如下公式计算针对类别c单词t的卡方统计量χ²(t,c)：

其中，公式中各个参数的含义，说明如下：

N：表示训练数据集文档总数；

A：包括词条t，同时属于类别c的文档的数量；

B：包含词条t，但是不属于类别c的文档的数量；

C：属于类别c，但是不包含词条t的文档的数量；

D：不属于类别c，同时也不包含词条t的文档的数量；

设定词条t与类别c不相关；对于每个词条，计算它与类别c的卡方值，将结果从大到小排个序，按照卡方值降序排列取前k个词条；

步骤4-2：利用每个类别的关键词集合，拼接上实体类型描述得到实体的问题语句，然后加载前面步骤中经过领域适配和任务适配后的网络模型，在目标领域微调(同样的结构，在目标领域标注数据集上重新训练)，抽取军事装备文本中的信息。

本发明建立的用于边界抽取和文本片段分类的网络模型，有效的克服了不同领域抽取实体类型不同带来的网络结构的差异；

本发明充分利用已有的开源序列标注数据，在此基础上训练命名实体识别模型，并将学到的知识应用在目标领域，有效的减少了目标领域数据标注工作。

有益效果：本发明将开源的百度开源的数据结lic2020-ee作为作为源领域，源领域是百度发布的中文事件抽取数据集，包含65个事件类型，每种事件类型都有不同数量的论元，将事件类型与论元组合成一种实体类型后，能够得到217种类型。将军事装备试验鉴定数据集作为目标领域，目标领域涉及的实体类型包括:试验要素、性能指标、系统组成和任务场景。实验表明经过领域适配和任务适配以后，本发明可以将源领域的知识有效的迁移到目标领域，大大减少了目标领域所需要的数据标注量，有效的完成了迁移学习的过程。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明架构图。

具体实施方式

如图1所示，本发明提供了一种基于迁移学习在军事装备文本实体抽取中的应用方法，

包括如下步骤：

步骤1，建立用于边界抽取和文本片段分类的网络模型做为文本实体抽取的骨架模型，有效的克服了不同领域抽取实体类型不同带来的网络结构的差异，本发明提出了基于阅读理解的抽取+分类的网络模型，有效的克服了不同领域因为标注数据类型不同导致的网络结构差异；

步骤2，利用百度开源的事件抽取数据集作为源领域，将该领域事件类型和论元拼接成217种类型的问题，我们对不同问题分析以后，构造源领域问题集，并针对该问题训练网络模型实现任务层面的适配；

步骤3，爬取防务快讯网站的文本作为目标领域的原始语料，利用基于掩码的语言模型实现领域适配；

步骤4，将完成领域适配和任务适配的模型应用在军事鉴定文本数据集，该数据集需要抽取试验要素、性能指标、系统组成和任务场景这4种类型的实体，完成军事装备文本信息的抽取。

步骤1包括：

步骤1-1，文本编码；

步骤1-2，检测实体边界；

步骤1-3，文本片段分类。

步骤1-1，文本编码；

步骤1-2，检测实体边界；

步骤1-3，文本片段分类；

步骤1-4，联合训练边界抽取和片段分类。

步骤1-1包括：

给定问题Q：

和段落P:

并加上开始字符[CLS]和分割字符[SEP]作为bert的输入，然后经过bert的L层transformer模块编码得到句子的上下文向量表示h_i：

h_i＝TransformerBlock_L(tok_i)

其中tok_i表示句子的单个字符，问题的字符长度为M，段落的字符长度为N。其中transformer引用bert中。具体采用bert base作为编码模块，这里的L取12层，并且只用最后一层的隐层作为特征编码。如图1所示，输入是问题和段落，都以字符为单位表示就是文中所述的问题Q：

段落P:

其中问题长度为M，段落长度为N；加上特殊字符[CLS]和[SEP]输入bert，利用bert做微调(fine-tune)；p(start)和p(end)表示两个指针网络预测答案开始和结束位置；因为答案是多个字符组成，需要对这多个字符组成单个向量表示，这里使用maxpool表示多个向量求最大值；

步骤1-2包括：

具体的采用1层全连接网络并利用tanh激活函数作为多层感知分类器。

其中

表示开始位置的损失函数，

和

表示网络输出，

代表了位置i作为开始位置的概率，

步骤1-3包括：军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类，将步骤1-2抽取的文本片段划分到这4个类中，如果不属于任何类别标记为其他：

设定文本片段表示为{tok_i,.....,tok_j}，利用bert编码后的向量表示为{h_i,....h_j}，h_j表示段落中的第j个字符tok_j利用bert编码后的向量表示，记V_span＝[h_i,h_j]为文本片段(span)的向量表示，经过一个多层感知机MLP分类器，以及softmax层得到：

P_span＝softmax(MLP_span(V_span))

利用交叉熵作为训练损失函数：

其中k是类别个数，

表示span是否是类别t，

表示文本片段sp属于类别t的概率；L_sp表示多标签交叉熵损失。

步骤1-4包括：采用如下公式联合训练边界抽取和片段分类：

Loss＝Loss_boundary+Loss_sp。

其中Loss_boundary来自于步骤1-2，Loss_sp来自于步骤1-3。

步骤2包括：

针对源领域的lic2020-ee数据集，将事件类型与论元类型进行合并，得到217条不同的标签(label)形态，将所述217条不同的标签形态视作要做序列标注的217种不同的标签，针对每种标签构建一个适用于该标签的问题，在对这217种标签进行分析后，将它们分为四类：通用性的标签、事件强相关的标签、对于数字类的标签和其他。

步骤3包括：

步骤3-1，针对防务快讯网站，利用网页解析工具BeautifulSoup抽取其网页中div类型为newsContent的标签，得到网页正文，并过滤掉英文文章；将文章分段，并且保证每个段落长度少于200个字符；

步骤3-2，利用步骤3-1抓取的文章做目标领域适配，利用掩码语言模型maskedlanguage model来预测随机掩盖掉的单词：

其中|D|表示所有样本个数；X表示字符组成的单个样本；|X|表示句子字符个数；

步骤3-3，对文章利用jieba进行分词，对其中15％单词进行替换，具体包括3种形式的操作，80％的单词用[MASK]替换，10％的单词用随机的单词替换，10％的单词保持不变；

步骤3-4，联合任务同时优化：利用源领域的标注数据和目标领域的无标注数据完成领域适配和任务适配，并利用这两个过程的损失函数之和记为最后的损失函数Loss：

Loss＝Loss_boundary+L_MLM，其中L_MLM来自于步骤3-2中掩码语言模型；

步骤4包括：

步骤4-1：构建目标领域问题：

针对军事装备试验鉴定文本，需要抽取的实体类型包括4类：试验要素、性能指标、系统组成和任务场景，利用信息增益计算每个类别的关键词集合，并将关键词集合拼接到实体类型的描述之后构建该实体类型的问题，计算信息增益的具体过程如下：

其中，公式中各个参数的含义，说明如下：

N：表示训练数据集文档总数；

A：包括词条t，同时属于类别c的文档的数量；

B：包含词条t，但是不属于类别c的文档的数量；

C：属于类别c，但是不包含词条t的文档的数量；

D：不属于类别c，同时也不包含词条t的文档的数量；

步骤4-2：利用每个类别的关键词集合，拼接上实体类型描述得到实体的问题语句，然后加载前面步骤中经过领域适配和任务适配后的模型，在目标领域微调，抽取军事装备文本中的信息。

本发明所要解决的技术问题是在缺乏标注语料或只有少量标注语料条件下，提高命名实体识别的效果，并具体提供一种基于迁移学习在军事装备文本实体抽取中的应用方法。针对军事装备试验鉴定文本，需要抽取的实体类型包括4类：试验要素、性能指标、系统组成和任务场景。针对需要解决的问题，我们设计了领域通用的网络结构完成任务适配，并借助语言模型实现了领域的适配，试验结果表明：针对目标领域我们仅需要200条标注数据便可达到较好的效果，有效的实现了知识的迁移。

本发明提供了一种基于迁移学习在军事装备文本实体抽取中的应用方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于迁移学习在军事装备文本实体抽取中的应用方法，其特征在于，包括如下步骤：

步骤1，建立用于边界抽取和文本片段分类的网络模型；

步骤2，分析源领域数据，构造源领域问题集，实现网络模型的任务适配；

步骤3，利用基于掩码的语言模型实现网络模型的领域适配；

步骤4，将完成领域适配和任务适配的网络模型应用在目标领域，完成军事装备文本信息的抽取。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

步骤1-1，文本编码；

步骤1-2，检测实体边界；

步骤1-3，文本片段分类；

步骤1-4，联合训练边界抽取和片段分类。

3.根据权利要求2所述的方法，其特征在于，步骤1-1包括：

文本编码：给定问题Q和段落P，问题

段落

添加开头和结尾的两个字符[CLS]，[SEP]作为自然语言处理模型bert的输入，然后经过自然语言处理模型bert的L层transformer模块编码得到句子的上下文向量表示h_i：

h_i＝TransformerBlock_L(tok_i)

4.根据权利要求3所述的方法，其特征在于，步骤1-2包括：

其中

表示开始位置的损失函数，

表示结束位置的损失函数，Loss_boundary表示开始位置和结束位置损失函数之和；

和

表示网络输出，

代表了位置i作为开始位置的概率，

5.根据权利要求4所述的方法，其特征在于，步骤1-3包括：军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类，将步骤1-2抽取的文本片段划分到这4个类中，如果不属于任何类别标记为其他：

设定文本片段表示为{tok_i，......，tok_j}，利用自然语言处理模型bert编码后的向量表示为{h_i，....h_j}，h_j表示段落中的第j个字符tok_j利用自然语言处理模型bert编码后的向量表示，记V_span＝[h_i，h_j]为文本片段span的向量表示，经过一个多层感知机MLP分类器，以及softmax层得到文本片段span的网络预测输出P_span：

P_span＝softmax(MLP_span(V_span))

利用交叉熵作为训练损失函数：