CN112215004A - 一种基于迁移学习在军事装备文本实体抽取中的应用方法 - Google Patents

一种基于迁移学习在军事装备文本实体抽取中的应用方法 Download PDF

Info

Publication number
CN112215004A
CN112215004A CN202010920424.5A CN202010920424A CN112215004A CN 112215004 A CN112215004 A CN 112215004A CN 202010920424 A CN202010920424 A CN 202010920424A CN 112215004 A CN112215004 A CN 112215004A
Authority
CN
China
Prior art keywords
loss
text
entity
category
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010920424.5A
Other languages
English (en)
Other versions
CN112215004B (zh
Inventor
徐建
吴蔚
阮国庆
王鑫鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202010920424.5A priority Critical patent/CN112215004B/zh
Publication of CN112215004A publication Critical patent/CN112215004A/zh
Application granted granted Critical
Publication of CN112215004B publication Critical patent/CN112215004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于迁移学习在军事装备文本实体抽取中的应用方法,包括:步骤1,建立用于边界抽取和文本片段分类的网络模型做为文本实体抽取的骨架模型,有效的克服了不同领域抽取实体类型不同带来的网络结构的差异;步骤2,分析源领域数据,构造源领域问题集,实现任务适配;步骤3,利用基于掩码的语言模型实现领域适配;步骤4,将完成领域适配和任务适配的模型应用在目标领域,完成军事装备文本信息的抽取。发明有效的克服了不同领域抽取实体类型不同带来的网络结构的差异;本发明充分利用已有的开源序列标注数据,在此基础上训练命名实体识别模型,并将学到的知识应用在目标领域,有效的减少了目标领域数据标注工作。

Description

一种基于迁移学习在军事装备文本实体抽取中的应用方法
技术领域
本发明涉及一种基于迁移学习在军事装备文本实体抽取中的应用方法。
背景技术
命名实体识别(NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。
命名实体识别是自然语言处理研究领域中的一项很重要的基础性任务,是实体关系抽取和事件抽取等高层任务重要基石。
军事装备试验鉴定文本是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。
由于该领域特殊性及专业性,开放语料非常匮乏,标注过程也需要多次迭代进行:独立标注、交叉检查、专家复核、修改迭代的方式,保证标注一致性,可以看到整个标注过程非常复杂和繁琐。如何在缺乏标注语料或只有少量标注语料条件下,提高命名实体识别的效果是自然语言处理领域的一个重要研究方向。
发明内容
发明目的:本发明所要解决的技术问题是在缺乏标注语料或只有少量标注语料条件下,提高命名实体识别的效果,并具体提供一种基于迁移学习在军事装备文本实体抽取中的应用方法,包括如下步骤:
步骤1,建立用于边界抽取和文本片段分类的网络模型做为文本实体抽取的骨架模型,有效的克服了不同领域抽取实体类型不同带来的网络结构的差异;
步骤2,分析源领域数据,构造源领域问题集,实现任务适配;
步骤3,利用基于掩码的语言模型实现领域适配;
步骤4,将完成领域适配和任务适配的模型应用在目标领域,完成军事装备文本信息的抽取。
步骤1包括:
步骤1-1,文本编码;
步骤1-2,检测实体边界;
步骤1-3,文本片段分类。
步骤1-1包括:给定问题Q和段落P,问题Q:
Figure BDA0002666544920000021
段落P:
Figure BDA0002666544920000022
(问题和段落都是由字符组成的,字符用toki、tokj表示),添加开头和结尾的两个特殊字符[CLS],[SEP]作为自然语言处理模型bert的输入,然后经过自然语言处理模型bert的L层transfomer模块编码得到句子的上下文向量表示hi
hi=TransformerBlockL(toki)
其中toki表示句子的单个字符,问题的字符长度为M,段落的字符长度为N。
参考文献:BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding。
步骤1-2包括:
边界检测的目的是希望得到实体的边界,也就是判断当前字符是否是实体的开始或者结束位置,利用两个全连接的网络结构做字符层面的分类。
将句子的上下文向量表示hi经过一个多层感知机分类器MLPstart,再经过一个softmax层得到字符toki是实体开始位置的概率
Figure BDA0002666544920000023
(参考文献地址:http://deeplearning.net/tutorial/mlp.html):
Figure BDA0002666544920000024
利用另一个多层感知机分类器MLPend得到字符是实体结束位置的概率
Figure BDA0002666544920000025
Figure BDA0002666544920000026
将所有实体出现的位置作为正样本,将训练的损失函数定义为所有实现出现位置的损失函数之和,如下所示:
Figure BDA0002666544920000027
Figure BDA0002666544920000028
Figure BDA0002666544920000029
其中
Figure BDA0002666544920000031
表示开始位置的损失函数,
Figure BDA0002666544920000032
表示结束位置的损失函数,Lossboundary表示开始位置和结束位置损失函数之和。
Figure BDA0002666544920000033
表示字符i是否是实体的开始位置,如果是则标记为1否则标记为0,
Figure BDA0002666544920000034
表示字符i是否是实体的结束位置,如果是则标记为1否则标记为0;
Figure BDA0002666544920000035
Figure BDA0002666544920000036
表示网络输出,
Figure BDA0002666544920000037
代表了位置i作为开始位置的概率,
Figure BDA0002666544920000038
代表了位置i作为结束位置的概率,得到开始和结束位置即能够得到文本片段。
步骤1-3包括:
军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类,将步骤1-2抽取的文本片段划分到这4个类中,如果不属于任何类别标记为其他:
设定文本片段表示为{toki,.....,tokj},利用自然语言处理模型bert编码后的向量表示为{hi,....hj},hj表示段落中第j个字符tokj利用自然语言处理模型bert编码后的向量表示,记Vspan=[hi,hj]为文本片段span的向量表示,经过一个多层感知机MLP分类器,以及softmax层得到文本片段span的网络预测输出Pspan
Pspan=softmax(MLPspan(Vspan))
利用交叉熵作为训练损失函数:
Figure BDA0002666544920000039
其中k是类别个数,
Figure BDA00026665449200000310
表示span是否是类别t,
Figure BDA00026665449200000311
表示文本片段sp属于类别t的概率,
Figure BDA00026665449200000312
表示多标签交叉熵损失。
步骤1-4包括:综合步骤1-2中的实体边界损失和和步骤1-3中的片段分类损失,采用如下公式联合训练边界抽取和片段分类:
Loss=Lossboundary+Losssp
其中实体边界损失Lossboundary来自于步骤1-2,片段分类损失Losssp来自于步骤1-3,Loss表示综合损失。
步骤2包括:
将MRC应用到序列标注任务中,主要思想就是构建阅读理解问题,然后将该问题与原始文本passage进行拼接,然后利用上述两个步骤做信息抽取。因此,query问题的质量关系到整个任务的完成情况。
针对源领域的lic2020-ee数据集,将事件类型与论元类型进行合并,得到217条不同的标签label形态,将所述217条不同的标签形态视作要做序列标注的217种不同的标签,针对每种标签构建一个适用于该标签的问题,在对这217种标签进行分析后,将它们分为四类:通用性的标签、事件强相关的标签、对于数字类的标签、其他。
a)、通用性的标签,比如所有事件类型中的时间、人数、人物对象等论元都是具有一定通用性的,这种标签即使跟不同的事件类型进行整合后,表达的含义基本相同。因此这类论元对应的问题基本都不用变化,只需要在query之前增加事件类型字符串以示区分:
获奖-时间:找到获奖事件发生的时间,包含年、月、日、天、周、时、分、秒等求婚-时间:找到求婚事件发生的时间,包含年、月、日、天、周、时、分、秒等
b)、事件强相关的标签。这类标签通常与具体的事件类型有一定的关联,例如晋级-晋级方,罚款-执法机构等。这类标签的query可能需要提到事件类型的某些属性:
罚款-执法机构:拥有相对独立的法律地位和组织结构的行政机构
c)、对于数字类的标签:例如回答死亡人数时,将年龄答案预测为了该答案。这种错误可以理解为数字类的回答通常都比较短小,且由数字和某个计量单位组成,因此模型很容易将其混淆。而我原始的问题生成时,对于大部分的数字问题都使用了原始的论元描述,需要针对数字问题专门设计问题,例如袭击-死亡人数:袭击-死亡人数:袭击导致了多少人死亡?通常以人数为计量单位。
d)、其他:只是单纯保留其原始的论元类型描述,与事件类型整合,例如涨停-涨停股票等:涨停-涨停股票:涨停-涨停股票。
步骤3包括:
需要迁移到的目标领域是军事装备试验鉴定数据集,利用语言模型作为沟通这两个领域的桥梁,为了训练语言模型,通过抓取国际防务快讯网站(http://www.dsti.net/Information/NewsList/)的语料构建语言模型。
步骤3-1,
针对防务快讯网站,利用网页解析工具BeautifulSoup抽取其网页中div类型为newsContent的标签,得到网页正文,并过滤掉英文文章;将文章分段,并且保证每个段落长度少于200个字符;
步骤3-2,利用步骤3-1抓取的文章做目标领域适配,利用掩码语言模型maskedlanguage model来预测随机掩盖掉的单词,该过程称为伪极大似然(Pseudo Log-Likelihood),该过程损失函数LMLM(θ;D)记为:
Figure BDA0002666544920000051
其中|D|表示所有样本个数;X表示字符组成的单个样本;|X|表示句子单词个数;t表示样本中每个单词,xt是单词的t的向量表示,X\t表示句子中去除掉t以后的剩余单词;上述公式刻画了根据给定单词的上下文最大化该单词的预测概率。
步骤3-3,对文章利用开源库jieba进行分词,对其中15%单词进行替换,具体包括3种形式的操作,80%的单词用[MASK]替换,10%的单词用随机的单词替换,10%的单词保持不变;
步骤3-4,联合任务同时优化:
利用源领域的标注数据和目标领域的无标注数据完成领域适配和任务适配(源领域标注数据就是训练数据,目标领域无标注数据就是爬虫爬取的防务快讯),并利用这两个过程的损失函数之和记为最后的损失函数Loss:
Loss=Lossboundary+LMLM,其中参数LMLM来自于步骤3-2中掩码语言模型;
其中Lossboundary自步骤1-2,表示抽取损失和文本片段分类损失函数之和。
步骤4包括:
步骤4-1:构建目标领域问题:
针对军事装备试验鉴定文本,需要抽取的实体类型包括4类:试验要素、性能指标、系统组成和任务场景。试验要素是指试验鉴定工作的对象以及完成该试验鉴定所需的条件;性能指标是试验要素在性能方面的定性和定量描述;系统组成是指试验对象的组成结构;任务场景是试验要素发挥价值需要的条件;
利用信息增益计算每个类别的关键词集合,并将关键词集合拼接到实体类型的描述之后构建该实体类型的问题,计算信息增益的具体过程如下:
利用卡方检定判断关键词在其类别的权重:通过如下公式计算针对类别c单词t的卡方统计量χ2(t,c):
Figure BDA0002666544920000061
其中,公式中各个参数的含义,说明如下:
N:表示训练数据集文档总数;
A:包括词条t,同时属于类别c的文档的数量;
B:包含词条t,但是不属于类别c的文档的数量;
C:属于类别c,但是不包含词条t的文档的数量;
D:不属于类别c,同时也不包含词条t的文档的数量;
设定词条t与类别c不相关;对于每个词条,计算它与类别c的卡方值,将结果从大到小排个序,按照卡方值降序排列取前k个词条;
步骤4-2:利用每个类别的关键词集合,拼接上实体类型描述得到实体的问题语句,然后加载前面步骤中经过领域适配和任务适配后的网络模型,在目标领域微调(同样的结构,在目标领域标注数据集上重新训练),抽取军事装备文本中的信息。
本发明建立的用于边界抽取和文本片段分类的网络模型,有效的克服了不同领域抽取实体类型不同带来的网络结构的差异;
本发明充分利用已有的开源序列标注数据,在此基础上训练命名实体识别模型,并将学到的知识应用在目标领域,有效的减少了目标领域数据标注工作。
有益效果:本发明将开源的百度开源的数据结lic2020-ee作为作为源领域,源领域是百度发布的中文事件抽取数据集,包含65个事件类型,每种事件类型都有不同数量的论元,将事件类型与论元组合成一种实体类型后,能够得到217种类型。将军事装备试验鉴定数据集作为目标领域,目标领域涉及的实体类型包括:试验要素、性能指标、系统组成和任务场景。实验表明经过领域适配和任务适配以后,本发明可以将源领域的知识有效的迁移到目标领域,大大减少了目标领域所需要的数据标注量,有效的完成了迁移学习的过程。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明架构图。
具体实施方式
如图1所示,本发明提供了一种基于迁移学习在军事装备文本实体抽取中的应用方法,
包括如下步骤:
步骤1,建立用于边界抽取和文本片段分类的网络模型做为文本实体抽取的骨架模型,有效的克服了不同领域抽取实体类型不同带来的网络结构的差异,本发明提出了基于阅读理解的抽取+分类的网络模型,有效的克服了不同领域因为标注数据类型不同导致的网络结构差异;
步骤2,利用百度开源的事件抽取数据集作为源领域,将该领域事件类型和论元拼接成217种类型的问题,我们对不同问题分析以后,构造源领域问题集,并针对该问题训练网络模型实现任务层面的适配;
步骤3,爬取防务快讯网站的文本作为目标领域的原始语料,利用基于掩码的语言模型实现领域适配;
步骤4,将完成领域适配和任务适配的模型应用在军事鉴定文本数据集,该数据集需要抽取试验要素、性能指标、系统组成和任务场景这4种类型的实体,完成军事装备文本信息的抽取。
步骤1包括:
步骤1-1,文本编码;
步骤1-2,检测实体边界;
步骤1-3,文本片段分类。
步骤1-1,文本编码;
步骤1-2,检测实体边界;
步骤1-3,文本片段分类;
步骤1-4,联合训练边界抽取和片段分类。
步骤1-1包括:
给定问题Q:
Figure BDA0002666544920000071
和段落P:
Figure BDA0002666544920000072
并加上开始字符[CLS]和分割字符[SEP]作为bert的输入,然后经过bert的L层transformer模块编码得到句子的上下文向量表示hi
hi=TransformerBlockL(toki)
其中toki表示句子的单个字符,问题的字符长度为M,段落的字符长度为N。其中transformer引用bert中。具体采用bert base作为编码模块,这里的L取12层,并且只用最后一层的隐层作为特征编码。如图1所示,输入是问题和段落,都以字符为单位表示就是文中所述的问题Q:
Figure BDA0002666544920000081
段落P:
Figure BDA0002666544920000082
其中问题长度为M,段落长度为N;加上特殊字符[CLS]和[SEP]输入bert,利用bert做微调(fine-tune);p(start)和p(end)表示两个指针网络预测答案开始和结束位置;因为答案是多个字符组成,需要对这多个字符组成单个向量表示,这里使用maxpool表示多个向量求最大值;
步骤1-2包括:
将句子的上下文向量表示hi经过一个多层感知机分类器MLPstart,再经过一个softmax层得到字符toki是实体开始位置的概率
Figure BDA0002666544920000083
Figure BDA0002666544920000084
具体的采用1层全连接网络并利用tanh激活函数作为多层感知分类器。
利用另一个多层感知机分类器MLPend得到字符是实体结束位置的概率
Figure BDA0002666544920000085
Figure BDA0002666544920000086
将所有实体出现的位置作为正样本,将训练的损失函数定义为所有实现出现位置的损失函数之和,如下所示:
Figure BDA0002666544920000087
Figure BDA0002666544920000088
Figure BDA0002666544920000089
其中
Figure BDA00026665449200000810
表示开始位置的损失函数,
Figure BDA00026665449200000811
表示结束位置的损失函数,Lossboundary表示开始位置和结束位置损失函数之和。
Figure BDA0002666544920000091
表示字符i是否是实体的开始位置,如果是则标记为1否则标记为0,
Figure BDA0002666544920000092
表示字符i是否是实体的结束位置,如果是则标记为1否则标记为0;
Figure BDA0002666544920000093
Figure BDA0002666544920000094
表示网络输出,
Figure BDA0002666544920000095
代表了位置i作为开始位置的概率,
Figure BDA0002666544920000096
代表了位置i作为结束位置的概率,得到开始和结束位置即能够得到文本片段。
步骤1-3包括:军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类,将步骤1-2抽取的文本片段划分到这4个类中,如果不属于任何类别标记为其他:
设定文本片段表示为{toki,.....,tokj},利用bert编码后的向量表示为{hi,....hj},hj表示段落中的第j个字符tokj利用bert编码后的向量表示,记Vspan=[hi,hj]为文本片段(span)的向量表示,经过一个多层感知机MLP分类器,以及softmax层得到:
Pspan=softmax(MLPspan(Vspan))
利用交叉熵作为训练损失函数:
Figure BDA0002666544920000097
其中k是类别个数,
Figure BDA0002666544920000098
表示span是否是类别t,
Figure BDA0002666544920000099
表示文本片段sp属于类别t的概率;Lsp表示多标签交叉熵损失。
步骤1-4包括:采用如下公式联合训练边界抽取和片段分类:
Loss=Lossboundary+Losssp
其中Lossboundary来自于步骤1-2,Losssp来自于步骤1-3。
步骤2包括:
针对源领域的lic2020-ee数据集,将事件类型与论元类型进行合并,得到217条不同的标签(label)形态,将所述217条不同的标签形态视作要做序列标注的217种不同的标签,针对每种标签构建一个适用于该标签的问题,在对这217种标签进行分析后,将它们分为四类:通用性的标签、事件强相关的标签、对于数字类的标签和其他。
步骤3包括:
步骤3-1,针对防务快讯网站,利用网页解析工具BeautifulSoup抽取其网页中div类型为newsContent的标签,得到网页正文,并过滤掉英文文章;将文章分段,并且保证每个段落长度少于200个字符;
步骤3-2,利用步骤3-1抓取的文章做目标领域适配,利用掩码语言模型maskedlanguage model来预测随机掩盖掉的单词:
Figure BDA0002666544920000101
其中|D|表示所有样本个数;X表示字符组成的单个样本;|X|表示句子字符个数;
步骤3-3,对文章利用jieba进行分词,对其中15%单词进行替换,具体包括3种形式的操作,80%的单词用[MASK]替换,10%的单词用随机的单词替换,10%的单词保持不变;
步骤3-4,联合任务同时优化:利用源领域的标注数据和目标领域的无标注数据完成领域适配和任务适配,并利用这两个过程的损失函数之和记为最后的损失函数Loss:
Loss=Lossboundary+LMLM,其中LMLM来自于步骤3-2中掩码语言模型;
其中Lossboundary自步骤1-2,表示抽取损失和文本片段分类损失函数之和。
步骤4包括:
步骤4-1:构建目标领域问题:
针对军事装备试验鉴定文本,需要抽取的实体类型包括4类:试验要素、性能指标、系统组成和任务场景,利用信息增益计算每个类别的关键词集合,并将关键词集合拼接到实体类型的描述之后构建该实体类型的问题,计算信息增益的具体过程如下:
利用卡方检定判断关键词在其类别的权重:通过如下公式计算针对类别c单词t的卡方统计量χ2(t,c):
Figure BDA0002666544920000102
其中,公式中各个参数的含义,说明如下:
N:表示训练数据集文档总数;
A:包括词条t,同时属于类别c的文档的数量;
B:包含词条t,但是不属于类别c的文档的数量;
C:属于类别c,但是不包含词条t的文档的数量;
D:不属于类别c,同时也不包含词条t的文档的数量;
设定词条t与类别c不相关;对于每个词条,计算它与类别c的卡方值,将结果从大到小排个序,按照卡方值降序排列取前k个词条;
步骤4-2:利用每个类别的关键词集合,拼接上实体类型描述得到实体的问题语句,然后加载前面步骤中经过领域适配和任务适配后的模型,在目标领域微调,抽取军事装备文本中的信息。
本发明所要解决的技术问题是在缺乏标注语料或只有少量标注语料条件下,提高命名实体识别的效果,并具体提供一种基于迁移学习在军事装备文本实体抽取中的应用方法。针对军事装备试验鉴定文本,需要抽取的实体类型包括4类:试验要素、性能指标、系统组成和任务场景。针对需要解决的问题,我们设计了领域通用的网络结构完成任务适配,并借助语言模型实现了领域的适配,试验结果表明:针对目标领域我们仅需要200条标注数据便可达到较好的效果,有效的实现了知识的迁移。
本发明提供了一种基于迁移学习在军事装备文本实体抽取中的应用方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (9)

1.一种基于迁移学习在军事装备文本实体抽取中的应用方法,其特征在于,包括如下步骤:
步骤1,建立用于边界抽取和文本片段分类的网络模型;
步骤2,分析源领域数据,构造源领域问题集,实现网络模型的任务适配;
步骤3,利用基于掩码的语言模型实现网络模型的领域适配;
步骤4,将完成领域适配和任务适配的网络模型应用在目标领域,完成军事装备文本信息的抽取。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,文本编码;
步骤1-2,检测实体边界;
步骤1-3,文本片段分类;
步骤1-4,联合训练边界抽取和片段分类。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:
文本编码:给定问题Q和段落P,问题
Figure FDA0002666544910000011
段落
Figure FDA0002666544910000012
添加开头和结尾的两个字符[CLS],[SEP]作为自然语言处理模型bert的输入,然后经过自然语言处理模型bert的L层transformer模块编码得到句子的上下文向量表示hi
hi=TransformerBlockL(toki)
其中toki表示句子的单个字符,问题的字符长度为M,段落的字符长度为N。
4.根据权利要求3所述的方法,其特征在于,步骤1-2包括:
将句子的上下文向量表示hi经过一个多层感知机分类器MLPstart,再经过一个softmax层得到字符toki是实体开始位置的概率
Figure FDA0002666544910000015
Figure FDA0002666544910000013
利用另一个多层感知机分类器MLPend得到字符是实体结束位置的概率
Figure FDA0002666544910000016
Figure FDA0002666544910000014
将所有实体出现的位置作为正样本,将训练的损失函数定义为所有实现出现位置的损失函数之和,如下所示:
Figure FDA0002666544910000021
Figure FDA0002666544910000022
Figure FDA0002666544910000023
其中
Figure FDA0002666544910000024
表示开始位置的损失函数,
Figure FDA0002666544910000025
表示结束位置的损失函数,Lossboundary表示开始位置和结束位置损失函数之和;
Figure FDA0002666544910000026
表示字符i是否是实体的开始位置,如果是则标记为1否则标记为0,
Figure FDA0002666544910000027
表示字符i是否是实体的结束位置,如果是则标记为1否则标记为0;
Figure FDA0002666544910000028
Figure FDA0002666544910000029
表示网络输出,
Figure FDA00026665449100000210
代表了位置i作为开始位置的概率,
Figure FDA00026665449100000211
代表了位置i作为结束位置的概率,得到开始和结束位置即能够得到文本片段。
5.根据权利要求4所述的方法,其特征在于,步骤1-3包括:军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类,将步骤1-2抽取的文本片段划分到这4个类中,如果不属于任何类别标记为其他:
设定文本片段表示为{toki,......,tokj},利用自然语言处理模型bert编码后的向量表示为{hi,....hj},hj表示段落中的第j个字符tokj利用自然语言处理模型bert编码后的向量表示,记Vspan=[hi,hj]为文本片段span的向量表示,经过一个多层感知机MLP分类器,以及softmax层得到文本片段span的网络预测输出Pspan
Pspan=softmax(MLPspan(Vspan))
利用交叉熵作为训练损失函数:
Figure FDA00026665449100000212
其中k是类别个数,
Figure FDA00026665449100000213
表示span是否是类别t,
Figure FDA00026665449100000214
表示文本片段sp属于类别t的概率,
Figure FDA00026665449100000215
表示多标签交叉熵损失。
6.根据权利要求5所述的方法,其特征在于,步骤1-4包括:综合步骤1-2中的实体边界损失和和步骤1-3中的片段分类损失,采用如下公式联合训练边界抽取和片段分类:
Loss=Lossboundary+Losssp
其中实体边界损失Lossboundary来自于步骤1-2,片段分类损失Losssp来自于步骤1-3,Loss表示综合损失。
7.根据权利要求6所述的方法,其特征在于,步骤2包括:
针对源领域的lic2020-ee数据集,将事件类型与论元类型进行合并,得到217条不同的标签label形态,将所述217条不同的标签形态视作要做序列标注的217种不同的标签,针对每种标签构建一个适用于该标签的问题,在对这217种标签进行分析后,将它们分为四类:通用性的标签、事件强相关的标签、对于数字类的标签、其他。
8.根据权利要求7所述的方法,其特征在于,步骤3包括:
步骤3-1,针对防务快讯网站,利用网页解析工具BeautifulSoup抽取其网页中div类型为newsContent的标签,得到网页正文,并过滤掉英文文章;将文章分段,并且保证每个段落长度少于200个字符;
步骤3-2,利用步骤3-1抓取的文章做目标领域适配,利用掩码语言模型maskedlanguage model来预测随机掩盖掉的单词,该过程损失函数LMLM(θ;D)记为:
Figure FDA0002666544910000031
其中|D|表示所有样本个数;X表示字符组成的单个样本;|X|表示样本单词个数,t表示样本中每个单词,xt是单词的t的向量表示,X\t表示句子中去除掉t以后的剩余单词;
步骤3-3,对文章利用开源库jieba进行分词,对其中15%单词进行替换,具体包括3种形式的操作,80%的单词用[MASK]替换,10%的单词用随机的单词替换,10%的单词保持不变;
步骤3-4,联合任务同时优化:利用源领域的标注数据和目标领域的无标注数据完成领域适配和任务适配,并利用这两个过程的损失函数之和记为最后的损失函数Loss:
Loss=Lossboundary+LMLM
其中参数LMLM来自于步骤3-2中掩码语言模型;
Lossboundary自步骤1-2,表示抽取损失和文本片段分类损失函数之和。
9.根据权利要求8所述的方法,其特征在于,步骤4包括:
步骤4-1:构建目标领域问题:
针对军事装备试验鉴定文本,需要抽取的实体类型包括4类:试验要素、性能指标、系统组成和任务场景,利用信息增益计算每个类别的关键词集合,并将关键词集合拼接到实体类型的描述之后构建该实体类型的问题,计算信息增益的具体过程如下:
利用卡方检定判断关键词在其类别的权重:通过如下公式计算针对类别c单词t的卡方统计量χ2(t,c):
Figure FDA0002666544910000041
其中,公式中各个参数的含义,说明如下:
N:表示训练数据集文档总数;
A:包括词条t,同时属于类别c的文档的数量;
B:包含词条t,但是不属于类别c的文档的数量;
C:属于类别c,但是不包含词条t的文档的数量;
D:不属于类别c,同时也不包含词条t的文档的数量;
设定词条t与类别c不相关;对于每个词条,计算它与类别c的卡方值,将结果从大到小排个序,按照卡方值降序排列取前k个词条;
步骤4-2:利用每个类别的关键词集合,拼接上实体类型描述得到实体的问题语句,然后加载经过领域适配和任务适配后的网络模型,在目标领域微调,抽取军事装备文本中的信息。
CN202010920424.5A 2020-09-04 2020-09-04 一种基于迁移学习在军事装备文本实体抽取中的应用方法 Active CN112215004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010920424.5A CN112215004B (zh) 2020-09-04 2020-09-04 一种基于迁移学习在军事装备文本实体抽取中的应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010920424.5A CN112215004B (zh) 2020-09-04 2020-09-04 一种基于迁移学习在军事装备文本实体抽取中的应用方法

Publications (2)

Publication Number Publication Date
CN112215004A true CN112215004A (zh) 2021-01-12
CN112215004B CN112215004B (zh) 2023-05-02

Family

ID=74049150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010920424.5A Active CN112215004B (zh) 2020-09-04 2020-09-04 一种基于迁移学习在军事装备文本实体抽取中的应用方法

Country Status (1)

Country Link
CN (1) CN112215004B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818824A (zh) * 2021-01-28 2021-05-18 建信览智科技(北京)有限公司 一种基于机器学习的非固定格式单据信息的抽取方法
CN112948603A (zh) * 2021-03-08 2021-06-11 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN113157883A (zh) * 2021-04-07 2021-07-23 浙江工贸职业技术学院 一种基于双模型结构的中文意见目标边界预测方法
CN113408279A (zh) * 2021-06-23 2021-09-17 平安科技(深圳)有限公司 序列标注模型的训练方法、装置、设备及存储介质
CN113468330A (zh) * 2021-07-06 2021-10-01 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN113468887A (zh) * 2021-06-21 2021-10-01 上海交通大学 基于边界与片段分类的学者信息关系抽取方法和系统
CN113553428A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN114372470A (zh) * 2022-03-22 2022-04-19 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN114519356A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN114781375A (zh) * 2022-05-19 2022-07-22 中国电子科技集团公司第二十八研究所 一种基于bert与注意力机制的军事装备关系抽取方法
CN115081437A (zh) * 2022-07-20 2022-09-20 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN115860002A (zh) * 2022-12-27 2023-03-28 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210021A (zh) * 2019-05-22 2019-09-06 北京百度网讯科技有限公司 阅读理解方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210021A (zh) * 2019-05-22 2019-09-06 北京百度网讯科技有限公司 阅读理解方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JACOB DEVLIN .ETC: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" *
MACIEJ RYBINSKI .ETC: ""Family History Extraction from Electronic Health Records"" *
SUCHIN GURURANGAN .ETC: ""Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks"" *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818824A (zh) * 2021-01-28 2021-05-18 建信览智科技(北京)有限公司 一种基于机器学习的非固定格式单据信息的抽取方法
CN112948603B (zh) * 2021-03-08 2023-05-05 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN112948603A (zh) * 2021-03-08 2021-06-11 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN113157883A (zh) * 2021-04-07 2021-07-23 浙江工贸职业技术学院 一种基于双模型结构的中文意见目标边界预测方法
CN113468887A (zh) * 2021-06-21 2021-10-01 上海交通大学 基于边界与片段分类的学者信息关系抽取方法和系统
CN113408279A (zh) * 2021-06-23 2021-09-17 平安科技(深圳)有限公司 序列标注模型的训练方法、装置、设备及存储介质
CN113408279B (zh) * 2021-06-23 2022-05-20 平安科技(深圳)有限公司 序列标注模型的训练方法、装置、设备及存储介质
CN113553428A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113553428B (zh) * 2021-06-30 2024-04-23 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113468330A (zh) * 2021-07-06 2021-10-01 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN114519356A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN114519356B (zh) * 2022-02-22 2023-07-18 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN114372470B (zh) * 2022-03-22 2022-07-29 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN114372470A (zh) * 2022-03-22 2022-04-19 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN114781375A (zh) * 2022-05-19 2022-07-22 中国电子科技集团公司第二十八研究所 一种基于bert与注意力机制的军事装备关系抽取方法
CN115081437A (zh) * 2022-07-20 2022-09-20 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN115081437B (zh) * 2022-07-20 2022-12-09 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN115860002A (zh) * 2022-12-27 2023-03-28 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统
CN115860002B (zh) * 2022-12-27 2024-04-05 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统

Also Published As

Publication number Publication date
CN112215004B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN112215004B (zh) 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
Abdullah et al. Fake news classification bimodal using convolutional neural network and long short-term memory
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN109902285B (zh) 语料分类方法、装置、计算机设备及存储介质
CN111079985A (zh) 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN111428511B (zh) 一种事件检测方法和装置
CN107315738A (zh) 一种文本信息的创新度评估方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN109492230A (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
US20190354855A1 (en) Method for calculating similarity of cases based on citation relationship
CN112001171A (zh) 一种基于集成学习的涉案财物知识库实体识别方法
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN113220768A (zh) 基于深度学习的简历信息结构化方法及系统
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN115292568A (zh) 一种基于联合模型的廉政和民生新闻事件抽取方法
Radygin et al. Application of text mining technologies in Russian language for solving the problems of primary financial monitoring
CN116777607B (zh) 一种基于nlp技术的智能审计方法
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
Nuranti et al. Legal entity recognition in indonesian court decision documents using bi-lstm and crf approaches
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
An et al. Do Charge Prediction Models Learn Legal Theory?
CN113051607B (zh) 一种隐私政策信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant