CN112966510A

CN112966510A - 一种基于albert的武器装备实体抽取方法、系统及存储介质

Info

Publication number: CN112966510A
Application number: CN202110163970.3A
Authority: CN
Inventors: 高佩东; 赵彤洲
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-15

Abstract

本发明公开了一种基于ALBERT的武器装备实体抽取方法，包括以下步骤：使用ALBERT模型作为语句表征模型来表示句向量，将预设的训练集语句统合为多维向量特征作为神经网络输入，并将训练集语句对应的实体标记通过one‑hot编码得到对照结果向量特征；将对照结果向量特征输入BiLSTM‑CRF网络模型，对对照结果向量特征进行交叉训练，等待BiLSTM‑CRF网络模型收敛后得到网络模型；输入待识别语句至ALBERT模型，通过ALBERT模型表示为句向量，并作为特征输入到网络模型中；通过网络模型计算得到预测结果；将预测结果通过反one‑hot编码得到结果序列，识别结果序列得到实体名称和实体位置；将实体名称和实体位置作为最终结果输出。本发明能够有效地识别文本中的武器装备领域实体。

Description

一种基于ALBERT的武器装备实体抽取方法、系统及存储介质

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于ALBERT的武器装备实体抽取方法、系统及存储介质。

背景技术

命名实体识别(NER)是信息抽取的一个子任务，指在自然语言文本中，抽取出特定实体的位置和分类，是文本理解的基础。目前命名实体识别能在有限的领域和有限的实体类型中取得了较好的成绩，如新闻领域中的人名、地名、结构名等。但这些由特定语料训练而来的模型无法直接迁移到其它领域，如军事和医疗领域等。一方面，不同领域的数据具有不同的领域特性，当模型对一个领域数据拟合后，就无法在其它领域很好的工作。另一方面，不同领域的数据资源层次不齐，有些领域的语料资源非常匮乏，导致模型训练和测试都很难展开。

命名实体识别的另一个难点在于语言差异，英文单词之间都有空格分隔，实体边界明显，无论是基于字还是基于词作标注，都能取得较好的效果。而中文场景更加复杂，主要的难点如下：

1.中文词语之间没有英文词语之间明确的分隔符，尤其是一些专业领域词汇，普通分词工具无法胜任。

2.中文文本中还存在一些英文词汇，如在武器装备领域中，很多武器的名称都是中英结合，导致中、英文实体之间相互影响。

3.中文文本中还存在大量的英文外来词汇，中文实体识别不仅需要识别出中文实体，还需要识别出英文实体。

当前命名实体识别的主要方法主要有三种：

1.基于规则和词典方法。基于规则和词典的方法依赖语言学专家手工构造规则模板，以模式和字符串匹配为主要手段来提取文本中的实体。这些规则特征主要包括标点符号、关键字、指示词和中心词等，缺点是这类方法依赖于专业知识库和词典、可移植性差，在对于不同的领域需要语言专家重新构造规则模板，时间周期长，需要大量人工参与。

2.基于统计学方法。基于统计机器学习的方法主要有：隐马尔可夫模型(HMM)，支持向量机(SVM)和条件随机场(CRF)。这些机器学习方法都有较高的准确率和召回率，但是普遍对语料库的依赖性高，同时也存在收敛速度慢和训练时间长的问题。

3.基于深度学习的方法。用于命名实体识别的主要网络模型有：卷积神经网络-条件随机场(CNN-CRF)、循环神经网络-条件随机场(RNN-CRF)、双向长短时序网络-条件随机场(LSTM-CRF)。这些深度网络模型结合了神经网络和条件随机场，以端到端的方式来预测和识别实体，这类方法不依赖于数据工程，具有很高的识别率和召回率。但是，此类方法严重依赖标注数据集，模型训练时间长，可解释性差。

命名实体识别一定程度上依赖于上下文的信息，因此目前业界普遍采用词向量和深度学习相结合的方式，通过词向量本身携带的大量语义和上下文信息来提高实体识别的概率，该方法能达到目前业界最高的识别率和召回率。

发明内容

本发明的目的在于，提供一种基于ALBERT的武器装备实体抽取方法、系统及存储介质，通过该方法，能够有效地识别文本中的武器装备领域实体。

为解决上述技术问题，本发明的技术方案为：一种基于ALBERT的武器装备实体抽取方法，包括以下步骤：

S1、使用ALBERT模型作为语句表征模型来表示句向量，将预设的训练集语句统合为多维向量特征作为神经网络输入，并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征；

S2、将对照结果向量特征输入BiLSTM-CRF网络模型，对对照结果向量特征进行交叉训练，等待BiLSTM-CRF网络模型收敛后得到网络模型；

S3、输入待识别语句至ALBERT模型，通过ALBERT模型表示为句向量，并作为特征输入到网络模型中；

S4、通过网络模型计算得到预测结果；

S5、将预测结果通过反one-hot编码得到结果序列，识别结果序列得到实体名称和实体位置；

S6、将实体名称和实体位置作为最终结果输出。

进一步地，所述S1具体为：

S1.1、规定进入ALBERT模型的待识别语句长度为80，如果待识别语句长度小于80，使用0作为填充至待识别语句长度为80；如果待识别语句长度大于80，则将该待识别语句截断至待识别语句长度为80；

S1.2、以字符为单位将待识别语句分开，每个字符作为一个token，将各待识别语句输入ALBERT模型中并转化为句向量；

S1.3、将训练集中的每一条训练集语句均按照S1.1、S1.2的步骤处理得到多维向量特征；

S1.4、使用one-hot编码对每一条训练集语句对应的实体标记进行编码，得到对照结果向量特征。

进一步地，所述S2中交叉训练的具体方法为：

S2.1、通过Pytorch神经网络框架实现双向长短时序网络和条件随机场，即BiLSTM-CRF网络模型；

S2.2、设置神经网络相关参数，将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练；

S2.3、随着迭代次数增加，当loss值小于阈值时停止训练，得到网络模型参数并存储。

进一步地，所述S5具体为：

S5.1、将预测结果标准化，即将预测结果中的小数进行四舍五入取整；

S5.2、将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置，即将结果中的数字映射到实体名称。

进一步地，所述S6还包括以下步骤：将实体名称和实体位置整合为实体结果后输出。

一种使用如上述的一种基于ALBERT的武器装备实体抽取方法的系统，包括：

ALBERT模型模块，用于作为语句表征模型来表示句向量，将预设的训练集语句统合为多维向量特征作为神经网络输入，并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征；

BiLSTM-CRF网络模型模块，用于对对照结果向量特征进行交叉训练，等待BiLSTM-CRF网络模型收敛后得到网络模型；

网络模型模块，用于通过网络模型对句向量计算得到预测结果，将预测结果通过反one-hot编码得到结果序列，识别结果序列得到实体名称和实体位置，并将实体名称和实体位置作为最终结果输出。

进一步地，所述ALBERT模型模块的具体工作过程为：

规定进入ALBERT模型的待识别语句长度为80，如果待识别语句长度小于80，使用0作为填充至待识别语句长度为80；如果待识别语句长度大于80，则将该待识别语句截断至待识别语句长度为80；

以字符为单位将待识别语句分开，每个字符作为一个token，将各待识别语句输入ALBERT模型中并转化为句向量；

将训练集中的每一条训练集语句均按照上述步骤处理得到多维向量特征；

使用one-hot编码对每一条训练集语句对应的实体标记进行编码，得到对照结果向量特征。

进一步地，所述BiLSTM-CRF网络模型模块的具体工作过程为：

通过Pytorch神经网络框架实现双向长短时序网络和条件随机场，即BiLSTM-CRF网络模型；

设置神经网络相关参数，将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练；

随着迭代次数增加，当loss值小于阈值时停止训练，得到网络模型参数并存储。

进一步地，所述网络模型模块得到实体名称和实体位置的具体工作过程为：

将预测结果标准化，即将预测结果中的小数进行四舍五入取整；

将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置，即将结果中的数字映射到实体名称。

一种计算机存储介质，所述计算机存储介质包括：至少一个指令，在所述指令被执行时实现以上任一项所述的方法步骤。

与现有技术相比，本发明的有益效果为：

基于ALBERT的武器装备实体抽取方法可以有效的提升命名实体识别的准确率和召回率，并且ALBERT模型较小，相较于BERT而言只会消耗较小内存。

附图说明

图1为本发明实施例提供的一种方法流程示意图；

图2为本发明实施例提供的一种网络模型训练流程图；

图3为本发明实施例提供的一种BiLSTM-CRF网络模型图；

图4为本发明实施例提供的一种BiLSTM-CRF网络模型训练过程截图；

图5为本发明实施例提供的一种BiLSTM-CRF网络模型测试截图；

图6为本发明实施例提供的一种ALBERT结构图；

图7为本发明实施例中提供的方法与对比方法在数据集上实验的结果对比表；

图8为本发明实施例中字符与实体标记的对应图表。

具体实施方式

为了使本专利的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本专利进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本专利，并不用于限定本专利。此外需要说明，下面所描述的本专利各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合使用。

本发明提供一种基于ALBERT的武器装备领域实体抽取方法，如图1所示，包括以下步骤:

S1.4、使用one-hot编码对每一条训练集语句对应的实体标记进行编码，得到对照结果向量特征。如在语句“波音公司NB-1的潜航深是什么”中，“波音公司NB-1”是武器装备实体，实体标记为“WEAPON”，而“潜航深”是技术指标实体，实体标记为“TECHNIQUE”；该语句的实体标记具体表示如图8所示：

具体地，WEAPON标记对应了多个汉字和字母，因此在实体的开始有前缀B(Begin)，实体中间有前缀M(Middle)，实体结尾有前缀(E)。

对于语句“波音公司NB-1的潜航深是什么”转化为句向量的过程如公式(1)所示：

vector＝ALBERT_transform(sentence) (1)

S2、如图3～图5所示，将对照结果向量特征输入BiLSTM-CRF网络模型，对对照结果向量特征进行交叉训练，等待BiLSTM-CRF网络模型收敛后得到网络模型，网络模型图见附图2；

S2.3、随着迭代次数增加，当loss值小于阈值时停止训练，得到网络模型参数并存储，其中神经网络优化器使用AdamW；

S3、读入待识别语句，并通过ALBERT表示为语句向量，并作为特征输入到网络模型中；

S4、通过网络模型计算得到预测结果；

S5、将预测结果反one-hot编码得到结果序列，并识别结果序列得到实体名称和实体位置；

S5.1、将模型预测结果标准化，将模型计算结果中的小数进行四舍五入取整；

S5.2、将标准化结果通过反one-hot编码得到实体名称和实体位置，即将结果中的数字映射到实体名称。

S6、将实体名称和实体位置作为最终结果输出。进一步处理S5中的实体名称和实体位置，将实体结果整合后输出。

进一步地，所述ALBERT模型模块的具体工作过程为：

进一步地，所述BiLSTM-CRF网络模型模块的具体工作过程为：

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本专利的目的。

本领域的技术人员容易理解，以上所述仅为本专利的较佳实施例而已，并不用以限制本专利，凡在本专利的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本专利的保护范围之内。

Claims

1.一种基于ALBERT的武器装备实体抽取方法，其特征在于，包括以下步骤：

S4、通过网络模型计算得到预测结果；

S6、将实体名称和实体位置作为最终结果输出。

2.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法，其特征在于，所述S1具体为：

3.根据权利要求1所述的一种基于ALBERT的武器装备领域实体抽取方法，其特征在于，所述S2中交叉训练的具体方法为：

4.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法，其特征在于，所述S5具体为：

5.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法，其特征在于，所述S6还包括以下步骤：将实体名称和实体位置整合为实体结果后输出。

6.一种使用如权利要求1所述的一种基于ALBERT的武器装备实体抽取方法的系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述ALBERT模型模块的具体工作过程为：

8.根据权利要求6所述的系统，其特征在于，所述BiLSTM-CRF网络模型模块的具体工作过程为：

9.根据权利要求6所述的系统，其特征在于，所述网络模型模块得到实体名称和实体位置的具体工作过程为：

10.一种计算机存储介质，其特征在于，所述计算机存储介质包括：至少一个指令，在所述指令被执行时实现如权利要求1至5任一项所述的方法步骤。