CN115114917A

CN115114917A - 一种基于词汇增强的军事命名实体识别方法及装置

Info

Publication number: CN115114917A
Application number: CN202110283714.8A
Authority: CN
Inventors: 刘璐; 覃炳庆; 何速; 李�杰; 向欢; 杨平; 汤慧; 朱莉波
Original assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Current assignee: Aerospace Science and Industry Shenzhen Group Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-09-27

Abstract

本发明提供了一种基于词汇增强的军事命名实体识别方法及装置，通过对已经标注的训练数据集，对训练集中的每一条数据进行预处理得到字符序列，引入军事词典进行分词处理得到词汇序列，将每个词汇的边界标识符放入每一条数据的结尾标识符之后构造输入语句，输入到BERT+CRF模型中，充分利用了语句中的字符语义特征和词汇语义特征，增强了输入数据的信息，提升了命名实体识别的精度。在构造输入数据时，通过将词汇边界标识符与该词汇所在的待识别文本中共享位置编码，因此推断速度更快、内存占用小。

Description

一种基于词汇增强的军事命名实体识别方法及装置

技术领域

本发明属于实体识别领域，尤其是涉及一种基于词汇增强的军事命名实体识别方法及装置。

背景技术

命名实体识别(Named Entity Recognition，NER)是信息抽取的一个子任务，是智能问答、知识图谱等自然语言处理应用领域的重要基础工作。因此，对命名实体识别的研究具有重要的理论和现实意义，但命名实体识别在军事文本中未能得到很好地解决。军事文本指军队在作战、训练及其他军事行动中产生的以电子文本形式存在和使用的文档，是与军事相关的各种文本的统称。军事文本中存在大量的军事命名实体，主要包括军职军衔名、军事装备名、军用物资名、军事设施名、军事结构名以及军用地名等。

命名实体识别在通用领域的研究已经比较成熟，在通用领域中，命名实体识别一般具有数目相对稳定、结构比较规范、命名规则比较统一等有利特点，主要包括人名、地名、组织机构名等。常见的命名实体识别方法主要分为3大类：

(1)基于词典和规则的方法。这种方法在数据量少时效果较好且识别速度快，但是该方法对词典规模及词典覆盖率的依赖性较大且编写规则需要耗费大量的人力和物力。现在大多情况下将规则和机器学习方法结合使用。

(2)传统机器学习的方法。其主流方法有条件随机场(conditional randomfield，CRF)、支持向量机(support vector machine，SVM)等。虽然该方法的可移植性强，但其依赖于标注数据的质量和规模，特征工程复杂。

(3)基于深度学习的方法。基于深度学习的命名实体识别思路是将token从离散one-hot表示映射到低维空间中成为稠密的embedding，随后将句子的embedding序列输入到神经网络中，用神经网络自动提取特征，预测每个token的标签。基于深度学习的方法精度高，不依赖于特征工程，但是对计算能力和语料规模要求高。

由于中文独特的语言特征，中文文本处理首先要对文本进行分词，若分词错误则会导致在NER上的错误累加。因此，已有研究证明基于字符的方法在中文NER上优于基于词的模型，并且现在多数学者的研究重点都是基于字符的命名实体识别。不会导致分词错误累加是字符级模型的优点，但从另一方面来说也是这种方法的缺点，因为有些单词信息蕴含的语义信息可以使字符级模型在识别实体时产生歧义，尤其军事命名实体往往以系统、复杂的军事知识为依据，具有独特的语法结构，且构成较为复杂，如将“空天军两架图-95”识别成“空天”、“军两架”和“图-95”。在刚进入信息化阶段中的军事领域，由于对军事实体的识别必须兼顾其语言规律和军事特性。针对于军事文本，专用军事词汇信息非常丰富，基于字符的命名实体识别算法无法利用其独特的语义表示，因此效果欠佳。

发明内容

本发明要解决的技术问题是怎样提高对军事命名实体的识别精度，提出了一种基于词汇增强的军事命名实体识别方法及装置。

为解决该技术问题，本发明所采用的技术方案是：

一种基于词汇增强的军事命名实体识别方法，包括以下步骤：

步骤1：获取已经标注的训练数据集，对所述训练数据集中的每一条数据进行预处理，得到每一条数据的字符序列S＝c₁,c₂,…,c_j,…,c_m及每个字符的位置信息，其中c_j代表该条数据中第j个字符，m表示字符序列的长度；

步骤2：引入军事领域专用词典，结合分词算法对预处理后的每一条数据进行分词，得到该条数据的词汇序列S＝w₁,w₂,…,w_i,…,w_n以及每个词汇的词性，其中w_i代表句子中第i个词汇，n为词汇序列的长度；

步骤3：将经过分词处理的的每一条数据构造输入数据作为训练样本，构造方法为，在经过分词处理的的每一条数据添加开头标识符“[CLS]”和结尾标识符“[SEP]”，对每一条数据中的每个词汇结合该词汇的词性设置边界标识符，并按照每个词汇在该条数据中出现的顺序将该词汇的边界标识符放入到该条语句的结尾标识符“[SEP]”之后，在最后一个词汇标识符之后额外加入一个结尾标识符“[SEP]”；

步骤4：将各所述训练样本输入到BERT模型进行编码，得到各训练样本包含上下文语义信息的向量表示；

步骤5：将所述语义信息的向量输入到CRF层中，CRF层根据所述语义信息向量捕获相邻标签之间的依赖关系，并通过所述相邻标签之间的依赖关系确定每一条数据的标签序列，根据所述标签序列得到每一条训练样本中的军事命名实体；

步骤6：重复步骤3至5，直到模型训练误差达到预设的阈值，得到训练好的网络模型；

步骤7：获取待识别文本，将所述待识别文本输入到训练好的网络模型中，得到待识别文本中的军事命名实体。

进一步地，步骤3中所述词汇边界标识符是指使用[词性]作为该词汇的开始标识符，使用[/词性]作为该词汇的结束标识符，所述开始标识符和结束标识符中的词性为步骤2中得到的该词汇的词性。

进一步地，步骤3中每个词汇的边界标识符共享该词汇在预处理后的每条数据中的位置向量。

进一步地，步骤4中，在所述BERT模型的attention层中使用一个attetion_mask，文本token只去attend文本的token、不去attend标识符的token，而标识符token可以attend原文token。

进一步地，步骤5中所述标签是指通过BIO标注方式进行标注的标签。

进一步地，步骤4中所述BERT模型为哈工大讯飞联合实验室发布的中文BERT-wwm-ext预训练模型。

本发明还提供了一种基于词汇增强的军事命名实体识别装置，包括以下步骤：

训练数据集预处理模块：用于获取已经标注的训练数据集，对所述训练数据集中的每一条数据进行预处理，得到该条数据的字符序列S＝c₁,c₂,…,c_j,…,c_m及每个字符的位置信息，其中c_j代表该条数据中第j个字符，m表示字符序列的长度；引入军事领域专用词典，结合分词算法对经过预处理后的每一条数据进行分词，得到该条数据的词汇序列S＝w₁,w₂,…,w_i,…,w_n以及每个词汇的词性，其中w_i代表句子中第i个词汇，n为词汇序列的长度；

训练样本构造模块：用于将经过分词处理的的每一条数据构造输入数据作为训练样本，构造方法为，在经过分词处理的的每一条数据添加开头标识符“[CLS]”和结尾标识符“[SEP]”，对每一条数据中的每个词汇结合该词汇的词性设置边界标识符，并按照每个词汇在该条数据中出现的顺序将该词汇的边界标识符放入到该条语句的结尾标识符“[SEP]”之后，在最后一个词汇标识符之后额外加入一个结尾标识符“[SEP]”；

网络模型训练模块：用于将训练样本构造模块所构造的各所述训练样本输入到BERT模型进行编码，得到各训练样本包含上下文语义信息的向量表示；将所述语义信息向量输入到CRF层中，CRF层根据所述语义信息向量捕获相邻标签之间的依赖关系，并通过所述相邻标签之间的依赖关系确定每一条数据的标签序列，根据所述标签序列得到每一条训练样本中的军事命名实体；重复执行，直到模型训练误差达到预设的阈值，得到训练好的网络模型；

识别模块：用于获取待识别文本，将所述待识别文本输入到训练好的网络模型中，得到待识别文本中的军事命名实体。

采用上述技术方案，本发明具有如下有益效果：

本发明提供的一种基于词汇增强的军事命名实体识别方法及装置，通过引入军事领域专用词典，使用分词法得到语句的的词汇及词性信息，然后将字符信息和词汇信息一起构造输入语句输入到BERT+CRF语言模型中，也就是将词汇边界和词性类型作为标识符加入到字符序列后，构造出输入语句输入到BERT+CRF模型中，充分利用了语句中的字符语义特征和词汇语义特征，增强了输入数据的信息，提升了命名实体识别的精度。

在构造输入数据时，通过将词汇边界标识符与词汇共享位置编码，因此推断速度更快、内存占用小。

附图说明

图1为本发明流程图；

图2为构造输入语句示意图；

图3为基于词汇增强的军事命名实体识别实施例流程示意图；

图4为BERT中的attention_mask。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1至图4示出了本发明一种基于词汇增强的军事命名实体识别方法的具体实施例，如图1所示，包括以下步骤：

本实施例中，训练数据集使用军事领域已有的语料库并对其进行标注形成训练集。对训练数据集进行清洗以及句子级别的划分等预处理，按照字符级别以及词汇级别对未经标注的数据集进行人工标注，形成军事领域命名实体语料集。选择BIO标注方式进行标注，将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

本实施例中的军事领域词典通过选取公开军事新闻文本作为原始数据集，结合领域专家的专业知识和已有的文献资料构建军事领域词典。结合领域知识，制定军事领域命名实体分类标准。将军事领域命名实体分为8大类，分别是人员名称、军事地名、时间、军衔或军职、军事机构、军事设施、军事事件、武器装备以及其他类别。通过分词算法得到带有词性信息的词汇表。本实施例中的分词算法使用的是jieba分词算法。

步骤3：将经过分词处理的的每一条数据构造输入数据作为训练样本，构造方法为，在经过分词处理的的每一条数据添加开头标识符“[CLS]”和结尾标识符“[SEP]”，对每一条数据中的每个词汇结合该词汇的词性设置边界标识符，并按照每个词汇在该条数据中出现的顺序将该词汇的边界标识符放入到所述待识别文本的结尾标识符“[SEP]”之后，在最后一个词汇标识符之后额外加入一个结尾标识符“[SEP]”；

本实施例中，步骤3中所述词汇边界标识符是指使用[词性]作为该词汇的开始标识符，使用[/词性]作为该词汇的结束标识符，所述开始标识符和结束标识符中的词性为步骤2中得到的所要标识的词汇的词性。假设输入文本为“第一艘航空母舰是辽宁舰”，利用BIO标注策略将‘航空母舰’以及‘辽宁舰’标注为军事命名实体。通过在jieba分词算法中引入军事领域词典可以得到以下词汇：航空母舰、辽宁、辽宁舰，其词性分别是n(名词)、ns(地名词)、n(名词)。按照步骤3所述构造方法，引入词汇信息的输入可以理解为：‘[CLS]第一艘航空母舰是辽宁舰[SEP]<航空母舰><辽宁><辽宁舰>[SEP]’

将每个词汇根据词性换成了带有边界信息的标识符[词性][/词性]，则拼接后的句子为“[CLS]第一艘航空母舰是辽宁舰[SEP][n][/n][ns][/ns][n][/n][SEP]”，这样可以在所构造的语句中既增加了词汇的边界信息也就是位置特征，也增加了该词汇的词性信息，如图2所示，步骤3中每个词汇的边界标识符共享该词汇在预处理后的每条数据中的位置向量。"航空母舰"这个词汇中在原语句中的起始位置为4，结束位置为7。因此在BERT输入的位置编码中该词的起始位置为4，结束位置为7。通过将词汇边界标识符与词汇所在语句中共享位置编码，不需要对词汇信息引入额外的位置编码信息，因此推断速度更快、内存占用小。

步骤4：将各所述训练样本输入到BERT模型进行编码，得到各训练样本的上下文的语义信息向量。

本实施例中，选用哈工大讯飞联合实验室发布中文BERT-wwm-ext预训练模型对输入数据进行编码。

本实施例中，在所述BERT模型的attention层中使用一个attetion_mask，文本token只注意文本的token、不去注意标识符的token，而标识符的token可以注意原文token。如图4所示，attetion_mask为一个大小为输入17×17的矩阵，17为输入文本“[CLS]第一艘航空母舰是辽宁舰[SEP][n][/n][ns][/ns][n][/n][SEP]”减去开始标识符和结尾标识符的长度。黑色点位值为1，代表这个点位有用，白色点位值为0，代表这个位被mask掉。由于词汇标识符token是不含BIO标注信息的，attetion_mask目的是复用文本中所有字符token的隐向量，使得字符token和标识符token相互独立，从而在模型训练中降低推理时间开销。

本发明通过引入军事领域专用词典，使用分词法得到待识别文本中的词汇及词性信息，然后将待识别文本中的字符信息和词汇信息一起构造输入语句输入到BERT语言模型中，也就是将词汇边界和词性类型作为标识符加入到实体序列后，构造出输入语句输入到BERT模型中，充分利用了语句中的字符语义特征和词汇语义特征，增强了输入数据的信息，提升了命名实体识别的精度。

步骤5：将所述语义信息向量输入到CRF层中，CRF层根据所述语义信息向量捕获相邻标签之间的依赖关系，并通过所述相邻标签之间的依赖关系确定每一条数据的标签序列，根据所述标签序列得到每一条训练样本中的军事命名实体；

本实施例中，根据步骤5中捕获的相邻标签之间的依赖关系获得全局最优标签序列，CRF可从训练数据中学习到与标签相关的约束条件，以保证最终输出结果的有效性。在序列标注中，一个词的标签常常与其周围词的标签存在关联。因此，对于给定的句子，最有效的方法是将句子中当前词的标签与相邻词标签的关系结合考虑，然后解码出最优的标签序列。CRF可从训练数据中学习到与标签相关的约束条件，以保证最终输出结果的有效性。也就是BERT是编码，CRF是根据标注的标签约束进行解码。

步骤5中所述标签是指通过BIO标注方式进行标注的标签。

如图3所示，通过CRF层，对语句“国内第一艘航空母舰是辽宁舰”给出的标签结果为O,O,O,O,O,B-W，I-W，I-W，I-W，O,B-W，I-W，I-W，也就是根据BIO标注方式的解释，将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型，因此，得出的命名实体为“航空母舰”和“辽宁舰”。

通过将所构造的输入数据经BERT编码后得到的语义信息向量输入到CRF层中，最后，由CRF层预测全局最优结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于词汇增强的军事命名实体识别方法，其特征在于，包括以下步骤：

步骤3：将经过分词处理的的每一条数据构造输入数据作为训练样本，构造方法为，在经过分词处理的的每一条数据添加开头标识符“[CLS]”和结尾标识符“[SEP]”，对每一条数据中的每个词汇结合该词汇的词性设置边界标识符，并按照每个词汇在该条数据中出现的顺序将该词汇的边界标识符放入到所述该条语句的结尾标识符“[SEP]”之后，在最后一个词汇标识符之后额外加入一个结尾标识符“[SEP]”；

步骤6：重复步骤3至5，直到网络模型训练误差达到预设的阈值，得到训练好的网络模型；

2.根据权利要求1所述的军事命名实体识别方法，其特征在于，步骤3中所述词汇边界标识符是指使用[词性]作为该词汇的开始标识符，使用[/词性]作为该词汇的结束标识符，所述开始标识符和结束标识符中的词性为步骤2中得到的该词汇的词性。

3.根据权利要求2所述的军事命名实体识别方法，其特征在于，步骤3中每个词汇的边界标识符共享该词汇在预处理后的每条数据中的位置向量。

4.根据权利要求2所述的军事命名实体识别方法，其特征在于，步骤4中，在所述BERT模型的attention层中使用一个attetion_mask，文本token只去attend文本的token、不去attend标识符的token，而标识符token可以attend原文token。

5.根据权利要求4所述的军事命名实体识别方法，其特征在于，步骤5中所述标签是指通过BIO标注方式进行标注的标签。

6.根据权利要求1所述的军事命名实体识别方法，其特征在于，步骤4中所述BERT模型为哈工大讯飞联合实验室发布的中文BERT-wwm-ext预训练模型。

7.一种基于词汇增强的军事命名实体识别装置，其特征在于，包括以下步骤：