CN115860002A

CN115860002A - 一种基于事件抽取的作战任务生成方法及系统

Info

Publication number: CN115860002A
Application number: CN202211683504.9A
Authority: CN
Inventors: 卢稳新; 殷昌盛; 杨若鹏; 韦文夏; 杨远涛; 陶宇; 石永琪; 鲁义威
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-03-28
Anticipated expiration: 2042-12-27
Also published as: CN115860002B

Abstract

本发明属于作战任务信息识别技术领域，具体提供了一种基于事件抽取的作战任务生成方法及系统，其中方法包括：对原始的作战指令文本进行预处理；使用由神经网络构建的多重语义编码器，逐级学习捕获实体、句子、篇章三个层级的语义信息；建立作战任务抽取模型，并训练作战任务抽取模型参数；利用训练好的作战任务抽取模型，对待预测的作战指令文本进行作战任务信息抽取。基于事件抽取的作战任务生成方法，将作战任务视为一种战场事件，利用机器算法从文本中自动抽取作战任务，有助于建立机器对作战指令文本语义的理解，能够为作战任务关联分析、打击目标分配、兵力火力配置等后续工作的智能化实现提供重要支撑。

Description

一种基于事件抽取的作战任务生成方法及系统

技术领域

本发明涉及作战任务信息识别技术领域，更具体地，涉及一种基于事件抽取的作战任务生成方法及系统。

背景技术

作战任务信息是作战指挥知识的重要组成部分，是进行作战方案拟制、作战计划制定的重要先验知识。利用事件抽取技术抽取作战任务信息的目的，是为了在海量信息涌入的情况快速识别指挥文书中蕴含的显性作战任务，并采用预定义的描述框架抽取作战任务的相关信息。

目前，从指挥文书中识别作战任务及其关键信息的工作主要是由人工判读来实现。人工分析方式严重依赖指挥人员个体的知识、经验，无法最大限度应用在长期研究与实践中积累的关于作战任务描述、作战任务规划、作战任务匹配模式的丰富知识与经验，当短时间内有大量信息涌入指挥系统或作战行动涉及多个领域的大量作战单元时，分析结论易受主观因素影响大且难以实现对上级指令的快速理解和完备分析。

事件抽取技术的主要功能是从目标语料中识别预定义类型的事件并抽取事件的相关要素，它可为下游的多个应用，如知识图谱构建、智能问答、自然语言理解等，提供有价值的结构化信息。当前，现有大多数事件抽取算法仅从句子的视角进行事件抽取，在应用于面向指挥文书的作战任务抽取时面临以下挑战：

(1)“参数分散”，指一个作战任务的参数可能跨越多个句子分布。参数分散挑战要求事件抽取模型要能够对整篇文档拥有整体性的理解，并且具有跨越句子来聚集所有事件参数的能力；

(2)“多事件”，指文档中包含两个以上不同的作战任务并且这些作战任务之间没有明显的文本边界。多事件挑战要求事件抽取模型要能够识别出一篇文档中包含多少个作战任务，并要能够正确地将各个参数分配至匹配的事件。

发明内容

本发明针对现有技术中存在的从指挥文书中识别作战任务存在参数分散、多事件导致信息提取困难的技术问题。

本发明提供了一种基于事件抽取的作战任务生成方法，包括以下步骤：

S1，对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵；

S2，构建作战指挥领域预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵，对词嵌入矩阵中逐行进行序列标注；

S3，使用由神经网络构建的多重语义编码器，逐级学习捕获实体、句子、篇章三个层级的语义信息，同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度；

S4，基于对作战指令文本的语义特征学习结果，建立作战任务抽取模型，并训练作战任务抽取模型参数；

S5，利用训练好的作战任务抽取模型，对待预测的作战指令文本进行作战任务信息抽取。

优选地，所述S1具体包括：

S11，对输入的原始作战指令文本进行预处理，去除无意义的符号，并按照中文断句符号进行分句，将原始的非结构化文本转换为句子序列；

S12，依据领域内的权威术语集和专业词典，对句子序列中的每个句子逐个进行分词操作，生成词汇矩阵。

优选地，所述S12具体包括：

计算最长的句子中所包含的词汇数N_w，对于长度小于N_w的句子在词汇矩阵多余的位置用0元素补足。

优选地，所述S2具体包括：

S21，以领域内的权威术语集和专业词典为原始语料，基于BERT开源学习框架，构建适配于作战指挥领域语义特征的预训练语言模型；

S22，利用完成训练的预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵；

S23，使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注，使用维特比解码推理获取每个句子的实体识别最佳标注结果。

优选地，所述S3具体包括：

S31，针对标注出的所有实体，在其词嵌入序列上执行最大池化运算，聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入；

S32，对词嵌入矩阵的每一行执行最大池化运算，将任意句子的词嵌入序列聚合于一个具有固定维度的句子嵌入中；

S33，在所有已获得的实体嵌入中添加句子的位置特征；

S34，对句子的嵌入向量使用基于Transformer方法的编码器将句子外部的篇章信息编码进该句子的嵌入向量中；

S35，对所有句子的嵌入向量执行最大池化运算，获得整篇文档的嵌入。

优选地，所述S4具体包括：

S41，以枚举的方式对已知的作战任务类型进行预定义，对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序，每个作战任务类型与其拥有的属性集合构成一个作战任务描述模板；

S42，以作战任务描述模板为抽取框架，首先生成一个虚拟的根节点，抽取出文档中存在的作战任务指称并将其添加到根节点上，然后根据提前预定义好的作战任务描述模板，为作战任务指称节点依次添加属性节点；

S43，使用基于Transformer模型的解码器Decoder(·)通过条件概率计算依次预测出训练样本中每个实体对应的作战任务属性标签；

S44，依据作战任务描述模板中作战任务属性集合的默认次序，将预测标签类型与作战任务属性类型相一致的实体逐个链接至对应的作战任务属性节点上，并利用该实体的真实标签和预测标签计算出一个交叉熵损失函数，一个作战任务描述模板中所有属性节点损失函数之和即为当前训练样本最终的损失函数；

S45，根据步骤S44计算出的损失函数优化模型参数，完成当前作战任务属性的实体添加操作后，然后继续进入下一个训练样本的处理进程，重复上述操作直至损失函数小于预定的阈值或者模型迭代次数达到预设的次数。

优选地，所述S5具体包括：

S51，输入的待抽取的作战指令文本；

S52，对步骤S51生成的词汇矩阵逐行进行序列标注；

S53，基于步骤S52生成的嵌入矩阵，学习捕获每个预测样本语义特征，并将学习结果输入训练好的作战任务抽取模型；

S54，通过作战任务抽取模型对实体嵌入、嵌入向量、整篇文档嵌入应用标签分类器,引导机器识别出文档中包含的作战任务及其参数，对于识别出的每个作战任务，生成一个基于实体的作战任务图来对其进行表达。

本发明还提供了一种基于事件抽取的作战任务生成系统，所述系统用于实现基于事件抽取的作战任务生成方法，包括：

预处理模块，用于对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵；

词嵌入序列标注模块，用于构建作战指挥领域预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵，对词嵌入矩阵中逐行进行序列标注；

语义特征学习模块，用于使用由神经网络构建的多重语义编码器，逐级学习捕获实体、句子、篇章三个层级的语义信息，同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度；

模型训练模块，用于基于对作战指令文本的语义特征学习结果，建立作战任务抽取模型，并训练作战任务抽取模型参数；

作战任务抽取模块，用于利用训练好的作战任务抽取模型，对待预测的作战指令文本进行作战任务信息抽取。

本发明还提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现基于事件抽取的作战任务生成方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现基于事件抽取的作战任务生成方法的步骤。

有益效果：本发明提供的一种基于事件抽取的作战任务生成方法及系统，其中方法包括：对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵；构建作战指挥领域预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵，对词嵌入矩阵中逐行进行序列标注；使用由神经网络构建的多重语义编码器，逐级学习捕获实体、句子、篇章三个层级的语义信息，同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度；基于对作战指令文本的语义特征学习结果，建立作战任务抽取模型，并训练作战任务抽取模型参数；利用训练好的作战任务抽取模型，对待预测的作战指令文本进行作战任务信息抽取。基于事件抽取的作战任务生成方法，将作战任务视为一种战场事件，利用机器算法从文本中自动抽取作战任务，有助于建立机器对作战指令文本语义的理解，能够为作战任务关联分析、打击目标分配、兵力火力配置等后续工作的智能化实现提供重要支撑。

附图说明

图1为本发明提供的一种基于事件抽取的作战任务生成方法原理示意图；

图2为本发明提供的一种可能的电子设备的硬件结构示意图；

图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明提供的一种基于事件抽取的作战任务生成方法，包括以下步骤：

S1，预处理：对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵。对包含有作战任务信息的作战指令文本进行句子划分，使用分词工具对划分好的句子进行分词，从而获得对应于输入文本的词汇矩阵。

S2，词嵌入序列标注：构建作战指挥领域预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵，对词嵌入矩阵中逐行进行序列标注。使用命名实体标注框架标注出每个句子中的实体词汇，然后通过预训练语言模型将标注结果转换为机器可以计算的词嵌入矩阵。

S3，语义特征学习：使用最大池化运算和基于Transformer模型的编码算法，逐级学习捕获实体、句子、篇章三个层级的语义信息，同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度。

S4，基于对作战指令文本的语义特征学习结果，建立作战任务抽取模型，并训练作战任务抽取模型参数。

S5，利用训练好的作战任务抽取模型，对待预测的作战指令文本进行作战任务信息抽取。利用训练好的作战任务抽取模型，采用基于路径的推理方法从文档中抽取作战任务相关信息，针对每一项任务生成图形化的任务记录。

在一个具体的实施场景中，：

一种基于事件抽取的作战任务生成方法，包括以下步骤：

1.预处理：对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵。

1.1对输入的原始作战指令文本进行预处理，去除无意义的符号，并按照“。”“！”等中文断句符号进行分句，将原始的非结构化文本转换为句子序列

1.2依据领域内的权威术语集和专业词典，对句子序列中的每个句子逐个进行分词操作，生成词汇矩阵D：

式中，矩阵D的第i行词汇序列

对应原始文本中第i个句子S_i，其中的元素w_i,j表示第i个句子的第j个词语，N_w表示/>

中最长的句子所包含的词汇数，对于长度小于N_w的句子在词汇矩阵D多余的位置用0元素补足。

2.词嵌入序列标注：构建作战指挥领域预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵，对词嵌入矩阵中逐行进行序列标注。

2.1以领域内的权威术语集和专业词典为原始语料，基于BERT开源学习框架，构建适配于作战指挥领域语义特征的预训练语言模型；

2.2利用完成训练的预训练语言模型，将待处理的词汇矩阵转换为词嵌入矩阵：

式中，

表示第i个句子中第j词汇的嵌入向量；

2.3使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注，使用维特比解码推理获取每个句子的实体识别最佳标注结果。

3.语义特征学习：使用最大池化运算和基于Transformer模型的编码算法构建多重语义编码器，逐级学习捕获实体、句子、篇章三个层级的语义信息，同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度。

3.1针对标注出的所有实体，在其词嵌入序列上执行最大池化运算，聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入：

式中，

表示由第i句子中的第n个到第k个词汇组成的第l个实体的实体嵌入，d_w表示统一的实体嵌入维度；

3.2对词嵌入矩阵H_D的每一行执行最大池化运算，将任意句子S_i的词嵌入序列

聚合于一个具有固定维度的句子嵌入/>

中。经过上述操作，句子中各实体的嵌入中融入了当前句子的语境。

3.3在所有已获得的实体嵌入中添加句子的位置特征：

式中，

表示经过实体语义学习得到的第i个句子中第l个实体的嵌入，/>

表示第i个句子在文档中的位置特征，.||.表示连接操作,之后，使用基于Transformer方法的编码器将句子S_i外部的篇章信息编码进实体的嵌入中：

式中，

表示文档D中除第i个句子之外的所有句子，/>

表示融入了篇章语境的第i个句子的第l个实体嵌入；

3.4对句子S_i的嵌入向量

使用基于Transformer方法的编码器将句子S_i外部的篇章信息编码进该句子的嵌入向量中：

式中，

表示文档D中除第i个句子之外的所有句子，/>

表示融入了篇章语境的第i个句子的嵌入向量；

3.5对所有句子的嵌入向量

执行最大池化运算，获得整篇文档嵌入/>

4.模型训练：基于对作战指令文本的语义特征学习结果，建立作战任务抽取模型，并训练作战任务抽取模型参数。

4.1以枚举的方式对常见的作战任务类型进行预定义，对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序，每个作战任务类型与其拥有的属性集合Y＝{Y₁,Y₂,…Y_|Y|｝构成一个作战任务描述模板；

4.2以作战任务描述模板为抽取框架，首先生成一个虚拟的根节点Root，抽取出文档中存在的作战任务指称并将其添加到根节点上，之后，然后根据提前预定义好的作战任务描述模板，为作战任务指称节点依次添加属性节点；

4.3输入包含m个实体e的训练样本S＝[e₁；e₂；…；e_m]，其对应的真实标签序列为y＝{y₁,y₂,…y_m}，给定预定义的作战任务属性集合Y＝{Y₁,Y₂,…Y_|Y||，使用基于Transformer模型的解码器Decoder(·)通过条件概率计算依次预测出S中每个实体对应的作战任务属性标签：

式中，

表示预测出的S中第i个实体e_i的类型标签，/>

表示解码器输出的实体e_i的隐藏状态,完整的预测标签序列/>

的条件概率/>

由其中每个元素的条件概率/>

逐步组合而成：

式中，

4.4依据作战任务描述模板中作战任务属性集合Y＝{Y₁,Y₂,…Y_|Y|}的默认次序，将预测标签类型与作战任务属性类型相一致的e_i∈S逐个链接至对应的作战任务属性节点上，如果对于某一个作战任务属性在输入样本中未发现与其对应的实体，则创建一个NA节点链接至当前的作战任务属性节点上。每为一个作战任务属性节点链接上一个实体，则利用该实体的真实标签y_i和预测标签

计算出一个交叉熵损失函数，一个作战任务描述模板中所有属性节点损失函数之和即为当前训练样本最终的损失函数；

4.5根据步骤4.4计算出的损失函数优化模型参数，完成当前作战任务属性的实体添加操作后，然后继续进入下一个训练样本的处理进程，重复上述操作直至损失函数小于预定的阈值或者模型迭代次数达到预设的次数。

5.作战任务抽取：利用训练好的作战任务抽取模型，对待预测的作战指令文本进行作战任务信息抽取。

5.1输入的待抽取的作战指令文本，预处理；

5.2对步骤5.1生成的词汇矩阵逐行进行序列标注；

5.3基于步骤5.2生成的嵌入矩阵，学习捕获每个预测样本语义特征，并将学习结果输入训练好的作战任务抽取模型；

5.4通过作战任务抽取模型对

嵌入向量/>

h_D应用标签分类器,引导机器识别出文档D中包含的作战任务及其参数，对于识别出的每个作战任务，生成一个基于实体的作战任务图来对其进行表达。

本发明实施例还提供了一种基于事件抽取的作战任务生成系统，所述系统用于实现如前所述的基于事件抽取的作战任务生成方法，包括：

请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示，本发明实施例提了一种电子设备，包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：S1，对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵；

请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：S1，对原始的作战指令文本进行预处理，将其从非结构化文本转换为词汇矩阵；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于事件抽取的作战任务生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于事件抽取的作战任务生成方法，其特征在于，所述S1具体包括：

3.根据权利要求2所述的基于事件抽取的作战任务生成方法，其特征在于，所述S12具体包括：

4.根据权利要求1所述的基于事件抽取的作战任务生成方法，其特征在于，所述S2具体包括：

5.根据权利要求1所述的基于事件抽取的作战任务生成方法，其特征在于，所述S3具体包括：

S33，在所有已获得的实体嵌入中添加句子的位置特征；

6.根据权利要求1所述的基于事件抽取的作战任务生成方法，其特征在于，所述S4具体包括：

7.根据权利要求1所述的基于事件抽取的作战任务生成方法，其特征在于，所述S5具体包括：

S51，输入的待抽取的作战指令文本；

S52，对步骤S51生成的词汇矩阵逐行进行序列标注；

8.一种基于事件抽取的作战任务生成系统，其特征在于，所述系统用于实现如权利要求1-7任一项所述的基于事件抽取的作战任务生成方法，包括：

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于事件抽取的作战任务生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于事件抽取的作战任务生成方法的步骤。