CN115860002A - 一种基于事件抽取的作战任务生成方法及系统 - Google Patents

一种基于事件抽取的作战任务生成方法及系统 Download PDF

Info

Publication number
CN115860002A
CN115860002A CN202211683504.9A CN202211683504A CN115860002A CN 115860002 A CN115860002 A CN 115860002A CN 202211683504 A CN202211683504 A CN 202211683504A CN 115860002 A CN115860002 A CN 115860002A
Authority
CN
China
Prior art keywords
combat
mission
task
sentence
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211683504.9A
Other languages
English (en)
Other versions
CN115860002B (zh
Inventor
卢稳新
殷昌盛
杨若鹏
韦文夏
杨远涛
陶宇
石永琪
鲁义威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211683504.9A priority Critical patent/CN115860002B/zh
Publication of CN115860002A publication Critical patent/CN115860002A/zh
Application granted granted Critical
Publication of CN115860002B publication Critical patent/CN115860002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于作战任务信息识别技术领域,具体提供了一种基于事件抽取的作战任务生成方法及系统,其中方法包括:对原始的作战指令文本进行预处理;使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息;建立作战任务抽取模型,并训练作战任务抽取模型参数;利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。基于事件抽取的作战任务生成方法,将作战任务视为一种战场事件,利用机器算法从文本中自动抽取作战任务,有助于建立机器对作战指令文本语义的理解,能够为作战任务关联分析、打击目标分配、兵力火力配置等后续工作的智能化实现提供重要支撑。

Description

一种基于事件抽取的作战任务生成方法及系统
技术领域
本发明涉及作战任务信息识别技术领域,更具体地,涉及一种基于事件抽取的作战任务生成方法及系统。
背景技术
作战任务信息是作战指挥知识的重要组成部分,是进行作战方案拟制、作战计划制定的重要先验知识。利用事件抽取技术抽取作战任务信息的目的,是为了在海量信息涌入的情况快速识别指挥文书中蕴含的显性作战任务,并采用预定义的描述框架抽取作战任务的相关信息。
目前,从指挥文书中识别作战任务及其关键信息的工作主要是由人工判读来实现。人工分析方式严重依赖指挥人员个体的知识、经验,无法最大限度应用在长期研究与实践中积累的关于作战任务描述、作战任务规划、作战任务匹配模式的丰富知识与经验,当短时间内有大量信息涌入指挥系统或作战行动涉及多个领域的大量作战单元时,分析结论易受主观因素影响大且难以实现对上级指令的快速理解和完备分析。
事件抽取技术的主要功能是从目标语料中识别预定义类型的事件并抽取事件的相关要素,它可为下游的多个应用,如知识图谱构建、智能问答、自然语言理解等,提供有价值的结构化信息。当前,现有大多数事件抽取算法仅从句子的视角进行事件抽取,在应用于面向指挥文书的作战任务抽取时面临以下挑战:
(1)“参数分散”,指一个作战任务的参数可能跨越多个句子分布。参数分散挑战要求事件抽取模型要能够对整篇文档拥有整体性的理解,并且具有跨越句子来聚集所有事件参数的能力;
(2)“多事件”,指文档中包含两个以上不同的作战任务并且这些作战任务之间没有明显的文本边界。多事件挑战要求事件抽取模型要能够识别出一篇文档中包含多少个作战任务,并要能够正确地将各个参数分配至匹配的事件。
发明内容
本发明针对现有技术中存在的从指挥文书中识别作战任务存在参数分散、多事件导致信息提取困难的技术问题。
本发明提供了一种基于事件抽取的作战任务生成方法,包括以下步骤:
S1,对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
S2,构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
S3,使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
优选地,所述S1具体包括:
S11,对输入的原始作战指令文本进行预处理,去除无意义的符号,并按照中文断句符号进行分句,将原始的非结构化文本转换为句子序列;
S12,依据领域内的权威术语集和专业词典,对句子序列中的每个句子逐个进行分词操作,生成词汇矩阵。
优选地,所述S12具体包括:
计算最长的句子中所包含的词汇数Nw,对于长度小于Nw的句子在词汇矩阵多余的位置用0元素补足。
优选地,所述S2具体包括:
S21,以领域内的权威术语集和专业词典为原始语料,基于BERT开源学习框架,构建适配于作战指挥领域语义特征的预训练语言模型;
S22,利用完成训练的预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵;
S23,使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注,使用维特比解码推理获取每个句子的实体识别最佳标注结果。
优选地,所述S3具体包括:
S31,针对标注出的所有实体,在其词嵌入序列上执行最大池化运算,聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入;
S32,对词嵌入矩阵的每一行执行最大池化运算,将任意句子的词嵌入序列聚合于一个具有固定维度的句子嵌入中;
S33,在所有已获得的实体嵌入中添加句子的位置特征;
S34,对句子的嵌入向量使用基于Transformer方法的编码器将句子外部的篇章信息编码进该句子的嵌入向量中;
S35,对所有句子的嵌入向量执行最大池化运算,获得整篇文档的嵌入。
优选地,所述S4具体包括:
S41,以枚举的方式对已知的作战任务类型进行预定义,对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序,每个作战任务类型与其拥有的属性集合构成一个作战任务描述模板;
S42,以作战任务描述模板为抽取框架,首先生成一个虚拟的根节点,抽取出文档中存在的作战任务指称并将其添加到根节点上,然后根据提前预定义好的作战任务描述模板,为作战任务指称节点依次添加属性节点;
S43,使用基于Transformer模型的解码器Decoder(·)通过条件概率计算依次预测出训练样本中每个实体对应的作战任务属性标签;
S44,依据作战任务描述模板中作战任务属性集合的默认次序,将预测标签类型与作战任务属性类型相一致的实体逐个链接至对应的作战任务属性节点上,并利用该实体的真实标签和预测标签计算出一个交叉熵损失函数,一个作战任务描述模板中所有属性节点损失函数之和即为当前训练样本最终的损失函数;
S45,根据步骤S44计算出的损失函数优化模型参数,完成当前作战任务属性的实体添加操作后,然后继续进入下一个训练样本的处理进程,重复上述操作直至损失函数小于预定的阈值或者模型迭代次数达到预设的次数。
优选地,所述S5具体包括:
S51,输入的待抽取的作战指令文本;
S52,对步骤S51生成的词汇矩阵逐行进行序列标注;
S53,基于步骤S52生成的嵌入矩阵,学习捕获每个预测样本语义特征,并将学习结果输入训练好的作战任务抽取模型;
S54,通过作战任务抽取模型对实体嵌入、嵌入向量、整篇文档嵌入应用标签分类器,引导机器识别出文档中包含的作战任务及其参数,对于识别出的每个作战任务,生成一个基于实体的作战任务图来对其进行表达。
本发明还提供了一种基于事件抽取的作战任务生成系统,所述系统用于实现基于事件抽取的作战任务生成方法,包括:
预处理模块,用于对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
词嵌入序列标注模块,用于构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
语义特征学习模块,用于使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
模型训练模块,用于基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
作战任务抽取模块,用于利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于事件抽取的作战任务生成方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于事件抽取的作战任务生成方法的步骤。
有益效果:本发明提供的一种基于事件抽取的作战任务生成方法及系统,其中方法包括:对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。基于事件抽取的作战任务生成方法,将作战任务视为一种战场事件,利用机器算法从文本中自动抽取作战任务,有助于建立机器对作战指令文本语义的理解,能够为作战任务关联分析、打击目标分配、兵力火力配置等后续工作的智能化实现提供重要支撑。
附图说明
图1为本发明提供的一种基于事件抽取的作战任务生成方法原理示意图;
图2为本发明提供的一种可能的电子设备的硬件结构示意图;
图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种基于事件抽取的作战任务生成方法,包括以下步骤:
S1,预处理:对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵。对包含有作战任务信息的作战指令文本进行句子划分,使用分词工具对划分好的句子进行分词,从而获得对应于输入文本的词汇矩阵。
S2,词嵌入序列标注:构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注。使用命名实体标注框架标注出每个句子中的实体词汇,然后通过预训练语言模型将标注结果转换为机器可以计算的词嵌入矩阵。
S3,语义特征学习:使用最大池化运算和基于Transformer模型的编码算法,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度。
S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数。
S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。利用训练好的作战任务抽取模型,采用基于路径的推理方法从文档中抽取作战任务相关信息,针对每一项任务生成图形化的任务记录。
在一个具体的实施场景中,:
一种基于事件抽取的作战任务生成方法,包括以下步骤:
1.预处理:对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵。
1.1对输入的原始作战指令文本进行预处理,去除无意义的符号,并按照“。”“!”等中文断句符号进行分句,将原始的非结构化文本转换为句子序列
Figure BDA0004020000610000081
1.2依据领域内的权威术语集和专业词典,对句子序列中的每个句子逐个进行分词操作,生成词汇矩阵D:
Figure BDA0004020000610000091
式中,矩阵D的第i行词汇序列
Figure BDA0004020000610000092
对应原始文本中第i个句子Si,其中的元素wi,j表示第i个句子的第j个词语,Nw表示/>
Figure BDA0004020000610000093
中最长的句子所包含的词汇数,对于长度小于Nw的句子在词汇矩阵D多余的位置用0元素补足。
2.词嵌入序列标注:构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注。
2.1以领域内的权威术语集和专业词典为原始语料,基于BERT开源学习框架,构建适配于作战指挥领域语义特征的预训练语言模型;
2.2利用完成训练的预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵:
Figure BDA0004020000610000094
式中,
Figure BDA0004020000610000095
表示第i个句子中第j词汇的嵌入向量;
2.3使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注,使用维特比解码推理获取每个句子的实体识别最佳标注结果。
3.语义特征学习:使用最大池化运算和基于Transformer模型的编码算法构建多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度。
3.1针对标注出的所有实体,在其词嵌入序列上执行最大池化运算,聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入:
Figure BDA0004020000610000101
式中,
Figure BDA0004020000610000102
表示由第i句子中的第n个到第k个词汇组成的第l个实体的实体嵌入,dw表示统一的实体嵌入维度;
3.2对词嵌入矩阵HD的每一行执行最大池化运算,将任意句子Si的词嵌入序列
Figure BDA0004020000610000103
聚合于一个具有固定维度的句子嵌入/>
Figure BDA0004020000610000104
Figure BDA0004020000610000105
中。经过上述操作,句子中各实体的嵌入中融入了当前句子的语境。
3.3在所有已获得的实体嵌入中添加句子的位置特征:
Figure BDA0004020000610000106
式中,
Figure BDA0004020000610000107
表示经过实体语义学习得到的第i个句子中第l个实体的嵌入,/>
Figure BDA0004020000610000108
表示第i个句子在文档中的位置特征,.||.表示连接操作,之后,使用基于Transformer方法的编码器将句子Si外部的篇章信息编码进实体的嵌入中:
Figure BDA0004020000610000109
式中,
Figure BDA00040200006100001010
表示文档D中除第i个句子之外的所有句子,/>
Figure BDA00040200006100001011
表示融入了篇章语境的第i个句子的第l个实体嵌入;
3.4对句子Si的嵌入向量
Figure BDA00040200006100001012
使用基于Transformer方法的编码器将句子Si外部的篇章信息编码进该句子的嵌入向量中:
Figure BDA00040200006100001013
式中,
Figure BDA00040200006100001014
表示文档D中除第i个句子之外的所有句子,/>
Figure BDA00040200006100001015
表示融入了篇章语境的第i个句子的嵌入向量;
3.5对所有句子的嵌入向量
Figure BDA0004020000610000111
执行最大池化运算,获得整篇文档嵌入/>
Figure BDA0004020000610000112
4.模型训练:基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数。
4.1以枚举的方式对常见的作战任务类型进行预定义,对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序,每个作战任务类型与其拥有的属性集合Y={Y1,Y2,…Y|Y|}构成一个作战任务描述模板;
4.2以作战任务描述模板为抽取框架,首先生成一个虚拟的根节点Root,抽取出文档中存在的作战任务指称并将其添加到根节点上,之后,然后根据提前预定义好的作战任务描述模板,为作战任务指称节点依次添加属性节点;
4.3输入包含m个实体e的训练样本S=[e1;e2;…;em],其对应的真实标签序列为y={y1,y2,…ym},给定预定义的作战任务属性集合Y={Y1,Y2,…Y|Y||,使用基于Transformer模型的解码器Decoder(·)通过条件概率计算依次预测出S中每个实体对应的作战任务属性标签:
Figure BDA0004020000610000113
式中,
Figure BDA0004020000610000114
表示预测出的S中第i个实体ei的类型标签,/>
Figure BDA0004020000610000115
表示解码器输出的实体ei的隐藏状态,完整的预测标签序列/>
Figure BDA0004020000610000116
的条件概率/>
Figure BDA0004020000610000117
由其中每个元素的条件概率/>
Figure BDA0004020000610000118
逐步组合而成:
Figure BDA0004020000610000121
式中,
Figure BDA0004020000610000122
4.4依据作战任务描述模板中作战任务属性集合Y={Y1,Y2,…Y|Y|}的默认次序,将预测标签类型与作战任务属性类型相一致的ei∈S逐个链接至对应的作战任务属性节点上,如果对于某一个作战任务属性在输入样本中未发现与其对应的实体,则创建一个NA节点链接至当前的作战任务属性节点上。每为一个作战任务属性节点链接上一个实体,则利用该实体的真实标签yi和预测标签
Figure BDA0004020000610000123
计算出一个交叉熵损失函数,一个作战任务描述模板中所有属性节点损失函数之和即为当前训练样本最终的损失函数;
4.5根据步骤4.4计算出的损失函数优化模型参数,完成当前作战任务属性的实体添加操作后,然后继续进入下一个训练样本的处理进程,重复上述操作直至损失函数小于预定的阈值或者模型迭代次数达到预设的次数。
5.作战任务抽取:利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
5.1输入的待抽取的作战指令文本,预处理;
5.2对步骤5.1生成的词汇矩阵逐行进行序列标注;
5.3基于步骤5.2生成的嵌入矩阵,学习捕获每个预测样本语义特征,并将学习结果输入训练好的作战任务抽取模型;
5.4通过作战任务抽取模型对
Figure BDA0004020000610000124
嵌入向量/>
Figure BDA0004020000610000125
hD应用标签分类器,引导机器识别出文档D中包含的作战任务及其参数,对于识别出的每个作战任务,生成一个基于实体的作战任务图来对其进行表达。
本发明实施例还提供了一种基于事件抽取的作战任务生成系统,所述系统用于实现如前所述的基于事件抽取的作战任务生成方法,包括:
预处理模块,用于对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
词嵌入序列标注模块,用于构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
语义特征学习模块,用于使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
模型训练模块,用于基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
作战任务抽取模块,用于利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:S1,对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
S2,构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
S3,使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
S2,构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
S3,使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于事件抽取的作战任务生成方法,其特征在于,包括以下步骤:
S1,对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
S2,构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
S3,使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
2.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S1具体包括:
S11,对输入的原始作战指令文本进行预处理,去除无意义的符号,并按照中文断句符号进行分句,将原始的非结构化文本转换为句子序列;
S12,依据领域内的权威术语集和专业词典,对句子序列中的每个句子逐个进行分词操作,生成词汇矩阵。
3.根据权利要求2所述的基于事件抽取的作战任务生成方法,其特征在于,所述S12具体包括:
计算最长的句子中所包含的词汇数Nw,对于长度小于Nw的句子在词汇矩阵多余的位置用0元素补足。
4.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S2具体包括:
S21,以领域内的权威术语集和专业词典为原始语料,基于BERT开源学习框架,构建适配于作战指挥领域语义特征的预训练语言模型;
S22,利用完成训练的预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵;
S23,使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注,使用维特比解码推理获取每个句子的实体识别最佳标注结果。
5.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S3具体包括:
S31,针对标注出的所有实体,在其词嵌入序列上执行最大池化运算,聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入;
S32,对词嵌入矩阵的每一行执行最大池化运算,将任意句子的词嵌入序列聚合于一个具有固定维度的句子嵌入中;
S33,在所有已获得的实体嵌入中添加句子的位置特征;
S34,对句子的嵌入向量使用基于Transformer方法的编码器将句子外部的篇章信息编码进该句子的嵌入向量中;
S35,对所有句子的嵌入向量执行最大池化运算,获得整篇文档的嵌入。
6.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S4具体包括:
S41,以枚举的方式对已知的作战任务类型进行预定义,对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序,每个作战任务类型与其拥有的属性集合构成一个作战任务描述模板;
S42,以作战任务描述模板为抽取框架,首先生成一个虚拟的根节点,抽取出文档中存在的作战任务指称并将其添加到根节点上,然后根据提前预定义好的作战任务描述模板,为作战任务指称节点依次添加属性节点;
S43,使用基于Transformer模型的解码器Decoder(·)通过条件概率计算依次预测出训练样本中每个实体对应的作战任务属性标签;
S44,依据作战任务描述模板中作战任务属性集合的默认次序,将预测标签类型与作战任务属性类型相一致的实体逐个链接至对应的作战任务属性节点上,并利用该实体的真实标签和预测标签计算出一个交叉熵损失函数,一个作战任务描述模板中所有属性节点损失函数之和即为当前训练样本最终的损失函数;
S45,根据步骤S44计算出的损失函数优化模型参数,完成当前作战任务属性的实体添加操作后,然后继续进入下一个训练样本的处理进程,重复上述操作直至损失函数小于预定的阈值或者模型迭代次数达到预设的次数。
7.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S5具体包括:
S51,输入的待抽取的作战指令文本;
S52,对步骤S51生成的词汇矩阵逐行进行序列标注;
S53,基于步骤S52生成的嵌入矩阵,学习捕获每个预测样本语义特征,并将学习结果输入训练好的作战任务抽取模型;
S54,通过作战任务抽取模型对实体嵌入、嵌入向量、整篇文档嵌入应用标签分类器,引导机器识别出文档中包含的作战任务及其参数,对于识别出的每个作战任务,生成一个基于实体的作战任务图来对其进行表达。
8.一种基于事件抽取的作战任务生成系统,其特征在于,所述系统用于实现如权利要求1-7任一项所述的基于事件抽取的作战任务生成方法,包括:
预处理模块,用于对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
词嵌入序列标注模块,用于构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
语义特征学习模块,用于使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
模型训练模块,用于基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;
作战任务抽取模块,用于利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
9.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于事件抽取的作战任务生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于事件抽取的作战任务生成方法的步骤。
CN202211683504.9A 2022-12-27 2022-12-27 一种基于事件抽取的作战任务生成方法及系统 Active CN115860002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211683504.9A CN115860002B (zh) 2022-12-27 2022-12-27 一种基于事件抽取的作战任务生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211683504.9A CN115860002B (zh) 2022-12-27 2022-12-27 一种基于事件抽取的作战任务生成方法及系统

Publications (2)

Publication Number Publication Date
CN115860002A true CN115860002A (zh) 2023-03-28
CN115860002B CN115860002B (zh) 2024-04-05

Family

ID=85653450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211683504.9A Active CN115860002B (zh) 2022-12-27 2022-12-27 一种基于事件抽取的作战任务生成方法及系统

Country Status (1)

Country Link
CN (1) CN115860002B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117334353A (zh) * 2023-11-07 2024-01-02 广州方信医疗技术有限公司 一种病理科全流程质控和信息管理系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN113627194A (zh) * 2021-10-13 2021-11-09 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113779988A (zh) * 2021-09-07 2021-12-10 科大国创云网科技有限公司 一种通信领域过程类知识事件抽取方法
CN113901813A (zh) * 2021-10-09 2022-01-07 东南大学 一种基于主题特征和隐式句子结构的事件抽取方法
CN114036908A (zh) * 2021-11-16 2022-02-11 安徽大学 一种融入词表知识的中文篇章级事件抽取方法及装置
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114880434A (zh) * 2022-05-24 2022-08-09 昆明理工大学 基于知识图信息引导的篇章级事件角色识别方法
CN114969304A (zh) * 2022-05-09 2022-08-30 昆明理工大学 基于要素图注意力的案件舆情多文档生成式摘要方法
CN115062634A (zh) * 2022-06-21 2022-09-16 新疆大学 一种基于多语言平行语料库的医学术语提取方法及系统
CN115238690A (zh) * 2021-11-26 2022-10-25 一拓通信集团股份有限公司 一种基于bert的军事领域复合命名实体识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113779988A (zh) * 2021-09-07 2021-12-10 科大国创云网科技有限公司 一种通信领域过程类知识事件抽取方法
CN113901813A (zh) * 2021-10-09 2022-01-07 东南大学 一种基于主题特征和隐式句子结构的事件抽取方法
CN113627194A (zh) * 2021-10-13 2021-11-09 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN114036908A (zh) * 2021-11-16 2022-02-11 安徽大学 一种融入词表知识的中文篇章级事件抽取方法及装置
CN115238690A (zh) * 2021-11-26 2022-10-25 一拓通信集团股份有限公司 一种基于bert的军事领域复合命名实体识别方法
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114969304A (zh) * 2022-05-09 2022-08-30 昆明理工大学 基于要素图注意力的案件舆情多文档生成式摘要方法
CN114880434A (zh) * 2022-05-24 2022-08-09 昆明理工大学 基于知识图信息引导的篇章级事件角色识别方法
CN115062634A (zh) * 2022-06-21 2022-09-16 新疆大学 一种基于多语言平行语料库的医学术语提取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUN ZHENG 等: "Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction", 《EMNLP-IJCNLP》, 23 September 2019 (2019-09-23), pages 1 - 16 *
李旭晖 等: "基于多层卷积神经网络的金融事件联合抽取方法", 《图书情报工作》, vol. 65, no. 24, 31 December 2021 (2021-12-31), pages 89 - 99 *
鲁义威 等: "融合预训练模型与注意力机制的军事实体关系抽取方法", 《信息工程大学学报》, vol. 23, no. 1, 28 February 2022 (2022-02-28), pages 108 - 114 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117334353A (zh) * 2023-11-07 2024-01-02 广州方信医疗技术有限公司 一种病理科全流程质控和信息管理系统及方法
CN117334353B (zh) * 2023-11-07 2024-04-30 广州方信医疗技术有限公司 一种病理科全流程质控和信息管理系统及方法

Also Published As

Publication number Publication date
CN115860002B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN113268609B (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN110532558B (zh) 一种基于句子结构深层解析的多意图识别方法及系统
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN116450796B (zh) 一种智能问答模型构建方法及设备
CN114676234A (zh) 一种模型训练方法及相关设备
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN113220865B (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN116303977B (zh) 一种基于特征分类的问答方法及系统
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN115860002B (zh) 一种基于事件抽取的作战任务生成方法及系统
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN111078546A (zh) 一种表达页面特征的方法和电子设备
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant