CN114218932A - 基于故障因果图谱的航空故障文本摘要生成方法及其装置 - Google Patents

基于故障因果图谱的航空故障文本摘要生成方法及其装置 Download PDF

Info

Publication number
CN114218932A
CN114218932A CN202111421783.7A CN202111421783A CN114218932A CN 114218932 A CN114218932 A CN 114218932A CN 202111421783 A CN202111421783 A CN 202111421783A CN 114218932 A CN114218932 A CN 114218932A
Authority
CN
China
Prior art keywords
text
fault
map
effect
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111421783.7A
Other languages
English (en)
Other versions
CN114218932B (zh
Inventor
高龙
董洪飞
高魁
陶剑
武铎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aero Polytechnology Establishment
Original Assignee
China Aero Polytechnology Establishment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aero Polytechnology Establishment filed Critical China Aero Polytechnology Establishment
Priority to CN202111421783.7A priority Critical patent/CN114218932B/zh
Publication of CN114218932A publication Critical patent/CN114218932A/zh
Application granted granted Critical
Publication of CN114218932B publication Critical patent/CN114218932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于故障因果图谱的航空故障文本摘要生成方法与装置,其包括以下步骤:步骤一:通过原始故障因果图谱生成目录图谱;步骤二:获取目标文本样本的特征向量;步骤三:使用故障因果图谱模型生成文本候选摘要;步骤四:对文本生成模型进行解码;步骤五:生成航空故障文本摘要。本方法首先对预先已完成构建的故障因果图谱通过凝聚层次聚类方法从而获取得到目录图谱,进而通过故障因果图谱分别在编码和解码阶段引入预先获取得到的结构化特征,最终生成所需的航空故障文本摘要。本发明利用文档篇章结构进行信息抽取,应用故障因果图谱进行故障逻辑定位,解决了现有生成式摘要模型无法满足篇章目录结构约束的问题。

Description

基于故障因果图谱的航空故障文本摘要生成方法及其装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于故障因果图谱的航空故障文本摘要生成方法及其装置。
背景技术
文本摘要模型能够将较长的文本段落转化为精简的摘要文本,并尽可能保留原文中的全部信息。生成式摘要通常是利用了大规模语料预训练的生成式语言模型,输入一段文本作为开头可以通过自回归的机制续写文本,在摘要数据上微调后输入原文作为开头,模型会生成针对这篇原文的摘要。而这种生成式摘要模型仅仅满足了语法的通顺,但是应用在航空故障领域文本中会出现生成内容篇章结构不合理的情形,例如,在叙事过程中将航空故障的根本原因和次要原因、故障发生过程的不同类型的事件次序颠倒,会出现逻辑混乱等问题。
本发明针对航空故障文本描述中事件具有显著因果关系的篇章结构的特点,设计了基于故障因果图谱的目录图谱生成方法,以及一种基于图神经网络的编码器以及一种故障因果图谱解码器用于融合包含该目录图谱的结构化特征。与已公开的有关篇章结构或故障因果图谱专利对比而言,本申请利用文档篇章结构进行信息抽取,应用故障因果图谱进行故障逻辑定位,综合以上两点应用于文本生成的方法具备独创性。
发明内容
为了克服现有技术的不足,本发明提供了一种基于故障因果图谱的航空故障文本摘要生成方法和装置。该方法首先基于预先已完成构建的故障因果图谱,通过凝聚层次聚类方法获取目录图谱,进而以故障因果图谱为输入,通过图神经网络分别在编码和解码阶段引入预先获取得到的结构化特征,包括故障因果图谱以及目录图谱,从而生成航空故障文本摘要。
为实现上述目的,本发明所采用的解决方案为提供一种基于故障因果图谱的航空故障文本摘要生成方法,其具体步骤包括:
一种基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,其具体步骤包括:
步骤一:通过原始故障因果图谱生成目录图谱;
将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器,获取添加目录图谱的故障因果图谱;将故障因果图谱里的每个事件节点作为一个簇,使用欧几里得距离来衡量两个簇的相似度,具体表达式如下所示:
Figure BDA0003377660830000021
式中:e1表示第一个事件;e2表示第二个事件;Distance(e1,e2)表示第一个事件与第二个事件的相似度;
Figure BDA0003377660830000022
表示事件e1和事件ei在相似度矩阵上的值;
Figure BDA0003377660830000023
表示事件e2和事件ei在相似度矩阵上的值;i∈(1,n),n表示事件总数;
合并距离最小的两个簇,然后重新计算相似度,重复以上步骤一,直到相似度的精度达到要求为止;针对每个簇和簇中的事件节点的距离,按照距离大小进行排序,最小的节点距离就是所述簇的中心事件节点;
步骤二:获取目标文本样本的特征向量;
将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器,获取对目标文本序列的向量化表示,所述文本特征提取模型使用基于预训练语言模型BERT的编码层,获取目标文本样本的特征向量;
Figure BDA0003377660830000024
式中:C表示目标文本样本特征向量;x1,x2分别表示文本的第1个特征和第2个特征;j∈(1,S),S表示文本的特征长度;
Figure BDA0003377660830000025
表示编码器;
步骤三:生成文本候选摘要;
获取步骤二计算得到的目标文本样本以及故障因果图谱的向量化表示输入基于故障因果图谱的解码器中,通过自回归的方式生成文本候选摘要;故障因果图谱解码公式如下:
Zscore=s(MultiNet(I,Θ),Z)
式中:Zscore是选择的子图的向量化表示;其中I是目标第二种文本序列的向量化表示,Θ表示网络的参数,MultiNet表示故障因果图谱解码器,Z是图谱的向量化表示,s表示子图选择函数,Zscore是选择的子图的向量化表示;
步骤四:文本生成模型的解码;
获取步骤三得到的文本候选摘要,将其中的知识子图中的事件短语融入文本生成模型的解码过程,自解码过程的表达式如下所示:
Figure BDA0003377660830000026
式中:t表示时间;yt+1表示t+1时刻的文本输出;yt表示t时刻的文本输出;I是目标第二种文本序列的向量化表示;
Figure BDA0003377660830000031
表示知识图谱抽取函数,使用多层感知机计算(yt,Zscore)之间的得分,0表示不需要融合知识图谱,1表示需要融合知识图谱;
Figure BDA0003377660830000032
表示输出函数,如果无需融合知识图谱,使用全连接层直接映射yt到输出,如果需要融合知识图谱,使用另一个多层感知机映射(yt,Zscore)到输出;
步骤五:生成航空故障文本摘要;
获取步骤四解码后输出的文本,生成所需的航空故障文本摘要。
可优选的是,所述步骤一中所述的相似度的精度达到要求,具体比较方法如下式所示;
Distance(e1,e2)≤ρ
式中:ρ表示相似度的精度。
可优选的是,所述步骤二中航空领域文本序列对应的向量化表示前,需要基于凝聚层次聚类的方法生成目录图谱,需经过深度文本特征提取器模型提取文本特征。
可优选的是,所述步骤三中的自回归的方式,是以递归的方式,已知故障因果图谱解码公式情况下,给定已生成文本对应输出词表的赋值来预测概率最高的下一个字。
可优选的是,所述步骤四中的输入文本得到摘要生成结果之前,需要使用故障因果图谱对包括故障因果图谱、目录图谱在内的结构化特征融合。
在本发明的第二方面中,提供一种基于故障因果图谱的航空故障文本摘要生成装置,其包括以下内容:
第一获取单元,用于生成目录图谱的原始故障因果图谱;
第一输入单元,用于将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器;
第二获取单元,用于获取添加了目录图谱的故障因果图谱,以及航空领域内的目标文本样本;
第二输入单元,用于将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器;
第三获取单元,用于获取故障因果图谱及目录图谱的向量化表示与结构化特征;
第三输入单元,将目标文本的故障因果图谱及目录图谱的结构化特征输入基于故障因果图谱的解码器中,生成候选摘要;
第四获取单元,用于获取文本候选摘要;
第四输入单元,将文本候选摘要中的知识子图中的事件短语融入文本生成模型的解码过程,进行解码;
第五获取单元,用于获取解码器模型生成的摘要文本。
可优选的是,所述一种基于故障因果图谱的航空故障文本摘要生成装置,其还包括计算机存储介质、电子装置;
所述计算机存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行前述的方法;
所述电子装置包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行前述的方法。
与现有技术相比,本发明的有益效果在于:
(1)本发明首先对预先已完成构建的故障因果图谱通过凝聚层次聚类方法从而获取得到目录图谱,进而通过故障因果图谱分别在编码和解码阶段引入预先获取得到的结构化特征,最终生成所需的航空故障文本摘要;
(2)本发明利用文档篇章结构进行信息抽取,应用故障因果图谱在故障定位,在文本生成方法上具备独创性,解决了现有生成式摘要模型无法满足篇章目录结构约束的问题。
附图说明
图1为本发明的基于故障因果图谱的航空故障文本摘要生成方法的摘要简图;
图2为本发明实施例中基于故障因果图谱的航空故障文本摘要生成方法的流程示意图;
图3为本发明实施例中基于故障因果图谱的航空故障文本摘要生成装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
根据本发明,实施例提供一种摘要生成方法,用于对航空领域故障文本摘要生成方法,所述方法包括,将所述在特定领域的内目标文本样本输入到目标摘要生成模型中,使用所述目标生成式摘要模型对所述目标文本样本计算摘要,以得到所述目标样本的摘要文本。
实施例1
本发明基于航空领域摘要生成方法可以应用于为航空领域内航空故障文本摘要的过程中。例如,对于一段航空领域相关文本段落,对文本做摘要生成,可以得到该文本的简短摘要。
作为一种可选的实施方式,其流程如图2所示,上述航空领域摘要生成方法包括:
S101:通过原始故障因果图谱生成目录图谱;
故障因果图谱表达形式是一种图,图是由节点和边的组成的一种拓扑结构,故障因果图谱中事件作为节点,事件之间的因果关系是边,如果事件之间具有因果关系,那么它们之间有一条边连接。故障因果图谱主要用来描述事件之间的因果关系,航空故障因果图谱通过从非结构化的文本中抽取航空领域内的事件,并通过动词表示的事件之间的关联构成,相同的动词可能出现在不同的事件中,通过后缀区分。
一个故障因果图谱的例子如下:控制交流发电机齿轮轴的故障-导致->附件齿轮箱与发动机的其余部分断开-导致->左侧发动机在飞行中意外关闭-导致->随后的飞机备降。
将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器,获取添加了目录图谱的故障因果图谱;具体来说,将图谱里的每个事件节点看成一个簇,使用欧几里得距离来衡量两个簇的相似度,具体公式如下式所示;
Figure BDA0003377660830000051
式中:e1表示第一个事件;e2表示第二个事件;Distance(e1,e2)表示第一个事件与第二个事件的相似度;
Figure BDA0003377660830000052
表示事件e1和事件ei在相似度矩阵上的值;
Figure BDA0003377660830000053
表示事件e2和事件ei在相似度矩阵上的值;i∈(1,n),n表示事件总数;
将图谱里的将每个事件节点看成一个簇,然后合并距离最小的两个簇,然后重新计算相似度,重复以上S1,直到相似度的精度达到要求为止;针对每个簇和簇里其他事件节点的距离,按照距离大小进行排序,最小的节点距离就是该簇的中心事件节点;
首先,对于故障因果图谱中的事件,根据事件之间是否具有因果关系,构建邻接矩阵,当两个事件具有因果关系时,它们在故障因果图谱上的节点之间有一条边连接,用数学的方式表达,在邻接矩阵上对应的位置元素为1,不邻接的两个节点在邻接矩阵上对应位置为0。在因果图谱中,事件实体之间的关系是因果关系,因果关系分为直接因果关系与间接因果关系,因此,不同于一般的事件图谱,根据节点的直接因果关系/间接因果关系,构建两个邻接矩阵。将这两个邻接矩阵加权相加后作为故障因果事件的相似度矩阵,矩阵每个位置代表两两事件从因果关系角度来判定的亲密程度。对该相似度矩阵使用凝聚层次聚类方法,将事件根据以上亲密程度,自动地划分成为代表不同篇章结构单元的知识子图并输出每一个知识子图的中心事件。
将上述例子中的故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器,得到目录图谱如下:
控制交流发电机齿轮轴的故障-属于->知识子图1(根本原因);左侧发动机在飞行中意外关闭-属于->知识子图2(过程原因);附件齿轮箱与发动机的其余部分断开-属于->知识子图2(过程原因);随后的飞机备降-导致->知识子图3(最终结果)。
S102:获取目标文本样本的特征向量;
在一个优选实施方式中,目标文本样本为:“控制交流发电机齿轮轴的故障,将附件齿轮箱与发动机的其余部分断开,造成左侧发动机在飞行中意外关闭,并导致随后的飞机备降。控制交流发电机齿轮轴由于高周疲劳、晶粒间腐蚀开裂而失效。造成控制交流发电机齿轮轴失效的影响因素是用于解决零件不合格的问题的额外制造加工步骤,降低了高周疲劳能力,以及自上次进车间维修以来的振动环境的潜在变化。”
将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器,获取对目标文本序列的向量化表示,此处文本特征提取模型使用基于预训练语言模型BERT的编码层,获取目标文本样本的特征向量;
Figure BDA0003377660830000061
式中:C表示目标文本样本特征向量;x1,x2分别表示文本的第1个特征和第2个特征;j∈(1,S),S表示文本的特征长度;
Figure BDA0003377660830000062
表示编码器;
S103:生成文本候选摘要;
获取S102计算得到的目标文本样本以及故障因果图谱的向量化表示输入基于故障因果图谱的解码器中,通过自回归的方式生成候选摘要;故障因果图谱解码公式如下:
Zscore=s(MultiNet(I,Θ),Z)
式中:Zscore是选择的子图的向量化表示;其中I是目标第二种文本序列的向量化表示,Θ表示网络的参数,MultiNet表示故障因果图谱解码器,Z是图谱的向量化表示,s表示子图选择函数,Zscore是选择的子图的向量化表示;
故障因果图谱解码器为一种可以输入多个不同的额外知识源(即多头拷贝网络)的解码器。在本发明申请中,知识源是指步骤S102所获取的故障因果图谱,而多头用于判定解码时拷贝哪一个知识子图,该知识子图由步骤S101所构建的目录图谱决定。具体来说,步骤S102所得到的第二种文本序列的向量化表示是一个1×F的向量,F表示特征的维度,将目标第二种文本序列的向量化表示被输入故障因果图谱后,经过与一个N×F大小的可训练的参数矩阵相乘得到一个对该解码步骤可能所处目录结构阶段的一个N维赋值向量,其中
Figure BDA0003377660830000072
表示目录图谱中知识子图的个数;选择该赋值向量中分值最大的维度所对应的知识子图,是一个M×F的特征向量矩阵,其中M代表了知识子图中的事件短语数量;将知识子图中的事件短语融入文本生成模型的解码过程。
具体来说,自回归的解码的过程是逐步输出,每个时间步获得一个输出后将输出字符作为下一个时间步的输入。在每个时间步,将维度为1×F的本时间步隐藏状态向量与子图通过一个多层感知机输出赋值,判断是否需要在该事件步融合知识,如果赋值为1代表需要融合知识,如果赋值为0代表不需要融合知识;如果需要融合知识,再将本时间步的隐藏状态向量与子图通过另一个感知机输出一个M×1的赋值向量,代表选择子图中事件短语作为该时间步输出的概率,那么选择概率最大的事件短语字符作为本时间步的输出,其在子图上的特征向量F×1是与隐藏状态向量通过RNN编码后成为下一步的输入隐藏状态向量;如果不需要融合知识,那么在输入一个全联接层分类,在词表上给所有词语赋值,选择概率最大的词语输出;假设当前时间步输出字符是终止符合或时间步已经达到了预设想要获取的摘要字数上限,那么终止循环,输出候选摘要。
此时输出的候选摘要为从故障因果图谱和目标文本样本中选择出来的概率最大的短语,在一个优选实施方式中,输出的候选摘要为:控制交流发电机齿轮轴、高周疲劳、晶粒间、腐蚀、开裂、失效、左侧发动机、飞行中意外关闭等。
通过在文本生成过程中从输入故障因果子图中拷贝对应的事件短语提升模型对故障事件描述的生成能力。与此同时,通过多头机制保证所选择的故障事件符合当前解码步骤的篇章结构约束,从而达到可控文本生成的目的。
S104:文本生成模型的解码;
获取S103计算得到的文本候选摘要,将其中的知识子图中的事件短语融入文本生成模型的解码过程,自解码过程的表达式如下所示:
Figure BDA0003377660830000071
式中:t表示时间;yt+1表示t+1时刻的文本输出;yt表示t时刻的文本输出;I是目标第二种文本序列的向量化表示;
Figure BDA0003377660830000081
表示知识图谱抽取函数,使用多层感知机计算(yt,Zscore)之间的得分,0表示不需要融合知识图谱,1表示需要融合知识图谱;
Figure BDA0003377660830000082
表示输出函数,如果无需融合知识图谱,使用全连接层直接映射yt到输出;
如果需要融合知识图谱,使用另一个多层感知机映射(yt,Zscore)到输出。
将所述融合特征向量输入解码器,通过自回归机制成候选摘要,自回归生成摘要详细步骤如下:
首先,在第一个时间步骤,输入经编码层编码的开始字符特征和获取的隐特征向量,经过解码层,获得预测的字符在字典上的概率分布和特征向量,选择概率最大的作为第一个字符;第二步,在之后的时间步,输入上个时间步预测的字符的特征向量和获取的隐特征向量,经过解码层预测下一个字符;第三步,不断重复第二步,直到解码获得的是终止符或达到设定的最大时间步后终止。
S105:生成航空故障文本摘要;
获取S104解码后输出的文本,生成所需的航空故障文本摘要。
上述案例一个摘要如下:
“控制交流发电机齿轮轴由于高周疲劳、晶粒间腐蚀开裂而失效,并导致左侧发动机在随后的飞行中意外关闭。”
可优选的是,上述摘要生成方法可以但不限于应用于可以计算数据的终端上,例如手机、平板电脑、笔记本电脑、PC机等终端上,终端可以通过网络与服务器进行交互,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
实施例2
本发明实施例提供一种摘要生成装置20,如图3所示,包括,
第一获取单元201,用于生成目录图谱的原始故障因果图谱;
第一输入单元202,用于将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器;
第二获取单元203,用于获取添加了目录图谱的故障因果图谱,以及航空领域内的目标文本样本;
第二输入单元204,用于将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器;
第三获取单元205,用于获取故障因果图谱及目录图谱的向量化表示与结构化特征;
第三输入单元206,将目标文本的故障因果图谱及目录图谱的结构化特征输入基于故障因果图谱的解码器中,生成候选摘要;
第四获取单元207,用于获取文本候选摘要;
第四输入单元208,将文本候选摘要中的知识子图中的事件短语融入文本生成模型的解码过程,进行解码;
第五获取单元209,用于获取解码器模型生成的摘要文本。
本发明实施例提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述摘要生成方法。
本发明实施例还提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行上述摘要生成方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (7)

1.一种基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,其具体步骤包括:
步骤一:通过原始故障因果图谱生成目录图谱;
将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器,获取添加目录图谱的故障因果图谱;将故障因果图谱里的每个事件节点作为一个簇,使用欧几里得距离来衡量两个簇的相似度,具体表达式如下所示:
Figure FDA0003377660820000011
式中:e1表示第一个事件;e2表示第二个事件;Distance(e1,e2)表示第一个事件与第二个事件的相似度;
Figure FDA0003377660820000012
表示事件e1和事件ei在相似度矩阵上的值;
Figure FDA0003377660820000013
表示事件e2和事件ei在相似度矩阵上的值;i∈(1,n),n表示事件总数;
合并距离最小的两个簇,然后重新计算相似度,重复以上步骤一,直到相似度的精度达到要求为止;针对每个簇和簇中的事件节点的距离,按照距离大小进行排序,最小的节点距离就是所述簇的中心事件节点;
步骤二:获取目标文本样本的特征向量;
将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器,获取对目标文本序列的向量化表示,所述文本特征提取模型使用基于预训练语言模型BERT的编码层,获取目标文本样本的特征向量;
Figure FDA0003377660820000014
式中:C表示目标文本样本特征向量;x1,x2分别表示文本的第1个特征和第2个特征;j∈(1,S),S表示文本的特征长度;
Figure FDA0003377660820000015
表示编码器;
步骤三:生成文本候选摘要;
获取步骤二计算得到的目标文本样本以及故障因果图谱的向量化表示输入基于故障因果图谱的解码器中,通过自回归的方式生成文本候选摘要;故障因果图谱解码公式如下:
Zscore=s(MultiNet(I,Θ),Z)
式中:Zscore是选择的子图的向量化表示;其中I是目标第二种文本序列的向量化表示,Θ表示网络的参数,MultiNet表示故障因果图谱解码器,Z是图谱的向量化表示,s表示子图选择函数,Zscore是选择的子图的向量化表示;
步骤四:文本生成模型的解码;
获取步骤三得到的文本候选摘要,将其中的知识子图中的事件短语融入文本生成模型的解码过程,自解码过程的表达式如下所示:
Figure FDA0003377660820000021
式中:t表示时间;yt+1表示t+1时刻的文本输出;yt表示t时刻的文本输出;I是目标第二种文本序列的向量化表示;
Figure FDA0003377660820000022
表示知识图谱抽取函数,使用多层感知机计算(yt,Zscore)之间的得分,0表示不需要融合知识图谱,1表示需要融合知识图谱;
Figure FDA0003377660820000023
表示输出函数,如果无需融合知识图谱,使用全连接层直接映射yt到输出,如果需要融合知识图谱,使用另一个多层感知机映射(yt,Zscore)到输出;
步骤五:生成航空故障文本摘要;
获取步骤四解码后输出的文本,生成所需的航空故障文本摘要。
2.根据权利要求1所述的基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,所述步骤一中所述的相似度的精度达到要求,具体比较方法如下式所示;
Distance(e1,e2)≤ρ
式中:ρ表示相似度的精度。
3.根据权利要求1所述的基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,所述步骤二中航空领域文本序列对应的向量化表示前,需要基于凝聚层次聚类的方法生成目录图谱,需经过深度文本特征提取器模型提取文本特征。
4.根据权利要求1所述的基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,所述步骤三中的自回归的方式,是以递归的方式,已知故障因果图谱解码公式情况下,给定已生成文本对应输出词表的赋值来预测概率最高的下一个字。
5.根据权利要求1所述的基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,所述步骤四中的输入文本得到摘要生成结果之前,需要使用故障因果图谱对包括故障因果图谱、目录图谱在内的结构化特征融合。
6.一种基于故障因果图谱的航空故障文本摘要生成装置,其特征在于,其包括:
第一获取单元,用于生成目录图谱的原始故障因果图谱;
第一输入单元,用于将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器;
第二获取单元,用于获取添加了目录图谱的故障因果图谱,以及航空领域内的目标文本样本;
第二输入单元,用于将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器;
第三获取单元,用于获取故障因果图谱及目录图谱的向量化表示与结构化特征;
第三输入单元,将目标文本的故障因果图谱及目录图谱的结构化特征输入基于故障因果图谱的解码器中,生成候选摘要;
第四获取单元,用于获取文本候选摘要;
第四输入单元,将文本候选摘要中的知识子图中的事件短语融入文本生成模型的解码过程,进行解码;
第五获取单元,用于获取解码器模型生成的航空故障文本摘要。
7.根据权利要求6所述的基于故障因果图谱的航空故障文本摘要生成装置,其特征在于,其还包括计算机存储介质和电子装置:
所述计算机存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法;
所述电子装置包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN202111421783.7A 2021-11-26 2021-11-26 基于故障因果图谱的航空故障文本摘要生成方法及其装置 Active CN114218932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111421783.7A CN114218932B (zh) 2021-11-26 2021-11-26 基于故障因果图谱的航空故障文本摘要生成方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111421783.7A CN114218932B (zh) 2021-11-26 2021-11-26 基于故障因果图谱的航空故障文本摘要生成方法及其装置

Publications (2)

Publication Number Publication Date
CN114218932A true CN114218932A (zh) 2022-03-22
CN114218932B CN114218932B (zh) 2024-02-20

Family

ID=80698502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111421783.7A Active CN114218932B (zh) 2021-11-26 2021-11-26 基于故障因果图谱的航空故障文本摘要生成方法及其装置

Country Status (1)

Country Link
CN (1) CN114218932B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205584A (zh) * 2022-11-21 2023-06-02 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN116611523A (zh) * 2023-07-18 2023-08-18 山东师范大学 涡轮风扇发动机的可解释故障预测方法及系统
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN116881818A (zh) * 2023-09-07 2023-10-13 北京玖行智研交通科技有限公司 一种新能源车辆换电站故障处理方法及换电站
CN118093785A (zh) * 2024-04-17 2024-05-28 中国电子科技集团公司第十研究所 一种面向分布式协同的航空电子故障知识融合方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020051077A1 (en) * 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN113010666A (zh) * 2021-03-18 2021-06-22 京东数字科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
CN113254507A (zh) * 2021-06-23 2021-08-13 四川国路安数据技术有限公司 一种数据资产目录智能构建盘点方法
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020051077A1 (en) * 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN113010666A (zh) * 2021-03-18 2021-06-22 京东数字科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质
CN113254507A (zh) * 2021-06-23 2021-08-13 四川国路安数据技术有限公司 一种数据资产目录智能构建盘点方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205584A (zh) * 2022-11-21 2023-06-02 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN116205584B (zh) * 2022-11-21 2023-08-22 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN116611523A (zh) * 2023-07-18 2023-08-18 山东师范大学 涡轮风扇发动机的可解释故障预测方法及系统
CN116611523B (zh) * 2023-07-18 2023-09-26 山东师范大学 涡轮风扇发动机的可解释故障预测方法及系统
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN116881818A (zh) * 2023-09-07 2023-10-13 北京玖行智研交通科技有限公司 一种新能源车辆换电站故障处理方法及换电站
CN118093785A (zh) * 2024-04-17 2024-05-28 中国电子科技集团公司第十研究所 一种面向分布式协同的航空电子故障知识融合方法

Also Published As

Publication number Publication date
CN114218932B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN114218932A (zh) 基于故障因果图谱的航空故障文本摘要生成方法及其装置
EP3227836B1 (en) Active machine learning
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN112966522A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN109815336B (zh) 一种文本聚合方法及系统
CN112036162B (zh) 文本纠错的适配方法、装置、电子设备及存储介质
WO2022121251A1 (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111832312B (zh) 文本处理方法、装置、设备和存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111033490A (zh) 用于认知实例的认知调解器
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN114036921A (zh) 一种政策信息匹配方法和装置
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN116932753A (zh) 日志分类方法、装置、计算机设备、存储介质和程序产品
CN114065741B (zh) 用于验证表述的真实性的方法、设备、装置和介质
CN116150397A (zh) 本体构建方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant