CN117852541A - 一种实体关系三元组抽取方法、系统及计算机设备 - Google Patents
一种实体关系三元组抽取方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN117852541A CN117852541A CN202311863442.4A CN202311863442A CN117852541A CN 117852541 A CN117852541 A CN 117852541A CN 202311863442 A CN202311863442 A CN 202311863442A CN 117852541 A CN117852541 A CN 117852541A
- Authority
- CN
- China
- Prior art keywords
- entity
- head
- head entity
- character
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000010276 construction Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 12
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000013024 troubleshooting Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 6
- 238000012423 maintenance Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实体关系三元组抽取方法、系统及计算机设备,涉及知识图谱构建技术领域,包括以下步骤:获取无人机非结构化故障知识文本;将无人机非结构化故障知识文本输入至Hor‑Ver‑Casrel模型,对三元组进行抽取,包括:基于头实体的具体位置,对头实体的水平与垂直方向进行信息融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示;将每个字符的向量表示与头实体最终的信息表示相结合,构建每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成三元组的抽取。本发明将级联的水平与垂直方向的向量表示作为头实体的最终信息表示,保留了头实体的语义信息,大大减小了对后续尾实体的抽取的影响。
Description
技术领域
本发明涉及知识图谱构建技术领域,特别是涉及一种实体关系三元组抽取方法、系统及计算机设备。
背景技术
传统的无人机系统故障诊断方法就是依赖经验丰富的专家或工程技术人员现场排查,需要大量的人力保障和高昂的维护成本,随着信息科技的发展,为克服现场排查带来的弊端,将大数据、知识图谱、人工智能等方法应用于各类故障的辅助诊断和智能预测过程中,能够有效推动无人机系统快速智能排故。其中以知识图谱为代表的智能化数据处理技术,能够凭借其细粒度知识管理模式、良好智能交互过程以及多渠道接入方式,普遍应用于各行业中的产品咨询、运维服务以及统计分析等工作中。将其应用于无人机系统维修保障过程中,具有以下几种优势:1)可根据用户使用数据,统计各设备故障率实现历史数据的可视化,便于更好地开展维修保障工作;2)可融入大量的专家知识和技术人员经验,构建系统故障知识库,当故障发生时,能从领域知识库中快速提取该故障的故障现象和故障排除方法,第一时间为用户提供指导,平时也可用于一线部队使用管理人员的学习和训练,提升排故能力;3)建立典型故障与飞行任务、飞机构型、维修工作、飞参信息、检测结果等数据间的关联关系,消除信息鸿沟与时空障碍,通过智能问答与语义检索,快速提供各类无人机系统故障信息,有力支撑排除工作;4)当前端系统提供指导但故障仍然不能排除时,可以切入人工服务,专业技术人员将通过后端服务系统进行在线指导,扮演了部分远程专家诊断的角色。
实体关系三元组抽取是知识图谱构建过程中不可缺少的步骤,实体关系三元组抽取指从非结构化文本中抽取出实体对,并确定实体之间的关系。实体关系三元组结构为(主语,关系,宾语),例如(故障,故障部位,组成单元)。由于深度神经网络可以很好地编码文本的语义信息,因此基于深度神经网络的三元组提取方法是目前最有竞争力的方法。大部分的三元组抽取方法都是抽取出头实体与尾实体,然后将关系视为实体对上的离散标签进行处理,这种方式对于重叠的三元组情况的提取效果不好。针对这种三元组重叠的问题,使用级联二进制标注的框架(A Novel Cascade Binary Tagging Framework for RelationalTriple Extraction,Casrel)可以缓解这种问题。该模型的基本流程为:先抽取头实体,然后将关系建模为映射函数,将将主语映射到句子中的宾语,从而自然地处理重叠问题,而不是像以前的工作那样将关系视为离散的标签。
在级联二进制框架中,仅仅用头实体的起始向量与结束向量的加和平均作为头实体的信息,这样严重损失了头实体的语义信息,从而直接影响后续尾实体的抽取。
发明内容
本发明提供了一种实体关系三元组抽取方法、系统及计算机设备,具体涉及一种无人机故障知识图谱构建过程中的实体关系三元组抽取方法及系统,解决了现有在级联二进制框架中,仅仅用头实体的起始向量与结束向量的加和平均作为头实体的信息,这样严重损失了头实体的语义信息,从而直接影响后续尾实体的抽取的问题。
本发明提供一种实体关系三元组抽取方法,包括以下步骤:
获取无人机非结构化故障知识文本;
对Casrel模型进行改进,得到Hor-Ver-Casrel模型;所述Hor-Ver-Casrel模型在对头实体的信息进行表示时,融合了头实体水平与垂直方向的信息;
将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型,对故障知识文本实体关系三元组进行抽取,包括:
将无人机非结构化故障知识文本输入至Bert模块,获取每个字符的向量表示;
基于每个字符的向量表示对头实体的起始位置与结束位置进行预测,得到头实体的具体位置;
基于头实体的具体位置,对头实体的水平与垂直方向的信息进行融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示;
将每个字符的向量表示与头实体最终的信息表示相结合,构建头实体对应的每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成实体关系三元组的抽取。
优选的,所述无人机非结构化故障知识文本包括历史故障案例、操作规程以及排故手册。
优选的,所述Bert模块通过无人机非结构化故障知识文本中字符之间的关联程度调整权重系数矩阵来输出每个字符的词向量表示;
通过下式计算每个字符的词向量表示:
式中,Q,K,V为字向量矩阵,dk为嵌套维度,Attention为自注意力机制函数,Softmax为激活函数,T为矩阵的转置符号。
优选的,通过下式对头实体的起始位置与结束位置进行预测:
式中,Fi为每个字符的向量表示,为第i个字符预测的头实体的起始位置的标签,/>为第i个字符预测的头实体的结束位置的标签,Wstart为预测头实体起始位置的权重矩阵,bstart为预测头实体起始位置的偏差,Wend为预测头实体结束位置的权重矩阵,bend为预测头实体结束位置的偏差,σ为全连接层。
优选的,头实体水平与垂直方向的向量表示如下所示:
式中,Fa为头实体起始位置的词向量,Fb为头实体结束位置的词向量,average为向量加和求平均操作,sum为向量求和操作,为头实体水平方向的向量表示,/>为头实体垂直方向的向量表示,Wsub为预测头实体垂直方向向量的权重矩阵,bsub为预测头实体垂直方向向量的偏差;
头实体的信息表示如下所示:
式中,vsub为头实体的信息表示。
优选的,通过下式对尾实体进行预测:
式中,为第i个字符预测的尾实体的起始位置标签,/>为第i个字符预测的尾实体的结束位置标签,/>为关系映射下预测尾实体起始位置的权重矩阵,/>为关系映射下预测尾实体起始位置的偏差,/>为关系映射下预测尾实体结束位置的权重矩阵,/>为关系映射下预测尾实体结束位置的偏差。
优选的,将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型之前,需通过极大似然估计对Hor-Ver-Casrel模型进行训练;所述极大似然估计的似然函数包括对头实体预测的似然函数以及对关系、尾实体预测的似然函数。
优选的,所述对头实体预测的似然函数如下所示:
式中,θ={Wstart,bstart,Wend,bend},start_s表示头实体起始位置标识,end_s表示头实体结束位置标识,表示第i个字符是头实体的起始位置,/> 表示第i个字符是头实体的结束位置,L为句子长度,I为示性函数,P为似然函数,s为头实体标识,/>为第i个字符是头实体起始位置的概率,/>为第i个字符是头实体结束位置的概率,;
所述对关系、尾实体预测的似然函数如下所示:
式中,表示第i个字符是尾实体的起始位置,/>表示第i个字符是头实体的结束位置,o为尾实体标识,start_o表示尾实体起始位置标识,end_o为尾实体结束位置标识。
一种实体关系三元组抽取系统,包括:
文本获取模块,用于获取无人机非结构化故障知识文本;
模型构建模块,用于对Casrel模型进行改进,得到Hor-Ver-Casrel模型;所述Hor-Ver-Casrel模型在对头实体的信息进行表示时,融合了头实体水平与垂直方向的信息;
三元组抽取模块,用于将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型,对实体关系三元组进行抽取;
所述三元组抽取模块包括:
字符向量表示模块,用于将无人机非结构化故障知识文本输入至Bert模块,获取每个字符的向量表示;
头实体位置预测模块,用于基于每个字符的向量表示对头实体的起始位置与结束位置进行预测,得到头实体的具体位置;
头实体信息表示模块,用于基于头实体的具体位置,对头实体的水平与垂直方向的信息进行融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示;
尾实体预测模块,用于将每个字符的向量表示与头实体最终的信息表示相结合,构建头实体对应的每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成实体关系三元组的抽取。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的实体关系三元组抽取方法。
与现有技术相比,本发明的有益效果是:
本发明获取头实体的具体位置,对头实体的水平与垂直方向进行信息融合,得到了头实体的水平与垂直方向的向量表示,然后将头实体的水平与垂直方向的向量表示级联,得到头实体的最终信息表示,本发明并不是将头实体的起始向量与结束向量加和平均,而是将级联的水平与垂直方向的向量表示作为头实体的最终信息表示,保留了头实体的语义信息,大大减小了对后续尾实体的抽取的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的Casrel模型结构示意图;
图2为本发明的Hor-Ver-Casrel模型结构示意图;
图3为本发明的无人机故障数据来源分类示意图;
图4为本发明实施例的某型无人机故障报告文本片段;
图5为本发明实施例中关于无人机维修的文本数据样例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,现有的Casrel模型的具体思路如下所示:
将输入的语句输入到预训练好的Bert模块,其编码的关键部位是Transformer结构,通过同一个句子中字符之间的关联程度调整权重系数矩阵来输出每个字符的词向量表示。
在得到每个字符的向量表示后,基于每个字符的向量表示预测主语实体的起始位置与结束位置。
基于预测出的主语实体的头和尾,使用加和平均的方式求得每个主语实体的表示向量。
利用每个字符的向量表示和预测的主语实体的表示向量,通过遍历关系字典,构建出每个关系的映射函数,用于预测宾语实体。
最终输出实体关系三元组。
因此现有Casrel模型中,仅仅用头实体的起始向量与结束向量的加和平均作为头实体的信息,这样严重损失了头实体的语义信息。
本发明提供一种实体关系三元组抽取方法,具体涉及一种无人机故障知识图谱构建过程中的实体关系三元组抽取方法,该方法包括以下步骤:
第一步:获取无人机非结构化故障知识文本。
随着无人机的快速发展,无人机领域所产生的故障数据日渐增长,数据类型多样,主要包括基层部队历史飞行故障数据、同期积累的各类故障文章排故手册、专业故障文章以及装备维护保障教材和故障分析与研究报告,这些故障数据按不同的存储方式可以分为两种,即结构化数据和半/非结构化数据。如图3所示其中,结构化数据指的是由二维表结构来逻辑表达和实现的数据,该类数据主要通过关系型数据库进行存储和管理。而半/非结构化数据指的是以文本、图像、视频等文档形式存在的数据,比如故障文章以及大量无人机排故手册的相关文本资料和故障分析研究报告就属于非结构化数据。
但在军用无人机全寿命周期中,还存在着大量有丰富价值的非结构化数据需要挖掘和利用,其抽取难度也较为复杂。因此,本发明重点研究了非结构化数据的知识抽取。如图4,需从该非结构化文本中抽取高亮展示的文本信息,包括故障模式、故障单元、信号参数等。从图4中可以看出上述故障实体存在着一定关联关系,需要采取技术手段从非结构化故障知识文本中抽取其蕴含的关系,是知识抽取的难点。例如在句子“发动机起动不成功的原因是燃油喷嘴堵塞”中,需要抽取出“故障模式—发动机起动不成功”和“故障原因—燃油喷嘴堵塞”这两个故障实体间的关系。这对于人来说,可以通过专业知识学习和维修实践理解这两者的关系,但如何让计算机像人一样识别两者之间的关系是较为复杂的一个过程。
第二步:基于Casrel模型,在对头实体的信息进行表示时,融合水平与垂直方向的信息,得到Hor-Ver-Casrel模型。
本发明为了缓解现有的级联二进制框架Casrel模型中,仅仅用头实体的起始向量与结束向量的加和平均作为头实体的信息,这样严重损失了头实体的语义信息这一问题,设计一种水平与垂直方向的信息融合方式来更加丰富地表示头实体的向量,提出的方法称为基于水平与垂直方向信息融合的级联二进制框架,如图2所示,记为Hor-Ver-Casrel模型。
第三步:将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型,对三元组进行抽取,包括以下步骤:
S1:将无人机非结构化故障知识文本输入至Bert模块,获取每个字符的向量表示。
Bert模块通过无人机非结构化故障知识文本中字符之间的关联程度调整权重系数矩阵来输出每个字符的词向量表示。通过下式计算无人机非结构化故障知识文本中字符之间的关联程度:
式中,Q,K,V为字向量矩阵,dk为嵌套维度,Attention为自注意力机制函数,Softmax为激活函数,T为矩阵的转置符号。最终得到每个字符的向量表示记为Fi,整个句子的向量表示记为hN。
S2:基于每个字符的向量表示对头实体的起始位置与结束位置进行预测,得到头实体的具体位置:
式中,Fi为每个字符的向量表示,为第i个字符预测的头实体的起始位置的标签,/>为第i个字符预测的头实体的结束位置的标签,Wstart为预测头实体起始位置的权重矩阵,bstart为预测头实体起始位置的偏差,Wend为预测头实体结束位置的权重矩阵,bend为预测头实体结束位置的偏差,σ为全连接层。
S3:基于头实体的具体位置,对头实体的水平与垂直方向进行信息融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示。
基于上一步预测的头实体,假设为图2中的第8个与第9个字符,通过水平与垂直方向的信息融合,分别得到水平与垂直方向的向量表示和/>最后级联得到头实体最终的信息表示vsub:
式中,average为加和求平均操作,sum为向量求和操作,为头实体水平方向的向量表示,/>为头实体垂直方向的向量表示,Wsub为预测头实体垂直方向向量的权重矩阵,bsub为预测头实体垂直方向向量的偏差。
S4:将每个字符的向量表示与头实体最终的信息表示相结合,构建每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成实体关系三元组的抽取。
通过下式对尾实体进行预测:
式中,为第i个字符预测的尾实体的起始位置标签,/>为第i个字符预测的尾实体的结束位置标签,/>为关系映射下预测尾实体起始位置的权重矩阵,/>为关系映射下预测尾实体起始位置的偏差,/>为关系映射下预测尾实体结束位置的权重矩阵,/>为关系映射下预测尾实体结束位置的偏差。
将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型之前,需通过极大似然估计对Hor-Ver-Casrel模型进行训练。极大似然估计的似然函数包括对头实体预测的似然函数logPθ(s|X)以及对关系、尾实体预测的似然函数
其中,
其中L表示一个句子长度,是第i个字符的头实体的起始与结束位置的标签,/>是第i个字符的尾实体的起始与结束位置的标签,θ={Wstart,bstart,Wend,bend},/>
通过针对似然损失进行进一步计算,可得:
于是,利用如下算法来求解:
分开计算梯度:
从而可得,其中α为学习率。
同理可得,其中α为学习率。
为模型的学习阶段设置梯度上升法来更新迭代参数wj,0和wj,o,通过极大化上述似然函数进行模型训练。最终得到训练好的模型。
基于同一个构思,本发明还提供一种实体关系三元组抽取系统,包括文本获取模块、模型构建模块和三元组抽取模块,文本获取模块用于获取无人机非结构化故障知识文本。模型构建模块用于对Casrel模型进行改进,得到Hor-Ver-Casrel模型;Hor-Ver-Casrel模型在对头实体的信息进行表示时,融合了头实体水平与垂直方向的信息。三元组抽取模块用于将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型,对三元组进行抽取。
三元组抽取模块包括字符向量表示模块、头实体位置预测模块、头实体信息表示模块和尾实体预测模块。
字符向量表示模块用于将无人机非结构化故障知识文本输入至Bert模块,获取每个字符的向量表示。
头实体位置预测模块用于基于每个字符的向量表示对头实体的起始位置与结束位置进行预测,得到头实体的具体位置。
头实体信息表示模块用于基于头实体的具体位置,对头实体的水平与垂直方向的信息进行融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示。
尾实体预测模块用于将每个字符的向量表示与头实体最终的信息表示相结合,构建头实体对应的每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成实体关系三元组的抽取。
实施例
实验的数据是100篇关于无人机维修的文本数据,文本数据的样例如图5所示,通过达观平台的数据标记,标记出的数据格式为:{"text":"二、故障分析攻击-1型无人机发动机转速主要由供油系统、进气增压系统、涡轮增压控制系统、点火子系统、发动机负载控制等因素决定。","spo_list":[{"predicate":"组成","object_type":"机型","subject_type":"组成单元","object":"攻击1-型无人机发动机","subject":"点火子系统"}]},基于此数据格式作为训练样本,对本发明提出的Hor-Ver-Casrel模型进行训练。
最终模型在测试集上到准确率87%,召回率70%。通过实验的验证,发现Hor-Ver-Casrel模型的效果满足了技术指标清单上的要求,即“抽取准确度不低于80%,召回率不低于70%”。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述实体关系三元组抽取方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种实体关系三元组抽取方法,其特征在于,包括以下步骤:
获取无人机非结构化故障知识文本;
对Casrel模型进行改进,得到Hor-Ver-Casrel模型;所述Hor-Ver-Casrel模型在对头实体的信息进行表示时,融合了头实体水平与垂直方向的信息;
将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型,对故障知识文本实体关系三元组进行抽取,包括:
将无人机非结构化故障知识文本输入至Bert模块,获取每个字符的向量表示;
基于每个字符的向量表示对头实体的起始位置与结束位置进行预测,得到头实体的具体位置;
基于头实体的具体位置,对头实体的水平与垂直方向的信息进行融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示;
将每个字符的向量表示与头实体最终的信息表示相结合,构建头实体对应的每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成实体关系三元组的抽取。
2.如权利要求1所述的一种实体关系三元组抽取方法,其特征在于,所述无人机非结构化故障知识文本包括历史故障案例、操作规程以及排故手册。
3.如权利要求1所述的一种实体关系三元组抽取方法,其特征在于,所述Bert模块通过无人机非结构化故障知识文本中字符之间的关联程度调整权重系数矩阵来输出每个字符的词向量表示;
通过下式计算每个字符的词向量表示:
式中,Q,K,V为字向量矩阵,dk为嵌套维度,Attention为自注意力机制函数,Softmax为激活函数,T为矩阵的转置符号。
4.如权利要求3所述的一种实体关系三元组抽取方法,其特征在于,通过下式对头实体的起始位置与结束位置进行预测:
式中,Fi为每个字符的向量表示,为第i个字符预测的头实体的起始位置的标签,为第i个字符预测的头实体的结束位置的标签,Wstart为预测头实体起始位置的权重矩阵,bstart为预测头实体起始位置的偏差,Wend为预测头实体结束位置的权重矩阵,bend为预测头实体结束位置的偏差,σ为全连接层。
5.如权利要求4所述的一种实体关系三元组抽取方法,其特征在于,头实体水平与垂直方向的向量表示如下所示:
式中,Fa为头实体起始位置的词向量,Fb为头实体结束位置的词向量,average为向量加和求平均操作,sum为向量求和操作,为头实体水平方向的向量表示,/>为头实体垂直方向的向量表示,Wsub为预测头实体垂直方向向量的权重矩阵,bsub为预测头实体垂直方向向量的偏差;
头实体的信息表示如下所示:
式中,vsub为头实体的信息表示。
6.如权利要求5所述的一种实体关系三元组抽取方法,其特征在于,通过下式对尾实体进行预测:
式中,为第i个字符预测的尾实体的起始位置标签,/>为第i个字符预测的尾实体的结束位置标签,/>为关系映射下预测尾实体起始位置的权重矩阵,/>为关系映射下预测尾实体起始位置的偏差,/>为关系映射下预测尾实体结束位置的权重矩阵,/>为关系映射下预测尾实体结束位置的偏差。
7.如权利要求6所述的一种实体关系三元组抽取方法,其特征在于,将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型之前,需通过极大似然估计对Hor-Ver-Casrel模型进行训练;所述极大似然估计的似然函数包括对头实体预测的似然函数以及对关系、尾实体预测的似然函数。
8.如权利要求7所述的一种实体关系三元组抽取方法,其特征在于,所述对头实体预测的似然函数如下所示:
式中,θ={Wstart,bstart,Wend,bend},start_s表示头实体起始位置标识,end_s表示头实体结束位置标识,表示第i个字符是头实体的起始位置,/> 表示第i个字符是头实体的结束位置,L为句子长度,I为示性函数,P为似然函数,s为头实体标识,为第i个字符是头实体起始位置的概率,/>为第i个字符是头实体结束位置的概率,;
所述对关系、尾实体预测的似然函数如下所示:
式中, 表示第i个字符是尾实体的起始位置,/>表示第i个字符是头实体的结束位置,o为尾实体标识,start_o表示尾实体起始位置标识,end_o为尾实体结束位置标识。
9.一种实体关系三元组抽取系统,其特征在于,包括:
文本获取模块,用于获取无人机非结构化故障知识文本;
模型构建模块,用于对Casrel模型进行改进,得到Hor-Ver-Casrel模型;所述Hor-Ver-Casrel模型在对头实体的信息进行表示时,融合了头实体水平与垂直方向的信息;
三元组抽取模块,用于将无人机非结构化故障知识文本输入至Hor-Ver-Casrel模型,对实体关系三元组进行抽取;
所述三元组抽取模块包括:
字符向量表示模块,用于将无人机非结构化故障知识文本输入至Bert模块,获取每个字符的向量表示;
头实体位置预测模块,用于基于每个字符的向量表示对头实体的起始位置与结束位置进行预测,得到头实体的具体位置;
头实体信息表示模块,用于基于头实体的具体位置,对头实体的水平与垂直方向的信息进行融合,得到头实体水平与垂直方向的向量表示并级联,得到头实体的信息表示;
尾实体预测模块,用于将每个字符的向量表示与头实体最终的信息表示相结合,构建头实体对应的每个关系的映射函数,根据每个关系的映射函数预测尾实体,完成实体关系三元组的抽取。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-8任一所述的实体关系三元组抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311863442.4A CN117852541A (zh) | 2023-12-29 | 2023-12-29 | 一种实体关系三元组抽取方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311863442.4A CN117852541A (zh) | 2023-12-29 | 2023-12-29 | 一种实体关系三元组抽取方法、系统及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117852541A true CN117852541A (zh) | 2024-04-09 |
Family
ID=90535641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311863442.4A Pending CN117852541A (zh) | 2023-12-29 | 2023-12-29 | 一种实体关系三元组抽取方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117852541A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118036733A (zh) * | 2024-04-11 | 2024-05-14 | 浙江建木智能系统有限公司 | 一种舰船试验训练的知识图谱构建方法、系统和介质 |
-
2023
- 2023-12-29 CN CN202311863442.4A patent/CN117852541A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118036733A (zh) * | 2024-04-11 | 2024-05-14 | 浙江建木智能系统有限公司 | 一种舰船试验训练的知识图谱构建方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723632A (zh) | 一种基于知识图谱的工业设备故障诊断方法 | |
CN113283027B (zh) | 一种基于知识图谱和图神经网络的机械故障诊断方法 | |
CN109034368A (zh) | 一种基于dnn的复杂设备多重故障诊断方法 | |
CN111966076A (zh) | 基于有限状态机和图神经网络的故障定位方法 | |
CN117852541A (zh) | 一种实体关系三元组抽取方法、系统及计算机设备 | |
CN114168745A (zh) | 面向环氧乙烷衍生品生产过程的知识图谱构建方法 | |
CN112084336A (zh) | 一种高速公路突发事件的实体提取和事件分类方法及装置 | |
CN115510245B (zh) | 一种面向非结构化数据的领域知识抽取方法 | |
CN112884179A (zh) | 基于机器故障和文本主题分析的城轨折返故障诊断方法 | |
CN112560997A (zh) | 故障识别模型训练方法、故障识别方法及相关装置 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN117390407A (zh) | 变电站设备的故障识别方法、系统、介质和设备 | |
CN113157913A (zh) | 一种基于社会新闻数据集的伦理行为判别方法 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN110782221A (zh) | 一种面试智能评测系统及方法 | |
CN116186562A (zh) | 基于编码器的长文本匹配方法 | |
CN114912460A (zh) | 基于文本挖掘的精细化拟合识别变压器故障方法及设备 | |
CN114707931A (zh) | 一种基于htm的物流仓库异常情况实时监测系统及其设计方法 | |
CN114298339A (zh) | 一种变电站设备告警智能决策方法及系统 | |
CN113064967A (zh) | 基于深度迁移网络的投诉举报可信度分析方法 | |
Wang et al. | A driver abnormal behavior warning method based on isolated forest algorithm. | |
CN117171382B (zh) | 一种基于综合特征和自然语言的车辆视频检索方法 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN117435730A (zh) | 一种铁路调度命令文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |