CN114756687A - 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 - Google Patents

基于自学习实体关系联合抽取的钢铁产线设备诊断方法 Download PDF

Info

Publication number
CN114756687A
CN114756687A CN202210328908.XA CN202210328908A CN114756687A CN 114756687 A CN114756687 A CN 114756687A CN 202210328908 A CN202210328908 A CN 202210328908A CN 114756687 A CN114756687 A CN 114756687A
Authority
CN
China
Prior art keywords
entity
vector
production line
steel production
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210328908.XA
Other languages
English (en)
Inventor
王坚
韩慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210328908.XA priority Critical patent/CN114756687A/zh
Publication of CN114756687A publication Critical patent/CN114756687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于自学习知识图谱的钢铁产线设备故障诊断方法,包括:获取钢铁产线设备数据并进行预处理;基于编码器‑解码器结构,构建自学习实体关系联合抽取模型;采用自学习实体关系联合抽取模型,从人、信息系统和物理系统中提取人机物三元组数据;根据人机物三元组数据构建钢铁产线设备故障自学习知识图谱,并进行可视化显示;基于图神经网络和强化学习实现钢铁产线设备故障知识图谱进化。与现有技术相比,本发明能够准确有效地提供更加丰富的故障诊断信息,进而提高故障诊断结果并提供有效的故障解决方案。

Description

基于自学习实体关系联合抽取的钢铁产线设备诊断方法
技术领域
本发明涉及知识图谱技术领域,尤其是涉及基于自学习实体关系联合抽取的钢铁产线设备诊断方法。
背景技术
传统的钢铁行业设备故障诊断往往是基于物理系统和人来完成的。物理系统是各种生产设备和各种信号的采集设备。当生产设备发生故障时,维修人员根据自身经验、数据驱动的设备维修检查系统、现有维修记录、设备内部信息等,感知信号采集设备采集到的信号,进行分析,然后确定故障位置和故障原因。很明显,故障决策知识主要基于专家经验和机理模型,知识来源单一,这种方法不能很好地分析故障位置和具体原因。
随着科学技术的发展,钢铁工业装备越来越智能化和复杂化。在大数据背景下,数据量的增长速度正在逐步加快。因此,用于故障诊断的知识具有结构复杂、种类繁多、耦合性强的特点,使得多元统计分析法等传统的故障诊断技术不再适用。同时,随着机器学习、人工智能、模式识别、控制理论等学科的进步,故障诊断技术与各类知识的结合取得了质的飞跃。知识图谱技术被引入故障诊断领域。知识图谱构建的过程涉及几个关键步骤:数据获取、知识提取、知识表示、质量评估等。在数据获取阶段,我们已经获得了我们需要的信息。但是,这些信息可能以文本或数据的形式存在,不能直接用于构建知识图谱。我们需要从这些数据中提取可以构建知识图谱的知识,并构建知识图谱的最小元素三元组。这个过程就是实体关系抽取。构建知识图谱的核心任务是识别和解析文本数据中的相关实体及其语义关系,然后将提取的实体对及其关系以三元组语义关系的形式表示。在工业领域,基于人工构建和半自动构建的故障知识图谱诊断系统存在内部关系稀疏、可解释性差、机器学习方法精度低等缺点。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自学习知识图谱的钢铁产线设备故障诊断方法,以对钢铁产线设备故障进行实时、快速、准确的诊断并给出合适的解决方案。
本发明的目的可以通过以下技术方案来实现:
一种基于自学习知识图谱的钢铁产线设备故障诊断方法,包括以下步骤:
S1:获取钢铁产线设备数据;
S2:构建自学习实体关系联合抽取模型,首先对钢铁产线设备数据中的实体关系进行标注,然后通过编码器层将每个标注的标记转换为向量表示,通过解码器层从向量表示中提取关系和实体,构建三元组;并通过联合训练的方式,对编码器层和解码器层进行训练;
S3:采用所述自学习实体关系联合抽取模型,从人、信息系统和物理系统中提取人机物三元组数据;
S4:根据人机物三元组数据构建钢铁产线设备故障知识图谱,并进行可视化显示。
进一步地,所述方法还包括以下步骤:
S5:钢铁产线设备故障知识图谱进化。
进一步地,步骤S5具体包括以下子步骤:
S51:引入强化学习挖掘钢铁产线设备故障知识图谱中的隐式关系,并纠正错误三元组;
所述强化学习根据所述钢铁产线设备故障知识图谱中已有的显性知识对尚未存储的隐性知识进行预测;
所述强化学习的预测过程包括构建外部环境以及强化学习代理,所述外部环境用于指定代理和指示图谱之间交互的动态,所述外部环境被建模为定义一个元组<S,A,P,R>来表示马尔可夫决策过程,其中,S是连续状态空间,A={a1,a2,…,an}表示所有可用的动作的集合,P(St+1=s′|St=s,At=a)是转移概率矩阵,R(s,a)是每个(s,a)对的奖励函数;
所述强化学习代理包括:通过Policy网络πθ(s,a)=p(a|s;θ)将状态向量传输到随机Policy,对神经网络参数θ使用随机梯度下降进行更新;
所述动作具体为:给定具有关系r的实体对(es,et),从源实体es开始,在每一步扩展路径中代理使用Policy网络选择最有希望的关系,直到到达目标实体et,选择的关系即为动作,动作空间定义为钢铁产线设备故障知识图谱中的所有关系;
所述状态具体为:捕获钢铁产线设备故障知识图谱中实体和关系的语义信息,采取行动后,代理将从一个实体移动到另一个实体,所述状态用于捕获代理在知识图谱中的位置,所述状态的向量计算式为:
st=(et,etartget-et)
其中,et表示步骤t下当前实体节点的嵌入,etartget表示目标实体的嵌入,在初始状态et=esource
所述奖励包括全局精度奖励、路径效率奖励和路径多样性奖励,所述全局精度奖励rGLOBAL的计算表达式为:
Figure BDA0003572464690000031
所述路径效率奖励rEFFICIENCY的计算表达式为:
Figure BDA0003572464690000032
其中,路径p被定义为关系序列r1→r2→…→rn,length为路径长度的计算函数;
所述路径多样性奖励rDIVERSITY的计算表达式为:
Figure BDA0003572464690000033
式中,F为路径总个数;
所述Policy网络具体为:使用完全连接的神经网络来参数化Policy函数π(s;θ),将状态向量S转换为所有可能动作的概率分布。
进一步地,所述强化学习代理的训练过程包括:
采用两侧随机广度优先搜索的监督Policy来训练,插入两侧随机广度优先搜索找到的路径后,用于更新Policy网络的近似梯度,Policy网络的近似梯度的更新表达式为:
Figure BDA0003572464690000034
其中,J(θ)为一个间隔的预期总奖励,对于每个关系,每个实体对的推理被视为一个间隔,rt属于路径p;
使用奖励函数来重新训练有监督的Policy网络,Policy网络的梯度更新表达式为:
Figure BDA0003572464690000041
Rtotal=λ1rGLOBAL2rGLoBAL3rDIVERSITY
其中,Rtotal是定义的奖励函数的线性组合。
进一步地,步骤S5具体包括以下子步骤:
S52:引入图神经网络根据测试阶段提供的有限辅助知识计算新实体的嵌入向量;
所述图神经网络包括传播模型和输出模型,所述传播模型用于确定如何将信息从节点传播到其邻域节点,所述图神经网络通过反复应用传播模型,将一个节点的信息广播到更远的节点,所述输出模型根据给定任务使用向量表示的节点和边定义目标函数;
所述图神经网络根据时间步长n使用不同的传播模型参数,对于每个时间步n处的传播模型的转移函数
Figure BDA0003572464690000042
的计算表达式为:
Figure BDA0003572464690000043
Figure BDA0003572464690000044
Figure BDA0003572464690000045
Figure BDA0003572464690000046
Figure BDA0003572464690000047
式中,e∈ε(G)是一个实体,
Figure BDA0003572464690000048
是e的d维表示向量。在一个知识图谱G中,头实体邻域Nh(e)={(h,r,e)|(h,r,e)∈G},尾邻域
Figure BDA00035724646900000415
Figure BDA0003572464690000049
Figure BDA00035724646900000410
表示依赖于头/尾实体和时间步的转换函数,P表示求和pooling函数,它将一组向量映射到到一个向量。BN表示批量标准化;
所述目标函数的计算表达式为:
Figure BDA00035724646900000411
Figure BDA00035724646900000412
Figure BDA00035724646900000413
Figure BDA00035724646900000414
Figure BDA0003572464690000051
式中,
Figure BDA0003572464690000052
Figure BDA0003572464690000053
Figure BDA0003572464690000054
描述了关系的复杂性,r*表示在位置l*处连接最多实体的关系,
Figure BDA0003572464690000055
表示关系在位置l*处具有最多实体数的关系数量,[x]+=max(0,x),(h,r,t)表示一个正三元组,(h′,r,t′)表示每个正三元组一个负三元组,τ是分隔正三元组和负三元组的边距。
进一步地,步骤S2具体包括以下子步骤:
S21:运用翻译模型将钢铁产线设备数据中的中文句子翻译为英文句子,采用BIEOS标注方案对句子中的实体关系进行标注;
S22:构建编码器层,该编码器层包括嵌入层和上下文词表征层,所述嵌入层采用BERT预训练语言模型作为共享特征编码来建模,将单词的上下文转换为向量表示,使用CNN对数据的字符特征进行提取;所述上下文词表征层引入带有空洞卷积的BiLSTM捕获上下文信息;
S23:构建解码器层,该解码器层包括命名实体识别模块和多关系分类器,所述命名实体识别模块用于检测在文本中存在关系的实体,所述多关系分类器用于识别文本中包含的关系类型,所述解码器层根据识别出的实体和关系进行联合提取;
S24:采用联合训练方式训练多关系分类器和命名实体识别模块。
进一步地,步骤S22具体包括以下子步骤:
S221:给定一个由n个单词组成的句子
Figure BDA0003572464690000056
其中,wt表示长度为n的句子中的第t个单词,采用BERT预训练语言模型作为共享特征编码将句子中的每个标记转换为向量表示,通过词嵌入层来表达其语义和语法含义,得到v=[v1,v2,…,vn],其中,vt∈Rd表示嵌入到句子中第t个词的d维词向量。嵌入层随机初始化嵌入矩阵,并随着模型的训练更新权重参数;
S222:采用CNN对数据的字符级表征
Figure BDA0003572464690000057
进行提取,提取表达式为:
Figure BDA0003572464690000058
单词的最终表示是单词级和字符级表示的连接,单词的最终表示的表达式为:
Figure BDA0003572464690000059
式中,X∈Rn*dw,dw是标注嵌入维度,vt是单词wt的词嵌入,
Figure BDA00035724646900000510
是wt的基于字符的表示;
S223:引入带有空洞卷积的BiLSTM作为上下文词表征层用于有效捕获上下文信息;所述BiLSTM编码层中的LSTM记忆块用于根据前一个隐藏向量ht-1、前一个单元向量ct-1和当前输入词嵌入xt计算当前隐藏向量ht
所述BiLSTM的前向LSTM层
Figure BDA0003572464690000061
将输入序列从x1编码到xn,后向LSTM层
Figure BDA0003572464690000062
将输入序列从xn编码到x1。然后我们连接
Figure BDA0003572464690000063
Figure BDA0003572464690000064
并表示单词的最终编码信息
Figure BDA0003572464690000065
最终的句子表示为
Figure BDA0003572464690000066
将3层空洞卷积输出的语义单元表示与Bi-LSTM输出的单词语义信息结合起来作为编码器的输出,每个时间步生成的向量表达式为:
mt=[ht;gt]
式中,ht是Bi-LSTM在时间步t生成的向量,gt是空洞卷积在第t个词处提取的语义单元信息的向量;
最终得到句子表示
Figure BDA0003572464690000067
进一步地,步骤S23具体包括以下子步骤:
S231、我们将实体提取视为序列标记任务,检测所有可能在文本中存在关系的实体,并正确识别它们,并为每个单词分配一个实体标签,实现了初步的实体提取。
因为邻域标签和联合解码最佳标签链之间的相关性对于序列标签模型是有益的,因此,使用CRF进行联合解码,而不是独立解码每个标签。我们认为
Figure BDA0003572464690000068
是输入序列分数,它是从位置感知语句表示mt生成:
zt=Wumt
其中,
Figure BDA0003572464690000069
是第t个单词的标签分数,Nt是不同标签的数量。将Zt,j视为第j个标签在位置t的得分。对于标签序列
Figure BDA00035724646900000610
我们将解码分数定义为:
Figure BDA00035724646900000611
其中,A是转移矩阵,例如Ai,j表示从标签i到标签j的转移分数。然后我们得到了所有可能的标签序列y的条件概率,定义如下:
Figure BDA00035724646900000612
其中,Yz表示Z的可能标签序列集。在训练过程中,我们最大化训练集{(Zi,yi)}上正确标签序列的对数似然:
Figure BDA00035724646900000613
解码是搜索获得最大分数的标签序列:
Figure BDA0003572464690000071
最好的标签序列y*可以使用维特比算法来计算。
CRF解码有两个缺点(1)实体识别结果并非绝对正确,因为它们是在推理过程中由模型预测的。来自实体标签的错误可能会传播到关系分类分支并损害性能。(2)CRF解码过程基于Viterbi算法,其中包含不可微分的argmax操作。为了解决这个问题,我们提出了软标签嵌入,它以logits作为输入来保留每个实体类型的概率。假设N是logits维度,即实体类型的数量,y是标签嵌入矩阵,则第t个单词的软标签嵌入定义如下:
Figure BDA0003572464690000072
得到最终的软标签嵌入
Figure BDA0003572464690000073
通过学习软标签嵌入,使用实体标签作为关系分类层的输入,可以有效地传输实体识别和关系提取之间的信息。
S232、我们将关系预测任务视为多标签分类任务,旨在识别文本中包含的关系类型。受多标签分类思想的启发,我们使用分类器链进行关系预测。为了训练更好的关系分类器以提高分类精度,将编码器层的输出向量M和NER中的软标签嵌入H融合起来构造关系层
Figure BDA0003572464690000074
δ=Norm(Concat(H,M))
其中,Concat表示连接运算符,Norm表示归一化操作。
然后应用卷积操作和最大池化操作:
β=Conv(δ)
ρ=relu(max(β))
其中,β∈Rm×(n-l+1)是卷积运算输出的特征,m是滤波器的数量,n是文本的长度,l是卷积滤波器的大小。首先对特征β应用最大池化运算,然后使用relu激活获得文本嵌入ρ∈Rm,将其视为文本的局部特征向量。
第j个关系类型的二元分类器如下所示
Figure BDA0003572464690000075
Figure BDA0003572464690000076
其中,上式应用线性层产生隐藏层状态Rj∈Rd
Figure BDA0003572464690000077
是一个可学习的权重矩阵。下式中,另一个带有softmax激活函数的线性层用于预测文本是否包含第j个关系类型的概率分布,
Figure BDA0003572464690000081
是权重矩阵。隐藏层状态Rj被视为第j个关系类型的关系嵌入。如果文本包含第j个关系类型,Rj将被喂给可变长度实体对预测器以帮助实体对识别。在分类器链中,任务转化为m个标签分类任务,其中,第一个分类器的输入向量为
Figure BDA0003572464690000082
第二个分类器的输入向量
Figure BDA0003572464690000083
是δ和第一个分类器的输出向量oc1的连接,以此类推。第m个分类器的输入向量为:
pcm=[δ;oc1;…;ocm-1]
S233、解码器的最后一部分是实体关系的联合提取。在此过程之前,关系预测和实体预测这两个并行过程分别检测文本中存在的所有关系以及与文本中的关系相关的所有实体。在联合提取过程中,我们选择两个实体作为目标实体对,并将目标关系分配给实体对,这样它们就可以形成一个三元组。我们使用注意力模型来执行实体和关系的联合提取。
Figure BDA0003572464690000084
Figure BDA0003572464690000085
其中,oci表示第i目标关系分类器输出向量,Gt-1表示在时间步t-1实体预测时的全局嵌入向量,mi表示编码层产生的上下文向量。
Figure BDA0003572464690000086
表示第i个关系的标注序列。α表示注意力权重,
Figure BDA0003572464690000087
表示上下文向量。最后通过sofmax函数得到对应第i个关系的标签序列
Figure BDA0003572464690000088
进一步地,步骤S24中模型联合训练过程具体包括以下步骤:
将模型的联合损失函数定义为:
Llocal=λ·Lrel+(1-λ)·Lent
其中,Lrel表示关系分类的交叉熵损失,Lent表示命名实体识别预测器交叉熵损失,λ∈R是一个超参数,用于平衡多关系分类器和命名实体识别预测器。
进一步地,步骤S1中,所述钢铁产线设备数据的获取方法包括在线数据爬取、离线数据收集和对获取的数据进行预处理。
与现有技术相比,本发明具有以下优点:
(1)本发明首先获取钢铁产线设备数据并进行预处理,然后构建自学习实体关系联合抽取模型并进行训练,运用自学习实体关系联合抽取模型抽取三元组,接着,将三元组在Neo4j中显示实现钢铁产线设备故障知识图谱的可视化。因为初步构建的钢铁产线设备故障知识图谱不完整,需要进一步补全知识图谱,在此过程中引入GraphNNs解决知识图谱之外新实体问题,引入强化学习通过推理补全更新知识图谱中缺失的关系。多次训练后,使得故障知识图谱更新进化为信息更为丰富的知识图谱,信息丰富的故障知识图谱极大地提高钢铁产线设备故障诊断的准确性。
(2)本发明引入强化学习充分挖掘知识图谱中的隐式关系,并在一定程度上纠正错误三元组;引入图神经网络GraphNNs根据测试阶段提供的有限辅助知识计算新实体的嵌入向量,解决了图谱之外新实体的问题。模型在钢铁生产线设备故障数据集上进行了评估,实验结果表明该钢铁生产线设备故障知识图谱能够准确有效地提供更加丰富的故障诊断信息,进而提高故障诊断结果并提供有效的故障解决方案。
附图说明
图1为本发明实施例中提供的基于自学习实体关系联合抽取的钢铁产线设备诊断方法的流程示意图;
图2为本发明实施例中提供的一种自学习实体关系联合抽取模型结构示意图;
图3为本发明实施例中提供的一种含有空洞卷积的BiLSTM示意图;
图4为实施例中S41结果示意图;
图5为实施例中S51结果示意图;
图6为实施例中S52结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例1
如图1所示,本实施例提供一种基于自学习知识图谱的钢铁产线设备故障诊断方法,包括以下步骤:
S1:获取钢铁产线设备数据与;
S2:构建自学习实体关系联合抽取模型,首先对钢铁产线设备数据中的实体关系进行标注,然后通过编码器层将每个标注的标记转换为向量表示,通过解码器层从向量表示中提取关系和实体,构建三元组;并通过联合训练的方式,对编码器层和解码器层进行训练;
S3:采用所述自学习实体关系联合抽取模型,从人、信息系统和物理系统中提取人机物三元组数据;
S4:根据人机物三元组数据构建钢铁产线设备故障知识图谱,并进行可视化显示;
S5、钢铁产线设备故障知识图谱进化。
本实施例中,选取钢铁生产线设备故障相关数据构建故障KG。
所述步骤S1具体包括以下步骤:
S11、在线数据爬取:通过基于Python的网络爬虫技术对在线互联网数据,如百科全书网站和搜索引擎保留的搜索日志进行数据爬取
S12、离线数据收集:收集钢铁生产过程中产生大量与生产设备维护相关的离线数据,包括文件记录和表格记录,主要涉及故障设备、故障原因、故障现象、解决措施等信息。
S13、数据预处理:从网上爬取的数据和从钢铁生产线得到的数据不规范,所以必须先对数据进行预处理。最后,整理得到钢铁生产线设备故障数据集包含19630个简单句子,这些句子是从文本信息中人工注释和整理的。
如图2所示,所述步骤S2构建自学习实体关系联合抽取模型具体包括以下步骤:
S21、运用翻译模型将中文句子翻译为英文句子,运用翻译模型将中文句子翻译为英文句子,然后采用BIEOS标注方案对句子中的实体关系进行标注,以解决三元组重叠问题。
S22、构建编码器层:编码器层包含嵌入层、上下文词表征层、带有门控机制的关系注意力层。对于嵌入层,为了更好地捕捉和概括给定句子的语义,采用BERT预训练语言模型作为共享特征编码来建模,将单词的上下文转换为向量表示。由于词汇表外(OOV)的单词对于实体来说很常见,我们还使用CNN对数据的字符特征进行提取,通过字符级特征提高模型的性能。对于上下文词表征层,带有空洞卷积的BiLSTM的引入能够有效捕获上下文信息,解决长期依赖限制的问题。
进一步地,所述步骤S22中构建编码器层过程具体包括以下步骤:
S221、给定一个由n个单词组成的句子
Figure BDA0003572464690000111
其中,wt表示长度为n的句子中的第t个单词,我们采用BERT预训练语言模型作为共享特征编码将句子中的每个标记转换为向量表示,通过词嵌入层来表达其语义和语法含义,得到v=[v1,v2,…,vn],其中,vt∈Rd表示嵌入到句子中第t个词的d维词向量。嵌入层随机初始化嵌入矩阵,并随着模型的训练更新权重参数。
S222、由于词汇表外单词对于实体来说很常见,我们用CNN对数据的字符级表征
Figure BDA0003572464690000112
进行提取,字符级表征可以有效地捕获单词的形态信息,通过字符级信息来增强词表,进而提高模型的性能。
Figure BDA0003572464690000113
单词的最终表示是单词级和字符级表示的连接:
Figure BDA0003572464690000114
其中,X∈Rn*dw,dw是标注嵌入维度。vt是单词wt的词嵌入。
Figure BDA0003572464690000115
是wt的基于字符的表示。
S223、如图3所示,引入带有空洞卷积的BiLSTM作为上下文词表征层用于有效捕获上下文信息,解决长期依赖。Bi-LSTM编码层中的LSTM记忆块用于根据前一个隐藏向量ht-1、前一个单元向量ct-1和当前输入词嵌入xt计算当前隐藏向量ht,具体操作定义如下:
it=σ(Wxixt+Whiht-1+wcict-1+bi) (3)
ft=σ(Wxfxt+Whfht-1+Wcfcct-1+bf) (4)
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc) (5)
ct=itgt+ftct-1 (6)
ot=o(Wxoxt+Whoht-1+Wcoct+b0) (7)
ht=ottanh(ct) (8)
其中,W和b分别代表权重矩阵和偏置向量,σ表示逻辑函数,it表示输入门、ft表示遗忘门和ot表示输出门,这些门可以控制要忘记并传递到下一个时间步的信息的比例。ct表示记忆单元,其可以保持之前的状态,记忆当前输入单词的特征。
前向LSTM层
Figure BDA0003572464690000121
将输入序列从x1编码到xn,后向LSTM层将输入序列从xn编码到x1。然后我们连接
Figure BDA0003572464690000122
Figure BDA0003572464690000123
并表示单词的最终编码信息
Figure BDA0003572464690000124
这样我们就可以有效地利用特定时间范围内的过去特征和未来特征,得到了最终的句子表示
Figure BDA0003572464690000125
它编码了上下文的语义信息。对于多标签分类问题,同一个句子中不同关系对应的每个类别都有构成整个文本语义意义的语义单元。因此,这样的表示不足以解码我们的标记方案产生的n个标记序列。因此,除了使用Bi-LSTM捕捉词级语义信息外,语义单元信息的提取也非常重要。空洞卷积可以在不丢失信息的情况下扩大感受野,因此每个卷积的输出包含的信息范围很广,这对于捕获语义单元非常有利。空洞卷积常常被应用于具有长序列信息依赖性的文本处理。在本模型中将空洞卷积和BiLSTM结合得到上下文提取模块Dconv-BiLSTM。将3层空洞卷积输出的语义单元表示与Bi-LSTM输出的单词语义信息结合起来作为编码器的输出。每个时间步生成的向量为:
mt=[ht;gt] (9)
其中,ht是Bi-LSTM在时间步t生成的向量,gt是空洞卷积在第t个词处提取的语义单元信息的向量。最终得到句子表示
Figure BDA0003572464690000126
它编码了丰富的上下文语义信息。
S23、构建解码器层:解码器层由命名实体识别模块NER和多关系分类器组成。解码器的最后一部分是实体关系的联合提取。在此过程之前,关系预测和实体预测这两个并行过程分别检测文本中存在的所有关系以及与文本中的关系相关的所有实体。选择两个实体作为目标实体对,并将目标关系分配给实体对,这样它们就可以形成一个三元组,使用注意力模型来执行实体和关系的联合提取。
进一步地,所述步骤S23中构建解码器层过程具体包括以下步骤:
S231、我们将实体提取视为序列标记任务,检测所有可能在文本中存在关系的实体,并正确识别它们,并为每个单词分配一个实体标签,实现了初步的实体提取。
因为邻域标签和联合解码最佳标签链之间的相关性对于序列标签模型是有益的,因此,我们使用CRF进行联合解码,而不是独立解码每个标签。我们认为
Figure BDA0003572464690000131
是输入序列分数,它是从位置感知语句表示mt生成:
zt=Wumt (10)
其中,
Figure BDA0003572464690000132
是第t个单词的标签分数,Nt是不同标签的数量。将Zt,j视为第j个标签在位置t的得分。对于标签序列
Figure BDA0003572464690000133
将解码分数定义为:
Figure BDA0003572464690000134
其中,A是转移矩阵,例如Ai,j表示从标签i到标签j的转移分数。然后我们得到了所有可能的标签序列y的条件概率,定义如下:
Figure BDA0003572464690000135
其中,Yz表示Z的可能标签序列集。在训练过程中,我们最大化训练集{(Zi,yi)}上正确标签序列的对数似然:
Figure BDA0003572464690000136
解码是搜索获得最大分数的标签序列:
Figure BDA0003572464690000137
最好的标签序列y*可以使用维特比算法来计算。
CRF解码有两个缺点(1)实体识别结果并非绝对正确,因为它们是在推理过程中由模型预测的。来自实体标签的错误可能会传播到关系分类分支并损害性能。(2)CRF解码过程基于Viterbi算法,其中包含不可微分的argmax操作。为了解决这个问题,我们提出了软标签嵌入,它以logits作为输入来保留每个实体类型的概率。假设N是logits维度,即实体类型的数量,y是标签嵌入矩阵,则第t个单词的软标签嵌入定义如下:
Figure BDA0003572464690000138
得到最终的软标签嵌入
Figure BDA0003572464690000139
通过学习软标签嵌入,使用实体标签作为关系分类层的输入,可以有效地传输实体识别和关系提取之间的信息。
S232、我们将关系预测任务视为多标签分类任务,旨在识别文本中包含的关系类型。受多标签分类思想的启发,我们使用分类器链进行关系预测。为了训练更好的关系分类器以提高分类精度,将编码器层的输出向量M和NER中的软标签嵌入H融合起来构造关系层
Figure BDA00035724646900001310
δ=Norm(Concat(G,M)) (16)
其中,表示连接运算符,表示归一化操作。
然后应用卷积操作和最大池化操作:
β=Conv(δ)
ρ=relu(max(β))
其中,β∈Rm×(n-l+1)是卷积运算输出的特征,m是滤波器的数量,n是文本的长度,l是卷积滤波器的大小。首先对特征β应用最大池化运算,然后使用relu激活获得文本嵌入ρ∈Rm,将其视为文本的局部特征向量。
第j个关系类型的二元分类器如下所示:
Figure BDA0003572464690000141
Figure BDA0003572464690000142
在公式19中应用线性层产生隐藏层状态Rj∈Rd
Figure BDA0003572464690000143
是一个可学习的权重矩阵。在公式20中,另一个带有softmax激活函数的线性层用于预测文本是否包含第j个关系类型的概率分布,
Figure BDA0003572464690000144
是权重矩阵。隐藏层状态Rj被视为第j个关系类型的关系嵌入。如果文本包含第j个关系类型,Rj将被喂给可变长度实体对预测器以帮助实体对识别。在分类器链中,任务转化为m个标签分类任务,其中,第一个分类器的输入向量为
Figure BDA0003572464690000145
第二个分类器的输入向量
Figure BDA0003572464690000146
是δ和第一个分类器的输出向量oc1的连接,以此类推。第m个分类器的输入向量为:
pcm=[δ;oc1;…;ocm-1] (21)
S233、解码器的最后一部分是实体关系的联合提取。在此过程之前,关系预测和实体预测这两个并行过程分别检测文本中存在的所有关系以及与文本中的关系相关的所有实体。在联合提取过程中,我们选择两个实体作为目标实体对,并将目标关系分配给实体对,这样它们就可以形成一个三元组。我们使用注意力模型来执行实体和关系的联合提取。
Figure BDA0003572464690000147
α=sofmax(βi) (23)
Figure BDA0003572464690000148
Figure BDA0003572464690000149
其中,oci表示第i目标关系分类器输出向量,Gt-1表示在时间步t-1实体预测时的全局嵌入向量,mi表示编码层产生的上下文向量。
Figure BDA00035724646900001410
表示第i个关系的标注序列。α表示注意力权重,
Figure BDA00035724646900001411
表示上下文向量。最后通过sofmax函数得到对应第i个关系的标签序列
Figure BDA0003572464690000151
S24、模型训练:在模型训练期间,对BERT进行微调;采用动态负采样来提高模型性能和鲁棒性,其中,实体和关系的负样本是每个句子中基本事实的30倍,通过这种Policy,我们的模型在训练数据上保持了更加平衡的数据分布;使用梯度裁剪、参数平均和L2正则化更新模型参数;将dropout应用于嵌入层、实体检测的最终隐藏层,和关系分类的最终隐藏层。通过将模型输出与实际标注结果进行比较,可以计算出模型的损失函数,采用交叉熵损失函数来分别定义多关系分类器和命名实体识别预测器的损失。因为它们共享相同的代码子句输入,所以采用联合训练方式训练多关系分类器和命名实体识别预测器。
进一步地,所述步骤S24中模型联合训练过程具体包括以下步骤:
S241、模型的联合损失函数定义为:
Llocal=λ·Lrel+(1-λ)·Lent (26)
其中,Lrel表示关系分类的交叉熵损失,Lent表示命名实体识别预测器交叉熵损失,λ∈R是一个超参数,用于平衡多关系分类器和命名实体识别预测器。由于关系分类的性能通常比实体预测性能差,我们对Lrel应用更大的权重分数,旨在让模型更多地关注关系分类,λ>0.5。
进一步地,所述步骤S3具体包括以下步骤:
S31、运用实体关系联合提取模型,从人、信息系统和物理系统中提取人机物三元组数据。
进一步地,所述步骤S4具体包括以下步骤:
S41、可视化钢铁产线设备故障知识图谱:将人机物三元组在Neo4j图形数据库中存储和表示,实现钢铁产线设备故障知识图谱的可视化,局部示意图如图4所示。
进一步地,所述步骤S5具体包括以下步骤:
S51、引入强化学习充分挖掘知识图谱中的隐式关系,并在一定程度上纠正错误三元组。
如图5所示,引入强化学习之后补全了故障知识图谱中缺失的关系。
进一步地,所述步骤S51中引入强化学习充分挖掘知识图谱中的隐式关系,并在一定程度上纠正错误三元组具体包括以下步骤:
知识图谱相对稀疏,大量实体之间的隐藏关系没有被充分挖掘。基于强化学习(强化学习)的知识图谱补全技术采用知识推理的方法,利用知识图谱中已有的显性知识对图中尚未存储的隐性知识进行预测,逐步补全知识图谱。强化学习包含两部分:(1)第一部分是外部环境E,它指定代理和知识图谱之间交互的动态。该环境被建模为马尔可夫决策过程(MDP)。定义一个元组<S,A,P,R>来表示MDP,其中,S是连续状态空间,A={a1,a2,…,an}表示所有可用动作的集合,P(St+1=s′|St=s,At=a)是转移概率矩阵,R(s,a)是每个(s,a)对的奖励函数。(2)系统的第二部分是强化学习代理,表示为Policy网络πθ(s,a)=p(a|s;θ)它将状态向量传输到随机Policy。神经网络参数θ使用随机梯度下降进行更新。
S511、动作:给定具有关系r的实体对(es,et),希望代理能够找到链接这些实体对的信息量最大的路径。从源实体es开始,在每一步扩展路径中代理使用Policy网络选择最有希望的关系,直到到达目标实体et。为了保持Policy网络的输出维度一致,动作空间被定义为知识图谱中的所有关系。
S512、状态:基于翻译的嵌入TransH用于捕获知识图谱中实体和关系的语义信息。每个状态都捕获代理在知识图谱中的位置。采取行动后,代理将从一个实体移动到另一个实体。这两者是通过代理刚刚采取的行动(关系)联系起来的。步骤t的状态向量计算如下:
st=(et,etartget-et) (27)
其中,et表示当前实体节点的嵌入,etartget表示目标实体的嵌入。在初始状态et=esource
S513、奖励:为了鼓励代理找到预测路径,我们的奖励函数包括以下评分标准:
1)全局精度:我们添加到强化学习模型中的第一个奖励函数定义如下:
Figure BDA0003572464690000161
如果代理在一系列动作后到达目标,则会获得离线正奖励+1。
2)路径效率:效率奖励定义如下:
Figure BDA0003572464690000162
其中,路径p被定义为关系序列r1→r2→…→rn
3)路径多样性:我们训练代理使用每个关系的正样本来寻找路径。这些训练样本(esource,etarget)在向量空间中具有相似的状态表示。代理倾向于找到具有相似语法和语义的路径。通常这些路径其中,一些可能是相关,因此会包含冗余信息。为了鼓励代理找到不同的路径,我们使用当前路径和现有路径之间的余弦相似度定义了一个多样性奖励函数:
Figure BDA0003572464690000171
其中,
Figure BDA0003572464690000172
表示关系链r1→r2→…→rn的路径嵌入。
S514、Policy网络:我们使用完全连接的神经网络来参数化Policy函数π(s;θ),它将状态向量S转换为所有可能动作的概率分布。神经网络由两个隐藏层组成,每个隐藏层后面都有一个ReLU非线性层。输出层使用softmax函数进行归一化。
S515、训练过程:采用两侧随机广度优先搜索(BFS)的监督Policy来训练模型。插入BFS找到的路径后,用于更新Policy网络的近似梯度,计算过程如下所示:
Figure BDA0003572464690000173
其中,J(θ)是一个间隔的预期总奖励,对于每个关系,每个实体对的推理被视为一个间隔。rt属于路径p。在实践中,使用带有L2正则化的AdamOptimizer更新θ。
为了找到由奖励函数控制的推理路径,我们使用奖励函数来重新训练有监督的Policy网络。在每一间隔之后,使用以下梯度更新Policy网络:
Figure BDA0003572464690000174
Rtotal=λ1rGLOBAL2rGLOBAL3rDIVERSITY (33)
其中,Rtotal是定义的奖励函数的线性组合。
S52、引入图神经网络GraphNNs根据测试阶段提供的有限辅助知识计算新实体的嵌入向量,解决了图谱之外新实体的问题,如图6所示。
进一步地,所述步骤S52中引入图神经网络GraphNNs,解决知识图谱之外新实体的问题具体包括以下步骤:
由于系统在训练时,并没有将所有的实体输入网络,因此模型并没有这些实体的嵌入,因此无法预测这些实体在已构建的故障知识图谱内的关系。尽管可以使用包含OOKB实体的关系三元组重新训练嵌入来解决这个问题,但是重新训练往往耗费太多的时间和资源。
Graph-NN是在图结构上定义的神经网络,它提供了将节点和边编码为向量的方法,因为这更适合知识图谱补全。图神经网络由两个模型组成,传播模型和输出模型。传播模型确定如何将信息从节点传播到其邻域节点。反复应用这种传播模型,我们可以将一个节点的信息广播到更远的节点,即每个节点都可以接收到更多的信息。在模型中,堆叠的Graph-NN应用于知识图谱。输出模型根据给定任务使用向量表示的节点和边定义目标函数。
设ε是一组实体,R是一组关系,G是一个知识图谱。将事实或关系三元组定义为(h,r,t),其中,h,t∈ε和r∈R。堆叠Graph-NN中的传播过程根据时间步长n使用不同的模型参数。每个时间步n处的转移函数
Figure BDA0003572464690000181
由以下等式定义
Figure BDA0003572464690000182
Figure BDA0003572464690000183
Figure BDA0003572464690000184
Figure BDA0003572464690000185
Figure BDA0003572464690000186
其中,e∈ε(G)是一个实体,
Figure BDA0003572464690000187
是e的d维表示向量。在一个知识图谱G中,头实体邻域Nh(e)={(h,r,e)|(h,r,e)∈G},尾邻域Nt(e)={(e,r,t)|e,r,t)∈G}。此外,
Figure BDA0003572464690000188
表示依赖于头/尾实体和时间步的转换函数,用于修改/转换相邻节点的向量以将其合并在当前向量ve中。P表示求和pooling函数,它将一组向量映射到到一个向量。BN表示批量标准化。
异质性和不平衡性是知识图谱的两个典型特征。异质性是指一些实体具有简单的关系,而另一些实体具有复杂的关系,连接着各种不同的实体。不平衡是指许多关系所连接的正面和反面的数量非常不平等。对于不同难度的实体之间的关系,TranSpare使用具有不同稀疏度(不同数量的参数)的矩阵来表示它们。它有助于防止复杂关系的欠拟合或简单关系的过度拟合。因此,将TranSpare作为基于嵌入的模型。评分函数定义如下。
Figure BDA0003572464690000189
Figure BDA00035724646900001810
Figure BDA00035724646900001811
Figure BDA00035724646900001812
其中,
Figure BDA00035724646900001813
Figure BDA00035724646900001814
Figure BDA00035724646900001815
描述了关系的复杂性。r*表示在位置l*处连接最多实体的关系。
Figure BDA00035724646900001816
表示关系在位置l*处具有最多实体数的关系数量。
以TranSpare为基础的Absolute-Margin目标函数L作为输出模型。
L=∑(h,r,t)∈Δ(h′,r,t′)∈Δ′[τ+fr(h,t)-fr(h′,t′)]+ (43)
其中,[x]+=max(0,x),(h,r,t)表示一个正三元组,(h′,r,t′)表示每个正三元组一个负三元组,τ是分隔正三元组和负三元组的边距。该目标函数在第一项和第二项中分别考虑正三元组和负三元组。正三元组的分数将向零优化,而负三元组的分数将至少为τ。这个目标函数很容易优化,可以得到很好的结果。
按照上述过程,首先获取钢铁产线设备数据并进行预处理,然后构建自学习实体关系联合抽取模型并进行训练,运用自学习实体关系联合抽取模型抽取三元组,接着,将三元组在Neo4j中显示实现钢铁产线设备故障知识图谱的可视化。因为初步构建的钢铁产线设备故障知识图谱不完整,需要进一步补全知识图谱,在此过程中引入GraphNNs解决知识图谱之外新实体问题,引入强化学习通过推理补全知识图谱中缺失的关系。多次训练后,使得故障知识图谱更新进化为信息更为丰富的知识图谱,如图6所示。信息丰富的故障知识图谱极大地提高钢铁产线设备故障诊断的准确性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,包括以下步骤:
S1:获取钢铁产线设备数据;
S2:构建自学习实体关系联合抽取模型,首先对钢铁产线设备数据中的实体关系进行标注,然后通过编码器层将每个标注的标记转换为向量表示,通过解码器层从向量表示中解码出关系和实体,提取三元组;并通过联合训练的方式,对编码器层和解码器层进行训练;
S3:采用所述自学习实体关系联合抽取模型,从人、信息系统和物理系统中提取人机物三元组数据;
S4:根据人机物三元组数据构建钢铁产线设备故障知识图谱,并进行可视化显示。
2.根据权利要求1所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,所述方法还包括以下步骤:
S5:钢铁产线设备故障知识图谱进化。
3.根据权利要求2所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S5具体包括以下子步骤:
S51:引入强化学习挖掘钢铁产线设备故障知识图谱中的隐式关系,并纠正错误三元组;
所述强化学习根据所述钢铁产线设备故障知识图谱中已有的显性知识对尚未存储的隐性知识进行预测;
所述强化学习的预测过程包括构建外部环境以及强化学习代理,所述外部环境用于指定代理和指示图谱之间交互的动态,所述外部环境被建模为定义一个元组<S,A,P,R>来表示马尔可夫决策过程,其中,S是连续状态空间,A={a1,a2,…,an}表示所有可用的动作的集合,P(St+1=s′|St=s,At=a)是转移概率矩阵,R(s,a)是每个(s,a)对的奖励函数;
所述强化学习代理包括:通过Policy网络πθ(s,a)=p(a|s;θ)将状态向量传输到随机Policy,对神经网络参数θ使用随机梯度下降进行更新;
所述动作具体为:给定具有关系r的实体对(es,et),从源实体es开始,在每一步扩展路径中代理使用Policy网络选择最有希望的关系,直到到达目标实体et,选择的关系即为动作,动作空间定义为钢铁产线设备故障知识图谱中的所有关系;
所述状态具体为:捕获钢铁产线设备故障知识图谱中实体和关系的语义信息,采取行动后,代理将从一个实体移动到另一个实体,所述状态用于捕获代理在知识图谱中的位置,所述状态的向量计算式为:
st=(et,etartget-et)
其中,et表示步骤t下当前实体节点的嵌入,etartget表示目标实体的嵌入,在初始状态et=esource
所述奖励包括全局精度奖励、路径效率奖励和路径多样性奖励,所述全局精度奖励rGLORAL的计算表达式为:
Figure FDA0003572464680000021
所述路径效率奖励rEFFICIENCY的计算表达式为:
Figure FDA0003572464680000022
其中,路径p被定义为关系序列r1→r2→…→rn,length为路径长度的计算函数;
所述路径多样性奖励rDIVERSITY的计算表达式为:
Figure FDA0003572464680000023
式中,F为路径总个数;
所述Policy网络具体为:使用完全连接的神经网络来参数化Policy函数π(s;θ),将状态向量S转换为所有可能动作的概率分布。
4.根据权利要求3所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,所述强化学习代理的训练过程包括:
采用两侧随机广度优先搜索的监督Policy来训练,插入两侧随机广度优先搜索找到的路径后,用于更新Policy网络的近似梯度,Policy网络的近似梯度的更新表达式为:
Figure FDA0003572464680000024
其中,J(θ)为一个间隔的预期总奖励,对于每个关系,每个实体对的推理被视为一个间隔,rt属于路径p;
使用奖励函数来重新训练有监督的Policy网络,Policy网络的梯度更新表达式为:
Figure FDA0003572464680000031
Rtotal=λ1rGLOBAL2rGLoBAL3rDIVERSITY
其中,Rtotal是定义的奖励函数的线性组合。
5.根据权利要求2所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S5具体包括以下子步骤:
S52:引入图神经网络根据测试阶段提供的有限辅助知识计算新实体的嵌入向量;
所述图神经网络包括传播模型和输出模型,所述传播模型用于确定如何将信息从节点传播到其邻域节点,所述图神经网络通过反复应用传播模型,将一个节点的信息广播到更远的节点,所述输出模型根据给定任务使用向量表示的节点和边定义目标函数;
所述图神经网络根据时间步长n使用不同的传播模型参数,对于每个时间步n处的传播模型的转移函数
Figure FDA0003572464680000032
的计算表达式为:
Figure FDA0003572464680000033
Figure FDA0003572464680000034
Figure FDA0003572464680000035
Figure FDA0003572464680000036
Figure FDA0003572464680000037
式中,e∈ε(G)是一个实体,
Figure FDA0003572464680000038
是e的d维表示向量。在一个知识图谱G中,头实体邻域Nh(e)={(h,r,e)|(h,r,e)∈G},尾邻域Nt(e)={(e,r,t)|(e,r,t)∈C},
Figure FDA0003572464680000039
表示依赖于头/尾实体和时间步的转换函数,P表示求和pooling函数,它将一组向量映射到到一个向量。BN表示批量标准化;
所述目标函数的计算表达式为:
Figure FDA00035724646800000310
Figure FDA0003572464680000041
Figure FDA0003572464680000042
Figure FDA0003572464680000043
Figure FDA0003572464680000044
式中,
Figure FDA0003572464680000045
Figure FDA0003572464680000046
描述了关系的复杂性,r*表示在位置l*处连接最多实体的关系,
Figure FDA0003572464680000047
表示关系在位置i*处具有最多实体数的关系数量,[x]+=max(0,x),(h,r,t)表示一个正三元组,(h′,r,t′)表示每个正三元组一个负三元组,τ是分隔正三元组和负三元组的边距。
6.根据权利要求1所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S2具体包括以下子步骤:
S21:运用翻译模型将钢铁产线设备数据中的中文句子翻译为英文句子,采用BIEOS标注方案对句子中的实体关系进行标注;
S22:构建编码器层,该编码器层包括嵌入层和上下文词表征层,所述嵌入层采用BERT预训练语言模型作为共享特征编码来建模,将单词的上下文转换为向量表示,使用CNN对数据的字符特征进行提取;所述上下文词表征层引入带有空洞卷积的BiLSTM捕获上下文信息;
S23:构建解码器层,该解码器层包括命名实体识别模块和多关系分类器,所述命名实体识别模块用于检测在文本中存在关系的实体,所述多关系分类器用于识别文本中包含的关系类型,所述解码器层根据识别出的实体和关系进行联合提取;
S24:采用联合训练方式训练多关系分类器和命名实体识别模块。
7.根据权利要求6所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S22具体包括以下子步骤:
S221:给定一个由n个单词组成的句子
Figure FDA0003572464680000048
其中,wt表示长度为n的句子中的第t个单词,采用BERT预训练语言模型作为共享特征编码将句子中的每个标记转换为向量表示,通过词嵌入层来表达其语义和语法含义,得到v=[v1,v2,…,vn],其中,vt∈Rd表示嵌入到句子中第t个词的d维词向量。嵌入层随机初始化嵌入矩阵,并随着模型的训练更新权重参数;
S222:采用CNN对数据的字符级表征
Figure FDA0003572464680000049
进行提取,提取表达式为:
Figure FDA00035724646800000410
单词的最终表示是单词级和字符级表示的连接,单词的最终表示的表达式为:
Figure FDA0003572464680000051
式中,X∈Rn*dw,dw是标注嵌入维度,vt是单词wt的词嵌入,
Figure FDA0003572464680000052
是wt的基于字符的表示;
S223:引入带有空洞卷积的BiLSTM作为上下文词表征层用于有效捕获上下文信息;所述BiLSTM编码层中的LSTM记忆块用于根据前一个隐藏向量ht-1、前一个单元向量ct-1和当前输入词嵌入xt计算当前隐藏向量ht
所述BiLSTM的前向LSTM层
Figure FDA0003572464680000053
将输入序列从x1编码到xn,后向LSTM层
Figure FDA0003572464680000054
将输入序列从xn编码到x1。然后我们连接
Figure FDA0003572464680000055
Figure FDA0003572464680000056
并表示单词的最终编码信息
Figure FDA0003572464680000057
最终的句子表示为
Figure FDA0003572464680000058
将3层空洞卷积输出的语义单元表示与Bi-LSTM输出的单词语义信息结合起来作为编码器的输出,每个时间步生成的向量表达式为:
mt=[ht;gt]
式中,ht是Bi-LSTM在时间步t生成的向量,gt是空洞卷积在第t个词处提取的语义单元信息的向量;
最终得到句子表示
Figure FDA0003572464680000059
8.根据权利要求6所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S23具体包括以下子步骤:
S231:将实体提取视为序列标记任务,检测所有可能在文本中存在关系的实体,为每个单词分配一个实体标签,实现初步的实体提取;
使用CRF进行联合解码,将
Figure FDA00035724646800000510
作为输入序列分数,该输入序列分数从位置感知语句表示mt生成,zt的生成表达式为:
zt=Wumt
其中,
Figure FDA00035724646800000511
是第t个单词的标签分数,Nt是不同标签的数量;
将Zt,j视为第j个标签在位置t的得分,对于标签序列
Figure FDA00035724646800000512
将解码分数定义为:
Figure FDA00035724646800000513
其中,A是转移矩阵,Ai,j表示从标签i到标签j的转移分数;
所有可能的标签序列y的条件概率的表达式为:
Figure FDA0003572464680000061
式中,Yz表示Z的可能标签序列集;
解码器在训练过程中,最大化训练集{(Zi,yi)}上正确标签序列的对数似然,该对数似然的计算表达式为:
Figure FDA0003572464680000062
解码是搜索获得最大分数的标签序列,解码的计算表达式为:
Figure FDA0003572464680000063
设置软标签嵌入,以logits作为输入来保留每个实体类型的概率,假设N是logits维度,即实体类型的数量,y是标签嵌入矩阵,则第t个单词的软标签嵌入定义为:
Figure FDA0003572464680000064
得到最终的软标签嵌入
Figure FDA0003572464680000065
通过学习软标签嵌入;
S232:将关系预测任务视为多标签分类任务,使用分类器链进行关系预测,将编码器层的输出向量M和NER中的软标签嵌入H融合起来构造关系层
Figure FDA0003572464680000066
δ=Norm(Concat(H,M))
其中,Concat表示连接运算符,Norm表示归一化操作;
应用卷积操作和最大池化操作:
β=Conv(δ)
ρ=relu(max(β))
其中,β∈Rm×(n-l+1)是卷积运算输出的特征,m是滤波器的数量,n是文本的长度,l是卷积滤波器的大小;
首先对特征β应用最大池化运算,然后使用relu激活获得文本嵌入ρ∈Rm,将文本嵌入视为文本的局部特征向量;
第j个关系类型的二元分类器的表达式为:
Figure FDA0003572464680000067
Figure FDA0003572464680000068
其中,
Figure FDA0003572464680000069
是一个可学习的权重矩阵,
Figure FDA00035724646800000610
是权重矩阵。隐藏层状态Rj被视为第j个关系类型的关系嵌入;如果文本包含第j个关系类型,Rj将被喂给可变长度实体对预测器以帮助实体对识别;在分类器链中,任务转化为m个标签分类任务,其中,第一个分类器的输入向量为
Figure FDA0003572464680000071
第二个分类器的输入向量
Figure FDA0003572464680000072
是δ和第一个分类器的输出向量oc1的连接,以此类推。第m个分类器的输入向量为:
pcm=[δ;oc1;…;ocm-1]。
S233:进行实体关系的联合提取,选择两个实体作为目标实体对,并将目标关系分配给实体对,这样它们就可以形成一个三元组;使用注意力模型来执行实体和关系的联合提取,所述注意力模型的表达式为:
Figure FDA0003572464680000073
α=sofmax(βi)
Figure FDA0003572464680000074
Figure FDA0003572464680000075
其中,oci表示第i目标关系分类器输出向量,Gt-1表示在时间步t-1实体预测时的全局嵌入向量,mi表示编码层产生的上下文向量;
Figure FDA0003572464680000076
表示第i个关系的标注序列。α表示注意力权重,
Figure FDA0003572464680000077
表示上下文向量;最后通过sofmax函数得到对应第i个关系的标签序列
Figure FDA0003572464680000078
9.根据权利要求6所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S24中模型联合训练过程具体包括以下步骤:
将模型的联合损失函数定义为:
Llocal=λ·Lrel+(1-λ)·Lent
其中,Lrel表示关系分类的交叉熵损失,Lent表示命名实体识别预测器交叉熵损失,λ∈R是一个超参数,用于平衡多关系分类器和命名实体识别预测器。
10.根据权利要求1所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S1中,所述钢铁产线设备数据的获取方法包括在线数据爬取、离线数据收集和对获取的数据进行预处理。
CN202210328908.XA 2022-03-30 2022-03-30 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 Pending CN114756687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210328908.XA CN114756687A (zh) 2022-03-30 2022-03-30 基于自学习实体关系联合抽取的钢铁产线设备诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210328908.XA CN114756687A (zh) 2022-03-30 2022-03-30 基于自学习实体关系联合抽取的钢铁产线设备诊断方法

Publications (1)

Publication Number Publication Date
CN114756687A true CN114756687A (zh) 2022-07-15

Family

ID=82329824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210328908.XA Pending CN114756687A (zh) 2022-03-30 2022-03-30 基于自学习实体关系联合抽取的钢铁产线设备诊断方法

Country Status (1)

Country Link
CN (1) CN114756687A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858825A (zh) * 2023-03-02 2023-03-28 山东能源数智云科技有限公司 基于机器学习的设备故障诊断知识图谱构建方法和装置
CN116523040A (zh) * 2023-04-28 2023-08-01 华东理工大学 基于神经网络实现青霉素发酵过程知识图谱构建的方法、装置、处理器及其计算机存储介质
CN116893924A (zh) * 2023-09-11 2023-10-17 江西南昌济生制药有限责任公司 设备故障处理方法、装置、电子设备和存储介质
CN117093727A (zh) * 2023-10-16 2023-11-21 湖南董因信息技术有限公司 基于时间关系感知的时序知识图谱补全方法
CN117435747A (zh) * 2023-12-18 2024-01-23 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858825A (zh) * 2023-03-02 2023-03-28 山东能源数智云科技有限公司 基于机器学习的设备故障诊断知识图谱构建方法和装置
CN115858825B (zh) * 2023-03-02 2023-05-16 山东能源数智云科技有限公司 基于机器学习的设备故障诊断知识图谱构建方法和装置
CN116523040A (zh) * 2023-04-28 2023-08-01 华东理工大学 基于神经网络实现青霉素发酵过程知识图谱构建的方法、装置、处理器及其计算机存储介质
CN116893924A (zh) * 2023-09-11 2023-10-17 江西南昌济生制药有限责任公司 设备故障处理方法、装置、电子设备和存储介质
CN116893924B (zh) * 2023-09-11 2023-12-01 江西南昌济生制药有限责任公司 设备故障处理方法、装置、电子设备和存储介质
CN117093727A (zh) * 2023-10-16 2023-11-21 湖南董因信息技术有限公司 基于时间关系感知的时序知识图谱补全方法
CN117093727B (zh) * 2023-10-16 2024-01-05 湖南董因信息技术有限公司 基于时间关系感知的时序知识图谱补全方法
CN117435747A (zh) * 2023-12-18 2024-01-23 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法
CN117435747B (zh) * 2023-12-18 2024-03-29 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法

Similar Documents

Publication Publication Date Title
Zhang et al. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN108182295B (zh) 一种企业知识图谱属性抽取方法及系统
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114756687A (zh) 基于自学习实体关系联合抽取的钢铁产线设备诊断方法
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN114418954A (zh) 一种基于互学习的半监督医学图像分割方法及其系统
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
Lopes et al. An AutoML-based approach to multimodal image sentiment analysis
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN111340006B (zh) 一种手语识别方法及系统
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN116910013A (zh) 基于语义流图挖掘的系统日志异常检测方法
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination