CN117473400A - 基于多通道层级变换网络结构的设备故障诊断方法 - Google Patents

基于多通道层级变换网络结构的设备故障诊断方法 Download PDF

Info

Publication number
CN117473400A
CN117473400A CN202311824721.XA CN202311824721A CN117473400A CN 117473400 A CN117473400 A CN 117473400A CN 202311824721 A CN202311824721 A CN 202311824721A CN 117473400 A CN117473400 A CN 117473400A
Authority
CN
China
Prior art keywords
data
text
sample data
vector
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311824721.XA
Other languages
English (en)
Other versions
CN117473400B (zh
Inventor
李芳芳
邓雅曦
吕鹏
朱仕静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202311824721.XA priority Critical patent/CN117473400B/zh
Publication of CN117473400A publication Critical patent/CN117473400A/zh
Application granted granted Critical
Publication of CN117473400B publication Critical patent/CN117473400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多通道层级变换网络结构的设备故障诊断方法,包括:将设备历史日志数据划分成训练样本数据和测试样本数据;将训练样本数据和测试样本数据中的所有文本数据均进行Embedding层文本嵌入表示;基于对训练样本数据和测试样本数据的Embedding层文本嵌入表示构建训练样本数据和测试样本数据的文本特征矩阵;将文本特征矩阵输入至多通道层级变换网络结构模型中进行变换操作,将最终变换操作后的结果输入至多通道层级变换网络结构模型中的全连接层中,经过全连接层的操作,得到该文本数据的故障概率比对结果;根据该文本数据的故障概率比对结果判断其所对应的故障类型。

Description

基于多通道层级变换网络结构的设备故障诊断方法
技术领域
本发明涉及设备故障诊断技术领域,尤其涉及一种基于多通道层级变换网络结构的设备故障诊断方法。
背景技术
随着人工智能、大数据等技术的不断发展,设备的智能化程度也在不断地提高,传感器、控制器等数字技术使得设备之间可以进行自行通信和交互,为生产发展带来了诸多便利。由于设备智能化的升级,使得设备的复杂性日渐增加,设备故障的类型和数量也急剧上升,当设备发生故障时,传统的故障诊断方法需要消耗大量的时间和人力成本,因此,实现对设备的快速、准确的故障诊断具有重要意义。
然而,在进行设备故障诊断的过程中面临着以下机会和挑战:(1)设备故障的复杂性:设备一般由多个组件和系统构成,涉及通信、电路连接等许多复杂过程。设备在经过长时间运行或者受到外界因素干扰的情况下容易发生故障,故障类型多样且复杂,因此,针对这些故障进行准确的诊断具有挑战性。(2)故障诊断的重要性:设备发生故障可能导致工作效率下降、数据交互不及时、能耗增加以及设备停机等严重后果。为了及时采取修复措施、减少停机时间和降低维修成本,快速准确地诊断设备故障变得至关重要。(3)NLP的应用:随着自然语言处理的技术不断进步以及应用场景的不断扩展,NLP在故障诊断领域的应用也会变得逐渐广泛。通过采集和整理故障日志、用户报告、维修记录等文本数据,利用NLP技术提取数据中的关键信息,学习存在的故障特征和故障模式,从而有助于实现故障诊断和原因分析。
基于以上背景,本发明提出了一种基于多通道层级变换网络结构的设备故障诊断方法,利用NLP技术对收集到的历史日志记录进行分析处理,实现对设备故障的自动化诊断和解释,提高设备故障诊断的准确性和效率。这对于及时发现和解决设备故障、优化设备运行和维护流程,提高设备的可靠性和性能具有重要意义。
发明内容
本发明提供了一种基于多通道层级变换网络结构的设备故障诊断方法,包括以下步骤:
步骤一、将设备历史日志数据划分成训练样本数据和测试样本数据/>
步骤二、将训练样本数据中的所有文本数据均进行Embedding层文本嵌入表示,得到/>个文本字向量/>和/>;将测试样本数据/>中的所有文本数据均进行Embedding层文本嵌入表示,得到/>个文本字向量/>和/>
步骤三、基于Embedding层的嵌入表示结果,构建多通道层级变换网络结构模型;
步骤四、将个文本字向量/>和/>进行组合,得到训练样本数据/>的文本特征矩阵;将/>个文本字向量/>和/>进行组合,得到测试样本数据/>的文本特征矩阵;
分别将训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵输入至多通道层级变换网络结构模型中,并将采用分成两条分支路同时进行变换操作,得到其中一条分支路变换操作后的结果/>以及另一条分支路变换操作后的结果,将/>和/>相加,得到最终变换操作后的结果/>
将最终变换操作后的结果输入至多通道层级变换网络结构模型中的全连接层中,经过全连接层的操作,得到该文本数据/>的故障概率比对结果;
根据该文本数据的故障概率比对结果判断其所对应的故障类型。
可选的,在对设备历史日志数据进行划分时,当设备历史日志数据的数据量为100万条以下时,以(7-8):(3-2)的比例将其划分为训练样本数据和测试样本数据/>;当设备历史日志数据的数据量为100万条以上时,以98:2的比例将其划分为训练样本数据/>和测试样本数据/>
可选的,在对设备历史日志数据进行划分时,划分后的训练样本数据和测试样本数据/>为相互独立的数据。
可选的,将训练样本数据和测试样本数据/>中的任意一条文本数据/>转化成向量的表示方式的具体过程如下:
步骤2.1、使用tokenizer将文本数据进行转换,得到转换后的文本输入数据;
步骤2.2、采用Token Embedding、Segment Embedding、Position Embedding相结合的方式对文本输入数据进行文本特征的提取。
可选的,采用Token Embedding、Segment Embedding、Position Embedding相结合的方式对文本输入数据进行文本特征的提取的具体过程如下:
①采用Token Embedding将文本输入数据中的每一个字通过词表映射成一个第一维向量,其向量表示采用/>示意;
采用Segment Embedding将文本输入数据进行段落的区分,并对文本输入数据中的每个字生成一个相应的第二维向量,其向量表示采用/>示意;
采用Position Embedding表示文本输入数据中的每个字的顺序性,即经过Position Embedding对文本输入数据中的每个字生成一个位置向量;
②将Token Embedding所生成的第一维向量、Segment Embedding所生成的第二维向量以及Position Embedding所生成的位置向量进行求和,得到文本数据/>对应的嵌入表示/>
其中:为文本数据/>经过Token Embedding之后得到的嵌入表示,为文本数据/>经过 Segment Embedding之后得到的嵌入表示,/>为文本数据/>经过Position Embedding之后得到的嵌入表示且/>由/>和/>两者共同组成。
可选的,使用Position Embedding对文本输入数据中的每一个字计算其位置向量进行计算的方式如下:
采用下式对位置向量的偶数维度的值进行计算:
采用下式对位置向量的奇数维度的值进行计算:
其中:为当前的字在文本输入数据中的位置;/>为采用Transformer模型生成的位置向量的维度,且/>与采用Token Embedding生成的第一/>维向量的维度、采用Segment Embedding生成的第二/>维向量的维度三者相等;/>为/>中的偶数维度;为/>中的奇数维度;/>为文本输入数据中在/>位置上字的位置向量的偶数维度的值,其向量表示采用/>示意;/>为文本输入数据中在位置上字的位置向量的奇数维度的值,其向量表示采用/>示意。
可选的,通过多通道层级变换网络结构模型中的有向无环图分别对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵进行层级变换操作。
可选的,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵进行层级变换操作的具体方式为:
将有向无环图中的每一条边中的前驱节点与后继节点/>之间的一次完整的变换操作,得到结果/>
其中,所述前驱节点为训练样本数据/>中每一条文本数据/>的Embedding层嵌入表示结果或者是测试样本数据/>中每一条文本数据/>的Embedding层嵌入表示结果;所述后继节点/>为其所有前驱节点/>进行变换操作/>之后的总和。
可选的,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵采用其中一个分支路进行变换操作时的具体过程如下:
步骤4.21、以训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵作为输入,并行的将其进行卷积层、池化层和无操作层的操作;通过迭代算法进行更新动态调整阈值;
步骤4.22、将卷积层、池化层和无操作层的操作结果均输入到加权层中,通过加权层根据输入数据的重要性自动调整权重参数,调整各操作对不同数据的加权程度、除去数据噪音和冗余,得到去噪后的数据特征;
步骤4.23、将去噪后的数据特征传递给Multi-Head Attention层进行多次不同的注意力计算,得到文本数据的语义融合结果;其中,每一次的注意力计算都会有关于Query、Key、Value三个矩阵的求值,经过多个注意力计算的融合与结果维度统一,完成本次的变换操作计算,得到计算结果
可选的,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵采用另一个分支路进行变换操作时的具体过程如下:
重复步骤4.21至步骤4.23两次,得到计算结果
与现有技术相比,本发明具有以下有益效果:
(1)提出了一种基于多通道层级变换网络结构的模型,利用NLP技术提高故障诊断的准确性和灵活性。
设备在日常的工作中会产生大量的文本数据,比如故障日志、维护日志、用户报告等,由于传统故障诊断方法对于复杂故障情况和新故障情况存有一定的局限性,将NLP应用到故障诊断领域,可以从大量文本数据中提取出故障特征和模式进行学习训练,实现故障诊断自动化。多通道层级变换网络结构基于有向无环图对输入序列进行三大层级操作,从而完成对文本数据的分类任务。文本数据经过Embedding层进行嵌入表示,形成特征矩阵输入到多通道层级变换网络结构,在DAG中经过卷积、池化等多通道计算,可以提高对特征提取的全面性和准确性,有向无环图的设计可以按照有序的方向进行信息传播,避免了循环传播和重复计算,加权层的存在可以对不同文本的操作计算通过学习进行相应的调整,从而能够更好地适应文本数据,提高该网络结构的灵活性。经过多个层级变换操作,将结果输入到全连接层进行计算,以得分最高的故障作为诊断结果进行输出。
(2)将Multi-Head Attention融合到多通道层级变换网络结构中,增强模型的表达能力,改善模型的鲁棒性和泛化能力。
由于文本数据中存在关键信息之间距离较大的情况,容易造成特征的片面化,从而影响最终的诊断结果,而Multi-Head Attention有多个注意力头,可以从不同的角度和维度对输入向量进行注意力加权,从而能够更好地更加全面地获取到输入向量的关键信息,有助于模型更加精确的理解输入向量的语义关系。同时,通过多个注意力头加权可以减少模型的过拟合风险,缓解对单个权重的过度依赖,有助于模型的泛化能力和鲁棒性。
(3)将NLP与故障诊断相结合,通过分析设备的日志数据,提取出相应的关键信息,可以识别出故障的早期迹象和模式,从而实现设备维护预测以及设备故障排查的目标。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中一种基于多通道层级变换网络结构的设备故障诊断方法的整体流程示意图;
图2是本发明实施例中Embedding层文本嵌入表示的示意图;
图3是本发明实施例中“自”经过Position Embedding生成的位置向量示意图;
图4是本发明实施例中多通道层级变换网络结构模型的示意图;
图5是本发明实施例中DAG的变换操作结构示意图;
图6是本发明实施例中常规卷积和空洞卷积的对比示意图;
图7是本发明实施例中加入空洞之后卷积核的变化示意图;
图8是本发明实施例中Multi-Head Attention结构示意图;
图9是本发明实施例中设备故障诊断的流程示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
除非另有定义,本文所使用的所有的技术和科学术语与本发明的技术领域技术人员通常理解的含义相同。本文中在本发明说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本实施例:
本发明所提供的一种基于多通道层级变换网络结构的设备故障诊断方法,参见图1所示,其包括以下步骤:
步骤一、数据划分
将设备历史日志数据划分成训练样本数据和测试样本数据/>。优选的,当设备历史日志数据的数据量为100万条以下时,以(7-8):(3-2)的比例将其划分为训练样本数据/>和测试样本数据/>。进一步优选的,当设备历史日志数据的数据量为100万条以上时,以98:2的比例将其划分为训练样本数据/>和测试样本数据/>。更进一步优选的,为了避免在学习训练的时候出现过拟合的现象,在对设备历史日志数据进行划分时,划分后的训练样本数据/>和测试样本数据/>为相互独立的数据(即划分后的训练样本数据/>和测试样本数据/>相互之间不产生重叠),以防止发生数据窥探偏误。
步骤二、 将训练样本数据和测试样本数据/>均进行Embedding层文本嵌入表示
将训练样本数据和测试样本数据/>中的任意一条文本数据/>转化成向量的表示方式,以便于计算机可以更好地理解和处理。
对训练样本数据和测试样本数据/>中其他的数据逐一转化成向量的表示方式,直到将训练样本数据/>中的所有数据均进行Embedding层文本嵌入表示,得到/>个文本字向量/>和/>;将测试样本数据/>中的所有数据均进行Embedding层文本嵌入表示,得到/>个文本字向量/>和/>
优选的,参见图2所示,以文本数据为“自然语言处理”为例,对文本数据/>转化成向量的表示方式的具体过程如下:
步骤2.1、使用tokenizer将文本“自然语言处理”转换为['自','然','语','言','处','理'],同时,还会补上特殊符号,比如在句子的开头会补上开始符([CLS]),句子之间或者结尾会有分隔符([SEP]),最终形成[ '[CLS]','自','然','语','言','处','理','[SEP]' ]的文本输入数据。
步骤2.2、采用Token Embedding(词嵌入)、Segment Embedding(段嵌入)、Position Embedding(位置嵌入)相结合的方式提取文本特征。其具体过程如下:
①、采用Token Embedding将文本输入数据中的每一个字通过词表映射成一个第一维向量,其向量表示采用/>示意。此处优选:词表为优先根据自身需求设置的,词表中包含各个常用字,并将各个常用字均设定其唯一的向量标识ID,在采用TokenEmbedding将文本数据/>中的每一个字通过词表映射成一个相应的第一/>维向量时,即从词表中查找到相应的字所对应的向量标识ID。
②、采用Segment Embedding将文本输入数据进行段落的区分,并对文本输入数据中的每个字生成一个相应的第二维向量,其向量表示采用/>示意。具体的,由于[ '[CLS]','自','然','语','言','处','理','[SEP]' ]仅一个段落(即仅最终包含了一个分隔符),则其经过Segment Embedding处于后,所生成的向量表示为[0,0,0,0,0,0,0,0]。
③、采用Position Embedding表示文本输入数据中的每个字的顺序性。具体的,由于同一个字出现在不同位置所表达的意思可能会有所不同,所以使用Position Embedding对每一个字计算其位置向量以用于区分字的不同位置;使用Position Embedding对每一个字计算其位置向量的计算公式如式(1)和式(2)所示:
(1);
(2);
其中:为当前的字在文本输入数据中的位置;/>为采用Transformer模型生成的位置向量的维度,且/>与采用Token Embedding生成的第一/>维向量的维度、采用Segment Embedding生成的第二/>维向量的维度三者相等;/>为/>中的偶数维度;为/>中的奇数维度;/>为文本输入数据中在/>位置上字的位置向量的偶数维度的值,其向量表示采用/>示意;/>为文本输入数据中在位置上字的位置向量的奇数维度的值,其向量表示采用/>示意。
经过Position Embedding对文本输入数据中的每个字生成一个位置向量,其中,位置向量的偶数维度的值使用正弦函数进行计算(即采用式(1)进行计算),位置向量的奇数维度的值使用余弦函数进行计算(即采用式(2)进行计算)。参见图3所示,以“自然语言处理”的“自”为例,“自”位于句子中的第一个位置,但由于其前面还有一个开始符“[CLS]”,则开始符“[CLS]”的=0,所以“自”的/>=1;“自然语言处理”经过Position Embedding生成的位置向量表达式为/>,偶数位置上的/>值带入式(1)中进行计算,奇数位置上的/>值带入式(2)中进行计算,最终生成的位置向量为/>
④、将Token Embedding所生成的第一维向量、Segment Embedding所生成的第二/>维向量以及Position Embedding所生成的位置向量进行求和,从而获得文本输入数据对应的嵌入表示/>,计算公式如下所示:
(3);
其中:为文本数据/>经过Token Embedding之后得到的嵌入表示,为文本数据/>经过Segment Embedding之后得到的嵌入表示,/>为文本数据/>经过Position Embedding之后得到的嵌入表示且/>由/>和/>两者共同组成。
将设备历史日志数据进行划分的优势具体为:通过采用Token Embedding、Segment Embedding、Position Embedding三种嵌入方式综合表示字向量,可以从字与字之间、句与句之间和字与句之间多维度对每个字进行表示,相比于单一维度而言,该方法能够更好地保留文本的语义信息,为下一步任务保留丰富的特征。
步骤三、构建多通道层级变换网络结构模型
参见图4所示,多通道层级变换网络结构模型是一个基于有向无环图(DirectedAcyclic Graph,DAG)进行的层级变换操作网络结构。其中,DAG中的每一条边进行一次变换操作(即将前驱节点/>与后继节点/>之间的一次完整的变换操作),得到结果;而每一个后继节点/>是由其所有前驱节点/>进行变换操作/>之后加总得到的。具体的,以图4所示的多通道层级变换网络结构模型为例,其中,后继节点/>就是由第一个前驱节点/>(/>即为Embedding层的嵌入表示结果。具体的在有向无环图中,节点存储数据,节点之间的边代表操作。)经过变换操作/>得到的结果/>与第一个前驱节点经过2次变换操作/>得到的结果/>相加而来(即)。优选的,每一个后继节点/>的定义如下:
(4);
优选的,参见图5所示,所述多通道层级变换网络结构模型包括变换操作层、加权层和Multi-Head Attention层,其中,变换操作层包括并行的卷积层、池化层和无操作层。
进一步优选的,卷积层中使用了一维卷积神经网络实现对输入数据的局部特征提取,设置stride(步长)=1,从而使得输入输出的维度保持一致。更进一步优选的,在卷积层中还引入了空洞卷积(Dilated Convolution),通过加入空洞卷积来扩大卷积核,从而提高多通道层级变换网络结构模型对于序列中远距离依赖关系的捕捉能力(常规卷积和空洞卷积的对比如图6所示,可以看出加入空洞之后,卷积的范围明显扩大)。具体的,空洞卷积通过向卷积核中加入空洞来扩大卷积核,扩大之后的卷积核与原始卷积核之间的关系如下:
(5);
其中:为扩张之前卷积核大小;/>为卷积扩张率(dilation rate),用来表示空洞卷积的扩张系数;/>为扩张之后卷积核的大小。卷积扩张率实际上就是在卷积核中相邻两个值之间添加/>-1个0值,将原来的卷积核进行扩张,结果参见图7所示。
优势:在本结构中引入了空洞卷积,并分别设置了2、4、6三个扩张系数,2、4、6是较小的数字,可以在不增加过多计算负担的情况下增大卷积核,同时偶数的扩张系数可以保持对称性,有益于提高特征提取能力。通过将带有不同扩张系数的空洞卷积进行叠加,可以获得更多的上下文信息,从而更好地理解句子的整体语义。
进一步优选的,Multi-Head Attention层是一种用于自注意力机制(Self-Attention)的改进方法,在传统的自注意力机制中,通过计算注意力权重来对输入序列中的不同位置进行加权求和。而Multi-Head Attention通过引入多个注意力头(AttentionHead)来并行地进行多次注意力计算,从而增加模型对不同关系和依赖性的建模能力。Multi-Head Attention层共包括个表示空间,结构参见图8所示,输入序列需要和每一个空间的三个训练矩阵/>相乘得到相应的Query(查询)向量/>、Key(键)向量和Value(值)向量/>,计算公式如下所示:
(6);
(7);
(8);
其中:为前面加权层进行加权之后的结果,作为Multi-Head Attention的输入,为多头注意力机制的空间位置,/>为训练矩阵,一开始是随机生成的,后续经过学习和反向传播进行更新。/>是第/>个表示空间里,关于向量/>的训练矩阵;/>为第/>个表示空间里,关于向量/>的训练矩阵;/>为第/>个表示空间里,关于向量/>的训练矩阵;
利用softmax函数对得到的向量、/>和/>进行注意力计算,得到第/>个表示空间的注意力计算结果/>,计算公式(9)如下:
(9);
经过对每一个空间进行注意力计算后得到了个/>矩阵,将所有的/>矩阵进行拼接,并与权重矩阵/>进行点乘计算,将其压缩为一个与输入序列维度一致的矩阵,以便下一个节点进行变换操作。
优势:Multi-Head Attention可以对输入序列进行多次不同的注意力计算,从不同的角度和维度进行关注加权,捕捉到不同的关注点和语义信息,有助于模型的表达能力。Multi-Head Attention能够通过多个注意力头学习到不同的特征力权重,从而减少对单个权重的过度依赖,有助于缓解模型的过拟合风险。
步骤四、设备故障诊断
步骤4.1、将个文本字向量/>和/>进行组合,得到训练样本数据/>的文本特征矩阵;将/>个文本字向量/>和/>进行组合,得到测试样本数据/>的文本特征矩阵;
步骤4.2、分别将训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵输入至多通道层级变换网络结构模型中,并将采用分成两条分支路同时进行变换操作,得到其中一条分支路变换操作后的结果/>以及另一条分支路变换操作后的结果/>,将/>和/>相加,得到最终变换操作后的结果/>(即/>);
步骤4.3、将最终变换操作后的结果输入至的全连接层中,经过全连接层的操作,得到该文本数据/>的故障概率比对结果。当其故障概率比对结果越大,则说明该文本数据/>与故障概率比对结果越大所对应的故障类型的可能性越大,即最终认定该文本数据/>所对应的故障类型作为该文本数据/>的诊断结果。
优选的,在对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵进行变换操作时,采用两个分支路同时进行变换操作。进一步优选的,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵采用其中一个分支路进行变换操作时的具体过程如下:
步骤4.21、以训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵作为输入,并行的将其进行卷积层、池化层和无操作层的操作;通过迭代算法进行更新,动态调整阈值,以达到更好的效果。具体的,卷积操作引入了空洞卷积来获取更多的文本信息,分别设置了2、4、6三个扩张系数。在池化层中采用最大池化法获取序列中的最显著特征,提取关键信息,在保证维度一致的同时减少训练时间。无操作层是将输入数据进行软阈值处理,从而避免一些冗余或者噪音信息。软阈值函数可以表示为公式(10)所示,可以看出输出对输入的导数为1或者0,从而有效的防止梯度消失和爆炸问题。
(10);
其中:为输入数据,/>为软阈值处理之后的结果,/>为阈值。
步骤4.22、将卷积层、池化层和无操作层的操作结果均输入到加权层中。加权层主要是得到一个权重向量,权重向量是一个可以通过反向传播进行更新的可训练向量,可以根据输入数据的重要性自动调整权重参数,从而提高对不同数据的表达性和适用性。通过对卷积、池化等操作进行可调整的加权处理,能够灵活地调整各操作对不同数据的加权程度,有助于除去数据噪音和冗余,得到去噪后的数据特征,以更好地关注数据的重要特征。
步骤4.23、将去噪后的数据特征传递给Multi-Head Attention层。Multi-HeadAttention层主要是通过多次不同的注意力计算,得到文本数据的语义融合结果。每一次的注意力计算都会有关于Query(查询)、Key(键)、Value(值)三个矩阵的求值,经过多个注意力计算的融合与结果维度统一,完成本次的变换操作计算,得到计算结果
更进一步优选的,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵采用另一个分支路进行变换操作时的具体过程如下:
重复步骤4.21至步骤4.23两次,得到计算结果
优选的,所述全连接层的激活函数采用的是函数(也称作归一化指数函数),其表达式如式(11)所示:
(11);
其中,为全连接层输出结果中的第/>个值,/>为/>的指数函数(/>为纳皮尔常数),/>为全连接层输出结果总数量。
本方法的多通道层级变换网络相比于传统的CNN、RNN等深度学习神经网络模型,融合卷积、池化、加权以及Multi-Head Attention,可以从不同的层级提取文本的特征,获取到丰富的语义信息,这对于提高故障诊断的准确性是十分重要的。通过对各种操作进行学习性的加权操作,从而可以更好地自适应不同的故障记录。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,包括以下步骤:
步骤一、将设备历史日志数据划分成训练样本数据和测试样本数据/>
步骤二、将训练样本数据中的所有文本数据均进行嵌入层文本嵌入表示,得到/>个文本字向量/>和/>;将测试样本数据/>中的所有文本数据均进行嵌入层文本嵌入表示,得到/>个文本字向量/>和/>
步骤三、基于嵌入层的嵌入表示结果,构建多通道层级变换网络结构模型;
步骤四、将个文本字向量/>和/>进行组合,得到训练样本数据的文本特征矩阵;将/>个文本字向量/>和/>进行组合,得到测试样本数据/>的文本特征矩阵;
分别将训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵输入至多通道层级变换网络结构模型中,并将采用分成两条分支路同时进行变换操作,得到其中一条分支路变换操作后的结果/>以及另一条分支路变换操作后的结果,将/>和/>相加,得到最终变换操作后的结果/>
将最终变换操作后的结果输入至多通道层级变换网络结构模型中的全连接层中,经过全连接层的操作,得到该文本数据/>的故障概率比对结果;
根据该文本数据的故障概率比对结果判断其所对应的故障类型。
2.根据权利要求1所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,在对设备历史日志数据进行划分时,当设备历史日志数据的数据量为100万条以下时,以(7-8):(3-2)的比例将其划分为训练样本数据和测试样本数据/>;当设备历史日志数据的数据量为100万条以上时,以98:2的比例将其划分为训练样本数据/>和测试样本数据/>
3.根据权利要求2所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,在对设备历史日志数据进行划分时,划分后的训练样本数据和测试样本数据/>为相互独立的数据。
4.根据权利要求1所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,将训练样本数据和测试样本数据/>中的任意一条文本数据/>转化成向量的表示方式的具体过程如下:
步骤2.1、使用分词器将文本数据进行转换,得到转换后的文本输入数据;
步骤2.2、采用词嵌入、段嵌入、位置嵌入相结合的方式对文本输入数据进行文本特征的提取。
5.根据权利要求4所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,采用词嵌入、段嵌入、位置嵌入相结合的方式对文本输入数据进行文本特征的提取的具体过程如下:
①采用词嵌入将文本输入数据中的每一个字通过词表映射成一个第一维向量,其向量表示采用/>示意;
采用段嵌入将文本输入数据进行段落的区分,并对文本输入数据中的每个字生成一个相应的第二维向量,其向量表示采用/>示意;
采用位置嵌入表示文本输入数据中的每个字的顺序性,即经过位置嵌入对文本输入数据中的每个字生成一个位置向量;
②将词嵌入所生成的第一维向量、段嵌入所生成的第二/>维向量以及位置嵌入所生成的位置向量进行求和,得到文本数据/>对应的嵌入表示/>
其中:为文本数据/>经过词嵌入之后得到的嵌入表示,/>为文本数据/>经过段嵌入之后得到的嵌入表示,/>为文本数据/>经过位置嵌入之后得到的嵌入表示且/>由/>和/>两者共同组成。
6.根据权利要求5所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,使用位置嵌入对文本输入数据中的每一个字计算其位置向量进行计算的方式如下:
采用下式对位置向量的偶数维度的值进行计算:
采用下式对位置向量的奇数维度的值进行计算:
其中:为当前的字在文本输入数据中的位置;/>为采用转换器模型生成的位置向量的维度,且/>与采用词嵌入生成的第一/>维向量的维度、采用段嵌入生成的第二/>维向量的维度三者相等;/>为/>中的偶数维度;/>为/>中的奇数维度;为文本输入数据中在/>位置上字的位置向量的偶数维度的值,其向量表示采用/>示意;/>为文本输入数据中在/>位置上字的位置向量的奇数维度的值,其向量表示采用/>示意。
7.根据权利要求6所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,通过多通道层级变换网络结构模型中的有向无环图分别对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵进行层级变换操作。
8.根据权利要求7所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵进行层级变换操作的具体方式为:
将有向无环图中的每一条边中的前驱节点与后继节点/>之间的一次完整的变换操作,得到结果/>
其中,所述前驱节点为训练样本数据/>中每一条文本数据/>的嵌入层嵌入表示结果或者是测试样本数据/>中每一条文本数据/>的嵌入层嵌入表示结果;所述后继节点为其所有前驱节点/>进行变换操作/>之后的总和。
9.根据权利要求8所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵采用其中一个分支路进行变换操作时的具体过程如下:
步骤4.21、以训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵作为输入,并行的将其进行卷积层、池化层和无操作层的操作;通过迭代算法进行更新动态调整阈值;
步骤4.22、将卷积层、池化层和无操作层的操作结果均输入到加权层中,通过加权层根据输入数据的重要性自动调整权重参数,调整各操作对不同数据的加权程度、除去数据噪音和冗余,得到去噪后的数据特征;
步骤4.23、将去噪后的数据特征传递给多头注意力机制层进行多次不同的注意力计算,得到文本数据的语义融合结果;其中,每一次的注意力计算都会有关于查询向量、键向量、值向量三个矩阵的求值,经过多个注意力计算的融合与结果维度统一,完成本次的变换操作计算,得到计算结果
10.根据权利要求9所述的基于多通道层级变换网络结构的设备故障诊断方法,其特征在于,对训练样本数据的文本特征矩阵和测试样本数据/>的文本特征矩阵采用另一个分支路进行变换操作时的具体过程如下:
重复步骤4.21至步骤4.23两次,得到计算结果
CN202311824721.XA 2023-12-28 2023-12-28 基于多通道层级变换网络结构的设备故障诊断方法 Active CN117473400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311824721.XA CN117473400B (zh) 2023-12-28 2023-12-28 基于多通道层级变换网络结构的设备故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311824721.XA CN117473400B (zh) 2023-12-28 2023-12-28 基于多通道层级变换网络结构的设备故障诊断方法

Publications (2)

Publication Number Publication Date
CN117473400A true CN117473400A (zh) 2024-01-30
CN117473400B CN117473400B (zh) 2024-03-26

Family

ID=89631578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311824721.XA Active CN117473400B (zh) 2023-12-28 2023-12-28 基于多通道层级变换网络结构的设备故障诊断方法

Country Status (1)

Country Link
CN (1) CN117473400B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN113034500A (zh) * 2021-05-25 2021-06-25 紫东信息科技(苏州)有限公司 基于多通道结构的消化道内窥镜图片病灶识别系统
CN113628614A (zh) * 2021-07-09 2021-11-09 西北工业大学 一种自组织麦克风语音识别的逐层通道选择方法
CN114661905A (zh) * 2022-03-14 2022-06-24 华北电力大学 一种基于bert的电网故障诊断方法
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、系统及介质
CN116029295A (zh) * 2022-12-28 2023-04-28 江苏省电力试验研究院有限公司 一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法
CN116205222A (zh) * 2023-05-06 2023-06-02 南京邮电大学 一种基于多通道注意力融合的方面级情感分析系统及方法
CN116578922A (zh) * 2023-05-23 2023-08-11 南京南瑞继保电气有限公司 基于多通道卷积神经网络的阀冷系统故障诊断方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN113034500A (zh) * 2021-05-25 2021-06-25 紫东信息科技(苏州)有限公司 基于多通道结构的消化道内窥镜图片病灶识别系统
CN113628614A (zh) * 2021-07-09 2021-11-09 西北工业大学 一种自组织麦克风语音识别的逐层通道选择方法
CN114661905A (zh) * 2022-03-14 2022-06-24 华北电力大学 一种基于bert的电网故障诊断方法
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、系统及介质
CN116029295A (zh) * 2022-12-28 2023-04-28 江苏省电力试验研究院有限公司 一种电力文本实体抽取方法、缺陷定位方法及故障诊断方法
CN116205222A (zh) * 2023-05-06 2023-06-02 南京邮电大学 一种基于多通道注意力融合的方面级情感分析系统及方法
CN116578922A (zh) * 2023-05-23 2023-08-11 南京南瑞继保电气有限公司 基于多通道卷积神经网络的阀冷系统故障诊断方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIMING WANG 等: "Multi-resolution multi-head attention in deep speaker embedding", IEEE, 31 December 2020 (2020-12-31) *
谢润忠 等: "基于BERT和双通道注意力的文本情感分类模型", 数据采集与处理, no. 04, 15 July 2020 (2020-07-15) *

Also Published As

Publication number Publication date
CN117473400B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
Ahmed et al. Transformers in time-series analysis: A tutorial
Zhang et al. A fault diagnosis method based on improved convolutional neural network for bearings under variable working conditions
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN111427775B (zh) 一种基于Bert模型的方法层次缺陷定位方法
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
Ji et al. A neural network compression method based on knowledge-distillation and parameter quantization for the bearing fault diagnosis
CN115221846A (zh) 一种数据处理方法及相关设备
JP2018194974A (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
CN114898121A (zh) 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
Han et al. L-Net: lightweight and fast object detector-based ShuffleNetV2
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN117236677A (zh) 一种基于事件抽取的rpa流程挖掘方法及装置
JP7081454B2 (ja) 処理装置、処理方法、及び処理プログラム
CN113268370B (zh) 一种根因告警分析方法、系统、设备及存储介质
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
CN114925320A (zh) 一种数据处理方法及相关装置
CN117236676A (zh) 一种基于多模态事件抽取的rpa流程挖掘方法和装置
CN116975634A (zh) 一种基于程序静态属性及图神经网络的微服务提取方法
CN117473400B (zh) 基于多通道层级变换网络结构的设备故障诊断方法
CN110543567A (zh) 一种基于a-gcnn网络和acelm算法的中文文本情感分类方法
CN109977194A (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
Hao et al. New fusion features convolutional neural network with high generalization ability on rolling bearing fault diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant