CN114693942A

CN114693942A - 一种仪器仪表智能运维的多模态故障理解及辅助标注方法

Info

Publication number: CN114693942A
Application number: CN202210336240.3A
Authority: CN
Inventors: 张可; 柴毅; 蒲华祥; 邱可玥; 王嘉璐; 钱亚林; 宋倩倩; 安翼尧; 李希晨
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-01

Abstract

本发明提供一种仪器仪表智能运维的多模态故障理解及辅助标注方法，步骤为：采集仪器仪表故障时反馈的图像、声音和文本数据，分别对采集的图像、音频和文本数据进行预处理，对预处理后的图像数据、音频数据、文本数据进行特征提取，采用基于多模态量子启发神经网络对提取的图像、音频、文本特征进行融合；利用提取的图像、音频、文本特征对多模态量子启发神经网络模型进行训练；将训练好的模型加载到仪器仪表智能运维平台后端，将多模态故障数据传入API，经过模型推理，返回标注集合；本发明通过多模态量子启发深度网络模型对图像、语音、文本特征进行融合，通过融合编码特征对仪器仪表的故障进行理解，并对故障反馈信息进行自动标注，实用性强。

Description

一种仪器仪表智能运维的多模态故障理解及辅助标注方法

技术领域

本发明涉及仪器仪表智能运维技术领域，特别是一种仪器仪表智能运维的多模态故障理解及辅助标注方法。

背景技术

随着人工智能技术的蓬勃发展，传统工业逐步向智能化、无人化转型，大幅度提高了社会生产力及生产效率。仪器仪表是保障工厂安全可靠运行的基础性设施，但随着工厂规模的不断扩大，大规模的仪器仪表设备被投入生产线，然而，对大量的仪器仪表设备维护是一项重要且具有挑战性的任务，幸运的是，人工智能技术的快速发展为仪器仪表的智能运维带来了新机。

纵观目前仪器仪表智能运维平台架构，对于来自边缘端的故障反馈信息处理还没有高效的处理方法，鉴于运维平台终端接受到的反馈信息具有多模态特性，如图像、语音和文本等，且所接受的故障反馈信息来自不同的仪器仪表或设备，目前大多采取人工分类的处理方式进行标注分流，显然这将耗费大量的人力成本。

发明内容

本发明的目的就是提供一种仪器仪表智能运维的多模态故障理解及辅助标注方法。

本发明的目的是通过这样的技术方案实现的，具体步骤如下：

1)数据采集：采集仪器仪表故障时反馈的图像、声音和文本数据，并组织成字典{'image':[img1,img2,…],'voice':[v1,v2,…],'text':[t1,t2,…]}，其中：image、voice、text分别为图像、音频和文本三种模态；

2)数据预处理：分别对步骤1)中采集的图像、音频和文本数据进行预处理，得到预处理后的图像、音频和文本数据；

3)特征提取：采用基于PatchConvNet模型对步骤2)中预处理后的图像数据进行图像特征提取，采用基于一维扩张卷积预对步骤2)中处理后的音频数据进行音频特征提取，采用基于GRU单元的双向循环网络对步骤2-3)中预处理后的文本进行文本特征提取；

4)构建模型：采用基于多模态量子启发神经网络对步骤3)中提取的图像特征、音频特征和文本特征进行融合，得到融合编码特征；

5)模型训练：使用自编码训练与多任务训练的方式对图像、音频、文本特征的提取模型进行训练，利用步骤3)提取的图像、音频、文本特征对多模态量子启发神经网络模型进行训练；

6)辅助标注：将训练好的三种模态数据的特征提取网络模型以及多模态量子启发深度网络模型加载到仪器仪表智能运维平台后端，将仪器仪表多模态故障数据传入API，经过模型推理，返回标注集合，实现辅助标注。

进一步，步骤2)中数据预处理的具体步骤为：

2-1)对步骤1)中采集的图像数据进行自适应裁剪和方形填充，然后对图像进行缩放归一化，保持图像比例不变，最后对列表中的图像进行去重过滤；

2-2)采用基于启发式双重优化PCD算法对步骤1)中采集的音频数据进行降噪，对降噪后的音频片段进行中心裁剪或者对称填充；

2-3)基于完备专业性词向量空间对步骤1)中采集的文本数据进行关键词提取，并将关键词转换成向量形式，得到关键词向量矩阵。

进一步，步骤3)中特征提取的具体步骤为：

3-1)图像特征提取：将图像数据输入PatchConvNet模型中，采用循环前向传播，再对输出进行平均融合，得到维度为512的图像特征：

式中，images为图像数据，N₁为单个样本中图像数据片段的数量；

3-2)音频特征提取：采用基于一维扩张卷积预对步骤2)中处理后的音频数据进行音频特征提取，然后对输出进行平均融合，得到音频特征：

式中，voices为音频数据，N₂为单个样本中音频数据片段的数量；

3-3)文本特征提取：采用基于GRU单元的双向循环网络对步骤2)中得到的关键词向量进行特征提取，并截取最后一个时间步的输出作为后续特征：

式中，texts为关键词向量，N₃为单个样本中关键词向量的数量。

进一步，步骤4)中构建模型的具体步骤为：

4-1)将三种模态的特征向量输入多模态量子启发神经网络的全联接层：

式中，

分别表示图像特征向量、音频特征向量和文本特征向量；

将三种模态的特征投向量影到一个d维的空间中：

a_j,t_j,v_j＝transform(u_j)

其中，transform表示线性投影变换；

将各个模态的纯态进行融合：

式中，λ_a,λ_t,λ_v分别表示三种模态；

4-2)通过类量子循环神经网络QRNN网络模型对三种模态的特征矩阵进行融合，将密度矩阵序列

输入QRNN网络模型中，通过隐藏态的密度矩阵ρ_h表示序列的信息，则时间步的迭代计算过程为：

式中，更新函数f(·)是参数化的酉矩阵U_x,U_h和实值λ；U_x,U_h,

均是定义在希尔伯特空间的酉矩阵且满足UU^H＝I²,

I为单位矩阵，t为虚拟时间变量，ρ_t为t时刻的密度矩阵，

表示t-1时刻的隐态密度矩阵。

所述密度矩阵通过

其中|φ_j><φ_j|表示基态。

所述QRNN网络模型的输出为整个序列的d维状态

即三种模态的融合特征矩阵；

4-3)通过一个全局的可观测量来测量每个完整序列的状态，通过相互正交的特征状态构建一个d维的酉矩阵M即概率分布矩阵，用于表示状态坍缩到相应特征态的可能性；

4-4)通过步骤4-3)测量得到一个d维的概率分布，将d维的概率分布向量通过一层全联接层计算得到相应标签的预测概率,进一步得到分类标签：

e_i＝argmax(σ)_k

式中，x为上一个神经节点输出，

为全联接层参数矩阵，s_j为第j个节点输出，σ函数返回类别概率，k表示输出维度，e_i为概率最大的类别。

进一步，步骤5)中模型训练的具体步骤为：

5-1)使用自编码训练与多任务训练的方式对图像、音频、文本特征的提取模型进行训练；

5-2)利用静态特征

完成多模态量子启发神经网络模型的启发式搜索过程，保存最优的酉矩阵，再使用Adam算法训练模型的全连接层权重参数，得到训练好的多模态量子启发深度网络模型。

进一步，步骤6)中辅助标注的具体步骤为：

6-1)将训练好的三种模态数据的特征提取网络模型以及多模态量子启发深度网络模型加载到仪器仪表智能运维平台后端；

6-2)检查输入的仪器仪表多模态故障数据是否符合格式要求：

{'image':[img1,img2,…],'voice':[v1,v2,…],'text':[t1,t2,…]}，

若格式正确则执行步骤6-3)，若格式不正确则先将仪器仪表多模态故障数据处理成满足的格式要求再执行步骤6-3)；

6-3)对仪器仪表多模态故障数据进行数据预处理，然后将处理完成的多模态故障数据传入运维平台的API，经过模型推理，返回标注集合，完成辅助标注。

由于采用了上述技术方案，本发明具有如下的优点：

1、本发明通过多模态量子启发深度网络模型对图像、语音、文本特征进行融合，通过融合编码特征对仪器仪表的故障进行理解，并对故障反馈信息进行自动标注和分流实用性强。

2、本发明的多模态量子启发深度网络模型利用量子计算提升神经计算的信息处理能力，将人工神经网络与量子理论结合起来会更好地模拟人脑的信息处理过程，对多模态信息融合的准确度更高。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本发明的流程图。

图2为本发明用于图像特征提取的PatchConvNet模型图。

图3为本发明用于音频特征提取的一维扩张卷积模型图。

图4为本发明用于特征融合的多模态量子启发神经网络模型图。

图5为本发明多模态量子启发神经网络模型的模态融合过程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示的一种仪器仪表智能运维的多模态故障理解及辅助标注方法，具体步骤如下：

在本发明实例中，三种模态数据所对应的VALUE均由列表形式组织，三个列表的长度并不是对齐的，最小长度值为0；所述图像列表是由通过多角度多距离采集到的现场故障设备图像组成的图像集合，存在图像尺寸不一致、目标对象偏离中心、边缘冗余的特点；所述声音列表是由采集到的故障设备异常音频片段所构成的集合，存在强噪声、音频片段时长不一致的特点；文本列表是由现场检测人员对故障现象进行主观文字描述所构成的集合，存在文本不规范、逻辑不清楚、专业性表述不足的特点。

2)数据预处理：分别对步骤1)中采集的图像、音频和文本数据进行预处理，得到预处理后的图像、音频和文本数据；具体步骤为：

2-1)对步骤1)中采集的图像数据进行自适应裁剪和方形填充，然后对图像进行缩放归一化，保持图像比例不变，最后对列表中的图像进行去重过滤；具体步骤为：

2-1-1)采用自适应裁剪算法去除步骤1)中采集的图像数据的边缘冗余：

将原图像转化成灰度图：

gray＝(R*19595+G*38469+B*7472)>>16

式中，R、G、B分别代表原图三个通道的像素矩阵；

基于自适应局部阈值的方法对灰度图进行二值化，得到二值化图像矩阵:

IF:f(x,y)>T,gray(x,y)＝255；Else:gray(x,y)＝0

式中，T为全局阈值，f(x,y)是图像坐标(x,y)的像素值；

根据二值化图像矩阵搜索目标边界向量[b_up,b_down,b_left,b_right]，再根据所得边界向量对原图像进行裁剪，裁剪后的图像形状为：

shape(gray)＝(b_down-b_up,b_right-b_left)；

2-1-2)以步骤2-1-1)中裁剪后图像的长边为参照，对短边进行对称式填充，得到对象居中的正方形图像：

IF:w>h,shape(gray)＝(w,w)；Else:shape(gray)＝(h,h)

式中，w、h分别表示图像的宽度和高度；

2-1-3)将步骤2-1-2)中填充后图像进行缩放至标准尺寸，并将像素值归一化到[0,1]区间：

式中，x_i表示像素点的值；

2-1-4)遍历经过以上处理后的图像列表，计算两两余弦相似度，根据设定相似度阈值T'，对余弦相似度大于相似度阈值T'的一组样本仅保留其一：

式中，A、B分别表示一对图像的像素矩阵。

2-2)采用基于启发式双重优化PCD算法对步骤1)中采集的音频数据进行降噪，对降噪后的音频片段进行中心裁剪或者对称填充；具体步骤为：

2-2-1)通过差分进化算法对PCD算法参数进行迭代优化，然后基于最优参数集合对音频数据进行降噪优化，其优化的目标函数为：

式中，

为对数似然项，用于描述干净音频信号x与含噪声音频信号y之间的关系；ρ(x)表示未知干净音频信号x的先验信号；

2-2-2)对降噪后的音频列表逐一裁剪和填充，使得列表中的音频信号长度一致，处理后的音频可表示为x＝[x₁,x₂,...,x_m,p_m+1,...,p_n]，其中m为有效音频长度，n为标准长度，p为填充值。

在本发明实例中，完备专业性词库包含所有投入使用的仪器仪表名称以及型号，并利用词库训练Word2Vector模型并保存，得到完备专业性词向量空间[v₁,v₂,v₃,…,v_N]，其中，N代表词向量空间大小即所有专业性词的数量，每一个向量对应一个专业性词，则第i个词表示为v_i＝[v_i1,...,v_id]，其中d代表词向量维度；所述词向量矩阵SHAPE为L*D，L表示该样本中所提取到的关键词数量，D表示每一个关键词的向量维度。

3)特征提取：采用基于PatchConvNet模型对步骤2)中预处理后的图像数据进行图像特征提取，采用基于一维扩张卷积预对步骤2)中处理后的音频数据进行音频特征提取，采用基于GRU单元的双向循环网络对步骤2-3)中预处理后的文本进行文本特征提取；具体步骤为：

3-1)图像特征提取：所述单个图像样本数据中包含多个图像：

shape(images)＝(N,C,W,H)

式中，N为单个样本中图像的数量，C,W,H分别为图像通道数、图像宽度和图像高度；

将图像数据输入PatchConvNet模型中，采用循环前向传播，再对输出进行平均融合，得到维度为512的图像特征：

在本发明实例中，如图2所示，所述PatchConvNet模型包括一个用于将图像像素进行分割，并映射成一组向量卷积网络，所述卷积网络的输出端连接有由N个堆叠的残差卷积层、squeeze-And-excitation层、1*1的卷积层依次连接组件的主干模块，所述N个堆叠的残差卷积层的每个层均有一个归一化、1*1的卷积、3*3的卷积用来做空间处理。所述主干模块的输出端预处理后的向量通过类似Transformer的交叉注意力层(cross attentionlayer)的方式进行融合，注意力层中的每个权重值取决于预测patch与可训练向量(CLS)之间的相似度，然后将产生的d维向量添加到CLS向量中，并经过一个前馈网络处理。

式中，voices为音频数据，N₂为单个样本中音频数据片段的数量。

在本发明实例中，对于一维音频序列输入x∈Rⁿ和滤波器f:{0,…,k-1}→R，音频序列元素s的扩张卷积运算F为:

式中，d是扩张因子，k是滤波器大小，s-d·i为过去的方向，当d取值大于1时，可使顶层的输出表示更大范围的输入，从而有效扩展了一维卷积的感受野。

4)构建模型：采用基于多模态量子启发神经网络对步骤3)中提取的图像特征、音频特征和文本特征进行融合，得到融合编码特征；具体步骤为：

式中，

分别表示图像特征向量、音频特征向量和文本特征向量；

将三种模态的特征投向量影到一个d维的空间中：

a_j,t_j,v_j＝transform(u_j)

其中，transform表示线性投影变换；

将各个模态的纯态进行融合：

式中，λ_a,λ_t,λ_v分别表示三种模态；

式中，更新函数f(·)是参数化的酉矩阵U_x,U_h和实值λ；U_x,U_h,

均是定义在希尔伯特空间的酉矩阵且满足UU^H＝I²,

I为单位矩阵，t为虚拟时间变量，ρ_t为t时刻的密度矩阵，

表示t-1时刻的隐态密度矩阵。

所述密度矩阵通过

其中|φ_j><φ_j|表示基态。

所述QRNN网络模型的输出为整个序列的d维状态

即三种模态的融合特征矩阵；

e_i＝argmax(σ)_k

式中，x为上一个神经节点输出，

在本发明实例中，启发式搜索过程中，为了在整个训练过程中满足酉约束，采用黎曼方法来更新酉矩阵：

式中，G是梯度，lr是学习率，I为单位矩阵，L为代价损失，X为状态矩阵。

5)模型训练：使用自编码训练与多任务训练的方式对图像、音频、文本特征的提取模型进行训练，利用步骤3)提取的图像、音频、文本特征对多模态量子启发神经网络模型进行训练；具体步骤为：

5-1)使用自编码训练与多任务训练的方式对图像、音频、文本特征的提取模型进行训练，将特征提取网络视为Encoder,并参考Encoder的结构建立辅助训练Decoder：

使用Adam优化算法对三种模态的特征提取网络进行训练；

使用多任务训练的方式对特征提取网络进行训练，在特征提取网络增加任务适配层，所述分类任务的最后一层为分类器层，输出表示为p(y|x)＝softmax(f)，f表示输出层特征，维度等于分类类别数。

5-2)利用静态特征

6)辅助标注：将训练好的三种模态数据的特征提取网络模型以及多模态量子启发深度网络模型加载到仪器仪表智能运维平台后端，将仪器仪表多模态故障数据传入API，经过模型推理，返回标注集合，实现辅助标注，具体步骤为：

6-2)检查输入的仪器仪表多模态故障数据是否符合格式要求：

{'image':[img1,img2,…],'voice':[v1,v2,…],'text':[t1,t2,…]}，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。