CN115393678A

CN115393678A - 一种基于图像式中间态的多模态数据融合决策方法

Info

Publication number: CN115393678A
Application number: CN202210913815.3A
Authority: CN
Inventors: 杨晨; 王颍超; 兰舒琳; 祝烈煌
Original assignee: Beijing Institute of Technology BIT; University of Chinese Academy of Sciences
Current assignee: Beijing Institute of Technology BIT; University of Chinese Academy of Sciences
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-25
Anticipated expiration: 2042-08-01
Also published as: CN115393678B

Abstract

本发明公开了一种基于图像式中间态的多模态数据融合决策方法，包括确定决策任务涉及的多模态数据；设计多模态数据统一转换为图像模态数据的方法；面向决策任务获取多模态样本数据，并统一为图像模态以构造训练集和测试集；基于训练集和测试集，训练融合注意力机制的多通道深度神经网络；采集用于决策的多模态数据，并统一转换为图像模态以构造决策数据集；将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策。本发明既避免了多特征提取模型导致的复杂网络设计和大量参数寻优问题，又可方便地、仅使用一个硬件加速设备来完成快速的神经网络计算；增强深度神经网络各通道提取特征的交互性和互补性；减少冗余特征的输入。

Description

一种基于图像式中间态的多模态数据融合决策方法

技术领域

本发明涉及一种多模态信息融合决策的实现方法。更具体地，本发明涉及适应于文本、信号、图像、视频等多模态信息融合决策的实现方法。

背景技术

以离散制造车间为例，多模态感知数据来自数控加工中心、传感器、执行器等，包括文本、信号、图像、视频等，蕴含了不同维度和视角的丰富信息，通过相互之间支持、补充、修正，即多模态信息融合，能提供更加全面准确的车间运行状态信息，以支持车间故障诊断、质量检测、寿命预测等业务需求。

对于多模态信息融合问题，因多模态数据具有完全不同的描述形式和复杂的耦合对应关系，无法直接进行数据级融合，通常可以采用“先提取单模态特征，后在特征级融合”的方法。在特征提取阶段，传统的特征工程方法需要领域的先验信息和专业知识才能设计出合适的特征表示方法，并且提取的特征多是浅层特征，针对复杂决策问题其泛化能力受到一定制约。基于深度学习的方法则可以实现特征的自动提取。但由于数据模态不同，需要针对性设计相应的神经网络模型，导致较为复杂的网络结构设计和大量参数寻优问题，且需要多个硬件加速器对神经网络推理进行加速，成本高。在特征融合阶段，常用方法包括加权、张量积等，虽然操作简单，但不能实现各模态特征的元素间灵活交互，且无法衡量各模态信息对目标任务的重要程度，造成冗余和噪声特征输入，导致目前在车间故障诊断、质量检测、寿命预测等决策业务上精确度不高。

针对上述问题，结合深度学习强大的特征提取特点，迫切需要一种简单、高效的多模态信息特征自适应提取与融合方法，以促进故障诊断、质量检测、寿命预测等任务精度的提高。

发明内容

本发明的目的在于提供一种基于图像式中间态的多模态数据融合决策方法，以通过多模态信息支持车间故障诊断、质量检测、寿命预测等决策任务。

一种基于图像式中间态的多模态数据融合决策方法，该方法包括以下步骤：

确定决策任务涉及的多模态数据；

设计多模态数据统一转换为图像模态数据的方法；

面向任务获取多模态样本数据，并统一为图像模态以构造训练集和测试集；

基于训练集和测试集，设计和训练融合注意力机制的多通道深度神经网络；

采集用于决策的多模态数据，并统一为图像模态以构造决策数据集；

将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策。

进一步地，确定决策任务涉及的多模态数据，包括：

面向决策任务需求，结合实际场景条件，综合考虑数据可获得性、可用性、可靠性，确定用于决策任务的多模态数据，可选的多模态数据包括日志/文档等文本数据、振动信号/声信号/电流信号等信号数据、RGB图像/RGB-D图像/红外图像等图像数据、视频数据等。

进一步地，设计多模态数据统一转换为图像模态数据的方法，包括：

对多模态数据进行预处理，包括：

可选的，对于文本数据，在一种可实现方式中，使用正则清洗文本数据，剔除脏数据和进行指定条件的数据筛选；

可选的，对于时域信号数据，在一种可实现方式中，利用小波分解进行降噪处理；

可选的，对于图像和视频数据，在一种可实现方式中，利用滤波器进行降噪处理。

将预处理后的多模态数据转换为图像模态数据，包括：

可选的，将预处理后的文本数据转换为图像模态数据，包括：

在一种可实现方式中，统计文本中词频数据，将文本数据转换为一维词频数据，并将一维词频数据转换为二维图像，包括：

对一维词频数据进行归一化处理：

其中，y₀为词频数据，x₀为归一化后的词频数据。

将归一化后的词频数据转化为灰度值，并进行数据取整：

x₀′(i)＝f{x₀(i)}×255

其中，函数f是将归一化的离散数据进行取整。

设所需构造的灰度图像大小为m×m，(一般可取为16×16，32×32，64×64等)；将x’₀进行分段，每段长度为m×m，并将分段之后的数据排列为二维矩阵以转换为灰度图像。

可选的，将预处理后的一维信号数据转换为图像模态数据，包括：

在一种可实现方式中，对预处理后的时域信号数据经过傅里叶变换获取频域信号数据，并将所述时域信号数据与频域数据转换成灰度图像，包括：

分别对时域信号数据与频域信号数据进行归一化处理：

其中，y₁为降噪处理后的时域信号，x₁为归一化后的时域信号；y₂为经傅立叶变换得到的频域信号，x₂为归一化后的频域信号；

将归一化后的时域信号和频域信号数据转化为灰度值，并进行数据取整：

x₁′(i)＝f{x₁(i)}×255

x₂′(i)＝f{x₂(i)}×255

其中，函数f是将归一化的离散信号进行取整。

设所需构造的灰度图像大小为m×m，(一般可取为16×16，32×32，64×64等)，并将灰度图像分为两个大小均为m×m/2的区域；

对归一化之后的信号x₁′和x₂′进行分段，每段信号长度为m×m/2；

设x₁₁′和x₂₁′分别为分段后的一组信号，则在第一个区域内，第一行填充x₁₁′(1)～x₁₁′(m)，第二行填充x₁₁′(m+1)～x₁₁′(2m)，并依此类推构造灰度图像的第一个区域；在第二个区域内，第一行填充x₂₁′(1)～x₂₁′(m)，第二行填充x₂₁′(m+1)～x₂₁′(2m)，并依此类推构造灰度图像的第二个区域。

在一种可实现方式中，将预处理后的一维信号数据转换为二维图像，进一步地，通过短时傅里叶变换或小波变换或S变换等时频分析方法，将预处理后的时域信号数据转换为二维时频图。

可选的，将预处理后的视频数据转换为图像模态数据，包括：

在一种可实现方式中，将预处理后的视频数据转换为图像模态数据，进一步地，对预处理后的视频数据进行关键帧提取；

在一种可实现方式中，将预处理后的视频数据转换为图像模态数据，进一步地，对预处理后的视频数据进行光流分析，获取二维光流场图。

进一步地，面向任务获取多模态样本数据，并统一为图像模态以构造训练集和测试集，包括：

在同一时间段内，面向同一对象或场景，采集决策任务涉及的多模态样本数据；

基于上述多模态数据统一转换为图像模态数据的方法，将采集的多模态样本数据统一为图像模态数据；

对统一之后的图像模态数据集进行标注，并将其划分为训练集和测试集。

进一步地，基于训练集和测试集，设计和训练融合注意力机制的多通道深度神经网络，包括：

设计融合注意力机制的多通道深度神经网络，注意力机制包括通道注意力机制和空间注意力机制，包括：

在一种可实现方式中，所述神经网络模型为融合注意力机制的多通道卷积神经网络；

其中，每层卷积层设置注意力模块，进一步地，设置注意力模块包括：

卷积，结合输入图像数据的特点选择合适的卷积核大小和数量进行卷积操作，进一步地，卷积通过特定的卷积核与输入层的特征图卷积再加上一个偏置，再通过一个激活函数来获得输出特征。卷积运算的计算公式如下：

其中，l为网络的层数；j为输出特征图的编号，

为第l层网络得到的第j张特征图；

为在第l层中与第i个特征图相关的第j个卷积核；

为第j个卷积核的偏置；f为激活函数。

计算注意力权重

进一步地，计算注意力权重包括：

计算

为第j个特征图的通道注意力权重，其计算公式如下：

其中，

为第l层网络得到的第j张特征图；global_ave(·)表示全局平均池化函数；global_max(·)表示全局最大池化函数；σ(·)为sigmoid函数，将结果映射到(0，1)以获得标准的通道注意力权重；W₁和W₀为该神经网络中的参数，可以通过前向传播和后向反馈进行自主学习。

计算

为第j个特征图的空间注意力权重，其计算公式如下：

其中，

为第l层网络得到的第j张特征图；

表示逐元素相乘；avg(·)表示平均池化函数，沿着通道轴对特征点求平均值；max(·)表示最大池化函数，沿着通道轴对特征点求最大值；[·]表示拼接操作；f^7×7(·)为卷积运算，通过卷积计算获取特征图不同局部区域对关键信息的影响力。卷积核大小为7×7，作为该神经网络中参数的一部分，可以通过前向传播和后向反馈进行自主学习；σ(·)为sigmoid函数，将结果映射到(0，1)以获得标准的空间注意力权重。

计算注意力特征图，进一步地，计算注意力特征图的公式如下：

其中，

为注意力特征图，

表示逐元素相乘。

基于训练集和测试集，对融合注意力机制的多通道深度神经网络进行训练和调整，包括：

在一种可实现方式中，使用Dropout正则化来提高模型泛化能力，采用交叉熵函数作为损失函数，采用小批量梯度下降法来优化参数，注意力权重计算模块参数的学习率按指数衰减调整学习率。

进一步地，采集用于决策的多模态数据，并统一为图像模态以构造决策数据集，包括：

在同一时间段内，面向同一对象或场景，采集待决策的多模态数据；

基于上述多模态数据统一转换为图像模态数据的方法，将采集的多模态数据统一为图像模态数据，组成决策数据集。

进一步地，将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策，包括：

将统一为图像模态的决策数据集输入已训练好的融合注意力机制的多通道深度神经网络进行特征自适应提取与决策，输出决策结果。

本申请提供的多模态信息融合方法，采用统一的神经网络模型进行特征提取与融合，避免了多个特征提取模型导致的较为复杂的网络结构设计和大量参数寻优问题；设计通道注意力机制，增强深度神经网络各通道提取特征的交互性和互补性；设计空间注意力机制，突出图像关键区域对特征信息的贡献，减少冗余特征的输入。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本申请实施例提供的基于跨模态转换和深度卷积神经网络的多模态信息融合方法的流程示意图。

图2时域信号数据与频域信号数据转换成灰度图像过程图。

图3时域信号数据与频域信号数据转换成灰度图像效果图。

图4本发明方法提供的一种融合注意力机制的深度卷积神经网络示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

为使本申请的目的、技术方案以及优点更加清楚，下面将参照附图并结合实施例——面向刀具故障诊断的多模态信息融合决策，对本发明进行具体说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本申请实施例提供的基于跨模态转换和深度神经网络的多模态信息融合实现方法示意图。本申请提供的方法包括以下步骤：

步骤S1，确定决策任务涉及的多模态数据

在本申请实施例中，决策任务涉及的多模态数据为文本数据、图像数据和视频数据。

具体的，在本申请实施例中，文本数据为刀具运转时的产生的机床日志数据；信号数据为刀具运转时的径向时域振动数据；图像数据为刀具运转时的红外图像；视频数据为刀具运转的视频图像。

步骤S2，设计多模态数据统一转换为图像模态数据的方法

对所述文本、信号、图像以及视频等数据进行预处理。

具体的，对所述文本数据，在本申请实施例中，使用正则清洗文本数据，剔除脏数据和进行指定条件的数据筛选；对所述时域信号数据，在本申请实施例中，利用小波分解进行降噪处理；对所述图像和视频数据，在本申请实施例中，利用滤波器进行降噪处理。

将预处理后的文本、信号、视频等数据转换为图像模态数据。

将预处理后的文本数据转换为二维图像，在本申请实施例中，统计文本中词频数据，将文本数据转换一维词频数据，并将一维词频数据转换为二维图像。

具体的，对一维词频数据进行归一化处理：

其中，y₀为词频数据，x₀为归一化后的词频数据。

将归一化后的词频数据转化为灰度值，并进行数据取整：

x₀′(i)＝f{x₀(i)}×255

其中，函数f是将归一化的离散数据进行取整。

设所需构造的灰度图像大小为m×m，(一般可取为16×16，32×32，64×64等)；将x₀′进行分段，每段长度为m×m，并将分段之后的数据排列为二维矩阵以转换为灰度图像。

将预处理后的信号数据转换为二维图像。

具体的，在本申请实施例中，将预处理后的一维时域数据转换为二维图像：对预处理后的时域振动数据经过傅里叶变换，将时间坐标转化为频率坐标，得到频域数据；将时域信号数据与频域信号数据以二维排列的方式转换成灰度图像，过程如图2所示，效果如图3所示。分别对时域信号数据与频域信号数据进行归一化处理：

其中，y₁为降噪处理后的时域信号，x₁为归一化后的时域信号；y₂为经傅立叶变换得到的频域信号，x₂为归一化后的频域信号。

x₁′(i)＝f{x₁(i)}×255

x₂′(i)＝f{x₂(i)}×255

其中，函数f是将归一化的离散信号进行取整。

根据所需构造的图像大小进行信号截取与矩阵变换，获得信号灰度图像。本申请实施例中，所需构造的灰度图像大小为128×128，将灰度图像分为两个大小均为128×128/2的区域；

对信号x₁′和x₂′进行分段，每段信号长度为128×128/2；

设x₁₁′和x₂₁′分别为分段后的一组信号，则在第一个区域内，第一行填充x₁₁′(1)～x₁₁′(128)，第二行填充x₁₁′(129)～x₁₁′(256)，并依此类推构造灰度图像的第一个区域；在第二个区域内，第一行填充x₂₁′(1)～x₂₁′(128)，第二行填充x₂₁′(129)～x₂₁′(256)，并依此类推构造灰度图像的第二个区域。

将预处理后的视频数据转换为图像。

具体的，在本申请实施例中，将视频数据转换为图像：对应所述信号采样时间，随机抽取关键帧。

步骤S3，面向任务获取多模态样本数据，并统一为图像模态以构造训练集和测试集

面向同一刀具对象，获取用于决策任务的文本样本数据。

具体的，在本申请实施例中，获取刀具运转时的产生的机床日志数据；

面向同一刀具对象，获取用于决策任务的信号样本数据。在本申请实施例中，信号数据为刀具运转时的径向时域振动数据。

具体的，通过加速度传感器采集刀具的振动数据，得到刀具的时域振动数据。加速传感器每隔10秒采样一次时域振动数据，每次采样时间为0.1秒，采样频率为25.6千赫兹。

面向同一刀具对象，获取用于决策任务的图像样本数据。在本申请实施例中，图像数据为刀具运转时的红外图像。

具体的，通过红外热像仪采集刀具红外图像，图像大小为240×180。

面向同一刀具对象，获取用于决策任务的视频样本数据。在本申请实施例中，视频数据为刀具运转的视频图像。

具体的，通过高速工业摄像机采集刀具运转的视频图像，高速工业摄像机帧数为8000帧/每秒，图像大小为640×256。

根据步骤S2，将采集的文本、信号、视频等样本数据转换为图像模态数据。

具体的，在本申请实施例中，采用多通道图像输入的方法，将同一刀具故障诊断样本的灰度图像(时频图)、红外图像与视频图像转化为多通道(N)原始输入，尺寸为128×128×N，并采用人工数据标注的形式构造训练集和测试集。

步骤S4，基于训练集和测试集，设计和训练融合注意力机制的多通道深度神经网络

设计融合注意力机制的多通道深度神经网络，本申请实施例中，所述神经网络包括13个卷积层，其中每层卷积层设置注意力模块，如图4所示。

具体的，在本申请实施例中，卷积层用于提取图像特征，注意力机制用于增强特征维度关联性。其中，通道注意力体现了经过卷积后的特征图的每个特征图对于关键信息的贡献大小。

为第j个特征图的通道注意力权重，其计算公式如下：

其中，

空间注意力权重体现了图片局部区域对关键信息的贡献大小，能够找出图片信息中需要被关注的区域。

为第j个特征图的空间注意力权重，其计算公式如下：

其中，

为第l层网络得到的第j张特征图；

计算注意力特征图。

其中，

为注意力特征图，

表示逐元素相乘。

在本申请实施例中，神经网络最后一层为全连接层，并利用sigmoid激活函数对神经网络的输出进行归一化。

sigmoid激活函数公式如下：

其中，x是神经元输入，e是自然常数。

基于训练集和测试集，训练和调整所述神经网络模型。

具体的，在本申请实施例中，使用Dropout正则化来提高模型泛化能力；采用交叉熵函数作为损失函数；采用小批量梯度下降法来优化参数，其动量设置为0.9；注意力权重计算模块参数的学习率设置为0.01；学习率按指数衰减调整，学习率调整倍数的底设置为0.95。

步骤S5，采集用于决策的多模态数据，并统一为图像模态以构造决策数据集

面向同一刀具对象，获取用于决策任务的文本数据。

面向同一刀具对象，获取用于决策任务的信号数据。在本申请实施例中，信号数据为刀具运转时的径向时域振动数据。

面向同一刀具对象，获取用于决策任务的图像数据。在本申请实施例中，图像数据为刀具运转时的红外图像。

面向同一刀具对象，获取用于决策任务的视频数据。在本申请实施例中，视频数据为刀具运转的视频图像。

根据步骤S2，将采集的文本、信号、视频等数据转换为图像模态数据以组成决策数据集。

步骤S6，将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策

采用多通道图像输入的方法，将同一刀具故障诊断的灰度图像、红外图像与关键帧图像转化为多通道(N)原始输入，并输入已训练好的融合注意力机制的多通道深度神经网络进行特征自适应提取与决策，输出决策结果。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例或者实施例的某些部分所述的方法。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种基于图像式中间态的多模态数据融合决策方法，包括以下步骤：

确定决策任务涉及的多模态数据；

设计多模态数据统一转换为图像模态数据的方法；

2.根据权利要求1所述方法，其特征在于，确定决策任务涉及的多模态数据，包括：

3.根据权利要求1所述方法，其特征在于，设计多模态数据统一转换为图像模态数据的方法，包括：

对多模态数据进行预处理；

将预处理后的多模态数据转换为图像模态数据。

4.根据权利要求3所述方法，其特征在于，对多模态数据进行预处理，包括：

5.根据权利要求3所述方法，其特征在于，将预处理后的多模态数据转换为图像模态数据，包括：

可选的，对于文本数据，在一种可实现方式中，统计文本中词频数据，将文本数据转换为一维词频数据，并将一维词频数据归一化为灰度值，排列为二维矩阵以转换为灰度图像；

可选的，对于信号数据，在一种可实现方式中，通过傅里叶变换从预处理后的时域信号数据中获取频域信息，将所述时域信号数据与频域数据归一化为灰度值，并排列为二维矩阵以转换成灰度图像；在一种可实现方式中，通过短时傅里叶变换或小波变换或S变换等时频分析方法，将预处理后的时域信号数据转换为二维时频图；

可选的，对于视频数据，在一种可实现方式中，从预处理后的视频数据中提取关键帧；在一种可实现方式中，从预处理后的视频数据中提取二维光流场图。

6.根据权利要求1所述方法，其特征在于，面向任务获取多模态样本数据，并统一为图像模态以构造训练集和测试集，包括：

7.根据权利要求1所述方法，其特征在于，基于训练集和测试集，设计和训练融合注意力机制的多通道深度神经网络，包括：

设计融合注意力机制的多通道深度神经网络，注意力机制包括通道注意力机制和空间注意力机制；

基于训练集和测试集，对融合注意力机制的多通道深度神经网络进行训练和调整。

8.根据权利要求1所述方法，其特征在于，采集用于决策的多模态数据，并统一为图像模态以构造决策数据集，包括：

9.根据权利要求1所述方法，其特征在于，将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策，包括：