CN115393678A - 一种基于图像式中间态的多模态数据融合决策方法 - Google Patents

一种基于图像式中间态的多模态数据融合决策方法 Download PDF

Info

Publication number
CN115393678A
CN115393678A CN202210913815.3A CN202210913815A CN115393678A CN 115393678 A CN115393678 A CN 115393678A CN 202210913815 A CN202210913815 A CN 202210913815A CN 115393678 A CN115393678 A CN 115393678A
Authority
CN
China
Prior art keywords
data
image
decision
modal
modal data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210913815.3A
Other languages
English (en)
Other versions
CN115393678B (zh
Inventor
杨晨
王颍超
兰舒琳
祝烈煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
University of Chinese Academy of Sciences
Original Assignee
Beijing Institute of Technology BIT
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT, University of Chinese Academy of Sciences filed Critical Beijing Institute of Technology BIT
Priority to CN202210913815.3A priority Critical patent/CN115393678B/zh
Publication of CN115393678A publication Critical patent/CN115393678A/zh
Application granted granted Critical
Publication of CN115393678B publication Critical patent/CN115393678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明公开了一种基于图像式中间态的多模态数据融合决策方法,包括确定决策任务涉及的多模态数据;设计多模态数据统一转换为图像模态数据的方法;面向决策任务获取多模态样本数据,并统一为图像模态以构造训练集和测试集;基于训练集和测试集,训练融合注意力机制的多通道深度神经网络;采集用于决策的多模态数据,并统一转换为图像模态以构造决策数据集;将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策。本发明既避免了多特征提取模型导致的复杂网络设计和大量参数寻优问题,又可方便地、仅使用一个硬件加速设备来完成快速的神经网络计算;增强深度神经网络各通道提取特征的交互性和互补性;减少冗余特征的输入。

Description

一种基于图像式中间态的多模态数据融合决策方法
技术领域
本发明涉及一种多模态信息融合决策的实现方法。更具体地,本发明涉及适应于文本、信号、图像、视频等多模态信息融合决策的实现方法。
背景技术
以离散制造车间为例,多模态感知数据来自数控加工中心、传感器、执行器等,包括文本、信号、图像、视频等,蕴含了不同维度和视角的丰富信息,通过相互之间支持、补充、修正,即多模态信息融合,能提供更加全面准确的车间运行状态信息,以支持车间故障诊断、质量检测、寿命预测等业务需求。
对于多模态信息融合问题,因多模态数据具有完全不同的描述形式和复杂的耦合对应关系,无法直接进行数据级融合,通常可以采用“先提取单模态特征,后在特征级融合”的方法。在特征提取阶段,传统的特征工程方法需要领域的先验信息和专业知识才能设计出合适的特征表示方法,并且提取的特征多是浅层特征,针对复杂决策问题其泛化能力受到一定制约。基于深度学习的方法则可以实现特征的自动提取。但由于数据模态不同,需要针对性设计相应的神经网络模型,导致较为复杂的网络结构设计和大量参数寻优问题,且需要多个硬件加速器对神经网络推理进行加速,成本高。在特征融合阶段,常用方法包括加权、张量积等,虽然操作简单,但不能实现各模态特征的元素间灵活交互,且无法衡量各模态信息对目标任务的重要程度,造成冗余和噪声特征输入,导致目前在车间故障诊断、质量检测、寿命预测等决策业务上精确度不高。
针对上述问题,结合深度学习强大的特征提取特点,迫切需要一种简单、高效的多模态信息特征自适应提取与融合方法,以促进故障诊断、质量检测、寿命预测等任务精度的提高。
发明内容
本发明的目的在于提供一种基于图像式中间态的多模态数据融合决策方法,以通过多模态信息支持车间故障诊断、质量检测、寿命预测等决策任务。
一种基于图像式中间态的多模态数据融合决策方法,该方法包括以下步骤:
确定决策任务涉及的多模态数据;
设计多模态数据统一转换为图像模态数据的方法;
面向任务获取多模态样本数据,并统一为图像模态以构造训练集和测试集;
基于训练集和测试集,设计和训练融合注意力机制的多通道深度神经网络;
采集用于决策的多模态数据,并统一为图像模态以构造决策数据集;
将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策。
进一步地,确定决策任务涉及的多模态数据,包括:
面向决策任务需求,结合实际场景条件,综合考虑数据可获得性、可用性、可靠性,确定用于决策任务的多模态数据,可选的多模态数据包括日志/文档等文本数据、振动信号/声信号/电流信号等信号数据、RGB图像/RGB-D图像/红外图像等图像数据、视频数据等。
进一步地,设计多模态数据统一转换为图像模态数据的方法,包括:
对多模态数据进行预处理,包括:
可选的,对于文本数据,在一种可实现方式中,使用正则清洗文本数据,剔除脏数据和进行指定条件的数据筛选;
可选的,对于时域信号数据,在一种可实现方式中,利用小波分解进行降噪处理;
可选的,对于图像和视频数据,在一种可实现方式中,利用滤波器进行降噪处理。
将预处理后的多模态数据转换为图像模态数据,包括:
可选的,将预处理后的文本数据转换为图像模态数据,包括:
在一种可实现方式中,统计文本中词频数据,将文本数据转换为一维词频数据,并将一维词频数据转换为二维图像,包括:
对一维词频数据进行归一化处理:
Figure BDA0003774820330000021
其中,y0为词频数据,x0为归一化后的词频数据。
将归一化后的词频数据转化为灰度值,并进行数据取整:
x0′(i)=f{x0(i)}×255
其中,函数f是将归一化的离散数据进行取整。
设所需构造的灰度图像大小为m×m,(一般可取为16×16,32×32,64×64等);将x’0进行分段,每段长度为m×m,并将分段之后的数据排列为二维矩阵以转换为灰度图像。
可选的,将预处理后的一维信号数据转换为图像模态数据,包括:
在一种可实现方式中,对预处理后的时域信号数据经过傅里叶变换获取频域信号数据,并将所述时域信号数据与频域数据转换成灰度图像,包括:
分别对时域信号数据与频域信号数据进行归一化处理:
Figure BDA0003774820330000022
Figure BDA0003774820330000031
其中,y1为降噪处理后的时域信号,x1为归一化后的时域信号;y2为经傅立叶变换得到的频域信号,x2为归一化后的频域信号;
将归一化后的时域信号和频域信号数据转化为灰度值,并进行数据取整:
x1′(i)=f{x1(i)}×255
x2′(i)=f{x2(i)}×255
其中,函数f是将归一化的离散信号进行取整。
设所需构造的灰度图像大小为m×m,(一般可取为16×16,32×32,64×64等),并将灰度图像分为两个大小均为m×m/2的区域;
对归一化之后的信号x1′和x2′进行分段,每段信号长度为m×m/2;
设x11′和x21′分别为分段后的一组信号,则在第一个区域内,第一行填充x11′(1)~x11′(m),第二行填充x11′(m+1)~x11′(2m),并依此类推构造灰度图像的第一个区域;在第二个区域内,第一行填充x21′(1)~x21′(m),第二行填充x21′(m+1)~x21′(2m),并依此类推构造灰度图像的第二个区域。
在一种可实现方式中,将预处理后的一维信号数据转换为二维图像,进一步地,通过短时傅里叶变换或小波变换或S变换等时频分析方法,将预处理后的时域信号数据转换为二维时频图。
可选的,将预处理后的视频数据转换为图像模态数据,包括:
在一种可实现方式中,将预处理后的视频数据转换为图像模态数据,进一步地,对预处理后的视频数据进行关键帧提取;
在一种可实现方式中,将预处理后的视频数据转换为图像模态数据,进一步地,对预处理后的视频数据进行光流分析,获取二维光流场图。
进一步地,面向任务获取多模态样本数据,并统一为图像模态以构造训练集和测试集,包括:
在同一时间段内,面向同一对象或场景,采集决策任务涉及的多模态样本数据;
基于上述多模态数据统一转换为图像模态数据的方法,将采集的多模态样本数据统一为图像模态数据;
对统一之后的图像模态数据集进行标注,并将其划分为训练集和测试集。
进一步地,基于训练集和测试集,设计和训练融合注意力机制的多通道深度神经网络,包括:
设计融合注意力机制的多通道深度神经网络,注意力机制包括通道注意力机制和空间注意力机制,包括:
在一种可实现方式中,所述神经网络模型为融合注意力机制的多通道卷积神经网络;
其中,每层卷积层设置注意力模块,进一步地,设置注意力模块包括:
卷积,结合输入图像数据的特点选择合适的卷积核大小和数量进行卷积操作,进一步地,卷积通过特定的卷积核与输入层的特征图卷积再加上一个偏置,再通过一个激活函数来获得输出特征。卷积运算的计算公式如下:
Figure BDA0003774820330000041
其中,l为网络的层数;j为输出特征图的编号,
Figure BDA0003774820330000042
为第l层网络得到的第j张特征图;
Figure BDA0003774820330000043
为在第l层中与第i个特征图相关的第j个卷积核;
Figure BDA0003774820330000044
为第j个卷积核的偏置;f为激活函数。
计算注意力权重
Figure BDA0003774820330000045
进一步地,计算注意力权重包括:
计算
Figure BDA0003774820330000046
为第j个特征图的通道注意力权重,其计算公式如下:
Figure BDA0003774820330000047
其中,
Figure BDA0003774820330000048
为第l层网络得到的第j张特征图;globalave(·)表示全局平均池化函数;globalmax(·)表示全局最大池化函数;σ(·)为sigmoid函数,将结果映射到(0,1)以获得标准的通道注意力权重;W1和W0为该神经网络中的参数,可以通过前向传播和后向反馈进行自主学习。
计算
Figure BDA0003774820330000049
为第j个特征图的空间注意力权重,其计算公式如下:
Figure BDA00037748203300000410
其中,
Figure BDA00037748203300000411
为第l层网络得到的第j张特征图;
Figure BDA00037748203300000412
表示逐元素相乘;avg(·)表示平均池化函数,沿着通道轴对特征点求平均值;max(·)表示最大池化函数,沿着通道轴对特征点求最大值;[·]表示拼接操作;f7×7(·)为卷积运算,通过卷积计算获取特征图不同局部区域对关键信息的影响力。卷积核大小为7×7,作为该神经网络中参数的一部分,可以通过前向传播和后向反馈进行自主学习;σ(·)为sigmoid函数,将结果映射到(0,1)以获得标准的空间注意力权重。
计算注意力特征图,进一步地,计算注意力特征图的公式如下:
Figure BDA0003774820330000051
其中,
Figure BDA0003774820330000052
为注意力特征图,
Figure BDA0003774820330000053
表示逐元素相乘。
基于训练集和测试集,对融合注意力机制的多通道深度神经网络进行训练和调整,包括:
在一种可实现方式中,使用Dropout正则化来提高模型泛化能力,采用交叉熵函数作为损失函数,采用小批量梯度下降法来优化参数,注意力权重计算模块参数的学习率按指数衰减调整学习率。
进一步地,采集用于决策的多模态数据,并统一为图像模态以构造决策数据集,包括:
在同一时间段内,面向同一对象或场景,采集待决策的多模态数据;
基于上述多模态数据统一转换为图像模态数据的方法,将采集的多模态数据统一为图像模态数据,组成决策数据集。
进一步地,将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策,包括:
将统一为图像模态的决策数据集输入已训练好的融合注意力机制的多通道深度神经网络进行特征自适应提取与决策,输出决策结果。
本申请提供的多模态信息融合方法,采用统一的神经网络模型进行特征提取与融合,避免了多个特征提取模型导致的较为复杂的网络结构设计和大量参数寻优问题;设计通道注意力机制,增强深度神经网络各通道提取特征的交互性和互补性;设计空间注意力机制,突出图像关键区域对特征信息的贡献,减少冗余特征的输入。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本申请实施例提供的基于跨模态转换和深度卷积神经网络的多模态信息融合方法的流程示意图。
图2时域信号数据与频域信号数据转换成灰度图像过程图。
图3时域信号数据与频域信号数据转换成灰度图像效果图。
图4本发明方法提供的一种融合注意力机制的深度卷积神经网络示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
为使本申请的目的、技术方案以及优点更加清楚,下面将参照附图并结合实施例——面向刀具故障诊断的多模态信息融合决策,对本发明进行具体说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本申请实施例提供的基于跨模态转换和深度神经网络的多模态信息融合实现方法示意图。本申请提供的方法包括以下步骤:
步骤S1,确定决策任务涉及的多模态数据
在本申请实施例中,决策任务涉及的多模态数据为文本数据、图像数据和视频数据。
具体的,在本申请实施例中,文本数据为刀具运转时的产生的机床日志数据;信号数据为刀具运转时的径向时域振动数据;图像数据为刀具运转时的红外图像;视频数据为刀具运转的视频图像。
步骤S2,设计多模态数据统一转换为图像模态数据的方法
对所述文本、信号、图像以及视频等数据进行预处理。
具体的,对所述文本数据,在本申请实施例中,使用正则清洗文本数据,剔除脏数据和进行指定条件的数据筛选;对所述时域信号数据,在本申请实施例中,利用小波分解进行降噪处理;对所述图像和视频数据,在本申请实施例中,利用滤波器进行降噪处理。
将预处理后的文本、信号、视频等数据转换为图像模态数据。
将预处理后的文本数据转换为二维图像,在本申请实施例中,统计文本中词频数据,将文本数据转换一维词频数据,并将一维词频数据转换为二维图像。
具体的,对一维词频数据进行归一化处理:
Figure BDA0003774820330000061
其中,y0为词频数据,x0为归一化后的词频数据。
将归一化后的词频数据转化为灰度值,并进行数据取整:
x0′(i)=f{x0(i)}×255
其中,函数f是将归一化的离散数据进行取整。
设所需构造的灰度图像大小为m×m,(一般可取为16×16,32×32,64×64等);将x0′进行分段,每段长度为m×m,并将分段之后的数据排列为二维矩阵以转换为灰度图像。
将预处理后的信号数据转换为二维图像。
具体的,在本申请实施例中,将预处理后的一维时域数据转换为二维图像:对预处理后的时域振动数据经过傅里叶变换,将时间坐标转化为频率坐标,得到频域数据;将时域信号数据与频域信号数据以二维排列的方式转换成灰度图像,过程如图2所示,效果如图3所示。分别对时域信号数据与频域信号数据进行归一化处理:
Figure BDA0003774820330000071
Figure BDA0003774820330000072
其中,y1为降噪处理后的时域信号,x1为归一化后的时域信号;y2为经傅立叶变换得到的频域信号,x2为归一化后的频域信号。
将归一化后的时域信号和频域信号数据转化为灰度值,并进行数据取整:
x1′(i)=f{x1(i)}×255
x2′(i)=f{x2(i)}×255
其中,函数f是将归一化的离散信号进行取整。
根据所需构造的图像大小进行信号截取与矩阵变换,获得信号灰度图像。本申请实施例中,所需构造的灰度图像大小为128×128,将灰度图像分为两个大小均为128×128/2的区域;
对信号x1′和x2′进行分段,每段信号长度为128×128/2;
设x11′和x21′分别为分段后的一组信号,则在第一个区域内,第一行填充x11′(1)~x11′(128),第二行填充x11′(129)~x11′(256),并依此类推构造灰度图像的第一个区域;在第二个区域内,第一行填充x21′(1)~x21′(128),第二行填充x21′(129)~x21′(256),并依此类推构造灰度图像的第二个区域。
将预处理后的视频数据转换为图像。
具体的,在本申请实施例中,将视频数据转换为图像:对应所述信号采样时间,随机抽取关键帧。
步骤S3,面向任务获取多模态样本数据,并统一为图像模态以构造训练集和测试集
面向同一刀具对象,获取用于决策任务的文本样本数据。
具体的,在本申请实施例中,获取刀具运转时的产生的机床日志数据;
面向同一刀具对象,获取用于决策任务的信号样本数据。在本申请实施例中,信号数据为刀具运转时的径向时域振动数据。
具体的,通过加速度传感器采集刀具的振动数据,得到刀具的时域振动数据。加速传感器每隔10秒采样一次时域振动数据,每次采样时间为0.1秒,采样频率为25.6千赫兹。
面向同一刀具对象,获取用于决策任务的图像样本数据。在本申请实施例中,图像数据为刀具运转时的红外图像。
具体的,通过红外热像仪采集刀具红外图像,图像大小为240×180。
面向同一刀具对象,获取用于决策任务的视频样本数据。在本申请实施例中,视频数据为刀具运转的视频图像。
具体的,通过高速工业摄像机采集刀具运转的视频图像,高速工业摄像机帧数为8000帧/每秒,图像大小为640×256。
根据步骤S2,将采集的文本、信号、视频等样本数据转换为图像模态数据。
对统一之后的图像模态数据集进行标注,并将其划分为训练集和测试集。
具体的,在本申请实施例中,采用多通道图像输入的方法,将同一刀具故障诊断样本的灰度图像(时频图)、红外图像与视频图像转化为多通道(N)原始输入,尺寸为128×128×N,并采用人工数据标注的形式构造训练集和测试集。
步骤S4,基于训练集和测试集,设计和训练融合注意力机制的多通道深度神经网络
设计融合注意力机制的多通道深度神经网络,本申请实施例中,所述神经网络包括13个卷积层,其中每层卷积层设置注意力模块,如图4所示。
具体的,在本申请实施例中,卷积层用于提取图像特征,注意力机制用于增强特征维度关联性。其中,通道注意力体现了经过卷积后的特征图的每个特征图对于关键信息的贡献大小。
Figure BDA0003774820330000081
为第j个特征图的通道注意力权重,其计算公式如下:
Figure BDA0003774820330000082
其中,
Figure BDA0003774820330000083
为第l层网络得到的第j张特征图;globalave(·)表示全局平均池化函数;globalmax(·)表示全局最大池化函数;σ(·)为sigmoid函数,将结果映射到(0,1)以获得标准的通道注意力权重;W1和W0为该神经网络中的参数,可以通过前向传播和后向反馈进行自主学习。
空间注意力权重体现了图片局部区域对关键信息的贡献大小,能够找出图片信息中需要被关注的区域。
Figure BDA0003774820330000084
为第j个特征图的空间注意力权重,其计算公式如下:
Figure BDA0003774820330000085
其中,
Figure BDA0003774820330000086
为第l层网络得到的第j张特征图;
Figure BDA0003774820330000087
表示逐元素相乘;avg(·)表示平均池化函数,沿着通道轴对特征点求平均值;max(·)表示最大池化函数,沿着通道轴对特征点求最大值;[·]表示拼接操作;f7×7(·)为卷积运算,通过卷积计算获取特征图不同局部区域对关键信息的影响力。卷积核大小为7×7,作为该神经网络中参数的一部分,可以通过前向传播和后向反馈进行自主学习;σ(·)为sigmoid函数,将结果映射到(0,1)以获得标准的空间注意力权重。
计算注意力特征图。
Figure BDA0003774820330000091
其中,
Figure BDA0003774820330000092
为注意力特征图,
Figure BDA0003774820330000093
表示逐元素相乘。
在本申请实施例中,神经网络最后一层为全连接层,并利用sigmoid激活函数对神经网络的输出进行归一化。
sigmoid激活函数公式如下:
Figure BDA0003774820330000094
其中,x是神经元输入,e是自然常数。
基于训练集和测试集,训练和调整所述神经网络模型。
具体的,在本申请实施例中,使用Dropout正则化来提高模型泛化能力;采用交叉熵函数作为损失函数;采用小批量梯度下降法来优化参数,其动量设置为0.9;注意力权重计算模块参数的学习率设置为0.01;学习率按指数衰减调整,学习率调整倍数的底设置为0.95。
步骤S5,采集用于决策的多模态数据,并统一为图像模态以构造决策数据集
面向同一刀具对象,获取用于决策任务的文本数据。
具体的,在本申请实施例中,获取刀具运转时的产生的机床日志数据;
面向同一刀具对象,获取用于决策任务的信号数据。在本申请实施例中,信号数据为刀具运转时的径向时域振动数据。
具体的,通过加速度传感器采集刀具的振动数据,得到刀具的时域振动数据。加速传感器每隔10秒采样一次时域振动数据,每次采样时间为0.1秒,采样频率为25.6千赫兹。
面向同一刀具对象,获取用于决策任务的图像数据。在本申请实施例中,图像数据为刀具运转时的红外图像。
具体的,通过红外热像仪采集刀具红外图像,图像大小为240×180。
面向同一刀具对象,获取用于决策任务的视频数据。在本申请实施例中,视频数据为刀具运转的视频图像。
具体的,通过高速工业摄像机采集刀具运转的视频图像,高速工业摄像机帧数为8000帧/每秒,图像大小为640×256。
根据步骤S2,将采集的文本、信号、视频等数据转换为图像模态数据以组成决策数据集。
步骤S6,将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策
采用多通道图像输入的方法,将同一刀具故障诊断的灰度图像、红外图像与关键帧图像转化为多通道(N)原始输入,并输入已训练好的融合注意力机制的多通道深度神经网络进行特征自适应提取与决策,输出决策结果。
本申请提供的多模态信息融合方法,采用统一的神经网络模型进行特征提取与融合,避免了多个特征提取模型导致的较为复杂的网络结构设计和大量参数寻优问题;设计通道注意力机制,增强深度神经网络各通道提取特征的交互性和互补性;设计空间注意力机制,突出图像关键区域对特征信息的贡献,减少冗余特征的输入。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例或者实施例的某些部分所述的方法。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (9)

1.一种基于图像式中间态的多模态数据融合决策方法,包括以下步骤:
确定决策任务涉及的多模态数据;
设计多模态数据统一转换为图像模态数据的方法;
面向任务获取多模态样本数据,并统一为图像模态以构造训练集和测试集;
基于训练集和测试集,设计和训练融合注意力机制的多通道深度神经网络;
采集用于决策的多模态数据,并统一为图像模态以构造决策数据集;
将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策。
2.根据权利要求1所述方法,其特征在于,确定决策任务涉及的多模态数据,包括:
面向决策任务需求,结合实际场景条件,综合考虑数据可获得性、可用性、可靠性,确定用于决策任务的多模态数据,可选的多模态数据包括日志/文档等文本数据、振动信号/声信号/电流信号等信号数据、RGB图像/RGB-D图像/红外图像等图像数据、视频数据等。
3.根据权利要求1所述方法,其特征在于,设计多模态数据统一转换为图像模态数据的方法,包括:
对多模态数据进行预处理;
将预处理后的多模态数据转换为图像模态数据。
4.根据权利要求3所述方法,其特征在于,对多模态数据进行预处理,包括:
可选的,对于文本数据,在一种可实现方式中,使用正则清洗文本数据,剔除脏数据和进行指定条件的数据筛选;
可选的,对于时域信号数据,在一种可实现方式中,利用小波分解进行降噪处理;
可选的,对于图像和视频数据,在一种可实现方式中,利用滤波器进行降噪处理。
5.根据权利要求3所述方法,其特征在于,将预处理后的多模态数据转换为图像模态数据,包括:
可选的,对于文本数据,在一种可实现方式中,统计文本中词频数据,将文本数据转换为一维词频数据,并将一维词频数据归一化为灰度值,排列为二维矩阵以转换为灰度图像;
可选的,对于信号数据,在一种可实现方式中,通过傅里叶变换从预处理后的时域信号数据中获取频域信息,将所述时域信号数据与频域数据归一化为灰度值,并排列为二维矩阵以转换成灰度图像;在一种可实现方式中,通过短时傅里叶变换或小波变换或S变换等时频分析方法,将预处理后的时域信号数据转换为二维时频图;
可选的,对于视频数据,在一种可实现方式中,从预处理后的视频数据中提取关键帧;在一种可实现方式中,从预处理后的视频数据中提取二维光流场图。
6.根据权利要求1所述方法,其特征在于,面向任务获取多模态样本数据,并统一为图像模态以构造训练集和测试集,包括:
在同一时间段内,面向同一对象或场景,采集决策任务涉及的多模态样本数据;
基于上述多模态数据统一转换为图像模态数据的方法,将采集的多模态样本数据统一为图像模态数据;
对统一之后的图像模态数据集进行标注,并将其划分为训练集和测试集。
7.根据权利要求1所述方法,其特征在于,基于训练集和测试集,设计和训练融合注意力机制的多通道深度神经网络,包括:
设计融合注意力机制的多通道深度神经网络,注意力机制包括通道注意力机制和空间注意力机制;
基于训练集和测试集,对融合注意力机制的多通道深度神经网络进行训练和调整。
8.根据权利要求1所述方法,其特征在于,采集用于决策的多模态数据,并统一为图像模态以构造决策数据集,包括:
在同一时间段内,面向同一对象或场景,采集待决策的多模态数据;
基于上述多模态数据统一转换为图像模态数据的方法,将采集的多模态数据统一为图像模态数据,组成决策数据集。
9.根据权利要求1所述方法,其特征在于,将决策数据集输入多通道深度神经网络进行特征自适应提取与融合决策,包括:
将统一为图像模态的决策数据集输入已训练好的融合注意力机制的多通道深度神经网络进行特征自适应提取与决策,输出决策结果。
CN202210913815.3A 2022-08-01 2022-08-01 一种基于图像式中间态的多模态数据融合决策方法 Active CN115393678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210913815.3A CN115393678B (zh) 2022-08-01 2022-08-01 一种基于图像式中间态的多模态数据融合决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210913815.3A CN115393678B (zh) 2022-08-01 2022-08-01 一种基于图像式中间态的多模态数据融合决策方法

Publications (2)

Publication Number Publication Date
CN115393678A true CN115393678A (zh) 2022-11-25
CN115393678B CN115393678B (zh) 2024-04-02

Family

ID=84119492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210913815.3A Active CN115393678B (zh) 2022-08-01 2022-08-01 一种基于图像式中间态的多模态数据融合决策方法

Country Status (1)

Country Link
CN (1) CN115393678B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985464A (zh) * 2023-03-17 2023-04-18 山东大学齐鲁医院 一种基于多模态数据融合的肌肉疲劳度分类方法及系统
CN117218453A (zh) * 2023-11-06 2023-12-12 中国科学院大学 一种不完备多模态医学影像学习方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328643A1 (en) * 2015-05-07 2016-11-10 Siemens Aktiengesellschaft Method and System for Approximating Deep Neural Networks for Anatomical Object Detection
CN109492668A (zh) * 2018-10-10 2019-03-19 华中科技大学 基于多通道卷积神经网络的mri不同期多模图像表征方法
CN110085327A (zh) * 2019-04-01 2019-08-02 东莞理工学院 基于注意力机制的多通道lstm神经网络流感疫情预测方法
CN110321946A (zh) * 2019-06-27 2019-10-11 郑州大学第一附属医院 一种基于深度学习的多模态医学影像识别方法及装置
US20200134380A1 (en) * 2018-10-30 2020-04-30 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Method for Updating Neural Network and Electronic Device
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112597495A (zh) * 2020-12-22 2021-04-02 山东省计算中心(国家超级计算济南中心) 一种恶意代码检测方法、系统、设备及存储介质
CN112862830A (zh) * 2021-01-28 2021-05-28 陕西师范大学 一种多模态图像分割方法、系统、终端及可读存储介质
CN113180605A (zh) * 2021-04-28 2021-07-30 中国科学院空天信息创新研究院 基于机器学习的颅内多模态信息融合的脑部疾病判断系统
US20210382120A1 (en) * 2020-06-08 2021-12-09 Wuhan University Failure diagnosis method for power transformer winding based on gsmallat-nin-cnn network
CN113806564A (zh) * 2021-09-22 2021-12-17 齐鲁工业大学 多模态信息性推文检测方法及系统
CN114297927A (zh) * 2021-12-28 2022-04-08 中国科学院自动化研究所 基于数据驱动的工业装备数字孪生构建维护方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328643A1 (en) * 2015-05-07 2016-11-10 Siemens Aktiengesellschaft Method and System for Approximating Deep Neural Networks for Anatomical Object Detection
CN109492668A (zh) * 2018-10-10 2019-03-19 华中科技大学 基于多通道卷积神经网络的mri不同期多模图像表征方法
US20200134380A1 (en) * 2018-10-30 2020-04-30 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Method for Updating Neural Network and Electronic Device
CN110085327A (zh) * 2019-04-01 2019-08-02 东莞理工学院 基于注意力机制的多通道lstm神经网络流感疫情预测方法
CN110321946A (zh) * 2019-06-27 2019-10-11 郑州大学第一附属医院 一种基于深度学习的多模态医学影像识别方法及装置
US20210382120A1 (en) * 2020-06-08 2021-12-09 Wuhan University Failure diagnosis method for power transformer winding based on gsmallat-nin-cnn network
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112597495A (zh) * 2020-12-22 2021-04-02 山东省计算中心(国家超级计算济南中心) 一种恶意代码检测方法、系统、设备及存储介质
CN112862830A (zh) * 2021-01-28 2021-05-28 陕西师范大学 一种多模态图像分割方法、系统、终端及可读存储介质
CN113180605A (zh) * 2021-04-28 2021-07-30 中国科学院空天信息创新研究院 基于机器学习的颅内多模态信息融合的脑部疾病判断系统
CN113806564A (zh) * 2021-09-22 2021-12-17 齐鲁工业大学 多模态信息性推文检测方法及系统
CN114297927A (zh) * 2021-12-28 2022-04-08 中国科学院自动化研究所 基于数据驱动的工业装备数字孪生构建维护方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方水平;: "利用无线视频监控实现实训室开放性管理", 北京工业职业技术学院学报, no. 02 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985464A (zh) * 2023-03-17 2023-04-18 山东大学齐鲁医院 一种基于多模态数据融合的肌肉疲劳度分类方法及系统
CN115985464B (zh) * 2023-03-17 2023-07-25 山东大学齐鲁医院 一种基于多模态数据融合的肌肉疲劳度分类方法及系统
CN117218453A (zh) * 2023-11-06 2023-12-12 中国科学院大学 一种不完备多模态医学影像学习方法
CN117218453B (zh) * 2023-11-06 2024-01-16 中国科学院大学 一种不完备多模态医学影像学习方法

Also Published As

Publication number Publication date
CN115393678B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN115393678B (zh) 一种基于图像式中间态的多模态数据融合决策方法
US20190286990A1 (en) Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
CN108197652B (zh) 用于生成信息的方法和装置
CN110490239B (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
JP2017107569A (ja) 製品関連情報を送信する方法、プログラム、及びサーバ装置。
CN111368980B (zh) 状态检测方法、装置、设备及存储介质
JP6766839B2 (ja) 検査システム、画像識別システム、識別システム、識別器生成システム、及び学習データ生成装置
CN112132959A (zh) 数字岩心图像处理方法、装置、计算机设备及存储介质
CN110879982A (zh) 一种人群计数系统及方法
CN113947336A (zh) 评估投标企业风险的方法、装置、存储介质及计算机设备
EP3564857A1 (en) Pattern recognition method of autoantibody immunofluorescence image
CN113743607A (zh) 异常检测模型的训练方法、异常检测方法及装置
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
CN111477328B (zh) 一种非接触式的心理状态预测方法
CN111477329B (zh) 一种基于图文结合评估心理状态的方法
CN112036923A (zh) 一种服务评价方法、系统、装置及存储介质
JP2022145822A (ja) 映像処理装置、映像処理方法およびプログラム
Peng et al. Document image OCR accuracy prediction via latent Dirichlet allocation
US20220015659A1 (en) Processing time-frequency representations of eeg data using neural networks
US20220015657A1 (en) Processing eeg data with twin neural networks
CN117216522A (zh) 一种基于机器学习的轴承故障类别诊断方法、装置及设备
CN116864128A (zh) 基于身体活动行为模式监测的心理状态评估系统及其方法
CN116091893A (zh) 一种基于U-net网络的地震图像反褶积方法及系统
CN114052675B (zh) 一种基于融合注意力机制的脉搏异常判别方法及系统
CN116129182A (zh) 一种基于知识蒸馏和近邻分类的多维度医疗图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant