CN112101462A

CN112101462A - 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法

Info

Publication number: CN112101462A
Application number: CN202010974747.2A
Authority: CN
Inventors: 王松; 胡燕祝; 徐小凤
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-18
Anticipated expiration: 2040-09-16
Also published as: CN112101462B

Abstract

本发明涉及基于BMFCC‑GBFB‑DNN的机电设备视听信息融合方法，是一种对对现代化机电设备运行过程中分布式视觉信息和听觉信息融合的方法，属于目标追踪与神经网络领域，其特征在于采用如下步骤：(1)提取MFCC特征，确定听觉信息的F比；(2)确定MFCC参数加权后的表达式；(3)MFCC参数进行主成分分析；(4)提取听觉信息的GBFB特征；(5)将卷积后结果分解为子块矩阵；(6)图像的可听化处理；(7)搭建DNN架构。本发明利用BMFCC及GBFB提取听觉信息特征，极大地提高了特征的代表性和噪声的鲁棒性。利用DNN神经网络对视听信息融合，一定程度上提高了内容的丰富性以及融合的实时性。这说明本算法在机电设备视听信息融合时，能达到很好的效果。

Description

一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法

技术领域

本发明涉及目标追踪与神经网络领域，主要是一种对现代化机电设备运行过程中分布式视觉信息和听觉信息融合的方法。

背景技术

目前，感知信息融合技术在目标追踪领域具有广泛的应用性，因此对机电设备视听信息融合的研究成为研究热点。现有的信息大多局限于图像或视频格式的视觉信息，听觉信息并没有被很好的利用起来。将两者信息融合起来，克服视觉和听觉信息独立存在的缺陷，获取全面的信息成为研究问题的关键。常见的将视觉信息可听化多是对空间域图像像素灰度以及像素位置进行映射，其映射结果的准确性及实时性随图像内容复杂度的影响。传统的视听信息融合通常采用决策级融合算法，因为提取特征过程中经过似然度计算和大量的人工处理，其结果并不能真实反映视听结果的特征。

作为现代众多领域研究的热点，视听信息融合已经达到了成熟的阶段，本设计在已存在的成功算法基础上，结合众多算法的优点，进行算法的改善。提出的听觉信息特征的提取，有很好的抗噪性，对噪声具有很好的鲁棒性。视听信息特征级融合将视听信号特征融合形成特征矢量，一定程度上提高了内容的丰富性以及融合的实时性。特征提取的代表性，图像可听化的准确性，视听信息融合的实时性，要求我们建立一种高效的算法，实现机电设备视听信息的提取及融合过程在稳定性的基础上提高效率，有效减少算法时间，为目标领域的应用提供精确有效的融合信息，促进现代经济的现代化发展，保障国防事业的安全。

发明内容

针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)提取MFCC特征，确定分布式光纤信号听觉信息的F比F(k)：

式中，F_between(k)为第k维分量均值的方差，F_within(k)为第k维分量的方差之和。

(2)确定MFCC参数加权后的表达式C(n)：

首先，根据F比图特点，假设加权系数表达式为：

c_i＝a+bsin(π·i/p)

式中，p为滤波器阶数，i＝0,1,…,p-1，a为加权系数的静态分量，b为加权系数的线性分量。根据经验细化a,b值，确定MFCC参数加权后的表达式C(n)：

式中，M代表滤波器阶数，m为对应的分布式光纤听觉信息的帧数，s(m)为对应于m帧的分布式光纤听觉信息。

(3)MFCC参数进行主成分分析：

对加权处理过的特征分量求差分，ΔWMFCC为特征分量一阶差分，Δ²WMFCC为特征分量二阶差分。将三者组成一组特定维数的MFCC参数。

对得到的参数进行PCA主成分分析，确定相关矩阵T：

式中，N是MFCC参数的维数，c_i是加权后的MFCC参数，C是M×N的矩阵，

是矩阵T的特征值及相应的特征向量，M是信号分帧后的帧数。在一定的阈值要求下，取大于阈值的前p个特征值所对应的特征向量，构成变换矩阵W。利用C·W^T将C映射到特征空间X中，其中，X＝[x₁,x₂,…,x_p]，为M×p的矩阵，选取新向量X中的p维特征向量。

(4)提取听觉信息的GBFB特征：

确定分布式光纤信号听觉信息声谱与Gabor滤波器进行卷积处理后的结果G_u,v(n,k)。利用mel滤波器将得到的结果进行滤波处理，得到

式中，n和k表示声谱的坐标点，u和v为Gabor滤波器的尺度与方向，MEL_l(n)表示mel滤波器组，L_t和H_t为mel滤波器最低和最高频率。

(5)将

分解为p×q个j×k大小的子块矩阵：

对上式中的每个子矩阵取最大值，得到U_u,v：

U_u,v＝[max((G_jk)_ij)]_p×q

将U_u,v向量化得到U_Q，利用PCA将U_Q映射到低维空间得到P(U_Q)：

P(U_Q)＝A^T(U_Q-μ)

式中，j为小块矩阵的行数，k为小块矩阵的列数，p为子矩阵一共的行数，q为子矩阵一共的列数，μ为U_Q的均值，维数为M×1,M＝p×q，A^T为低维的映射矩阵，维数为M×d，d为主成分个数，因此，最终得到d×1维的GBFB特征。

(6)图像的可听化处理：

选择图像的像素值和像素值所在的位置作为图像映射的特征，选择声音的振幅和频率作为声音的维度，则图像与声音的映射关系为：

式中，s_ij为图像第i行第j列的听觉信息模式，n为图像总像素列数，g_i,j为图像的像素值，f_j为第j列的像素点的频率，t决定了听觉信息的持续时间，其中，

(7)搭建DNN架构：

在训练过程中，损失函数使用均方误差MSE的值：

式中，y_i为参数估计值，y_i为参数真值，m为参数总个数。

本发明比现有技术具有的优点：

(1)本发明克服了传统视觉信息可听化的结果在图像复杂情况下，准确性不高，实时性较差的缺陷，传统的视听信息融合的结果并不能真实反映视听结果的特征的缺点。

(2)本发明利用BMFCC及GBFB提取听觉信息特征，极大地提高了特征的代表性和噪声的鲁棒性。利用DNN神经网络对视听信息融合，一定程度上提高了内容的丰富性以及融合的实时性。这说明本算法在机电设备视听信息融合时，能达到很好的效果。

附图说明

图1是建立基于BMFCC-GBFB-DNN的机电设备视听信息融合方法的步骤流程图；

图2是建立基于BMFCC-GBFB-DNN的机电设备视听信息融合方法的算法流程图；

图3是DNN神经网络模型；

图4是利用本发明对四组机电设备视听信息进行融合的结果；

具体实施方案

下面通过实施案例对本发明作进一步的详细说明。

本实施案例选用的数据集一共有800组，其中视觉信息400组，分布式听觉信息400组，视觉信息由自己拍摄200组，网上查找200组，分布式光纤信号听觉信息为收集的数据。随机从2组来源不同的视觉信息中各抽取75组作为测试集，分布式光纤信号听觉信息抽取150组作为测试集，每组剩下的信息作为训练集。最终，用作训练集共有500组样本，300组样本用作测试集。

本发明所提供的机电设备视听信息融合方法整体流程如图1所示，具体步骤如下：

(1)提取MFCC特征，确定分布式光纤信号听觉信息的F比F(k)：

(2)确定MFCC参数加权后的表达式C(n)：

首先，根据F比图特点，假设加权系数表达式为：

c_i＝0.5+0.5sin(π·i/p)

式中，p为滤波器阶数，i＝0,1,…,p-1，a为加权系数的静态分量，b为加权系数的线性分量。在本设计中，a＝b＝0.5，根据经验细化a,b值，确定MFCC参数加权后的表达式C(n)：

式中，M代表滤波器阶数，本设计中为16，m为对应的分布式光纤听觉信息的帧数，s(m)为对应于m帧的分布式光纤听觉信息。

(3)MFCC参数进行主成分分析：

对加权处理过的特征分量求差分，ΔWMFCC为特征分量一阶差分，Δ²WMFCC为特征分量二阶差分。将三者组成一组39维的MFCC参数。

对得到的参数进行PCA主成分分析，确定相关矩阵T：

式中，N是MFCC参数的维数，在本设计中为39，c_i是加权后的MFCC参数，C是M×N的矩阵，具体为16×39，

是矩阵T的特征值及相应的特征向量，M是信号分帧后的帧数。在一定的阈值要求下，取大于阈值的前30个特征值所对应的特征向量，构成变换矩阵W。利用C·W^T将C映射到特征空间X中，其中，X＝[x₁,x₂,…,x₃₀]为16×30大小的矩阵，选取新向量X中的30维特征向量。

(4)提取听觉信息的GBFB特征：

确定分布式光纤信号听觉信息声谱与q×y大小的方向与尺度大小的Gabor滤波器进行卷积处理，得到

式中，n和k表示声谱的坐标点，u和v为Gabor滤波器的尺度与方向，分别为4尺度和4方向，MEL_l(n)表示mel滤波器组，L_t和H_t为mel滤波器最低和最高频率。

(5)将

分解为16×16个8×8大小的子块矩阵：

对上式中的每个子矩阵取最大值，得到U_u,v：

U_u,v＝[max((G_8×8)_ij)]_16×16

P(U_Q)＝A^T(U_Q-μ)

式中，j为小块矩阵的行数，k为小块矩阵的列数，子矩阵有8行8列，μ为U_Q的均值，维数为M×1,M＝16×16，A^T为低维的映射矩阵，维数为16×16×81，主成分有81个，因此，最终得到81×1维的GBFB特征。

(6)图像的可听化处理：

式中，s_ij为图像第i行第j列的听觉信息模式，n为图像总像素列数，g_i,j为图像的像素值，f_j为第j列的像素点的频率，听觉信息的持续时间为8s，其中，

(7)搭建DNN架构：

在训练过程中，损失函数使用均方误差MSE的值：

式中，y_i为参数估计值，y_i为参数真值，m为参数总个数。

为了验证本发明对机电设备视听信息融合结果的准确性，对本发明进行了四组机电设备视听信息融合实验，实验结果如图4所示。由图4可知，本发明所建立的基于BMFCC-GBFB-DNN的机电设备视听信息融合方法准确率均保持在97％以上，能够在保证稳定性的基础上达到较高的准确率，融合效果良好。这表明本发明建立的基于BMFCC-GBFB-DNN的方法是有效的，为机电设备视听信息融合提供了更好的方法，具有一定的实用性。

Claims

1.本发明涉及一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法，其特征在于：提取MFCC特征，确定听觉信息的F比，确定MFCC参数加权后的表达式，MFCC参数进行主成分分析，提取听觉信息的GBFB特征，将卷积后结果分解为子块矩阵，图像的可听化处理，搭建DNN架构，具体包括以下七个步骤：

步骤一：提取MFCC特征，确定分布式光纤信号听觉信息的F比F(k)；