CN117809683A

CN117809683A - 一种基于注意力机制的单麦克风声学成像方法

Info

Publication number: CN117809683A
Application number: CN202410008879.8A
Authority: CN
Inventors: 李若尘; 魏文应; 胡焕强; 张世雄; 龙仕强; 张伟民
Original assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd
Current assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-02

Abstract

本发明提供了一种基于注意力机制的单麦克风声学成像方法，包括：S1.对声音信号进行预处理得到相应语谱图，对图像数据进行预处理；S2.将图像和语谱图进行提取特征，得到图像特征和声音特征；S3.将图像特征和声音特征映射到一个潜空间中；S4.得到声图注意力信号；S5.将声图注意力信号通过权重分配函数进行分配，之后与S4输出的声音及图像特征叠加，得到叠加后的图像特征和声音特征；S6.将叠加后的图像特征和声音特征通过权重共享的两个长短记忆网络中进行特征对齐、相加、成像，得到对应的声图。本方法通过声音引导的视觉注意力机制进行声源定位，有效地提升了声源地位即声学图像生成的准确性和鲁棒性，并极大地降低了硬件成本。

Description

一种基于注意力机制的单麦克风声学成像方法

技术领域

本发明涉及人工智能、声学成像、机器视觉、声音图像跨模态技术领域，特别地，涉及一种基于注意力机制的单麦克风声学成像方法。

背景技术

声学成像技术是一种通过麦克风阵列采集声音并确定生源位置，之后在使用相机采集到的图像上对应位置显示出声源及其强弱的一种方法。广泛应用在管道气密性检测(漏气检测)、电器线路板局部漏电检测、车辆噪声、振动与声振粗糙度标定与优化、低空无人机预警、爆炸定位等领域。注意力机制最早来自仿生学研究，是一种对人类视觉工作方式的模拟，主要模拟人眼视网膜如何关注重要的输入部分，以及如何分配有限的资源给重要的部分。这种模拟方式主要采用编码-解码神经网络实现。注意力机制主要分为两种——硬注意力机制(hard attention)以及软注意力机制(soft attention)。

传统的声学成像技术主要分为三类，一是基于可控波束形成(beamforming)的方法；二是基于高分辨率谱估计的方法；三是基于声达时延差(TDOA)的方法，目前市场上主流方法为可控波束形成方法。可控波束形成技术是将各麦克风阵元采集来的信号进行加权求和形成波束，通过搜索声源的可能位置来引导该波束，修改权值使得传声器阵列的输出声源位置的信号功率最大。高分辨率谱估计的方法包括了自回归模型、最小方差谱估计和矩阵特征值分解，所有这些方法都通过获取传声器阵列的信号来计算空间谱的相关矩阵。声达时间差(TDOA)的定位技术，使用特殊的声达传感器(原理类似TOF飞行时间相机)进行，先进行声达时间差估计，并从中获取传声器阵列中阵元间的声延迟；再利用获取的声达时间差，结合已知的传声器阵列的空间位置进一步定出声源的位置。

上述方法存在以下三个问题：一是可控波束形成方法往往依赖大型阵列麦克风，通常麦克风数达上百个，体积巨大，造价高昂。同时，大型阵列麦克风中的各个阵元灵敏度有差异，误报、虚假检测情况时有发生，精度鲁棒性不高；二是高分辨率谱估计方法依赖大量计算，其中涉及矩阵特征值分解、最小回归等，对算力要求极大，且当匹配较大阵列麦克风时，这种方法的运算量会进一步升高，非常容易导致定位不准确；三是声达时间差定位依赖高灵敏度的声达设备，成本较高，且声达在测量远距离物体时易受影响，大型设备的声源检测一般不具备近距离检测的条件，因此声达的使用场景有限。

声学成像技术的难点在于：一是受多路径传播和环境噪声干扰。声音在传播过程中会受到多路径传播的影响，导致声音信号在不同路径上反射、散射和衰减，从而使得声源的定位和声场重构变得复杂。此外，环境噪声也会对声音信号造成干扰，进一步降低成像的准确性。二是受限于麦克风阵列设计和布置情况。麦克风阵列的设计和布置对声学成像的效果具有重要影响。合理的麦克风阵列设计可以提高声源定位的准确性和分辨率，但如何选择合适的麦克风类型、数量、位置和方向是一个挑战性问题。三是难以做到高实时性和低系统复杂性。在某些应用场景中，要求声学成像系统具有实时性能。实时性要求对于数据采集、处理和算法运行速度都提出了较高的要求。此外，声学成像系统的复杂性也是一个挑战，需要考虑硬件设计、软件开发、系统集成等方面的问题。

解决上述问题的意义为：一是提高声学成像的准确性：传统的声学成像方法主要依赖于麦克风阵列采集的声音信号，但由于环境噪声、多路径传播等因素的干扰，准确地确定声源位置和强度是一项挑战。通过音视频跨模态学习，结合相机采集的图像信息，可以提供额外的视觉线索，帮助准确定位声源，并更准确地估计声源的强度。二是扩展声学成像的应用领域：传统的声学成像主要应用于声源定位和声场重构等领域。而音视频跨模态学习可以将声音和图像两种不同的传感器信息进行融合，为声学成像技术带来更多的应用可能性。例如，在智能会议系统中，结合麦克风阵列和摄像头，可以实现精确的语音定位和人脸识别，提供更好的会议体验。三是降低设备成本和复杂性：传统的声学成像系统通常需要专门的麦克风阵列和处理设备。而音视频跨模态学习可以利用已有的音频和视频设备，无需额外的硬件开销，降低了成本和设备复杂性。这使得声学成像技术更易于应用于各种场景，如智能手机、智能音箱等消费电子产品。

发明内容

本发明提供了一种基于注意力机制的单麦克风声学成像方法，是一种结合跨模态声音图像匹配和声音引导的图像注意力机制的声学图像生成方法，通过声音引导的视觉注意力机制进行声源定位，有效地提升了声源地位即声学图像生成的准确性和鲁棒性，并极大地降低了硬件成本。

本发明的技术方案如下：

本发明的基于注意力机制的单麦克风声学成像方法，包括以下步骤：S1.对声音信号进行预处理得到相应的语谱图，同时对图像数据进行预处理；S2.将步骤S1得到的图像和语谱图进行提取特征，得到图像特征和声音特征；S3.通过全连接层将步骤S2得到的图像特征和声音特征映射到一个潜空间中；S4.使用声音引导的注意力机制计算声图注意力值，同时将映射后的图像特征和声音特征分别通过激活函数进行激活，得到声图注意力信号；S5.将声图注意力信号通过权重分配函数进行分配，之后与S4输出的声音及图像特征叠加，得到叠加后的图像特征和声音特征；S6.将叠加后的图像特征和声音特征通过权重共享的两个长短记忆网络中进行特征对齐，之后相加，并使用特征可视化算法成像，得到对应的声图。

可选地，在上述基于注意力机制的单麦克风声学成像方法中，在步骤S1中，对图像和语谱图进行预处理增强数据，并通过快速傅里叶变换生成语谱图，再对语谱图进行对比度增强和锐化处理，抑制背景噪音。

可选地，在上述基于注意力机制的单麦克风声学成像方法中，在步骤S2中，图像使用残差网络ResNet50特征提取网络来提取特征，语谱图使用卷积神经网络模型VGG-M提取特征网络来提取特征，之后经由一个全连接层将特征映射到一个潜空间，输出图像特征和声音特征。

可选地，在上述基于注意力机制的单麦克风声学成像方法中，在步骤S4中，通过声音引导的注意力机制计算声图注意力值，采用双线性模型对输入信息进行“打分”，之后通过归一化指数函数求取对应的注意力分布，接着进行加权平均就得到声图注意力信号。

可选地，在上述基于注意力机制的单麦克风声学成像方法中，在步骤S6中，将步骤S5的输出送入两个权重共享的长短时记忆网络中进行特征对齐，对齐后的声音和图像特征经过叠加，并通过特征可视化算法进行成像就得到了对应的声图。

根据本发明的技术方案，产生的有益效果是：

本发明方法采用跨模态声音图像匹配技术和声音引导的图像注意力技术构建神经网络，训练声学成像模型。该方法对硬件要求较低，仅需一个麦克风和单目相机即可对图像上的声源位置进行识别，且网络在边缘端进行推理的算力要求较低，手机等手持移动终端设备即可满足算力要求。本方法采用的跨模态声音图像匹配技术可以为两段异步采集的声音和图像序列进行精准定位，并获取到相同表达所在的位置。同时，本发明采用的声音引导的视觉注意力机制可以根据声学信号特征，利用跨模态声音图像匹配技术和声音引导的注意力机制，使用单一麦克风单元，即可在图像上找出对应声源，并生成对应的声学图像。本发明方法避免了采用庞大规模的麦克风阵列，也不依赖特殊的声达装置，同时训练好的声学成像模型在边缘端使用时对算力的要求相对较低。最后，本发明方法由于使用深度学习进行训练，采用端到端的方式进行声学成像，因此其成像稳定性和精准性都较传统方法有所提升。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明的基于注意力机制的单麦克风声学成像方法的流程图；

图2是本发明方法涉及的网络结构图；

图3是本发明方法的实验结果图。

具体实施方式

为使本发明的目的、技术方法及优点更加清晰，下面结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅是说明性的，而并非对本发明的限制。

本发明采用的是软注意力机制，即采用双线性模型对输入信息进行“打分(score)”，之后通过归一化指数函数求取对应的注意力分布，接着进行加权平均就得到了注意力值。

本发明的基于注意力机制的单麦克风声学成像方法，利用跨模态深度学习技术，学习声音和图像之间的内在联系，利用注意力机制，使用声音引导生成声学图像。如图1、图2所示，该方法从开始到结束，具体包括以下步骤：

S1.对声音信号进行预处理得到相应的语谱图，同时对图像数据进行预处理。

在该步骤中，首先将声音转化为语谱图并提取声音特征。具体地，对图像和语谱图进行一定的预处理增强数据。将图像进行一些随机变换，如旋转、剪切等，对声音波形进行标准化(Normalize)处理，并通过快速傅里叶变换生成语谱图，再对语谱图进行对比度增强和锐化处理，抑制背景噪音。

S2.将步骤S1得到的图像和语谱图分别通过ResNet50特征提取网络和VGG-M提取特征网络提取特征。

具体地，分别将S1处理后得到的图像和声音(语谱图)送入特征提取网络进行特征提取，图像使用残差网络ResNet50特征提取网络来提取特征，语谱图使用VGG-M提取特征网络来提取特征，之后经由一个全连接层将特征映射到一个潜空间，输出图像特征u和声音特征v。

S3.通过全连接层将S2的图像特征u和声音特征v映射到一个潜空间中。

S4.使用声音引导的注意力机制(attention)计算声图注意力值，同时将映射后的图像特征和声音特征分别通过激活函数(tanh)进行激活，得到声图注意力信号。

具体地，将S3的输出送入注意力机制模块通过声音引导的注意力机制计算声图注意力值，采用双线性模型对输入信息进行“打分”，之后通过归一化指数函数求取对应的注意力分布，接着进行加权平均就得到了声图注意力信号。

S5.将步骤S4得到的声图注意力信号通过权重分配函数进行分配，之后与S4输出的激活后的声音及图像特征叠加，得到叠加后的图像特征u’和声音特征v’。

具体地，在注意力机制模块中，σ表示权重调整函数，用于对图像和声音特征分配相应的权重，由于图像本身的注意力不足以定位声音的准确位置，因此需要声音进行引导，具体的权重值需要由实验结果进行倒推。S5的输出有两个：一个是图像特征叠加了声图注意力信号，记作u’；另一个是声音特征叠加了声图注意力信号，记作v’。

S6.将步骤S5得到的两个特征(图像特征和声音特征)通过权重共享的两个长短记忆网络中进行特征对齐，之后相加，并使用特征可视化算法成像，得到对应的声图。

具体地，将S5的输出送入两个权重共享的长短时记忆网络中进行特征对齐，对齐后的声音和图像特征经过叠加，并通过特征可视化算法进行成像得到对应的声图。

本发明的基于注意力机制的单麦克风声图生成方法首先将声音转化为语谱图，对声音和图像进行特征提取，再经由全连接网络将图像和声音特征映射到潜空间中。在潜空间内，首先通过声音引导的图像注意力机制计算声图注意力值，再通过激活函数激活映射后的声音和图像特征，之后通过权重分配函数分别计算叠加了声图注意力信号的图像特征，记作u’，以及叠加了声图注意力信号的声音特征，记作v’。最后，通过两个权重共享的长短时记忆网络(LSTM)对图像特征u‘和声音特征v’进行特征对齐，之后通过特征可视化算法进行成像就得到了对应的声图。

本发明提出的基于注意力机制的单麦克风声图生成方法的具体实施方案，整体操作流程现分述如下。

1)在预处理阶段，首选准备训练所需数据，图像为“.jpg”格式，声音为“.wav”格式，之后使用声音处理软件读取“.wav”文件，将其转化为对应的声波，之后使用快速傅里叶变换将声波转化为语谱图。语谱图的横轴表示时间，纵轴表示频率，坐标值为语音的强弱；

2)采用预训练的特征提取网络对图像和声音进行特征提取，人脸图像特征提取网络选用卷积残差网络ResNet50，声音特征提取网络选用VGG-M并最终输出特征向量。

3)使用全连接网络，将上一步提取的图像和声音的特征映射到前空间当中得到潜空间中的图像特征u和潜空间中的声音特征v。

4)利用上一步得到的特征u和v，结合声音引导的视觉注意力算法计算注意力值，算法公式见式(一)(二)和(三)。同步对视频特征和声音特征进行激活，之后通过权重分配环节对视觉和声音注意力进行权重分配，最终得到受注意力值加权的图像特征u’和声音特征v’。

q₁＝vW^Q,K_1,2＝m_u,vW^k,V_1,2＝m_u,vW^v ㈡

m_u,v＝Concat(u,v) ㈢

其中，W^Q、W^k、W^v是神经网络需要学习的参数，m_u,v是两种特征拼接后形成的新特征，K_1,2和V_1,2分别是m_u,v经过线性变换后的结果(通过分别乘上W^k和W^v)，d_m表示特征的维度，Concat表示“拼接”。

5)最后，通过一个权重共享(weight-shared)的长短时记忆网络(LSTM)进行特征对齐，并通过可视化网络成像。成像结果见图3，通过图3可知，通过本发明方法成像具有良好的稳定性和精确性。

本发明采用的声音引导的视觉注意力机制可以借助声音信号的表达增强对视觉信号中关键部位的位置确定。声音引导的视觉注意力机制是一种仿生算法，人和动物在自然界活动时通常会用视觉确定位置，同时，听觉也给位置的确定、突发事件的察觉提供辅助，比如人在过马路时，身旁飞驰而过的汽车，听觉会先于视觉告知旁边有车经过，这时会注意到过去的汽车，通过这种方法实现的声学成像准确性和鲁棒性较高，且对硬件和算力的要求较低，实现了降本增效。

以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于注意力机制的单麦克风声学成像方法，其特征在于，包括以下步骤：

S1.对声音信号进行预处理得到相应的语谱图，同时对图像数据进行预处理；

S2.将步骤S1得到的图像和语谱图进行提取特征，得到图像特征和声音特征；

S3.通过全连接层将步骤S2得到的图像特征和声音特征映射到一个潜空间中；

S4.使用声音引导的注意力机制计算声图注意力值，同时将映射后的图像特征和声音特征分别通过激活函数进行激活，得到声图注意力信号；

S5.将所述声图注意力信号通过权重分配函数进行分配，之后与S4输出的声音及图像特征叠加，得到叠加后的图像特征和声音特征；

S6.将所述叠加后的图像特征和声音特征通过权重共享的两个长短记忆网络中进行特征对齐，之后相加，并使用特征可视化算法成像，得到对应的声图。

2.根据权利要求1所述的基于注意力机制的单麦克风声学成像方法，其特征在于，在步骤S1中，对图像和所述语谱图进行预处理增强数据，并通过快速傅里叶变换生成语谱图，再对所述语谱图进行对比度增强和锐化处理，抑制背景噪音。

3.根据权利要求1所述的基于注意力机制的单麦克风声学成像方法，其特征在于，在步骤S2中，所述图像使用残差网络ResNet50特征提取网络来提取特征，所述语谱图使用卷积神经网络模型VGG-M提取特征网络来提取特征，之后经由一个全连接层将特征映射到一个潜空间，输出图像特征和声音特征。

4.根据权利要求1所述的基于注意力机制的单麦克风声学成像方法，其特征在于，在步骤S4中，通过所述声音引导的注意力机制计算声图注意力值，采用双线性模型对输入信息进行“打分”，之后通过归一化指数函数求取对应的注意力分布，接着进行加权平均就得到所述声图注意力信号。

5.根据权利要求1所述的基于注意力机制的单麦克风声学成像方法，其特征在于，在步骤S6中，将步骤S5的输出送入两个权重共享的长短时记忆网络中进行特征对齐，对齐后的声音和图像特征经过叠加，并通过特征可视化算法进行成像就得到了对应的声图。