CN111681668A

CN111681668A - 声学成像方法及终端设备

Info

Publication number: CN111681668A
Application number: CN202010431229.6A
Authority: CN
Inventors: 贺武君; 王峰; 党建新; 魏鑫; 南飞雁; 朱永康; 张二标
Original assignee: Shaanxi Jintadpole Intelligent Technology Co ltd
Current assignee: Shaanxi Jintadpole Intelligent Technology Co ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-18
Anticipated expiration: 2040-05-20
Also published as: CN111681668B

Abstract

本申请公开了一种声学成像方法及终端设备。其中方法包括：获取目标声源的多通道声信号；对多通道声信号进行声场重建处理，得到预定区域的声场；基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB参数转换，得到伪彩图像，以将目标声源的多通道声信号处理为图像的目的。本申请通过对声信号的声场重建处理方式，不仅能够确定空间任意位置的声场值，还能依据预配置的多种声场值范围分别对应的RGB转换规则进行处理，将声信号转换为RGB参数，完成声信号至图像的转换。

Description

声学成像方法及终端设备

技术领域

本申请涉及计算机技术领域，具体涉及一种声学成像方法及终端设备。

背景技术

声学成像(acoustic imaging)是基于传声器阵列测量技术，通过测量一定空间内的声波到达各传声器的信号相位差异，依据相控阵原理确定声源的位置，测量声源的幅值，并以图像的方式显示声源在空间的分布，即取得空间声场分布云图－声像图，其中以图像的颜色和亮度代表声音的强弱。

然而，这种声源定位方法因采用的传声器数量少，存在声场重建精度差，甚至无法生存图像的问题。

发明内容

为了解决上述至少一个技术问题，本申请提供一种声学成像方法、装置及终端。

根据本申请的第一方面，提供了一种声学成像方法，该方法包括：

获取目标声源的多通道声信号；

对多通道声信号进行声场重建处理，得到预定区域的声场；

基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB 参数转换，得到伪彩图像，以将目标声源的多通道声信号处理为图像的目的。

根据本申请的第二方面，提供了一种声学成像装置，该装置包括：

多通道信号获取模块，用于获取目标声源的多通道声信号；

空间声场确定模块，用于对多通道声信号进行声场重建处理，得到预定区域的声场；

声学成像模块，用于基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB参数转换，得到多通道声信号对应的伪彩图像，以实现将目标声源的多通道声信号处理为图像的目的。

根据本申请的第三方面，提供了一种终端，该终端包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时以实现上述声学成像方法。

根据本申请的第四方面，提供了一种计算机可读存储介质，该介质存储有计算机可执行指令，该计算机可执行指令用于以执行上述声学成像方法。

本申请实施例通过获取目标声源的多通道声信号，对多通道声信号进行声场重建处理，得到预定区域的声场，这种通过对声信号的声场重建处理方式，不仅能够确定空间任意位置的声场值，还能依据预配置的多种声场值范围分别对应的RGB转换规则进行处理，将声信号转换为RGB参数，完成声信号至图像的转换。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的声学成像方法的流程示意图；

图2为本申请一个实施例提供的声学成像方法的应用系统的架构示意图；

图3为本申请一个实施例提供的声学成像方法的应用系统的框图结构示意图；以及

图4为本申请一个实施例提供的一种声学成像装置的框图结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

本申请中，声场是指媒质中有声波存在的区域。声场的物理量可以采用声压、质点振动速度、位移或媒质密度等进行描述，它们一般都是位置和时间的函数。声场中这些物理量随空间位置的变化与随时间的变化间的关系由声学波动方程描述，解出声波方程的满足边界条件的解即可知道声场随空间的分布、随时间的变化及能量关系等。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

根据本申请的一个实施例，提供了一种声学成像方法，如图1所示，该方法包括：步骤S101、步骤S102和步骤S103。

步骤S101：获取目标声源的多通道声信号。

具体地，一般通过预部署的传声器阵列来采集预定区域(如视频采集区域) 的空间音频信号，并将采集到的信号直接发送至电子设备；或者对采集到的信号处理后发送至电子设备。更具体地，电子设备可以通过预部署的数据传输线与传声器阵列连接。

本申请实施例中，多通道声信号用于表征构成传声器阵列的多个声学传感器各自检测到音频信号，即，多个声学传感器通道各自检测到的音频信号。

具体地，多通道声信号可以为传声器阵列直接采集到的声信号，也可以是传声器阵列采集到到声信号处理后的信号。例如，传声器阵列采集到多通道麦克风声信号之后，直接发送至电子设备；或者传声器阵列采集到多通道麦克风声信号之后，对多通道麦克风声信号进行放大处理，得到多通道放大信号之后发送至电子设备。

具体地，传感器声阵列一般包括多个传声器，以检测到多个传声器各自的通道的声信号，并发送至电子设备。例如，传感器声阵列包括为64通道传声器阵列，即包括由64个传声器。

具体地，电子设备一般逐帧对多通道声信号进行处理。例如，电子设备获取一帧多通道声信号。

步骤S102：对多通道声信号进行声场重建处理，得到预定区域的声场。

本申请实施例中，声场用于表征声场空间各个位置的声压值。

步骤S103：基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB参数转换，得到伪彩图像，以实现将目标声源的多通道声信号进行声学成像的目的。

具体地，通过预配置的RGB转换规则，实现了声压值与RGB参数的转换，达到了将音频信号转换为图像的转换目的，从而完成声学成像。

具体地，按照如下公式进行RGB参数转换：

其中，L＝255。

在一些实施例中，步骤S102进一步包括：

步骤S1021：依据多通道声信号，确定声信号协方差矩阵；

步骤S1022：基于预设的信号相关信息，确定导向矢量以及导向矢量的共轭矢量；

步骤S1023：依据声信号协方差矩阵、导向矢量以及共轭矢量的乘积，确定待检测区域对应的声场空间的各个位置的声场值：

步骤S1024：依据待检测区域对应的声场空间的各个位置的声场值，确定声场值。

本申请实施例通过确定空间的各个位置的声场值，来得到声场，为图像转换提供了数据准备。

具体地，声场重建处理的具体过程如下：

(1)：计算协方差矩阵Rx，Rx计算公式如下：

其中，1<i<M,i为变量，表示经过滤波处理后数据矩阵第i 列，M为声学传感器数量(即通道声信号的数量)，M＝64；X_i为经过滤波处理的后数据矩阵的列向量，长度N个点；

为X_i的转置；

(2)：将待测试区域空间网格成为1280x720，根据加载矢量 W[1280][720][64]。分解为1280x720个模块，在时钟节拍同一时刻，计算出测试声场空间1280x720个点声压值P[1280][720]。

其中，矢量w(x_i,y_j)的计算公式如下：

其中，exp()为指数；

jay为虚数单位；

f0测试声信号频率(本申请实施例设置为300Hz<f0<12KHz，即滤波处理所依据的分析频率)；

(x_i,y_j,h)为待测试点空间坐标点分量；

c为声速340m/s；

(ax_k,ay_k)为传声器阵列坐标，单位m，1≤k≤M。

本申请实施例通过通过矢量和协方差矩阵，计算空间任意一点(x_i,y_j,h)处的声场值P(i,j)计算公式入下：

P(i,j)＝w(x_i,y_j)·Rx·w(x_i,y_j)^T，其中，其中，w(x_i,y_j)^T为w(x_i,y_j)的共轭转置；P(i,j)为1280x720声场数据，浮点型。

在一些实施例中，步骤S1021之前，该方法还包括：对多通道声信号进行滤波处理，以依据滤波处理后的多通道声信号，确定声信号协方差矩阵。

具体地，按照预先设定的设定分析频带，对多通道声信号进行滤波处理。例如，利用预设的带通滤波器对多通道声信号进行滤波处理，该带通滤波器中预先设定的频率范围300Hz-12KHz(即预先设定的分析频率)，通过滤波处理，使得滤波处理后的多通道声信号各自的频率范围符合300Hz-12KHz。

在一些实施例中，对多通道声信号进行滤波处理之前，该方法还包括：

若多通道声信号的信噪比小于预设的信噪比阈值，则将多通道麦克风声信号进行放大处理，以依据放大处理后的多通道声信号进行滤波处理。

具体地，电子设备获取到的多通道声信号既可以是传声器阵列放大处理后的信号，也可以是未放大处理的信号。更具体地，若电子设备获取到的多通道声信号为未放大处理后的信号，则可以通过放大处理，来使多通道声信号具有足够的信噪比。

具体地，电子设备可以通过预配置的信号调理板来多个放大信号进行过滤，以使过滤后信号符合预定义的信号频率范围。更具体地，信号调理板可以通过反向放大电路和12阶带通滤波电路进行处理。其中，放大电路增益可以进行 1-100的调整，带通滤波电路通频带为60Hz～12KHz，带外衰减>-40dB/十倍频程。在完成对多通道声信号的放大和滤波处理后，得到待处理的多通道声信号。

在一些实施例中，该方法还包括：步骤S104至步骤S107(图中未示出)。

步骤S104：确定与多通道声信号对应的视频图像帧。

在本申请实施例中，视频图像帧用于表征与多通道声信号的采集时间相同的图像帧。具体地，可以通过多通道声信号的时间标签来确定与多通道声信号对应的视频图像帧。其中，时间标签用于表征通道声信号的采集时间，通过时间标签的确定，查找与该时间标签相同的图像帧，从而保证通道声信号与图像数据的同时性，为通道声信号和图像数据的叠加提供数据准备。

具体地，一般通过摄像头进行视频采集，并将采集到的视频发送至电子设备。更具体地，摄像头可以通过数据传输线与电子设备连接，也可以通过无线传输协议与电子设备进行通信，并将采集到的视频发送至电子设备，以使电子设备从获取到的视频中，确定与多通道声信号对应的视频图像帧。

应用前，对传声器阵列与图像采集设备进行配置，以使传声器阵列和图像采集设备按照相同的时钟进行采样处理。

步骤S105：将伪彩图像和视频图像帧进行融合处理，得到融合图像。

本申请实施例通过将伪彩图像和视频图像帧进行融合的方式，来得到融合图像，为在融合图像中定位目标声源提供了准备，进而对目标声源进行追踪，提高追踪精度。

步骤S106：基于声场，确定目标声源的位置。

具体地，目标声源的位置一般通过坐标来进行表示。

具体地，可以根据声场中各个空间位置的声场值，来确定值最大的声场值，从而确定目标声源的位置。

具体地，通过对声场的扫描来确定最大声场值以及最大声场的位置。

例如，通过搜索扫描方法的计算过程如下：

确定出目标声源的位置为：

步骤S107：在融合图像上对目标声源的位置进行显示处理。

具体地，通过显示处理来标记目标声源，以便用户根据标记位置来确定目标声源的位置，实现对目标声源的追踪。

具体地，显示处理一般以目标声源的中心位置为起点，来依据预定的标记范围来在融合图像上进行显示。

在一些实施例中，步骤S105进一步包括：

将伪彩图像与视频图像帧的同一像素点的RGB参数，进行加权相加处理，以依据加权相加处理结果得到融合图像。

具体地，可以按照预配置的加权相加处理算法，将伪彩图像与视频图像帧进行融合处理。例如，参照以下公式进行加权相加处理：

其中，1≤i≤1920，1≤j≤1080，λ＝0.5图像加权系数。

在一些实施例中，步骤S103之前，进一步包括：

基于预设的声场门限值，对声场进行去边缘化处理，以依据去边缘化处理后的声场对声场进行RGB参数转换。

首先，对声场进行归一化处理，处理方式如下所示：

其中，max(max())为求取最大值运算；int()表示数据取整；

其次，去边缘处理，通过门限值来与声场进行比较，设置为最低，这样可以突出声音最大值点出的声音，更为直观显示；

其中，P(x_i,y_j)为声场中点(x_i,y_j)的声压值； P_th为声场门限值。具体地，P_th的取值可以为P_th(0.6～0.9)。经过归一化处理和去边沿处理后，声场范围为P(x_i,y_j)∈[P_th 1]。

经过以上步骤处理后，声场值转换到0～255范围内，即就是P(i,j)∈ [0 255]。

进一步，将声场值P(i,j)进行RGB三基色转换。

为了进一步说明本申请实施例提供的声学成像方法，下面结合图2所示的应用系统为例进行说明。

该应用系统中包括支架101和挂载板102、摄像头103和传声器阵列104，其中，挂载板102安装在支架101上传声器阵列104安装在挂载板102上。该实施例中，传声器阵列104包括64个传感器，因此，传声器阵列104能够同时检测到64个通道的音频信号。应用时，如图3所示，传声器阵列104可以连接麦克风前置放大板，将检测到的64通道声音信号发送至麦克风前置放大板进行放大处理，再发送至采集处理箱200，由采集处理箱200内置的信号控制板先对接收到的64通道声音信号进行放大过滤处理，得到待处理的多通道声信号(即64通道声音信号)。该实施例中，采集处理箱200包括FPGA模块和ARM 控制板，FPGA模块对多通道声信号进行处理，确定声场值以及对应的图像数据后，将声场值和图像数据发送至ARM控制板，由ARM控制板对声场值和图像数据进行叠加处理，得到对应的声像数据。该采集处理箱200将ARM控制板处理得到的声像数据通过网线发送至终端300，以在终端300上进行显示。

应用时，麦克风前置放大板和信号控制板可以均安装在采集处理箱200内，也可以安装在采集处理箱200外部，即，采集处理箱200仅包括FPGA模块和 ARM控制板。

本申请另一个实施例提供了一种声学成像装置，如图4所示，该装置包括：多通道声信号确定模块401、空间声场确定模块402以及声学成像模块403。

多通道信号获取模块401，用于获取目标声源的多通道声信号；

空间声场确定模块402，用于对多通道声信号进行声场重建处理，得到预定区域的声场；

声学成像模块403，用于基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB参数转换，得到伪彩图像，以实现将目标声源的多通道声信号进行声学成像的目的。

本申请实施例通过确定待处理的多通道声信号，从而依据多通道声信号确定待检测区域的声场分布以及对应的图像数据，进而依据声场分布和图像数据生成声像数据，这种将声场分布和图像信号结合来生成声场数据的方式，不仅能够增加声像数据包括的信息量，还提高了声像数据的精度。

进一步地，空间声场确定模块用于：

依据多通道声信号，确定声信号协方差矩阵；

基于预设的信号相关信息，确定导向矢量以及导向矢量的共轭矢量；

依据声信号协方差矩阵、导向矢量以及共轭矢量的乘积，确定待检测区域对应的声场空间的各个位置的声场值；

依据待检测区域对应的声场空间的各个位置的声场值，确定预定区域的声场。

进一步地，依据多通道声信号，确定声信号协方差矩阵之前，空间声场确定模块用于：

对多通道声信号进行滤波处理，以依据滤波处理后的多通道声信号，确定声信号协方差矩阵。

进一步地，对多通道声信号进行滤波处理之前，空间声场确定模块用于：

进一步地，该装置还包括：图像帧确定模块、图像融合处理模块、声源定位模块和声源显示模块(图中未示出)。

图像帧确定模块，用于确定与多通道声信号对应的视频图像帧；

图像融合处理模块，用于将伪彩图像和视频图像帧进行融合处理，得到融合图像；

声源位置确定模块，用于基于声场，确定目标声源的位置；

声源显示模块，用于将目标声源的位置在融合图像上进行显示处理。

进一步地，图像融合处理模块用于：

进一步地，基于预配置的多种声场值范围分别对应的RGB转换规则，对声场进行RGB参数转换之前，空间声场确定模块用于：

本实施例的声学成像装置可执行本申请实施例提供的声学成像方法，其实现原理相类似，此处不再赘述。

本申请又一实施例提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时以实现上述声学成像方法。

具体地，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

具体地，处理器通过总线与存储器连接，总线可包括一通路，以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。

存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备， RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、 CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器用于存储执行本申请方案的计算机程序的代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现图4所示实施例提供的声学成像装置的动作。

本申请又一实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行上述图1所示的声学成像方法。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、 EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种声学成像方法，其特征在于，包括：

获取目标声源的多通道声信号；

对所述多通道声信号进行声场重建处理，得到预定区域的声场；

基于预配置的多种声场值范围分别对应的RGB转换规则，对所述声场进行RGB参数转换，得到伪彩图像，以实现将所述目标声源的所述多通道声信号进行声学成像的目的。

2.根据权利要求1所述的方法，其特征在于，所述对所述多通道声信号进行声场重建处理，包括：

依据所述多通道声信号，确定声信号协方差矩阵；

基于预设的信号相关信息，确定导向矢量以及所述导向矢量的共轭矢量；

依据所述声信号协方差矩阵、所述导向矢量以及所述共轭矢量的乘积，确定待检测区域对应的声场空间的各个位置的声场值；

依据所述待检测区域对应的声场空间的各个位置的声场值，确定所述预定区域的声场。

3.根据权利要求2所述的方法，其特征在于，所述依据所述多通道声信号，确定声信号协方差矩阵之前，所述方法还包括：

对所述多通道声信号进行滤波处理，以依据滤波处理后的所述多通道声信号，确定声信号协方差矩阵。

4.根据权利要求3所述的方法，其特征在于，所述对所述多通道声信号进行滤波处理之前，所述方法还包括：

若所述多通道声信号的信噪比小于预设的信噪比阈值，则将所述多通道麦克风声信号进行放大处理，以依据放大处理后的所述多通道声信号进行滤波处理。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述多通道声信号对应的视频图像帧；

将所述伪彩图像和所述视频图像帧进行融合处理，得到融合图像；

基于所述声场，确定所述目标声源的位置；

将所述目标声源的位置在所述融合图像上进行显示处理。

6.根据权利要求5所述的方法，其特征在于，所述将所述伪彩图像和所述视频图像帧进行融合处理，包括：

将所述伪彩图像与所述视频图像帧的同一像素点的RGB参数，进行加权相加处理，以依据加权相加处理结果得到所述融合图像。

7.根据权利要求1所述的方法，其特征在于，所述基于预配置的多种声场值范围分别对应的RGB转换规则，对所述声场进行RGB参数转换之前，所述方法还包括：

基于预设的声场门限值，对所述声场进行去边缘化处理，以依据去边缘化处理后的所述声场对所述声场进行RGB参数转换。

8.一种声学成像装置，其特征在于，包括：

多通道信号获取模块，用于获取目标声源的多通道声信号；

空间声场确定模块，用于对所述多通道声信号进行声场重建处理，得到预定区域的声场；

声学成像模块，用于基于预配置的多种声场值范围分别对应的RGB转换规则，对所述声场进行RGB参数转换，得到伪彩图像，以实现将所述目标声源的所述多通道声信号进行声学成像的目的。

9.一种终端设备，包括：存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要1至7中任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任一项所述的方法。