CN110515034B

CN110515034B - 一种声信号方位角测量系统及方法

Info

Publication number: CN110515034B
Application number: CN201910790961.XA
Authority: CN
Inventors: 王春亮; 赵光辉; 舒凯; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-12-27
Anticipated expiration: 2039-08-26
Also published as: CN110515034A

Abstract

本发明提出了一种声信号方位角测量的系统及方法，旨在保证测量精度的基础上，实现对多声源目标方位角的测量，实现方法为：控制器模块向声发生器阵列模块和数据处理模块发送信息；声发生器阵列模块产生声音信号；数据处理模块构建训练样本集；数据处理模块构建基于卷积神经网络的声源定位模型；数据处理模块对基于卷积神经网络的声源定位模型进行迭代训练；数据处理模块计算声源方位角GCC特征向量作为训练好的声源定位模型的输入得到当前声源方位角。本发明在新的应用场景可重新自动构建训练样本对机器学习模型进行训练，且GCC特征向量中包含多源方位信息故对多声源的方位角测量的精度高。

Description

一种声信号方位角测量系统及方法

技术领域

本发明属于声信号处理领域，涉及一种声信号方位角的测量系统及方法,可用于对声信号方位角的测量。

背景技术

声源方位估计属于声信号处理方面的一个基本而又重要的问题，在声信号的很多处理流程中都需要使用声信号的方位角信息。声传感器阵列的出现解决了声源方位角测量的问题，由于噪声等环境因素的影响，方位角的估计往往不准确，结合机器学习模型的方法在一定程度上降低了噪声等环境因素的影响，但是由于噪声等环境因素的不确定性，训练完成的机器学习模型不能在任意应用场景取得该模型的最优效果。现有技术多是基于互相关族方法或空间谱估计方法和一维峰值搜索来估计方位角，多个声源目标方位角测量效果差。例如：申请公布号为CN 108231085 A，名称为“一种声源定位方法及装置”的专利申请，公开了一种声源定位方法及装置，所述方法包括：获得麦克风阵列中各个麦克风采集的目标音频信号；对各个麦克风采集的目标音频信号进行分帧处理，并根据分帧结果，确定各个麦克风所对应的目标音频帧；计算目标音频帧所对应的目标时延向量；将目标时延向量输入至预先训练完成的目标机器学习模型，得到目标方位角标识值；基于目标方位角标识值，得到目标音频信号的声源所对应的目标方位角。该方法中所述的目标时延向量采用了一维极大值搜索的方法得到，导致该方法只适用于单声源目标方位角的估计。同时该方法虽然解决了由于噪声等环境因素对方位角的估计精度的影响，但该目标机器学习模型效果的优劣取决于实际应用场景和训练样本采集场景声学特性的相似度，由于训练样本的采集和标定需要耗费大量人力物力，难以实现每切换一个应用场景时在实际应用场景重新构建训练样本对机器学习模型进行训练，使得该机器学习模型的方位角测量的精度难以取得最优效果。

发明内容

本发明的目的在于克服上述现有技术存在的不足，提出了一种声信号方位角测量系统及方法，旨在保证测量精度的基础上，实现对多声源目标方位角的测量。为了实现上述目的，现提出方案为：

一种声信号方位角测量系统，包括控制器模块、声传感器阵列模块、声发生器阵列模块和数据处理模块，其中：

所述控制器模块，用于向声发生器阵列模块和数据处理模块发送声发生器的坐标位置信息数据和声发生器的编号组合数据；

所述声传感器阵列模块，用于采集声音信号；

所述声发生器阵列模块，包括第一接收单元、M个声发生器驱动模块和M个声发生器，M≥2，其中，第一接收单元，用于接收控制模块发送声发生器的编号组合数据并向声发生器驱动模块发送控制指令；声发生器驱动模块，用于根据第一指令接收单元发送的控制指令产生驱动信号和驱动力；声发生器，用于在声发生器驱动模块的驱动下用于产生声音信号；

所述数据处理模块，包括第二接收单元、数据缓冲单元、广义互相关GCC特征向量生成单元、样本标签生成单元、训练样本构建单元、神经网络构建单元和声源方位角测量单元；其中，第二指令接收单元，用于接收控制模块发送的声发生器的坐标位置信息数据和声发生器的编号组合数据并发送至样本标签生成单元；数据缓冲单元，用于缓冲声传感器阵列模块采集的声音信号数据；广义互相关GCC特征向量生成单元，用于根据数据缓冲单元的数据生成GCC特征向量；样本标签生成单元，用于根据第二接收单元的声发生器发送的坐标位置信息数据和声发生器的编号组合数据生成样本标签；训练样本构建单元，用于根据GCC特征向量和样本标签构建并存储训练样本；神经网络构建单元，用于根据训练样本构建卷积神经网络CNN声源定位模型；声源方位角计算单元，用于根据GCC特征向量和CNN声源定位模型计算声源方位角。

上述一种声信号方位角测量系统，声传感器阵列模块，包括分布于同一平面且中心对称的N个全向声传感器，以及与每个声传感器顺次连接的中心频率为f₀频带宽度为B_w的程控带通滤波器、增益程控调节的放大器和采样率为f_s的A/D转换器，形成的N个信号采集通道，其中，f_s∈[1kHz,200kHz]，

N≥4。

上述一种声信号方位角测量系统，M个声发生器，其功率最大的方向指向N个全向声传感器的旋转中心。

上述一种声信号方位角测量系统，声发生器驱动模块，包括存储模块、D/A转换模块和功率放大模块，其中：

存储模块，用于存储声信号文件并输出声信号数据；

D/A转换模块，用于将所述存储模块输出的声信号数据转换为模拟声信号；

功率放大模块，用于根据第一指令接收单元发送的控制指令对所述D/A转换模块转换的模拟声信号进行功率放大。

一种声信号方位角测量系统的测量方法，包括如下步骤：

(1)控制器模块向声发生器阵列模块和数据处理模块发送信息：

在t₁时刻，控制器模块将M个声发生器的编号组合数据集合B发送至声发生器阵列模块和数据处理模块，同时将M个声发生器的坐标位置信息数据集合A发送至数据处理模块；其中，

M≥2，φ_j表示从声发生器编号集合Z＝{1,2,…,M}中选取n_max个编号的所有组合中的第j个组合，

n_max表示同时出现的声源数目，n_max≥1，q∈[1,n_max]，c_jq表示第j次构建训练样本时需要被驱动的第q个声发生器的编号，A＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i),…,(x_M,y_M)}，(x_i,y_i)表示第i个声发生器以N个全向声传感器旋转中心为原点的位置坐标，i∈[1,M]，N≥4，；

(2)声发生器阵列模块产生声音信号：

(2a)第一接收单元接收声发生器的编号组合数据集合B，记接收完毕的t₂时刻为初始时刻，并令j＝1；

(2b)第一接收单元向φ_j中编号对应的声发生器驱动模块发送启动的控制指令E；

(2c)声发生器驱动模块根据控制指令E，产生驱动信号和驱动力；

(2d)声发生器在驱动信号和驱动力的驱动下产生声音信号持续T秒，T≥10；

(2e)第一接收单元判断

是否成立，若是，得到

组声音信号，否则，令j＝j+1，并执行步骤(2b)；

(3)数据处理模块构建训练样本集：

(3a)第二接收单元接收编号组合数据集合B和坐标位置信息数据A，并发送坐标位置信息数据A至样本标签生成单元，并令j＝1；

(3b)第二接收单元将B中的编号组合数据φ_j发送至样本标签生成单元；

(3c)样本标签生成单元根据在A中查找与φ_j对应的n_max个声发生器的坐标计算每个声发生器的水平角度，并将n_max个声发生器的水平角度作为样本标签Y_j；

(3d)数据缓冲单元将T秒内缓冲的声传感器阵列模块采集的声音信号数据在时间维均匀分成k份，并发送至GCC特征向量生成单元，k≥100；

(3e)GCC特征向量生成单元对每份数据进行谱减法降噪运算，并对降噪后的k份声音信号数据进行GCC运算，得到k个GCC特征向量；

(3f)训练样本构建单元将每个GCC特征向量和样本标签Y_j进行组合，得到k个训练样本；

(3g)第二接收单元判断

是否成立，若是，得到包含

个训练样本的训练样本集，否则，令j＝j+1，并执行步骤(3b)；

(4)数据处理模块构建基于卷积神经网络CNN的声源定位模型：

数据处理模块构建基于卷积神经网络CNN的声源定位模型，卷积神经网络CNN包括六个卷积层、两个最大池化层和一个全连接层，卷积层的激活函数为Relu函数，全连接层的激活函数为softmax函数；

(5)数据处理模块对基于卷积神经网络CNN的声源定位模型进行迭代训练：数据处理模块中的神经网络构建单元将训练样本集作为基于卷积神经网络CNN的声源定位模型的输入，将网络输出与样本标签的交叉熵作为优化目标，对其进行p轮迭代训练，得到训练好的声源定位模型，1000<p<2000；

(6)数据处理模块计算声源方位角：

(6a)数据缓冲单元将

秒内缓冲的声传感器阵列模块采集的声音信号数据发送至GCC特征向量生成单元；

(6b)GCC特征向量生成单元对数据缓冲单元

秒内缓冲的声传感器阵列模块采集的声音信号数据进行谱减法降噪运算，并对降噪后声音信号数据进行GCC运算，得到GCC特征向量；

(6c)声源方位角测量单元以GCC特征向量作为在步骤(5)训练好的CNN的输入，从CNN的输出中得到当前声源方位角。

本发明与现有技术相比，具有如下优点：

1.本发明中构建的训练样本集，包括了在多声源情况下构建的样本，构建的卷积神经网络CNN的输入向量GCC特征向量，通过保留GCC系数保留了多源位置信息，通过拼接GCC系数对多源位置信息进行了融合，使得该CNN实现了对多声源方位角测量，克服了现有技术只适用于单声源目标方位角测量的缺点，适用性更强。

2.本发明的测量系统可根据实际应用场景，构建训练样本集和卷积神经网络CNN，同时由于声发生器阵列模块的设计和数据处理模块的改进可以自动完成训练样本的生成、采集和标定，克服了现有技术的机器学习模型下所需数据量大及数据标定繁重的困难，实现了在切换一个应用场景后可在实际应用场景重新自动构建训练样本对机器学习模型进行训练以取得该模型对方位角测量的精度取得最优效果，使方位角测量的精度得到进一步提升。

附图说明

图1为本发明方位角测量系统的结构示意图；

图2为本发明数据处理模块的结构示意图；

图3为本发明方位角测量方法的实现流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，一种方位角测量系统，包括控制器模块、声传感器阵列模块、声发生器阵列模块和数据处理模块，其中：

所述声传感器阵列模块，用于采集声音信号；包括分布于同一平面且中心对称的N个全向声传感器，以及与每个声传感器顺次连接的中心频率为f₀频带宽度为B_w的程控带通滤波器、增益程控调节的放大器和采样率为f_s的A/D转换器，形成的N个信号采集通道，其中，f_s∈[1kHz,200kHz]，

全向声传感器可从硅麦克风、电容麦克风、驻极体麦克风和水听器等全向声传感器中根据实际应用环境和要求进行选择，在本实施例选择了硅麦克风，因为它体积小，对于位置信息的采样精度更高，N＝8，N可根据实际应用环境对于精度、体积和实际系统的数据传输率来选择；为了方便计算，8个声传感器均匀分布在以N个全向声传感器的旋转中心为圆心，以0.1米为半径的圆周上，用于本实施例中声信号为语音信号，一般语音信号的频率f_y满足300Hz≤f_y≤3400Hz，故程控带通滤波器的中心频率为f₀＝1850Hz，B_w＝3100Hz，以降低语音信号带外噪声对测量结果的影响提高测量精度，根据实际环境中语音幅度的范围将增益程控调节的放大器的增益设置为400倍，使得放大后的语音幅度的范围在零到A/D转换器的满量程的五分之四之间，以提高A/D转换器的采样精度，A/D转换器的采样率f_s＝80kHz。

所述声发生器阵列模块，包括第一接收单元、M个声发生器驱动模块和功率最大指向N＝8个全向声传感器旋转中心的M个声发生器，M≥2，N≥4，M可根据实际应用场景对方位角测量误差的允许范围进行选择，本实施例中为了满足对方位角测量误差小于4°的需求，M＝90；M＝90个声发生器在距N＝8个全向声传感器旋转中心为圆心以1.5米为半径的圆周上均匀分布，使得任意相邻的两个声发生器和旋转中心之间连线的夹角等于4°，以此来产生可使声源定位模型满足对方位角测量误差小于4°的训练样本集所需的声音信号。

其中，第一接收单元，用于接收控制模块发送声发生器的编号组合数据并向声发生器驱动模块发送控制指令；声发生器驱动模块，用于根据第一指令接收单元发送的控制指令产生驱动信号和驱动力；声发生器，用于在声发生器驱动模块的驱动下用于产生声音信号，其中声发生器可从任意能在驱动信号和驱动力的驱动下发出声音的器件中选择，本实施例中声信号为语音信号，故选用扬声器作为声发生器；

上述声发生器驱动模块，包括存储模块、D/A转换模块和功率放大模块，其中：

存储模块，用于存储声信号文件并输出声信号数据；

所述数据处理模块的结构如图2所示，包括第二接收单元、数据缓冲单元、广义互相关GCC特征向量生成单元、样本标签生成单元、训练样本构建单元、神经网络构建单元和声源方位角测量单元；其中，第二指令接收单元，用于接收控制模块发送的声发生器的坐标位置信息数据和声发生器的编号组合数据并发送至样本标签生成单元；数据缓冲单元，用于缓冲声传感器阵列模块采集的声音信号数据；广义互相关GCC特征向量生成单元，用于根据数据缓冲单元的数据生成GCC特征向量；样本标签生成单元，用于根据第二接收单元的声发生器发送的坐标位置信息数据和声发生器的编号组合数据生成样本标签；训练样本构建单元，用于根据GCC特征向量和样本标签构建并存储训练样本；神经网络构建单元，用于根据训练样本构建卷积神经网络CNN声源定位模型；声源方位角计算单元，用于根据GCC特征向量和CNN声源定位模型计算声源方位角。

参照图3，一种声信号方位角测量系统的测量方法，包括如下步骤：

步骤1)控制器模块向声发生器阵列模块和数据处理模块发送信息：

在t₁时刻，控制器模块将M＝90个声发生器的编号组合数据集合B发送至声发生器阵列模块和数据处理模块，同时将M＝90个声发生器的坐标位置信息数据集合A发送至数据处理模块；其中，

n_max表示同时出现的声源数目，n_max≥1，q∈[1,n_max]，c_jq表示第j次构建训练样本时需要被驱动的第q个声发生器的编号，A＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i),…,(x_M,y_M)}，(x_i,y_i)表示第i个声发生器以N个全向声传感器旋转中心为原点的位置坐标，i∈[1,M]，N≥4，本实施例中n_max＝2，即实施例中同时出现的声源数目为2，φ_j表示从声发生器编号集合Z＝{1,2,…,90}中选取2个编号的所有组合中的第j个组合，形式如{1,2}、{1,3}、{2,3}等，编号组合中的每一个编号表示当前构建训练样本时需要被驱动的声发生器的编号，如{1,2}表示第1个和第2个声发生器需要被驱动，控制器模块将编号组合数据集合B发送至声发生器阵列模块是为了控制不同的声发生器工作，产生构建构建训练样本所需的声音，数据集合B中包含了Z＝{1,2,…,90}中两两元素的所有组合，控制器模块将编号组合数据集合B和将M＝90个声发生器的坐标位置信息数据集合A发送至数据处理模块用于构建数据处理模块采集并计算得到的样本的样本标签；

步骤2)声发生器阵列模块产生声音信号：

步骤2a)第一接收单元接收声发生器的编号组合数据集合B，记接收完毕的t₂时刻为初始时刻，并令j＝1；

步骤2b)第一接收单元向φ_j中编号对应的声发生器驱动模块发送启动的控制指令E；

步骤2c)声发生器驱动模块根据控制指令E，产生驱动信号和驱动力；

步骤2d)声发生器在驱动信号和驱动力的驱动下产生声音信号持续T秒，T≥10，本实施例中T＝10；

步骤2e)第一接收单元判断

是否成立，若是，得到

组声音信号，否则，令j＝j+1，并执行步骤2b)；

步骤3)数据处理模块构建训练样本集：

步骤3a)第二接收单元接收编号组合数据集合B和坐标位置信息数据A，并发送坐标位置信息数据A至样本标签生成单元，并令j＝1；

步骤3b)第二接收单元将B中的编号组合数据φ_j发送至样本标签生成单元；

步骤3c)样本标签生成单元根据在A中查找与φ_j对应的n_max＝2个声发生器的坐标计算每个声发生器的水平角度，计算公式为：

其中θ表示计算的结果水平角度，x_i，y_i分别是查找到的声发生器的横纵坐标；

并将n_max＝2个声发生器的水平角度作为样本标签Y_j；

步骤3d)数据缓冲单元将T秒内缓冲的声传感器阵列模块采集的声音信号数据在时间维均匀分成k份，并发送至GCC特征向量生成单元，k≥100；本实施例中k＝100，故每份数据的长度为0.1秒

步骤3e)GCC特征向量生成单元对每份数据进行谱减法降噪运算，并对降噪后的k份声音信号数据进行GCC运算，得到k个GCC特征向量；所述的GCC特征向量，获取方法为：

计算GCC系数R_1,2，并将所有GCC系数拼接成GCC特征向量，其中R_1,2的计算公式为：

R_1,2＝IFT(G_1,2)

其中Y₁和Y₂分别表示声传感器阵列模块N个信号采集通道中的每两个通道所采集到的声信号数据的傅里叶变换，IFT()表示逆傅里叶变换。

由于本实施例中f_s＝80kHz，故0.1秒的声信号数据秒内共有800个采样点，则所得GCC系数横坐标范围表示的对应的时延范围为

由于本实例中两个声传感器之间的最大间距d_max＝0.2米，故最大有效时延

其中v表示声音在实际环境中传播的速度，本实施例的环境下，v＝340米每秒，故有效时延范围为

对应到GCC系数横坐标范围为

即[-47,47]，故后续拼接中只选取所得GCC系数中心的93个值，N＝8个信号采集通道采集到的声信号数据所有两两组合共有28个，将得到的28个GCC系数中心的93个值顺次拼接得到一个28×93的二维向量就是得到的GCC特征向量。

步骤3f)训练样本构建单元将每个GCC特征向量和样本标签Y_j进行组合，得到k个训练样本；

步骤3g)第二接收单元判断

是否成立，若是，得到包含

个训练样本的训练样本集，否则，令j＝j+1，并执行步骤(3b)；在实施例应用所允许的最大角度误差范围内，构建的训练样本包含了实际应用环境中声源可能出现的所有情况，如若实际应用环境中同时出现的声源数目有多个，则可依照上述步骤构建对应的训练样本，如本实施例中同时出现的声源数目最大为2，若也可能出现只有1个声源的情况，可在上述步骤基础上构建n_max＝1时的训练样本供神经网络训练。

步骤4)数据处理模块构建基于卷积神经网络CNN的声源定位模型：

数据处理模块构建基于卷积神经网络CNN的声源定位模型，由第一个卷积层、第二个卷积层、第一个最大池化层、第三个卷积层、第四个卷积层、第二个最大池化层、第五个卷积层、第六个卷积层和全连接层依次连接构成，卷积层的激活函数为Relu函数，全连接层的激活函数为softmax函数；

步骤5)数据处理模块对基于卷积神经网络CNN的声源定位模型进行迭代训练：

数据处理模块中的神经网络构建单元将训练样本集作为基于卷积神经网络CNN的声源定位模型的输入，将网络输出与样本标签的交叉熵作为优化目标，对其进行p轮迭代训练，得到训练好的声源定位模型，1000<p<2000，本实施例中p＝1500；

步骤6)数据处理模块计算声源方位角：

步骤6a)数据缓冲单元将

秒内缓冲的声传感器阵列模块采集的声音信号数据发送至GCC特征向量生成单元；本实施例中被测声音信号数据得长度为0.1秒，根据不同场景对于方位角测量的实时性要求不同，T、k可选取不同的值。

步骤6b)GCC特征向量生成单元对数据缓冲单元

秒内缓冲的声传感器阵列模块采集的声音信号数据进行谱减法降噪运算，并对降噪后声音信号数据进行GCC运算，得到GCC特征向量；此处得到GCC特征向量的过程与步骤3e)中得到GCC特征向量的过程一致。

步骤6c)声源方位角测量单元以GCC特征向量作为在步骤5)训练好的CNN的输入，从CNN的输出中得到当前声源方位角。

Claims

1.一种声信号方位角测量系统，其特征在于，包括控制器模块、声传感器阵列模块、声发生器阵列模块和数据处理模块，其中：

所述声传感器阵列模块，用于采集声音信号；

所述声发生器阵列模块，包括第一接收单元、M个声发生器驱动模块和M个声发生器，M≥2，其中，第一接收单元，用于接收控制器模块发送声发生器的编号组合数据并向声发生器驱动模块发送控制指令；声发生器驱动模块，用于根据第一接收单元发送的控制指令产生驱动信号和驱动力；声发生器，用于在声发生器驱动模块的驱动下用于产生声音信号；

所述数据处理模块，包括第二接收单元、数据缓冲单元、广义互相关GCC特征向量生成单元、样本标签生成单元、训练样本构建单元、神经网络构建单元和声源方位角测量单元；其中，第二接收单元，用于接收控制器模块发送的声发生器的坐标位置信息数据和声发生器的编号组合数据并发送至样本标签生成单元；数据缓冲单元，用于缓冲声传感器阵列模块采集的声音信号数据；广义互相关GCC特征向量生成单元，用于根据数据缓冲单元的数据生成GCC特征向量；样本标签生成单元，用于根据第二接收单元的声发生器发送的坐标位置信息数据和声发生器的编号组合数据生成样本标签；训练样本构建单元，用于根据GCC特征向量和样本标签构建并存储训练样本；神经网络构建单元，用于根据训练样本构建卷积神经网络CNN声源定位模型；声源方位角计算单元，用于根据GCC特征向量和CNN声源定位模型计算声源方位角。

2.根据权利要求1所述的一种声信号方位角测量系统，其特征在于，所述声传感器阵列模块，包括分布于同一平面且中心对称的N个全向声传感器，以及与每个声传感器顺次连接的中心频率为f₀频带宽度为B_w的程控带通滤波器、增益程控调节的放大器和采样率为f_s的A/D转换器，形成的N个信号采集通道，其中，f_s∈[1kHz,200kHz]，

N≥4。

3.根据权利要求2所述的一种声信号方位角测量系统，其特征在于，所述M个声发生器，其功率最大的方向指向N个全向声传感器的旋转中心。

4.根据权利要求1所述的一种声信号方位角测量系统，其特征在于，所述声发生器驱动模块，包括存储模块、D/A转换模块和功率放大模块，其中：

存储模块，用于存储声信号文件并输出声信号数据；

功率放大模块，用于根据第一接收单元发送的控制指令对所述D/A转换模块转换的模拟声信号进行功率放大。

5.一种声信号方位角测量系统的测量方法，其特征在于，包括如下步骤：

n_max表示同时出现的声源数目，n_max≥1，q∈[1,n_max]，c_jq表示第j次构建训练样本时需要被驱动的第q个声发生器的编号，A＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i),…,(x_M,y_M)}，(x_i,y_i)表示第i个声发生器以N个全向声传感器旋转中心为原点的位置坐标，i∈[1,M]，N≥4；

(2)声发生器阵列模块产生声音信号：

(2e)第一接收单元判断