CN105976827B

CN105976827B - 一种基于集成学习的室内声源定位方法

Info

Publication number: CN105976827B
Application number: CN201610356146.9A
Authority: CN
Inventors: 万新旺; 杨悦; 顾晓瑜; 王吉
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2019-09-13
Anticipated expiration: 2036-05-26
Also published as: CN105976827A

Abstract

本发明公开了一种基于集成学习的室内声源定位方法，特别是涉及声源定位识别方法所使用的特征。本发明使用信号的相位变换广义互相关函数作为位置特征，将声源信号数据转换成特征数据集，再使用集成学习技术(Bagging，AdaBoost等)对特征数据进行训练和定位测试，最终得到的集成学习分类器能很好地鉴别声源位置，克服了传统声源定位算法在恶劣环境下性能损失严重的不足。相比较传统的定位算法，本发明的优势在于能在室内环境下，有较强的噪声、混响的恶劣环境下，依旧能够获得鲁棒的声源定位性能。

Description

一种基于集成学习的室内声源定位方法

技术领域

本发明属于无线电波的反射或再辐射的定位或存在检测领域，涉及一种在混响和噪声干扰环境下基于集成学习的室内声源定位方法，特别是涉及声源定位识别方法所使用的特征。

背景技术

基于麦克风阵列的声源定位技术是近几年国内外的一项研究热点。它主要原理是：通过具有一定几何拓扑结构的麦克风阵列采集声源信号，通过阵列信号处理技术对语音信号进行处理和分析，从而确定声源位置。

目前，基于麦克风阵列的声源定位技术已广泛应用于许多领域，如视频会议、声音检测、语音增强、语音识别、说话人识别、智能机器人、监控监听系统、助听装置等。传统的声源定位算法主要有三类：

第一类是基于高分辨率谱估计的方法。该方法源于一些现代高分辨率估计技术，如自回归模型(AR，Auto Regressive)、最小方差谱估计(MV，Minimum Variance)、多重信号分类(MUSIC，Multiple Signal Classification)等等，它们利用求解麦克风信号间的相关矩阵来定出方向角，从而进一步确定声源位置；这类方法有很强的分辨力，但是运算量极大，且不适用于近距离的定位。

第二类是基于时延估计(TDOA，Time Difference of Arrival)的技术。该方法首先求出声音到达不同位置麦克风的时间差，从而根据时间差用几何法来计算出声源位置；这类时延估计算法主要有广义互相关函数(GCC，Generalized cross correlation)时延估计算法和自适应最小均方时延(LMS，Least Mean Square)估计算法。比如专利名称为"麦克风间距测量方法和装置"(申请人：华为终端有限公司，专利号：CN101685153B)就属于这类技术。这类方法计算量小，实时性好，成本低易于实现，但是由于要先估计时延会造成二次估计上的误差，时延精度也易受到混响和噪声干扰的影响，鲁棒性较差。

第三类是基于最大输出功率可控的波束成型方法。该方法对麦克风阵列接受的语音信号进行滤波、加权求和，然后直接控制麦克风指向波束有最大输出功率的方向即是声源的位置；比如名称为"一种声源定位的方法及系统"(申请人：TCL集团股份有限公司，公开号：CN105204001A)的发明专利属于这类技术。但是该方法需要声源和环境噪声的先验知识，实际情况下先验知识较难获得，同时对外界环境以及声源频率反映比较敏感，从而限制了应用场合。

因此，目前大多数的基于麦克风阵列的定位技术中，特别是在室内环境，如小型会场、教室、办公室等，当噪声大、有混响的情况下存在定位准确率不高，系统成本高、计算量大等等问题。

集成学习技术是一个迅速发展中的研究领域，它是机器学习领域中用来提升分类算法准确率的技术。集成学习通过构建并合并多个弱学习器(分类器)来完成学习分类任务，常常能获得比单一学习器显著优越的泛化性能。常用的集成学习算法有Bagging(装袋)、Boosting(提升)、RandomForest(随机森林)等等。

当前，集成学习技术正在众多领域获得日益广泛的应用，在其从出现到目前短短的近二十年里，它已经广泛应用于语音识别、文本过滤、遥感信息处理、疾病诊断等领域。预计将来会有越来越多的研究可由集成学习来解决。

发明内容

本发明目的在于解决在有较强的噪声、混响的恶劣室内环境下鲁棒性较差的问题。为解决上述问题，本发明提出的技术方案为一种基于集成学习的室内声源定位方法，包括如下步骤：

步骤1：设定声源的训练位置l_i(i＝1，2···n)(单位：角度)，使用若干个麦克风阵列记录声源发出的混响信号X_ji(i＝1，2···n，j＝1,2···m)；

步骤2：利用记录下的混响信号X_ji，根据具体要求，加入一定信噪比的高斯白噪声，对混响信号计算处理生成信号的相位变换广义互相关函数R_i；

步骤3：利用得到的相位变换广义互相关函数R_i产生对应声源位置l_i的特征向量Y_i；

步骤4：处理特征向量Y_i对应的特征数据集y_i，将数据集划分为训练数据集和测试数据集；

步骤5：对训练数据集使用集成学习方法，弱学习器选择常用的决策树，训练出集成学习分类器；

步骤6：使用得到的集成学习分类器进行测试，识别出声源的位置。

进一步，步骤2中，所使用的特征为相位变换广义互相关函数，特征的计算过程包括如下步骤：

步骤2-1：设声源位置为l_i,则产生出混响时间为T的房间脉冲响应h(l_i,k)_i，说话人语音为s(k)，使用m个麦克风组成麦克风阵，则麦克风接受到的信号为x_n(k)＝h(l_i,k)*s(k)(n＝1,2，···m)；

步骤2-2：对步骤2-1得到的信号x_n(k)，分帧加汉宁窗采集数据，对每帧信号数据，可在频域计算出它们之间的广义互相关函数其中ψ_1n,2n(ω)为加权函数，此处使用相位变换加权函数(PHAT)能增强互相关函数的抗混响能力；

步骤2-3：将步骤2-2得到的所有的对应所有位置的广义互相关函数R_i(τ)作预处理转化为分类算法的训练数据和测试数据。取其中round是取整函数，D是麦克风间距离，f_s是采样频率，c是声速，因子α设为1.67，则取得的数据集为R(τ_max-1),R(τ_max)]^T，按一定比例随机划分Y就得到了训练数据集Y_train和测试数据集Y_test。

作为优选方案，步骤2-2中所述采集数据的方式为帧长512个采样点，帧移256个采样点，共使用200帧的数据。

同样，作为优选方案，步骤2-3中所述按一定比例随机划分Y是指按6:4的比例随机划分Y。

进一步，步骤5中数据的分类和最后的定位使用了集成学习方法集成了决策树算法。

具体而言，作为优选方案，上述集成学习方法包括AdaBoost和Bagging方法。

与现有技术相比，本发明的有益效果在于：

1.本发明通过使用相位变换广义互相关函数作为识别特征，利用分类识别的方法来进行声源定位，能够克服传统的三类声源定位算法在室内条件，噪声、混响较为恶劣的环境下定位性能急剧恶化，甚至无法定位的弱点。

2.随着环境温度、湿度等的变化，以及器件的老化，经过一段时间后麦克风的特性将发生变化，使得传统的麦克风阵的定位性能下降，本发明不需要对麦克风进行校正。

3.本发明使用了集成学习算法。在实际应用中，想要直接构造一个拥有很高性能的学习器模型是很难的，而集成学习算法常常能通过增加数据扰动提升学习器的性能，同时得到的集成学习器不需要提前知道弱学习器的先验知识，也不容易过拟合。因此，可以很容易地在一定基础上对模型的性能不断处理、改进。

附图说明

图1为本发明的方法流程图。

图2为模拟出的房间、麦克风阵以及声源的示意图。

图3为模拟的房间平面图，以及位于90°位置上的声源的示意图。

图4为声源位于10°、50°位置上所对应的相位变换广义互相关函数。

图5为声源位于9个位置、混响时间为0.3S时四种方法的准确率比较图。

图6为声源位于9个位置时、混响时间为0.6S时四种方法定位的准确率比较图。

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明。本发明的工作原理是通过使用信号的广义互相关函数作为位置特征，将声源信号数据转化成特征数据集，再使用集成学习技术(Bagging(装袋)，AdaBoost(自适应提升)等)对特征数据进行训练和定位测试，最终得到的集成学习分类器能很好地鉴别声源位置，克服了传统声源定位算法在恶劣环境下性能损失严重的不足。

基于上述原理，本发明所采取的技术方案主要包括如下步骤：

步骤1：设定声源的训练位置l_i(i＝1，2…n)(单位：角度)，使用若干个麦克风阵列记录声源发出的混响信号X_ji(i＝1，2…n，j＝1,2…m)；

步骤5：对训练数据集使用集成学习方法(AdaBoost,Bagging)，弱学习器选择常用的决策树，训练出集成学习分类器。；

如图1所示，本发明是一种混响和噪声环境下基于集成学习的室内声源定位方法，该方法包含训练和定位两个阶段，在训练阶段对每个位置由互相关函数训练出集成学习器模型，然后在定位阶段通过使用上一阶段训练出的模型来测试数据的互相关函数从而确定声源的位置。下面将具体描述每一步的细节。

本发明具体实施步骤，包括如下：

步骤1:图2所示为模拟出的房间，和房间中的麦克风阵，以及位于170°位置上的声源。使用matlab工具包roomsim模拟出7m×6m×3m的房间，使用2个麦克风组成麦克风阵，对于声源位置为l_i(设相对麦克风阵的水平方向角为10°、30°、…150°、170°，共9个位置，距离为2m，图3即为声源位置为90°时的情况),产生出混响时间为T的房间脉冲响应h(l_i,k)_i；语音信号采用麻省理工大学的TIMIT语音库的语音s(k)。使用2个麦克风组成麦克风阵，麦克间距离为0.3m，则麦克风接受到的信号为x_n(k)＝h(l_i,k)*s(k)(n＝1,2)。

步骤2：对步骤1得到的信号x₁(k)和x₂(k)，分帧加汉宁窗，帧长512个采样点，帧移256个采样点，共使用200帧的数据。对每帧信号数据，可在频域计算出它们之间的广义互相关函数其中ψ_1,2(ω)为加权函数，此处使用相位变换加权函数(PHAT)能增强互相关函数的抗混响能力。图4为声源位于10°、50°位置上所对应的相位变换广义互相关函数，可见声源在不同位置(声源10°、50°)时对应的广义互相关函数是有差异的。

步骤3：将步骤2得到的所有的对应所有位置的广义互相关函数R_i(τ)作预处理转化为分类算法的训练数据和测试数据。取其中round是取整函数，D是麦克风间距离，f_s是采样频率，c是声速，因子α设为1.67。则取得的数据集为按6:4的比例随机划分Y就得到了训练数据集Y_train和测试数据集Y_test。

步骤4：利用步骤3得到的训练数据Y_train，使用决策树算法训练分类器模型model1，同时，分别使用AbaBoost和Bagging方法集成决策树训练分类器模型model2和modle3。

步骤5：使用步骤4得到的模型modle1、modle2和modle3对测试数据集Y_test进行定位。

步骤6：结果比较分析，参数调整。将定位结果与传统的声源定位算法的定位结果作对比测试(这里选择SRP-PHAT(可控响应功率-相位加权)算法)，不断调整信噪比(纯净语音，25dB，20dB,15dB,10dB,5dB)，选择不同长度的混响时间(0.6S和0.3S)。最终定位结果如图5，图6所示。图5为声源位于9个位置时，混响时间为0.3S，SRP-PHAT算法、决策树算法，AdaBoost和Bagging决策树方法在信噪比由纯净语音，25dB，20dB,15dB,10dB直到5dB变化时，以上四种方法的准确率。图6为声源位于9个位置时，混响时间为0.6S，SRP-PHAT算法、决策树算法，AdaBoost和Bagging决策树方法在信噪比由纯净语音，25dB，20dB,15dB,10dB直到5dB变化时，以上四种方法定位的准确率。可以发现本发明随着噪声和混响的加强，定位准确率和鲁棒性都要强于经典的SRP-PHAT算法。

对本领域技术人员而言，根据上述实施类型可以很容易联想其他变形,如弱分类器的选择，声源位置的选择，麦克风数量等。因此，本发明不局限于以上实例，其仅仅作为例子对本发明的一种形态进行详细、示范性的说明。在不背离本发明宗旨的范围内，本领域技术人员根据上述具体实例，通过各种等同替换所得到的技术方案，均应包含在本发明的权利要求范围及其等同范围之内。

Claims

1.一种基于集成学习的室内声源定位方法，其特征在于，包括如下步骤：

步骤1：设定声源的训练位置l_i(i为训练位置的序号，单位：角度)，使用两个麦克风阵列记录声源发出的混响信号X_ji(j为麦克风阵列的序号)；

步骤2：利用记录下的混响信号X_ji，根据具体要求，加入一定信噪比的高斯白噪声，对两个麦克风得到的混响信号计算处理生成信号的相位变换广义互相关函数R_i，所使用的特征为相位变换广义互相关函数，特征的计算过程包括如下步骤：

步骤2-1：设声源位置为l_i,则产生出混响时间为T的房间脉冲响应h(l_i,k)，说话人语音为s(k)，使用2个麦克风组成麦克风阵，则麦克风接受到的信号为x_ji(k)＝h(l_i,k)*s(k)(j＝1,2)；

步骤2-2：对步骤2-1得到的信号x_ji(k)，分帧加汉宁窗采集数据，对每帧信号数据，可在频域计算出它们之间的广义互相关函数其中ψ_1i，2i(ω)为加权函数，此处使用相位变换加权函数能增强互相关函数的抗混响能力；

步骤2-3：将步骤2-2得到的所有的对应所有位置的广义互相关函数R_i(τ)作预处理转化为分类算法的训练数据和测试数据，取其中round是取整函数，D是麦克风间距离，f_s是采样频率，c是声速，因子α设为1.67，则取得的数据集为Y＝[R(-τ_max),R(-τ_max+1),R(-τ_max+2),…R(τ_max-2),…

R(τ_max-1),R(τ_max)]^T，按一定比例随机划分Y就得到了训练数据集Y_train和测试数据集Y_test；

2.根据权利要求1所述的一种基于集成学习的室内声源定位方法，其特征在于步骤2-2中所述采集数据的方式为帧长512个采样点，帧移256个采样点，共使用200帧的数据。

3.根据权利要求1所述的一种基于集成学习的室内声源定位方法，其特征在于步骤2-3中所述按一定比例随机划分Y是指按6:4的比例随机划分Y。

4.根据权利要求1所述的一种基于集成学习的室内声源定位方法，其特征在于步骤5中数据的分类和最后的定位使用了集成学习方法集成了决策树算法。

5.根据权利要求4所述的一种基于集成学习的室内声源定位方法，其特征在于，所述集成学习方法包括AdaBoost和Bagging方法。