CN108734733A

CN108734733A - 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法

Info

Publication number: CN108734733A
Application number: CN201810473571.5A
Authority: CN
Inventors: 莫凌飞; 李英昊; 厉叶
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-11-02
Anticipated expiration: 2038-05-17
Also published as: CN108734733B

Abstract

本发明公开了一种基于麦克风阵列与双目摄像头的说话人定位与识别方法，主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位，之后再结合精度更高但是视野狭小的双目摄像头进行准确定位，在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销，使得系统能够获得更高的刷新率，或者在空闲时间内执行其他任务；同时，本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。

Description

一种基于麦克风阵列与双目摄像头的说话人定位与识别方法

技术领域

本发明涉及声音与图像信息融合技术领域，尤其是一种基于麦克风阵列与双目摄像头的说话人定位与识别方法。

背景技术

目前，基于麦克风阵列的声源定位技术已经比较成熟，市面上也能够看到有基于该技术的商品出售，如亚马逊公司的Alexa和科大讯飞公司的六麦环形阵列语音定位与识别模块。目前最为常用的声源定位方法为TDOA(Time Difference of Arrival)方法，即使用GCC(Generalized Cross Correlation)判断通过声源到达阵列中不同麦克风的时间差，结合麦克风在阵列中的位置运用几何定位法进行定位。然而，GCC方法的性能在混响条件下会下降，其产生的误差会对传递到定位过程，造成定位精度降低。同时，定位过程也容易出现存在多个解的情况。

基于神经网络的图像中物体定位、检测与人脸识别系统近年来也是热门的研究与应用领域之一。尽管神经网络算法的精度很高，但它同时也占用了很多系统资源。受制于摄像头的特性，可以被定位与识别的物体被限制在摄像头可以拍摄到的区域。单摄像头的拍摄区域十分有限，而增加摄像头则会大幅增加硬件成本与图像处理时的软件资源占用。不仅如此，图像处理的精度也会受到光照等环境变化的影响。

发明内容

本发明所要解决的技术问题在于，提供一种基于麦克风阵列与双目摄像头的说话人定位与识别方法，能够实现精准的360°全方位声源定位且大幅减少了软件开销，识别结果准确可靠。

为解决上述技术问题，本发明提供一种基于麦克风阵列与双目摄像头的说话人定位与识别方法，包括如下步骤：

(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台，分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型；

(2)将双目摄像头与麦克风阵列固定于旋转平台上，计算在当前环境中人脸识别模型与说话人识别模型的置信度w_V与w_A；

(3)麦克风阵列首先记录一段音频，计算其平均功率作为环境功率；

(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值时，且持续时间大于某阈值时，系统开始记录声音，并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ；

(5)将旋转平台旋转θ角，双目摄像头采集图像信息，并使用Google提供的TensorFlow Object Detection API中的Single Shot MultiBox Detector inTensorFlow框架与模型识别图片中物体信息；若识别结果中不存在人体，则认为所记录声音音源非人，系统恢复待机；

(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别，取置信度最高的前五个结果A₁,A₂,...,A₅；对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别，每个人体取置信度最高的前五个结果，最终为并将两种识别结果通过w_A与w_V进行加权平均，即对i＝1～5与j＝1～n，计算取最大值则最终结果为：说话人是目标y，其身份为x；

(7)利用双目定位技术确定目标当前位置，并结合θ角计算出目标在世界坐标系下的坐标。

优选的，步骤(1)中，麦克风阵列中包含不少于三颗麦克风。

优选的，步骤(1)中，使用CNN训练人脸识别模型，CNN的结构为依次输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层；其中，所有卷积层的卷积核大小为3×3，步长为1；池化层的池化方式为最大池化，核的大小为2×2，步长为2；卷积层1的深度为16，卷积层2的深度为32，卷积层3的深度为64；两层全连接层的神经元数量都为256个。

优选的，步骤(1)中，使用DNN训练说话人识别模型，DNN有四层全连接层，每层的神经元数量为256个。

优选的，步骤(2)中，计算在当前环境中人脸识别模型与说话人识别模型的置信度w_V与w_A具体为：在当前环境下使双目摄像头对准数据库中存在人脸数据的说话人甲，运行人脸识别程序n次，得到n个人脸识别输出为“甲”的置信度计算人脸识别的平均置信度接着，让甲开始不停说话，运行说话人识别程序n次，得到n个说话人识别输出为“甲”的置信度计算人脸识别的平均置信度最后，计算出人脸识别模型与说话人识别模型的置信度w_V与w_A分别为

优选的，步骤(4)中，当前功率与环境功率的差值大于的阈值为1kW，持续时间大于的阈值为50ms。

本发明的有益效果为：本发明主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位，之后再结合精度更高但是视野狭小的双目摄像头进行准确定位，在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销，使得系统能够获得更高的刷新率，或者在空闲时间内执行其他任务；同时本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的硬件结构示意图。

具体实施方式

如图1所示，一种基于麦克风阵列与双目摄像头的说话人定位与识别方法，包括如下步骤：

本发明首先构建包含麦克风阵列与双目摄像头的旋转平台，使用麦克风阵列以TDOA方法对说话人进行粗定位，并转动双目摄像头至粗定位位置，对此时双目摄像头采集到的图像进行物体检测，判断是否有人体位于双目摄像头视野当中。如果此时有人体被检测到，则进行说话人识别和人脸识别，将二者结果加权平均后作为最终识别结果，并返回该结果的位置。如果没有检测到人体，则系统恢复待机。该过程流程图如图1所示，包含如下过程：

构建包含待识别说话人的面部图像和i-vector特征的数据库。用图像数据库训练用于人脸识别的CNN模型；用i-vector特征数据库训练用于说话人识别的DNN模型。

将双目摄像头固定在旋转平台中心，以双目摄像头中心为原点，镜头方向为Z轴正方向、竖直向下为Y轴正方向建立三维双目摄像头坐标系XYZ，设其和世界坐标系的变换已知，为为其中R为旋转矩阵，t为三维平移向量。旋转平台的旋转轴应尽量与双目摄像头的Y轴重合。将四颗麦克风以正方形固定在平台四角，正方形对角线的焦点应尽量位于双目摄像头坐标系的Y轴上。四颗麦克风应处于同一水平面上，但不一定要与双目摄像头处于统一水平位置。麦克风不能遮挡双目摄像头视野。硬件放置方式如图2所示。

开启音视频处理程序，系统待机，等待说话人的语音信号输入。若接收到说话人的语音信号输入，在记录处理后的语音信号的同时进行下面步骤。

系统采用TDOA方法计算声源，在此应为说话人，相对于双目摄像头坐标系原点的三维坐标(x,y,z)，当z＞0和z＜0时，分别通过arctan(x/z)和π+arctan(x/z)来计算旋转角YAW的值θ，并记录θ值。

将旋转平台旋转角度θ。此时，双目摄像头坐标系变化为X’YZ’，如果声源定位没有误差，说话人在XZ平面内的投影应位于双目摄像头矩阵的Z轴上。此时，双目摄像头获取一张图片，并运行图像物体识别程序。若程序识别到了一个或多个人体目标，则进行下一步骤，否则认为采集到的音频信号并非由说话人发出，旋转平台绕Y轴旋转-θ，系统释放采集到的音频信号，恢复待机状态。

使用步骤(1)中训练好的DNN说话人识别模型对采集到的语音进行评分，取top3结果作为说话人识别的结果。同时，通过预先训练好的CNN人脸识别模型对双目摄像头采集到的所有人体的面部分别进行评分，同样取top5结果作为所有人脸目标的人脸识别结果。最后，通过加权平均法将说话人识别的top5结果和所有人脸识别结果进行融合，生成最终的top3检测结果。最后，取最终检测结果中评分最高项作为识别结果。

利用双目定位技术确定步骤六中的识别结果在当前双目摄像头坐标系X’YZ’中的位置(x′,y′,z′)，通过可以得到识别结果在世界坐标系中的位置。

本发明主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位，之后再结合精度更高但是视野狭小的双目摄像头进行准确定位，在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销，使得系统能够获得更高的刷新率，或者在空闲时间内执行其他任务；同时本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。

Claims

1.一种基于麦克风阵列与双目摄像头的说话人定位与识别方法，其特征在于，包括如下步骤：

(5)将旋转平台旋转θ角，双目摄像头采集图像信息，并使用Google提供的TensorFlowObject Detection API中的Single Shot MultiBox Detector in TensorFlow框架与模型识别图片中物体信息；若识别结果中不存在人体，则认为所记录声音音源非人，系统恢复待机；

(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别，取置信度最高的前五个结果A₁，A₂，…，A₅；对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别，每个人体取置信度最高的前五个结果，最终为并将两种识别结果通过w_A与w_V进行加权平均，即对i＝1～5与j＝1～n，计算取最大值则最终结果为：说话人是目标y，其身份为x；

2.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法，其特征在于，步骤(1)中，麦克风阵列中包含不少于三颗麦克风。

3.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法，其特征在于，步骤(1)中，使用CNN训练人脸识别模型，CNN的结构依次为输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层；其中，所有卷积层的卷积核大小为3×3，步长为1；池化层的池化方式为最大池化，核的大小为2×2，步长为2；卷积层1的深度为16，卷积层2的深度为32，卷积层3的深度为64；两层全连接层的神经元数量都为256个。

4.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法，其特征在于，步骤(1)中，使用DNN训练说话人识别模型，DNN有四层全连接层，每层的神经元数量为256个。

5.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法，其特征在于，步骤(2)中，计算在当前环境中人脸识别模型与说话人识别模型的置信度w_V与w_A具体为：在当前环境下使双目摄像头对准数据库中存在人脸数据的说话人甲，运行人脸识别程序n次，得到n个人脸识别输出为“甲”的置信度计算人脸识别的平均置信度接着，让甲开始不停说话，运行说话人识别程序n次，得到n个说话人识别输出为“甲”的置信度计算人脸识别的平均置信度最后，计算出人脸识别模型与说话人识别模型的置信度w_V与w_A分别为

6.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法，其特征在于，步骤(4)中，当前功率与环境功率的差值大于的阈值为1kW，持续时间大于的阈值为50ms。