CN107333120A

CN107333120A - 一种基于麦克风阵列和立体视觉的集成传感器

Info

Publication number: CN107333120A
Application number: CN201710684083.4A
Authority: CN
Inventors: 王建华; 丁录国; 赵洁; 何珺; 王新群; 陈宇彬; 周乃鹏
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-11-07
Anticipated expiration: 2037-08-11
Also published as: CN107333120B

Abstract

本发明公开了一种基于麦克风阵列和立体视觉的集成传感器，包括硬件系统和控制系统；硬件系统包括麦克风阵列、立体视觉装置，麦克风阵列负责接收环境中声音信息并生成多路模拟音频；立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区，音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理)；视频处理区负责定位、追踪目标声源，即通过图像处理和图像识别对目标声源进行校准定位和精准追踪；视频音频合成区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。

Description

一种基于麦克风阵列和立体视觉的集成传感器

技术领域

本发明主要涉及一种基于麦克风阵列和立体视觉的集成传感器，特别是涉及一种基于麦克风阵列和立体视觉的声源定位追踪技术，属于集成传感器领域。

背景技术

在当今时代，要记录事件、场景等，音频和视频无疑是还原度最高的方式；随着互联网技术的飞速发展，人与人之间的交流越来越多的通过网络进行，比如说视频会议。然而，面对复杂的声场环境，声源位置的不可预估，传统的音频采集、视频录制方式面临重大考验。声场中不仅包含目标声源，还包括其它干扰声源；因此，采集的声音中不仅有目标声源的声音，还有环境噪声、声音的回声等，而传统音频录制方式对所有声音统一对待，不能有效提高信噪比(即削弱干扰声音)；而传统的视频录制方式中，摄像装置不能自主调整录制方向，需要摄影师手动调节，这不仅是一个技术活，还是一个体力活。在世界范围内，各国科研单位、高校、社会爱好者等对机器人、智能车及人工智能相关领域的研究逐渐加深，普及；传感器的模块化、集成化，算法的简化(高效)在人工智能产品的实现过程中起重要作用；而视觉和听觉作为获取环境信息的基本方式，在机器人和智能车获取环境信息上有极其广泛的应用。

国内的申请公开号CN201320273687，名为“基于麦克风阵列的无线视频跟踪监控系统”的专利，通过获得的音频推出声源大致方位并将其发送给云台控制中心调节摄像装置指向，以实现追踪声源的目的。

国内申请公开号为201410726856，名称为“一种基于麦克风阵列的摄像装置引导装置及引导方法”的专利，基于麦克风阵列，连续时刻内计算不同方向上麦克风阵列接收到的多路音频间的协方差，协方差最大的方向便是声源方向，以此追踪声源位置；然后将得到的声源位置信息实时发送给云台控制中心，以此实现摄像装置追踪物体的功能。

上述专利所涉及的音频处理进行声源追踪，是通过连续时刻内不停地对空间进行扫描(或计算相关性)，时间复杂度和空间复杂度大，对处理器的要求高，降低了声源追踪的实时性，对整个空间进行操作增加了干扰因素(环境干扰声源)，降低了定位追踪的精确性；而且，直接使用通过音频处理得到的声源坐标，存在较大误差，不能胜任高精度的追踪工作。

发明内容

针对现有技术的不足，本发明的主要目的是提供一种基于麦克风阵列和立体视觉的集成传感器。其功能在于：1.音频处理(基于麦克风阵列)实现对声源的定位、追踪；2.麦克风阵列辅助立体视觉装置进行图像识别、目标追踪和声源校准定位；3.提高音频的信噪比并得到视频、音频的融合信息。

本发明的目的是通过以下技术方案实现的：

一种基于麦克风阵列列和立体视觉的集成传感器，包括硬件系统和控制系统；

硬件系统包括：

麦克风阵列，采集环境中的音频信息，生成多路模拟音频信号s_i(t)，并输送至音频工作区；

立体视觉装置，由云台和摄像装置构成，摄像装置位于云台上中心位置，所述麦克风阵列以摄像装置为中心排布在云台上；摄像装置可以采集环境图像并传送到所述视频工作区中；云台可以接收视频工作区的控制指令进行横摆、俯仰、转动操作；同时立体视觉装置可以将自身当前状态的参数(云台横摆角、俯仰角、摄像装置焦距)发送给视频工作区；

控制系统包括：

音频工作区，对输入的多路模拟音频信号s_i(t)进行音频去噪和声源定位、声源追踪处理，得到声源大致坐标、声源最优方向和多路去噪数字音频信号；将声源大致坐标和声源最优方向输入到视频工作区，将声源大致坐标、声源最优方向和多路去噪数字音频信号输入到视频音频合成工作区；

视频工作区，根据输入的声源大致坐标和声源最优方向提取有效图像，经图像处理和图像识别，实现音频辅助图像校准定位和音频辅助图像精准追踪；亦可单独进行图像追踪；

视频音频合成工作区，从音频工作区获取多路音频并加权生成增强音频信号，从视频工作区获取视频信号，将按时间序列合成并输出视频音频信号的融合信号。

进一步地，所述音频工作区包括：

音频采集模块，将接收到的麦克风阵列采集的多路模拟音频信号s_i(t)进行模数转换得到数字音频信号s_i(k)后输入到音频缓冲区Ⅰ，其中，k表示时间序列；

音频缓冲区Ⅰ，暂存来自音频采集模块的数字音频信号s_i(k)；其中，数据存储于循环队列中，存入---读取---再存入(覆盖原有信息)循环执行；

音频去噪模块，从音频缓冲区Ⅰ读取上一时刻内存入的数字音频信号s_i(k)，然后依次通过滤波、加窗、谱减、倒谱操作对数字音频信号s_i(k)进行去噪，得到去噪音频音频信号x_i(k)并分别输入到音频追踪定位模块和视频音频合成工作区；

音频追踪定位模块，对输入的去噪音频信号x_i(k)使用广义互相关时延估计算法进行声源定位，得到声源大致坐标，将声源大致坐标发送给视频工作区；使用优化的空间谱估计算法进行声源追踪，得到连续时刻内的最优方向，将最优方向分别发送给视频工作区和音频视频合成工作区。

更进一步地，所述音频追踪定位模块使用优化的空间谱估计算法进行声源追踪，是通过空间谱估计算法对空间进行能量扫描，获取空间中能量最大的方向将其视为声源在t时长内的最优方向，具体过程如下：

1)声源经过定位然后进行声源追踪，为便于算法功能描述，麦克风阵列与立体视觉装置结构关系如下：麦克风阵列绕摄像装置均匀排布，因此以麦克风阵列为中心和以摄像装置为中心构建的坐标系相同，当立体视觉装置云台精准追踪声源(即云台平面指向声源)时有其中，为声源偏移坐标，追踪声源时，云台只需转动消去偏移坐标即可追踪声源；

2)令θ分别以Δθ的变化量进行能量扫描，为设定的的预估范围，θ₁、θ₂为设定的θ的预估范围且θ₁<θ₂；其中的预估范围即声源必定出现的最小范围，与θ₁、θ₂具体大小可根据物体移动速度、方向进行调节；

3)选取初始方向以的方向通过空间谱估计算法进行能量计算，得到此时音频信号的能量P₀₀；其中，

4)以四个方向进行能量计算，得到能量E₀₁、E₀₂、E₀₃、E₀₄；

5)比较P_00～04，五个值大小：

①若E₀₀最大，则令E_max＝E₀₀，并保存E_max和它表示的方向，即令

②若E_01～04中某一个最大，则将其赋给E₁₀，并将此时的方向坐标赋给然后重复进行上述步骤4)、步骤5)；若存在E_n0≥max{E_n1,E_n2,E_n3,E_n4}，则令E_max＝E_n0，并保存E_max和它表示的方向，即令其中，θ_n0∈[θ₁,θ₂]；

③若E_n0<max{E_n1,E_n2,E_n3,E_n4}恒成立，则重复执上述步骤4)、步骤5)操作，直至中某一个方向不在内，即或或θ_n0+Δθ)>θ₂或θ_n0-Δθ)<θ₁,记录此时能量E_n0，然后将其赋给E_max，记录此时的方向，并将其赋给其中为得到最大能量E_max的方向，n为比较的次数；

④E_max对应的方向即为t时刻内声源相于麦克风阵列的最优方向

进一步地，所述视频工作区包括：

云台控制中心，与立体视觉装置之间形成闭环控制，既能获取立体视觉装置状态，又可以改变立体视觉装置状态，控制云台进行校准操作；云台控制中心可接收来自音频工作区的声源大致坐标和声源最优方向，还可接收来自图像识别模块的目标声源校准地址，并向立体视觉装置发送读帧控制指令；

视频缓冲区Ⅰ，暂存摄像装置采集的图像信息；

图像处理模块，可以接收来自音频工作区的声源大致坐标或声源最优方向并从视频缓冲区Ⅰ读取一帧图像提取有效区域发送给图像识别模块，其中，读帧操作由云台控制中心和图像识别模块发送的读帧控制指令调控；

图像识别模块，对接收到的来自图像处理模块的有效图像进行逐个像素扫描并与目标声源图像进行匹配，获取目标声源的偏移坐标，然后，将偏移坐标发送给云台控制中心；向图像处理模块发送读帧控制指令(控制图像处理模块视频缓冲区Ⅰ读取一帧图像)。图像识别模块进行图像识别时对图像进行逐个像素扫描并与目标声源图像进行匹配，这样可以得到目标声源的偏移坐标(相对于图像中心)，即目标声源的校准地址，然后将校准地址发送给云台控制中心，图像识别模块向图像处理模块发送读帧控制指令。在进行图像识别操作，只要偏移坐标在误差(可根据精度需求自行调节)允许范围内，即为精准追踪，本时刻内方向定位完成(扩展到连续时刻即为追踪)。在进行图像追踪时，图像识别模块可直接控制图像处理模块读取图像追踪声源。

更进一步地，所述图像识别模块和所述立体视觉装置两者之间构成闭环控制：

图像识别模块可以识别目标声源在图像中的像素位置，而图像的像素点又与空间方位是一一映射的关系，因此，通过图像识别可以得到目标声源相对于云台的方向，得到目标声源的偏移坐标；图像识别模块可以通过云台控制中心间接控制云台完成校准操作，然后云台控制中心向图像处理模块发送读帧控制指令；图像处理模块再读取一帧图像，经图像处理和图像识别得到状态反馈(经校准操作后目标声源相对于云台位置)；通过上述过程，图像处理模块既可以控制立体视觉装置的状态，又可以获取立体视觉装置状态反馈，两者间形成闭环控制。

更进一步地，所述图像处理模块的读帧操作过程如下：

当视频工作区处于音频辅助图像校准定位或音频辅助图像精准追踪时，图像处理模块从视频缓冲区Ⅰ读取一帧图像的读帧操作需要双重触发：接收到音频工作区发送的声源大致坐标或最优方向后，云台控制中心向其发送读帧控制指令，图像处理模块从视频缓冲区Ⅰ读取一帧图像；而云台控制中心只会在云台完成校准操作后才会向图像处理模块发送读帧控制指令，从而确保所处理的图像准确包含目标声源的图像。

进一步地，所述视频音频合成工作区包括：

音频增强模块，接收来自音频工作区的去噪音频信号x_i(k)，并根据来自音频工作区的声源最优方向生成加权矩阵，对去噪音频信号x_i(k)进行加权求和，然后将求得的增强音频信号输入到音频缓冲区Ⅱ中；

音频缓冲区Ⅱ，暂存增强音频信号；

视频音频合成模块，分别从视频工作区和音频缓冲区Ⅱ中读取视频信号和音频信号并按照时间序列合成，然后输出(到存储器、播放设备等)。

更进一步地，所述音频增强模块的音频增强过程如下：

根据声源最优方向生成加权矩阵，据远场模型和近场模型临界值加权矩阵应按远场模型生成；

x(k)＝[x₀(k) x₁(k) x₂(k) … x_i(k) … x_n(k)]'

y(k)＝a*x(k)

上式经傅里叶变换及其逆变换便可求得麦克风阵列增强音频信号y(k)；其中，τ_i为编号为i的麦克风相对于坐标原点的延时，为编号i麦克风在xoy平面上的极坐标，c为声音在空气中的传播速度；

然后将增强音频信号y(k)输入到音频缓冲区Ⅱ。

本发明具有以下优点：

一、在音频处理实现声源追踪过程中采取递推法，由上一时刻的位置递推出本时刻声源最优方向。已知上一时刻声源位置后，就可根据声源移动速度划定必定包含声源的最小空间范围，然后在该空间范围内计算各个方向的能量(即对空间进行能量扫描)，能量最大的方向即为声源最优方向，连续时刻内重复执行该操作便可实现声源定位、追踪(连续时刻的定位)功能。这样就大大缩减了每次空间谱估计的范围，减少计算量，而且，还可以除去绝大部分环境干扰声源，除此之外，本发明还对空间谱估计算法做了简化，提高运算效率。

二、在麦克风阵列辅助立体视觉装置进行图像识别、目标追踪和声源校准定位中，核心是在连续时刻内通过图像处理和图像识别对目标声源的校准定位，以此实现精准追踪；而麦克风阵列的存在可以帮助处理器提取有效区域，大大缩减图像识别的运算量。

三、得到提高信噪比的音频以及视频、音频的融合信息，在现代通信中具有重要意义，尤其是视频会议。

附图说明

图1是本发明一种基于麦克风阵列和立体视觉的集成传感器硬件简图

图2是本发明的功能流程图

图3是本发明的各级处理器关系图。

其中：A₀为麦克风阵列，B₀为立体视觉装置；A₁为音频采集模块，A₂为音频缓冲区Ⅰ，A₃为音频去噪模块，A₄为音频追踪定位模块；B₁为云台控制中心，B₂为视频缓冲区Ⅰ，B₃为图像处理模块，B₄为图像识别模块；C₀为音频增强模块，C₁为音频缓冲区Ⅱ，C₂视频音频合成模块。

具体实施方式

以下结合附图详细介绍本发明的技术方案：

一种基于麦克风阵列和立体视觉的集成传感器，包括硬件系统和控制系统；硬件系统包括麦克风阵列、立体视觉装置，麦克风阵列负责接收环境中声音信息并生成多路模拟音频；立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区，音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理)；视频处理区负责定位、追踪目标声源，即通过图像处理和图像识别对目标声源进行校准定位和精准追踪；视频音频合成工作区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。

如图1所示，所述麦克风阵列，用于采集环境中声音，生成多路模拟音频信号s_i(t)，并将音频信号发送到音频工作区，其中，i为麦克风的编号。

所述立体视觉装置，由云台和摄像装置构成。摄像装置可以自动聚焦，可以采集图像并传送到视频缓冲区Ⅰ中；云台可以接收云台控制中心的控制指令，根据控制指令控制横摆电机和俯仰电机转动；同时立体视觉装置可以将自身当前状态的参数(云台横摆角、俯仰角、摄像装置焦距)发送给云台控制中心。

其中，摄像装置位于云台上中心位置，麦克风阵列也排布在云台上，麦克风阵列采用四元，以摄像装置为中心排布。以摄像装置为坐标系原点建坐标系，四个麦克风1、2、3、4分别在X正半轴、Y正半轴、X负半轴、Y负半轴上，且距原点的距离都是d。

如图2所示，控制系统工作时划分为三大工作区，分别是音频工作区、视频工作区和视频音频合成工作区。

其中，音频工作区用于音频处理(音频信号去噪，音频定位，音频追踪)，音频工作区包括音频采集模块A₁、音频缓冲区ⅠA₂、音频去噪模块A₃及音频追踪定位模块A₄；

视频工作区用于图像处理(音频辅助图像校准定位，音频辅助图像精准追踪，图像追踪)，视频工作区包括云台控制中心B₁、视频缓冲区ⅠB₂、图像处理模块B₃及图像识别模块B₄；

视频音频合成工作区用于音频增强(提升信噪比)和视频音频合成并输出，视频音频合成工作区包括音频增强模块C₀、音频缓冲区ⅡC₁及视频音频合成模块C₂。

以下详细介绍各工作区的工作流程：

一、音频工作区：音频工作区用于音频处理(音频信号去噪，音频定位，音频追踪)，音频工作区包括音频采集模块A₁、音频缓冲区ⅠA₂、音频去噪模块A₃及音频追踪定位模块A₄。

1.音频采集模块A₁

麦克风阵列A₀采集到多路模拟音频信号s_i(t)，并将模拟音频信号s_i(t)传送给音频采集模块A₁100；音频采集模块A₁对模拟音频信号s_i(t)进行模数转换，得到数字音频信号s_i(k)，然后将数字音频信号s_i(k)发送给音频缓冲区ⅠA₂101；其中t为时间，k为时间序列，i为麦克风编号。

2.音频缓冲区ⅠA₂

暂存来自音频采集模块的数字音频信号s_i(k)。其中，数据存储于循环队列中，存入---读取---再存入(覆盖原有信息)循环执行。

3.音频去噪模块A₃

音频去噪模块A₃连续时刻内从音频缓冲区ⅠA₂读取一个时间间隔(一个扫描周期，可根据追踪精度调整)长度的音频信号s_i(k)102，然后对音频s_i(k)进行滤波操作，滤除非人声频率范围内的语音；加窗操作，利用语音信号短时平稳性的特点；谱减操作，去除语音信号中的非相干噪声；倒谱操作，消除语音信号中的混响信号；最终得到去噪音频信号x_i(k)，再将去噪音频信号x_i(k)发送给音频追踪定位模块A₄103，同时将去噪音频信号x_i(k)发送给视频音频合成工作区的音频增强模块C₀104。

其中，音频去噪模块A₃对音频的操作过程如下：

1)滤波：采用模拟带通滤波对数字音频信号s_i(k)进行滤波，模拟带通滤波的上截止频率fH＝3500Hz，下截止频率fL＝200Hz，可以除去音频信号中非人声频率范围内的语音信号；

2)加窗：对带通信号进行加窗处理，得到加窗信号窗函数采用汉明窗；

3)谱减：对加窗信号进行谱减法操作，得到谱减信号然后对进行傅里叶反变换得到去噪信号

其中，为去噪信号的傅里叶变换，为加窗信号的傅里叶变换，为加窗信号中的非相干噪声，而为非相干噪声的傅里叶变换。除去中的非相干噪声得到去噪信号

4)倒谱：

(a)对去噪信号进行分帧处理，得到分帧信号

(b)对分帧信号用窗函数进行预加窗处理，得到预加窗信号

(c)对预加窗信号计算每帧的复倒谱信号x_i(k)，所述复倒谱计算公式为：

式中，FFT表示傅里叶变换，IFFT表示傅里叶反变换，ln表示自然对数。经过倒谱处理，可以除去音频信号中的混响信号。

4.音频追踪定位模块A₄

音频追踪定位模块A₄对从音频去噪模块A₃接收的去噪音频信号x_i(k)进行音频处理，采取广义互相关时延估计算法(TDOA)对声源进行定位，得到声源大致坐标，将声源大致坐标(x,y,z)发送给图像处理模块B₄106，并同时将声源大致坐标(x,y,z)发送给云台控制中心B₁107；音频追踪定位模块A₄采取优化的空间谱估计算法对声源位置进行追踪，得到连续时刻内的最优方向，然后将该时长内声源最优方向分别发送给音频增强模块C₀105、图像处理模块B₃106及云台控制中心B₁107。

音频定位采取广义互相关时延估计算法(TDOA)，操作如下：

第一步，对语音信号x_i(k)进行广义延时互相关估计得到τ_i，

x_i(t)＝α_is(t-τ_i)+n_i(t)；

进行傅里叶变换

其中，为序号为i，j的麦克风采集的音频信号的互相关函数，argmax表示使取得最大值时即为第i个麦克风与第j个麦克风所接收到信号的时延估计值；

第二步，公式计算：

利用第一步得到的τ_ij,进行广义互相关时延估计定位计算；

其中，(x,y,z)为声源坐标，R为声源与原点距离，r₁、r₂、r₃、r₄为声源到麦克风1、2、3、4间的距离，d为麦克风与原点间的距离，c为声音在空气中的传播速度。

音频追踪定位模块A₄从音频去噪模块A₃获得一个时间间隔长度的音频信号x_i(k)103，然后将该时长内声源最优方向发送给音频增强模块C₀105，同时将该时长内声源最优方向发送给图像处理模块B₃106，将该时长内声源最优方向发送给云台控制中心B₁107。

连续时刻内对声源进行定位即为声源追踪，然而，若在连续时刻内对声源进行广义互相关时延估计定位计算，计算量大，不利于追踪的实时性，因而采用空间谱估计算法进行声源追踪。本着缩减计算量，减少干扰因素的初衷，在进行追踪时采取递推法(由上一时刻声源最优方向划定声源必将出现的最小范围并在该范围内计算各方向的能量)，在确定能量最大的方向时采取逐步比较法，(将通过空间谱估计算法获取空间中能量最大的方向视为声源在t时长内的最优方向，其中t为扫描周期时长)具体过程如下：

1)声源经过定位然后进行声源追踪，立体视觉装置B₀云台精准追踪声源(即云台平面指向声源)时有其中，为声源偏移坐标，追踪声源时，云台只需转动消去偏移坐标即可追踪声源。

5)比较P_00～04，五个值大小：

②若E_01～04中某一个最大，则将其赋给E₁₀，并将此时的方向坐标赋给然后重复进行上述步骤4)、步骤5)；若存在E_n0≥max{E_n1,E_n2,E_n3,E_n4}，则令E_max＝E_n0，并保存E_max和它表示的方向，即令其中，

二.视频工作区：视频工作区用于图像处理(音频辅助图像校准定位，音频辅助图像精准追踪，图像追踪)，视频工作区包括云台控制中心B₁、视频缓冲区ⅠB₂、图像处理模块B₃及图像识别模块B₄；

1.云台控制中心B₁

云台控制中心B₁接收立体视觉装置B₀的状态(云台横摆角、俯仰角和摄像装置焦距)201，并向立体视觉装置B₀发送控制指令202，上述两步，云台控制中心B₁与立体视觉装置B₀间形成闭环控制；云台控制中心B₁接收来自音频追踪定位模块A₄的声源大致坐标或最优方向以及来自图像识别模块B₄的目标声源校准地址206(视频工作区经图像处理和图像识别得到的声源坐标)；

云台控制中心B₁通过与立体视觉装置B₀间的闭环控制(控制云台的横摆、俯仰和转动)使云台平面指向声源，当云台控制中心完成云台调节，便向图像处理模块B₃发送读帧控制指令207。

2.视频缓冲区ⅠB₂

立体视觉装置B₀将采集的连续帧图像发送到视频缓冲区ⅠB₂进行暂存200。

3.图像处理模块B₃

图像处理模块B₃接收到来自音频追踪定位模块A₄的声源大致坐标106、来自云台控制中心B₁的读帧控制指令207以及图像处理模块B₃发送的读帧控制指令205。当图像处理模块B₃接收到读帧控制指令后，从视频缓冲区ⅠB₂中读取一帧图像，并根据接收到的声源大致坐标提取有效区域，发送给图像识别模块B₄204；图像处理模块B₃的读帧操作由云台控制中心B₁和图像识别模块控制B₄。

4.图像识别模块B₄

图像识别模块B₄对接收到的来自图像处理模块B₃的有效图像进行逐个像素扫描并与目标声源图像进行匹配，获取目标声源的偏移坐标，然后，将偏移坐标发送给云台控制中心B₁。云台控制中心B₁调整云台清除偏移误差后，再次向图像处理模块B₃发送读帧控制指令。然后，图像处理模块B₃再次从视频缓冲区ⅠB₁读取一帧图像，按声源方向为(0°,0°)进行有效图像提取，并将提取的有效图像信息发送给图像识别模块B₄204，图像识别模块B₄对有效图像进行逐个像素扫描、匹配，得到声源偏移坐标(校准地址)。若偏移坐标在误差(可根据精度需求自行设定)允许范围内，认为方向定位成功；若超出允许误差范围，则将偏移误差发送给云台控制中心B₁重复上述操作，直至方向定位成功。然后，视频处理器获取摄像装置此刻焦距、云台此刻横摆角和俯仰角，可得到目标声源到立体视觉装置B₀的距离、目标声源相对于立体视觉装置B₀的方向，由此，便可精准定位目标声源位置。

其中，图像识别模块B₄和立体视觉装置B₀两者之间构成闭环控制。图像识别模块B₄可以识别目标声源在图像中的像素位置，而图像的像素点又与空间方位是一一映射的关系，因此，通过图像识别可以得到目标声源相对于云台的方向，得到目标声源的偏移坐标(校准地址)；图像识别模块B₄可以通过云台控制中心B₁间接控制云台横摆，俯仰，云台转动完成后，云台控制中心B₁向图像处理模块B₄发送读帧控制指令；图像处理模块B₄再读取一帧图像，经图像处理和图像识别得到状态反馈(校准后目标声源的偏移坐标)。这样，图像处理模块B₄既可以控制立体视觉装置B₀的状态，又可以获取立体视觉装置B₀状态反馈，两者间形成闭环控制。如图2集成传感器功能流程图所示，图像处理模块B₄通过206、202控制立体视觉装置B₀，通过200、203、204获取立体视觉装置B₀状态。

前面的音频辅助图像校准定位都是在一个时间间隔(一个扫描周期)内进行的，获得一个时刻声源精准坐标。而对目标声源的精准追踪可以看成连续时刻内对目标声源的校准定位的过程。

在一个时间间隔内，音频辅助图像精准追踪与音频辅助图像校准定位的操作相同的，此处只做简略阐述。

音频辅助图像精准追踪时以音频追踪定位模块A₄分别向图像处理模块B₃、云台控制中心B₁发送声源最优方向的操作为标志划分工作周期，该操作既是上一周期的结束，也是本周期的开始。当视频工作区接收到来自音频工作区的坐标信息后，按照音频辅助图像精准定位的操作进行，最终云台精准指向目标声源，操作结束，本周期工作结束。当视频工作区再次接收到来自音频工作区的坐标信息，下一周期工作开始，最终使云台精准指向目标声源。上述操作重复执行，最终，连续时刻中的每一个时刻云台都精准指向目标声源，由于一个时间间隔(扫描周期)很短，至于长时间环境中，可视为云台连续不间断精准指向目标声源。

图像识别模块B₄向图像处理模块B₃发送读帧控制指令205，然后图像处理模块B₃从视频缓冲区ⅠB₂中读取一帧图像并提取有效信息发送给图像识别模块B₄204，利用图像识别模块B₄与立体视觉装置B₀间的闭环控制，确定某一时刻目标声源位置。图像识别模块B₄连续控制图像处理模块B₃的读帧行为连续触发该过程，从而连续时刻追踪目标声源位置。

三.音频视频合成工作区：视频音频合成工作区用于音频增强(提升信噪比)和视频音频合成并输出，视频音频合成工作区包括音频增强模块C₀、音频缓冲区ⅡC₁及视频音频合成模块C₂。

1.音频增强模块C₀

音频增强模块C₀从音频去噪模块A₃接收一组一个时间间隔长度的去噪音频信号x_i(k)104，并从音频追踪定位模块A₄接收声源最优方向然后将增强的音频信号发送给音频缓冲区ⅡC₁暂存。音频增强过程如下：

根据声源最优方向生成加权矩阵，据远场模型和近场模型临界值加权矩阵应按远场模型生成。

x(k)＝[x₀(k) x₁(k) x₂(k) … x_i(k) … x_n(k)]'

y(k)＝a*x(k)

上式经傅里叶变换及其逆变换便可求得麦克风阵列增强音频信号y(k)。其中τ_i为序号为i的麦克风相对于坐标原点的延时，为编号i麦克风在xoy平面上的极坐标,c为声音在空气中的传播速度。然后将增强音频信号y(k)输入到音频缓冲区ⅡC₁300。

2.视频音频合成模块C₂

视频音频合成模块C₂分别从音频缓冲区ⅡC₁中读取音频信号301，从视频缓冲区ⅠB₂中读取视频信号302。然后，视频音频合成模块C₂把视频信号和音频信号按时间序列合成，并将其输入到外部存储器(例如资料记录)中或输出到外部设备播放(例如远程通信)303。本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

应当指出，本发明以四元麦克风绕摄像装置均匀排布在云台上的模型仅处于阐述方便的目的，在不脱离本发明原理的前提下，还能做许多修改和润饰，而这些修改和润饰也视为本发明的保护范围。

以下介绍本发明的实施案例：

本专利涵盖内容众多，逻辑组成复杂、功能多样，适应于多种采集场景，例如会议记录、远程通信、人工智能及设备等等，我们都可以应用其部分或全部功能，使用灵活方便。由于其适应场景众多，无法一一涵盖，现以视频会议为例说明。

本设备安装方便，可直接悬于天花板下方或用支架支撑，应根据实际情况合理安排，高度可根据需要自行调节。

为便于描述，仍以图1所示集成传感器硬件简图为例阐述。构建坐标系，原点为摄像装置，坐标轴分别过四个麦克风。

设备启动后，麦克风阵列A₀采集音频信号，立体视觉装置B₀采集视频信号分别输入到音频工作区和视频工作区。

如图3所示，控制体系分为三级控制体系，中央处理器为总控制器，从整体上协调三个处理器工作，调整同一处理器不同时刻的工作，下设三个二级处理器；视频处理器、音频处理器、视频音频合成处理器，分别为视频工作区、音频工作区、视频音频合成工作区的主处理器。二级处理器又下设若干三级处理器模块，细化分工。其中视频处理器下设的图像识别模块与图像处理模块，云台控制中心与图像处理模块可以进行同级控制。

音频工作区

在音频处理器的统筹安排下，输入量为模拟音频带噪信号，输出量为声源大致坐标或最优方向和数字音频去噪信号。其中对视频工作区输出声源大致坐标或最优方向，对视频音频合成工作区输出声源大致坐标或最优方向和数字音频去噪信号。

其中，音频采集模块A₁对输入模拟音频信号进行模数转换，将生成的数字音频信号暂存于音频缓冲区ⅠA₂，音频去噪模块A₃对数字音频信号进行滤波、加窗、谱减、倒谱操作，得到去噪语音信号，输出到视频音频合成工作区和音频追踪定位模块A₄，经广义互相关时延估计算法(TDOA定位算法)和空间谱估计算法分别得到声源大致坐标和最优方向，然后将其输入到视频工作区和视频音频合成工作区。

视频工作区

云台控制中心B₁与立体视觉装置B₀间形成闭环控制，在此基础上，图像处理模块B₃作为桥梁使立体视觉装置B₀的状态信息通过图像处理和图像识别被图像识别模块B₄获取，然后，图像识别模块B₄通过云台控制中心B₁可以改变立体视觉装置B₀的状态，两者之间构成闭环控制。当音频工作区向视频工作区输入声源大致坐标和连续时刻的最优方向时，视频工作区开始进行音频辅助图像校准定位、音频辅助图像精准追踪的操作。而操作的结果就是每一给时刻视频工作区都精准定位目标声源坐标，云台都精准指向目标声源(即摄像装置精确采集以目标声源为中心的图像信息)；而连续时刻中，视频工作区都精准追踪目标声源，云台精准、连续追踪声源(摄像装置采集方向随目标声源的运动而调整)。摄像装置采集的信息都会存入视频缓冲区ⅠB₂中。

视频音频合成工作区

视频音频合成工作区接收到音频工作区的声源大致坐标或声源最优方向和后，音频增强模块C₀按声源大致坐标或声源最优方向生成加权矩阵对多路数字音频去噪信号加权求和，生成增强音频信号并暂存于音频缓冲区ⅡC₁中。视频音频合成模块C₂从视频缓冲区ⅠB₂中读取视频信号，从音频缓冲区ⅡC₁中读取音频信号并按时间序列合成，生成视频音频合成文件，然后将其输出到外部播放设备。

视频音频合成信号传输时可以借助电缆、光纤传输，也可以借助无线通讯方式传输。

可以根据实际场景需要向中央处理器发送要求，由中央处理器调节整个集成传感器工作，充分利用其内部资源。

Claims

1.一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，包括硬件系统和控制系统；

硬件系统包括：

立体视觉装置，由云台和摄像装置构成，摄像装置位于云台上中心位置，所述麦克风阵列以摄像装置为中心排布在云台上；摄像装置可以采集环境图像并传送到所述视频工作区中；云台可以接收视频工作区的控制指令进行横摆、俯仰转动操作；同时立体视觉装置可以将自身当前状态的参数发送给视频工作区；

控制系统包括：

2.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述音频工作区包括：

音频采集模块，将接收到的麦克风阵列采集的多路模拟音频信号s_i(t)进行模数转换得到数字音频信号s_i(k)后输入到音频缓冲区Ⅰ；

音频缓冲区Ⅰ，暂存来自音频采集模块的数字音频信号s_i(k)；

音频追踪定位模块，对输入的去噪音频信号x_i(k)使用广义互相关时延估计算法进行声源定位，得到声源大致坐标，将声源大致坐标发送给视频工作区；使用空间谱估计算法进行声源追踪，得到连续时刻内的最优方向，将最优方向分别发送给视频工作区和音频视频合成工作区。

3.如权利要求2所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述音频追踪定位模块使用空间谱估计算法进行声源追踪，是通过空间谱估计算法进行空间能量扫描，获取空间中能量最大的方向将其视为声源在t时长内的最优方向，具体过程如下：

1)声源经过定位然后进行声源追踪，以摄像装置为中心构建坐标系，当立体视觉装置云台平面指向声源时有其中，为声源偏移坐标，追踪声源时，云台只需转动消去偏移坐标即可追踪声源；

2)令θ∈[θ₁,θ₂]，θ分别以Δθ的变化量进行能量扫描，为设定的的预估范围，θ₁、θ₂为设定的θ的预估范围且θ₁<θ₂；其中的预估范围即声源必定出现的最小范围，与θ₁、θ₂具体大小可根据物体移动速度、方向进行调节；

5)比较P_00～04，五个值大小：

③若E_n0<max{E_n1,E_n2,E_n3,E_n4}恒成立，则重复执上述步骤4)、步骤5)操作，直至中某一个方向不在θ∈[θ₁,θ₂]内，即或或θ_n0+Δθ)>θ₂或θ_n0-Δθ)<θ₁,记录此时能量E_n0，然后将其赋给E_max，记录此时的方向，并将其赋给其中为得到最大能量E_max的方向，n为比较的次数；

4.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述视频工作区包括：

视频缓冲区Ⅰ，暂存摄像装置采集的图像信息；

图像识别模块，对接收到的来自图像处理模块的有效图像进行逐个像素扫描并与目标声源图像进行匹配，获取目标声源的偏移坐标，然后，将偏移坐标发送给云台控制中心；在进行图像追踪时，图像识别模块可直接控制图像处理模块读取图像追踪声源。

5.如权利要求4所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述图像识别模块和所述立体视觉装置两者之间构成闭环控制：

图像识别模块可以识别目标声源在图像中的像素位置，而图像的像素点又与空间方位是一一映射的关系，因此，通过图像识别可以得到目标声源相对于云台的方向，得到目标声源的偏移坐标；图像识别模块可以通过云台控制中心间接控制云台完成校准操作，然后云台控制中心向图像处理模块发送读帧控制指令；图像处理模块再读取一帧图像，经图像处理和图像识别得到状态反馈；通过上述过程，图像处理模块既可以控制立体视觉装置的状态，又可以获取立体视觉装置状态反馈，两者间形成闭环控制。

6.如权利要求4所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述图像处理模块的读帧操作过程如下：

7.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述视频音频合成工作区包括：

音频缓冲区Ⅱ，暂存增强音频信号；

视频音频合成模块，分别从视频工作区和音频缓冲区Ⅱ中读取视频信号和音频信号并按照时间序列合成，然后输出。

8.如权利要求7所述的一种基于麦克风阵列和立体视觉的集成传感器，其特征在于，所述音频增强模块的音频增强过程如下：

x(k)＝[x₀(k) x₁(k) x₂(k) … x_i(k) … x_n(k)]′

y(k)＝a*x(k)

然后将增强音频信号y(k)输入到音频缓冲区Ⅱ。