CN109318243B

CN109318243B - 一种视觉机器人的声源跟踪系统、方法和清洁机器人

Info

Publication number: CN109318243B
Application number: CN201811512899.XA
Authority: CN
Inventors: 许登科; 邓文拔
Original assignee: Zhuhai Amicro Semiconductor Co Ltd
Current assignee: Zhuhai Amicro Semiconductor Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2023-07-07
Anticipated expiration: 2038-12-11
Also published as: CN109318243A

Abstract

本发明公开一种视觉机器人的声源跟踪系统、声源跟踪方法和清洁机器人，该声源跟踪系统包括语音定位处理单元、可转向的视觉模组和麦克风阵列模组，麦克风阵列模组以环形阵列的形式分布在视觉机器人的壳体侧边，并通过协议接口与语音定位处理单元建立电性连接；可转向的视觉模组设置在视觉机器人主体内部，模组内部的摄像头连接转动伺服舵机，转动伺服舵机通过另一协议接口与语音定位处理单元建立电性连接，用于在麦克风阵列模组的采样触发后，控制转动伺服舵机运行，以驱动摄像头对准采集人脸区域所在方位；语音定位处理单元用于将接收的可转向的视觉模组的视频参数和麦克风阵列模组的音频参数进行特征融合处理，以实现目标语音的定位。

Description

一种视觉机器人的声源跟踪系统、方法和清洁机器人

技术领域

本发明属于机器人技术领域，尤其涉及一种视觉机器人的声源跟踪系统、声源跟踪方法和清洁机器人。

背景技术

语音控制由于其便利性，在智能家居里面发挥了越来越大的作用，极大的释放了人的双手，提升了用户体验。但是在机器人领域，特别是清洁类机器人，由于内部各种电机的噪声，会使语音淹没在噪声中，并且，这种噪声不像音箱，输入的声音是可以预知的，导致了声源定位变得非常困难。

现有的声源定位技术就是通过具有一定几何关系的麦克风采集声音信号，再由数字信号处理以得到声源在某一参考坐标系统中的位置。经过多年的发展，基于麦克风阵列的声源定位技术已经有了一些比较成熟的理论和方法。技术大体上可以分为两类：(1) 基于最大输出功率的可控波束形成技术；(2) 高分辨率谱估计技术。其中，基于最大输出功率的可控波束形成技术是对阵列中具有一定几何关系阵元的输出信号进行相应处理形成波束，波束最大功率输出点即声源在参考域的位置。然而，这种处理方式存在计算复杂，运算量过大，定位计算所需时间过长，不适合实时定位系统等缺陷；高分辨率谱估计技术需要对矩阵进行特征值分解，因此运算量较大，计算时间也非常大，通常需要使用计算机来运算，也不适合应用于实时定位系统。

发明内容

为了克服上述技术缺陷，本发明提出以下技术方案：

一种视觉机器人的声源跟踪系统，该声源跟踪系统包括语音定位处理单元、可转向的视觉模组和麦克风阵列模组，麦克风阵列模组以环形阵列的形式分布在视觉机器人的壳体侧边，并通过协议接口与语音定位处理单元建立电性连接；可转向的视觉模组设置在视觉机器人主体内部，模组内部的摄像头连接转动伺服舵机，转动伺服舵机通过另一协议接口与语音定位处理单元建立电性连接，用于在麦克风阵列模组的采样触发后，控制转动伺服舵机运行，以驱动摄像头对准采集人脸区域所在方位，语音定位处理单元用于将接收的可转向的视觉模组的视频参数和麦克风阵列模组的音频参数进行特征融合处理，以实现目标语音的定位。所述声源跟踪系统先通过麦克风阵列模组采集音频数据完成粗定位，再触发可转向的视觉模组将人脸锁定在摄像头的视场范围内以实现声源的细定位，借助视觉辅助声源定位可提高定位精度。

进一步地，所述麦克风阵列模组采用六元环形阵列方式，六个麦克风阵列均匀间隔地环绕设置在所述视觉机器人底座的壳体侧边的同一平面的麦克风安装卡扣内。该技术方案可以将噪声环境中特定声音信号有效的增强，相对于现有的双麦克风可以做到360度全角度范围内的定位，其支持的算法体系更容易实现所述声源跟踪系统更好的降噪和语音增强效果。

进一步地，所述转动伺服舵机的输出轴安装所述摄像头，用于支持所述摄像头的上下转动和左右转动，采用上下左右转动试探的方式微矫正，可以克服现有声源定位的误差。

进一步地，所述视觉模组还包括支撑臂和舵机，舵机绕枢转轴线可上下摆动地设置在支撑臂的一端上，所述转动伺服舵机设置在支撑臂的另一端上。在麦克风阵列模组采样后，舵机驱动支撑臂将所述摄像头从所述视觉机器人主体内部伸出，在麦克风阵列模组停止采样时，舵机驱动支撑臂将所述摄像头缩回所述视觉机器人主体内部。这样有效地利用了视觉机器人自身的空间，使得机器人整体结构更加紧凑、美观。

进一步地，所述语音定位处理单元还用于在麦克风阵列模组采样触发后，控制转动伺服舵机运行以驱动所述摄像头试探性地转动，当采集到人脸嘴唇区域的图像时，继续驱动所述摄像头对准对嘴唇区域，并通过采集图像进行识别处理。提高所述声源跟踪系统的声源定位准确性，并有利于后续根据人脸嘴唇区域的图像进行语音识别。

进一步地，所述语音定位处理单元具体为RISC-32架构处理器，为所述麦克风阵列模组和所述视觉模组提供对应的协议接口，方便语音引擎和视觉引擎的SDK开发。

一种基于所述声源跟踪系统的声源跟踪方法，包括：启动所述麦克风阵列模组去捕获语音信号，当所述麦克风阵列模组获取到目标语音信号时，所述麦克风阵列模组触发可转向的视觉模组工作；可转向的视觉模组控制其内部的转动伺服舵机运行以驱动所述摄像头试探性地转动，当采集到人脸区域的图像时，继续驱动所述摄像头对准对人脸区域所在方位，并通过采集对准后的人脸区域的图像进行识别处理；控制语音定位处理单元接收的可转向的视觉模组的视频参数和麦克风阵列模组的音频参数进行特征融合处理，以实现目标语音的定位。所述声源跟踪方法先通过麦克风阵列模组采集音频数据完成粗定位，再触发可转向的视觉模组将人脸锁定在摄像头的视场范围内以实现声源的细定位，借助视觉辅助声源定位可提高定位精度。

进一步地，当所述麦克风阵列模组获取到目标语音信号时，通过触发所述支撑臂和所述舵机，驱动所述摄像头从所述视觉机器人主体内部伸出，在麦克风阵列模组停止采样时驱动所述摄像头缩回所述视觉机器人主体内部。这样有效地利用了视觉机器人自身的空间，使得机器人整体结构更加紧凑、美观。

进一步地，所述声源跟踪方法还包括：在所述麦克风阵列模组采样触发后，控制转动伺服舵机运行以驱动所述摄像头试探性地上下左右转动，当采集到人脸嘴唇区域的图像时，继续驱动所述摄像头对准对嘴唇区域，并通过采集对应图像进行识别处理。提高所述声源跟踪方法的声源定位准确性，可以克服现有声源定位的误差，并有利于后续根据人脸嘴唇区域的图像进行语音识别。

一种清洁机器人，该清洁机器人装设有所述声源跟踪系统，用于执行所述声源跟踪方法。与现有技术相比，本发明技术方案先通过麦克风阵列模组采集音频数据完成粗定位，再触发可转向的视觉模组将人脸锁定在摄像头的视场范围内以实现声源的细定位，借助使用图像信息与音频信息两种特征，使用特征融合

策略，有效避免如机器人马达，零件摩擦等造成的噪音干扰和声源信号的漏检，提高了机器人跟踪语音的准确率，以便实现对机器人的准确语音控制。

附图说明

图1是本发明提供的一种视觉机器人的声源跟踪系统的系统框架图。

图2是本发明实施例提供的视觉机器人内部的麦克风阵列模组和视觉模组在俯视面上的摆布示意图。

图3是本发明提供的一种视觉机器人的声源跟踪系统的结构示意图。

图4是本发明提供的一种视觉机器人的声源跟踪方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细描述。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

参阅图1所示，本发明实施例提供一种视觉机器人的声源跟踪系统，该声源跟踪系统包括语音定位处理单元、可转向的视觉模组和麦克风阵列模组，所述声源跟踪系统通过麦克风阵列模组对使用视觉机器人的用户对应的人脸所在方位的语音进行采集。在本发明实施例中，麦克风阵列模组以环形阵列的形式分布在视觉机器人的壳体侧边，并通过协议接口与语音定位处理单元建立电性连接。根据声波传导理论，利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法，麦克风阵列可以将噪声环境中特定声音信号有效的增强。由于麦克风阵列技术具有很好的抑制噪声和语音增强的能力，又不需要麦克风时刻指向声源方向，因此在语音处理领域具有非常好的前景，可以用在非常广的应用领域。

可转向的视觉模组设置在视觉机器人主体内部，该视觉模组内部包括摄像头和转动伺服舵机，可转向的视觉模组设置在视觉机器人主体内部，模组内部的摄像头连接转动伺服舵机，转动伺服舵机通过另一协议接口与语音定位处理单元建立电性连接，在麦克风阵列模组开始采样触发后，所述视觉模组从视觉机器人主体的内部伸出来，然后转动伺服舵机开始运行，驱动摄像头对所述声源跟踪系统周围环境进行图像采集，以确定所述声源跟踪系统的使用人员的具体位置，然后集中对准采集人脸区域所在方位，便于实现目标语音信号的定向拾取。在本实施例中，在识别到所述摄像头采集的图像中存在人脸时，通过对所述图像进行分析处理，并从所述图像中获取与所述人脸对应的面部信息，再根据所述面部信息及所述人脸在所述图像中的位置，得到所述人脸对应的使用人员在声源跟踪系统的周边环境中所在的方位及所述人脸对应的方位，即来源于所述人脸方位下的目标语音信号，从而降低外界噪声干扰。

在本发明实施例中，所述摄像头可以是固定地对特定方向的环境信息进行图像采集，也可以是根据需求对不同方向的环境信息进行图像采集，具体的情况可由所述声源跟踪系统的使用人员或生产厂家根据不同的需求进行不同的设置。在本实施例中，所述摄像头可以是，但不限于，数字摄像头、模拟摄像头等。

语音定位处理单元用于将接收的可转向的视觉模组的视频参数和麦克风阵列模组的音频参数进行特征融合处理，以实现目标语音的定位。

所述声源跟踪系统先通过麦克风阵列模组采集音频数据完成粗定位，再触发可转向的视觉模组将人脸锁定在摄像头的视场范围内以实现声源的细定位，借助视觉辅助声源定位可提高定位精度。对于获取的音频数据未进行去噪处理，然后基于广义互相关法到达时延差算法进行各个麦克风之间的时延参数计算，最后根据空间定位方法计算出目标声源的方向和位置，并将对应的音频参数传输给所述语音定位处理单元，然后触发可转向的视觉模组试探性地左右转动，所述语音定位处理单元将所述视觉模组实时采集的各个人脸的面部信息与存储在内置存储器中的特定使用人员的面部信息进行匹配，当匹配成功时，驱动所述摄像头对准人脸区域所在方位，再采集处理对准后的人脸区域的视频参数，控制时间同步的音频参数的数据流和视频参数的数据流进行直接连接，采用线性插值法实现音频特征和图像特征匹配混合，完成声源的精准定位。

作为一种优选例，如图2所示，200表示所述视觉机器人的机体，麦克风阵列模组采用六元环形阵列方式，其中六个麦克风阵列201均匀间隔地环绕设置在所述视觉机器人底座的壳体侧边的同一平面的麦克风安装卡扣内，其俯面视图如图2所示，可以做到360°全角度范围内的粗定位。如图2所示，机体200的中心位置设置可转向的视觉模组202。相对于现有技术采用的6+1麦克风阵列，该技术方案可以将视觉采集的优势弥补麦克风阵列中的噪声干扰，从而在噪声环境中增强特定声音信号，其支持的多流特征融合算法体系更容易实现所述声源跟踪系统更好的降噪和语音增强效果。

作为一种优选例，图3为麦克风阵列模组采集声音工作的实施场景，图3中视觉模组202包括转动伺服舵机2024和摄像头2023，转动伺服舵机2024的输出轴安装摄像头2023，转动伺服舵机2024的上下转动输出轴用于支持摄像头2023的上下转动，转动伺服舵机2024的左右转动输出轴用于支持摄像头2023的左右转动，视觉模组202采用上下左右转动试探的方式进行微矫正，以捕获人脸区域更为准确的方位，可以克服现有声源定位的误差。并且结构简单，容易实现。需要说明的是，麦克风阵列模组不进行采集声音工作时，视觉模组202内置于所述视觉机器人的机体200中。图3的麦克风阵列模组的摆放为：麦克风阵列201均匀分布于所述视觉机器人的机体200壳体侧边。

作为一种优选例，为了简化结构，同时考虑到减少机器人在不工作时的空间占用，如图3所示，所述视觉模组202还包括支撑臂2022和舵机2021，舵机2021绕枢转轴线（图3中穿过舵机2021中心的虚线）可上下摆动地设置在支撑臂2022的一端上，转动伺服舵机2024设置在支撑臂2022的另一端上。在麦克风阵列模组采集声音工作后，舵机2021驱动支撑臂2022将摄像头2023从所述视觉机器人的机体200内部伸出，在麦克风阵列模组停止采样时，舵机2021驱动支撑臂2022将摄像头2023缩回所述视觉机器人的机体200内部。这样有效地利用了视觉机器人自身的空间，使得机器人整体结构更加紧凑、美观、简单。此外，实现摄像头2023的上下摆动及左右摆动的方式并不局限于采用舵机，通过电机驱动也可以是现实的，只需要对电机的位置进行适应性地调整即可。

作为一种优选例，所述语音定位处理单元还用于在麦克风阵列模组采样触发后，控制转动伺服舵机运行以驱动所述摄像头试探性地转动，在麦克风阵列模组开始采样触发后，所述视觉模组从视觉机器人主体的内部伸出来，然后转动伺服舵机开始运行，驱动摄像头对所述声源跟踪系统周围环境进行图像采集，以确定所述声源跟踪系统的使用人员的具体位置。当采集到人脸嘴唇区域的图像时，继续驱动所述摄像头集中对准采集嘴唇区域，并对采集的唇区图像进行处理，同时结合麦克风阵列模组采样的音频信号，控制时间同步的音频参数的数据流和视频参数的数据流进行直接连接，采用线性插值法实现音频特征和图像特征匹配混合，使用HMM模型进行建模和声源定位，提高所述声源跟踪系统的声源定位准确性，并有利于后续根据人脸嘴唇区域的图像进行语音识别。

作为一种优选例，所述语音定位处理单元具体为RISC-32架构处理器，所述麦克风阵列模组和所述视觉模组分别通过串口/USB/I2C的协议接口连接所述语音定位处理单元，方便语音引擎和视觉引擎的SDK开发。

基于前述声源跟踪系统，本发明实施例另外提供一种声源跟踪方法，如图4所示包括：

步骤S401、启动所述麦克风阵列模组去捕获语音信号，然后进入步骤S402。

步骤S402、当所述麦克风阵列模组获取到目标语音信号时，所述麦克风阵列模组触发可转向的视觉模组工作，所述视觉模组从视觉机器人主体的内部伸出来。然后进入步骤S403。

步骤S403、可转向的视觉模组控制其内部的转动伺服舵机运行以驱动所述摄像头试探性地转动，具体地，转动伺服舵机开始运行时，驱动摄像头对所述声源跟踪系统周围环境进行图像采集，然后进入步骤S404。

步骤S404、当采集到人脸区域的图像时，继续驱动所述摄像头对准对人脸区域所在方位，并通过采集对准后的人脸区域的图像进行识别处理，然后进入步骤S405。在识别到所述摄像头采集的图像中存在人脸时，通过对所述图像进行分析处理，并从所述图像中获取与所述人脸对应的面部信息，再根据所述面部信息及所述人脸在所述图像中的位置，得到所述人脸对应的使用人员在声源跟踪系统的周边环境中所在的方位及所述人脸对应的方位，即来源于所述人脸方位下的目标语音信号，从而降低外界噪声干扰。

步骤S405、控制所述语音定位处理单元接收的可转向的视觉模组的视频参数和麦克风阵列模组的音频参数进行特征融合处理，以实现目标语音的定位。所述声源跟踪方法先通过麦克风阵列模组采集音频数据完成粗定位，再触发可转向的视觉模组将人脸锁定在摄像头的视场范围内以实现声源的细定位，借助视觉辅助声源定位可提高定位精度。具体地，对于获取的音频数据未进行去噪处理，然后基于广义互相关法到达时延差算法进行各个麦克风之间的时延参数计算，最后根据空间定位方法计算出目标声源的方向和位置，并将对应的音频参数传输给所述语音定位处理单元，然后触发可转向的视觉模组试探性地左右转动，所述语音定位处理单元将所述视觉模组实时采集的各个人脸的面部信息与存储在内置存储器中的特定使用人员的面部信息进行匹配，当匹配成功时，驱动所述摄像头对准人脸区域所在方位，再采集处理对准后的人脸区域的视频参数，控制时间同步的音频参数的数据流和视频参数的数据流进行直接连接，采用线性插值法实现音频特征和图像特征匹配混合，完成声源的精准定位。

作为一种实施例，当所述麦克风阵列模组获取到目标语音信号时，所述麦克风阵列模组可以在采集到所述声源跟踪系统的使用人员周围的声音，并且实时向所述语音定位处理单元输出声源在水平面的角度，可以得到0到360度范围的角度，这个角度的起始点是根据麦克风阵列201的位置摆放人为定义的，结合图2可以定义所述视觉机器人正前方为90度，向左减小，向右增大，角度范围为0~360 。如图3所示，视觉模组202通过触发支撑臂2022和舵机2021，驱动摄像头2023和转动伺服舵机2024从所述视觉机器人主体内部伸出，然后转动伺服舵机2024控制摄像头2023的俯仰动作和转动动作控制(上方的舵机负责俯仰，下方的舵机负责转动)。当麦克风阵列模组停止采样时，所述语音定位处理单元驱动所述摄像头缩回所述视觉机器人主体内部，有效地利用了视觉机器人自身的空间。

作为一种实施例，在所述麦克风阵列模组采样触发后，控制转动伺服舵机运行以驱动所述摄像头试探性地上下左右转动，当采集到人脸嘴唇区域的图像时，转动伺服舵机2024驱动摄像头2023微矫正，直到人脸嘴唇居中，居中的定义为人脸嘴唇的中心点到嘴唇图像左边框的距离与嘴唇图像的宽度的比例m满足0.5-n<m<0.5+n,n为人为设定阈值，然后通过采集对应嘴唇图像进行识别处理。同时结合麦克风阵列模组采样的音频信号，控制时间同步的音频参数的数据流和视频参数的数据流进行直接连接，采用线性插值法实现音频特征和图像特征匹配混合，使用HMM模型进行建模和声源定位，提高所述声源跟踪系统的声源定位准确性，并有利于后续根据人脸嘴唇区域的图像进行语音识别。

一种清洁机器人，该清洁机器人装设有所述声源跟踪系统，用于执行所述声源跟踪方法。与现有技术相比，本发明技术方案先通过麦克风阵列模组采集音频数据完成粗定位，再触发可转向的视觉模组将人脸锁定在摄像头的视场范围内以实现声源的细定位，借助使用图像信息与音频信息两种特征，使用特征融合策略，有效避免如机器人马达，零件摩擦等造成的噪音干扰和声源信号的漏检，提高了机器人跟踪语音的准确率，以便实现对机器人的准确语音控制。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种视觉机器人的声源跟踪系统，其特征在于，该声源跟踪系统包括语音定位处理单元、可转向的视觉模组和麦克风阵列模组，麦克风阵列模组以环形阵列的形式分布在视觉机器人的壳体侧边，并通过协议接口与语音定位处理单元建立电性连接；可转向的视觉模组设置在视觉机器人主体内部，模组内部的摄像头连接转动伺服舵机，转动伺服舵机通过另一协议接口与语音定位处理单元建立电性连接，用于在麦克风阵列模组的采样触发后，控制转动伺服舵机运行，以驱动摄像头对准采集人脸区域所在方位；

2.根据权利要求1所述声源跟踪系统，其特征在于，所述麦克风阵列模组采用六元环形阵列方式，六个麦克风阵列均匀间隔地环绕设置在所述视觉机器人壳体侧边的同一平面的麦克风安装卡扣内。

3.根据权利要求1所述声源跟踪系统，其特征在于，所述转动伺服舵机的输出轴安装所述摄像头，用于支持所述摄像头的上下转动和左右转动。

4.根据权利要求1所述声源跟踪系统，其特征在于，所述视觉模组还包括支撑臂和舵机，支撑臂的一端绕枢转轴线可上下摆动地设置在舵机上，所述转动伺服舵机设置在支撑臂的另一端上。

5.根据权利要求1所述声源跟踪系统，其特征在于，所述语音定位处理单元还用于在麦克风阵列模组采样触发后，控制转动伺服舵机运行以驱动所述摄像头试探性地转动，当采集到人脸嘴唇区域的图像时，继续驱动所述摄像头对准对嘴唇区域，并通过采集图像进行识别处理。

6.根据权利要求1所述声源跟踪系统，其特征在于，所述语音定位处理单元具体为RISC-32架构处理器，为所述麦克风阵列模组和所述视觉模组提供对应的协议接口。

7.一种基于权利要求1至6任一项所述声源跟踪系统的声源跟踪方法，其特征在于，包括：

启动所述麦克风阵列模组去捕获语音信号，当所述麦克风阵列模组获取到目标语音信号时，所述麦克风阵列模组触发可转向的视觉模组工作；

可转向的视觉模组控制其内部的转动伺服舵机运行以驱动所述摄像头试探性地转动，当采集到人脸区域的图像时，继续驱动所述摄像头对准对人脸区域所在方位，并通过采集对准后的人脸区域的图像进行识别处理；

控制语音定位处理单元接收的可转向的视觉模组的视频参数和麦克风阵列模组的音频参数进行特征融合处理，以实现目标语音的定位。

8.根据权利要求7所述声源跟踪方法，其特征在于，当所述麦克风阵列模组获取到目标语音信号时，通过触发支撑臂和舵机，驱动所述摄像头从所述视觉机器人主体内部伸出，在麦克风阵列模组停止采样时驱动所述摄像头缩回所述视觉机器人主体内部。

9.根据权利要求7所述声源跟踪方法，其特征在于，所述声源跟踪方法还包括：在所述麦克风阵列模组采样触发后，控制转动伺服舵机运行以驱动所述摄像头试探性地上下左右转动，当采集到人脸嘴唇区域的图像时，继续驱动所述摄像头对准对嘴唇区域，并通过采集对应图像进行识别处理。

10.根据权利要求7所述声源跟踪方法，其特征在于，所述特征融合处理包括：控制时间同步的音频参数的数据流和视频参数的数据流进行直接连接，采用线性插值法实现音频特征和图像特征匹配混合，完成声源的精准定位。

11.一种清洁机器人，其特征在于，该清洁机器人装设有权利要求1至6任一项所述声源跟踪系统，用于执行权利要求7至10任一项所述声源跟踪方法。