CN109147813A

CN109147813A - 一种基于影音定位技术的服务机器人降噪方法

Info

Publication number: CN109147813A
Application number: CN201811107223.2A
Authority: CN
Inventors: 朱锦雷; 井焜; 赵耀; 张琨
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-01-04

Abstract

本发明公开一种基于影音定位技术的服务机器人降噪方法，针对服务机器人、自助设备应用中，将设备服务对象通过视觉、听觉、理解统一起来，根据视频内容反向决定是否处理及如何处理发音人信号，从而达到去除现场噪声，特别是不期望处理的周围人为噪声的目标。

Description

一种基于影音定位技术的服务机器人降噪方法

技术领域

本发明涉及一种基于影音定位技术的服务机器人降噪方法，属于人工智能与服务机器人领域。

背景技术

服务机器人会话技术已广泛应用于导医机器人、金融大堂机器人、导购机器人等领域。现有的机器人麦克阵列技术也已经解决了环境噪声抑制、回声抑制、去混响、单或多声源定位、声源数目估计、源分离、鸡尾酒会效应等系列问题。

当前，会话式人工智能技术普遍兴起，在新型人机交互过程中，周围人的发音对于构建人机会话系统构成了新的障碍，单纯从声音本身无法解决视觉目标与听觉目标的统一问题，从而造成无关人员的发音给人机交互过程带来不可区隔的影响，其本身就是影响正常会话的噪声干扰。

为解决视觉目标与听觉目标统一定位与追随，标记或消除目标外的其它方向声音的干扰、干预，提出一种基于影音定位技术的服务机器人降噪方法。

发明内容

本发明要解决的技术问题是提供一种基于影音定位技术的服务机器人降噪方法，视觉目标与听觉目标统一定位与追随，标记或消除目标外的其它方向声音的干扰、干预。

为了解决所述技术问题，本发明采用的技术方案是：一种基于影音定位技术的服务机器人降噪方法，包括以下步骤：S01）、通过深度影像识别人体或者人脸的方位特征信息，并对连续多帧方位检测信息做中值滤波处理；通过声源方位识别确定会话的目标人的方位特征信息，并对连续多帧方位检测信息做中值滤波处理；将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位，进而实现人的综合定位、特征识别与标记；S02）、降噪判断与预处理，通过影像定位场景中的人物与语音信号定位音源，将影像实体人物与音源耦合对应起来，形成现场发音人与其音源耦合对应起来，形成现场发音人与其音源的唯一标记，从而根据服务策略，过滤其它音源信号，达到去除人为噪声干扰的目的。

进一步的，步骤S02中，过滤其它音源，去除人为噪声的具体做法为：判断标记音频信号与服务机器人的距离，若标记音频信号来自服务机器人影像范围内最近的服务对象，则认为是正常服务对象的发音；若标记音频信号频来自其它服务对象，则认为是人为噪声，进行降噪处理。

进一步的，通过线性、环形等阵列采集语音信号，并通过麦克阵列硬件及算法识别音源的方向与距离；通过双目、景深等摄像头采集现场影像，并通过人体或者人脸检测识别现场人的方向和距离。

进一步的，中值滤波时，对三维坐标每一维度分别做中值滤波处理。

进一步的，耦合的方法为：判断中心点位置（X0,Y0,Z0）与人体中心点(X1,Y1,Z1)的两中心点之间的距离，若它们之间的欧式距离小于设置的误差值E，则将音源中心点与人体中心点耦合。

进一步的，耦合的方法为：判断音源中心点位置（X0,Y0,Z0）与人体中心点(X1,Y1,Z1)的距离，若它们的距离在Z深度坐标系统内的距离小于设定误差值E0，同时在[X,Y]坐标系内小于设定误差值E1，则将音源中心点与人体中心点耦合。

本发明的有益效果：本发明所述降噪方法主要是针对服务机器人、自助设备应用中，将设备服务对象通过视觉、听觉、理解统一起来，根据视频内容反向决定是否处理及如何处理发音人信号，从而达到去除现场噪声，特别是不期望处理的周围人为噪声的目标。

附图说明

图1为传统语音信号降噪的流程图；

图2为本发明所述降噪方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

噪声通常分为背景噪声和不期望人为噪声，本发明主要是针对不期望人为噪声的干扰，在本发明中，服务机器人对话过程中不期望人为噪声定义如下：服务机器人视野内追踪服务对象（特定人物）之外的声源。通过影像定位场景中的人物与语音信号定位音源，就可以将影像实体人物与音源对应起来，因为服务机器人主要为其视野内追踪服务对象提供对话服务，其它干扰声源（视为噪声）作为例外情况处理，从而达到去噪的目的。

如图1所示，为传统语音信号降噪的流程图，传统方法是先收集语音信号，然后根据噪声显性或隐性特征进行去除噪声，最后将声音信号应用。在传统的语音信号降噪时，没有考虑不期望的认为噪声，导致无法去除。

针对此问题，本实施例所述基于影音定位技术的服务人降噪方法，如图2所示，包括以下步骤：

S01）、通过线性、环形等阵列采集语音信号，通过双目、景深等摄像头采集现场影像；

S02）、通过麦克阵列硬件及算法识别音源的方向与距离，并对方位中心做中值滤波处理；通过人体检测（本实施例以人体检测为例，可用的技术手段还包括人脸检测识别等）识别现场人的方向和距离，并对方位中心点做中值滤波处理，追踪每个人并唯一标记；

S03）、将采集到的音频的方位信息与人体的方位信息耦合，则将音频与人体方位信息唯一标记对应起来，形成标记的音频端或音频流，不能对应人体方位信息的音频原标记为特殊符号；

S04）、通过对标记的音频信号进行识别与处理，过滤不期望处理的语音信号（或语音识别后的文本），从而达到去除人为干扰噪声的目的。具体处理方法为，若标记音频信号来自服务机器人影像范围内最近的服务对象，则人为是正常服务对象的发音；若标记音频信号来自其他服务对象，则认为是人为噪声，由其他系统处理。

本实施例中，对语音信号或者现场影像的方位中心点进行中值滤波处理的方法为：对三维坐标每一纬度分别做中值滤波处理。

本实施例中，语音信号与现场影像信号进行耦合的方法为：判断音源中心点位置（X0,Y0,Z0）与人体中心点(X1,Y1,Z1)的两中心点之间的距离，若他们之间的欧式距离小于设定的误差值E，则将音源中心点与人体中心点耦合。也可采用下列方式：判断音源中心点位置（X0,Y0,Z0）与人体中心点(X1,Y1,Z1)的距离，若它们的距离在Z深度坐标系统内的距离小于设定误差值E0，同时在[X,Y]坐标系内小于设定误差值E1，则将音源中心点与人体中心点耦合。

本实施例所述降噪方法不仅适用于服务机器人人机会话去除人为干扰噪声问题，还适用于其他具有影音交互的智能设备。

本实施例所述降噪方法主要是针对服务机器人、自助设备应用中，将设备服务对象通过视觉、听觉、理解统一起来，根据视频内容反向决定是否处理及如何处理发音人信号，从而达到去除现场噪声，特别是不期望处理的周围人为噪声的目标。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种基于影音定位技术的服务机器人降噪方法，其特征在于：包括以下步骤：S01）、通过深度影像识别人体或者人脸的方位特征信息，并对连续多帧方位检测信息做中值滤波处理；通过声源方位识别确定会话的目标人的方位特征信息，并对连续多帧方位检测信息做中值滤波处理；将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位，进而实现人的综合定位、特征识别与标记；S02）、降噪判断与预处理，通过影像定位场景中的人物与语音信号定位音源，将影像实体人物与音源耦合对应起来，形成现场发音人与其音源耦合对应起来，形成现场发音人与其音源的唯一标记，从而根据服务策略，过滤其它音源信号，达到去除人为噪声干扰的目的。

2.根据权利要去1所述的基于影音定位技术的服务机器人降噪方法，其特征在于：步骤S02中，过滤其它音源，去除人为噪声的具体做法为：判断标记音频信号与服务机器人的距离，若标记音频信号来自服务机器人影像范围内最近的服务对象，则认为是正常服务对象的发音；若标记音频信号频来自其它服务对象，则认为是人为噪声，进行降噪处理。

3.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法，其特征在于：通过线性、环形等阵列采集语音信号，并通过麦克阵列硬件及算法识别音源的方向与距离；通过双目、景深等摄像头采集现场影像，并通过人体或者人脸检测识别现场人的方向和距离。

4.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法，其特征在于：中值滤波时，对三维坐标每一维度分别做中值滤波处理。

5.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法，其特征在于：耦合的方法为：判断中心点位置（X0,Y0,Z0）与人体中心点(X1,Y1,Z1)的两中心点之间的距离，若它们之间的欧式距离小于设置的误差值E，则将音源中心点与人体中心点耦合。

6.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法，其特征在于：耦合的方法为：判断音源中心点位置（X0,Y0,Z0）与人体中心点(X1,Y1,Z1)的距离，若它们的距离在Z深度坐标系统内的距离小于设定误差值E0，同时在[X,Y]坐标系内小于设定误差值E1，则将音源中心点与人体中心点耦合。