CN109147813A - 一种基于影音定位技术的服务机器人降噪方法 - Google Patents
一种基于影音定位技术的服务机器人降噪方法 Download PDFInfo
- Publication number
- CN109147813A CN109147813A CN201811107223.2A CN201811107223A CN109147813A CN 109147813 A CN109147813 A CN 109147813A CN 201811107223 A CN201811107223 A CN 201811107223A CN 109147813 A CN109147813 A CN 109147813A
- Authority
- CN
- China
- Prior art keywords
- sound
- noise
- audio
- source
- service robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005516 engineering process Methods 0.000 title claims abstract description 17
- 238000010168 coupling process Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000008878 coupling Effects 0.000 claims description 8
- 238000005859 coupling reaction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开一种基于影音定位技术的服务机器人降噪方法,针对服务机器人、自助设备应用中,将设备服务对象通过视觉、听觉、理解统一起来,根据视频内容反向决定是否处理及如何处理发音人信号,从而达到去除现场噪声,特别是不期望处理的周围人为噪声的目标。
Description
技术领域
本发明涉及一种基于影音定位技术的服务机器人降噪方法,属于人工智能与服务机器人领域。
背景技术
服务机器人会话技术已广泛应用于导医机器人、金融大堂机器人、导购机器人等领域。现有的机器人麦克阵列技术也已经解决了环境噪声抑制、回声抑制、去混响、单或多声源定位、声源数目估计、源分离、鸡尾酒会效应等系列问题。
当前,会话式人工智能技术普遍兴起,在新型人机交互过程中,周围人的发音对于构建人机会话系统构成了新的障碍,单纯从声音本身无法解决视觉目标与听觉目标的统一问题,从而造成无关人员的发音给人机交互过程带来不可区隔的影响,其本身就是影响正常会话的噪声干扰。
为解决视觉目标与听觉目标统一定位与追随,标记或消除目标外的其它方向声音的干扰、干预,提出一种基于影音定位技术的服务机器人降噪方法。
发明内容
本发明要解决的技术问题是提供一种基于影音定位技术的服务机器人降噪方法,视觉目标与听觉目标统一定位与追随,标记或消除目标外的其它方向声音的干扰、干预。
为了解决所述技术问题,本发明采用的技术方案是:一种基于影音定位技术的服务机器人降噪方法,包括以下步骤:S01)、通过深度影像识别人体或者人脸的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;通过声源方位识别确定会话的目标人的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位,进而实现人的综合定位、特征识别与标记;S02)、降噪判断与预处理,通过影像定位场景中的人物与语音信号定位音源,将影像实体人物与音源耦合对应起来,形成现场发音人与其音源耦合对应起来,形成现场发音人与其音源的唯一标记,从而根据服务策略,过滤其它音源信号,达到去除人为噪声干扰的目的。
进一步的,步骤S02中,过滤其它音源,去除人为噪声的具体做法为:判断标记音频信号与服务机器人的距离,若标记音频信号来自服务机器人影像范围内最近的服务对象,则认为是正常服务对象的发音;若标记音频信号频来自其它服务对象,则认为是人为噪声,进行降噪处理。
进一步的,通过线性、环形等阵列采集语音信号,并通过麦克阵列硬件及算法识别音源的方向与距离;通过双目、景深等摄像头采集现场影像,并通过人体或者人脸检测识别现场人的方向和距离。
进一步的,中值滤波时,对三维坐标每一维度分别做中值滤波处理。
进一步的,耦合的方法为:判断中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的两中心点之间的距离,若它们之间的欧式距离小于设置的误差值E,则将音源中心点与人体中心点耦合。
进一步的,耦合的方法为:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的距离,若它们的距离在Z深度坐标系统内的距离小于设定误差值E0,同时在[X,Y]坐标系内小于设定误差值E1,则将音源中心点与人体中心点耦合。
本发明的有益效果:本发明所述降噪方法主要是针对服务机器人、自助设备应用中,将设备服务对象通过视觉、听觉、理解统一起来,根据视频内容反向决定是否处理及如何处理发音人信号,从而达到去除现场噪声,特别是不期望处理的周围人为噪声的目标。
附图说明
图1为传统语音信号降噪的流程图;
图2为本发明所述降噪方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
噪声通常分为背景噪声和不期望人为噪声,本发明主要是针对不期望人为噪声的干扰,在本发明中,服务机器人对话过程中不期望人为噪声定义如下:服务机器人视野内追踪服务对象(特定人物)之外的声源。通过影像定位场景中的人物与语音信号定位音源,就可以将影像实体人物与音源对应起来,因为服务机器人主要为其视野内追踪服务对象提供对话服务,其它干扰声源(视为噪声)作为例外情况处理,从而达到去噪的目的。
如图1所示,为传统语音信号降噪的流程图,传统方法是先收集语音信号,然后根据噪声显性或隐性特征进行去除噪声,最后将声音信号应用。在传统的语音信号降噪时,没有考虑不期望的认为噪声,导致无法去除。
针对此问题,本实施例所述基于影音定位技术的服务人降噪方法,如图2所示,包括以下步骤:
S01)、通过线性、环形等阵列采集语音信号,通过双目、景深等摄像头采集现场影像;
S02)、通过麦克阵列硬件及算法识别音源的方向与距离,并对方位中心做中值滤波处理;通过人体检测(本实施例以人体检测为例,可用的技术手段还包括人脸检测识别等)识别现场人的方向和距离,并对方位中心点做中值滤波处理,追踪每个人并唯一标记;
S03)、将采集到的音频的方位信息与人体的方位信息耦合,则将音频与人体方位信息唯一标记对应起来,形成标记的音频端或音频流,不能对应人体方位信息的音频原标记为特殊符号;
S04)、通过对标记的音频信号进行识别与处理,过滤不期望处理的语音信号(或语音识别后的文本),从而达到去除人为干扰噪声的目的。具体处理方法为,若标记音频信号来自服务机器人影像范围内最近的服务对象,则人为是正常服务对象的发音;若标记音频信号来自其他服务对象,则认为是人为噪声,由其他系统处理。
本实施例中,对语音信号或者现场影像的方位中心点进行中值滤波处理的方法为:对三维坐标每一纬度分别做中值滤波处理。
本实施例中,语音信号与现场影像信号进行耦合的方法为:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的两中心点之间的距离,若他们之间的欧式距离小于设定的误差值E,则将音源中心点与人体中心点耦合。也可采用下列方式:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的距离,若它们的距离在Z深度坐标系统内的距离小于设定误差值E0,同时在[X,Y]坐标系内小于设定误差值E1,则将音源中心点与人体中心点耦合。
本实施例所述降噪方法不仅适用于服务机器人人机会话去除人为干扰噪声问题,还适用于其他具有影音交互的智能设备。
本实施例所述降噪方法主要是针对服务机器人、自助设备应用中,将设备服务对象通过视觉、听觉、理解统一起来,根据视频内容反向决定是否处理及如何处理发音人信号,从而达到去除现场噪声,特别是不期望处理的周围人为噪声的目标。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (6)
1.一种基于影音定位技术的服务机器人降噪方法,其特征在于:包括以下步骤:S01)、通过深度影像识别人体或者人脸的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;通过声源方位识别确定会话的目标人的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位,进而实现人的综合定位、特征识别与标记;S02)、降噪判断与预处理,通过影像定位场景中的人物与语音信号定位音源,将影像实体人物与音源耦合对应起来,形成现场发音人与其音源耦合对应起来,形成现场发音人与其音源的唯一标记,从而根据服务策略,过滤其它音源信号,达到去除人为噪声干扰的目的。
2.根据权利要去1所述的基于影音定位技术的服务机器人降噪方法,其特征在于:步骤S02中,过滤其它音源,去除人为噪声的具体做法为:判断标记音频信号与服务机器人的距离,若标记音频信号来自服务机器人影像范围内最近的服务对象,则认为是正常服务对象的发音;若标记音频信号频来自其它服务对象,则认为是人为噪声,进行降噪处理。
3.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法,其特征在于:通过线性、环形等阵列采集语音信号,并通过麦克阵列硬件及算法识别音源的方向与距离;通过双目、景深等摄像头采集现场影像,并通过人体或者人脸检测识别现场人的方向和距离。
4.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法,其特征在于:中值滤波时,对三维坐标每一维度分别做中值滤波处理。
5.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法,其特征在于:耦合的方法为:判断中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的两中心点之间的距离,若它们之间的欧式距离小于设置的误差值E,则将音源中心点与人体中心点耦合。
6.根据权利要求1所述的基于影音定位技术的服务机器人降噪方法,其特征在于:耦合的方法为:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的距离,若它们的距离在Z深度坐标系统内的距离小于设定误差值E0,同时在[X,Y]坐标系内小于设定误差值E1,则将音源中心点与人体中心点耦合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811107223.2A CN109147813A (zh) | 2018-09-21 | 2018-09-21 | 一种基于影音定位技术的服务机器人降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811107223.2A CN109147813A (zh) | 2018-09-21 | 2018-09-21 | 一种基于影音定位技术的服务机器人降噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109147813A true CN109147813A (zh) | 2019-01-04 |
Family
ID=64823061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811107223.2A Pending CN109147813A (zh) | 2018-09-21 | 2018-09-21 | 一种基于影音定位技术的服务机器人降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147813A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110572600A (zh) * | 2019-08-20 | 2019-12-13 | 维沃移动通信有限公司 | 一种录像处理方法及电子设备 |
CN112712817A (zh) * | 2020-12-24 | 2021-04-27 | 惠州Tcl移动通信有限公司 | 一种声音过滤方法、移动设备及计算机可读存储介质 |
CN114664295A (zh) * | 2020-12-07 | 2022-06-24 | 北京小米移动软件有限公司 | 用于机器人的语音识别方法、装置及机器人 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008041878A2 (en) * | 2006-10-04 | 2008-04-10 | Micronas Nit | System and procedure of hands free speech communication using a microphone array |
KR20090084501A (ko) * | 2008-02-01 | 2009-08-05 | 전자부품연구원 | 로봇용 지능형 음성입력 장치 및 그 운용 방법 |
JP2009278381A (ja) * | 2008-05-14 | 2009-11-26 | Nippon Hoso Kyokai <Nhk> | 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置 |
CN103235287A (zh) * | 2013-04-17 | 2013-08-07 | 华北电力大学(保定) | 一种声源定位摄像追踪装置 |
CN105957521A (zh) * | 2016-02-29 | 2016-09-21 | 青岛克路德机器人有限公司 | 一种用于机器人的语音和图像复合交互执行方法及系统 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN107767137A (zh) * | 2016-08-23 | 2018-03-06 | 中国移动通信有限公司研究院 | 一种信息处理方法、装置及终端 |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
-
2018
- 2018-09-21 CN CN201811107223.2A patent/CN109147813A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008041878A2 (en) * | 2006-10-04 | 2008-04-10 | Micronas Nit | System and procedure of hands free speech communication using a microphone array |
KR20090084501A (ko) * | 2008-02-01 | 2009-08-05 | 전자부품연구원 | 로봇용 지능형 음성입력 장치 및 그 운용 방법 |
JP2009278381A (ja) * | 2008-05-14 | 2009-11-26 | Nippon Hoso Kyokai <Nhk> | 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置 |
CN103235287A (zh) * | 2013-04-17 | 2013-08-07 | 华北电力大学(保定) | 一种声源定位摄像追踪装置 |
CN105957521A (zh) * | 2016-02-29 | 2016-09-21 | 青岛克路德机器人有限公司 | 一种用于机器人的语音和图像复合交互执行方法及系统 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN107767137A (zh) * | 2016-08-23 | 2018-03-06 | 中国移动通信有限公司研究院 | 一种信息处理方法、装置及终端 |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110572600A (zh) * | 2019-08-20 | 2019-12-13 | 维沃移动通信有限公司 | 一种录像处理方法及电子设备 |
CN114664295A (zh) * | 2020-12-07 | 2022-06-24 | 北京小米移动软件有限公司 | 用于机器人的语音识别方法、装置及机器人 |
CN112712817A (zh) * | 2020-12-24 | 2021-04-27 | 惠州Tcl移动通信有限公司 | 一种声音过滤方法、移动设备及计算机可读存储介质 |
CN112712817B (zh) * | 2020-12-24 | 2024-04-09 | 惠州Tcl移动通信有限公司 | 一种声音过滤方法、移动设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147813A (zh) | 一种基于影音定位技术的服务机器人降噪方法 | |
CN110517705B (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 | |
CN106710603B (zh) | 利用线性麦克风阵列的语音识别方法及系统 | |
Aarabi et al. | Robust sound localization using multi-source audiovisual information fusion | |
EP1375084A1 (en) | Robot audiovisual system | |
CN102843543B (zh) | 视频会议提醒方法、装置和视频会议系统 | |
Donley et al. | Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments | |
CN106161985B (zh) | 一种浸入式视频会议的实现方法 | |
CN109239667A (zh) | 一种基于双麦克风阵列的声源定位方法 | |
DK2405673T3 (da) | Fremgangsmåde til lokalisering af en lydkilde og et multi-kanallydsystem | |
CN107820037B (zh) | 音频信号、图像处理的方法、装置和系统 | |
CN107124647A (zh) | 一种全景视频录制时自动生成字幕文件的方法及装置 | |
CN108986832A (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
Ban et al. | Exploiting the complementarity of audio and visual data in multi-speaker tracking | |
WO2021017096A1 (zh) | 一种将人脸信息录入数据库的方法和装置 | |
CN109147787A (zh) | 一种智能电视声控识别系统及其识别方法 | |
CN105957300A (zh) | 一种智慧金睛识别可疑张贴遮蔽报警方法和装置 | |
Courtois et al. | Implementation of a binaural localization algorithm in hearing aids: specifications and achievable solutions | |
CN113851143A (zh) | 一种拾音降噪方法及语音空调 | |
EP3209028A1 (en) | Acoustic image direction sense processing method and device | |
CN111932619A (zh) | 结合图像识别和语音定位的麦克风跟踪系统及方法 | |
Li et al. | Multiple active speaker localization based on audio-visual fusion in two stages | |
CN108122209A (zh) | 一种基于对抗生成网络的车牌去模糊方法 | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
CN110349587B (zh) | 一种两人场景下目标个体打呼区分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |