CN107534725B - 一种语音信号处理方法及装置 - Google Patents
一种语音信号处理方法及装置 Download PDFInfo
- Publication number
- CN107534725B CN107534725B CN201580079468.7A CN201580079468A CN107534725B CN 107534725 B CN107534725 B CN 107534725B CN 201580079468 A CN201580079468 A CN 201580079468A CN 107534725 B CN107534725 B CN 107534725B
- Authority
- CN
- China
- Prior art keywords
- sound source
- target sound
- source area
- microphone array
- image acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000004044 response Effects 0.000 claims abstract description 27
- 230000015654 memory Effects 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 15
- 230000003287 optical effect Effects 0.000 claims description 14
- 230000002708 enhancing effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000001514 detection method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000004807 localization Effects 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 3
- 101000824531 Homo sapiens CAAX prenyl protease 1 homolog Proteins 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 102000057847 human ZMPSTE24 Human genes 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明实施例公开了一种语音信号处理方法及装置,其中,该方法包括:通过图像采集设备采集目标发言人的图像;从该图像中确定目标发言人的嘴部区域,作为目标声源区域;通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息;根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置;在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。本发明实施例可以提高声源定位的准确度以及有效提高语音信号的降噪效果。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音信号处理方法及装置。
背景技术
在实际应用中,一般是通过麦克风来拾取语音信号,而拾取的语音信号往往会受到环境噪声、其他说话人的声音、混响等信号的干扰,使得语音的质量严重下降,因此,需要对拾取的语音信号进行有效的降噪处理,以抑制噪声,提高语音质量。
目前,常见的一种降噪技术是基于麦克风阵列的降噪方法,其原理是利用麦克风阵列定位声源,以确定波束方向,将麦克风接收到的且在该波束方向上的语音信号进行增强,同时尽量抑制其他方向上的干扰。在声源单一且环境噪声不复杂等情况下采用上述方法进行降噪会有较明显效果,然而,当多声源并发且环境噪声较为复杂时,容易引起来波方向角的误判,以致在进行声源定位时准确度下降,从而使得降噪效果降低。
发明内容
本发明实施例公开了一种语音信号处理方法及装置,能够提高声源定位的准确度以及有效提高语音信号的降噪效果。
本发明实施例第一方面公开了一种语音信号处理方法,包括:
通过图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
结合本发明实施例第一方面,在本发明实施例第一方面的第一种可能的实现方式中,所述通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息,包括:
提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第二种可能的实现方式中,所述根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置,包括:
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
结合本发明实施例第一方面或第一方面的第一种至第二种中的任一种可能的实现方式,在本发明实施例第一方面的第三种可能的实现方式中,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
结合本发明实施例第一方面或第一方面的第一种至第三种中的任一种可能的实现方式,在本发明实施例第一方面的第四种可能的实现方式中,所述在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理,包括:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点与任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
本发明实施例第二方面公开了一种语音信号处理装置,包括:
采集单元,用于通过图像采集设备采集目标发言人的图像;
第一确定单元,用于从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
获取单元,用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
第二确定单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
处理单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
结合本发明实施例第二方面,在本发明实施例第二方面的第一种可能的实现方式中,所述获取单元包括:
第一获取子单元,用于提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
第二获取子单元,用于根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
结合本发明实施例第二方面的第一种可能的实现方式,在本发明实施例第二方面的第二种可能的实现方式中,所述第二确定单元包括:
第一确定子单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
第二确定子单元,用于根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
结合本发明实施例第二方面或第二方面的第一种至第二种中的任一种可能的实现方式,在本发明实施例第二方面的第三种可能的实现方式中,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
结合本发明实施例第二方面或第二方面的第一种至第三种中的任一种可能的实现方式,在本发明实施例第二方面的第四种可能的实现方式中,所述处理单元包括:
第一计算子单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
第二计算子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
时延补偿子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
本发明实施例第三方面公开了一种语音信号处理装置,包括:处理器、存储器、通信总线、图像采集设备和麦克风阵列;
其中,所述存储器用于存储程序和数据;
所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信;
所述处理器用于调用所述存储器存储的程序,执行如下步骤:
通过所述图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
结合本发明实施例第三方面,在本发明实施例第三方面的第一种可能的实现方式中,所述处理器通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息的方式具体为:
提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
结合本发明实施例第三方面的第一种可能的实现方式,在本发明实施例第三方面的第二种可能的实现方式中,所述处理器根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置的方式具体为:
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
结合本发明实施例第三方面或第三方面的第一种至第二种中的任一种可能的实现方式,在本发明实施例第三方面的第三种可能的实现方式中,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
结合本发明实施例第三方面或第三方面的第一种至第三种中的任一种可能的实现方式,在本发明实施例第三方面的第四种可能的实现方式中,所述处理器在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
本发明实施例中,可以通过图像采集设备采集目标发言人的图像,根据图像确定目标发言人的嘴部区域,以作为目标声源区域,可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息,并根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置,当通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。可见,本发明实施例可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音信号处理方法的流程示意图;
图2是本发明实施例公开的另一种语音信号处理方法的流程示意图;
图3是本发明实施例公开的一种目标声源定位的坐标示意图;
图4是本发明实施例公开的一种语音信号处理装置的结构示意图;
图5是本发明实施例公开的另一种语音信号处理装置的结构示意图;
图6是本发明实施例公开的又一种语音信号处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种语音信号处理方法及装置,能够提高声源定位的准确度以及有效提高语音信号的降噪效果。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种语音信号处理方法的流程示意图。如图1所示,该语音信号处理方法可以包括以下步骤:
S101、通过图像采集设备采集目标发言人的图像。
本发明实施例中,可以是语音信号处理装置通过图像采集设备实时采集目标发言人的图像,具体可以是在语音信号处理装置开启视频通话或免提会议等模式时通过图像采集设备实时采集目标发言人的图像。其中,语音信号处理装置可以包括但不限于智能手机、个人电脑、多媒体播放器、可视电话以及可实现通信的装置等。
本发明实施例中,图像采集设备可以是一个或多个,可以集成在语音信号处理装置内部,也可以是独立于语音信号处理装置的外部设备且与语音信号处理装置保持通信连接;图像采集设备可以是摄像头、相机等设备,本发明实施例不作限定。
S102、从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
在一个实施例中,可以在从该图像中确定目标发言人的嘴部区域之前,检测该图像中是否包含目标发言人的人脸图像,即人脸检测的过程。常见的人脸检测有以下几种方法:基于特征的人脸检测法、模板匹配的人脸检测法、基于外观的人脸检测法等等。其中,基于特征的人脸检测法的实现过程为将提取的图像的特征信息与预先存储的人脸特征信息进行比较,以判断是否包含人脸;模板匹配的人脸检测法的实现过程为将图像与预先建立的人脸模板进行匹配,以判断是否包含人脸;基于外观的人脸检测法的实现过程为将图像与预先训练的人脸和非人脸分类器进行比对,以判断是否包含人脸。在该实施例中,上述人脸检测方法可以单独使用,也可以结合使用。
在一个实施例中,当该图像中包含人脸图像时,在该人脸图像区域,采用哈尔Haar嘴部特征分类器,定位嘴部在该人脸图像上的大致位置;根据人脸面部特征分布满足三分之一比例的原则,将获取的嘴部的大致位置中满足在人脸下部1/3区域的位置,确定为嘴部的最终位置,并将其划定为嘴部区域,该嘴部区域即为目标声源区域。
S103、通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。
本发明实施例中,点特征定位是一种运用单帧图像的定位方法,是根据目标声源区域上n个特征点来确定图像采集设备的相对位置和姿态,也就是利用图像采集设备摄取一幅包含有n个空间点的图像,且这n个空间点的坐标已知,来确定这n个空间点在图像采集设备的坐标系下的坐标,从而获得目标声源区域相对图像采集设备的位置信息。其中,n为大于0的整数。
S104、根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
本发明实施例中,麦克风阵列包括至少两个麦克风,且各个麦克风均可以为全向接收型麦克风,即可以拾取各个方向的语音信号。麦克风阵列可以集成在语音信号处理装置的内部,也可以独立于语音信号处理装置且与语音信号处理装置保持通信连接。
本发明实施例中,图像采集设备与麦克风阵列之间的空间相对位置可以是已知的,可以预先存储在语音信号处理装置的存储器中。通过预先存储的图像采集设备与麦克风阵列之间的空间相对位置,以及执行步骤S103时获取到的目标声源区域相对图像采集设备的位置信息,可以确定出目标声源区域与麦克风阵列之间的相对位置。
S105、在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,语音信号处理装置在通过麦克风阵列中的各个麦克风采集到来自任意方向的语音信号后,在获取到目标声源区域与麦克风阵列之间的相对位置的情况下,可以利用波束形成技术将各个麦克风采集到的语音信号进行增强处理,以增强各麦克风指向目标声源方向的语音信号,而抑制接收到的其他方向上的语音信号。
本发明实施例中,波束形成技术是通过对各个麦克风接收到的语音信号进行加权处理,增强特定方向语音信号而削弱其它方向语音信号,从而得到来自特定方向的语音信号,此时,特定方向为各麦克风指向目标声源的方向。麦克风阵列的波束形成能力使其可以在捕捉方向性声源的同时,提供比单麦克风更高的系统输出信噪比。目前,波束形成技术运用相当普遍,常见的波束形成算法有LMS(Least mean square,最小均方)算法、RLS(Recursive Least Squares,递归最小二乘法)算法、MVDR(Minimum VarianceDistortionless Response,最小方差无失真响应)算法等等。本发明实施例选用的是MVDR波束形成算法,其原理为让感兴趣的语音信号无失真输出,而使得波束输出噪声方差最小。与LMS算法、RLS算法等相比,MVDR算法能够提高阵增益,因此对噪声的抑制能力更强。
本发明实施例中,可以通过图像采集设备采集目标发言人的图像,根据图像确定目标发言人的嘴部区域,以作为目标声源区域,可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息,并根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置,当通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。通过实施图1所描述的语音信号处理方法,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图2,图2是本发明实施例公开的另一种语音信号处理方法的流程示意图。如图2所示,该语音信号处理方法可以包括以下步骤:
S201、通过图像采集设备采集目标发言人的图像。
本发明实施例中,当语音信号处理装置开启视频通话或者免提会议等模式时,可以通过一个或多个图像采集设备采集目标发言人的图像。其中,图像采集设备可以是摄像头、相机等,本发明实施例不作限定。
本发明实施例中,目标发言人可以是一个,也可以是多个。可以利用一个图像采集设备采集多个目标发言人的图像,也可以利用多个图像采集设备采集多个目标发言人的图像。
S202、从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
本发明实施例中,可以按照预设的算法从该图像中确定出目标发言人的嘴部区域,并将其定位为目标声源区域。当目标发言人不止一个时,则可以同时确定出多个目标发言人的嘴部区域,以得出多个目标声源区域。
S203、提取目标声源区域的至少一个点特征,根据点特征的像素值获取点特征在该图像的坐标系下的坐标,其中,该图像的坐标系中的坐标原点为图像采集设备的光轴在该图像上的垂直投影点,且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内。
本发明实施例中,在目标声源区域上可以提取若干个点特征,这些点特征在该图像内都有与之对应的像素值,从而可以将这些像素值看作是点特征在该图像内构建的坐标系下的坐标。该图像的坐标系为二维坐标系,其中,坐标原点为图像采集设备的光轴在该图像上的垂直投影点,两个轴互相垂直且处于该图像所在平面内。
S204、根据点特征在该图像的坐标系下的坐标和图像采集设备的焦距,获取目标声源区域的中心点在图像采集设备的坐标系下的坐标,作为目标声源区域相对图像采集设备的位置信息;其中,图像采集设备的坐标系中的坐标原点为图像采集设备的中心点,且图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直,其余两个轴分别与该图像的坐标系的两个轴平行。
本发明实施例中,可以以图像采集设备的中心点(即光心)为坐标原点构建图像采集设备的坐标系,图像采集设备的坐标系为三维坐标系,三个轴两两互相垂直,其中一个轴与该图像所在平面垂直,另外两个轴分别与该图像的坐标系的两个轴平行。在点特征在该图像的坐标系下的坐标已知,以及图像采集设备的焦距已知的情况下,可以利用图像采集设备的坐标系与该图像的坐标系的位置关系,确定出目标声源区域上的点特征在图像采集设备的坐标系下的坐标,并选取目标声源区域的其中一个点特征的坐标或者是目标声源区域的中心点的坐标作为目标声源区域相对图像采集设备的位置信息。
请一并参阅图3,图3是本发明实施例公开的一种目标声源定位的坐标示意图。其中,图3中仅示出了一个图像采集设备,且麦克风阵列只包括两个麦克风m1和m2的情况。本领域技术人员可以理解,图3中示出的图像采集设备和麦克风阵列的排列并不构成对本发明的限定,它们既可以处在同一直线上,也可以任意排列,还可以包括比图3所示的更多的图像采集设备和麦克风。
其中,o点为图像采集设备的中心点(即光心),o′点为图像采集设备的光轴在该图像上的垂直投影点,该图像的坐标系以o′点为坐标原点,两个轴u轴和v轴互相垂直,且在该图像所在平面内。在目标声源区域上选取若干个点特征,且这些点特征在该图像的坐标系下坐标已知,其中点M为目标声源区域的中心点,且点M在该图像的坐标系下的坐标也已知。图像采集设备的坐标系以o点为坐标原点,三个轴x轴、y轴和z轴互相垂直,其中,y轴与该图像所在平面垂直,垂足即为o′点,x轴与u轴平行,z轴与v轴平行,o o′为图像采集设备的焦距。根据两个坐标系的位置关系以及点特征在该图像的坐标系下的坐标已知,即可确定出点特征在图像采集设备的坐标系下的坐标,即可确定点M在图像采集设备的坐标系下的坐标,从而获得目标声源区域相对图像采集设备的位置信息。
S205、根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
本发明实施例中,步骤S205的具体实施方式可以包括以下步骤:
21)根据预先存储的图像采集设备与麦克风阵列的空间相对位置,确定麦克风阵列在图像采集设备的坐标系下的坐标;
22)根据麦克风阵列在图像采集设备的坐标系下的坐标,以及目标声源区域的中心点在图像采集设备的坐标系下的坐标,确定目标声源区域的中心点与麦克风阵列的相对位置,作为目标声源区域与麦克风阵列的相对位置。
本发明实施例中,图像采集设备与麦克风阵列的空间相对位置是已知的,如图3所示,麦克风阵列包括的两个麦克风m1、m2均位于x轴上,且与图像采集设备的距离均为L,因此,可以根据两个麦克风与图像采集设备的距离确定出两个麦克风在图像采集设备的坐标系下的坐标。获得两个麦克风m1、m2在图像采集设备的坐标系下的坐标,以及目标声源区域的中心点M在图像采集设备的坐标系下的坐标,即可确定出目标声源区域的中心点M与两个麦克风m1、m2之间的相对位置。
S206、在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,麦克风阵列中的任意两个麦克风之间的距离大于语音信号的波长的一半。其中,语音信号的波长为语音信号在空气中的传播速度除以语音信号的频率所获得的结果。
本发明实施例中,步骤S206的具体实施方式可以包括以下步骤:
23)在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离,并计算目标声源区域的中心点与任意两个麦克风的声程差,其中,该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
24)根据目标声源区域的中心点至上述任意两个麦克风的声程差,计算目标声源区域的中心点至上述任意两个麦克风的时延;
25)根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向目标声源区域方向的语音信号。
本发明实施例中,当目标声源区域与麦克风阵列的相对位置已知的情况下,可以计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离,并可以进一步计算出目标声源区域的中心点至任意两个麦克风的声程差。接着,将该声程差除以语音信号的传播速度,即可获得目标声源区域的中心点至上述任意两个麦克风的时延Δt,此时,时延Δt为上述任意两个麦克风分别接收到目标声源区域发出的语音信号的时间差值。并根据该时延Δt对上述任意两个麦克风进行时延补偿,从而增强各麦克风接收到的指向目标声源区域方向的语音信号,而抑制其他方向上的语音信号。
举例来说,如图3所示,分别获得了麦克风m1和麦克风m2在图像采集设备的坐标系下的坐标,且确定了目标声源区域的中心点M在图像采集设备的坐标系下的坐标,则可以计算出目标声源区域的中心点M与麦克风m1之间的直线距离S1,以及目标声源区域的中心点M与麦克风m2之间的直线距离S2。进一步地,可以计算出目标声源区域的中心点M与麦克风m1和麦克风m2的直线距离的绝对差值|S1-S2|,并将该绝对差值|S1-S2|作为目标声源区域的中心点M至麦克风m1和麦克风m2的声程差。接着,将声程差|S1-S2|除以语音信号在空气中的传播速度(一般为340m/s),即得出目标声源区域的中心点M至麦克风m1和麦克风m2的时延Δt,并根据时延Δt对麦克风m1和麦克风m2进行时延补偿,以最大输出麦克风m1和麦克风m2指向目标声源区域的中心点M方向的语音信号,并尽量抑制接收到的其他方向上的语音信号。
在一个实施例中,图2所描述的语音信号处理方法还可以包括以下步骤:
26)提高增强处理后的语音信号的增益,并对该语音信号进行滤波处理。
在该实施例中,可以利用IIR(Infinite Impulse Response,无限脉冲响应)数字滤波器对增强处理后的语音信号进行滤波处理,以适当提升语音信号频带中的较高频带,从而可以提高语音信号的清晰度。
本发明实施例中,通过实施图2所描述的语音信号处理方法,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图4,图4是本发明实施例公开的一种语音信号处理装置的结构示意图。其中,图4所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图4所示,该语音信号处理装置可以包括:
采集单元401,用于通过图像采集设备采集目标发言人的图像。
本发明实施例中,采集单元401可以是在语音信号处理装置开启视频通话或免提会议等模式时通过图像采集设备实时采集目标发言人的图像。其中,图像采集设备可以是一个或多个,可以集成在语音信号处理装置内部,也可以是独立于语音信号处理装置的外部设备且与语音信号处理装置保持通信连接;图像采集设备可以是摄像头、相机等设备,本发明实施例不作限定。
第一确定单元402,用于从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
在一个实施例中,在第一确定单元402从该图像中确定目标发言人的嘴部区域之前,语音信号处理装置可以检测该图像中是否包含目标发言人的人脸图像,即人脸检测的过程。常见的人脸检测有以下几种方法:基于特征的人脸检测法、模板匹配的人脸检测法、基于外观的人脸检测法等等。其中,基于特征的人脸检测法的实现过程为将提取的图像的特征信息与预先存储的人脸特征信息进行比较,以判断是否包含人脸;模板匹配的人脸检测法的实现过程为将图像与预先建立的人脸模板进行匹配,以判断是否包含人脸;基于外观的人脸检测法的实现过程为将图像与预先训练的人脸和非人脸分类器进行比对,以判断是否包含人脸。在该实施例中,上述人脸检测方法可以单独使用,也可以结合使用。
在一个实施例中,当检测出该图像中包含人脸图像时,在该人脸图像区域,第一确定单元402可以采用哈尔Haar嘴部特征分类器,定位嘴部在该人脸图像上的大致位置;根据人脸面部特征分布满足三分之一比例的原则,将获取的嘴部的大致位置中满足在人脸下部1/3区域的位置,确定为嘴部的最终位置,并将其划定为嘴部区域,该嘴部区域即为目标声源区域。
获取单元403,用于通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。
本发明实施例中,点特征定位是一种运用单帧图像的定位方法,是根据目标声源区域上n个特征点来确定图像采集设备的相对位置和姿态,也就是利用图像采集设备摄取一幅包含有n个空间点的图像,且这n个空间点的坐标已知,来确定这n个空间点在图像采集设备的坐标系下的坐标,从而获得目标声源区域相对图像采集设备的位置信息。其中,n为大于0的整数。
第二确定单元404,用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
本发明实施例中,麦克风阵列包括至少两个麦克风,且各个麦克风均可以为全向接收型麦克风,即可以拾取各个方向的语音信号。麦克风阵列可以集成在语音信号处理装置的内部,也可以独立于语音信号处理装置且与语音信号处理装置保持通信连接。
本发明实施例中,图像采集设备与麦克风阵列之间的空间相对位置可以是已知的,可以预先存储在语音信号处理装置的存储器中。第二确定单元404通过预先存储的图像采集设备与麦克风阵列之间的空间相对位置,以及通过上述获取单元403获取到的目标声源区域相对图像采集设备的位置信息,可以确定出目标声源区域与麦克风阵列之间的相对位置。
处理单元405,用于在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,在通过麦克风阵列中的各个麦克风采集到来自任意方向的语音信号后,在上述第二确定单元404确定出目标声源区域与麦克风阵列之间的相对位置的情况下,处理单元405可以利用波束形成技术将各个麦克风采集到的语音信号进行增强处理,以增强各麦克风指向目标声源方向的语音信号,而抑制接收到的其他方向上的语音信号。
本发明实施例中,波束形成技术是通过对各个麦克风接收到的语音信号进行加权处理,增强特定方向语音信号而削弱其它方向语音信号,从而得到来自特定方向的语音信号,此时,特定方向为各麦克风指向目标声源的方向。麦克风阵列的波束形成能力使其可以在捕捉方向性声源的同时,提供比单麦克风更高的系统输出信噪比。目前,波束形成技术运用相当普遍,常见的波束形成算法有LMS算法、RLS算法、MVDR算法等等。本发明实施例选用的是MVDR波束形成算法,其原理为让感兴趣的语音信号无失真输出,而使得波束输出噪声方差最小。与LMS算法、RLS算法等相比,MVDR算法能够提高阵增益,因此对噪声的抑制能力更强。
本发明实施例中,采集单元401可以通过图像采集设备采集目标发言人的图像,第一确定单元402根据该图像确定目标发言人的嘴部区域,以作为目标声源区域,获取单元403可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息,第二确定单元404根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置,处理单元405在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。通过实施图4所示的语音信号处理装置,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图5,图5是本发明实施例公开的另一种语音信号处理装置的结构示意图。其中,图5所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图5所示,该语音信号处理装置可以包括:
采集单元501,用于通过图像采集设备采集目标发言人的图像。
第一确定单元502,用于从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
获取单元503,用于通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。
在图5所示的语音信号处理装置中,获取单元503可以进一步包括:
第一获取单元5031,用于提取目标声源区域的至少一个点特征,根据点特征的像素值获取点特征在该图像的坐标系下的坐标,其中,该图像的坐标系中的坐标原点为图像采集设备的光轴在该图像上的垂直投影点,且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内。
第二获取单元5032,用于根据点特征在该图像的坐标系下的坐标和图像采集设备的焦距,获取目标声源区域的中心点在图像采集设备的坐标系下的坐标,作为目标声源区域相对图像采集设备的位置信息;其中,图像采集设备的坐标系中的坐标原点为图像采集设备的中心点,且图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直,其余两个轴分别与该图像的坐标系的两个轴平行。
第二确定单元504,用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
在图5所示的语音信号处理装置中,第二确定单元504可以进一步包括:
第一确定子单元5041,用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置,确定麦克风阵列在图像采集设备的坐标系下的坐标。
第二确定子单元5042,用于根据麦克风阵列在图像采集设备的坐标系下的坐标,以及目标声源区域的中心点在图像采集设备的坐标系下的坐标,确定目标声源区域的中心点与麦克风阵列的相对位置,作为目标声源区域与麦克风阵列的相对位置。
处理单元505,用于在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,麦克风阵列中的任意两个麦克风之间的距离大于语音信号的波长的一半。
在图5所示的语音信号处理装置中,处理单元505可以进一步包括:
第一计算子单元5051,用于在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离,并计算目标声源区域的中心点至任意两个麦克风的声程差,其中,该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值。
第二计算子单元5052,用于根据目标声源区域的中心点至上述任意两个麦克风的声程差,计算目标声源区域的中心点至上述任意两个麦克风的时延。
时延补偿子单元5053,用于根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向目标声源区域方向的语音信号。
本发明实施例中,通过实施图5所示的语音信号处理装置,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图6,图6是本发明实施例公开的又一种语音信号处理装置的结构示意图。其中,图6所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图6所示,该语音信号处理装置600可以包括:至少一个处理器601,例如CPU(CentralProcessing Unit,中央处理器),至少一个图像采集设备602,麦克风阵列603,存储器604以及通信总线605。其中,通信总线605用于实现这些组件之间的连接通信。本领域技术人员可以理解,图6中示出的语音信号处理装置的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图6所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例中,图像采集设备602可以是摄像头、相机等,用于采集目标发言人的图像;麦克风阵列603包括至少两个麦克风,用于接收各个方向上的语音信号。
本发明实施例中,存储器604可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示,作为一种计算机存储介质的存储器604中可以包括操作系统、语音信号处理程序和数据等,本发明实施例不作限定。
在图6所示的语音信号处理装置中,处理器601可以用于调用存储器604中存储的语音信号处理程序以执行以下操作:
通过图像采集设备602采集目标发言人的图像;
从该图像中确定目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取目标声源区域相对图像采集设备602的位置信息;
根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置,以及目标声源区域相对图像采集设备602的位置信息,确定目标声源区域与麦克风阵列603的相对位置;
在通过麦克风阵列603接收到语音信号后,根据目标声源区域与麦克风阵列603的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,处理器601通过点特征定位方式获取目标声源区域相对图像采集设备602的位置信息的方式具体可以为:
提取目标声源区域的至少一个点特征,根据点特征的像素值获取点特征在该图像的坐标系下的坐标,其中,该图像的坐标系中的坐标原点为图像采集设备602的光轴在该图像上的垂直投影点,且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内;
根据点特征在该图像的坐标系下的坐标和图像采集设备602的焦距,获取目标声源区域的中心点在图像采集设备602的坐标系下的坐标,作为目标声源区域相对图像采集设备602的位置信息;其中,图像采集设备602的坐标系中的坐标原点为图像采集设备602的中心点,且图像采集设备602的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直,其余两个轴分别与该图像的坐标系的两个轴平行。
相应地,处理器601根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置,以及目标声源区域相对图像采集设备602的位置信息,确定目标声源区域与麦克风阵列603的相对位置的方式具体可以为:
根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置,确定麦克风阵列603在图像采集设备602的坐标系下的坐标;
根据麦克风阵列603在图像采集设备602的坐标系下的坐标,以及目标声源区域的中心点在图像采集设备602的坐标系下的坐标,确定目标声源区域的中心点与麦克风阵列603的相对位置,作为目标声源区域与麦克风阵列603的相对位置。
本发明实施例中,麦克风阵列603中的任意两个麦克风之间的距离大于语音信号的波长的一半。
本发明实施例中,处理器601在通过麦克风阵列603接收到语音信号后,根据目标声源区域与麦克风阵列603的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理的方式具体可以为:
在通过麦克风阵列603接收到语音信号后,根据目标声源区域与麦克风阵列603的相对位置,计算目标声源区域的中心点至麦克风阵列603中各个麦克风的直线距离,并计算目标声源区域的中心点至任意两个麦克风的声程差,其中,该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据目标声源区域的中心点至上述任意两个麦克风的声程差,计算目标声源区域的中心点至上述任意两个麦克风的时延;
根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向目标声源区域方向的语音信号。
本发明实施例中,通过实施图6所示的语音信号处理装置,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
具体地,本发明实施例中介绍的语音信号处理装置可以实施本发明结合图1或图2介绍的语音信号处理方法实施例中的部分或全部流程。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上对本发明实施例所提供的语音信号处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种语音信号处理方法,其特征在于,包括:
通过图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理;
其中,所述通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息,包括:
提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
2.根据权利要求1所述的方法,其特征在于,所述根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置,包括:
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
3.根据权利要求1所述的方法,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
4.根据权利要求2所述的方法,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理,包括:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
6.一种语音信号处理方法,其特征在于,包括:
通过图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理;
其中,所述在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理,包括:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
7.一种语音信号处理装置,其特征在于,包括:
采集单元,用于通过图像采集设备采集目标发言人的图像;
第一确定单元,用于从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
获取单元,用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
第二确定单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
处理单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理;
其中,所述获取单元包括:
第一获取子单元,用于提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
第二获取子单元,用于根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
8.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
第一确定子单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
第二确定子单元,用于根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
9.根据权利要求7所述的装置,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
10.根据权利要求8所述的装置,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
11.根据权利要求7-10中任一项所述的装置,其特征在于,所述处理单元包括:
第一计算子单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
第二计算子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
时延补偿子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
12.一种语音信号处理装置,其特征在于,包括:
采集单元,用于通过图像采集设备采集目标发言人的图像;
第一确定单元,用于从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
获取单元,用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
第二确定单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
处理单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理;
其中,所述处理单元包括:
第一计算子单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
第二计算子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
时延补偿子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
13.一种语音信号处理装置,其特征在于,包括:处理器、存储器、通信总线、图像采集设备和麦克风阵列;
其中,所述存储器用于存储程序和数据;
所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信;
所述处理器用于调用所述存储器存储的程序,执行如下步骤:
通过所述图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理;
其中,所述处理器通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息的方式具体为:
提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
14.根据权利要求13所述的装置,其特征在于,所述处理器根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置的方式具体为:
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
15.根据权利要求13所述的装置,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
16.根据权利要求14所述的装置,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
17.根据权利要求13-16中任一项所述的装置,其特征在于,所述处理器在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
18.一种语音信号处理装置,其特征在于,包括:处理器、存储器、通信总线、图像采集设备和麦克风阵列;
其中,所述存储器用于存储程序和数据;
所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信;
所述处理器用于调用所述存储器存储的程序,执行如下步骤:
通过所述图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理;
其中,所述处理器在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现权利要求1至5任意一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现权利要求6所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/079245 WO2016183791A1 (zh) | 2015-05-19 | 2015-05-19 | 一种语音信号处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107534725A CN107534725A (zh) | 2018-01-02 |
CN107534725B true CN107534725B (zh) | 2020-06-16 |
Family
ID=57319205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580079468.7A Active CN107534725B (zh) | 2015-05-19 | 2015-05-19 | 一种语音信号处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107534725B (zh) |
WO (1) | WO2016183791A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614508A (zh) * | 2020-12-11 | 2021-04-06 | 北京华捷艾米科技有限公司 | 音视频结合的定位方法、装置、电子设备以及存储介质 |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
WO2019061292A1 (zh) * | 2017-09-29 | 2019-04-04 | 深圳传音通讯有限公司 | 一种终端降噪方法及终端 |
CN108200515B (zh) * | 2017-12-29 | 2021-01-22 | 苏州科达科技股份有限公司 | 多波束会议拾音系统及方法 |
CN110121048A (zh) * | 2018-02-05 | 2019-08-13 | 青岛海尔多媒体有限公司 | 一种会议一体机的控制方法及控制系统和会议一体机 |
CN110495185B (zh) * | 2018-03-09 | 2022-07-01 | 深圳市汇顶科技股份有限公司 | 语音信号处理方法及装置 |
CN108957392A (zh) * | 2018-04-16 | 2018-12-07 | 深圳市沃特沃德股份有限公司 | 声源方向估计方法和装置 |
CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
JP7126143B2 (ja) * | 2018-07-18 | 2022-08-26 | パナソニックIpマネジメント株式会社 | 無人飛行体、情報処理方法およびプログラム |
CN110767246B (zh) * | 2018-07-26 | 2022-08-02 | 深圳市优必选科技有限公司 | 一种噪声处理的方法、装置及机器人 |
CN110764520B (zh) * | 2018-07-27 | 2023-03-24 | 杭州海康威视数字技术股份有限公司 | 飞行器控制方法、装置、飞行器和存储介质 |
US10206036B1 (en) * | 2018-08-06 | 2019-02-12 | Alibaba Group Holding Limited | Method and apparatus for sound source location detection |
WO2020061353A1 (en) | 2018-09-20 | 2020-03-26 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
JP7194897B2 (ja) * | 2018-12-06 | 2022-12-23 | パナソニックIpマネジメント株式会社 | 信号処理装置及び信号処理方法 |
CN111323753A (zh) * | 2018-12-13 | 2020-06-23 | 蔚来汽车有限公司 | 定位汽车内语音源的方法 |
CN109451291A (zh) * | 2018-12-29 | 2019-03-08 | 像航(上海)科技有限公司 | 无介质浮空投影声源定向语音交互系统、智能汽车 |
WO2020191380A1 (en) | 2019-03-21 | 2020-09-24 | Shure Acquisition Holdings,Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
CN113841419A (zh) | 2019-03-21 | 2021-12-24 | 舒尔获得控股公司 | 天花板阵列麦克风的外壳及相关联设计特征 |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
CN114051738B (zh) | 2019-05-23 | 2024-10-01 | 舒尔获得控股公司 | 可操纵扬声器阵列、系统及其方法 |
US11302347B2 (en) | 2019-05-31 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
CN110225430A (zh) * | 2019-06-12 | 2019-09-10 | 付金龙 | 一种降噪骨传导耳麦及其降噪方法 |
CN110660102B (zh) * | 2019-06-17 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 基于人工智能的说话人识别方法及装置、系统 |
WO2021041275A1 (en) | 2019-08-23 | 2021-03-04 | Shore Acquisition Holdings, Inc. | Two-dimensional microphone array with improved directivity |
CN112578338B (zh) * | 2019-09-27 | 2024-05-14 | 阿里巴巴集团控股有限公司 | 声源定位方法、装置、设备及存储介质 |
CN110716180B (zh) * | 2019-10-17 | 2022-03-15 | 北京华捷艾米科技有限公司 | 一种基于人脸检测的音频定位方法及装置 |
US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
CN110808048B (zh) * | 2019-11-13 | 2022-10-25 | 联想(北京)有限公司 | 语音处理方法、装置、系统及存储介质 |
CN110933254B (zh) * | 2019-12-11 | 2021-09-07 | 杭州叙简科技股份有限公司 | 一种基于图像分析的声音过滤系统及其声音过滤方法 |
CN112964256B (zh) * | 2019-12-13 | 2024-02-27 | 佛山市云米电器科技有限公司 | 室内定位方法、智能家电设备及计算机可读存储介质 |
CN113141285B (zh) * | 2020-01-19 | 2022-04-29 | 海信集团有限公司 | 一种沉浸式语音交互方法及系统 |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
CN113450769B (zh) * | 2020-03-09 | 2024-06-25 | 杭州海康威视数字技术股份有限公司 | 语音提取方法、装置、设备和存储介质 |
CN113516989B (zh) * | 2020-03-27 | 2024-08-16 | 浙江宇视科技有限公司 | 声源音频的管理方法、装置、设备和存储介质 |
CN111601198B (zh) * | 2020-04-24 | 2022-03-11 | 达闼机器人有限公司 | 应用麦克风跟踪说话人的方法、装置及计算设备 |
CN113726947B (zh) * | 2020-05-26 | 2022-09-09 | Oppo广东移动通信有限公司 | 语音通话方法、装置、终端及存储介质 |
CN111580050A (zh) * | 2020-05-28 | 2020-08-25 | 国网上海市电力公司 | 一种用于识别gis设备异响声源位置的装置及方法 |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
CN111688580B (zh) * | 2020-05-29 | 2023-03-14 | 阿波罗智联(北京)科技有限公司 | 智能后视镜进行拾音的方法以及装置 |
WO2022000174A1 (zh) * | 2020-06-29 | 2022-01-06 | 深圳市大疆创新科技有限公司 | 音频处理方法、音频处理装置、电子设备 |
CN111722186B (zh) * | 2020-06-30 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 基于声源定位的拍摄方法、装置、电子设备及存储介质 |
CN111932619A (zh) * | 2020-07-23 | 2020-11-13 | 安徽声讯信息技术有限公司 | 结合图像识别和语音定位的麦克风跟踪系统及方法 |
CN112951257A (zh) * | 2020-09-24 | 2021-06-11 | 上海译会信息科技有限公司 | 一种音频图像采集设备及说话人定位及语音分离方法 |
CN112261528B (zh) * | 2020-10-23 | 2022-08-26 | 汪洲华 | 一种多路定向拾音的音频输出方法及系统 |
CN114442039A (zh) * | 2020-11-05 | 2022-05-06 | 中国移动通信集团山东有限公司 | 一种声源定位方法、装置和电子设备 |
CN112466323A (zh) * | 2020-11-24 | 2021-03-09 | 中核检修有限公司 | 一种光学图像与声学图像融合方法及系统 |
CN112826446A (zh) * | 2020-12-30 | 2021-05-25 | 上海联影医疗科技股份有限公司 | 一种医学扫描语音增强方法、装置、系统及存储介质 |
EP4285605A1 (en) | 2021-01-28 | 2023-12-06 | Shure Acquisition Holdings, Inc. | Hybrid audio beamforming system |
CN113093106A (zh) * | 2021-04-09 | 2021-07-09 | 北京华捷艾米科技有限公司 | 一种声源定位方法及系统 |
CN113314138B (zh) * | 2021-04-25 | 2024-03-29 | 普联国际有限公司 | 基于麦克风阵列的声源监听分离方法、装置及存储介质 |
CN115914517A (zh) * | 2021-08-12 | 2023-04-04 | 北京荣耀终端有限公司 | 一种声音信号处理方法及电子设备 |
CN114205725A (zh) * | 2021-12-01 | 2022-03-18 | 云知声智能科技股份有限公司 | 一种无线扩音设备、方法、装置、终端设备及存储介质 |
CN114911449A (zh) * | 2022-04-08 | 2022-08-16 | 南京地平线机器人技术有限公司 | 音量控制方法、装置、存储介质和电子设备 |
CN115831141B (zh) * | 2023-02-02 | 2023-05-09 | 小米汽车科技有限公司 | 车载语音的降噪方法、装置、车辆及存储介质 |
CN116165607B (zh) * | 2023-02-15 | 2023-12-19 | 深圳市拔超科技股份有限公司 | 采用多个麦克风阵列实现声源精确定位系统及定位方法 |
DE202023103428U1 (de) | 2023-06-21 | 2023-06-28 | Richik Kashyap | Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101674410A (zh) * | 2008-09-12 | 2010-03-17 | Lg电子株式会社 | 在移动终端上调整图像的显示方向 |
CN101852846A (zh) * | 2009-03-30 | 2010-10-06 | 索尼公司 | 信号处理设备、信号处理方法和程序 |
CN104012074A (zh) * | 2011-12-12 | 2014-08-27 | 华为技术有限公司 | 用于数据处理系统的智能音频和视频捕捉系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01253787A (ja) * | 1988-04-01 | 1989-10-11 | Ishikawajima Harima Heavy Ind Co Ltd | 訓練シミュレータ用模擬視界再現方法 |
JP3627058B2 (ja) * | 2002-03-01 | 2005-03-09 | 独立行政法人科学技術振興機構 | ロボット視聴覚システム |
-
2015
- 2015-05-19 WO PCT/CN2015/079245 patent/WO2016183791A1/zh active Application Filing
- 2015-05-19 CN CN201580079468.7A patent/CN107534725B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101674410A (zh) * | 2008-09-12 | 2010-03-17 | Lg电子株式会社 | 在移动终端上调整图像的显示方向 |
CN101852846A (zh) * | 2009-03-30 | 2010-10-06 | 索尼公司 | 信号处理设备、信号处理方法和程序 |
CN104012074A (zh) * | 2011-12-12 | 2014-08-27 | 华为技术有限公司 | 用于数据处理系统的智能音频和视频捕捉系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614508A (zh) * | 2020-12-11 | 2021-04-06 | 北京华捷艾米科技有限公司 | 音视频结合的定位方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107534725A (zh) | 2018-01-02 |
WO2016183791A1 (zh) | 2016-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
CN106782584B (zh) | 音频信号处理设备、方法和电子设备 | |
CN106328156B (zh) | 一种音视频信息融合的麦克风阵列语音增强系统及方法 | |
EP2882170B1 (en) | Audio information processing method and apparatus | |
US11172122B2 (en) | User identification based on voice and face | |
CN106653041B (zh) | 音频信号处理设备、方法和电子设备 | |
CN110379439B (zh) | 一种音频处理的方法以及相关装置 | |
US20150022636A1 (en) | Method and system for voice capture using face detection in noisy environments | |
CN105874535B (zh) | 语音处理方法和语音处理装置 | |
CN110970057A (zh) | 一种声音处理方法、装置与设备 | |
CN113676592B (zh) | 录音方法、装置、电子设备及计算机可读介质 | |
US11736887B2 (en) | Audio signal processing method and audio signal processing apparatus that process an audio signal based on position information | |
KR101508092B1 (ko) | 화상 회의를 지원하는 방법 및 시스템 | |
JP6977448B2 (ja) | 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム | |
CN110188179A (zh) | 语音定向识别交互方法、装置、设备及介质 | |
US11875800B2 (en) | Talker prediction method, talker prediction device, and communication system | |
CN113542466A (zh) | 音频处理方法、电子设备及存储介质 | |
US11172319B2 (en) | System and method for volumetric sound generation | |
CN113889135A (zh) | 一种估计声源波达方向的方法、电子设备及芯片系统 | |
US11956606B2 (en) | Audio signal processing method and audio signal processing apparatus that process an audio signal based on posture information | |
CN114038452A (zh) | 一种语音分离方法和设备 | |
JPH1118193A (ja) | 受話状態検出方法およびその装置 | |
CN113395451A (zh) | 视频拍摄方法、装置、电子设备以及存储介质 | |
US20230105785A1 (en) | Video content providing method and video content providing device | |
CN112788278B (zh) | 视频流的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |