CN106483502A - 一种声源定位方法及装置 - Google Patents
一种声源定位方法及装置 Download PDFInfo
- Publication number
- CN106483502A CN106483502A CN201610848492.9A CN201610848492A CN106483502A CN 106483502 A CN106483502 A CN 106483502A CN 201610848492 A CN201610848492 A CN 201610848492A CN 106483502 A CN106483502 A CN 106483502A
- Authority
- CN
- China
- Prior art keywords
- sound source
- voice signal
- voice
- wave beam
- target sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004807 localization Effects 0.000 title claims abstract description 13
- 238000000926 separation method Methods 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000000903 blocking effect Effects 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000000151 deposition Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 241000039077 Copula Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明实施例提供了一种声源定位方法及装置,其中方法包括:监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;通过对所述不同方向的语音信号进行语音分离得到两路语音信号;对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了存在干扰情况时目标声源无法定位的技术问题,进而提升了用户的满意度。
Description
技术领域
本发明涉及语音定位技术领域,尤其涉及一种声源定位方法及装置。
背景技术
声源定位是指根据接收到的语音确定出声源的方位。不过在实际中,声源往往不止一个,例如在会场上,发言人的声音是目标声源,但是除了发言人之外还可能存在其他声源,这些其他声源很可能成为噪声,对目标声源造成干扰,因此在声源定位时就需要区分出那个是目标声源、哪个是干扰声源。
然而发明人在实现本发明的过程中发现,在现有技术中,声源定位技术往往只适应于单个声源的定位追踪,而无法区分目标声源和干扰声源,故无法满足用户的需求。
发明内容
本发明提供一种声源定位方法及装置,以解决在存在干扰情况下目标声源无法定位的技术问题。
根据本发明实施例的第一方面,提供一种声源定位方法,所述方法包括:
监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
可选的,通过对所述不同方向的语音信号进行语音分离得到两路语音信号,包括:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
可选的,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向,包括:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
可选的,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰,包括:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
可选的,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源,包括:
判断在所述两个波束中是否均识别出所述第一语音;
如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;
如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;
如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
可选的,所述识别出所述第一语音,包括:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
可选的,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
根据本发明实施例的第二方面,提供一种声源定位装置,所述装置包括:
语音监听单元,用于监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
语音分离单元,用于通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
声源追踪单元,用于对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
干扰抑制单元,用于将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
声源区分单元,用于通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
可选的,所述语音分离单元用于:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
可选的,所述声源追踪单元用于:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
可选的,所述干扰抑制单元用于:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
可选的,所述声源区分单元包括:
语音识别子单元,用于确定在每个波束中是否识别出所述第一语音;
逻辑判断子单元,用于根据所述语音识别子单元的识别结果,进行如下判断:如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
可选的,所述语音识别子单元用于:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
可选的,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
本发明的实施例提供的技术方案可以包括以下有益效果:
在本发明中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了存在干扰情况时目标声源无法定位的技术问题,进而提升了用户的满意度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种声源定位方法的流程图;
图2是根据本发明一示例性实施例示出的语音分离示意图;
图3是根据本发明一示例性实施例示出的GSC算法框图;
图4是根据本发明一示例性实施例示出的一种声源定位方法的流程图;
图5是根据本发明一示例性实施例示出的一种声源定位装置的示意图;
图6是根据本发明一示例性实施例示出的一种声源定位装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种声源定位方法的流程图。该方法例如可用于手机、平板电脑、录音笔等移动终端或个人电脑、服务器等设备。
参见图1所示,该方法可以包括:
步骤S101,监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音。
例如,可以使用双麦克风对不同方向(或者说是各个方向)的语音信号进行采集、监听。以会议这种场景为例,会议发言人即目标声源,为了将目标声源与其他干扰声源区别开来,目标声源需要发出第一语音,例如发言人在发言之前可以念出某些关键词(如“你好语音助手”等),作为第一语音。对于第一语音的用途可进一步参见下文步骤S105等中的描述。
步骤S102,通过对所述不同方向的语音信号进行语音分离得到两路语音信号。
本实施例的基本思路主要是先使用语音定位技术定位两个声源,然后再使用语音识别技术从这两个声源中区分出目标声源和干扰声源,从而完成目标声源的定位。
本步骤的目的是先对各方向的语音信号进行粗分,即先初步将各方向的语音信号大致归结到两个声源。对于具体如何进行语音分离得到两路语音信号,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S103,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向。
初步归结到两个声源后,本步骤的目的即进一步对两个声源的方位进行更精确的定位,以便在接下来的步骤中可以对非声源方向的声音信号进行抑制,进而可以更准确地从目标声源识别出第一语音。
对于具体如何进行声源追踪本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S104,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰。
在确定两个声源的方向后,就可以对非声源方向的声音信号进行抑制。对于具体的实现方式本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S105,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
通过之前的各步骤已经将各方向的声音处理为两个较为清晰、方位较为明确的声源,接下来要做的便是从中进一步区分出哪个是想要的目标声源。因为只有目标声源才发出了第一语音,所以在本步骤中通过对第一语音的识别,便可以从中区分出哪个是目标声源,则另一个即为干扰声源。
对于具体的识别方式本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
在本实施例中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了在存在干扰情况下目标声源无法定位的技术问题,进而提升了用户的满意度。
下面进一步对各步骤的具体实现方式进行举例说明。
在本实施例或本发明其他某些实施例中,通过对所述不同方向的语音信号进行语音分离得到两路语音信号,即步骤S102,可以包括如下子步骤:
1)获取两个指定方向的中心角度。
作为示例可参见图2所示,在图2中Mic 1和Mic 2分别代表两个用于监听不同方向语音信号的麦克风,θ1和θ2分别代表两个所述指定方向的中心角度,例如θ1可以为135°,θ2可以为45°。对于这两个中心角度,可以由外界输入,也可以是预设的,对于这两个中心角度具体的角度值及获取方式本实施例并不进行限制。
有了这两个中心角度,就可以将空间划分为两个大的方向,而图2中的Source 1和Source 2则各代表一个假想的声源。
2)根据二元时频掩蔽算法(BTFM)将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
分离后每个时频点的信号为:
m=1,2;where d(x,y)=||x-y||2
其中,τi=dcosθi/c为信号源到非参考麦克风的距离,d为麦克风间距,c为声速。分离准则:认为每个时频点由观测信号相位差距离最小的声源产生,即计算每个时频点与初始化方向距离,距离最近的方向即为声源方向。其中时频点是指用时间和频率的联合函数来表示信号;时频点与初始化方向距离是指时频点与观测信号相位差距离,初始化的两个方向可以分别计算到两个麦克风的相位差,某个时频点也可以计算到两个麦克风的相位差,再与初始化的两个相位差比较,认为当前时频点由相位差距离近的方向产生。对于上述二元时频掩蔽算法及具体的公式等,因其属于现有技术,故本实施例不再展开详述。
在本实施例或本发明其他某些实施例中,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向,即步骤S103,可以包括如下子步骤:
i)根据广义互相关算法(GCC)对每路语音信号进行跟踪。
GCC利用信号源到达两个麦克风的信号X1(ω)和X2(ω)的加权互相关的最大值,确定到达波时间差来确定信号的方位:
使得gcc(t)取最大值的时间t即为信号到达两个麦克风的时间差,从而可以进一步确定信号方向。
ii)根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
可以对所述不同方向进行精细划分,即划分多个扇形子区间,每个扇形子区间对应一个更具体的方向,这样追踪定位的角度也就更精确。
对于上述广义互相关算法及具体的公式等,因其属于现有技术,故本实施例不再展开详述。
在本实施例或本发明其他某些实施例中,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰,即步骤S104,可以包括如下子步骤:
a)根据广义旁瓣抵消算法(GSC)将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰。
作为示例GSC框图可参见图3所示,在图3中x1(n)和x2(n)分别为两个麦克信号(即输入),u(n)为噪声参考信号,yb(n)为估计的噪声信号,yF(n)为固定波束输出信号,z(n)为最终的输出信号。
其中阻塞矩阵用来形成陷零角度,抑制非声源方向的干扰。陷零是指空间响应为0,陷零角度是指空间响应为0的方向。
b)根据归一化最小均方算法(NMLS)更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
对于上述广义旁瓣抵消算法和归一化最小均方算法以及GSC框图等,因其均属于现有技术,故本实施例不再赘述。
参见图4所示,在本实施例或本发明其他某些实施例中,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源,即步骤S105,可以包括如下子步骤:
步骤S401,判断在所述两个波束中是否均识别出所述第一语音。
作为示例,可以在当前波束中对所述第一语音进行匹配,如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
对于具体的语音匹配技术及匹配得分的计算方式可以使用现有技术,本实施例并不进行限制。
步骤S402,如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号。
步骤S403,如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向。容易理解的是,本步骤中的第一波束是指识别出所述第一语音的那个波束。
步骤S404,如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
对于预设策略、预设参数值的具体内容,以及根据所述预设参数值具体如何确定目标声源的方向及干扰声源的方向,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
作为示例,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,可以包括如下步骤:
①分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2。
对于置信度及波束能量的具体测算方式可以使用现有技术,本实施例不再赘述。
②如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向。
③如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向。
④如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向。
例如第二门限值可以设置为1.25,第三门限值可以设置为1.15。
⑤如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
在本实施例中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了在存在干扰情况下目标声源无法定位的技术问题,进而提升了用户的满意度。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据本发明一示例性实施例示出的一种声源定位装置的示意图。该装置例如可用于手机、平板电脑、录音笔等移动终端或个人电脑、服务器等设备。
参见图5所示,该装置可以包括:
语音监听单元501,用于监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
语音分离单元502,用于通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
声源追踪单元503,用于对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
干扰抑制单元504,用于将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
声源区分单元505,用于通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
在本实施例或本发明其他某些实施例中,所述语音分离单元502具体可以用于:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
在本实施例或本发明其他某些实施例中,所述声源追踪单元503具体可以用于:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
在本实施例或本发明其他某些实施例中,所述干扰抑制单元504具体可以用于:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
参见图6所示,在本实施例或本发明其他某些实施例中,所述声源区分单元505具体可以包括:
语音识别子单元5051,用于确定在每个波束中是否识别出所述第一语音;
逻辑判断子单元5052,用于根据所述语音识别子单元的识别结果,进行如下判断:如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
在本实施例或本发明其他某些实施例中,所述语音识别子单元5051具体可以用于:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
在本实施例或本发明其他某些实施例中,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,可以包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
在本实施例中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了在存在干扰情况下目标声源无法定位的技术问题,进而提升了用户的满意度。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (14)
1.一种声源定位方法,其特征在于,所述方法包括:
监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
2.根据权利要求1所述的方法,其特征在于,通过对所述不同方向的语音信号进行语音分离得到两路语音信号,包括:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
3.根据权利要求1所述的方法,其特征在于,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向,包括:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
4.根据权利要求1所述的方法,其特征在于,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰,包括:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
5.根据权利要求1所述的方法,其特征在于,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源,包括:
判断在所述两个波束中是否均识别出所述第一语音;
如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;
如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;
如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
6.根据权利要求5所述的方法,其特征在于,所述识别出所述第一语音,包括:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
7.根据权利要求5所述的方法,其特征在于,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
8.一种声源定位装置,其特征在于,所述装置包括:
语音监听单元,用于监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
语音分离单元,用于通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
声源追踪单元,用于对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
干扰抑制单元,用于将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
声源区分单元,用于通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
9.根据权利要求8所述的装置,其特征在于,所述语音分离单元用于:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
10.根据权利要求8所述的装置,其特征在于,所述声源追踪单元用于:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
11.根据权利要求8所述的装置,其特征在于,所述干扰抑制单元用于:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
12.根据权利要求8所述的装置,其特征在于,所述声源区分单元包括:
语音识别子单元,用于确定在每个波束中是否识别出所述第一语音;
逻辑判断子单元,用于根据所述语音识别子单元的识别结果,进行如下判断:如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
13.根据权利要求12所述的装置,其特征在于,所述语音识别子单元用于:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
14.根据权利要求12所述的装置,其特征在于,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610848492.9A CN106483502B (zh) | 2016-09-23 | 2016-09-23 | 一种声源定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610848492.9A CN106483502B (zh) | 2016-09-23 | 2016-09-23 | 一种声源定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106483502A true CN106483502A (zh) | 2017-03-08 |
CN106483502B CN106483502B (zh) | 2019-10-18 |
Family
ID=58268865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610848492.9A Active CN106483502B (zh) | 2016-09-23 | 2016-09-23 | 一种声源定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106483502B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952653A (zh) * | 2017-03-15 | 2017-07-14 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107613428A (zh) * | 2017-09-15 | 2018-01-19 | 北京地平线信息技术有限公司 | 声音处理方法、装置和电子设备 |
CN108091344A (zh) * | 2018-02-28 | 2018-05-29 | 科大讯飞股份有限公司 | 一种降噪方法、装置及系统 |
CN109272989A (zh) * | 2018-08-29 | 2019-01-25 | 北京京东尚科信息技术有限公司 | 语音唤醒方法、装置和计算机可读存储介质 |
CN109375171A (zh) * | 2018-11-21 | 2019-02-22 | 合肥工业大学 | 一种基于新型正交匹配追踪算法的声源定位方法 |
WO2019080551A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN109975795A (zh) * | 2017-12-28 | 2019-07-05 | 北京京东尚科信息技术有限公司 | 一种声源追踪方法和装置 |
CN110111805A (zh) * | 2019-04-29 | 2019-08-09 | 北京声智科技有限公司 | 远场语音交互中的自动增益控制方法、装置及可读存储介质 |
CN110797042A (zh) * | 2018-08-03 | 2020-02-14 | 杭州海康威视数字技术股份有限公司 | 音频处理方法、装置及存储介质 |
CN111833901A (zh) * | 2019-04-23 | 2020-10-27 | 北京京东尚科信息技术有限公司 | 音频处理方法、音频处理装置、系统及介质 |
CN113314138A (zh) * | 2021-04-25 | 2021-08-27 | 普联国际有限公司 | 基于麦克风阵列的声源监听分离方法、装置及存储介质 |
CN113347519A (zh) * | 2020-02-18 | 2021-09-03 | 宏碁股份有限公司 | 消除特定对象语音的方法及应用其的耳戴式声音信号装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246690A (zh) * | 2007-02-15 | 2008-08-20 | 索尼株式会社 | 声音处理设备、声音处理方法及程序 |
CN101911724A (zh) * | 2008-03-18 | 2010-12-08 | 高通股份有限公司 | 使用多个装置上的多个麦克风进行语音增强 |
CN102915753A (zh) * | 2012-10-23 | 2013-02-06 | 华为终端有限公司 | 一种电子设备的智能控制音量的方法及实现装置 |
KR101463955B1 (ko) * | 2013-02-27 | 2014-11-21 | 한국과학기술원 | 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템 |
-
2016
- 2016-09-23 CN CN201610848492.9A patent/CN106483502B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246690A (zh) * | 2007-02-15 | 2008-08-20 | 索尼株式会社 | 声音处理设备、声音处理方法及程序 |
CN101911724A (zh) * | 2008-03-18 | 2010-12-08 | 高通股份有限公司 | 使用多个装置上的多个麦克风进行语音增强 |
CN102915753A (zh) * | 2012-10-23 | 2013-02-06 | 华为终端有限公司 | 一种电子设备的智能控制音量的方法及实现装置 |
KR101463955B1 (ko) * | 2013-02-27 | 2014-11-21 | 한국과학기술원 | 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952653A (zh) * | 2017-03-15 | 2017-07-14 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107613428A (zh) * | 2017-09-15 | 2018-01-19 | 北京地平线信息技术有限公司 | 声音处理方法、装置和电子设备 |
WO2019080551A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US11308974B2 (en) | 2017-10-23 | 2022-04-19 | Iflytek Co., Ltd. | Target voice detection method and apparatus |
CN109975795A (zh) * | 2017-12-28 | 2019-07-05 | 北京京东尚科信息技术有限公司 | 一种声源追踪方法和装置 |
CN108091344A (zh) * | 2018-02-28 | 2018-05-29 | 科大讯飞股份有限公司 | 一种降噪方法、装置及系统 |
CN110797042A (zh) * | 2018-08-03 | 2020-02-14 | 杭州海康威视数字技术股份有限公司 | 音频处理方法、装置及存储介质 |
CN110797042B (zh) * | 2018-08-03 | 2022-04-15 | 杭州海康威视数字技术股份有限公司 | 音频处理方法、装置及存储介质 |
CN109272989B (zh) * | 2018-08-29 | 2021-08-10 | 北京京东尚科信息技术有限公司 | 语音唤醒方法、装置和计算机可读存储介质 |
CN109272989A (zh) * | 2018-08-29 | 2019-01-25 | 北京京东尚科信息技术有限公司 | 语音唤醒方法、装置和计算机可读存储介质 |
CN109375171A (zh) * | 2018-11-21 | 2019-02-22 | 合肥工业大学 | 一种基于新型正交匹配追踪算法的声源定位方法 |
CN111833901A (zh) * | 2019-04-23 | 2020-10-27 | 北京京东尚科信息技术有限公司 | 音频处理方法、音频处理装置、系统及介质 |
CN111833901B (zh) * | 2019-04-23 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 音频处理方法、音频处理装置、系统及介质 |
CN110111805B (zh) * | 2019-04-29 | 2021-10-29 | 北京声智科技有限公司 | 远场语音交互中的自动增益控制方法、装置及可读存储介质 |
CN110111805A (zh) * | 2019-04-29 | 2019-08-09 | 北京声智科技有限公司 | 远场语音交互中的自动增益控制方法、装置及可读存储介质 |
CN113347519A (zh) * | 2020-02-18 | 2021-09-03 | 宏碁股份有限公司 | 消除特定对象语音的方法及应用其的耳戴式声音信号装置 |
CN113314138A (zh) * | 2021-04-25 | 2021-08-27 | 普联国际有限公司 | 基于麦克风阵列的声源监听分离方法、装置及存储介质 |
CN113314138B (zh) * | 2021-04-25 | 2024-03-29 | 普联国际有限公司 | 基于麦克风阵列的声源监听分离方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106483502B (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106483502B (zh) | 一种声源定位方法及装置 | |
CN111025233B (zh) | 一种声源方向定位方法和装置、语音设备和系统 | |
JP6246792B2 (ja) | ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法 | |
CN111239687B (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
EP3172730A1 (en) | System and method for determining audio context in augmented-reality applications | |
Hu et al. | Unsupervised multiple source localization using relative harmonic coefficients | |
US9378754B1 (en) | Adaptive spatial classifier for multi-microphone systems | |
CN109817240A (zh) | 信号分离方法、装置、设备及存储介质 | |
Choi et al. | Robust time-delay estimation for acoustic indoor localization in reverberant environments | |
WO2016119388A1 (zh) | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 | |
CN103901400B (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
CN112363112A (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
Pertilä | Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking | |
CN111599366A (zh) | 一种车载多音区语音处理的方法和相关装置 | |
WO2020118290A1 (en) | System and method for acoustic localization of multiple sources using spatial pre-filtering | |
Rascon et al. | Lightweight multi-DOA tracking of mobile speech sources | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Brutti et al. | Speaker localization based on oriented global coherence field | |
CN112750455A (zh) | 音频处理方法及装置 | |
Dorfan et al. | Joint speaker localization and array calibration using expectation-maximization | |
Farmani et al. | Bias-compensated informed sound source localization using relative transfer functions | |
CN111933182B (zh) | 声源跟踪方法、装置、设备和存储介质 | |
Nguyen et al. | Selection of the closest sound source for robot auditory attention in multi-source scenarios | |
CN113707149A (zh) | 音频处理方法和装置 | |
CN113345459A (zh) | 一种双讲状态的检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |