CN106483502B - 一种声源定位方法及装置 - Google Patents

一种声源定位方法及装置 Download PDF

Info

Publication number
CN106483502B
CN106483502B CN201610848492.9A CN201610848492A CN106483502B CN 106483502 B CN106483502 B CN 106483502B CN 201610848492 A CN201610848492 A CN 201610848492A CN 106483502 B CN106483502 B CN 106483502B
Authority
CN
China
Prior art keywords
sound source
voice signal
voice
wave beam
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610848492.9A
Other languages
English (en)
Other versions
CN106483502A (zh
Inventor
雷琴辉
管青松
邢猛
李深安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610848492.9A priority Critical patent/CN106483502B/zh
Publication of CN106483502A publication Critical patent/CN106483502A/zh
Application granted granted Critical
Publication of CN106483502B publication Critical patent/CN106483502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

本发明实施例提供了一种声源定位方法及装置,其中方法包括:监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;通过对所述不同方向的语音信号进行语音分离得到两路语音信号;对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了存在干扰情况时目标声源无法定位的技术问题,进而提升了用户的满意度。

Description

一种声源定位方法及装置
技术领域
本发明涉及语音定位技术领域,尤其涉及一种声源定位方法及装置。
背景技术
声源定位是指根据接收到的语音确定出声源的方位。不过在实际中,声源往往不止一个,例如在会场上,发言人的声音是目标声源,但是除了发言人之外还可能存在其他声源,这些其他声源很可能成为噪声,对目标声源造成干扰,因此在声源定位时就需要区分出那个是目标声源、哪个是干扰声源。
然而发明人在实现本发明的过程中发现,在现有技术中,声源定位技术往往只适应于单个声源的定位追踪,而无法区分目标声源和干扰声源,故无法满足用户的需求。
发明内容
本发明提供一种声源定位方法及装置,以解决在存在干扰情况下目标声源无法定位的技术问题。
根据本发明实施例的第一方面,提供一种声源定位方法,所述方法包括:
监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
可选的,通过对所述不同方向的语音信号进行语音分离得到两路语音信号,包括:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
可选的,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向,包括:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
可选的,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰,包括:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
可选的,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源,包括:
判断在所述两个波束中是否均识别出所述第一语音;
如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;
如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;
如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
可选的,所述识别出所述第一语音,包括:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
可选的,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
根据本发明实施例的第二方面,提供一种声源定位装置,所述装置包括:
语音监听单元,用于监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
语音分离单元,用于通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
声源追踪单元,用于对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
干扰抑制单元,用于将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
声源区分单元,用于通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
可选的,所述语音分离单元用于:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
可选的,所述声源追踪单元用于:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
可选的,所述干扰抑制单元用于:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
可选的,所述声源区分单元包括:
语音识别子单元,用于确定在每个波束中是否识别出所述第一语音;
逻辑判断子单元,用于根据所述语音识别子单元的识别结果,进行如下判断:如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
可选的,所述语音识别子单元用于:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
可选的,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
本发明的实施例提供的技术方案可以包括以下有益效果:
在本发明中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了存在干扰情况时目标声源无法定位的技术问题,进而提升了用户的满意度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种声源定位方法的流程图;
图2是根据本发明一示例性实施例示出的语音分离示意图;
图3是根据本发明一示例性实施例示出的GSC算法框图;
图4是根据本发明一示例性实施例示出的一种声源定位方法的流程图;
图5是根据本发明一示例性实施例示出的一种声源定位装置的示意图;
图6是根据本发明一示例性实施例示出的一种声源定位装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种声源定位方法的流程图。该方法例如可用于手机、平板电脑、录音笔等移动终端或个人电脑、服务器等设备。
参见图1所示,该方法可以包括:
步骤S101,监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音。
例如,可以使用双麦克风对不同方向(或者说是各个方向)的语音信号进行采集、监听。以会议这种场景为例,会议发言人即目标声源,为了将目标声源与其他干扰声源区别开来,目标声源需要发出第一语音,例如发言人在发言之前可以念出某些关键词(如“你好语音助手”等),作为第一语音。对于第一语音的用途可进一步参见下文步骤S105等中的描述。
步骤S102,通过对所述不同方向的语音信号进行语音分离得到两路语音信号。
本实施例的基本思路主要是先使用语音定位技术定位两个声源,然后再使用语音识别技术从这两个声源中区分出目标声源和干扰声源,从而完成目标声源的定位。
本步骤的目的是先对各方向的语音信号进行粗分,即先初步将各方向的语音信号大致归结到两个声源。对于具体如何进行语音分离得到两路语音信号,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S103,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向。
初步归结到两个声源后,本步骤的目的即进一步对两个声源的方位进行更精确的定位,以便在接下来的步骤中可以对非声源方向的声音信号进行抑制,进而可以更准确地从目标声源识别出第一语音。
对于具体如何进行声源追踪本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S104,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰。
在确定两个声源的方向后,就可以对非声源方向的声音信号进行抑制。对于具体的实现方式本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S105,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
通过之前的各步骤已经将各方向的声音处理为两个较为清晰、方位较为明确的声源,接下来要做的便是从中进一步区分出哪个是想要的目标声源。因为只有目标声源才发出了第一语音,所以在本步骤中通过对第一语音的识别,便可以从中区分出哪个是目标声源,则另一个即为干扰声源。
对于具体的识别方式本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
在本实施例中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了在存在干扰情况下目标声源无法定位的技术问题,进而提升了用户的满意度。
下面进一步对各步骤的具体实现方式进行举例说明。
在本实施例或本发明其他某些实施例中,通过对所述不同方向的语音信号进行语音分离得到两路语音信号,即步骤S102,可以包括如下子步骤:
1)获取两个指定方向的中心角度。
作为示例可参见图2所示,在图2中Mic 1和Mic 2分别代表两个用于监听不同方向语音信号的麦克风,θ1和θ2分别代表两个所述指定方向的中心角度,例如θ1可以为135°,θ2可以为45°。对于这两个中心角度,可以由外界输入,也可以是预设的,对于这两个中心角度具体的角度值及获取方式本实施例并不进行限制。
有了这两个中心角度,就可以将空间划分为两个大的方向,而图2中的Source 1和Source 2则各代表一个假想的声源。
2)根据二元时频掩蔽算法(BTFM)将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
分离后每个时频点的信号为:
m=1,2;where d(x,y)=||x-y||2
其中,τi=dcosθi/c为信号源到非参考麦克风的距离,d为麦克风间距,c为声速。分离准则:认为每个时频点由观测信号相位差距离最小的声源产生,即计算每个时频点与初始化方向距离,距离最近的方向即为声源方向。其中时频点是指用时间和频率的联合函数来表示信号;时频点与初始化方向距离是指时频点与观测信号相位差距离,初始化的两个方向可以分别计算到两个麦克风的相位差,某个时频点也可以计算到两个麦克风的相位差,再与初始化的两个相位差比较,认为当前时频点由相位差距离近的方向产生。对于上述二元时频掩蔽算法及具体的公式等,因其属于现有技术,故本实施例不再展开详述。
在本实施例或本发明其他某些实施例中,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向,即步骤S103,可以包括如下子步骤:
i)根据广义互相关算法(GCC)对每路语音信号进行跟踪。
GCC利用信号源到达两个麦克风的信号X1(ω)和X2(ω)的加权互相关的最大值,确定到达波时间差来确定信号的方位:
使得gcc(t)取最大值的时间t即为信号到达两个麦克风的时间差,从而可以进一步确定信号方向。
ii)根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
可以对所述不同方向进行精细划分,即划分多个扇形子区间,每个扇形子区间对应一个更具体的方向,这样追踪定位的角度也就更精确。
对于上述广义互相关算法及具体的公式等,因其属于现有技术,故本实施例不再展开详述。
在本实施例或本发明其他某些实施例中,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰,即步骤S104,可以包括如下子步骤:
a)根据广义旁瓣抵消算法(GSC)将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰。
作为示例GSC框图可参见图3所示,在图3中x1(n)和x2(n)分别为两个麦克信号(即输入),u(n)为噪声参考信号,yb(n)为估计的噪声信号,yF(n)为固定波束输出信号,z(n)为最终的输出信号。
其中阻塞矩阵用来形成陷零角度,抑制非声源方向的干扰。陷零是指空间响应为0,陷零角度是指空间响应为0的方向。
b)根据归一化最小均方算法(NMLS)更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
对于上述广义旁瓣抵消算法和归一化最小均方算法以及GSC框图等,因其均属于现有技术,故本实施例不再赘述。
参见图4所示,在本实施例或本发明其他某些实施例中,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源,即步骤S105,可以包括如下子步骤:
步骤S401,判断在所述两个波束中是否均识别出所述第一语音。
作为示例,可以在当前波束中对所述第一语音进行匹配,如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
对于具体的语音匹配技术及匹配得分的计算方式可以使用现有技术,本实施例并不进行限制。
步骤S402,如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号。
步骤S403,如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向。容易理解的是,本步骤中的第一波束是指识别出所述第一语音的那个波束。
步骤S404,如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
对于预设策略、预设参数值的具体内容,以及根据所述预设参数值具体如何确定目标声源的方向及干扰声源的方向,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
作为示例,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,可以包括如下步骤:
①分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2。
对于置信度及波束能量的具体测算方式可以使用现有技术,本实施例不再赘述。
②如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向。
③如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向。
④如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向。
例如第二门限值可以设置为1.25,第三门限值可以设置为1.15。
⑤如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
在本实施例中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了在存在干扰情况下目标声源无法定位的技术问题,进而提升了用户的满意度。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据本发明一示例性实施例示出的一种声源定位装置的示意图。该装置例如可用于手机、平板电脑、录音笔等移动终端或个人电脑、服务器等设备。
参见图5所示,该装置可以包括:
语音监听单元501,用于监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
语音分离单元502,用于通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
声源追踪单元503,用于对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
干扰抑制单元504,用于将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
声源区分单元505,用于通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
在本实施例或本发明其他某些实施例中,所述语音分离单元502具体可以用于:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
在本实施例或本发明其他某些实施例中,所述声源追踪单元503具体可以用于:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
在本实施例或本发明其他某些实施例中,所述干扰抑制单元504具体可以用于:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
参见图6所示,在本实施例或本发明其他某些实施例中,所述声源区分单元505具体可以包括:
语音识别子单元5051,用于确定在每个波束中是否识别出所述第一语音;
逻辑判断子单元5052,用于根据所述语音识别子单元的识别结果,进行如下判断:如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
在本实施例或本发明其他某些实施例中,所述语音识别子单元5051具体可以用于:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
在本实施例或本发明其他某些实施例中,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,可以包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
在本实施例中,令目标声源发出第一语音,然后对不同方向上的语音信号进行监听,分离出两个声源(即目标声源和干扰声源)并确定这两个声源的方位,同时抑制非声源方向的干扰,再利用对第一语音的识别最终区分出哪个是目标声源哪个是干扰声源。本发明将语音分离和语音识别相结合,在多声源场景下可以很好地对目标声源进行定位,解决了在存在干扰情况下目标声源无法定位的技术问题,进而提升了用户的满意度。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (14)

1.一种声源定位方法,其特征在于,所述方法包括:
监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
2.根据权利要求1所述的方法,其特征在于,通过对所述不同方向的语音信号进行语音分离得到两路语音信号,包括:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
3.根据权利要求1所述的方法,其特征在于,对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向,包括:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
4.根据权利要求1所述的方法,其特征在于,将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰,包括:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
5.根据权利要求1所述的方法,其特征在于,通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源,包括:
判断在所述两个波束中是否均识别出所述第一语音;
如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;
如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;
如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
6.根据权利要求5所述的方法,其特征在于,所述识别出所述第一语音,包括:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
7.根据权利要求5所述的方法,其特征在于,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
8.一种声源定位装置,其特征在于,所述装置包括:
语音监听单元,用于监听不同方向的语音信号,其中来自目标声源方向的语音信号中包含有第一语音;
语音分离单元,用于通过对所述不同方向的语音信号进行语音分离得到两路语音信号;
声源追踪单元,用于对所述两路语音信号分别进行声源追踪,以确定所述两路语音信号各自的声源方向;
干扰抑制单元,用于将所述两路语音信号形成两个波束,并根据所述两路语音信号的声源方向抑制非声源方向的干扰;
声源区分单元,用于通过在两个波束中对所述第一语音的识别区分出目标声源和干扰声源。
9.根据权利要求8所述的装置,其特征在于,所述语音分离单元用于:
获取两个指定方向的中心角度;
根据二元时频掩蔽算法将所述不同方向的语音信号按照所述两个指定方向进行语音分离,以得到所述两路语音信号。
10.根据权利要求8所述的装置,其特征在于,所述声源追踪单元用于:
根据广义互相关算法对每路语音信号进行跟踪;
根据追踪结果确定每路语音信号所对应的扇形子区间,其中所述不同方向被划分为多个扇形子区间,每个扇形子区间代表一个方位。
11.根据权利要求8所述的装置,其特征在于,所述干扰抑制单元用于:
根据广义旁瓣抵消算法将所述两路语音信号形成两个波束,其中在广义旁瓣抵消法中使用阻塞矩阵形成陷零角度,抑制非声源方向的干扰;
根据归一化最小均方算法更新广义旁瓣抵消法中所使用的自适应噪声消除器中的滤波器,对残留干扰和平稳噪声进行抑制。
12.根据权利要求8所述的装置,其特征在于,所述声源区分单元包括:
语音识别子单元,用于确定在每个波束中是否识别出所述第一语音;
逻辑判断子单元,用于根据所述语音识别子单元的识别结果,进行如下判断:如果在所述两个波束中均未识别出所述第一语音,则继续监听不同方向的语音信号;如果只在所述两个波束中的第一波束中识别出所述第一语音,则将所述第一波束的方向确定为目标声源的方向,将第二波束的方向确定为干扰声源的方向;如果在所述两个波束中均识别出所述第一语音,则根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向。
13.根据权利要求12所述的装置,其特征在于,所述语音识别子单元用于:
在当前波束中对所述第一语音进行匹配;
如果匹配得分大于第一门限值,则确定在当前波束中识别出所述第一语音。
14.根据权利要求12所述的装置,其特征在于,根据预设策略分别计算两个波束的预设参数值,并根据所述预设参数值确定目标声源的方向及干扰声源的方向,包括:
分别获取在所述第一波束中识别所述第一语音时的置信度S1和所述第一波束的波束能量P1,以及,在所述第二波束中识别所述第一语音时的置信度S2和所述第二波束的波束能量P2;
如果S1>S2且P1>P2,则将所述第一波束的方向作为目标声源的方向;
如果S2>S1且P2>P1,则将所述第二波束的方向作为目标声源的方向;
如果S1>S2且P2>P1,则当S1/S2大于第二门限值且P2/P1小于第三门限值时将所述第一波束的方向作为目标声源的方向,否则将所述第二波束的方向作为目标声源的方向;
如果S2>S1且P1>P2,则当S2/S1大于第二门限值且P1/P2小于第三门限值时将所述第二波束的方向作为目标声源的方向,否则将所述第一波束的方向作为目标声源的方向。
CN201610848492.9A 2016-09-23 2016-09-23 一种声源定位方法及装置 Active CN106483502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610848492.9A CN106483502B (zh) 2016-09-23 2016-09-23 一种声源定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610848492.9A CN106483502B (zh) 2016-09-23 2016-09-23 一种声源定位方法及装置

Publications (2)

Publication Number Publication Date
CN106483502A CN106483502A (zh) 2017-03-08
CN106483502B true CN106483502B (zh) 2019-10-18

Family

ID=58268865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610848492.9A Active CN106483502B (zh) 2016-09-23 2016-09-23 一种声源定位方法及装置

Country Status (1)

Country Link
CN (1) CN106483502B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107613428B (zh) * 2017-09-15 2020-02-14 北京地平线信息技术有限公司 声音处理方法、装置和电子设备
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN109975795B (zh) * 2017-12-28 2021-10-15 北京京东尚科信息技术有限公司 一种声源追踪方法和装置
CN108091344A (zh) * 2018-02-28 2018-05-29 科大讯飞股份有限公司 一种降噪方法、装置及系统
CN110797042B (zh) * 2018-08-03 2022-04-15 杭州海康威视数字技术股份有限公司 音频处理方法、装置及存储介质
CN109272989B (zh) * 2018-08-29 2021-08-10 北京京东尚科信息技术有限公司 语音唤醒方法、装置和计算机可读存储介质
CN109375171B (zh) * 2018-11-21 2020-10-16 合肥工业大学 一种基于正交匹配追踪算法的声源定位方法
CN111833901B (zh) * 2019-04-23 2024-04-05 北京京东尚科信息技术有限公司 音频处理方法、音频处理装置、系统及介质
CN110111805B (zh) * 2019-04-29 2021-10-29 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
CN113347519B (zh) * 2020-02-18 2022-06-17 宏碁股份有限公司 消除特定对象语音的方法及应用其的耳戴式声音信号装置
CN113314138B (zh) * 2021-04-25 2024-03-29 普联国际有限公司 基于麦克风阵列的声源监听分离方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246690A (zh) * 2007-02-15 2008-08-20 索尼株式会社 声音处理设备、声音处理方法及程序
CN101911724A (zh) * 2008-03-18 2010-12-08 高通股份有限公司 使用多个装置上的多个麦克风进行语音增强
CN102915753A (zh) * 2012-10-23 2013-02-06 华为终端有限公司 一种电子设备的智能控制音量的方法及实现装置
KR101463955B1 (ko) * 2013-02-27 2014-11-21 한국과학기술원 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246690A (zh) * 2007-02-15 2008-08-20 索尼株式会社 声音处理设备、声音处理方法及程序
CN101911724A (zh) * 2008-03-18 2010-12-08 高通股份有限公司 使用多个装置上的多个麦克风进行语音增强
CN102915753A (zh) * 2012-10-23 2013-02-06 华为终端有限公司 一种电子设备的智能控制音量的方法及实现装置
KR101463955B1 (ko) * 2013-02-27 2014-11-21 한국과학기술원 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템

Also Published As

Publication number Publication date
CN106483502A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106483502B (zh) 一种声源定位方法及装置
JP6246792B2 (ja) ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法
CN110770827B (zh) 基于相关性的近场检测器
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
Nakadai et al. Improvement of recognition of simultaneous speech signals using av integration and scattering theory for humanoid robots
US10535361B2 (en) Speech enhancement using clustering of cues
Pang et al. Binaural sound localization based on reverberation weighting and generalized parametric mapping
Choi et al. Robust time-delay estimation for acoustic indoor localization in reverberant environments
Di Carlo et al. Mirage: 2d source localization using microphone pair augmentation with echoes
CN103901400B (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
Pertilä Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking
Marti et al. Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments
Nakadai et al. Footstep detection and classification using distributed microphones
Brutti et al. Speaker localization based on oriented global coherence field
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
Chong et al. Tracking and separation of multiple moving speech sources via cardinality balanced multi-target multi Bernoulli (CBMeMBer) filter and time frequency masking
Nguyen et al. Selection of the closest sound source for robot auditory attention in multi-source scenarios
US20190324117A1 (en) Content aware audio source localization
Nakamura et al. Blind spatial sound source clustering and activity detection using uncalibrated microphone array
Carabias-Orti et al. Multi-source localization using a DOA Kernel based spatial covariance model and complex nonnegative matrix factorization
Pasha et al. Distributed microphone arrays, emerging speech and audio signal processing platforms: A review
Liu et al. A unified network for multi-speaker speech recognition with multi-channel recordings
WO2022042864A1 (en) Method and apparatus for measuring directions of arrival of multiple sound sources
Habib et al. Auditory inspired methods for localization of multiple concurrent speakers
Chong et al. Multiple sound source tracking and identification via degenerate unmixing estimation technique and cardinality balanced multi-target multi-bernoulli filter (DUET-CBMeMBer) with track management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant