CN111505583B - 声源定位方法、装置、设备和可读存储介质 - Google Patents

声源定位方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN111505583B
CN111505583B CN202010378409.2A CN202010378409A CN111505583B CN 111505583 B CN111505583 B CN 111505583B CN 202010378409 A CN202010378409 A CN 202010378409A CN 111505583 B CN111505583 B CN 111505583B
Authority
CN
China
Prior art keywords
audio
sound source
signals
audio acquisition
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010378409.2A
Other languages
English (en)
Other versions
CN111505583A (zh
Inventor
王柳锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010378409.2A priority Critical patent/CN111505583B/zh
Publication of CN111505583A publication Critical patent/CN111505583A/zh
Application granted granted Critical
Publication of CN111505583B publication Critical patent/CN111505583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Abstract

本申请公开了一种声源定位方法、装置、设备和可读存储介质,涉及声源定位领域。声源定位方法包括:获取音频混叠信号,所述音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,所述至少两条音频采集通道的入口位置不同;对所述音频混叠信号进行分离,得到与至少两条所述音频采集通道对应的分离音频信号;根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息;根据至少两条所述音频采集通道的入口处的声源信号的信息,对声源进行定位,实现了基于单麦克风的声源定位。

Description

声源定位方法、装置、设备和可读存储介质
技术领域
本申请涉及计算机技术,尤其涉及声源定位技术领域。
背景技术
声源定位设备在使用过程中需要对声源进行定位,从而实现更好的拾音和语音识别效果。
目前,声源定位设备在声源定位时,大多采用多个麦克风构成麦克风阵列,根据麦克风阵列中各麦克风之间的相对位置或者角度来对声源进行定位。
这种方法浪费元件成本,占用过多的接口资源;而且,由于制作工艺水平所限,麦克风不可能做到一模一样,由于各麦克风之间的不一致性会导致定位不准的技术问题。
发明内容
本申请实施例提供了一种声源定位方法、装置、设备和可读存储介质,以基于单麦克风进行声源定位。
第一方面,本申请实施例提供了一种声源定位方法,包括:
获取音频混叠信号,所述音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,所述至少两条音频采集通道的入口位置不同;
对所述音频混叠信号进行分离,得到与至少两条所述音频采集通道对应的分离音频信号;
根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息;
根据至少两条所述音频采集通道的入口处的声源信号的信息,对声源进行定位。
第二方面,本申请实施例提供了一种声源定位设备,包括:处理器,至少两条音频采集通道和一个麦克风;
至少两条所述音频采集通道的出口与所述麦克风对应,至少两条所述音频采集通道的入口设置在所述声源定位设备的不同位置处,用于将声源信号从所述声源定位设备的所述不同位置处传导至所述麦克风;
所述麦克风,用于对至少两条所述音频采集通道的出口处的声源信号进行采集,得到音频混叠信号;
所述处理器与所述麦克风连接,用于执行任一实施例所述的声源定位方法。
第三方面,本申请实施例提供了一种声源定位装置,包括:
获取模块,用于获取音频混叠信号,所述音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,所述至少两条音频采集通道的入口位置不同;
分离模块,用于对所述音频混叠信号进行分离,得到与至少两条所述音频采集通道对应的分离音频信号;
得到模块,用于根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息;
定位模块,用于根据至少两条所述音频采集通道的入口处的声源信号的信息,对声源进行定位。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行任一实施例所提供的一种声源定位方法。
根据本申请的技术通过单麦克风实现声源定位,减少元件成本,不用占用过多的接口资源;同时保证一定的定位精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1a是本申请实施例中的第一种声源定位方法的流程图;
图1b是本申请实施例中的音频混叠信号的示意图;
图2a是本申请实施例提供的第二种声源定位方法的流程图;
图2b是本申请实施例中的一种分离音频信号的波形图;
图3是本申请实施例提供的第三种声源定位方法的流程图;
图4是本申请实施例中的声源定位装置的结构图;
图5是本申请实施例中的第一种声源定位设备的结构示意图;
图6是本申请实施例中的另一种声源定位设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例中,图1a是本申请实施例中的第一种声源定位方法的流程图,本申请实施例适用于采用单麦克风进行声源定位的情况。该方法通过声源定位装置执行,该装置采用软件和/或硬件实现,并具体配置于声源定位设备中。
如图1a所示,本实施例提供的声源定位方法,包括:
S110、获取音频混叠信号,音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,至少两条音频采集通道的入口位置不同。
本实施例中,每条音频采集通道是中空结构,可以笔直的中空结构,也可以是弯曲的中空结构,包括一个出口和一个入口。至少两条音频采集通道的出口与麦克风对应,具体的,出口与麦克风相贴,保证麦克风能够准确拾音,避免其它音频采集通道或外界的干扰。至少两条音频采集通道的入口设置在不同位置处,例如空间中的不同位置。
由于至少两条音频采集通道的入口设置在不同位置处,则至少两条音频采集通道用于将同一声源信号从不同位置处传导至麦克风。
相应的,麦克风对至少两条音频采集通道的出口处的信号进行采集,得到音频混叠信号。由于采用一个麦克风对至少两个出口处的声源信号进行采集,则采集到的信号实质是至少两个出口处的声源信号叠加而成的音频混叠信号。本实施例中,声源信号经过不同的音频采集通道到达麦克风的路程不同、时延不同,使得麦克风采集到各信号的时间不同,进一步,各信号的信号特征不同,例如相位不同、幅值不同、功率谱不同。
图1b是本申请实施例中的音频混叠信号的示意图,音频混叠信号的横坐标为时间t,纵坐标为音频混叠信号z。由于声源信号通过不同的音频采集通道到达麦克风的时延不同,则音频混叠信号最初仅包括一个音频采集通道的出口处的声源信号,即最初采集到的信号。随着时间t的进行,到t1时刻,音频混叠信号包括两个音频采集通道的出口处的声源信号,到t2时刻,音频混叠信号包括三个音频采集通道的出口处的声源信号,以此类推,音频混叠信号包括的声源信号越来越多,直到包括所有音频采集通道的出口处的声源信号。
S120、对音频混叠信号进行分离,得到与至少两条音频采集通道对应的分离音频信号。
由于音频混叠信号由多个声源信号在不同时刻逐步叠加而成,根据通信领域的相关知识,对音频混叠信号执行逐步叠加的逆操作,从音频混叠信号中分离出至少两条音频采集通道的出口处的声源信号。
可选的,将音频混叠信号中初始时刻的音频混叠信号,确定为与一条音频采集通道对应的分离音频信号;获取音频混叠信号的信号特征发生改变的至少一个目标时刻;将每个目标时刻前后的音频混叠信号作差,得到与至少一条音频采集通道对应的分离音频信号。为了方便描述和区分,将各音频采集通道的出口处的声源信号称为与各音频采集通道对应的分离音频信号。
参考图1b,将t1时刻前的音频混叠信号确定为与一条音频采集通道对应的分离音频信号,也就是长度最短的音频采集通道的出口处的声源信号。显然,不同出口处的声源信号叠加而成的音频混叠信号的信号特征不同。基于此,当信号特征发生改变时,说明有新的信号加入,利用此特点,将信号特征发生改变的时刻称为目标时刻,例如t1时刻和t2时刻。将t1时刻后的音频混叠信号减去t1时刻前的音频混叠信号,得到与另一条音频采集通道对应的分离音频信号,也就是长度中等的音频采集通道的出口处的声源信号。同理,将t2时刻后的音频混叠信号减去t2时刻前的音频混叠信号,得到与又一条音频采集通道对应的分离音频信号,也就是长度最长的音频采集通道的出口处的声源信号。以此类推,可得到与所有音频采集通道对应的分离音频信号。
S130、根据分离音频信号和对应的音频采集通道的长度,得到至少两条音频采集通道的入口处的声源信号的信息。
具体的,声源信号经过音频采集通道的入口传播到出口,因此,出口处的声源信号(即分离音频信号)与入口处的声源信号相差音频采集通道中的时延,该时延由音频采集通道的长度来决定。基于此,可以根据与至少两条音频采集通道对应的分离音频信号和分离音频信号在对应的音频采集通道中的时延,得到至少两条音频采集通道的入口处的声源信号的信息。
可选的,声源信号的信息可以是声源信号本身,如声源信号表达式或波形,也可以是声源信号的信号特征之差,如相位差、幅值差或功率谱差。
S140、根据至少两条音频采集通道的入口处的声源信号的信息,对声源进行定位。
至少两个音频采集通道的入口模拟了“麦克风阵列”,通过一个麦克风采集到的音频混叠信号,得到至少两条音频采集通道的入口处的声源信号的信息,也就是得到“麦克风阵列”采集到的多个声源信号的信息。该多个声源信号的信息必然是不同的。因此,采用基于麦克风阵列的声源定位方法,根据至少两条音频采集通道的入口处的声源信号的信息进行声源定位。例如,根据至少两条音频采集通道的入口处的声源信号的相位差进行声源定位;又例如,对至少两条音频采集通道的入口处的声源信号进行波束成形,得到声源的定位。
本实施例中,至少两条音频采集通道的入口模拟了“麦克风阵列”,当“麦克风阵列”采集到的声源信号通过音频采集通道传导至麦克风后,得到音频混叠信号,那么,该音频混叠信号能够分离出音频采集通道出口处的声源信号,即得到分离音频信号;进而根据音频采集通道的长度,得到音频采集通道入口处的声源信号的信息,即“麦克风阵列”采集到的声源信号的信息,从而进行声源定位。本实施例提供了基于单麦克风的声源定位方法,避免了多个麦克风带来的高成本和高接口资源占用率,同时保证一定的定位精度。
进一步的,利用音频信号从声源到达麦克风的时延不同,根据初始时刻的音频混叠信号以及目标时刻前后的音频混叠信号作差,分离出与各音频采集通道对应的分离音频信号,巧妙的获得“麦克风阵列”采集到的声源信号的信息。
本申请实施例中,图2a是本申请实施例提供的第二种声源定位方法的流程图,本实施例对上述或下述各实施例进行优化。
可选的,将操作“根据分离音频信号和对应的音频采集通道的长度,得到至少两条音频采集通道的入口处的声源信号的信息”细化为“根据分离音频信号在每条音频采集通道中的传输速率和对应的音频采集通道的长度,得到分离音频信号在每条音频采集通道中的时延;将分离音频信号,按照在对应的音频采集通道中的时延进行回退,得到每条音频采集通道的入口处的声源信号”。
可选的,在操作“根据至少两条音频采集通道的入口处的声源信号的信息,对声源进行定位”之后追加“根据校正值对声源的定位进行校正;其中,校正值是预先通过声源的实际位置和声源的定位之差确定的。”
图2a提供的方法包括以下操作:
S210、获取音频混叠信号,音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,至少两条音频采集通道的入口位置不同。
S220、对音频混叠信号进行分离,得到与至少两条音频采集通道对应的分离音频信号。
S230、根据分离音频信号在每条音频采集通道中的传输速率和对应的音频采集通道的长度,得到分离音频信号在每条音频采集通道中的时延。
具体的,将每条音频采集通道的长度除以分离音频信号在该条音频采集通道中的传输速率,得到分离音频信号在每条音频采集通道中的时延。显然,音频采集通道的长度越长,时延越长。
S240、将分离音频信号按照在对应的音频采集通道中的时延进行回退,得到每条音频采集通道的入口处的声源信号。
由于入口处的声源信号经过时延才能达到出口处,则将出口处的分离音频信号按照该时延进行回退,得到入口处的声源信号。回退指将分离音频信号的波形向时间轴的反方向平移该时延的距离。
图2b是本申请实施例中的一种分离音频信号的波形图,横坐标为wt,纵坐标为y。按照由上到下的顺序分别是与一条音频采集通道对应的分离音频信号A的波形图,表达式为
Figure BDA0002480936270000071
为分离音频信号A的初相,w为角速度,t为时间。该条音频采集通道的入口处的声源信号a的波形图,表达式为
Figure BDA0002480936270000072
分离音频信号A滞后于声源信号a时延Δt,分离音频信号A与声源信号a的相位相差wΔt。
S250、根据至少两条音频采集通道的入口处的声源信号,对声源进行定位。
可选的,将至少两条音频采集通道的入口处的声源信号进行加权求和,通过调控权值使输出信号功率最大,来进行声源定位。
可选的,根据声源信号到达至少两条音频采集通道的入口的时间差以及各入口之间的位置关系,进行声源定位。
可选的,根据至少两条音频采集通道的入口处的声源信号,得到声源信号的相位差;根据声源信号的相位差进行声源定位。
S260、根据校正值对声源的定位进行校正;其中,校正值是预先通过声源的实际位置和声源的定位之差确定的。
由于制作工艺水平有限的原因,在同一批声源定位设备中,不同的声源定位设备之间的音频采集通道的入口的位置、长度可能与标准位置和标准长度略有不同。那么,按照标准位置和标准长度进行声源定位会与真实的声源位置有偏差。基于此,预先对声源定位设备进行试验,在声源定位设备之外设置一个声源,按照音频采集通道的入口的标准位置和标准长度进行声源定位,得到的声源的定位与声源的实际位置作差,得到校正值。进而在按照本实施例提供的方法得到声源的定位后,将声源的定位与校正值叠加,得到更为准确的定位。
本实施例中,通过分离音频信号按照在对应的音频采集通道中的时延进行回退,得到每条音频采集通道的入口处的声源信号,从而通过单麦克风采集到的音频混叠信号,得到各音频采集通道的入口处的声源信号,并根据声源信号进行定位,实现基于单麦克风的声源定位。
进一步的,根据校正值对声源的定位进行校正,弥补了由于制作工艺有限带来的定位偏差。
根据本申请的实施例,图3是本申请实施例提供的第三种声源定位方法的流程图,本实施例对上述各实施例中声源信号的信息的得到过程进行优化。
如图3所示的第三种声源定位方法包括:
S310、获取音频混叠信号,音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,至少两条音频采集通道的入口位置不同。
S320、对音频混叠信号进行分离,得到与至少两条音频采集通道对应的分离音频信号。
S330、根据分离音频信号在每条音频采集通道中的传输速率和对应的音频采集通道的长度,得到分离音频信号在每条音频采集通道中的时延。
本操作详见上述实施例的记载,此处不再赘述。
S340、根据分离音频信号在至少两条音频采集通道中的时延差和分离音频信号的角速度,得到分离音频信号在至少两条音频采集通道中的中间相位差。
S350、计算分离音频信号的相位差。
S360、将分离音频信号的相位差与中间相位差叠加,得到至少两条音频采集通道的入口处的声源信号的相位差。
假设共有两条音频采集通道,与一条音频采集通道对应的分离音频信号A的波形图,表达式为
Figure BDA0002480936270000081
为分离音频信号A的初相,该条音频采集通道的入口处的声源信号a的波形图,表达式为
Figure BDA0002480936270000082
分离音频信号A滞后于声源信号a时延Δt1。与另一条音频采集通道对应的声源信号B的波形图,表达式为
Figure BDA0002480936270000091
为分离音频信号B的初相,该条音频采集通道的入口处的声源信号b的波形图,表达式为
Figure BDA0002480936270000092
分离音频信号B滞后于声源信号b时延Δt2
可见,声源信号a和b的相位差为
Figure BDA0002480936270000093
其中,Δt1和Δt2分别是分离音频信号A、B在两条音频采集通道中的时延。Δt1-Δt2是分离音频信号A、B在两条音频采集通道中的时延差,w(Δt1-Δt2)是分离音频信号A、B在两条音频采集通道中的中间相位差,也就是由于音频采集通道的长度不同,导致的相位差。
Figure BDA0002480936270000094
是分离音频信号A和分离音频信号B的相位差。
S370、根据至少两条音频采集通道的入口处的声源信号的相位差,对声源进行定位。
本实施例中,通过将分离音频信号的相位差与中间相位差叠加,得到至少两条音频采集通道的入口处的声源信号的相位差,进而通过单麦克风采集到的音频混叠信号,得到各音频采集通道的入口处的声源信号的相位差,并根据声源信号的相位差进行定位,实现基于单麦克风的声源定位。
根据本申请的实施例,图4是本申请实施例中的声源定位装置的结构图,本申请实施例适用于采用单麦克风进行声源定位的情况。该装置采用软件和/或硬件实现,并具体配置于声源定位设备中。
如图4所示的一种声源定位装置400,包括:获取模块401、分离模块402、得到模块403和定位模块404;其中,
获取模块401,用于获取音频混叠信号,音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,至少两条音频采集通道的入口位置不同;
分离模块402,用于对音频混叠信号进行分离,得到与至少两条音频采集通道对应的分离音频信号;
得到模块403,用于根据分离音频信号和对应的音频采集通道的长度,得到至少两条音频采集通道的入口处的声源信号的信息;
定位模块404,用于根据至少两条音频采集通道的入口处的声源信号的信息,对声源进行定位。
本申请实施例中,至少两条音频采集通道的入口模拟了“麦克风阵列”,当“麦克风阵列”采集到的声源信号通过音频采集通道传导至麦克风后,得到音频混叠信号,那么,该音频混叠信号能够分离出音频采集通道出口处的信号,即得到分离音频信号;进而根据音频采集通道的长度,得到音频采集通道入口处的声源信号的信息,即“麦克风阵列”采集到的声源信号的信息,从而进行声源定位。本实施例提供了基于单麦克风的声源定位方法,避免了多个麦克风带来的高成本和高接口资源占用率,同时保证一定的定位精度。
进一步的,分离模块402具体用于将音频混叠信号中初始时刻的音频混叠信号,确定与一条音频采集通道对应的分离音频信号;获取音频混叠信号的信号特征发生改变的至少一个目标时刻;将每个目标时刻前后的音频混叠信号作差,得到与至少一条音频采集通道对应的分离音频信号。
进一步的,得到模块403具体用于根据分离音频信号在每条音频采集通道中的传输速率和对应的音频采集通道的长度,得到分离音频信号在每条音频采集通道中的时延;将分离音频信号,按照在对应的音频采集通道中的时延进行回退,得到每条音频采集通道的入口处的声源信号。
进一步的,得到模块403具体用于根据分离音频信号在每条音频采集通道中的传输速率和对应的音频采集通道的长度,得到分离音频信号在每条音频采集通道中的时延;根据分离音频信号在至少两条音频采集通道中的时延差和分离音频信号的角速度,得到分离音频信号在至少两条音频采集通道中的中间相位差;计算分离音频信号的相位差;将分离音频信号的相位差与中间相位差叠加,得到至少两条音频采集通道的入口处的声源信号的相位差。
进一步的,该装置还包括校正模块,用于根据校正值对声源的定位进行校正;其中,校正值是预先通过声源的实际位置和声源的定位之差确定的。
上述声源定位装置可执行本申请任意实施例所提供的声源定位方法,具备执行声源定位方法相应的功能模块和有益效果。
根据本申请的实施例,图5是本申请实施例中的第一种声源定位设备的结构示意图,如图5所示,声源定位设备10包括:处理器100,至少两条音频采集通道110和一个麦克风120。图5中麦克风120采用灰色填充。
其中,图5示出了3条音频采集通道110,这3条音频采集通道110的入口112分布在声源定位设备10的左侧、下侧和右侧。对音频采集通道110和麦克风120的描述详见上述实施例,此处不再赘述。
处理器100与麦克风120连接,用于获取麦克风120采集的音频混叠信号,并根据音频混叠信号对声源进行定位。声源定位设备10的不同位置,或者至少两个音频采集通道110的入口112,模拟了“麦克风阵列”,入口112处的声源信号的信号特征必然是不同的,而这个不同是由声源20的位置决定的。当不同位置处的声源信号传导至麦克风120后,也会得到信号特征不同的分离音频信号,经麦克风120采集这些信号特征不同的分离音频信号,得到的音频混叠信号也是由声源20的位置决定的。基于此,处理器100根据音频混叠信号对声源20进行定位。处理器100根据音频混叠信号对声源20进行定位的方法详见上述实施例的描述,此处不再赘述。
本实施例中,通过至少两条音频采集通道110的入口112模拟了“麦克风阵列”,当“麦克风阵列”采集到的声源信号通过音频采集通过传导至麦克风120后,得到音频混叠信号,那么,该音频混叠信号能够反映音频采集通道110入口112处的声源信号,即“麦克风阵列”采集到的信号,从而进行声源定位。本实施例提供了基于单麦克风120的声源定位方法,避免了多个麦克风带来的高成本和高接口资源占用率,同时保证一定的定位精度。
本实施例提供的声源定位设备10在设计生产上,减少了设计精度和多麦克风120对间距的要求,更能实现产品小型化。在应用于去噪时,由于仅采用一个麦克风120,没有不同麦克风带来的感知差异,能够更好的达到去噪效果。
根据本申请的实施例,至少两条音频采集通道110的长度不同。如图5和图6所示,假设声源定位设备10中存在一虚拟的圆环130,以辅助标定入口112的位置和麦克风120的位置。基于此,将至少两条音频采集通道110的入口112设置在圆环130的不同位置处,将麦克风120设置在圆环130的中心,将至少两条音频采集通道110设置为不同长度。图5所示左侧音频采集通道110的长度小于下侧音频采集通道110的长度,下侧音频采集通道110的长度小于右侧音频采集通道110的长度。图6是本申请实施例中的另一种声源定位设备的结构示意图。如图6所示,将至少两条音频采集通道110的入口112设置在圆环130的不同位置处,将麦克风120设置在圆环130内部偏离圆环130中心的位置,将至少两条音频采集通道110设置为不同长度。图6所示左侧音频采集通道110的长度小于下侧音频采集通道110的长度,右侧音频采集通道110的长度小于左侧音频采集通道110的长度。
当然,至少两条音频采集通道110的长度也可以相同,本实施例不限于此。
本实施例通过设置长度不同的音频采集通道110,增大声源信号通过不同声音采集通道到达麦克风120的时延,进而增大不同声音采集通道的出口111处的信号特征的区别,从而产生更好的音频混叠信号,提高声源定位的精度。
本申请实施例中,至少两条音频采集通道110包括至少两条密封的音频采集通道110;具体的,所有音频采集通道110可以都是密封的,保证不受其它音频采集通道110和外界噪声干扰。
可选的,至少两条音频采集通道110包括至少一条密封的音频采集通道110和一条非密封的音频采集通道110。其中,非密封的音频采集通道110完全暴露在空气中,相当于将空气作为一条音频采集通道110,减少一条封闭的音频采集通道110,节省成本;而且,非密封的音频采集通道110的长度是声源20到麦克风120的最短的音频采集通道110,那么在设置其它音频采集通道110时,可以缩短长度,进一步节省成本。
本申请实施例中,如图5和图6所示,麦克风120的外表面覆盖有屏蔽罩140,用粗实线表示,屏蔽罩140上开设有与至少两条音频采集通道110的出口111适配的孔141。具体的,如果音频采集通道110均是密封的,屏蔽罩140要覆盖整个麦克风120,并在与至少两条音频采集通道110的出口111对应的位置处开设孔141,该孔141的大小与音频采集通道110的出口111大小相同。如果至少两条音频采集通道110包括一条非密封的音频采集通道110,则除了在与至少两条音频采集通道110的出口111对应的位置处开设孔141之外,还需要在面向空气的一位置处开设孔141;当然,也可以不在麦克风120的外表面覆盖屏蔽罩140。
本实施例中,屏蔽罩140可以进一步屏蔽外界的噪声,保证定位精度。
根据本申请的实施例,本申请还提供了一种可读存储介质。
本申请所提供的非瞬时计算机可读存储介质存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的声源定位方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的声源定位方法。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (11)

1.一种声源定位方法,其特征在于,包括:
获取音频混叠信号,所述音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,所述至少两条音频采集通道的入口位置不同;
对所述音频混叠信号进行分离,得到与至少两条所述音频采集通道对应的分离音频信号;
根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息;
根据至少两条所述音频采集通道的入口处的声源信号的信息,对声源进行定位。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频混叠信号进行分离,得到与至少两条所述音频采集通道对应的分离音频信号,包括:
将所述音频混叠信号中初始时刻的音频混叠信号,确定与一条所述音频采集通道对应的分离音频信号;
获取所述音频混叠信号的信号特征发生改变的至少一个目标时刻;
将每个所述目标时刻前后的音频混叠信号作差,得到与至少一条所述音频采集通道对应的分离音频信号。
3.根据权利要求1所述的方法,其特征在于,所述根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息,包括:
根据所述分离音频信号在每条所述音频采集通道中的传输速率和对应的音频采集通道的长度,得到所述分离音频信号在每条所述音频采集通道中的时延;
将所述分离音频信号按照在对应的音频采集通道中的时延进行回退,得到每条所述音频采集通道的入口处的声源信号。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息,包括:
根据所述分离音频信号在每条所述音频采集通道中的传输速率和对应的音频采集通道的长度,得到所述分离音频信号在每条所述音频采集通道中的时延;
根据所述分离音频信号在至少两条所述音频采集通道中的时延差和所述分离音频信号的角速度,得到所述分离音频信号在至少两条所述音频采集通道中的中间相位差;
计算所述分离音频信号的相位差;
将所述分离音频信号的相位差与所述中间相位差叠加,得到至少两条所述音频采集通道的入口处的声源信号的相位差。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述根据至少两条所述音频采集通道的入口处的声源信号的信息,对声源进行定位之后,还包括:
根据校正值对所述声源的定位进行校正;
其中,所述校正值是预先通过所述声源的实际位置和所述声源的定位之差确定的。
6.一种声源定位装置,其特征在于,所述装置包括:
获取模块,用于获取音频混叠信号,所述音频混叠信号由一个麦克风通过至少两条音频采集通道采集同一声源信号混叠而成,所述至少两条音频采集通道的入口位置不同;
分离模块,用于对所述音频混叠信号进行分离,得到与至少两条所述音频采集通道对应的分离音频信号;
得到模块,用于根据所述分离音频信号和对应的音频采集通道的长度,得到所述至少两条音频采集通道的入口处的声源信号的信息;
定位模块,用于根据至少两条所述音频采集通道的入口处的声源信号的信息,对声源进行定位。
7.一种声源定位设备,其特征在于,包括:处理器,至少两条音频采集通道和一个麦克风;
至少两条所述音频采集通道的出口与所述麦克风对应,至少两条所述音频采集通道的入口设置在所述声源定位设备的不同位置处,用于将声源信号从所述声源定位设备的所述不同位置处传导至所述麦克风;
所述麦克风,用于对至少两条所述音频采集通道的出口处的声源信号进行采集,得到音频混叠信号;
所述处理器与所述麦克风连接,用于执行权利要求1-5任一项所述的声源定位方法。
8.根据权利要求7所述的设备,其特征在于,至少两条所述音频采集通道的长度不同。
9.根据权利要求7所述的设备,其特征在于,至少两条所述音频采集通道包括至少两条密封的音频采集通道;或者,
至少两条所述音频采集通道包括至少一条密封的音频采集通道和一条非密封的音频采集通道。
10.根据权利要求7-9任一项所述的设备,其特征在于,所述麦克风的外表面覆盖有屏蔽罩,所述屏蔽罩上开设有与至少两条所述音频采集通道的出口适配的孔。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的一种声源定位方法。
CN202010378409.2A 2020-05-07 2020-05-07 声源定位方法、装置、设备和可读存储介质 Active CN111505583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010378409.2A CN111505583B (zh) 2020-05-07 2020-05-07 声源定位方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010378409.2A CN111505583B (zh) 2020-05-07 2020-05-07 声源定位方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN111505583A CN111505583A (zh) 2020-08-07
CN111505583B true CN111505583B (zh) 2022-07-01

Family

ID=71876668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010378409.2A Active CN111505583B (zh) 2020-05-07 2020-05-07 声源定位方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111505583B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409811B (zh) * 2021-06-01 2023-01-20 歌尔股份有限公司 声音信号处理方法、设备和计算机可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
CN101384105B (zh) * 2008-10-27 2011-11-23 华为终端有限公司 三维声音重现的方法、装置及系统
JP5397131B2 (ja) * 2009-09-29 2014-01-22 沖電気工業株式会社 音源方向推定装置及びプログラム
CN104991573A (zh) * 2015-06-25 2015-10-21 北京品创汇通科技有限公司 一种基于声源阵列的定位跟踪方法及其装置
CN105070304B (zh) * 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
US20180074163A1 (en) * 2016-09-08 2018-03-15 Nanjing Avatarmind Robot Technology Co., Ltd. Method and system for positioning sound source by robot
CN107026934B (zh) * 2016-10-27 2019-09-27 华为技术有限公司 一种声源定位方法和装置
CN110133594B (zh) * 2018-02-09 2023-04-28 北京搜狗科技发展有限公司 一种声源定位方法、装置和用于声源定位的装置
CN108364648B (zh) * 2018-02-11 2021-08-03 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
CN110400571B (zh) * 2019-08-08 2022-04-22 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
CN111060874B (zh) * 2019-12-10 2021-10-29 深圳市优必选科技股份有限公司 一种声源定位方法、装置、存储介质及终端设备

Also Published As

Publication number Publication date
CN111505583A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US11323807B2 (en) Echo cancellation method and apparatus based on time delay estimation
CN109074816B (zh) 远场自动语音识别预处理
EP3531674B1 (en) Sound processing method and device
EP3822654A1 (en) Audio recognition method, and target audio positioning method, apparatus and device
US8160270B2 (en) Method and apparatus for acquiring multi-channel sound by using microphone array
CN1664609B (zh) 提高定位估计的精度的系统和方法
CN101079267B (zh) 定向集音装置和定向集音方法
EP3090275B1 (en) Microphone autolocalization using moving acoustic source
Dorfan et al. Tree-based recursive expectation-maximization algorithm for localization of acoustic sources
KR20210091034A (ko) 평면 마이크로폰 어레이들에 대한 다중-소스 추적 및 음성 활동 검출들
CN112466318B (zh) 语音处理方法、装置及语音处理模型的生成方法、装置
CN111505583B (zh) 声源定位方法、装置、设备和可读存储介质
CN103858360B (zh) 对无线通信信号进行干扰抑制的方法以及发射机和接收机
US20170013357A1 (en) Sound collection apparatus and method
KR102523305B1 (ko) 더블 토크 상태 검측 방법, 장치 및 전자 기기
US20220159376A1 (en) Method, apparatus and device for processing sound signals
JP5060465B2 (ja) 収音装置、収音方法、収音プログラム、記録媒体
US20140325413A1 (en) Computer-Implemented Method For Manipulating Three-Dimensional Modeled Objects Of An Assembly In A Three-Dimensional Scene
WO2017112085A1 (en) Microphone beamforming using distance and environmental information
CN112466327B (zh) 语音处理方法、装置和电子设备
CN112735459B (zh) 基于分布式麦克风的语音信号增强方法、服务器及系统
US9733714B2 (en) Computing system with command-sense mechanism and method of operation thereof
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Archer-Boyd et al. Biomimetic direction of arrival estimation for resolving front-back confusions in hearing aids
CN116645973A (zh) 定向音频增强方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant