CN112858999B - 一种多音源定位方法、装置、电子设备及存储介质 - Google Patents

一种多音源定位方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112858999B
CN112858999B CN202011565848.0A CN202011565848A CN112858999B CN 112858999 B CN112858999 B CN 112858999B CN 202011565848 A CN202011565848 A CN 202011565848A CN 112858999 B CN112858999 B CN 112858999B
Authority
CN
China
Prior art keywords
sound source
peak information
microphone
correlation
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011565848.0A
Other languages
English (en)
Other versions
CN112858999A (zh
Inventor
何源
王伟国
李金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011565848.0A priority Critical patent/CN112858999B/zh
Publication of CN112858999A publication Critical patent/CN112858999A/zh
Application granted granted Critical
Publication of CN112858999B publication Critical patent/CN112858999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种多音源定位方法、装置、电子设备及存储介质,该方法包括:对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;根据来自同一音源的到达角进行音源定位。将相关峰信息划分为纯净峰和混合峰,然后根据纯净峰估计各个到达角,并根据混合峰适合每个到达角的音源,确定属于同一个音源的LOS的到达角和ECHO的到达角,最终实现在多音源情况的音源定位。

Description

一种多音源定位方法、装置、电子设备及存储介质
技术领域
本发明涉及音源定位技术领域,尤其涉及一种多音源定位方法、装置、电子设备及存储介质。
背景技术
智能设备在我们的日常生活中越来越流行。声音识别是智能设备的一项重要功能。智能音箱支持各种吸引人的应用,如家电语音控制、人机对话、娱乐中心等。
随着智能家居的快速发展,对智能设备上声源定位的需求越来越大。定位音源的能力,很大程度地提升智能设备的理解能力,包括但不限于以下几种情况:(1)定位能力使智能音箱能够处理用户位置敏感的语音命令:当用户躺在床上说“开灯”时,智能音箱如果能获知用户,即声源的位置后,就能推测用户大概率是想看书或者电视,从而智能地关闭顶灯,打开阅读灯。(2)定位能力能让智能音箱更好地感知真实的物理状态:当智能音箱听到窗户或门的异常声音是来自婴儿房间的时候,该设备就能提醒父母潜在的危险。
常规声源定位的方法需要部署多个分布式麦克风阵列。基于对阵列中音源的飞行时间差(time-difference-of-flight,TDOA)或到达方角(direction-of-arrival,DoA)的估计,可以通过三边或者三角测量对音源进行定位。但是,这些多阵列的解决方案无法应用于智能音箱这类设备,因为该设备通常仅配备一个麦克风阵列。
单个阵列定位声源的难点在于远场效应。普通商用的麦克风阵列的典型尺寸只有几厘米,该尺寸和音源与阵列之间的距离可以忽略不计。从而,声学信号到麦克风的传播射线被认为是彼此平行的。由于有限的空间分辨率(阵列大小或孔径)和时间分辨率,即麦克风的采样率,商用阵列无法分离近乎平行射线的DoA。
同时,由于真实场景中有多个声源。例如,在家居环境中,可能会有其他家庭成员的谈话、电视、洗衣机、微波炉和环境噪音。这些信号源会干扰用户的语音命令,阻碍了智能设备定位,因此多音源干扰是定位音源的另一个难点。
因此,如何同时定位多个音源,已经成为业界亟待解决的问题。
发明内容
本发明提供一种多音源定位方法、装置、电子设备及存储介质,用以解决现有技术中无法很好的同时实现多音源定位的问题。
本发明提供一种多音源定位方法,包括:
对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;
根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;
根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;
根据来自同一音源的到达角进行音源定位。
根据本发明的一种多音源定位方法,所述麦克风阵列获取的多音源信号包括:多个音源信号;
其中,每个音源信号均包括视距路径LOS传播的音源信号和墙反射路径ECHO传播的音源信号。
根据本发明的一种多音源定位方法,根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信的步骤,具体包括:
根据多个麦克风与基准麦克风之间的相关峰信息,构建多个麦克风组的相关峰时移组合;
其中,所述麦克风组是由所述基准麦克风和任一麦克风组成的;
采用曲线拟合的方法,通过所述基准麦克风的序列号与所述多个麦克风的序号列的差值,结合相关峰时移组合中的相关峰时移,构建拟合指数模型;
将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指,所述拟合指数模型的拟合指数取最小值时,对应的相关峰组合。
根据本发明的一种多音源定位方法,对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息的步骤之后,所述方法还包括:
在所述麦克风阵列为一般阵列的情况下,根据所述基准麦克风的极坐标和所述麦克风的极坐标,计算每个麦克风组的相对延迟;
根据每个麦克风组的相对延迟,构建拟合指数模型,将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指所述拟合指数模型的拟合指数取最小值的相关峰组合。
根据本发明的一种多音源定位方法,根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角的步骤,具体包括:
分别对纯净峰信息中的任意两个纯净峰进行对齐和增强处理,再计算每个纯净峰的相关函数;
对所述每个纯净峰的相关函数进行平移,得到两个平移后的相关函数;
若所述两个平移后的相关函数存在满足预设条件的相关峰,则判断这两个纯净峰为同一个音源;
其中,所述预设条件为,两个平移后的相关函数的相关峰位置与原点对称,且相关峰的峰值得到了增强。
根据本发明的一种多音源定位方法,所述根据来自同一音源的到达角进行音源定位的步骤,具体包括:
根据来自同一音源到达角正切值的绝对值,识别来自同一音源的LOS到达角和ECHO到达角;
根据LOS的到达角和ECHO的到达角,结合麦克风阵列与附近墙壁的距离,构建LOS的直线表达式和ECHO的直线表达式;
求解LOS的直线表达式和ECHO的直线表达式的交点,得到音源定位信息。
根据本发明的一种多音源定位方法,所述LOS的直线表达式和ECHO直线表达式,具体为:
Figure BDA0002861727100000041
其中,α是麦克风阵列相对于墙的方向,是需要系统部署的时候需要测量的量,d0为麦克风阵列与附近墙壁的距离,θ1为视距路径LOS的到达角,θ2为墙反射路径ECHO的到达角。
本发明还提供一种多音源定位装置,包括:
分析模块,用于对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;
筛选模块,用于根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;
确认模块,用于根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;
定位模块,用于根据来自同一音源的到达角进行音源定位。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多音源定位方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多音源定位方法的步骤。
本发明提供的一种多音源定位方法、装置、电子设备及存储介质,通过引入墙反射路径ECHO,即同一音源的信号分别通过视距路径LOS和墙反射路径ECHO达到麦克风,而ECHO的引入可以有效改善远场效应导致的单个阵列难以实现音源定位的问题,同时将多个麦克风与基准麦克风之间的相关峰信息划分为纯净峰和混合峰,然后根据纯净峰估计各个到达角,并根据混合峰适合每个到达角的音源,最终确定属于同一个音源的LOS的到达角和ECHO的到达角,最终实现在多音源情况的音源定位。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的虚拟阵列示意图;
图2是本发明提供的多音源定位方法的流程示意图;
图3为本发明提供的信号接收模型示意图;
图4为本发明提供的一般几何形状的麦克风阵列示意图;
图5为本发明中所描述的路径示意图;
图6为本发明提供的多音源定位装置结构示意图;
图7为本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一个音源被认为是远场信号只要满足如下条件
Figure BDA0002861727100000061
其中L表示音源和阵列的距离,d是麦克风的间距。λ是信号的波长。实际中,音源是非常容易满足远场的条件:人类语音的频率(唱歌除外)通常小于500Hz,相应的λ>0.66m。对于孔距为15cm的阵列,只要音源和阵列的距离大于6.8cm,该音源就可以被认为是远场。
但是,远场效应对使用单阵列的定位任务并不友好。直观上,如果可以准确地获得视距路径LOS到达各个麦克风的DoA,则可以轻松地得到音源的位置——LOS路径的交点,但是对于远场源,传播射线几乎是平行的,对于空间分辨率有限的商用设备而言,射线的DoA因距离太近而无法区分。
本发明实施例为了克服现有技术中远场效应导致的难以实现音源定位的问题,智能音箱出于供电的原因通常被放置在墙附近。如果我们将墙壁视为一面镜子,则根据平面镜成像原理,一个虚拟的智能音箱将位于该“镜子”的后面。换句话说,除了真实的麦克风阵列之外,我们还创建了另一个虚拟的阵列。图1为本发明提供的虚拟阵列示意图,如图1所示,远场的音源将分别由LOS路径和虚拟路径到达真实阵列和虚拟阵列。由于这两个阵列之间的距离相对远,因此LOS路径和虚拟路径将不再平行,而是具有两个可区分的到达角,即θ1和θ2。这意味着普通的商用设备,有机会区分出LOS和ECHO的到达角,并通过反向延长LOS和ECHO路径定位远场信号。
图2是本发明提供的多音源定位方法的流程示意图,如图2所示,包括:
步骤S1,对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;
具体的,本发明中所描述的麦克风阵列具体可以是指线性麦克风阵列或者圆形麦克风阵列。
本发明中所描述的多音源信号是指,来自多个不同音源的信息,并且麦克风阵列获取的每个音源信号时,会分别获取来自同一个音源由视距路径LOS传播的音源信号和墙反射路径ECHO传播的音源信号。
本发明通过增加墙反射路径,使得LOS路径和虚拟路径不再平行,而是具有两个可区分的达到角,这使得普通的商用设备,有机会区分出LOS和ECHO的到达角,并通过反向延长LOS和ECHO路径定位远场信号。
本发明中得到多个麦克风与基准麦克风之间的相关峰信息的步骤,具体为:
假设两个信号源SA和SB同时发声,并且有一个麦克风间距为d的线性麦克风阵列来记录信号。
图3为本发明提供的信号接收模型示意图,如图3所示,每个音源的两个主要路径:视距路径(LOS)和墙反射路径(ECHO)。以音源SA为例,其首先以θ1到达阵列,而其ECHO路径接着以θ2到达。如果我们选择第一个麦克风M0作为参考,则麦克风Mn(n=0,1,2...)在时刻t接收的信号可以表示为:
Figure BDA0002861727100000081
其中α是衰减因子,
Figure BDA0002861727100000082
Figure BDA0002861727100000083
为从音源SA分别由路径LOS和ECHO到达参考麦克风M0的传播所需时间,Fn(θ)表示麦克风M0和Mn之间对于到达角为θ信号的相对延迟;对于相邻麦克风间距为d的等距线性阵列(Uniform Linear Array):
Figure BDA0002861727100000084
其中v为声速。另外需要说明的是,为了简洁起见,除了LOS和ECHO路径外,其他的多径被忽略了。
GCC-PHAT是目前估计宽带信号到达角的最流行方法之一,它是基于广义互相关的。考虑麦克风Mn和Mm接收到的两个信号:yn和ym之间的互相关函数(Cross CorrelationFunction)定义为:
Corn,m(τ)=E[yn(t-τ)ym(t)] (3)
在自由空间(没有多径效应)中,且只有单个音源情况下,互相关函数Cor只有一个主相关峰,并且峰的位置τ*=arg max Corn,m(τ)正是该音源到达麦克风Mn和Mm的相对延迟。
将式(1)代入式(3)并假设音源互不相关,则可以发现存在多个相关峰,表1为相关峰的分布表,如下表1所示,
表1相关峰的分布
Figure BDA0002861727100000091
表1中的峰可以分为两类:纯净峰(LOS-LOS或ECHO-ECHO)和混合峰(LOS-ECHO或ECHO-LOS)。这种划分实际上是基于本发明对两个基本事实的认识。
首先,仔细观察某条路径的传播过程,可以发现,经过不同但短暂的延迟后,此路径将到达每个麦克风。这些延迟只被纯净峰捕获。如表1所示,纯净峰的位置仅取决于单个路径的到达角。这就意味着只要找出所有纯净峰,每条路径的到达角就能被得到。
其次,观察某个音源的传播过程。容易注意到,此音源有两个主要到达路径,即LOS和ECHO。LOS到达阵列后不久,ECHO也将到达阵列。LOS和ECHO之间的延迟被混合峰捕获的。在这里需特别指出,混合峰是同一个音源的LOS和ECHO路径之间的桥梁,将被用于识别哪些路径属于同一个音源。
步骤S2,根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;
具体的,本发明中所描述的基准麦克风同时是选取麦克风阵列中的第一个麦克风,也可以是选取麦克风阵列中的任意一个。
本发明中所描述的多个麦克风是指,麦克风阵列中除了基准麦克风外的其它麦克风。
本发明中所描述的麦克风的序列号是指麦克风阵列中,按照顺序排列进行编号得到的。
对于线性阵列排布的麦克风,本发明根据麦克风对<n,m>与纯净峰的时移与麦克风序列号的差m-n成正比。例如,表格1中的单元格<LOS-LOS,SA>,并把m-n作为变量,发现纯净峰的时移和变量m-n之间的关系是线性函数,函数的斜率是
Figure BDA0002861727100000101
而且,这种线性关系仅仅对纯净峰成立,而不适用于其他峰。所以就可以利用该线性关系来寻找纯净峰。
而在确定纯净峰后,相关峰信息中的其它相关峰则均为混合峰。
步骤S3,根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;
具体的,由于对于某个音源而言,ECHO路径是LOS路径的一个延迟版本。这意味着来自同一音源的路径是高度相干的。本发明就通过混合峰来利用这路径间的相干性,从而实现识别来自同一来源的到达角。
再次根据表1可知,以音源SA为例,其混合峰(LOS-ECHO与ECHO-LOS)的位置都含有相同的元素
Figure BDA0002861727100000102
因此可知,混合峰的位置就蕴含了LOS和ECHO路径到达阵列的延迟信息。
步骤S4,根据来自同一音源的到达角进行音源定位。
具体的,本发明在进行找出属于同一音源的到达角后,进一步区分出LOS或ECHO,然后在找到对应的路径直线表达式,从而根据两条路径直线表达式的交点,确定音源位置。
本发明通过引入墙反射路径ECHO,即同一音源的信号分别通过视距路径LOS和墙反射路径ECHO达到麦克风,而ECHO的引入可以有效改善远场效应导致的单个阵列难以实现音源定位的问题,同时将多个麦克风与基准麦克风之间的相关峰信息划分为纯净峰和混合峰,然后根据纯净峰估计各个到达角,并根据混合峰适合每个到达角的音源,最终确定属于同一个音源的LOS的到达角和ECHO的到达角,最终实现在多音源情况的音源定位。
基于上述任一实施例,所述麦克风阵列获取的多音源信号包括:多个音源信号;
其中,每个音源信号均包括视距路径LOS传播的音源信号和墙反射路径ECHO传播的音源信号。
本发明中突破性的增加了通过墙反射路径ECHO传播的音源信号,使得麦克风阵列能够有效克服远场效应导致的不能有效实现声源定位的问题。
基于上述任一实施例,根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信的步骤,具体包括:
根据多个麦克风与基准麦克风之间的相关峰信息,构建多个麦克风组的相关峰时移组合;
其中,所述麦克风组是由所述基准麦克风和任一麦克风组成的;
采用曲线拟合的方法,通过所述基准麦克风的序列号与所述多个麦克风的序号列的差值,结合相关峰时移组合中的相关峰时移,构建拟合指数模型;
将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指,所述拟合指数模型的拟合指数取最小值时,对应的相关峰组合。
具体的,本发明采用曲线拟合的方法,来估算到达角。拟合指数L定义如下:
Figure BDA0002861727100000121
这里首先定义Pn,m为麦克风对<n,m>所有相关峰的位置(时移)的集合;τn,m则表示某一个相关峰的位置,是Pn,m中的一个元素,即τn,m∈Pn,m;ci表示多个麦克风对的相关峰时移的某个组合,对于4麦克风线性阵列而言,ci∈P0,1×P0,2×P0,3;N为麦克风数;最后wn,m是惩罚系数,wn,m=|m-n|。
对于4麦克风线性阵列而言,如果某个组合ci的指数L(ci)足够小,这就标明ci的成员的之间关系越线性的,越接近一条直线,从而ci越可能是纯净峰。所以,可以通过L(ci)快速筛选出可能是纯净峰的相关峰,进而找出到达角。
基于上述任一实施例,对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息的步骤之后,所述方法还包括:
在所述麦克风阵列为一般阵列的情况下,根据所述基准麦克风的极坐标和所述麦克风的极坐标,计算每个麦克风组的相对延迟;
根据每个麦克风组的相对延迟,构建拟合指数模型,将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指所述拟合指数模型的拟合指数取最小值的相关峰组合。
具体的,本发明中所描述的达到角估计不仅仅适用于线性麦克风阵列,同时也适用于一般的阵列。
图4为本发明提供的一般几何形状的麦克风阵列示意图,如图4所示,在一般几何形状的麦克风阵列中,其纯净峰的拟合曲线不再是直线,而是更复杂的曲线,但是每个阵列的几何形状都是提前已知且定义明确的,因此本发明可以从几何形状中推算出此曲线的精确数学表达式。
首先,本发明考虑在一个平面上的两个麦克风Mn和Mm,其极坐标分别为(ρnn)和(ρmm),如图4中的左图。当有到达角为θ路径到达这对麦克风,根据几何形状,可以计算Mn和Mm之间的相对延迟为:
Figure BDA0002861727100000131
其中Δd表示额外的传播距离,dn,m是Mn和Mm之间的距离,γ是由Mn和Mm之间坐标确定的一个固定值。同样,由于几何形状是提前已知的,因此上述参数是也是已知的。因此可以得到,相对延迟F[<n,m>,θ]仅取决于麦克风对<n,m>和到达角θ。
本发明将F[<n,m>,θ]应用于另一个常见的阵列:6麦克圆形阵列。如图4中的右图所示,麦克风Mn的极坐标为(ρ,nβ),相对延迟可以改写为
Figure BDA0002861727100000132
这样更一般的用于求得到达角的拟合指标为
Figure BDA0002861727100000135
本发明在确定了纯净峰的组合后,就可以根据这些组合拟合的曲线估算所有路径的到达角。对于线性阵列而言,由一个纯峰组合拟合的直线的斜率k*实际上等于
Figure BDA0002861727100000133
因此,可以通过
Figure BDA0002861727100000134
来计算到达角θ。对于其他阵列,到达角θ就是优化式(7)的解。
本发明通过纯净峰的特点,可以有效从各个相关峰中识别出纯净峰,从而根据纯净峰来计算到达角。
基于上述任一实施例,根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角的步骤,具体包括:
分别对纯净峰信息中的任意两个纯净峰进行对齐和增强处理,再计算每个纯净峰的相关函数;
对所述每个纯净峰的相关函数进行平移,得到两个平移后的相关函数;
若所述两个平移后的相关函数存在满足预设条件的相关峰,则判断这两个纯净峰为同一个音源;
其中,所述预设条件为,两个平移后的相关函数的相关峰位置与原点对称,且相关峰的峰值得到了增强。
具体的,对于某个音源而言,ECHO路径是LOS路径的一个延迟版本。这意味着来自同一音源的路径是高度相干的。本发明就通过混合峰来利用路径间的相干性,从而实现识别来自同一来源的到达角。
根据表1可知,以音源SA为例,其混合峰(LOS-ECHO与ECHO-LOS)的位置都含有相同的元素
Figure BDA0002861727100000149
因此可知:混合峰的位置就蕴含了LOS和ECHO路径到达阵列的延迟信息。
判断任意两个纯净峰
Figure BDA0002861727100000141
Figure BDA0002861727100000142
是否属于同一音源的具体步骤如下:
根据ci和cj,分别对齐和增强信号,再分别计算出两个相关函数Cor<0,1,2>,3和Cor′<0,1,2>,3,平移两个相关函数Cor<0,1,2>,3和Cor′<0,1,2>,3,平移的距离分别为
Figure BDA0002861727100000143
Figure BDA0002861727100000144
平移后的相关函数记为
Figure BDA0002861727100000145
Figure BDA0002861727100000146
判断
Figure BDA0002861727100000147
Figure BDA0002861727100000148
是否分别存在满足如下两个相关峰:(1)这两个峰的位置关于原点对称,(2)这两个峰的值都得到了增强。如果存在,则这两个峰属于同一个音源。
具体的,假设
Figure BDA0002861727100000151
Figure BDA0002861727100000152
分别是音源SA的LOS和ECHO路径的纯净峰(再次提醒,
Figure BDA0002861727100000153
是音源SALOS路径到达三个麦克风对<0,1>,<0,2>和<0,3>的相对时延,同样的
Figure BDA0002861727100000154
是音源SAECHO路径到达三个麦克风对<0,1>,<0,2>和<0,3>的相对时延)。
那么可以根据ci中的多个相对延迟,采取类似于延迟求和(Delay and Sum)的方式,将多个麦克风接收到的信号和参考麦克风M0对齐并叠加,以增强SA的LOS路径信号。对于4麦克风线性阵列,在本发明中,只对前三个麦克风M0,M1,M2接收到的信号y0,y1,y2,根据ci
Figure BDA0002861727100000155
相对延迟进行对齐增强,并将增强后的信号记为y<0,1,2>,这样SA的LOS路径的信号在y<0,1,2>得以增强。
注意,剩下的麦克风M3接收到的信号中y3还是会包含音源SA的LOS和ECHO路径的信号的。当将y<0,1,2>和y3进行互相关计算时(该相关函数记为Cor<0,1,2>,3),相关函数Cor<0,1,2>,3中将会有两个峰显著增强:(1)LOS-LOS,这是因为y<0,1,2>的音源SA的LOS路径信号增强了,同时与y3中音源SA的LOS相干。(2)LOS-ECHO,因为LOS路径信号和ECHO信号来自同一个音源,所以y<0,1,2>中得以增强的SA的LOS路径的信号与y3中音源SA的ECHO信号相干。这两个峰分别位于
Figure BDA0002861727100000156
类似的,可以再根据cj来增强前三个麦克风M0,M1,M2中音源SA的ECHO路径,并计算增强信号和y3的相关(记为Cor′<0,1,2>,3)。同样会有两个峰显著增强:ECHO-ECHO和LOS-LOS,并分别位于
Figure BDA0002861727100000157
现在,对比式8和式9,可以观察到混合峰(LOS-ECHO和ECHO-LOS)的位置都包含了
Figure BDA0002861727100000161
这一元素。换句话说,
Figure BDA0002861727100000162
将ci与cj中的混合峰关联了起来。这是因为ci与cj中对应了相同的音源SA,捕获了相同的LOS和ECHO之间的到达延迟。因此,本发明充分利用该性质,判断两个纯净峰属于相同音源。
本发明通过混合峰来利用路径间的相干性,从而实现识别来自同一音源的到达角,从而根据同一来源的到达角来对该音源进行定位。
基于上述任一实施例,所述根据来自同一音源的到达角进行音源定位的步骤,具体包括:
根据来自同一音源到达角正切值的绝对值,识别来自同一音源的LOS到达角和ECHO到达角;
根据LOS的到达角和ECHO的到达角,结合麦克风阵列与附近墙壁的距离,构建LOS的直线表达式和ECHO的直线表达式;
求解LOS的直线表达式和ECHO的直线表达式的交点,得到音源定位信息。
具体的,图5为本发明中所描述的路径示意图,如图5所示,实现和虚线分别表示LOS和ECHO路径。为确保这两条路径可以在坐标系的第三或第四象限相交,LOS斜率绝对值应小于ECHO路径,即|tanθ1|<|tanθ2|。
基于这种观察,本发明提出了一种简单而有效的方法来区分LOS和ECHO。假设已经确认了两个纯净峰组合属于同一来源。并计算出了到达角。则比较这些到达角的|tan|值,值小的为LOS,另一个则为ECHO。
如图5所示,本发明构建了一个坐标系,并以阵列为原点,以附近的墙为直线y=d0,如上所述,将附近的墙作为镜子,可以创建了一个附加的虚拟数组。因此,真实阵列和虚拟阵列的是关于墙是对称的,并且虚拟阵列位于点(0,2d0)。则音源到真实阵列和虚拟阵列的两条路径的直线表达式为:
Figure BDA0002861727100000171
其中α是阵列相对于墙的方向,是需要系统部署的时候需要测量的量。这样,通过求解这两条线的交点,作为每个源的位置。
本发明通过引入墙反射路径ECHO,即同一音源的信号分别通过视距路径LOS和墙反射路径ECHO达到麦克风,而ECHO的引入可以有效改善远场效应导致的单个阵列难以实现音源定位的问题,同时将多个麦克风与基准麦克风之间的相关峰信息划分为纯净峰和混合峰,然后根据纯净峰估计各个到达角,并根据混合峰适合每个到达角的音源,最终确定属于同一个音源的LOS的到达角和ECHO的到达角,最终实现在多音源情况的音源定位。
基于上述任一实施例,本发明使用了Seeed Studio ReSpeaker的两种不同形状的商用麦克风阵列构建了本系统原型。这两种形状分别是4个麦克风的线性阵列和6个麦克风的圆形阵列,这两种几何形状被广泛使用在诸如亚马逊Echo和天猫精灵等各流行的智能音箱中。在线性阵列中,两个相邻麦克风之间的距离为5厘米,而圆形阵列则为6.4cm。本发明将麦克风阵列搭载在树莓派4上,并将音频的采样率设置为48KHz。
本系统在具体计算过程中使用经典的GCC-PHAT方法,来计算相关函数。这个方法使用一个加权函数来白化输入信号,使得互功率谱更为平滑。为了加快计算速度,在GCC-PHAT中,我们采用快速傅里叶变换(FFT)。与此同时,本发明也在频域进行补零和插值来减小FFT执行后的离散化误差。
图6为本发明提供的多音源定位装置结构示意图,如图6所示,包括:分析模块610、筛选模块620、确认模块630和定位模块640;其中,分析模块610用于对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;其中,筛选模块620用于根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;其中,确认模块630用于根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;其中,定位模块640用于根据来自同一音源的到达角进行音源定位。
本发明通过引入墙反射路径ECHO,即同一音源的信号分别通过视距路径LOS和墙反射路径ECHO达到麦克风,而ECHO的引入可以有效改善远场效应导致的单个阵列难以实现音源定位的问题,同时将多个麦克风与基准麦克风之间的相关峰信息划分为纯净峰和混合峰,然后根据纯净峰估计各个到达角,并根据混合峰适合每个到达角的音源,最终确定属于同一个音源的LOS的到达角和ECHO的到达角,最终实现在多音源情况的音源定位。
图7为本发明提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行多音源定位方法,该方法包括:对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;根据来自同一音源的到达角进行音源定位。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的多音源定位方法,该方法包括:对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;根据来自同一音源的到达角进行音源定位。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的多音源定位方法,该方法包括:对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;根据来自同一音源的到达角进行音源定位。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种多音源定位方法,其特征在于,包括:
对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;
根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;
根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;
根据来自同一音源的到达角进行音源定位;
根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信的步骤,具体包括:
根据多个麦克风与基准麦克风之间的相关峰信息,构建多个麦克风组的相关峰时移组合;
其中,所述麦克风组是由所述基准麦克风和任一麦克风组成的;
采用曲线拟合的方法,通过所述基准麦克风的序列号与所述多个麦克风的序号列的差值,结合相关峰时移组合中的相关峰时移,构建拟合指数模型;
将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指,所述拟合指数模型的拟合指数取最小值时,对应的相关峰组合。
2.根据权利要求1所述多音源定位方法,其特征在于,所述麦克风阵列获取的多音源信号包括:多个音源信号;
其中,每个音源信号均包括视距路径LOS传播的音源信号和墙反射路径ECHO传播的音源信号。
3.根据权利要求1所述多音源定位方法,其特征在于,对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息的步骤之后,所述方法还包括:
在所述麦克风阵列为一般阵列的情况下,根据所述基准麦克风的极坐标和所述麦克风的极坐标,计算每个麦克风组的相对延迟;
根据每个麦克风组的相对延迟,构建拟合指数模型,将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指所述拟合指数模型的拟合指数取最小值的相关峰组合。
4.根据权利要求2所述多音源定位方法,其特征在于,根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角的步骤,具体包括:
分别对纯净峰信息中的任意两个纯净峰进行对齐和增强处理,再计算每个纯净峰的相关函数;
对所述每个纯净峰的相关函数进行平移,得到两个平移后的相关函数;
若所述两个平移后的相关函数存在满足预设条件的相关峰,则判断这两个纯净峰为同一个音源;
其中,所述预设条件为,两个平移后的相关函数的相关峰位置与原点对称,且相关峰的峰值得到了增强。
5.根据权利要求2所述多音源定位方法,其特征在于,所述根据来自同一音源的到达角进行音源定位的步骤,具体包括:
根据来自同一音源到达角正切值的绝对值,识别来自同一音源的LOS到达角和ECHO到达角;
根据LOS的到达角和ECHO的到达角,结合麦克风阵列与附近墙壁的距离,构建LOS的直线表达式和ECHO的直线表达式;
求解LOS的直线表达式和ECHO的直线表达式的交点,得到音源定位信息。
6.根据权利要求5所述多音源定位方法,其特征在于,所述LOS的直线表达式和ECHO直线表达式,具体为:
Figure FDA0004055741320000031
其中,α是麦克风阵列相对于墙的方向,是需要系统部署的时候需要测量的量,d0为麦克风阵列与附近墙壁的距离,θ1为视距路径LOS的到达角,θ2为墙反射路径ECHO的到达角。
7.一种多音源定位装置,其特征在于,包括:
分析模块,用于对麦克风阵列获取的多音源信号进行分析,得到多个麦克风与基准麦克风之间的相关峰信息;
筛选模块,用于根据所述基准麦克风的序列号与所述多个麦克风的序号列的差值,筛选所述相关峰信息中的纯净峰信息和混合峰信息;
确认模块,用于根据所述纯净峰信息计算各个到达角,并根据所述混合峰信息识别每个达到角的音源,确定来自同一音源的到达角;
定位模块,用于根据来自同一音源的到达角进行音源定位;
所述筛选模块,具体用于:
根据多个麦克风与基准麦克风之间的相关峰信息,构建多个麦克风组的相关峰时移组合;
其中,所述麦克风组是由所述基准麦克风和任一麦克风组成的;
采用曲线拟合的方法,通过所述基准麦克风的序列号与所述多个麦克风的序号列的差值,结合相关峰时移组合中的相关峰时移,构建拟合指数模型;
将拟合指数最小化相关峰组合作为纯净峰信息,将除所述纯净峰信息外的其它相关峰信息作为混合峰信息;
其中,所述拟合指数最小化相关峰组合是指,所述拟合指数模型的拟合指数取最小值时,对应的相关峰组合。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述多音源定位方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多音源定位方法的步骤。
CN202011565848.0A 2020-12-25 2020-12-25 一种多音源定位方法、装置、电子设备及存储介质 Active CN112858999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011565848.0A CN112858999B (zh) 2020-12-25 2020-12-25 一种多音源定位方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011565848.0A CN112858999B (zh) 2020-12-25 2020-12-25 一种多音源定位方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112858999A CN112858999A (zh) 2021-05-28
CN112858999B true CN112858999B (zh) 2023-04-07

Family

ID=75997142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011565848.0A Active CN112858999B (zh) 2020-12-25 2020-12-25 一种多音源定位方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112858999B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3132960A1 (fr) * 2022-02-18 2023-08-25 Orange Localisation d’une source acoustique en mouvement
CN115295000B (zh) * 2022-10-08 2023-01-03 深圳通联金融网络科技服务有限公司 提高多对象说话场景下语音识别准确性的方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112184A (ja) * 1987-10-27 1989-04-28 Victor Co Of Japan Ltd 仮想音源測定方法
JPH1164090A (ja) * 1997-08-20 1999-03-05 Fujitsu Ltd 音源検出装置
JP2008224259A (ja) * 2007-03-09 2008-09-25 Chubu Electric Power Co Inc 音源位置推定システム
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
JP2014090353A (ja) * 2012-10-31 2014-05-15 Nippon Telegr & Teleph Corp <Ntt> 音源位置推定装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE504010T1 (de) * 2007-06-01 2011-04-15 Univ Graz Tech Gemeinsame positions-tonhöhenschätzung akustischer quellen zu ihrer verfolgung und trennung
JP6788272B2 (ja) * 2017-02-21 2020-11-25 オンフューチャー株式会社 音源の検出方法及びその検出装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112184A (ja) * 1987-10-27 1989-04-28 Victor Co Of Japan Ltd 仮想音源測定方法
JPH1164090A (ja) * 1997-08-20 1999-03-05 Fujitsu Ltd 音源検出装置
JP2008224259A (ja) * 2007-03-09 2008-09-25 Chubu Electric Power Co Inc 音源位置推定システム
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
JP2014090353A (ja) * 2012-10-31 2014-05-15 Nippon Telegr & Teleph Corp <Ntt> 音源位置推定装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
镜像地波束形成声源识别方法;褚志刚等;《应用基础与工程科学学报》;20150215;第23卷(第01期);162-170 *

Also Published As

Publication number Publication date
CN112858999A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112858999B (zh) 一种多音源定位方法、装置、电子设备及存储介质
US9689959B2 (en) Method, apparatus and computer program product for determining the location of a plurality of speech sources
Jarrett et al. Rigid sphere room impulse response simulation: Algorithm and applications
CN104429100A (zh) 用于环绕声回声降低的系统及方法
Ribeiro et al. Geometrically constrained room modeling with compact microphone arrays
Tervo et al. Acoustic reflection localization from room impulse responses
CN103716748A (zh) 音频空间化及环境模拟
Mabande et al. Room geometry inference based on spherical microphone array eigenbeam processing
Tervo et al. Estimation of reflections from impulse responses
KR20160095008A (ko) 음향 에코 제거를 위한 룸 임펄스 응답을 추정하는 방법
US11579275B2 (en) Echo based room estimation
EP3210391A1 (en) Reverberation estimator
Padois et al. Acoustic source localization using a polyhedral microphone array and an improved generalized cross-correlation technique
Pertilä et al. Passive self-localization of microphones using ambient sounds
Carlo et al. dEchorate: a calibrated room impulse response dataset for echo-aware signal processing
Salvati et al. Sound source and microphone localization from acoustic impulse responses
KR20140015894A (ko) 음원 위치 추정 장치 및 방법
Seewald et al. Combining srp-phat and two kinects for 3d sound source localization
US9538309B2 (en) Real-time loudspeaker distance estimation with stereo audio
US9672807B2 (en) Positioning method and apparatus in three-dimensional space of reverberation
CN115166632A (zh) 声源朝向的确定方法和装置、存储介质及电子装置
Tuna et al. 3D room geometry inference using a linear loudspeaker array and a single microphone
Lehmann Particle filtering methods for acoustic source localisation and tracking
Lee et al. Estimation of multiple sound source directions using artificial robot ears
EP3182734A2 (en) Method for using a mobile device equipped with at least two microphones for determining the direction of loudspeakers in a setup of a surround sound system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant