CN110226101B - 用于估计到达方向的设备和方法 - Google Patents

用于估计到达方向的设备和方法 Download PDF

Info

Publication number
CN110226101B
CN110226101B CN201780084900.0A CN201780084900A CN110226101B CN 110226101 B CN110226101 B CN 110226101B CN 201780084900 A CN201780084900 A CN 201780084900A CN 110226101 B CN110226101 B CN 110226101B
Authority
CN
China
Prior art keywords
phase difference
doa
histogram
difference matrix
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780084900.0A
Other languages
English (en)
Other versions
CN110226101A (zh
Inventor
陈凯南
尤尔根·盖格
穆罕默德·塔吉扎德
彼得·格罗舍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN110226101A publication Critical patent/CN110226101A/zh
Application granted granted Critical
Publication of CN110226101B publication Critical patent/CN110226101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种用于估计来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival,DOA)的设备(100)。所述设备(100)用于获取包含测量出的相位差值的相位差矩阵,所述测量出的相位差值中的每一个是两个麦克风单元(203)之间针对所述声音的频率范围中的一个频率点的相位差测量值。所述设备(100)还用于:通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵;针对所述复制相位差矩阵中的每个相位差值计算DOA值;以及将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。

Description

用于估计到达方向的设备和方法
技术领域
本发明涉及一种用于估计从Q≥1个声源而来的到达方向(Direction ofArrival,DOA)的设备、对应方法和装置。具体而言,该设备和方法对从声音接收器等获得的相位差矩阵执行后处理,其中该声音接收器用于从声源接收声音。
背景技术
大部分多通道声源DOA估计算法都存在空间混叠问题。空间混叠的结果是,通道间相位差被包裹在空间混叠频率之外。解决这一问题的常见方案是调整接收由声源产生的声音的麦克风或麦克风阵列之间的距离,以便获得适当的最小混叠频率以及随后只采用低于该最小混叠频率的频带来定位声源。
传统的使用麦克风定位声源的方法是估计从各声源到麦克风的到达时间差(TimeDifference of Arrival,TDOA,Δt)。对于窄带定位算法,可以根据每个频带中的通道间相位差μi来估计TDOA。这些相位差与TDOA之间的关系如下:
μi=2πfiΔt (1)
其中fi表示窄带频率。对于远场假设,还可以根据TDOA估计DOA。以下方程式(2)示出了相位差μi与DOA之间的关系,用声源到麦克风的角θ来表示。在该方程式中,c表示录音环境中的声速,Δd表示麦克风之间的距离。
Figure BDA0002146188790000011
传统的算法通过估计相位差
Figure BDA0002146188790000012
来估计窄带DOA。然而,当μi>2π时,
Figure BDA0002146188790000013
将包裹在[-π,π]中,这可以在针对较高频率的图13(左侧)中看出。在图13中,正确的频率相关相位差通过粗直线表示,而不正确的、包裹的频率相关相位差沿着锯齿状线示出。因此,估计的DOA将是错误的,这同样可以在图13(右侧)中看出。这里,正确的(频率无关)DOA通过横粗线表示,而错误的(频率相关)DOA沿锯齿状线表示。图示的问题就是所谓的空间混叠间题。
空间混叠问题的边界处的频率称为混叠频率fa。从以下方程式(3)中可以看出,fa与角θ有关,但是角θ是未知的,因此,对于高于fa的频率,包裹的相位差矩阵
Figure BDA0002146188790000014
无法直接解包裹。
某一场景的最小混叠频率定义为
Figure BDA0002146188790000015
其中
Figure BDA0002146188790000016
通常,当声源的频带较宽时,使用离散傅立叶变换(Discrete Fouriertransform,DFT)。然后在每个频率上重复窄带定位算法。因此,针对单声源场景获得“原始”相位差向量,针对多源场景获得“原始”相位差矩阵,定义为μ0。该相位差矩阵仅包括
Figure BDA0002146188790000017
时的正确相位差值。
因此,在定位时通常仅考虑声音的较低频带
Figure BDA0002146188790000018
以避免空间混叠问题。这是传统算法的一个明显缺点。
发明内容
鉴于上述问题和缺点,本发明旨在改进基于传统定位算法操作的设备和方法,即,用于估计DOA的设备和方法。本发明的目的是还使用声音的较高频带
Figure BDA0002146188790000021
来估计DOA,尤其是针对多通道声源。因此,本发明旨在提供一种能够更稳健、准确地估计DOA并定位声源的设备和方法。具体地,当麦克风或麦克风阵列之间的距离较大时,本发明旨在改进传统设备和方法。
本发明的目的通过所附独立权利要求中提供的方案实现。本发明的有利实施方式在从属权利要求中进一步定义。
具体而言,本发明的理念是使用相位差矩阵μ0中的相位差值的复制,以便减少空间混叠问题对单声源以及多声源定位的影响,以及在嘈杂场景等中进行能够使技术更稳健的进一步后处理。具体而言,本发明涉及使用较高频带
Figure BDA0002146188790000022
依据相位差矩阵μ0的相位差值之间的特定关系来重构相位差矩阵μ0,以实现更稳健的定位。
本发明的第一方面提供了一种用于估计来自Q≥1个声源的声音的DOA的设备,所述设备用于:获取包含测量出的相位差值的相位差矩阵,所述测量出的相位差值中的每一个是两个麦克风单元之间针对所述声音的频率范围中的一个频率点的相位差测量值;通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵;针对所述复制相位差矩阵中的每个相位差值计算DOA值;以及将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。
通过生成复制相位差矩阵,不仅可以基于宽带声源的低频率进行定位,还可以基于宽带声源的高频率进行定位,从而获得更高的稳健性和准确性,即,改进的DOA估计。具体地,还使用较高频带
Figure BDA0002146188790000023
值得注意的是,如果仅有一个声源,即,如果Q=1,则声差矩阵本质上是一个相位差向量(单列矩阵)。基本上,在相位差复制步骤中,某一频率或频带的测量出的相位差被解包裹到包含一个或多个其它可能相位差值的候选集中,每个可能相位差值与测量出的相位差值相差2π(或360°)的整数倍(即,这些可能相位差值位于其它正弦周期中)。因此,复制相位差矩阵将包括所有正确解包裹的相位差(每个测量出的相位差有一个正确解包裹的相位差)以及一组不正确地解包裹的相位差。然而,正确解包裹的相位差在直方图中会更突出,从而可以被识别。
此外,基于直方图中最突出的峰选择DOA结果既有效又准确,并且支持进一步后处理步骤,这些后处理步骤可以进一步改进DOA估计。
频率点可以是声音的频率范围的子范围,也可以是声音的频率范围中的单个频率。
在所述第一方面的一种实施形式中,所述设备用于通过基于下式定义的最小混叠频率复制所述测量出的相位差值来生成所述复制相位差矩阵:
Figure BDA0002146188790000024
其中,Δd表示所述两个麦克风单元之间的距离,c是声速。
由此,涵盖了所有潜在混叠频率用于复制。在最小混叠频率fa0之下相位差无法包裹,在fa0之上才能包裹。
在所述第一方面的另一实施形式中,将所述相位差矩阵中的所述测量出的相位差值包裹在[-π,π]中,并且所述设备用于根据下式生成所述复制相位差矩阵:
Figure BDA0002146188790000031
Cs=(-C,-C+1,...,0,...,C)
μ(i,j)=μ0(i)+2πCs(j)
i=1,...N;j=1,...(2C+1)
其中,μ0表示所述相位差矩阵,μ表示所述复制相位差矩阵,i是与频率fi相对应的频率点索引,j是复制索引,
Figure BDA0002146188790000033
表示上限函数。
这样,可以有效地生成复制相位差矩阵,其涵盖通道间相位差的所有可能正确的正弦周期。
在所述第一方面的另一实施形式中,所述设备用于基于以下公式计算所述DOA值:
Figure BDA0002146188790000032
其中,θ(i,j)表示频率点索引i和复制索引j的所述DOA值,μ表示所述复制相位差矩阵,Δd表示所述两个麦克风单元之间的距离。
如上所述,复制相位差矩阵针对每个频率点包含该频率点的正确相位差的一个或多个候选值的集合。将复制相位差矩阵中的每个元素转变为一个DOA值产生了一个DOA矩阵,该DOA矩阵针对每个频率点包含该频率点的正确DOA的一个或多个候选值的集合,包括实际的正确DOA值。
在所述第一方面的另一实施形式中,所述设备用于根据所述计算出的DOA值生成第一直方图,以及将所述第一直方图中的Q个最突出的峰值确定为所述Q个DOA结果。
如果声源提供宽带信号和/或如果场景很干净,即,如果场景中的噪音较低,那么这种实施形式特别有利。从第一直方图中选择峰是获得DOA结果的一种快速、简单的方法,比仅使用低频率得到的结果更稳健、准确。
在所述第一方面的另一实施形式中,所述设备用于:根据所述计算出的DOA值生成第一直方图;选择所述第一直方图中的Q+q个最突出的峰值作为Q+q个DOA候选项,其中优选地q=2;基于所选定的Q+q个DOA候选项生成第二直方图;以及将所述第二直方图中的Q个最突出的峰值确定为所述Q个DOA结果。
如果场景比较嘈杂和/或如果一些声源较弱,那么这种实施形式特别有利。在这种情况下,这些较弱声源可以为第一直方图提供峰,而这些峰可能没有空间混叠所产生的峰那么突出。因此,从第一直方图中选择q个额外峰作为候选项使得DOA估计更稳健、准确。
在所述第一方面的另一实施形式中,所述设备用于在生成所述第一直方图之前删除计算出的复杂DOA值。
因此,DOA估计变得不那么复杂,并且具有较高的准确性。只有当通道间相位差位于错误的正弦周期时,DOA值才是复杂的。
在所述第一方面的另一实施形式中,为了生成所述第二直方图,所述设备用于:根据所述计算出的DOA值为每个选定的DOA候选项确定其相关DOA值;根据每个选定的DOA候选项及其相关DOA值生成第三直方图;以及通过合并所有选定的DOA候选项的所述第三直方图来生成所述第二直方图。
通过为每个候选项选择相关DOA值并且分别分析第三直方图,减少了源之间的干扰。因此,进一步提高了DOA估计的准确性。
在所述第一方面的另一实施形式中,所述设备用于合并所有选定的DOA候选项的所述第三直方图以通过以下方式生成所述第二直方图:针对每个直方图索引,使用所有所述第三直方图中的最大值作为所述第二直方图中针对这个直方图索引的值。
合并之后,正确的峰比第二直方图更清晰。因此,这种合并直方图的实施方式产生了准确、稳健的DOA估计的期望结果。使用平均值而不是最大值进行合并会导致不同直方图之间的错误累积。基于最大值的合并规则就没有这个问题。
在所述第一方面的另一实施形式中,所述设备用于通过以下方式确定DOA候选项的所述相关DOA值:将所述复制相位差矩阵中的位于假定正确的正弦周期中的所述相位差值确定为其相关相位差值,并且根据其相关相位差值计算其相关DOA值。
因此,删除了与不正确的正弦周期对应的值。假定正确的正弦周期是这样一种正弦周期:其是基于混叠频率进行的解包裹的结果,其中该混叠频率是基于候选峰的DOA确定的。通过这种确定方式,如果峰是正确的,那么峰高将保留在第三直方图中。
在所述第一方面的另一实施形式中,所述设备用于在将所述第三直方图合并为所述第二直方图之前对每个所述第三直方图中的所述峰值应用软掩码,其中所述软掩码被设计为峰值滤波器,其在DOA为0°时的宽度较小,在DOA为±90°时的宽度较大。
峰值的软掩码提高了从第三直方图中选择作为DOA结果的峰的准确性。理论上,混叠峰的宽度较大,而正确峰的宽度在0°时较小,并且宽度随着峰接近±90°而增大。因此,以这种方式使用软掩码有助于更可靠地检测正确的峰。
在所述第一方面的另一实施形式中,所述设备用于在确定所述Q个DOA结果之前对所述第二直方图应用低通滤波器,优选为具有根据下式的标准偏差σ的高斯滤波器:
Figure BDA0002146188790000041
其中fs表示采样率。
通过使用这种高斯滤波器,可以平衡宽、窄峰的高度,从而得到更好的估计结果。该滤波器有助于将较宽的正确峰削尖到接近±90°,将较窄的尖峰展平到0°左右。
在所述第一方面的另一实施形式中,每个麦克风单元包括含一个或多个麦克风的阵列,并且已根据所述麦克风单元中的一个的所述一个或多个麦克风与所述麦克风单元中的另一个的所述一个或多个麦克风之间的测量出的相位差获得了所述相位差矩阵中的所述一个或多个测量出的相位差值。
本发明的第二方面提供了一种用于确定来自Q≥1个声源的声音的DOA的装置,所述装置包括:根据如上所述第一方面或其任意实施形式的设备;以及包括两个麦克风单元的声音接收器,用于接收所述声音,生成相位差矩阵,并将所述相位差矩阵提供给所述设备。
第二方面的装置分别实现了第一方面及其实施形式的设备的所有优点和效果。
本发明的第三方面提供了一种用于估计来自Q≥1个声源的声音的DOA的方法,所述方法包括:获取包含测量出的相位差值的相位差矩阵,所述测量出的相位差值中的每一个是两个麦克风单元之间针对所述声音的频率范围中的一个频率点的相位差测量值;通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵;针对所述复制相位差矩阵中的每个相位差值计算DOA值;以及将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。
可以为第三方面的方法提供添加其它方法步骤的实施形式,这些方法步骤对应于根据第一方面的实施形式的设备所采取的动作。
因此,第三方面的方法分别实现了第一方面及其实施形式的设备的所有优点和效果。
须注意,本申请中描述的所有设备、元件、单元和构件都可以以软件或硬件元件或其任何类型的组合来实现。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明各个实体适于或用于执行各自的步骤和功能。
虽然在以下具体实施例的描述中,由外部实体执行的特定功能或步骤没有在执行特定步骤或功能的该实体的具体元件的描述中反映,但是技术人员应该清楚的是这些方法和功能可以在各自的硬件或软件元件或其任意组合中实现。
附图说明
结合所附附图,下面具体实施例的描述将阐述上述本发明的各方面及其实现形式,其中:
图1示出了根据本发明实施例的设备和方法。
图2示出了根据本发明实施例的设备和装置。
图3示出了根据本发明一实施例的设备。
图4示出了根据本发明的设备的技术细节。
图5示出了根据本发明的设备的技术细节。
图6示出了根据本发明的设备所生成的直方图与传统直方图之间的比较。
图7示出了根据本发明的设备的技术细节。
图8示出了根据本发明的设备的技术细节。
图9示出了根据本发明的设备的技术细节。
图10示出了根据本发明的设备的技术细节。
图11示出了根据本发明的设备与传统设备所生成的DOA直方图之间的比较。
图12示出了根据本发明的设备与传统设备所生成的DOA直方图之间的比较。
图13示出了空间混叠问题。
具体实施方式
图1示出了根据本发明一实施例的设备100,其用于估计来自Q≥1个声源202的声音的DOA。图2示出了可使用设备100的特定场景。也就是说,设备100可以是根据本发明另一实施例的用于确定DOA的装置200的一部分。如图所示,该装置200还可包括声音接收器201,用于接收来自声源202(这里示出了一个声源202,即,Q=1)的声音。值得注意的是,设备100也可与声音接收器201分离,并且例如连接到声音接收器201。声音接收器201可包括麦克风或麦克风阵列203,还可包括预处理单元204。
图1的设备100用于获取包含测量出的相位差值的相位差矩阵μ0。测量出的相位差值中的每一个是两个麦克风单元203之间针对声音的频率范围中的一个频率点的相位差测量值。例如,设备100可从声音接收器201,具体是从预处理单元204获取相位差矩阵,其中预处理单元204将麦克风203记录的声音转变为相位差矩阵μ0
设备100还用于通过将所获取的相位差矩阵μ0中的测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵μ。
然后,设备100用于为复制相位差矩阵μ中的每个相位差值计算DOA值,即,计算DOA矩阵θ。最后,设备100用于将基于计算出的DOA值θ生成的直方图中的Q个最突出的峰值确定为Q个DOA结果。
因此,设备100用于执行根据本发明一实施例的方法。如图1所示,该方法包括如下步骤:获取(111)包含测量出的相位差值的相位差矩阵μ0,测量出的相位差值中的每一个是两个麦克风单元203之间针对声音的频率范围中的一个频率点的相位差测量值。然后,该方法包括如下步骤:通过将测量出的相位差值复制到其它可能的正弦周期来生成(112)复制相位差矩阵μ;为复制相位差矩阵μ中的每个相位差值计算(113)DOA值;最后将基于计算出的DOA值θ生成的直方图中的Q个最突出的峰值确定(114)为Q个DOA结果。
设备100在声源定位中的位置在图2中示出。设备100将μ0作为输入,并输出至少一个估计的DOAθ。在图2中,设备100是装置200的一部分,在装置200中,声音接收器201包括两个麦克风单元203并用于:接收声音,生成相位差矩阵μ0,并将相位差矩阵μ0提供给设备100。
图3示出了根据本发明一实施例的设备100的更详细概览,该设备100基于图1中的设备100的实施例。设备100的不同功能结合方框301至309示出,并且通常可以归类为用于进行相位差矩阵复制和细化的后处理。
在方框301中,获取相位差矩阵μ0,并通过将测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵μ。在方框302中,根据复制相位差矩阵μ计算DOA值θ。也就是说,为复制相位差矩阵μ中的每个相位差值计算DOA值θ。
在方框303中,根据计算出的DOA值θ生成DOA直方图h(表示为第一直方图)。在设备100的一种简单实施形式中,此时可能已经将第一直方图h中的Q个最突出的峰值选择作为Q个DOA结果。在设备100的一种实施形式中,为了提高稳健性,在方框304中检测直方图h中的更多峰。具体而言,这里可检测第一直方图h中的Q+q个最突出的峰值作为DOA候选项。q优选为2。
在方框305中,可使用二进制掩码,其中该二进制掩码将在方框304中检测到的Q+q个峰和在方框302中计算出的DOA值θ作为输入。因此,在方框305中,确定并输出特别相关的DOA值01,θ2...θi。在方框306中,根据每个选定的DOA候选项及其相关DOA值来生成其它直方图(表示为第三直方图),并将这些直方图输出为h1,h2...hi。在方框307中,对这些直方图使用软掩码以输出软掩码直方图H1,H2...Hi。也就是说,在每个第三直方图中使用峰值的软掩码。在方框308中,则将这些直方图H1,H2...Hi合并为一个直方图H(表示为第二直方图)。具体来说,合并第三直方图以通过以下方式生成第二直方图:针对每个直方图索引,使用所有第三直方图中的最大值作为第二直方图中针对这个直方图索引的值(表示为“最大值”)。
在方框309中,对直方图H进行可选的低通滤波。具体地,可使用高斯滤波器。然后,在方框309中,将第二直方图中的Q个最突出的峰值确定为Q个估计的DOA结果θ,并且输出这些峰值。
图4更详细地示出了从相位差矩阵μ0生成复制相位差矩阵μ,如图3中设备100的方框301所示。
该步骤的目的是在所有可能的正弦周期中获得一个(复制)相位差矩阵μ。低于
Figure BDA0002146188790000071
的频带处于正确的正弦周期中,因此,对于这些频率,不会将μ0复制到其它正弦周期。
Figure BDA0002146188790000072
中的频带在区间[-π,π]外可以有最多1个正弦周期。将这个规则应用于较高频带可以描述为:
Figure BDA0002146188790000073
Cs=(-C,-C+1,...,0,...,C)
μ(i,j)=μ0(i)+2πCs(j)
i=1,...N;j=1,...(2C+1);
其中,
Figure BDA00021461887900000712
表示向下取整流程,μ是复制矩阵。目前,μ包含正确的正弦周期中的μ0,还包含由该步骤引入的一些错误。
图4在左侧具体示出了复制相位差矩阵μ中的依赖于频率的相位差值。图中的粗线表示相位差矩阵μ0中已经包含的相位差值。图中的所有其它值都是复制到其它正弦周期的值。
图5更详细地示出了方框302中的根据复制相位差矩阵μ来计算DOA值θ的矩阵。
复制相位差矩阵μ中的每个相位差值有一个对应的DOAθ。如下将μ转变为包括这些θ的DOAθ:
Figure BDA0002146188790000074
θ(i,j)表示频率点索引i和复制索引j的DOA值,Δd表示两个麦克风单元203之间的距离。
图5在左侧具体示出了依赖于频率的DOA值。沿着粗线的DOA值对应于相位差矩阵μ0中的相位差值,而其它值是由复制步骤产生的。
现在,
Figure BDA00021461887900000713
可定义正确的正弦周期中的相位差,DOA的对应转变值可定义为
Figure BDA00021461887900000714
众所周知,理论上,
Figure BDA00021461887900000715
在干净(噪音低)的场景中是恒定的。这一属性可以表示为
Figure BDA0002146188790000075
通过简化以上方程式(6),不同频率之间的
Figure BDA0002146188790000076
的关系可以确定为
Figure BDA0002146188790000077
当相位差出于错误的正弦周期中时,
Figure BDA0002146188790000078
(n≠0,n∈Z)。错误估计的DOA定义为
Figure BDA0002146188790000079
当满足如下条件时,
Figure BDA00021461887900000710
为复数:
Figure BDA00021461887900000711
因此,优选地从θ中删除所有复值。
图6更详细地示出了随后如何收集剩余值并在方框303中将这些值转变为[-90,90]度内的直方图h,其中h的长度表示为Nh
通过上述方程式(6)和所提及的简化,获得不同频率之间的
Figure BDA0002146188790000081
差关系,如下:
Figure BDA0002146188790000082
p≠q (9)
这证明
Figure BDA0002146188790000083
是沿频率轴的单调变量。再加上
Figure BDA0002146188790000084
的恒定性,当θ被转变为直方图h时,正确峰的幅度比源于
Figure BDA0002146188790000085
的峰要高。
图6具体比较了源自“原始”相位差矩阵μ0的DOA值的直方图(左侧)与从μ获得的直方图h(这里Q=1)。本发明的有利作用是显而易见的,即,正确峰(这里DOA为-54.9°)的突出非常明显。
如果声源202是宽带信号并且场景很干净,则可以通过Q突出度最高的峰的位置来估计DOA结果。如果场景较嘈杂和/或一些声源202较弱,则对应峰的突出度可能比源于
Figure BDA0002146188790000086
的峰的突出度小。
为了使设备100执行的估计更稳健,在这种情况下,可从直方图h中选取Q’=Q+q个峰作为DOA候选项(实际上q为2,但是其也可以是其它整数值,例如3或更大的值)。
这在图7中示出,图7更详细地示出了在方框304中检测直方图h中的峰。图7在左侧具体示出了在这种情况下检测到-54.9°的(正确)峰以及分别为-36.4°和-21.9°的两个其它峰(其中Q=1,q=2)。然后,可应用进一步后处理(具体是一个或多个掩码步骤)以保留正确的峰并减弱来源于
Figure BDA0002146188790000087
的峰。
图8具体更详细地示出了在方框305中执行的二进制掩码。图9更详细地示出了在方框307中执行的软掩码。
为了评估所选定的峰(DOA候选项)是否与实际声源202相对应并且非混叠峰,对每个峰进行单独处理。第k个峰的位置表示为pk,根据方程式(3),对应的混叠频率可以确定为
Figure BDA0002146188790000088
通过使用这些频率索引,可以应用二进制掩码以针对源于θ的对应峰选择假定正确的正弦周期中的相位的DOA值。针对一个峰值选择相关DOA值的过程可描述为:
Figure BDA0002146188790000089
i=1,...,N (10)
其中θk包括第k个峰及其相关DOA值。
图8示出了这种二进制掩码的结果。具体而言,图8(在顶部)通过图表展示了针对每个选定峰的频率相关DOA值(这里选择了-54.9°、-36.4°和-21.9°的三个峰,参见图7)。沿粗线的DOA值是各个峰(DOA候选项)的相关DOA值。
然后,将每个峰的θk转变为直方图hk。也就是说,针对第k个选定DOA候选项及其相关DOA值生成直方图hk,如图9(在其顶部)所示。具体而言,图9针对每个选定DOA候选项示出了三个直方图,即,与各个选定峰及其对应DOA值相对应的直方图。如图8所示,对于-54.9°的第一个峰,仅横线上的DOA值是相关的。因此,仅有一个直方图尖峰。
现在可对与第k个峰相关的直方图hk应用软掩码Mk,以便突出正确的峰。每个峰的掩码可以相同,也可以不同。图9针对这一方面(在其底部)示出了在方框307中应用的软掩码的更多细节。软掩码可选择性地与低通滤波相结合。对图9顶部的各直方图h1,h2...hi应用软掩码后得到底部所示的直方图H1,H2...Hi。可以看出,在软掩码直方图中,与选定DOA候选项相对应的峰得到增强。
理论上,混叠峰的宽度较大。相比之下,正确峰pk的宽度在0°时较小,随着峰接近±90°而增大。通过这一属性,可将软掩码设计为峰值滤波器,其在0°时的宽度较小,在±90°时的宽度较大。关于第k个选定DOA候选项,实际的软掩码可以优选地设计为:
Figure BDA0002146188790000091
i=1,...,Nh (11)
其中fnh表示所考虑的最高频率。
优选地根据下式通过Schur积(°)来应用软掩码:
Hk=hk°Mk (12)
图10和图11更详细地示出了方框308中的将三个直方图H1,H2...Hi合并为第二直方图H,以及最后在方框309中的对直方图H应用低通滤波并估计DOA结果。
根据下式按“最大值”将源自峰候选项的掩码直方图合并为H:
H(i)=max(H1(i),...,Hk(i),...HQ′(i)) (13)
图10示出了合并的DOA直方图H。
进一步对该直方图H优选地应用低通滤波器,更优选地应用高斯滤波器。更优选地,建议应用标准偏差σ等于麦克风设置中的最低定位分辨率的高斯滤波器。设置这个偏差是为了平衡峰高使其更接近0°或90°。理论上,混叠峰的宽度较大,而正确峰的宽度在0°时较小,并且正确峰的宽度随着峰接近±90°而增大。因此,以这种方式使用软掩码有助于更可靠地检测正确的峰。用于求最低分辨率的简化方程式如下:
Figure BDA0002146188790000092
其中fs表示采样率。
最后,按峰的突出度从(可选地,低通滤波后的)直方图H中选择Q个峰。这些峰的位置是设备100输出的DOA结果。
图11和图12针对这一方面比较了设备100的直方图H与传统设备生成的直方图。图11具体在左侧示出了传统设备的针对约-55°的一个声源DOA(Q=1)的直方图,在右侧示出了设备100生成的对应直方图H。图12进一步在左侧示出了传统设备的针对约-55°、-15°和30°的多个声源DOA(Q=3)的直方图,在右侧示出了设备100的对应直方图H。可以看出,在设备100生成的直方图H中,正确DOA处的峰更干净、更明显。因此,将可以更准确、更稳健地估计θ,尤其是在嘈杂环境中。
因此,本发明的设备100提高了使用麦克风或麦克风阵列的声源定位的稳健性和准确性,尤其是当麦克风之间的距离较大时。这种设备100或装置200可能应用在远程语音接收设备中、平板电脑中、手机中或电话会议设备中,等等。在每种应用中,本发明确切地减少或消除了负面的空间混叠效应。
已经结合作为实例的不同实施例以及实施方案描述了本发明。但本领域技术人员通过实践所请发明,研究附图、本公开以及独立权项,能够理解并获得其它变体。在权利要求以及描述中,术语“包括”不排除其它元件或步骤,且“一个”并不排除复数可能。单个元件或其它单元可满足权利要求书中所叙述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能在有利的实现方式中使用。

Claims (13)

1.一种用于估计来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival,DOA)的设备(100),其特征在于,所述设备(100)用于:
获取包含测量出的相位差值的相位差矩阵,所述测量出的相位差值中的每一个是两个麦克风单元(203)之间针对所述声音的频率范围中的一个频率点的相位差测量值;
通过将所述测量出的相位差值复制到其它可能的正弦周期来生成复制相位差矩阵;
针对所述复制相位差矩阵中的每个相位差值计算DOA值;以及
将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定为Q个DOA结果;
其中,通过基于下式定义的最小混叠频率复制所述测量出的相位差值来生成所述复制相位差矩阵:
Figure FDA0003092914780000011
其中,Δd表示所述两个麦克风单元(203)之间的距离,c是声速;
将所述相位差矩阵中的所述测量出的相位差值包裹在[–π,π]中;以及
所述设备(100)用于根据下式生成所述复制相位差矩阵:
Figure FDA0003092914780000012
Cs=(-C,-C+1,…,0,…,C)
μ(i,j)=μ0(i)+2πCs(j)
i=1,…N;j=1,…(2C+1)
其中,μ0表示所述相位差矩阵,μ表示所述复制相位差矩阵,i是与频率fi相对应的频率点索引,j是复制索引,
Figure FDA0003092914780000013
表示上限函数。
2.根据权利要求1所述的设备(100),其特征在于,用于:
基于以下公式计算所述DOA值:
Figure FDA0003092914780000014
其中,θ(i,j)表示频率点索引i和复制索引j的所述DOA值,μ表示所述复制相位差矩阵,Δd表示所述两个麦克风单元(203)之间的距离。
3.根据权利要求1所述的设备(100),其特征在于,用于:
根据所述计算出的DOA值生成第一直方图;以及
将所述第一直方图中的Q个最突出的峰值确定为所述Q个DOA结果。
4.根据权利要求1所述的设备(100),其特征在于,用于:
根据所述计算出的DOA值生成第一直方图;
选择所述第一直方图中的Q+q个最突出的峰值作为Q+q个DOA候选项,其中q=2;
基于所选定的Q+q个DOA候选项生成第二直方图;以及
将所述第二直方图中的Q个最突出的峰值确定为所述Q个DOA结果。
5.根据权利要求3或4所述的设备(100),其特征在于,用于:
在生成所述第一直方图之前,删除计算出的复杂DOA值。
6.根据权利要求4所述的设备(100),其特征在于,为了生成所述第二直方图,所述设备(100)用于:
根据所述计算出的DOA值为每个选定的DOA候选项确定其相关DOA值;
根据每个选定的DOA候选项及其相关DOA值生成第三直方图;以及
通过合并所有选定的DOA候选项的所述第三直方图来生成所述第二直方图。
7.根据权利要求6所述的设备(100),其特征在于,用于:
合并所有选定的DOA候选项的所述第三直方图以通过以下方式生成所述第二直方图:
针对每个直方图索引,使用所有所述第三直方图中的最大值作为所述第二直方图中针对这个直方图索引的值。
8.根据权利要求6所述的设备(100),其特征在于,用于:
通过以下方式确定DOA候选项的所述相关DOA值:
将所述复制相位差矩阵中的位于假定正确的正弦周期中的所述相位差值确定为其相关相位差值;以及
根据其相关相位差值计算其相关DOA值。
9.根据权利要求6所述的设备(100),其特征在于,用于:
在将所述第三直方图合并为所述第二直方图之前,对每个所述第三直方图中的所述峰值应用软掩码,
其中所述软掩码被设计为峰值滤波器,其在DOA为0°时的宽度较小,在DOA为±90°时的宽度较大。
10.根据权利要求9所述的设备(100),其特征在于,用于:
在确定所述Q个DOA结果之前,对所述第二直方图应用低通滤波器,其中为具有根据下式的标准偏差σ的高斯滤波器:
Figure FDA0003092914780000021
其中fs表示采样率。
11.根据权利要求1所述的设备(100),其特征在于:
每个麦克风单元(203)包括含一个或多个麦克风的阵列;以及
已根据所述麦克风单元(203)中的一个的所述一个或多个麦克风与所述麦克风单元(203)中的另一个的所述一个或多个麦克风之间的测量出的相位差获得了所述相位差矩阵中的所述一个或多个测量出的相位差值。
12.一种用于确定来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival,DOA)的装置(200),其特征在于,所述装置(200)包括:
根据权利要求1至11之一所述的设备(100);以及
包括两个麦克风单元(203)的声音接收器(201),用于接收所述声音,生成相位差矩阵,并将所述相位差矩阵提供给所述设备(100)。
13.一种用于估计来自Q≥1个声源(202)的声音的到达方向(Direction of Arrival,DOA)的方法,其特征在于,所述方法包括:
获取(111)包含测量出的相位差值的相位差矩阵,所述测量出的相位差值中的每一个是两个麦克风单元(203)之间针对所述声音的频率范围中的一个频率点的相位差测量值;
通过将所述测量出的相位差值复制到其它可能的正弦周期来生成(112)复制相位差矩阵;
针对所述复制相位差矩阵中的每个相位差值计算(113)DOA值;以及
将基于所述计算出的DOA值生成的直方图中的Q个最突出的峰值确定(114)为Q个DOA结果;
其中,通过基于下式定义的最小混叠频率复制所述测量出的相位差值来生成所述复制相位差矩阵:
Figure FDA0003092914780000031
其中,Δd表示所述两个麦克风单元(203)之间的距离,c是声速;
将所述相位差矩阵中的所述测量出的相位差值包裹在[–π,π]中;以及
根据下式生成所述复制相位差矩阵:
Figure FDA0003092914780000032
Cs=(-C,-C+1,…,0,…,C)
μ(i,j)=μ0(i)+2πCs(j)
i=1,…N;j=1,…(2C+1)
其中,μ0表示所述相位差矩阵,μ表示所述复制相位差矩阵,i是与频率fi相对应的频率点索引,j是复制索引,
Figure FDA0003092914780000033
表示上限函数。
CN201780084900.0A 2017-04-25 2017-04-25 用于估计到达方向的设备和方法 Active CN110226101B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/059732 WO2018196952A1 (en) 2017-04-25 2017-04-25 Device and method for estimating direction of arrival

Publications (2)

Publication Number Publication Date
CN110226101A CN110226101A (zh) 2019-09-10
CN110226101B true CN110226101B (zh) 2021-09-14

Family

ID=58664678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780084900.0A Active CN110226101B (zh) 2017-04-25 2017-04-25 用于估计到达方向的设备和方法

Country Status (4)

Country Link
US (1) US11567162B2 (zh)
EP (1) EP3610279A1 (zh)
CN (1) CN110226101B (zh)
WO (1) WO2018196952A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113514799A (zh) * 2021-06-02 2021-10-19 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104459607A (zh) * 2013-08-23 2015-03-25 弗兰克公司 针对无线电信号的到达方向确定
CN104914408A (zh) * 2015-06-12 2015-09-16 天津大学 基于中国余数定理的频率、doa联合测量方法以及装置
CN106405501A (zh) * 2015-07-29 2017-02-15 中国科学院声学研究所 一种基于相位差回归的单声源定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104459607A (zh) * 2013-08-23 2015-03-25 弗兰克公司 针对无线电信号的到达方向确定
CN104914408A (zh) * 2015-06-12 2015-09-16 天津大学 基于中国余数定理的频率、doa联合测量方法以及装置
CN106405501A (zh) * 2015-07-29 2017-02-15 中国科学院声学研究所 一种基于相位差回归的单声源定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Stepwise phase difference restoration method for DOA estimation of multiple sources;Masahito TOGAMI et al.;《IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS,COMMUNICATIONS AND COMPUTER SCIENCES,ENGINEERING SCIENCES SOCIETY》;20081101;第E91A卷(第11期);第3269-3281页 *

Also Published As

Publication number Publication date
CN110226101A (zh) 2019-09-10
US11567162B2 (en) 2023-01-31
WO2018196952A1 (en) 2018-11-01
US20200057132A1 (en) 2020-02-20
EP3610279A1 (en) 2020-02-19

Similar Documents

Publication Publication Date Title
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
JP6289936B2 (ja) 音源方向推定装置、音源方向推定方法およびプログラム
JP5814476B2 (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
KR101442446B1 (ko) 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집
KR101659712B1 (ko) 입자 필터링을 이용한 음원 위치를 추정
JP6225118B2 (ja) 音源位置推定
JP6591477B2 (ja) 信号処理システム、信号処理方法及び信号処理プログラム
US10334360B2 (en) Method for accurately calculating the direction of arrival of sound at a microphone array
US9549274B2 (en) Sound processing apparatus, sound processing method, and sound processing program
Hon et al. Audio fingerprinting for multi-device self-localization
US20190281386A1 (en) Apparatus and a method for unwrapping phase differences
US10674261B2 (en) Transfer function generation apparatus, transfer function generation method, and program
CN110226101B (zh) 用于估计到达方向的设备和方法
JP2017151076A (ja) 音源探査装置、音源探査方法およびそのプログラム
KR100730297B1 (ko) 머리전달함수 데이터베이스를 이용한 음원 위치 추정 방법
CN110907892B (zh) 一种球麦克风阵列语音信号到达角估计方法
JP2014157110A (ja) 信号処理装置、レーダ装置および信号処理方法
JP2016500847A (ja) デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム
KR20130034095A (ko) 모바일 신호의 도착각/도착시간을 추정하는 장치 및 방법
Katzberg et al. Spatial interpolation of room impulse responses using compressed sensing
US11317200B2 (en) Sound source separation system, sound source position estimation system, sound source separation method, and sound source separation program
JP2016180679A5 (zh)
JP6100655B2 (ja) 音源探査装置
JP6585547B2 (ja) 撮像システム、撮像方法
Angelopoulos et al. Nonparametric spectral estimation-an overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant