CN103688187B - 使用相位谱的声音源定位 - Google Patents

使用相位谱的声音源定位 Download PDF

Info

Publication number
CN103688187B
CN103688187B CN201280034621.0A CN201280034621A CN103688187B CN 103688187 B CN103688187 B CN 103688187B CN 201280034621 A CN201280034621 A CN 201280034621A CN 103688187 B CN103688187 B CN 103688187B
Authority
CN
China
Prior art keywords
signal
angle
candidate
phase
candidate angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280034621.0A
Other languages
English (en)
Other versions
CN103688187A (zh
Inventor
S·瑞古纳萨恩
K·科什达
H·N·基科日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN103688187A publication Critical patent/CN103688187A/zh
Application granted granted Critical
Publication of CN103688187B publication Critical patent/CN103688187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/82Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for adjusting phase or compensating for time-lag errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

放置在移动机器人上的话筒阵列提供多个信道的音频信号。接收到的音频信号集被称作音频段,音频段被分成多个帧。对来自每对话筒的信号的帧执行相位分析。如果两个话筒在该帧期间都处于活动状态,为这样的每对话筒生成候选角度。结果是该帧的候选角度列表。处理该列表以选择该帧的最终候选角度。随着时间跟踪候选角度的列表以协助为音频段选择最终候选角度的过程。

Description

使用相位谱的声音源定位
背景
在数个应用中使用捕捉由声音源生成的声学能量的话筒来确定该声音源的位置是有帮助的。
一种确定该位置的方式是搜索空间以查找最大能量区域。该方法通常对诸如噪声和混响之类的干扰不具有鲁棒性。
另一种确定该位置的方式是确定到达不同话筒的时间差。来自声音源的声波将在不同时间到达在不同位置处的不同传感器。一种常用的测量这种差异的方法涉及通过寻找互相关函数的峰值来测量由一对话筒接收到的信号的相位差。该方法对诸如噪声和混响之类的干扰不具有鲁棒性。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的选择的概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
放置在移动机器人上的话筒阵列提供多个信道的音频信号。接收到的音频信号集被称作音频段,音频段被划分成多个帧。对来自每对话筒的信号的帧执行相位分析。如果两个话筒在该帧期间都处于活动状态,为这样的每对话筒生成候选角度。结果是该帧的候选角度的列表。处理该列表以选择该帧的最终候选角度。随着时间跟踪候选角度的列表以协助为那个音频段选择最终候选角度的过程。
响应于所跟踪的角度,由移动机器人来执行各种操作。例如,移动机器人可以基于所感测到的声音的位置来运动。机器人可以例如通过面向说话者并朝向该说话者运动来对人类说话者作出响应。对机器人的这种重新定位有助于从话筒阵列获取更佳的音频信号,这可以改善其它音频处理操作。位置信息也可以被输入到面部检测处理器,因为该位置信息能够提供人类面部位置的有利线索。
因此,在一方面,将来自多对话筒的信号接收到存储器中。处理来自这些话筒的信号以标识这些信号何时为活动的并且计算这些信号的频谱数据。对于每对活动信号,使用频谱数据为该对活动信号确定候选角度。从针对多对话筒的候选角度中选择角度。在一个实施例中,将每个信号作为多个帧来存储,并且在每个帧的基础上进行处理。
在多个帧上存储候选角度历史,并且用来自当前帧的候选角度更新该历史。例如,从该历史中选出的角度可以是其所具有的相位失真小于或等于所有条目的最小相位失真的那个角度。从该历史中选出的角度可以是其所具有的角度近似于帧的最高排名候选角度的那个角度。从该历史中选出的角度可以是其所具有的在场分数大于或等于该历史中的各角度的最大在场分数的那个角度。
在以下描述中,对附图进行了参考,附图构成了实施方式的一部分且在其中作为示例示出了本发明技术的具体示例实现。可以理解,可以使用其它实施例并且可以做出结构上的改变而不背离本发明的范围。
附图简述
图1是声音源定位在移动机器人上的应用的示意图。
图2是示出如何从两个话筒计算出声波的角度的示意图。
图3是示出声音源定位的示例实现的数据流程图。
图4是图3中的各部分的更为详细的数据流程图。
图5是角度跟踪列表的示例数据结构的框图。
图6是描述声音源定位的示例实现的流程图。
图7是在其中可以实现这样的系统的示例计算设备的框图。
详细描述
以下章节提供了其中可以实现声音源定位的示例操作环境。
参考图1,移动机器人100包括话筒阵列102。
尽管图1指定为移动机器人,然而可以使用能够支撑话筒阵列102从而保持各话筒间的已知空间关系的任何对象。对移动机器人使用声音源定位仅仅是其中可以使用该技术的一个示例应用。话筒阵列可以被一个或多个静止对象而非移动对象支撑。然而,诸如机器人之类的移动对象可以响应于所确定的声音源的位置而运动。
尽管图1中示出了6个话筒,然而话筒的数目和配置不限于图1中的配置。只要阵列包括多对话筒并且该阵列中的每对话筒之间存在已知的空间关系,可以使用任何配置和数目的话筒。本发明不限于所使用的话筒的种类。为了避免归一化来自多个话筒的信号,每对话筒中的两个话筒类型相同。
在一个应用中,声音源可以是人类说话者104。人类说话者在说话时发出声音106。可以检测其它声音源,然而在此应用中机器人可以被设计成与人类说话者交互,并且确定人类说话者的位置可以用作该交互中的辅助。
在给定该上下文的情况下,现将结合附图2-5更加详细地描述声音源定位的示例实现。
在图2中,现在将描述如何确定声音源200的位置。声音源200生成声波202。该声波按已知速度(例如,在通常环境中为340米每秒)行进。如202a、202b和202c处所指示的,该声波朝向话筒204a和204b行进,并在不同时间到达话筒204a和204b。话筒204a和204b是信道对的示例(本文中被标记为“<ca,cb>”)。在给定信道对<ca,cb>的情况下,存在表示穿过原点218的基准线210和穿过两个话筒的线212之间的夹角的全局角度基准线210和原点218对于话筒阵列中的所有信道对都是相同的。诸如在214所示出的信道对距离|d<ca,cb>|表示两个话筒之间的几何距离。声音源定位涉及计算穿过声波源和原点218的线与垂直于基准线210的线之间的角度216((θ′<ca,cb>))。在下面更详细地描述如何导出该角度。
现在参考图3,现在将描述一个描述声音源定位的示例实现的数据流程图。该实现接收来自话筒阵列(未示出)的输入音频信号300。每个话筒提供音频信号,诸如以每秒S个样本的采样速率采样的K位数字音频信号。合适的K值是16且合适的S值是16kHz。由此,8个话筒的话筒阵列提供8信道输入音频信号。在帧的基础上处理输入音频信号,其中一帧包含128个样本。在第i帧处第c信道的输入音频信号被表示为Xc,i(n),其中n=0,1,…N-1(N=128),c=0,1,…C-1(C=8)。处理输入信号Xc,i(n)以产生第i帧的声音到达角度θi
处理器302接收输入音频信号300并对这些信号执行各种操作以使这些信号作好供分析的准备。
这样的预处理可包括DC移除滤波器。这种DC移除滤波器被用来抑制不想要的极低频率的分量以供随后处理。这种滤波器的一个示例实现是一阶有限脉冲响应(FIR)滤波器并且输入信号被逐信道(channel-by-channel)地处理。滤波器的输出被计算为
x x , i &prime; ( n ) = x x , i ( n ) - 0.97 x c , i ( n - 1 )
其中n=0,1,…N-1,c=0,1,…C-1且Xc,i(-1)是前一帧中最后一个的样本,即,Xc,i(-1)=Xc,i-1(N-1)。
预处理的另一个示例是应用汉明窗。汉明窗h(n)跨两帧(之前的帧和当前的帧)相乘,并且生成c信道加窗信号:
x c , i &prime; &prime; ( n ) = h N ( n ) x c , i - 1 &prime; ( n ) , n = 0,1 . . . , N - 1 h N ( 2 N - 1 - n ) x c , i &prime; ( n - N ) , n = N , N + 1 , . . . , 2 N - 1
其中
h N ( n ) = 0.54 - 0.46 cos 2 &pi;n 2 N - 1 , n = 0,1 . . . , N - 1 .
加窗信号包含2N个样本。
通过应用汉明窗,可以改善邻域频谱元素的可分性从而更好地执行下述的相位分析。
预处理阶段的输出304(即该示例中的汉明窗的输出)随后被输入到快速傅里叶变换(FFT)处理器306。FFT处理器的输出是频域数据308。在该示例实现中。例如,大小为2N的FFT可以被应用到以获取每个信道的频谱复值Xc,i(k)。因为镜像图像特性,Xc,i(k)在对应于0,8000/K,…,8000Hz的频率区间k=0,1,…,K(=N/2)的范围内有唯一值,从而在随后的操作中处理该范围内的频谱。
如后处理模块310所指示的,为了各种应用(诸如,语音识别)频域数据308可受到进一步的后处理。本发明既不限于这样的后处理,也不要求这样的后处理。
最后,在该示例实现中,频域数据308和输入信号300被输入到下面更加详细描述的声音源定位器312,以针对每一帧i产生该第i帧的声音到达角度θi
现在参考图4,将更加详细地描述图3中声音源定位器312的示例实现。
输入音频信号400被输入到活动性检测器402,该活动性检测器402输出指示该音频信号在给定帧中是否为活动的数据。活动性检测器的示例实现如下:
在第i帧第c信道的对数能量由下式计算:
E c , i = lo g 2 ( &Sigma; n = 0 N - 1 | x c , i ( n ) | 2 N ) , c = 0,1 , . . . , C - 1
其中X。,i(n)是对应的PCM输入。在最初的几帧中,Ec,i被累积并且其平均值被用来设置本底(Floor)噪声周期性地促使每个信道的本底噪声被来自过去几秒的好的候选替代。在此初始阶段之后,在每个信道的基础上测试以下条件以确定信道活动性:
换言之,在该实现中,活动性检测器402确定如果在第i帧的第c信道的对数能量大于该信道的本底噪声,则加上一偏移。如果该条件为真,则信道状态被设置为“活动”,否则信道状态被设置为“暂停”。接下来,通过组合信道状态来获取帧状态。如果几个信道(诸如至少3个)被检测为“活动”,设置帧状态为“活动”,否则设置帧状态为“暂停”。
如在404处所确定的,如果活动性检测器402设置“暂停”帧状态,则声音源定位器使用第二角度跟踪器更新器414(下述)并且返回对于该帧角度“未被检测到”。
如在402处所确定的,如果活动性检测器402设置了“活动”帧状态,则相位分析器406处理多个信道的频域数据(例如,图3中的308)以生成候选角度的列表。该相位分析是对预定义的信道对执行的,该预定义的信道对的状态在两个信道中都是活动的。例如,信道对ca和cb的互功率谱由下式计算:
并且*是复共轭,且其相位频谱由下式给出:
信道ca和cb之间的最佳样本滞后是通过搜索最小相位失真相对于理论值的滞后范围来估计的。
上文中两个信道的滞后范围L<ca,cb>由下式导出:
其中是上取整操作,如上结合图2所述的|d<ca,cb>|是两个话筒信道之间的几何距离,Ns是采样速率,例如16kHz,而SS是音速(例如,340米每秒)。应用相位展开来计算上式中的相位失真。
如下从τ<ca,cb>导出两个镜像的角度(相对于图2中所示的两个话筒之间的虚拟线):
&theta; ~ < c a , c b > &prime; = si n - 1 ( &tau; < c a , c b > &CenterDot; SS | d < c a , c b > | &CenterDot; N S ) , 并且
由于这些角度是相对于信道对<ca,cb>的位置而言的,因此用该信道对的全局角度来补偿这些角度。
为预定义的信道对重复以上相位分析过程,以获取带有估计的角度及其相位失真的初始候选列表。由此,相位分析模块406的输出是候选角度和相位失真的列表。
候选选择模块408处理候选角度列表以朝着选定角度的方向细化该列表。存在细化该列表的多种方式。例如,如果两个或更多个角度相互近似(即,处于某一阈值内),则通过诸如求这些角度的平均来以折算相位失真εmin/M把这些角度合并成该列表中的一个角度,其中εmin是这些角度中的最小相位失真而M是近似角度的个数。在此细化中,孤立的角度被移除,并且越常出现的角度被分配越小的失真。结果,在基于其失真选择角度的后期处理中,越常出现的角度越可能被选择。
经细化的候选角度及其相位失真的列表被传递给第一角度跟踪器更新模块410。在此模块中,候选角度及相位失真的列表被随着时间保留在角度追踪列表中。如图5所示,该列表中的每个条目包括角度500、相位失真502、在场分数504、在场计数506以及更新状态508。对于第一活动帧,候选列表被插入角度跟踪列表。对于后续活动帧,按照以下方式处理数据。
首先,在角度跟踪列表中从具有非零在场分数且尚未被更新的所有条目中标识出具有最小相位失真的条目。接下来,在候选列表中从所有候选中寻找出具有最小相位失真的目标候选,并且该目标候选的角度近似于来自角度跟踪列表的标识出条目。如果寻找出了这样的候选,则如下用候选(θ,ε)来更新目标条目(θi,εi,δi):
角度:θi=μθθi-1+(1-μθ)θ,μθ:常数
相位失真:εi=μεεi-1+(1-με)ε,με:常数
在场分数:δi=max(δi-1δ,1.0),μδ:常数
否则,如下从候选中创建新条目:
θi=θ,εi=ε,δi=δ初始
该过程被继续执行直到已经估计了角度跟踪列表和候选列表中的所有条目。接下来,以失真增加而在场分数降低的方式来更新在上述过程中未曾更新的条目。具体地,
θi=θi-1,εi=μ′εεi-1,δi=δi-1δ,με:常数
如果在场分数变得低于阈值,从列表中移除这种条目。更新的最后一步是再次扫描所有条目以合并具有近似角度的那些条目。
在给定角度跟踪列表的情况下,由最终选择模块412来作出对帧的角度的最终选择。例如,从角度跟踪列表中选出满足以下准则的条目。第一,其在场分数大于或者等于角度跟踪列表中的各条目的最大在场分数。第二,其相位失真小于或者等于角度跟踪列表中的各条目的最小相位失真。第三,它与从候选选择模块中获取的最高排名候选角度具有相近似的角度。该条目的在场计数递增,而其它条目的在场计数递减。计数指示在最新近的帧中该条目多久被选择一次。当该条目的计数超过阈值时,其角度θi被报告为检测到的角度。如果没有条目满足上述条件,返回“未检测到”。
最后,第二角度跟踪器更新器414处理角度跟踪列表以扫描跟踪条目并更新在之前的模块中未曾被更新的那些条目。更新公式与第一角度跟踪器更新中所使用的那些公式相同,其中失真变得更大而在场分数变得更小。
总之,参考图6,声音源定位的过程涉及标识600话筒阵列中的活动的信道对。换言之,数个(例如,至少3个)话筒是活动的。通过把来自话筒的信号划分成各帧来处理这些信号,其中每帧具有多个样本。由此,在每帧的基础上确定话筒(或信道)是否活动。来自每个活动话筒的信号被变换以计算602频域数据或频谱。为每个活动信道对,从频域数据中标识出604候选角度。从为活动信道对标识出的候选角度中选择606角度。
现在已经描述了示例实现,将描述这一系统被设计成在其中操作的计算环境。以下描述旨在提供对其中可实现该系统的合适的计算环境的简要概括描述。该系统可以用众多通用或专用计算硬件配置来实现。适合的公知计算设备的示例包括但不限于:个人计算机、服务器计算机、手持式或膝上型设备(例如,媒体播放器、笔记本计算机、蜂窝电话、个人数据助理、语音记录器)、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。
图7示出合适的计算系统环境的示例。该计算系统环境只是合适的计算环境的一个示例,并且不旨在对这一计算环境的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。
参考图7,示例计算环境包括计算机器,诸如计算机器700。在其最基本的配置中,计算机器700通常包括至少一个处理单元702和存储器704。计算设备可包括多个处理单元和/或附加共同处理单元,诸如图形处理单元720。取决于计算设备的确切配置和类型,存储器704可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图7中由虚线706来示出。另外,计算机器700还可具有附加的特征/功能。例如,计算机器700还可包括附加存储(可移动和/或不可移动),包括但不限于磁盘、光盘或磁带。在图7中通过可移动存储708和不可移动存储710示出这样的附加存储。计算机存储介质包括以用于存储诸如计算机程序指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储器704、可移动存储708和不可移动存储710全部都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算机器700访问的任何其它介质。任何这样的计算机存储介质都可以是计算机器700的一部分。
计算机器700还可包含使该设备能与其它设备进行通信的通信连接712。通信连接712是通信介质的一个示例。通信介质通常携带诸如载波或其他传输机制等已调制数据信号中的计算机程序指令、数据结构、程序模块或其他数据,并包括任何信息传递介质。术语“已调制数据信号”是指以在信号中对信息进行编码的方式来设置或改变其一个或多个特征、由此改变该信号的接收设备的配置或状态的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。
计算机器700可具有各种输入设备714,诸如显示器、键盘、鼠标、笔、相机、触摸输入设备等。还可包括输出设备716,诸如扬声器、打印机等。所有这些设备在本领域中是公知的并且不必在此详细讨论。
该系统可以在包括诸如程序模块等由计算机器处理的计算机可执行指令和/或计算机解释的指令的软件的一般环境中实现。一般而言,程序模块包括在由处理单元处理时指令处理单元执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。该系统还能在其中任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
在所附权利要求的主题中的术语“制品”、“过程”、“机器”和“物质组成”旨在将权利要求限制到被认为落入35U.S.C.§101中的这些术语的使用所定义的可被专利保护的主题的范围内。
上文中提到的此处描述的替换实施方式中的任一个或全部可以按形成附加混合实施方式所需的任何组合使用。应该理解,在所附权利要求中定义的主题没有必要限于上述的特定实现。上述特定实现仅作为例子被揭示。

Claims (10)

1.一种计算机实现的定位方法,包括:
将来自多对话筒的信号接收到存储器中;
处理来自所述话筒的信号以标识所述信号何时为活动的;
计算所述信号的频谱数据;
对于每对活动信号:
使用该对活动信号的频谱数据来确定互功率谱的相位谱,
使用所述相位谱来确定该对活动信号的相位失真,以及
从所确定的相位失真导出候选角度;以及
从针对所述多对话筒所导出的候选角度中选择角度。
2.如权利要求1所述的计算机实现的定位方法,其特征在于,其中接收信号包括将每一信号作为多个帧来接收,并且其中处理、计算、确定和选择是在每一帧的基础上执行的。
3.如权利要求1所述的计算机实现的定位方法,其特征在于,从所述候选角度中选择角度包括使用有关先前候选角度的信息来选择角度。
4.如权利要求3所述的计算机实现的定位方法,其特征在于,选择进一步包括:
在多个帧上跟踪候选角度的历史;以及
用来自当前帧的候选角度更新所述历史。
5.一种定位设备,包括:
用于接收来自多对话筒的信号的装置;以及
用于处理来自所述话筒的信号以标识所述信号何时为活动的以及计算所述信号的频谱数据,对于每对活动信号,使用该对活动信号的频谱数据来确定互功率谱的相位谱,使用所述相位谱来确定该对活动信号的相位失真,从所述相位失真导出候选角度,以及从针对所述多对话筒所导出的候选角度中选择角度的装置。
6.如权利要求5所述的定位设备,其特征在于,还包括:用于将每一信号作为多个帧来接收并存储的装置,以及用于在每一帧的基础上处理所述信号的装置。
7.如权利要求5所述的定位设备,其特征在于,还包括:用于在多个帧上存储候选角度的历史的装置,以及用于用来自当前帧的候选角度更新所述历史的装置。
8.如权利要求7所述的定位设备,其特征在于,从所述历史选择的角度具有小于或等于所有条目的最小相位失真的相位失真。
9.如权利要求8所述的定位设备,其特征在于,从所述历史选择的角度具有近似于所述帧的最高排名候选角度的角度。
10.一种计算机实现的定位系统,包括:
用于将来自多对话筒的信号接收到存储器中的装置;
用于处理来自所述话筒的信号以标识所述信号何时为活动的装置;
用于计算所述信号的频谱数据的装置;
对于每对活动信号:
用于使用该对活动信号的频谱数据来确定互功率谱的相位谱的装置,
用于使用所述相位谱来确定该对活动信号的相位失真的装置,以及
用于从所确定的相位失真导出候选角度的装置;以及
用于从针对所述多对话筒所导出的候选角度中选择角度的装置。
CN201280034621.0A 2011-07-14 2012-07-10 使用相位谱的声音源定位 Active CN103688187B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/182,449 US9435873B2 (en) 2011-07-14 2011-07-14 Sound source localization using phase spectrum
US13/182,449 2011-07-14
PCT/US2012/045996 WO2013009722A2 (en) 2011-07-14 2012-07-10 Sound source localization using phase spectrum

Publications (2)

Publication Number Publication Date
CN103688187A CN103688187A (zh) 2014-03-26
CN103688187B true CN103688187B (zh) 2016-05-11

Family

ID=47506847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280034621.0A Active CN103688187B (zh) 2011-07-14 2012-07-10 使用相位谱的声音源定位

Country Status (6)

Country Link
US (2) US9435873B2 (zh)
EP (1) EP2732301B1 (zh)
JP (1) JP6203714B2 (zh)
KR (1) KR102005590B1 (zh)
CN (1) CN103688187B (zh)
WO (1) WO2013009722A2 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105431182B (zh) 2013-07-30 2017-10-13 皇家飞利浦有限公司 用于抽空一个系统的装置和方法
CN103558851A (zh) * 2013-10-10 2014-02-05 杨松 精确感知室内活动的方法及装置
WO2018003158A1 (ja) * 2016-06-29 2018-01-04 日本電気株式会社 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置
US10353060B2 (en) * 2016-12-07 2019-07-16 Raytheon Bbn Technologies Corp. Detection and signal isolation of individual vehicle signatures
KR102115222B1 (ko) 2018-01-24 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
CN109754811B (zh) * 2018-12-10 2023-06-02 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质
TWI736117B (zh) * 2020-01-22 2021-08-11 瑞昱半導體股份有限公司 聲音定位裝置與方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4558439A (en) * 1982-02-11 1985-12-10 Fried. Krupp Gesellschaft Mit Beschrankter Haftung Passive method for obtaining target data from a sound source
JPH0921863A (ja) * 1995-07-05 1997-01-21 Haruo Hamada 信号源探査方法及び装置
EP1600791A1 (en) * 2004-05-26 2005-11-30 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
CN1831554A (zh) * 2005-03-11 2006-09-13 株式会社东芝 声音信号处理设备和声音信号处理方法
CN101617245A (zh) * 2007-10-01 2009-12-30 松下电器产业株式会社 声源方向检测装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05273326A (ja) 1992-03-25 1993-10-22 Nec Corp ソーナー受信装置
WO1995016259A1 (en) * 1993-12-06 1995-06-15 Philips Electronics N.V. A noise reduction system and device, and a mobile radio station
US6041127A (en) * 1997-04-03 2000-03-21 Lucent Technologies Inc. Steerable and variable first-order differential microphone array
JP4722347B2 (ja) 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
US7039198B2 (en) * 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US6912178B2 (en) 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
JP3862685B2 (ja) * 2003-08-29 2006-12-27 株式会社国際電気通信基礎技術研究所 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
DE602004021716D1 (de) 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
US7466141B2 (en) * 2004-01-30 2008-12-16 Advantest Corporation Phase measurement device, method, program, and recording medium
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
US7583808B2 (en) 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
JP4234746B2 (ja) * 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
US8184827B2 (en) 2006-11-09 2012-05-22 Panasonic Corporation Sound source position detector
US8363846B1 (en) * 2007-03-09 2013-01-29 National Semiconductor Corporation Frequency domain signal processor for close talking differential microphone array
US7626889B2 (en) 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
JP5045938B2 (ja) 2008-03-27 2012-10-10 日本電気株式会社 音源方向検出方法、装置及びプログラム
JP5462452B2 (ja) 2008-06-03 2014-04-02 富士通テン株式会社 信号処理装置、及びレーダ装置
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
KR20100086616A (ko) * 2009-01-23 2010-08-02 엘지전자 주식회사 음원 위치 추적 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4558439A (en) * 1982-02-11 1985-12-10 Fried. Krupp Gesellschaft Mit Beschrankter Haftung Passive method for obtaining target data from a sound source
JPH0921863A (ja) * 1995-07-05 1997-01-21 Haruo Hamada 信号源探査方法及び装置
EP1600791A1 (en) * 2004-05-26 2005-11-30 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
CN1831554A (zh) * 2005-03-11 2006-09-13 株式会社东芝 声音信号处理设备和声音信号处理方法
CN101617245A (zh) * 2007-10-01 2009-12-30 松下电器产业株式会社 声源方向检测装置

Also Published As

Publication number Publication date
KR20140040812A (ko) 2014-04-03
EP2732301B1 (en) 2017-05-10
US20170052245A1 (en) 2017-02-23
US9817100B2 (en) 2017-11-14
EP2732301A2 (en) 2014-05-21
WO2013009722A2 (en) 2013-01-17
CN103688187A (zh) 2014-03-26
WO2013009722A3 (en) 2013-04-04
JP6203714B2 (ja) 2017-09-27
US9435873B2 (en) 2016-09-06
US20130016852A1 (en) 2013-01-17
KR102005590B1 (ko) 2019-10-08
EP2732301A4 (en) 2015-03-04
JP2014525037A (ja) 2014-09-25

Similar Documents

Publication Publication Date Title
CN103688187B (zh) 使用相位谱的声音源定位
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
US9900685B2 (en) Creating an audio envelope based on angular information
JP4812302B2 (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
US9632586B2 (en) Audio driver user interface
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
EP2530484B1 (en) Sound source localization apparatus and method
US20140078867A1 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
JP2010212818A (ja) 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
CN113687305A (zh) 声源方位的定位方法、装置、设备及计算机可读存储介质
JP2008175733A (ja) 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法
JP5929393B2 (ja) 位置推定方法、装置及びプログラム
WO2017123814A1 (en) Systems and methods for assisting automatic speech recognition
JP2017067948A (ja) 音声処理装置および音声処理方法
WO2020250797A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Miura et al. SLAM-based online calibration for asynchronous microphone array
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
Takashima et al. Dimensional feature weighting utilizing multiple kernel learning for single-channel talker location discrimination using the acoustic transfer function
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
US11276388B2 (en) Beamforming system based on delay distribution model using high frequency phase difference
Takahashi et al. Development of Small-size and Low-priced Speaker Detection Device Using Micro-controller with DSP functions
US20230296767A1 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
Wuth et al. A unified beamforming and source separation model for static and dynamic human-robot interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150805

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150805

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant