CN106030331A

CN106030331A - 声源定位方法和使用这种方法的仿人机器人

Info

Publication number: CN106030331A
Application number: CN201480054849.5A
Authority: CN
Inventors: G·伦普
Original assignee: Aldebaran Robotics SA
Current assignee: Softbank Robotics SAS
Priority date: 2013-10-01
Filing date: 2014-09-29
Publication date: 2016-10-12
Anticipated expiration: 2034-09-29
Also published as: CA2925934A1; BR112016007215A2; CA2925934C; CN106030331B; RU2642157C2; RU2016116896A; AU2014331210B2; FR3011377B1; JP6521954B2; WO2015049199A1; US20160274212A1; US10222447B2; JP2016537622A; MX2016004207A; FR3011377A1; AU2014331210A1; EP3052958B1; EP3052958A1

Abstract

本发明涉及一种通过使对于多个耳间时间差向量计算的受控响应功率最大来定位声源的方法，所述多个耳间时间差向量构成的集合(E)包括：第一向量子集合(E1)，其中的向量与来自距所述麦克风无限远的单一声源的声音信号兼容；和第二向量子集合(E2)，其中的向量不与来自距所述麦克风无限远的单一声源的声音信号兼容，所述第一子集合的每个向量与对应的单一声源的定位方向相关联，以及所述第二子集合的每个向量所关联的定位方向与所述第一子集合中根据预定度量与所述每个向量最接近的向量相关联。本发明还涉及一种仿人机器人，所述仿人机器人包括：由至少三个麦克风(M1、M2、M3、M4)构成的组件，所述组件优选地被配置在所述机器人的头部的上表面上；以及用于实施这种方法的处理器。

Description

声源定位方法和使用这种方法的仿人机器人

技术领域

本发明涉及声源的空间定位方法，以及涉及可实施和使用这种方法的仿人机器人。

背景技术

声源的空间定位在多种应用中是必要的，非排它性地尤其在仿人机器人中。

在机器人拥有一些人类外表属性和功能：头部、躯体、两个手臂、任选地两条腿等时，可对机器人赋予仿人品质。通常，要求仿人机器人能够通过观察人的外表、理解人的语言、与人进行交谈等而尽可能以“自然”方式与人类互动。为了达到该目的，声源的定位能力是极有用处、甚至必要的。事实上，这种能力能够使仿人机器人确定声音所来自的方向并且将其头部转向该方向；如果声音是由人发出的，机器人可激活面部识别软件、以最佳方式配置语音识别系统、跟随“监视”这个人的移动等。

在现有技术中已知一个或多个声源的多种空间定位方法和系统。这些方法和系统通常基于很少或没有指令的多个麦克风以及基于由所述麦克风获取的信号的数字化处理。

在2001年由Springer-Verlag在德国柏林出版的由M.S.Brandstein和D.B.Ward编辑的作品《Microphone Arrays：Signal Processing Techniques andApplications》中，J.DiBiase等人的文章《Robust localization in réverbérantrooms》描述了三种声源定位的主要方式。

-第一种方式使用基于由麦克风获取的信号的相关矩阵的频谱估算技术。基于该方式的方法对模型误差是敏感的并且严格要求计算能力。这种方法主要适用于窄带信号。

-第二种方式基于由麦克风对接收的声音信号之间的时间差(TDOA，表示“Time Difference Of Arrival”，即“到达时间差”)的估算。这些估算以及对麦克风位置的识别用于计算双曲线，所述双曲线的交点给定声源位置。尤其可用PHAT-GCC方法(表示“PHAse Transform-GeneralizedCross-Correlation”、或“相位转换-广义互相关”)来估算时间差，该方法利用通过过滤而预先“白化”的信号之间的互相关系数(intercorrélation)(或交叉相关系数)的计算。在Ch.H.Knapp和G.C.Carter于IEEE Transactionon Acoustics，Speech and Signal Processing的1976年8月ASSP-24卷第4期第320-327页中的文章《The Generalized Corrélation Method for Estimation ofTime Delay》中更详细描述了PHAT-GCC方法。这些方法需要略微计算，但是这些方法对来自多个声源的相关噪音和易于出现“误报”的声音不具有抗噪能力。另外，除PHAT-GCC方法外，这些方法对混响来说不可靠。

-第三种方式涉及通过加入由不同麦克风获取的已应用可变时间差的信号来合成定向声束，还涉及识别使接收到的混合式信号的功率最大的声束定向。除了要求高计算能力的一些变型，基于该方式的方法对混响和噪声具有较小的抗噪能力。

该文章更具体地描述了使可定向声束的合成与带有相位转换的广义互相关系数组合在一起的方法。该方法被命名为SRP-PHAT(表示“SteeredResponse Power-PHAse Transform”或“受控响应功率-相位转换”)。相对于PHAT-GCC方法，该方法更加抗噪但对混响较敏感。

发明内容

本发明的目的在于提供一种声源定位方法，相对于现有技术中的已知方法，所述方法同时具有抗噪音和混响的最佳性能，而且实时并且与其它任务并行进行的计算足够简单，以被实施于被装载的系统(例如仿人机器人)中。

通过前述SRP-PHAT方法的衍生方法以及通过包括实施该方法的部件的仿人机器人来达到符合本发明的目的。

因此本发明的目的在于提供一种包括以下步骤的声源定位方法：

a)借助于由至少三个麦克风构成的组件来获取来自要定位声源的声音信号；

b)选择所述组件的至少三对麦克风，对于每对麦克风，计算所获取的声音信号的广义互相关系数，对所述声源之间的多个延迟值-即耳间时间差-执行所述计算；

c)根据所述广义互相关系数来计算受控响应功率，所述受控响应功率通过每对麦克风的耳间时间差向量来表达；

d)确定使所述受控响应功率最大的耳间时间差向量；以及

e)根据在所述步骤d)中确定的耳间时间差向量来估算所述声源的定位方向，

其特征在于，

-通过考虑形成集合的多个耳间时间差向量来实施所述步骤c)和d)，所述集合包括：第一向量子集合，所述第一向量子集合的向量与来自距所述麦克风无限远的单一声源的声音信号兼容；和第二向量子集合，所述第二向量子集合的向量不与来自距所述麦克风无限远的单一声源的声音信号兼容；并且，

-所述第一子集合的每个向量与对应的单一声源的定位方向相关联，以及所述第二子集合的每个向量所关联的定位方向与所述第一子集合中根据预定度量与所述每个向量最接近的向量相关联；并且，

-在所述步骤e)中估算的方向与在所述步骤d)中确定的多个耳间时间差向量相关联。

这种方法的有利特征在于：

-在所述步骤b)中计算的广义互相关系数可为GCC-PHAT型的，并且对应于预先白化的信号的互相关系数。

-在所述步骤b)中，可选择所述组件的所有麦克风对。

-所述受控响应功率可由所述麦克风对的广义互相关系数的总和来给出或与所述总和成比例。

-所述第一子集合可由所述集合的向量构成，所述向量的分量满足沙勒条件：

τ_ji+τ_jk＝τ_ik

其中下标i≠j≠k表示所述组件的不同麦克风，并且τ_ji、τ_jk和τ_ik表示分别对于麦克风对(i，j)、(j，k)和(i，k)的耳间时间差。

-所述第二子集合可由所述集合中不属于所述第一子集合的向量构成，并且所述向量的根据所述预定度量并且在标准化之后确定的与所述第一子集合的向量的距离小于预定阈值。

-所述预定度量可为欧几里德度量。

-所述步骤e)可借助于使定位方向与所述集合的每个值相关联的对应表格来实施。

本发明的另一目的在于提供一种仿人机器人，所述仿人机器人包括：

-由至少三个麦克风构成的组件；和

-与所述麦克风连接的处理器，所述处理器用于在输入端接收由所述麦克风获取的声音信号，并且所述处理器被编程和配置成实施根据前述权利要求中任一项所述的方法。

有利地，所述麦克风可被配置在所述机器人的头部的上表面上。

附图说明

通过阅读以下详细说明和作为示例给出的附图，本发明的其它特征、细节和优点将更加清楚，在附图中：

-图1为示出了实施根据本发明实施方式的方法的功能性框图；

-图2示出了将麦克风设置在根据本发明实施方式的仿人机器人的头部上；以及

-图3A、4A、5A、6A和7A为示出了根据本发明实施方式的方法的性能的图表；以及

-图3B、4B、5B、6B和7B为作为比较给出的示出了根据现有技术的方法的性能的图表。

具体实施方式

图1极其示意性地示出了借助于包括麦克风网络M1-M4和处理器PR的系统来实施根据本发明实施方式的方法。

在图示情况下，所述网络包括四个麦克风，但数量可更小(至少三个)或更大；另外，虽然麦克风是对齐示出的，但所述麦克风的空间配置可为任意的。优选地，将选择使遮掩情况最小化的配置，所述遮掩情况即在麦克风与要定位声源可处的空间区域之间夹置有障碍物的情况。

实际系统还需包括麦克风信号调节回路，以保证信号的放大、过滤、采样和模/数转换。为使附图简化并且具有可读性，省去这些回路。因此在该情况下将考虑用麦克风M1-M4提供数字形式的信号。

处理器PR被编程和配置成实施以下操作：

1.计算来自不同麦克风的信号的广义互相关系数，尤其是GCC-PHAT型广义互相关系数。

来自麦克风M_i和M_j(i，j＝1-4；i≠j)的信号为S_i(t)和S_j(t)。所述信号的广义互相关系数R_si，sj被定义为预先过滤后的这些信号间的互相关系数；该广义互相关系数为变量τ的函数，时间齐次并且表示来自两个麦克风的信号间的时间间隔(耳间时间差)。有利地，在以下频率范围内计算该广义互相关系数：

R_{s i . s j} (τ) = {&Integral;}_{- \infty}^{+ \infty} Φ_{i} (ω) S_{i} (ω) Φ_{j}^{*} (ω) S_{j}^{*} (ω) e^{i ω τ} d ω - - - (1)

其中为信号S_i，j(t)的傅立叶变换，“*”为复共轭算子，Φ(ω)为过滤器的转换函数。在存在GCC-PHAT广义互相关系数的情况下，选择“白化”信号的过滤器，即均衡所有的频谱分量强度以只保留相位信息：

Φ_{i . P H A T} = \frac{1}{| S_{i} (ω) |} - - - (2)

可以理解，在实际实施所述方法时，傅立叶变换为尤其通过快速傅立叶变换算法(FFT)计算的离散傅立叶变换，用有限项的总和代替积分。

而且，如图1所示，来自麦克风M1-M4的信号在频域内被转换(单元FT实施离散傅立叶变换，尤其通过使用快速傅立叶变换算法或“FFT”)，利用阈值消除强度小于预定值的频谱分量，以避免主要或仅包括噪音的频谱分量被白化过滤器(频谱阈值单元SCS)放大，然后由所述白化过滤器(FFT)过滤-也可使用其它类型的过滤，请见前述的Ch.H.Knapp和G.C.Carter的文章。然后，过滤后的信号被两两相乘，相乘的结果在时域中被转换(单元FT^-1实施反向离散傅立叶变换，尤其通过使用快速傅立叶变换算法或“FFT”)。因此得到由成对的不同麦克风获取的声音信号的广义互相关系数。已选择采用所有麦克风对-如果N为麦克风数量，麦克风对数量为N(N-1)/2-但可限制为在其中选择三对或在3和N(N-1)/2之间的所有值。

频域通道对于计算互相关系数不是必要的，但仍然是极其有利的。

以离散方式执行计算，每个广义互相关系数仅对于耳间时间差的一组离散值计算。

2.计算受控响应功率SRP(英语为“Steered Response Power”)。仅通过增加不同的广义互相关系数来执行所述计算：

S R P (τ) = Σ_{s_{i}, s_{j}} R_{s i, s j} (τ_{s i, s j}) - - - (3)

其中在与相应的麦克风对相关联的M对信号S_i、S_j上执行求和运算(3≤M≤N(N-1)/2)。向量变量τ具有M个分量，所述M个分量分别对应一对麦克风的耳间时间差。更具体地，可将SRP定义为广义互相关系数的线性组合。

应注意，所有的τ值-和因此值τ_si，sj的所有组合不是“实际可能”的。事实上，如果考虑单一声源足够远离麦克风网络以使到达这些麦克风的声波可被认为是平坦的，通过两个耳间时间差来完全识别所述声源的定位方向。换句话说，向量τ的两个分量(至少理论上)以单值方式确定其它分量的值。

3.使受控响应功率最大

声源定位方向的识别通过使相对于向量变量τ的函数SRP(τ)最大来进行。可使用多种数字化方法来解决该优化问题；可作为非限制示例来描述梯度算法和“强力”方法。

可仅通过考虑上面解释的“实际可能”(即与来自距“无限远”的单一声源的声音信号兼容)的τ值在约束下进行该最大化。更具体地，该方式在J.H.DiBiase等人的前述文章中已知。然而事实上，该方式不是很可靠。事实上，由于噪音、遮掩效应(夹置在声源与一个或多个麦克风之间的障碍物)和尤其是混响效应，常会使SRP(τ)的绝对最大值对应于τ的“不可能”值。

根据本发明，为了改善声源空间定位算法的可靠性，SRP(τ)的最大值的求解不仅在τ的“可能”值上进行，还在理论上不允许的值(即不与来自距“无限远”的单一声源的声音信号兼容)上进行。更确切地，如图1所示，通过考虑向量τ的形成集合E的值来执行函数SRP(τ)的最大化(“MAX”功能单元)，所述集合由两个子集合构成：

-向量τ的第一子集合E1，其中的向量与来自距麦克风网络无限远的单一声源的声音信号兼容。从数学角度看，所述向量具有满足“沙勒”条件的分量

τ_ji+τ_jk＝τ_ik (4)

其中下标i≠j≠k表示所述组件的不同麦克风，并且τ_ji、τ_jk和τ_ik表示分别对于麦克风对(i，j)、(j，k)和(i，k)的耳间时间差。对于使向量τ与来自距无限远的单一声源的声音信号兼容，所述条件是必要但不充分的。

-向量τ的第二子集合E2，其中的向量不与来自距麦克风网络无限远的单一声源的声音信号兼容。更具体地，所述第二子集合由所述集合中不属于所述第一子集合的向量构成，并且根据预定(尤其是欧几里德)度量并且在标准化(根据标准划分每个向量)之后确定的与所述第一子集合的向量的距离小于预定阈值。所述阈值的确定构成可在实验上执行的方法调整。

为了选择属于集合E的向量τ并且将这些向量从E分配到子集合E1和E2，按以下方式进行：

首先，以矩阵形式写出方程组，该方程组使指向声源方向的标记为x的单位向量与耳间时间差向量τ相关联：

τ＝Ax (5)

其中A为矩阵M×3(注意M为向量τ的分量数)。矩阵A不是方阵，该矩阵不直接可逆。如果麦克风不是共面的，矩阵A有3行。可选择三个线性无关的行来构成可逆方阵注意到，采用与矩阵A的独立分量对应的τ的三个分量来得到三维向量那么：

\tilde{τ} = \tilde{A} x - - - (6)

因此

x = {\overset{&OverBar;}{A}}^{- 1} \tilde{τ} - - - (7)

然后考虑向量τ的初始集合E’，该初始集合对应于离散化(这是因为仅考虑这些分量的离散值)的中的球体或立方体(这是因为对于τ的模或对于其分量中的每个规定最大容许值)。

对于E’的每个向量τ，计算在验证三维沙勒关系的向量子空间上的映射。如果差值超过预定阈值ε，不保留该向量。否则提取(即三个线性无关分量的向量)的向量并且用下式计算给定距离d2：

d_{2} = | \frac{\sqrt{| | τ | | - d_{1}^{2}}}{| | x | |} - 1 | - - - (8)

方程式(8)指出通过缩短值d2的向量而不改变其方向，该向量成为单位标准。

如果小于阈值ε，则向量τ为集合E的一部分(如果d＝0则为子集合E1的一部分，否则为子集合E2的一部分，然而注意到，这种区别是不可操作的，集合E的所有向量以相同方式被处理)。

等式7能够使每个向量与声源定位方向相关联。

这些计算是繁琐的，有利地这些计算仅被执行一次，并且将结果存储在对应表格中(见下面)。

4.识别声源定位方向。

在识别由τ_max表示的使SRP(τ)最大的向量τ∈E之后，需使该向量与声源定位方向相关联。如果τ_max∈E1，这不会产生问题，这是因为耳间时间差向量与一个或单一定位方向兼容。如果τ_max∈E2，选择属于E1的与根据所述预定度量最接近于τmax的向量兼容的定位方向。

有利地，集合E的每个向量同时均与一个定位方向相关联。该集合的每个向量和与所述每个向量相关联的定位方法被存储在处理器存储器的加载文件中，以形成由上述方式构成的对应表格(附图标记为LUT，英语为“Look-Up Table”)。而且，通过简单地读取表格来根据τ_max的值确定声源定位方向。

有利地，通过以下方式(通过考虑具有六个分量的向量τ)来组织包括对应表格的文件：

索引	向量τ	(方位角，仰角)	{邻近}
				0	(0，6，6，6，6，0)	(0°，30°)	{2，3}
1	(0，0，0，0，0，0)	(0°，90°)	{}
				2	(1，6，6，6，6，0)	(3°，28°)	{0，3}
3	(1，7，6，6，6，0)	(5°，27°)	{0，2}

索引未被明确写在文件中，其遵循一定顺序。“邻近”场包括在每个分量上的偏差小于或等于1(或另一预定值)的向量索引。该场便于实施用于使SRP最大的梯度算法。

在处理器启动时，该处理器在存储器中加载包括对应表格的文件内容。每次检测到声音时，该处理器对于被存储在对应表格中的所有向量τ计算SRP(τ)的值，然后查找这些值的最大值，识别对应的向量τ并且读取对应表格中与该向量相关联的方位角值和仰角值。在变型中，该处理器可查找SRP(T)的N＞1个局部最大值，以执行多定位(多个声源同时定位)；但该方式并不很可靠。

借助于图1示出了处理器PR的运行，该处理器可包括与一个或多个存储器联结的经编程的微处理器，以存储集合E和对应表格LUT。所述微处理器可专用于定位声源或还完成其它任务；做为限制，所述微处理器仅为手提电脑或办公桌电脑或极简单的机器人的处理器。而且，集合E和对应表格LUT可被存储在专用存储单元或中央存储器中。所述处理器还包括专用的可编程或不可编程的逻辑电路。

图2示出了适于实施本发明的仿人机器人的头部TRH，所述头部包括被配置在所述头部的上表面上的四个麦克风M1-M4的网络。当声源位于比机器人头部更高的位置时，该配置能够避免任何遮掩影响。这特别适合检测和定位在仿人机器人旁边的人类对话者，该仿人机器人的尺寸小于大部分人类的尺寸，例如在50和150cm之间。以指示方式，两个相邻麦克风之间的距离可在3和30cm之间。

参考图2，已通过在本公司申请人生产的机器人“Nao”上装配麦克风来测试本发明的方法。机器人和声源已被安置在具有“正常”混响的普通房间内，其中声源被配置在机器人前侧、右侧、左侧、右前侧(相对于后-前轴线呈-45°角度)和左前侧(相对于后-前轴线呈+45°角度)。声源为发射语音信号的声音产生装备。已通过考虑1024个样本中的每个的计算窗来执行定位。重复多次测试，由机器人确定的定位方向(通过方位角和仰角识别)已被重组成形成频率分布图。

图3A/3B对应于定位在机器人前侧的声源(理论方位角：0°)。

图4A/4B对应于定位在机器人左侧的声源(标准方位角：90°)。

图5A/5B对应于定位在机器人左前侧的声源(标准方位角：45°)。

图6A/6B对应于定位在机器人右侧的声源(标准方位角：-90°)。

图7A/7B对应于定位在机器人右前侧的声源(标准方位角：-45°)。

未测量标准仰角。事实上，在主要的机器人应用中，仰角没有方位角重要。

图“A”涉及如上面所描述的本发明的方法。图“B”作为比较被给出并且借助于传统的TDOA方法获得。在参考方法中，当被标准化的SRP最大值小于预定阈值时，定位被认为是失败的。更通常地，即使在根据本发明的方法中，该被标准化的最大值可被认为是可信定位指示。标准化由以下公式进行：

λ = \underset{s_{i} s_{i j}}{Σ} \sqrt{W (s_{i}) W (s_{j})}

其中W(S_i)和W(S_j)为来自麦克风i和j的白化信号的能量。

注意到在本发明情况下(图“A”)，大部分试验导致令人满意的估算，与声源方位角仅相差几度，而参考方法(图“B”)具有很高的失败率。应当强调的是，在主要的机器人应用中，不要求高精确度(几度的定位误差没有影响)，而是要求与计算的相对简单性相关联的较大可靠性。

Claims

1.一种声源定位方法，所述声源定位方法包括以下步骤：

a)借助于由至少三个麦克风(M1、M2、M3、M4)构成的组件来获取来自要定位声源的声音信号；

d)确定使所述受控响应功率最大的耳间时间差向量；以及

其特征在于，

-通过考虑形成集合(E)的多个耳间时间差向量来实施所述步骤c)和d)，所述集合包括：第一向量子集合(E1)，所述第一向量子集合的向量与来自距所述麦克风无限远的单一声源的声音信号兼容；和第二向量子集合(E2)，所述第二向量子集合的向量不与来自距所述麦克风无限远的单一声源的声音信号兼容；并且，

2.根据权利要求1所述的方法，其中，在所述步骤b)中计算的广义互相关系数为GCC-PHAT型的，并且对应于预先白化的信号的互相关系数。

3.根据前述权利要求中任一项所述的方法，其中，在所述步骤b)中，选择所述组件的所有麦克风对。

4.根据前述权利要求中任一项所述的方法，其中，所述受控响应功率由所述麦克风对的广义互相关系数的总和来给出或与所述总和成比例。

5.根据前述权利要求中任一项所述的方法，其中，所述第一子集合由所述集合的向量构成，所述向量的分量满足沙勒条件：

τ_ji+τ_jk＝τ_ik

6.根据前述权利要求中任一项所述的方法，其中，所述第二子集合由所述集合中不属于所述第一子集合的向量构成，并且所述向量的根据所述预定度量并且在标准化之后确定的与所述第一子集合的向量的距离小于预定阈值。

7.根据前述权利要求中任一项所述的方法，其中，所述预定度量为欧几里德度量。

8.根据前述权利要求中任一项所述的方法，其中，所述步骤e)借助于使定位方向与所述集合的每个值相关联的对应表格(LUT)来实施。

9.一种仿人机器人，其包括：

-由至少三个麦克风(M1、M2、M3、M4)构成的组件；和

-与所述麦克风连接的处理器(PR)，所述处理器用于在输入端接收由所述麦克风获取的声音信号，并且所述处理器被编程和配置成实施根据前述权利要求中任一项所述的方法。

10.根据权利要求9所述的仿人机器人，其中，所述麦克风被配置在所述机器人的头部(TRH)的上表面上。