CN102610227A

CN102610227A - 声音信号处理设备、声音信号处理方法和程序

Info

Publication number: CN102610227A
Application number: CN2012100065810A
Authority: CN
Inventors: 广江厚夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-01-18
Filing date: 2012-01-11
Publication date: 2012-07-25
Also published as: JP2012150237A; US20120183149A1; US9361907B2

Abstract

本发明公开了声音信号处理设备、声音信号处理方法和程序。该声音信号处理设备包括方向估计单元和方向跟踪单元，该方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点，该方向跟踪单元将多个块之间彼此连接方向点并且检测其中声音活动的片段。方向估计单元包括：生成死角形成滤波器和指向性束形成滤波器的空间滤波器生成单元、生成作为方向和增益之间的对应关系数据的死角形成模式的死角形成模式生成单元、生成作为方向和增益之间的对应关系数据的指向性束形成模式的指向性束形成模式生成单元、以及检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点的方向点检测单元。

Description

声音信号处理设备、声音信号处理方法和程序

技术领域

本发明涉及声音信号处理设备、声音信号处理方法和程序，更具体而言，涉及能够执行伴随有声源方向估计的语音片段(speech section)检测处理的声音信号处理设备、声音信号处理方法和程序。

背景技术

下文中，作为根据现有技术的技术，将首先整体上对语音片段检测进行说明，随后对利用声源方向估计来处理语音片段检测的方法进行说明。

语音片段检测(SD：语音检测)指在经由包括在例如声音信号处理设备中的麦克风输入的声音信号中切割出其中人说话的片段的处理。语音片段检测(SD)也被称为VAD(话音活动性检测)。

在说明书中，从声音信号中切割出人的说话片段的处理将被称为“语音片段检测”或者简称为“片段检测”。另外，“片段”并不限于语音的片段，而是可以表示其中给定的声源持续活动(持续生成声音)的片段。

语音片段检测有时与语音识别、声源提取等一起使用。然而，在任何一种情况下，在片段检测中都需要高精度。

例如，由于在许多声音识别装置中执行诸如对通过片段检测切割出的片段的匹配之类的处理，因此片段检测的精度对语音识别的精度有很大的影响。即，当在实际说话的片段和通过片段检测器检测出的片段之间存在差异时，该差异可能导致错误的识别。

另一方面，在声源提取中，有时使用片段检测。例如，当期望从话音和噪声彼此混合的信号中提取出清楚的话音时，或者当期望在两个或更多个人同时说话的环境中提取出一个人的话音时，有必要根据提取声源的方法将输入信号划分为其中仅噪声被生成的片段和其中话音和噪声两者都被生成的片段。因此，为了将输入信号划分为这些片段，使用了片段检测。

通过在仅有目标话音单独存在时提取声源，片段检测有时可以被用来减少计算量或者防止适应无声片段。在与声源提取一起使用的语音片段检测中，即使在其中话音和噪声彼此混合或者多个话音彼此混合的输入信号中，也有必要高精度地进行操作。

为了满足上述使用，已经作出了各种建议来提高语音片段检测中的精度。这里，关注要使用的麦克风的数目，这些建议被分类为以下两种方法。

(1)使用单个麦克风的方法

该方法是一种从输入信号中提取表示“话音相似性”(voicelikeness)的特征并基于该值执行片段检测的方法。

该处理例如在日本专利4182444号中公开。

(2)使用多个麦克风的方法

该方法是一种利用声源的方向执行片段检测的方法。

该处理例如在日本专利4282704号和日本专利申请公开2010-121975号中公开。

在本说明书中公开的技术使用上述方法(2)，即，使用多个麦克风的方法。因此，下文中，将对使用方法(2)的声源方向的方法的概况进行说明。

基于声源方向的语音片段检测的基本思想如下。

从麦克风看，从同一声源生成的声音在同一方向上到达。因此，以预定时间间隔估计声源的到达方向(DOA)，计算其中同一方向上的声音持续被生成的片段，并且将该片段确定为其中声源活动(声音从声源生成)的片段。当对人的说话执行该处理时，检测出语音片段。

下文中，来自声源的到达方向(DOA)也被简称为“声源方向”。

当估计声源方向的方法被应用于多个声源中的每一个时，即使多个声源同时活动(例如，即使当多个人的话音覆盖时)，也能够针对每个声源计算片段。

例如，在紧接着一个人的说话结束之前，另一人开始说话的情况下，在使用“话音相似性”的方法中，其中这两段说话彼此连接的长区域被检测为一个片段，而在估计方向的方法中，这两个说话的各自片段能够被彼此区分并且能够被检测。

将参考图1A至1D对利用声源方向估计检测语音片段的方法的概况进行说明。

图1A是示出输入信号(或者也称为“观测信号”)的图像的示图。两人分别说出“Hello”(你好)和“Good-by”(再见)。

如图1B所示，输入信号被划分为具有预定长度的块。

图1B中所示的块11表示所划分的块之一。该块的长度与正常说话的长度相比具有充分短的值。例如，该长度被设置为1/10秒或者1/8秒。

对每个块执行声源方向的估计。

图1C示出了估计结果。横轴表示时间而纵轴表示方向。该方向指声源方向相对于话音被输入的麦克风的角度(见图2)。

图1C中所示的点是方向点(direction point)12。方向点表示在每个块内计算出的声源方向。

下文中，与声源方向相对应的点被称为“方向点”。当使用对多个声源的方向估计方法时，每个块可以具有多个方向点。

接下来，在几乎相同的方向上的方向点被在块之间相连。该处理被称为跟踪(tracking)。

图1D示出了跟踪结果，即，相连的方向点。

图1D中所示的线15和16表示其中各声源为活动的片段，即，话音说话的片段。

作为计算每个块中的声源方向的方法，例如，上述日本专利4282704号公开了一种使用“抑制从对象声源到达的信号的波束形成器”的处理。

另外，上述日本专利申请公开2010-121975号公开了一种使用MUSIC方法的处理。

在每个处理中，基本上都是生成其中将死角(null beam)指向声源的方向的空间滤波器，并且将死角的方向设为声源方向。下文中，将说明MUSIC方法。

MUSIC方法是多信号分类(MUltiple SIgnal Classification)的简写。从空间滤波(发送或抑制特定方向上的声音的处理)的角度，MUSIC方法可以被解释为下面两个步骤(S1)和(S2)。MUSIC方法的细节在日本专利申请公开2008-175733号等中公开。

(S1)生成一空间滤波器以使得将死角指向给定片段(块)内的生成话音的所有声源的方向。

(S2)对于滤波器检查指向性特性(方向和增益之间的关系)并且计算死角被形成的方向。

后面将对上述步骤(S1)和步骤(S2)之间在步骤(S1)中生成空间滤波器的方法进行说明。首先，下面将说明步骤(S2)的处理。

图2是图示用于生成空间滤波器(图3)的观测信号的记录环境的示图，在空间滤波器中，死角指向声源方向。存在四个麦克风22和两个声源(都是人的话音)。另外，声源方向是从麦克风22的阵列的中心21看的到达方向。当在相对于与麦克风的阵列平行的阵列方向23的垂直方向24上设置为0°时，逆时针方向是正(+)方向并且顺时针方向是负(-)方向。

图3是图示其中将死角指向声源方向的空间滤波器的指向性特性(即，将方向(横轴)和增益(纵轴)之间的关系进行绘制)的示图。纵轴由对数表示。生成指向性特性绘图的方法将在后面说明。下文中，将死角指向声源的空间滤波器被称为“死角形成滤波器”，并且该滤波器的指向性特性的绘图被称为“死角形成模式”(null beam formingpattern)。

在图3所示的死角形成模式31中，增益急剧下降的部分表示灵敏度低的方向，即，死角。在图中，深的“波谷”存在于方向＝-24°的附近区域32和方向＝+12°的附近区域33。这些波谷表示与图2中的声源1、25和声源2、26相对应的死角。

即，声源1的方向θ1约为-24°并且声源2的方向θ2约为+12°。换句话说，与死角形成模式相对应的块分别具有-24°和+12°的方向点。

在MUSIC方法中，可以使用增益的倒数而不是增益的对数。例如，在上述日本专利申请公开2008-175733号中使用了倒数。在这种情况下，死角被表示为图上的尖锐“波峰”。这里，将与本发明相比较地说明使用增益的对数的方法。

当以这种方式计算每个块的方向点时，具有类似值的方向点在块之间彼此相连。例如，在图2所示的环境中，当具有与方向＝-24°接近的值的方向点彼此相连时，计算出与图2中所示的声源1、25相对应的人说话片段。当具有与方向＝+12°接近的值的方向点彼此相连时，计算出与声源2、26相对应的人说话片段。

现有技术的问题

接下来，将对于根据基于声源方向估计的语音片段检测的现有技术的问题进行说明。

在上述基于声源方向估计的片段检测中，优选为参考图1A至1D所述的各个块中的被检测为方向点的方向点的数目与实际生成话音的声源的数目相同。

如果方向点的数目小于声源的数目，则可能引起检测失败(话音被生成，但是未被检测到)。相反地，如果检测出的方向点的数目大于声源的数目，则可能引起错误的检测(话音未被生成，但是被检测出)。

然而，在根据MUSIC方法的方向估计中，可能出现以下问题，即难以判定死角形成模式的凹部(下文中也称为“局部最小部”)是否对应于死角。

例如，除了方向＝-24°附近的局部最小部32和方向＝+12°附近的局部最小部33的深凹部以外，图3中所示的死角形成模式31还存在具有浅凹部的局部最小部34至37。由于与死角相对应的波谷的深度根据环境而不同并且即使在同一环境下也根据块而不同，因此难以基于波谷深度的阈值判定一个波谷是否是死角。

例如，在图3中，通过将阈值38设置为接近

，能够判定一个波谷是否是死角。然而，该阈值不能保证在其他块中也是有效的。

另外，假定n是用于输入话音的麦克风的数目，可以形成最大(n-1)个死角。基于该特性，例如通过对图3所示的死角形成模式31的最小值执行从小到大的排序并仅选择第1至第(n-1)个最小值的处理，声源方向的候选可以被局限于(n-1)个。

然而，当基于麦克风的数目＝n正常选择(n-1)个死角时，即使在无声的话音中，也可以在死角形成模式的微小的凹部中检测出(n-1)个方向点。因此，需要另外的条件以排除不对应于声源的多余的方向点。

另外，在声源方向估计被用在片段检测中时可能出现一个特有的问题。与多个声源相对应的片段检测器优选为不依赖于同时活动的声源的数目而检测片段。然而，存在以下情况：该检测在基于阈值确定死角的方法中是困难的。

将参考图4A至4C说明当说话期间的声源的数目改变时出现的问题。假定在图2中，声源1、25说话较短，而声源2、26说话较长。在这种情况下，与声源1相对应的说话片段41和与声源2相对应的说话片段42被分别检测为说话片段，如图4A所示。然而，在该示例中，存在以下担心：由于声源的数目像0→1→2→1→0这样改变，因此该改变可能对片段检测有影响。

在死角形成模式中，与声源方向相对应的“波谷”表现出随着声源数目的增大而变得更浅的趋势。即，“波谷”的数目越大，每个“波谷”就越浅。由于此原因，例如，当参考图3所述的阈值38被在其中仅一个声源生成话音的片段中调节时，该检测可能在其中多个声源生成话音的片段中是不稳定的。

即，在诸如图4B中所示的、两个说话被覆盖的说话片段43和44之类的片段(与图4A中所示的说话片段42相对应的片段)中，在某些情况下可能检测到间歇片段(intermittent section)。取决于阈值的设置，有时没有检测到仅仅与说话片段42相对应的任何片段，或者有时仅仅检测到一个声源。

另一方面，当设置了大的阈值时，当多个声源生成话音时片段碎裂为多片的可能性更小(图4C中所示的说话片段45和46)。相反地，将在死角形成模式中不对应于声源方向的局部最小部(例如图3中所示的局部最小部34至37)检测为方向点的可能性更高。结果，检测出不对应于说话的“虚假说话片段”(例如图4C中所示的说话片段47)的可能性更高。

在基于声源方向上的死角执行方向估计的方法中，必须确定在方向和增益之间的关系的模式中局部最小部的深度有多深以将局部最小部当作“与声源方向相对应的死角”。当利用阈值执行该确定时，存在平衡。结果，即使当基于方向估计执行片段检测时，也难以防止检测失败(未检测出或者片段碎裂)和错误的检测这两者。

发明内容

期望提供一种声音信号处理设备、声音信号处理方法和程序，其能够在基于声源方向估计执行语音片段检测的配置中防止检测失败(未检测或者片段碎裂)或者错误的检测并实现高精度的语音片段检测。

根据本发明的一个实施例，提供了一种声音信号处理设备，包括方向估计单元和方向跟踪单元，该方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点，该方向跟踪单元将多个块之间的方向点彼此连接并且检测其中声音活动的片段。方向估计单元包括：空间滤波器生成单元，该空间滤波器生成单元生成死角形成滤波器和指向性束形成滤波器，死角形成滤波器是对声源方向具有低灵敏度(增益)的空间滤波器，指向性束形成滤波器是对声源方向具有高灵敏度(增益)的空间滤波器；死角形成模式生成单元，该死角形成模式生成单元生成死角形成模式，死角形成模式指示方向和增益之间的对应关系数据并且对应于死角形成滤波器；指向性束形成模式生成单元，该指向性束形成模式生成单元生成指向性束形成模式，指向性束形成模式指示方向和增益之间的对应关系数据并且对应于指向性束形成滤波器；以及方向点检测单元，该方向点检测单元检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点。

在根据本发明的实施例的声音信号处理设备中，空间滤波器生成单元可以通过对协方差矩阵的特征值分解处理来计算多个特征值和多个特征向量并且利用与计算出的最大特征值相对应的特征向量来生成指向性束形成滤波器，协方差矩阵是根据从声音信号生成的时间-频率域的观测信号针对每个块计算出的。

在根据本发明的实施例的声音信号处理设备中，空间滤波器生成单元可以通过对协方差矩阵的特征值分解处理来计算多个特征值和多个特征向量并且通过用特征值为权重对所有特征向量进行加权求和或加权求平均来生成指向性束形成滤波器，协方差矩阵是根据从声音信号生成的时间-频率域的观测信号针对每个块计算出的。

在根据本发明的实施例的声音信号处理设备中，空间滤波器生成单元可以通过对协方差矩阵的特征值分解处理来计算多个特征值和多个特征向量，通过利用由特征向量形成的矩阵V(ω)和由特征值形成的对角矩阵D(ω)的计算处理计算出变换矩阵V’(ω)，并且利用计算出的变换矩阵V’(ω)的任何一行来生成死角形成滤波器，协方差矩阵是根据从声音信号生成的时间-频率域的观测信号针对每个块计算出的。

在根据本发明的实施例的声音信号处理设备中，方向点检测单元可以通过应用动态阈值来判定死角形成模式的最小部是否被选为方向点，动态阈值是基于要经历新方向点检测处理的块的邻近块群组中死角形成模式的最小部计算出的。

在根据本发明的实施例的声音信号处理设备中，方向点检测单元可以区分强方向点和弱方向点，其中强方向点满足死角形成模式的局部最小部的值小于相应的指向性束形成模式的局部最大部的值的条件，弱方向点不满足该条件，如果弱方向点存在于正生成的片段内部，可以选择弱方向点作为指示声源方向的方向点，并且可以忽略位于正生成的片段外的弱方向点。

在根据本发明的实施例的声音信号处理设备中，方向点检测单元可以区分强方向点和弱方向点，其中强方向点满足死角形成模式中的局部最小部的值小于相应的指向性束形成模式中的局部最大部的值的条件，弱方向点不满足该条件，可以在延长并确定正生成的片段的处理中将强方向点和弱方向点两者都选为指示声源方向的方向点，并且可以在要生成的新片段的起始部分仅将强方向点选为指示声源方向的方向点。

根据本发明的另一个实施例，提供了一种由声音信号处理设备执行的声音信号处理方法。该声音信号处理方法包括：通过方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点；以及通过方向跟踪单元将多个块之间的方向点彼此连接并且检测其中声音活动的片段。方向点的检测包括：生成死角形成滤波器和指向性束形成滤波器，死角形成滤波器是对声源方向具有低灵敏度的空间滤波器，指向性束形成滤波器是对声源方向具有高灵敏度的空间滤波器；生成死角形成模式，死角形成模式指示方向和增益之间的对应关系数据并且对应于死角形成滤波器；生成指向性束形成模式，指向性束形成模式指示方向和增益之间的对应关系数据并且对应于指向性束形成滤波器；以及检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点。

根据本发明的又一个实施例，提供了一种使得声音信号处理设备执行声音信号处理的程序。该程序使得方向估计单元执行针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点的处理；并且使得方向跟踪单元执行将多个块之间的方向点彼此连接并且检测其中声音活动的片段的处理。方向点的检测包括：生成死角形成滤波器和指向性束形成滤波器，死角形成滤波器是对声源方向具有低灵敏度的空间滤波器，指向性束形成滤波器是对声源方向具有高灵敏度的空间滤波器；生成死角形成模式，死角形成模式指示方向和增益之间的对应关系数据并且对应于死角形成滤波器；生成指向性束形成模式，指向性束形成模式指示方向和增益之间的对应关系数据并且对应于指向性束形成滤波器；以及检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点。

根据本发明的实施例的程序是一种可以通过存储介质或通信介质提供的程序，其以计算机可读格式提供给例如能够执行各种程序代码的图像处理设备或计算机系统。通过以计算机可读格式提供程序，在信息处理设备或计算机系统上实现了根据程序的处理。

本发明的实施例的其他目的、特征、优点从后面说明的实施例和基于附图的具体实施方式中变得清楚。说明书中的系统具有多个设备的逻辑集合配置，并且并不限于具有每种配置的设备被设在同一机壳内的配置。

在根据本发明的实施例的配置中，实施了实现高精度地从声音信号检测说话片段的处理的设备和方法。具体而言，该设备包括方向估计单元和方向跟踪单元，该方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点，该方向跟踪单元将多个块之间的方向点彼此连接并且检测其中声音活动的片段。方向估计单元生成死角形成模式和指向性束形成模式，死角形成模式指示方向和增益之间的对应关系数据并且对应于死角形成滤波器(它是对声源方向具有低灵敏度的空间滤波器)，指向性束形成模式指示方向和增益之间的对应关系数据并且对应于指向性束形成滤波器(它是对声源方向具有高灵敏度的空间滤波器)。方向估计单元检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点。通过该处理更精确地检测了语音片段。

附图说明

图1A至1D是示出利用声源估计检测语音片段的方法的概况的示图；

图2是示出用于生成空间滤波器(图3)的观测信号的记录环境的示图，在空间滤波器中，将死角指向声源方向；

图3是示出其中将死角指向声源方向的空间滤波器的指向性特性(即，将方向(横轴)和增益(纵轴)之间的关系进行绘制)的示图；

图4A至4C是用于说明当声源的数目在说话期间改变时的问题的示图；

图5是示出在给定块中重复绘制的死角形成模式和指向性束形成模式(directivity pattern)的示图；

图6是示出当横轴表示时间并且纵轴表示方向时，在以预定义时间间隔划分的块单元中、作为方向点绘制的声音检测方向的示图；

图7是示出根据在图2的环境中记录的话音计算协方差矩阵和特征向量并且针对各个特征向量求出指向性特性而求得的模式的示图；

图8是示出生成导向向量(steering vector)的方法的示图；

图9是示出在每个块中检测出的方向点和通过连接这些方向点而获得的片段的示图，以说明不同地对待片段内外的“弱方向点”的处理；

图10是示出声音信号处理设备的整体配置的示图；

图11是示出图10中所示的模块的方向估计单元的细节的示图；

图12是示出从方向估计单元输出的方向点信息的具体示例的示图；

图13是示出图10中所示的声音信号处理设备的方向跟踪单元的配置和处理的示图；

图14是示出由方向跟踪单元生成的片段信息的配置数据示例的示图；

图15是在声音信号处理设备中执行的整体处理的流程图；

图16A和16B是示出由图10中所示的短时间傅立叶变换(STFT)单元执行的STFT处理的细节的示图；

图17是示出由图10中所示的方向估计单元执行的方向估计处理的详细序列的流程图；

图18是示出图15中所示的整体处理流程图的步骤S107的方向跟踪处理的详细序列的流程图；

图19是示出图18中所示的流程图的步骤S301的“片段延长和确定”处理的详细序列的流程图；

图20A和20B是用于说明执行多采用检查(multi-adoptionchecking)的理由的示图；

图21是示出图19中所示的流程图的步骤S407的“片段输出和拒绝”处理的细节的流程图；

图22是示出图18中所示的流程图的步骤S302的“新片段生成”的详细序列的流程图；以及

图23是示出基于“话音相似性”的语音片段检测处理和根据本发明的实施例的语音片段检测处理相组合的配置的示图。

具体实施方式

下文中，将参考附图详细说明声音信号处理设备、声音信号处理方法和程序。

将如下进行说明。

1.本发明中声音信号处理的概况

2.本发明中声音信号处理的详情

2-1.死角形成模式和指向性束形成模式的组合配置

2-2.取决于片段状态的方向点检测条件的改变

2-3.新的死角形成滤波器和指向性束形成滤波器

3.声音信号处理设备的配置和处理

4.由声音信号处理设备执行的处理序列

5.其他实施例(变形例)

6.优点的总结

在说明书中，A_b表示A的后缀b是下标，并且A^b表示A的后缀b是上标。

1.本发明中声音信号处理的概况

下面说明的声音信号处理基于声源方向估计来执行语音片段检测并高精度地实现了语音片段检测，同时防止了检测失败(未检测出或者片段碎裂)或者错误的检测。

在根据现有技术的上述技术中，当计算声源方向时仅使用死角形成模式。因此，可能发生检测失败或者错误的检测，检测失败例如是未检测到实际的说话或者由于检测到一个语音片段从而使得语音片段碎裂为多片而引起的失败。

根据下面说明的配置，通过使用另一信息以及死角形成模式的处理防止了检测失败(未检测出或者片段碎裂)或者错误的检测。另外，通过将通过跟踪而获得的片段信息反映到方向点的检测，提高了片段检测的精度。

下面说明的声音信号处理具有以下特征(第一至第三特征)。

第一特征：死角形成模式和指向性束形成模式的组合

生成具有朝向声源方向的死角的空间滤波器和具有朝向声源方向的指向性的空间滤波器，并且针对每个滤波器计算方向和增益的模式。具有朝向声源方向的死角的空间滤波器的模式被称为“死角形成模式”，而具有朝向声源方向的指向性的空间滤波器的模式被称为“指向性束形成模式”。

利用这两个模式来检测方向点。

第二特征：取决于片段状态的方向点检测条件的改变

通过判断片段的开始和片段的结束来改变方向点检测的条件。

下文中，具有朝向声源方向的指向性的空间滤波器被称为“指向性束形成滤波器”。另外，利用“指向性束形成滤波器”获得的对于方向和增益的模式被称为“指向性束形成模式”。

即，下面说明的配置具有这样一个特征，其不仅使用具有朝向声源方向的低指向性的“死角形成滤波器”和作为利用“死角形成滤波器”获得的对于方向和增益的模式的“死角形成模式”，还使用具有与死角形成滤波器和死角形成模式相反的特征的“指向性束形成滤波器”和“指向性束形成模式”。

另外，对于死角形成滤波器和指向性束形成滤波器的生成，还进行了如下设计。

第三特征：新的死角形成滤波器和指向性束形成滤波器

不是直接使用由观测信号的协方差矩阵计算出的特征向量，而是在死角形成滤波器和指向性束形成滤波器中使用以下面说明的方式处理的向量。

2.本发明中声音信号处理的详情

下文中，将按照上述特征顺序详细说明本发明中的声音信号处理。

2-1.死角形成模式和指向性束形成模式的组合配置

首先，将说明死角形成模式和指向性束形成模式的组合配置。

图5是示出在给定块中重复绘制的死角形成模式和指向性束形成模式的示图。生成这种模式的方法将在后面说明。

该块指与上面参考图1A至1D所说明的块11相同的块。块的长度充分短于正常说话的长度。例如，块的长度被设置为1/10秒或者1/8秒。

图5示出了给定块中的以下两种模式。

(a)一种模式是指向性束形成模式101，它是通过“指向性束形成滤波器”获得对于方向和增益的模式，“指向性束形成滤波器”是具有朝向声源方向的高灵敏度的空间滤波器。

(b)另一模式是死角形成模式51，它是通过“死角形成滤波器”获得对于方向和增益的模式，“死角形成滤波器”是具有朝向声源方向的低灵敏度的空间滤波器，即，死角被设置在声源方向上的空间滤波器。

两种模式的方向(横轴)和增益(纵轴)之间的关系被绘制出来。纵轴由表示为对数。

死角形成模式51是与上面参考图3所说明的死角形成模式31相同的死角形成模式，并且具有灵敏度在声源方向上低的特征。图5中所示的局部最小部52至57分别对应于图3中所示的局部最小部32至37。这些局部最小部52至57设置的方向可以被估计为声源方向。

另一方面，指向性束形成模式101是相同块中的指向性束形成模式。指向性束形成模式101在块内具有声源方向上的指向性(增益的局部最大部)。然而，也存在不对应于声源方向的局部最大部。图中所示的指向性束形成模式101具有四个局部最大部102至105。这些局部最大部102至105设置的方向可以被估计为声源方向。

通过搜索死角形成模式51具有局部最小部并且指向性束形成模式101具有局部最大部的方向，能够高精度地检测声源方向。

例如，在图5所示的示例中，存在六个局部最小部，即，死角形成模式51中的局部最小部52至57。在与局部最小部52至57相同方向(θ)附近的、清楚地存在于指向性束形成模式101的局部最大部的局部最小部是两个局部最小部52和53。

即，从图5可见，指向性束形成模式101的局部最大部103几乎与死角形成模式51的局部最小部52处于相同的方向(方向：θ＝p，111)。

另外，指向性束形成模式101的局部最大部104几乎与死角形成模式51的局部最小部53处于相同方向(方向：θ＝q，112)。

此外，指向性束形成模式101的局部最大部105几乎与死角形成模式51的局部最小部55处于相同方向(方向：θ＝r，113)。然而，可以判定该方向并不是真正的声源方向。方向拒绝处理将在下面“2-2.取决于片段状态的方向点检测条件的改变”的部分中说明。

为了尽可能精确地提取出与真正的声源相对应的方向点，在下面的条件(第一至第五条件)下执行判断处理。

即，声音信号处理设备判断每个方向是否满足全部的下面说明的第一条件至第五条件。当声音信号处理设备判定每个方向都满足全部的第一条件至第五条件时，声音信号处理设备执行将每个方向认为是第一方向点(即，表示声源方向的方向点)的处理。

(第一条件)每个方向是与死角形成模式的局部最小部相对应的方向。

(第二条件)每个方向被包括在按照从小到大的最小值的顺序的第一位到第(n-1)位的范围中(麦克风的数目＝n)。

(第三条件)局部最小部的值小于预定义的阈值。

(第四条件)指向性束形成模式的局部最大部存在于与局部最小部相对应的方向附近。

(第五条件)基于阈值的判定条件得到满足，该阈值是由紧邻的块群组中的死角形成模式的最小部动态计算出的(根据动态阈值的判定条件)。

下文中，将说明上述第一至第五条件。

在本发明的实施例中，首先搜索死角形成模式的最小部，这与根据现有技术的方向一样。

第一位到第(n-1)位是按照在第一条件下检测出的死角形成模式的局部最小部中、从小到大的最小值的顺序形成的。

例如，第一位到第三位是按照局部最小部的从小到大值(增益值)的顺序形成的，因为n＝4，即，图5中所示的死角形成模式51是根据以四个麦克风记录的信号生成的。

作为局部最小部选择处理的结果，所选的局部最小部是三个局部最小部52、53和55。

当第一条件被表示为方程式时，形成了下面的方程式[1.1]。

P_N(θ_i-1)≥P_N(θ_i)≤P_N(θ_i+1) ......[1.1]

P_N(θ_i-2)≥P_N(θ_i-1)≥P_N(θ_i)≤P_N(θ_i+1)≤P_N(θ_i+2) ......[1.2]

P_N(θ_i)＜T_static ......[1.3]

P_D(θ_i′-1)≤P_D(θ_i′)≥P_D(θ_i′+1) ......[1.4]

P_D(θ_i′-2)≤P_D(θ_i′-1)≤P_D(θ_i′)≥P_D(θ_i′+1)≥P_D(θ_i′+2) ......[1.5]

P_{\min} = \min_{B - B_{0} \leq b \leq B - 1, θ} P_{N}^{[b]} (θ) . . . . . . [1.6]

T_dynamic＝αP_min ......[1.7]

P_N(θ_i)＜T_dynamic ......[1.8]

P_N(θ_i)＜P_D(θ_i′) ......[1.9]

在上面的方程式[1.1]中，P_N(θ_i)表示当前着眼的块中的死角形成模式。

死角形成模式的角度(方向)被离散表示(例如，从-180°到+180°、5°间隔)，并且这些角度的值被表示为θ_1、θ_2、...和θ_i。

在角度θ_i处P_N(θ_i)是否为最小值可以通过将相邻的角度θ_{i-1}和θ_{i+1}相比，并且满足方程式[1.1]来确定。

当角度的间隔(步长)较小时，可以利用方程式[1.2]而非方程式[1.1]来考虑与相邻角度相邻的角度，这是因为微小的凹部和凸部被错误地检测为死角的可能性更小。

(第三条件)局部最小部的值小于预定义的阈值。

基于预定义的阈值来选择在第一和第二条件下形成的死角形成模式的局部最小部。

具体而言，利用预定义的固定阈值T_{static}通过上述方程式[1.3]来执行判断。基于阈值选择局部最小部的方法与根据现有技术的方法相同。然而，在本发明中，阈值的目标和设置阈值的方法与根据现有技术的方法不同。

在根据现有技术的方法中的阈值被用于缩窄存在声源的块中的方向点。因此，阈值的设置是严格的。然而，在该实施例中，阈值被用于防止方向点在无声的环境(不存在明显的声源的环境)中被错误地检测。即，由于在无声的环境下没有一个明确的极值(最小值或最大值)存在于死角形成模式中或者指向性束形成模式中，因此存在以下的担心：即方向点可能从微小的凹部和凸部错误地检测出来。然而，错误检测可以通过阈值防止。由于该阈值可以被一次性设置为在无声环境下方向点不被检测出来的大小，因此相比于根据现有技术的阈值，该阈值可以很容易地设置。

阈值的示例是图5中所示的阈值120。

接下来，将说明第四条件。判定是否存在靠近在第一至第三条件下选择的各个局部最小部的、指向性束形成模式的局部最大部。由于局部最大部和局部最小部的位置不一定彼此相同并且在某些情况下可能彼此偏离，因此该判定是在考虑到偏离的容限的情况下执行的。

具体而言，假定局部最小部的位置为θ_i并且容限为β，判定在下面的方程式中是否存在满足上述方程式[1.4]的θ_{i′}：

θ-β≤θ_{i′}≤θ+β

在该方程式中，P_D(θ_i)表示相同块的指向性束形成模式。

与在上述方程式[1.1]中一样，可以使用方程式[1.5]而非方程式[1.4]。

在图5的示例中，在与死角形成模式51的局部最小部52、53和55相对应的所有方向(即，方向：θ＝p，111、方向：θ＝q，112和方向：θ＝r，113)上，指向性束形成模式101中都存在局部最大部。

即，指向性束形成模式101的局部最大部103对应于死角形成模式51的局部最小部52，指向性束形成模式101的局部最大部104对应于死角形成模式51的局部最小部53，并且指向性束形成模式101的局部最大部105对应于死角形成模式51的局部最小部55。

具有对应关系的死角形成模式51的局部最小部52、53和55是真正的声源方向的候选。

第五条件被用来进一步缩窄方向点。

第五条件是用于防止方向点在例如噪声环境下被错误地检测的条件。即使在噪声环境(多个声源存在于后方的环境)中，基于方向估计检测语音片段的方法在某种程度上对于靠近麦克风的声源也是有效的。然而，由于位于后方的声源仅在第一至第四条件下被检测为方向点，因此阈值被动态改变以防止声源被检测为方向点。该机制将参考图6说明。

图6对应于参考图1A至1D说明的图1C。横轴表示时间，而纵轴表示方向。声音检测方向被绘制为以预定义的时间间隔划分的块单元中的方向点。

图6示出了方向点被计算到中间块的状态。

即，直到块B2、152分析(方向点的检测)完成，而在相邻块B、151中正在进行分析。这里，阈值是利用与紧邻的块群组154有关的信息计算出的。具体而言，该阈值是通过方程式[1.6]和方程式[1.7]计算出的，且假定P_N^[b](θ)是第b个块的死角形成模式，B是当前分析的块B3、151的编号，并且B0是紧邻的块群组154的块数目。

方程式[1.6]表示当将b从B-B0(＝块B1)改变到B-1(＝块B2)的同时、角度θ在任意范围(例如，从-π到+π)内改变时的最小值。以这种方式计算出的值假定是P_{min}，并且通过将该值乘以常数系数α而获得的动态阈值假定是T_{dynamic}(方程式[1.7])。

系数α是在0与1的范围内的值，例如0.1或0.2。该判断通过方程式[1.8]执行。

死角形成模式的最小部通常是负值，以使得最大值被调节为0(这将在后面说明)。将最小值乘以系数α的乘法意味着该阈值被设置在最大值和最小值之间。这防止了死角形成模式中浅的凹部被错误地检测为方向点，因为通过利用动态阈值T_{dynamic}，在噪声环境中，阈值被设置为小于在上述第三条件下道德固定阈值T_{static}。

然而，在无声的环境中，通过利用动态阈值T_{dynamic}，阈值可能被设置为大于在第三条件下的固定阈值T_{static}，从而引起增大错误检测的副作用。因此，第三条件(方程式[1.3])继续被使用。以这种方式，由于阈值T_{dynamic}和固定阈值T_{static}中的较小值用作真正的阈值，因此无论在噪声环境还是在无声环境中都可以防止错误的检测。

因而，当执行方向点检测处理时，通过应用基于作为新的方向点检测处理的对象的块的附近的块群组中的死角形成模式的最小部而计算出的动态阈值，来执行死角形成模式的局部最小部是否被判定为方向点的判断。

下文中，将说明生成死角形成模式和指向性束形成模式的方法。

生成死角形成模式的方法几乎与根据现有技术的MUSIC方法相同。生成死角形成模式的方法是通过在与观测信号的协方差矩阵相对应的特征向量中，检查与最小特征值相对应的指向性特性来执行的。另一方面，生成指向性束形成模式的方法是通过检查特征向量中与最大特征值相对应的指向性特性来执行的。

该处理将参考下面示出的方程式[2.1]至[2.8]进行说明。

X (ω, t) = [\begin{matrix} X_{1} (ω, t) \\ . \\ . \\ . \\ X_{n} (ω, t) \end{matrix}] . . . . . . [2.1]

R(ω)＝<X(ω，τ)X(ω，τ)^H>_{t-L′＜τ＜t} ......[2.2]

R(ω)＝V(ω)D(ω)V(ω)^H ......[2.3]

V(ω)＝[V₁(ω)…V_n(ω)] ......[2.4]

d₁(ω)≥d₂(ω)≥...≥d_n(ω) ......[2.6]

V_{k} {(ω)}^{H} V_{i} (ω) = \{\begin{matrix} 1 & (k = i) \\ 0 & otherwise \end{matrix} . . . . . . [2.7]

V(ω)^HV(ω)＝I ......[2.8]

假定Xk(ω，t)是通过对n个麦克风中、由第k个麦克风观测的信号施加短时间傅立叶变换(STFT)而获得的结果，而X(ω，t)是由X1(ω，t)至Xn(ω，t)形成的向量(方程式[2.1])。

在该方程式中，ω表示频率窗口编号(ω＝1，2，...和M)，而t是帧编号。

接下来，针对每个频率窗口ω，根据多个帧计算向量X(ω，t)的协方差矩阵R(ω)(方程式[2.2])。

在方程式[2.2]中，<·>_{t-L′＜τ≤t}表示满足“t-L′＜τ≤t”的帧之间的圆括号的方程式的均值。另外，t表示块的终止的帧编号(例如，图6中所示的块B151的末端156的帧编号)，L’是块的长度(帧数)，并且t-L’+1表示块的开头的帧编号(例如，图6中所示的块B151的开头155的帧编号)。

此外，R(ω)表示通过上述方程式[2.2]计算出的协方差矩阵。

接下来，对协方差矩阵R(ω)进行特征值分解(方程式[2.3])。

在方程式[2.3]中，D(ω)表示特征值的对角矩阵(方程式[2.5])，而V(ω)表示由特征向量V_1(ω)至V_n(ω)形成的矩阵。

上标H表示厄密(Hermite)转置(在元素被变换为复共轭数之后的转置)。

由于协方差矩阵R(ω)满足R(ω)^H＝R(ω)，因此所有的特征值d_1(ω)至d_n(ω)都是实数并且被按照从大到小的顺序排列(方程式[2.6])。

假定特征向量V_1(ω)至V_n(ω)的大小是1并且彼此正交。即，特征向量V_1(ω)至V_n(ω)满足方程式[2.7]和方程式[2.8]。

假定N是在协方差矩阵的计算中使用的块中生成话音的声源的数目，特征值和特征向量被划分为两组，即，前半部分d_1(ω)至d_N(ω)和V_1(ω)至V_N(ω)以及后半部分d_{N+1}(ω)至d_n(ω)和V_{N+1}(ω)至V_n(ω)，它们在属性上彼此不同。

前半特征值d_1(ω)至d_N(ω)具有大于后半特征值d_{N+1}(ω)至d_n(ω)的值(下文中称为“大特征值”)。另外，当特征向量V_1(ω)至V_n(ω)被分析为与大特征值相对应的空间滤波器时，特征向量V_1(ω)至V_n(ω)具有这样的指向性特性，其中指向性指向在块中的声源(这将在下面详细说明)。

另一方面，后半特征值d_{N+1}(ω)至d_n(ω)具有接近0的值(下文中称为小特征值)。另外，当与小特征值相对应的特征向量V_{N+1}(ω)至V_n(ω)被分析为空间滤波器时，特征向量V_{N+1}(ω)至V_n(ω)具有这样的指向性特性，其中死角指向在块中的所有的声源。

实际上，当根据在图2的环境中记录的话音计算出协方差矩阵和特征向量并且通过下面说明的方法针对每个特征向量获得指向性特性时，就可以获得图7中所示的绘图。

在图7中，指向性特性模式201至204是分别与特征向量V_1(ω)至V_4(ω)相对应的指向性特性。

由于在该环境中声源的数目是2，因此特征向量被划分为两对，即，V_1(ω)和V_2(ω)的一对以及V_3(ω)和V_4(ω)的一对。

由于局部最小部211至214存在于与后者(特征向量V_3(ω)和V_4(ω)的对)相对应的指向性特性模式203和204的方向上，因此可见，死角形成在两个声源方向θ＝A，221和θ＝B，222上。

另一方面，在与前者(特征向量V_1(ω)和V_2(ω)的对)相对应的指向性特性模式201和202之中、与特征向量V_1(ω)相对应的指向性特性模式201中，可见基于最大值215和216，在两个声源方向θ＝A，221和θ＝B，222上形成了指向性。

因此，在本发明的实施例中，与最小特征值相对应的特征向量V_n(ω)被用作死角形成滤波器(在声源方向上形成死角的空间滤波器)(这与根据现有技术的方法相同)。另一方面，与最大特征值相对应的特征向量V_1(ω)被用作指向性束形成滤波器(在声源方向上形成指向性的空间滤波器)。

接下来，将说明检查每个空间滤波器的指向性特性的方法。为了获得指向性特性，有必要虚拟地生成从各个方向到达的信号。一个重要因素是麦克风之间的相位差并且该相位差被称为导向向量。生成导向向量的方法将参考图8和下面的方程式[3.1]至方程式[3.9]进行说明。

q (θ) = [\begin{matrix} \cos θ \\ \sin θ \\ 0 \end{matrix}] . . . . . . [3.1]

S_{k} (ω, θ) = \exp (jπ \frac{(ω - 1) F}{(M - 1) C} q {(θ)}^{T} (m_{k} - m)) . . . . . . [3.2]

S (ω, θ) = \frac{1}{\sqrt{n}} [\begin{matrix} S_{1} (ω, θ) \\ . \\ . \\ . \\ S_{n} (ω, θ) \end{matrix}] . . . . . . [3.3]

W_N(ω)＝V_n(ω)^H ......[3.4]

P_N(ω，θ)＝log|W_N(ω)S(ω，θ)| ......[3.5]

P_{N} (θ) = \underset{ω}{Σ} {{P}_{N} (ω, θ) - \max_{θ} P_{N} (ω, θ)} . . . . . . [3.6]

W_D(ω)＝V₁(ω)^H ......[3.7]

P_D(ω，θ)＝log|W_D(ω)S(ω，θ)| ......[3.8]

P_{D} (θ) = \underset{ω}{Σ} {{P}_{D} (ω, θ) - \max_{θ} P_{D} (ω, θ)} . . . . . . [3.9]

图8示出了作为声音信号处理设备的声音信号输入单元的麦克风k，253和麦克风i，254。另外，示出了用于测量方向的参考点252。

参考点262可以是靠近麦克风的任何点。参考点可以按各种方法设置。例如，参考点可以被设置为与麦克风之间的中心一致。或者，参考点可以被设置为与麦克风之一一致。假定m是参考点252的位置向量(即，坐标)。

为了示出声音到达方向，在假定参考点m，252是起始点的情况下设置一个具有长度1的向量，而该向量是q(θ)。在图中示出了导向向量q(θ)251。

当声源的位置在高度上几乎与麦克风的位置相同时，导向向量q(θ)251可以被认为是X-Y平面(垂直方向是Z轴)上的向量并且导向向量q(θ)的分量可以由上述方程式[3.1]表示。

方向θ是与X轴形成的角度(见图8(图8是在设置坐标和向量时参考的示图))。

在导向向量q(θ)251的方向上到达的声音首先到达麦克风k，253，到达参考点m，252，然后到达麦克风i，254。

麦克风k，253对于参考点m，252的相位差S_k(ω，θ)可以由上述方程式[3.2]表示。

在该方程式中，j表示虚数单位，M表示频率窗口的数目，F表示采样频率，C表示声音的速度，m_k表示麦克风k的位置向量，而上标T表示通常的转置。

即，在假定平面波的情况下，麦克风k，253比参考点m，252更靠近声源有图8中所示的距离255，而麦克风i，254更远离声源有图8中所示的距离256。

该距离差可以利用向量的内积被表示为q(θ)^T(m_k-m)和q(θ)^T(m_i-m)。

当距离差被转换为相位差时，可以获得针对参考点m，252的、麦克风k，253的相位差S_k(ω，θ)，如上述方程式[3.2]所指示。

由每个麦克风的相位差形成的向量S(ω，θ)由上述方程式[3.3]表示并且被称为导向向量。

在假定W_N(ω)是以频率窗口ω在声源方向上形成了死角的空间滤波器的情况下(W_N(ω)是行向量)，以角度θ到达的声音的增益是|W_N(ω)S(ω，θ)|。

当角度θ(例如，以-π到+π的预定步长)改变一周时，可以得知指向性特性(到达方向和增益之间的关系)。

在本发明的实施例中，与最小特征值相对应的特征向量V_n(ω)的厄密转置被用作死角形成滤波器W_n(ω)，它是用于生成死角形成模式的滤波器(方程式[3.4])并且从其计算出增益的对数P_N(ω，θ)(方程式[3.5])。

另外，通过对所有频率窗口加和来生成死角形成模式P_N(θ)(方程式[3.6])。

类似地，与最大特征值相对应的特征向量V_1(ω)的厄密转置被用作生成指向性束形成模式的空间滤波器，即，指向性束形成滤波器W_D(ω)(方程式[3.7])，并且从其计算出增益的对数P_D(ω，θ)(方程式[3.8])。另外，通过对所有频率窗口加和来生成指向性束形成模式P_D(θ)。

死角形成滤波器W_N(ω)的下标N来自于死角(null beam)，而指向性束形成滤波器W_D(ω)的下标D来自于指向性(directivity)。

在表示死角形成模式P_N(θ)的方程式[3.6]和表示指向性束形成模式P_D(θ)的方程式[3.9]中减去max_θP_N(ω，θ)和max_θP_D(ω，θ)的原因在于每个频率窗口的指向性特性的最大值被适配为0。这样，可以进行死角形成模式和指向性束形成模式之间的大小比较。

2-2.取决于片段状态的方向点检测条件的改变

接下来，将说明取决于片段状态的方向点检测条件的改变。

在语音片段检测中，优选为错误检测(尽管话音未被说出但被检测)较小。另一方面，不希望一段话被切碎为多个片段。

然而，当方向点的检测条件固定时，在两种方法之间存在平衡。因此，为了解决这种平衡，在本发明的实施例中，方向点的检测条件取决于跟踪状态(方向点是否在说话片段中)而改变。

具体而言，除了上述第一至第五条件外，还设置了下面的第六条件。下面的第六条件在片段的开头的检测中被考虑，而第六条件在片段的中间或者末端的检测中并不被考虑。

(第六条件)死角形成模式的局部最小部的值小于与该局部最小部相对应的指向性束形成模式的局部最大部的值。

下文中，满足所有的第一至第六条件的方向点被称为“强方向点”，而满足第一至第五条件但是不满足第六条件的方向点被称为“弱方向点”(当仅仅使用“方向点”时，包括强方向点和弱方向点两者)。

例如，在图5中，方向θ＝p，111和方向θ＝q，112是“强方向点”，因为方向θ＝p，111和方向θ＝q，112满足第六条件。然而，方向θ＝r，113是“弱方向点”，因为方向θ＝r，113不满足第六条件。

下文中，将说明使用第六条件的原因。

“强方向点”有很高的可能性对应于真正的声源方向。相反地，对于“弱方向点”存在下面的各种可能性。

(1)死角形成模式的局部最小部和指向性束形成模式的局部最大部碰巧相同(无声源)；

(2)紧邻着话音说话开始之后或者紧邻着话音说话结束之后的对应的块(声源)；

(3)在说话期间的短暂无声片段；

(4)死角通过与其他声源的平衡变得相对较浅(声源)；

(5)诸如冷却风扇的声音之类的持续地以低且稳定的方式生成的声音(声源，但是声源的声音并不期望被检测到)；

(6)瞬间生成的小的声音(声源，但是声源的声音不期望被检测到)。

由于情况(2)、(3)和(6)造成“弱方向点”的原因是相同的，即当声源在一个块中生成声音的片段短于该块的长度时，“弱方向点”很容易发生。

“弱方向点”是否被用作方向点，在上述情况(1)至(6)中以不同方式判定。弱方向点在情况(1)和(6)中被拒绝。然而，方向点在情况(3)或(4)中被拒绝，存在以下平衡，即，在“根据现有技术的问题”中提到的“片段碎裂”很容易发生。

因此，在实施例中，“弱方向点”在片段内和外被不同地对待。

该处理将参考图9进行说明。

图9类似于上述的图1D。图9是示出在每个块中检测的方向点和通过连接这些方向点获得的片段的示图。块的片段未被示出。

在图9中，圆圈表示方向点。由全部加色的圆圈表示的方向点275等表示“强方向点”，而由斜线圆圈表示的方向点271至274表示“弱方向点”。

片段276是通过连接这些方向点而获得的片段。单独示出的如方向点271的“弱方向点”很有可能是情况(1)或(6)的弱方向点。在连续的“强方向点”的中途示出的“弱方向点”(如方向点273)很有可能是情况(3)或(4)的弱方向点。

因此，当“弱方向点”存在于片段内时，“弱方向点”被采用。相反地，当“弱方向点”存在于片段外时，“弱方向点”被拒绝。在图9中，弱方向点273和274被采用为方向点，而弱方向点271和272被拒绝。当执行以这种方式选择“弱方向点”的处理时，可以防止该片段被在连续的“强方向点”的中途示出的弱方向点273切碎。而且，可以防止错误的检测，其中远离“强方向点”的弱方向点271被当作方向点。

在应用了第六条件的方法中，紧邻着说话开始之后的弱方向点272也被拒绝。由拒绝处理发生了说话片段的开始被延迟的副作用。然而，通过在说话开始时间提供容限，可以很容易避免该副作用。即，可以应用认为说话的开头在所检测的块之前一点开始的处理。

2-3.新的死角形成滤波器和指向性束形成滤波器

接下来，将详细说明新的死角形成滤波器和指向性束形成滤波器。

在“2-1.死角形成模式和指向性束形成模式的组合配置”的部分中，以下述方式设置的滤波器被用作死角形成滤波器和指向性束形成滤波器：

与最小特征值相对应的特征向量V_n(ω)的厄密转置作为死角形成滤波器W_N(ω)(方程式[3.4])；以及

与最大特征值相对应的特征向量V_1(ω)的厄密转置作为指向性束形成滤波器W_D(ω)(方程式[3.7])。

虽然滤波器V_n(ω)和V_1(ω)被使用，但是可使用的特征向量分别是(n-N)个特征向量和N个特征向量(n是麦克风的数目，N是块中声源的数目)。当多个特征向量能够被使用时，在每个指向性特性的绘图中局部最大部和局部最小部被更清楚地示出，或者微小的凹部和凸部消失，从而预期能实现方向点检测中精度的提高。

然而，在生成指向性特性模式之前精确地估计声源的数目N是一项困难的任务。因此，在本发明的实施例中，设计下面的方法以将多个特征向量反映到空间滤波器，而无需估计声源的数目。

下面的方程式[4.1]替代方程式[3.7]被用作指向性束形成滤波器W_D(ω)。

W_{D} (ω) = \underset{k}{Σ} d_{k} (ω) V_{k} {(ω)}^{H} . . . . . . [4.1]

V′(ω)＝V(ω)D(ω)^-1/2V(ω)^H ......[4.2]

上述方程式[4.1]是通过将厄密转置V_k(ω)^H乘以作为权重的各个特征向量的特征值d_k(ω)并相加其结果而获得的加权和。与较大的特征值相对应的特征向量被更强地反映在指向性束形成滤波器W_D(ω)上。

由于在声源方向上形成了与较大的特征值相对应的特征向量的指向性，因此指向性束形成滤波器W_D(ω)也变为空间滤波器，其在声源方向上形成了指向性。

当生成指向性束形成滤波器时，通过对协方差矩阵的特征值分解处理来计算特征值和特征向量，协方差矩阵是针对每个块根据由声音信号生成的时间-频率域的观测信号计算出的。然后，通过用特征值为权重对所有特征向量加权求和或加权求平均，可以生成指向性束形成滤波器。

另一方面，对于死角形成滤波器W_N(ω)，首先利用矩阵V(ω)和对角矩阵D(ω)通过方程式[4.2]计算变换矩阵V’(ω)，矩阵V(ω)是在方程式[2.4]中由上述特征向量V_1(ω)至V_n(ω)形成的，对角矩阵D(ω)是在方程式[2.5]中由上述特征值形成的。

变换矩阵V’(ω)的一行被用作死角形成滤波器W_N(ω)。方程式[4.2]与通过将上面参考方程式[2.2]说明的协方差矩阵R(ω)乘以-1/2而获得的方程式相同。当变换矩阵V’(ω)的每一行被当作空间滤波器时，在块内的所有声源上形成了死角。

3.声音信号处理设备的配置和处理

接下来，将说明声音信号处理设备的配置和处理。

声音信号处理设备的配置和处理将参考图10至14说明。

图10是示出声音信号处理设备的整体配置的示图。图11至14是图示每个模块的细节的示图。

3-1.声音信号处理设备的整体配置和处理

首先，将参考图10说明声音信号处理设备的整体配置。

当声音信号被麦克风阵列301接收时获得的多声道声音数据被AD转换单元302转换为数字信号。该数据被称为(时域的)观测信号。

接下来，STFT单元303通过应用短时间傅立叶变换(STFT)将观测信号变换为时间-频率域的信号。时间-频率域的观测信号被发送到观测信号缓冲器304和方向估计单元305。另外，短时间傅立叶变换(STFT)的具体处理示例将在下面参考图16A和16B进行说明。

观测信号缓冲器304累积预定时间(帧数)的观测信号。所累积的观测信号被用于获得与一次说话相对应的声音数据(其中所检测的说话片段的开始时间和结束时间被组合)，或者被用于获得通过利用片段的方向而提取出在预定方向上到达的声音而获得的结果。

方向估计单元305将观测信号划分为具有预定长度的多个块，并在各个块中检测与声源方向相对应的点。即，方向估计单元305是生成上面参考图1B和1C所说明的数据的模块。其详情将在下面说明。

当方向点在多个连续块之间几乎具有相同方向时，方向跟踪单元306连接这些方向点并将所连接的方向点检测为说话片段。即，方向跟踪单元306是生成上面参考图1D所说明的数据的模块。其详情将在下面说明。

方向跟踪的输出是说话片段，即，说话开始时间、说话结束时间和说话方向(声源方向)。换句话说，当说话开始时间、说话结束时间和说话方向在多个片段中重叠时，多个声音被在片段中混合。因此，当声音不混杂的清楚的声源是必要的时候(例如，当本发明的实施例被用在语音识别的前一阶段时)，提供声音提取单元307。

声音提取单元307利用与说话片段相对应的观测信号、声源方向等提取出预定声音等。在该模块中可以使用诸如根据现有技术的束形成之类的本发明的实施例。

如果必要的话，与说话片段相对应的声音数据被发送到在后阶段的处理执行单元308。该处理执行单元的示例是话音识别器。另外，话音识别器可以具有话音片段检测功能，但是也可以不具有话音片段检测功能。在许多情况下，话音识别器包括提取话音特征量的STFT。当话音识别器被组合在本发明的实施例中时，可以不提供话音识别器的STFT。

图10中所示的每个模块由控制单元309控制。

3-2.声音信号处理设备的方向估计单元的配置和处理

接下来，将参考图11详细说明图10中所示的模块中的方向估计单元305。

方向估计单元305输入从STFT单元303发送来的时间-频率域的观测信号321，并且生成和输出方向点信息327。

在方向估计单元305中，图11中所示的协方差矩阵计算单元331首先根据从STFT单元303输入的与多个帧相对应的观测信号来计算协方差矩阵322。协方差矩阵322的示例是上述方程式[2.3]中所示的协方差矩阵R(ω)。

空间滤波器生成单元332输入协方差矩阵322并且根据协方差矩阵322生成两种空间滤波器。一种空间滤波器是死角形成滤波器323，另一种是指向性束形成滤波器324。

死角形成滤波器323和指向性束形成滤波器324的示例是上述方程式[3.4]中所示的死角形成滤波器W_N(ω)和上述方程式[3.7]中所示的指向性束形成滤波器W_D(ω)。当生成空间滤波器时，可以利用在“2-3.新的死角形成滤波器和指向性束形成滤波器”部分中说明的方程式[4.1]和方程式[4.2]来生成空间滤波器。

存储导向向量的存储单元333是这样一个存储单元，其通过上述方程式[3.3]等预先计算在各个方向上到达的信号的相位差并存储计算结果。方程式[3.3]中的角度θ通过以预定步长(例如5°)的间隔切割一个圆周角(例如，图8中的-π到+π)而改变。当麦克风以直线形式排列时，考虑到指向性特性的对称性，角度θ可以改变一个圆周角的一半。

例如，当麦克风如图2所示排列时，空间滤波器的指向性特性相对于与麦克风的阵列平行的纵轴23是对称的。因此，角度θ可以从-π/2(轴23的相反方向)到+π/2(轴23的方向)以预定步长改变。

接下来，死角形成模式生成单元334通过使死角形成滤波器323作用于导向向量来生成死角形成模式325。

同样地，指向性束形成模式生成单元335通过使指向性束形成滤波器324作用于导向向量来生成指向性束形成模式326。

例如，死角形成模式是上述方程式[3.6]中所示的死角形成模式P_N(θ)，而指向性束形成模式是上述方程式[3.9]中所示的指向性束形成模式P_D(θ)。

最终，方向点检测单元336利用死角形成模式325和指向性束形成模式326两者来检测与声源方向相对应的点。检测结果被输出为方向点信息327。

由于根据n个麦克风可以形成最大(n-1)个死角，因此从一个块获得的方向点的数目最大是(n-1)。

从方向估计单元305输出的方向点信息327被提供给图10中所示的方向跟踪单元306。

从方向估计单元305输出的方向点信息327不仅包括指示被估计为声源的方向的方向信息，还包括用于将每个方向点区分为“强方向点”或“弱方向点”的信息。具体而言，方向点信息327是包括用于判定一点是否是方向点的值的部分数据的信息。

从方向估计单元305输出的方向点信息327的具体示例将参考图12进行说明。

图12是示出一条方向点信息327的配置数据的示例的示图。

如图12所示，方向点信息327包括：

(a)方向点的方向(θ)341；

(b)死角形成滤波器的局部最小部的值342；以及

(c)指向性束形成滤波器的局部最大部的值343。

项(b)和(c)的数据被用作用于判断对于上述方向点的判定条件(第六条件)的数据，该第六条件即“死角形成模式的局部最小部的值小于与该局部最小部相对应的指向性束形成模式的局部最大部的值”。

3-3.声音信号处理设备的方向跟踪单元的配置和处理

接下来，将参考图13说明图10中所示的声音信号处理设备的方向跟踪单元306的配置和处理。

方向跟踪单元306输入参考图11和12说明的从方向估计单元305输出的方向点信息327，并且生成和输出已确定的片段信息361作为片段信息。

图13中所示的方向点信息327是从方向估计单元305输出的被包括在一个块(参考图1A至1D和图6所说明的块)中的方向点信息。方向点信息327包括参考图12所说明的信息。

方向点信息327被输入到方向跟踪单元306的控制单元351。控制单元351是控制方向跟踪单元的模块。控制单元351生成新的片段，延长其末端未确定而正在生成中的片段，并且确定该片段。正在生成中的片段被存储在片段生成进度缓冲器352中。

当在存储在片段生成进度缓冲器352中的片段中存在其末端被确定的片段时，该片段被从片段生成进度缓冲器352中提取出来并被输出为已确定的片段信息361，即，片段信息。

正在由方向跟踪单元306生成的片段和已确定的片段信息包括与确定片段的各种参数有关的信息。

由方向跟踪单元306生成的片段信息的配置数据的示例将参考图14进行说明。

图14是示出与一个片段相对应的片段信息的配置数据的示例的示图。该片段信息是与已确定的片段有关的片段信息或者与正生成的片段相对应的片段信息(其存储在片段生成进度缓冲器352中)。

片段ID 371是唯一地附接到每个片段的标识符(数字)。起始块编号372是与片段的起始位置相对应的块(参考图1A至1D和图6所说明的块)的编号。另外，可以使用STFT的帧编号或者真实时间而不是块编号。

结束块编号373是与片段的结尾相对应的块的编号。类似于起始块编号，结束块编号可以是帧编号或时间。由于在正生成的块中未确定的末端，因此指示“未确定”的值被存储在其中。

方向374是与片段相对应的声源方向。在那一时刻计算出的方向被存储在正生成的片段中。

不连续块的数目375是表示没有方向点位于被定义为方向374的声源方向附近的块持续有多少次的值。该值在片段的生成期间被使用。在跟踪中，即使方向点不连续，当片段的不连续长度短于预定值，该片段也被切割为没有不连续性的一个片段。为了实现该处理，不连续长度被存储。当不连续长度超过预定值时，片段被确定。

有效块的数目376是在片段内存在方向点的块(下文中称为“有效块”)的数目。

例如，在图9所示的片段276中，有效块的数目是10(存在这样一个块，其中从方向点281到274的10个方向点被检测出来)。

保留该值的原因是为了防止片段的错误检测。有效块的比率是利用片段的块的数目(它可以利用起始块编号372和结束块编号373计算出来)和有效块的数目计算出的。当该比率的值较小时(即，当有效块稀疏时)，该片段有很高的可能性是虚假片段(其中错误检测的方向点彼此连接)，从而拒绝该片段。

4.由声音信号处理设备执行的处理序列

接下来，将参考图15中所示的流程图和后续图说明由声音信号处理设备执行的处理序列。

图15是示出由声音信号处理设备执行的整体处理的流程图。将对图15中所示的流程图的步骤进行说明。

首先，在步骤S101中，执行初始设置以使得表示帧(由STFT生成)的编号的变量t被设置为0并且指示块(它是参考图1A至1D、图6等所说明的块)的编号的变量B被设置为0。块的长度被设置为充分短于正常说话的长度的值。例如，块的长度被设置为1/10秒或者1/8秒。

该设置例如由具有图10所示的配置的声音信号处理设备的控制单元309来执行。

接下来，在步骤S102中，对例如从图10中所示的麦克风阵列301输入的声音信号执行AD转换和STFT处理。

图10中所示的AD转换单元302和STFT单元303分别执行AD转换和STFT处理。

AD转换单元302将输入到麦克风中的模拟声音信号转换为数字信号。

STFT单元303通过短时间傅立叶变换(STFT)将数字信号转换为时间-频率域的信号(频谱)。

如果需要，声音信号可以被从文件、网络等，而不是图10中所示的麦克风输入。

下面将详细说明由STFT单元303执行的短时间傅立叶变换(STFT)。

例如，在根据实施例的图10所示的设置中，因为存在多个输入声道(麦克风的数目)，所以AD转换或者STFT处理按声道的数目执行。下文中，具有声道k、频率窗口ω、帧t的观测信号被表示为Xk(ω，t)(其对应于上述方程式[2.1]等)。

假定l(它是L的小写字母)是STFT的点数，则每1个声道的频率窗口M的数目可以通过方程式“M＝l/2+1”计算。

步骤S103是累积步骤。累积步骤是在预定时间(例如，10秒)内累积通过STFT在时间-频率域中变换的观测信号的步骤。换句话说，假定T是与时间相对应的帧数，则与T个连续帧相对应的观测信号在图10所示的观测信号缓冲器304中累积。由于可以使帧编号F和帧数据(频谱)在缓冲器内相互对应，因此可以在之后提取预定帧编号的数据。

接下来，在步骤S104中，执行向t添加+1的更新处理，作为更新帧编号t的处理。

在步骤S105的处理中，将对L个帧执行一次步骤S106和后续步骤的处理的条件进行分支。即，仅仅当帧编号t除以频率L并且余数是0时，处理才进行到步骤S106。否则，重复步骤S102和后续步骤的处理。

当步骤S102到步骤S104的处理被执行了与L个帧相对应的次数时，处理进行到步骤S106。

步骤S106的处理是从观测信号的协方差矩阵获得方向点的处理。该处理由图10中所示的方向估计单元305执行。即，如参考图11所说明的，该处理被执行为以下处理：基于由STFT单元生成的时间-频率域的观测信号而生成由图12中所示的数据形成的方向点信息。该处理的细节将在后面进行说明。

步骤S107的处理是由在步骤S106的方向估计处理中获得的方向点而获得说话片段的处理。该处理由图10中所示的方向跟踪单元306执行。即，如参考图13所说明的，该处理被执行为以下处理：基于由方向估计单元生成的方向点信息生成由图14中所示的数据形成的语音片段信息。该处理的细节将在后面说明。

接下来，在步骤S108中，块编号B被更新。即，执行向块编号B添加+1的更新处理。

最终，在步骤S109中，执行分支处理以判定处理是否继续。当处理继续时，处理返回到步骤S102。当处理不继续时，处理结束。

接下来，将参考图16A和16B详细说明由图10所示的STFT单元303在步骤S102中执行的短时间傅立叶变换(STFT)处理。

图16A中所示的观测信号的波形x_k(*)是在由n个麦克风形成的麦克风阵列301中的第k个麦克风观测到的观测信号的波形x_k(*)，该麦克风阵列301被配置为图10中所示的声音信号处理设备的话音输入单元。

诸如Hanning窗或者Hamming窗之类的窗函数被作用于帧401至403，帧401至403是从观测信号中利用恒定长度切割出的切割数据。切割单位被称为一帧。通过对与一帧相对应的数据执行短时间傅立叶变换，获得了作为频域的数据的频谱Xk(t)(其中t是帧编号)。

图中所示的帧401至403可能在切割帧之间彼此重叠，而连续帧的频谱Xk(t-1)至Xk(t+1)能够通过重叠帧而平滑地改变。按照帧编号的顺序排列频谱被称为频谱图。图16B中所示的数据是频谱图的示例。频谱Xk(t)是元素数目M的向量，而第ω个元素被表示为Xk(ω，t)。

接下来，将参考图17中所示的流程图说明由图10所示的方向估计单元305在步骤S106中执行的方向估计处理的详细序列。

作为上面参考图11说明的处理的方向估计处理被执行为以下处理：基于由STFT单元生成的时间-频率域的观测信号而生成由图12中所示的数据形成的方向点信息。

将与图11中所示的配置相对照地说明图17中所示的流程图的每个步骤的处理。

在步骤S201中，计算观测信号的协方差矩阵。该处理由图11中所示的协方差矩阵计算单元331执行。观测信号的协方差矩阵是基于由STFT单元生成的时间-频率域的观测信号计算出的。

协方差矩阵通过上述的方程式[2.2]计算。

在方程式[2.2]中，L’表示块的长度(帧数)。可以将与协方差矩阵的计算频率L(在图15所示的流程图中的步骤S105的L)不同的值用作该值。例如，当L＝8并且L’＝16时，协方差矩阵每8帧计算一次，但是协方差矩阵自身是根据与16个帧相对应的观测信号计算出的。

接下来，在步骤S202中，根据协方差矩阵生成死角形成滤波器和指向性束形成滤波器。

该处理由图11中所示的空间滤波器生成单元332执行。输入协方差矩阵，而根据协方差矩阵生成两种空间滤波器。一种空间滤波器是死角形成滤波器，另一种是指向性束形成滤波器。

例如，生成了上述方程式[3.4]中所示的死角形成滤波器W_N(ω)和上述方程式[3.7]中所示的指向性束形成滤波器W_D(ω)。当生成空间滤波器时，可以利用在“2-3.新的死角形成滤波器和指向性束形成滤波器”部分中所说明的方程式[4.1]和[4.2]来生成空间滤波器。

在步骤S203中，分别基于死角形成滤波器和指向性束形成滤波器来生成死角形成模式和指向性束形成模式。

图11中所示的死角形成模式生成单元334通过使死角形成滤波器运行导向向量来生成死角形成模式。

同样地，指向性束形成模式生成单元335通过使指向性束形成滤波器运行导向向量来生成指向性束形成模式。

生成死角形成模式和指向性束形成模式的具体方法与在“2-1.死角形成模式和指向性束形成模式的组合配置”和“2-3.新的死角形成滤波器和指向性束形成滤波器”部分中详细说明的方法相同。

例如，死角形成模式是上述方程式[3.6]中所示的死角形成模式P_N(θ)，并且指向性束形成模式是上述方程式[3.9]中所示的指向性束形成模式P_D(θ)。

最终，在步骤S204中，利用死角形成模式和指向性束形成模式两者检测方向点。该具体方法已在在先的“2-2.取决于片段状态的方向点检测条件的改变”部分中详细说明。

这里提到的方向点既包括“强方向点”，又包括“弱方向点”。即，方向点满足在“2-2.取决于片段状态的方向点检测条件的改变”部分中说明的第一至第六条件中的至少第一至第五条件。

接下来，将参考图18中所示的流程图说明在图15所示的整体处理流程图中步骤S107的方向跟踪处理的详细序列。

步骤S107的方向跟踪处理由图10中所示的方向跟踪单元306执行。如上参考图13和14所述，方向跟踪处理是输入由参考图11和12所述的方向估计单元305输出的方向点信息，并且生成和输出已确定片段信息361作为语音片段信息的处理。

如在图18所示的流程图中所说明的，方向跟踪处理包括两个处理，即，步骤S301的“片段延长和确定”处理以及步骤S302的“新片段生成”处理。

根据本发明的实施例的特征之一在于与在片段的开头和中途中方向点的检测有关的条件可以改变。具体而言，在步骤S301中，利用“强方向点”和“弱方向点”两者执行“片段延长和确定”处理。另一方面，在步骤S302中，仅利用“强方向点”执行“新片段生成”处理。

步骤S301的片段延长和确定处理是对正生成的片段的处理，正生成的片段数据被存储在图13所示的片段生成进度缓冲器352中。首先，正生成的片段利用在参考图17所示的流程图说明所的步骤S204中新检测出的方向点被延长或确定。然后，已确定的片段被发送到后续处理(声源提取等)。其细节将在后面说明。

“正生成的片段”是处于以下状态的片段：该片段通过步骤S302的新片段生成处理被生成然后被确定。

步骤S302的新片段生成处理是搜索其中当前正分析的块是开头的片段的处理。其细节将在后面说明。

接下来，将参考图19中所示的流程图说明图18所示的流程图的步骤S301的“片段延长和确定”的详细序列。

步骤S301的“片段延长和确定”处理是对正生成的片段数据执行的处理，正生成的片段数据被存储在图13所示的片段生成进度缓冲器352中。因此，在图19所示的流程图的步骤S401至步骤S408中，对于正生成的片段形成了一个循环。步骤S402至步骤S407的处理是对正生成的片段执行的。

在步骤S402中，检查在正生成的片段附近是否存在方向点。这里，方向点包括“强方向点”和“弱方向点”两者。

具体而言，由方向跟踪单元306生成并被存储在片段生成进度缓冲器352中的正生成的片段信息中的“方向”(图14所示的片段信息361中的“方向”374)被与由方向跟踪单元306新从方向估计单元305输入的方向点信息中的“方向”(图12所示的方向点信息327中的“方向”341)相比较。当这两个方向之间的差落入预定义的阈值范围(例如±10°)内时，判定为在片段的附近存在方向点。

当方向点存在于定义的阈值范围内时，步骤S402的判定结果为“是”，并且因此处理进行到步骤S403。

步骤S403和步骤S404的处理是延长片段的处理。具体而言，执行更新片段信息的处理。

在步骤S403中，更新片段信息中有效块的数目。即，图14所示的片段信息361中有效块的数目376被添加+1，并且将0代入不连续块的数目375。

接下来，在步骤S404中，计算从片段的开头到当前正分析的块的方向的均值。具体而言，方向数据A被更新为存储在更新之前的方向的值，即，图14所示的片段信息361中的“方向”374。

假定A是方向数据，B是有效块的数目(通过在步骤S403中添加+1更新之后的值)，C是由方向跟踪单元306新从方向估计单元305输入的方向点信息中的“方向”(图12所示的方向点信息327中的“方向”341)，则方向A通过下面的方程式更新：

A←{(B-1)A+C}/B

上述方程式对应于用于计算方向的均值的方程式，该均值是通过将新输入的方向C加到在正生成的片段信息中设置的方向A并将总和除以块的数目B来计算的。

另一方面，当在步骤S402中判定为在片段附近不存在方向点时，步骤S402的判定结果为“否”，并且处理进行到步骤S405。

在这种情况下，在正生成的片段信息中连续的方向点变得不连续。当方向点的不连续达给定时间时，判定为片段的末端。

对于该处理，在步骤S405中，执行更新处理，其向图14所示的片段信息361中包括的不连续的数目375添加+1。

在步骤S406中，判断更新后的不连续块的数目375是否等于或大于预先定义的预定值(例如，3个块)。

当在步骤S406中确定更新后的不连续块的数目375等于或大于预定值时，步骤S406的判定结果为“是”，因此处理进行到步骤S407。

在步骤S407中，考虑确定片段的终止，并且执行片段“输出和拒绝”处理。其细节将在后面说明。

另一方面，当在步骤S406中判断为更新后的不连续块的数目375没有等于或大于预定值时，步骤S406的判定结果为“否”，因此处理进行到步骤S408，而不执行步骤S407的处理。

当对正生成的所有片段执行了步骤S401至步骤S408时，循环结束并且处理进行到步骤S409的“多采用检查”。

在步骤S409中，检查一个方向点是否被用在正生成的两个或更多个片段。当一个方向点被用在多个片段中时，多个片段中仅最长的片段保留而其他片段被删除。即，执行删除输入到图13所示的片段生成进度缓冲器352中的数据的处理。

执行多采用检查的原因将参考图20A和20B进行说明。

图20A类似于图1D。图20A示出了在每个块中检测出的多个方向点501至503以及基于方向点设置的正生成的语音片段504和505。另外，图1C和6中所示的块片段未被示出。

在图20A中，由于方向点501和502彼此远离且距离大于作为方向是预先定义的阈值距离的预定值，因此假定方向点501和502不直接相连作为来自同一声源的片段的构成元素。相反地，由于方向点501和503之间的空间与方向点502和503之间的空间短于作为阈值的预定值，因此方向点501和503可以相连，而方向点502和503可以相连。

即，方向点503在包括方向点501的正生成的片段504(和包括方向点502的正生成的片段505两者中都被用作“邻近方向点”。在某些情况下，一个新观测的方向点可以被设置为多个不同语音片段的方向点。这一现象被称为“多采用”。当在多采用的发生中正生成的片段保留时，位于同一方向点506的右侧的方向点在后续跟踪中在两个片段中彼此连接，如图20B所示。

结果，在一个说话中设置了多个片段(即，图20中所示的片段507和508)。该处理被称为片段多检测(multi-detection)。

在一个说话中设置的多个片段有很高的可能性是错误检测的片段。因此，用于防止片段多检测的措施是必要的。

为了防止片段多检测，当发生方向点的多采用时，执行这样一种处理，其使得在包括方向点的片段中、仅最长的片段(最大片段)保留，并且短于最长片段的片段被删除。

例如，图20A中所示的方向点503是在两个片段(即，语音片段504和505)中采用的多采用类型的方向点。

当检测到多采用类型的方向点503时，将包括多采用类型的方向点503的多个语音片段的长度相互进行比较。

在图20A所示的设置中，语音片段504长于语音片段505。在这种情况下，删除较短的语音片段505。结果，当检测到后续的方向点时，不设置图20B中所示的语音片段508，而仅设置语音片段507。

或者，不是删除较短的片段，也可以是在较短片段中包括的方向点被添加(合并)到最长的片段，并且利用最长片段中包括的所有方向点再次计算片段的新方向。例如，在图20A中，语音片段505中包括的方向点502被添加到语音片段504，然后计算语音片段504的方向作为三个方向点501、502和503的平均值。

当在存在多采用类型的方向点的情况下仅仅删除较短的片段时，存在以下可能性：由于最长片段中方向点对块数目的比率的减小，片段在步骤S407中被拒绝。然而，通过合并方向点，可以防止由于较短片段的删除而引起的多余的拒绝。

接下来，将参考图21中所示的流程图详细说明图19所示的流程图中步骤S407的“片段输出和拒绝”处理，它是图18所示的流程图中步骤S301的“片段延长和确定”处理的详细序列。

步骤S407的“片段输出和拒绝”处理的“输出”处理是将已确定的片段发送到后续处理单元(例如，声源提取处理的执行单元等)的输出处理。“拒绝”处理是判断为片段不满足预先定义的预定条件并且删除该片段的处理。

将对图21所示的流程图中的每个步骤的处理进行说明。

在步骤S501中，计算结束块编号并且将计算出的结束块编号的值记录为参考图4A至4C所述的片段信息，即，记录为与存储在图13所示的片段生成进度缓冲器352中的正生成的片段相对应的片段信息中的结束块编号373。

假定B是当前正分析的块的编号并且B_{discontinue}是作为用于判断图19所示的流程图中步骤S406的不连续块的数目的阈值的预定值，则结束块编号通过下式来计算：

结束块编号＝B-B_{discontinue}

片段必须满足的所有条件在步骤S502至步骤S504中判定。仅当所有条件都得到满足时，处理才进行到步骤S505以执行判定该片段是有效片段并将有效片段输出到后续的处理单元(例如执行声源提取处理的单元)的处理。

当判断为步骤S502至步骤S504中的条件之一未得到满足时，执行处理以判定该片段不是有效片段并且在步骤S506中拒绝该片段，即，执行处理以删除与正生成的片段有关的片段信息，该正生成的片段目前为止被存储在图13所示的片段生成进度缓冲器352中。

下文中，将说明在步骤S502至步骤S504中执行的判定处理。另外，步骤S502至步骤S504中各个条件的判定顺序可以改变。

步骤S502的处理是判断被保留作为正生成的片段的片段信息的方向374(图14所示的片段信息361中的方向374)是否落入预先定义的预定范围内的处理。

例如，当已知作为目标的声源(说话者)位于仅0°附近而片段的方向偏离出-10°到+10°的范围时，拒绝该片段。另一方面，当作为目标的声源可能位于所有方向时，不执行该判定。即，不执行步骤S502的判定处理。

在步骤S503中，确定片段的长度。通过拒绝短于预定值的片段(例如，片段短于0.1秒)，可以防止片段的错误检测。另外，通过拒绝长于预定值的片段(例如，片段长于10秒)，可以防止生成小的声音(例如冷却盘的声音)的声源被检测到。

即，仅当片段落入预定义的范围内时，片段才被确定为是有效的。另外，应用于判定条件的“范围”优选地是根据声音获取环境设置的。

在步骤S504中，确定片段期间有效块(具有方向点的块)的比率。

假定B_{begin}是片段的起始块编号(图14所示的片段信息中的起始块编号372)，B_{end}是结束块的编号(图14所示的片段信息中的结束块的编号375)，并且B_{valid}是有效块的数目(图14所示的片段信息中有效块的数目376)，则有效块的比率通过下式来计算：

有效块的比率＝B_{valid}/(B_{end}-B_{begin}+1)

判定该比率是否等于或大于预先定义的预定值(例如0.5)。当有效块的比率较低时，该片段有很高的可能性是通过以跳过方式连接错误检测的方向点来生成的。通过拒绝这种片段，可以防止片段的错误检测。

当步骤S502至步骤S504的所有判定都得到满足时，处理进行到步骤S505的“输出”处理。在步骤S505的输出处理中，与正生成的片段有关的片段信息被从图13所示的片段生成进度缓冲器352中删除并被提供给后级的处理单元。

另一方面，当步骤S502至步骤S504的任何一个判定没有得到满足时，处理进行到步骤S506的“拒绝”处理。在步骤S506的拒绝处理中，片段被从片段生成进度缓冲器352中删除而不输出片段。即，仅执行删除处理。

接下来，将参考图22中所示的流程图说明图18所示的流程图中步骤S302的“新片段生成”处理的详细序列，它是图15所示的一般处理流程图中步骤S107的方向跟踪处理的详细序列。

图22所示的流程图中的步骤S601至步骤S605是针对每个方向点执行的方向点循环。在本发明的实施例中，由于方向点中的仅“强方向点”是片段开头的目标，因此在步骤S602中检查要执行的方向点是否是“强方向点”。当方向点是“弱方向点”时，不执行步骤S603和步骤S604。

在步骤S603中，关于“强方向点”，检查正生成的片段是否存在于要执行的方向点附近。该判定处理与参考图19所述的步骤S402的处理相同。

当正生成的片段不存在于方向点附近时，确定方向点是片段的开头点并且处理进行到步骤S604的“片段生成”处理。另一方面，当正生成的片段存在于方向点附近时，不执行步骤S04的处理。

另外，由于在初始块的分析期间正生成的片段不存在，因此初始块的“强方向点”通常是片段的开头点。

在步骤S604中，生成上面参考图14所述的片段信息并且针对每个时隙(片段ID 371到有效块的数目376)替换预定值。下文中，将说明针对每个时隙替换的值。

对于片段ID 371替换无论何时当片段被生成时通过添加+1而获得的值。即，对于初始生成的片段替换1，然后对于后续片段替换2、3等等。

由于此时针对结束块编号373并未检测到片段的终止，因此替换指示无定义的值。

对于方向374替换保留要执行的方向点的方向点信息中的方向(图12中所示的方向341)。

另外，对于不连续块的数目375替换0。

此外，对于有效块的数目376替换1。

当对块内的所有方向点执行了步骤S602至步骤S604的处理时，新片段生成处理结束。

5.其他实施例(修改示例)

在上述实施例中，已说明了一个示例性基本配置。

下文中，将说明上述基本实施例的修改示例。

修改示例1

在上述实施例中，第六条件被用作用于区分“强方向点”和“弱方向点”的方向点判定条件。即，当“死角形成模式的最小部<指向性束形成模式的最大部”的关系得到满足并且方向点不是“强方向点”时，确定方向点是“弱方向点”。

另一条件可以被用作用于区分“强方向点”和“弱方向点”的条件。

例如，用于将方向点当作指示上述声源方向的方向点的第五条件得到满足，即，(第五条件)基于阈值的判定条件得到满足，该阈值是由紧邻的块群组中的死角形成模式的最小部动态计算出的(根据动态阈值的判定条件)。

当在上述条件中计算动态阈值时，上述方程式[1.7]中所示的参数α通过两种方法来准备并且被设置为α_{large}和α_{small}。这里，满足“0＜α_{small}＜α_{large}＜1”的关系。

利用上述两个参数α，动态阈值T_dynamic通过上述方程式[1.7]被计算为两种值。

动态阈值是T_{tight}和T_{loose}。这些动态阈值在下面的方程式[5.1]和[5.2]中示出。

T_tight＝α_largeP_min ......[5.1]

T_1oose＝α_smallP_min ......[5.2]

P_N(θ_i)＜T_tight ......[5.3]

P_N(θ_i)＜T_1oose ......[5.4]

通过应用两个动态阈值，上述第五条件被设置为两种条件方程式[5.3]和[5.4]。

由于P_{min}具有负值，因此方程式[6.3]是严格条件。因此，满足第一至第四条件和方程式[5.3]的方向点被称为“强方向点”，而满足第一至第四条件和方程式[5.4]的方向点被称为“弱方向点”。

可以应用“强方向点”和“弱方向点”的判定条件。

修改示例2

接下来，作为修改示例2，将说明这样一种配置，其中作为根据在“背景技术”中介绍的现有技术的技术的“使用单个麦克风的方法”(即，基于“话音相似性”的方法)的检测语音片段的处理被与根据本发明的上述实施例的检测语音片段的处理相组合。通过这种组合，可以更精确地说话片段。这种配置的示例将参考图23说明。

在图23所示的声音信号处理设备中，第一语音片段检测单元(基于声源方向估计的语音片段检测单元)601是利用在实施例中说明的方法检测语音片段的处理的模块。然而，第一语音片段检测单元601输出其中向所检测的片段的前端和后端添加了容限的片段信息，因为在后级的声源提取单元602更详细地检测语音片段。即，与单独使用第一语音片段检测单元601的情况相比，输出了更长的片段。

声源提取单元602是基于从第一语音片段检测单元(基于声源方向估计的语音片段检测单元)601输入的语音片段信息来执行详细片段检测的模块。例如，通过根据现有技术的诸如束形成之类的技术，来自相应方向的声源被从片段和方向中提取出来。

第二语音片段检测单元(基于“话音相似性”)603基于“话音相似性”对来自声源提取单元602的输出执行详细片段检测。

组合这两种方法的语音片段检测的优点如下：

1.片段的开头和终止的高精度；以及

2.拒绝除了话音之外的声源。

当基于声源方向估计的方法被与基于“话音相似性”的方法相比较时，可以获得基于声源方向估计的方法在彼此覆盖话音方面较强的优点，然而，可能出现以下问题，即，片段的开头和终止的时间粒度取决于协方差矩阵的更新频率。因此，可以通过利用片段和方向(通过基于声源方向估计的方法获得)提取声源来解决话音的覆盖并对结果应用基于“话音相似性”的语音片段检测来实现在彼此覆盖话音方面较强并且在时间粒度方面微小的语音片段检测。

修改示例3

在指向性束形成模式的生成中，可以使用下面示出的方程式[6.1]来替代方程式[3.8]。

P_{D} (ω, θ) = \frac{1}{2} \log | S {(ω, θ)}^{H} R (ω) S (ω, θ) | . . . . . . [6.1]

Y(ω，t，θ)＝S(ω，θ)^HX(ω，t) ......[6.2]

<|Y(ω，t，θ)|²>_{t-L′＜τ≤t}＝S(ω，θ)^H<X(ω，τ)X(ω，τ)^H>_{t-L′＜τ≤t}S(ω，θ) ......[6.3]

＝S(ω，θ)^HR(ω)S(ω，θ) ......[6.4]

该方程式是基于延迟求和阵列(delayed sum array)的。下文中，将说明该方程式。延迟求和阵列是向每个麦克风的观测信号提供预定延迟并获得总和的处理。在时间-频率域中，利用导向向量S(ω，θ)通过方程式[6.2]来执行计算。当该方程式被使用时，针对从方向θ到达的声音形成了麦克风之间的相位。因此，作为通过相加相位而获得的结果的Y(ω，t，θ)增强了来自方向θ的声音。

块中Y(ω，t，θ)的方差(绝对值的平方的均值)可以通过方程式[6.3]来计算，并且该方程式通过方程式[2.2]被变换为类似方程式[6.4]。方程式[6.1]是方程式[6.4]的对数。乘以1/2的原因是擦除附接到方程式[6.3]左侧的平方并与死角形成模式相比较。

当观测信号中包括的声源的方向之一与θ的值相同时，方程式[6.2]的Y(ω，t，θ)具有大的绝对值。因此，由其计算的方程式[6.1]具有与指向性束形成模式相同的特性。

6.优点的总结

如上所述，在本发明的声音信号处理设备中，在基于声源估计的语音片段检测中设计了以下处理。

1.利用指向性束形成模式以及死角形成模式检测方向点。

2.在方向点的跟踪中改变用于检测说话片段的开头并通过延长片段检测方向点的条件。

例如，基于这些处理提高了语音片段检测的精度。

迄今为止，已说明了本发明的实施例和修改示例。然而，本领域技术人员应当清楚，可以进行实施例的修改和替换，而不脱离本发明的实施例的要旨。即，这些实施例不应当因为实施例已被公开为示例而被限制。权利要求被认为确定了本发明的实施例的要旨。

说明书中的上述处理序列可以通过硬件、软件或其组合来执行。当处理序列通过软件执行时，记录处理序列的程序被安装在嵌入在专用硬件中的计算机的存储器中并被执行，或者被安装在能够通过安装各种程序执行各种处理的通用个人计算机中并被执行。例如，该程序可以预先存储在记录介质中。该程序不仅可以从记录介质安装到计算机，还可以经由诸如LAN(局域网)或因特网之类的网络从记录介质接收并且可以安装在计算机中包括的诸如硬盘等的记录介质中。

在说明书中说明的各种处理可以根据说明按照时序执行，并且可以并行地或者根据执行处理的设备的处理能力分开地或者根据需要执行。说明书中的系统具有多个设备的逻辑集合配置，并且并不限于具有每种配置的设备被设在同一机壳内的配置。

本发明包含与在2011年1月18日向日本专利局递交的日本在先专利申请JP 2011-008208中公开的内容有关的主题，该申请的全部内容通过引用结合于此。

本领域技术人员应当理解，取决于设计需求和其他因素，可以发生各种修改、组合、子组合和变更，只要这些修改、组合、子组合和变更在权利要求或其等同物的范围内即可。

Claims

1.一种声音信号处理设备，包括：

方向估计单元，该方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点；以及

方向跟踪单元，该方向跟踪单元将多个块之间彼此连接方向点并且检测其中声音活动的片段，

其中所述方向估计单元包括：

空间滤波器生成单元，该空间滤波器生成单元生成死角形成滤波器和指向性束形成滤波器，所述死角形成滤波器是对所述声源方向具有低灵敏度的空间滤波器，所述指向性束形成滤波器是对所述声源方向具有高灵敏度的空间滤波器，

死角形成模式生成单元，该死角形成模式生成单元生成死角形成模式，所述死角形成模式指示方向和增益之间的对应关系数据并且对应于所述死角形成滤波器，

指向性束形成模式生成单元，该指向性束形成模式生成单元生成指向性束形成模式，所述指向性束形成模式指示所述方向和所述增益之间的对应关系数据并且对应于所述指向性束形成滤波器，以及

方向点检测单元，该方向点检测单元检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点。

2.如权利要求1所述的声音信号处理设备，其中所述空间滤波器生成单元通过对协方差矩阵的特征值分解处理来计算多个特征值和多个特征向量，并且利用与计算出的最大特征值相对应的特征向量来生成所述指向性束形成滤波器，所述协方差矩阵是根据从所述声音信号生成的时间-频率域的观测信号针对每个块计算出的。

3.如权利要求1所述的声音信号处理设备，其中所述空间滤波器生成单元通过对协方差矩阵的特征值分解处理来计算多个特征值和多个特征向量，并且通过用特征值为权重对所有特征向量加权求和或加权求平均来生成所述指向性束形成滤波器，所述协方差矩阵是根据从所述声音信号生成的时间-频率域的观测信号针对每个块计算出的。

4.如权利要求1所述的声音信号处理设备，其中所述空间滤波器生成单元通过对协方差矩阵的特征值分解处理来计算多个特征值和多个特征向量，通过利用由特征向量形成的矩阵V(ω)和由特征值形成的对角矩阵D(ω)的运算处理计算出变换矩阵V’(ω)，并且利用计算出的变换矩阵V’(ω)的任何一行来生成所述死角形成滤波器，所述协方差矩阵是根据从所述声音信号生成的时间-频率域的观测信号针对每个块计算出的。

5.如权利要求1所述的声音信号处理设备，其中所述方向点检测单元通过应用动态阈值来判定所述死角形成模式中的局部最小部是否被选为方向点，所述动态阈值是基于方向点检测处理的新目标块的邻近块中死角形成模式中的最小值计算出的。

6.如权利要求1所述的声音信号处理设备，其中所述方向点检测单元

区分强方向点和弱方向点，其中强方向点满足死角形成模式中的局部最小部的值小于相应的指向性束形成模式中的局部最大部的值的条件，弱方向点不满足该条件，

如果弱方向点位于正生成的片段内，则选择该弱方向点作为指示声源方向的方向点，以及

忽略位于正生成的片段外的弱方向点。

7.如权利要求1所述的声音信号处理设备，其中所述方向点检测单元

在延长并确定正生成的片段的处理中将强方向点和弱方向点两者都选为指示所述声源方向的方向点，以及

在要生成的新片段的起始部分，仅将强方向点选为指示声源方向的方向点。

8.如权利要求7所述的声音信号处理设备，其中其中所述方向点检测单元

在延长并确定正生成的片段的处理中，检查一个方向点是否被用在正生成的两个或更多个片段，当一个方向点被用在多个片段中时，多个片段中仅最长的片段保留而其他片段被删除，或者在较短片段中包括的方向点被添加到最长的片段，并且利用最长片段中包括的所有方向点再次计算片段的新方向。

9.如权利要求1所述的声音信号处理设备，还包括：

声源提取单元，基于对所述方向跟踪单元所检测的声音片段的前端和后端添加了容限的片段信息来执行详细片段检测；以及

第二语音片段检测单元，基于“话音相似性”对来自所述声源提取单元的输出执行详细片段检测。

10.一种由声音信号处理设备执行的声音信号处理方法，包括：

通过方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点；以及

通过方向跟踪单元将多个块之间的方向点彼此连接并且检测其中声音活动的片段，

其中所述方向点的检测包括：

生成死角形成滤波器和指向性束形成滤波器，所述死角形成滤波器是对所述声源方向具有低灵敏度的空间滤波器，所述指向性束形成滤波器是对所述声源方向具有高灵敏度的空间滤波器，

生成死角形成模式，所述死角形成模式指示方向和增益之间的对应关系数据并且对应于所述死角形成滤波器，

生成指向性束形成模式，所述指向性束形成模式指示所述方向和所述增益之间的对应关系数据并且对应于所述指向性束形成滤波器，以及

检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点。

11.一种使得声音信号处理设备执行声音信号处理的程序，包括：

使得方向估计单元执行针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点的处理；以及

使得方向跟踪单元执行将多个块之间彼此连接方向点并且检测其中声音活动的片段的处理，

其中所述方向点的检测包括：