CN113439304A

CN113439304A - 基于退化分离估计技术的语音分离方法和系统

Info

Publication number: CN113439304A
Application number: CN201980092422.7A
Authority: CN
Inventors: 谢由页; 毕相如; 张青山; 张国霞
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Ltd; Harman International Industries Inc
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2021-09-24
Also published as: WO2020172790A1; US11783848B2; DE112019006921T5; US20220139415A1

Abstract

公开了基于DUET算法的语音分离方法和系统。所述方法包括：接收来自传声器的信号；对接收的信号进行傅立叶变换(S110)；计算每个数据点的相对衰减参数和相对延迟参数(S120)；基于传声器之间的距离和传声器的采样频率选择相对延迟参数的聚类范围；将相对延迟参数的聚类范围内的数据点聚类成子集(S130)；以及对每个子集进行逆傅立叶变换(S140)。它提供一种高效且智能的解决方案来在软件和/或硬件上部署DUET。

Description

基于退化分离估计技术的语音分离方法和系统

技术领域

本公开涉及语音处理，且更具体地涉及基于退化分离估计技术(DUET)算法的语音分离方法和系统。

背景技术

由于智能生活方式和联网汽车的需求不断增加，语音分离作为人机交互系统的关键部分在行业中已经无处不在。语音分离的方法主要有两种，其中一种是使用传声器阵列来实现言语增强，并且另一种是使用盲源分离算法，诸如频域独立分量分析(FDICA)、退化分离估计技术(DUET)算法或者它们的扩展算法。

DUET算法可以仅使用两种混音来分离任意数量的源，这非常适合在相对较小的空间内进行语音分离。即使在源数量大于混音数量的情况下，该技术也是有效的。DUET算法基于从混音中提取的相对延迟和衰减对来分离言语。但是，DUET算法中对相对延迟和衰减进行聚类的合适范围很重要但很模糊，因为该范围通常是基于经验选择的，并且如果选定的范围内部有很多无效数据点，则相位包裹效应可能不可忽略。因此，需要选择合适的聚类范围以改善语音分离的方法和系统。

此外，DUET算法通常需要对源进行时间同步，而传统的时间同步方法可能达不到要求，因为传声器的采样频率可能高达几十千赫兹或更高，而系统时间通常是以毫秒为单位。因此，下面提出新的方法和系统来实现更准确的时间同步。

发明内容

根据本公开的一个方面，提供了一种基于DUET的语音分离方法，该方法包括：接收来自传声器的信号；对接收的信号进行傅立叶变换；计算每个数据点的相对衰减参数和相对延迟参数；基于传声器之间的距离和传声器的采样频率选择相对延迟参数的聚类范围；将相对延迟参数的聚类范围内的数据点聚类成子集；以及对每个子集进行逆傅立叶变换。

通常，相对衰减参数的范围可以设置为常数。

通常，该方法可以在车辆的主机单元中实施。此外，可在诸如室内环境(例如，办公室、家里、商场)、室外环境(例如，自动服务终端、车站)等其他环境中实施该方法。

通常，选择相对延迟参数的聚类范围的步骤还基于语音中的最大频率。

通常，相对延迟参数的聚类范围与传声器之间的距离以及声音的速度与言语中最大频率之间的比率之间的关系有关。

通常，就采样点而言，相对延迟参数的聚类范围可以由下式给出：

其中f_s是传声器的采样频率，d是传声器之间的距离，f_max是言语中的最大频率，c是声音的速度，并且n₀是传声器在数据点方面的最大同步误差。

通常，该方法可以由扬声器生成同步声音以同步由传声器接收的信号。同步声音可以是一次或周期性生成的，并且可以是超声波，使得人是听不见的。在同步之后，传声器在数据点方面的最大同步误差(n₀)可能等于0。

根据本公开的另一个方面，提供了一种基于DUET的语音分离系统，该系统包括：录音模块，其被配置为存储从传声器接收的信号；处理器，其被配置为对接收的信号进行傅立叶变换，计算每个数据点的相对衰减参数和相对延迟参数，基于传声器之间的距离和传声器的采样频率选择相对延迟参数的聚类范围，将相对延迟参数的聚类范围内的数据点聚类成子集，以及对每个子集进行逆傅立叶变换。

该系统可以被包括在车辆的主机单元中。此外，可在诸如室内环境(例如，办公室、家里、商场)、室外环境(例如，自动服务终端、车站)等其他环境中实施该系统。

该系统还可以包括扬声器，该扬声器被配置为生成同步信号以同步从传声器接收的信号，并且该系统还可以包括同步和滤波模块，该同步和滤波模块被配置为将从传声器接收的信号与同步信号同步并从接收的信号中滤除同步信号。

根据本公开，可以提供一种高效且智能的解决方案来在软件和/或硬件上部署DUET。还可以提供一种解决方案来实现DUET要处理的信号的更准确的时间同步。

通过对实施方案的以下描述将清楚本公开的意义和益处。然而，应理解，那些实施方案仅仅是可如何实施本发明的示例，并且用于描述本发明的术语的含义不限于其中将它们用于描述实施方案的特定含义。

在审查了附图和具体实施方式之后，本公开的其他系统、方法、特征和优点对于本领域技术人员来说将明显或将变得明显。希望所有此类额外的系统、方法、特征和优点包括于本说明书内、位于本公开的范围内并且受到所附权利要求保护。

附图说明

参考附图和描述，可更好地理解本公开。附图中的部件不一定按比例，而是强调说明本公开的原理。另外，在附图中，相同的附图标记在所有不同视图中标示对应的部分。

图1是根据本公开的实施方案的基于DUET的语音分离方法的流程图；

图2A是示出根据本公开的实施方案的数据点的相对衰减和相对延迟对的聚类子集的示例的示意图，并且图2B是示出其中出现相位包裹效应的数据点的相对衰减和相对延迟对的子集的示例的示意图；

图3是根据本公开的实施方案的基于DUET的语音分离系统的框图；

图4A和图4B是示出通过使用本公开的语音分离系统的示例对车辆中四名乘客的言语的聚类结果的图表，其中图4B是图4A的俯视图；

图5是根据本公开的实施方案的语音分离系统的框图；并且

图6是根据本公开的实施方案的语音分离的流程图。

具体实施方式

以下，将参考附图更详细地描述本公开的优选实施方案。在本公开的以下描述中，当可能使本公开的主题不清楚时，将省略对并入在本文中的已知功能和配置的详细描述。

本公开提供基于DUET的语音分离方法和系统。图1是一种基于DUET的语音分离方法的流程图。该方法可用于各种环境，诸如车厢、办公室、家里、商场、自动服务终端、车站等。

如图1所示，传声器(示出两个传声器作为示例)接收声音并对声音进行采样，其中可能包括多个源。传声器的采样频率可以在千赫、几十千赫或甚至更高的数量级。更高的采样频率将有利于分离过程，因为在离散化过程中丢失的信息更少。如果声音包括多个源，则传声器1采样的信号和传声器2采样的信号将是每个都包括来自多个源的信号的混音。

从传声器1和传声器2接收的信号输入到DUET模块(图1中未示出)，该DUET模块进行信号分离(如图1中虚线框所示)。

首先，对接收信号进行傅立叶变换(例如，短时傅立叶变换、加窗傅立叶变换)以输出大量时频数据点(步骤S110)。

为了分割时频数据点，计算每个数据点的相对延迟和相对衰减参数，其中相对延迟参数与从源到两个传声器的到达时间之间的时间差相关，并且相对衰减参数对应于源和两个传声器之间的路径衰减的比率(步骤S120)。对应于源中的一个的相对延迟和相对衰减对应该分别与对应于源中的另一个的相对延迟和相对衰减对不同，并且因此可根据不同的相对延迟-衰减对来分割时频点。也就是说，可以将相对衰减和相对延迟参数的聚类范围内的数据点聚类成若干子集(步骤S130)。最后，可以对每个子集进行逆傅立叶变换(例如，逆短时傅立叶变换)以输出对应于不同源的分离信号(步骤S140)。

在步骤S120中智能地选择相对衰减和相对延迟参数的聚类范围。

由于考虑到DUET所需的小相对延迟，相对衰减通常很小，因此相对衰减的范围可以简单地设置为常数，例如[-0.7,0.7]、[-1.0,1.0]。如果两个传声器设置得足够近(例如，大约15厘米)，则相对衰减可以基本上由它们之间的距离确定。

对于相对延迟，需要找到一个范围，当信号的真实相对延迟在这个范围内时，可以唯一确定相对延迟。这样的范围在本公开中被称为有效范围。

为了阐明确定相对延迟的有效范围的过程，如下定义以下参数：

f_s(单位：Hz)：传声器的采样频率；

f(单位：Hz)：连续语音信号的频率；

f_MAX(单位：Hz)：语音中的最大频率；

ω(单位：rad/s)：连续语音信号的频率(ω＝2pf)；

δ(单位：秒)：两个传声器接收的信号之间的相对延迟；

n(单位：采样点)：就采样点为而言，两个传声器接收的信号之间的相对延迟；

d(单位：米)：传声器间隔距离；

c(单位：m/s):声音的速度。

如果语音是人类言语，f为连续言语信号的频率；f_MAX是言语中的最大频率；并且ω是连续言语信号的频率，单位为rad/s.

相对延迟设置为e^-iωδ，其具有e^-iωδ＝e^-i(ωδ+2π)的属性。因此，只能在|ωδ|≤π时才能唯一地确定ωδ，并且如果|ωδ|>π，将返回错误的延迟，且这种现象称为相位包裹效应。

假设传声器是同步的。然后，频率为f的信号的相对延迟的有效范围由下式给出

并且言语中所有频率的有效范围的交集是

当连续信号以采样频率f_s离散化时，就采样点而言的有效范围变为

因此，如果来自任何方向的最大频率为f_MAX的言语的相对延迟位于有效范围内，则d的临界点确定如下：

最大频率f_max可以通过测量确定或者可以基于感兴趣的声音的频率范围来预设。

当

时，有效范围大于这两个传声器之间的最大相对延迟，这意味着

当

时，

因此，当

时，选定的范围为

在该范围内，没有相位包裹效应，并且同步传声器的感兴趣信号不会位于该范围之外。也就是说，如果d足够小，则同步传声器的相对延迟的选定的范围为

当

时，

在这种情况下，相对延迟的选定的范围是

当真正的相对延迟在该范围内时，没有相位包裹效应。由于有效范围小于这两个传声器之间的最大相对延迟，因此可能存在相对延迟位于有效范围

之外的信号。如果是这样，相位包裹效应就会发生，并且其相对延迟可能会在轴线上分散(参见图2B)。一些移位的数据点可能落在选定的范围内。尽管如此，选定的范围内的那些移位点可以忽略不计，并且不会影响该范围内信号的聚类结果。因此，有效范围之外的数据点将被丢弃。

因此，就采样点而言，同步传声器的相对延迟参数的聚类范围由下式给出：

对于非同步传声器，选定的范围是，

其中n₀是系统在采样点方面的测得的最大同步误差。

图2A是示出通过根据本公开的实施方案的方法计算的聚类范围内的数据点的相对衰减和相对延迟对的聚类子集的示例的示意图，并且图2B是示出其中出现相位包裹效应的数据点的相对衰减和相对延迟对的子集的示例的示意图。

如图2A所示，在相对延迟的聚类范围内有相对衰减-延迟对的四个子集(由竖直虚线示出)，这意味着有四个源可以被恢复。没有相位包裹效应，因为相对延迟都在聚类范围内。

如果十字标记的言语的相对延迟移动超出了聚类范围(例如，十字标记的子集对应的人走开了)，则会发生相位包裹效应，如图2B所示。对应的数据点可能在相对延迟轴线上分散，但那些移位点不会影响该范围内信号的聚类。位于范围之外的信号可以被丢弃。

本公开的上述实施方案中的方法可以实现语音分离。该方法基于系统设置自动选择聚类范围。在语音分离过程中，要么没有相位包裹效应，要么相位包裹效应可以忽略不计，并且范围之外的任何数据点都可以忽略，这确保了语音分离的恢复和精度并且使计算更加高效。

图3是根据本公开的实施方案的基于DUET的语音分离系统的框图。

传声器318中的一个或多个可被认为是系统300的一部分，或者可被认为与系统300分离。图1和图3所示的传声器的数量不应理解为限制，而仅是为了说明目的而选择的，并且传声器的数量可以多于两个。传声器318感测周围环境中的声音，并发送采样的信号以进行进一步处理。

该系统包括用于执行语音分离的DUET模块312和用于记录从传声器接收的信号的存储器314。DUET模块312可由硬件、软件或它们的任何组合(诸如由处理器执行的软件程序)实施。如果系统300被包括在车辆中，则DUET模块312或甚至系统300可以由车辆的主机单元或其一部分来实现。

DUET模块312可以执行如图1中所示的虚线框中的过程。

该系统不需要人工调整聚类范围，且可以以相对较低的成本和相对较低的复杂度实施。此外，该系统还可以适应各种场景，诸如车厢、办公室、家里、商场、自动服务终端、车站等。

出于说明性目的，下文中将通过以车辆作为示例来描述实施方案。图4A和图4B是示出根据本公开的语音分离系统的示例对车辆中四名乘客的言语的聚类结果的图表，其中图4B中的图表是图4A的图表的俯视图。

如图4A所示，坐标系包括三根轴线，即相对延迟轴线、相对衰减轴线和权重轴线。由相对延迟轴线和相对衰减轴线限定的平面中心的圆是原点(0，0)。图4B示出了对应于图4A的图表，其省略了权重轴线。

在本实施方案中，由于人声频率通常在85～1100Hz以内，因此将言语中的最大频率f_MAX设置为1100Hz。声音的速度c可以基于环境温度和湿度来确定。传声器的采样频率f_s是已知的，诸如32KHz、44.1Khz等。可以自动测量传声器在采样点方面的最大同步误差n₀。在传声器的时间同步之后，最大同步误差n₀可以非常小或甚至等于零(参见参考图5的实施方案)。DUET模块基于等式(9)计算相对延迟的范围。相对衰减的范围设置为常数，如参考图1所述。

如图4A和图4B所示，相对延迟和衰减对的聚类子集对应于四个乘客的言语。可以基于相对相位差和相对衰减来确定哪个子集属于哪个乘客，从而可以确定驾驶员的请求。此外，在根据本公开的方法设置相对延迟的范围之后，不会出现相位包裹效应。此外，由于丢弃了范围之外的数据点，因此计算成本降低。

为了减少或甚至消除传声器的同步误差，控制两个传声器同时开始录音。但是，打开传声器的软件指令可能不会同时执行，并且系统时间精确到毫秒级，这远大于传声器的采样间隔。本公开提供了一种实现传声器的时间同步的新系统，其如图5说明性所示。

图5是根据本公开的实施方案的语音分离系统的框图。如图5所示，系统500包括用于控制扬声器生成同步声音的同步发声模块507、用于存储从传声器1和传声器2接收的信号的录音模块509、用于同步来自传声器1和传声器2的信号的声音同步和滤波模块511以及用于语音分离的DUET模块513。在各个实施方案中，同步发声模块507、录音模块509和滤波模块511可以通过软件、硬件或它们的组合来实施。例如，它们可以由一个或多个处理器实施。

系统500还包括扬声器505，以用于在同步发声模块507的控制下生成同步声音。同步声音可以是触发同步声音，其在传声器开始录音后发出一次。替代地，同步声音可以是周期性的同步声音。此外，同步声音对于人类来说可能是听不见的，诸如超声波。同步声音可以是脉冲信号以方便识别。扬声器505可以设置在与传声器1和传声器2之间的线垂直并且穿过这两个传声器的中点的线上的点上，使得扬声器与这两个传声器等距。

从传声器接收的混音可以包括同步声音、言语1和言语2，并且存储在录音模块509中。声音同步和滤波模块511检测混音中的同步信号，以同步两个混音。然后，声音同步和滤波模块511从两个混音中去除同步声音。同步声音可以通过滤波器或适当的算法去除。

根据本实施方案，时间同步可以达到微秒级的精度。例如，如果记录频率为44.1KHz，时间同步的精度可能小于十微秒。

同步信号被输入到DUET模块513中以用于语音分离。DUET模块513与图3所示的DUET模块312相同。尽管如此，可能没有必要测量传声器在采样点方面的最大同步误差，并且相对延迟的聚类范围通过等式(8)计算。此外，如果两个传声器之间的距离足够小，则相对延迟的聚类范围可以是

图6是根据本公开的实施方案的语音分离的流程图。

如图6所示，该方法开始于步骤S610，其中传声器开始对声音进行采样。在步骤S620处，同步发声模块507控制扬声器以生成触发或周期同步声音。在步骤S630处，接收的混音，即从传声器接收的信号被存储在存储器中。通过使用同步声音来同步混音，然后从混音中滤除同步声音(S640)，这已经参考声音同步和滤波模块511进行了描述。同步混音输入到DUET模块513，并且DUET模块513执行语音分离(S650)并输出分离的言语信号(S660)。DUET模块513的过程已经参考图1进行了描述。

本公开上述实施方案的方法和系统可以实现传声器的同步，并且从而以相对较低的成本提高DUET算法的精度和效率。

本领域技术人员将理解，结合图1-图6描述的一个或多个单元、过程或子过程可由硬件和/或软件执行。如果过程由软件执行或单元由软件实施，则该软件可驻留在合适的电子处理部件或系统中的软件存储器(未示出)中，并且可由处理器执行。存储器中的软件可包括用于实施逻辑功能(即，可以数字形式实施的“逻辑”诸如数字电路或源代码，或可以模拟形式实施的“逻辑”诸如模拟电路或模拟源，诸如模拟电信号)的可执行指令，并且可选择性地在任何计算机可读介质中体现以由或结合指令执行系统、设备或装置使用。计算机可读介质可选择性地为(例如)(但不限于)电子、磁性、光学、电磁、红外或半导体系统、设备或装置，诸如RAM、ROM、EPROM等。

关于本文描述的过程、系统、方法、试探法等，应理解，虽然已经将所述过程的步骤等描述为根据特定排序的序列而发生，但可使用通过本文描述的次序之外的次序而执行的所描述的步骤来实践所述过程。应进一步理解，可同时执行某些步骤、可添加其他步骤、或者可省略本文描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施方案的目的而提供的，并且绝不应当被解释来限制权利要求。

为了阐明在未决权利要求中的使用并在此向公众提供通知，除非由申请人作出相反的明确声明，否则代替此前或此后的任何其他隐含定义，短语“<A>、<B>、......、和<N>中的至少一个”或“<A>、<B>、......、<N>或它们的组合中的至少一个”被本申请人最广义地定义为意指选自包括A、B、……、和N的组的一个或多个元素，也就是说，包括任何一个元素单独或与其他元素(其还可包括未列出的额外元素的组合)中的一者或多者的组合的元素A、B、……、或N中的一者或多者的任何组合。

虽然已经描述了本公开的各种实施方案，但是对于本领域普通技术人员来说将明白的是，在本公开的范围内的更多实施方案和实施方式是可能的。因此，除了按照附加权利要求和其等效物以外，本公开不受限制。

Claims

1.一种基于退化分离估计技术(DUET)的语音分离方法，其包括：

接收来自传声器的信号；

对接收的信号进行傅立叶变换；

计算每个数据点的相对衰减参数和相对延迟参数；

基于所述传声器之间的距离和所述传声器的采样频率选择所述相对延迟参数的聚类范围，

将所述相对延迟参数的所述聚类范围内的数据点聚类成子集，以及

对每个子集进行逆傅立叶变换。

2.如权利要求1所述的方法，其中选择所述相对延迟参数的所述聚类范围还基于语音中的最大频率。

3.如权利要求1所述的方法，其还包括将所述相对衰减的范围设置为常数。

4.如权利要求1-3中任一项所述的方法，其中所述相对延迟参数的所述聚类范围由下式给出：

其中f_s是所述传声器的所述采样频率，d是所述传声器之间的所述距离，f_max是言语中的所述最大频率，c是声音的速度，并且n₀是所述传声器在数据点方面的最大同步误差。

5.如权利要求1所述的方法，其还包括由扬声器生成同步声音以同步所述接收的信号。

6.如权利要求5所述的方法，其还包括从所述接收的信号中滤除所述同步声音。

7.如权利要求5所述的方法，其中所述同步声音是一次或周期性地生成的。

8.如权利要求5所述的方法，其中所述同步声音是超声波。

9.如权利要求1或5所述的方法，当

并且从所述传声器接收的所述信号同步时，所述相对延迟参数的所述聚类范围由

给出，其中f_s是所述传声器的所述采样频率，d是所述传声器之间的所述距离，f_max是所述言语中的所述最大频率，c是所述声音的所述速度。

10.一种基于退化分离估计技术(DUET)的语音分离系统，其包括

录音模块，其被配置为存储从传声器接收的信号；

处理器，其被配置为

对接收的信号进行傅立叶变换；

计算每个数据点的相对衰减参数和相对延迟参数；

对每个子集进行逆傅立叶变换。

11.如权利要求10所述的系统，其中所述处理器还被配置为基于语音中的最大频率选择所述相对延迟参数的所述聚类范围。

12.如权利要求10所述的系统，其中所述处理器还被配置为将所述相对衰减的范围设置为常数。

13.如权利要求10-12中任一项所述的系统，其中所述相对延迟参数的所述聚类范围由下式给出：

14.如权利要求10所述的系统，其还包括扬声器，所述扬声器被配置为生成同步信号以同步从所述传声器接收的所述信号。

15.如权利要求14所述的系统，其还包括同步和滤波模块，所述同步和滤波模块被配置为将从所述传声器接收的所述信号与所述同步信号同步并从所述接收的信号中滤除所述同步信号。

16.如权利要求14所述的系统，其中所述同步声音是一次或周期性地生成的。

17.如权利要求10所述的系统，其中所述系统在车辆的主机单元中实施。

18.如权利要求10或15所述的系统，当

19.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括指令，所述指令在由一个或多个处理器执行时执行以下步骤：

对从传声器接收的信号进行傅立叶变换；

计算每个数据点的相对衰减参数和相对延迟参数；

对每个子集进行逆傅立叶变换。