CN108122563A

CN108122563A - 提高语音唤醒率及修正doa的方法

Info

Publication number: CN108122563A
Application number: CN201711375740.3A
Authority: CN
Inventors: 朱振岭; 冯大航; 陈孝良; 苏少炜; 常乐
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-06-05
Anticipated expiration: 2037-12-19
Also published as: CN108122563B

Abstract

本公开提供了一种提高语音唤醒率及修正DOA的方法，包括：步骤S1，进行单或双通道语音增强，通过VAD检测或者语音存在概率计算是否存在语音，若存在语音则转至步骤S2；步骤S2，进行唤醒，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；步骤S3，进行高分辨率DOA估计以及基于估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；步骤S4，设备进入识别状态，确定DOA。通过两次唤醒，可以大大提高远场语音唤醒率，同时得到更加准确的目标方向估计，便于后续语音增强中提高SNR减少语音损伤，进一步提高识别率。

Description

提高语音唤醒率及修正DOA的方法

技术领域

本公开涉及智能语音交互领域，尤其涉及一种提高语音唤醒率和修正DOA(Direction of Arrival，即波达方向)的方法。

背景技术

当前智能语音硬件设备应用越来越广泛，如智能音响、机器人等。这些智能语音设备一般通过麦克风阵列信号处理后再进行语音识别，从而提高远场条件下的语音识别率。这些设备一般都具有的功能包括可以用某个关键词唤醒，唤醒后可以找到说话人的方向，可以对说话人的方向进行语音增强，并且自己在播放音乐或语音的情况下，可对其用唤醒词打断。因此主要涉及的技术包括回声消除技术、波达方向估计技术、波束形成技术、去混响技术等。

目前这些智能语音交互设备存在的一个难题是远场唤醒率低。智能语音交互设备的唤醒、识别依赖于语音信号质量的好坏，设备对接收到的干净的语音信号唤醒率、识别率都很高，对受混响、噪声、干扰影响远场语音信号唤醒率、识别率都较低。这是因为目前的处理方法是在唤醒时进行DOA估计，而此时用于唤醒的语音信号通常是某一路未经处理或者经过单通道降噪的麦克风信号，信号质量偏低，导致唤醒率偏低，且当多个声源同时存在或者当设备距离墙壁、显示屏等强反射面时，唤醒时刻DOA估计不准确，导致后面的波束形成误将说话人的声音当做噪声消除掉，从而造成设备无法听懂说话人的指令。

公开内容

(一)要解决的技术问题

本公开提供了一种提高语音唤醒率和修正的方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种提高语音唤醒率及修正DOA的方法，包括：步骤S0，接收麦克风阵列获取的录音信号，并判断设备是否处于唤醒状态，若处于未唤醒状态，则执行步骤S1；步骤S1，进行单或双通道语音增强，通过VAD检测或者语音存在概率计算是否存在语音，若存在语音则转至步骤S2；若不存在语音则返回步骤S0；步骤S2，进行唤醒，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0；步骤S3，进行高分辨率DOA估计以及基于估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；若不存在则返回步骤S0；步骤S4，设备进入识别状态，确定DOA。

在本公开一些实施例中，所述步骤S3包括：采用MUSIC算法进行高分辨率DOA估计，假设有D个声源，

数据协方差矩阵表示为：

R(k)_xx＝E{X(k)X(k)^H}＝R(k)_SS+R(k)_nn

其中R(k)_SS＝E{S(k)S(k)^H}，R(k)_nn＝E{n(k)n(k)^H}分别是语音、噪声协方差矩阵；S(k)＝[s₁(k),…,s_l(k),…,s_D(k)]^T是D*1维信号源向量，s_l(k)是第l个声源信号，n(k)是噪声向量，T表示转置,k表示频带。

对数据协方差矩阵进行分解，R(k)_xx＝EΛE^H,Λ是降序排列的特征值构成的对角矩阵，E(k)＝[E(k)_S,E(k)_n]是对应的特征向量，E(k)_S、E(k)_n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间；

阵元域MUSIC方位谱函数为:

P(k,θ)＝1/a^H(k,θ)E(k)_nE(k)_n ^Ha(k,θ)，θ∈Θ

a(k,θ)是阵列流形向量，θ表示方位角，Θ表示观察扇面。

在本公开一些实施例中，通过高分辨率DOA估计区分多个声源，并显示该方向信号功率，根据确定的声源方向，针对声源方向进行波束形成。

在本公开一些实施例中，所述步骤S1中：单或双通道语音增强时，单通道降噪可任选某一路信号，降噪方法包括维纳滤波、谱减法、IMCRA方法，双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。

在本公开一些实施例中，所述步骤S2中：当检测到语音存在时进行唤醒，并计算唤醒置信度，唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3，否则视为非唤醒关键词，返回步骤S0。

在本公开一些实施例中，第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值，所述第一唤醒阈值ε_l的范围为0.3以下。

在本公开一些实施例中，所述步骤S3还包括：对波束合成之后的信号进行第二次唤醒，选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度：当唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词，设备保持未唤醒状态；当唤醒置信度存在高于第二唤醒阈值ε_h的情况时，选择唤醒置信度最高的波束方向即为目标声源方向。

在本公开一些实施例中，所述第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型，同时兼顾设备误唤醒率。

在本公开一些实施例中，所述步骤S0包括：麦克风阵列进行录音，设备实时接收麦克风阵列采集信号，其中，假设麦克风的个数是N，目标声源个数为1，干扰声源的数量为D-1，其中D>＝1，采集信号记为：

x(n)＝[x₁(n),…,x_i(n),…,x_N(n)]^T

后续信号处理主要在频域进行，采用重叠相加语音处理框架，将时域信号进行FFT变换转到频域：

X(k)＝[x₁(k),…,x_i(k),…,x_N(k)]^T

麦克信号为语音信号与噪声、干扰的叠加：

X(k)＝A(k,Θ_D)S(k)+n(k)

其中，i表示麦克风序号，n表示时域序列，k表示频带，N*D维阵列流形矩阵A(k,Θ_D)＝[a(k,θ₁),…,a(k,θ_l),…,a(k,θ_D)]，a(k,θ_l)是阵列流形向量，Θ_D＝[θ₁,…,θ_l,…θ_D]表示D个信号源方向。

在本公开一些实施例中，所述步骤S0还包括：若设备处于唤醒状态，即处于语音识别状态，则执行步骤S4；所述步骤S4还包括：确定DOA后，对该目标语音方向进行信号增强，在识别结束后，将设备状态改为未唤醒状态，返回步骤S0。

(三)有益效果

从上述技术方案可以看出，本公开提高语音唤醒率和修正DOA的方法至少具有以下有益效果其中之一：

(1)通过两次唤醒，可以大大提高远场语音唤醒率，同时得到更加准确的目标方向估计，便于后续语音增强中提高SNR减少语音损伤，进一步提高识别率，大幅提高智能设备体验效果；

(2)通过远场语音信号的回声消除、波束形成等语音增强技术处理后语音质量会有较大提高。

附图说明

图1为本公开实施例提高语音唤醒率和修正DOA的方法流程图。

图2为本公开实施例DOA估计与传统方法及真实值的对比图。

图3为本公开实施例与未采用波束合成情形下语谱图及其唤醒置信度对比图。

具体实施方式

本公开提供了一种提高语音唤醒率和修正DOA的方法，用于提高远场唤醒率，通过引入VAD(Voice Activity Detection,即语音活动检测)检测或者语音存在概率估计(针对阵列某一通道信号)，在语音存在时刻进行唤醒，当唤醒置信度大于某一较低阈值ε_l，对阵列信号进行高分辨率DOA估计，在估计出的置信度较高的n个声源方向分别进行估计方向的波束合形成，对n个波束信号进行唤醒，唤醒置信度大于某一较高阈值ε_h时，智能设备进入唤醒状态，该方向即为目标说话人方向，后续可对该方向信号增强，进行识别。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以许多不同形式实现，而不应被解释为限于此数所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的第一个示例性实施例中，提供了提高语音唤醒率和修正DOA的方法，结合语音增强、DOA估计、波束形成技术提高唤醒率。图1为本公开实施例提高语音唤醒率和修正DOA的方法流程图。如图1所示，本公开提高语音唤醒率和修正DOA的方法包括：

步骤S0，接收麦克风阵列获取的录音信号，并判断设备是否处于唤醒状态，若处于未唤醒状态，则执行步骤S1；若处于唤醒状态，即处于识别状态，则执行步骤S4；

步骤S1，进行单或双通道语音增强，通过VAD检测或者语音存在概率计算是否存在语音，若存在语音则转至步骤S2；若不存在语音则返回步骤S0；

步骤S2，进行唤醒并计算唤醒置信度，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0；

步骤S3，进行高分辨率DOA估计以及估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；若不存则返回步骤S0；

步骤S4，设备进入识别状态，对该目标语音方向进行信号增强，提高识别效果，直到识别结束，设备状态改为未唤醒状态，返回步骤S0；

以下分别对本实施例提高语音唤醒率和修正DOA的方法的各个步骤进行详细描述。

步骤S0，识别接收麦克风阵列获取的录音信号，并判断设备是否处于唤醒状态，若处于未唤醒状态，则执行步骤S1；若处于唤醒状态，即处于识别状态，则执行步骤S4；具体包括：

麦克风阵列进行录音，设备接收阵列采集信号。设备存在两个状态，一是未唤醒状态，二是唤醒状态，即设备已被唤醒。假设麦克风的个数是N，目标声源个数为1和干扰声源的数量为D-1，其中D>＝1，采集信号记为

x(n)＝[x₁(n),…,x_i(n),…,x_N(n)]^T

X(k)＝[x₁(k),…,x_i(k),…,x_N(k)]^T

麦克信号为语音信号与噪声、干扰的叠加：

X(k)＝A(k,Θ_D)S(k)+n(k)

其中N*D维阵列流形矩阵A(k,Θ_D)＝[a(k,θ₁),…,a(k,θ_l),…,a(k,θ_D]，a(k,θ_l)是阵列流形向量，Θ_D＝[θ₁,…,θ_l,…θ_D]表示D个信号源方向，S(k)＝[s₁(k),…,s_l(k),…,s_D(k)]^T是D*1维信号源向量，s_l(k)是第l个声源信号，n(k)是噪声向量，T表示转置,n表示时域序列，i表示麦克风序号，k表示频带。

步骤S1，进行单或双通道语音增强，通过VAD检测或者语音存在概率计算是否存在语音，若存在语音则转至步骤S2；若不存在语音则返回步骤S0；具体包括：

单或双通道语音增强，目的是为后面的VAD检测或者语音存在概率计算和第一次唤醒提供质量更好的语音信号。单通道降噪可任选某一路信号，降噪方法可采用维纳滤波、谱减法、IMCRA等方法，双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。

步骤S2，进行唤醒并计算唤醒置信度，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0；具体包括：

检测到语音存在时进行唤醒，唤醒置信度大于第一唤醒阈值ε_l时进行后续处理，否则视为非唤醒关键词。第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值，与常规的唤醒阈值相比较小，通常为0.3以下。考虑计算量的问题，唤醒可以采用较小的唤醒模型筛选语音信号，选择恰当的第一唤醒阈值ε_l非常关键。

步骤S3，进行高分辨率DOA估计以及估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；若不存则返回步骤S0；具体包括：

进行高分辨率DOA估计以及估计方向的波束合成。本公开采用MUSIC算法估计DOA,假设有D个声源，

数据协方差矩阵表示为：

E(k)_xx＝E{X(k)X(k)^H}＝R(k)_SS+R(k)_nn

其中R(k)_SS＝E{S(k)S(k)^H}，R(k)_nn＝E{n(k)n(k)^H}分别是语音、噪声协方差矩阵；

对数据协方差矩阵进行分解，R(k)_xx＝EΛEH,Λ是降序排列的特征值构成的对角矩阵，E(k)＝[E(k)_S,E(k)_n]是对应的特征向量，E(k)_S、E(k)_n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间；

阵元域MUSIC方位谱函数为:

P(k,θ)＝1/a^H(k,θ)W(k)_nE(k)_n ^Ha(k,θ)，θ∈Θ

θ表示方位角，Θ表示观察扇面。

如图2所示，说话人方向为-18°方向，干扰分别在-25°和10°方向，信号与干扰的强度相同，传统DOA估计无法区分相邻较近的两个声源，而高分辨率DOA估计可以清晰地区分多个声源，且正确地显示了该方向信号功率。确定了声源方向，针对声源方向进行波束形成，提高信号的质量，语音信号唤醒置信度提高较多。

对波束合成之后的信号进行第二次唤醒，选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度，唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词，设备保持未唤醒状态，唤醒置信度存在高于第二唤醒阈值ε_h的情况时，选择唤醒置信度最高的波束方向即为目标声源方向。第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型，同时兼顾设备误唤醒率，选择合适的阈值。

步骤S4，设备进入识别状态，确定DOA，对该目标语音方向进行信号增强，提高识别效果，直到识别结束，设备状态改为未唤醒状态，重复上述步骤。

图3为本公开实施例与未采用波束合成情形下语谱图及其唤醒置信度对比图，其中(a)、(b)、(c)分别是距离说话人0.2m(近场)、3m(远场)的阵列录音(取麦克风1)及波束合成后三种情况的语音时频图(为消除幅度影响，语音均做了归一化处理)，本实施例中实际录音及仿真均采用4麦克风环阵，半径为0.035m。如图3所示，图题中给出了相应的唤醒置信度，分别为0.9、0.47、0.85，可以看出当说话人距离阵列较远时，语音信号已严重污染，唤醒置信度较低，容易漏检，为防止漏检需要设置较低的唤醒阈值，会造成误唤醒率增高，影响用户体验，经过多通道语音增强后的关键词唤醒置信度已接近近场语音，可提高唤醒率。

至此，本公开第一实施例提高语音唤醒率和修正DOA的方法介绍完毕。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种提高语音唤醒率及修正DOA的方法，包括：

步骤S0，接收麦克风阵列获取的录音信号，并判断设备是否处于唤醒状态，若处于未唤醒状态，则执行步骤S1；

步骤S2，进行唤醒，当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3；若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0；

步骤S3，进行高分辨率DOA估计以及基于估计方向的波束合成，对波束合成之后的信号进行第二次唤醒，判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况，若存在则转至步骤S4；若不存在则返回步骤S0；

步骤S4，设备进入识别状态，确定DOA。

2.根据权利要求1所述的方法，所述步骤S3包括：

采用MUSIC算法进行高分辨率DOA估计，声源个数为D个，

则数据协方差矩阵表示为：

R(k)_xx＝E{X(k)X(k)^H}＝R(k)_SS+R(k)_nn

其中R(k)_SS＝E{S(k)S(k)^H}，R(k)_nn＝E{n(k)n(k)^H分别是语音、噪声协方差矩阵；S(k)＝[s₁(k),…,s_l(k),…,s_D(k)]^T是D*1维信号源向量，s_l(k)是第l个声源信号，n(k)是噪声向量，T表示转置,k表示频带；

阵元域MUSIC方位谱函数为:

P(k,θ)＝1/a^H(k,θ)E(k)_nE(k)_n ^H(k,θ)，θ∈Θ

a(k,θ)是阵列流形向量，θ表示方位角，Θ表示观察扇面。

3.根据权利要求2所述的方法，通过高分辨率DOA估计区分多个声源，并显示该方向信号功率，根据确定的声源方向，针对声源方向进行波束形成。

4.根据权利要求1或2所述的方法，所述步骤S1中：

单或双通道语音增强时，单通道降噪任选某一路信号，降噪方法包括维纳滤波、谱减法、IMCRA方法，双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。

5.根据权利要求1或2所述的方法，所述步骤S2中：

当检测到语音存在时进行唤醒，并计算唤醒置信度，唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3，否则视为非唤醒关键词，返回步骤S0。

6.根据权利要求5所述的方法，第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值，所述第一唤醒阈值ε_l的范围为0.3以下。

7.根据权利要求6所述的方法，所述步骤S3还包括：

对波束合成之后的信号进行第二次唤醒，选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度：

当唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词，设备保持未唤醒状态；

当唤醒置信度存在高于第二唤醒阈值ε_h的情况时，选择唤醒置信度最高的波束方向即为目标声源方向。

8.根据权利要求7所述的方法，所述第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型，同时兼顾设备误唤醒率。

9.根据权利要求1所述的方法，所述步骤S0包括：

麦克风阵列进行录音，设备实时接收麦克风阵列采集信号，其中，

假设麦克风的个数是N，目标声源个数为1，干扰声源的数量为D-1，其中D>＝1，采集信号记为：

x(n)＝[x₁(n),…,x_i(n),…,x_N(n)]^T

X(k)＝[x₁(k),…,x_i(k),…,x_N(k)]^T

麦克信号为语音信号与噪声、干扰的叠加：

X(k)＝A(k,Θ_D)S(k)+n(k)

10.根据权利要求1所述的方法，

所述步骤S0还包括：

若设备处于唤醒状态，即处于语音识别状态，则执行步骤S4；和/或

所述步骤S4还包括：

确定DOA后，对该目标语音方向进行信号增强，在识别结束后，将设备状态改为未唤醒状态，返回步骤S0。