CN105427860A

CN105427860A - 远场语音识别方法和装置

Info

Publication number: CN105427860A
Application number: CN201510768005.3A
Authority: CN
Inventors: 宋辉; 魏建强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2016-03-23
Anticipated expiration: 2035-11-11
Also published as: CN105427860B

Abstract

本发明提出一种远场语音识别方法和装置，该远场语音识别方法包括：将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；通过远场识别的声学模型对所述待识别的信号进行识别。本发明对远场语音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

Description

远场语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种远场语音识别方法和装置。

背景技术

远场语音识别，即远距离语音识别，在以智能家居为代表的多种领域的诉求越来越明显。目前，近场语音识别已经能够达到很高的识别率，但是远场语音识别，尤其是说话人距离麦克风3至5米的距离，由于噪声和/或混响等干扰因素的影响，识别率远远低于近场语音识别。

远场识别性能之所以下降如此明显，是由于在远场场景下，语音信号幅度过低，噪声和/或混响等其他干扰因素凸显，而识别系统中的声学模型通常是由近场语音数据训练生成，识别数据和训练数据的不匹配导致远场语音识别率迅速下降。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种远场语音识别方法。该方法中，对远场语音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

本发明的第二个目的在于提出一种远场语音识别装置。

为了实现上述目的，本发明第一方面实施例的远场语音识别方法，包括：将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；通过远场识别的声学模型对所述待识别的信号进行识别。

本发明实施例的远场语音识别方法中，将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号，然后通过远场识别的声学模型对所述待识别的信号进行识别，其中，上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

为了实现上述目的，本发明第二方面实施例的远场语音识别装置，包括：获得模块，用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；识别模块，用于通过远场识别的声学模型对所述获得模块获得的待识别的信号进行识别。

本发明实施例的远场语音识别装置中，获得模块将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号，然后识别模块通过远场识别的声学模型对所述待识别的信号进行识别，其中，上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明远场语音识别方法一个实施例的流程图；

图2为本发明远场语音识别方法另一个实施例的流程图；

图3为本发明远场语音识别方法中冲激响应函数一个实施例的示意图；

图4为本发明远场语音识别装置一个实施例的结构示意图；

图5为本发明远场语音识别装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明远场语音识别方法一个实施例的流程图，如图1所示，上述远场语音识别方法可以包括：

步骤101，将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号。

步骤102，通过远场识别的声学模型对上述待识别的信号进行识别。

上述远场语音识别方法中，将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号，然后通过远场识别的声学模型对所述待识别的信号进行识别，其中，上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

图2为本发明远场语音识别方法另一个实施例的流程图，如图2所示，步骤102之前，还可以包括：

步骤201，确定远场声源到每一路麦克风之间的冲激响应函数。

具体地，确定远场声源到每一路麦克风之间的冲激响应函数可以为：根据远场语音识别的应用场景，确定麦克风阵列拓扑结构；根据上述麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。

具体实现时，可以根据具体的识别任务，确定远场语音识别的应用场景。举例来说，比如要将远场语音识别应用在智能电视系统中，那么可以设计一种含有N＝4路麦克风的均匀线性阵列，均匀的布置在电视机顶端。人与电视机(也就是与麦克风阵列)的距离大约为2至4米，这是一种典型的远场语音识别的场景。

确定了具体的应用场景和麦克风阵列拓扑结构之后，接下来需要估计远场声源到每一路麦克风之间的冲激响应函数。这一组冲激响应函数能够模拟原始声源经过空间传输和/或房间反射等影响，到达麦克风时的最终结果。说的再具体些，这一组冲激响应函数能够模拟远场空间的混响效应。

冲激响应函数的估计，可以利用数字信号处理理论获得。假设声源到第1路麦克风的冲激响应函数为h₁(n)，原始声源信号为x(n)，则第1路麦克风的接收信号可以表示为：

y(n)＝x(n)*h₁(n)(1)

式(1)中，*表示卷积。

对式(1)等号两边进行傅立叶变换，可得：

Y(ω)＝X(ω)H₁(ω)(2)

对式(2)等号两边取共轭，可得：

Y^{*} (ω) = X^{*} (ω) H_{1}^{*} (ω) - - - (3)

将式(2)与式(3)相乘，可得：

| Y^{2} (ω) | = | X^{2} (ω) | | H_{1}^{2} (ω) | - - - (4)

因此：

| H_{1}^{2} (ω) | = \frac{| Y^{2} (ω) |}{| X^{2} (ω) |} - - - (5)

可以在声源处，播放一段白噪声声源，然后在第一个麦克风的位置接收白噪声信号，便可得到X(ω)和Y(ω)，进而可以求出H₁(ω)以及h₁(n)。

利用同样的方法，可以估计出声源到另外三路麦克风之间的冲激响应函数h₂(n)、h₃(n)和h₄(n)。

对于家居客厅环境，一个典型的冲激响应函数可以如图3所示，图3为本发明远场语音识别方法中冲激响应函数一个实施例的示意图。

步骤202，将上述冲激响应函数与近场训练数据相卷积，获得每一路麦克风接收到的模拟远场信号。

具体地，将近场训练数据s(n)，与每一路冲激响应函数卷积，可以获得每一路麦克风接收到的模拟远场信号，如下所示：

x_c1(n)＝s(n)*h₁(n)(6)

x_c2(n)＝s(n)*h₂(n)(7)

x_c3(n)＝s(n)*h₃(n)(8)

x_c4(n)＝s(n)*h₄(n)(9)

这一步完成了训练数据从近场到远场的转换，从近场训练数据s(n)出发，得到了模拟远场信号x_c1(n)～x_c4(n)。每一路麦克风接收到的模拟远场信号都包含了声源到该路麦克风的冲激响应信息。换句话说，麦克风阵列的每一路模拟远场信号都是近场信号加入混响后的结果。

步骤203，将上述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理，获得一路输出信号。

具体地，可以将上述每一路麦克风接收到的模拟远场信号x_c1(n)～x_c4(n)，通过阵列处理模块，进行自适应波束形成处理。基于麦克风阵列的自适应波束形成有很多成熟的算法，本实施例对进行自适应波束形成处理时所采用的算法不作限定，但本实施例以采用基于广义旁瓣消除(GeneralizedSidelobeCanceler；GSC)的自适应波束形成方法为例进行说明。

采用GSC的自适应波束形成方法对目标声源方向进行增强处理，同时利用旁瓣消除能够抑制一部分来自其他方向的噪音和混响干扰信号，可以达到一定的抑制噪音和混响的作用。

最重要的是，在匹配训练阶段通过引入波束形成技术，使得输出信号中包含了阵列处理运算所产生的语音失真部分，利用上述输出信号重新训练获得的声学模型，除了可以“学习”到远场混响效应之外，还能够“学习”到波束形成处理所带来的语音变形效应，使得最终获得的远场识别的声学模型与待识别的信号更匹配，从而可以进一步改善远场识别性能。

步骤204，利用上述输出信号重新训练声学模型，获得远场识别的声学模型。

经过自适应波束形成处理后，可以得到一路输出信号。不难看出，这路输出信号既通过冲激响应函数的引入，模拟了远场混响效应，又通过自适应波束形成技术的引入，模拟了信号通过麦克风阵列处理后的失真效应，而这两点，恰好是远场识别与近场识别的两个最重要的不同点。利用上述输出信号重新训练声学模型，所获得的远场识别的声学模型，很好地学习了这两个重要的远场效应，使得上述远场识别的声学模型与待识别的信号更匹配，识别率也更高。

本实施例中，步骤201～步骤204与步骤101可以并行执行，也可以先后执行，但图2以步骤201～步骤204在步骤101之前执行为例示出。

获得上述远场识别的声学模型之后，在步骤101与步骤102的远场语音识别阶段，仍以在智能电视系统中进行远场语音识别为例，通过麦克风阵列接收到的4路待识别的远场语音，都是包含混响的信号，这一点已经通过卷积冲激响应函数的方式，灌输到了训练数据当中；将上述待识别的远场语音经过GSC自适应波束形成处理后，得到一路待识别的信号，然后通过上述远场识别的声学模型对这一路待识别的信号进行识别，这一路待识别的信号由于阵列处理的缘故，与原始信号相比产生一定的失真，这一点通过波束形成匹配训练技术也加入到了训练数据当中，所以本实施例中，待识别的信号与训练数据最大限度地实现了匹配。

此外，本实施例并没有真实录制大量的远场语音作为训练数据，虽然真实录制大量的远场语音作为训练数据是理论上最合理的训练方法，得到的模型也最匹配，但是这样做不仅浪费了大量的近场训练数据，而且要耗费大量的时间和人力来进行录制，成本极高，现实中几乎不可行。本实施例提供的远场语音识别方法利用已有的近场语音作为源头，产生和近场语音同等规模的模拟远场训练数据，既节省了大量的录音成本，又显著地改善了远场识别效果。

本实施例提供的远场语音识别方法中，一方面，通过冲激响应函数的引入，将远场数据的混响效应引入到训练数据中，另一方面，将波束形成技术引入到匹配训练当中，使得语音信号通过阵列处理产生的变形和失真，也引入到训练数据当中，从而最大限度地实现了训练数据和识别数据的匹配，从而有效改善了远场识别的性能。实验证明，该方法可用于任何远场识别任务中，对远场识别性能具有明显地改善。

图4为本发明远场语音识别装置一个实施例的结构示意图，图4所示的远场语音识别装置可以实现本发明图1所示实施例的流程。如图4所示，上述远场语音识别装置可以包括：获得模块41和识别模块42；

其中，获得模块41，用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；

识别模块42，用于通过远场识别的声学模型对获得模块41获得的待识别的信号进行识别。

上述远场语音识别装置中，获得模块41将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号，然后识别模块42通过远场识别的声学模型对所述待识别的信号进行识别，其中，上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配，从而可以提升远场语音识别的识别性能。

图5为本发明远场语音识别装置另一个实施例的结构示意图，与图4所示的远场语音识别装置相比，不同之处在于，图5所示的远场语音识别装置还可以包括：确定模块43和训练模块44；

其中，确定模块43，用于在识别模块42对获得模块41获得的待识别的信号进行识别之前，确定远场声源到每一路麦克风之间的冲激响应函数；

具体地，确定模块43可以包括：拓扑结构确定子模块431和估计子模块432；

其中，拓扑结构确定子模块431，用于根据远场语音识别的应用场景，确定麦克风阵列拓扑结构；

估计子模块432，用于根据拓扑结构确定子模块431确定的麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。

拓扑结构确定子模块431确定了具体的应用场景和麦克风阵列拓扑结构之后，接下来估计子模块432需要估计远场声源到每一路麦克风之间的冲激响应函数。这一组冲激响应函数能够模拟原始声源经过空间传输和/或房间反射等影响，到达麦克风时的最终结果。说的再具体些，这一组冲激响应函数能够模拟远场空间的混响效应。

y(n)＝x(n)*h₁(n)(1)

式(1)中，*表示卷积。

对式(1)等号两边进行傅立叶变换，可得：

Y(ω)＝X(ω)H₁(ω)(2)

对式(2)等号两边取共轭，可得：

Y^{*} (ω) = X^{*} (ω) H_{1}^{*} (ω) - - - (3)

将式(2)与式(3)相乘，可得：

| Y^{2} (ω) | = | X^{2} (ω) | | H_{1}^{2} (ω) | - - - (4)

因此：

| H_{1}^{2} (ω) | = \frac{| Y^{2} (ω) |}{| X^{2} (ω) |} - - - (5)

利用同样的方法，估计子模块432可以估计出声源到另外三路麦克风之间的冲激响应函数h₂(n)、h₃(n)和h₄(n)。

对于家居客厅环境，一个典型的冲激响应函数可以如图3所示。

本实施例中，获得模块41，还用于将确定模块43确定的冲激响应函数与近场训练数据相卷积，获得每一路麦克风接收到的模拟远场信号；以及将上述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理，获得一路输出信号。

具体地，获得模块41将近场训练数据s(n)，与每一路冲激响应函数卷积，可以获得每一路麦克风接收到的模拟远场信号，如下所示：

x_c1(n)＝s(n)*h₁(n)(6)

x_c2(n)＝s(n)*h₂(n)(7)

x_c3(n)＝s(n)*h₃(n)(8)

x_c4(n)＝s(n)*h₄(n)(9)

然后，获得模块41可以将上述每一路麦克风接收到的模拟远场信号x_c1(n)～x_c4(n)，通过阵列处理模块，进行自适应波束形成处理。基于麦克风阵列的自适应波束形成有很多成熟的算法，本实施例对进行自适应波束形成处理时所采用的算法不作限定，但本实施例以采用基于广义旁瓣消除(GeneralizedSidelobeCanceler；GSC)的自适应波束形成方法为例进行说明。

训练模块44，用于利用获得模块41获得的输出信号重新训练声学模型，获得远场识别的声学模型。

具体地，经过自适应波束形成处理后，获得模块41可以得到一路输出信号。不难看出，这路输出信号既通过冲激响应函数的引入，模拟了远场混响效应，又通过自适应波束形成技术的引入，模拟了信号通过麦克风阵列处理后的失真效应，而这两点，恰好是远场识别与近场识别的两个最重要的不同点。训练模块44利用上述输出信号重新训练声学模型，所获得的远场识别的声学模型，很好地学习了这两个重要的远场效应，使得上述远场识别的声学模型与待识别的信号更匹配，识别率也更高。

训练模块44获得上述远场识别的声学模型之后，在远场语音识别阶段，仍以在智能电视系统中进行远场语音识别为例，通过麦克风阵列接收到的4路待识别的远场语音，都是包含混响的信号，这一点已经通过卷积冲激响应函数的方式，灌输到了训练数据当中；获得模块41将上述待识别的远场语音经过GSC自适应波束形成处理后，得到一路待识别的信号，然后识别模块42通过上述远场识别的声学模型对这一路待识别的信号进行识别，这一路待识别的信号由于阵列处理的缘故，与原始信号相比产生一定的失真，这一点通过波束形成匹配训练技术也加入到了训练数据当中，所以本实施例中，待识别的信号与训练数据最大限度地实现了匹配。

本实施例提供的远场语音识别装置中，一方面，通过冲激响应函数的引入，将远场数据的混响效应引入到训练数据中，另一方面，将波束形成技术引入到匹配训练当中，使得语音信号通过阵列处理产生的变形和失真，也引入到训练数据当中，从而最大限度地实现了训练数据和识别数据的匹配，从而有效改善了远场识别的性能。实验证明，该装置可用于任何远场识别任务中，对远场识别性能具有明显地改善。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGateArray；以下简称：PGA)，现场可编程门阵列(FieldProgrammableGateArray；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种远场语音识别方法，其特征在于，包括：

将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；

通过远场识别的声学模型对所述待识别的信号进行识别。

2.根据权利要求1所述的方法，其特征在于，所述通过远场识别的声学模型对所述待识别的信号进行识别之前，还包括：

确定远场声源到每一路麦克风之间的冲激响应函数；

将所述冲激响应函数与近场训练数据相卷积，获得每一路麦克风接收到的模拟远场信号；

将所述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理，获得一路输出信号；

利用所述输出信号重新训练声学模型，获得远场识别的声学模型。

3.根据权利要求2所述的方法，其特征在于，所述确定远场声源到每一路麦克风之间的冲激响应函数包括：

根据远场语音识别的应用场景，确定麦克风阵列拓扑结构；

根据所述麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。

4.一种远场语音识别装置，其特征在于，包括：

获得模块，用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理，获得一路待识别的信号；

识别模块，用于通过远场识别的声学模型对所述获得模块获得的待识别的信号进行识别。

5.根据权利要求4所述的装置，其特征在于，还包括：确定模块和训练模块；

所述确定模块，用于在所述识别模块对所述获得模块获得的待识别的信号进行识别之前，确定远场声源到每一路麦克风之间的冲激响应函数；

所述获得模块，还用于将所述确定模块确定的冲激响应函数与近场训练数据相卷积，获得每一路麦克风接收到的模拟远场信号；以及将所述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理，获得一路输出信号；

所述训练模块，用于利用所述获得模块获得的输出信号重新训练声学模型，获得远场识别的声学模型。

6.根据权利要求5所述的装置，其特征在于，所述确定模块包括：

拓扑结构确定子模块，用于根据远场语音识别的应用场景，确定麦克风阵列拓扑结构；

估计子模块，用于根据所述拓扑结构确定子模块确定的麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。