CN111627425A

CN111627425A - 一种语音识别方法及系统

Info

Publication number: CN111627425A
Application number: CN201910111593.1A
Authority: CN
Inventors: 张仕良; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2020-09-04
Anticipated expiration: 2039-02-12
Also published as: WO2020164397A1; CN111627425B; US20220028404A1

Abstract

本申请公开了一种语音识别方法及系统，本申请实施例通过预先设置的DoA角度，将空间分成若干个区域，从而将信号源划分至不同的空间区域；进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向，避免了在复杂环境下，由于估计信号的信噪比和信号源方向而带来的识别不准确的问题，从而保障了语音识别结果的准确性。

Description

一种语音识别方法及系统

技术领域

本申请涉及但不限于信号处理技术，尤指一种语音识别方法及系统。

背景技术

相关技术中，远场语音识别系统主要包括两个组成部分：一是前端信号增强部分，用于对接收到的多通道带噪语音信号进行处理，从而得到增强后的单通道语音信号。前端信号增强部分通过利用多个通道的语音信号之间的关联性，去除一定的噪声干扰，提升信号的信噪比；另一个是后端常用的语音识别(ASR)部分，用于对前端信号增强部分处理后的单通道语音信号输入一个通用的语音识别系统，以得到最终的语音识别结果。

在复杂环境下，很难估计出信号的信噪比和信号源方向，也就是说，相关技术中的远场语音识别技术很难保障语音识别结果的准确性。

发明内容

本申请提供一种语音识别方法及系统，能够保障语音识别结果的准确性。

本发明实施例提供了一种语音识别方法，包括：

按照不同的波达方向DoA对信号源进行划分；

对对应于不同DoA的信号源分别进行增强处理；

对增强处理后的对应不同DoA的信号分别进行语音识别，得到对应不同DoA的识别结果；

将不同DoA的识别结果输入各自的声学模型，并对各声学模型的输出结果进行融合处理，得到识别结果。

在一种示例性实例中，所述按照不同的波达方向DoA对信号源进行划分，包括：

将空间划分为多个区域，从而将信号源划分至不同DoA角度形成的区域。

在一种示例性实例中，所述DoA角度包括以下至少之一：30度、60度、90度、120度、150度。

在一种示例性实例中，所述对对应于不同DoA的信号源分别进行增强处理，包括：

对所述对应于不同DoA的信号源都分别进行基于延时叠加DAS的波束形成方法，得到所述增强处理后的信号。

对所述对应于不同DoA的信号源都分别进行MVDR的波束形成方法，得到所述增强处理后的信号。

在一种示例性实例中，所述方法之前还包括：根据不同的所述DoA对空间进行区域划分；对不同区域内的语音信号进行语音增强处理，得到不同的增强信号样本；利用得到的各样本训练得到对应不同DoA的所述声学模型。

在一种示例性实例中，所述将不同DoA的识别结果输入各自的声学模型，并对各声学模型的输出结果进行融合处理，得到识别结果，包括：

将对应不同DoA的所述识别结果输入各自所述声学模型；对各声学模型的输出结果进行融合，得到所述识别结果。

在一种示例性实例中，所述融合通过基于ROVER的融合系统实现。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的语音识别方法。

本申请又提供了一种用于实现信息分享的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的语音识别方法的步骤。

本申请还提供了一种音箱，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的语音识别方法的步骤。

本申请再提供了一种语音识别系统，包括：预处理模块、第一处理模块、第二处理模块、识别模块；其中，

预处理模块，用于按照不同的DoA对信号源进行划分；

第一处理模块，用于对对应于不同DoA的信号源分别进行增强处理；

第二处理模块，用于对增强处理后的对应不同DoA的信号分别进行语音识别，得到对应不同DoA的识别结果；

识别模块，用于将不同DoA的识别结果输入各自的声学模型，并对各声学模型的输出结果进行融合处理，得到识别结果。

在一种示例性实例中，所述装置还包括：训练模块，用于根据不同的所述DoA对空间进行区域划分；对不同区域内的语音信号进行语音增强处理，得到不同的增强信号样本；利用得到的各样本训练得到对应不同DoA的所述声学模型。

本申请包括：按照不同的波达方向DoA对信号源进行划分；对对应于不同DoA的信号源分别进行增强处理；对增强处理后的对应不同DoA的信号分别进行语音识别，得到对应不同DoA的识别结果；将不同DoA的识别结果输入各自的声学模型，并对各声学模型的输出结果进行融合处理，得到识别结果。本申请实施例通过预先设置的DoA角度，将空间分成若干个区域，从而将信号源划分至不同的空间区域；进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向，避免了在复杂环境下，由于估计信号的信噪比和信号源方向而带来的识别不准确的问题，从而保障了语音识别结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请语音识别方法的流程示意图；

图2为本申请一种基于Delay-and-Sum波束形成方法的示例；

图3为本申请语音识别系统的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请语音识别方法的流程示意图，如图1所示，包括：

步骤100：按照不同的波达方向(DoA，Direction Of Arrival)对信号源进行划分。

声音到达麦克风阵列不同麦克风的延迟，通过这个延迟可以计算出目标声源即步骤100中的信号源可能在空间的某个角度内即某个DOA角度内。本申请发明人发现，当不能准确估计DoA时，可以将空间划分成不同的方向，然后假设目标声源在这个方向。

在一种示例性实例中，按照预先设置的至少一个DoA角度，比如30度、60度、90度、120度、150度等，将空间划分为多个区域，从而假设信号源出现在这些DoA角度区域内，也就是说，将信号源划分至不同DoA角度形成的区域。这里需要说明的是，信号源是移动的，所以不同时刻可能处于不同的DoA角度区域内，但是肯定会处于某个DoA角度区域内。

在复杂环境下，很难估计信号的信噪比和信号源方向，因此，本申请实施例中，并不需要估计每个时刻真实的信号源方向，而是通过预先设置的DoA角度，将空间分成若干个区域，从而假设信号源出现在这些DoA角度区域内。通过假设信号源总是会处于其中某一个DoA角度范围内，使得后续可以针对每个区域的信号源分别进行信号增强处理。

步骤101：对对应于不同DoA的信号源分别进行增强处理。

在一种示例性实例中，增强处理可以包括：

对对应于不同DoA的信号源都分别进行基于延时叠加(DAS，Delay-and-Sum)的波束形成方法，得到增强处理后的信号。图2为本申请一种基于Delay-and-Sum波束形成方法的示例，具体实现可以参见相关技术，这里仅仅是举例说明，并不用于限定本申请的保护范围。

在一种示例性实例中，增强处理可以包括：

对对应于不同DoA的信号源都分别进行MVDR的波束形成方法，得到增强处理后的信号。其中，MVDR(Minimum Variance Distortionless Response)是Capon于1967年提出的一种自适应的空间波数谱估计算法。

步骤102：对增强处理后的对应不同DoA的信号分别进行语音识别，得到对应不同DoA的识别结果。

在一种示例性实例中，语音识别可以包括如ASR系统。

本申请中，由于对对应不同DoA的信号都进行了波束形成，因此，经过语音识别如ASR系统后会得到若干个对应不同DoA的识别结果。

步骤103：将不同DoA的识别结果输入各自的声学模型，并对各神学模型的输出结果进行融合处理，得到信号源对应的识别结果。

本步骤之前还包括：根据不同的DoA对空间进行区域划分，然后对不同区域的语音信号进行语音增强处理，得到不同的增强信号样本，利用得到的各样本训练得到对应不同DoA的声学模型。训练的方法很多，可以采用相关技术来实现，具体实现并不用于限定本申请的保护范围。

在一种示例性实例中，本步骤可以包括：将对应不同DoA的识别结果输入各自训练好的声学模型，然后再将各声学模型的输出结果采用如基于ROVER的融合系统进行融合，得到最终信号源对应的识别结果。

在一种示例性实例中，融合可以通过一种基于识别结果投票的错误降低(ROVER，Recognizer Output Voting Error Reduction)方法的融合系统来实现。

本申请实施例通过预先设置的DoA角度，将空间分成若干个区域，从而将信号源划分至不同的空间区域；进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向，避免了在复杂环境下，由于估计信号的信噪比和信号源方向而带来的识别不准确的问题，从而保障了语音识别结果的准确性。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项的语音识别方法。

本申请再提供一种实现信息分享的装置，包括存储器和处理器，其中，存储器中存储有上述任一项的语音识别方法的步骤。

本申请还提供一种音箱，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的语音识别方法的步骤。

图3为本申请语音识别系统的组成结构示意图，如图3所示，至少包括：预处理模块、第一处理模块、第二处理模块、识别模块；其中，

预处理模块，用于按照不同的DoA对信号源进行划分；

第二处理模块，用于对增强处理后的对应不同DoA的信号分别进行语音识别，得到识别结果；

在一种示例性实例中，预处理模块具体用于：

按照预先设置的至少一个DoA角度，比如30度、60度、90度、120度、150度等，将空间划分为多个区域，从而假设信号源出现在这些DoA角度区域内，也就是说，将信号源划分至不同DoA角度形成的区域。

在一种示例性实例中，第一处理模块具体用于：

对对应于不同DoA的信号源都分别进行基于DAS的波束形成方法，得到增强后的信号；

或者，对对应于不同DoA的信号源都分别进行MVDR的波束形成方法，得到增强后的信号。其中，MVDR是Capon于1967年提出的一种自适应的空间波数谱估计算法。

在一种示例性实例中，第二处理模块可以是ASR系统。

在一种示例性实例中，识别模块具体用于：

将对应不同DoA的识别结果输入训练好的各自的声学模型，将各声学模型的识别结果采用如基于ROVER的融合系统进行融合，得到信号源对应的识别结果。

本申请语音识别装置还包括：训练模块，用于根据不同的所述DoA对空间进行区域划分；对不同区域内的语音信号进行语音增强处理，得到不同的增强信号样本；利用得到的各样本训练得到对应不同DoA的所述声学模型。

需要说明的是，本申请语音识别系统中的各模块可以单独设置在不同的实体设备中，也可以合理组合后设置在多个实体设备中，还可以是都设置在同一实体设备中。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音识别方法，包括：

按照不同的波达方向DoA对信号源进行划分；

对对应于不同DoA的信号源分别进行增强处理；

2.根据权利要求1所述的语音识别方法，其中，所述按照不同的波达方向DoA对信号源进行划分，包括：

3.根据权利要求2所述的语音识别方法，其中，所述DoA角度包括以下至少之一：30度、60度、90度、120度、150度。

4.根据权利要求1所述的语音识别方法，其中，所述对对应于不同DoA的信号源分别进行增强处理，包括：

5.根据权利要求1所述的语音识别方法，其中，所述对对应于不同DoA的信号源分别进行增强处理，包括：

6.根据权利要求1所述的语音识别方法，所述方法之前还包括：根据不同的所述DoA对空间进行区域划分；对不同区域内的语音信号进行语音增强处理，得到不同的增强信号样本；利用得到的各样本训练得到对应不同DoA的所述声学模型。

7.根据权利要求6或7所述的语音识别方法，其中，所述将不同DoA的识别结果输入各自的声学模型，并对各声学模型的输出结果进行融合处理，得到识别结果，包括：

8.根据权利要求6所述的语音识别方法，其中，所述融合通过基于ROVER的融合系统实现。

9.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求8任一项所述的语音识别方法。

10.一种用于实现信息分享的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求8任一项所述的语音识别方法的步骤。

11.一种音箱，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求8任一项所述的语音识别方法的步骤。

12.一种语音识别系统，包括：预处理模块、第一处理模块、第二处理模块、识别模块；其中，

预处理模块，用于按照不同的DoA对信号源进行划分；

13.根据权利要求12所述的语音识别系统，所述装置还包括：训练模块，用于根据不同的所述DoA对空间进行区域划分；对不同区域内的语音信号进行语音增强处理，得到不同的增强信号样本；利用得到的各样本训练得到对应不同DoA的所述声学模型。