CN111785282A

CN111785282A - 一种语音识别方法及装置和智能音箱

Info

Publication number: CN111785282A
Application number: CN201910265991.9A
Authority: CN
Inventors: 郑斯奇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2020-10-16

Abstract

本申请公开了一种语音识别方法及装置和智能音箱，本申请使用根据近场语音和远场语音训练好的降噪自动编码器，将需要识别的语音信息的声纹特征向量，特别是远场的声纹特征向量，投影到了与近场声纹特征尽可能相似的空间，再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别，降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题，提升了远场声纹识别的鲁棒性。

Description

一种语音识别方法及装置和智能音箱

技术领域

本申请涉及但不限于智能语音技术，尤指一种语音识别方法及装置和智能音箱。

背景技术

在智能音箱的声纹识别中，通常用户会预先注册对应该用户的声纹信息，这样，在每次唤醒设备时，都会根据预先注册的声纹信息和用户当前输入的声纹信息，自动对该用户进行识别以确定说话人的身份。

在上述声纹识别场景中，用户注册时，通常是在面对音箱0.5米～1米左右的距离进行注册，但是，在日常使用中，用户可能从如家中的任何一个位置尝试唤醒设备。然而，距离位置和空间位置的变化会带来声音信息的变化，从而导致出现根据近距离注册的声纹信息，无法准确识别出来自远离设备的声纹信息的说话人的身份。

发明内容

本申请提供一种语音识别方法及装置和智能音箱，能够提升远场声纹识别的鲁棒性。

本发明实施例提供了一种语音识别方法，包括：

利用降噪自动编码器提取需要识别的语音信息的声纹特征向量；其中，降噪自动编码器是根据近场语音和远场语音训练得到的；

根据提取的声纹特征向量确定需要识别的语音信息的用户身份。

在一种示例性实例中，所述方法还包括：

根据所述近场语音提取近场声纹特征向量，根据所述远场语音提取远场声纹特征向量；

将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型，训练出与数学模型对应的所述降噪自动编码器的参数。

在一种示例性实例中，所述提取需要识别的语音信息的声纹特征向量，包括：

将所述需要识别的语音信息的声音能量频谱信息，输入训练好的说话人识别神经网络模型，得到所述需要识别的语音信息所代表的说话人的声纹特征向量；

将所述说话人的声纹特征向量输入所述降噪自动编码器，获得所述需要识别的语音信息所代表的说话人的近场声纹特征向量。

在一种示例性实例中，所述需要识别的语音信息为远场语音信息；所述说话人的声纹特征向量为远场声纹特征向量；

所述降噪自动编码器将远场声纹特征向量投影为所述近场声纹特征向量。

在一种示例性实例中，所述数学模型包括深度神经网络模型。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的语音识别方法。

本申请又提供了一种用于实现语音识别的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的语音识别方法的步骤。

本申请再提供了一种智能音箱，包括存储器和处理器，其中，存储器中存储有计算机程序；所述计算机程序被处理器执行时执行以下步骤：

利用降噪自动编码器提取需要识别的语音信息的声纹特征向量；其中，降噪自动编码器根据近场语音和远场语音训练得到；根据提取的声纹特征向量识别获得的语音信息的用户身份。

在一种示例性实例中，所述计算机程序被处理器执行时还执行以下步骤：根据所述近场语音提取近场声纹特征向量，根据所述远场语音提取远场声纹特征向量；将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入，输入数学模型，训练出与数学模型对应的所述降噪自动编码器的参数。

10、一种语音识别装置，包括：处理模块、识别模块；其中，

处理模块，用于利用降噪自动编码器提取需要识别的语音信息的声纹特征向量；其中，降噪自动编码器根据近场语音和远场语音训练得到；

识别模块，用于根据提取的声纹特征向量确定需要识别的语音信息的用户身份。

11、根据权利要求10所述的语音识别装置，还包括训练模块，用于：

根据所述近场语音提取近场声纹特征向量，根据所述远场语音提取远场声纹特征向量；将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型，训练出与数学模型对应的所述降噪自动编码器的参数。

本申请使用根据近场语音和远场语音训练好的降噪自动编码器，将需要识别的语音信息的声纹特征向量，特别是远场的声纹特征向量，投影到了与近场声纹特征尽可能相似的空间，再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别，降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题，提升了远场声纹识别的鲁棒性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请语音识别方法的实施例的流程图；

图2为本申请语音识别装置的实施例的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请语音识别方法的实施例的流程图，如图1所示，包括：

步骤100：利用降噪自动编码器提取需要识别的语音信息的声纹特征向量；其中，降噪自动编码器根据近场语音和远场语音训练得到。

在一种示例性实例中，所述语音识别方法，还包括：

根据近场语音和远场语音训练降噪自动编码器。

在一种示例性实施例中，根据近场语音和远场语音训练降噪自动编码器，可以包括：

根据近场语音提取近场声纹特征向量，根据远场语音提取远场声纹特征向量；

将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型，训练出与数学模型对应的降噪自动编码器的参数。

在一种示例性实施例中，数学模型可以是一种深度神经网络模型，输入层神经元数量与输出层神经元数量相等，以使输出信号与输入信号尽量相似，这种数学模型可以包括但不限于如：时延神经网络(TDNN)、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆神经网络(LSTM)等。

利用多组不同说话人的近场声纹特征向量和远场声纹特征向量对(pair)重新训练神经网络模型，该神经网络模型即是关于近、远场语音的降噪自动编码器。

在一种示例性实例中，本步骤中的提取需要识别的语音信息的声纹特征向量即是对需要识别的语音信息的声纹特征向量进行前向传播算法(forward propagation)，可以包括：

首先，将需要识别的语音信息的声音能量频谱信息，分别输入训练好的说话人识别神经网络模型；声音能量频谱信息经过该说话人识别神经网络，便可输出该音频所代表的说话人的声纹特征向量。这部分的实现可以通过相关技术得到，也就是说，输入说话人识别神经网络的语音是远场语音，则得到说话人的远场声纹特征向量；输入说话人识别神经网络的语音是近场语音，则得到说话人的近场声纹特征向量。

然后，再将经过说话人识别神经网络后得到的该音频所代表的说话人的声纹特征向量输入降噪自动编码器，获得该音频所代表的说话人的近场声纹特征向量，也就是说，将远场声纹特征向量转变为对应的近场声纹特征向量。

其中，说话人识别神经网络模型是根据近场语音和远场语音、通过说话人身份标识(id)作为标注训练得到的，也就是说，将近场的声音能力频谱信息和远场的声音能力频谱信息输入该说话人识别神经网络后，可以分别获得说话人在远场的特征向量和近场的特征向量。训练好的说话人识别神经网络模型具有区分说话人特征的能力。

本申请使用降噪自动编码器，将需要识别的语音信息的声纹特征向量投影到与近场声纹特征尽可能相似的空间中，特别是对于需要识别的语音信息是远场语音信息的场景，实现了将需要识别的远场声纹特征向量转变为对应的近场声纹特征向量，降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题。

步骤101：根据提取的声纹特征向量确定需要识别的语音信息的用户身份。

在一种示例性实例中，识别获得的语音信息的用户身份，包括：

将获得的声纹特征向量与注册时与用户身份对应的声纹信息进行匹配，确定获得的声纹特征向量对应的用户身份。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项的语音识别方法。

本申请再提供一种语音识别的装置，包括存储器和处理器，其中，存储器上存储有可在处理器上运行的计算机程序；所述计算机程序被处理器执行时实现上述任一项的语音识别方法的步骤。

本申请还提供一种智能音箱，包括存储器和处理器，其中，存储器中存储有计算机程序；所述计算机程序被处理器执行时执行以下步骤：利用降噪自动编码器提取需要识别的语音信息的声纹特征向量；其中，降噪自动编码器根据近场语音和远场语音训练得到；根据提取的声纹特征向量识别获得的语音信息的用户身份。

在一种示例性实例中，所述计算机程序被处理器执行时还执行以下步骤：根据近场语音提取近场声纹特征向量，根据远场语音提取远场声纹特征向量；将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入，输入数学模型，训练出与数学模型对应的降噪自动编码器的参数。

图2为本申请语音识别装置的实施例的组成结构示意图，如图2所示，至少包括：处理模块、识别模块；其中，

在一种示例性实例中，本申请语音识别装置还包括：训练模块，用于根据近场语音提取近场声纹特征向量，根据远场语音提取远场声纹特征向量；将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型，训练出与数学模型对应的降噪自动编码器的参数。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音识别方法，包括：

2.根据权利要求1所述的语音识别方法，所述方法还包括：

3.根据权利要求1或2所述的语音识别方法，其中，所述提取需要识别的语音信息的声纹特征向量，包括：

4.根据权利要求3所述的语音识别方法，其中，所述需要识别的语音信息为远场语音信息；所述说话人的声纹特征向量为远场声纹特征向量；

5.根据权利要求2所述的语音识别方法，其中，所述数学模型包括深度神经网络模型。

6.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求5任一项所述的语音识别方法。

7.一种用于实现语音识别的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求5任一项所述的语音识别方法的步骤。

8.一种智能音箱，包括存储器和处理器，其中，存储器中存储有计算机程序；所述计算机程序被处理器执行时执行以下步骤：

9.根据权利要求8所述的智能音箱，所述计算机程序被处理器执行时还执行以下步骤：根据所述近场语音提取近场声纹特征向量，根据所述远场语音提取远场声纹特征向量；将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入，输入数学模型，训练出与数学模型对应的所述降噪自动编码器的参数。

10.一种语音识别装置，包括：处理模块、识别模块；其中，

11.根据权利要求10所述的语音识别装置，还包括训练模块，用于：