CN111261145A

CN111261145A - 语音处理装置、设备及其训练方法

Info

Publication number: CN111261145A
Application number: CN202010042843.3A
Authority: CN
Inventors: 吴渤; 于蒙; 陈联武; 温超; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-09
Anticipated expiration: 2040-01-15
Also published as: CN111261145B

Abstract

本发明公开了一种语音处理装置、设备及其训练方法，该方法包括：利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到目标对象语音；利用待训练的语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果；以及基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。所述语音处理装置结构简单，容易扩展，大大提升了语音处理模型的识别性能和鲁棒性。

Description

语音处理装置、设备及其训练方法

技术领域

本公开涉及计算机技术领域，尤其涉及一种基于人工智能的语音处理装置、设备及其训练方法。

背景技术

随着人工智能技术的飞速发展，新兴起来基于人工智能的语音处理系统。例如，基于多通道的目标对象语音识别系统，整个系统由两个独立的子系统组成：1)前端的多通道目标对象语音增强系统，将多通道的带噪语音增强为单通道的目标对象语音；2)后端的语音识别系统，将增强后的单通道目标对象语音识别成文字。但是，这种分离的系统存在多个问题，例如：1)前端增强后的目标对象语音会出现干扰，此类干扰会大大降低后端识别的性能；2)前端增强系统的损失函数和后端识别系统的损失函数不一致，使得前端增强不是完完全全为后端识别而服务，从而导致整个基于多通道的目标对象语音识别系统无法达到最优性能。

因此，需要一种优化的语音处理方法，其将前端增强系统和后端的语音识别系统结合起来成为一个整体，并且使整个系统都最大化地利用后端识别结果来进行训练和优化，从而有效地提升系统的识别性能。

发明内容

本公开的实施例提供了一种语音处理系统的联合训练方法，包括：利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到目标对象语音；利用待训练的语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果；以及基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

根据本公开的实施例，所述联合训练方法还包括：设置初始语音提取模型的参数，以作为所述待训练的语音提取模型；以及设置初始语音识别模型的参数，以作为所述待训练的语音识别模型。

根据本公开的实施例，所述联合训练方法还包括：设置初始语音提取模型和初始语音识别模型的参数，利用第一语音集训练所述语音提取模型，以作为所述待训练的语音提取模型；以及利用第二语音集训练所述语音识别模型，以作为所述待训练的语音提取模型。

根据本公开的实施例，其中，所述训练语音输入具有其对应的参考识别结果，其中，基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练包括：基于所述训练语音输入的所述语音识别结果和所述参考识别结果，确定识别损失；以及根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型。

根据本公开的实施例，其中，根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型包括：调整所述语音提取模型和所述语音识别模型的参数，使得所述识别损失最小化。

本公开的实施例提供了一种语音处理方法，包括：获取语音输入；基于语音提取模型，对所述语音输入进行语音提取，以得到目标对象语音；和基于语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果；其中，所述语音提取模型和所述语音识别模型是基于单个损失函数联合训练的，并且所述损失函数是基于训练语音的语音识别结果确定的。

根据本公开的实施例，其中，对所述语音输入进行语音提取以得到目标对象语音包括：提取所述语音输入的幅度谱；根据所述语音输入的幅度谱获取目标对象语音掩码；基于所述语音输入的幅度谱及所述目标对象语音掩码获取目标对象语音的幅度谱；以及基于目标对象语音的幅度谱提取目标对象语音；其中，对提取出的目标对象语音进行语音识别以得到语音识别结果包括：将目标对象语音划分为多个目标对象语音帧；对于每个目标对象语音帧，提取该目标对象语音帧的语音特征；对该目标对象语音帧的语音特征进行帧扩展；以及基于该目标对象语音帧的帧扩展后的语音特征识别该目标对象语音帧对应的音素。

根据本公开的实施例，其中，基于该目标对象语音帧的帧扩展后的语音特征识别该目标对象语音帧对应的音素：基于该目标对象语音帧的帧扩展后的语音特征，预测该目标对象语音帧属于预先建立的音素集中的每一个音素的后验概率；以及将预测出的后验概率最大的音素作为该目标对象语音帧的识别结果。

根据本公开的实施例，其中，所述语音提取模型是基于待训练的语音提取模型而训练得到的，所述语音识别模型是基于待训练的语音识别模型而训练得到的，所述语音处理方法还包括：基于所述单个损失函数对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练，以得到所述语音提取模型和所述语音识别模型，其中，利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到中间目标对象语音；利用待训练的语音识别模型，对提取出的中间目标对象语音进行语音识别，以得到待训练的语音识别结果；以及基于所述待训练的语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

根据本公开的实施例，其中，所述训练语音输入具有其对应的参考识别结果，其中，基于所述待训练的语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练包括：基于所述训练语音输入的所述语音识别结果和所述参考识别结果，确定识别损失；以及根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型。

本公开的实施例提供了一种语音处理装置，包括：输入模块，用于获取语音输入；语音提取模块，其包括语音提取模型，用于对所述语音输入进行语音提取，以得到目标对象语音；和语音识别模块，其包括语音识别模型，用于对提取出的目标对象语音进行语音识别，以得到语音识别结果；其中，所述语音提取模型和所述语音识别模型是基于单个损失函数联合训练的，并且所述损失函数是基于训练语音的语音识别结果确定的。

根据本公开的实施例，其中，对所述语音输入进行语音提取以得到目标对象语音包括：提取所述语音输入的幅度谱；根据所述语音输入的幅度谱获取目标对象语音掩码；基于所述语音输入的幅度谱及所述目标对象语音掩码获取目标对象语音的幅度谱；以及基于目标对象语音的幅度谱提取目标对象语音；其中，对提取出的目标对象语音进行语音识别以得到语音识别结果包括：将目标对象语音划分为多个目标对象语音帧，对于每个目标对象语音帧：提取该目标对象语音帧的语音特征；对该目标对象语音帧的语音特征进行帧扩展；以及基于该目标对象语音帧的帧扩展后的语音特征识别该目标对象语音帧对应的音素。

根据本公开的实施例，其中，所述语音提取模型是基于待训练的语音提取模型而训练得到的，所述语音识别模型是基于待训练的语音识别模型而训练得到的，所述语音处理装置还包括：训练模块，其用于基于所述单个损失函数对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练，以得到所述语音提取模型和所述语音识别模型，其中，所述语音提取模块利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到中间目标对象语音；所述语音识别模块利用待训练的语音识别模型，对提取出的中间目标对象语音进行语音识别，以得到待训练的语音识别结果；以及基于所述待训练的语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

本公开的实施例提供了一种智能电子设备，包括：输入单元，用于获取语音输入；处理器；存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上所述的语音处理方法，以基于所述语音输入来输出语音识别结果。

根据本公开的实施例，其中，所述智能电子设备为智能音箱、智能电视、智能网关、智能手机或智能车载设备。

本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上任一项所述的方法。

本公开的实施例提供了一种基于人工智能的语音处理方法、装置及设备，通过将增强系统的输出层与识别系统的输入层搭建在一起构成一个完整的网络，并利用统一的损失函数进行训练，结构简单，容易扩展，大大提升了模型的识别性能和鲁棒性，在不同的信干比下，识别性能均优于分离系统的识别性能，而且在不同的目标对象和干扰对象角度差下，识别性能均优于分离系统的识别性能。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述的附图仅仅是本公开的示例性实施例。

图1示出了根据本公开实施例的语音处理系统的应用场景的示意图。

图2示出了一种语音处理系统的结构示意图。

图3示出了根据本公开实施例的语音处理系统的结构示意图。

图4A示出了根据本公开实施例的语音处理系统的联合训练方法的流程图。

图4B示出了根据本公开实施例的语音处理系统的联合训练方法的流程图。

图5示出了根据本公开实施例的语音处理装置的示意图。

图6示出了根据本公开实施例的语音处理系统的一个示例性具体结构框图。

图7示出了根据本公开实施例的智能电子设备的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

为便于描述本公开，以下介绍与本公开有关的概念。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。目前，自动语音识别技术已经被广泛地应用于各个领域中。

下面，将结合附图对根据本公开的示例实施例进行描述。

图1示出了根据本公开实施例的语音处理系统的应用场景100的示意图。

如图1所示，在场景100中，目标对象101发出语音(例如，“你好”)，智能设备104可以通过诸如其内置或外接的一个或多个麦克风(未示出)等语音接收装置接收目标对象101发出的目标语音。同时，在场景100中，智能设备104还可能接收到噪声103(例如鸟鸣声、风声和汽车鸣笛声等环境或背景噪声)和干扰对象102发出的干扰语音(例如，“不知道”)。根据本公开的实施例，在场景100中可以存在一个或多个目标对象101发出目标语音，并且可以存在一个或多个干扰对象102发出干扰语音。

智能设备104可以是任何类型的智能设备，例如智能音箱、智能电视、智能网关、智能手机、智能车载设备以及电子计算机等。根据本公开的实施例，在场景100中，智能设备104可以从通过一个或多个麦克风(或者称为，通道)接收到的包含有目标对象101发出的目标语音、噪声103以及干扰对象102发出的干扰语音的多通道带噪语音中提取出目标对象101发出的目标语音并对其进行语音识别。例如，如图1所示，智能设备可以提取并识别出目标对象101发出的目标语音为“你好”。

图2示出了一种语音处理系统200的结构示意图。

如图2所示，语音处理系统200利用了两个独立的子系统来对多通道带噪语音201进行处理。语音处理系统200可以包括前端的语音增强子系统211和后端的语音识别子系统212。语音增强子系统211可以从输入的多通道带噪语音201提取出目标对象语音208。作为一个独立的系统，语音增强子系统211可以采用特定的用于语音增强的损失函数(例如，MSE损失函数)来训练，以尽可能地提升增强处理后的目标对象的语音质量。作为另一独立的系统，语音识别子系统212可以对语音增强子系统211处理过后的语音数据进行进一步的识别处理，例如，从目标对象语音208中识别音素，并进一步将其识别为文本或指令信息。语音识别子系统212可以采用特定的用于语音识别的损失函数(例如，联结时间分类(Connectionist Temporal Classification，CTC)损失函数)来进行训练，以提升语音识别性能。

如图2所示的语音处理系统200利用了前后分离的两个独立的子系统来对多通道带噪语音201进行处理，而两个子系统由于功能不同，使用不同的损失函数来进行训练，因此分离的前端增强子系统不能完完全全为后端的识别处理服务，因此无法最大限度地利用前端增强系统，不能达到最优的效果。此外，在前后端分离的情况下，分离的前端增强子系统的输出仍存在很多由于环境或系统不理想而造成的干扰，而这些干扰会大大降低后端识别系统的性能。

本公开提出了一种改进的基于人工智能的语音处理系统，通过将增强系统的输出层与识别系统的输入层搭建在一起构成一个完整的网络，并利用统一的损失函数进行训练，结构简单，容易扩展，大大提升了模型的识别性能和鲁棒性，在不同的信干比下，识别性能均优于分离系统的识别性能，而且在不同的目标对象和干扰对象角度差下，识别性能均优于分离系统的识别性能。

图3示出了根据本公开实施例的语音处理系统300的结构示意图。

如图3所示的语音处理系统300可以将图2中的语音增强子系统211的输出与语音识别子系统212的输入直接相连，构成一个整体。也就是说，根据本公开的实施例，语音处理系统300可以包括语音提取模型301和语音识别模型302，语音提取模型301的输出层直接搭建在语音识别模型302的输入层上，并且可以仅利用一个识别损失函数(例如，CTC损失函数)来训练整个网络，使得整个网络的训练和优化都是针对语音识别而进行的，从而提升整个语音处理系统300的语音识别性能。应了解，CTC损失函数仅仅只是示例，根据本公开实施例，可以采用其他形式的单个损失函数来对语音处理系统300进行训练。

此外，应当了解，实现任何特定功能的神经网络都是预先经过特定的样本进行训练和优化而得到的。根据本公开的实施例，如图3所示的语音处理系统300中的语音提取模型可以是经训练后能够实现语音提取的任何类型的网络模型，而语音识别模型可以是经训练后能够实现语音识别的任何类型的网络模型。语音处理系统300的一种具体结构将在下文结合图6进行详细描述。

图4A示出了根据本公开实施例的语音处理系统300的联合训练方法400的流程图。

首先，在步骤S401中，利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到目标对象语音。并且，在步骤S402中，利用待训练的语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果。

根据本公开的实施例，可以对一个初始语音提取模型进行参数设置，以作为所述待训练的语音提取模型；以及对一个初始语音识别模型进行参数设置，以作为所述待训练的语音识别模型。如上所述，初始语音提取模型可以是经参数配置和/或经训练后能够实现语音提取的任何类型的网络模型，而初始语音识别模型可以是经参数配置和/或经训练后能够实现语音识别的任何类型的网络模型。在一个实施例中，可以根据经验或者按照默认设置或者根据任何特定的预定规则来设置初始语音提取模型和初始语音识别模型的参数。例如，可以采取在有效范围内取随机值的方式来对初始语音提取模型和初始语音识别模型的参数进行初始化设置。

根据本公开的实施例，可以设置初始语音提取模型和初始语音识别模型的参数，利用第一语音集训练所述语音提取模型，以作为所述待训练的语音提取模型；以及利用第二语音集训练所述语音识别模型，以作为所述待训练的语音识别模型。在该实施例中，可以在如上所述对初始语音提取模型和初始语音识别模型的参数进行初始化设置之后，进一步对两个模型分别进行预训练，以分别作为所述待训练的语音提取模型和语音识别模型。

在一个实施例中，可以预先构建包括多个多通道带噪语音样本的第一语音集，其中，每个多通道带噪语音样本可以包括目标对象语音和/或噪声和/或干扰语音，其中，每个多通道带噪语音样本可以具有其预先确定的参考提取结果。例如，第一语音集中的一个语音样本A可以包括目标对象语音“你好”、鸟鸣声以及干扰语音“不知道”，并且语音样本A的对应参考提取结果可以是与目标对象语音“你好”相对应的语音数据。可以基于第一语音集中每个多通道带噪语音样本经语音提取模型处理后获得的语音提取结果和其对应的参考提取结果来确定提取损失，并根据该提取损失来预训练语音提取模型。例如，可以通过最小化MSE损失函数来预训练语音提取模型，以作为如步骤S401中所述的待训练的语音提取模型。

在一个实施例中，可以预先构建包括多个目标对象语音样本的第二语音集，其中，每个目标对象语音样本可以具有其预先确定的参考识别结果。例如，第二语音集中的一个语音样本B可以是与目标对象语音“你好”相对应的语音数据，并且语音样本B的对应参考识别结果可以是语义“你好”。可以基于第二语音集中每个语音样本经语音识别模型处理后获得的语音识别结果和其对应的参考识别结果来确定识别损失，并根据该识别损失来预训练语音识别模型。例如，可以采用CTC损失函数来预训练语音识别模型，以作为如步骤S402中所述的待训练的语音识别模型。

接下来，在步骤S403中，基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

根据本公开的实施例，联合训练中使用的训练语音输入可以具有其对应的参考识别结果。图4B示出了根据本公开实施例的语音处理系统的联合训练方法410的流程图。如图4B所示，基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练可以包括：在步骤S411中，基于所述训练语音输入的所述语音识别结果和所述参考识别结果，确定识别损失；以及在步骤S412中，根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型。

在一个实施例中，可以预先构建包括多个训练语音输入样本的第三语音集，其中，每个训练语音输入可以是一个多通道带噪语音样本，其可以包括目标对象语音和/或噪声和/或干扰语音，其中，每个多通道带噪语音样本可以具有其预先确定的参考识别结果。例如，第三语音集中的一个训练语音输入样本C可以包括目标对象语音“你好”、鸟鸣声以及干扰语音“不知道”，并且训练语音输入样本C的对应参考识别结果可以是与目标对象语音“你好”相对应的语义“你好”。可以基于第三语音集中每个训练语音输入样本经待训练的语音提取模型和待训练的语音识别模型处理后获得的语音识别结果和其对应的参考识别结果来确定识别损失，并根据该识别损失来联合训练待训练的语音提取模型和待训练的语音识别模型。在一个实施例中，联合训练可以包括调整待训练的语音提取模型和待训练的语音识别模型的参数，使得识别损失最小化。在一个实施例中，可以采用例如CTC损失函数来联合训练待训练的语音提取模型和待训练的语音识别模型。通过采用统一的单个损失函数对整个网络进行联合训练，可以使得整个网络的训练和优化都是针对于语音识别而进行的，从而可以大大提升整个语音处理网络的语音识别性能。

本公开的实施例还提供了一种语音处理方法，包括：获取语音输入；基于语音提取模型，对所述语音输入进行语音提取，以得到目标对象语音；和基于语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果；其中，所述语音提取模型和所述语音识别模型是基于单个损失函数联合训练的，并且所述损失函数是基于训练语音的语音识别结果确定的。

具体地，结合图3所示的语音处理系统300来进行描述。

如图3所示，系统获取的语音输入可以是通过一个或多个麦克风接收到的包含有目标对象101发出的目标语音、噪声103以及干扰对象102发出的干扰语音的多通道带噪语音201。在一个实施例中，可以根据上述联合训练方法400对如图3所示的语音提取模型和语音识别模型预先进行联合训练。如上所述，可以使用针对语音识别而确定的损失函数来对整个系统进行联合训练，例如，可以使用如上所述的CTC损失函数。经过联合训练后的语音提取模型和语音识别模型的处理，可以从语音输入中得到其对应的语音识别结果。

在一个实施例中，对提取出的目标对象语音进行语音识别以得到语音识别结果可以包括：将目标对象语音识别为文本或指令。例如，可以将目标对象语音“你好”的语音数据识别为文本“你好”。例如，可以将目标对象语音“暂停”识别为对应于暂停播放的指令。

在一个实施例中，上述语音处理方法所使用的语音提取模型可以是基于待训练的语音提取模型而训练得到的，上述语音处理方法所使用的语音识别模型可以是基于待训练的语音识别模型而训练得到的，并且上述语音处理方法还可以包括：基于单个损失函数对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练，以得到所述语音提取模型和所述语音识别模型，其中，利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到中间目标对象语音；利用待训练的语音识别模型，对提取出的中间目标对象语音进行语音识别，以得到待训练的语音识别结果；以及基于所述待训练的语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

图5示出了根据本公开实施例的语音处理装置500的示意图。

根据本公开实施例的语音处理装置500可以包括：输入模块501、语音提取模块502和语音识别模块503。其中，输入模块501用于获取语音输入；语音提取模块502包括语音提取模型，用于对所述语音输入进行语音提取，以得到目标对象语音；语音识别模块503包括语音识别模型，用于对提取出的目标对象语音进行语音识别，以得到语音识别结果。在一个实施例中，语音提取模型和语音识别模型是基于单个损失函数联合训练的，并且该损失函数是基于训练语音的语音识别结果确定的。

在一个实施例中，对提取出的目标对象语音进行语音识别以得到语音识别结果可以包括：将目标对象语音识别为文本或指令。

在一个实施例中，所述语音提取模型可以是基于待训练的语音提取模型而训练得到的，所述语音识别模型可以是基于待训练的语音识别模型而训练得到的，所述语音处理装置500还可以包括：训练模块504，其用于基于所述单个损失函数对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练，以得到所述语音提取模型和所述语音识别模型，其中，所述语音提取模块利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到中间目标对象语音；所述语音识别模块利用待训练的语音识别模型，对提取出的中间目标对象语音进行语音识别，以得到待训练的语音识别结果；以及基于所述待训练的语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

在一个实施例中，训练语音输入可以具有其对应的参考识别结果，其中，基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练包括：基于所述训练语音输入的所述待训练的语音识别结果和所述参考识别结果，确定识别损失；以及根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型。

图6示出了根据本公开实施例的语音处理系统的一个示例性具体结构框图600。

如图6所示，语音提取模型301可以采用例如多通道时域音频分离网络(time-domain audio separation network，TasNet)来实现，其可以包括编码器602、增强器603、乘法器606以及解码器607。其中，编码器602可以用于将输入的多通道带噪语音201变换为混合幅度谱605，其可以通过例如短时傅里叶变换(Short-time Fourier Transform，STFT)来实现。增强器603可以对编码器602输出的混合幅度谱进行增强处理以得到目标对象语音掩码604，其可以由例如时间全卷积网络(Temporal Fully-convolutional Network，TCN)来构成。在一个实施例中，增强器603可以使用大量具有对应的参考语音掩码的目标对象语音样本进行预先训练。乘法器606可以将编码器602输出的混合幅度谱与增强器603输出的目标对象语音掩码604进行乘法运算，以提取出目标对象语音的幅度谱信息。最后，解码器607可以对乘法器606的输出进行解码处理，并进一步将处理结果输出到语音识别模型302的输入层。与编码器602相对应地，解码器607可以由例如短时傅里叶逆变换(inverseShort-time Fourier Transform，iSTFT)来实现。

语音识别模型302可以对语音提取模型301处理过后的语音数据进行进一步的识别处理。如图6所示，语音识别模型302可以进一步包括语音特征提取模型609、上下文扩展模型610以及长短期记忆全连接深度神经网络(Long Short-Term Memory And FullyConnected Deep Neural Network，CLDNN)613等。为了表征和识别语音数据，通常需要对语音数据的声音频率、音量、情绪、音高、能量等数据进行分析。这些数据可以被称为该语音数据的“语音特征数据”。为了便于语音数据的分析，上述的语音特征数据进一步地可以是利用各种语音特征提取模型而获取的。如图6所示，语音特征提取模型609包括但不限于fbank(又称FilterBank)或MFCC等。fbank语音特征提取模型可以以类似于人耳对其听到的声音进行处理的方式来提取语音特征。fbank语音特征提取模型通过对已分帧的语音数据进行傅里叶变换、能量谱计算和Mel滤波等操作，可以获取能够表征每一帧语音数据的数组(也被称为fbank特征向量)。该数组即为fbank语音特征数据。例如，由于语音信号在时间上的前后相关性，可以将时长为3015毫秒的语音数据分帧为200个帧长为30毫秒的语音数据帧进行fbank特征提取，其中，相邻两帧之间互有15毫秒的重叠。例如，可以为每一帧语音数据在频域上提取一个大小为1×40的fbank语音特征数组以用于后续识别处理。

一般地，分帧过后的语音数据的每一帧和其前后多个帧都是相关的，在进行语音识别时，充分利用当前帧的前后相关联的多个帧的信息可以大大提升语音识别的效率和准确性。因此，在进行识别处理之前，可以通过上下文扩展模型610对语音特征提取模型609的输出数据进行帧扩展，将语音数据帧进行上下文关联。例如，在上述实施例中，针对第50帧的语音数据，可以将其fbank语音特征数组与其前10帧和后10帧的语音数据所对应的fbank语音特征数组组合在一起(例如，可以组合为一个大小为21×40的fbank语音特征数组)，送入CLDNN模型进行后续识别处理。

最后，CLDNN 613可以对经过上述处理后的语音数据的语音特征进行语音识别。在一个实施例中，CLDNN 613可以是一个音素分类模型，其可以对输入语音特征和音素进行建模，预测出输入语音所对应的音素的后验概率。在一个实施例中，CLDNN 613可以基于当前语音数据帧的帧扩展后的语音特征，预测出当前语音数据帧属于预先建立的音素集中的每一个音素的后验概率，并将其中后验概率最大的音素作为当前语音数据帧的识别结果。在一个实施例中，在识别出每一语音数据帧的音素后，可以进一步采用各种语音处理方法将音素识别为文本或指令。根据本公开的实施例，可以如上所述使用CTC损失函数来对语音提取模型301和语音识别模型302预先进行联合训练。应了解，CTC损失函数仅仅只是示例，根据本公开实施例，可以采用其他形式的单个损失函数来对如图6所示的语音处理系统进行联合训练。

图7示出了根据本公开实施例的智能电子设备700的示意图。

根据本公开实施例的智能电子设备700可以包括：输入单元701、处理器702以及存储器703。

输入单元701用于获取语音输入。输入单元701可以是能够将声音信号转换为电信号的任何转换单元，例如麦克风。输入单元701可以以各种形式进行声电转换：电动式(动圈式、铝带式)，电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。输入单元701获取的语音输入可以以数字文件的方式存储于存储器703中。

处理器702可以根据存储在存储器703中的程序执行各种动作和处理。具体地，处理器702可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或者是ARM架构等。

存储器703存储有计算机可执行指令代码，该指令代码在被处理器702执行时用于实现人工智能网络，以基于语音输入来输出语音识别结果。其中，该人工智能网络是基于根据本公开实施例所述的任何联合训练方法来进行联合训练的。存储器703可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一个实施例中，智能电子设备700可以是智能音箱、智能电视、智能网关、智能手机或智能车载设备。

例如，在智能电子设备700为智能音箱的场景下，可以将目标对象语音识别为控制智能音箱的指令。例如，可以将目标对象语音“暂停”识别为对应于暂停播放的指令，可以将目标对象语音“下一曲”识别为对应于切换到下一播放内容的指令。

例如，在智能电子设备700为智能手机的场景下，可以将目标对象语音识别为文本。例如，在智能手机的即时通信应用中，可以对智能手机输入一串目标对象语音(例如，“你好”)，然后智能手机将其识别为对应的文本信息(文本“你好”)并以文本的方式进行发送。

本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机指令被处理器执行时实现如本文所述的语音处理系统的联合训练方法以及基于人工智能的语音处理方法。类似地，本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种语音处理系统的联合训练方法，包括：

利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到目标对象语音；

利用待训练的语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果；以及

基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

2.如权利要求1所述的联合训练方法，还包括：

设置初始语音提取模型的参数，以作为所述待训练的语音提取模型；以及

设置初始语音识别模型的参数，以作为所述待训练的语音识别模型。

3.如权利要求1所述的联合训练方法，还包括：

设置初始语音提取模型和初始语音识别模型的参数，

利用第一语音集训练所述语音提取模型，以作为所述待训练的语音提取模型；以及

利用第二语音集训练所述语音识别模型，以作为所述待训练的语音识别模型。

4.如权利要求1所述的联合训练方法，其中，所述训练语音输入具有其对应的参考识别结果，

其中，基于所述语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练包括：

基于所述训练语音输入的所述语音识别结果和所述参考识别结果，确定识别损失；以及

根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型。

5.如权利要求4所述的联合训练方法，其中，根据所述识别损失，联合训练所述待训练的语音提取模型和所述待训练的语音识别模型包括：

调整所述待训练的语音提取模型和所述待训练的语音识别模型的参数，使得所述识别损失最小化。

6.一种语音处理方法，包括：

获取语音输入；

基于语音提取模型，对所述语音输入进行语音提取，以得到目标对象语音；和

基于语音识别模型，对提取出的目标对象语音进行语音识别，以得到语音识别结果；

其中，所述语音提取模型和所述语音识别模型是基于单个损失函数联合训练的，并且所述损失函数是基于训练语音的语音识别结果确定的。

7.如权利要求6所述的语音处理方法，其中，对所述语音输入进行语音提取，以得到目标对象语音包括：

提取所述语音输入的幅度谱；

根据所述语音输入的幅度谱获取目标对象语音掩码；

基于所述语音输入的幅度谱及所述目标对象语音掩码获取目标对象语音的幅度谱；以及

基于目标对象语音的幅度谱提取目标对象语音。

8.如权利要求6所述的语音处理方法，其中，对提取出的目标对象语音进行语音识别，以得到语音识别结果包括：

将目标对象语音划分为多个目标对象语音帧；

对于每个目标对象语音帧，

提取该目标对象语音帧的语音特征；

对该目标对象语音帧的语音特征进行帧扩展；以及

基于该目标对象语音帧的帧扩展后的语音特征识别该目标对象语音帧对应的音素。

9.如权利要求8所述的语音处理方法，其中，基于该目标对象语音帧的帧扩展后的语音特征识别该目标对象语音帧对应的音素包括：

基于该目标对象语音帧的帧扩展后的语音特征，预测该目标对象语音帧属于预先建立的音素集中的每一个音素的后验概率；以及

将预测出的后验概率最大的音素作为该目标对象语音帧对应的音素。

10.如权利要求6所述的语音处理方法，其中，所述语音提取模型是基于待训练的语音提取模型而训练得到的，所述语音识别模型是基于待训练的语音识别模型而训练得到的，所述语音处理方法还包括：

基于所述单个损失函数对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练，以得到所述语音提取模型和所述语音识别模型，

其中，

利用待训练的语音提取模型，对训练语音输入进行语音提取，以得到中间目标对象语音；

利用待训练的语音识别模型，对提取出的中间目标对象语音进行语音识别，以得到待训练的语音识别结果；以及

基于所述待训练的语音识别结果来对所述待训练的语音提取模型和所述待训练的语音识别模型进行联合训练。

11.一种语音处理装置，包括：

输入模块，用于获取语音输入；

语音提取模块，其包括语音提取模型，用于对所述语音输入进行语音提取，以得到目标对象语音；和

语音识别模块，其包括语音识别模型，用于对提取出的目标对象语音进行语音识别，以得到语音识别结果；

12.一种智能电子设备，包括：

输入单元，用于获取语音输入；

处理器；

存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-10中的任一项所述的方法。