CN117877511A

CN117877511A - 语音识别方法及相关装置

Info

Publication number: CN117877511A
Application number: CN202311727576.3A
Authority: CN
Inventors: 胡今朝; 吴重亮; 马志强; 李永超; 吴明辉; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-04-12

Abstract

本申请提出一种语音识别方法及相关装置，该方法包括：获取混合音频中的各个通道音频的音频特征；通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。上述方案能够准确识别混合音频中的语音内容，以及同时准确识别混合语音的语音内容的说话人。

Description

语音识别方法及相关装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法及相关装置。

背景技术

语音识别是实现人机交互的重要技术手段，通过语音识别能够使机器识别并理解用户语音指令，进而实现对机器的有效控制。

在多音区声学环境中还需要通过语音识别来确认多通道(一个音区对应一个通道)采集的混合音频中的语音来自于哪个音区的说话人。比如在车载场景中，对多个音区的麦克风采集的多通道混合音频进行语音识别时，需要准确识别音频中的语音是哪个音区的说话人发出的，进而便于机车准确响应用户语音。现有的语音识别方法重点在于准确识别语音内容，对说话人的区分能力不足。

发明内容

基于上述技术现状，本申请提出一种语音识别方法及相关装置，能够准确识别混合音频中的语音内容，以及同时准确识别混合语音的语音内容的说话人。

为了达到上述技术目的，本申请具体提出如下技术方案：

本申请第一方面提出一种语音识别方法，包括：

获取混合音频中的各个通道音频的音频特征；

通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；

对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

在一些实现方式中，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，包括：

将各个通道音频的音频特征输入预先训练的语音识别模型，以使所述语音识别模型通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道；

其中，所述音频通道对应的辅助特征，是对所述语音识别模型进行语音识别训练过程中所确定的。

在一些实现方式中，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征，包括：

为各个通道音频的音频特征分别添加音频通道对应的辅助特征，得到各个通道音频的复合音频特征；

对各个通道音频的复合音频特征分别进行基于注意力机制的特征上下文融合运算，得到各个通道音频的增强音频特征。

在一些实现方式中，所述辅助特征包括通道特征和说话人识别特征；

所述为各个通道音频的音频特征分别添加音频通道对应的辅助特征，包括：

将各个通道音频的音频特征分别与对应的音频通道的通道特征叠加，得到各个通道音频的第一复合音频特征；

在各个通道音频的第一复合音频特征的头部分别添加音频通道对应的说话人识别特征，得到各个通道音频的第二复合音频特征。

在一些实现方式中，所述语音识别模型的训练过程包括：

获取训练数据，所述训练数据包括混合音频、所述混合音频中包含的语音内容的标签，以及所述语音内容的说话人对应的音频通道标签；

分别获取所述训练数据的混合音频中的各个通道音频的音频特征；

将各个通道音频的音频特征输入语音识别模型，以使所述语音识别模型通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，得到所述语音识别模型输出的语音内容识别结果和音频通道识别结果；

将所述语音内容识别结果与所述语音内容的标签进行对比，计算第一损失函数，以及，将所述音频通道识别结果与所述音频通道标签进行对比，计算第二损失函数；

基于所述第一损失函数和所述第二损失函数，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化。

在一些实现方式中，基于所述第一损失函数和所述第二损失函数，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化，包括：

基于所述第一损失函数和所述第二损失函数，计算得到融合损失函数；

以降低所述融合损失函数为目标，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化。

在一些实现方式中，获取混合音频中的各个通道音频的音频特征，包括：

将混合音频中的各个通道音频分别输入预先训练的特征提取模型，得到各个通道音频的音频特征；

其中，所述特征提取模型通过对音频训练数据进行掩码预测训练以及语音分离和降噪训练得到。

本申请第二方面提出一种语音识别装置，包括：

特征提取单元，用于获取混合音频中的各个通道音频的音频特征；

特征处理单元，用于通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；

语音识别单元，用于对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

本申请第三方面提出一种音频系统，包括：

多个音频采集装置，以及与所述多个音频采集装置连接的音频处理器；

所述多个音频采集装置分别用于采集音频，从而得到由所述多个音频采集装置采集的多个通道音频组成的混合音频；

所述音频处理器，用于获取所述混合音频中的各个通道音频的音频特征；通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

在一些实现方式中，所述音频处理器上运行有特征提取模型和语音识别模型，所述特征提取模型用于获取所述混合音频中的各个通道音频的音频特征；

所述语音识别模型用于通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

本申请第四方面提出一种音频处理器，包括处理器和接口电路，所述处理器通过所述接口电路与音频采集装置连接；

所述处理器用于通过执行上述的语音识别方法，对所述音频采集装置采集的音频进行语音识别。

本申请第五方面提出一种电子设备，包括存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中的程序，实现上述的语音识别方法。

本申请第六方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法。

本申请提出的语音识别方法在混合音频的各个通道音频的音频特征中，分别添加用于辅助进行说话人识别的辅助特征，从而使各个通道音频的音频特征中都显式增加了用于识别说话人对应音频通道的特征成分，也就使得各个通道音频的音频特征更加有利于从混合音频中识别语音内容以及区分语音内容的说话人对应的音频通道。因此，采用本申请实施例提出的语音识别方法，能够从多通道混合音频中识别语音内容，并且能够准确识别语音内容的说话人对应的音频通道，即实现了既能识别语音内容，又能准确识别语音说话人的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种语音识别方法的流程示意图。

图2为本申请实施例提供的一种语音识别模型的结构示意图。

图3为本申请实施例提供的一种语音识别装置的结构示意图。

图4为本申请实施例提供的一种音频系统的结构示意图。

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于语音识别应用场景，尤其适用于多通道语音识别应用场景。采用本申请实施例技术方案，能够对通过多通道采集的混合语音进行语音识别，并且能够准确区分语音说话人所在通道，也就是能够准确区分语音说话人。

本申请实施例技术方案可以用于对特定的多音区、多通道声学环境中采集的混合语音进行语音内容的准确识别以及语音说话人的准确区分。上述的特定的多音区、多通道声学环境，可以是划分多音区的车载空间、会场空间等，本申请实施例不做具体限定。

以车载空间为例，为了提升不同座位乘员的视听体验，通常针对不同的座位独立设置扬声器和麦克风，从而形成相互独立的音区，比如针对主驾座位、副驾座位、后排左侧座位、后排右侧座位，分别设置独立的扬声器和麦克风，从而形成主驾音区、副驾音区、后排左侧音区和后排右侧音区，即在车载空间内形成四个不同的音区，用户可以针对自己所在音区进行音频控制，比如调整音量、设置音效等。

基于上述的多音区设置，当车载音频系统采集车内语音并进行识别时，通常需要准确识别语音来自于哪个音区，也就是来自于哪个音区的用户，进而可以准确响应用户需求。比如，当车载音频系统在全车各个音区均播放音乐时，若某一音区的乘客需要接打电话从而想要调低自己所在音区的音乐的音量，此时该用户可以说出“调低音乐音量”的语音指令。该语音指令会被各个音区的麦克风采集，进而形成多通道的混合音频输入到车载音频系统中，此时，车载音频系统不仅需要从混合音频中识别出“调低音乐音量”的语音指令，还需要准确区分该语音指令是哪个音区的用户发出的，进而可以实现对该用户所在音区的音量调整。

而常规的语音识别方法通常是致力于提高语音识别准确度，对于说话人的区分性能不佳。针对该技术现状，本申请实施例提出一种既能准确识别语音内容，又能明确区分语音说话人的语音识别方案，从而在上述的多通道语音识别场景中，能够准确识别语音内容以及说话人。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例首先提出一种语音识别方法，该方法可以被任意的具备语音识别功能的系统或装置所执行，比如可以被语音识别系统、语音处理装置等执行，从而能够针对特定的多音区、多通道声学环境中采集的混合语音进行语音内容的准确识别以及语音说话人的准确区分。

参见图1所示，该方法包括：

S101、获取混合音频中的各个通道音频的音频特征。

其中，上述的混合音频，是指由通过不同的音频通道所采集的音频混合构成的音频。可以理解，在该混合音频中，包含了通过不同音频通道所采集的音频成分，即包含了不同的通道音频，一个音频通道所采集的音频构成一组通道音频。一段混合音频中，可以包含多组通道音频。

上述的通过不同的音频通道所采集的音频，是指通过不同的音频采集装置所采集的音频。上述的音频采集装置，可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列，本申请实施例不做限定。

以上述的车载多音区声学环境为例，车载空间中的每个音区都设置有麦克风或麦克风阵列，用于采集音频。在该场景下，每个音区的麦克风或麦克风阵列，分别构成一个音频通道。当车内某一用户发出语音时，由于声波的传播，该语音会被各个音区的麦克风或麦克风阵列采集，从而形成多个通道音频，这些来自不同通道的音频最终混合成混合音频进入车载音频系统，进行后续的语音识别处理。

通常来说，音频通道与音区存在一对一的关系，即一个音区对应一个音频通道。而不同的音区通常代表着不同的说话人，比如在车载场景中，如果确定某一语音来自于主驾音区，则可以确定该语音是主驾发出的语音，如果确定某一语音来自于副驾音区，则可以确定该语音是副驾发出的语音。

因此可以理解，对混合音频中的语音内容区分音频通道，即相当于实现了识别该语音内容来自于哪个音区，也就是确定了该语音内容的说话人。

而对于一个多音区的声学环境来说，某一音区的说话人发出的语音会被各个音区采集，从而使得各个音区采集的各个通道音频均包含该说话人发出的语音，这就给识别混合音频中的语音内容来自于哪个音频通道带来了难度。本申请实施例提出的技术方案，可以实现从上述的混合音频中识别语音内容，同时区分该语音内容来自于哪个音频通道，也就是区分该语音内容的说话人是哪个音区的说话人，即达到了识别语音说话人的目的。

为了实现上述技术目的，本申请实施例在获取到混合音频时，先从混合音频中分离出各个通道音频，然后分别提取各个通道音频的音频特征。上述的音频特征可以是任意类型的音频特征，比如Filter Bank特征等。

示例性的，通过预先训练音频特征提取模型，可以实现对混合音频中的各个通道音频的音频特征提取，比如，通过预先训练的wav2vec、HuBert等模型对混合音频的各个通道音频分别进行音频特征提取，即可得到各个通道音频的音频特征。

S102、通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征。

具体的，各个通道音频的音频特征，可以用于对各个通道音频进行语音识别。而为了便于基于各个通道音频的音频特征，实现对混合音频中的语音内容的识别，以及实现对语音内容的说话人识别，本申请实施例在各个通道音频的音频特征中添加用于辅助识别语音说话人的辅助特征，得到各个通道音频的增强音频特征。

上述的辅助特征包括通道特征和/或说话人识别特征。

其中，通道特征表示音频通道的特征，说话人识别特征用于识别说话人对应的音频通道。

上述的通道特征和说话人识别特征，均是针对特定的多音区、多通道声学环境而预先确定的，其用于辅助对该特定的多音区、多通道声学环境中采集的混合语音进行语音内容的准确识别以及语音说话人的准确区分。

对于某一个特定的多音区、多通道的声学环境来说，比如车载多音区声学环境，其各个音区的音频采集装置所采集的音频具有不同的特征，这些不同特征不受具体音频内容的影响，而是由于音频采集装置个体之间的差异造成的，属于该音区固有的特征，该特征即可作为该音区的音频通道特征。也就是说，音区的音频通道特征，可以用来显式地表征音频通道。

而说话人识别特征，是专门用于识别说话人的特征，具体是用于识别说话人对应的音频通道的特征，该特征不受具体说话人的影响，而是与说话人所在音区的音频通道直接相关的。即，基于该说话人识别特征，可以识别出语音内容的说话人位于哪个音区，也就是对应哪个音频通道。

对应上述的特定的多音区、多通道声学环境预先建立与该声学环境中的各个音区和各个音频通道对应的通道特征和说话人识别特征。例如，可以通过有限次数的混合语音识别试验，对于上述特定的多音区、多通道声学环境预先建立与该声学环境中的各个音区和各个音频通道对应的、能够有利于准确识别语音说话人对应的音频通道的通道特征和说话人识别特征。

或者，可以将各个通道对应的通道特征和说话人识别特征作为语音识别模型进行语音识别的运算参数，从上述特定的多音区、多通道声学环境中采集混合音频，并利用采集的混合音频在对该语音识别模型进行语音识别和语音说话人识别训练，在训练过程中不断更新模型中对应各个音频通道的通道特征和说话人识别特征，从而得到用于辅助对该特定的多音区、多通道声学环境中采集混合音频进行语音说话人识别的、与各个音频通道对应的通道特征和说话人识别特征。

基于上述的通道特征和说话人识别特征，当通过步骤S101获取到混合音频中的各个通道音频对应的音频特征后，为每个通道音频的音频特征分别添加音频通道对应的通道特征和/或说话人识别特征，得到各个通道音频的增强音频特征。

其中，为各个通道音频的音频特征分别添加通道特征和/或说话人识别特征，可以是将各个通道音频的音频特征与对应的通道特征和/或说话人识别特征进行拼接，或者可以是将各个通道音频的音频特征与对应的通道特征和/或说话人识别特征进行融合等，本申请实施例不做限定。

可以理解，通过上述处理，各个通道音频的增强音频特征中，不仅包括具体的语音内容对应的特征成分，还包括用于识别语音内容的说话人对应的音频通道的特征成分，从而使得各个通道音频的增强音频特征不仅能够支持识别音频中的语音内容，还能够支持识别语音内容的说话人对应的音频通道，也就是能够支持区分语音内容的说话人。

以各个通道音频的音频特征中添加通道特征为例，各个通道音频的音频特征添加通道特征后，可以更加明确地识别某一通道音频中的语音内容是来自于哪个音频通道。当从各个通道音频中识别到相同的语音内容时，根据各个通道音频中识别到的该相同的语音内容在各通道音频中出现的时间先后顺序，可以区分该语音内容是由哪个音频通道采集的。比如，在车载多音区声学环境中，假设某一语音内容是主驾驶员发出的，则主驾音区会第一时间采集到该语音内容，然后副驾音区以及后排音区才会采集到该语音内容。按照上述时间关系，当从混合音频的各个通道音频的增强音频特征中分别识别到该语音内容时，从中找出该语音内容出现时间最早的通道音频，然后利用该通道音频的增强音频特征中的通道特征，即可确定该通道音频是哪个音频通道采集的音频，从而就识别出该语音内容的说话人对应的音频通道是主驾音区的音频通道。

S103、对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

具体的，对各个通道音频的增强音频特征进行特征融合，得到融合特征。该融合特征即为混合音频对应的音频特征。

然后基于该融合特征进行语音识别以及说话人识别处理，得到该混合音频中的语音内容，以及该语音内容的说话人对应的音频通道。

比如，可以通过对上述的融合特征进行解码，识别语音内容以及语音内容的说话人对应的音频通道。

或者，可以预先训练语音识别模型，将上述的融合特征输入预先训练的语音识别模型中，识别混合语音中的语音内容以及语音内容的说话人对应的音频通道。

通过上述介绍可见，本申请实施例提出的语音识别方法在混合音频的各个通道音频的音频特征中，分别添加用于辅助进行说话人识别的辅助特征，从而使各个通道音频的音频特征中都显式增加了用于识别说话人对应音频通道的特征成分，也就使得各个通道音频的音频特征更加有利于从混合音频中识别语音内容以及区分语音内容的说话人对应的音频通道。因此，采用本申请实施例提出的语音识别方法，能够从多通道混合音频中识别语音内容，并且能够准确识别语音内容的说话人对应的音频通道，即实现了既能识别语音内容，又能准确识别语音说话人的目的。

在一些实施例中，预先训练特征提取模型，用于提取混合音频中的各个通道音频的音频特征。

在该实施例中，该特征提取模型采用WavLM模型，由于WavLM模型是在英语数据上做的预训练，因此，为了使得该模型能够对中文语音进行特征提取，本申请实施例使用中文音频训练数据对该WavLM模型进行掩码预测训练。

在经过上述的掩码预测训练之后，本申请实施例进一步对该WavLM模型进行对语音训练数据的语音分离和降噪训练。

在上述的训练过程中，音频训练数据可以采用单通道、单说话人音频数据回放的方式得到多说话人、多通道的音频数据。然后，利用该多说话人、多通道的音频数据中的各个通道的音频数据，对上述的WavLM模型进行掩码预测训练，以及进行语音分离和降噪训练。

具体的训练过程可以参见常规的模型训练过程，本申请实施例不再详述。经过上述训练，该WavLM模型能够用于对混合音频的各个通道音频进行音频特征提取，即得到特征提取模型，可以用于对任意的混合音频中的各个通道音频进行音频特征提取处理。

在一些实施例中，还预先训练语音识别模型，用于实现本申请上述实施例提出的语音识别方法。

具体是，当按照上述实施例介绍获取混合音频的各个通道音频的音频特征后，将各个通道音频的音频特征输入预先训练的语音识别模型，使得该语音识别模型通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

上述的音频通道对应的辅助特征，是上述的语音识别模型内置的一项特征参数，其在对该语音识别模型进行语音识别训练的过程中而确定。

图2示出了上述的语音识别模型的一种结构示意图。

参见图2所示，该语音识别模型中包括特征添加模块、特征融合模块、特征解码模块。

其中，特征添加模块用于为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；特征融合模块用于对各个通道音频的增强音频特征进行特征融合，得到与混合音频对应的融合特征；特征解码模块用于对融合特征进行解码，识别混合音频中的语音内容以及语音内容的说话人对应的音频通道。

在一些实施例中，语音识别模型的特征添加模块为各个通道音频的音频特征分别添加音频通道对应的辅助特征，具体是为通道音频的音频特征分别添加音频通道对应的通道特征和说话人识别特征。

具体的，当为各个通道音频的音频特征添加辅助特征时，先将各个通道音频的音频特征分别与对应的音频通道的通道特征叠加，得到各个通道音频的添加了通道特征的音频特征，本申请实施例将其记为第一复合音频特征。

然后，在各个通道音频的第一复合音频特征的头部分别添加音频通道对应的说话人识别特征，得到各个通道音频的第二复合音频特征。

比如，在车载多音区声学环境中，当采集到来自各个车载音区的混合音频时，对各个音区采集的各个通道音频的音频特征添加辅助特征。以主驾音区的通道音频为例，先将主驾音区的通道音频的音频特征，与主驾音区的音频通道的通道特征叠加，得到主驾音区的通道音频的第一复合音频特征。然后，在第一复合音频特征的头部添加主驾音区的音频通道对应的说话人识别特征，得到主驾音区的通道音频的第二复合音频特征。

参照上述处理，对其他车载音区的通道音频的音频特征分别添加辅助特征，即可得到各个音区的通道音频的符合音频特征。

在一些实施例中，在通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征时，在按照上述实施例介绍为各个通道音频的音频特征分别添加音频通道对应的辅助特征，得到各个通道音频的复合音频特征(即上述的第二复合音频特征)后，还对各个通道音频的复合音频特征分别进行基于注意力机制的特征上下文融合运算，得到各个通道音频的增强音频特征。

具体的，在分别得到各个通道音频的复合音频特征后，对每个通道音频的复合音频特征，分别进行self-attention的运算，使得该复合音频特征中的音频数据特征成分和辅助特征成分充分融合，使得音频内容与音频通道之间的关系更加紧密，更加有利于识别音频内容中的语音内容与语音内容的说话人对应的音频通道。

在一些实施例中，通过上述实施例介绍的处理过程得到各个通道音频的增强音频特征后，各个通道音频的增强音频特征进入特征融合模块，特征融合模块对各个通道音频的增强音频特征进行特征融合，比如对各个通道音频的增强音频特征进行多通道自注意力运算，以及进行特征flatten处理，得到与混合音频对应的融合特征。最后，由特征解码模块用于对融合特征进行解码，识别混合音频中的语音内容以及语音内容的说话人对应的音频通道。

示例性的，混合音频的融合特征头部的说话人识别特征用作进行语音说话人对应通道的判断，而融合特征的其他部分则用于进行语音内容识别。

混合音频的融合特征头部的说话人识别特征被变形为(c,2)的张量后，做c次的二分类判断，每次判断用于确定语音内容是否为c通道的说话人发出的。其中，c表示语音通道的总数。

在一些实施例中，还公开了对上述的语音识别模型的训练方案，该训练过程包括如下A1～A5的步骤：

A1、获取训练数据，所述训练数据包括混合音频、所述混合音频中包含的语音内容的标签，以及所述语音内容的说话人对应的音频通道标签。

本申请实施例从多音区声学环境中，通过多音区的音频通道进行说话人语音采集，得到混合音频。该混合音频作为对语音识别模型进行训练的训练样本。同时，本申请实施例还对上述的多音区声学环境中的说话人的纯净语音进行采集，并从中识别纯净语音内容作为混合音频中的语音内容的标签。以及，对上述的多音区声学环境中的说话人对应的音频通道进行标记，作为混合音频中的语音内容的说话人对应的音频通道标签。

以车载多音区声学环境为例，在该声学环境中安排一个或多个用户说话，同时，说话用户头戴麦克风用于采集用户语音。车厢内各个用户说话的语音会被各个音区的麦克风采集，从而得到多个音频通道采集的多个通道音频组成的混合音频。同时，用户头戴麦克风能够采集到用户的清晰语音，对该语音进行识别即可得到混合音频中的语音内容的标签。以及，对车厢内说话的用户所在音区进行标记，即可得到混合音频中的语音内容的说话人对应的音频通道标签。

A2、分别获取所述训练数据的混合音频中的各个通道音频的音频特征。

具体的，可以通过上述实施例中介绍的特征提取模型，分别提取上述的训练数据的混合音频中的各个通道音频的音频特征。即，将上述的训练数据的混合音频中的各个通道音频分别输入上述实施例介绍的特征提取模型，得到该特征提取模型提取的各个通道音频的音频特征。

A3、将各个通道音频的音频特征输入语音识别模型，以使所述语音识别模型通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，得到所述语音识别模型输出的语音内容识别结果和音频通道识别结果。

具体的，将各个通道音频的音频特征输入上述的语音识别模型，使得该语音识别模型进行语音识别处理，即，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，得到所述语音识别模型输出的语音内容识别结果和音频通道识别结果。该语音识别模型进行上述语音识别处理的具体处理过程，可参见上述实施例的介绍。

其中，语音识别模型为各个通道音频的音频特征分别添加音频通道对应的辅助特征，具体是先将各个通道音频的音频特征与对应的音频通道的通道特征进行叠加，然后在叠加得到的特征头部添加说话人识别特征。

在初始训练时，上述的通道特征和说话人识别特征均为随机的特征，在训练过程中，对这些特征进行迭代更新。

A4、将所述语音内容识别结果与所述语音内容的标签进行对比，计算第一损失函数，以及，将所述音频通道识别结果与所述音频通道标签进行对比，计算第二损失函数。

具体的，将语音识别模型输出的对混合语音的语音识别结果与混合语音对应的语音内容的标签进行对比，计算两者之间的差异确定第一损失函数，作为语音识别模型的语音识别损失。

以及，将语音识别模型输出的语音内容的说话人对应的音频通道，与混合语音的语音内容的说话人对应的音频通道标签进行对比，计算两者之间的差异确定第二损失函数，作为语音识别模型的说话人识别损失。

A5、基于所述第一损失函数和所述第二损失函数，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化。

具体的，基于上述的第一损失函数和第二损失函数，以降低第一损失函数和第二损失函数为目标，对语音识别模型中的对应各个音频通道的通道特征和说话人识别特征进行优化，以及对语音识别模型的语音识别运算参数进行优化。

在一些实现方式中，先基于第一损失函数和第二损失函数，计算得到融合损失函数，即计算第一损失函数和第二损失函数的加权和，得到融合损失函数。

然后以降低该融合损失函数为目标，对语音识别模型中的对应各个音频通道的通道特征和说话人识别特征进行优化，以及对语音识别模型的语音识别运算参数进行优化。

经过上述训练，语音识别模型中的对应各个音频通道的通道特征和说话人识别特征越来越准确，而且语音识别模型基于各个音频通道的通道特征和说话人识别特征识别混合音频中的语音内容以及识别语音内容的说话人对应的音频通道的能力越来越强。从而使得该语音识别模型能够对上述的特定的多音区、多通道声学环境中采集的混合音频进行准确的语音内容以及语音说话人识别。

与上述的语音识别方法相对应的，本申请实施例还提供了一种语音识别装置，参见图3所示，该装置包括：

特征提取单元100，用于获取混合音频中的各个通道音频的音频特征；

特征处理单元110，用于通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；

语音识别单元120，用于对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

在一些实现方式中，所述语音识别模型的训练过程包括：

本实施例提供的语音识别装置，与本申请上述实施例所提供的语音识别方法属于同一申请构思，可执行本申请上述任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的语音识别方法的具体处理内容，此处不再加以赘述。

以上的特征提取单元100、特征处理单元110和语音识别单元120所实现的功能可以分别由相同或不同的处理器实现，本申请实施例不作限定。

应理解以上装置中的单元可以以处理器调用软件的形式实现。例如该装置包括处理器，处理器与存储器连接，存储器中存储有指令，处理器调用存储器中存储的指令，以实现以上任一种方法或实现该装置各单元的功能，其中处理器可以为通用处理器，例如CPU或微处理器等，存储器可以为装置内的存储器或装置外的存储器。或者，装置中的单元可以以硬件电路的形式实现，可以通过对硬件电路的设计，实现部分或全部单元的功能，该硬件电路可以理解为一个或多个处理器；例如，在一种实现中，该硬件电路为ASIC，通过对电路内元件逻辑关系的设计，实现以上部分或全部单元的功能；再如，在另一种实现中，该硬件电路可以通过PLD实现，以FPGA为例，其可以包括大量逻辑门电路，通过配置文件来配置逻辑门电路之间的连接关系，从而实现以上部分或全部单元的功能。以上装置的所有单元可以全部通过处理器调用软件的形式实现，或全部通过硬件电路的形式实现，或部分通过处理器调用软件的形式实现，剩余部分通过硬件电路的形式实现。

在本申请实施例中，处理器是一种具有信号的处理能力的电路，在一种实现中，处理器可以是具有指令读取与运行能力的电路，例如CPU、微处理器、GPU、或DSP等；在另一种实现中，处理器可以通过硬件电路的逻辑关系实现一定功能，该硬件电路的逻辑关系是固定的或可以重构的，例如处理器为ASIC或PLD实现的硬件电路，例如FPGA等。在可重构的硬件电路中，处理器加载配置文档，实现硬件电路配置的过程，可以理解为处理器加载指令，以实现以上部分或全部单元的功能的过程。此外，还可以是针对人工智能设计的硬件电路，其可以理解为一种ASIC，例如NPU、TPU、DPU等。

可见，以上装置中的各单元可以是被配置成实施以上方法的一个或多个处理器(或处理电路)，例如：CPU、GPU、NPU、TPU、DPU、微处理器、DSP、ASIC、FPGA，或这些处理器形式中至少两种的组合。

此外，以上装置中的各单元可以全部或部分可以集成在一起，或者可以独立实现。在一种实现中，这些单元集成在一起，以SOC的形式实现。该SOC中可以包括至少一个处理器，用于实现以上任一种方法或实现该装置各单元的功能，该至少一个处理器的种类可以不同，例如包括CPU和FPGA，CPU和人工智能处理器，CPU和GPU等。

本申请实施例还提出一种音频处理器，该音频处理器包括处理器和接口电路，该音频处理器中的处理器通过该音频处理器的接口电路与一个或多个音频采集装置连接。

该音频采集装置用于采集音频数据，一个音频采集装置可以由一个麦克风组成，也可以由多个麦克风组成。每一个音频采集装置可以独立进行音频采集，并且将采集的音频数据通过音频处理器的接口电路发送给音频处理器的处理器。当音频采集装置的数量为多个时，多个音频采集装置采集的音频数据组成多个通道音频相混合的混合音频数据，该混合音频数据同样通过音频处理器的接口电路发送给音频处理器的处理器。

上述的接口电路可以是任意的能够实现数据通信功能的接口电路，例如可以是USB接口电路、Type-C接口电路、串口电路、PCIE电路等。

该音频处理器中的处理器同样是具有信号处理能力的电路，其通过执行上述实施例中所介绍的任意语音识别方法，对上述音频采集装置采集的音频进行语音识别。该处理器的具体实现方式可参见上述的处理器实现方式，本申请实施例不作严格限定。

当该音频处理器应用于电子设备时，该音频处理器的处理器可以是电子设备自带的CPU或GPU等，该音频处理器的接口电路可以是该电子设备的麦克风与CPU或GPU等处理器之间的接口电路。该音频处理器接收电子设备的一个或多个麦克风采集的音频数据，并对采集的音频数据运行语音识别。

可选地，本申请实施例还提供了一种音频系统，参见图4所示，该音频系统包括多个音频采集装置001，以及与多个音频采集装置001分别连接的音频处理器002；

所述多个音频采集装置001分别用于采集音频，从而得到由所述多个音频采集装置001采集的多个通道音频组成的混合音频；

所述音频处理器002，用于获取所述混合音频中的各个通道音频的音频特征；通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；所述辅助特征包括通道特征和/或说话人识别特征，所述通道特征表示音频通道的特征，所述说话人识别特征用于识别说话人对应的音频通道；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。

音频处理器002通过运行上述任意实施例介绍的语音识别方法，实现对多个音频采集装置001采集的混合音频中的语音内容的识别，以及实现对混合音频中的语音内容的说话人识别。

在一些实现方式中，音频处理器上运行有特征提取模型和语音识别模型，所述特征提取模型用于获取所述混合音频中的各个通道音频的音频特征；

关于上述的音频处理器002的具体工作内容和处理过程，可以参见上述的语音识别方法的任一实施例介绍，此处不再重复。

该音频系统可以应用于任意的多音区声学环境中，比如应用于车机、会场等。并且，该音频系统也可以应用于电子设备上，比如应用于录音笔、手机、平板电脑、笔记本电脑、计算机等电子设备上，使得这些电子设备能够实现多通道音频采集，以及能够实现多说话人语音识别。

本申请实施例提出一种电子设备，该电子设备包括音频采集单元，以及与音频采集单元连接的处理器。

其中，音频采集单元的数量为一个或多个，用于采集音频数据；

所述处理器，用于通过执行上述任意实施例所述的任意一种语音识别方法，对所述音频采集单元采集的音频进行语音识别。

上述的音频采集单元可以由单个麦克风构成，也可以由多个麦克风构成。

上述的处理器的具体处理过程可以参见上述方法实施例的介绍，处理器的具体实现方式，也可以参见上述实施例的介绍。

本申请另一实施例还提出另一种电子设备，参见图5所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音识别方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种语音识别方法的各个步骤。

本申请实施例还提出一种芯片，该芯片包括处理器和数据接口，所述处理器通过所述数据接口读取并运行存储器上存储的程序，以执行上述任意实施例所介绍的语音识别方法，具体处理过程及其有益效果可参见上述的语音识别方法的实施例介绍。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述任意实施例中描述的语音识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述任意实施例中描述的语音识别方法中的步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取混合音频中的各个通道音频的音频特征；

2.根据权利要求1所述的方法，其特征在于，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征；对各个通道音频的增强音频特征进行融合，并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道，包括：

3.根据权利要求1或2所述的方法，其特征在于，通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征，生成各个通道音频的增强音频特征，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述辅助特征包括通道特征和说话人识别特征；

5.根据权利要求2所述的方法，其特征在于，所述语音识别模型的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，基于所述第一损失函数和所述第二损失函数，对所述辅助特征以及所述语音识别模型的语音识别运算参数进行优化，包括：

7.根据权利要求1或5所述的方法，其特征在于，获取混合音频中的各个通道音频的音频特征，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种音频系统，其特征在于，包括：

10.根据权利要求9所述的音频系统，其特征在于，所述音频处理器上运行有特征提取模型和语音识别模型，所述特征提取模型用于获取所述混合音频中的各个通道音频的音频特征；

11.一种音频处理器，其特征在于，包括处理器和接口电路，所述处理器通过所述接口电路与音频采集装置连接；

所述处理器用于通过执行如权利要求1至7中任意一项所述的语音识别方法，对所述音频采集装置采集的音频进行语音识别。

12.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器用于通过运行所述存储器中的程序，实现如权利要求1至7中任意一项所述的语音识别方法。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至7中任意一项所述的语音识别方法。