CN114512140A

CN114512140A - 语音增强方法、装置及设备

Info

Publication number: CN114512140A
Application number: CN202011187857.0A
Authority: CN
Inventors: 杜志浩; 雷鸣; 张仕良
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-05-17

Abstract

本申请公开了语音增强方法、装置及设备。其中，所述方法通过自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感；因此，可以有效缩小各种环境噪声间语音增强性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量。

Description

语音增强方法、装置及设备

技术领域

本申请涉及语音处理技术领域，具体涉及语音增强方法和装置，语音识别方法、装置及系统，语音识别文本编辑系统，语音增强模型处理方法和装置，声学特征增强模型处理方法和装置，用户识别方法和装置，以及电子设备。

背景技术

在语音识别、说话人识别等机器识别领域，噪声会极大的影响识别准确性。为了提升语音识别、说话人识别等的准确性，可先通过单通道语音增强技术，将语音从背景噪声中分离出来，然后再基于增强的语音数据进行语音识别、说话人识别等处理。

目前，一种典型的语音增强方案是，根据含噪语音的能量谱和相位谱进行单通道语音增强，该方式会直接或间接地对含噪语音的相位谱进行增强。其中，相位谱是语音信号通过短时傅里叶变换后得到的一种特征表示，可以和幅度谱一同恢复完整的语音信号，通常像噪声一样随机，不具有结构性。

然而，在实现本发明过程中，发明人发现上述方案至少存在如下问题：由于相位谱本身缺乏结构性，如果直接或间接地对含噪语音的相位谱进行增强，就会导致语音增强变得困难，而且还会导致增强后的语音产生畸变，以及带来噪声泛化性差、及说话人泛化性差等问题。

发明内容

本申请提供语音增强方法，以解决现有技术存在的增强语音产生畸变、且噪声泛化性差的问题。本申请另外提供语音增强装置，语音识别方法、装置及系统，语音识别文本编辑系统，语音增强模型处理方法和装置，声学特征增强模型处理方法和装置，用户识别方法和装置，以及电子设备。

本申请提供一种语音增强方法，包括：

确定待处理的第一含噪语音数据的声学特征数据；

通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征；其中，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；

通过声码器，根据增强声学特征，生成第一含噪语音数据的增强语音数据。

可选的，所述第一含噪语音数据与所述模型的训练数据间具有不同类型的环境噪声；所述增强声学特征包括抑制训练数据中未出现的环境噪声的增强声学特征。

可选的，所述通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征，包括：

通过所述模型包括的编码器，根据所述声学特征数据，确定第一含噪语音数据的与噪声无关的声学特征编码数据；

通过所述模型包括的解码器，根据所述声学特征编码数据，确定第一含噪语音数据的增强声学特征。

可选的，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到，包括：

在训练所述声学特征增强模型的过程中，训练数据包括第二含噪语音数据的噪声类型；所述声学特征增强模型还包括：噪声分类器；所述噪声分类器用于根据第二含噪语音数据的所述声学特征编码数据，确定第二含噪语音数据的噪声类型；所述声学特征增强模型的训练目标包括：最小化噪声分类器的噪声分类损失，最大化编码器的噪声分类损失，最小化增强声学特征损失。

可选的，还包括：

根据纯净语音数据和噪声数据，生成第二含噪语音数据。

可选的，所述声码器从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中学习得到。

可选的，所述声码器包括：基于波形循环神经网络的声码器。

可选的，所述声学特征数据包括：复数谱；

所述增强声学特征包括：梅尔谱。

本申请还提供一种语音增强方法，包括：

从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器；

通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征；

通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据。

本申请还提供一种语音增强模型处理方法，包括：

确定第一训练数据集和第二训练数据集，所述第一训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；所述第二训练数据包括纯净语音数据的声学特征与纯净语音数据间的对应关系集；

构建语音降噪模型的网络结构；所述语音降噪模型包括声学特征增强模型和声码器；所述声学特征增强模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；所述声码器用于根据所述增强声学特征，生成含噪语音数据的增强语音数据；

通过噪声分类损失对抗式多任务学习方式，根据所述第一训练数据集，训练所述声学特征增强模型的网络参数；以及，根据所述第二训练数据集，训练所述声码器的网络参数。

本申请还提供一种声学特征增强模型处理方法，包括：

确定训练数据集，所述训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；

构建声学特征增强模型的网络结构；所述模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；

通过噪声分类损失对抗式多任务学习方式，根据所述训练数据集，训练所述模型的网络参数。

本申请还提供一种语音识别系统，包括：

客户端，用于采集语音数据，将所述语音数据发送至服务端；

服务端，用于确定所述语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种语音识别方法，包括：

确定待处理的含噪语音数据的声学特征数据；

通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；

通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；

通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种语音识别方法，包括：

采集语音数据；

将所述语音数据发送至服务端，以使得服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种语音识别文本编辑系统，包括：

客户端，用于采集语音数据，将所述语音数据发送至服务端；以及，对服务端识别的所述语音数据的文本进行编辑；

服务端，用于确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种用户识别方法，包括：

确定待处理的含噪语音数据的声学特征数据；

通过用户识别模型，确定增强语音数据的用户信息。

本申请还提供一种语音增强装置，包括：

声学特征提取单元，用于确定待处理的第一含噪语音数据的声学特征数据；

声学特征增强单元，用于通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征；其中，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；

语音合成单元，用于通过声码器，根据增强声学特征，生成第一含噪语音数据的增强语音数据。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音增强方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定待处理的第一含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征；其中，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成第一含噪语音数据的增强语音数据。

本申请还提供一种语音增强装置，包括：

声码器构建单元，用于从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器；

声学特征增强单元，用于通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征；

语音合成单元，用于通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音增强方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器；通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据。

本申请还提供一种语音增强模型处理装置，包括：

训练数据确定单元，用于确定第一训练数据集和第二训练数据集，所述第一训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；所述第二训练数据包括纯净语音数据的声学特征与纯净语音数据间的对应关系集；

模型结构构建单元，用于构建语音降噪模型的网络结构；所述语音降噪模型包括声学特征增强模型和声码器；所述声学特征增强模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；所述声码器用于根据所述增强声学特征，生成含噪语音数据的增强语音数据；

模型参数训练单元，用于通过噪声分类损失对抗式多任务学习方式，根据所述第一训练数据集，训练所述声学特征增强模型的网络参数；以及，根据所述第二训练数据集，训练所述声码器的网络参数。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音增强模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定第一训练数据集和第二训练数据集，所述第一训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；所述第二训练数据包括纯净语音数据的声学特征与纯净语音数据间的对应关系集；构建语音降噪模型的网络结构；所述语音降噪模型包括声学特征增强模型和声码器；所述声学特征增强模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；所述声码器用于根据所述增强声学特征，生成含噪语音数据的增强语音数据；通过噪声分类损失对抗式多任务学习方式，根据所述第一训练数据集，训练所述声学特征增强模型的网络参数；以及，根据所述第二训练数据集，训练所述声码器的网络参数。

本申请还提供一种声学特征增强模型处理装置，包括：

训练数据确定单元，用于确定训练数据集，所述训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；

模型结构构建单元，用于构建声学特征增强模型的网络结构；所述模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；

模型参数训练单元，用于通过噪声分类损失对抗式多任务学习方式，根据所述训练数据集，训练所述模型的网络参数。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现声学特征增强模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定训练数据集，所述训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；构建声学特征增强模型的网络结构；所述模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；通过噪声分类损失对抗式多任务学习方式，根据所述训练数据集，训练所述模型的网络参数。

本申请还提供一种语音识别装置，包括：

声学特征提取单元，用于确定待处理的含噪语音数据的声学特征数据；

声学特征增强单元，用于通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；

语音合成单元，用于通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；

语音转换单元，用于通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定待处理的含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种语音识别装置，包括：

语音数据采集单元，用于采集语音数据；

语音数据发送单元，用于将所述语音数据发送至服务端，以使得服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据；将所述语音数据发送至服务端，以使得服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

本申请还提供一种用户识别装置，包括：

声学特征确定单元，用于确定待处理的含噪语音数据的声学特征数据；

用户确定单元，用于通过用户识别模型，确定增强语音数据的用户信息。

本申请还提供一种电子设备，包括：

处理器和存储器；

存储器，用于存储实现用户识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定待处理的含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；通过用户识别模型，确定增强语音数据的用户信息。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音增强方法，通过确定待处理的第一含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征；其中，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成第一含噪语音数据的增强语音数据；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感；因此，可以有效缩小各种环境噪声间语音增强性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量。

本申请实施例提供的语音增强方法，通过从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器；通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；这种处理方式，使得利用语音波形的时序性，同时结合大规模的说话人训练数据构建声码器，基于该声码器对含噪语音进行语音增强，可克服说话人泛化性问题；因此，可以有效提升说话人泛化度。同时，这种处理方式可避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量。

本申请实施例提供的语音增强模型构建方法，通过自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感；因此，可以有效缩小各种环境噪声间语音增强性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量。

本申请实施例提供的声学特征增强模型处理方法，通过自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感；因此，可以有效缩小各种环境噪声间语音增强性能的差异，以及提升训练集外噪声泛化性。

本申请实施例提供的语音识别系统，通过客户端采集语音数据，将所述语音数据发送至服务端；服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感，然后再对增强语音进行语音识别处理；因此，可以有效缩小各种环境噪声间语音识别性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量，从而提升语音识别准确度。

本申请实施例提供的语音识别文本编辑系统，通过客户端采集语音数据，将所述语音数据发送至服务端；服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本；客户端对所述文本进行编辑；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感，然后再对增强语音进行语音识别处理；因此，可以有效缩小各种环境噪声间语音识别性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量，从而提升语音识别准确度，进而提升语音识别文本编辑效率。

本申请实施例提供的用户识别方法，通过确定待处理的含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；通过用户识别模型，确定增强语音数据的用户信息；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感，然后再根据增强语音进行用户识别处理；因此，可以有效缩小各种环境噪声下语音的说话人识别性能差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量，从而提升说话人识别的准确率。

附图说明

图1本申请提供的一种语音增强方法的实施例的流程示意图；

图2本申请提供的一种语音增强方法的实施例的应用场景示意图；

图3本申请提供的一种语音增强方法的实施例的模型示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音增强方法和装置，语音识别方法、装置及系统，语音识别文本编辑系统，语音增强模型处理方法和装置，声学特征增强模型处理方法和装置，用户识别方法和装置，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音增强方法的实施例的流程示意图。该方法的执行主体为语音增强装置，该装置通常部署于服务端，但并不局限于服务端，也可以是能够实现所述语音增强方法的任何设备。在本实施例中，所述方法可包括如下步骤：

步骤S101：确定待处理的第一含噪语音数据的声学特征数据。

所述含噪语音数据可以是单通道的语音数据，可通过麦克风采集得到。所述方法将语音从背景噪声(环境噪声)中分离出来，可应用在多种语音处理系统中，如语音识别系统、说话人识别系统、语音识别文本编辑系统等。

请参看图2，其为本申请的语音增强方法的实施例的使用场景示意图。在本实施例中，所述方法应用在语音识别文本编辑系统中。该系统包括服务端和客户端。所述服务端部署语音增强装置，通过客户端采集用户语音数据，由于环境噪声的存在，该语音数据为含噪语音数据；客户端将含噪语音数据发送至服务端，通过服务端将该语音数据转换为文本；相应的，服务端执行所述方法，通过语音增强模型对含噪语音数据进行语音增强处理，也就是说抑制环境噪声，然后再通过语音识别模型对增强语音进行语音识别处理，将识别到的文本回送至客户端，以便于用户浏览并编辑该文本。

由于第一含噪语音数据含有环境噪声，因此该语音数据的声学特征数据为含噪声学特征数据。所述声学特征数据，可以是时频特征数据，即语音信号在时间和频率上进行分解所得到的表示。所述时频特征数据包括但不限于：复数谱，能量谱，相位谱，梅尔谱，等等。所述复数谱，可以是语音波形经过短时傅里叶变换得到的时频特征数据。所述能量谱，又称为功率谱，是复数谱取模、平方之后得到的时频特征数据。所述相位谱，是复数谱中的每个复数求角度之后的所构成的时频特征数据。所述梅尔谱(Mel谱)，又称为梅尔能量谱，是能量谱经过梅尔滤波器组滤波所得到的时频特征数据。由于复数谱包括更为丰富的语音特征，因此本实施例采用的所述声学特征数据为复数谱，这样会使得增强声学特征更加准确，从而使得增强语音更加纯净。

具体实施时，可采用声学特征提取算法，提取第一含噪语音数据的声学特征数据。由于声学特征提取算法术语较为成熟的现有技术，因此此处不再赘述。

在确定第一含噪语音数据的声学特征数据后，就可以进入下一步骤，通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征。

步骤S103：通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征。

所述声学特征增强模型，是一个能够将含噪语音数据的声学特征数据重构为纯净语音特征(即增强声学特征)的模型。在本实施例中，可通过噪声分类损失对抗式多任务学习方式得到所述声学特征增强模型，这样可以减少不同类型的环境噪声对声学特征增强效果的影响，可见该模型具有对环境噪声类型不敏感的特点。

所述环境噪声的类型包括但不限于：汽车环境噪声，就餐环境噪声,地铁环境噪声，等等。采用这种对环境噪声类型不敏感的声学特征增强方式，使得各种环境噪声间语音增强性能的差异小，也就是说，无论第一含噪语音数据包括哪种类型的环境噪声，都能够达到较高的语音增强性能。例如，所述模型对汽车环境噪声、就餐环境噪声、和地铁环境噪声的抑制效果大致相同。

在一个示例中，所述第一含噪语音数据与所述模型的训练数据间具有不同类型的环境噪声；所述增强声学特征包括抑制训练数据中未出现类型的环境噪声的增强声学特征。例如，模型训练数据中的含噪语音通常为汽车环境噪音和地铁环境噪音，而第一含噪语音数据含有就餐环境噪音，在这种情况下，通过所述模型仍然可以很好的抑制就餐环境噪音。由此可见，即使第一含噪语音数据包括模型训练数据中未出现的环境噪声，仍然可以获得较高的语音增强性能，也就是说，这种对环境噪声类型不敏感的声学特征增强方式还可以有效提升训练集外噪声泛化性。

为了清楚地说明采用所述模型能够达到的技术效果，下面先对所述模型的训练方式和训练过程进行说明。

在本实施例中，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到，可采用如下方式实现：在训练所述声学特征增强模型的过程中，训练数据包括第二含噪语音数据的声学特征数据和噪声类型、与纯净语音数据(不含噪声)的声学特征；所述声学特征增强模型包括编码器、解码器和噪声分类器；所述编码器用于根据第二含噪语音数据的声学特征数据，确定第二含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定第二含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定第二含噪语音数据的噪声类型；所述声学特征增强模型的训练目标包括：最小化噪声分类器的噪声分类损失，最大化编码器的噪声分类损失，最小化增强声学特征损失。

如图3所示，本实施例将训练用的第二含噪语音数据的声学特征数据作为编码器的输入数据，将编码器输出的第二含噪语音数据的声学特征隐层编码数据作为噪声分类器和解码器的输入数据，将第二含噪语音数据的噪声类型作为噪声分类器的输出数据，将纯净语音数据的声学特征作为解码器的输出数据。由此可见，所述声学特征增强模型包括两个学习任务，一个是噪声分类任务，另一个是声学特征增强任务。其中，噪声分类任务的优化目标是最小化噪声分类器的噪声分类损失、及最大化编码器的噪声分类损失，声学特征增强任务的优化目标是最小化增强声学特征损失，根据训练数据集，对编码器、解码器和噪声分类器中的参数进行训练，直至达到上述三个优化目标。

如图3可见，所述最小化噪声分类器的噪声分类损失(L_CE)，是指在通过梯度下降算法调整噪声分类器的参数时，可以采用的参数调整方式包括

其中ψ表示噪声分类器的参数；所述最大化编码器的噪声分类损失，是指在通过梯度下降算法编码器的参数时，可以采用的参数调整方式包括

其中0表示编码器的参数。本实施例提供的所述方法，通过最小化噪声分类器的噪声分类损失、及最大化编码器的噪声分类损失，实现噪声分类损失对抗式多任务学习方式，这样可以减少不同类型的环境噪声对编码器输出的中间表示(声学特征隐层编码数据)的影响，使得编码器输出的声学特征隐层编码数据与噪声无关。所述最小化增强声学特征损失(L_MAE)，是指在通过梯度下降算法调整解码器的参数时，可以采用的参数调整方式包括

其中

表示解码器的参数；同时，在调整编码器的参数时，可以采用的参数调整方式包括

本实施例提供的所述方法，在实现噪声分类损失对抗式多任务学习方式时，还通过最小化增强声学特征损失的方式，使得解码器输出增强声学特征。

其中，噪声分类损失(L_CE)可包括：一次训练过程中，所有含噪语音数据的噪声类型的预测值和标注信息间的差值的累计值。模型训练目标包括使该累计值小于噪声分类损失阈值。如果该损失值大于噪声分类损失阈值，则需要继续训练，直到小于噪声分类损失阈值。增强声学特征损失(L_MAE)可包括：一次训练过程中，解码器输出的所有含噪语音数据的增强声学特征和纯净语音数据的声学特征间的差值的累计值。模型训练目标包括使该累计值小于增强声学特征损失阈值。如果该损失值大于增强声学特征损失阈值，则需要继续训练，直到小于增强声学特征损失阈值。

具体实施时，所述声学特征增强模型，可以是深度神经网络模型，也可以是其它结构的模型，只要能够将含噪语音数据的声学特征数据重构为增强声学特征(纯净语音特征)即可。

所述噪声类型，可以是低频噪声、高频噪声或者其它噪声。在一个示例中，根据纯净语音数据和噪声数据，生成第二含噪语音数据。具体实施时，可以根据多种噪声类型的噪声数据，结合纯净语音数据，生成第二含噪语音数据。

在一个示例中，所述增强声学特征可以是梅尔谱(Mel谱)。所述梅尔谱，是能量谱经过梅尔滤波器组滤波所得到的时频特征数据，只包括能量信息，数据维度较低，因此既可以获得较高的语音增强性能，又可以有效提升语音增强效率。

要训练所述声学特征增强模型，首先要准备训练数据。具体实施时，可先分别提取纯净语音(不含噪声的语音)的Mel谱(记为S)和含噪语音的Mel谱(记为X)，并对纯净语音的Mel谱进行适当放缩，以把Mel谱变成0-1的数据，实现Mel谱归一化，这样可以更好训练模型。其中，将S作为纯净语音的声学特征，将X作为第二含噪语音数据的声学特征数据。此外，还要确定第二含噪语音中噪声信号的噪声类型。具体实施时，可根据第二含噪语音中噪声信号在不同频带的能量分布将其分为三类：低频噪声、高频噪声以及其他噪声。这样，就准备好了训练数据，包括：第二含噪语音数据的声学特征数据X、噪声类型、纯净语音数据的声学特征S。

在准备好训练数据后，就可以根据训练数据对模型参数进行训练。具体实施时，可将X输入到编码器中，通过编码器提取与噪声无关的声学特征编码数据(记为R)；再将R输入到解码器中，通过解码器预测纯净语音Mel谱，预测值为Y；训练编码器和解码器的参数，以最小化S和Y之间的均方误差(MSE)。本申请实施例提供的所述方法采用自监督对抗多任务训练方式，模型训练还包括：将编码器得到的中间表示R输入到噪声分类器中，以预测噪声类型；训练噪声分类器，使其能够对中间表示R正确分类，即最小化噪声分类器的噪声分类损失；同时，训练编码器，使噪声分类器不能够根据中间表示R正确分类噪声类型，即最大化编码器的噪声分类损失，这样就使得编码器输出与噪声无关的声学特征编码数据；可将均方误差MSE和噪声分类损失合在一起，同时用于优化声学特征增强模型包括的编码器和解码器。

至此，对所述模型的训练方式和训练过程进行了详细说明。

相应的，步骤S103可包括如下子步骤：1)通过所述模型包括的编码器，根据所述声学特征数据，确定第一含噪语音数据的与噪声无关的声学特征编码数据；2)通过所述模型包括的解码器，根据所述声学特征编码数据，确定第一含噪语音数据的增强声学特征。所述编码器和所述解码器在模型使用阶段与模型训练阶段的处理方式相同，因此此处不再赘述。

需要说明的是，在模型训练阶段不仅包括编码器和解码器的处理，还包括噪声分类器的处理，即还要训练噪声分类器；而在模型使用阶段并不包括噪声分类器的处理，只要通过编码器和解码器的处理，即可得到对环境噪声类型不敏感的增强声学特征。

步骤S105：通过声码器，根据增强声学特征，生成第一含噪语音数据的增强语音数据。

所述方法使用声码器将预测的声学特征合成语音波形，将声学特征增强模型输出的增强声学特征，输入到声码器，就可以得到合成的语音波形。

所述声码器，用于将语音特征合成为语音波形，可从纯净语音数据的声学特征与纯净语音数据间的对应关系集学习得到。由于声码器属于较为成熟的现有技术，因此此处不再赘述其学习方式。

具体实施时，所述声码器可以采用现有技术中的各种声码器，如基于波形循环神经网络的声码器(WaveRNN)，也可以是基于线性预测方式的声码器(LPCNet)、基于流式波形方式的声码器(Flowavenet)，等等。采用Flowavenet声码器适用于特定说话人的增强，在非特定说话人的增强任务上表现较差，说话人泛化性较差。所述WaveRNN声码器，是一种基于循环神经网络结构的声码器，适用于非特定说话人的增强任务，说话人泛化性得到显著提升。

在本实施例中，所述方法还可包括如下步骤：从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器。所述声码器可以为WaveRNN声码器。具体实施时，可输入纯净语音的Mel谱(记作S)到WaveRNN中，以预测S对应的纯净语音波形，训练WaveRNN以最小化预测值与真实值之间的误差。这样，可以通过使用WaveRNN来利用语音波形的时序性，同时结合大规模的说话人训练数据克服了说话人泛化性问题。

从上述实施例可见，本申请实施例提供的语音识别系统，通过客户端采集语音数据，将所述语音数据发送至服务端；服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，这样就可以避免在提取增强声学特征时对环境噪声比较敏感，然后再对增强语音进行语音识别处理；因此，可以有效缩小各种环境噪声间语音识别性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量，从而提升语音识别准确度。

第二实施例

在上述的实施例中，提供了一种语音增强方法，与之相对应的，本申请还提供一种语音增强装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音增强装置，包括：

第三实施例

在上述的实施例中，提供了一种语音增强方法，与之相对应的，本申请还提供一种电子设备。该装置是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音增强方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定待处理的第一含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征；其中，所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成第一含噪语音数据的增强语音数据。

第四实施例

与上述的语音增强方法相对应，本申请还提供一种语音增强方法，该方法的执行主体包括但不限于：服务端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音增强方法包括：

步骤S401：从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器。

所述声码器，包括利用语音波形的时序性，同时结合大规模的说话人训练数据，训练得到的声码器，如WaveRNN声码器。此步骤与实施例一中步骤S105相对应，请参见实施例一中的相应部分，此处不再赘述。

步骤S403：通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征。

此步骤可采用实施例一提供的通过噪声分类损失对抗式多任务学习方式得到声学特征增强模型，也可以采用单任务学习方式得到声学特征增强模型，即模型训练阶段不包括噪声分类器，无需最小化噪声分类器的噪声分类损失、及最大化编码器的噪声分类损失，只需要最小化增强声学特征损失即可。

步骤S405：通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据。

此步骤与实施例一中步骤S105相对应，请参见实施例一中的相应部分，此处不再赘述。

从上述实施例可见，本申请实施例提供的语音增强方法，通过从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器；通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；这种处理方式，使得利用语音波形的时序性，同时结合大规模的说话人训练数据构建声码器，基于该声码器对含噪语音进行语音增强，可克服说话人泛化性问题；因此，可以有效提升说话人泛化度。同时，这种处理方式可避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量。

第五实施例

本申请另外提供一种语音增强装置，包括：

第六实施例

本实施例的一种电子设备，该设备包括：处理器和存储器；存储器，用于存储实现语音增强方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中，学习得到声码器；通过声学特征增强模型，根据含噪语音数据的声学特征数据，确定含噪语音数据的增强声学特征；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据。

第七实施例

与上述的语音增强方法相对应，本申请还提供一种语音增强模型构建方法，该方法的执行主体包括但不限于：服务端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音增强模型构建方法包括：

步骤S701：确定第一训练数据集和第二训练数据集，所述第一训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；所述第二训练数据包括纯净语音数据的声学特征与纯净语音数据间的对应关系集；

步骤S703：构建语音降噪模型的网络结构；所述语音降噪模型包括声学特征增强模型和声码器；所述声学特征增强模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；所述声码器用于根据所述增强声学特征，生成含噪语音数据的增强语音数据；

步骤S305：通过噪声分类损失对抗式多任务学习方式，根据所述第一训练数据集，训练所述声学特征增强模型的网络参数；以及，根据所述第二训练数据集，训练所述声码器的网络参数。

从上述实施例可见，本申请实施例提供的语音增强模型构建方法，通过自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感；因此，可以有效缩小各种环境噪声间语音增强性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量。

第八实施例

在上述的实施例中，提供了一种语音增强模型构建方法，与之相对应的，本申请还提供一种语音增强模型构建装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音增强模型构建装置，包括：

第九实施例

在上述的实施例中，提供了一种语音增强模型构建方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该设备包括：处理器和存储器；存储器，用于存储实现语音增强模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定第一训练数据集和第二训练数据集，所述第一训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；所述第二训练数据包括纯净语音数据的声学特征与纯净语音数据间的对应关系集；构建语音降噪模型的网络结构；所述语音降噪模型包括声学特征增强模型和声码器；所述声学特征增强模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；所述声码器用于根据所述增强声学特征，生成含噪语音数据的增强语音数据；通过噪声分类损失对抗式多任务学习方式，根据所述第一训练数据集，训练所述声学特征增强模型的网络参数；以及，根据所述第二训练数据集，训练所述声码器的网络参数。

第十实施例

与上述的语音增强方法相对应，本申请还提供一种声学特征增强模型处理方法，该方法的执行主体包括但不限于：服务端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种声学特征增强模型处理方法包括：

步骤S1001：确定训练数据集，所述训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；

步骤S1003：构建声学特征增强模型的网络结构；所述模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；

步骤S1005：通过噪声分类损失对抗式多任务学习方式，根据所述训练数据集，训练所述模型的网络参数。

从上述实施例可见，本申请实施例提供的声学特征增强模型处理方法，通过自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，所述噪声分类损失对抗式多任务学习方式包括：最小化噪声分类器的噪声分类损失，最大化编码器的噪声分类损失，最小化增强声学特征损失，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感；因此，可以有效缩小各种环境噪声间语音增强性能的差异，以及提升训练集外噪声泛化性。

第十一实施例

在上述的实施例中，提供了一种声学特征增强模型处理方法，与之相对应的，本申请还提供一种声学特征增强模型处理装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种声学特征增强模型处理装置，包括：

第十二实施例

在上述的实施例中，提供了一种声学特征增强模型处理方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该设备包括：处理器和存储器；存储器，用于存储实现声学特征增强模型处理方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定训练数据集，所述训练数据包括含噪语音数据的声学特征数据和噪声类型、与纯净语音数据的声学特征间的对应关系；构建声学特征增强模型的网络结构；所述模型包括编码器、解码器和噪声分类器；所述编码器用于根据含噪语音数据的声学特征数据，确定含噪语音数据的与噪声无关的声学特征编码数据；所述解码器用于根据所述声学特征编码数据，确定含噪语音数据的增强声学特征；所述噪声分类器用于根据所述声学特征编码数据，确定含噪语音数据的噪声类型；通过噪声分类损失对抗式多任务学习方式，根据所述训练数据集，训练所述模型的网络参数。

第十三实施例

与上述的语音增强方法相对应，本申请还提供一种语音识别系统。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的语音识别系统包括：客户端和服务端。

其中，客户端用于采集语音数据，将所述语音数据发送至服务端；服务端用于确定所述语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

由于语音识别模型属于较为成熟的现有技术，因此此处不再赘述。

第十四实施例

与上述的语音识别系统相对应，本申请还提供一种语音识别方法，该方法的执行主体包括但不限于：服务端。本实施例与系统实施例内容相同的部分不再赘述，请参见系统实施实施例中的相应部分。本申请提供的一种语音识别方法包括：

步骤S1401：确定待处理的含噪语音数据的声学特征数据；

步骤S1403：通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；

步骤S1405：通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；

步骤S1407：通过语音识别模型，将增强语音数据转换为文本。

第十五实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音识别装置，包括：

第十六实施例

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该设备包括：处理器和存储器；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定待处理的含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

第十七实施例

与上述的语音识别系统相对应，本申请还提供一种语音识别方法，该方法的执行主体包括但不限于：客户端。本实施例与系统实施例内容相同的部分不再赘述，请参见系统实施实施例中的相应部分。本申请提供的一种语音识别方法包括：

步骤S1701：采集语音数据；

步骤S1703：将所述语音数据发送至服务端，以使得服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

第十八实施例

本申请另外提供一种语音识别装置，包括：

语音数据采集单元，用于采集语音数据；

第十九实施例

本实施例的一种电子设备，该设备包括：处理器和存储器；存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集语音数据；将所述语音数据发送至服务端，以使得服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

第二十实施例

与上述的语音增强方法相对应，本申请还提供一种语音识别文本编辑系统。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音识别文本编辑系统包括：客户端和服务端。

其中，客户端用于采集语音数据，将所述语音数据发送至服务端；以及，对服务端识别的所述语音数据的文本进行编辑；服务端用于确定所述语音数据的声学特征数据；通过声学特征增强模型，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本。

由于语音识别、及对语音转写文本进行编辑均属于较为成熟的现有技术，因此此处不再赘述。

从上述实施例可见，本申请实施例提供的语音识别文本编辑系统，通过客户端采集语音数据，将所述语音数据发送至服务端；服务端确定所述语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定所述语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成所述语音数据的增强语音数据；通过语音识别模型，将增强语音数据转换为文本；客户端对所述文本进行编辑；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，这样就可以避免在提取增强声学特征时对环境噪声比较敏感，然后再对增强语音进行语音识别处理；因此，可以有效缩小各种环境噪声间语音识别性能的差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量，从而提升语音识别准确度，进而提升语音识别文本编辑效率。

第二十一实施例

与上述的语音增强方法相对应，本申请还提供一种用户识别方法，该方法的执行主体包括但不限于：服务端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种用户识别方法包括：

步骤S2101：确定待处理的含噪语音数据的声学特征数据；

步骤S2103：通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；

步骤S2105：通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；

步骤S2107：通过用户识别模型，确定增强语音数据的用户信息。

由于用户识别模型属于较为成熟的现有技术，因此此处不再赘述。

从上述实施例可见，本申请实施例提供的用户识别方法，通过确定待处理的含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；通过用户识别模型，确定增强语音数据的用户信息；这种处理方式，使得基于自监督的噪声分类损失对抗式多任务学习方式得到声学特征增强模型，通过该模型确定含噪语音的增强声学特征，可以避免在提取增强声学特征时对环境噪声比较敏感，然后再根据增强语音进行用户识别处理；因此，可以有效缩小各种环境噪声下语音的说话人识别性能差异，以及提升训练集外噪声泛化性。此外，由于这种处理方式通过声码器对增强声学特征进行语音合成，得到含噪语音的增强语音，避免直接或间接地对含噪语音的相位谱进行增强；因此，可以有效减少语音畸变，提升语音的听感质量，从而提升说话人识别的准确率。

第二十二实施例

在上述的实施例中，提供了一种用户识别方法，与之相对应的，本申请还提供一种用户识别装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种用户识别装置，包括：

第二十三实施例

在上述的实施例中，提供了一种用户识别方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该设备包括：处理器和存储器；存储器，用于存储实现用户识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定待处理的含噪语音数据的声学特征数据；通过声学特征增强模型，根据所述声学特征数据，确定含噪语音数据的增强声学特征；所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到；通过声码器，根据增强声学特征，生成含噪语音数据的增强语音数据；通过用户识别模型，确定增强语音数据的用户信息。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音增强方法，其特征在于，包括：

确定待处理的第一含噪语音数据的声学特征数据；

2.根据权利要求1的方法，其特征在于，

所述第一含噪语音数据与所述模型的训练数据间具有不同类型的环境噪声；

所述增强声学特征包括抑制训练数据中未出现的环境噪声的增强声学特征。

3.根据权利要求1的方法，其特征在于，所述通过声学特征增强模型，根据所述声学特征数据，确定第一含噪语音数据的增强声学特征，包括：

4.根据权利要求3的方法，其特征在于，

所述声学特征增强模型通过噪声分类损失对抗式多任务学习方式得到，包括：

5.根据权利要求4的方法，其特征在于，还包括：

根据纯净语音数据和噪声数据，生成第二含噪语音数据。

6.根据权利要求1的方法，其特征在于，

所述声码器从多个用户的纯净语音数据的声学特征与纯净语音数据间的对应关系集中学习得到。

7.根据权利要求6的方法，其特征在于，

所述声码器包括：基于波形循环神经网络的声码器。

8.根据权利要求1的方法，其特征在于，

所述声学特征数据包括：复数谱；

所述增强声学特征包括：梅尔谱。

9.一种语音增强方法，其特征在于，包括：

10.一种语音增强模型处理方法，其特征在于，包括：

11.一种声学特征增强模型处理方法，其特征在于，包括：

12.一种语音识别系统，其特征在于，包括：

13.一种语音识别方法，其特征在于，包括：

确定待处理的含噪语音数据的声学特征数据；

通过语音识别模型，将增强语音数据转换为文本。

14.一种语音识别方法，其特征在于，包括：

采集语音数据；

15.一种语音识别文本编辑系统，其特征在于，包括：

16.一种用户识别方法，其特征在于，包括：

确定待处理的含噪语音数据的声学特征数据；

通过用户识别模型，确定增强语音数据的用户信息。

17.一种语音增强装置，其特征在于，包括：

18.一种电子设备，其特征在于，包括：

处理器和存储器；

19.一种语音增强装置，其特征在于，包括：

20.一种电子设备，其特征在于，包括：

处理器和存储器；

21.一种语音增强模型处理装置，其特征在于，包括：

22.一种电子设备，其特征在于，包括：

处理器和存储器；

23.一种声学特征增强模型处理装置，其特征在于，包括：

24.一种电子设备，其特征在于，包括：

处理器和存储器；

25.一种语音识别装置，其特征在于，包括：

26.一种电子设备，其特征在于，包括：

处理器和存储器；

27.一种语音识别装置，其特征在于，包括：

语音数据采集单元，用于采集语音数据；

28.一种电子设备，其特征在于，包括：

处理器和存储器；

29.一种用户识别装置，其特征在于，包括：

30.一种电子设备，其特征在于，包括：

处理器和存储器；