CN112735397B

CN112735397B - 一种语音特征处理方法、装置、电子设备及存储介质

Info

Publication number: CN112735397B
Application number: CN202110290322.4A
Authority: CN
Inventors: 谷悦; 杨嵩; 王莎
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-07-23
Anticipated expiration: 2041-03-18
Also published as: CN112735397A

Abstract

本申请实施例提供一种语音特征处理方法、装置、电子设备及存储介质，其中方法包括：从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。本申请实施例可针对带噪语音，准确的形成语音特征编码信息，为提升语音识别的准确性提供基础。

Description

一种语音特征处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及语音识别技术领域，具体涉及一种语音特征处理方法、装置、电子设备及存储介质。

背景技术

语音识别是一种将语音转换为文本的技术，其在人机的语音交互、智能控制、通讯等场景下具有广泛应用，因此提升语音识别的准确性具有重要意义。

在进行语音识别时，需要对待识别语音对应的语音特征进行编码处理，形成深层的语音特征编码信息，进而对语音特征编码信息进行解码等进一步处理，实现文本转换；然而在语音识别的实际应用场景中，待识别语音除了说话者本身的纯净语音外还可能存在噪音，即待识别语音为带噪语音，这使得从带噪语音中提取的语音特征存在噪音的语音特征，导致后续处理形成的语音特征编码信息也相应存在噪音的编码信息，极大的影响了语音识别的准确性，降低了语音识别服务的用户体验；

因此，针对待识别的带噪语音，如何提供语音特征处理方案，以准确的形成语音特征编码信息，为提升语音识别的准确性提供基础，成为了本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供一种语音特征处理方法、装置、电子设备及存储介质，以针对带噪语音，准确的形成语音特征编码信息，为提升语音识别的准确性提供基础。

为实现上述目的，本申请实施例提供如下技术方案：

一种语音特征处理方法，包括：

从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；

对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；

根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。

本申请实施例还提供一种语音特征处理装置，包括：

噪音去除模块，用于从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；

编码处理模块，用于对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；

目标编码信息得到模块，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。

本申请实施例还提供一种电子设备，包括至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行实现如上述所述的语音特征处理方法。

本申请实施例还提供一种存储介质，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令被执行时实现如上述所述的语音特征处理方法。

本申请实施例提供的语音特征处理方法，可从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；从而对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；进而，本申请实施例可根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息，即通过带噪语音原本的第二语音特征编码信息，来补偿第一语音特征编码信息的语音畸变，使得得到的用于解码的目标语音特征编码信息能够平衡去除噪音引入的语音畸变损害和去除噪音的益处，提升用于解码的目标语音特征编码信息的准确性，进而为提升语音识别的准确性提供基础。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为语音识别模型的结构图；

图2为语音识别模型的另一结构图；

图3为本申请实施例提供的语音特征处理方法的流程图；

图4为本申请实施例提供的模型结构图；

图5为本申请实施例提供的另一模型结构图；

图6为本申请实施例提供的再一模型结构图；

图7为本申请实施例提供的语音特征处理装置的框图；

图8为本申请实施例提供的语音特征处理装置的另一框图；

图9为本申请实施例提供的语音特征处理装置的再一框图；

图10为本申请实施例提供的语音特征处理装置的又一框图；

图11为本申请实施例提供的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，语音识别功能主要使用语音识别模型实现，为便于理解语音识别技术，图1示例了传统的语音识别模型的一种结构，如图1所示，语音识别模型主要包括：声学模型和语言模型；其中，声学模型用于对语音对应的语音特征进行编码处理，形成深层的语音特征编码信息，并将语音特征编码信息与语音建模单元联系起来，预测不同粒度的语音建模单元的后验概率，得到声学模型的输出结果；语言模型用于处理文字序列，其可结合声学模型的输出结果，给出概率最大的文字序列作为语音识别结果；

进一步如图1所示，声学模型主要包括：编码器和解码器；其中，编码器用于将语音对应的语音特征，编码成深层的语音特征编码信息；解码器用于对语音特征编码信息进行解码，即根据语音特征编码信息预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。

需要说明的是，由于声学模型具有识别语言最小单元对应的语音的能力（语言最小单元如汉语中的一个字或者英语中的一个字母等），因此如果待识别语音例如单个字或者单个字母的语音，则语音识别模型可直接利用声学模型实现语音识别，而不需要使用语言模型；当然，如果需要识别的语音为多个字或者字母的语音，则语音识别模型需结合使用声学模型和语言模型。

需要说明的是，在端到端语音识别技术中，仅使用声学模型就可以对语音进行识别，而语言模型是对语句的概率分布的建模，可以对声学模型识别结果进行微调，使得识别结果更为准确。也就是说，在端到端语音识别技术中，可视情况选择添加语言模型，例如在基于GMM（Gaussian Mixed Model，高斯混合模型）和HMM（Hidden Markov Model，隐马尔可夫模型）的语音识别中，可选择添加语言模型。

由上述描述可以看出，在语音识别模型进行语音识别的过程中，声学模型需对语音对应的语音特征进行编码，形成深层的用于解码的语音特征编码信息，以利用语音特征编码信息实现语音识别；可见，形成的语音特征编码信息的准确性，对于语音识别的准确性具有重大影响，然而在语音识别的实际应用场景中，待识别语音除了说话者本身的纯净语音外还可能存在环境噪声、其他说话者的语音等噪音，即待识别语音为携带噪音的语音（简称带噪语音），这使得从带噪语音提取的语音特征中存在噪音的语音特征，导致对语音特征编码后形成的语音特征编码信息也相应存在噪音的编码信息，从而致使基于语音特征编码信息得到的语音识别结果也可能存在噪音相应的识别结果，极大的影响了语音识别的准确性。

为了提高语音识别模型的噪音鲁棒能力，即提高语音识别模型对带噪语音的准确识别能力，目前通常的作法是对语音识别模型进行多条件策略训练，即通过收集或者模拟大量的带噪语音，来丰富语音识别模型的训练数据，使得语音识别模型在带噪语音的识别场景下具有较高的准确性；多条件训练策略虽然能在一定程度上提高语音识别模型的性能，但是收集真实的带噪语音非常耗时且成本昂贵，而模拟带噪语音会使得训练数据的量级随着模拟参数调整和噪音种类变化而爆炸增长，并且每当需要加入新的噪音种类时，语音识别模型可能需要重新训练或者进行微调。

基于上述情况，考虑到语音增强技术已在语音降噪方面具有较高的性能，目前可利用语音增强模型预先对带噪语音的语音特征进行语音增强处理，以去除带噪语音中的噪音后再进行语音识别，具体的，结合图2示例的语音识别模型的另一种结构，语音增强模型可从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计（即估计的纯净语音特征），进而语音识别模型中的声学模型对纯净语音特征估计进行编码，形成深层的用于解码的语音特征编码信息，语音特征编码信息再进行解码等进一步处理，实现语音识别；需要说明的是，受限于语音增强模型的性能，语音增强模型可能无法完全的去除噪音，即语音增强模型所得到的结果可能并不能完全对应纯净语音的语音特征，因此此处将语音增强模型得到的语音特征称为纯净语音特征估计；

上述方式利用语音增强模型预先对带噪语音的语音特征进行语音增强处理，以去除带噪语音中的噪音，虽然能减少后续生成的语音特征编码信息中噪音的编码信息，从而大概率的提升语音识别的准确性，但本申请的发明人经研究发现，上述方式仍然存在意想不到的问题：

发明人经过研究发现，当带噪语音中噪音的音量较大时，对带噪语音的语音特征进行语音增强处理后再进行语音识别的准确率，高于带噪语音的语音特征直接进行语音识别的准确率，但是，当带噪语音中噪音的音量较小时，对带噪语音的语音特征进行语音增强处理后再进行语音识别的准确率，反而低于带噪语音的语音特征直接进行语音识别的准确率；发明人经过深入研究后进一步发现，上述情况是由于语音增强模型进行语音增强处理时带入了语音畸变，当带噪语音中噪音较小时，语音增强处理带入的语音畸变的损害，超过了去除噪音所带来的益处，从而导致引入语音增强模型反而降低语音识别准确率的现象。

基于此，本申请实施例针对带噪语音，提供改进的语音特征处理方案，在引入语音增强的情况下，平衡语音增强带入的语音畸变损害和去除噪音的益处，从而准确的形成用于解码的语音特征编码信息，为提升语音识别的准确性提供基础。

本申请的发明人经过深入研究后提出如下思路：语音增强虽然能从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计，但是纯净语音特征估计由于存在语音畸变，如果直接利用纯净语音特征估计编码得到用于解码的语音特征编码信息，则所得到的语音特征编码信息可能由于语音畸变的影响而不准确，因此，本申请实施例可在基于纯净语音特征估计形成语音特征编码信息后，引入带噪语音的语音特征编码信息来进行补偿，即结合纯净语音特征估计和带噪语音，来补偿语音增强处理带入的语音畸变，从而平衡语音增强带入的语音畸变损害和去除噪音的益处，实现准确的形成用于解码的语音特征编码信息，为提升语音识别的准确性提供基础。

基于上述思路，在可选实现中，图3示出了本申请实施例提供的语音特征处理方法的可选流程，该流程可由语音识别设备执行实现，例如由具有语音识别功能的服务器、终端等执行实现；如图3所示，本申请实施例提供的语音特征处理方法可以包括：

步骤S100、从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计。

在可选实现中，针对带噪语音的语音特征（可预先对待识别的带噪语音提取语音特征），本申请实施例可从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计（即估计的纯净语音特征）。

可选的，步骤S100可基于语音增强技术实现，例如通过语音增强模型实现步骤S100，具体的，本申请实施例可将带噪语音的语音特征输入语音增强模型，由语音增强模型对带噪语音的语音特征进行语音增强处理，以去除带噪语音的语音特征中噪音的语音特征，得到纯净语音特征估计；需要说明的是，本申请实施例使用的语音增强技术可以是单通道语音增强技术，其通过提高语音音频的信噪比，来从带噪语音的语音特征中去除噪音的语音特征。

当然，语音增强技术仅是本申请实施例去除噪音的语音特征的一种可选方式，本申请实施例并不限制采用其他方式，来从带噪语音的语音特征中去除噪音的语音特征。

步骤S110、对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息。

在得到纯净语音特征估计后，本申请实施例可对纯净语音特征估计进行编码处理，得到纯净语音特征对应的语音特征编码信息，为便于说明，本申请实施例将纯净语音特征对应的语音特征编码信息称为第一语音特征编码信息；由于在从带噪语音中去除噪音的过程中引入了语音畸变，导致得到的纯净语音特征估计存在语音畸变，也相应导致对纯净语音特征估计编码得到的第一语音特征编码信息存在语音畸变，因此为平衡语音畸变的损害和去除噪音的益处，本申请实施例引入带噪语音相应的语音特征编码信息来进行补偿，从而针对带噪语音的语音特征，本申请实施例可同时对带噪语音的语音特征进行编码处理，得到带噪语音的语音特征对应的语音特征编码信息，为区分上述第一语音特征编码信息，本申请实施例将带噪语音的语音特征对应的语音特征编码信息称为第二语音特征编码信息。

在可选实现中，本申请实施例可通过语音识别模型中的声学模型实现步骤S110，例如，本申请实施例可将纯净语音特征估计输入声学模型的编码器，以由编码器对纯净语音特征估计进行编码处理，得到第一语音特征编码信息，同时，本申请实施例可将带噪语音的语音特征输入声学模型的编码器，以由编码器对带噪语音的语音特征进行编码处理，得到第二语音特征编码信息。

步骤S120、根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。

在得到上述第一语音特征编码信息和第二语音特征编码信息后，本申请实施例可结合第一语音特征编码信息和第二语音特征编码信息，得到用于解码的目标语音特征编码信息，为便于说明，本申请实施例将所得到的用于解码的语音特征编码信息称为目标语音特征编码信息；从而后续本申请实施例可对目标语音特征编码信息进行解码等进一步处理，以实现带噪语音对应的文本转换。

在可选实现中，本申请实施例可根据一定的策略，将第一语音特征编码信息与第二语音特征编码信息进行混合，以得到所述目标语音特征编码信息；例如，本申请实施例可确定用于混合第一语音特征编码信息和第二语音特征编码信息的混合系数，从而根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息，具体的，本申请实施例可根据混合系数，分别对第一语音特征编码信息和第二语音特征编码信息进行加权处理，从而将加权处理结果相加，得到所述目标语音特征编码信息；

在更为具体的实现中，本申请实施例可以混合系数为权重，对第一语音特征编码信息进行加权处理，得到第一语音特征编码信息对应的加权处理结果，以设定值（如1）与混合系数的差值为权重，对第二语音特征编码信息进行加权处理，得到第二语音特征编码信息对应的加权处理结果，从而将第一语音特征编码信息和第二语音特征编码信息对应的加权处理结果相加，得到所述目标语音特征编码信息；

当然，基于混合系数，对第一语音特征编码信息和第二语音特征编码信息进行加权处理并再相加的方式，仅是混合第一语音特征编码信息和第二语音特征编码信息的一种可选方式，本申请实施例并不排除能够将第一语音特征编码信息和第二语音特征相混合（即融合）的其他方式。

在进一步的可选实现中，所述混合系数可以根据第一语音特征编码信息和第二语音特征的实际情况确定，也可以预先设定。

可选的，本申请实施例可在语音识别模型的声学模型中增设混合层，从而通过混合层，将第一语音特征编码信息与第二语音特征编码信息进行混合。

可以理解的是，在纯净语音特征估计存在语音畸变，导致第一语音特征编码信息也相应存在语音畸变的情况下，本申请实施例通过对带噪语音的语音特征进行编码处理，得到第二语音特征编码信息，从而结合第一语音特征编码信息以及第二语音特征编码信息，得到用于解码的目标语音特征编码信息，可在第一语音特征编码信息的基础上，引入带噪语音对应的第二语音特征编码信息进行补偿；即在确定最终用于解码的目标语音特征编码信息时，本申请实施例结合纯净语音特征估计相应的第一语音特征编码信息，以及带噪语音的语音特征相应的第二语音特征编码信息，可通过带噪语音原本的第二语音特征编码信息，来补偿第一语音特征编码信息的语音畸变，使得补偿后得到的目标语音特征编码信息能够平衡语音畸变损害和去除噪音的益处，从而充分利用语音增强技术和语音识别模型的编码器优势，提升所得到的用于解码的目标语音特征编码信息的准确性，为提升语音识别的准确性提供了基础。

在可选实现中，本申请实施例提供的语音特征处理方法可基于图4所示模型结构实现，如图4所示，该模型结构可以包括：语音增强模型10，声学模型20。

其中，语音增强模型10用于：获取带噪语音的语音特征，并从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；

声学模型20用于：获取所述纯净语音特征估计，对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及，获取带噪语音的语音特征，对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；进而，混合所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。

在可选实现中，结合图4所示，本申请实施例可预先提取带噪语音的语音特征，提取的带噪语音的语音特征可输入语音增强模型和声学模型；从而，语音增强模型获取带噪语音的语音特征后，可从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计，语音增强模型可将得到的纯净语音特征估计输入声学模型；声学模型针对语音增强模型输入的纯净语音特征估计，可进行编码处理，得到第一语音特征编码信息，同时，声学模型针对输入的带噪语音的语音特征，可进行编码处理，得到第二语音特征编码信息，进而，声学模型可根据第一语音特征编码信息和第二语音特征编码信息，得到用于解码的目标语音特征编码信息，以使得目标语音特征编码信息能够平衡语音畸变损害和去除噪音的益处，充分利用语音增强技术和语音识别模型的编码器优势，提升用于解码的目标语音特征编码信息的准确性。

在进一步的可选实现中，图5示出了本申请实施例提供另一可选模型结构，结合图4和图5所示，图5进一步细化了声学模型的结构，在图5中，声学模型20包括：编码器21，混合层22，解码器24；

其中，编码器21具体用于实现声学模型的编码处理过程，具体的，编码器21可用于对纯净语音特征估计进行编码处理，得到第一语音特征编码信息，同时，对带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；

混合层22具体用于实现声学模型混合第一语音特征编码信息和第二语音特征编码信息的过程，具体的，混合层22可用于对第一语音特征编码信息和第二语音特征编码信息进行混合，得到用于解码的目标语音特征编码信息；

解码器24具体用于实现声学模型的解码过程，具体的，解码器24针对混合层混合得到的目标语音特征编码信息，进行解码处理，即解码器24可根据目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。

在具体可选实现中，本申请实施例可基于混合系数，实现对第一语音特征编码信息和第二语音特征编码信息进行混合处理；所述混合系数可以表示第一语音特征编码信息和第二语音特征编码信息的相互混合程度，所述混合系数可以预先设定，也可以根据第一语音特征编码信息和第二语音特征编码信息动态确定，即不同的第一语音特征编码信息和第二语音特征编码信息可确定出不同的混合系数；

在一种示例中，以基于第一语音特征编码信息和第二语音特征编码信息动态确定混合系数为例，图6进一步示例了再一可选模型结构，结合图5和图6所示，在图6中，声学模型20进一步包括：用于确定混合系数的神经网络23；可选的，所述神经网络可基于第一语音特征编码信息和第二语音特征编码信息确定混合系数，示例的，所述神经网络可以是浅层神经网络，例如SNN（Spiking neural network，脉冲神经网络）；

可选的，本申请实施例可通过训练神经网络，以使得训练后的神经网络具有基于第一语音特征编码信息和第二语音特征编码信息，确定混合系数的能力；在具体实现中，本申请实施例可设置训练用的带噪语音样本，从而基于带噪语音样本确定训练用的第一语音特征编码信息样本（即作为样本的第一语音特征编码信息）和第二语音特征编码信息样本（即作为样本的第二语音特征编码信息），并标记第一语音特征编码信息样本和第二语音特征编码信息样本的混合系数标签，该混合系数标签可以是预先标记的可使第一语音特征编码信息样本和第二语音特征编码信息样本混合后具有较高准确度的混合系数；从而，通过将训练用的第一语音特征编码信息样本和第二语音特征编码信息样本作为训练数据输入神经网络，以神经网络的输出结果与混合系数标签的误差最小化为训练目标，对神经网络进行迭代训练，则可使得训练后的神经网络在预测混合系数时，具有基于第一语音特征编码信息和第二语音特征编码信息，输出准确性较高的混合系数的能力；

在进一步的可选实现中，混合系数可以是0至1的数值范围，如果神经网络输出的数值不在0至1的范围，则本申请实施例可对神经网络基于第一语音特征编码信息和第二语音特征编码信息得到的输出结果，进行Sigmoid函数运算，以使得神经网络的输出结果映射到0至1的范围之间，其中，Sigmoid函数可用作神经网络的激活函数，用于将变量映射到0至1之间；当然，神经网络也可内置将输出结果映射到0至1之间的网络层，例如神经网络可内置Sigmoid函数层。

作为一种示例，将语音特征处理过程中涉及的部分数据以参数表达，将语音特征处理过程中涉及的部分运算以公式表达，则本申请实施例提供的语音特征处理过程可以如下：

提取带噪语音的语音特征后，带噪语音的语音特征输入语音增强模型和声学模型的编码器；语音增强模型从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计

，语音增强模型将纯净语音特征估计输入编码器；

编码器对纯净语音特征估计进行编码处理，得到第一语音特征编码信息

，同时，编码器对带噪语音的语音特征进行编码处理，得到第二语音特征编码信息

；编码器将第一语音特征编码信息和第二语音特征编码信息分别输入浅层神经网络和混合层；

浅层神经网络基于第一语音特征编码信息和第二语音特征编码信息，确定混合系数

；浅层神经网络可通过如下公式得到混合系数

：

，其中，

表示sigmoid函数；浅层神经网络得到的混合系数可输入混合层；

混合层可基于混合系数，对第一语音特征编码信息和第二语音特征编码信息进行混合，得到目标语音特征编码信息

；混合层可通过如下公式得到目标语音特征编码信息

：

；可以理解的是，

为第一语音特征编码信息的权重，1-

为第二语音特征编码信息的权重，也就是说，本申请实施例是以混合系数为权重，对第一语音特征编码信息进行加权处理，得到第一语音特征编码信息对应的加权处理结果

，并以设定值（此处为1）与混合系数的差值为权重，对第二语音特征编码信息进行加权处理，得到第二语音特征编码信息对应的加权处理结果

，从而将第一语音特征编码信息和第二语音特征编码信息对应的加权处理结果相加，得到所述目标语音特征编码信息；

混合层得到的目标语音特征编码信息可输入解码器，从而解码器可根据目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。

需要说明的是，上述示出的模型结构中语音识别模型也可以进一步包括语言模块，当然，如果待识别语音为语言最小单元对应的语音，则语音识别模型也可只使用声学模型。

需要说明的是，上述示出的模型结构中语音识别模型也可以进一步包括语言模块，使得识别结果更为准确。

上述示例了实现本申请实施例提供的语音特征处理方法的语音识别模型的可选结构，该语音识别模型通过将语音增强模型输出的纯净语音特征估计对应的第一语音特征编码信息，以及带噪语音的语音特征对应的第二语音特征编码信息，在深层特征域进行混合（即融合），从而充分利用了语音增强技术和语音识别模型的编码器优势，使得所得到的用于解码的目标语音特征编码信息的准确性得以提升，为提升语音识别的准确性提供了基础。

在进一步的可选实现中，由于本申请实施例融合了语音增强模型和原本的语音识别模型，因此为同时保留语音增强模型和原本的语音识别模型各自的能力，本申请实施例可进一步提供对语音增强模型和语音识别模型的训练方案。

在可选实现中，语音增强模型用于从带噪语音的语音特征中去除噪音的语音特征，因此为提升语音增强模型去除噪音的性能，本申请实施例应使语音增强模型输出的纯净语音特征估计与带噪语音中的纯净语音特征的误差最小，即使得语音增强模型输出的纯净语音特征估计趋近于实际的纯净语音特征；

基于此，本申请实施例在训练语音增强模型时，可以最小化重构误差为训练目标，来训练语音增强模型；在具体实现中，本申请实施例可获取训练用的带噪语音样本，以语音增强模型输出的带噪语音样本的纯净语音特征估计，与带噪语音样本的实际纯净语音特征的误差最小化为训练目标，迭代的训练语音增强模型，使得训练后的语音增强模型具有将输出的纯净语音特征估计的误差最小化的能力，以提升语音增强模型的语音增强性能；在一种示例中，训练语音增强模型使用的目标函数可以定义为：

其中，T表示语音特征的总帧数，t表示当前帧的语音特征，

表示当前帧的纯净语音特征，

表示当前帧的纯净语音特征估计。

进一步，本申请实施例除通过训练提升语音增强模型的性能外，还可降低语音识别模型的语音识别误差；基于此，本申请实施例可对语音识别模型进行训练，如具体对语音识别模型中声学模型的解码器进行训练，以提升解码器输出的语音建模单元的后验概率的准确性；

需要说明的是，解码器输出的语音建模单元的后验概率可以视为是带噪语音对应的各句子部分（如句子中的各词或各字）分别属于各语音建模单元的概率；从而，在具体实现中，本申请实施例可获取训练用的带噪语音样本，确定带噪语音样本的各句子部分，并确定各句子部分分别属于各语音建模单元的真实概率，从而以解码器输出的各句子部分分别属于各语音建模单元的概率，趋近于真实概率为目标，训练语音识别模型中的解码器，以提升解码器输出的语音建模单元的后验概率的准确性，也就是说，使得解码器输出的各句子部分分别与各语音建模单元对应的概率，与真实概率的误差最小化；在一种示例中，训练解码器使用的目标函数可以定义为：

其中，L表示带噪语音对应的句子长度，l表示当前句子部分，C表示语音建模单元数量，c表示当前语音建模单元，

表示解码器输出的当前句子部分属于当前语音建模单元的概率，

为指示变量，

的数值根据当前语音建模单元与当前句子部分属于的语音建模单元是否相同而定，例如当前语音建模单元与当前句子部分属于的语音建模单元相同，则

可以为1，否则为0，D表示Decoder（解码器），Decoder可以视为是一个分类模型，用于确定带噪语音的各句子部分对应各语音建模单元的分类概率。可以看出，该目标函数实际是一个交叉熵损失函数。

基于上述对语音增强模型和语音识别模型（具体可以是解码器）的训练，本申请实施例可定义模型总体的优化目标为：

其中，

为超参数，可以预先选取或者通过实验进行选择。

当然，本申请实施例也可对语音识别模型的编码器进行训练，以在编码器同时编码处理纯净语音特征估计和带噪语音的语音特征的情况下，减少编码器的编码误差，相应的，编码器可对语音增强后的纯净语音特征估计和带噪语音的语音特征分别进行不同的建模，从而通过优化编码器和减少语音识别模型的识别误差。

本申请实施例通过确定语音增强处理后的纯净语音特征估计相应的第一语音特征编码信息，以及带噪语音的语音特征相应的第二语音特征编码信息，从而在编码的深层特征域，将第一语音特征编码信息和第二语音特征编码信息进行混合（即融合），达到通过带噪语音原本的第二语音特征编码信息，来补偿第一语音特征编码信息的语音畸变的目的，使得补偿后得到的目标语音特征编码信息能够平衡语音畸变损害和去除噪音的益处，充分利用了语音增强技术和语音识别模型的编码器优势，提升了所得到的用于解码的目标语音特征编码信息的准确性，为提升语音识别的准确性提供了基础。进一步，本申请实施例通过对语音增强模型和语音识别模型分别进行训练，以提升语音增强模型的语音增强性能，并提升语音识别模型的识别准确性，可使得利用本申请实施例实现的语音识别方案具有更高的识别准确性。

上文描述了本申请实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本申请实施例披露、公开的实施例方案。

下面对本申请实施例提供的语音特征处理装置进行介绍，下文描述的语音特征处理装置，可以认为是用于语音识别的电子设备为实现本申请实施例提供的语音特征处理方法所需设置的功能模块。下文描述的语音特征处理装置的内容，可与上文描述的语音特征处理方法的内容，相互对应参照。

可选的，图7示出了本申请实施例提供的语音特征处理装置的可选框图，如图7所示，该语音特征处理装置可以包括：

噪音去除模块100，用于从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；

编码处理模块110，用于对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；

目标编码信息得到模块120，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。

可选的，噪音去除模块100可选由语音增强模型实现；编码处理模块110可选由声学模型的编码器实现；目标编码信息得到模块可选由声学模型的混合层实现。

在可选实现中，目标编码信息得到模块120，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息，包括：

确定混合系数；

根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息。

可选的，目标编码信息得到模块120，用于确定混合系数包括：

根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述第一语音特征编码信息与第二语音特征编码信息相互混合程度的混合系数。

可选的，在具体实现中，目标编码信息得到模块120确定混合系数的过程可选由声学模型的神经网络实现，目标编码信息得到模块120根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息的过程可选由声学模型的混合层实现；

相应的，目标编码信息得到模块120，用于根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述第一语音特征编码信息与第二语音特征编码信息相互混合程度的混合系数包括：

将所述第一语音特征编码信息和第二语音特征编码信息输入神经网络，得到所述神经网络输出的所述混合系数。

在使用神经网络确定所述混合系数的情况下，在可选实现中，图8示出了本申请实施例提供的语音特征处理装置的另一可选框图，结合图7和图8所示，该语音特征处理装置还可以包括对神经网络进行训练的第一训练模块130，其中，所述第一训练模块130，用于：

以神经网络的输出结果与混合系数标签的误差最小化为训练目标，训练所述神经网络，所述混合系数标签为输入所述神经网络的用于训练的第一语音特征编码信息样本和第二语音特征编码信息样本预先标记的混合系数。

可选的，所述混合系数为0至1的数值范围。

可选的，目标编码信息得到模块120，用于根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息，包括：

以混合系数为权重，对第一语音特征编码信息进行加权处理，得到第一语音特征编码信息对应的加权处理结果，及，以设定值与混合系数的差值为权重，对第二语音特征编码信息进行加权处理，得到第二语音特征编码信息对应的加权处理结果；

将第一语音特征编码信息和第二语音特征编码信息对应的加权处理结果相加，得到所述目标语音特征编码信息。

可选的，若噪音去除模块由语音增强模型实现，则在可选实现中，图9示出了本申请实施例提供的语音特征处理装置的再一可选框图，结合图7和图9所示，该语音特征处理装置还可以包括对语音增强模型进行训练的第二训练模块140，其中，所述第二训练模块140，用于：

以语音增强模型输出的带噪语音样本的纯净语音特征估计，与带噪语音样本的实际纯净语音特征的误差最小化为训练目标，训练语音增强模型。

可选的，图10示出了本申请实施例提供的语音特征处理装置的又一可选框图，结合图7和图10所示，该语音特征处理装置还可以包括：

概率预测模块150，用于根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。

可选的，概率预测模块150可选由声学模型中的解码器实现；相应的，本申请实施例可将所述目标语音特征编码信息输入声学模型的解码器，以得到所述解码器预测的当前所有语音建模单元的后验概率，所述后验概率作为声学模型的输出结果；

在使用解码器的情况下，在可选实现中，进一步如图10所示，该语音特征处理装置还可以包括对解码器进行训练的第三训练模块160，其中，所述第三训练模块160，用于：

以解码器输出的带噪语音样本的各句子部分分别属于各语音建模单元的概率，趋近于真实概率为训练目标，训练解码器。

本申请实施例提供的语音特征处理装置可通过带噪语音原本的第二语音特征编码信息，来补偿纯洁语音特征估计对应的第一语音特征编码信息的语音畸变，使得补偿后得到的目标语音特征编码信息能够平衡语音畸变损害和去除噪音的益处，提升所得到的用于解码的目标语音特征编码信息的准确性，为提升语音识别的准确性提供了基础。进一步，通过对语音增强模型和语音识别模型分别进行训练，可使得利用本申请实施例实现的语音识别方案具有更高的识别准确性。

本申请实施例还提供一种电子设备，该电子设备可用于语音识别，例如用于语音识别的终端、服务器等电子设备；该电子设备可以通过装载上述所述的语音特征处理装置，以实现本申请实施例提供的语音特征处理方法。可选的，图11示出了本申请实施例提供的电子设备的可选结构，如图11所示，该电子设备可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为用于进行网络通信的通信模块的接口；

可选的，处理器1可能是CPU（中央处理器），GPU（Graphics Processing Unit，图形处理器），NPU（嵌入式神经网络处理器），FPGA（Field Programmable Gate Array，现场可编程逻辑门阵列），TPU（张量处理单元），AI芯片，特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路等。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

其中，存储器3存储一条或多条计算机可执行指令，处理器1调用所述一条或多条计算机可执行指令，以执行实现本申请实施例提供的语音特征处理方法。

本申请实施例还提供一种存储介质，该存储介质可存储一条或多条计算机可执行指令，该一条或多条计算机可执行指令被执行时实现本申请实施例提供的语音特征处理方法。

虽然本申请实施例披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音特征处理方法，其特征在于，包括：

根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息；

其中，所述根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息包括：

基于神经网络确定混合系数，所述混合系数用于表示第一语音特征编码信息和第二语音特征编码信息的相互混合程度；

2.根据权利要求1所述的语音特征处理方法，其特征在于，所述确定混合系数包括：

根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述混合系数。

3.根据权利要求2所述的语音特征处理方法，其特征在于，所述根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述第一语音特征编码信息与第二语音特征编码信息相互混合程度的混合系数包括：

将所述第一语音特征编码信息和第二语音特征编码信息输入神经网络，得到所述神经网络输出的所述混合系数；其中，所述神经网络以输出结果与混合系数标签的误差最小化为训练目标而训练得到，所述混合系数标签为输入所述神经网络的用于训练的第一语音特征编码信息样本和第二语音特征编码信息样本预先标记的混合系数。

4.根据权利要求3所述的语音特征处理方法，其特征在于，所述混合系数为0至1的数值范围。

5.根据权利要求1所述的语音特征处理方法，其特征在于，所述根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息包括：

6.根据权利要求1所述的语音特征处理方法，其特征在于，所述从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计包括：

将带噪语音的语音特征输入语音增强模型，以使所述语音增强模型对带噪语音的语音特征进行语音增强处理，得到所述纯净语音特征估计。

7.根据权利要求6所述的语音特征处理方法，其特征在于，所述语音增强模型以输出的带噪语音样本的纯净语音特征估计，与带噪语音样本的实际纯净语音特征的误差最小化为训练目标而训练得到。

8.根据权利要求1所述的语音特征处理方法，其特征在于，还包括：

根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。

9.根据权利要求8所述的语音特征处理方法，其特征在于，所述根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果包括：

将所述目标语音特征编码信息输入声学模型的解码器，以得到所述解码器预测的当前所有语音建模单元的后验概率，所述后验概率作为声学模型的输出结果。

10.根据权利要求9所述的语音特征处理方法，其特征在于，所述解码器以输出的带噪语音样本的各句子部分分别属于各语音建模单元的概率，趋近于真实概率为训练目标而训练得到。

11.一种语音特征处理装置，其特征在于，包括：

目标编码信息得到模块，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息；

其中，所述目标编码信息得到模块，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息，包括：

12.根据权利要求11所述的语音特征处理装置，其特征在于，所述目标编码信息得到模块，用于确定混合系数包括：

13.根据权利要求12所述的语音特征处理装置，其特征在于，所述噪音去除模块为语音增强模型，所述编码处理模块为声学模型中的编码器，所述目标编码信息得到模块为声学模型中设置的神经网络和混合层，其中，所述神经网络用于确定混合系数，所述混合层用于根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息。

14.根据权利要求13所述的语音特征处理装置，其特征在于，还包括：

第一训练模块，用于以神经网络的输出结果与混合系数标签的误差最小化为训练目标，训练所述神经网络，所述混合系数标签为输入所述神经网络的用于训练的第一语音特征编码信息样本和第二语音特征编码信息样本预先标记的混合系数；

和/或，

第二训练模块，用于以语音增强模型输出的带噪语音样本的纯净语音特征估计，与带噪语音样本的实际纯净语音特征的误差最小化为训练目标，训练语音增强模型。

15.根据权利要求13或14所述的语音特征处理装置，其特征在于，还包括：

概率预测模块，用于根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。

16.根据权利要求15所述的语音特征处理装置，其特征在于，所述概率预测模块为声学模型中的解码器；所述语音特征处理装置还包括：

第三训练模块，用于以解码器输出的带噪语音样本的各句子部分分别属于各语音建模单元的概率，趋近于真实概率为训练目标，训练解码器。

17.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行实现如权利要求1-10任一项所述的语音特征处理方法。

18.一种存储介质，其特征在于，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令被执行时实现如权利要求1-10任一项所述的语音特征处理方法。