CN117373468A

CN117373468A - 远场语音增强处理方法、装置、计算机设备和存储介质

Info

Publication number: CN117373468A
Application number: CN202210757300.9A
Authority: CN
Inventors: 黄�俊; 王燕南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-01-09

Abstract

本申请涉及一种远场语音增强处理方法、装置、计算机设备和存储介质。所述方法涉及云技术，包括：获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征，基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音。训练好的语音增强处理模型，根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到。采用本方法可使得第二降噪去混响模型，学习到层级节点数更大的第一降噪去混响模型的性能，减少模型训练量和计算量，提升语音增强处理模型的降噪去混响效果，以及对纯净语音数据的语音识别准确度。

Description

远场语音增强处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及云技术领域，特别是涉及一种远场语音增强处理方法、装置、计算机设备和存储介质。

背景技术

随着云技术的发展，以及各类智能语音设备的广泛应用，对于语音识别准确度以及识别效率等的要求日益提升，出现了语音降噪增强技术。其中，语音增强技术的本质在于语音降噪，即由于语音采集设备比如麦克风等，所采集的语音通常带有不同噪声，通过利用语音增强技术，可以对带噪声的语音进行降噪处理，以得到不携带噪声的纯净语音。

其中，语音增强技术通常可以分为近场语音增强和远场语音增强，针对远场语音，通常采用由多个麦克风组成阵列进行语音拾取和降噪处理，麦克风阵列的配置一般有比如双麦、四麦以及六麦等不同情况，以便后续对经降噪处理后的语音数据进行识别和分析。

但发明人发现，远场语音增强和近场语音增强相比，由于距离更远，信噪比更低，所采集的语音通常伴有混响，面临着回声干扰、室内混响、多信号源干扰以及非平稳噪声等干扰因素，其降噪难度更大，降噪效果差，导致所采集到的语音数据质量低，识别准确度仍有待提升。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升远场语音的语音降噪效果和语音识别准确度的远场语音增强处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种远场语音增强处理方法。所述方法包括：

获取携带有噪声数据和混响数据的远场语音数据，提取所述远场语音数据的带噪语音特征；

基于训练好的语音增强处理模型，确定与所述带噪语音特征对应的纯净掩码，根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理，获得所述远场语音数据中的纯净语音；

其中，所述训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的；所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同，且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

第二方面，本申请还提供了一种远场语音增强处理装置。所述装置包括：

带噪语音特征提取模块，用于获取携带有噪声数据和混响数据的远场语音数据，提取所述远场语音数据的带噪语音特征；

纯净语音获得模块，用于基于训练好的语音增强处理模型，确定与所述带噪语音特征对应的纯净掩码，根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理，获得所述远场语音数据中的纯净语音；其中，所述训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的；所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同，且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述远场语音增强处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品中，通过获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征，进而基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音。由于训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的，第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数，进而可通过知识蒸馏训练处理，使得第二降噪去混响模型，可学习到层级节点数更大的第一降噪去混响模型的降噪去混响的性能，进而提升训练得到的语音增强处理模型的去噪去混响性能。同时，由于无需对层级节点数更大的第一降噪去混响模型进行二次训练，可减少模型训练过程中的训练量和计算量，并提升最终得到的语音增强处理模型的降噪去混响效果，进一步提升后续对所得到的纯净语音数据的语音识别准确度。

附图说明

图1为一个实施例中远场语音增强处理方法的应用环境图；

图2为一个实施例中远场语音增强处理方法的流程示意图；

图3为一个实施例中训练得到语音增强处理模型的流程示意图；

图4为一个实施例中根据第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练的流程示意图；

图5为一个实施例中第一降噪去混响模型和第二降噪去混响模型的训练方式的流程示意图；

图6为一个实施例中语音增强处理模型的模型架构示意图；

图7为一个实施例中获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征的流程示意图；

图8为一个实施例中对加窗后的各帧语音数据进行快速傅里叶变换处理的示意图；

图9为另一个实施例中远场语音增强处理方法的流程示意图；

图10为一个实施例中远场语音增强处理装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的远场语音增强处理方法，涉及云技术，其中，云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术表示基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。由于不同技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云计算技术将变成重要支撑，提供计算、存储、处理和共享等所需的资源。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，因此各类行业数据皆需要强大的系统后盾支撑，可通过云计算来实现。

其中，云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。而云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。其中，按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform asa Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

本申请实施例提供的远场语音增强处理方法，具体涉及云技术中的云计算，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，服务器104通过获取携带有噪声数据和混响数据的远场语音数据，并提取远场语音数据的带噪语音特征，进而基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，以根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音，以将纯净语音反馈至终端102进行播放、识别以及分析等后续的进一步操作。其中，远场语音数据可由终端102提供，即可存储在终端102的本地存储中，也可由服务器104从自身的云存储或数据存储系统中获取。其中，训练好的语音增强处理模型，是服务器104根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的，而第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种远场语音增强处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征。

其中，远场语音数据表示在远场语音通讯场景下采集的语音数据，相对于近场语音通讯场景而言，在远场语音通讯场景下，用户和设备之间的距离更远，由于距离更远，信噪比更低，进而远场语音通讯场景下所采集的语音数据，通常携带有噪声数据和混响数据，面临着回声干扰、室内混响、多信号源干扰以及非平稳噪声等干扰因素，其降噪难度更大。

具体地，可通过采集设备阵列采集远场语音数据，其中，采集设备可以是麦克风，即具体是可以通过麦克风阵列，采集携带有噪声数据和混响数据的远场语音数据，通过对远场语音数据进行语音分帧处理和加窗处理，以得到加窗后的各帧语音数据，以进一步对加窗后的各帧语音数据进行语音特征提取处理，获得远场语音数据的带噪语音特征。

其中，带噪语音特征用于表示带噪带混响的语音特征，通过对带噪带混响的语音特征进行语音增强处理，可得到相应的纯净语音，以便后续对纯净语音进行识别和分析，减少由于噪声数据导致的识别错误和重复识别操作，提升了语音识别准确度和识别效率。

在一个实施例中，远场语音通讯场景具体可以包括和智能家居设备、智能办公设备、车载智能终端等之间的语音交互场景。其中，智能家居设备包括但不限于智能电视、智能冰箱、智能空调、智能音箱以及智能开关等设备，智能办公设备包括但不限于智能会议室、智能照明设备以及智能机器人等设备。而近场语音通讯场景，可以包括与各类手持智能终端设备之间的语音交互，比如和智能手机上安装的语音助手，智能人工助理等应用的语音交互，还可以是智能手机上的输入法的语音输入等应用场景。

举例来说，针对远场语音通讯场景而言，以智能会议室为例，可根据实际会议需求，设置不同的会议模式，可以包括线下会议，即具有实际会议场所的会议模式，各参会人员可在实际会议场所参与会议，并可在会议过程中与智能会议室进行交互，比如参会人员可发出“播放演示文稿(或音频、视频文件)”、“演示文稿翻页”、“切换XXX文件”、“启动XXX软件”以及“调大(或调小)音量”等不同语音数据，和智能会议室进行交互，智能会议室可通过对所接收到的语音数据进行识别和分析，进而执行与不同语音数据对应的处理操作。

具体来说，智能会议室可以通过采集设备阵列，比如麦克风阵列采集参会人员发出的语音数据，并对语音进行降噪去混响处理，以得到纯净语音，进而对纯净语音进行语音识别，以获取语音数据对应的语音指令，执行语音指令对应的处理操作。

同样地，智能会议室还可以包括线上会议的会议模式，基于和智能会议室对应的应用程序(比如XX会议应用程序)，新建线上会议室，将各参会人员对应的账号拉取进所新建的线上会议室，实现远程参会，各参会人员之间可远程进行语音通讯。

步骤S204，基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音。其中，训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的；第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数。

其中，掩码可以理解为在于在原始输入数据盖上一层掩膜，从而屏蔽或选择一些特定元素，而纯净掩码则可理解为通过在输入的带噪语音特征上盖上一层掩膜，从而屏蔽其中的噪声数据或混响数据，即起到只用于显示纯净语音的作用，进而可通过将纯净掩码和原始输入的带噪语音特征相乘，以只显示带噪语音特征对应的纯净语音，进而达到降噪去混响的目的，获得语音增强处理后的纯净语音，以便用于后续的语音识别和分析。

具体地，语音增强处理模型是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的，可通过将带噪语音特征输入训练好的语音增强处理模型，通过语音增强处理模型的掩码推断层，确定与带噪语音特征对应的纯净掩码。

进一步地，在确定与带噪语音特征对应的纯净掩码后，通过将纯净掩码和原始输入的带噪语音特征相乘，可获得远场语音数据中的纯净语音，以实现对远场语音数据的降噪去混响处理，后续进一步将纯净语音用于语音识别和分析，减少了由于远场语音数据中携带的噪声数据、混响数据等导致的识别错误，提升了语音识别准确率。

在一个实施例中，语音增强处理模型是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的。其中，第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数。

具体地，通过对第一原始降噪去混响模型和第二原始降噪去混响模型，分别进行训练，以得到训练后的第一降噪去混响模型和第二降噪去混响模型，而由于第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数，进而可通过利用层级节点数更大的第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练，以使得第二降噪去混响模型可学习到第一降噪去混响模型的降噪去混响性能。

其中，知识蒸馏即Knowledge Distillation，简称为KD，是一种模型压缩方法，使用的是teacher-student模型，其中，teacher模型是“知识(即Knowledge)”的输出者，student模型是“知识(即Knowledge)”的接受者，具体来说，通过将已经训练好的大模型(即teacher model，教师模型)所包含的知识，蒸馏(即Distill)提取到另一个小模型(即student model，学生模型)里面去，使得student模型获取teacher模型的泛化能力，即可提升teacher模型对新输入的数据给出合理响应的能力，或者说是提升模型对未知数据的预测能力，进而使得teacher模型具有更高的处理性能。

其中，泛化能力(即generalization ability)指的是机器学习算法或模型对新鲜样本的适应能力，即通过在原有的数据集上添加新的数据集，对网络进行训练以输出一个合理的结果，而到学习的目的在于使得网络学隐含在数据背后的规律，对具有同一规律的学习集以外的其他数据，经过训练的网络也能给出合适的输出。

进一步地，进行知识蒸馏训练涉及到的teacher模型和student模型，具有相同的网络层级结构，同时，teacher模型的层级节点数大于student模型中同一层级的层级节点数。

具体到本实施例中，则可理解为：用于进行知识蒸馏训练的第一降噪去混响模型和第二降噪去混响模型，具有相同的网络层级结构，均包括共享层、深度聚类层以及掩码推断层，其中，共享层又包括记忆网络层和线性层。但第一降噪去混响模型中各层的层级节点数，大于第二降噪去混响模型中相同层级的层级节点数，比如第一降噪去混响模型中记忆网络层的层级节点数，大于第二降噪去混响模型中的层级节点数，又比如第一降噪去混响模型中深度聚类层的层级节点数，大于第二降噪去混响模型中的深度聚类层的层级节点数，针对其他层级也适用。

上述远场语音增强处理方法中，通过获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征，进而基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音。由于训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的，第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数，进而可通过知识蒸馏训练处理，使得第二降噪去混响模型，可学习到层级节点数更大的第一降噪去混响模型的降噪去混响的性能，进而提升训练得到的语音增强处理模型的去噪去混响性能。同时，由于无需对层级节点数更大的第一降噪去混响模型进行二次训练，可减少模型训练过程中的训练量和计算量，并提升最终得到的语音增强处理模型的降噪去混响效果，进一步提升后续对所得到的纯净语音数据的语音识别准确度。

在一个实施例中，如图3所示，训练得到语音增强处理模型的方式，具体包括以下步骤：

步骤S302，根据训练样本中的带噪语音特征和纯净语音特征，确定深度聚类处理的时频点特征标注结果。

具体地，通过比较训练样本中带噪语音特征和纯净语音特征在每个时频点上的特征大小，得到深度聚类处理的时频点特征标注结果。

其中，通过对时域语音信号进行傅里叶变换(比如快速傅里叶变换、短时傅里叶变换)之后，得到频域语音信号后，频域语音信号的各语音特征分别用于表示不同频率点，即称为时频点。简单举例来说，比如一帧语音信号，其特征维度为521维，进行stft(即短时傅里叶变换)处理后之后，得到特征维度为257维的语音特征，则257维的语音特征中的任意一个语音特征，可用于表示一帧语音信号中的一个频率点，即可称为时频点。

进一步地，深度聚类处理表示为基于时频点聚类处理，即具体是针对语音信号中的各语音特征，即各时频点进行聚类处理，获得各时频点的分类预测结果。其中，由于深度聚类处理的损失函数为二值损失函数，具有0和1两种取值，0用于表示噪音数据，1用于表示纯净语音数据。可以理解的是，通过对各语音特征进行深度聚类处理，可生成对应的分类预测结果，根据输出为0还是1，来判断语音特征表示噪音数据还是表示纯净语音数据。

其中，可利用时频点特征标注结果，来表示各时频点所属的分类结果，即用于表示时频点对应的语音数据具体是噪音数据还是纯净语音数据。其中，时频点特征标注结果用于后续进行深度聚类处理时，作为深度聚类处理的参照，或者作为对进行深度聚类处理的深度聚类层进行训练的训练样本，通过对深度聚类层进行训练，以便后续利用训练好的深度聚类层进行深度聚类处理，输出相应的分类预测结果。

步骤S304，根据训练样本的带噪语音特征、纯净语音特征以及时频点特征标注结果，对第一原始降噪去混响模型和第二原始降噪去混响模型分别进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

具体地，通过获取预先标注的训练样本集，可以包括携带有带噪语音特征的训练样本、携带有纯净语音特征的训练样本，并根据训练样本以及视频特征点标注结果，对第一原始降噪去混响模型和第二原始降噪去混响模型分别进行训练，以得到训练好的第一降噪去混响模型和第二降噪去混响模型。

其中，第一原始降噪去混响模型和第二原始降噪去混响模型的网络层级结构相同，同时，得到对第一降噪去混响模型和第二降噪去混响模型的训练方式相同，且训练过程互不干扰。其中，第一原始降噪去混响模型和第二原始降噪去混响模型均包括共享层、深度聚类层和掩码推断层，共享层包括记忆网络层和线性层。但第一原始降噪去混响模型中各层的层级节点数，大于第二原始降噪去混响模型中相同层级的层级节点数，比如第一原始降噪去混响模型中深度聚类层的层级节点数，大于第二原始降噪去混响模型中的深度聚类层的层级节点数，又比如第一原始降噪去混响模型中掩码推断层的层级节点数，大于第二原始降噪去混响模型中的掩码推断层的层级节点数。

举例来说，第一原始降噪去混响模型和第二原始降噪去混响模型，具体可以是chimera++网络，其中，chimera++网络同时引入了深度聚类和掩码推断，并通过深度聚类实现辅助降噪，在训练过程中能有效提高纯净语音和噪声的区分性，并通过同时结合聚类和掩码推断两种不同形态的损失函数，大幅提升降噪性能。在此基础上，同时估计语音和噪声的掩码，能够进一步提升网络区分噪声和纯净语音的能力，在实际测试的前向推断时(即利用训练好的chimera++网络进行语音增强处理时)，仅需要利用纯净掩码恢复出纯净语音，并不会额外增加计算量，提升降噪去混响的处理效率，同时减少资源消耗。

步骤S306，根据第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练，获得训练好的语音增强处理模型。

具体地，通过将训练样本的带噪语音特征，分别输入第一降噪去混响模型和第二降噪去混响模型，获得第一降噪去混响模型输出的第一预测标签、以及第二降噪去混响模型输出的第二预测标签。进而通过获取带噪语音特征的原始特征标签，以确定第二预测标签和原始特征标签之间的第一损失函数，同样地，确定第一预测标签和第二预测标签之间的第二损失函数。

进一步地，根据第二预测标签和原始特征标签之间的第一损失函数、第一预测标签和第二预测标签之间的第二损失函数，确定融合损失函数。进而基于融合损失函数和纯净语音特征，对第二降噪去混响模型进行后向更新训练，得到训练好的语音增强处理模型。

在一个实施例中，具体采用以下公式(1)，确定融合损失函数Loss_R：

Loss_R＝Loss₁(Y₂,L)+a*Loss₂(Y₁,Y₂)； (1)

其中，Loss_R为融合损失函数，Loss₁(Y₂,L)为第二预测标签和原始特征标签之间的第一损失函数，Loss₂(Y₁,Y₂)为第一预测标签和第二预测标签之间的第二损失函数，Y₁为第一预测标签，Y₂为第二预测标签，L为原始特征标签，a为可调节参数，用于调节不同损失函数之间的权重，可根据不同应用场景下的实际需求进行灵活调整，不对其取值进行具体限定。

在一个实施例中，如图4所示，提供了根据第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练的流程，参照图4可知，第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，都包括由线性层(即linear层)和记忆网络层(即BLSTM层，全称为Bi-directional Long-Short Term Memory，含义为双向长短期记忆网络)组成的共享层，还包括深度聚类层(即deep clustering层，简称为dc层)，以及掩码推断层(即maskinference层)。

具体地，参照图4可知，通过将训练样本的带噪语音特征，分别输入第一降噪去混响模型(即teacher model)和第二降噪去混响模型(即student model)中，获得第一降噪去混响模型输出的第一预测标签、以及第二降噪去混响模型输出的第二预测标签，进而根据第二预测标签和带噪语音特征的原始特征标签之间的第一损失函数、第一预测标签和第二预测标签之间的第二损失函数，确定融合损失函数(即compute fusion Loss)，通过融合损失函数和纯净语音特征，对第二降噪去混响模型进行后向更新训练(即backpropagation)，得到训练好的语音增强处理模型。

其中，针对第一降噪去混响模型，其模型参数固定，不进行调整，知识蒸馏训练的目的在于使得第二降噪去混响模型，学习到第一降噪去混响模型的性能。

本实施例中，根据训练样本中的带噪语音特征和纯净语音特征，确定深度聚类处理的时频点特征标注结果，并根据训练样本的带噪语音特征、纯净语音特征以及时频点特征标注结果，对第一原始降噪去混响模型和第二原始降噪去混响模型分别进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。进而根据第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练，以获得训练好的语音增强处理模型。实现了利用知识蒸馏训练处理，使得第二降噪去混响模型，可学习到层级节点数更大的第一降噪去混响模型的降噪去混响的性能，进而提升训练得到的语音增强处理模型的去噪去混响性能。而由于无需对层级节点数更大的第一降噪去混响模型进行二次训练，可减少模型训练过程中的训练量和计算量，并提升最终得到的语音增强处理模型的降噪去混响效果，进一步提升后续对所得到的纯净语音数据的语音识别准确度。

在一个实施例中，如图5所示，提供了一种第一降噪去混响模型和第二降噪去混响模型的训练方式，其中，由于第一原始降噪去混响模型和第二原始降噪去混响模型的网络层级结构相同，且得到第一降噪去混响模型和第二降噪去混响模型的训练方式相同，进而可采用以下训练方式，分别实现对第一原始降噪去混响模型和第二原始降噪去混响模型的训练，以得到训练好的第一降噪去混响模型和第二降噪去混响模型，该训练方式具体包括以下步骤：

步骤S502，基于共享层，对训练样本的带噪语音特征以及纯净语音特征，进行映射处理和线性处理，获得中间数据。

具体地，第一原始降噪去混响模型和第二原始降噪去混响模型的网络层级结构相同，均包括共享层、深度聚类层以及掩码推断层。其中，共享层又包括线性层和记忆网络层，共享层中的记忆网络层，用于对训练样本的带噪语音特征以及纯净语音特征，进行映射处理，通过记忆网络层中的双向长短期记忆网络，对输入数据进行建模，以使得双向长短期记忆网络学习到带噪语音特征到纯净语音特征之间的映射关系，达到对双向长短期记忆网络的训练目的。

其中，共享层中的线性层又称为全连接层，用于实现对前一层的特征或数据的线性组合处理或线性变换处理，进而通过线性层，对双向长短期记忆网络的输出结果进行线性处理后，即实现对双向长短期记忆网络的输出结果进行维度变换后再输出，以得到所需维度的中间数据。在本实施例中，通过记忆网络层对训练样本的带噪语音特征以及纯净语音特征，进行映射处理，得到相应的输出结果，并通过线性层对记忆网络层的输出结果进行线性处理，得到相应的中间数据。

步骤S504，基于深度聚类层，根据时频点特征标注结果，对中间数据进行深度聚类处理，获得分类预测结果。

具体地，通过将共享层所输出的中间数据，输入至深度聚类层，以基于深度聚类层，根据时频点特征标注结果，对中间数据进行深度聚类处理，输出对应的分类预测结果。其中，通过比较训练样本中带噪语音特征和纯净语音特征在每个时频点上的特征大小，可得到深度聚类处理的时频点特征标注结果。

进一步地，深度聚类处理表示为基于时频点聚类处理，即具体是针对语音信号中的各语音特征，即各时频点进行聚类处理，获得对应的分类预测结果。由于深度聚类处理的损失函数为二值损失函数，具有0和1两种取值，0用于表示噪音数据，1用于表示纯净语音数据，则通过深度聚类处理，可以输出0或1的分类预测结果，进而根据分类预测结果，来判断语音特征表示噪音数据还是表示纯净语音数据。

步骤S506，基于掩码推断层，对中间数据进行掩码推断预测处理，获得掩码推断结果。

具体地，通过将共享层输出的中间数据，输入掩码推断层，通过掩码推断层对中间数据进行掩码推断预测处理，得到相应的掩码推断结果。其中，掩码推断结果可以包括纯净掩码和噪音掩码，掩码可以理解为在于在原始输入数据盖上一层掩膜，从而屏蔽或选择一些特定元素，而纯净掩码则可理解为通过在输入的带噪语音特征上盖上一层掩膜，从而屏蔽其中的噪声数据或混响数据，即起到只用于显示纯净语音的作用。

在一个实施例中，如图6所示，提供了一种语音增强处理模型的模型架构，参照图6可知，训练好的语音增强处理模型具体包括记忆网络层(即BLSTM layers，双向长短期记忆网络层)、线性层(即linear)、深度聚类层(即deep clustering，简称为dc)以及掩码推断层(即mask inference)。其中，记忆网络层可设置有多层，用于提供更好的降噪处理效果，记忆网络层的层数可根据实际处理需求设置和调整，不进行具体限定。

具体地，记忆网络层用于对输入的训练样本的带噪语音特征以及纯净语音特征，进行映射处理和线性处理，获得中间数据，中间数据用于输入至深度聚类层和掩码推断层，深度聚类层用于输出分类预测结果，而掩码推断层用于输出掩码推断结果。

其中，深度聚类层设置有数据规整层，用于对中间数据进行规整处理，具体来说是根据标准规范，对中间数据进行编码赋值、图层划分、以及格式转换等处理，深度聚类层还设置有激活函数，用于对规整处理后的中间数据进行非线性处理，使得深度聚类层的输出结果，即分类预测结果Vt位于预设范围内。在本实施例中，深度聚类层的损失函数为具有0和1两种取值的二值损失函数，则分类预测结果Vt可以是0或1两种不同的取值结果。

举例来说，深度聚类层设置的数据规整层可以是图6中的unit-norm层，用于对中间数据进行规整处理，而深度聚类层设置的激活函数可以是图6中的tanh函数，用于对规整处理后的中间数据进行非线性处理，增加模型的非线性。其中，tanh函数，即双曲正切函数，具体是由基本双曲函数双曲正弦和双曲余弦推导得到。

进一步地，掩码推断层设置有线性层和激活函数，其中，线性层用于对中间数据进行线性处理，以对中间数据进行维度变换。其中，掩码推断层同样设置有激活函数，本实施例中，掩码推断层设置的激活函数可以是图4中的softmax函数，通过softmax函数，对维度变换后的中间数据进行非线性处理，增强模型的非线性。其中，softmax函数，用于将维度变换后的中间数据进行非线性处理后，输出对应的掩码推断结果Mt。

步骤S508，根据分类预测结果和掩码推断结果，确定模型降噪损失函数。

具体地，通过确定分类预测结果和原始特征标签之间的第一降噪损失函数、掩码推断结果和纯净语音特征的第二原始掩码特征之间的第二降噪损失函数、以及掩码推断结果和带噪语音特征的第二原始掩码特征之间的第三降噪损失函数，进而根据第一降噪损失函数、第二降噪损失函数以及第三降噪损失函数，获得模型降噪损失函数。

其中，由于第一降噪去混响模型和第二降噪去混响模型，均设置有多个网络输出头，用于输出不同处理结果，包括用于深度聚类层(即deep clustering，简称为dc)输出分类预测结果的深度聚类头(即dc头)，用于掩码推断层输出纯净掩码的纯净头(即clean头)，以及用于输出噪音掩码的噪音头(即noise头)。

进一步地，由于对第一降噪去混响模型和第二降噪去混响模型的训练方式相同，则可根据不同网络输出头对应的降噪损失函数，包括dc头的第一降噪损失函数Loss_dc，clean头的第二降噪损失函数Loss_clean，以及noise头的第三降噪损失函数Loss_noise，确定得到模型降噪损失函数Loss_M，具体采用以下公式(2)，确定得到模型降噪损失函数Loss_M：

Loss_M＝b1*Loss_dc(Y_dc,L_dc)+b2*Loss_clean(Y_clean,L_clean)+b3*Loss_noise(Y_noise,L_noise)； (2)

其中，Loss_M为模型降噪损失函数，Loss_dc(Y_dc,L_dc)为dc头的第一降噪损失函数，Y_dc为dc头的分类预测结果，L_dc为输入的带噪语音特征的原始特征标签，Loss_clean(Y_clean,L_clean)为clean头的第二降噪损失函数，Y_clean为clean头的掩码推断结果，L_clean为带噪语音特征的第一原始掩码特征，Loss_noise(Y_noise,L_noise)为noise头的第三降噪损失函数，Y_noise为noise头输出的掩码推断结果，L_noise为带噪语音特征的第二原始掩码特征。其中，b1、b2、b3为可调节参数，用于调节不同网络输出头的损失函数之间的权重，可根据不同应用场景下的实际需求进行灵活调整，不对其取值进行具体限定。

步骤S510，根据模型降噪损失函数，对模型参数进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

具体地，根据模型降噪损失函数，对第一原始降噪去混响模型、第二原始降噪去混响模型的模型参数进行训练，以得到训练好的第一降噪去混响模型和第二降噪去混响模型。

在一个实施例中，由于训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的，且第一降噪去混响模型和第二降噪去混响模型均设置有多个网络输出头，进行模型训练时，需要考虑知识蒸馏训练过程中涉及的损失函数，以及对训练得到第一降噪去混响模型和第二降噪去混响模型的过程中，所涉及的损失函数，进而结合公式(1)和公式(2)，推导得到以下公式(3)，通过以下公式(3)表示模型训练过程中的损失函数Loss：

其中，表示第二降噪去混响模型中dc头的输出的第二预测标签和原始特征标签之间的损失函数，/>表示第一降噪去混响模型中dc头输出的第一预测标签、第二降噪去混响模型中dc头输出的第二预测标签之间的损失函数。表示第二降噪去混响模型中clean头输出的掩码推断结果、纯净语音特征的第一原始掩码特征之间的损失函数，/>表示第一降噪去混响模型中clean头输出的掩码推断结果、第二降噪去混响模型中clean头输出的掩码推断结果之间的损失函数，/>表示第二降噪去混响模型中noise头输出的掩码推断结果、带噪语音特征的第二原始掩码特征之间的损失函数，/>表示第一降噪去混响模型中noise头输出的掩码推断结果、第二降噪去混响模型中noise头输出的掩码推断结果之间的损失函数。

同样地，表示第一降噪去混响模型中dc头的输出的第一预测标签，/>第二降噪去混响模型中dc头输出的第二预测标签，L_dc第一降噪去混响模型中输入dc头的带噪语音特征的原始特征标签，/>表示第一降噪去混响模型中clean头输出的掩码推断结果，表示第二降噪去混响模型中clean头输出的掩码推断结果，L_clean表示纯净语音特征的第一原始掩码特征，/>表示第一降噪去混响模型中noise头输出的掩码推断结果，/>表示第二降噪去混响模型中noise头输出的掩码推断结果，L_noise表示带噪语音特征的第二原始掩码特征。

进一步地，根据公式(3)所示的模型训练过程中的损失函数，对第一原始降噪去混响模型和第二原始降噪去混响模型进行训练，得到训练后的第一降噪去混响模型和第二降噪去混响模型后，基于模型训练过程中的损失函数，根据第一降噪去混响模型对第二降噪去混响模型进行知识蒸馏训练，以得到训练好的语音增强处理模型。

本实施例中，基于共享层，对训练样本的带噪语音特征以及纯净语音特征，进行映射处理和线性处理，获得中间数据，进而基于深度聚类层，根据时频点特征标注结果，对中间数据进行深度聚类处理，获得分类预测结果。同时基于掩码推断层，对中间数据进行掩码推断预测处理，获得掩码推断结果，进而可根据分类预测结果和掩码推断结果，确定模型降噪损失函数，以根据模型降噪损失函数，实现对模型参数的训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。实现了对将深度聚类以及掩码推断进行结合得到的模型进行训练，在训练过程中有效地提高纯净语音和噪声数据的区分性能，并通过考虑聚类和掩码推断两种不同形态的损失函数，进一步提升训练得到的模型的降噪去混响性能，提升降噪去混响效果。

在一个实施例中，如图7所示，获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征的步骤，具体包括：

步骤S702，获取携带有噪声数据和混响数据的远场语音数据，对远场语音数据进行语音分帧处理和加窗处理，得到加窗后的各帧语音数据。

具体地，可通过采集设备阵列采集远场语音数据，其中，采集设备可以是麦克风，即具体是可以通过麦克风阵列，采集携带有噪声数据和混响数据的远场语音数据。

其中，由于所采集的远场语音数据，从整体上而言，其特性是随时间而变化的，属于非平稳态过程，不能用处理平稳信号的数字信号处理技术直接进行分析处理，但从局部上看，比如在短时范围内(比如10ms至30ms长度范围内)，其特性基本保持不变，即相对稳定，可以划分为准稳态过程。

也就是说，语音数据具有短时平稳性，由于对语音数据的分析和处理需要建立在短时的基础上，即进行短时分析，进而可对语音数据进行帧处理，即将其分割成多个片段，针对每个片段进行分析和处理，其中，每个片段即可成为一帧，各帧语音数据的帧长一般即取为10ms至30ms。

进一步地，通过对分帧处理后的各帧语音数据，进行加窗处理，以得到加窗后的各帧语音数据。具体来说，是将分帧处理后的各帧语音数据，在做傅里叶变换(比如快速傅里叶变换、短时傅里叶变换等)之前，先进行加窗操作，即将各帧语音数据与一个窗函数相乘，加窗的目的在于让各帧语音数据的幅度在两端渐变到0，以便于后续进行傅里叶变换后得到的频谱上的峰更清晰，减轻频谱泄漏(频谱泄漏指的是某一频率的信号能量扩散到相邻频点的现象)，使其更接近真实频谱。

其中，加窗处理时所采用的窗函数可以有多种，比如矩形窗、汉明窗、以及汉宁窗等，具体可根据实际需求进行调整，比如根据窗口形状、窗口长度等选择不同的窗函数，不局限于某种固定的窗函数。

步骤S704，对加窗后的各帧语音数据，进行快速傅里叶变换处理，并获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱。

具体地，通过对加窗后的各帧语音数据，进行傅里叶变换处理(比如快速傅里叶变换处理、短时傅里叶变换处理等)，可得到各帧语音数据的频谱。本实施例中，具体是对各帧语音数据进行快速傅里叶变换，则可得到各帧语音数据的离散功率谱。

步骤S706，对离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱。

具体地，通过对离散功率谱进行求对数处理，使得离散功率谱中低振幅成分得以拉高，便于观察噪声中的周期信号，以得到各帧语音数据的对数功率谱。

步骤S708，基于各帧语音数据的对数功率谱，进行特征拼接，获得远场语音数据的带噪语音特征。

具体地，基于各帧语音数据的对数功率谱，得到各采集设备所采集的多帧语音数据的语音特征，通过将多帧语音数据的语音特征进行拼接，可得到由采集设备阵列(即麦克风阵列)所采集的远场语音数据对应的带噪语音特征。

其中，所提取得到的带噪语音特征，具体可以是对数功率谱特征或MFCC(即Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征。其中，以对数功率谱特征为例，具体是对加窗后的各帧语音数据，进行FFT变换(即Fast Fourier Transformation，快速傅里叶变换)，以得到快速傅里叶变换后的各帧语音数据。通过获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱，并对离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱，进而基于各帧语音数据的对数功率谱，进行特征拼接，获得远场语音数据的带噪语音特征。

在另一个实施例中，以MFCC特征为例，则具体是对加窗后的各帧语音数据，进行快速傅里叶变换，以得到快速傅里叶变换后的各帧语音数据，通过将经过快速傅里叶变换后的各帧语音数据，输入三角滤波器组，以对将经过快速傅里叶变换后的各帧语音数据的频谱进行平滑化，消除谐波的作用，突显各帧语音数据的共振峰。进一步通过计算各三角滤波器输出的对数能量，并对各三角滤波器输出的对数能量进行离散余弦变换处理，得到MFCC特征。

其中，通过对对数能量进行离散余弦变换处理得到的MFCC特征，用于表示语音特征的静态特性，而语音特征的动态特性，可通过静态特性的差分参数进行描述。

在一个实施例中，如图8所示，提供了一种对加窗后的各帧语音数据进行快速傅里叶变换处理示意图，参照图8可知，通过对加窗处理后的时域语音信号，进行FFT变换处理(即快速傅里叶变换处理)，可得到频域语音信号，即得到频域语音信号的带噪语音特征。进而可通过训练好的语音增强处理模型，对带噪语音特征进行语音增强处理，以得到远场语音数据中的纯净语音。

进一步地，由于需要对时域语音信号进行傅里叶变换(比如快速傅里叶变换、短时傅里叶变换)，以得到频域语音信号，并基于频域语音信号的各频域语音特征，进行语音增强处理，输出得到纯净语音特征。其中，输出的纯净语音特征同样为频域语音特征，如果需要进行语音识别和分析，还需要进一步转换为时域语音信号。进而通过对输出的纯净语音进行逆特征变换，实现从频域到时域的变换，以得到语音增强处理后的时域纯净语音，以用于后续语音识别和分析等处理。

本实施例中，通过获取携带有噪声数据和混响数据的远场语音数据，对远场语音数据进行语音分帧处理和加窗处理，得到加窗后的各帧语音数据，并对加窗后的各帧语音数据，进行快速傅里叶变换处理，以获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱。进一步地，通过对离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱，则可基于各帧语音数据的对数功率谱进行特征拼接，获得远场语音数据的带噪语音特征。实现了对远场语音数据的分帧处理、加窗处理以及傅里叶变换处理等，实现对语音特征的准确、快速提取，避免需要反复提取特征等操作，以提升后续对语音数据进行降噪去混响处理的处理效率。

在一个实施例中，如图9所示，提供了一种远场语音增强处理方法，参照图9可知，该远场语音增强处理方法，具体包括以下步骤：

步骤S901，获取携带有噪声数据和混响数据的远场语音数据，对远场语音数据进行语音分帧处理和加窗处理，得到加窗后的各帧语音数据。

步骤S902，对加窗后的各帧语音数据，进行快速傅里叶变换处理，并获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱。

步骤S903，对离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱。

步骤S904，基于各帧语音数据的对数功率谱，进行特征拼接，获得远场语音数据的带噪语音特征。

步骤S905，根据训练样本中的带噪语音特征和纯净语音特征，确定深度聚类处理的时频点特征标注结果。

其中，第一原始降噪去混响模型和第二原始降噪去混响模型，均包括共享层、深度聚类层以及掩码推断层，且第一降噪去混响模型和第二降噪去混响模型的训练方式相同，对第一原始降噪去混响模型和第二原始降噪去混响模型的训练方式，包括以下步骤S906至S911：

步骤S906，基于共享层，对训练样本的带噪语音特征以及纯净语音特征，进行映射处理和线性处理，获得中间数据。

步骤S907，基于深度聚类层，根据时频点特征标注结果，对中间数据进行深度聚类处理，获得分类预测结果。

步骤S908，基于掩码推断层，对中间数据进行掩码推断预测处理，获得掩码推断结果。

步骤S909，确定分类预测结果和原始特征标签之间的第一降噪损失函数、掩码推断结果和纯净语音特征的第二原始掩码特征之间的第二降噪损失函数、以及掩码推断结果和带噪语音特征的第二原始掩码特征之间的第三降噪损失函数。

步骤S910，根据第一降噪损失函数、第二降噪损失函数以及第三降噪损失函数，获得模型降噪损失函数。

步骤S911，根据模型降噪损失函数，对模型参数进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

步骤S912，将训练样本的带噪语音特征，分别输入第一降噪去混响模型和第二降噪去混响模型，获得第一降噪去混响模型输出的第一预测标签、以及第二降噪去混响模型输出的第二预测标签。

步骤S913，根据第二预测标签和带噪语音特征的原始特征标签之间的第一损失函数、以及第一预测标签和第二预测标签之间的第二损失函数，确定融合损失函数。

步骤S914，基于融合损失函数和纯净语音特征，对第二降噪去混响模型后向更新训练，得到训练好的语音增强处理模型。

步骤S915，将带噪语音特征输入训练好的语音增强处理模型，通过语音增强处理模型的掩码推断层，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音。

在一个实施例中，提供了一种远场语音增强处理方法，具体包括：

第一部分：训练得到第一降噪去混响模型(即teacher模型)和第二降噪去混响模型(student模型)。

具体地，通过对第一原始降噪去混响模型和第二原始降噪去混响模型，分别进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。其中，由于第一原始降噪去混响模型和第二原始降噪去混响模型的网络层级结构相同，均包括共享层(共享层包括线性层和记忆网络层)、深度聚类层以及掩码推断层，但第一原始降噪去混响模型的层级节点数大于所述第二原始降噪去混响模型中同一层级的层级节点数，因此，对第一原始降噪去混响模型和第二原始降噪去混响模型的训练方式是相同的。

进一步地，对第一原始降噪去混响模型和第二原始降噪去混响模型的训练方式如下：

基于所述共享层，对所述训练样本的带噪语音特征以及所述纯净语音特征，进行映射处理和线性处理，获得中间数据，并基于所述深度聚类层，根据所述时频点特征标注结果，对所述中间数据进行深度聚类处理，获得分类预测结果。同样地，基于所述掩码推断层，对所述中间数据进行掩码推断预测处理，获得掩码推断结果，进而根据所述分类预测结果和所述掩码推断结果，确定模型降噪损失函数。最终根据所述模型降噪损失函数，对模型参数进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

其中，可以通过先确定出所述分类预测结果和所述原始特征标签之间的第一降噪损失函数、所述掩码推断结果和所述纯净语音特征的第二原始掩码特征之间的第二降噪损失函数、以及所述掩码推断结果和所述带噪语音特征的第二原始掩码特征之间的第三降噪损失函数，以进一步根据所述第一降噪损失函数、所述第二降噪损失函数以及所述第三降噪损失函数，获得模型降噪损失函数。进而利用模型降噪损失函数，对模型参数进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

第二部分：利用第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练，以使得第二降噪去混响模型学习到第一降噪去混响模型的性能和知识，得到训练好的语音增强处理模型。

具体来说，通过获取训练样本中的带噪语音特征，并将带噪语音特征分别输入第一降噪去混响模型和第二降噪去混响模型中，获得第一降噪去混响模型输出的第一预测标签，以及第二降噪去混响模型输出的第二预测标签。

进一步地，根据对带噪语音特征进行预先标注的原始特征标签，以及第二预测标签，确定出与第二降噪去混响模型关联的第一损失函数，并根据第一预测标签和第二预测标签，确定出第一降噪去混响模型和第二降噪去混响模型之间的第二损失函数，继而将第一损失函数和第二损失函数进行融合，得到融合损失函数，并根据融合损失函数对第二降噪去混响模型进行后向更新训练，以得到训练好的语音增强处理模型。

其中，根据第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练时，需要固定第一降噪去混响模型的模型参数，即不对第一降噪去混响模型的模型参数进行调整，而是根据融合损失函数对第二降噪去混响模型进行后向更新训练，使得第二降噪去混响模型学习到第一降噪去混响模型的性能和知识。

第三部分：根据训练好的语音增强处理模型，对远场语音数据进行语音增强处理，获得纯净语音，并对纯净语音进行语音识别和分析。

具体地，通过获取麦克风阵列采集的包含噪声和混响的远场语音数据，并对远场语音数据进行语音分帧处理和加窗处理，得到加窗后的各帧语音数据。进而通过对所述加窗后的各帧语音数据，进行快速傅里叶变换处理，以获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱。进一步通过对所述离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱，以基于各帧语音数据的对数功率谱进行特征拼接，获得所述远场语音数据的带噪语音特征。

进一步地，通过训练好的语音增强处理模型，对远场语音数据的带噪语音特征进行语音增强处理，确定出与所述带噪语音特征对应的纯净掩码，进而根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理，获得所述远场语音数据中的纯净语音，以便后续根据纯净语音进行语音识别和分析，提升语音识别准确率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的远场语音增强处理方法的远场语音增强处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个远场语音增强处理装置实施例中的具体限定可以参见上文中对于远场语音增强处理方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种远场语音增强处理装置，包括：带噪语音特征提取模块1002和纯净语音获得模块1004，其中：

带噪语音特征提取模块1002，用于获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征；

纯净语音获得模块1004，用于基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音；其中，训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的；第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数。

上述远场语音增强处理装置中，通过获取携带有噪声数据和混响数据的远场语音数据，提取远场语音数据的带噪语音特征，进而基于训练好的语音增强处理模型，确定与带噪语音特征对应的纯净掩码，根据纯净掩码和带噪语音特征进行降噪去混响处理，获得远场语音数据中的纯净语音。由于训练好的语音增强处理模型，是根据预先训练的第一降噪去混响模型，对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的，第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同，且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数，进而可通过知识蒸馏训练处理，使得第二降噪去混响模型，可学习到层级节点数更大的第一降噪去混响模型的降噪去混响的性能，进而提升训练得到的语音增强处理模型的去噪去混响性能。同时，由于无需对层级节点数更大的第一降噪去混响模型进行二次训练，可减少模型训练过程中的训练量和计算量，并提升最终得到的语音增强处理模型的降噪去混响效果，进一步提升后续对所得到的纯净语音数据的语音识别准确度。

在一个实施例中，提供了一种远场语音增强处理装置，还包括：

时频点特征标注结果确定模块，用于根据训练样本中的带噪语音特征和纯净语音特征，确定深度聚类处理的时频点特征标注结果；

降噪去混响模型训练模块，用于根据训练样本的带噪语音特征、纯净语音特征以及时频点特征标注结果，对第一原始降噪去混响模型和第二原始降噪去混响模型分别进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型；

知识蒸馏训练模块，用于根据第一降噪去混响模型，对第二降噪去混响模型进行知识蒸馏训练，获得训练好的语音增强处理模型。

在一个实施例中，知识蒸馏训练模块，还用于：将训练样本的带噪语音特征，分别输入第一降噪去混响模型和第二降噪去混响模型，获得第一降噪去混响模型输出的第一预测标签、以及第二降噪去混响模型输出的第二预测标签；根据第二预测标签和带噪语音特征的原始特征标签之间的第一损失函数、以及第一预测标签和第二预测标签之间的第二损失函数，确定融合损失函数；基于融合损失函数和纯净语音特征，对第二降噪去混响模型后向更新训练，得到训练好的语音增强处理模型。

在一个实施例中，降噪去混响模型训练模块，还用于：基于共享层，对训练样本的带噪语音特征以及纯净语音特征，进行映射处理和线性处理，获得中间数据；基于深度聚类层，根据时频点特征标注结果，对中间数据进行深度聚类处理，获得分类预测结果；基于掩码推断层，对中间数据进行掩码推断预测处理，获得掩码推断结果；根据分类预测结果和掩码推断结果，确定模型降噪损失函数；根据模型降噪损失函数，对模型参数进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

在一个实施例中，降噪去混响模型训练模块，还用于：确定分类预测结果和原始特征标签之间的第一降噪损失函数、掩码推断结果和纯净语音特征的第二原始掩码特征之间的第二降噪损失函数、以及掩码推断结果和带噪语音特征的第二原始掩码特征之间的第三降噪损失函数；根据第一降噪损失函数、第二降噪损失函数以及第三降噪损失函数，获得模型降噪损失函数。

在一个实施例中，纯净语音获得模块，还用于：将带噪语音特征输入训练好的语音增强处理模型，通过语音增强处理模型的掩码推断层，确定与带噪语音特征对应的纯净掩码。

在一个实施例中，带噪语音特征提取模块，还用于：获取携带有噪声数据和混响数据的远场语音数据，对远场语音数据进行语音分帧处理和加窗处理，得到加窗后的各帧语音数据；对加窗后的各帧语音数据，进行快速傅里叶变换处理，并获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱；对离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱；基于各帧语音数据的对数功率谱，进行特征拼接，获得远场语音数据的带噪语音特征。

上述远场语音增强处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储远场语音数据、带噪语音特征、语音增强处理模型、纯净掩码、纯净语音、第一降噪去混响模型以及第二降噪去混响模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种远场语音增强处理方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种远场语音增强处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，训练得到所述语音增强处理模型的方式，包括：

根据训练样本中的带噪语音特征和纯净语音特征，确定深度聚类处理的时频点特征标注结果；

根据所述训练样本的带噪语音特征、纯净语音特征以及所述时频点特征标注结果，对第一原始降噪去混响模型和第二原始降噪去混响模型分别进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型；

根据所述第一降噪去混响模型，对所述第二降噪去混响模型进行知识蒸馏训练，获得训练好的语音增强处理模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一降噪去混响模型，对所述第二降噪去混响模型进行知识蒸馏训练，获得训练好的语音增强处理模型，包括：

将所述训练样本的带噪语音特征，分别输入所述第一降噪去混响模型和所述第二降噪去混响模型，获得所述第一降噪去混响模型输出的第一预测标签、以及所述第二降噪去混响模型输出的第二预测标签；

根据所述第二预测标签和所述带噪语音特征的原始特征标签之间的第一损失函数、以及所述第一预测标签和所述第二预测标签之间的第二损失函数，确定融合损失函数；

基于所述融合损失函数和所述纯净语音特征，对所述第二降噪去混响模型后向更新训练，得到训练好的语音增强处理模型。

4.根据权利要求2或3所述的方法，其特征在于，所述第一原始降噪去混响模型和第二原始降噪去混响模型，均包括共享层、深度聚类层以及掩码推断层；所述第一降噪去混响模型和第二降噪去混响模型的训练方式相同；所述训练方式，包括：

基于所述共享层，对所述训练样本的带噪语音特征以及所述纯净语音特征，进行映射处理和线性处理，获得中间数据；

基于所述深度聚类层，根据所述时频点特征标注结果，对所述中间数据进行深度聚类处理，获得分类预测结果；

基于所述掩码推断层，对所述中间数据进行掩码推断预测处理，获得掩码推断结果；

根据所述分类预测结果和所述掩码推断结果，确定模型降噪损失函数；

根据所述模型降噪损失函数，对模型参数进行训练，得到训练好的第一降噪去混响模型和第二降噪去混响模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述分类预测结果和所述掩码推断结果，确定模型降噪损失函数，包括：

确定所述分类预测结果和所述原始特征标签之间的第一降噪损失函数、所述掩码推断结果和所述纯净语音特征的第二原始掩码特征之间的第二降噪损失函数、以及所述掩码推断结果和所述带噪语音特征的第二原始掩码特征之间的第三降噪损失函数；

根据所述第一降噪损失函数、所述第二降噪损失函数以及所述第三降噪损失函数，获得模型降噪损失函数。

6.根据权利要求3所述的方法，其特征在于，基于训练好的语音增强处理模型，确定与所述带噪语音特征对应的纯净掩码，包括：

将所述带噪语音特征输入训练好的所述语音增强处理模型，通过所述语音增强处理模型的掩码推断层，确定与所述带噪语音特征对应的纯净掩码。

7.根据权利要求1至3任意一项所述的方法，其特征在于，所述获取携带有噪声数据和混响数据的远场语音数据，提取所述远场语音数据的带噪语音特征，包括：

获取携带有噪声数据和混响数据的远场语音数据，对所述远场语音数据进行语音分帧处理和加窗处理，得到加窗后的各帧语音数据；

对所述加窗后的各帧语音数据，进行快速傅里叶变换处理，并获取进行快速傅里叶变换处理后的各帧语音数据的离散功率谱；

对所述离散功率谱进行求对数处理，获得各帧语音数据的对数功率谱；

基于各帧语音数据的对数功率谱，进行特征拼接，获得所述远场语音数据的带噪语音特征。

8.一种远场语音增强处理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。