CN117457017A

CN117457017A - 语音数据的清洗方法及电子设备

Info

Publication number: CN117457017A
Application number: CN202311762626.1A
Authority: CN
Inventors: 李文; 沈亚军; 洪传荣; 杨国全
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-01-26
Anticipated expiration: 2043-12-20
Also published as: CN117457017B

Abstract

本申请公开了一种语音数据的清洗方法及电子设备，该语音数据的清洗方法包括：获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音。通过进行数据清洗效果的判定，根据语音质量确定要保留的目标语音片段，可以在保证语音信息不被损坏的前提下，对语音数据进行噪音清除，有效保证数据清洗的准确度。

Description

语音数据的清洗方法及电子设备

技术领域

本申请涉及音频处理技术领域，特别是涉及一种语音数据的清洗方法及电子设备。

背景技术

近年来关于语音处理的人工智能技术发展迅速，基于深度学习的语音智能降噪算法成为人工智能领域的焦点。目前，诸多语音降噪模型已经工程化落地并成功运用在电子产品中。

语音降噪模型的性能除了与深度学习架构相关之外，一定程度上还取决于模型训练过程中训练数据集的质量，训练数据集的质量好坏可以直接影响到语音降噪模型性能的优劣。

当前的开源以及自行录制的训练数据集质量较难达到语音降噪模型的标准，容易导致语音降噪模型性能偏低，因此，在语音降噪模型训练前，语音训练数据集清洗工作十分重要。

发明内容

本申请至少提供一种语音数据的清洗方法及电子设备。

本申请第一方面提供了一种语音数据的清洗方法，方法包括：获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音。

在一实施例中，检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：将各个原始语音片段和各个候选语音片段分别输入至预先训练的语音质量评估模型中，得到语音质量评估模型输出的各个原始语音片段和各个候选语音片段的语音质量；对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段。

在一实施例中，对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段，包括：将相互对应的原始语音片段和候选语音片段中，语音质量最高的语音片段作为目标语音片段。

在一实施例中，在将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到目标降噪模型输出的候选清洗语音之前，还包括：获取噪音数据；利用噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型。

在一实施例中，利用噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型，包括：对原始语音和噪音数据进行混合，得到第一混合语音；将原始语音作为第一混合语音的样本标签，根据原始语音和第一混合语音对初始神经网络模型进行训练，得到训练完成的初始降噪模型；将原始语音输入至初始降噪模型中进行噪音清洗处理，得到初始清洗语音；对初始清洗语音和噪音数据进行混合，得到第二混合语音；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型。

在一实施例中，预设神经网络模型为初始神经网络模型；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：将第二混合语音输入至初始神经网络模型中，得到初始神经网络模型输出的预测降噪语音；计算预测降噪语音和原始语音对应的期望语音增益之间的损失值；利用损失值更新初始神经网络模型的模型参数，得到训练完成的目标降噪模型。

在一实施例中，预设神经网络模型为初始降噪模型；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：将第二混合语音输入至初始降噪模型中，得到初始降噪模型输出的预测降噪语音；计算预测降噪语音和原始语音对应的期望语音增益之间的损失值；利用损失值更新初始降噪模型的模型参数，得到训练完成的目标降噪模型。

在一实施例中，检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：将初始清洗语音划分为多个初始语音片段；获取每个原始语音片段、初始语音片段和候选语音片段的语音质量；从相互对应的原始语音片段、初始语音片段和候选语音片段中，选取出语音质量最高的语音片段作为目标语音片段。

在一实施例中，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音，包括：获取目标降噪模型输出的原始语音增益；利用原始语音增益对原始语音进行降噪处理，得到候选清洗语音。

本申请第二方面提供了一种语音数据的清洗装置，装置包括：噪音清洗模块，用于获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；划分模块，用于将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；目标片段确定模块，用于检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；片段组合模块，用于对每个目标语音片段进行组合，得到目标清洗语音。

本申请第三方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述语音数据的清洗方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述语音数据的清洗方法。

上述方案，通过获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，以进行数据清洗效果的判定，根据语音质量确定要保留的目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音，可以在保证语音信息不被损坏的前提下，对语音数据进行噪音清除，有效保证数据清洗的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请的一示例性实施例示出的语音数据的清洗方法的流程图；

图2是本申请的一示例性实施例示出的语音划分的示意图；

图3是本申请的一示例性实施例示出的语音清洗的示意图；

图4是本申请的一示例性实施例示出的训练目标降噪模型的示意图；

图5是本申请的一示例性实施例示出的语音数据的清洗装置的框图；

图6是本申请的一示例性实施例示出的电子设备的结构示意图；

图7是本申请的一示例性实施例示出的计算机可读存储介质的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联信息，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在常规的语音降噪模型训练过程中，需要将样本语音和样本噪音进行混合，将混合后的音频作为预训练的语音降噪模型的输入，将样本语音作为语音降噪模型的目标输出，如果样本语音的质量较低，例如样本语音中本身含有大量噪音，则会降低语音降噪模型的训练效果。

因此，本申请提供一种语音数据的清洗方法，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到目标降噪模型输出的候选清洗语音，并将原始语音和候选清洗语音分别划分为多个一一对应的原始语音片段和候选语音片段，以从中选取出语音质量满足预设条件的语音片段作为目标语音片段，对这些目标语音片段进行组合得到目标清洗语音，实现数据清洗效果的判定，根据语音质量确定要保留的目标语音片段，有效保证数据清洗的准确度，可以在保证语音信息不被损坏的前提下，对语音数据进行噪音清除。

下面对本申请实施例所提供的语音数据的清洗方法进行说明。

请参阅图1，图1是本申请的一示例性实施例示出的语音数据的清洗方法的流程图。如图1所示，语音数据的清洗方法至少包括步骤S110至步骤S140，详细介绍如下：

步骤S110：获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音。

其中，原始语音是指未清洗的语音，其可能含有一定噪音。

预先训练的目标降噪模型具备降噪功能，利用目标降噪模型对原始语音进行噪音清洗处理，得到去除噪音后的候选清洗语音。

可选地，目标降噪模型可以是根据带样本标签的带噪语音训练得到的，样本标签为带噪语音对应的去除噪声后的语音，例如，获取样本语音和样本噪声，对样本语音和样本噪声按照一定信噪比进行混合，得到带噪语音，并将样本语音作为该带噪语音对应的样本标签，将带噪语音特征作为模型输入，将样本语音增益作为期望输出进行模型训练，得到训练完成的目标降噪模型。

需要说明的是，样本语音可以是和原始语音不同的语音数据，也可以直接将原始语音作为样本语音，本申请对此不进行限定。

示例性地，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音，包括：获取目标降噪模型输出的原始语音增益；利用原始语音增益对原始语音进行降噪处理，得到候选清洗语音。

例如，将待清洗的原始语音进行傅里叶变换得到含有多个频段的原始语音频谱将原始语音对应的音频特征输入至目标降噪模型中，得到目标降噪模型输出的原始语音增益。进一步地，将增益不等分拓展至上述原始语音频谱对应的多个频段中，得到多维频段增益，将多维频段增益与原始语音频谱进行乘操作获取降噪后的语音频谱，再对降噪后的语音频谱进行逆傅里叶变换得到候选清洗语音。

步骤S120：将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应。

对原始语音和候选清洗语音分别进行划分，得到一一对应的原始语音片段和候选语音片段。

示例性地，可以是按照预设划分时间间隔对原始语音和候选清洗语音分别进行划分，如划分时间间隔为5s，则针对原始语音和候选清洗语音，每间隔5s进行一次音频数据切分，得到多个原始语音片段和候选语音片段，每个原始语音片段与候选语音片段之间在时间维度上一一对应。

示例性地，还可以获取原始语音的频谱特征，根据原始语音的频谱特征确定音频划分点，如将音频频谱中的波谷作为划分点，按照音频划分点对原始语音进行划分，得到多个原始语音片段。然后，按照原始语音对应的音频划分点，同样对候选清洗语音进行划分，得到多个候选语音片段，每个原始语音片段与候选语音片段之间在时间维度上一一对应。

可选地，还可以在对原始语音进行划分得到多个原始语音片段后，将每个原始语音片段输入至目标降噪模型中，得到目标降噪模型输出的每个原始语音片段分别对应的候选清洗语音。

例如，请参阅图2，图2为本申请一示例性实施例示出的语音划分的示意图，如图2所示，将原始语音和候选清洗语音分别划分为多个原始语音片段和多个候选语音片段，每个原始语音片段和候选语音片段在时间维度上一一对应。

其中，原始语音片段和候选语音片段的对应方式为：对每个原始语音片段和每个候选语音片段分别进行命名，以得到每个原始语音片段和每个候选语音片段的片段名称，每个片段名称之间互不重复，然后通过将相互对应的原始语音片段和候选语音片段的片段名称进行关联，实现原始语音片段和候选语音片段的对应。

步骤S130：检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段。

其中，语音质量用于反映语音信息的优劣情况，需要说明的是，语音片段中含有的语音越清晰、噪音越少，则该语音片段的语音信息保留越好，即语音质量越好。

可以通过对原始语音片段和候选语音片段的音频特征进行统计分析，得到原始语音片段和候选语音片段的语音质量；也可以通过预先训练的语音质量评估模型对原始语音片段和候选语音片段进行评分，得到原始语音片段和候选语音片段的语音质量。

示例性地，将各个原始语音片段和各个候选语音片段分别输入至预先训练的语音质量评估模型中，得到语音质量评估模型输出的各个原始语音片段和各个候选语音片段的语音质量。

其中，语音质量评估模型为预先训练完成的神经网络模型，其可以对输入的语音数据进行质量评估。

得到每个原始语音片段和每个候选语音片段对应的语音质量后，根据每个原始语音片段和每个候选语音片段对应的语音质量，确定目标语音片段。

在一些实施方式中，确定目标语音片段的方式可以是：从相互对应的原始语音片段和候选语音片段中，选取出语音质量最高的语音片段作为目标语音片段，以选取质量更优的语音片段。

在一些实施方式中，确定目标语音片段的方式可以是：判断相互对应的原始语音片段和候选语音片段的语音质量是否均小于第一预设质量阈值，若是，则将空白语音片段作为目标语音片段，其中，空白语音片段是指无语音和噪音的音频片段，以最大程度较少语音数据中的噪音。

在一些实施方式中，确定目标语音片段的方式可以是：判断相互对应的原始语音片段和候选语音片段的语音质量是否均大于第二预设质量阈值，若是，则将原始语音片段和候选语音片段进行融合，将融合后的语音片段作为目标语音片段，其中，融合的权重值可以是根据原始语音片段和候选语音片段分别对应的语音质量得到的，以最大程度包括语音数据中的语音信息。

步骤S140：对每个目标语音片段进行组合，得到目标清洗语音。

得到的目标语音片段含有更多语音信息和噪音，将每个目标语音片段按照时间序列进行组合，得到目标清洗语音。

示例性地，以选取出语音质量最高的语音片段作为目标语音片段为例进行举例说明：请参阅图3，图3为本申请一示例性实施例示出的语音清洗的示意图，如图3所示，对待清洗的原始语音进行噪音清洗处理，得到候选清洗语音，并对原始语音和候选清洗语音进行划分，得到原始语音片段S1、原始语音片段S2和原始语音片段S3，以及候选语音片段W1、候选语音片段W2和候选语音片段W3，其在时间序列上相互一一对应。对相互对应的原始语音片段和候选语音片段进行语音质量对比，将语音质量更高的单个语音片段转移到目标语音片段数据集的目录下，得到：原始语音片段S1的语音质量高于候选语音片段W1，候选语音片段W2的语音质量高于原始语音片段S2，候选语音片段W3的语音质量高于原始语音片段S3，则最终目标语音片段数据集中含有目标语音片段含有原始语音片段S1、候选语音片段W2和候选语音片段W3，对目标语音片段数据集中的目标语音片段按照时间序列进行组合，得到目标清洗语音（S1+W2+W3）。

通过上述方式，可以保证选取出的单个目标语音片段可获取更高的语音质量评估分数，即对应单个目标语音片段包含更少噪音。特别是针对语音降噪模型训练的原始语音中混入的瞬态噪声、和语音重叠的噪声，瞬态噪声由于语义与人声相似，因此难以分辨，而与语音重叠的噪声则容易在清洗噪声时将人声一同删除，本申请可以通过上述方式对瞬态噪声以及和语音重叠的噪声进行很好的清洗，并保留更加完整准确的语音信息。

接下来对原始语音进行噪音清洗处理的部分实施例进行说明。

在一些实施方式中，在将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到目标降噪模型输出的候选清洗语音之前，还包括：获取噪音数据；利用噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型。

其中，噪音数据是指仅含有噪音的音频数据。

根据噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型。

示例性地，可以对噪音数据和原始语音进行混合，得到带噪语音，将带噪语音输入至初始神经网络模型，并将原始语音对应的期望语音增益作为期望输出，以训练初始神经网络模型。其中，原始语音对应的期望语音增益是指由带噪语音转换为原始语音时需要的增益。

又示例性地，利用噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型，包括：对原始语音和噪音数据进行混合，得到第一混合语音；将原始语音对应的期望语音增益作为第一混合语音的样本标签，根据原始语音和第一混合语音对初始神经网络模型进行训练，得到训练完成的初始降噪模型。然后，将原始语音输入至初始降噪模型中进行噪音清洗处理，得到初始清洗语音；对初始清洗语音和噪音数据进行混合，得到第二混合语音；将初始清洗语音对应的期望语音增益作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型。其中，初始清洗语音对应的期望语音增益是指由第二混合语音转换为初始清洗语音时需要的增益。

具体地，请参阅图4，图4为本申请一示例性实施例示出的训练目标降噪模型的示意图，如图4所示，模型训练过程含有第一次训练和第二次训练。

在第一次训练过程中，将原始语音和噪音数据按照预设信噪比进行混合，得到第一混合语音。然后，构建初始神经网络模型，并设置初始神经网络模型的相关超参数，将第一混合语音作为输入，将原始语音对应的期望语音增益作为期望输出，训练初始神经网络模型。

例如，对第一混合语音进行特征提取，例如，提取第一混合语音的频带能量、频带相干性等语音特征，作为神经网络模型的输入。将特征提取结果输入至初始神经网络模型中，得到初始神经网络模型输出的预测降噪语音，按照预设的损失函数计算初始神经网络模型输出的预测降噪语音和原始语音对应的期望语音增益之间的损失值，再根据该损失值反向更新初始神经网络模型的模型参数。

重复上述过程对初始神经网络模型进行迭代训练，当迭代次数达到预设次数，或者损失值收敛，则停止初始神经网络模型的训练，并将当前轮次下的初始神经网络模型作为初始降噪模型。

然后，根据初始降噪模型对原始语音进行初始噪音清洗处理，得到初始清洗语音，再根据初始清洗语音和噪音数据执行第二次训练。

在第二次训练过程中，进行训练的预设神经网络模型可以是初始神经网络模型，也可以是初始降噪模型。

以预设神经网络模型为初始神经网络模型为例进行举例说明；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：将第二混合语音输入至初始神经网络模型中，得到初始神经网络模型输出的预测降噪语音；计算预测降噪语音和原始语音对应的期望语音增益之间的损失值；利用损失值更新初始神经网络模型的模型参数，得到训练完成的目标降噪模型。

按照与第一次训练过程相同的方式构建得到初始神经网络模型，并将初始清洗语音和噪音数据按照预设信噪比进行混合，得到第二混合语音，以将第二混合语音作为输入，将初始清洗语音作为期望输出，训练初始神经网络模型。

例如，将第二混合语音输入至初始神经网络模型中，得到初始神经网络模型输出的预测降噪语音，按照预设的损失函数计算初始神经网络模型输出的预测降噪语音和原始语音对应的期望语音增益之间的损失值，再根据该损失值反向更新初始神经网络模型的模型参数。

重复上述过程对初始神经网络模型进行迭代训练，当迭代次数达到预设次数，或者损失值收敛，则停止初始神经网络模型的训练，并将当前轮次下的初始神经网络模型作为目标降噪模型。

以预设神经网络模型为初始降噪模型为例进行举例说明；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：将第二混合语音输入至初始降噪模型中，得到初始降噪模型输出的预测降噪语音；计算预测降噪语音和原始语音对应的期望语音增益之间的损失值；利用损失值更新初始降噪模型的模型参数，得到训练完成的目标降噪模型。

将第二混合语音输入至初始降噪模型中，得到初始降噪模型输出的预测降噪语音，按照预设的损失函数计算初始降噪模型输出的预测降噪语音和原始语音对应的期望语音增益之间的损失值，再根据该损失值反向更新初始降噪模型的模型参数。

重复上述过程对初始降噪模型进行迭代训练，当迭代次数达到预设次数，或者损失值收敛，则停止初始降噪模型的训练，并将当前轮次下的初始降噪模型作为目标降噪模型。

通过上述两次训练得到的目标降噪模型的整体降噪性能更优，例如，取多段测试带噪语音，利用初次训练的初始降噪模型和二次训练的目标降噪模型分别对测试带噪语音进行处理，根据两个模型的输出对比两个模型降噪性能，可发现二次训练的目标降噪模型降噪性能平均更优，其降噪后的语音进行语音质量评估后，语音的综合分数更优。

基于上述方式训练得到的目标降噪模型对原始语音进行降噪，提高目标降噪模型输出的候选清洗语音的质量。

在一些实施方式中，基于上述实施例，检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：将初始清洗语音划分为多个初始语音片段；获取每个原始语音片段、初始语音片段和候选语音片段的语音质量；从相互对应的原始语音片段、初始语音片段和候选语音片段中，选取出语音质量最高的语音片段作为目标语音片段。

即除了考虑原始语音和候选清洗语音之间的质量优劣之外，还进一步考虑初始清洗语音与原始语音和候选清洗语音之间的质量优劣。

示例性地，将初始清洗语音划分为多个初始语音片段，其划分方式和上述候选清洗语音的划分方式相同，原始语音片段、初始语音片段和候选语音片段在时间维度上一一对应。将相互对应的原始语音片段、初始语音片段和候选语音片段的语音质量进行对比，选取语音质量最高的语音片段作为目标语音片段。

根据确定的目标语音片段组合得到目标清洗语音，该目标清洗语音相对原始语音来说存在更少的噪音，质量更优。

本申请提供的语音数据的清洗方法，通过获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，以进行数据清洗效果的判定，根据语音质量确定要保留的目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音，可以在保证语音信息不被损坏的前提下，对语音数据进行噪音清除，有效保证数据清洗的准确度。

图5是本申请的一示例性实施例示出的语音数据的清洗装置的框图。如图5所示，该示例性的语音数据的清洗装置500包括：噪音清洗模块510、划分模块520、目标片段确定模块530和片段组合模块540。具体地：

噪音清洗模块510，用于获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；

划分模块520，用于将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；

目标片段确定模块530，用于检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；

片段组合模块540，用于对每个目标语音片段进行组合，得到目标清洗语音。

需要说明的是，上述实施例所提供的语音数据的清洗装置与上述实施例所提供的语音数据的清洗方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的语音数据的清洗装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处不对此进行限制。

请参阅图6，图6是本申请电子设备一实施例的结构示意图。电子设备600包括存储器601和处理器602，处理器602用于执行存储器601中存储的程序指令，以实现上述任一语音数据的清洗方法实施例中的步骤。在一个具体的实施场景中，电子设备600可以包括但不限于：微型计算机、服务器，此外，电子设备600还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器602用于控制其自身以及存储器601以实现上述任一语音数据的清洗方法实施例中的步骤。处理器602还可以称为中央处理单元（Central ProcessingUnit，CPU）。处理器602可能是一种集成电路芯片，具有信号的处理能力。处理器602还可以是通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器602可以由集成电路芯片共同实现。

请参阅图7，图7是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质700存储有能够被处理器运行的程序指令710，程序指令710用于实现上述任一语音数据的清洗方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音数据的清洗方法，其特征在于，包括：

获取待清洗的原始语音，将所述原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；

将所述原始语音划分为多个原始语音片段，以及将所述候选清洗语音划分为多个候选语音片段，所述原始语音片段与所述候选语音片段一一对应；

检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；

对每个目标语音片段进行组合，得到目标清洗语音。

2.根据权利要求1所述的方法，其特征在于，所述检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：

将各个原始语音片段和各个候选语音片段分别输入至预先训练的语音质量评估模型中，得到所述语音质量评估模型输出的所述各个原始语音片段和所述各个候选语音片段的语音质量；

对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段。

3.根据权利要求2所述的方法，其特征在于，所述对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段，包括：

将所述相互对应的原始语音片段和候选语音片段中，语音质量最高的语音片段作为目标语音片段。

4.根据权利要求1所述的方法，其特征在于，将所述原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到所述目标降噪模型输出的候选清洗语音之前，还包括：

获取噪音数据；

利用所述噪音数据和所述原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型。

5.根据权利要求4所述的方法，其特征在于，所述利用所述噪音数据和所述原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型，包括：

对所述原始语音和所述噪音数据进行混合，得到第一混合语音；

将所述原始语音作为所述第一混合语音的样本标签，根据所述原始语音和所述第一混合语音对初始神经网络模型进行训练，得到训练完成的初始降噪模型；

将所述原始语音输入至所述初始降噪模型中进行噪音清洗处理，得到初始清洗语音；

对所述初始清洗语音和所述噪音数据进行混合，得到第二混合语音；

将所述初始清洗语音作为所述第二混合语音的样本标签，根据所述初始清洗语音和所述第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型。

6.根据权利要求5所述的方法，其特征在于，所述预设神经网络模型为初始神经网络模型；将所述初始清洗语音作为所述第二混合语音的样本标签，根据所述初始清洗语音和所述第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：

将所述第二混合语音输入至所述初始神经网络模型中，得到所述初始神经网络模型输出的预测语音增益；

计算所述预测语音增益和所述原始语音对应的期望语音增益之间的损失值；

利用所述损失值更新所述初始神经网络模型的模型参数，得到训练完成的目标降噪模型。

7.根据权利要求5所述的方法，其特征在于，所述预设神经网络模型为初始降噪模型；将所述初始清洗语音作为所述第二混合语音的样本标签，根据所述初始清洗语音和所述第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：

将所述第二混合语音输入至所述初始降噪模型中，得到所述初始降噪模型输出的预测语音增益；

利用所述损失值更新所述初始降噪模型的模型参数，得到训练完成的目标降噪模型。

8.根据权利要求5所述的方法，其特征在于，所述检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：

将所述初始清洗语音划分为多个初始语音片段；

获取每个原始语音片段、初始语音片段和候选语音片段的语音质量；

从相互对应的原始语音片段、初始语音片段和候选语音片段中，选取出语音质量最高的语音片段作为目标语音片段。

9.根据权利要求1所述的方法，其特征在于，将所述原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音，包括：

获取所述目标降噪模型输出的原始语音增益；

利用所述原始语音增益对所述原始语音进行降噪处理，得到候选清洗语音。

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-9任一项所述方法中的步骤。