CN113223505B

CN113223505B - 模型训练、数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN113223505B
Application number: CN202110484401.9A
Authority: CN
Inventors: 张洋; 陈彦宇; 马雅奇; 唐杰
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-12-08
Anticipated expiration: 2041-04-30
Also published as: CN113223505A

Abstract

本发明提供了一种模型训练、数据处理方法、装置、电子设备及存储介质，本发明通过获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，混合音频数据包括对象音频数据和噪声音频数据；分别利用对象音频数据集和噪声音频数据集训练初始模型，直至初始模型满足第一收敛条件，得到基准模型；利用混合音频数据集训练基准模型，直至基准模型满足第二收敛条件，得到降噪模型，相较于传统信号处理的方式，所述降噪模型能够在噪声音频数据和对象音频数据混叠时，滤除噪声音频数据，保留对象音频数据，避免噪声音频数据对对象音频数据的干扰，提高对象音频数据的识别准确率。

Description

模型训练、数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型训练、数据处理方法、装置、电子设备及存储介质。

背景技术

在智能空调中搭载用于实现非接触式控制的语音功能方式已经成为一种潮流。语音功能方式要求语音入口麦克风应该与空调控制器设备保持短距离通信(才能实现语音识别精准)。

但随之带来的问题是麦克风采集的环境噪声信息增加，其中包括：当前空调运行时出风口产生的风噪、风机运行的震动噪声以及远场语音环境中的其他噪声，混杂着用户的指令语音。唤醒词模型在处理指令语音的时候，同时会分析与指令语音混在一起的噪声信息，导致分析得到错误指令，进而导致正确唤醒率降低。

发明内容

本发明实施例的目的在于提供一种模型训练、数据处理方法、装置、电子设备及存储介质，以解决传统信号处理的方式难以处理噪声频谱和人声频谱混叠严重，无法准确区分人声信号的问题。具体技术方案如下：

第一方面，提供了一种模型训练方法，所述方法包括：

获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；

分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；

利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

可选地，分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，包括：

将所述对象音频数据集中的各对象音频数据输入所述初始模型，所述初始模型输出与所述对象音频数据对应的第一音频数据；将所述噪声音频数据集中的各所述噪声音频数据输入所述初始模型，所述初始模型输出与所述噪声音频数据对应的第二音频数据；

判断各所述第一音频数据是否和与其对应的所述对象音频数据相同；判断各所述第二音频数据是否和与其对应的所述噪声音频数据相同；

若各所述第一音频数据和与其对应的所述对象音频数据相同，且各所述第二音频数据和与其对应的所述噪声音频数据相同，确定所述初始模型满足第一收敛条件，得到所述基准模型。

可选地，分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，还包括：

若任一所述第一音频数据与输入所述初始模型的对象音频数据不相同，和/或，任一所述第二音频数据与输入所述初始模型的噪声音频数据不相同，计算所述第一音频数据与输入所述初始模型的对象音频数据之间的第一误差数据和所述第二音频数据与输入所述初始模型的噪声音频数据之间的第二误差数据；

根据所述第一误差和第二误差，调整所述初始模型中的第一网络参数，执行将所述对象音频数据集中的各对象音频数据输入所述初始模型的步骤，直至所述初始模型满足第一收敛条件，得到所述基准模型。

可选地，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，包括：

将所述混合音频数据集中的各混合音频数据输入所述基准模型，所述基准模型输出与所述混合音频数据对应的第五音频数据；

判断各所述第五音频数据是否与输入所述基准模型的混合音频数据中的对象音频数据相同；

若各所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据相同，确定所述基准模型满足第二收敛条件，得到所述降噪模型。

可选地，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，还包括：

若任一所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据不相同，计算所述第五音频数据与所述对象音频数据之间的第三误差数据；

根据所述第三误差数据，调整所述基准模型中的第二网络参数，执行将所述混合音频数据集中的各混合音频数据输入所述基准模型的步骤，直至所述基准模型满足第二收敛条件，得到所述降噪模型。

可选地，所述基准模型包括多个神经元组，每个神经元组包括多个神经元；

根据所述误差数据调整所述基准模型中的第二网络参数，包括：

获取多个神经元组中神经元的放电信息；

针对每个神经元组，利用神经元组中神经元的放电信息，获取与所述神经元组对应的多个放电簇的时间差信息；基于所述多个时间差信息，选取最小的时间差信息；将每个神经元的输出信息增加所述最小的时间差信息，得到每个神经元组的目标网络参数；

将所述基准模型中的第二网络参数调整为所述目标网络参数。

第二方面，提供了一种数据处理方法，所述方法包括：

获取麦克风采集的目标音频数据；

将所述目标音频数据输入至如第一方面所述的模型训练方法得到的降噪模型中，以使所述降噪模型去除噪声音频数据，输出所述目标音频数据中的对象音频数据；

将所述对象音频数据输入唤醒词识别模型，以使所述唤醒词识别模型输出与所述目标音频数据对应的唤醒词。

第三方面，提供了一种模型训练装置，所述装置，包括：

获取模块，用于获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；

第一训练模块，用于分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；

第二训练模块，用于利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

可选地，第一训练模块，包括：

第一输入单元，用于将所述对象音频数据集中的各对象音频数据输入所述初始模型，所述初始模型输出与所述对象音频数据对应的第一音频数据；将所述噪声音频数据集中的各所述噪声音频数据输入所述初始模型，所述初始模型输出与所述噪声音频数据对应的第二音频数据；

第一判断单元，用于判断各所述第一音频数据是否和与其对应的所述对象音频数据相同；判断各所述第二音频数据是否和与其对应的所述噪声音频数据相同；

第一执行单元，用于若各所述第一音频数据和与其对应的所述对象音频数据相同，且各所述第二音频数据和与其对应的所述噪声音频数据相同，确定所述初始模型满足第一收敛条件，得到所述基准模型；

可选地，第一训练模块，还包括：

第一计算单元，用于若任一所述第一音频数据与输入所述初始模型的对象音频数据不相同，和/或，任一所述第二音频数据与输入所述初始模型的噪声音频数据不相同，计算所述第一音频数据与输入所述初始模型的对象音频数据之间的第一误差数据和所述第二音频数据与输入所述初始模型的噪声音频数据之间的第二误差数据；

第一调整单元，用于根据所述第一误差和第二误差，调整所述初始模型中的第一网络参数，执行第一输入单元，直至所述初始模型满足第一收敛条件，得到所述基准模型。

可选地，第二训练模块，包括：

第二输入单元，用于将所述混合音频数据集中的各混合音频数据输入所述基准模型，所述基准模型输出与所述混合音频数据对应的第五音频数据；

第二判断单元，用于判断各所述第五音频数据是否与输入所述基准模型的混合音频数据中的对象音频数据相同；

第二执行单元，用于若各所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据相同，确定所述基准模型满足第二收敛条件，得到所述降噪模型。

可选地，第二训练模块，还包括：

第二计算单元，用于若任一所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据不相同，计算所述第五音频数据与所述对象音频数据之间的第三误差数据；

第二调整单元，用于根据所述第三误差数据，调整所述基准模型中的第二网络参数，执行第二输入单元，直至所述基准模型满足第二收敛条件，得到所述降噪模型。

可选地，在第二调整单元中所述基准模型包括多个神经元组，每个神经元组包括多个神经元；

第二调整单元，包括：

第一获取单元，用于获取多个神经元组中神经元的放电信息；

第二获取单元，用于针对每个神经元组，利用神经元组中神经元的放电信息，获取与所述神经元组对应的多个放电簇的时间差信息；基于所述多个时间差信息，选取最小的时间差信息；将每个神经元的输出信息增加所述最小的时间差信息，得到每个神经元组的目标网络参数；

第三执行单元，用于将所述基准模型中的第二网络参数调整为所述目标网络参数。

第四方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的模型训练方法或第二方面所述的数据处理方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的模型训练方法或第二方面所述的数据处理方法的步骤。

本发明实施例有益效果：

本发明实施例提供了一种模型训练、数据处理方法、装置、电子设备及存储介质，本发明实施例通过获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

本发明实施例通过分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，该基准模型针对输入的音频数据中的对象音频数据，得到音频数据中的对象音频数据，针对输入的音频数据中的噪声音频数据，得到音频数据中的噪声音频数据，使得该基准模型可以区分输入的音频数据中的对象音频数据和噪声音频数据，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，在基准模型已经能够区分对象音频数据和噪声音频数据的基础上，降噪模型能够滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据，相较于传统信号处理的方式，使用本发明实施例提供模型训练方法获得的降噪模型能够在噪声音频数据和对象音频数据混叠时，滤除噪声音频数据，保留对象音频数据，避免噪声音频数据对对象音频数据的干扰，提高对象音频数据的识别准确率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型训练方法的流程图；

图2为本发明实施例提供的一种对象音频数据图；

图3为本发明实施例提供的一种噪声音频数据图；

图4为本发明实施例提供的一种降噪模型的结构示意图；

图5为本发明实施例提供的一种降噪模型放电信息图；

图6为本发明实施例提供的一种降噪模型中弱连接的放电信息图；

图7为本发明实施例提供的一种模型训练装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于传统信号处理的方式难以处理噪声频谱和人声频谱混叠严重，无法准确区分人声信号，为此，本发明实施例提供了一种模型训练、数据处理方法、装置、电子设备及存储介质，可以应用于计算机中，在本发明实施例中，利用模型训练方法训练获得的降噪模型，所述模型训练方法分为两个训练阶段，第一个训练阶段：分别利用包含多个对象音频数据的对象音频数据集和包含多个噪声音频数据的噪声音频数据集训练初始模型，得到基准模型，所述初始模型是指神经网络模型，示例性的，脉冲神经网络模型或者对抗神经网络模型等，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；第二个训练阶段：利用所述混合音频数据集训练所述基准模型，得到降噪模型。所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

下面将结合具体实施方式，对本发明实施例提供的一种模型训练方法进行详细的说明，如图1所示，具体步骤如下：

步骤S101，获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；

在实际应用中，对象音频数据(如图2所示)是指麦克风采集人声信号后，对人声信号进行采样、量化、编码处理后得到的数据；噪声音频数据(如图3所示)是指麦克风采集噪声信号(如：空调运行时出风口产生的风噪信号、风机运行的震动噪声信号以及远场语音环境中的其他噪声信号)后，对噪声信号进行采样、量化、编码处理后得到的数据。

示例性的，对象音频数据集包含多个人声信号处理后得到的人声音频数据；噪声音频数据集包含多个当前空调运行时出风口产生的风噪信号、风机运行的震动噪声信号以及远场语音环境中的其他噪声信号处理后得到的噪声音频数据；混合音频数据集包含多个混合信号处理后得到的混合音频数据，其中混合信号是指混合有人声信号和当前空调运行时出风口产生的风噪信号、风机运行的震动噪声信号以及远场语音环境中的其他噪声信号的信号。

步骤S102，分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；

在本发明实施例中，第一收敛条件是指初始模型的输入与输出相同，即：在向初始模型输入一个对象音频数据时，初始模型的输出与该对象音频数据相同，在向初始模型输出一个噪声音频数据时，初始模型的输出与该噪声音频数据相同。

在该步骤中，首先将对象音频数据集和噪声音频数据集中任一对象音频数据或噪声音频数据输入初始模型，然后判断初始模型的输出是否与输入的对象音频数据或噪声音频数据相同，如果初始模型的输出与输入的对象音频数据或噪声音频数据相同，则确定初始模型满足第一收敛条件，停止训练，得到基准模型；如果初始模型的输出与输入的对象音频数据或噪声音频数据不相同，则确定初始模型不满足第一收敛条件，继续获取下一个对象音频数据集和噪声音频数据集中任一对象音频数据或噪声音频数据，并输入初始模型进行训练，......直至初始模型满足第一收敛条件，得到基准模型。

步骤S103，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

在本发明实施例中，第二收敛条件是基准模型的输出与输入的混合音频数据中的对象音频数据相同，即：在向基准模型输入一个混合音频数据时，基准模型的输出与该混合音频数据中的对象音频数据相同。

在该步骤中，首先将混合音频数据集中任一混合音频数据输入基准模型，然后判断基准模型的输出是否与该混合音频数据中的对象音频数据相同，如果基准模型的输出与混合音频数据中的对象音频数据相同，确定基准模型满足第二收敛条件，停止训练，得到降噪模型；如果得到的的第五音频数据与针对其输入的混合音频数据中的对象音频数据不相同，确定基准模型不满足第二收敛条件，继续获取下一个混合音频数据集中的混合音频数据，并输入基准模型进行训练，......直至基准模型满足第二收敛条件，得到降噪模型。

为了在噪声音频数据和对象音频数据混叠时，区分对象音频数据和噪声音频数据，在本发明的又一实施例中，分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，包括：

步骤201，将所述对象音频数据集中的各对象音频数据输入所述初始模型，所述初始模型输出与所述对象音频数据对应的第一音频数据；将所述噪声音频数据集中的各所述噪声音频数据输入所述初始模型，所述初始模型输出与所述噪声音频数据对应的第二音频数据；

在该步骤中，逐个将对象音频数据集的多个对象音频数据分别输入初始模型中，初始模型输出多个与所述对象音频数据对应的第一音频数据。

示例性的，对象音频数据集里面包含对象音频数据A、对象音频数据B和对象音频数据C，逐个将对象音频数据A、对象音频数据B和对象音频数据C输入初始模型中，初始模型输出与所述对象音频数据对应的第一音频数据D、E和F。

步骤202，判断各所述第一音频数据是否和与其对应的对象音频数据相同；判断各所述第二音频数据是否和与其对应的所述噪声音频数据相同；

示例性的，可以将对象音频数据A与第一音频数据D比较，以判断二者是否相同，可以将对象音频数据B与第一音频数据E比较，以判断二者是否相同,可以将对象音频数据C与第一音频数据F比较，以判断二者是否相同。

步骤203，若各所述第一音频数据和与其对应的所述对象音频数据相同，且各所述第二音频数据和与其对应的所述噪声音频数据相同，确定所述初始模型满足第一收敛条件，得到所述基准模型；

示例性的，噪声音频数据集里面包含噪声音频数据M、噪声音频数据N和噪声音频数据O，逐个将噪声音频数据M、噪声音频数据N和噪声音频数据O输入初始模型中，初始模型输出与所述噪声音频数据对应的第二音频数据X、Y和Z。

示例性的，可以将噪声音频数据M与第二音频数据X比较，以判断二者是否相同，可以将噪声音频数据N与第二音频数据Y比较，以判断二者是否相同,可以将噪声音频数据O与第二音频数据Z比较，以判断二者是否相同。

在该步骤中，在各所述第一音频数据和与其对应的所述对象音频数据相同，且各所述第二音频数据和与其对应的噪声音频数据相同时，确定所述初始模型满足第一收敛条件，第一个训练阶段结束，得到所述基准模型。

本发明实施例通过基准模型实现了在噪声音频数据和对象音频数据混叠时，区分对象音频数据和噪声音频数据。

为了让初始模型满足第一收敛条件，在本发明的又一实施例中，分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，还包括：

步骤301，若任一所述第一音频数据与输入所述初始模型的对象音频数据不相同，和/或，任一所述第二音频数据与输入所述初始模型的噪声音频数据不相同，计算所述第一音频数据与输入所述初始模型的对象音频数据之间的第一误差数据和所述第二音频数据与输入所述初始模型的噪声音频数据之间的第二误差数据；

在本发明实施例中，第一误差数据是指第一音频数据与输入所述初始模型的对象音频数据之间的偏差数据，第二误差数据是指所述第二音频数据与输入所述初始模型的噪声音频数据之间的偏差数据。

在该步骤中，在上一实施例中任一所述第一音频数据与输入所述初始模型的对象音频数据不相同时，和/或，在上一实施例中任一所述第二音频数据与输入所述初始模型的噪声音频数据不相同时，所述初始模型都满足不了第一收敛条件，需要对初始模型继续训练，首先计算出偏差数据，如果是上一实施例中任一所述第一音频数据与输入所述初始模型的对象音频数据不相同，那么计算出所述第一音频数据与输入所述初始模型的对象音频数据之间的第一误差数据；如果是上一实施例中任一所述第二音频数据与输入所述初始模型的噪声音频数据不相同，那么计算出所述第二音频数据与输入所述初始模型的噪声音频数据之间的第二误差数据；如果都不相同，那么分别计算出第一误差数据和第二误差数据。

步骤302，根据所述第一误差和第二误差，调整所述初始模型中的第一网络参数，执行将所述对象音频数据集中的各对象音频数据输入所述初始模型的步骤，直至所述初始模型满足第一收敛条件，得到所述基准模型。

在本发明实施例中，初始模型是神经网络模型，所述神经网络模型包括多个神经元，所述神经元之间通过连接通道相连，所述每个连接通道对应一个第一网络参数。

基于上一步骤，本步骤是对初始模型调整的第二步骤，在本步骤中，根据上一步骤计算出的第一误差数据和第二误差数据，首先将多个第一网络参数调小，得到新的第一网络参数，然后执行上一实施例步骤，得到新的第一误差数据或者新的第二误差数据，比较新的第一误差数据和第一误差数据，或者，比较新的第二误差数据和第二误差数据，以验证第一网络参数调小是否让初始模型逼近第一收敛条件，如果新的第一误差数据小于或者等于第一误差数据，或者，新的第二误差数据小于或者等于第二误差数据，就可以确定在第一网络参数调小时初始模型逐渐逼近第一收敛条件，那么接下来继续将多个第一网络参数调小，重复执行上一实施例步骤，直至得到的初始模型满足第一收敛条件，得到基准模型。

本发明实施例通过重复调整第一网络参数，不断训练初始模型，使得初始模型满足第一收敛条件。

在基准模型已经能够区分对象音频数据和噪声音频数据的基础上，为了让降噪模型能够滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据，在本发明的又一实施例中，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，包括：

步骤401，将所述混合音频数据集中的各混合音频数据输入所述基准模型，所述基准模型输出与所述混合音频数据对应的第五音频数据；

在该步骤中，逐个将混合音频数据集的多个混合音频数据分别输入基准模型中，基准模型输出多个与所述混合音频数据对应的第五音频数据。

示例性的，混合音频数据集里面包含混合音频数据G、混合音频数据H和混合音频数据I，逐个将混合音频数据G、混合音频数据H和混合音频数据I输基准模型中，基准模型输出与所述混合音频数据对应的第五音频数据J、K和L。

步骤402，判断各所述第五音频数据是否与输入所述基准模型的混合音频数据中的对象音频数据相同；

示例性的，可以将混合音频数据G中的对象音频数据与第五音频数据J比较，以判断二者是否相同，可以将混合音频数据H中的对象音频数据与第五音频数据K比较，以判断二者是否相同,可以将混合音频数据I中的对象音频数据与第五音频数据L比较，以判断二者是否相同。

步骤403，若各所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据相同，确定所述基准模型满足第二收敛条件，得到所述降噪模型。

在该步骤中，在各所述第五音频数据与其对应的对象音频数据相同时，确定所述基准模型满足第二收敛条件，第二个训练阶段结束，得到所述降噪模型。

在本发明实施例通过在基准模型已经能够区分对象音频数据和噪声音频数据的基础上，让降噪模型能够滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

为了让基准模型满足第二收敛条件，在本发明的又一实施例中，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，还包括：

步骤501，若任一所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据不相同，计算所述第五音频数据与所述对象音频数据之间的第三误差数据；

在本发明实施例中，第三误差数据是指第五音频数据与输入所述基准模型的混合音频数据中的的对象音频数据之间的偏差数据。

在该步骤中，在上一实施例中所述第五音频数据与输入所述基准模型的混合音频数据中的对象音频数据不相同时，所述基准模型满足不了第二收敛条件，得不到所述的降噪模型，因此需要对基准模型进行调整。对基准模型调整的第一步骤是计算出第五音频数据与输入所述基准模型的混合音频数据中的的对象音频数据之间的偏差数据。

示例性的，第五音频数据包含了混合音频数据G，所述混合音频数据G由对象音频数据A和噪声音频数据M组成，那么第五音频数据与输入所述基准模型的混合音频数据F中的对象音频数据A之间的偏差数据是指噪声音频数据M，也就是说第三误差数据是噪声音频数据M。

步骤502，根据所述第三误差数据，调整所述基准模型中的第二网络参数，执行将所述混合音频数据集中的各混合音频数据输入所述基准模型的步骤，直至所述基准模型满足第二收敛条件，得到所述降噪模型。

基于上一步骤，本步骤是对基准模型调整的第二步骤，在本步骤中，根据上一步骤计算出的第三误差数据，首先将多个第二网络参数调小，得到新的第二网络参数，然后执行上一实施例步骤，得到新的第三误差数据，比较新的第三误差数据和第三误差数据，以验证第二网络参数调小是否让基准模型逼近第二收敛条件，如果新的第三误差数据小于第三误差数据，就可以确定在第二网络参数调小时基准模型逐渐逼近第二收敛条件，那么接下来继续将多个第二网络参数调小，重复执行上一实施例步骤，直至得到的基准模型满足第二收敛条件，得到降噪模型。

示例性的，所述第三误差数据是噪声音频数据M和噪声音频数据N，所述新的第三误差数据是噪声音频数据N，比较所述新的第一误差数据和所述第一误差数据，噪声音频数据N小于噪声音频数据M和噪声音频数据N，那么新的第一误差数据小于第一误差数据。

本发明实施例通过重复调整第二网络参数，不断训练基准模型，使得基准模型满足第二收敛条件。

为了确定下次训练中基准模型的第二网络参数，在本发明的又一实施例中，所述基准模型包括多个神经元组，每个神经元组包括多个神经元；

步骤601，获取多个神经元组中神经元的放电信息；

在本发明实施例中，如图4所示，降噪模型是从初始模型(也就是神经网络模型)经过两个训练阶段训练后获得的具有多个神经元组(如图4中的神经元组21)的神经网络模型，所述神经元组包括多个神经元(如图4中的神经元22)，神经元之间通过连接通道(如图4中的连接通道23)连接，每个连接通道对应一个第二网络参数。

在本发明实施例中，每个神经元都是一个计算单元，每个所述计算单元有对应的计算函数，在输入的混合音频数据集中的混合数据达到计算函数输出条件时，计算单元输出计算后的数据，也就是说神经元响应放电(释放电信号)，同时产生放电信息，放电信息是指在混合音频数据集输入基准模型时，基准模型中的多个神经元在不同时间区间发生的响应情况。

在该步骤中，首先获取任一混合音频数据集中的混合数据，将其输入到基准模型中，在输入的混合音频数据集中的混合数据达到计算函数输出条件时，示例性的，计算函数为如下的分段函数：

其中，a为预设数值，x为输入的混合数据，当输入的混合数据大于等于预设数值a时，基准模型中的多个神经元发生响应放电并产生放电信息，图5示出了不同时刻，多个神经元组中不同位置的神经元响应放电分布状态，图5中，“黑点”表示神经元发生响应放电现象，“空白”表示神经元未发生响应放电现象。

步骤602，针对每个神经元组，利用神经元组中神经元的放电信息，获取与所述神经元组对应的多个放电簇的时间差信息；基于所述多个时间差信息，选取最小的时间差信息；将每个神经元的输出信息增加所述最小的时间差信息，得到每个神经元组的目标网络参数；

在本发明实施例中，放电簇为多个神经元集中响应放电的情况，在实际应用中，放电簇越集中，表示音频数据相似度越高，比如发动机产生的周期性噪声音频数据，如图5中所示，多个“黑点”分布在某一个时刻，分布的形状逼近直线，可以确定为一个放电簇，比如图5中的放电簇24；时间差信息是指一个放电簇中第一个神经元放电时刻和最后一个神经元放电时刻的时刻差值；每个神经元的输出信息是指该神经元的连接通道对应的第二网络参数。

在该步骤中，首先，根据上一步骤得到如图5所示的放电信息，所述放电信息包括多个放电簇，示例性的，如某个神经元组中的第一放电簇24、第二放电簇25等；然后，针对某个神经元的各放电簇，分别获取各放电簇对应的时间差信息，得到多个大小不一的时间差信息，示例性的，第一放电簇24对应的时间差信息为2，第二放电簇25对应的时间差信息为4等；其次，针对多个大小不一的时间差信息，比较这些时间差信息的大小，在其中选取一个最小的时间差信息，示例性的，第一放电簇24对应的时间差信息为2，第二放电簇25对应的时间差信息为4，时间差信息2小于时间差信息4，那么选取最小的时间差信息为2；最后，获取该神经元组中每个神经元的输出信息，将每个神经元的输出信息分别增加最小的时间差信息，得到该神经元组的目标网络参数，示例性的，某个神经元组中第一神经元的输出信息为r和第二神经元的输出信息为s，最小的时间差信息为2，将每个神经元的输出信息增加所述最小的时间差信息后，得到该神经元组的目标网络参数为r+2和s+2。

步骤603，将所述基准模型中的第二网络参数调整为所述目标网络参数。

该步骤中，示例性的，首先，获取一个神经元组中第二网络参数和目标网络参数，比如，第一个神经元组的第二网络参数为r和s，第一个神经元组的目标网络参数为r+2和s+2；然后比较第二网络参数和目标网络参数，确定第一个神经元组目标网络参数中增加的数值，比如，增加的数值分别为2和2；其次，获取以所述增加的数值为系数的随机数，比如，第一个随机数为2*0.01＝0.02，第一个随机数为2*(-0.01)＝(-0.02)；再次，将多个所述随机数分别替换到所述目标网络参数中增加的数值，得到该神经元组调整后的第二网络参数，比如，第一个神经元组调整后的第二网络参数为r+0.02和s-0.02；最后，分别将基准模型中的第二个神经元组、第三个神经元组……最后一个神经元组中第二网络参数调整为目标网络参数，完成将所述基准模型中的第二网络参数调整为所述目标网络参数。

在实际应用中，第二网络参数的调整与神经元响应放电是直接相关的，本发明实施例中神经元响应放电，也就是神经元响应释放电信号，所述电信号分布在神经元的连接通道上，而各连接通道分别对应一个第二网络参数，在神经元释放的电信号上增加时延信号，该神经元的连接通道上的电信号发生变化，阻碍或者促该神经元的电信号传输，从而影响下一个神经元是否响应放电，而本发明实施例中降噪模型中神经元个数与对应的第二网络参数乘积数的加和是一个固定值，如果加入时延信号之后，原来响应放电的神经元停止响应放电，那么该神经元与对应的第二网络参数乘积数为0，为了保证固定值不变，降噪模型就会对其他神经元的第二网络参数进行调整。

示例性的，加入时延信号之前，降噪模型中有100个神经元，固定值为1，每两个神经元之间都有连接，那就是100*100个第二网络参数，每个第二网络参数是0.0001；加入时延信号之后，原来响应放电的神经元停止响应放电，比如，5000个连接通道由有电信号变为无电信号，也就是说5000个连接通道对应的第二网络参数由0.0001变为0，那为了保证固定值，降噪模型将其他5000个第二网络参数由0.0001调整为0.0002。

本发明实施例通过计算能够确定下次训练中基准模型的第二网络参数。

在实际应用中，本发明实施例通过将混合音频数据输入上述模型训练方法获得的降噪模型，针对输入混合音频数据中的对象音频数据和噪声音频数据，降噪模型中的多个神经元组分别响应放电，响应于对象音频数据或响应于噪声音频数据的神经元组中的神经元放电现象比较集中，使得多个所述响应于对象音频数据或响应于噪声音频数据的神经元组之间分别通过连接通道形成强连接，从而强化对象音频数据或噪声音频数据的特征信息，然后在上述的神经元响应放电的基础上选取神经元放电现象最集中的放电簇(如图5中的放电簇24)，对此放电簇中神经元对应的电信号增加时延信号，调节第二网络参数，使得该放电簇中多个神经元组之间分别通过连接通道形成弱连接，也就是弱化了相似度高的音频数据(弱化后的放电信息图如图6)，比如发动机产生的周期性噪声音频数据，从而达到滤除噪声音频数据的目的，同时也提升了降噪模型中神经网络的信息熵，优化了对包含噪声音频数据的混合音频数据的处理能力。

为了应用前述的一种模型训练方法获取的降噪模型，提供了一种数据处理方法，所述方法包括：

步骤701，获取麦克风采集的目标音频数据；

在实际应用中，麦克风指空调、洗衣机、冰箱的远场麦克风，目标音频数据是指麦克风采集人声信号和噪声信号后，分别对人声信号和噪声信号进行采样、量化、编码处理后得到的对象音频数据或噪声音频数据，所述噪声信号如：空调运行时出风口产生的风噪信号、风机运行的震动噪声信号以及远场语音环境中的其他噪声信号。

在该步骤中，获取到的目标音频数据，包含了对象音频数据和噪声音频数据。

步骤702，将所述目标音频数据输入至上述模型训练方法得到的降噪模型中，以使所述降噪模型去除噪声音频数据，输出所述目标音频数据中的对象音频数据；

在该步骤中，首先获取经上述模型训练方法得到的降噪模型，然后将包含了对象音频数据和噪声音频数据的目标音频数据输入所述降噪模型中，经降噪模型处理后，降噪模型输出目标音频数据中的对象音频数据。

示例性的，获取到的目标音频数据包含了对象音频数据A和噪声音频数据M，将该目标音频数据输入降噪模型中，降噪模型输出对象音频数据A。

步骤703，将所述对象音频数据输入唤醒词识别模型，以使所述唤醒词识别模型输出与所述目标音频数据对应的唤醒词。

在该步骤中，示例性的，目标音频数据对应的唤醒词为“开机”，将上一步骤得到的对象音频数据W输入唤醒词识别模型，唤醒词识别模型输出与目标音频数据对应的唤醒词“开机”。

在实际应用中，该数据处理方法能够对空调、洗衣机、冰箱等智能电器远场语音控制的唤醒识别进行降噪处理。

在实际应用中，为了实现前述的一种模型训练方法，提供了一种模型训练装置，如图7所示，包括：

获取模块11，用于获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；

第一训练模块12，用于分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；

第二训练模块13，用于利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

可选地，第一训练模块12，包括：

第一执行单元，用于若各所述第一音频数据和与其对应的所述对象音频数据相同，且各所述第二音频数据和与其对应的所述噪声音频数据相同，确定所述初始模型满足第一收敛条件，得到所述基准模型。

可选地，第一训练模块，还包括：

可选地，第二训练模块13，包括：

可选地，第二训练模块13，还包括：

第二调整单元，包括：

第二获取单元，用于针对每个神经元组：

利用神经元组中神经元的放电信息，获取与所述神经元组对应的多个放电簇的时间差信息；基于所述多个时间差信息，选取最小的时间差信息；将每个神经元的输出信息增加所述最小的时间差信息，得到每个神经元组的目标网络参数；

本发明实施例提供的模型训练装置通过获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

基于相同的技术构思，本发明实施例还提供了一种电子设备，如图8所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现上述的模型训练方法或上述的数据处理方法的步骤。

本发明实施例提供的电子设备，处理器通过执行存储器上存放的程序实现了本发明实施例，本发明实施例提供的电子设备通过获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和噪声音频数据；分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的对象音频数据和噪声音频数据；利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect，PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(RandomAccessMemory，RAM)，也可以包括非易失性存储器(Non-VolatileMemory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的模型训练方法或上述的数据处理方法的步骤。

本发明实施例提供的计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行实现了本发明实施例，本发明实施例提供的计算机可读存储介质通过分别利用对象音频数据集和噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，该基准模型针对输入的音频数据中的对象音频数据，得到音频数据中的对象音频数据，针对输入的音频数据中的噪声音频数据，得到音频数据中的噪声音频数据，使得该基准模型可以区分输入的音频数据中的对象音频数据和噪声音频数据，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，该降噪模型针对输入的包含多个对象音频数据和噪声音频数据的音频数据，得到对象音频数据，使得该降噪模型滤除所述输入的音频数据中的噪声音频数据，保留对象音频数据。

本发明实施例能够处理噪声频谱和人声频谱混叠严重的情况，减少包含噪声的人声信号中的噪声，从而提升唤醒词识别准确率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括所述对象音频数据和所述噪声音频数据；

分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的所述对象音频数据和所述噪声音频数据；

利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的所述噪声音频数据，保留所述对象音频数据。

2.根据权利要求1所述的方法，其特征在于，分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，包括：

3.根据权利要求2所述的方法，其特征在于，分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，还包括：

若任一所述第一音频数据与输入所述初始模型的所述对象音频数据不相同，和/或，任一所述第二音频数据与输入所述初始模型的所述噪声音频数据不相同，计算所述第一音频数据与输入所述初始模型的所述对象音频数据之间的第一误差数据和所述第二音频数据与输入所述初始模型的所述噪声音频数据之间的第二误差数据；

根据所述第一误差和第二误差，调整所述初始模型中的第一网络参数，执行将所述对象音频数据集中的各所述对象音频数据输入所述初始模型的步骤，直至所述初始模型满足第一收敛条件，得到所述基准模型。

4.根据权利要求1所述的方法，其特征在于，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，包括：

判断各所述第五音频数据是否与输入所述基准模型的混合音频数据中的所述对象音频数据相同；

若各所述第五音频数据与输入所述基准模型的混合音频数据中的所述对象音频数据相同，确定所述基准模型满足第二收敛条件，得到所述降噪模型。

5.根据权利要求4所述的方法，其特征在于，利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，还包括：

若任一所述第五音频数据与输入所述基准模型的混合音频数据中的所述对象音频数据不相同，计算所述第五音频数据与所述对象音频数据之间的第三误差数据；

6.根据权利要求5所述的方法，其特征在于，所述基准模型包括多个神经元组，每个神经元组包括多个神经元；

获取多个神经元组中神经元的放电信息；

7.一种数据处理方法，其特征在于，所述方法包括：

获取麦克风采集的目标音频数据；

将所述目标音频数据输入至如权利要求1至6任一所述的模型训练方法得到的降噪模型中，以使所述降噪模型去除噪声音频数据，输出所述目标音频数据中的对象音频数据；

8.一种模型训练装置，其特征在于，所述装置，包括：

获取模块，用于获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的所述噪声音频数据集及包含多个混合音频数据的混合音频数据集，所述混合音频数据包括对象音频数据和所述噪声音频数据；

第一训练模块，用于分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型，直至所述初始模型满足第一收敛条件，得到基准模型，所述基准模型用于区分输入的音频数据中的所述对象音频数据和所述噪声音频数据；

第二训练模块，用于利用所述混合音频数据集训练所述基准模型，直至所述基准模型满足第二收敛条件，得到降噪模型，所述降噪模型用于滤除所述输入的音频数据中的所述噪声音频数据，保留所述对象音频数据。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的模型训练方法或权利要求7所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的模型训练方法或权利要求7所述的数据处理方法的步骤。