CN115457930A

CN115457930A - 模型训练方法及装置、非瞬时性计算机可读存储介质

Info

Publication number: CN115457930A
Application number: CN202211088389.0A
Authority: CN
Inventors: 林功艺
Original assignee: Egis Technology Inc
Current assignee: Egis Technology Inc
Priority date: 2022-05-23
Filing date: 2022-09-07
Publication date: 2022-12-09

Abstract

一种模型训练方法、模型训练装置和非瞬时性计算机可读存储介质。该模型训练方法包括：基于预测模型，对第一音频信号进行处理以生成第一控制指令；基于第一控制指令，生成与第一控制指令对应的音频信号作为第二音频信号；输出第二音频信号，以抑制第三音频信号，其中，第一音频信号出现的时间早于第三音频信号出现的时间；基于第二音频信号和第三音频信号，确定音频误差信号；响应于音频误差信号不满足误差条件，对预测模型进行调整，基于预测模型再次对第一音频信号进行处理，直到音频误差信号满足误差条件；响应于音频误差信号满足误差条件，保持预测模型不变。

Description

模型训练方法及装置、非瞬时性计算机可读存储介质

技术领域

本公开的实施例涉及一种模型训练方法、模型训练装置和非瞬时性计算机可读存储介质。

背景技术

目前，降噪方法主要包括主动式降噪和被动式降噪。主动式降噪是通过降噪系统产生与外界噪音相等的反相信号以将噪音中和，从而实现降噪的效果。被动式降噪主要通过在对象周围形成封闭空间或者采用隔音材料来阻挡外界噪声，从而实现降噪的效果。

主动式降噪可以利用消音模型以实现采用落后的反相音频跟原本收到的音频(例如，噪声)进行破坏性叠加以达到抑制音频的效果。一种主动式降噪的消音流程如下：首先，通过麦克风接收声音源产生的音频Vn，并将接收的音频Vn发送到处理器，然后，处理器对音频Vn进行反相处理以生成反相音频Vn’并输出该反相音频Vn’至扬声器，扬声器发出该反相音频Vn’。人的耳朵可以接收反相音频Vn’和音频Vn，并且反相音频Vn’与音频Vn可以进行破坏性叠加从而达到抑制音频的效果。在该主动式降噪中，由于信号处理和信号传输等需要花费时间，扬声器输出的反相音频Vn’的时间必然是落后于麦克风原本收到的音频Vn的时间，由此，人的耳朵接收到反相音频Vn’的时间也必然落后于人的耳朵接收到音频Vn的时间，消音效果较差，甚至可能无法实现消音。输入端(即麦克风)到输出端(即扬声器)必然有延迟，输入端对输出端的延迟越低，则人的耳朵接收到反相音频Vn’和接收到音频Vn之间的时间差越小，消音效果越好。因此，主动式降噪对于端对端延迟要求极其严苛，使得该主动消音系统的架构必须使用高速的模拟数字转换器以及高速运算硬件等，才能达到低延迟，实现较好的抑制音频的效果，从而导致其开发成本过高且架构较无弹性。因此，如何避免端对端延迟对主动式降噪的影响，如何实现更好的抑制音频的效果等成为需要解决的问题。

目前，可以预先对消音模型进行训练，然后将消音模型应用到实际场景中，然而，由于不同场景下的音频信号多种多样，用于训练消音模型的训练样本的数量有限且无法完全模拟真实环境中的音频信号，训练样本中的音频信号可能与真实环境产生的音频信号不会完全相同，从而导致消音模型可能无法实现消音功能。因此，如何使得消音模型能够更加适用于真实环境，使得消音模型能够更好地实现抑制音频的效果，用于训练消音模型的样本的数量不足等成为需要解决的问题。

发明内容

针对上述问题，本公开至少一个实施例提供一种模型训练方法，包括：基于预测模型，对第一音频信号进行处理以生成第一控制指令；基于所述第一控制指令，生成与所述第一控制指令对应的音频信号作为第二音频信号；输出所述第二音频信号，以抑制第三音频信号，其中，所述第一音频信号出现的时间早于所述第三音频信号出现的时间；基于所述第二音频信号和所述第三音频信号，确定音频误差信号；响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整，基于所述预测模型再次对所述第一音频信号进行处理，直到所述音频误差信号满足所述误差条件；响应于所述音频误差信号满足所述误差条件，保持所述预测模型不变。

例如，在本公开至少一个实施例提供的模型训练方法中，所述预测模型包括神经网络，所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号，包括：基于所述第二音频信号和所述第三音频信号，通过所述神经网络的损失函数计算损失值，其中，所述音频误差信号包括所述损失值。

例如，在本公开至少一个实施例提供的模型训练方法中，所述响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整，包括：响应于所述损失值不满足所述误差条件，利用所述损失值对所述神经网络的参数进行调整。

例如，在本公开至少一个实施例提供的模型训练方法中，所述基于所述预测模型再次对所述第一音频信号进行处理，包括：响应于所述音频误差信号不满足所述误差条件，基于所述神经网络，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；基于所述第二控制指令，生成并输出与所述第二控制指令对应的音频信号作为所述第二音频信号。

例如，在本公开至少一个实施例提供的模型训练方法中，所述预测模型包括查找表，所述响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整，包括：响应于所述音频误差信号不满足所述误差条件，基于所述第一音频信号和所述第三音频信号生成音频特征编码；基于所述音频特征编码调整所述查找表。

例如，在本公开至少一个实施例提供的模型训练方法中，所述预测模型包括查找表，所述基于所述预测模型再次对所述第一音频信号进行处理，包括：响应于所述音频误差信号不满足所述误差条件，基于所述查找表，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；基于所述第二控制指令，生成并输出与所述第二控制指令对应的音频信号作为所述第二音频信号。

例如，在本公开至少一个实施例提供的模型训练方法中，所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号，包括：计算所述第二音频信号和所述第三音频信号之间的均方根误差，以得到所述音频误差信号。

例如，在本公开至少一个实施例提供的模型训练方法中，所述基于预测模型，对第一音频信号进行处理以生成第一控制指令，包括：获取所述第一音频信号；基于所述预测模型对所述第一音频信号进行处理以预测得到第四音频信号；基于所述第四音频信号，生成所述第一控制指令。

例如，在本公开至少一个实施例提供的模型训练方法中，所述预测模型包括查找表，所述基于所述预测模型对所述第一音频信号进行处理以预测得到第四音频信号，包括：基于所述第一音频信号生成第一音频特征编码；基于所述第一音频特征编码查询所述查找表，以得到第二音频特征编码；基于所述第二音频特征编码，预测得到所述第四音频信号。

例如，在本公开至少一个实施例提供的模型训练方法中，所述第二音频信号的相位与所述第四音频信号的相位相反。

例如，在本公开至少一个实施例提供的模型训练方法中，输出与所述第一控制指令对应的音频信号的时刻和所述第三音频信号开始出现的时刻之间的时间差的绝对值小于时间阈值。

本公开至少一个实施例还提供一种模型训练装置，包括：指令生成模块，被配置为基于预测模型，对第一音频信号进行处理以生成第一控制指令；音频生成模块，被配置为基于所述第一控制指令，生成与所述第一控制指令对应的音频信号作为第二音频信号；输出模块，被配置为输出所述第二音频信号，以抑制第三音频信号，其中，所述第一音频信号出现的时间早于所述第三音频信号出现的时间；误差计算模块，被配置为基于所述第二音频信号和所述第三音频信号，确定音频误差信号；调整模块，被配置为响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整；响应于所述音频误差信号满足所述误差条件，保持所述预测模型不变；其中，所述指令生成模块还被配置为响应于所述音频误差信号不满足误差条件，基于所述预测模型再次对所述第一音频信号进行处理，直到所述音频误差信号满足所述误差条件。

例如，在本公开至少一个实施例提供的模型训练装置中，所述预测模型包括神经网络，在执行所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号的操作时，所述误差计算模块被配置为基于所述第二音频信号和所述第三音频信号，通过所述神经网络的损失函数计算损失值，其中，所述音频误差信号包括所述损失值。

例如，在本公开至少一个实施例提供的模型训练装置中，在执行所述响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整的操作时，所述调整模块被配置为：响应于所述损失值不满足所述误差条件，利用所述损失值对所述神经网络的参数进行调整。

例如，在本公开至少一个实施例提供的模型训练装置中，在执行所述基于所述预测模型再次对所述第一音频信号进行处理的操作时，所述指令生成模块被配置为：响应于所述音频误差信号不满足所述误差条件，基于所述神经网络，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；所述音频生成模块还被配置为基于所述第二控制指令，生成并输出与所述第二控制指令对应的音频信号作为所述第二音频信号。

例如，在本公开至少一个实施例提供的模型训练装置中，所述预测模型包括查找表，所述调整模块包括特征编码生成子模块和查找表调整子模块，所述特征编码生成子模块被配置为：响应于所述音频误差信号不满足所述误差条件，基于所述第一音频信号和所述第三音频信号生成音频特征编码；所述查找表调整子模块被配置为基于所述音频特征编码调整所述查找表。

例如，在本公开至少一个实施例提供的模型训练装置中，所述预测模型包括查找表，在执行所述基于所述预测模型再次对所述第一音频信号进行处理的操作时，所述指令生成模块被配置为：响应于所述音频误差信号不满足所述误差条件，基于所述查找表，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；所述音频生成模块还被配置为基于所述第二控制指令，生成并输出与所述第二控制指令对应的音频信号作为所述第二音频信号。

例如，在本公开至少一个实施例提供的模型训练装置中，在执行所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号的操作时，所述误差计算模块被配置为：计算所述第二音频信号和所述第三音频信号之间的均方根误差，以得到所述音频误差信号。

例如，在本公开至少一个实施例提供的模型训练装置中，所述指令生成模块包括音频获取子模块、预测子模块和生成子模块，所述音频获取子模块被配置为获取所述第一音频信号；所述预测子模块被配置为基于所述预测模型对所述第一音频信号进行处理以预测得到第四音频信号；所述生成子模块被配置为基于所述第四音频信号，生成所述第一控制指令。

例如，在本公开至少一个实施例提供的模型训练装置中，所述预测模型包括查找表，所述预测子模块包括查询单元和预测单元，所述查询单元被配置为基于所述第一音频信号生成第一音频特征编码；基于所述第一音频特征编码查询所述查找表，以得到第二音频特征编码；所述预测单元被配置为基于所述第二音频特征编码，预测得到所述第四音频信号。

例如，在本公开至少一个实施例提供的模型训练装置中，所述第二音频信号的相位与所述第四音频信号的相位相反。

例如，在本公开至少一个实施例提供的模型训练装置中，输出与所述第一控制指令对应的音频信号的时刻和所述第三音频信号开始出现的时刻之间的时间差的绝对值小于时间阈值。

本公开至少一个实施例还提供一种模型训练装置，包括：一个或多个存储器，非瞬时性地存储有计算机可执行指令；一个或多个处理器，配置为运行所述计算机可执行指令，其中，所述计算机可执行指令被所述一个或多个处理器运行时实现根据本公开任一个实施例所述的模型训练方法。

本公开至少一个实施例还提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据本公开任一个实施例所述的模型训练方法。

根据本公开的任一实施例提供的模型训练方法、模型训练装置和非瞬时性计算机可读存储介质，利用当前音频信号(即，第一音频信号)和未来音频信号(即，第三音频信号)对预测模型进行实时训练，提升预测模型输出的预测结果的准确度，避免基于预测模型输出的预测结果无法实现对未来音频信号进行抑制的问题，提升基于预测模型进行消音的效果。

此外，本公开至少一个实施例提供一种音频处理方法，包括：基于第一音频信号，生成控制指令；基于所述控制指令，生成第二音频信号；输出所述第二音频信号，以抑制第三音频信号，其中，所述第二音频信号的相位与所述第三音频信号的相位之和小于相位阈值，所述第一音频信号出现的时间早于所述第三音频信号出现的时间。

例如，在本公开至少一个实施例提供的音频处理方法中，所述输出所述第二音频信号，以抑制第三音频信号，包括：基于所述控制指令，确定输出所述第二音频信号的第一时刻；在所述第一时刻输出所述第二音频信号，其中，所述第三音频信号从第二时刻开始出现，所述第一时刻和所述第二时刻之间的时间差的绝对值小于时间阈值。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第一时刻和所述第二时刻之间的时间差为0。

例如，在本公开至少一个实施例提供的音频处理方法中，所述基于第一音频信号，生成控制指令，包括：获取所述第一音频信号；对所述第一音频信号进行处理以预测得到第四音频信号；基于所述第四音频信号，生成所述控制指令。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第二音频信号和/或所述第三音频信号和/或所述第四音频信号是周期性的或间歇性的时域信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述对所述第一音频信号进行处理以预测得到第四音频信号，包括：基于所述第一音频信号生成第一音频特征编码；基于所述第一音频特征编码查询查找表，以得到第二音频特征编码；基于所述第二音频特征编码，预测得到所述第四音频信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述查找表包括至少一个第一编码字段。

例如，在本公开至少一个实施例提供的音频处理方法中，所述查找表还包括至少一个第二编码字段，多个所述第一编码字段组成一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第二音频特征编码包括至少一个所述第一编码字段和/或至少一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理方法中，所述获取所述第一音频信号，包括：采集初始音频信号；对所述初始音频信号进行下采样处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述获取所述第一音频信号，包括：采集初始音频信号；对所述初始音频信号进行滤波处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第二音频信号的相位与所述第三音频信号的相位相反。

本公开至少一个实施例还提供一种音频处理装置，包括：指令生成模块，被配置为基于第一音频信号，生成控制指令；音频生成模块，被配置为基于所述控制指令，生成第二音频信号；输出模块，被配置为输出所述第二音频信号，以抑制第三音频信号；其中，所述第二音频信号的相位与所述第三音频信号的相位之和小于相位阈值，所述第一音频信号出现的时间早于所述第三音频信号出现的时间。

例如，在本公开至少一个实施例提供的音频处理装置中，所述输出模块包括时刻确定子模块和输出子模块，所述时刻确定子模块被配置为基于所述控制指令，确定输出所述第二音频信号的第一时刻；所述输出子模块被配置为在所述第一时刻输出所述第二音频信号，其中，所述第三音频信号从第二时刻开始出现，所述第一时刻和所述第二时刻之间的时间差的绝对值小于时间阈值。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第一时刻和所述第二时刻之间的时间差为0。

例如，在本公开至少一个实施例提供的音频处理装置中，所述指令生成模块包括音频获取子模块、预测子模块和生成子模块，所述音频获取子模块被配置为获取所述第一音频信号；所述预测子模块被配置为对所述第一音频信号进行处理以预测得到第四音频信号；所述生成子模块被配置为基于所述第四音频信号，生成所述控制指令。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第二音频信号和/或所述第三音频信号和/或所述第四音频信号是周期性的或间歇性的时域信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述预测子模块包括查询单元和预测单元，所述查询单元被配置为基于所述第一音频信号生成第一音频特征编码以及基于所述第一音频特征编码查询查找表，以得到第二音频特征编码；所述预测单元被配置为基于所述第二音频特征编码，预测得到所述第四音频信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述查找表包括至少一个第一编码字段。

例如，在本公开至少一个实施例提供的音频处理装置中，所述查找表还包括至少一个第二编码字段，多个所述第一编码字段组成一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第二音频特征编码包括至少一个所述第一编码字段和/或至少一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理装置中，所述音频获取子模块包括采集单元和下采样处理单元，所述采集单元被配置为采集初始音频信号；所述下采样处理单元被配置为对所述初始音频信号进行下采样处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述音频获取子模块包括采集单元和滤波单元，所述采集单元被配置为采集初始音频信号；所述滤波单元被配置为对所述初始音频信号进行滤波处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第二音频信号的相位与所述第三音频信号的相位相反。

本公开至少一个实施例还提供一种音频处理装置，包括：一个或多个存储器，非瞬时性地存储有计算机可执行指令；一个或多个处理器，配置为运行所述计算机可执行指令，其中，所述计算机可执行指令被所述一个或多个处理器运行时实现根据本公开任一个实施例所述的音频处理方法。

本公开至少一个实施例还提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据本公开任一个实施例所述的音频处理方法。

根据本公开的任一实施例提供的音频处理方法、音频处理装置和非瞬时性计算机可读存储介质，通过学习当前音频信号(即，第一音频信号)的特征，产生未来音频信号的反相音频信号(即，第二音频信号)以抑制未来音频信号(即，第三音频信号)，避免由于输入端和输出端之间的延迟导致的反相音频信号和需要抑制的音频信号不同步的问题，提升消音效果，可大幅降低或甚至消除输入端对输出端的延迟对消音的影响，抑制音频的效果比业界常用的落后式的主动消音系统的抑制音频的效果更好。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开至少一个实施例提供的一种音频处理系统的示意性框图；

图2A为本公开至少一个实施例提供的一种音频处理方法的示意性流程图；

图2B为图2A所示的步骤S10的示意性流程图；

图2C为图2B所示的步骤S102的示意性流程图；

图3为本公开至少一个实施例提供的一种第一音频信号和第三音频信号的示意图；

图4为本公开至少一个实施例提供的一种第三音频信号和第四音频信号的示意图；

图5A为本公开一些实施例提供的一种音频信号的示意图；

图5B为图5A中的虚线矩形框P1中的音频信号的放大示意图；

图6为本公开至少一个实施例提供的一种音频处理装置的示意性框图；

图7为本公开至少一个实施例提供的另一种音频处理装置的示意性框图；

图8为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图；

图9为本公开至少一个实施例提供的一种模型训练系统的示意性框图；

图10A为本公开至少一个实施例提供的一种模型训练方法的示意性流程图；

图10B为图10A所示的步骤S200的示意性流程图；

图10C为图10B所示的步骤S2002的示意性流程图；

图11为本公开至少一个实施例提供的一种第一音频信号和第三音频信号的示意图；

图12A为本公开至少一个实施例提供的一种音频误差信号与训练迭代次数之间的示意图；

图12B为本公开至少一个实施例提供的另一种音频误差信号与训练迭代次数之间的示意图；

图13为本公开至少一个实施例提供的一种模型训练装置的示意性框图；

图14为本公开至少一个实施例提供的另一种模型训练装置的示意性框图；以及

图15为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

本公开至少一个实施例提供一种音频处理方法。该音频处理方法包括：基于第一音频信号，生成控制指令；基于控制指令，生成第二音频信号；输出第二音频信号，以抑制第三音频信号。第二音频信号的相位与第三音频信号的相位之和小于相位阈值，第一音频信号出现的时间早于第三音频信号出现的时间。

在本公开的实施例提供的音频处理方法中，通过学习当前音频信号(即，第一音频信号)的特征，产生未来音频信号的反相音频信号(即，第二音频信号)以抑制未来音频信号(即，第三音频信号)，避免由于输入端和输出端之间的延迟导致的反相音频信号和需要抑制的音频信号不同步的问题，提升消音效果，可大幅降低或甚至消除输入端对输出端的延迟对消音的影响，抑制音频的效果比业界常用的落后式的主动消音系统的抑制音频的效果更好。

本公开的实施例还提供一种音频处理装置和非瞬时性计算机可读存储介质。该音频处理方法可应用于本公开实施例提供的音频处理装置，该音频处理装置可被配置于电子设备上。该电子设备可以是个人计算机、移动终端、汽车头枕等，该移动终端可以是手机、耳机、平板电脑等硬件设备。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图1为本公开至少一个实施例提供的一种音频处理系统的示意性框图，图2A为本公开至少一个实施例提供的一种音频处理方法的示意性流程图，图2B为图2A所示的步骤S10的示意性流程图，图2C为图2B所示的步骤 S102的示意性流程图，图3为本公开至少一个实施例提供的一种第一音频信号和第三音频信号的示意图。

图1所示的音频处理系统可以用于实现本公开任一实施例提供的音频处理方法，例如，图2A所示的音频处理方法。如图1所示，音频处理系统可以包括音频接收部分、音频处理部分和音频输出部分。音频接收部分可以接收声音源在时刻tt1发出的音频信号Sn1，然后将音频信号Sn1传输至音频处理部分，音频处理部分对音频信号Sn1进行处理，以预测得到未来音频信号Sn3的反相音频信号Sn2；然后该反相音频信号Sn2通过音频输出部分输出。反相音频信号Sn2可以用于抑制声音源在晚于时刻tt1的时刻tt2产生的未来音频信号Sn3。例如，目标对象(例如，人的耳朵等)可以同时接收到反相音频信号Sn2和未来音频信号Sn3，以使得反相音频信号Sn2和未来音频信号Sn3可以进行破坏性叠加，从而实现消音。

例如，音频接收部分可以包括麦克风、放大器(例如，麦克风放大器)、模数转换器(analog to digital converter，ADC)、下采样器(downsampler) 等，音频处理部分可以包括AI引擎和/或数字信号处理器(Digital Signal Processing，DSP))等，音频输出部分可以包括上采样器(Upsampler)、数模转换器(digital to analog converter，DAC)、放大器(例如，扬声器放大器) 以及扬声器等。

如图2A所示，本公开的一个实施例提供的音频处理方法包括步骤S10 至S12。在步骤S10，基于第一音频信号，生成控制指令；在步骤S11，基于控制指令，生成第二音频信号；在步骤S12，输出第二音频信号，以抑制第三音频信号。

例如，第一音频信号可以为图1所示的音频信号Sn1，第二音频信号可以为图1所示的反相音频信号Sn2，第三音频信号可以为图1所示的未来音频信号Sn3。

例如，音频接收部分可以接收第一音频信号；音频处理部分可以对第一音频信号进行处理以生成控制指令，并基于控制指令生成第二音频信号；音频输出部分可以输出第二音频信号，从而实现抑制第三音频信号。

例如，第一音频信号出现的时间早于第三音频信号出现的时间。如图3 所示，第一音频信号开始出现的时刻为t11，第三音频信号开始出现的时刻为t21，在时间轴t上，时刻t11早于时刻t21。例如，第一音频信号存在的时间段可以为时刻t11到时刻t12之间的时间段，第三音频信号存在的时间段为时刻t21到时刻t22之间的时间段。考虑到信号处理过程的时间等因素，时刻t12和时刻t21可以不是同一时刻，时刻t12早于时刻t21。

需要说明的是，在本公开的实施例中，“音频信号存在的时间段或出现的时间”表示该音频信号对应的音频存在的时间段或出现的时间。

例如，第二音频信号的相位与第三音频信号的相位之和小于相位阈值，相位阈值可以根据实际情况设置，本公开对此不作具体限制。例如，在一些实施例中，第二音频信号的相位与第三音频信号的相位相反，从而可以实现完全消音，即完全抑制第三音频信号，此时，当第二音频信号和第三音频信号由音频采集装置(例如，麦克风等)接收时，音频采集装置所接收到的音频信号的误差能量为0；若第二音频信号和第三音频信号被人耳接收，相当于人没有听到声音。

例如，在一些实施例中，第一音频信号可以为时刻t11到时刻t12之间的最大声量(振幅最大)的时域音频信号，第一音频信号不是特定频率的音频信号，从而本公开的实施例提供的音频处理方法不需要从音频信号中提取频谱特征来产生频谱图，由此可以简化音频信号的处理过程，节省处理时间。

例如，第一音频信号和第三音频信号可以为外界环境、机器等产生的音频信号，机器运转的声音、装修过程的电钻声和电锯声等。例如，机器可以包括家用电器(空调、抽油烟机、洗衣机等)等。

例如，在一些实施例中，如图2B所示，步骤S10可以包括步骤S101～步骤103，在步骤S101中，获取第一音频信号；在步骤S102中，对第一音频信号进行处理以预测得到第四音频信号；在步骤S103中，基于第四音频信号，生成控制指令。在本公开的实施例提供的音频处理方法中，通过学习当前音频信号(即第一音频信号)的特征，预测得到音频信号(即第四音频信号)。

例如，第四音频信号是预测得到的未来的音频信号，例如，在时间轴上，第四音频信号存在的时间段落后于第一音频信号存在的时间段，例如，第四音频信号存在的时间段与第三音频信号存在的时间段相同，从而第四音频信号存在的时间段也可以为图3所示的时刻t21到时刻t22之间的时间段。

图4为本公开至少一个实施例提供的一种第三音频信号和第四音频信号的示意图。在图4所示的示例中，横轴表示时间(Time)，纵轴表示幅度 (Amplitude)，幅度可以表示为电压值。如图4所示，在一个实施例中，预测得到的第四音频信号与第三音频信号大致相同。

例如，在一实施例中，第三音频信号和第四音频信号可以完全相同，此时，基于第四音频信号最终生成的第二音频信号的相位与第三音频信号的相位相反，从而实现完全消音。

例如，在步骤S102中，对第一音频信号进行处理以预测第四音频信号可以包括通过神经网络对第一音频信号进行处理以预测得到第四音频信号。

例如，神经网络可以包括循环神经网络、长短时记忆网络或生成对抗网络等。在本公开的实施例中，可以基于人工智能学习音频信号的特征，从而预测尚未发生的未来某个时间段的音频信号，据此产生未来的该时间段的反相音频信号，用以抑制该时间段的音频信号。

例如，在一些实施例中，如图2C所示，步骤S102可以包括步骤S1021～步骤1023，在步骤S1021中，基于第一音频信号生成第一音频特征编码；在步骤S1022中，基于第一音频特征编码查询查找表，以得到第二音频特征编码；在步骤S1023中，基于第二音频特征编码，预测得到第四音频信号。

例如，第一音频信号可以为模拟信号，可以通过模数转换器对第一音频信号进行处理，以得到处理后的第一音频信号，处理后的第一音频信号为数字信号，基于该处理后的第一音频信号可以生成第一音频特征编码。

又例如，第一音频信号可以为数字信号，例如，PDM(Pulse-density- modulation，脉冲密度调制)信号，此时，可以直接基于第一音频信号生成第一音频特征编码。PDM信号可以采用二进制数0和1表示。

例如，可以采用任何合适的编码方式实现第一音频特征编码。例如，在一些实施例中，在表示一个音频信号时，可以采用音频信号的变化状态来描述该音频信号，可以采用多比特(multi-bits)来表示一个音频信号的变化状态。例如，可以采用两比特(2bits)表示音频信号的变化状态，在一些示例中，如下述表格1所示，00表示音频信号变大，01表示音频信号变小，10 表示没有音频信号，11表示音频信号不变。

比特	音频信号的变化状态
		00	音频信号变大
01	音频信号变小
		10	没有音频信号
11	音频信号不变

表1

“音频信号变大”表示单位时间段(每个时间步(time step))中的音频信号的振幅随着时间变大，“音频信号变小”表示单位时间段中的音频信号的振幅随着时间变小，“音频信号不变”表示单位时间段中的音频信号的振幅随着时间不变，“没有音频信号”表示在单位时间段中没有音频信号，即音频信号的振幅为0。

图5A为本公开一些实施例提供的一种音频信号的示意图，图5B为图 5A中的虚线矩形框P1中的音频信号的放大示意图。

在图5A中，横坐标为时间(ms，毫秒)，纵坐标为音频信号的振幅(volts，伏特)。如图5A所示，音频信号V是周期性变化的信号，音频信号V的周期性的模式(pattern)为虚线矩形框P2所示的模式。

如图5B所示，波形段30所表示的音频信号的振幅随着时间t不变，波形段30对应的时间为一个单位时间段，则波形段30可以表示为音频特征编码(11)；类似地，波形段31所表示的音频信号的振幅随着时间t逐渐变大，波形段31对应的时间为四个单位时间段，则波形段31可以表示为音频特征编码(00,00,00,00)；波形段32所表示的音频信号的振幅随着时间t不变，波形段32对应的时间为一个单位时间段，波形段32可以表示为音频特征编码(11)；波形段33所表示的音频信号的振幅随着时间t逐渐变小，波形段 33对应的时间为六个单位时间段，则波形段33可以表示为音频特征编码 (01,01,01,01,01,01)；波形段34所表示的音频信号的振幅随着时间t不变，波形段34对应的时间为一个单位时间段，则波形段34可以表示为音频特征编码(11)；波形段35所表示的音频信号的振幅随着时间t逐渐变大，波形段35对应的时间为八个单位时间段，则波形段35可以表示为音频特征编码 (00,00,00,00,00,00,00,00)；以此类推，波形段36可以表示为音频特征编码 (01,01,01,01,01,01,01,01,01,01,01,01)，波形段37可以表示为音频特征编码 (11)，波形段38可以表示为音频特征编码 (00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00)。从而，图5B所示的音频信号对应的音频特征编码可以表示为 {11,00,00,00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01 ,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}。

例如，在一些实施例中，查找表(codebook)包括至少一个第一编码字段。例如，在另一些实施例中，查找表还包括至少一个第二编码字段，多个第一编码字段组成一个第二编码字段，从而可以实现从低级特征组合而形成降维的高阶特征。例如，查找表中的编码字段(codeword，例如，codeword 可以包括第一编码字段和第二编码字段)的编码方式可以与上述第一音频特征编码的编码方式相同。

例如，在一些实施例中，当采用两比特表示音频信号的变化状态，从而实现特征编码时，第一编码字段可以为00、01、10和11之一。可以由00、 01、10和11进行组合以构成第二编码字段。例如，一个第二编码字段可以表示为{00,00,00,01,01,01,11,11,01,…}，其由00、01和11组合构成。

例如，当查找表包括多个第二编码字段时，多个第二编码字段分别包括的第一编码字段的数量可以各不相同。

需要说明的是，当采用更多比特(例如，3比特、4比特等)表示音频信号的变化状态，从而实现特征编码时，第一编码字段的种类可以更多，例如，当采用3比特表示音频信号的变化状态时，第一编码字段的种类最多可以为 8种，此时，第一编码字段可以为000、001、010、011，100、101、110和 111中的部分或全部。

例如，一个或多个第二编码字段还可以进行组合以得到第三编码字段，或一个或多个第二编码字段以及一个或多个第一编码字段可以进行组合以得到第三编码字段，类似地，一个或多个第三编码字段可以进行组合或一个或多个第三编码字段与第一编码字段和/或第二编码字段可以进行组合，以得到更高阶的编码字段。在本公开的实施例中，低阶的特征编码可以进行组合以得到高阶的特征编码，从而实现更高效且更长时间的预测。

例如，第二音频特征编码包括至少一个第一编码字段和/或至少一个第二编码字段。例如，在一些实施例中，第二音频特征编码可以包括完整的一个或多个第二编码字段，或者，第二音频特征编码可以包括一个第二编码字段中的部分第一编码字段。

需要说明的是，当查找表中包括第三编码字段时，第二音频特征编码可以包括至少一个第一编码字段和/或至少一个第二编码字段和/或至少一个第三编码字段。

例如，在一实施例中，查找表包括第二编码字段W1、第二编码字段W2 和第二编码字段W3，且 W1＝{11,00,00,00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01, 01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00, ....}，W2＝{11,01,00,00,01,01,01,01,01,01,01,....}， W3＝{11,00,01,00,00,01,01,01,11,00,00,00,01,01,01,01,01,01,01,01,01,....}。

在一个实施例中，如图5B所示，从时刻t31开始，音频采集装置持续采集第一音频信号，当音频采集装置采集到的第一音频信号对应的第一个特征编码字段表示为{11}，对应于波形段30，则基于查找表进行查询，以确定查找表中是否存在某个编码字段(包括第一编码字段和第二编码字段)包括 {11}，在上述示例中，查询到查找表中的第二编码字段W1、第二编码字段 W2和第二编码字段W3均包括{11}，此时，第二编码字段W1、第二编码字段W2和第二编码字段W3均作为待输出编码字段列表中的待输出编码字段。

然后，如图5B所示，当音频采集装置采集到的第一音频信号对应的第二个特征编码字段表示为{00}，对应于波形段31中的第一个单位时间段，继续对查找表进行查询(此时可以仅对待输出编码字段列中的待输出编码字段进行查询，从而可以节省查询时间，然而，也可以对整个查找表进行查询)，以确定查找表中是否存在某个编码字段包括{11,00}，在上述示例中，查询到查找表中的第二编码字段W1和第二编码字段W3均包括{11,00}，由于第二编码字段W2包括{11,01}，而不包括{11,00}，从而不满足音频采集装置采集到的第一音频信号的特征，因此，可以将第二编码字段W2从待输出编码字段列表中删除，此时，第二编码字段W1和第二编码字段W3作为待输出编码字段列表中的待输出编码字段。

然后，当音频采集装置采集到的第一音频信号对应的第三个特征编码字段表示为{00}，对应于波形段31中的第二个单位时间段，继续对查找表进行查询，以确定查找表中是否存在某个编码字段包括{11,00,00}，在上述示例中，查询到查找表中的第二编码字段W1包括{11,00,00}。那么,可以预测接下来的音频信号应该就是第二编码字段W1这个模式。对于第二编码字段 W1中的前三个编码字段{11,00,00}，由于其在时间上，其对应的音频信号已经过去，从而可以输出从第二编码字段W1中的第四个字段(即{00})开始的所有后续编码字段作为预测得到的第二音频编码特征，此时，第二音频特征编码表示为 {00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01 ,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,.......}。

需要说明的是，在实际应用中，当匹配多少个特征编码字段才确定第二音频特征编码可以根据实际应用场景、设计需求等因素调整，例如，在上述示例中，当匹配3个(在实际应用中，可以匹配10、20、50个等)特征编码字段，则可以确定第二音频特征编码。

例如，在上述示例中，第一音频信号对应的第一音频特征编码包括3个特征编码字段，且表示为{11,00,00}，如图5B所示，第一音频信号对应的时间段为时刻t31至时刻t32。当考虑到系统处理信号的时间等因素，实际上系统需要在时刻t33才能输出第二音频信号，时刻t33晚于时刻t32，此时，第二音频特征编码中的前两个特征编码字段{00,00}对应的时间段(即时刻t32 至时刻t33之间的时间段)已经过去，从而实际上预测得到的第四音频信号对应的音频特征编码表示为 {11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01 ,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,....}。

例如，若第三音频信号和第四音频信号完全相同，则第三音频信号对应的音频特征编码也表示为 {11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01 ,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,....}。

例如，第二音频信号为对第四音频信号进行反相处理得到的信号，即第二音频信号可以为 {11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01 ,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,....}这个模式的反相音频信号。

例如，在一些实施例中，第二音频信号的时间长度、第三音频信号的时间长度和第四音频信号的时间长度是大致相同的，例如，完全相同。

例如，在一些实施例中，可以针对查找表中的至少部分第一编码字段和 /或第二编码字段设置前导特征编码字段，例如，可以为第二编码字段W1设置前导特征编码{11,00,00}，当检测到该前导特征编码字段，则将第二编码字段W1输出作为第二音频特征编码。在此情况下，当检测到第一音频信号对应的第一音频特征编码为{11,00,00}，该第一音频信号对应的第一音频特征编码与前导特征编码字段{11,00,00}匹配，从而可以将第二编码字段W1输出作为第二音频特征编码。

又例如，可以为第二编码字段W1设置前导特征编码字段 {11,00,00,01,01}，当检测到该前导特征编码字段中的部分字段，则将第二编码字段W1和该前导特征编码字段中的剩余字段输出作为第二音频特征编码，在此情况下，当检测到第一音频信号对应的第一音频特征编码为{11,00,00}，该第一音频信号对应的第一音频特征编码与前导特征编码字段中的前三个字段{11,00,00}匹配，从而可以将前导特征编码字段中的剩余字段{01,01}和第二编码字段W1输出作为第二音频特征编码。此时，第二音频特征编码中的前两个特征编码字段{01,01}(即前导特征编码字段中的剩余字段)对应的时间可以为系统处理信号的时间，从而实际上预测得到的第四音频信号对应的音频特征编码可以为完整的第二编码字段W1。

需要说明的是，前导特征编码字段的长度可以根据实际情况调整，本公开对此不作限制。

值得注意的是，对于查找表而言，当用于存储查找表的存储器足够大，查找表存储的内容够丰富(即查找表中的编码字段的组合够多)，则可消除用户想要消除的所有类型的音频信号。而对于神经网络而言，当用于训练神经网络的样本足够丰富，样本的类型足够丰富，则也可以基于神经网络预测得到用户想要消除的任何类型的音频信号。

例如，查找表可以以表格等形式存储在存储器中，本公开的实施例对查找表的具体形式不作限制。

例如，通过查找表的方式可以实现神经网络中的预测。

例如，第二音频信号和/或第三音频信号和/或第四音频信号是周期性的或间歇性的时域信号，第二音频信号和/或第三音频信号和/或第四音频信号的信号特征是周期性或间歇性的时域振幅变化，即第二音频信号和/或第三音频信号和/或第四音频信号具有连续重复、间歇重复的特质，具有固定的模式。对于间歇性的音频信号，由于在该间歇性的音频信号的停歇期间不存在音频信号，因此在停歇期间没有频谱特征可供提取，而停歇期间却可以成为该间歇性的音频信号的时域特征之一。

例如，在一些实施例中，步骤S101可以包括：采集初始音频信号；对初始音频信号进行下采样处理(downsampling)以得到第一音频信号。

由于音频采集装置采集得到的初始音频信号的采样率(sample rate)较高，不利于后端的音频信号处理装置(例如，人工智能引擎(AI(Artificial Intelligence)Engine)、数字信号处理器(Digital Signal Processing，简称DSP) 等)的处理，因此，可以对初始音频信号进行下采样处理以实现降频，便于音频信号处理装置处理，例如可以降频至48K赫兹甚至更低。

例如，在另一些实施例中，步骤S101可以包括：采集初始音频信号；对初始音频信号进行滤波处理以得到第一音频信号。

在一些应用场景下，太安静并不安全，因此，还可以通过带宽控制器 (Bandwidthcontroller)进行滤波处理，以针对特定频率范围内的音频信号进行抑制。针对连续性及间歇性的音频信号(例如，敲击或滴水噪音等)，将第一音频信号的有效频宽设定在该需要被抑制的音频信号对应的频率范围，例如，1K～6K赫兹，从而确保使用者还能听到较为重要的声音，例如，当应用在汽车领域时，必须确保驾驶员能够听到喇叭声等，以提升驾驶安全性。

例如，在一些实施例中，滤波处理和下采样处理还可以结合使用，本公开对滤波处理和下采样处理的处理顺序不作限制。例如，在一些实施例中，获取第一音频信号可以包括：采集初始音频信号；对初始音频信号进行滤波处理以得到预定频率范围内的音频信号；对在预定频率范围内的音频信号进行下采样处理以得到第一音频信号；或者，获取第一音频信号可以包括：采集初始音频信号；对初始音频信号进行下采样处理；对下采样处理后的音频信号进行滤波处理以得到第一音频信号。

例如，控制指令可以包括第二音频信号输出的时刻、第四音频信号和指示对第四音频信号进行反相的控制信号等。

例如，在一些实施例中，步骤S11可以包括：基于控制指令，确定第四音频信号和指示对第四音频信号进行反相的控制信号；基于该控制信号，对该第四音频信号进行反相处理，以生成第二音频信号。

例如，在一些实施例中，步骤S12可以包括：基于控制指令，确定输出第二音频信号的第一时刻；在第一时刻输出第二音频信号。

例如，第三音频信号从第二时刻开始出现，第一时刻和第二时刻之间的时间差的绝对值小于时间阈值。需要说明的是，时间阈值可以根据实际情况具体设置，本公开对此不作限制，时间阈值越小，则消音效果越好。

例如，在一些实施例中，第一时刻和第二时刻之间的时间差为0，即第二音频信号的开始输出的时刻和第三音频信号开始出现的时刻相同，在图3 所示的示例中，第二音频信号的开始输出的时刻和第三音频信号开始出现的时刻均为时刻t21。

例如，第一时刻和第二时刻之间的时间差可以根据实际情况设置，例如，可以设置第一时刻和第二时刻以保证第二音频信号和第三音频信号同时被传输至目标对象，从而避免音频信号的传输而导致第二音频信号和第三音频信号不同步的问题，进一步提升消音效果。例如，目标对象可以为人的耳朵、麦克风等。

例如，第二音频信号可以通过扬声器等可以将电信号转换为声音信号进行输出的装置进行输出。

需要说明的是，当音频采集装置没有采集到音频信号，则可以不执行本公开提供的音频处理方法，直到音频采集装置采集到音频信号为止，从而可以节省功耗。

在本公开的实施例中，音频处理方法可以将环境音频信号中的周期性的音频信号(例如，噪声)降低或消除，例如，在图书馆这样的应用场景中，消除旁边建筑工地施工的声音等。这类的场景不需要特别知道想留下来的音频信号，单纯的降低需要消除的环境中的目标待消音声音，而这些目标待消音声音通常具有连续重复、间歇重复的特质，因此可以通过预测方式预测得到。需要说明的是，“目标待消音声音”可以根据实际情况确定，例如，对于图书馆这样的应用场景，当图书馆周围具有建筑工地时，外界环境音频信号可以包括两种音频信号，第一种音频信号可以为工地钻地声，第二种音频信号可以为周围人的讨论声。通常，工地钻地声具有周期性的特点，且通常具有固定的模式，而讨论声大概率不具固定模式，也不具有周期性的特点，此时，目标待消音声音则为工地钻地声，通过本公开的实施例提供的音频处理方法，则可以实现对工地钻地声的预测，从而消除或降低工地钻地声。

本公开的实施例提供的音频处理方法可以应用于汽车驾驶头枕，从而在驾驶员的耳朵附近创造静音区，避免外界非必要的音频信号(例如，发动机噪音、路噪、风噪和胎噪等汽车行驶过程中的噪声信号)对驾驶员产生干扰。又例如，该音频处理方法还可以应用于吹风机、排油烟机、吸尘器、非变频式空调等设备中，以降低这些设备发出的运转声音，使得用户可以待在吵杂的环境，而不受到周围环境噪声的影响。该音频处理方法还可以应用于耳机等，以降低或消除外界声音，使得用户可以更好地接收耳机发出的声音(音乐声或通话声等)。

本公开至少一个实施例还提供一种音频处理装置。图6为本公开至少一个实施例提供的一种音频处理装置的示意性框图。

如图6所示，音频处理装置600包括指令生成模块601、音频生成模块 602和输出模块603。图6所示的音频处理装置600的组件和结构只是示例性的，而非限制性的，根据需要，该音频处理装置600还可以包括其他组件和结构。

指令生成模块601被配置为基于第一音频信号，生成控制指令。指令生成模块601用于执行图2A所示的步骤S10。

音频生成模块602被配置为基于控制指令，生成第二音频信号。音频生成模块602用于执行图2A所示的步骤S11。

输出模块603被配置为输出第二音频信号，以抑制第三音频信号。输出模块603用于执行图2A所示的步骤S12。

关于指令生成模块601所实现的功能的具体说明可以参考上述音频处理方法的实施例中的图2A所示的步骤S10的相关描述，关于音频生成模块602 所实现的功能的具体说明可以参考上述音频处理方法的实施例中的图2A所示的步骤S11的相关描述，关于输出模块603所实现的功能的具体说明可以参考上述音频处理方法的实施例中的图2A所示的步骤S12的相关描述。音频处理装置可以实现与前述音频处理方法相似或相同的技术效果，在此不再赘述。

例如，第一音频信号出现的时间早于第三音频信号出现的时间。

例如，第二音频信号的相位与第三音频信号的相位之和小于相位阈值，在一些实施例中，第二音频信号的相位与第三音频信号的相位相反，从而可以完全抑制第三音频信号。

例如，在一些实施例中，指令生成模块601可以包括音频获取子模块、预测子模块和生成子模块。音频获取子模块被配置为获取第一音频信号；预测子模块被配置为对第一音频信号进行处理以预测得到第四音频信号；生成子模块被配置为基于第四音频信号，生成控制指令。

例如，第二音频信号和/或第三音频信号和/或第四音频信号是周期性的或间歇性的时域信号。

例如，第三音频信号和第四音频信号可以完全相同。

例如，在一些实施例中，预测子模块可以基于神经网络对第一音频信号进行处理以预测得到第四音频信号。例如，预测子模块可以包括图1所示的音频处理部分中的AI引擎和/或数字信号处理器等，AI引擎可以包括神经网络，例如，AI引擎可以包括循环神经网络、长短时记忆网络或生成对抗网络等中的至少一个神经网络。

例如，在一些实施中，预测子模块包括查询单元和预测单元。查询单元被配置为基于第一音频信号生成第一音频特征编码以及基于第一音频特征编码查询查找表，以得到第二音频特征编码。预测单元被配置为基于第二音频特征编码，预测得到第四音频信号。

例如，查询单元可以包括存储器以用于存储查找表。

例如，在一些实施例中，查找表可以包括至少一个第一编码字段。例如，在另一些实施例中，查找表还包括至少一个第二编码字段，多个第一编码字段组成一个第二编码字段。关于查找表的具体内容可以参考上述音频处理方法的实施例中的相关描述，重复之处不再赘述。

例如，第二音频特征编码包括至少一个第一编码字段和/或至少一个第二编码字段。

例如，在一些实施例中，音频获取子模块包括采集单元和下采样处理单元。采集单元被配置为采集初始音频信号；下采样处理单元被配置为对初始音频信号进行下采样处理以得到第一音频信号。

例如，在一些实施例中，音频获取子模块包括采集单元和滤波单元，采集单元被配置为采集初始音频信号；滤波单元被配置为对初始音频信号进行滤波处理以得到第一音频信号。

例如，音频获取子模块可以实现为图1所示的音频接收部分。例如，采集单元可以包括音频采集装置，例如，图1所示的音频接收部分中的麦克风等。例如，采集单元还可以包括放大器、模数转换器等。

例如，在一些实施例中，输出模块603可以包括时刻确定子模块和输出子模块。时刻确定子模块被配置为基于控制指令，确定输出第二音频信号的第一时刻；输出子模块被配置为在第一时刻输出第二音频信号。

例如，输出模块603可以实现为图1所示的音频输出部分。

例如，第三音频信号从第二时刻开始出现，第一时刻和第二时刻之间的时间差的绝对值小于时间阈值。

例如，第一时刻和所述第二时刻之间的时间差可以为0。

例如，输出子模块可以包括扬声器等音频输出装置。例如，输出子模块还可以包括数模转换器等。

例如，指令生成模块601、音频生成模块602和/或输出模块603可以为硬件、软件、固件以及它们的任意可行的组合。例如，指令生成模块601、音频生成模块602和/或输出模块603可以为专用或通用的电路、芯片或装置等，也可以为处理器和存储器的结合。本公开的实施例不对上述各个模块、子模块和单元的具体实现形式进行限制。

本公开至少一个实施例还提供一种音频处理装置，图7为本公开至少一个实施例提供的另一种音频处理装置的示意性框图。

例如，如图7所示，音频处理装置700包括一个或多个存储器701和一个或多个处理器702。一个或多个存储器701被配置为非瞬时性地存储有计算机可执行指令；一个或多个处理器702配置为运行计算机可执行指令。计算机可执行指令被一个或多个处理器702运行时实现根据上述任一实施例所述的音频处理方法。关于该音频处理方法的各个步骤的具体实现以及相关解释内容可以参见上述音频处理方法的实施例的描述，在此不做赘述。

例如，在一些实施例中，音频处理装置700还可以包括通信接口和通信总线。存储器701、处理器702和通信接口可以通过通信总线实现相互通信，存储器701、处理器6702和通信接口等组件之间也可以通过网络连接进行通信。本公开对网络的类型和功能在此不作限制。

例如，通信总线可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

例如，通信接口用于实现音频处理装置700与其他设备之间的通信。通信接口可以为通用串行总线(Universal Serial Bus，USB)接口等。

例如，处理器702和存储器701可以设置在服务器端(或云端)。

例如，处理器702可以控制音频处理装置700中的其它组件以执行期望的功能。处理器702可以是中央处理器(CPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列 (FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。

例如，存储器701可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可执行指令，处理器702可以运行所述计算机可执行指令，以实现音频处理装置700的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。

例如，关于音频处理装置700执行音频处理的过程的详细说明可以参考音频处理方法的实施例中的相关描述，重复之处不再赘述。

例如，在一些实施例中，音频处理装置700可以通过芯片、小型装置/设备等形式呈现。

图8为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如，如图8所示，在非瞬时性计算机可读存储介质1000上可以非暂时性地存储一个或多个计算机可执行指令1001。例如，当计算机可执行指令1001由处理器执行时可以执行根据上文所述的音频处理方法中的一个或多个步骤。

例如，该非瞬时性计算机可读存储介质1000可以应用于上述音频处理装置700中，例如，其可以包括音频处理装置700中的存储器701。

关于非瞬时性计算机可读存储介质1000的说明可以参考图7所示的音频处理装置600的实施例中对于存储器701的描述，重复之处不再赘述。

本公开的至少一个实施例提供一种音频处理方法、音频处理装置和非瞬时性计算机可读存储介质，通过学习当前音频信号的特征，预测得到音频信号(即第四音频信号)，据此预测得到的音频信号产生未来音频信号的反相音频信号以抑制未来音频信号，避免由于输入端和输出端之间的延迟导致的反相音频信号和需要抑制的音频信号不同步的问题，提升消音效果，可大幅降低或甚至消除输入端对输出端的延迟对消音的影响，抑制音频的效果比业界常用的落后式的主动消音系统的抑制音频的效果更好；由于第一音频信号为时域信号，第一音频信号不是特定频率的音频信号，从而本公开的实施例提供的音频处理方法不需要从音频信号中提取频谱特征来产生频谱图，由此可以简化音频信号的处理过程，节省处理时间；在查找表中，低阶的特征编码可以进行组合以得到高阶的特征编码，从而实现更高效且更长时间的预测；并且在该音频处理方法中，还可以通过带宽控制器进行滤波处理，从而实现针对特定频率范围内的音频信号进行抑制，确保使用者还能听到较为重要的声音，例如，当应用在汽车领域时，必须确保驾驶员能够听到喇叭声等，以提升驾驶安全性；此外，当没有采集到音频信号，则可以不执行本公开提供的音频处理方法，直到采集到音频信号为止，从而可以节省功耗。

本公开至少一个实施例提供一种模型训练方法。该模型训练方法包括：基于预测模型，对第一音频信号进行处理以生成第一控制指令；基于第一控制指令，生成与第一控制指令对应的音频信号作为第二音频信号；输出第二音频信号，以抑制第三音频信号，其中，第一音频信号出现的时间早于第三音频信号出现的时间；基于第二音频信号和第三音频信号，确定音频误差信号；响应于音频误差信号不满足误差条件，对预测模型进行调整，基于预测模型再次对第一音频信号进行处理，直到音频误差信号满足误差条件；响应于音频误差信号满足误差条件，保持预测模型不变。

需要说明的是，在下述参照附图的模型训练方法描述中，“第一”、“第二”、“第三”等序数词的限定仅仅是为了区别同一实施例中的多个信号(例如，第一音频信号、第二音频信号、第三音频信号、第四音频信号)，在本公开中，不同实施例中同一序数词限定的信号(例如，上述音频处理方法描述中的“第一音频信号”与模型训练方法中的“第一音频信号”)并不必定相同。

在本公开的实施例提供的模型训练方法中，利用当前音频信号(即，第一音频信号)和未来音频信号(即，第三音频信号)对预测模型进行实时训练，提升预测模型输出的预测结果的准确度，避免基于预测模型输出的预测结果无法实现对未来音频信号进行抑制的问题，提升基于预测模型进行消音的效果。

本公开的实施例还提供一种模型训练装置和非瞬时性计算机可读存储介质。该模型训练方法可应用于本公开实施例提供的模型训练装置，该模型训练装置可被配置于电子设备上。该电子设备可以是个人计算机、移动终端、汽车头枕等，该移动终端可以是手机、耳机、平板电脑等硬件设备。

图9为本公开至少一个实施例提供的一种模型训练系统的示意性框图，图10A为本公开至少一个实施例提供的一种模型训练方法的示意性流程图，图10B为图10A所示的步骤S200的示意性流程图，图10C为图10B所示的步骤S2002的示意性流程图，图11为本公开至少一个实施例提供的一种第一音频信号和第三音频信号的示意图。

在本公开的实施例中，可以采用预先训练的方式和/或现场训练的方式对预测模型进行训练，预先训练的方式表示基于预先得到的训练集中的训练音频样本对预测模型进行训练；现场训练的方式表示基于实际应用场景中采集到音频信号对预测模型进行训练。

图9所示的模型训练系统可以用于实现本公开任一实施例提供的模型训练方法，例如，图10A所示的模型训练方法。图9所示的模型训练系统可以适用于现场训练的方式，也可以适用于预先训练的方式。

如图9所示，模型训练系统可以包括音频获取部分、误差计算部分、预测部分和音频输出部分。音频获取部分可以获取音频信号Sn11，然后将音频信号Sn11传输至预测部分；预测部分对音频信号Sn11进行处理，以预测得到未来音频信号Sn13的反相音频信号Sn12。该反相音频信号Sn12可以通过音频输出部分输出，以抑制未来音频信号Sn13，例如，目标对象Ta(例如，人的耳朵等)可以同时接收到反相音频信号Sn12和未来音频信号Sn13，以使得反相音频信号Sn12和未来音频信号Sn13可以进行破坏性叠加。此时，音频获取部分还可以采集当前应用场景中的音频信号，该采集的音频信号为反相音频信号Sn12与出现时间晚于音频信号Sn11的未来音频信号Sn13进行破坏性叠加之后的叠加结果Sr，例如，当反相音频信号Sn12能够用于完全对未来音频信号Sn13进行消音，那么该叠加结果Sr可能是静音信号，即没有音频信号。然后，音频获取部分可以将该叠加结果Sr传输至误差计算部分；误差计算部分可以基于该叠加结果Sr生成误差音频信号ES。最后，误差计算部分可以将误差音频信号ES传输至预测部分，在误差音频信号不满足条件时，预测部分可以响应误差音频信号对预测模型进行调整，在误差音频信号满足条件时，预测部分可以不对预测模型进行调整，从而使得预测模型保持不变。

在一实施例中，音频获取部分还可以从预测部分获取反相音频信号Sn12 以及采集当前应用场景中的音频信号(即图9所示的叠加结果Sr)。然后，音频获取部分可以将反相音频信号Sn12和该叠加结果Sr传输至误差计算部分；误差计算部分可以基于反相音频信号Sn12和该叠加结果Sr得到未来音频信号Sn13，并且对反相音频信号Sn12和未来音频信号Sn13进行处理，以生成误差音频信号ES。

在一实施例中，对于预先训练的方式，音频获取部分还可以从预测部分获取反相音频信号Sn12，还可以获取出现时间晚于音频信号Sn11的未来音频信号Sn13，然后，并将反相音频信号Sn12和未来音频信号Sn13传输至误差计算部分；误差计算部分可以对反相音频信号Sn12和未来音频信号 Sn13进行处理，以生成误差音频信号ES。

例如，音频获取部分可以包括麦克风、放大器(例如，麦克风放大器)、模数转换器(analog to digital converter，ADC)、下采样器(downsampler) 等，误差计算部分可以包括处理器等；预测部分可以包括AI引擎和/或数字信号处理器(Digital SignalProcessing，DSP)等，音频输出部分可以包括上采样器(Upsampler)、数模转换器(digitalto analog converter，DAC)、放大器(例如，扬声器放大器)以及扬声器等。

如图10A所示，本公开的一个实施例提供的模型训练方法包括步骤S200 至步骤S207。在步骤S200，基于预测模型，对第一音频信号进行处理以生成第一控制指令；在步骤S201，基于第一控制指令，生成与第一控制指令对应的音频信号作为第二音频信号；在步骤S202，输出第二音频信号，以抑制第三音频信号；在步骤S203，基于第二音频信号和第三音频信号，确定音频误差信号；在步骤S204，判断音频误差信号是否满足误差条件；响应于音频误差信号不满足误差条件，对应于图10A的N分支，则执行步骤S205和步骤S207，在步骤S205，对预测模型进行调整，在步骤S207，基于预测模型再次对第一音频信号进行处理，直到音频误差信号满足误差条件；响应于音频误差信号满足误差条件，对应于图10A的Y分支，则执行步骤S206，在步骤S206，保持预测模型不变。

例如，第一音频信号出现的时间早于第三音频信号出现的时间，也就是说，相对于第一音频信号而言，第三音频信号属于未来的音频信号。

例如，第一音频信号可以为图9所示的音频信号Sn11，第二音频信号可以为图9所示的反相音频信号Sn12，第三音频信号可以为图9所示的未来音频信号Sn13。音频获取部分可以获取第一音频信号；预测部分可以基于预测模型对第一音频信号进行处理以生成第一控制指令，并基于第一控制指令生成第二音频信号；然后误差计算部分可以对第二音频信号和第三音频信号进行处理，以得到误差音频信号，预测部分可以基于该误差音频信号确定是否对预测模型进行调整，从而实现对预测模型进行训练。

需要说明的是，在本公开的模型训练方法的实施例中，“第一音频信号”表示由预测模型进行处理以生成第二音频信号的一类音频信号，例如，步骤 S200中的第一音频信号和步骤S207中的第一音频信号可以不相同；“第二音频信号”表示生成的用于抑制未来音频信号的一类音频信号。“第三音频信号”表示需要被抑制的一类音频信号。“第一控制指令”表示预测模型首次对第一音频信号进行处理得到的控制指令。

例如，在一实施例中，可以采用预先训练的方式对预测模型进行训练，训练集中的每个训练音频样本可以包括第一训练音频信号和第二训练音频信号，第一训练音频信号出现的时间早于第二训练音频信号出现的时间，相对于第一训练音频信号，第二训练音频信号为未来的音频信号。在预先训练中，利用训练集对预测模型进行训练直到该预测模型对第一训练音频信号进行处理得到的预测结果与第二训练音频信号相符。训练音频样本中的第一训练音频信号即为上述第一音频信号，训练音频样本中的第二训练音频信号即为上述第三音频信号。

对于预先训练的方式，因为训练集中的训练音频样本中的音频为预先录音得到的，与真实应用场景中的音频可能不会完全相同，训练集中的训练音频样本没办法像真实应用场景中的音频那么真实，由此可能使得当训练得到的预测模型应用到实际应用场景中，出现无法消音的问题。因此，在本公开的实施例中，可以进一步采用现场训练的方式对预测模型进行训练。在现场训练的方式中，一开始需要一段时间进行模型训练，但一段时间后，预测模型的训练结果会越来越佳。由于通过实际应用场景中的音频信号进行现场实时训练，训练出的预测模型的准确性会比利用训练集中的训练音频样本训练得到的预测模型的准确性更高，基于现场训练的方式得到的预测模型可以更加适用于实际应用场景，避免预测模型无法实现对实际应用场景中的音频信号进行抑制的问题，提高预测模型对不同应用场景的适应能力，使得预测模型可以适应不同的应用场景，且在不同的应用场景下预测模型的预测准确度均较高，提高实际应用场景中的消音效果。此外，由于可以基于实际应用场景中的音频信号对预测模型进行训练，可以降低对用于训练预测模型的样本量的需求。

例如，在另一实施例中，可以基于在当前应用场景中实时采集到的音频信号执行图10A所示的模型训练方法。此时，音频获取部分可以采集在当前应用场景中的声音源从当前时刻开始发出的音频信号以得到第一音频信号，音频获取部分可以采集声音源在当前时刻之后的某个时刻开始发出的音频信号作为第三音频信号。例如，如图11所示，在一个实施例中，在当前应用场景中，音频信号A开始出现的时刻为t100且存在的时间段可以为时刻t100 到时刻t101之间的时间段，音频信号B开始出现的时刻为t200且存在的时间段可以为时刻t200到时刻t201之间的时间段，音频信号C开始出现的时刻为t300且存在的时间段可以为时刻t300到时刻t301之间的时间段，音频信号D开始出现的时刻为t400且存在的时间段可以为时刻t400到时刻t401 之间的时间段。在时间轴t上，时刻t101早于时刻t200，时刻t201早于时刻t300，时刻t301早于时刻t400。如图11所示，若当前时刻为t100，音频获取部分可以采集音频信号A以作为第一音频信号，音频获取部分可以采集音频信号B以作为第三音频信号。

需要说明的是，预先训练的方式和现场训练的方式可以结合以实现对预测模型进行训练。例如，可以采用预先训练的方式对预测模型进行预训练，然后在将预训练后的预测模型应用到实际应用场景中，再采用现场训练的方式继续对预测模型进行训练，从而可以节省模型在实际应用场景中的现场训练的时间。

在下面的描述中，除非特别说明，以第一音频信号和第三音频信号为在当前实际应用场景中采集到的音频信号为例进行描述。

例如，第一音频信号和第三音频信号可以为当前实际应用场景中的外界环境、机器等产生的音频信号，机器运转的声音、装修过程的电钻声和电锯声等。例如，机器可以包括家用电器(空调、抽油烟机、洗衣机等)等。

例如，在一些实施例中，第一音频信号可以为第一音频信号存在的时间段内在当前实际应用场景中的最大声量(振幅最大)的时域音频信号，第一音频信号不是特定频率的音频信号，从而本公开的实施例提供的模型训练方法不需要从音频信号中提取频谱特征来产生频谱图，由此可以简化音频信号的处理过程，节省处理时间。

例如，在一些实施例中，如图10B所示，步骤S200可以包括步骤S2001～步骤S2003，在步骤S2001中，获取第一音频信号；在步骤S2002中，基于预测模型对第一音频信号进行处理以预测得到第四音频信号；在步骤S2003 中，基于第四音频信号，生成第一控制指令。在本公开的实施例提供的模型训练方法中，预测模型可以学习当前音频信号(即第一音频信号)的特征，以预测得到音频信号(即第四音频信号)。

例如，第四音频信号是预测得到的未来的音频信号。例如，在时间轴上，第四音频信号存在的时间段落后于第一音频信号存在的时间段。例如，第四音频信号存在的时间段与第三音频信号存在的时间段相同。

例如，在一些实施例中，步骤S2001可以包括：采集初始音频信号；对初始音频信号进行下采样处理以得到第一音频信号。

例如，在另一些实施例中，步骤S2001可以包括：采集初始音频信号；对初始音频信号进行滤波处理以得到第一音频信号。

例如，在一些实施例中，滤波处理和下采样处理还可以结合使用，即可以对初始音频信号进行滤波处理和下采样处理以得到第一音频信号，本公开对滤波处理和下采样处理的处理顺序不作限制。

例如，在一实施例中，预测模型包括查找表，如图10C所示，步骤S2002 可以包括步骤S2012～步骤S2032，在步骤S2012中，基于第一音频信号生成第一音频特征编码；在步骤S2022中，基于第一音频特征编码查询查找表，以得到第二音频特征编码；在步骤S2032中，基于第二音频特征编码，预测得到第四音频信号。

又例如，第一音频信号可以为数字信号，例如，PDM信号，此时，可以直接基于第一音频信号生成第一音频特征编码。PDM信号可以采用二进制数0和1表示。

例如，可以采用任何合适的编码方式实现第一音频特征编码。例如，在一些实施例中，在表示一个音频信号时，可以采用音频信号的变化状态来描述该音频信号，可以采用多比特来表示一个音频信号的变化状态。例如，可以采用两比特表示音频信号的变化状态，关于采用两比特表示音频信号的变化状态的相关描述可以参考上面音频处理方法的实施例中的相关描述，重复之处不再赘述。

例如，在一些实施例中，查找表(codebook)包括至少一个第一编码字段。例如，在另一些实施例中，查找表还包括至少一个第二编码字段，多个第一编码字段组成一个第二编码字段，从而可以实现从低级特征组合而形成降维的高阶特征。例如，第二音频特征编码包括至少一个第一编码字段和/或至少一个第二编码字段。

例如，在一些实施例中，第二音频特征编码可以包括完整的一个或多个第二编码字段，或者，第二音频特征编码可以包括一个第二编码字段中的部分第一编码字段。

需要说明的是，关于查找表的具体说明可以参考上面关于音频处理方法的实施例中的相关描述，重复之处不再赘述。

例如，在一实施例中，预测模型包括神经网络，在步骤S2002中，可以通过神经网络对第一音频信号进行处理以预测得到第四音频信号。例如，神经网络可以包括循环神经网络、长短时记忆网络或生成对抗网络等。

例如，通过查找表的方式可以实现神经网络中的预测。

例如，第一控制指令可以包括第二音频信号输出的时刻、第四音频信号和指示对第四音频信号进行反相的控制信号等。

例如，步骤S201可以包括：基于第一控制指令，确定第四音频信号和指示对第四音频信号进行反相的控制信号；基于该控制信号，对该第四音频信号进行反相处理，以生成第二音频信号。

例如，第二音频信号的相位与第四音频信号的相位相反。

例如，在步骤S202中，第二音频信号可以被输出至音频获取部分，音频获取部分可以将第二音频信号传输至误差计算部分以供误差计算部分进行计算。

例如，在步骤S202中，第二音频信号还可以被输出至音频输出部分，音频输出部分可以输出该第二音频信号，从而可以对第三音频信号进行抑制，此时，音频获取部分可以采集第二音频信号和第三音频信号进行叠加之后的叠加结果，并将该叠加结果传输至误差计算部分进行计算。

例如，输出与第一控制指令对应的音频信号(即第二音频信号)的时刻和第三音频信号开始出现的时刻之间的时间差的绝对值小于时间阈值，在一个实施例中，输出与第一控制指令对应的音频信号的时刻和第三音频信号开始出现的时刻之间的时间差可以为0。输出与第一控制指令对应的音频信号的时刻可以基于第一控制指令确定。

需要说明的是，时间阈值可以根据实际情况具体设置，本公开对此不作限制，时间阈值越小，则训练得到的预测模型所实现的消音效果越好。

例如，在一实施例中，步骤S203可以包括：计算第二音频信号和第三音频信号之间的均方根误差，以得到音频误差信号。例如，在一实施例中，在执行计算第二音频信号和第三音频信号之间的均方根误差之前，对于预先训练的方式，可以首先通过音频获取部分获取第二音频信号和第三音频信号，然后将该第二音频信号和第三音频信号传输至误差计算部分以进行计算；对于现场训练的方式，首先，可以通过音频获取部分获取第二音频信号，并通过音频获取部分采集第二音频信号与第三音频信号进行破坏性叠加之后的叠加结果；然后，音频获取部分可以将第二音频信号和该叠加结果传输至误差计算部分；然后，误差计算部分可以基于第二音频信号和该叠加结果得到第三音频信号，并对该第二音频信号和第三音频信号进行计算。

图12A为本公开至少一个实施例提供的一种音频误差信号与训练迭代次数之间的示意图。如图12A所示，音频误差信号为第二音频信号和第三音频信号之间的均方根误差，在对预测模型进行迭代训练大约100次之后，第二音频信号和第三音频信号之间的均方根误差降低到接近0。

例如，在一实施例中，预测模型包括神经网络，此时，由于第二音频信号是基于预测的第四音频信号确定的，从而可以将第二音频信号作为神经网络对应的输出，利用神经网络的输出(体现为第二音频信号)和第一音频信号对应的标签数据groudtruth(体现为第三音频信号)构建神经网络的损失函数并基于该损失函数计算损失值。此时，步骤S203可以包括：基于第二音频信号和第三音频信号，通过神经网络的损失函数计算损失值。音频误差信号包括损失值。

图12B为本公开至少一个实施例提供的另一种音频误差信号与训练迭代次数之间的示意图。如图12B所示，音频误差信号为通过神经网络的损失函数计算得到的损失值，在对预测模型进行迭代训练大约50次之后损失值降低为接近0。

例如，当第二音频信号对第三音频信号的抑制效果越好，则音频误差信号越小。当第二音频信号的相位与第三音频信号的相位相反，则可以实现完全消音，此时，音频误差信号可以为最小，例如，为0。

例如，在步骤S204中，判断音频误差信号是否满足误差条件，当音频误差信号满足误差条件，其表示基于第二音频信号可以较好地实现对第三音频信号的抑制，从而实现消音，此时，预测模型的预测效果较好，从而可以保持预测模型不变；当音频误差信号不满足误差条件，其表示基于第二音频信号可能无法实现对第三音频信号的抑制，甚至由于第二音频信号的产生导致当前环境中的音频信号更大，此时，预测模型的预测效果较差，需要对预测模型进行调整。

例如，在一实施例中，预测模型包括神经网络，响应于音频误差信号不满足误差条件，在步骤S205中，对预测模型进行调整包括：响应于损失值不满足误差条件，利用损失值对神经网络的参数进行调整。基于预测模型再次对第一音频信号进行处理，包括：响应于音频误差信号不满足误差条件，基于神经网络，再次对第一音频信号进行处理以生成第二控制指令；基于第二控制指令，生成并输出与第二控制指令对应的音频信号作为第二音频信号。

例如，可以基于进行参数调整之后的神经网络再次对第一音频信号进行处理以生成第二控制指令。

例如，在另一实施例中，预测模型包括查找表，响应于音频误差信号不满足误差条件，在步骤S205中，对预测模型进行调整包括：响应于音频误差信号不满足误差条件，基于第一音频信号和第三音频信号生成音频特征编码；基于音频特征编码调整查找表。基于预测模型再次对第一音频信号进行处理，包括：响应于音频误差信号不满足误差条件，基于查找表，再次对第一音频信号进行处理以生成第二控制指令；基于第二控制指令，生成并输出与第二控制指令对应的音频信号作为第二音频信号。

例如，第二控制指令与第一控制指令不相同。

需要说明的是，在本公开的模型训练方法的实施例中，“第二控制指令”表示对预测模型进行重复迭代训练时得到的控制指令。

例如，当基于第二音频信号(基于第一音频信号(图11所示的音频信号A)生成的第一控制指令对应的音频信号)和第三音频信号(图11所示的音频信号B)确定的音频误差信号不满足误差条件，则可以基于第一音频信号(图11所示的音频信号A)和第三音频信号(图11所示的音频信号B) 生成音频特征编码F，然后基于音频特征编码F调整查找表。

例如，基于音频特征编码F调整查找表可以包括：将音频特征编码F与查找表中的所有编码字段进行比较，当音频特征编码F与查找表中的任一编码字段均不相同，则将音频特征编码F加入查找表中以更新查找表，以得到更新后的查找表；当音频特征编码F与查找表中的某个编码字段相同，则保持查找表不变，即不对查找表进行更新。例如，在一实施例中，调整前的查找表可以包括编码字段A、编码字段B和编码字段C，若音频特征编码F与编码字段A、编码字段B和编码字段C中的任一个均不同，此时，调整后的查找表可以包括编码字段A、编码字段B、编码字段C和音频特征编码F；当音频特征编码F与编码字段A相同，此时，保持查找表不变，调整后的查找表和调整前的查找表相同，即调整后的查找表可以包括编码字段A、编码字段B和编码字段C。

例如，在一实施例中，可以基于更新前的查找表，再次对第一音频信号进行处理以生成第二控制指令；在另一实施例中，可以基于更新后的查找表，再次对第一音频信号进行处理以生成第二控制指令。

需要说明的是，在将音频特征编码F加入查找表之前，当查找表中的编码字段的数量达到最大值，即查找表的存储空间已满，则可以从查找表中选择使用频率低于频率阈值的一个编码字段，并将该编码字段删除，然后，再将音频特征编码F加入查找表以更新查找表，从而避免无法存储音频特征编码F的问题，还可以避免查找表所需的存储空间过大。

例如，误差条件可以根据实际情况设置。

下面基于预先训练和现场训练的一个示例简单描述本公开的实施例提供的模型训练方法的整体流程。

在预先训练的一个示例中，首先，可以通过例如音频获取部分从训练集中获取第一个训练音频样本，基于第一个训练音频样本对预测模型执行一次训练过程(包括步骤S200～S206)，在该训练过程中，该第一个训练音频样本中的第一训练音频信号作为第一音频信号，该第一个训练音频样本中的第二训练音频信号作为第三音频信号，在步骤S204中，当该训练过程中的音频误差信号满足误差条件，则执行步骤S206，即保持预测模型不变；当该训练过程中的音频误差信号不满足误差条件，则执行步骤S205和步骤S207，在步骤S205中，对预测模型进行调整，然后在步骤S207中，可以通过音频获取部分从训练集中获取第二个训练音频样本，基于第二个训练音频样本对预测模型执行下一次训练过程(重复执行步骤S200～S206)，在该下一次训练过程中，该第二个训练音频样本中的第一训练音频信号作为第一音频信号，该第二个训练音频样本中的第二训练音频信号作为第三音频信号。以此类推，在预先训练中，对预测模型进行迭代训练。

例如，第一个训练音频样本和第二个训练音频样本可以为同一个训练音频样本，也就是说，可以利用同一个训练音频样本对预测模型进行多次迭代训练，此时，步骤S200中的第一音频信号和步骤S207中的第一音频信号相同；第一个训练音频样本和第二个训练音频样本也可以为不同的训练音频样本，此时，步骤S200中的第一音频信号和步骤S207中的第一音频信号不相同。

需要说明的是，在预先训练的方式中，当执行到步骤S206时，该模型训练方法还可以包括：查看训练集是否包括没有用于对预测模型进行训练的训练音频样本，当训练集包括尚未用于对预测模型进行训练的训练音频样本，则获取尚未用于对预测模型进行训练的训练音频样本以对预测模型进行训练，直到训练集中的所有训练音频样本均用于对预测模型进行训练。

在现场训练的一个示例中，如图11所示，若当前时刻为t100，可以通过例如音频获取部分采集音频信号A以作为第一音频信号以对预测模型执行一次训练过程，在该训练过程中的步骤S200～S201中，基于第一音频信号 (即音频信号A)生成第二音频信号；在该训练过程的步骤S202中，可以通过音频获取部分采集音频信号B以作为与第一音频信号(即音频信号A) 对应的第三音频信号；在步骤S203中，确定基于第一音频信号(即音频信号A)得到的第二音频信号和第三音频信号(即音频信号B)之间的音频误差信号；在该训练过程的步骤S204中，当基于第一音频信号(即音频信号 A)得到的第二音频信号和第三音频信号(即音频信号B)之间的音频误差信号满足误差条件，则执行步骤S206，即保持预测模型不变；当基于第一音频信号(即音频信号A)得到的第二音频信号和第三音频信号(即音频信号B)之间的音频误差信号不满足误差条件，则执行步骤S205，对预测模型进行调整；然后执行步骤S207，在执行步骤S207时，时刻t201已经过去，音频获取部分需要再次采集当前时刻(晚于时刻t201)开始出现的音频信号作为第一音频信号，如图11所示，若当前时刻变为时刻t300，则在步骤S207 中，音频获取部分可以采集音频信号C以作为第一音频信号对预测模型执行下一次训练过程(重复执行步骤S200～S206)，在该下一次训练过程中，音频获取部分采集音频信号D以作为与第一音频信号(即音频信号C)对应的第三音频信号。以此类推，在现场训练中，对预测模型进行迭代训练。

本公开至少一个实施例还提供一种模型训练装置。图13为本公开至少一个实施例提供的一种模型训练装置的示意性框图。

如图13所示，模型训练装置1300包括指令生成模块1301、音频生成模块1302、输出模块1303、误差计算模块1304和调整模块1305。图13所示的模型训练装置1300的组件和结构只是示例性的，而非限制性的，根据需要，该模型训练装置1300还可以包括其他组件和结构。

指令生成模块1301被配置为基于预测模型，对第一音频信号进行处理以生成第一控制指令。指令生成模块1301用于执行图10A所示的步骤S200。

音频生成模块1302被配置为基于第一控制指令，生成与第一控制指令对应的音频信号作为第二音频信号。音频生成模块1302用于执行图10A所示的步骤S201。

输出模块1303被配置为输出第二音频信号，以抑制第三音频信号。输出模块1303用于执行图10A所示的步骤S202。例如，第一音频信号出现的时间早于第三音频信号出现的时间。

误差计算模块1304被配置为基于第二音频信号和第三音频信号，确定音频误差信号。误差计算模块1304用于执行图10A所示的步骤S203。

调整模块1305被配置为响应于音频误差信号不满足误差条件，对预测模型进行调整；响应于音频误差信号满足误差条件，保持预测模型不变。调整模块1305用于执行图10A所示的步骤S205～步骤S206。调整模块1305 还被配置为判断音频误差信号是否满足误差条件，即调整模块1305还用于执行图10A所示的步骤S204。

指令生成模块1301还被配置为响应于音频误差信号不满足误差条件，基于预测模型再次对第一音频信号进行处理，直到音频误差信号满足误差条件。指令生成模块1301还用于执行图10A所示的步骤S207。

关于指令生成模块1301所实现的功能的具体说明可以参考上述模型训练方法的实施例中的图10A所示的步骤S200和步骤S207的相关描述，关于音频生成模块1302所实现的功能的具体说明可以参考上述模型训练方法的实施例中的图10A所示的步骤S201的相关描述，关于输出模块1303所实现的功能的具体说明可以参考上述模型训练方法的实施例中的图10A所示的步骤S202的相关描述，关于误差计算模块1404所实现的功能的具体说明可以参考上述模型训练方法的实施例中的图10A所示的步骤S203的相关描述，关于调整模块1305所实现的功能的具体说明可以参考上述模型训练方法的实施例中的图10A所示的步骤S204～S206的相关描述。模型训练装置可以实现与前述模型训练方法相似或相同的技术效果，在此不再赘述。

例如，在一些实施例中，指令生成模块1301包括音频获取子模块、预测子模块和生成子模块。音频获取子模块被配置为获取第一音频信号；预测子模块被配置为基于预测模型对第一音频信号进行处理以预测得到第四音频信号；生成子模块被配置为基于第四音频信号，生成第一控制指令。

例如，音频获取子模块可以实现为图9所示的音频获取部分。

例如，在一些实施例中，预测模型包括神经网络，预测子模块可以基于神经网络对第一音频信号进行处理以预测得到第四音频信号。例如，预测子模块可以包括图9所示的预测部分中的AI引擎和/或数字信号处理器等，AI 引擎可以包括神经网络。

例如，在一些实施例中，预测模型包括查找表，预测子模块包括查询单元和预测单元，查询单元被配置为基于第一音频信号生成第一音频特征编码；基于第一音频特征编码查询查找表，以得到第二音频特征编码；预测单元被配置为基于第二音频特征编码，预测得到第四音频信号。

例如，查询单元可以包括存储器以用于存储查找表。

例如，第二音频信号的相位与第四音频信号的相位相反。

例如，输出模块1303输出与第一控制指令对应的音频信号(即第二音频信号)的时刻和第三音频信号开始出现的时刻之间的时间差的绝对值小于时间阈值。

例如，输出模块1303可以实现为图9所示的音频输出部分。例如，输出模块1303可以包括扬声器等音频输出装置，还可以包括数模转换器等。

例如，在一些实施例中，预测模型包括神经网络，在执行基于第二音频信号和第三音频信号，确定音频误差信号的操作时，误差计算模块1304被配置为基于第二音频信号和第三音频信号，通过神经网络的损失函数计算损失值。音频误差信号包括损失值。在执行响应于音频误差信号不满足误差条件，对预测模型进行调整的操作时，调整模块1305被配置为：响应于损失值不满足误差条件，利用损失值对神经网络的参数进行调整。在执行基于预测模型再次对第一音频信号进行处理的操作时，指令生成模块1301被配置为：响应于音频误差信号不满足误差条件，基于神经网络，再次对第一音频信号进行处理以生成第二控制指令。第二控制指令与第一控制指令不相同。音频生成模块1302还被配置为基于第二控制指令，生成并输出与第二控制指令对应的音频信号作为第二音频信号。

例如，在一些实施例中，预测模型包括查找表，调整模块1305包括特征编码生成子模块和查找表调整子模块，特征编码生成子模块被配置为：响应于音频误差信号不满足误差条件，基于第一音频信号和第三音频信号生成音频特征编码；查找表调整子模块被配置为基于音频特征编码调整查找表。

例如，在一些实施例中，预测模型包括查找表，在执行基于预测模型再次对第一音频信号进行处理的操作时，指令生成模块1301被配置为：响应于音频误差信号不满足误差条件，基于查找表，再次对第一音频信号进行处理以生成第二控制指令。第二控制指令与第一控制指令不相同。音频生成模块1302还被配置为基于第二控制指令，生成并输出与第二控制指令对应的音频信号作为第二音频信号。

例如，在执行基于第二音频信号和第三音频信号，确定音频误差信号的操作时，误差计算模块1304被配置为：计算第二音频信号和第三音频信号之间的均方根误差，以得到音频误差信号。

例如，指令生成模块1301、音频生成模块1302、输出模块1303、误差计算模块1304和/或调整模块1305可以为硬件、软件、固件以及它们的任意可行的组合。例如，指令生成模块1301、音频生成模块1302、输出模块1303、误差计算模块1304和/或调整模块1305可以为专用或通用的电路、芯片或装置等，也可以为处理器和存储器的结合。本公开的实施例不对上述各个模块、子模块和单元的具体实现形式进行限制。

本公开至少一个实施例还提供一种模型训练装置，图14为本公开至少一个实施例提供的另一种模型训练装置的示意性框图。

例如，如图14所示，模型训练装置1400包括一个或多个存储器1401 和一个或多个处理器1402。一个或多个存储器1401被配置为非瞬时性地存储有计算机可执行指令；一个或多个处理器1402配置为运行计算机可执行指令。计算机可执行指令被一个或多个处理器1402运行时实现根据上述任一实施例所述的模型训练方法。关于该模型训练方法的各个步骤的具体实现以及相关解释内容可以参见上述模型训练方法的实施例的描述，在此不做赘述。

例如，在一些实施例中，模型训练装置1400还可以包括通信接口和通信总线。存储器1401、处理器1402和通信接口可以通过通信总线实现相互通信，存储器1401、处理器1402和通信接口等组件之间也可以通过网络连接进行通信。本公开对网络的类型和功能在此不作限制。

例如，通信接口用于实现模型训练装置1400与其他设备之间的通信。通信接口可以为通用串行总线(Universal Serial Bus，USB)接口等。

例如，处理器1402和存储器1401可以设置在服务器端(或云端)。

例如，处理器1402可以控制模型训练装置1400中的其它组件以执行期望的功能。处理器1402可以是中央处理器(CPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。

例如，存储器1401可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机可执行指令，处理器1402可以运行计算机可执行指令，以实现模型训练装置1400的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。

例如，关于模型训练装置1400执行模型训练的过程的详细说明可以参考模型训练方法的实施例中的相关描述，重复之处不再赘述。

图15为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如，如图15所示，在非瞬时性计算机可读存储介质2000上可以非暂时性地存储一个或多个计算机可执行指令2001。例如，当计算机可执行指令2001由处理器执行时可以执行根据上文所述的模型训练方法中的一个或多个步骤。

例如，该非瞬时性计算机可读存储介质2000可以应用于上述模型训练装置1400中，例如，其可以包括模型训练装置1400中的存储器1401。

关于非瞬时性计算机可读存储介质2000的说明可以参考图14所示的模型训练装置1400的实施例中对于存储器1401的描述，重复之处不再赘述。

本公开的至少一个实施例提供一种模型训练方法、模型训练装置和非瞬时性计算机可读存储介质，利用当前音频信号(即，第一音频信号)和未来音频信号(即，第三音频信号)对预测模型进行实时训练，提升预测模型输出的预测结果的准确度，避免基于预测模型输出的预测结果无法实现对未来音频信号进行抑制的问题，提升基于预测模型进行消音的效果；此外，可以通过当前实际应用场景中的音频信号进行现场实时训练，训练出的预测模型的准确性会比利用训练集中的训练音频样本训练得到的预测模型的准确性更高，基于现场训练的方式得到的预测模型可以更加适用于实际应用场景，避免预测模型无法实现对实际应用场景中的音频信号进行抑制的问题，提高预测模型对不同应用场景的适应能力，使得预测模型可以适应不同的应用场景，且在不同的应用场景下预测模型的预测准确度均较高，提高实际应用场景中的消音效果；由于可以基于实际应用场景中的音频信号对预测模型进行训练，可以降低对用于训练预测模型的样本量的需求；由于第一音频信号为时域信号，第一音频信号不是特定频率的音频信号，从而本公开的实施例提供的模型训练方法不需要从音频信号中提取频谱特征来产生频谱图，由此可以简化音频信号的处理过程，节省处理时间；在将音频特征编码F加入查找表之前，从查找表中选择使用频率低于频率阈值的一个编码字段，并将该编码字段删除，然后，再将音频特征编码F加入查找表以更新查找表，从而避免无法存储音频特征编码F的问题，还可以避免查找表所需的存储空间过大。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种模型训练方法，包括：

基于预测模型，对第一音频信号进行处理以生成第一控制指令；

基于所述第一控制指令，生成与所述第一控制指令对应的音频信号作为第二音频信号；

输出所述第二音频信号，以抑制第三音频信号，其中，所述第一音频信号出现的时间早于所述第三音频信号出现的时间；

基于所述第二音频信号和所述第三音频信号，确定音频误差信号；

响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整，基于所述预测模型再次对所述第一音频信号进行处理，直到所述音频误差信号满足所述误差条件；

响应于所述音频误差信号满足所述误差条件，保持所述预测模型不变。

2.根据权利要求1所述的模型训练方法，其中，所述预测模型包括神经网络，

所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号，包括：基于所述第二音频信号和所述第三音频信号，通过所述神经网络的损失函数计算损失值，

其中，所述音频误差信号包括所述损失值。

3.根据权利要求2所述的模型训练方法，其中，所述响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整，包括：

响应于所述损失值不满足所述误差条件，利用所述损失值对所述神经网络的参数进行调整。

4.根据权利要求3所述的模型训练方法，其中，所述基于所述预测模型再次对所述第一音频信号进行处理，包括：

响应于所述音频误差信号不满足所述误差条件，基于所述神经网络，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；

基于所述第二控制指令，生成并输出与所述第二控制指令对应的音频信号作为所述第二音频信号。

5.根据权利要求1所述的模型训练方法，其中，所述预测模型包括查找表，

所述响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整，包括：

响应于所述音频误差信号不满足所述误差条件，基于所述第一音频信号和所述第三音频信号生成音频特征编码；

基于所述音频特征编码调整所述查找表。

6.根据权利要求1所述的模型训练方法，其中，所述预测模型包括查找表，

所述基于所述预测模型再次对所述第一音频信号进行处理，包括：

响应于所述音频误差信号不满足所述误差条件，基于所述查找表，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；

7.根据权利要求1～6任一项所述的模型训练方法，其中，所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号，包括：

计算所述第二音频信号和所述第三音频信号之间的均方根误差，以得到所述音频误差信号。

8.根据权利要求1～6任一项所述的模型训练方法，其中，所述基于预测模型，对第一音频信号进行处理以生成第一控制指令，包括：

获取所述第一音频信号；

基于所述预测模型对所述第一音频信号进行处理以预测得到第四音频信号；

基于所述第四音频信号，生成所述第一控制指令。

9.根据权利要求8所述的模型训练方法，其中，所述预测模型包括查找表，

所述基于所述预测模型对所述第一音频信号进行处理以预测得到第四音频信号，包括：

基于所述第一音频信号生成第一音频特征编码；

基于所述第一音频特征编码查询所述查找表，以得到第二音频特征编码；

基于所述第二音频特征编码，预测得到所述第四音频信号。

10.根据权利要求8所述的模型训练方法，其中，所述第二音频信号的相位与所述第四音频信号的相位相反。

11.根据权利要求1～6任一项所述的模型训练方法，其中，输出与所述第一控制指令对应的音频信号的时刻和所述第三音频信号开始出现的时刻之间的时间差的绝对值小于时间阈值。

12.一种模型训练装置，包括：

指令生成模块，被配置为基于预测模型，对第一音频信号进行处理以生成第一控制指令；

音频生成模块，被配置为基于所述第一控制指令，生成与所述第一控制指令对应的音频信号作为第二音频信号；

输出模块，被配置为输出所述第二音频信号，以抑制第三音频信号，其中，所述第一音频信号出现的时间早于所述第三音频信号出现的时间；

误差计算模块，被配置为基于所述第二音频信号和所述第三音频信号，确定音频误差信号；

调整模块，被配置为响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整；响应于所述音频误差信号满足所述误差条件，保持所述预测模型不变；

其中，所述指令生成模块还被配置为响应于所述音频误差信号不满足误差条件，基于所述预测模型再次对所述第一音频信号进行处理，直到所述音频误差信号满足所述误差条件。

13.根据权利要求12所述的模型训练装置，其中，所述预测模型包括神经网络，

在执行所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号的操作时，所述误差计算模块被配置为基于所述第二音频信号和所述第三音频信号，通过所述神经网络的损失函数计算损失值，

其中，所述音频误差信号包括所述损失值。

14.根据权利要求13所述的模型训练装置，其中，在执行所述响应于所述音频误差信号不满足误差条件，对所述预测模型进行调整的操作时，所述调整模块被配置为：响应于所述损失值不满足所述误差条件，利用所述损失值对所述神经网络的参数进行调整。

15.根据权利要求14所述的模型训练装置，其中，在执行所述基于所述预测模型再次对所述第一音频信号进行处理的操作时，所述指令生成模块被配置为：响应于所述音频误差信号不满足所述误差条件，基于所述神经网络，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；

所述音频生成模块还被配置为基于所述第二控制指令，生成并输出与所述第二控制指令对应的音频信号作为所述第二音频信号。

16.根据权利要求12所述的模型训练装置，其中，所述预测模型包括查找表，所述调整模块包括特征编码生成子模块和查找表调整子模块，

所述特征编码生成子模块被配置为：响应于所述音频误差信号不满足所述误差条件，基于所述第一音频信号和所述第三音频信号生成音频特征编码；

所述查找表调整子模块被配置为基于所述音频特征编码调整所述查找表。

17.根据权利要求12所述的模型训练装置，其中，所述预测模型包括查找表，在执行所述基于所述预测模型再次对所述第一音频信号进行处理的操作时，所述指令生成模块被配置为：响应于所述音频误差信号不满足所述误差条件，基于所述查找表，再次对所述第一音频信号进行处理以生成第二控制指令，其中，所述第二控制指令与所述第一控制指令不相同；

18.根据权利要求12～17任一项所述的模型训练装置，其中，在执行所述基于所述第二音频信号和所述第三音频信号，确定音频误差信号的操作时，所述误差计算模块被配置为：计算所述第二音频信号和所述第三音频信号之间的均方根误差，以得到所述音频误差信号。

19.根据权利要求12～17任一项所述的模型训练装置，其中，所述指令生成模块包括音频获取子模块、预测子模块和生成子模块，

所述音频获取子模块被配置为获取所述第一音频信号；

所述预测子模块被配置为基于所述预测模型对所述第一音频信号进行处理以预测得到第四音频信号；

所述生成子模块被配置为基于所述第四音频信号，生成所述第一控制指令。

20.根据权利要求19所述的模型训练装置，其中，所述预测模型包括查找表，所述预测子模块包括查询单元和预测单元，

所述查询单元被配置为基于所述第一音频信号生成第一音频特征编码；基于所述第一音频特征编码查询所述查找表，以得到第二音频特征编码；

所述预测单元被配置为基于所述第二音频特征编码，预测得到所述第四音频信号。

21.根据权利要求19所述的模型训练装置，其中，所述第二音频信号的相位与所述第四音频信号的相位相反。

22.根据权利要求12～17任一项所述的模型训练装置，其中，输出与所述第一控制指令对应的音频信号的时刻和所述第三音频信号开始出现的时刻之间的时间差的绝对值小于时间阈值。

23.一种模型训练装置，包括：

一个或多个存储器，非瞬时性地存储有计算机可执行指令；

一个或多个处理器，配置为运行所述计算机可执行指令，

其中，所述计算机可执行指令被所述一个或多个处理器运行时实现根据权利要求1～11任一项所述的模型训练方法。

24.一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据权利要求1～11任一项所述的模型训练方法。