CN115294952A

CN115294952A - 音频处理方法及装置、非瞬时性计算机可读存储介质

Info

Publication number: CN115294952A
Application number: CN202210931490.1A
Authority: CN
Inventors: 林功艺
Original assignee: Egis Technology Inc
Current assignee: Egis Technology Inc
Priority date: 2022-05-23
Filing date: 2022-08-04
Publication date: 2022-11-04
Also published as: WO2023226193A1; WO2023226234A1; TW202347318A; TW202347319A; TWI837756B

Abstract

一种音频处理方法、音频处理装置和非瞬时性计算机可读存储介质。该音频处理方法包括：基于第一音频信号，生成控制指令；基于控制指令，生成第二音频信号；输出第二音频信号，以抑制第三音频信号。第二音频信号的相位与第三音频信号的相位之和小于相位阈值，第一音频信号出现的时间早于第三音频信号出现的时间。

Description

音频处理方法及装置、非瞬时性计算机可读存储介质

本申请要求于2022年05月23日递交的美国临时专利申请第63/344,642号、于2022年06月13日递交的美国临时专利申请第63/351,439号以及于2022年06月14日递交的美国临时专利申请第63/352,213号的优先权，在此全文引用上述美国临时专利申请的内容以作为本申请的一部分。

技术领域

本公开的实施例涉及一种音频处理方法、音频处理装置和非瞬时性计算机可读存储介质。

背景技术

目前，降噪方法主要包括主动式降噪和被动式降噪。主动式降噪是通过降噪系统产生与外界噪音相等的反相信号以将噪音中和，从而实现降噪的效果。被动式降噪主要通过在对象周围形成封闭空间或者采用隔音材料来阻挡外界噪声，从而实现降噪的效果。

主动式降噪通常采用落后的反相音频跟原本收到的音频(例如，噪声)进行破坏性迭加以达到抑制音频的效果。一种主动式降噪的消音流程如下：首先，通过麦克风接收声音源产生的音频Vn，并将接收的音频Vn发送到处理器，然后，处理器对音频Vn进行反相处理以生成反相音频Vn’并输出该反相音频Vn’至扬声器，扬声器发出该反相音频Vn’。人的耳朵可以接收反相音频Vn’和音频Vn，并且反相音频Vn’与音频Vn可以进行破坏性迭加从而达到抑制音频的效果。在该主动式降噪中，由于信号处理和信号传输等需要花费时间，扬声器输出的反相音频Vn’的时间必然是落后于麦克风原本收到的音频Vn的时间，由此，人的耳朵接收到反相音频Vn’的时间也必然落后于人的耳朵接收到音频Vn的时间，消音效果较差，甚至可能无法实现消音。输入端(即麦克风)到输出端(即扬声器)必然有延迟，输入端对输出端的延迟越低，则人的耳朵接收到反相音频Vn’和接收到音频Vn之间的时间差越小，消音效果越好。因此，主动式降噪对于端对端延迟要求极其严苛，使得该主动消音系统的架构必须使用高速的模拟数字转换器以及高速运算硬件等，才能达到低延迟，实现较好的抑制音频的效果，从而导致其开发成本过高且架构较无弹性。因此，如何避免端对端延迟对主动式降噪的影响，如何实现更好的抑制音频的效果等成为需要解决的问题。

发明内容

针对上述问题，本公开至少一个实施例提供一种音频处理方法，包括：基于第一音频信号，生成控制指令；基于所述控制指令，生成第二音频信号；输出所述第二音频信号，以抑制第三音频信号，其中，所述第二音频信号的相位与所述第三音频信号的相位之和小于相位阈值，所述第一音频信号出现的时间早于所述第三音频信号出现的时间。

例如，在本公开至少一个实施例提供的音频处理方法中，所述输出所述第二音频信号，以抑制第三音频信号，包括：基于所述控制指令，确定输出所述第二音频信号的第一时刻；在所述第一时刻输出所述第二音频信号，其中，所述第三音频信号从第二时刻开始出现，所述第一时刻和所述第二时刻之间的时间差的绝对值小于时间阈值。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第一时刻和所述第二时刻之间的时间差为0。

例如，在本公开至少一个实施例提供的音频处理方法中，所述基于第一音频信号，生成控制指令，包括：获取所述第一音频信号；对所述第一音频信号进行处理以预测得到第四音频信号；基于所述第四音频信号，生成所述控制指令。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第二音频信号和/或所述第三音频信号和/或所述第四音频信号是周期性的或间歇性的时域信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述对所述第一音频信号进行处理以预测得到第四音频信号，包括：基于所述第一音频信号生成第一音频特征编码；基于所述第一音频特征编码查询查找表，以得到第二音频特征编码；基于所述第二音频特征编码，预测得到所述第四音频信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述查找表包括至少一个第一编码字段。

例如，在本公开至少一个实施例提供的音频处理方法中，所述查找表还包括至少一个第二编码字段，多个所述第一编码字段组成一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第二音频特征编码包括至少一个所述第一编码字段和/或至少一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理方法中，所述获取所述第一音频信号，包括：采集初始音频信号；对所述初始音频信号进行下采样处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述获取所述第一音频信号，包括：采集初始音频信号；对所述初始音频信号进行滤波处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理方法中，所述第二音频信号的相位与所述第三音频信号的相位相反。

本公开至少一个实施例还提供一种音频处理装置，包括：指令生成模块，被配置为基于第一音频信号，生成控制指令；音频生成模块，被配置为基于所述控制指令，生成第二音频信号；输出模块，被配置为输出所述第二音频信号，以抑制第三音频信号；其中，所述第二音频信号的相位与所述第三音频信号的相位之和小于相位阈值，所述第一音频信号出现的时间早于所述第三音频信号出现的时间。

例如，在本公开至少一个实施例提供的音频处理装置中，所述输出模块包括时刻确定子模块和输出子模块，所述时刻确定子模块被配置为基于所述控制指令，确定输出所述第二音频信号的第一时刻；所述输出子模块被配置为在所述第一时刻输出所述第二音频信号，其中，所述第三音频信号从第二时刻开始出现，所述第一时刻和所述第二时刻之间的时间差的绝对值小于时间阈值。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第一时刻和所述第二时刻之间的时间差为0。

例如，在本公开至少一个实施例提供的音频处理装置中，所述指令生成模块包括音频获取子模块、预测子模块和生成子模块，所述音频获取子模块被配置为获取所述第一音频信号；所述预测子模块被配置为对所述第一音频信号进行处理以预测得到第四音频信号；所述生成子模块被配置为基于所述第四音频信号，生成所述控制指令。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第二音频信号和/或所述第三音频信号和/或所述第四音频信号是周期性的或间歇性的时域信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述预测子模块包括查询单元和预测单元，所述查询单元被配置为基于所述第一音频信号生成第一音频特征编码以及基于所述第一音频特征编码查询查找表，以得到第二音频特征编码；所述预测单元被配置为基于所述第二音频特征编码，预测得到所述第四音频信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述查找表包括至少一个第一编码字段。

例如，在本公开至少一个实施例提供的音频处理装置中，所述查找表还包括至少一个第二编码字段，多个所述第一编码字段组成一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第二音频特征编码包括至少一个所述第一编码字段和/或至少一个所述第二编码字段。

例如，在本公开至少一个实施例提供的音频处理装置中，所述音频获取子模块包括采集单元和下采样处理单元，所述采集单元被配置为采集初始音频信号；所述下采样处理单元被配置为对所述初始音频信号进行下采样处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述音频获取子模块包括采集单元和滤波单元，所述采集单元被配置为采集初始音频信号；所述滤波单元被配置为对所述初始音频信号进行滤波处理以得到所述第一音频信号。

例如，在本公开至少一个实施例提供的音频处理装置中，所述第二音频信号的相位与所述第三音频信号的相位相反。

本公开至少一个实施例还提供一种音频处理装置，包括：一个或多个存储器，非瞬时性地存储有计算机可执行指令；一个或多个处理器，配置为运行所述计算机可执行指令，其中，所述计算机可执行指令被所述一个或多个处理器运行时实现根据本公开任一个实施例所述的音频处理方法。

本公开至少一个实施例还提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据本公开任一个实施例所述的音频处理方法。

根据本公开的任一实施例提供的音频处理方法、音频处理装置和非瞬时性计算机可读存储介质，通过学习当前音频信号(即，第一音频信号)的特征，产生未来的反相音频信号(即，第二音频信号)以抑制未来音频信号(即，第三音频信号)，避免由于输入端和输出端之间的延迟导致的反相音频信号和需要抑制的音频信号不同步的问题，提升消音效果，可大幅降低或甚至消除输入端对输出端的延迟对消音的影响，抑制音频的效果比业界常用的落后式的主动消音系统的抑制音频的效果更好。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开至少一个实施例提供的一种音频处理系统的示意性框图；

图2A为本公开至少一个实施例提供的一种音频处理方法的示意性流程图；

图2B为图2A所示的步骤S10的示意性流程图；

图2C为图2B所示的步骤S102的示意性流程图；

图3为本公开至少一个实施例提供的一种第一音频信号和第三音频信号的示意图；

图4为本公开至少一个实施例提供的一种第三音频信号和第四音频信号的示意图；

图5A为本公开一些实施例提供的一种音频信号的示意图；

图5B为图5A中的虚线矩形框P1中的音频信号的放大示意图；

图6为本公开至少一个实施例提供的一种音频处理装置的示意性框图；

图7为本公开至少一个实施例提供的另一种音频处理装置的示意性框图；以及

图8为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

本公开至少一个实施例提供一种音频处理方法。该音频处理方法包括：基于第一音频信号，生成控制指令；基于控制指令，生成第二音频信号；输出第二音频信号，以抑制第三音频信号。第二音频信号的相位与第三音频信号的相位之和小于相位阈值，第一音频信号出现的时间早于第三音频信号出现的时间。

在本公开的实施例提供的音频处理方法中，通过学习当前音频信号(即，第一音频信号)的特征，产生未来的反相音频信号(即，第二音频信号)以抑制未来音频信号(即，第三音频信号)，避免由于输入端和输出端之间的延迟导致的反相音频信号和需要抑制的音频信号不同步的问题，提升消音效果，可大幅降低或甚至消除输入端对输出端的延迟对消音的影响，抑制音频的效果比业界常用的落后式的主动消音系统的抑制音频的效果更好。

本公开的实施例还提供一种音频处理装置和非瞬时性计算机可读存储介质。该音频处理方法可应用于本公开实施例提供的音频处理装置，该音频处理装置可被配置于电子设备上。该电子设备可以是个人计算机、移动终端、汽车头枕等，该移动终端可以是手机、耳机、平板电脑等硬件设备。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图1为本公开至少一个实施例提供的一种音频处理系统的示意性框图，图2A为本公开至少一个实施例提供的一种音频处理方法的示意性流程图，图2B为图2A所示的步骤S10的示意性流程图，图2C为图2B所示的步骤S102的示意性流程图，图3为本公开至少一个实施例提供的一种第一音频信号和第三音频信号的示意图。

图1所示的音频处理系统可以用于实现本公开任一实施例提供的音频处理方法，例如，图2A所示的音频处理方法。如图1所示，音频处理系统可以包括音频接收部分、音频处理部分和音频输出部分。音频接收部分可以接收声音源在时刻tt1发出的音频信号Sn1，然后将音频信号Sn1传输至音频处理部分，音频处理部分对音频信号Sn1进行处理，以预测得到未来的反相音频信号Sn2；然后该未来的反相音频信号Sn2通过音频输出部分输出。未来的反相音频信号Sn2可以用于抑制声音源在晚于时刻tt1的时刻tt2产生的未来音频信号Sn3。例如，目标对象(例如，人的耳朵等)可以同时接收到反相音频信号Sn2和未来音频信号Sn3，以使得未来的反相音频信号Sn2和未来音频信号Sn3可以进行破坏性叠加，从而实现消音。

例如，音频接收部分可以包括麦克风、放大器(例如，麦克风放大器)、模数转换器(analog to digital converter，ADC)、下采样器(downsampler)等，音频处理部分可以包括AI引擎和/或数字信号处理器(Digital Signal Processing，DSP))等，音频输出部分可以包括上采样器(Upsampler)、数模转换器(digital to analog converter，DAC)、放大器(例如，扬声器放大器)以及扬声器等。

如图2A所示，本公开的一个实施例提供的音频处理方法包括步骤S10至S12。在步骤S10，基于第一音频信号，生成控制指令；在步骤S11，基于控制指令，生成第二音频信号；在步骤S12，输出第二音频信号，以抑制第三音频信号。

例如，第一音频信号可以为图1所示的音频信号Sn1，第二音频信号可以为图1所示的反相音频信号Sn2，第三音频信号可以为图1所示的未来音频信号Sn3。

例如，音频接收部分可以接收第一音频信号；音频处理部分可以对第一音频信号进行处理以生成控制指令，并基于控制指令生成第二音频信号；音频输出部分可以输出第二音频信号，从而实现抑制第三音频信号。

例如，第一音频信号出现的时间早于第三音频信号出现的时间。如图3所示，第一音频信号开始出现的时刻为t11，第三音频信号开始出现的时刻为t21，在时间轴t上，时刻t11早于时刻t21。例如，第一音频信号存在的时间段可以为时刻t11到时刻t12之间的时间段，第三音频信号存在的时间段为时刻t21到时刻t22之间的时间段。考虑到信号处理过程的时间等因素，时刻t12和时刻t21可以不是同一时刻，时刻t12早于时刻t21。

需要说明的是，在本公开的实施例中，“音频信号存在的时间段或出现的时间”表示该音频信号对应的音频存在的时间段或出现的时间。

例如，第二音频信号的相位与第三音频信号的相位之和小于相位阈值，相位阈值可以根据实际情况设置，本公开对此不作具体限制。例如，在一些实施例中，第二音频信号的相位与第三音频信号的相位相反，从而可以实现完全消音，即完全抑制第三音频信号，此时，当第二音频信号和第三音频信号由音频采集装置(例如，麦克风等)接收时，音频采集装置所接收到的音频信号的误差能量为0；若第二音频信号和第三音频信号被人耳接收，相当于人没有听到声音。

例如，在一些实施例中，第一音频信号可以为时刻t11到时刻t12之间的最大声量(振幅最大)的时域音频信号，第一音频信号不是特定频率的音频信号，从而本公开的实施例提供的音频处理方法不需要从音频信号中提取频谱特征来产生频谱图，由此可以简化音频信号的处理过程，节省处理时间。

例如，第一音频信号和第三音频信号可以为外界环境、机器等产生的音频信号，机器运转的声音、装修过程的电钻声和电锯声等。例如，机器可以包括家用电器(空调、抽油烟机、洗衣机等)等。

例如，在一些实施例中，如图2B所示，步骤S10可以包括步骤S101～步骤103，在步骤S101中，获取第一音频信号；在步骤S102中，对第一音频信号进行处理以预测得到第四音频信号；在步骤S103中，基于第四音频信号，生成控制指令。在本公开的实施例提供的音频处理方法中，通过学习当前音频信号(即第一音频信号)的特征，预测得到尚未产生的音频信号(即第四音频信号)。

例如，第四音频信号是预测得到的未来的音频信号，例如，在时间轴上，第四音频信号存在的时间段落后于第一音频信号存在的时间段，例如，第四音频信号存在的时间段与第三音频信号存在的时间段相同，从而第四音频信号存在的时间段也可以为图3所示的时刻t21到时刻t22之间的时间段。

图4为本公开至少一个实施例提供的一种第三音频信号和第四音频信号的示意图。在图4所示的示例中，横轴表示时间(Time)，纵轴表示幅度(Amplitude)，幅度可以表示为电压值。如图4所示，在一个实施例中，预测得到的第四音频信号与第三音频信号大致相同。

例如，在一实施例中，第三音频信号和第四音频信号可以完全相同，此时，基于第四音频信号最终生成的第二音频信号的相位与第三音频信号的相位相反，从而实现完全消音。

例如，在步骤S102中，对第一音频信号进行处理以预测第四音频信号可以包括通过神经网络对第一音频信号进行处理以预测得到第四音频信号。

例如，神经网络可以包括循环神经网络、长短时记忆网络或生成对抗网络等。在本公开的实施例中，可以基于人工智能学习音频信号的特征，从而预测尚未发生的未来某个时间段的音频信号，据此产生未来的该时间段的反相音频信号，用以抑制该时间段的音频信号。

例如，在一些实施例中，如图2C所示，步骤S102可以包括步骤S1021～步骤1023，在步骤S1021中，基于第一音频信号生成第一音频特征编码；在步骤S1022中，基于第一音频特征编码查询查找表，以得到第二音频特征编码；在步骤S1023中，基于第二音频特征编码，预测得到第四音频信号。

例如，第一音频信号可以为模拟信号，可以通过模数转换器对第一音频信号进行处理，以得到处理后的第一音频信号，处理后的第一音频信号为数字信号，基于该处理后的第一音频信号可以生成第一音频特征编码。

又例如，第一音频信号可以为数字信号，例如，PDM(Pulse-density-modulation，脉冲密度调制)信号，此时，可以直接基于第一音频信号生成第一音频特征编码。PDM信号可以采用二进制数0和1表示。

例如，可以采用任何合适的编码方式实现第一音频特征编码。例如，在一些实施例中，在表示一个音频信号时，可以采用音频信号的变化状态来描述该音频信号，可以采用多比特(multi-bits)来表示一个音频信号的变化状态。例如，可以采用两比特(2bits)表示音频信号的变化状态，在一些示例中，如下述表格1所示，00表示音频信号变大，01表示音频信号变小，10表示没有音频信号，11表示音频信号不变。

比特	音频信号的变化状态
		00	音频信号变大
01	音频信号变小
		10	没有音频信号
11	音频信号不变

表1

“音频信号变大”表示单位时间段(每个时间步(time step))中的音频信号的振幅随着时间变大，“音频信号变小”表示单位时间段中的音频信号的振幅随着时间变小，“音频信号不变”表示单位时间段中的音频信号的振幅随着时间不变，“没有音频信号”表示在单位时间段中没有音频信号，即音频信号的振幅为0。

图5A为本公开一些实施例提供的一种音频信号的示意图，图5B为图5A中的虚线矩形框P1中的音频信号的放大示意图。

在图5A中，横坐标为时间(ms，毫秒)，纵坐标为音频信号的振幅(volts，伏特)。如图5A所示，音频信号V是周期性变化的信号，音频信号V的周期性的模式(pattern)为虚线矩形框P2所示的模式。

如图5B所示，波形段30所表示的音频信号的振幅随着时间t不变，波形段30对应的时间为一个单位时间段，则波形段30可以表示为音频特征编码(11)；类似地，波形段31所表示的音频信号的振幅随着时间t逐渐变大，波形段31对应的时间为四个单位时间段，则波形段31可以表示为音频特征编码(00,00,00,00)；波形段32所表示的音频信号的振幅随着时间t不变，波形段32对应的时间为一个单位时间段，波形段32可以表示为音频特征编码(11)；波形段33所表示的音频信号的振幅随着时间t逐渐变小，波形段33对应的时间为六个单位时间段，则波形段33可以表示为音频特征编码(01,01,01,01,01,01)；波形段34所表示的音频信号的振幅随着时间t不变，波形段34对应的时间为一个单位时间段，则波形段34可以表示为音频特征编码(11)；波形段35所表示的音频信号的振幅随着时间t逐渐变大，波形段35对应的时间为八个单位时间段，则波形段35可以表示为音频特征编码(00,00,00,00,00,00,00,00)；以此类推，波形段36可以表示为音频特征编码(01,01,01,01,01,01,01,01,01,01,01,01)，波形段37可以表示为音频特征编码(11)，波形段38可以表示为音频特征编码(00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00)。从而，图5B所示的音频信号对应的音频特征编码可以表示为{11,00,00,00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}。

例如，在一些实施例中，查找表(codebook)包括至少一个第一编码字段。例如，在另一些实施例中，查找表还包括至少一个第二编码字段，多个第一编码字段组成一个第二编码字段，从而可以实现从低级特征组合而形成降维的高阶特征。例如，查找表中的编码字段(codeword，例如，codeword可以包括第一编码字段和第二编码字段)的编码方式可以与上述第一音频特征编码的编码方式相同。

例如，在一些实施例中，当采用两比特表示音频信号的变化状态，从而实现特征编码时，第一编码字段可以为00、01、10和11之一。可以由00、01、10和11进行组合以构成第二编码字段。例如，一个第二编码字段可以表示为{00,00,00,01,01,01,11,11,01,…}，其由00、01和11组合构成。

例如，当查找表包括多个第二编码字段时，多个第二编码字段分别包括的第一编码字段的数量可以各不相同。

需要说明的是，当采用更多比特(例如，3比特、4比特等)表示音频信号的变化状态，从而实现特征编码时，第一编码字段的种类可以更多，例如，当采用3比特表示音频信号的变化状态时，第一编码字段的种类最多可以为8种，此时，第一编码字段可以为000、001、010、011，100、101、110和111中的部分或全部。

例如，一个或多个第二编码字段还可以进行组合以得到第三编码字段，或一个或多个第二编码字段以及一个或多个第一编码字段可以进行组合以得到第三编码字段，类似地，一个或多个第三编码字段可以进行组合或一个或多个第三编码字段与第一编码字段和/或第二编码字段可以进行组合，以得到更高阶的编码字段。在本公开的实施例中，低阶的特征编码可以进行组合以得到高阶的特征编码，从而实现更高效且更长时间的预测。

例如，第二音频特征编码包括至少一个第一编码字段和/或至少一个第二编码字段。例如，在一些实施例中，第二音频特征编码可以包括完整的一个或多个第二编码字段，或者，第二音频特征编码可以包括一个第二编码字段中的部分第一编码字段。

需要说明的是，当查找表中包括第三编码字段时，第二音频特征编码可以包括至少一个第一编码字段和/或至少一个第二编码字段和/或至少一个第三编码字段。

例如，在一实施例中，查找表包括第二编码字段W1、第二编码字段W2和第二编码字段W3，且W1＝{11,00,00,00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}，W2＝{11,01,00,00,01,01,01,01,01,01,01,…}，W3＝{11,00,01,00,00,01,01,01,11,00,00,00,01,01,01,01,01,01,01,01,01,…}。

在一个实施例中，如图5B所示，从时刻t31开始，音频采集装置持续采集第一音频信号，当音频采集装置采集到的第一音频信号对应的第一个特征编码字段表示为{11}，对应于波形段30，则基于查找表进行查询，以确定查找表中是否存在某个编码字段(包括第一编码字段和第二编码字段)包括{11}，在上述示例中，查询到查找表中的第二编码字段W1、第二编码字段W2和第二编码字段W3均包括{11}，此时，第二编码字段W1、第二编码字段W2和第二编码字段W3均作为待输出编码字段列表中的待输出编码字段。

然后，如图5B所示，当音频采集装置采集到的第一音频信号对应的第二个特征编码字段表示为{00}，对应于波形段31中的第一个单位时间段，继续对查找表进行查询(此时可以仅对待输出编码字段列中的待输出编码字段进行查询，从而可以节省查询时间，然而，也可以对整个查找表进行查询)，以确定查找表中是否存在某个编码字段包括{11,00}，在上述示例中，查询到查找表中的第二编码字段W1和第二编码字段W3均包括{11,00}，由于第二编码字段W2包括{11,01}，而不包括{11,00}，从而不满足音频采集装置采集到的第一音频信号的特征，因此，可以将第二编码字段W2从待输出编码字段列表中删除，此时，第二编码字段W1和第二编码字段W3作为待输出编码字段列表中的待输出编码字段。

然后，当音频采集装置采集到的第一音频信号对应的第三个特征编码字段表示为{00}，对应于波形段31中的第二个单位时间段，继续对查找表进行查询，以确定查找表中是否存在某个编码字段包括{11,00,00}，在上述示例中，查询到查找表中的第二编码字段W1包括{11,00,00}。那么,可以预测接下来的音频信号应该就是第二编码字段W1这个模式。对于第二编码字段W1中的前三个编码字段{11,00,00}，由于其在时间上，其对应的音频信号已经过去，从而可以输出从第二编码字段W1中的第四个字段(即{00})开始的所有后续编码字段作为预测得到的第二音频编码特征，此时，第二音频特征编码表示为{00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,……}。

需要说明的是，在实际应用中，当匹配多少个特征编码字段才确定第二音频特征编码可以根据实际应用场景、设计需求等因素调整，例如，在上述示例中，当匹配3个(在实际应用中，可以匹配10、20、50个等)特征编码字段，则可以确定第二音频特征编码。

例如，在上述示例中，第一音频信号对应的第一音频特征编码包括3个特征编码字段，且表示为{11,00,00}，如图5B所示，第一音频信号对应的时间段为时刻t31至时刻t32。当考虑到系统处理信号的时间等因素，实际上系统需要在时刻t33才能输出第二音频信号，时刻t33晚于时刻t32，此时，第二音频特征编码中的前两个特征编码字段{00,00}对应的时间段(即时刻t32至时刻t33之间的时间段)已经过去，从而实际上预测得到的第四音频信号对应的音频特征编码表示为{11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}。

例如，若第三音频信号和第四音频信号完全相同，则第三音频信号对应的音频特征编码也表示为{11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}。

例如，第二音频信号为对第四音频信号进行反相处理得到的信号，即第二音频信号可以为{11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}这个模式的反相音频信号。

例如，在一些实施例中，第二音频信号的时间长度、第三音频信号的时间长度和第四音频信号的时间长度是大致相同的，例如，完全相同。

例如，在一些实施例中，可以针对查找表中的至少部分第一编码字段和/或第二编码字段设置前导特征编码字段，例如，可以为第二编码字段W1设置前导特征编码{11,00,00}，当检测到该前导特征编码字段，则将第二编码字段W1输出作为第二音频特征编码。在此情况下，当检测到第一音频信号对应的第一音频特征编码为{11,00,00}，该第一音频信号对应的第一音频特征编码与前导特征编码字段{11,00,00}匹配，从而可以将第二编码字段W1输出作为第二音频特征编码。

又例如，可以为第二编码字段W1设置前导特征编码字段{11,00,00,01,01}，当检测到该前导特征编码字段中的部分字段，则将第二编码字段W1和该前导特征编码字段中的剩余字段输出作为第二音频特征编码，在此情况下，当检测到第一音频信号对应的第一音频特征编码为{11,00,00}，该第一音频信号对应的第一音频特征编码与前导特征编码字段中的前三个字段{11,00,00}匹配，从而可以将前导特征编码字段中的剩余字段{01,01}和第二编码字段W1输出作为第二音频特征编码。此时，第二音频特征编码中的前两个特征编码字段{01,01}(即前导特征编码字段中的剩余字段)对应的时间可以为系统处理信号的时间，从而实际上预测得到的第四音频信号对应的音频特征编码可以为完整的第二编码字段W1。

需要说明的是，前导特征编码字段的长度可以根据实际情况调整，本公开对此不作限制。

值得注意的是，对于查找表而言，当用于存储查找表的存储器足够大，查找表存储的内容够丰富(即查找表中的编码字段的组合够多)，则可消除用户想要消除的所有类型的音频信号。而对于神经网络而言，当用于训练神经网络的样本足够丰富，样本的类型足够丰富，则也可以基于神经网络预测得到用户想要消除的任何类型的音频信号。

例如，查找表可以以表格等形式存储在存储器中，本公开的实施例对查找表的具体形式不作限制。

例如，通过查找表的方式可以实现神经网络中的预测。

例如，第二音频信号和/或第三音频信号和/或第四音频信号是周期性的或间歇性的时域信号，第二音频信号和/或第三音频信号和/或第四音频信号的信号特征是周期性或间歇性的时域振幅变化，即第二音频信号和/或第三音频信号和/或第四音频信号具有连续重复、间歇重复的特质，具有固定的模式。对于间歇性的音频信号，由于在该间歇性的音频信号的停歇期间不存在音频信号，因此在停歇期间没有频谱特征可供提取，而停歇期间却可以成为该间歇性的音频信号的时域特征之一。

例如，在一些实施例中，步骤S101可以包括：采集初始音频信号；对初始音频信号进行下采样处理(downsampling)以得到第一音频信号。

由于音频采集装置采集得到的初始音频信号的采样率(sample rate)较高，不利于后端的音频信号处理装置(例如，人工智能引擎(AI(Artificial Intelligence)Engine)、数字信号处理器(Digital Signal Processing，简称DSP)等)的处理，因此，可以对初始音频信号进行下采样处理以实现降频，便于音频信号处理装置处理，例如可以降频至48K赫兹甚至更低。

例如，在另一些实施例中，步骤S101可以包括：采集初始音频信号；对初始音频信号进行滤波处理以得到第一音频信号。

在一些应用场景下，太安静并不安全，因此，还可以通过带宽控制器(Bandwidthcontroller)进行滤波处理，以针对特定频率范围内的音频信号进行抑制。针对连续性及间歇性的音频信号(例如，敲击或滴水噪音等)，将第一音频信号的有效频宽设定在该需要被抑制的音频信号对应的频率范围，例如，1K～6K赫兹，从而确保使用者还能听到较为重要的声音，例如，当应用在汽车领域时，必须确保驾驶员能够听到喇叭声等，以提升驾驶安全性。

例如，在一些实施例中，滤波处理和下采样处理还可以结合使用，本公开对滤波处理和下采样处理的处理顺序不作限制。例如，在一些实施例中，获取第一音频信号可以包括：采集初始音频信号；对初始音频信号进行滤波处理以得到预定频率范围内的音频信号；对在预定频率范围内的音频信号进行下采样处理以得到第一音频信号；或者，获取第一音频信号可以包括：采集初始音频信号；对初始音频信号进行下采样处理；对下采样处理后的音频信号进行滤波处理以得到第一音频信号。

例如，控制指令可以包括第二音频信号输出的时刻、第四音频信号和指示对第四音频信号进行反相的控制信号等。

例如，在一些实施例中，步骤S11可以包括：基于控制指令，确定第四音频信号和指示对第四音频信号进行反相的控制信号；基于该控制信号，对该第四音频信号进行反相处理，以生成第二音频信号。

例如，在一些实施例中，步骤S12可以包括：基于控制指令，确定输出第二音频信号的第一时刻；在第一时刻输出第二音频信号。

例如，第三音频信号从第二时刻开始出现，第一时刻和第二时刻之间的时间差的绝对值小于时间阈值。需要说明的是，时间阈值可以根据实际情况具体设置，本公开对此不作限制，时间阈值越小，则消音效果越好。

例如，在一些实施例中，第一时刻和第二时刻之间的时间差为0，即第二音频信号的开始输出的时刻和第三音频信号开始出现的时刻相同，在图3所示的示例中，第二音频信号的开始输出的时刻和第三音频信号开始出现的时刻均为时刻t21。

例如，第一时刻和第二时刻之间的时间差可以根据实际情况设置，例如，可以设置第一时刻和第二时刻以保证第二音频信号和第三音频信号同时被传输至目标对象，从而避免音频信号的传输而导致第二音频信号和第三音频信号不同步的问题，进一步提升消音效果。例如，目标对象可以为人的耳朵、麦克风等。

例如，第二音频信号可以通过扬声器等可以将电信号转换为声音信号进行输出的装置进行输出。

需要说明的是，当音频采集装置没有采集到音频信号，则可以不执行本公开提供的音频处理方法，直到音频采集装置采集到音频信号为止，从而可以节省功耗。

在本公开的实施例中，音频处理方法可以将环境音频信号中的周期性的音频信号(例如，噪声)降低或消除，例如，在图书馆这样的应用场景中，消除旁边建筑工地施工的声音等。这类的场景不需要特别知道想留下来的音频信号，单纯的降低需要消除的环境中的目标待消音声音，而这些目标待消音声音通常具有连续重复、间歇重复的特质，因此可以通过预测方式预测得到。需要说明的是，“目标待消音声音”可以根据实际情况确定，例如，对于图书馆这样的应用场景，当图书馆周围具有建筑工地时，外界环境音频信号可以包括两种音频信号，第一种音频信号可以为工地钻地声，第二种音频信号可以周围人的讨论声。通常，工地钻地声具有周期性的特点，且通常具有固定的模式，而讨论声大概率不具固定模式，也不具有周期性的特点，此时，目标待消音声音则为工地钻地声，通过本公开的实施例提供的音频处理方法，则可以实现对工地钻地声的预测，从而消除或降低工地钻地声。

本公开的实施例提供的音频处理方法可以应用于汽车驾驶头枕，从而在驾驶员的耳朵附近创造静音区，避免外界非必要的音频信号(例如，发动机噪音、路噪、风噪和胎噪等汽车行驶过程中的噪声信号)对驾驶员产生干扰。又例如，该音频处理方法还可以应用于吹风机、排油烟机、吸尘器、非变频式空调等设备中，以降低这些设备发出的运转声音，使得用户可以待在吵杂的环境，而不受到周围环境噪声的影响。该音频处理方法还可以应用于耳机等，以降低或消除外界声音，使得用户可以更好地接收耳机发出的声音(音乐声或通话声等)。

本公开至少一个实施例还提供一种音频处理装置。图6为本公开至少一个实施例提供的一种音频处理装置的示意性框图。

如图6所示，音频处理装置600包括指令生成模块601、音频生成模块602和输出模块603。图6所示的音频处理装置600的组件和结构只是示例性的，而非限制性的，根据需要，该音频处理装置600还可以包括其他组件和结构。

指令生成模块601被配置为基于第一音频信号，生成控制指令。指令生成模块601用于执行图2A所示的步骤S10。

音频生成模块602被配置为基于控制指令，生成第二音频信号。音频生成模块602用于执行图2A所示的步骤S11。

输出模块603被配置为输出第二音频信号，以抑制第三音频信号。输出模块603用于执行图2A所示的步骤S12。

关于指令生成模块601所实现的功能的具体说明可以参考上述音频处理方法的实施例中的图2A所示的步骤S10的相关描述，关于音频生成模块602所实现的功能的具体说明可以参考上述音频处理方法的实施例中的图2A所示的步骤S11的相关描述，关于输出模块603所实现的功能的具体说明可以参考上述音频处理方法的实施例中的图2A所示的步骤S12的相关描述。音频处理装置可以实现与前述音频处理方法相似或相同的技术效果，在此不再赘述。

例如，第一音频信号出现的时间早于第三音频信号出现的时间。

例如，第二音频信号的相位与第三音频信号的相位之和小于相位阈值，在一些实施例中，第二音频信号的相位与第三音频信号的相位相反，从而可以完全抑制第三音频信号。

例如，在一些实施例中，指令生成模块601可以包括音频获取子模块、预测子模块和生成子模块。音频获取子模块被配置为获取第一音频信号；预测子模块被配置为对第一音频信号进行处理以预测得到第四音频信号；生成子模块被配置为基于第四音频信号，生成控制指令。

例如，第二音频信号和/或第三音频信号和/或第四音频信号是周期性的或间歇性的时域信号。

例如，第三音频信号和第四音频信号可以完全相同。

例如，在一些实施例中，预测子模块可以基于神经网络对第一音频信号进行处理以预测得到第四音频信号。例如，预测子模块可以包括图1所示的音频处理部分中的AI引擎和/或数字信号处理器等，AI引擎可以包括神经网络，例如，AI引擎可以包括循环神经网络、长短时记忆网络或生成对抗网络等中的至少一个神经网络。

例如，在一些实施中，预测子模块包括查询单元和预测单元。查询单元被配置为基于第一音频信号生成第一音频特征编码以及基于第一音频特征编码查询查找表，以得到第二音频特征编码。预测单元被配置为基于第二音频特征编码，预测得到第四音频信号。

例如，查询单元可以包括存储器以用于存储查找表。

例如，在一些实施例中，查找表可以包括至少一个第一编码字段。例如，在另一些实施例中，查找表还包括至少一个第二编码字段，多个第一编码字段组成一个第二编码字段。关于查找表的具体内容可以参考上述音频处理方法的实施例中的相关描述，重复之处不再赘述。

例如，第二音频特征编码包括至少一个第一编码字段和/或至少一个第二编码字段。

例如，在一些实施例中，音频获取子模块包括采集单元和下采样处理单元。采集单元被配置为采集初始音频信号；下采样处理单元被配置为对初始音频信号进行下采样处理以得到第一音频信号。

例如，在一些实施例中，音频获取子模块包括采集单元和滤波单元，采集单元被配置为采集初始音频信号；滤波单元被配置为对初始音频信号进行滤波处理以得到第一音频信号。

例如，音频获取子模块可以实现为图1所示的音频接收部分。例如，采集单元可以包括音频采集装置，例如，图1所示的音频接收部分中的麦克风等。例如，采集单元还可以包括放大器、模数转换器等。

例如，在一些实施例中，输出模块603可以包括时刻确定子模块和输出子模块。时刻确定子模块被配置为基于控制指令，确定输出第二音频信号的第一时刻；输出子模块被配置为在第一时刻输出第二音频信号。

例如，输出模块603可以实现为图1所示的音频输出部分。

例如，第三音频信号从第二时刻开始出现，第一时刻和第二时刻之间的时间差的绝对值小于时间阈值。

例如，第一时刻和所述第二时刻之间的时间差可以为0。

例如，输出子模块可以包括扬声器等音频输出装置。例如，输出子模块还可以包括数模转换器等。

例如，指令生成模块601、音频生成模块602和/或输出模块603可以为硬件、软件、固件以及它们的任意可行的组合。例如，指令生成模块601、音频生成模块602和/或输出模块603可以为专用或通用的电路、芯片或装置等，也可以为处理器和存储器的结合。本公开的实施例不对上述各个模块、子模块和单元的具体实现形式进行限制。

本公开至少一个实施例还提供一种音频处理装置，图7为本公开至少一个实施例提供的另一种音频处理装置的示意性框图。

例如，如图7所示，音频处理装置700包括一个或多个存储器701和一个或多个处理器702。一个或多个存储器701被配置为非瞬时性地存储有计算机可执行指令；一个或多个处理器702配置为运行计算机可执行指令。计算机可执行指令被一个或多个处理器702运行时实现根据上述任一实施例所述的音频处理方法。关于该音频处理方法的各个步骤的具体实现以及相关解释内容可以参见上述音频处理方法的实施例的描述，在此不做赘述。

例如，在一些实施例中，音频处理装置700还可以包括通信接口和通信总线。存储器701、处理器702和通信接口可以通过通信总线实现相互通信，存储器701、处理器6702和通信接口等组件之间也可以通过网络连接进行通信。本公开对网络的类型和功能在此不作限制。

例如，通信总线可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

例如，通信接口用于实现音频处理装置700与其他设备之间的通信。通信接口可以为通用串行总线(Universal Serial Bus，USB)接口等。

例如，处理器702和存储器701可以设置在服务器端(或云端)。

例如，处理器702可以控制音频处理装置700中的其它组件以执行期望的功能。处理器702可以是中央处理器(CPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。

例如，存储器701可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可执行指令，处理器702可以运行所述计算机可执行指令，以实现音频处理装置700的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。

例如，关于音频处理装置700执行音频处理的过程的详细说明可以参考音频处理方法的实施例中的相关描述，重复之处不再赘述。

例如，在一些实施例中，音频处理装置700可以通过芯片、小型装置/设备等形式呈现。

图8为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如，如图8所示，在非瞬时性计算机可读存储介质1000上可以非暂时性地存储一个或多个计算机可执行指令1001。例如，当计算机可执行指令1001由处理器执行时可以执行根据上文所述的音频处理方法中的一个或多个步骤。

例如，该非瞬时性计算机可读存储介质1000可以应用于上述音频处理装置700中，例如，其可以包括音频处理装置700中的存储器701。

关于非瞬时性计算机可读存储介质1000的说明可以参考图7所示的音频处理装置600的实施例中对于存储器701的描述，重复之处不再赘述。

本公开的至少一个实施例提供一种音频处理方法、音频处理装置和非瞬时性计算机可读存储介质，通过学习当前音频信号的特征，预测得到尚未产生的音频信号(即第四音频信号)，据此预测得到的音频信号产生未来的反相音频信号以抑制未来音频信号，避免由于输入端和输出端之间的延迟导致的反相音频信号和需要抑制的音频信号不同步的问题，提升消音效果，可大幅降低或甚至消除输入端对输出端的延迟对消音的影响，抑制音频的效果比业界常用的落后式的主动消音系统的抑制音频的效果更好；由于第一音频信号为时域信号，第一音频信号不是特定频率的音频信号，从而本公开的实施例提供的音频处理方法不需要从音频信号中提取频谱特征来产生频谱图，由此可以简化音频信号的处理过程，节省处理时间；在查找表中，低阶的特征编码可以进行组合以得到高阶的特征编码，从而实现更高效且更长时间的预测；并且在该音频处理方法中，还可以通过带宽控制器进行滤波处理，从而实现针对特定频率范围内的音频信号进行抑制，确保使用者还能听到较为重要的声音，例如，当应用在汽车领域时，必须确保驾驶员能够听到喇叭声等，以提升驾驶安全性；此外，当没有采集到音频信号，则可以不执行本公开提供的音频处理方法，直到采集到音频信号为止，从而可以节省功耗。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，包括：

基于第一音频信号，生成控制指令；

基于所述控制指令，生成第二音频信号；

输出所述第二音频信号，以抑制第三音频信号，

其中，所述第二音频信号的相位与所述第三音频信号的相位之和小于相位阈值，所述第一音频信号出现的时间早于所述第三音频信号出现的时间。

2.根据权利要求1所述的音频处理方法，其中，所述输出所述第二音频信号，以抑制第三音频信号，包括：

基于所述控制指令，确定输出所述第二音频信号的第一时刻；

在所述第一时刻输出所述第二音频信号，

其中，所述第三音频信号从第二时刻开始出现，所述第一时刻和所述第二时刻之间的时间差的绝对值小于时间阈值。

3.根据权利要求2所述的音频处理方法，其中，所述第一时刻和所述第二时刻之间的时间差为0。

4.根据权利要求1所述的音频处理方法，其中，所述基于第一音频信号，生成控制指令，包括：

获取所述第一音频信号；

对所述第一音频信号进行处理以预测得到第四音频信号；

基于所述第四音频信号，生成所述控制指令。

5.根据权利要求4所述的音频处理方法，其中，所述第二音频信号和/或所述第三音频信号和/或所述第四音频信号是周期性的或间歇性的时域信号。

6.根据权利要求4所述的音频处理方法，其中，所述对所述第一音频信号进行处理以预测得到第四音频信号，包括：

基于所述第一音频信号生成第一音频特征编码；

基于所述第一音频特征编码查询查找表，以得到第二音频特征编码；

基于所述第二音频特征编码，预测得到所述第四音频信号。

7.根据权利要求6所述的音频处理方法，其中，所述查找表包括至少一个第一编码字段。

8.根据权利要求7所述的音频处理方法，其中，所述查找表还包括至少一个第二编码字段，多个所述第一编码字段组成一个所述第二编码字段。

9.根据权利要求8所述的音频处理方法，其中，所述第二音频特征编码包括至少一个所述第一编码字段和/或至少一个所述第二编码字段。

10.根据权利要求4～9任一项所述的音频处理方法，其中，所述获取所述第一音频信号，包括：

采集初始音频信号；

对所述初始音频信号进行下采样处理以得到所述第一音频信号。

11.根据权利要求4～9任一项所述的音频处理方法，其中，所述获取所述第一音频信号，包括：

采集初始音频信号；

对所述初始音频信号进行滤波处理以得到所述第一音频信号。

12.根据权利要求1～9任一项所述的音频处理方法，其中，所述第二音频信号的相位与所述第三音频信号的相位相反。

13.一种音频处理装置，包括：

指令生成模块，被配置为基于第一音频信号，生成控制指令；

音频生成模块，被配置为基于所述控制指令，生成第二音频信号；

输出模块，被配置为输出所述第二音频信号，以抑制第三音频信号；

14.根据权利要求13所述的音频处理装置，其中，所述输出模块包括时刻确定子模块和输出子模块，

所述时刻确定子模块被配置为基于所述控制指令，确定输出所述第二音频信号的第一时刻；

所述输出子模块被配置为在所述第一时刻输出所述第二音频信号，

15.根据权利要求14所述的音频处理装置，其中，所述第一时刻和所述第二时刻之间的时间差为0。

16.根据权利要求13所述的音频处理装置，其中，所述指令生成模块包括音频获取子模块、预测子模块和生成子模块，

所述音频获取子模块被配置为获取所述第一音频信号；

所述预测子模块被配置为对所述第一音频信号进行处理以预测得到第四音频信号；

所述生成子模块被配置为基于所述第四音频信号，生成所述控制指令。

17.根据权利要求16所述的音频处理装置，其中，所述第二音频信号和/或所述第三音频信号和/或所述第四音频信号是周期性的或间歇性的时域信号。

18.根据权利要求16所述的音频处理装置，其中，所述预测子模块包括查询单元和预测单元，

所述查询单元被配置为基于所述第一音频信号生成第一音频特征编码以及基于所述第一音频特征编码查询查找表，以得到第二音频特征编码；

所述预测单元被配置为基于所述第二音频特征编码，预测得到所述第四音频信号。

19.根据权利要求18所述的音频处理装置，其中，所述查找表包括至少一个第一编码字段。

20.根据权利要求19所述的音频处理装置，其中，所述查找表还包括至少一个第二编码字段，多个所述第一编码字段组成一个所述第二编码字段。

21.根据权利要求20所述的音频处理装置，其中，所述第二音频特征编码包括至少一个所述第一编码字段和/或至少一个所述第二编码字段。

22.根据权利要求16～21任一项所述的音频处理装置，其中，所述音频获取子模块包括采集单元和下采样处理单元，

所述采集单元被配置为采集初始音频信号；

所述下采样处理单元被配置为对所述初始音频信号进行下采样处理以得到所述第一音频信号。

23.根据权利要求16～21任一项所述的音频处理装置，其中，所述音频获取子模块包括采集单元和滤波单元，

所述采集单元被配置为采集初始音频信号；

所述滤波单元被配置为对所述初始音频信号进行滤波处理以得到所述第一音频信号。

24.根据权利要求13～21任一项所述的音频处理装置，其中，所述第二音频信号的相位与所述第三音频信号的相位相反。

25.一种音频处理装置，包括：

一个或多个存储器，非瞬时性地存储有计算机可执行指令；

一个或多个处理器，配置为运行所述计算机可执行指令，

其中，所述计算机可执行指令被所述一个或多个处理器运行时实现根据权利要求1～12任一项所述的音频处理方法。

26.一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据权利要求1～12任一项所述的音频处理方法。