CN113630098A

CN113630098A - 音频放大器的增益控制方法、装置和电子设备

Info

Publication number: CN113630098A
Application number: CN202110916604.0A
Authority: CN
Inventors: 黄庆龙; 刘海雄; 李泽健
Original assignee: Shenzhen Yuanliu Technology Co ltd
Current assignee: Shenzhen Yuanliu Technology Co ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-09
Anticipated expiration: 2041-08-11
Also published as: CN113630098B

Abstract

本申请公开了一种音频放大器的增益控制方法、装置和电子设备。所述方法在确定增益控制结果时不仅考虑音频信号的电平大小，还结合音频信号的具体音频模式，以使得所设置的增益能够与音频模式和电平大小相适配。具体地，通过深度神经网络模型，不仅基于音频放大器的输入信号的电平大小，而且进一步挖掘输入的音频信号中的高维统计特征以识别出音频信号中的预定模式，通过这样的方式提高音频放大器的增益控制准确度。

Description

音频放大器的增益控制方法、装置和电子设备

技术领域

本申请涉及人工智能技术领域，且更为具体地，涉及一种音频放大器的增益控制方法、装置和电子设备。

背景技术

音频放大器是在产生声音的输出元件上重建输入的音频信号的设备，是多媒体产品的重要组件之一，被广泛应用于消费类电子领域。对于音频放大器而言，功率放大器提供的增益是核心控制的参数。

在现有的音频放大器中，需要手动选择前级信号输入电平和增益，并且，所设定的增益是固定增益，这种控制方式存在缺陷。

现有的增益控制仅根据音频放大器接收到的输入信号的电平大小来控制，而没有考虑到输入的音频信号的具体音频模式的问题。具体地，以用户播放音乐来说，对于不同的音乐模式，显然需要自适应地控制功率放大器的增益，例如，当音乐处于激昂的音乐模式下，虽然这时输入的音频信号的电平大小可能较大，但显然不应该减小音频放大器的增益。同样地，即使同为音频信号的电平大小较小的情况，缓和情绪下的音乐模式和高潮来临前的情绪铺垫下的音乐模式也不应该具有相同的增益。此外，对于例如交响乐等音乐结构比较复杂的音频来说，音频中的结构特征，比如音频在整部乐曲中的段落特征，或者音色特征，比如是何种乐器在演奏等，都会影响到音频放大器的增益控制。

因此，需要一种优化的用于音频放大器的增益控制方案。

近年来，深度学习尤其是神经网络的发展为音频放大器的增益控制提供了新的解决思路和方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种音频放大器的增益控制方法、装置和电子设备，其通过深度神经网络模型，不仅基于音频放大器的输入信号的电平大小，而且进一步挖掘输入的音频信号中的高维统计特征以识别出音频信号中的预定模式，通过这样的方式提高音频放大器的增益控制准确度。

根据本申请的一个方面，提供了一种音频放大器的增益控制方法，其包括：

获取输入音频放大器的音频信号；

从所述音频信号中获取其在时域中各个时间点的幅度值，并将所述各个时间点的幅度值排列为时域向量；

对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量；

基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵；

将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图；

计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果；

基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图；

计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果；

基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图；

融合所述时域模式特征图和所述频域模式特征图以获得编码特征图；和

将所述编码特征图通过编码器以获得增益控制结果。

在上述音频放大器的增益控制方法中，基于所述时域向量和所述频域向量构建用于表示所述音频信号在时域和频率上的关联的时-频域关联矩阵，包括：

将所述时域向量与所述频域向量的转置进行矩阵相乘以获得所述时-频域关联矩阵。

在上述音频放大器的增益控制方法中，将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图，包括：所述卷积神经网络以如下公式从所述时-频域关联矩阵提取出所述音频信号的高维时域-频域关联特征以获得所述时频域特征图；

所述公式为：f_i＝tanh(N_i×f_i-1+B_i)

其中，f_i-1为第i层卷积神经网络的输入，f_i为第i层卷积神经网络的输出，N_i为第i层卷积神经网络的卷积核，且B_i为第i层卷积神经网络的偏置向量，tanh表示非线性激活函数。

在上述音频放大器的增益控制方法中，基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果，包括：计算所述时频域特征图中各个位置的第一交叉熵数值之间的差值；以及，基于所述时频域特征图中各个位置的第一交叉熵数值之间的差值，对所述时频域特征图中的各个位置的特征值进行聚类以获得所述第一聚类结果。

在上述音频放大器的增益控制方法中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图，包括：为所述第一聚类结果中不同类分别赋予不同权重值，以获得第一权重特征图；以及，计算所述第一权重特征图与所述时频域特征图之间的按位置点乘，以获得所述时域模式特征图。

在上述音频放大器的增益控制方法中，基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图，包括：为所述第二聚类结果中不同类分别赋予不同权重值，以获得第二权重特征图；以及，计算所述第二权重特征图与所述时频域特征图之间的按位置点乘，以获得所述频域模式特征图。

在上述音频放大器的增益控制方法中，融合所述时域模式特征图和所述频域模式特征图以获得编码特征图，包括：计算所述时域模式特征图和所述频域模式特征图之间的按位置加权和，以获得所述编码特征图。

在上述音频放大器的增益控制方法中，将所述编码特征图通过编码器以获得增益控制结果，包括：使用所述编码器的一个或多个全连接层对所述编码特征图中各个位置的特征值进行编码以获得编码值作为所述增益控制结果。

根据本申请的另一方面，提供了一种音频放大器的增益控制装置，其包括：

音频信号单元，用于获取输入音频放大器的音频信号；

时域向量构造单元，用于从所述音频信号中获取其在时域中各个时间点的幅度值，并将所述各个时间点的幅度值排列为时域向量；

频域向量构造单元，用于对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量；

关联单元，用于基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵；

神经网络单元，用于将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图；

第一交叉熵聚类单元，用于计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果；

时域模式特征图生成单元，用于基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图；

第二交叉熵聚类单元，用于计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果；

频域模式特征图生成单元，用于基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图；

特征图融合单元，用于融合所述时域模式特征图和所述频域模式特征图以获得编码特征图；和

增益控制结果生成单元，用于将所述编码特征图通过编码器以获得增益控制结果。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的音频放大器的增益控制方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的音频放大器的增益控制方法。

与现有技术相比，本申请提供的音频放大器的增益控制方法、装置和电子设备，其通过深度神经网络模型，不仅基于音频放大器的输入信号的电平大小，而且进一步挖掘输入的音频信号中的高维统计特征以识别出音频信号中的预定模式，通过这样的方式提高音频放大器的增益控制准确度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的音频放大器的增益控制方法的应用场景图。

图2图示了根据本申请实施例的音频放大器的增益控制方法的流程图。

图3图示了根据本申请实施例的音频放大器的增益控制方法的架构示意图。

图4图示了根据本申请实施例的音频放大器的增益控制方法中，计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果的流程图。

图5图示了根据本申请实施例的音频放大器的增益控制方法中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图的流程图。

图6图示了根据本申请实施例的音频放大器的增益控制装置的框图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，对于音频放大器而言，功率放大器提供的增益是核心控制的参数。现有的增益控制仅根据音频放大器接收到的输入信号的电平大小来控制，而没有考虑到输入的音频信号的具体音频模式的问题。

具体地，以用户播放音乐来说，对于不同的音乐模式，显然需要自适应地控制功率放大器的增益，例如，当音乐处于激昂的音乐模式下，虽然这时输入的音频信号的电平大小可能较大，但显然不应该减小音频放大器的增益。同样地，即使同为音频信号的电平大小较小的情况，缓和情绪下的音乐模式和高潮来临前的情绪铺垫下的音乐模式也不应该具有相同的增益。此外，对于例如交响乐等音乐结构比较复杂的音频来说，音频中的结构特征，比如音频在整部乐曲中的段落特征，或者音色特征，比如是何种乐器在演奏等，都会影响到音频放大器的增益控制。

因此，需要一种优化的用于音频放大器的增益控制方案。

目前，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理(即，音频信号处理)等领域。深度学习尤其是神经网络的发展为音频放大器的增益控制提供了新的解决思路和方案。

因此，本申请发明人尝试通过深度神经网络模型，不仅基于音频放大器的输入信号的电平大小，而且进一步挖掘输入的音频信号中的高维统计特征，从而能够识别出音频信号中的预定模式，例如，如上所述的情绪模式、结构模式或者音色模式等，以提高音频放大器的增益控制准确度。

首先，在本申请的技术方案中，全面考虑音频信号的时域特征和频域特征，也就是，首先从时域信号获得各时间点的幅度值，以组成时域向量，然后根据上述的各个幅度值获取频域下的频率值，以组成频域向量，然后将时域向量乘以频域向量的转置以得到时-频域关联矩阵。

然后，将该时-频域关联矩阵输入卷积神经网络以得到时频域特征图，从而挖掘出音频信号中的高维时域-频域关联特征。而由于这种关联特征本身反映的是时域和频域之间的关联特征，其相对于时域和频域本身的模式会有损失，因此，需要进一步基于初始的时域模式和频域模式对于时频域特征图进行处理。

具体地，首先计算时域向量与时频域特征图中的每个特征值的第一交叉熵数值，并基于第一交叉熵数值对时频域特征图中的各个特征值进行聚类，并基于聚类结果赋予各个特征值不同的权重，以获得时域模式特征图。这样，由于时域模式特征图针对各个位置的特征值与初始时域模式的分布一致性来区分各个位置的特征值，可以进一步表达出初始的时域模式信息。类似地，获得频域模式特征图，以表达出初始的频域模式信息。最后，融合时域模式特征图和频域模式特征图以得到编码特征图，再将编码特征图通过编码器获得增益控制结果，例如，增益控制的具体数值或者类别数值

基于此，本申请提出了一种音频放大器的增益控制方法，其包括：获取输入音频放大器的音频信号；从所述音频信号中获取其在时域中各个时间点的幅度值，并将所述各个时间点的幅度值排列为时域向量；对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量；基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵；将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图；计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果；基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图；计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果；基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图；融合所述时域模式特征图和所述频域模式特征图以获得编码特征图；以及，将所述编码特征图通过编码器以获得增益控制结果。

如图1所示，在该应用场景中，在控制器端(例如，如图1中所示意的S)获得输入音频放大器(例如，如图1中所示意的V)的音频信号，其中，在所述控制器端部署有音频放大器的增益控制算法。相应地，在接收到所述音频信号后，所述服务器能够音频放大器的增益控制算法对音频信号进行处理，以生成增益控制结果。相应地，所述音频放大器的增益控制算法不仅基于音频放大器的输入信号的电平大小，而且进一步挖掘输入的音频信号中的高维统计特征，从而能够识别出音频信号中的预定模式，以提高音频放大器的增益控制准确度。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了根据本申请实施例的音频放大器的增益控制方法的流程图。如图2所示，根据本申请实施例的音频放大器的增益控制方法，包括：S110，获取输入音频放大器的音频信号；S120，从所述音频信号中获取其在时域中各个时间点的幅度值，并将所述各个时间点的幅度值排列为时域向量；S130，对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量；S140，基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵；S150，将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图；S160，计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果；S170，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图；S180，计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果；S190，基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图；S200，融合所述时域模式特征图和所述频域模式特征图以获得编码特征图；以及，S210，将所述编码特征图通过编码器以获得增益控制结果。

图3图示了根据本申请实施例的音频放大器的增益控制方法的架构示意图。如图3所示，在根据本申请实施例的所述音频放大器的增益控制方法的架构中，首先从获取的音频信号中获取其在时域中各个时间点的幅度值(例如，如图3中所示意的A1至An)，并将所述各个时间点的幅度值排列为时域向量(例如，如图3中所示意的V1)。应可以理解，音频信号在时域上的表现为横轴是时间，纵轴是幅度值，因此，可从所述音频信号在时域中的波形图像中选择多个时间点并提取各个时间点对应的幅度值。接着，对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值(例如，如图3中所示意的F1至Fn)，并将所述各个时间点的频率值排列为频域向量(例如，如图3中所示意的V2)。应可以理解，对所述音频信号进行傅里叶变换其目的在于将音频信号从时域空间转化到频域空间中，进而提取对应时间点的频率值并将这些频率值构造为频域向量。然后，基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵(例如，如图3中所示意的M)。在本申请实施例中，以所述时域向量与所述频域向量的转置进行矩阵相乘的方式来构造所述时-频域关联矩阵。应可以理解，在本申请其他示例中，还可以采用其他方式来构造此关联矩阵，例如，以所述频域向量与所述时域向量的转置进行矩阵相乘，对此，并不为本申请所局限。进而，将所述时-频域关联矩阵输入卷积神经网络(例如，如图3中所示意的CNN)以获得时频域特征图(例如，如图3中所示意的F1)。也就是，以卷积神经网络来对所述时-频域关联矩阵进行空间卷积处理以对所述时-频域关联矩阵进行隐式编码，以挖掘出音频信号中的高维时域-频域关联特征，即，所述时频域特征图。然后，计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果。接着，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图(例如，如图3中所示意的F11)。接着，计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果。并且，基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图(例如，如图3中所示意的F21)。然后，融合所述时域模式特征图和所述频域模式特征图以获得编码特征图(例如，如图3中所示意的Fc)。进而，将所述编码特征图通过编码器(例如，如图3中所示意的Encoder)以获得增益控制结果。

在步骤S110中，获取输入音频放大器的音频信号。应可以理解，音频放大器(例如，音箱)通过功率放大器对输入的音频信号以预设增益进行功率放大。因此，增益是核心控制参数。

在步骤S120中，从所述音频信号中获取其在时域中各个时间点的幅度值，并将所述各个时间点的幅度值排列为时域向量。输入的音频信号是波形信号，其在时域上表现为时间-振幅数据。在本申请实施例中，为了全面考虑音频信号的时域特征和频域特征，首先，构造用于提取时域特征的数据，即，所述时域向量。

具体地，从所述音频信号的波形信号中选择多个时间点并提取各个时间点的幅度值，以获得由多个幅度值构成的时域向量。在具体实施中，所述多个时间点可以是多个预定时间间隔的时间点，其中，该时间间隔的设定可基于实际应用场景的需求所设定，需兼顾两个方面：计算量和数据表征能力，即，所选择的时间点不能过多，如果过多的话会导致计算量过大，当然也不能过少，过少则无法表征音频信号在频域特征。

在步骤S130中，对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量。相应地，为了提取所述音频信号的频域特征，同样需构造用于所述音频信号在频域空间的数据，即，所述频域向量。

具体地，首先对所述音频信号进行傅里叶变换以将所述音频信号从时域转换到频域，应可以理解，在数据处理时傅里叶变换是常用的时域-频域变换手段，当然也可以采用其他数据变换手段，例如，小波变换等，对此，并不为本申请所局限。在进行空间域变换后，获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量。这里，所述频率值的排列顺序与所述幅度值的排列顺序相同，例如，两者都以时间的先后顺序进行排列。

在步骤S140中，基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵。如上所述，音频信号的时域特征和频域特征是存在关联的，例如，当音乐处于激昂的音乐模式下，虽然这时输入的音频信号的电平大小可能较大，但显然不应该减小音频放大器的增益。同样地，即使同为音频信号的电平大小较小的情况，缓和情绪下的音乐模式和高潮来临前的情绪铺垫下的音乐模式也不应该具有相同的增益。因此，为了提取这种复杂的关联，构建所述音频信号在时域和频域上关联的时-频域关联矩阵。

在本申请一个具体的示例中，构造时-频域关联矩阵的方式为：将所述时域向量与所述频域向量的转置进行矩阵相乘，或者，将所述频域向量与所述时域向量的转置进行矩阵相乘。

应可以理解，在本申请实施例中，所述时域向量和所述频域向量具有相同的维度，例如，都是1*N，相应地，通过上述矩阵相乘运算所得到的时-频域关联矩阵的大小为N*N，其中，所述时-频域关联矩阵中每个位置的特征值表示各个时间点的幅度值和频率值之间的关联。

在步骤S150中，将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图。也就是，以深度卷积神经网络对所述时-频域关联矩阵进行空间卷积处理，以挖掘出音频信号中的高维时域-频域关联特征。应可以理解，通过使用卷积神经网络来挖掘输入的音频信号中的高维统计特征，能够识别出音频信号中的预定模式，从而准确地控制音频放大器的增益。

本领域普通技术人员应知晓，卷积神经网络在提取局部特征方面具有优异的表现，其通过滤波器(即，卷积核)和输入数据进行卷积运算来挖掘出输入数据中各个相邻元素之间的关联，对应到本申请中，挖掘出所述音频信号中的高维时域-频域关联特征。

在本申请一个具体的示例中，所述卷积神经网络以如下公式从所述时-频域关联矩阵提取出所述音频信号的高维时域-频域关联特征以获得所述时频域特征图；

所述公式为：f_i＝tanh(N_i×f_i-1+B_i)

特别地，在本申请实施例中，所述深度卷积神经网络的激活函数为tanh非线性激活函数而非常规的Sigmoid函数。相较于Sigmoid函数，tanh非线性激活函数更不容易导致梯度弥散问题。

进一步地，虽然使用卷积神经网络来挖掘输入的音频信号中的高维统计特征，能够识别出音频信号中的预定模式，但这种关联特征本身反映的是时域和频域之间的关联特征，其相对于时域和频域本身的模式会有损失，也就是，使用时域和频域的关联信息来提取出时频域特征图能够从音频信号中跨维度地提取出表达维度间统计关联特征的全局模式信息，但其相对于时域和频域本身的模式会有损失，因此，需要进一步基于初始的时域模式和频域模式对于时频域特征图进行处理。

具体地，在步骤S160中，计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果。以及，在步骤S170中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图。

也就是，在步骤S160和步骤S170中，首先计算时域向量与时频域特征图中的每个特征值的第一交叉熵数值，并基于第一交叉熵数值对时频域特征图中的各个特征值进行聚类，并基于聚类结果赋予各个特征值不同的权重，以获得时域模式特征图。这样，由于时域模式特征图针对各个位置的特征值与初始时域模式的分布一致性来区分各个位置的特征值，可以进一步表达出初始的时域模式信息。

更具体地，本领域普通技术人员应知晓，交叉熵表示两个概率分布之间的相近程度，对应到步骤S160中，所述时域向量与时频域特征图中的每个特征值的第一交叉熵数值表示时频域特征图中各个位置的特征值与所述时域向量的分布一致性，而相应地所述时域向量表示的是所述音频信号初始的时域模式信息，因此，基于所述第一交叉熵数值进行聚类并对所述时频域特征图进行调整能够进一步表达出初始的时域模式信息。

在本申请一个具体的示例中，基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果的过程，包括：首先计算所述时频域特征图中各个位置的第一交叉熵数值之间的差值，应可以理解，差值越小表示相应两位置的特征表示更为接近，因此，可确定为同一类别。相应地，然后，基于所述时频域特征图中各个位置的第一交叉熵数值之间的差值，对所述时频域特征图中的各个位置的特征值进行聚类以获得所述第一聚类结果。在具体实施中，可设定差值小于第一预设阈值的为第一类、大于等于第一预设阈值且小于第二预设位置的为第二类，大于等于第二预设阈值的为第三类。应可以理解，所述第一预设阈值、所述第二预设阈值可基于实际应用场景的需求所设定，或者，作为超参数参与到所述深度卷积神经网络的训练过程中，对此，并不为本申请所局限。并且，可设置更多的预设阈值进行更为细致地分类，对此，也并不为本申请所局限。

图4图示了根据本申请实施例的音频放大器的增益控制方法中，计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果的流程图。如图4所示，聚类的过程，包括步骤：S310，计算所述时频域特征图中各个位置的第一交叉熵数值之间的差值；以及，S320，基于所述时频域特征图中各个位置的第一交叉熵数值之间的差值，对所述时频域特征图中的各个位置的特征值进行聚类以获得所述第一聚类结果。

值得一提的是，在本申请其他示例中，还可以采用其他方式进行基于第一交叉熵数值的聚类，例如，使用经典的K-聚类算法来进行聚类，对此，并不为本申请所局限。

在获得所述第一聚类结果后，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图。也就是，在所述时频域特征图中融合初始时域模式以使得所述时域模式特征图不仅能够从音频信号中跨维度地提取出表达维度间统计关联特征的全局模式信息，而后通过融合初始时域模式又能够提取出表达维度内信息的局部模式信息，通过这样的方式，准确地控制音频放大器的增益。

具体地，在本申请一个具体的示例中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图的过程，包括：首先为所述第一聚类结果中不同类分别赋予不同权重值，以获得第一权重特征图，也就是，对应于不同类分别赋予不同的权重值，这里，不同类所对应的权重值可作为超参数参与到训练过程中。应可以理解，本质上所述第一权重特征图是一个得分图，其表示所述时频域特征图中各个位置在考虑到时域初始模式信息下需被加强增益的程度。接着，计算所述第一权重特征图与所述时频域特征图之间的按位置点乘，以获得所述时域模式特征图，也就是，将所述第一权重特征图作用于所述时频域特征图，以使得所述时域模式特征图能够进一步表达出初始的时域模式信息。

图5图示了根据本申请实施例的音频放大器的增益控制方法中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图的流程图。如图5所示，在本申请实施例中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图，包括步骤：S410，为所述第一聚类结果中不同类分别赋予不同权重值，以获得第一权重特征图；以及，S420，计算所述第一权重特征图与所述时频域特征图之间的按位置点乘，以获得所述时域模式特征图。

在步骤S180中，计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果。以及，在步骤S190中，基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图。也就是，以类似的处理方式获得频域模式特征图以表达出初始的频域模式信息。

具体地，在步骤S180和步骤S190中，所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值用于表示所述时频域特征图中的各个位置的特征值与所述频域向量的分布的相一致程度，而所述频域向量表示所述音频信号初始的频域模式信息，因此，在基于所述第二交叉熵数值进行聚类后并基于聚类结果获得的所述频域模式特征图能够进一步表达出初始的频域模式信息。

值得一提的是，在步骤S160至步骤S190中，首先使用时域和频域的关联信息来提取出时频域特征图，从而能够从音频信号中跨维度地提取出表达维度间统计关联特征的全局模式信息，而后通过融合初始时域模式和初始频域模式，又能够提取出分别表达维度内信息的局部模式信息，从而融合全局模式信息和局部模式信息提高增益控制的准确性。

在步骤S200中，融合所述时域模式特征图和所述频域模式特征图以获得编码特征图。在一个具体的示例中，融合所述时域模式特征图和所述频域模式特征图以获得编码特征图的方式为：计算所述时域模式特征图和所述频域模式特征图之间的按位置加权和以获得所述编码特征图，也就是，计算所述时域模式特征图和所述频域模式特征图在像素级别的按位置加权和以获得所述编码特征图。应可以理解，在计算加权的过程中，当所述时域模式特征图的权重较大时表示在确定增益时更应注重时域特征，而当所述频域模式特征图的权重较大时表示在确定增益时更应注重频域特征。

在本申请一些示例中，所述权重也可以作为超参数参与到所述卷积神经网络的训练过程中。

在步骤S210中，将所述编码特征图通过编码器以获得增益控制结果。也就是，将所述编码特征图通过编码器获得增益控制结果，例如，增益控制的具体数值或者类别数值。应可以理解，当所述增益控制结果为具体的数值时，所述编码器本质上是一个回归器，例如，在一个具体的示例中，所述编码器为由多个全连接层组成的编码器，其能够充分利用所述编码特征图中各个位置的信息来提高回归精度，即，增益效果的控制准确度。当所述增益控制结果为类别数值时，所述编码器本质上是一个分类器，例如，在一个具体的示例中，所述编码器基于逻辑斯蒂回归模型对所述编码特征图进行处理以获得增益效果的类别数值。

综上，基于本申请实施例的音频放大器的增益控制方法被阐明，其通过深度神经网络模型，不仅基于音频放大器的输入信号的电平大小，而且进一步挖掘输入的音频信号中的高维统计特征以识别出音频信号中的预定模式，通过这样的方式提高音频放大器的增益控制准确度。

并且，所述方法通过使用卷积神经网络来挖掘输入的音频信号中的高维统计特征，能够识别出音频信号中的预定模式，从而准确地控制音频放大器的增益。

进一步地，首先使用时域和频域的关联信息来提取出时频域特征图，从而能够从音频信号中跨维度地提取出表达维度间统计关联特征的全局模式信息，而后通过融合初始时域模式和初始频域模式，又能够提取出分别表达维度内信息的局部模式信息，从而融合全局模式信息和局部模式信息提高增益控制的准确性。

示例性装置

如图6所示，根据本申请实施例的音频放大器的增益控制装置500，包括：音频信号单元510，用于获取输入音频放大器的音频信号；时域向量构造单元520，用于从所述音频信号中获取其在时域中各个时间点的幅度值，并将所述各个时间点的幅度值排列为时域向量；频域向量构造单元530，用于对所述音频信号进行傅里叶变换以获得所述各个时间点的幅度值在频域中对应的频率值，并将所述各个时间点的频率值排列为频域向量；关联单元540，用于基于所述时域向量和所述频域向量，构建用于表示所述音频信号在时域和频域上关联的时-频域关联矩阵；神经网络单元550，用于将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图；第一交叉熵聚类单元560，用于计算所述时域向量与所述时频域特征图中的各个位置的特征值之间的第一交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果；时域模式特征图生成单元570，用于基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图；第二交叉熵聚类单元580，用于计算所述频域向量与所述时频域特征图中的各个位置的特征值之间的第二交叉熵数值，并基于所述时频域特征图中各个位置的特征值对应的第二交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第二聚类结果；频域模式特征图生成单元590，用于基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图；特征图融合单元600，用于融合所述时域模式特征图和所述频域模式特征图以获得编码特征图；以及，增益控制结果生成单元610，用于将所述编码特征图通过编码器以获得增益控制结果。

在一个示例中，在上述增益控制装置500中，所述关联单元540，进一步用于：将所述时域向量与所述频域向量的转置进行矩阵相乘以获得所述时-频域关联矩阵。

在一个示例中，在上述增益控制装置500中，所述卷积神经网络以如下公式从所述时-频域关联矩阵提取出所述音频信号的高维时域-频域关联特征以获得所述时频域特征图；

所述公式为：f_i＝tanh(N_i×f_i-1+B_i)

在一个示例中，在上述增益控制装置500中，所述第一交叉熵聚类单元560，进一步用于：计算所述时频域特征图中各个位置的第一交叉熵数值之间的差值；以及，基于所述时频域特征图中各个位置的第一交叉熵数值之间的差值，对所述时频域特征图中的各个位置的特征值进行聚类以获得所述第一聚类结果。

在一个示例中，在上述增益控制装置500中，所述时域模式特征图生成单元570，进一步用于：为所述第一聚类结果中不同类分别赋予不同权重值，以获得第一权重特征图；以及，计算所述第一权重特征图与所述时频域特征图之间的按位置点乘，以获得所述时域模式特征图。

在一个示例中，在上述增益控制装置500中，所述频域模式特征图生成单元590，进一步用于：为所述第二聚类结果中不同类分别赋予不同权重值，以获得第二权重特征图；以及，计算所述第二权重特征图与所述时频域特征图之间的按位置点乘，以获得所述频域模式特征图。

在一个示例中，在上述增益控制装置500中，所述特征图融合单元600，进一步用于：计算所述时域模式特征图和所述频域模式特征图之间的按位置加权和，以获得所述编码特征图。

在一个示例中，在上述增益控制装置500中，所述增益控制结果生成单元610，进一步用于：使用所述编码器的一个或多个全连接层对所述编码特征图中各个位置的特征值进行编码以获得编码值作为所述增益控制结果。

这里，本领域技术人员可以理解，上述增益控制装置500中的各个单元和模块的具体功能和操作已经在上面参考图1到图5的音频放大器的增益控制方法描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的增益控制装置500可以实现在各种终端设备中，例如用于音频放大器的增益控制的控制器等。在一个示例中，根据本申请实施例的增益控制装置500可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该增益控制装置500可以是该终端设备的操作装置中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该增益控制装置500同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该增益控制装置500与该终端设备也可以是分立的设备，并且该增益控制装置500可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的音频放大器的增益控制方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如音频信号、增益控制结果等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线装置和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括增益控制结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频放大器的增益控制方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频放大器的增益控制方法中的功能中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

Claims

1.一种音频放大器的增益控制方法，其特征在于，包括：

获取输入音频放大器的音频信号；

将所述编码特征图通过编码器以获得增益控制结果。

2.根据权利要求1所述的音频放大器的增益控制方法，其中，基于所述时域向量和所述频域向量构建用于表示所述音频信号在时域和频率上的关联的时-频域关联矩阵，包括：

3.根据权利要求1所述的音频放大器的增益控制方法，其中，将所述时-频域关联矩阵输入卷积神经网络以获得时频域特征图，包括：

所述卷积神经网络以如下公式从所述时-频域关联矩阵提取出所述音频信号的高维时域-频域关联特征以获得所述时频域特征图；

所述公式为：f_i＝tanh(N_i×f_i-1+B_i)

4.根据权利要求1所述的音频放大器的增益控制方法，其中，基于所述时频域特征图中各个位置的特征值对应的第一交叉熵数值对所述时频域特征图中的各个位置的特征值进行聚类，以获得第一聚类结果，包括：

计算所述时频域特征图中各个位置的第一交叉熵数值之间的差值；以及

基于所述时频域特征图中各个位置的第一交叉熵数值之间的差值，对所述时频域特征图中的各个位置的特征值进行聚类以获得所述第一聚类结果。

5.根据权利要求4所述的音频放大器的增益控制方法，其中，基于所述第一聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得时域模式特征图，包括：

为所述第一聚类结果中不同类分别赋予不同权重值，以获得第一权重特征图；以及

计算所述第一权重特征图与所述时频域特征图之间的按位置点乘，以获得所述时域模式特征图。

6.根据权利要求5所述的音频放大器的增益控制方法，其中，基于所述第二聚类结果为所述时频域特征图中各个位置的特征值赋予不同的权重，以获得频域模式特征图，包括：

为所述第二聚类结果中不同类分别赋予不同权重值，以获得第二权重特征图；以及

计算所述第二权重特征图与所述时频域特征图之间的按位置点乘，以获得所述频域模式特征图。

7.根据权利要求6所述的音频放大器的增益控制方法，其中，融合所述时域模式特征图和所述频域模式特征图以获得编码特征图，包括：

计算所述时域模式特征图和所述频域模式特征图之间的按位置加权和，以获得所述编码特征图。

8.根据权利要求7所述的音频放大器的增益控制方法，其中，将所述编码特征图通过编码器以获得增益控制结果，包括：

使用所述编码器的一个或多个全连接层对所述编码特征图中各个位置的特征值进行编码以获得编码值作为所述增益控制结果。

9.一种音频放大器的增益控制装置，其特征在于，包括：

音频信号单元，用于获取输入音频放大器的音频信号；

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的音频放大器的增益控制方法。