CN102568481A

CN102568481A - 用于实现aqmf处理的方法、和用于实现sqmf处理的方法

Info

Publication number: CN102568481A
Application number: CN2010106132523A
Authority: CN
Inventors: 司马婷婷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-21
Filing date: 2010-12-21
Publication date: 2012-07-11
Anticipated expiration: 2030-12-21
Also published as: CN102568481B

Abstract

提供了用于实现AQMF处理的方法、和用于实现SQMF处理的方法。用于实现AQMF处理的方法包括：CPU将当前需要进行AQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵input_data_new，并将在当前需要进行AQMF处理的音频数据帧之前进行AQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵input_data_old；CPU利用数据元素矩阵input_data_new、数据元素矩阵input_data_old、以及多个窗系数来实现对当前需要进行AQMF处理的音频数据帧的AQMF处理。

Description

用于实现AQMF处理的方法、和用于实现SQMF处理的方法

技术领域

本发明涉及嵌入式音频设备领域，更具体地涉及用于实现AQMF处理的方法、以及用于实现SQMF处理的方法。

背景技术

目前，手持设备已经是普及率非常高的嵌入式设备，而音频解码器是手持设备的必备功能。对于手持设备的主CPU(中央处理单元)来说，音频解码器的计算是一项负担沉重的任务。而在音频解码器中运算量最大的就是时频域的变换部分，特别是SBR(频带复制)解码器中的AQMF(分析正交镜像滤波)处理与SQMF(综合正交镜像滤波)处理，几乎占用了超过60％的解码时间。在很多情况下，手持设备通过其中包含的带有DSP(数字信号处理)功能的附加CPU来完成音频解码器的计算任务。这造成了手持设备的制造成本较高且开发时间较长的问题。

发明内容

鉴于以上所述的问题，本发明提供了一种用于实现AQMF处理的方法、以及一种用于实现SQMF处理的方法。

根据本发明实施例的用于实现AQMF处理的方法，包括：CPU将当前需要进行AQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵input_data_new，并将在当前需要进行AQMF处理的音频数据帧之前进行AQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵input_data_old；GPU利用数据元素矩阵input_data_new、数据元素矩阵input_data_old、以及多个窗系数来实现对当前需要进行AQMF处理的音频数据帧的AQMF处理。

根据本发明实施例的用于实现SQMF处理的方法，包括：CPU将当前需要进行SQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵X_new；GPU利用数据元素矩阵X_new、GPU中存储的作为在当前需要进行SQMF处理的音频数据帧之前进行SQMF处理的音频数据帧的QMF处理结果的数据元素矩阵y_old、以及多个窗系数，来实现对当前需要进行SQMF处理的音频数据帧的SQMF处理。

根据本发明实施例的用于实现AQMF处理的方法和用于实现SQMF处理的方法利用GPU的并行处理能力，通过调用OpenGL ES 2.0API(应用程序接口)实现了对于音频数据的并行处理，从而加速了实现AQMF处理和SQMF处理的运算过程。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明，其中：

图1示出了根据本发明实施例的用于实现AQMF处理的方法的示例性流程图；

图2示出了根据本发明实施例的用于实现SQMF处理的方法的示例性流程图；以及

图3示出了通过GPU实现的运算过程的示意图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

当前，越来越多的手持设备具有内置GPU(图形处理单元)，并且GPGPU(通用GPU)可以被应用在很多领域。本发明试图结合使用GPU和CPU二者，在手持设备中完成AQMF处理和SQMF处理。其中，AQMF处理和SQMF处理中的最繁重的计算任务由GPU来承担，而其他任务由主CPU来实现。这样，手持设备不再需要通过带有DSP功能的附加CPU来完成音频解码器的计算任务，从而可以降低手持设备的制造成本和开发时间。

GPU虽然传统上是处理视频信号的处理器，但是它强大的并行计算能力同样可以用在其他领域。本发明就是利用GPU的并行处理能力，通过调用OpenGL ES 2.0API(应用程序接口)来加速实现AQMF处理和SQMF处理的运算过程。

GPU运算的基本过程如图3所示。首先对于处理前的图像，建立一个顶点缓存对象。然后，通过设置顶点着色器302来决定需要绘制的图像的位置与形状等信息，接着顶点着色器302将这些信息翻译为像素点的坐标信息等。接着，通过对片断着色器304进行设置，告知片断着色器304对于每一个像素的RGB值等数据的计算方法，然后由片断着色器同时对每个像素进行计算。在片断着色器的运算过程中，还有可能用到纹理值(纹理值存储在纹理值存储器306中)。纹理值是存储了像素信息的一小幅图像。这些纹理值可以是片断着色器在计算像素值时用到的输入值。最后，片断着色器305的计算结果被保存在帧缓存308中。在这个过程中，所有的设置都是通过OpenGL ES 2.0API来完成的。

本发明在使用GPU计算音频数据时，主要用到了顶点着色器302、片断着色器304、纹理值存储器306、以及帧缓存308。具体地，将需要计算的音频数据排列成二维矩阵，将二维矩阵视为需要处理的图像，并且将二维矩阵中的分量值视为图像像素的RGB值。其中，顶点着色器302被用来设置二维矩阵的大小，片断着色器304被用来计算二维矩阵中的分量值，并且纹理值存储器306中的纹理值被用作计算二维矩阵中的分量值的输入值，帧缓存308被用来保存最后的计算结果。

一般，音频解码器通过对所接收的音频数据进行AAC(高级音频编码)解码或者MP3解码后得到的每一个音频数据帧包括32×32个数据元素(时域元素)。传统上在对任意一个音频数据帧进行AQMF处理时，需要将该音频数据帧中包括的32×32个数据元素分32次输入给AQMF处理单元(每次输入32个数据元素)，由AQMF处理单元分32次完成该音频数据帧的AQMF处理(每次完成对于新输入的32个数据元素的AQMF处理)。AQMF处理单元实现AQMF处理的过程包括以下步骤：

1)数据更新

用新输入的32个数据元素Input_data[0]至Input_data[31]来更新AQMF处理单元中的数据缓存(该数据缓存最多能容纳320个数据元素)的第0至31个缓存条目x[0]至x[31]，将该数据缓存的第0至288个缓存条目x[0]至x[288]中原先存储的数据元素依次存储在该数据缓存的第32至319个缓存条目x[32]至x[319]中，并将该数据缓存的第288至319个缓存条目x[288]至x[319]中原先存储的数据元素舍弃。这里，用x[n]来表示数据缓存的第n个缓存条目中存储的数据元素，其中n为整数且0≤n≤319。

2)加窗以及叠加

这里，存在640个窗系数c[0]～c[639]。利用窗系数c[0]～c[639]、以及数据缓存中的数据元素x[0]～x[319]，根据以下等式计算中间变量z[n](n为整数且0≤n≤319)：

z[n]＝x[n]×c[2×n]

实际上，在计算中间变量z[n]的过程中只用到了640个窗系数c[0]～c[639]中的320个窗系数c[0]、c[2]、c[4]、…、c[638]。

然后，利用中间变量z[0]～z[319]，根据以下等式计算中间变量u[m](m为整数且0≤m≤63)：

u [m] = Σ_{j = 0}^{4} z [m + j \times 64]

3)QMF(正交镜像滤波)处理

假设用X_low[k](k为整数且0≤k≤31)来表示QMF处理结果，则

X_{low} [k] = Σ_{m = 0}^{63} u [m] \exp (\frac{iπ}{64} (k + 0.5) (2 m - 0.5))

(其中，i表示虚数单位)

在本发明的一个实施例中，通过结合使用CPU和GPU来实现音频解码器中的AQMF处理。这里，GPU将音频数据帧包含的数据元素当作图像像素进行处理。下面参考图1，描述结合使用CPU和GPU二者来实现AQMF处理的过程。具体地，结合使用CPU和GPU来实现AQMF处理的过程包括：

1)数据准备(S111)

CPU 101将当前需要进行AQMF处理的音频数据帧包括的32×32个数据元素排列为32×32的数据元素矩阵input_data_new，并将在当前需要进行AQMF处理的音频数据帧之前进行AQMF处理的音频数据帧(即，在时间上位于当前需要进行AQMF处理的音频数据帧之前的音频数据帧)的32×32个数据元素排列为32×32的数据元素矩阵input_data_old(数据元素矩阵input_data_old的初始值全部为0)，将这两个数据元素矩阵保存在应用存储器121中，并将这两个数据元素矩阵传输给图形存储器122(图形存储器122专供GPU 102使用)。

2)数据更新(S112)

通过GPU中的顶点着色器设置一个尺寸为32×320(32行×320列)的图像(其中，每个像素位置的像素值用x[m][n]表示，m和n均为整数并且0≤m≤31，0≤n≤319)，并将该图像存储到图形存储器122中。

其中，GPU中的片断着色器利用数据元素矩阵input_data_new和数据元素矩阵input_data_old，根据以下等式生成每个像素位置的像素值x[m][n]：

Δ＝m-[n/32]

如果Δ≥0，

则x[m][n]＝input_data_new[Δ][mod(n，32)]，

否则x[m][n]＝input_data_old[32-Δ][mod(n，32)]。其中，mod()表示求余函数，[]表示取整运算。

3)加窗以及叠加(S113)

GPU中的片断着色器利用窗系数c[0]～c[319](AQMF中只用到320个窗系数，并且这些窗系数被排列为这样的一维矩阵，该一维矩阵中的数据元素为c[0][0]至c[0][319])作为纹理值，根据以下等式计算中间变量u[m][q](m和q均为整数并且0≤m≤31，0≤q≤31)：

u [m] [q] = Σ_{i = 0}^{4} x [m] [q + 64 i] \times c [0] [q + 64 i]

4)QMF处理(S114)

假设用X_low[m][p](m和p均为整数，且0≤m≤31，0≤p≤63)来表示QMF处理结果。其中，X_low[m][p](0≤p≤31)表示QMF处理结果的实数部分，X_low[m][p](32≤p≤63)表示QMF处理结果的虚数部分。

GPU中的片断着色器使用u[m][q]作为纹理值，如下计算X_low[m][p]：

如果p＜32，则

X_{low} [m] [p] = Σ_{i = 0}^{63} u [m] [i] \times \cos (\frac{π}{64} (p + 0.5) (2 i - 0.5))

否则，

X_{low} [m] [p] = Σ_{i = 0}^{63} u [m] [i] \times \sin (\frac{π}{64} (p - 32 + 0.5) (2 i - 0.5)) .

5)后处理(S115)

在GPU计算出X_low[m][p]之后，CPU获取X_low[m][p]并将其存储在应用存储器123中。

一般，音频解码器通过对所接收的音频数据进行SBR(频带复制)处理后得到的每一个音频数据帧包括64×32个数据元素(频域元素)。在对任意一个音频数据帧进行SQMF处理时，将该音频数据帧中包括的64×32个数据元素分32次输入给SQMF处理单元(每次输入64个数据元素)，由SQMF处理单元分32次完成该音频数据帧的SQMF处理(每次完成对于新输入的64个数据元素的SQMF处理)。SQMF处理单元实现SQMF处理的过程包括以下步骤：

1)QMF处理

这里，假设新输入的64个数据元素为X[0]～X[63]。根据以下等式对该64个数据元素进行QMF处理，得出以下QMF处理结果y[n](n为整数，且0≤n≤127)：

y [n] = Re [Σ_{k = 0}^{63} X [k] \exp (\frac{iπ}{128} (k + 0.5) (2 n - 255))]

(其中，i表示虚数单位)

2)数据更新

用128个QMF处理结果y[0]至y[127]来更新SQMF处理单元中的数据缓存(该数据缓存最多能容纳1280个数据元素)的第0至127个缓存条目v[0]至v[127]，将该数据缓存的第0至1151个缓存条目v[0]至v[1151]中原先存储的数据元素依次存储在该数据缓存的第128至1279个缓存条目v[128]至v[1279]中，并将该数据缓存的第1152至1279个缓存条目v[1152]至x[1279]中原先存储的数据元素舍弃。这里，用v[g]来表示数据缓存的第g个缓存条目中存储的数据元素，其中g为整数且0≤g≤1279。

然后，根据以下等式从v[0]～v[1279]中选择640个数据元素：

g[128*q+p]＝v[256*q+p](其中，q和p均取整数，且0≤q≤4，0≤p≤63)

g[128*q+64+p]＝v[256*q+192+p](其中，q和p均取整数，且0≤q≤4，0≤p≤63)。

3)加窗以及叠加

这里，需要640个窗系数c[0]～c[639]。利用窗系数c[0]～c[639]、以及所选择的640个数据元素g[0]～g[639]，根据以下等式计算中间变量w[h](h为整数且0≤h≤639)：

w[h]＝g[h]×c[h]

然后，利用中间变量w[0]～w[639]，根据以下等式计算最终的处理结果x[k](k为整数且0≤k≤63)：

x [k] = Σ_{j = 0}^{9} w [k + j \times 64]

在本发明中，通过结合使用CPU和GPU来实现音频解码器中的SQMF处理。这里，GPU将需要进行SQMF处理的音频数据帧包含的数据元素当作图像像素进行处理。下面参考图2，描述结合使用CPU和GPU来实现SQMF处理的过程。具体地，结合使用CPU和GPU来实现SQMF处理的过程包括：

1)数据准备(S211)

CPU 201将当前需要进行SQMF处理的音频数据帧包括的64×32个数据元素(频域数据，为虚数)排列为32×128(32行×128列)的数据元素矩阵X_new，将这个数据元素矩阵保存在应用存储器221中，并将这个数据元素矩阵传输给图形存储器222(图形存储器222中的数据由GPU202读取和/或写入)。其中，数据元素矩阵X_new中的第0至32行、第0至63列的数据元素是实数，第0至32行、第64至127列的数据元素是虚数。图形存储器222中还存储有由GPU 202计算得出的在当前需要进行SQMF处理的音频数据帧之前进行SQMF处理的音频数据帧(即，在时间上位于当前需要进行SQMF处理的音频数据帧之前的音频数据帧)的QMF处理结果y_old(数据元素矩阵y_old包括32×128(32行×128列)个数据元素)(y_old的初始值全部为0)。

2)QMF处理(S212)

GPU 202中的片断着色器根据以下等式生成对应于数据元素矩阵x_new的QMF处理结果y_new[m][n](其中，m和n均为整数，0≤m≤31，0≤n≤127)，并将数据元素矩阵y_new存储在图形存储器222中：

Re = Σ_{i = 0}^{63} X [m] [i] * \cos (\frac{π}{128} (i + 0.5) (2 n - 255))

Im = Σ_{i = 0}^{63} X [m] [i + 64] * \sin (\frac{π}{128} (i - 32 + 0.5) (2 n - 255))

y_new[m][n]＝Re-Im

3)数据更新(S213)

GPU 202中的片断着色器使用存储在图形存储器222中的数据元素矩阵y_new和y_old中的数据元素作为纹理值，根据以下等式生成中间变量g[m][n](m和n均为整数，且0≤m≤31，0≤n≤127)：

Δ＝m-[n/64]

如果Δ≥0，

则g[m][n]＝y_new[Δ][mod(n，128)]，

否则g[m][n]＝y_old[32-Δ][mod(n，128)]。其中，mod()表示求余函数，[]表示取整运算。

4)加窗以及叠加(S214)

这里假设用x[m][k](m和k均为整数，且0≤m≤31，0≤k≤63)来表示SQMF处理结果。GPU 202中的片断着色器使用g[m][n]和作为纹理值的640个窗系数c[0]～c[639](SQMF中用到640个窗系数，并且这些窗系数被排列为这样的一维矩阵，该一维矩阵中的数据元素为c[0][0]至c[0][639])，根据以下等式生成x[m][k]：

x [m] [k] = Σ_{i = 0}^{9} g [m] [k + 64 i] \times c [0] [k + 64 i]

5)后处理(S215)

在GPU生成x[m][k]之后，CPU从GPU获取x[m][k]，并将x[m][k]存储在应用存储器223中。

由以上的描述可以看出，根据本发明实施例的用于实现AQMF处理的方法和用于实现SQMF处理的方法利用GPU的并行处理能力，通过调用OpenGL ES 2.0API(应用程序接口)实现了对于音频数据的并行处理，从而加速了实现AQMF处理和SQMF处理的运算过程。

另外需要说明的是，虽然以上实施例仅描述了对于包括32×32个数据元素的音频数据帧的AQMF处理和对于包括64×32个数据元素的音频数据帧的SQMF处理，但是本领域技术人员应该明白，对于包括其他数目的数据元素的音频数据帧的AQMF或SQMF处理也可以通过以上所述的方法来实现。

以上已经参考本发明的具体实施例来描述了本发明，但是本领域技术人员均了解，可以对这些具体实施例进行各种修改、组合和变更，而不会脱离由所附权利要求或其等同物限定的本发明的精神和范围。

根据需要可以用硬件或软件来执行步骤。注意，在不脱离本发明范围的前提下，可向本说明书中给出的流程图添加步骤、从中去除步骤或修改其中的步骤。一般来说，流程图只是用来指示用于实现功能的基本操作的一种可能的序列。

本发明的实施例可利用编程的通用数字计算机、利用专用集成电路、可编程逻辑器件、现场可编程门阵列、光的、化学的、生物的、量子的或纳米工程的系统、组件和机构来实现。一般来说，本发明的功能可由本领域已知的任何手段来实现。可以使用分布式或联网系统、组件和电路。数据的通信或传送可以是有线的、无线的或者通过任何其他手段。

还将意识到，根据特定应用的需要，附图中示出的要素中的一个或多个可以按更分离或更集成的方式来实现，或者甚至在某些情况下被去除或被停用。实现可存储在机器可读介质中的程序或代码以允许计算机执行上述任何方法，也在本发明的精神和范围之内。

此外，附图中的任何信号箭头应当被认为仅是示例性的，而不是限制性的，除非另有具体指示。当术语被预见为使分离或组合的能力不清楚时，组件或者步骤的组合也将被认为是已经记载了。

Claims

1.一种用于实现AQMF处理的方法，包括：

CPU将当前需要进行AQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵input_data_new，并将在所述当前需要进行AQMF处理的音频数据帧之前进行AQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵input_data_old；

GPU利用所述数据元素矩阵input_data_new、所述数据元素矩阵input_data_old、以及多个窗系数来实现对所述当前需要进行AQMF处理的音频数据帧的AQMF处理。

2.根据权利要求1所述的用于实现AQMF处理的方法，其特征在于，所述当前需要进行AQMF处理的音频数据帧和在所述当前需要进行AQMF处理的音频数据帧之前进行AQMF处理的音频数据帧均包括32×32个数据元素。

3.根据权利要求2所述的用于实现AQMF处理的方法，其特征在于，所述数据元素矩阵input_data_new和所述数据元素矩阵input_data_old均为32行×32列的数据元素矩阵。

4.根据权利要求3所述的用于实现AQMF处理的方法，其特征在于，GPU通过以下处理来实现对所述当前需要进行AQMF处理的音频数据帧的AQMF处理：

设置一个包括32行×320列像素的图像；

根据以下等式生成每个像素的像素值x[m][n]，其中x[m][n]中的m和n均为整数并且0≤m≤31，0≤n≤319：

Δ＝m-[n/32]

如果Δ≥0，

则x[m][n]＝input_data_new[Δ][mod(n，32)]，

否则x[m][n]＝input_data_old[32-Δ][mod(n，32)]，

其中，mod()表示求余函数，[]表示取整运算；

利用排列为一维矩阵的320个窗系数c[0][0]至c[0][319]，根据以下等式计算中间变量u[m][q]，其中u[m][q]中的m和q均为整数，并且0≤m≤31，0≤q≤31：

u [m] [q] = Σ_{i = 0}^{4} x [m] [q + 64 i] \times c [0] [q + 64 i];

利用中间变量u[m][q]，根据以下等式计算AQMF处理结果X_low[m][p]，其中X_low[m][p]中的m和p均为整数，并且0≤m≤31，0≤p≤63：

如果p＜32，则

X_{low} [m] [p] = Σ_{i = 0}^{63} u [m] [i] \times \cos (\frac{π}{64} (p + 0.5) (2 i - 0.5))

否则，

X_{low} [m] [p] = Σ_{i = 0}^{63} u [m] [i] \times \sin (\frac{π}{64} (p - 32 + 0.5) (2 i - 0.5))

其中，当0≤p≤31时X_low[m][p]表示AQMF处理结果的实数部分，当32≤n≤63时X_low[m][p]表示AQMF处理结果的虚数部分。

5.一种手持设备，其特征在于，通过权利要求1至5中任一项所述的方法来实现AQMF处理。

6.一种用于实现SQMF处理的方法，包括：

CPU将当前需要进行SQMF处理的音频数据帧包括的数据元素排列为数据元素矩阵X_new；

GPU利用所述数据元素矩阵X_new、GPU中存储的作为在所述当前需要进行SQMF处理的音频数据帧之前进行SQMF处理的音频数据帧的QMF处理结果的数据元素矩阵y_old、以及多个窗系数，来实现对所述当前需要进行SQMF处理的音频数据帧的SQMF处理。

7.根据权利要求6所述的用于实现SQMF处理的方法，其特征在于，所述当前需要进行SQMF处理的音频数据帧包括64×32个数据元素。

8.根据权利要求7所述的用于实现SQMF处理的方法，其特征在于，所述数据元素矩阵X_new和所述数据元素矩阵y_old均为32行×128列的数据元素矩阵，并且所述数据元素矩阵X_new中的第0至32行、第0至63列的数据元素是实数，第0至32行、第64至127列的数据元素是虚数。

9.根据权利要求8所述的用于实现SQMF处理的方法，其特征在于，GPU通过以下处理实现对所述当前需要进行SQMF处理的音频数据帧的SQMF处理：

根据以下等式生成作为对应于所述数据元素矩阵X_new的QMF处理结果的数据元素矩阵y_new[m][n]，其中，y_new[m][n]中的m和n均为整数，0≤m≤31，0≤n≤127；

Re = Σ_{i = 0}^{63} X [m] [i] * \cos (\frac{π}{128} (i + 0.5) (2 n - 255))

Im = Σ_{i = 0}^{63} X [m] [i + 64] * \sin (\frac{π}{128} (i - 32 + 0.5) (2 n - 255))

y_new[m][n]＝Re-Im

根据以下等式生成中间变量g[m][n]，其中，g[m][n]中的m和n均为整数，且0≤m≤31，0≤n≤127：

Δ＝m-[n/64]

如果Δ≥0，

则g[m][n]＝y_new[Δ][mod(n，128)]，

否则g[m][n]＝y_old[32-Δ][mod(n，128)]，

其中，mod()表示求余函数，[]表示取整运算；

利用排列为一维矩阵的640个窗系数c[0][0]至c[0][639]、以及中间变量g[m][n]，根据以下等式生成SQMF处理结果x[m][n]，其中，x[m][k]中的m和k均为整数，且0≤m≤31，0≤k≤63：

x [m] [k] = Σ_{i = 0}^{9} g [m] [k + 64 i] \times c [0] [k + 64 i] .

10.一种手持设备，其特征在于，通过权利要求6至9中任一项所述的方法来实现SQMF处理。