CN108597527A

CN108597527A - 多声道音频处理方法、装置、计算机可读存储介质和终端

Info

Publication number: CN108597527A
Application number: CN201810356173.5A
Authority: CN
Inventors: 黄传增
Original assignee: Beijing Microlive Vision Technology Co Ltd
Current assignee: Beijing Microlive Vision Technology Co Ltd
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-09-28
Anticipated expiration: 2038-04-19
Also published as: CN108597527B

Abstract

本发明公开了一种多声道音频处理方法、多声道音频处理装置、多声道音频处理硬件装置、计算机可读存储介质和多声道音频处理终端。其中，该多声道音频处理方法包括：接收待处理多声道音频；检测待处理多声道音频的音频特性；基于检测结果，确定待处理多声道音频的处理参数；基于处理参数，对待处理多声道音频进行处理。本发明实施例通过采取上述技术方案，先检测多声道音频的音频特性；然后，根据该音频特性确定出处理参数；最后基于所确定的处理参数对待处理多声道音频进行处理，由此通过检测出的待处理多声道音频的音频特性并进行相应处理，解决了如何自适应地处理多声道音频的技术问题，而且还提高了用户体验效果。

Description

多声道音频处理方法、装置、计算机可读存储介质和终端

技术领域

本发明涉及一种音频技术领域，特别是涉及一种多声道音频处理方法、装置、计算机可读存储介质和终端。

背景技术

随着音频娱乐互动的流行，人们希望对音频进行处理，以得到不同的听觉效果，从而提高听觉体验。例如，现有技术采用波形相似混叠累加/音调同步的混叠累加方法，以实现同时改变音频的音速和音调，由此来提高用户的听觉体验。

为了更好地满足音频娱乐互动的需求，随着科技的发展，出现了多声道音频。

当需要处理多声道音频，以更好地提高听觉体验时，上述现有技术由于只适于针对单声道音频进行处理，而无法处理多声道音频，从而无法获得更好的听觉体验。

因此，现有技术存在无法自适应地处理多声道音频的缺陷。

发明内容

本发明解决的技术问题是提供一种多声道音频处理方法，以解决如何自适应地处理多声道音频的技术问题。此外，还提供一种多声道音频处理装置、多声道音频处理硬件装置、计算机可读存储介质和多声道音频处理终端。

为了实现上述目的，根据本发明的一个方面，提供以下技术方案：

一种多声道音频处理方法，其特征在于，包括：

接收待处理多声道音频；

检测所述待处理多声道音频的音频特性；

基于检测结果，确定所述待处理多声道音频的处理参数；

基于所述处理参数，对所述待处理多声道音频进行处理。

进一步地，所述音频特性包括瞬态脉冲特性和/或音高特性和/或共振峰特性和/或相位特性和/或频谱特性。

进一步地，所述音频特性包括所述瞬态脉冲特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的音频帧；

当检测到瞬态脉冲时，确定所述音频特性包括所述瞬态脉冲特性；

所述基于检测结果，确定所述待处理多声道音频的处理参数的步骤，包括：

基于所述瞬态脉冲特性，确定所述待处理多声道音频的所述处理参数为音频幅度；

所述基于所述处理参数，对所述待处理多声道音频进行处理的步骤，包括：

将所述瞬态脉冲的音频幅度乘以限幅因子，得到处理后的多声道音频。

进一步地，所述限幅因子通过以下方式确定：

在所述待处理多声道音频的时域内，分别检测所述瞬态脉冲之前、之后的第一数量的采样点和第二数量的采样点；

判断所述第一数量采样点与所述第二数量采样点之间的相关性；

如果所述相关性强，则确定所述限幅因子为第一预定数值；

如果所述相关性弱，则确定所述限幅因子为第二预定数值。

进一步地，所述音频特性包括所述音高特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述音高特性；

基于所述音高特性，确定所述待处理多声道音频的所述处理参数为所述待处理多声道音频的基频；

增大或减小所述待处理多声道音频的所述基频。

进一步地，所述音频特性包括所述共振峰特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述共振峰特性；

基于所述共振峰特性，确定所述待处理多声道音频的所述处理参数为共振峰；

对所述共振峰进行平滑处理。

进一步地，所述音频特性包括所述相位特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述相位特性；

基于所述相位特性，确定所述待处理多声道音频的所述处理参数为：所述待处理多声道音频的相位；

调整所述待处理多声道音频的所述相位。

进一步地，所述音频特性包括所述频谱特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述频谱特性；

基于所述频谱特性，确定所述待处理多声道音频的所述处理参数为频率；

基于所述频率，在频域上对所述待处理多声道音频进行尺度变换。

为了实现上述目的，根据本发明的另一个方面，还提供以下技术方案：

一种多声道音频处理装置，其特征在于，包括：

接收模块，用于接收待处理多声道音频；

检测模块，用于检测所述待处理多声道音频的音频特性；

确定模块，用于基于检测结果，确定所述待处理多声道音频的处理参数；

处理模块，用于基于所述处理参数，对所述待处理多声道音频进行处理。

进一步地，所述音频特性包括所述瞬态脉冲特性；

所述检测模块具体用于：

检测所述待处理多声道音频的音频帧；

所述确定模块具体用于基于所述瞬态脉冲特性，确定所述待处理多声道音频的所述处理参数为音频幅度；

所述处理模块具体用于将所述瞬态脉冲的音频幅度乘以限幅因子，得到处理后的多声道音频。

进一步地，所述处理模块还具体用于通过以下方式确定所述限幅因子：

如果所述相关性强，则确定所述限幅因子为第一预定数值；

如果所述相关性弱，则确定所述限幅因子为第二预定数值。

进一步地，所述音频特性包括所述音高特性；

所述检测模块还具体用于检测所述待处理多声道音频的所述音高特性；

所述确定模块还具体用于基于所述音高特性，确定所述待处理多声道音频的所述处理参数为所述待处理多声道音频的基频；

所述处理模块还具体用于增大或减小所述待处理多声道音频的所述基频。

进一步地，所述音频特性包括所述共振峰特性；

所述检测模块还具体用于检测所述待处理多声道音频的所述共振峰特性；

所述确定模块还具体用于基于所述共振峰特性，确定所述待处理多声道音频的所述处理参数为共振峰；

所述处理模块还具体用于对所述共振峰进行平滑处理。

进一步地，所述音频特性包括所述相位特性；

所述检测模块还具体用于检测所述待处理多声道音频的所述相位特性；

所述确定模块还具体用于基于所述相位特性，确定所述待处理多声道音频的所述处理参数为：所述待处理多声道音频的相位；

所述处理模块还具体用于调整所述待处理多声道音频的所述相位。

进一步地，所述音频特性包括所述频谱特性；

所述检测模块还具体用于检测所述待处理多声道音频的所述频谱特性；

所述确定模块还具体用于基于所述频谱特性，确定所述待处理多声道音频的所述处理参数为频率；

所述处理模块还具体用于基于所述频率，在频域上对所述待处理多声道音频进行尺度变换。

为了实现上述目的，根据本发明的又一个方面，还提供以下技术方案：

一种多声道音频处理硬件装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述任一多声道音频处理方法技术方案。

一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述任一多声道音频处理方法技术方案。

一种视频特征比对终端，包括上述任一多声道音频处理装置。

本发明实施例提供一种多声道音频处理方法、多声道音频处理装置、多声道音频处理硬件装置、计算机可读存储介质和多声道音频处理终端。其中，该多声道音频处理方法包括：接收待处理多声道音频；检测待处理多声道音频的音频特性；基于检测结果，确定待处理多声道音频的处理参数；基于处理参数，对待处理多声道音频进行处理。本发明实施例通过采取上述技术方案，先检测出多声道音频的音频特性；然后，根据该音频特性确定出处理参数；最后基于所确定的处理参数对待处理多声道音频进行处理，由此通过检测出的待处理多声道音频的音频特性并进行相应处理，实现了自适应地处理多声道音频的技术效果，而且还提高了用户体验效果。

上述说明仅是本发明技术方案的概述，为了能更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。

附图说明

图1为根据本发明一个实施例的多声道音频处理方法的流程示意图；

图2为根据本发明另一个实施例的多声道音频处理方法的流程示意图；

图3为根据本发明一个实施例的多声道音频处理装置的结构示意图；

图4为根据本发明另一个实施例的多声道音频处理装置的结构示意图；

图5为根据本发明一个实施例的多声道音频处理硬件装置的硬件结构示意图；

图6为根据本发明一个实施例的计算机可读存储介质的结构示意图；

图7为根据本发明一个实施例的多声道音频处理终端的硬件结构示意图；

图8为根据本发明另一个实施例的多声道音频处理终端的硬件结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

为了解决如何自适应地处理多声道音频的技术问题，本发明实施例提供一种多声道音频处理方法。如图1所示，该多声道音频处理方法主要包括：

步骤S1：接收待处理多声道音频；

步骤S2：检测该待处理多声道音频的音频特性；

步骤S3：基于检测结果，确定待处理多声道音频的处理参数；

步骤S4：基于该处理参数，对待处理多声道音频进行处理。

其中，音频特性包括但不限于音频特性包括瞬态脉冲特性和/或音高特性和/或共振峰特性和/或相位特性和/或频谱特性等。

在本实施例中，处理参数包括但不限于音频幅度、基频、共振峰、相位和频率等。

本发明实施例通过采取上述技术方案，先检测出多声道音频的音频特性；然后，根据该音频特性确定出处理参数；最后基于所确定的处理参数对待处理多声道音频进行处理，由此通过检测出的待处理多声道音频的音频特性并进行相应处理，实现了自适应地处理多声道音频的技术效果，而且还提高了用户体验效果。

在一个可选的实施例中，该音频特性包括瞬态脉冲特性；

步骤S2具体包括：

步骤S21：检测待处理多声道音频的音频帧；

步骤S22：当检测到瞬态脉冲时，确定该音频特性包括瞬态脉冲特性；

步骤S3具体包括：基于瞬态脉冲特性，确定待处理多声道音频的处理参数为音频幅度；

步骤S4具体包括：将瞬态脉冲的音频幅度乘以限幅因子，得到处理后的多声道音频。

其中，音频帧为一段时长的音频。

其中，限幅因子可以根据实际情况进行确定，例如：0.1、0.2等。

本实施例在检测出待处理多声道音频包含瞬态脉冲时，确定音频幅度为处理参数；然后，通过限幅因子对该瞬态脉冲进行限幅处理，以克服音频中因瞬态脉冲产生的声音，由此实现了对待处理多声道音频的自适应处理，还提高了用户体验效果。

在一个可选的实施例中，上述限幅因子可以通过以下步骤Sa1至步骤Sa4来确定。其中：

步骤Sa1：在待处理多声道音频的时域内，分别检测瞬态脉冲之前、之后的第一预定数量的采样点和第二预定数量的采样点。

其中，第一预定数量、第二预定数量例如可以为64、100等；第一预定数量与第二预定数量可以相同，也可以不同。

步骤Sa2：判断第一预定数量采样点与第二预定数量采样点之间的相关性。

其中，可以将第一预定数量的采样点分别与第二预定数量的采样点进行比较；然后，根据差异确定相关性。例如，可以通过比较第一预定数量的采样点和第二预定数量的采样点之间的幅值；然后，根据幅值差异确定第一预定数量采样点与第二预定数量采样点之间的相关性。

步骤Sa3：如果相关性强，则确定该限幅因子为第一预定数值。

其中，第一预定数值例如可以为0.5、0.6等。

步骤Sa4：如果相关性弱，则确定该限幅因子为第二预定数值(例如，0.1等)。

其中，该第二预定数值例如可以为0.1、0.2等。

在一个可选的实施例中，该音频特性还可以包括音高特性；

步骤S2还具体包括：检测待处理多声道音频的音高特性；

步骤S3还具体包括：基于该音高特性，确定该待处理多声道音频的处理参数为该待处理多声道音频的基频；

步骤S4还具体包括：增大或减小该待处理多声道音频的基频。

其中，音高主要由频率决定，尤其是由基频决定。如果频率高，则音高就高；如果频率低，则音高就低。

其中，该待处理多声道音频的基频可以通过倒谱法、短时自相关法、短时平均幅度法、迭代谱减算法、联合估计算法、统计谱算法、频谱最大似然法等来提取。当然，还可以采取时频域算法，例如，将时域自相关函数和实倒谱以及频谱自相关函数相结合来确定基频。

本实施例通过检测出待处理多声道音频的音高特性，并据此确定出处理参数为该待处理多声道音频的基频；最后，针对该基频，对该待处理多声道音频进行处理，从而实现音频音调的变化(例如，音调增强、音调减弱)；由此实现了对待处理多声道音频的自适应处理，还提高了用户体验效果。

在一个可选的实施例中，音频特性还可以包括共振峰特性；

步骤S2还具体包括：检测待处理多声道音频的共振峰特性；

步骤S3还具体包括：基于共振峰特性，确定待处理多声道音频的处理参数为共振峰；

步骤S4还具体包括：对共振峰进行平滑处理。

其中，共振峰包含在待处理多声道音频的频谱包络中。共振峰包括共振峰频率和频带宽度。该共振峰可以通过估计出频谱包络，然后将该频谱包络的极大值作为共振峰来确定。例如，可以采用线性预测系数内插法并利用全极点来确定共振峰。此外，还可以利用线性预测系数并结合求根法来确定共振峰。

本实施例在检测出待处理多声道音频的共振峰特性时，确定将待处理多声道音频的共振峰作为处理参数，并对该共振峰进行平滑处理，以得到平滑的音效；由此实现了对待处理多声道音频的自适应处理，从而提高了用户体验效果。

在一个可选的实施例中，该音频特性还可以包括相位特性；

步骤S2还具体包括：检测待处理多声道音频的相位特性；

步骤S3还具体具体包括：基于该相位特性，确定该待处理多声道音频的处理参数为：待处理多声道音频的相位；

步骤S4还具体具体包括：调整该待处理多声道音频的相位。

作为一个示例，可以根据以下方式调整相位：

步骤Sb1：针对预定音频效果，获取该音频的预定相位；

步骤Sb2：根据该预定相位，调整该待处理多声道音频的相位。

本实施例在检测出待处理多声道音频的相位特性时，确定将相位作为该待处理多声道音频的处理参数；然后，基于相频特性，对该相位进行调整，例如，可以在该待处理多声道音频的频域内，进行跨频带平滑处理或在任一频带的子带内进行平滑处理，从而得到更平滑的音效，由此实现了对待处理多声道音频的自适应处理，而且还提高了用户体验效果。

目前，现有技术通常采用波形相似混叠累加/音调同步的混叠累加方法对多声道音频进行变速处理；但是这种方法在变速的同时还改变了音频的音调。因此，现有技术无法对多声道音频实现变速不变调处理的技术效果。

为此，在一个可选的实施例中，音频特性还可以包括频谱特性；

步骤S2还具体包括：检测待处理多声道音频的频谱特性；

步骤S3还具体具体包括：基于频谱特性，确定待处理多声道音频的处理参数为频率；

步骤S4还具体具体包括：基于频率，在频域上对待处理多声道音频进行尺度变换。

本实施例在检测出频谱特性时，确定将频率作为待处理多声道音频的处理参数；然后，通过在频域上对该待处理多声道音频进行尺度变换，实现了在时域上对待处理多声道音频的伸缩处理，由此使得该待处理多声道音频随时间变化加快而与此同时，又由于本实施例进行的是时域上的波形伸缩处理，该处理过程没有改变待处理多声道音频的幅度和谐波，因此，待处理多声道音频的音调和音色并未改变；故，本实施例实现了在音调和音色不变的情况下，改变音频播放速度的技术效果。

当然，在本发明实施例的步骤S2中，可以同时或依次检测出待处理多声道音频的多个音频特性，从而确定出多个处理参数，进而，基于该多个处理参数对该待处理多声道音频进行多方面的处理。这些明显变型的实施例或等同替换的实施例也应包含在本发明的保护范围之内。

举例而言，图2示例性地示出了一种多声道音频处理方法的流程示意图。如图2所示，该多声道音频处理方法主要包括：

步骤Sc1：接收待处理多声道音频；

步骤Sc2：检测该待处理多声道音频的瞬态脉冲特性、音高特性、共振峰特性、相位特性和频谱特性；

步骤Sc3：基于检测结果，确定该待处理多声道音频的处理参数为音频幅度、基频、共振峰、相位和频率；

步骤Sc41：将瞬态脉冲的音频幅度乘以限幅因子；

步骤Sc42：增大或减小该待处理多声道音频的基频；

步骤Sc43：对共振峰进行平滑处理；

步骤Sc44：调整该待处理多声道音频的相位；

步骤Sc45：基于频率，在频域上对待处理多声道音频进行尺度变换。

本实施例通过采取上述技术方案，在检测出待处理多声道音频的瞬态脉冲特性、音高特性、共振峰特性、相位特性和频谱特性时，将音频幅度、基频、共振峰、相位和频率确定为该待处理多声道音频的处理参数；然后，进行相应的处理，以使得音频的响度、音调和音色发生变化，由此实现了对待处理多声道音频的自适应处理，从而提高了用户体验效果。

本领域技术人员可以理解，在上述方法实施例中，省略了一些本领域公知步骤，例如，在对待处理多声道音频处理完之后，还可以对处理结果进行重采样处理，以形成适于播放的音频信号。这些明显变型也应包含在本发明的保护范围之后，并在此以引用的方式结合与此。

在上文中，虽然按照上述的顺序描述了多声道音频处理方法实施例中的各个步骤，本领域技术人员应清楚，本发明实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本发明的保护范围之内，在此不再赘述。

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法实施例实现的步骤，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明方法实施例。

本发明实施例提供一种多声道音频处理装置。如图3所示，该多声道音频处理装置包括：接收模块31、检测模块32、确定模块33和处理模块34。其中，接收模块31用于接收待处理多声道音频。检测模块32用于检测待处理多声道音频的音频特性。确定模块33用于基于检测结果，确定待处理多声道音频的处理参数。处理模块34用于基于处理参数，对待处理多声道音频进行处理。

在本实施例中，音频特性包括但不限于音频特性包括瞬态脉冲特性和/或音高特性和/或共振峰特性和/或相位特性和/或频谱特性等。处理参数包括但不限于音频幅度、基频、共振峰、相位和频率等。

本发明实施例通过采取上述技术方案，检测模块32先检测多声道音频的音频特性；然后，确定模块33根据该音频特性确定出处理参数；最后处理模块34基于所确定的处理参数对待处理多声道音频进行处理，由此通过检测待处理多声道音频的音频特性，实现了自适应地处理多声道音频的技术效果，提高了用户体验效果。

在一个可选的实施例中，音频特性包括瞬态脉冲特性；检测模块32具体用于：检测待处理多声道音频的音频帧，并当检测到瞬态脉冲时，确定音频特性包括瞬态脉冲特性。确定模块33具体用于基于瞬态脉冲特性，确定待处理多声道音频的处理参数为音频幅度。处理模块34具体用于将瞬态脉冲的音频幅度乘以限幅因子，得到处理后的多声道音频。

在一个可选的实施例中，处理模块34还具体用于通过以下方式确定限幅因子：在待处理多声道音频的时域内，分别检测瞬态脉冲之前、之后的第一数量的采样点和第二数量的采样点；判断第一数量采样点与第二数量采样点之间的相关性；如果相关性强，则确定限幅因子为第一预定数值；如果相关性弱，则确定限幅因子为第二预定数值。

本实施例在检测模块32检测出待处理多声道音频包含瞬态脉冲时，确定模块33确定出音频幅度为处理参数；然后，处理模块34通过限幅因子对该瞬态脉冲进行限幅处理，以克服音频中因瞬态脉冲产生的声音，由此实现了对待处理多声道音频的自适应处理，提高了用户体验效果。

在一个可选的实施例中，音频特性包括音高特性；检测模块32还具体用于检测待处理多声道音频的音高特性。确定模块33还具体用于基于音高特性，确定待处理多声道音频的处理参数为待处理多声道音频的基频。处理模块34还具体用于增大或减小待处理多声道音频的基频。

本实施例通过检测模块32检测出待处理多声道音频的音高特性，并由确定模块33据此确定出处理参数为该待处理多声道音频的基频；最后，通过处理模块34针对该基频，对该待处理多声道音频进行处理，从而实现音频音调的变化(例如，音调增强、音调减弱)；由此实现了对待处理多声道音频的自适应处理，提高了用户体验效果。

在一个可选的实施例中，音频特性包括共振峰特性；检测模块32还具体用于检测待处理多声道音频的共振峰特性。确定模块33还具体用于基于共振峰特性，确定待处理多声道音频的处理参数为共振峰。处理模块34还具体用于对共振峰进行平滑处理。

其中，共振峰包含在待处理多声道音频的频谱包络中。共振峰包括共振峰频率和频带宽度。

本实施例通过检测模块32在检测出待处理多声道音频的共振峰特性时，由确定模块33确定将待处理多声道音频的共振峰作为处理参数，并由处理模块34对该共振峰进行平滑处理，以得到平滑的音效；由此实现了对待处理多声道音频的自适应处理，提高了用户体验效果。

在一个可选的实施例中，音频特性包括相位特性；检测模块32还具体用于检测待处理多声道音频的相位特性。确定模块33还具体用于基于相位特性，确定待处理多声道音频的处理参数为：待处理多声道音频的相位。处理模块34还具体用于调整待处理多声道音频的相位。

本实施例通过检测模块32在检测出待处理多声道音频的相位特性时，由确定模块33确定将相位作为该待处理多声道音频的处理参数；然后，再通过处理模块34基于相频特性，对该相位进行调整，例如，可以通过处理模块34在该待处理多声道音频的频域内，进行跨频带平滑处理或在任一频带的子带内进行平滑处理，从而得到更平滑的音效，由此实现了对待处理多声道音频的自适应处理，提高了用户体验效果。

鉴于此，在一个可选的实施例中，音频特性包括频谱特性；检测模块32还具体用于检测待处理多声道音频的频谱特性。确定模块33还具体用于基于频谱特性，确定待处理多声道音频的处理参数为频率。处理模块34还具体用于基于频率，在频域上对待处理多声道音频进行尺度变换。

本实施例通过检测模块32在检测出频谱特性时，由确定模块33确定将频率作为待处理多声道音频的处理参数；然后，再通过处理模块34在频域上对该待处理多声道音频进行尺度变换，实现了在时域上对待处理多声道音频的伸缩处理，由此使得该待处理多声道音频随时间变化加快而与此同时，又由于本实施例进行的是时域上的波形伸缩处理，该处理过程没有改变待处理多声道音频的幅度和谐波，因此，待处理多声道音频的音调和音色并未改变；故，本实施例实现了在音调和音色不变的情况下改变音频播放速度的技术效果，提高了用户体验效果。

当然，本发明实施例可以同时或依次检测出待处理多声道音频的多个音频特性；然后再确定出多个处理参数，进而，再基于该多个处理参数对该待处理多声道音频进行多方面的处理。这些明显变型的实施例或等同替换的实施例也应包含在本发明的保护范围之内。

图4示例性地示出了一种多声道音频处理装置的结构框图。如图4所示，该多声道音频处理装置主要包括：接收模块41、检测模块42、确定模块43、第一处理模块441、第二处理模块442、第三处理模块443、第四处理模块444和第五处理模块445。其中，接收模块41用于接收待处理多声道音频。检测模块42用于检测该待处理多声道音频的瞬态脉冲特性、音高特性、共振峰特性、相位特性和频谱特性。确定模块43用于基于检测结果，确定该待处理多声道音频的处理参数为音频幅度、基频、共振峰、相位和频率。第一处理模块441用于将瞬态脉冲的音频幅度乘以限幅因子。第二处理模块442用于增大或减小该待处理多声道音频的基频。第三处理模块443用于对共振峰进行平滑处理。第四处理模块444用于调整该待处理多声道音频的相位。第五处理模块445用于基于频率，在频域上对待处理多声道音频进行尺度变换。

本实施例通过采取上述技术方案，当检测模块42检测出待处理多声道音频的瞬态脉冲特性、音高特性、共振峰特性、相位特性和频谱特性时，确定模块43将音频幅度、基频、共振峰、相位和频率确定为该待处理多声道音频的处理参数；然后，第一处理模块441、第二处理模块442、第三处理模块443、第四处理模块444和第五处理模块445分别进行相应的处理，以使得音频的响度、音调和音色发生变化，由此实现了对待处理多声道音频的自适应处理，从而提高了用户体验效果。

图5是图示根据本公开的实施例的多声道音频处理硬件装置的硬件结构示意图。如图5所示，根据本公开实施例的多声道音频处理硬件装置50包括存储器51和处理器52。

该存储器51用于存储非暂时性计算机可读指令。具体地，存储器51可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

该处理器52可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制多声道音频处理硬件装置50中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器52用于运行该存储器51中存储的该计算机可读指令，使得该多声道音频处理硬件装置50执行前述的本公开各实施例的多声道音频处理方法的全部或部分步骤。

本领域技术人员应能理解，为了解决如何获得良好用户体验效果的技术问题，本实施例中也可以包括诸如通信总线、接口等公知的结构，这些公知的结构也应包含在本发明的保护范围之内。

有关本实施例的详细说明可以参考前述各实施例中的相应说明，在此不再赘述。

图6是图示根据本公开的实施例的计算机可读存储介质的结构示意图。如图6所示，根据本公开实施例的计算机可读存储介质60，其上存储有非暂时性计算机可读指令61。当该非暂时性计算机可读指令61由处理器运行时，执行前述的本公开各实施例的视频特征的比对方法的全部或部分步骤。

上述计算机可读存储介质11包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

图7是图示根据本公开实施例的多声道音频处理终端的硬件结构示意图。如图7所示，该多声道音频处理终端70包括上述多声道音频处理装置实施例71。

该终端可以以各种形式来实施，本公开中的终端可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。

作为等同替换的实施方式，该终端还可以包括其他组件。如图8所示，该多声道音频处理终端80可以包括电源单元81、无线通信单元82、A/V(音频/视频)输入单元83、用户输入单元84、感测单元85、接口单元86、控制器87、输出单元88和存储器89等等。图8示出了具有各种组件的终端，但是应理解的是，并不要求实施所有示出的组件，也可以替代地实施更多或更少的组件。

其中，无线通信单元82允许终端80与无线通信系统或网络之间的无线电通信。A/V输入单元83用于接收音频或视频信号。用户输入单元84可以根据用户输入的命令生成键输入数据以控制终端设备的各种操作。感测单元85检测终端80的当前状态、终端80的位置、用户对于终端80的触摸输入的有无、终端80的取向、终端80的加速或减速移动和方向等等，并且生成用于控制终端80的操作的命令或信号。接口单元86用作至少一个外部装置与终端80连接可以通过的接口。输出单元88被构造为以视觉、音频和/或触觉方式提供输出信号。存储器89可以存储由控制器87执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器89可以包括至少一种类型的存储介质。而且，终端80可以与通过网络连接执行存储器89的存储功能的网络存储装置协作。控制器87通常控制终端设备的总体操作。另外，控制器87可以包括用于再现或回放多媒体数据的多媒体模块。控制器87可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元81在控制器87的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

本公开提出的视频特征的比对方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，本公开提出的视频特征的比对方法的各种实施方式可以通过使用特定用途集成电路(AS I C)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，本公开提出的视频特征的比对方法的各种实施方式可以在控制器87中实施。对于软件实施，本公开提出的视频特征的比对方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器89中并且由控制器87执行。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种多声道音频处理方法，其特征在于，包括：

接收待处理多声道音频；

检测所述待处理多声道音频的音频特性；

基于检测结果，确定所述待处理多声道音频的处理参数；

基于所述处理参数，对所述待处理多声道音频进行处理。

2.根据权利要求1所述的方法，其特征在于，所述音频特性包括瞬态脉冲特性和/或音高特性和/或共振峰特性和/或相位特性和/或频谱特性。

3.根据权利要求2所述的方法，其特征在于，所述音频特性包括所述瞬态脉冲特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的音频帧；

4.根据权利要求3所述的方法，其特征在于，所述限幅因子通过以下方式确定：

如果所述相关性强，则确定所述限幅因子为第一预定数值；

如果所述相关性弱，则确定所述限幅因子为第二预定数值。

5.根据权利要求2所述的方法，其特征在于，所述音频特性包括所述音高特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述音高特性；

增大或减小所述待处理多声道音频的所述基频。

6.根据权利要求2所述的方法，其特征在于，所述音频特性包括所述共振峰特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述共振峰特性；

对所述共振峰进行平滑处理。

7.根据权利要求2所述的方法，其特征在于，所述音频特性包括所述相位特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述相位特性；

调整所述待处理多声道音频的所述相位。

8.根据权利要求2所述的方法，其特征在于，所述音频特性包括所述频谱特性；

所述检测所述待处理多声道音频的音频特性的步骤，包括：

检测所述待处理多声道音频的所述频谱特性；

9.一种多声道音频处理装置，其特征在于，包括：

接收模块，用于接收待处理多声道音频；

检测模块，用于检测所述待处理多声道音频的音频特性；

10.根据权利要求9所述的装置，其特征在于，所述音频特性包括瞬态脉冲特性和/或音高特性和/或共振峰特性和/或相位特性和/或频谱特性。

11.根据权利要求9所述的装置，其特征在于，所述音频特性包括所述瞬态脉冲特性；

所述检测模块具体用于：

检测所述待处理多声道音频的音频帧；

12.根据权利要求10所述的装置，其特征在于，所述处理模块还具体用于通过以下方式确定所述限幅因子：

如果所述相关性强，则确定所述限幅因子为第一预定数值；

如果所述相关性弱，则确定所述限幅因子为第二预定数值。

13.根据权利要求9所述的装置，其特征在于，所述音频特性包括所述音高特性；

14.根据权利要求9所述的装置，其特征在于，所述音频特性包括所述共振峰特性；

所述处理模块还具体用于对所述共振峰进行平滑处理。

15.根据权利要求9所述的装置，其特征在于，所述音频特性包括所述相位特性；

16.根据权利要求9所述的装置，其特征在于，所述音频特性包括所述频谱特性；

17.一种多声道音频处理硬件装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现根据权利要求1-8中任意一项所述的多声道音频处理方法。

18.一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-8中任意一项所述的多声道音频处理方法。

19.一种视频特征比对终端，包括权利要求9-16中任一项所述的一种多声道音频处理装置。