CN103188595A - 处理多声道音频信号的方法和系统 - Google Patents

处理多声道音频信号的方法和系统 Download PDF

Info

Publication number
CN103188595A
CN103188595A CN2011104580483A CN201110458048A CN103188595A CN 103188595 A CN103188595 A CN 103188595A CN 2011104580483 A CN2011104580483 A CN 2011104580483A CN 201110458048 A CN201110458048 A CN 201110458048A CN 103188595 A CN103188595 A CN 103188595A
Authority
CN
China
Prior art keywords
function
audio signal
hybrid
sound channels
hybrid cytokine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104580483A
Other languages
English (en)
Other versions
CN103188595B (zh
Inventor
吴晟
林福辉
李昙
张本好
徐晶明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201110458048.3A priority Critical patent/CN103188595B/zh
Publication of CN103188595A publication Critical patent/CN103188595A/zh
Application granted granted Critical
Publication of CN103188595B publication Critical patent/CN103188595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种处理多声道音频信号的方法和系统。该方法包括将多声道音频信号中至少两个声道的音频信号划分为多个帧;基于正在处理的当前帧中至少两个声道的音频信号,获得当前帧的目标混合因子,该目标混合因子使表示混音效果的混音状态函数获得最大值;基于当前帧的目标混合因子获得混合权重系数;使用混合权重系数将当前帧中至少两个声道的音频信号混合为单声道音频信号。采用本发明的方法将多声道音频信号混合为单声道音频信号,所获得的单声道音频信号具有较好的混音效果,避免出现信息量丢失严重或者音量突降等现象。

Description

处理多声道音频信号的方法和系统
技术领域
本发明涉及音频信号处理领域,特别涉及对多声道音频信号的处理领域。
背景技术
当前,双声道或者多声道的音频资料大量存在。其中,具有两个声道的音频资料,比如立体声音乐,是当前使用最广泛的音频格式。这包括传统的CD唱片,以及包括MP3,AAC,OGG等压缩过的音乐码流。双声道或立体声以其足够的音频质量和空间表现力,依然占据着极高的比例。
然而,一些小型的移动设备,由于设备空间或者制造成本的限制,往往只配置一个扬声器。这些只配置一个扬声器的移动设备可以是移动电话、个人数字助理(PDA,Personal Digital Assistant)、移动互联网设备(MID,Mobile Internet Devices)、平板电脑或者小型笔记本电脑。这些设备在播放具有2个或更多个通道的音频时,必然需要将两通道或多通道的音频混合到单通道的音频,以便让其唯一的扬声器输出。
现有最常用的音频处理方法是只提取其中一个通道的音频信号进行播放,或者取两个通道的音频的平均值,以得到单通道音频。
申请人对现有的音频处理方法进行了深入研究,发现只提取其中一个通道的音频信号进行播放的方法在两个通道内容差异较大时会丢失大量信息。而将两个或多个通道简单叠加然后取平均值的方法会在两声道具有相互反相特性时,音量突降。
发明内容
本发明的发明人发现,现有的音频处理方法在特定情况会产生信息大量丢失或者音量突降的缺陷。因此,针对该问题提出了一种新的技术方案。
本发明的一个目的是提供一种处理多声道音频信号的方法,能够确保将多声道音频信号混合为单声道音频信号后不再出现信息丢失严重或者音量突降的问题。
根据本发明的第一方面,提供了一种处理多声道音频信号的方法,该方法包括:将多声道音频信号中至少两个声道的音频信号划分为多个帧;基于正在处理的当前帧中至少两个声道的音频信号,获得使表示混音效果的混音状态函数获得最大值的当前帧的目标混合因子,该混音状态函数是至少两个声道的音频信号和目标混合因子的函数;基于当前帧的目标混合因子获得混合权重系数;使用混合权重系数将当前帧中至少两个声道的音频信号混合为单声道音频信号。
优选地,前述至少两个声道为两个声道,每一帧包括N个音频采样点,N是大于1的自然数,x1[n]和x2[n]分别是该两个声道的音频信号在当前帧中的第n个采样点的信号值,n=1,2,...,N。
前述获得当前帧的目标混合因子的步骤可包括:使用M个预设混合因子中的每一个分别计算混音状态函数的值:
J m ( f N ) = β J m ( f N - 1 ) + ( 1 - β ) { 1 N Σ n = 1 N | ( 1 - | α m | ) x 1 [ n ] + α m x 2 [ n ] | k } 1 / k
m=1,2,...,M
αm是第m个预设混合因子,
M是大于1的自然数,
fN是当前帧的帧序号,
β是遗忘因子,0<β<1,k是阶数因子,k>0;
选择使得该混合状态函数Jm(fN)取得最大值的预设混合因子作为当前帧的目标混合因子αx(fN)。
优选地,多个预设混合因子的取值范围为[-1,1]。
优选地,k=1、2、3或者4。
优选地,每一帧的长度设定为使得该帧的持续时间在10毫秒至1000毫秒之间。
优选地,前述至少两个声道为两个声道,每一帧包括N个音频采样点,N是大于1的自然数。
前述基于目标混合因子获得混合权重系数的步骤可包括:
取N个中间混合因子,该N个中间混合因子α1′,α2′,...,αN′以单调递增或单调递减的方式,从前一帧的目标混合因子αx(fN-1),渐变到当前帧的目标混合因子αx(fN),其中,α1′=αx(fN-1),αN′=αx(fN);使用该N个中间混合因子α1′,α2′,...,αN′分别获得该帧中两个声道的每一个音频采样点的信号值的混合权重系数。
优选地,使用下述公式计算所述中间混合因子:
αn ′=αx(fN-1)+αdw[n]
n=1,2,...N
αd=αx(fN)-αx(fN-1)
其中w[n]为单调递增的缓变函数,w[0]=0,w[N]=1。
优选地,在区间[0,1]中,该缓变函数w[n]在中部的梯度大于等于两端的梯度。
优选地,缓变函数可包括三角函数、高次多项式函数、对数函数和指数函数。
优选地,可采用如下函数将所述两个声道的音频信号混合为单声道音频信号:
y[n]=g{(1-|αn′|)x1[n]+αn′x2[n]},其中,混合增益g为任意的正实数。
根据本发明的第二方面,提供了一种处理多声道音频信号的系统,该系统包括:分帧单元,用于将多声道音频信号中至少两个声道的音频信号划分为多个帧;目标混合因子获得单元,用于基于正在处理的当前帧中至少两个声道的音频信号,获得使表示混音效果的混音状态函数获得最大值的当前帧的目标混合因子,该混音状态函数是至少两个声道的音频信号和目标混合因子的函数;混合权重系数获得单元,用于基于当前帧的目标混合因子获得混合权重系数;音频信号混合单元,用于使用混合权重系数将当前帧中至少两个声道的音频信号混合为单声道音频信号。
优选地,前述至少两个声道为两个声道,每一帧包括N个音频采样点,N是大于1的自然数,x1[n]和x2[n]分别是所述两个声道的音频信号在当前帧中的第n个采样点的信号值,n=1,2,...,N。
目标混合因子获得单元可包括:混音状态函数计算模块和目标混合因子生成模块。其中,混音状态函数计算模块用于使用M个预设混合因子中的每一个分别计算所述混音状态函数的值:
J m ( f N ) = β J m ( f N - 1 ) + ( 1 - β ) { 1 N Σ n = 1 N | ( 1 - | α m | ) x 1 [ n ] + α m x 2 [ n ] | k } 1 / k
m=1,2,...,M
αm是第m个预设混合因子,
M是大于1的自然数,
fN是当前帧的帧序号,
β是遗忘因子,0<β<1,k是阶数因子,k>0;
目标混合因子生成模块用于选择使得该混合状态函数Jm(fN)取得最大值的预设混合因子作为当前帧的目标混合因子αx(fN)。
优选地,多个预设混合因子的取值范围为[-1,1]。
优选地,k=1、2、3或者4。
优选地,每一帧的长度设定为使得该帧的持续时间在10毫秒至1000毫秒之间。
优选地,前述至少两个声道为两个声道,每一帧包括N个音频采样点,N是大于1的自然数。
混合权重系数获得单元可包括中间混合因子生成单元和混合权重系数获得模块。其中,中间混合因子生成单元用于生成N个中间混合因子,该N个中间混合因子α1′,α2′,...,αN′以单调递增或单调递减的方式,从前一帧的目标混合因子αx(fN-1),渐变到当前帧的目标混合因子αx(fN),其中,α1′=αx(fN-1),αN′=αx(fN)。混合权重系数获得模块用于使用N个中间混合因子α1′,α2′,...,αN′分别获得该帧中两个声道的每一个音频采样点的信号值的混合权重系数。
优选地,中间混合因子生成单元使用下述公式计算所述中间混合因子:
αn′=αx(fN-1)+αdw[n]
n=1,2,...N
αd=αx(fN)-αx(fN-1)
其中w[n]为单调递增的缓变函数,w[1]=0,w[N]=1。
优选地,在区间[0,1]中,所述缓变函数w[n]在中部的梯度大于等于两端的梯度,所述缓变函数包括三角函数、高次多项式函数、对数函数和对数函数。
优选地,音频信号混合单元采用如下函数将所述两个声道的音频信号混合为单声道音频信号:
y[n]=g{(1-|αn′|)x1[n]+αn′x2[n]},其中,混合增益g为任意的正实数。
采用本发明的处理多声道音频信号的方法,通过分帧处理,并利用混音状态函数获得混音效果最好的目标混合因子,利用该目标混合因子生成混合权重参数,从而将至少两个声道的音频信号混合为单声道音频信号。由于不再对多声道音频信号进行简单取舍或者叠加取平均值,本发明的一个优点在于,所获得的单声道音频信号具有较好的混音效果,避免出现信息量丢失严重或者音量突降等现象。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1是根据本发明的处理多声道音频信号的方法的一个实施例的流程图;
图2是图1所示实施例中的一种缓变函数的曲线示意图;
图3A是根据本发明的处理多声道音频信号的方法的另一个实施例中测试片源的左右声道波形图;图3B-图3C分别是该测试片源的左右声道的频谱图;图3D是该实施例中每一帧所采用的混合因子;图3E是该实施例中采用本发明的方法和传统方法所获得的单声道信号的波形图;图3F-图3G是该实施例中分别为采用本方法和传统方法所获得的单声道信号的声音频谱;
图4是根据本发明的处理多声道音频信号的方法的一个实施例结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出了根据本发明的一种处理多声道音频信号的方法的一个实施例的流程图。
在步骤S101中,将多声道音频信号中至少两个声道的音频信号划分为多个帧。
本发明的技术方案可以将多个声道的音频信号混合为单声道的音频信号。在本实施例中,以将两个声道的音频信号混合为单声道的音频信号为例对本发明的技术方案进行详细描述。
可以将音频信号划分为多个帧,每一帧包括N个音频采样点,N是大于1的自然数。
每一帧的帧的持续时间在10毫秒至1000毫秒之间。例如,每一帧的持续时间可以选择40毫秒或者100毫秒。
可以将两个声道的音频信号分别表示为x1[n]和x2[n]。其中,x1[n]和x2[m]分别是两个声道的音频信号在当前帧中的第n个采样点的信号值,n=1,2,...,N。
例如,可以将两个声道的音频信号表示为长度为N,无交迭的向量x1[n]和x2[n]。x1[n]和x2[n]分别为:
x1=[x1(NfN+1),x1(NfN+2),…,x1(NfN+N)]
x2=[x2(NfN+1),x2(NfN+2),…,x2(NfN+N)]
其中,fN是帧序号。
在步骤S102中,基于正在处理的当前帧中至少两个声道的音频信号,获得当前帧的目标混合因子。
可以通过预设混合因子和混音状态函数获得当前帧的目标混合因子。
在本实施例中,可以设有M个预设混合因子,并将每一个预设混合因子代入混音状态函数,以计算混音状态函数值。
混音状态函数可以表示混音的效果,其可以是至少两个声道的音频信号和目标混合因子的函数。
可以根据需要,采用不同的混音状态函数,例如可以是其他物理量的函数或者采用其他函数。
在本实施例中,所采用的混音状态函数为如下函数:
J m ( f N ) = β J m ( f N - 1 ) + ( 1 - β ) { 1 N Σ n = 1 N | ( 1 - | α m | ) x 1 [ n ] + α m x 2 [ n ] | k } 1 / k
m=1,2,...,M
αm是第m个预设混合因子,M是大于1的自然数,fN是当前帧的帧序号,β是遗忘因子,0<β<1,k是阶数因子,k>0。
利用上述混音状态函数所得到的多个声道的音频信号的混音状态实际是取各音频信号的k阶几何均值的帧间滑动平均。
其中,阶数因子k越大,信号中相对幅度大的分量所占评估结果的比重就越大;k越小,则各分量比重就越平均。
一般地,k可以选择大于零的任何数值,但k取值较大或者取小数值,可能会使计算量增大。优选地,可选择k=1、2、3或者4。
通过计算,获得M个预设混合因子所对应的状态函数值。该状态函数值代表不同的混音效果。
可选择使得混合状态函数Jm(fN)取得最大值的预设混合因子作为当前帧的目标混合因子αx(fN)。
需要说明的是,预设混合因子的数目可以根据实际需要进行调整。
多个预设混合因子的的取值范围α可以为:-1≤α≤1。
优选地,多个离散的预设混合因子要能够覆盖[-1,1]的取值范围。例如,可预设六个混合因子,分别为-0.8、-0.5、-0.2、0.2,0.5和0.8。
本领域的技术人员应当理解,本发明不限于通过混音状态函数获得混音状态效果最好的混合因子,也可以采用其他函数或者其他方法获得混音状态效果最好的混合因子。
在步骤S103中,基于当前帧的目标混合因子获得混合权重系数。
利用该混合权重系数可将当前帧的至少两个声道的音频信号混合为单声道音频信号。
可以采用如下方法获得混合权重系数。
可以取N个中间混合因子α1′,α2′,...,αN′。所选取的N个中间混合因子可以单调递增或单调递减的方式从前一帧的目标混合因子α(fN-1)渐变到当前帧的目标混合因子αx(fN)。其中,α′1=αx(fN-1),α′N=αx(fN)。
优选地,可使用下述公式计算中间混合因子:
αn′=αx(fN-1)+αdw[n]
n=1,2,...N
其中,w[n]可以为具有N点的单调递增的缓变函数,w[1]=0,w[N]=1,αd是目标混合因子αx(fN)和原混合因子αx(fN-1)的差,可利用如下公式得到:
αd=αx(fN)-αx(fN-1)
图2是该实施例中的一种缓变函数的曲线示意图。
优选地,在区间[0,1]中,该缓变函数w[n]在中部的梯度大于等于两端的梯度,如图2所示。
该缓变函数可以是三角函数、高次多项式函数、对数函数或者指数函数。例如,采用一种三角函数的缓变函数可以是:
w ( n ) = 1 2 + 1 2 sin ( n - 0.5 N π - π 2 ) , n = 1,2 , . . . , N
高次多项式函数的缓变函数可以是:
w ( n ) = - 2 ( x N ) 3 + 3 ( x N ) 2 , n = 1,2 , . . . , N
对数函数的缓变函数可以是:
w ( n ) = - 1 2 log 10 ( 0.1 + 0.9 N / 2 - 1 ( N / 2 - n ) ) , n = 1,2 , . . . , N / 2 1 + 1 2 log 10 ( 0.1 + 0.9 N / 2 - 1 ( n - N / 2 - 1 ) ) , n = N / 2 + 1 , N / 2 + 2 , . . . , N
指数函数的缓变函数可以是:
w ( n ) = 2 4 n - 1 N / 2 - 1 - 1 2 ( 2 4 - 1 ) , n = 1,2 , . . . , N / 2 1 - 2 4 N - n N / 2 - 1 - 1 2 ( 2 4 - 1 ) , n = N / 2 + 1 , N / 2 + 2 , . . . , N
需要说明的是,以上函数仅是示例性的,本发明并不局限于此,可以根据需要选择任何合适的函数作为缓变函数。
然后,使用N个中间混合因子α1′,α2′,...,αN′分别获得该帧中两个声道的每一个音频采样点的信号值的混合权重系数。
在步骤S104中,可使用混合权重系数,将当前帧中的至少两个声道的音频信号混合为单声道音频信号。
具体地,可以采用如下函数将两个声道的音频信号混合为单声道音频信号:
y[n]=g{(1-|αn′|)x1[n]+αn′x2[n]}。
其中,g为混合增益。g的取值可选择任意的正实数。
当将两个声道的音频信号混合为单声道音频信号后,可将该目标混合因子代替原混合因子。
下面结合图3A至图3G对本发明的处理多声道信号的方法的另一实施例进行详细描述。
其中,图3A是根据本发明的处理多声道音频信号的方法的另一个实施例中测试片源的左右声道波形图;图3B-图3C分别是该测试片源的左右声道的频谱图;图3D是该实施例中每一帧所采用的目标混合因子;图3E是该实施例中采用本发明的方法和传统方法所获得的单声道信号的波形图;图3F-图3G是该实施例中分别为采用本方法和传统方法所获得的单声道信号的声音频谱。
在该实施例中,测试片源为歌曲《南海姑娘》。该测试片源的采样率44100Hz,16比特采样,左右声道有反相。
该片源的左右声道波形如图3A所示。其中,上部的波形为该片源的左声道波形,下部的波形为该片源的右声道波形。该片源的左右两声道的频谱图3B-图3C所示。
采用本发明的方法对两声道的音频进行处理。在本实施例中,所采用的块长N=2048(即每一帧包括2048个音频采集点),M=6,离散混合因子为[-0.8-0.5-0.20.20.50.8],混合增益g=1,遗忘因子β=0.75,缓变曲线采用如下三角函数构建:
w ( n ) = 1 2 + 1 2 sin ( n - 0.5 N π - π 2 ) , n = 1,2 , . . . , N
在本实施例中,对每一帧所使用的混合因子如图3D所示。
从图3E至图3G可以看出采用本发明的方法与传统方法的音频处理效果。
在图3E中,上部波形图为采用本发明的方法获得的,下部波形图为采用传统直接相加求均值的方法获得的。从图3E可以看出,采用传统方法所获得声音波形与图3A所示的原声音波形差距很大。例如,在10~12秒、14~17秒等多个时间范围内的波形幅度较小,多次出现了音量突降的问题。在实际试听时,人声损失较严重。
而采用本发明的方法所获得的声音波形较好地保持了原声音波形,音量保持平稳。在实际试听中,其音质保持也很稳定
从图3F和图3G可以看出,直接相加所得到的单声道信号丢失信息严重,而采用本发明的方法所获得的声音频谱图与该片源的左右两声道的频谱的一致性较好,没有产生大量信息丢失的问题。
因此,采用本发明的方法所获得的单声道的混合音频信号中,各声道信息保留完整,并且较为均衡。此外,混合音频信号的音量保持平稳。
在本实施例中,传统方法仅采用了对双声道音频信号直接相加求均值的方法。对于传统方法中的只取其中一个声道的音频信号进行单声道的方法,由于其输出效果更差,在此不再赘述。
本发明还公开了一种处理多声道音频信号的系统。
图4示出了根据本发明的一个实施例的处理多声道音频信号的系统的结构示意图。
该系统包括分帧单元11、目标混合因子获得单元12、混合权重系数获得单元13和音频信号混合单元14。
本系统可用于将多个声道的音频信号混合为单声道的音频信号。在本实施例中,以两个声道的音频信号为例进行说明。
其中,分帧单元11可以将多声道音频信号中至少两个声道的音频信号划分为多个帧。
每一帧可包括N个音频采样点。N可以是大于1的自然数。x1[n]和x2[n]分别可以是两个声道的音频信号在当前帧中的第n个采样点的信号值,n=1,2,...,N。
优选地,每一帧的长度可以设定为使得该帧的持续时间在10毫秒至1000毫秒之间。
目标混合因子获得单元12可基于正在处理的当前帧中至少两个声道的音频信号,获得使表示混音效果的混音状态函数获得最大值的当前帧的目标混合因子。
前述混音状态函数可以是至少两个声道的音频信号和所述目标混合因子的函数。
本实施例中,目标混合因子获得单元12可包括混音状态函数计算模块121和目标混合因子生成模块122。
混音状态函数计算模块121能够使用M个预设混合因子中的每一个分别计算所述混音状态函数的值:
J m ( f N ) = β J m ( f N - 1 ) + ( 1 - β ) { 1 N Σ n = 1 N | ( 1 - | α m | ) x 1 [ n ] + α m x 2 [ n ] | k } 1 / k
m=1,2,...,M
αm是第m个预设混合因子,
M是大于1的自然数,
fN是当前帧的帧序号,
β是遗忘因子,0<β<1,k是阶数因子,k>0。
优选地,可以选择k=1、2、3或者4,以降低计算量。
目标混合因子生成模块122根据混音状态函数计算模块121所计算的多个混合状态函数值,从中选择混合状态函数值为最大值的函数所对应的预设混合因子作为当前帧的目标混合因子αx(fN)。
多个预设混合因子的取值范围可以为[-1,1]。
优选地,多个离散的预设混合因子要能够覆盖[-1,1]的取值范围。例如,可预设六个混合因子,分别为-0.8、-0.5、-0.2、0.2,0.5和0.8。
混合权重系数获得单元13可基于所述当前帧的目标混合因子获得混合权重系数。
混合权重系数获得单元13可包括中间混合因子生成模块131和混合权重系数获得模块132。
中间混合因子生成模块131可生成N个中间混合因子。
该N个中间混合因子α1′,α2′,...,αN′以单调递增或单调递减的方式,从前一帧的目标混合因子αx(fN-1),渐变到当前帧的目标混合因子αx,其中,α1′=αx(fN-1),αN′=αx(fN)。
优选地,中间混合因子生成模块131可以使用下述公式计算所述中间混合因子:
αn ′=αx(fN-1)+αdw[n]
n=1,2,...N
αd=αx(fN)-αx(fN-1)
其中w[n]为单调递增的缓变函数,w[1]=0,w[N]=1。
优选地,该缓变函数可以是三角函数、高次多项式函数、对数函数或者指数函数。
优选地,该缓变函数所形成的曲线在区间[0,1]中,并且在中部的梯度大于等于两端的梯度。
混合权重系数获得模块132使用前述N个中间混合因子α1′,α2′,...,αN′分别获得该帧中两个声道的每一个音频采样点的信号值的混合权重系数。
音频信号混合单元14使用混合权重系数获得单元所得到的混合权重系数,将当前帧中至少两个声道的音频信号混合为单声道音频信号。
优选地,音频信号混合单元14可以采用如下函数将两个声道的音频信号混合为单声道音频信号:
y[n]=g{(1-|αn′|)x1[n]+αn′x2[n]},其中,混合增益g为任意的正实数。
至此,已经详细描述了根据本发明的处理多声道音频信号的方法和系统。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (19)

1.一种处理多声道音频信号的方法,其特征在于,该方法包括:
将所述多声道音频信号中至少两个声道的音频信号划分为多个帧;
基于正在处理的当前帧中所述至少两个声道的音频信号,获得使表示混音效果的混音状态函数获得最大值的当前帧的目标混合因子,所述混音状态函数是所述至少两个声道的音频信号和所述目标混合因子的函数;
基于所述当前帧的目标混合因子获得混合权重系数;
使用所述混合权重系数将所述当前帧中所述至少两个声道的音频信号混合为单声道音频信号。
2.如权利要求1所述的方法,其特征在于,
所述至少两个声道为两个声道,
每一帧包括N个音频采样点,N是大于1的自然数,x1[n]和x2[n]分别是所述两个声道的音频信号在当前帧中的第n个采样点的信号值,n=1,2,...,N,
所述获得当前帧的目标混合因子的步骤包括:
使用M个预设混合因子中的每一个分别计算所述混音状态函数的值:
J m ( f N ) = β J m ( f N - 1 ) + ( 1 - β ) { 1 N Σ n = 1 N | ( 1 - | α m | ) x 1 [ n ] + α m x 2 [ n ] | k } 1 / k
m=1,2,...,M
αm是第m个预设混合因子,
M是大于1的自然数,
fN是当前帧的帧序号,
β是遗忘因子,0<β<1,k是阶数因子,k>0;
选择使得所述混合状态函数Jm(fN)取得最大值的预设混合因子作为所述当前帧的目标混合因子αx(fN)。
3.如权利要求2所述的方法,其特征在于,所述多个预设混合因子的取值范围为[-1,1]。
4.如权利要求2所述的方法,其特征在于,k=1、2、3或者4。
5.如权利要求2所述的方法,其特征在于,所述每一帧的长度设定为使得该帧的持续时间在10毫秒至1000毫秒之间。
6.如权利要求1或2所述的方法,其特征在于,
所述至少两个声道为两个声道,
每一帧包括N个音频采样点,N是大于1的自然数,
所述基于所述目标混合因子获得混合权重系数的步骤包括:
取N个中间混合因子,所述N个中间混合因子α1′,α2′....,αN′以单调递增或单调递减的方式,从前一帧的目标混合因子αx(fN-1),渐变到当前帧的目标混合因子αx(fN),其中,α1′=αx(fN-1),αN′=αx(fN);
使用所述N个中间混合因子α1′,α2′....,αN′分别获得该帧中所述两个声道的每一个音频采样点的信号值的混合权重系数。
7.如权利要求6所述的方法,其特征在于,
使用下述公式计算所述中间混合因子:
αn′=αx(fN-1)+αdw[n]
n=1,2,...N
αd=αx(fN)-αx(fN-1)
其中w[n]为单调递增的缓变函数,且w[1]=0,w[N]=1。
8.如权利要求7所述的方法,其特征在于,在区间[0,1]中,所述缓变函数w[n]在中部的梯度大于等于两端的梯度。
9.如权利要求8所述的方法,其特征在于,所述缓变函数包括三角函数、高次多项式函数、对数函数和指数函数。
10.如权利要求6所述的方法,其特征在于,采用如下函数将所述两个声道的音频信号混合为单声道音频信号:
y[n]=g{(1-|αn′|)x1[n]+αn′x2[n]},其中,混合增益g为任意的正实数。
11.一种处理多声道音频信号的系统,其特征在于,该系统包括:
分帧单元,用于将所述多声道音频信号中至少两个声道的音频信号划分为多个帧;
目标混合因子获得单元,用于基于正在处理的当前帧中所述至少两个声道的音频信号,获得使表示混音效果的混音状态函数获得最大值的当前帧的目标混合因子,所述混音状态函数是所述至少两个声道的音频信号和所述目标混合因子的函数;
混合权重系数获得单元,用于基于所述当前帧的目标混合因子获得混合权重系数;
音频信号混合单元,用于使用所述混合权重系数将所述当前帧中所述至少两个声道的音频信号混合为单声道音频信号。
12.如权利要求11所述的系统,其特征在于,
所述至少两个声道为两个声道,
每一帧包括N个音频采样点,N是大于1的自然数,x1[n]和x2[n]分别是所述两个声道的音频信号在当前帧中的第n个采样点的信号值,n=1,2,...,N,
所述目标混合因子获得单元包括:
混音状态函数计算模块,用于使用M个预设混合因子中的每一个分别计算所述混音状态函数的值:
J m ( f N ) = β J m ( f N - 1 ) + ( 1 - β ) { 1 N Σ n = 1 N | ( 1 - | α m | ) x 1 [ n ] + α m x 2 [ n ] | k } 1 / k
m=1,2,...,M
αm是第m个预设混合因子,
M是大于1的自然数,
fN是当前帧的帧序号,
β是遗忘因子,0<β<1,k是阶数因子,k>0;
目标混合因子生成模块,用于选择使得所述混合状态函数Jm(fN)取得最大值的预设混合因子作为所述当前帧的目标混合因子αx(fN)。
13.如权利要求12所述的系统,其特征在于,所述多个预设混合因子的取值范围为[-1,1]。
14.如权利要求11所述的系统,其特征在于,k=1、2、3或者4。
15.如权利要求11所述的系统,其特征在于,所述每一帧的长度设定为使得该帧的持续时间在10毫秒至1000毫秒之间。
16.如权利要求11或12所述的系统,其特征在于,
所述至少两个声道为两个声道,
每一帧包括N个音频采样点,N是大于1的自然数,
所述混合权重系数获得单元包括:
中间混合因子生成模块,用于生成N个中间混合因子,所述N个中间混合因子α1′,α2′,...,αN′以单调递增或单调递减的方式,从前一帧的目标混合因子αx(fN-1),渐变到当前帧的目标混合因子αx(fN),其中,α1′=αx(fN-1),αN′=αx(fN);
混合权重系数获得模块,用于使用所述N个中间混合因子α1′,α2′,...,αN′分别获得该帧中所述两个声道的每一个音频采样点的信号值的混合权重系数。
17.如权利要求16所述的系统,其特征在于,
所述中间混合因子生成模块使用下述公式计算所述中间混合因子:
αn′=αx(fN-1)+αdw[n]
n=1,2,...N
αd=αx(fN)-αx(fN-1)
其中w[n]为单调递增的缓变函数,且w[1]=0,w[N]=1。
18.如权利要求17所述的系统,其特征在于,
在区间[0,1]中,所述缓变函数w[n]在中部的梯度大于等于两端的梯度,所述缓变函数包括三角函数、高次多项式函数、对数函数和指数函数。
19.如权利要求11所述的系统,其特征在于,所述音频信号混合单元采用如下函数将所述两个声道的音频信号混合为单声道音频信号:
y[n]=g{(1-|αn′|)x1[n]+αn′x2[n]},其中,混合增益g为任意的正实数。
CN201110458048.3A 2011-12-31 2011-12-31 处理多声道音频信号的方法和系统 Active CN103188595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110458048.3A CN103188595B (zh) 2011-12-31 2011-12-31 处理多声道音频信号的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110458048.3A CN103188595B (zh) 2011-12-31 2011-12-31 处理多声道音频信号的方法和系统

Publications (2)

Publication Number Publication Date
CN103188595A true CN103188595A (zh) 2013-07-03
CN103188595B CN103188595B (zh) 2015-05-27

Family

ID=48679484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110458048.3A Active CN103188595B (zh) 2011-12-31 2011-12-31 处理多声道音频信号的方法和系统

Country Status (1)

Country Link
CN (1) CN103188595B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680513A (zh) * 2013-12-13 2014-03-26 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
CN105139865A (zh) * 2015-06-19 2015-12-09 中央电视台 一种确定左右声道音频相关系数的方法及装置
CN107426651A (zh) * 2017-08-10 2017-12-01 长沙世邦通信技术有限公司 多通道的混音方法及装置
WO2018058379A1 (zh) * 2016-09-28 2018-04-05 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
CN108616800A (zh) * 2018-03-28 2018-10-02 腾讯科技(深圳)有限公司 音频的播放方法和装置、存储介质、电子装置
CN109155803A (zh) * 2016-08-26 2019-01-04 华为技术有限公司 音频数据处理方法、终端设备和存储介质
CN109243488A (zh) * 2018-10-30 2019-01-18 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN110085268A (zh) * 2019-05-10 2019-08-02 深圳市智微智能科技开发有限公司 Android广告机双MIC实时切换的方法、系统、广告机及存储介质
CN111093142A (zh) * 2019-12-24 2020-05-01 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
WO2021052050A1 (zh) * 2019-09-17 2021-03-25 南京拓灵智能科技有限公司 一种沉浸式音频渲染方法及系统
WO2023197967A1 (zh) * 2022-04-15 2023-10-19 华为技术有限公司 多通道的混音方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880392A (en) * 1995-10-23 1999-03-09 The Regents Of The University Of California Control structure for sound synthesis
US20030235317A1 (en) * 2002-06-24 2003-12-25 Frank Baumgarte Equalization for audio mixing
CN1926610A (zh) * 2004-03-12 2007-03-07 诺基亚公司 基于编码的多声道音频信号合成单声道音频信号
CN101656072A (zh) * 2009-09-08 2010-02-24 北京飞利信科技股份有限公司 混音装置、混音方法及利用该混音装置的会议系统
CN101860784A (zh) * 2004-04-16 2010-10-13 杜比国际公司 多声道音频信号表示方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880392A (en) * 1995-10-23 1999-03-09 The Regents Of The University Of California Control structure for sound synthesis
US20030235317A1 (en) * 2002-06-24 2003-12-25 Frank Baumgarte Equalization for audio mixing
CN1926610A (zh) * 2004-03-12 2007-03-07 诺基亚公司 基于编码的多声道音频信号合成单声道音频信号
CN101860784A (zh) * 2004-04-16 2010-10-13 杜比国际公司 多声道音频信号表示方法
CN101656072A (zh) * 2009-09-08 2010-02-24 北京飞利信科技股份有限公司 混音装置、混音方法及利用该混音装置的会议系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680513B (zh) * 2013-12-13 2016-11-02 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
CN103680513A (zh) * 2013-12-13 2014-03-26 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
CN105139865A (zh) * 2015-06-19 2015-12-09 中央电视台 一种确定左右声道音频相关系数的方法及装置
CN105139865B (zh) * 2015-06-19 2019-01-11 中央电视台 一种确定左右声道音频相关系数的方法及装置
CN109155803A (zh) * 2016-08-26 2019-01-04 华为技术有限公司 音频数据处理方法、终端设备和存储介质
US11477591B2 (en) 2016-08-26 2022-10-18 Honor Device Co., Ltd. Audio data processing method, terminal device, and storage medium
CN109155803B (zh) * 2016-08-26 2021-07-20 荣耀终端有限公司 音频数据处理方法、终端设备和存储介质
US10984807B2 (en) 2016-09-28 2021-04-20 Huawei Technologies Co., Ltd. Multichannel audio signal processing method, apparatus, and system
WO2018058379A1 (zh) * 2016-09-28 2018-04-05 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
US11922954B2 (en) 2016-09-28 2024-03-05 Huawei Technologies Co., Ltd. Multichannel audio signal processing method, apparatus, and system
US10593339B2 (en) 2016-09-28 2020-03-17 Huawei Technologies Co., Ltd. Multichannel audio signal processing method, apparatus, and system
CN107426651A (zh) * 2017-08-10 2017-12-01 长沙世邦通信技术有限公司 多通道的混音方法及装置
CN108616800A (zh) * 2018-03-28 2018-10-02 腾讯科技(深圳)有限公司 音频的播放方法和装置、存储介质、电子装置
CN109243488B (zh) * 2018-10-30 2021-07-06 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN109243488A (zh) * 2018-10-30 2019-01-18 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN110085268A (zh) * 2019-05-10 2019-08-02 深圳市智微智能科技开发有限公司 Android广告机双MIC实时切换的方法、系统、广告机及存储介质
WO2021052050A1 (zh) * 2019-09-17 2021-03-25 南京拓灵智能科技有限公司 一种沉浸式音频渲染方法及系统
CN111093142B (zh) * 2019-12-24 2021-06-08 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
CN111093142A (zh) * 2019-12-24 2020-05-01 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
WO2023197967A1 (zh) * 2022-04-15 2023-10-19 华为技术有限公司 多通道的混音方法、设备及介质

Also Published As

Publication number Publication date
CN103188595B (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN103188595B (zh) 处理多声道音频信号的方法和系统
CN101263741B (zh) 产生和处理表示hrtf的参数的方法和设备
CN106165452B (zh) 音频信号处理方法和设备
US20180151185A1 (en) Audio encoding and decoding
CN101578658B (zh) 音频译码器
CN103348703B (zh) 用以利用预先算出的参考曲线来分解输入信号的装置和方法
CN101248483B (zh) 多声道音频信号的生成
CN111542877B (zh) 空间音频参数编码和相关联的解码的确定
CN101223820B (zh) 信号处理装置
CN103650537A (zh) 采用分解器产生输出信号的装置和方法
CN1822508B (zh) 对数字信号进行编码和解码的方法和设备
CN105766002B (zh) 用于对区域的声场数据进行压缩和解压缩的方法和装置
CN101263742A (zh) 音频编码
CN105580070A (zh) 根据室内脉冲响应处理音频信号的方法、信号处理单元、音频编码器、音频解码器及立体声渲染器
CN102282868B (zh) 没有反馈的频域有源矩阵解码的方法和系统
CN101960516A (zh) 语音增强
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
CN102227769A (zh) 解码装置、解码方法、编码装置、编码方法和编辑装置
CN101253556A (zh) 能量整形装置以及能量整形方法
CN105247893A (zh) 音频信号输出装置和方法、编码装置和方法、解码装置和方法及程序
WO2019105575A1 (en) Determination of spatial audio parameter encoding and associated decoding
CN111724757A (zh) 一种音频数据处理方法及相关产品
TWI695371B (zh) 應用動態範圍壓縮之方法和設備以及一種非暫態電腦可讀取儲存媒體
US20220392462A1 (en) Multichannel audio encode and decode using directional metadata
Kraft et al. Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170116

Address after: 200000 room 3205F, building 707, Zhang Yang Road, Shanghai, China (Shanghai) free trade zone, No. 32

Patentee after: Xin Xin Finance Leasing Co.,Ltd.

Address before: Zuchongzhi road Shanghai Pudong New Area Zhangjiang High Tech Park of Shanghai City, 201203 Lane 2288 Pudong New Area Spreadtrum Center Building 1

Patentee before: Spreadtrum Communications (Shanghai) Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170707

Address after: 100033 room 2062, Wenstin Executive Apartment, 9 Financial Street, Beijing, Xicheng District

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: 200000 room 3205F, building 707, Zhang Yang Road, Shanghai, China (Shanghai) free trade zone, No. 32

Patentee before: Xin Xin Finance Leasing Co.,Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130703

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: 2018990000163

Denomination of invention: Method and system of processing multichannel audio signals

Granted publication date: 20150527

License type: Exclusive License

Record date: 20180626

TR01 Transfer of patent right

Effective date of registration: 20200305

Address after: 201203 Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 100033 room 2062, Wenstin administrative apartments, 9 Financial Street B, Xicheng District, Beijing.

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200528

Address after: 361012 unit 05, 8 / F, building D, Xiamen international shipping center, No.97 Xiangyu Road, Xiamen area, China (Fujian) free trade zone, Xiamen City, Fujian Province

Patentee after: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

Address before: 201203 Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
EC01 Cancellation of recordation of patent licensing contract

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: 2018990000163

Date of cancellation: 20210301

EC01 Cancellation of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130703

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

Contract record no.: X2021110000010

Denomination of invention: Method and system of processing multi channel audio signal

Granted publication date: 20150527

License type: Exclusive License

Record date: 20210317

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 361012 unit 05, 8 / F, building D, Xiamen international shipping center, 97 Xiangyu Road, Xiamen area, China (Fujian) pilot Free Trade Zone, Xiamen City, Fujian Province

Patentee before: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

TR01 Transfer of patent right