CN102855876B - 音频编码器和音频编码方法 - Google Patents

音频编码器和音频编码方法 Download PDF

Info

Publication number
CN102855876B
CN102855876B CN201210212498.9A CN201210212498A CN102855876B CN 102855876 B CN102855876 B CN 102855876B CN 201210212498 A CN201210212498 A CN 201210212498A CN 102855876 B CN102855876 B CN 102855876B
Authority
CN
China
Prior art keywords
frequency spectrum
blending ratio
frequency
sound channel
determining section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210212498.9A
Other languages
English (en)
Other versions
CN102855876A (zh
Inventor
户栗康裕
前田祐儿
松本淳
铃木志朗
松村祐树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102855876A publication Critical patent/CN102855876A/zh
Application granted granted Critical
Publication of CN102855876B publication Critical patent/CN102855876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种音频编码器和音频编码方法,该音频编码器包括:确定部,基于多个声道的音频信号的频谱,确定混合比率,该混合比率为针对多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;混合部,基于确定部确定的混合比率,针对每个声道混合多个声道的频谱;以及编码部,对经混合部混合之后的多个声道的频谱进行编码。

Description

音频编码器和音频编码方法
技术领域
本技术涉及一种音频编码器以及音频编码方法序,更具体地,涉及能够在高效地对多个声道的音频信号进行编码时防止由于编码而导致声音质量劣化的音频编码器和音频编码方法。
背景技术
在用于对由多个声道的音频信号构成的立体声音频信号进行编码的公知技术当中,存在通过利用声道之间的关系来提高编码效率的M/S立体声编码技术、强度立体声编码技术等。在下文中,为了便于说明,立体声音频信号的声道数量是两个,即左声道和右声道,但是该说明同样可以适用于数量是三个或更多个的情况。
M/S立体声编码生成构成立体声音频信号的右声道的音频信号和左声道的音频信号之间的和分量以及差分量作为编码结果。因此,由于当右声道的音频信号和左声道的音频信号彼此类似时差分量较小,因此编码效率较高。然而,由于当右声道的音频信号和左声道的音频信号彼此显著不同时差分量较大,因此难以获得高编码效率。这会在编码之后的量化时引起量化噪声,从而在解码时引起人工噪声。
在强度立体声编码中,基于如下原理执行编码:人类听觉在高频域对相位迟钝,并且主要基于频谱之间的水平比(level ratio)来感测位置(例如,参见ISO/IEC 13818-7Information technology"Generic coding of moving pictures and associatedaudio information Part 7",Advanced Audio Coding(AAC))。具体地,对于低于预定频率FIS的频率,强度立体声编码按原样提供右声道和左声道的频谱作为编码结果。另一方面,对于等于或大于预定频率FIS的频率,强度立体声编码生成通过混合右声道和左声道的频谱而获得的共同谱以及各个声道的频谱的水平作为编码结果。
因此,对于低于频率FIS的频率,解码器将作为编码结果的右声道和左声道的频谱按原样提供作为解码结果。另一方面,对于等于或大于频率FIS的频率,解码器将各个声道的频谱的水平应用于作为编码结果的共同谱,以生成解码结果。
另外,对于这样的强度立体声编码,假定与M/S立体声编码的情况类似,右声道的音频信号和左声道的音频信号彼此类似。因此,当右声道的音频信号和左声道的音频信号彼此完全不同时,例如,当左声道的音频信号是钹(cymbals)的音频信号而右声道的音频信号是小号(trumpet)的音频信号时,由于共同谱不同于右声道和左声道的频谱,因此在解码时会出现人工噪声。
因此,提出了计算右声道的音频信号的频谱与左声道的音频信号的频谱之间的距离的尺度,并且当该尺度等于或小于阈值时,执行诸如M/S立体声编码的共同编码,并且当该尺度等于或大于阈值时,单独地执行编码(例如,参见日本专利第3421726号,在下文中将其称为专利文献1)。
此外,还提出了针对预定频带将立体声音频信号的频谱划分成段(piece),并且对于每个频带,使用特定的哈夫曼码本号来传送被应用了强度立体声编码的索引(例如,参见日本专利第3622982号,这在下文中被称为专利文献2)。因而,可以针对每个预定频带而在开与关之间切换强度立体声编码。
然而,在专利文献1和2的技术的情况下,当在开与关之间频繁切换共同编码或强度立体声编码时,感测位置会变得不稳定或者会出现异常声音。
另外,存在对于编码期望高压缩率的情形。即使在右声道的音频信号和左声道的音频信号彼此显著不同时,该情形也可能强制要求采用强度立体声编码以提高编码效率。在该情况下,在解码时肯定会出现可感测的人工噪声。
同时,认为针对带而被划分成段的立体声音频信号基于编码的失真系数、以混合比率混合从而将其编码(例如,参见日本专利第3951690号)。在该情况下,由于基于失真系数连续地控制右边和左边的编码对象的分离(立体声感觉),因此可以防止感测位置不稳定或者可以防止异常声音的出现。
图1是示出执行这样的编码的音频编码器的配置的一个示例的框图。
图1中的音频编码器10被配置成包括滤波器组11、滤波器组12、自适应混合部13、T/F变换部14、T/F变换部15、编码控制部16、编码部 17、多路复用器18以及失真系数检测部19。
作为左声道的时间信号的音频信号xL和作为右声道的时间信号的音频信号xR作为编码对象的立体声音频信号被输入到图1中的音频编码器10。
音频编码器10的滤波器组11将被输入作为编码对象的音频信号xL划分成相应的B个频带(带)的音频信号。滤波器组11将所划分的具有带号b(b=1,2,…,B)的子带信号xb L提供到自适应混合部13。
类似地,滤波器组12将被输入作为编码对象的音频信号xR划分成相应的B个带的音频信号。滤波器组12将所划分的具有带号b(b=1,2,...,B)的子带信号xb R提供到自适应混合部13。
自适应混合部13基于从失真系数检测部19提供的并且用于对过去的编码对象编码的失真系数,确定从滤波器组11提供的子带信号xb L与从滤波器组12提供的子带信号xb R的混合比率。
具体地,自适应混合部13使得混合比率随着失真系数越大(即,S/N比率越小)而越大。因而,要通过进行混合而获得的子带信号针对右边和左边的分离(立体声感觉)变小,并且将提高编码效率。另一方面,自适应混合部13使得混合比率随着失真系数越小(即,S/N比率越大)而越小。因而,要通过进行混合而获得的子带信号针对右边和左边的分离(立体声感觉)变大。
自适应混合部13基于所确定的子带信号xb L的混合比率而针对每个带混合子带信号xb L和子带信号xb R,以生成子带信号xb Lmix。类似地,自适应混合部13基于所确定的子带信号xb R的混合比率而针对每个带混合子带信号xbL和子带信号xb R,以生成子带信号xb Rmix。自适应混合部13将所生成的子带信号xb Lmix提供到T/F变换部14,并且将子带信号xb Rmix提供到T/F变换部15。
T/F变换部14对子带信号xb Lmix执行诸如MDCT(改进的离散余弦变换)的时频变换,并且将所得到的频谱XL提供到编码控制部16和编码部17。
类似地,T/F变换部15对子带信号xb Rmix执行诸如MDCT的时频变换,并且将所得到的频谱XR提供到编码控制部16和编码部17。
编码控制部16基于从T/F变换部14提供的频谱XL与从T/F变换部15提供的频谱XR之间的关联,选择M/S立体声编码和强度编码这两种编 码中的任一种编码方案。编码控制部16将所选择的编码方案提供到编码部17。
编码部17使用从编码控制部16提供的编码方案对从T/F变换部14提供的频谱XL和从T/F变换部15提供的频谱XR中的每一个进行编码。编码部17将通过编码所获得的编码谱和关于编码的附加信息提供到多路复用器18。
多路复用器18以预定格式对从编码部17提供的编码谱、关于编码的附加信息等进行多路复用,并且输出所得到的编码数据。
失真系数检测部19检测编码部17的编码的失真系数,并且将其提供到自适应混合部13。
发明内容
然而,在图1的音频编码器10中,由于基于过去的编码对象的失真系数来确定混合比率,因此该混合比率不一定适合于当前编码对象的特征。结果,会出现由于编码而导致的声音质量的劣化。例如,即使当右声道的音频信号和左声道的音频信号彼此显著不同时,也会出现由于未充分混合右声道和左声道的频谱而引起的解码时的噪声。
本技术是鉴于上述情形而做出的,并且期望在高效地对立体声音频信号进行编码时防止由于编码而导致的声音质量的劣化。
根据本技术的一方面,提供了一种音频编码器,包括:确定部,基于多个声道的音频信号的频谱,确定混合比率,该混合比率为针对多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;混合部,基于确定部确定的混合比率,针对每个声道混合多个声道的频谱;以及编码部,对经混合部混合后的多个声道的频谱进行编码。
根据本技术的一方面,提供了一种与根据本技术的第一方面的音频编码器对应的音频编码方法和程序。
在根据本技术的一方面,基于多个声道的音频信号的频谱,确定混合比率,该混合比率为针对多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;基于所确定的混合比率,针对每个声道混合 多个声道的频谱;以及对混合后的多个声道的频谱进行编码。
根据本技术的一方面,可以在高效地对多个声道的音频信号进行编码时防止由于编码而导致的声音质量的劣化。
附图说明
图1是示出过去的音频编码器的配置的一个示例的框图;
图2是示出应用了本技术的音频编码器的一个实施例的构成示例的框图;
图3是用于说明图2中的关联/能量计算部中的带的图;
图4是示出图2中的自适应混合部的构成示例的图;
图5是示出混合比率m1的示例的图;
图6是示出混合比率m2的示例的图;
图7是示出混合比率m3的示例的图;
图8是示出图2中的编码部的构成示例的框图;
图9是用于说明编码处理的流程图;
图10是用于详细地说明图9中的混合处理的流程图;以及
图11是示出计算机的一个实施例的构成示例的图。
具体实施方式
<实施例>
(音频编码器的一个实施例的构成示例)
图2是示出应用了本技术的音频编码器的一个实施例的构成示例的框图。
图2中的音频编码器30被配置成包括输入端子31和输入端子32、T/F变换部33和T/F变换部34、关联/能量计算部35、自适应混合部36、编码部37、多路复用器38以及输出端子39。音频编码器30以基于立体声音频信号的频谱的混合比率来对频谱进行混合,以执行强度立体声编码。
具体地,编码对象的立体声音频信号之中作为左声道的时间信号的音频信号xL被输入到音频编码器30的输入端子31,并且被提供到T/F变换部33。此外,编码对象的立体声音频信号之中作为右声道的时间信号的音频信号xR被输入到输入端子32,并且被提供到T/F变换部34。
T/F变换部33针对每个预定的变换帧,对从输入端子31提供的音频信号xL执行诸如MDCT变换的时频变换。T/F变换部33将所得到的频谱XL(系数)提供到关联/能量计算部35和自适应混合部36。
类似地,T/F变换部34针对每个预定的变换帧,对从输入端子32提供的音频信号xR执行诸如MDCT变换的时频变换。T/F变换部34将所得到的频谱XR(系数)提供到关联/能量计算部35和自适应混合部36。
关联/能量计算部35针对各预定频带(带)将从T/F变换部33提供的频谱XL和从T/F变换部34提供的频谱XR中的每一个划分成段。另外,按照频率的升序而顺序地为各个带给出带号b(b=1,2,…,B)。
另外,关联/能量计算部35根据以下等式(1),针对每个带计算具有带号b的带的频谱XL的能量EL(b)和频谱XR的能量ER(b)。
另外,在等式(1)中,XL(k)表示频率索引k的频谱XL,XR(k)表示频率索引k的频谱XR。另外,Kb和Kb+1-1分别表示与具有带号b的带的频率对应的频率索引的最小值和最大值。这同样适用于下述等式(2)。
此外,关联/能量计算部35根据以下等式(2),使用能量EL(b)和能量ER(b)来针对每个带计算频谱XL与频谱XR之间的关联corr(b)。
尽管每次在频谱XL和频谱XR被输入到关联/能量计算部35时(即,针对每个变换帧)计算该关联corr(b),但是关联/能量计算部35由于关联corr(b)相对于其它的强烈变化而对关联corr(b)执行时间平滑。具体地, 关联/能量计算部35例如根据以下等式(3),通过计算当前变换帧的关联corr(b)和预定数量的过去变换帧的关联corr(b)的指数加权平均值来顺序地计算平均关联ave_corr(b)。
ave_corr(b)=r×ave_corr(b)Old+(1-r)×corr(b)(0<r<1)...(3)
在等式(3)中,ave_corr(b)Old是预定数量的过去变换帧的指数加权平均值。
关联/能量计算部35将如上算出的平均关联ave_corr(b)、能量EL(b)和能量ER(b)提供到自适应混合部36。
自适应混合部36基于从关联/能量计算部35提供的平均关联ave_corr(b)、能量EL(b)和能量ER(b),计算每个带的混合比率。该混合比率是右声道的频谱XR(左声道的频谱XL)相对于混合后的左声道的频谱XLmix(右声道的频谱XRmix)的比率。
自适应混合部36基于每个带的混合比率,针对每个带和声道混合从T/F变换部33提供的频谱XL和从T/F变换部34提供的频谱XR。自适应混合部36将混合之后所得到的左声道的频谱XLmix和右声道的频谱XRmix提供到编码部37。
编码部37对从自适应混合部36提供的频谱XLmix和频谱XRmix执行强度立体声编码。编码部37将通过编码所获得的编码谱和关于编码的附加信息提供到多路复用器38。
多路复用器38以预定格式对从编码部37提供的编码谱、关于编码的附加信息等执行多路复用,从而经由输出端子39输出所得到的编码数据。
尽管以上在音频编码器30中关联corr(b)经历时间平滑,但是可不采用时间平滑,从而使得上述等式(3)中的r为0。此外,能量EL(b)和能量ER(b)也可与关联corr(b)一样经历时间平滑。
尽管以上在音频编码器30中编码部37执行强度立体声编码,但是可采用除强度立体声编码之外的高效编码,诸如M/S立体声编码。
(带的说明)
图3是用于说明图2中的关联/能量计算部35中的带的图。
如图3所示,每个带是具有预定频率的带宽。例如,在图3中,具有带号b的带是包括等于或大于对应于频率索引Kb的频率且小于对应于频率索引Kb+1的频率的频率的带宽。
另外,在图3的示例中,带之中右边和左边的频谱在强度立体声编码中不是按原样成为编码结果的最底下带(在下文中称为起始带)的带号是isb。此外,具有带号isb的带的最小频率索引是Kisb,并且频率索引Kisb的频率是FIS
另外,优选地,关联/能量计算部35中的带被配置成在根据听觉的临界带宽(听力临界带)划分时带的范围随着进入越高的频域而越宽。另外,带的范围可等于作为编码部37中的量化或编码的处理单位的量化单位的范围,或者与之不同。等于或大于FIS的频率可仅构成一个带而不被划分成多个带。
(自适应混合部的构成示例)
图4是示出图2中的自适应混合部36的构成示例的图。
图4中的自适应混合部36被配置成包括确定部51、乘法部52、乘法部53、加法部54、乘法部55、乘法部56以及加法部57。
确定部51使用从图2中的关联/能量计算部35提供的带的能量EL(b)、能量ER(b)和平均关联ave_corr(b),计算每个带的混合比率m(b)。确定部51将算出的混合比率m(b)提供到乘法部52、乘法部53、乘法部55以及乘法部56。
乘法部52、乘法部53以及加法部54用作左声道的混合部,并且乘法部55、乘法部56以及加法部57用作右声道的混合部。
具体地,乘法部52、乘法部53以及加法部54根据以下等式(4)、基于混合比率m(b)而执行混合,以生成混合后的频谱XLmix。此外,乘法部55、乘法部56以及加法部57根据以下等式(4)、基于混合比率m(b)而执行混合,以生成混合后的频谱XRmix
XLmix(k)=(1-m(b))×XL(k)+m(b)×XR(k)
XRmix(k)=m(b)×XL(k)+(1-m(b))×XR(k)...(4)
在等式(4)中,频率索引k是包括在具有带号b的带中的频率的频率索引。另外,在等式(4)中,XLmix(k)和XRmix(k)分别是频率索引k的频谱XLmix和频谱XRmix。此外,XL(k)和XR(k)是频率索引k的频谱XL和频谱XR
更详细地,乘法部52针对每个带,将从图2中的T/F变换部33提供的频谱XL与通过从1减去从确定部51提供的混合比率m(b)而获得的值 相乘,以将所得到的频谱提供到加法部54。
此外,乘法部53针对每个带,将从图2中的T/F变换部34提供的频谱XR与从确定部51提供的混合比率m(b)相乘,以将所得到的频谱提供到加法部54。
加法部54针对每个带,将从乘法部52提供的频谱与从乘法部53提供的频谱相加。加法部54将通过相加所获得的频谱作为混合后的频谱XLmix提供到图2中的编码部37。
此外,乘法部55针对每个带,将从T/F变换部33提供的频谱XL(b)与从确定部51提供的混合比率m(b)相乘,以将所得到的频谱提供到加法部57。
乘法部56针对每个带,将从T/F变换部34提供的频谱XR(b)与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘,以将所得到的频谱提供到加法部57。
加法部57针对每个带,将从乘法部55提供的频谱与从乘法部56提供的频谱相加。加法部57将通过相加所获得的频谱作为混合后的频谱XRmix提供到编码部37。
(计算混合比率的方法的说明)
图5至图7是用于说明图4中的确定部51中的计算混合比率的方法的图。
确定部51针对每个带,基于平均关联ave_corr(b)确定例如图5所示的混合比率m1(ave_corr(b))。在图5中,横轴表示平均关联ave_corr(b),并且纵轴表示混合比率m1(ave_corr(b))。
当平均关联ave_corr(b)接近0时,频谱XL和频谱XR彼此不同。因此,期望防止右声道和左声道的不同编码对象在解码时引起噪声。另一方面,当平均关联ave_corr(b)接近1时,频谱XL和频谱XR彼此类似。几乎不会出现由于编码而导致的解码时的噪声。因此,在图5的示例中,混合比率m1(ave_corr(b))随着平均关联ave_corr(b)越接近0而变得越大,并且随着平均关联m1(ave_corr(b))越接近1而变得越小。此外,当平均关联ave_corr(b)等于0时,混合比率m1(ave_corr(b))是作为最大值的0.5。
同时,当平均关联ave_corr(b)是负值时,与平均关联ave_corr(b)是正值的情况类似,混合比率m1(ave_corr(b))随着平均关联ave_corr(b)越 接近0而变得越大,并且随着平均关联ave_corr(b)越接近-1而变得越小。然而,在该情况下,由于能量因混合而衰减,因此与平均关联ave_corr(b)是正值的情况下的混合比率相比,混合比率m1(ave_corr(b))较小。此外,当平均关联ave_corr(b)小于比-1大的预定负阈值T(例如,大约-0.6)时,混合比率m1(ave_corr(b))是0。
另外,可如以下等式(5)所表示的那样来确定混合比率m1(ave_corr(b))。
m1(ave_corr(b))=0,当ave_corr(b)≤C1时,
m1(ave_corr(b))=0.5×(ave_corr(b)-C1)/(C2-C1),当C1<ave_corr(b)≤C2时,以及
m1(ave_corr(b))=0.5×(ave_corr(b)-1)/(C2-1),当ave_corr(b)>C2时...(5)
在等式(5)中,C1和C2是预定阈值。例如,C1可以是-0.6,并且C2可以是0。
另外,确定部51针对每个带,基于能量EL(b)和ER(b)确定例如图6所示的混合比率m2(LR_ratio(b))。
在图6中,横轴表示基于能量EL(b)和ER(b)由以下等式(6)定义的右声道和左声道的频谱的水平比LR_ratio(b)[dB],并且纵轴表示混合比率m2(LR_ratio(b))。
LR_ratio(b)=10log10(EL/ER)...(6)
在图6的示例中,随着水平比LR_ratio的绝对值越大,即,随着频谱XL和频谱XR的水平越不相同,混合比率m2(LR_ratio(b))变得越小,以防止声音泄漏(以下详细描述)。而且,当水平比LR_ratio的绝对值等于或大于预定阈值R(大约30dB)时,混合比率m2(LR_ratio(b))为0。
然而,当右声道和左声道中的至少一个的声音几乎是无声的时,即,当频谱XL和频谱XR中的至少一个水平小于预定阈值时,声音泄漏是可感测的。因此,无论水平比LR_ratio如何,都使混合比率m2(LR_ratio(b))为0。
声音泄漏是因混合水平彼此显著不同的音频信号的频谱而引起的,并且是从水平较大的频谱到水平较小的频谱的水平偏移。
此外,确定部51基于带的频率而确定例如图7所示的混合比率m3(b)。 在图7中,横轴表示带号b,并且纵轴表示混合比率m3(b)。
当混合从作为起始带的具有带号isb的带急剧开始时,会由于不连续性而出现噪声。因此,在图7的示例中,从带号稍微在带号isb前面的带开始,混合比率m3(b)逐渐增加至作为最大值的0.5。此外,在较高的频域(例如,13kHz或更高的频率)中,由于几乎感测不到解码时的噪声,因此混合比率m3(b)略小于0.5,以便即使当频谱XL和频谱XR彼此不同时也保持立体声感觉。
确定部51使用如上算出的混合比率m1(ave_corr(b))、m2(LR_ratio(b))和m3(b),根据以下等式(7)计算带b的最终混合比率m(b)。
m(b)=4×m1(ave_corr(b))×m2(LR_ratio(b))×m3(b)...(7)
另外,混合比率m(b)可以不是混合比率m1(ave_corr(b))、m2(LR_ratio(b))和m3(b)的乘积,而是如以下等式(8)所述的、混合比率m1(ave_corr(b))、m2(LR_ratio(b))和m3(b)的线性和。
m(b)=w1×m1(ave_corr(b))+w2×m2(LR_ratio(b))+w3×m3(b),其中w1+w2+w3=1...(8)
此外,混合比率m(b)不一定使用全部的混合比率m1(ave_corr(b))、m2(LR_ratio(b))和m3(b)来确定,而是可使用混合比率m1(ave_corr(b))、m2(LR_ratio(b))和m3(b)中的至少一个来确定。
(编码部的构成示例)
图8是示出图2中的编码部37的构成示例的框图。
图8中的编码部37被配置成包括乘法部71、运算部72、水平校正部73、加法部74、归一化部75、量化部76、加法部77、归一化部78以及量化部79。
在从图2中的自适应混合部36提供的频谱XLmix和XRmix当中,频率索引小于起始带中最小的频率FIS的频率索引Kisb的频谱XLmix和频谱XRmix分别被提供到加法部74和加法部77。
另一方面,在从自适应混合部36提供的频谱XLmix和XRmix当中,频率索引等于或大于频率索引Kisb的频谱XLmix被提供到运算部72、水平校正部73以及加法部74,并且频率索引等于或大于频率索引Kisb的频谱XRmix被提供到乘法部71、水平校正部73以及加法部77。
乘法部71和运算部72根据以下等式(9),生成各自的频率索引均等 于或大于频率索引Kisb的频谱XLmix和频谱XRmix共同的共同谱XM
XM(k)=0.5×{XLmix(k)+sign×XRmix(k)}(k≥Kisb)...(9)
在等式(9)中,XM(k)、XLmix(k)和XRmix(k)分别表示具有频率索引k的共同谱XM、频谱XLmix、频谱XRmix。此外,sign是对于每个量化单位的频谱XRmix的相位极性并且是+1或-1。例如,当对于量化单位的频谱XLmix和XRmix的关联是正值时,相位极性符号是+1,并且当该关联是负值时,相位极性符号是-1。
更详细地,乘法部71将频率索引等于或大于频率索引Kisb的频谱XRmix与相位极性符号相乘,以将所得到的频谱提供到运算部72。
运算部72将频率索引等于或大于频率索引Kisb的频谱XLmix与从乘法部71提供的频谱相加,并且将所得到的频谱与0.5相乘以生成共同谱XM。运算部72将所生成的共同谱XM提供到水平校正部73。
水平校正部73针对每个量化单位,校正共同谱XM的水平,以使得从运算部72提供的共同谱XM的能量与频率索引等于或大于频率索引Kisb的频谱XLmix的、对于该量化单位的能量一致。类似地,水平校正部73校正共同谱XM的水平,以使得共同谱XM的能量与频率索引等于或大于频率索引Kisb的频谱XRmix的、对于该量化单位的能量一致。
具体地,首先,水平校正部73分别计算频率索引等于或大于频率索引Kisb的频谱XLmix和XRmix的、量化单位q的能量EL(q)和ER(q)以及共同谱XM的能量EM(q)。然后,水平校正部73针对每个量化单位q,根据以下等式(10)使用能量EL(q)或ER(q)以及能量EM(q)校正共同谱XM的水平。
在等式(10)中,XM(k)、XL IS(k)和XR IS(k)分别表示频率索引k的共同谱XM、水平校正后的共同谱XL IS和水平校正后的共同谱XR IS
水平校正部73将水平校正后的共同谱XL IS提供到加法部74,并且将水平校正后的共同谱XR IS提供到加法部77。
加法部74将频率索引小于频率索引Kisb的频谱XLmix与从水平校正部73提供的共同谱XL IS相加,以将所得到的全部频率索引的频谱提供到归一化部75。
归一化部75针对具有预定频率带宽的每个量化单位,响应于频谱的幅度而使用归一化因子(比例因子)SFL来对从加法部74提供的频谱进行归一化。归一化部75将通过归一化所获得的频谱XL Norm提供到量化部76,并且将归一化因子SFL作为关于编码的附加信息提供到图2中的多路复用器38。
量化部76以预定比特数对从归一化部75提供的频谱XL Norm进行量化,以将量化后的频谱XL Norm作为左声道的编码谱提供到多路复用器38。因而,作为左声道的编码谱提供到多路复用器38的编码谱的频率索引k与全部频率索引(0,1,...,Kisb,...,K)一致。
另外,加法部77将频率索引小于频率索引Kisb的频谱XRmix与从水平校正部73提供的共同谱XR IS相加,以将所得到的全部频率索引的频谱提供到归一化部78。
归一化部78针对每个量化单位,响应于频谱的幅度而使用归一化因子SFR来对从加法部77提供的频谱进行归一化。归一化部78将通过归一化所获得的频谱XR Norm提供到量化部79,并且将归一化因子SFR作为关于编码的附加信息提供到多路复用器38。
量化部79在从归一化部78提供的频谱XR Norm中,以预定比特数对频率索引小于频率索引Kisb的频谱XR Norm进行量化。量化部79将量化后的频谱XR Norm作为右声道的编码谱提供到多路复用器38。因而,被提供到多路复用器38的右声道的编码谱的频率索引k与全部频率索引当中小于频率索引Kisb的频率索引(0,1,...,Kisb-1)一致。
尽管在图8的编码部37中,左声道的编码谱的频率索引k是全部频率索引并且右声道的编码谱的频率索引k是小于Kisb的频率索引,但是左声道的频率索引k可取代右声道的频率索引。即,右声道的编码谱的频率索引k可以是全部频率索引,并且左声道的编码谱的频率索引k可以是小于Kisb的频率索引。
(音频编码器的处理的说明)
图9是用于说明图2中的音频编码器30的编码处理的流程图。当音频信号xL被输入到输入端子31并且音频信号xR被输入到输入端子32时, 启动该编码处理。
在图9的步骤S11中,T/F变换部33针对每个预定变换帧,对从输入端子31提供的左声道的音频信号xL执行时频变换。T/F变换部33将所得到的频谱XL提供到关联/能量计算部35和自适应混合部36。
在步骤S12中,T/F变换部34针对每个预定变换帧,对从输入端子32提供的右声道的音频信号xR执行时频变换。T/F变换部34将所得到的频谱XR提供到关联/能量计算部35和自适应混合部36。
在步骤S13中,关联/能量计算部35针对各个带,将从T/F变换部33提供的频谱XL和从T/F变换部34提供的频谱XR中的每一个划分成段。
在步骤S14中,关联/能量计算部35根据上述等式(1),针对每个带计算能量EL(b)和能量ER(b),以提供到自适应混合部36。
在步骤S15中,关联/能量计算部35根据上述等式(2)、使用能量EL(b)和能量ER(b)来计算每个带的关联corr(b),并保存它们。然后,关联/能量计算部35根据上述等式(3),通过计算当前变换帧的关联corr(b)和预定数量的过去变换帧的关联corr(b)的指数加权平均值来顺序地计算平均关联ave_corr(b),以提供到自适应混合部36。
在步骤S16中,自适应混合部36基于平均关联ave_corr(b)、能量EL(b)和能量ER(b),针对每个带和每个声道执行混合频谱XL和频谱XR的混合处理。将参照下述图10详细地描述该混合处理。
在步骤S17中,编码部37对从自适应混合部36提供的频谱XLmix和频谱XRmix执行强度立体声编码,以将所得到的编码谱提供到多路复用器38。
在步骤S18中,多路复用器38以预定格式对从编码部37提供的编码谱、关于编码的附加信息等执行多路复用,以经由输出端子39输出所得到的编码数据。然后,编码处理终止。
图10是用于详细地说明图9的步骤S16中的混合处理的流程图。
在图10的步骤S31中,自适应混合部36的确定部51(图4)基于从关联/能量计算部35提供的平均关联ave_corr(b),针对每个带确定如图5所示的混合比率m1(ave_corr(b))。
在步骤S32中,确定部51基于从关联/能量计算部35提供的能量EL(b)和能量ER(b),针对每个带确定如图6所示的混合比率m2(LR_ratio(b))。
在步骤S33中,确定部51基于各个带的频率,针对每个带确定如图7所示的混合比率m3(b)。
在步骤S34中,确定部51根据上述等式(7)或等式(8),基于混合比率m1(ave_corr(b))、混合比率m2(LR_ratio(b))和混合比率m3(b),针对每个带确定混合比率m(b)。确定部51将算出的混合比率m(b)提供到乘法部52、乘法部53、乘法部55以及乘法部56。
在步骤S35中,乘法部52针对每个带,将从图2中的T/F变换部33提供的频谱XL与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘,以将所得到的频谱提供到加法部54。此外,乘法部56针对每个带,将从图2中T/F变换部34提供的频谱XR与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘,以将所得到的频谱提供到加法部57。
在步骤S36中,乘法部53针对每个带,将从T/F变换部34提供的频谱XR与从确定部51提供的混合比率m(b)相乘,以将所得到的频谱提供到加法部54。此外,乘法部55针对每个带,将从T/F变换部33提供的频谱XL与从确定部51提供的混合比率m(b)相乘,以将所得到的频谱提供到加法部57。
在步骤S37中,加法部54针对每个带,将从乘法部52提供的频谱与从乘法部53提供的频谱相加。加法部54将所得到的频谱作为混合后的频谱XLmix提供到图2中的编码部37。此外,加法部57针对每个带,将从乘法部55提供的频谱与从乘法部56提供的频谱相加。加法部57将所得到的频谱作为混合后的频谱XRmix提供到编码部37。然后,处理返回至图9中的步骤S16,并且进行到步骤S17。
如上所述,由于音频编码器30基于编码对象的立体声音频信号的频谱XL和XR确定混合比率m(b),因此混合比率m(b)适合于编码对象的立体声音频信号的特征。结果,可以防止由于编码而导致的声音质量的劣化,诸如噪声的出现和声音泄漏。
此外,由于音频编码器30针对每个带不是混合音频信号xL和xR而是混合频谱XL和XR,因此与图1中的音频编码器10不同,不需要滤波器组11和12来划分成带。另外,可以减少编码处理中的运算量和存储器使用量。
(应用了本技术的计算机的说明)
接下来,上述一系列处理可以由硬件或软件来执行。当这一系列处理由软件来执行时,构成该软件的程序安装在通用计算机等中。
因此,图11示出了根据安装有执行上述一系列处理的程序的计算机的一个实施例的构成示例。
程序可以预先存储在作为置于计算机中的记录介质的存储部208或ROM(只读存储器)202中。
或者,程序可以存储(记录)在可移动介质211中。这样的可移动介质211可以被提供作为所谓的封装软件。这里,可移动介质211是例如软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字通用盘)、磁盘、半导体存储器等。
另外,程序可以从上述可移动介质211经由驱动器210安装在计算机中,或者可以经由通信网络或广播网络下载到计算机中,以安装在内置存储部208中。即,程序可以通过无线通信(例如从下载站点经由用于数字卫星广播的卫星)传送到计算机,或者可以经由网络(诸如LAN(局域网)和因特网)通过有线通信而传送到计算机。
计算机内包括CPU(中央处理单元)201,并且I/O接口205经由总线204连接到CPU201。
当CPU 201接收到用户经由I/O接口205通过对输入部206的操作而输入的命令时,根据该命令,CPU 201执行存储在ROM 202中的程序。或者,CPU 201将存储在存储部208中的程序加载到RAM(随机存取存储器)203中并执行该程序。
因而,CPU 201执行根据上述流程图的处理或者根据上述框图的配置而被执行的处理。然后,CPU 201例如在必要时经由I/O接口205从输出部207输出处理结果,或者从通信部209传送该处理结果,另外,将该处理结果记录在存储部208等中。
另外,输入部206被配置成包括键盘、鼠标、麦克风等。此外,输出部207被配置成包括LCD(液晶显示器)、扬声器等。
这里,在本发明中,计算机根据程序所执行的处理不一定按照流程图所指示的顺序以时间顺序来执行。即,计算机根据程序所执行的处理还包括并行地或单独地执行的处理(例如,并行处理或面向对象的处理)。
另外,程序可由一个计算机(处理器)来处理,或者可由多个计算机 以分布式处理方式来执行。此外,程序可被传送到远程计算机来执行。
本领域技术人员应理解,在所附权利要求或其等同方案的范围内,根据设计要求和其它因素,可进行各种修改、组合、子组合和变更。
另外,还可如下配置本技术。
(1)一种音频编码器,包括:
确定部,基于多个声道的音频信号的频谱,确定混合比率,所述混合比率为针对所述多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;
混合部,基于所述确定部确定的所述混合比率,针对每个声道混合所述多个声道的频谱;以及
编码部,对经所述混合部混合后的所述多个声道的频谱进行编码。
(2)根据(1)所述的音频编码器,其中,
所述确定部基于所述多个声道的频谱之间的关联,确定所述混合比率。
(3)根据(2)所述的音频编码器,其中,
所述确定部以下述方式确定所述混合比率:所述混合比率随着所述关联越接近0而变得越大,并且所述混合比率随着所述关联越接近-1而变得越小。
(4)根据(2)或(3)所述的音频编码器,其中,
当所述关联小于预定负阈值时,所述确定部确定所述混合比率是0,其中所述预定负阈值大于-1。
(5)根据(1)至(4)中任一项所述的音频编码器,其中,
所述确定部基于所述多个声道的频谱之间的水平比,确定所述混合比率。
(6)根据(5)所述的音频编码器,其中,
所述确定部以下述方式确定所述混合比率:所述混合比率随着所述水平比越大而变得越小。
(7)根据(5)或(6)所述的音频编码器,其中,
当所述多个声道中的至少一个声道的频谱的水平小于预定阈值时,所 述确定部确定所述混合比率是0,而当所述多个声道的所有频谱的水平都等于或大于所述预定阈值时,所述确定部基于所述水平比确定所述混合比率。
(8)根据(5)所述的音频编码器,其中,
所述确定部基于所述多个声道的频谱之间的能量比,确定所述混合比率。
(9)根据(1)至(8)中任一项所述的音频编码器,其中,
所述确定部针对各个预定频带将所述多个声道的各个频谱划分成段,并且基于针对每个频带的所述多个声道的频谱确定每个频带的混合比率,以及
所述混合部基于所述确定部确定的针对每个频带的混合比率,针对每个声道和每个频带而混合所述多个声道的频谱。
(10)根据(9)所述的音频编码器,其中,
所述确定部基于每个频带的频谱和该频带的频率,确定对于每个频带的混合比率。
(11)根据(1)至(10)中任一项所述的音频编码器,其中,
所述编码器对经所述混合部混合后的所述多个声道的频谱执行强度立体声编码。
(12)一种音频编码方法,包括通过音频编码器执行如下步骤:
基于多个声道的音频信号的频谱,确定混合比率,所述混合比率为针对所述多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;
基于通过确定步骤的处理而确定的所述混合比率,针对每个声道混合所述多个声道的频谱;以及
对通过混合步骤的处理混合后的所述多个声道的频谱进行编码。
(13)一种使得计算机执行以下步骤的程序:
基于多个声道的音频信号的频谱,确定混合比率,所述混合比率为针对所述多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;
基于通过确定步骤的处理而确定的所述混合比率,针对每个声道混 合所述多个声道的频谱;以及
对通过混合步骤的处理混合后的所述多个声道的频谱进行编码。
本公开内容包含与2011年10月20日向日本专利局提交的日本优先权专利申请JP2011-230330和2011年7月1日向日本专利局提交的日本优先权专利申请JP 2011-147421中公开的主题内容有关的主题内容,其全部内容通过引用而合并于此。

Claims (11)

1.一种音频编码器,包括:
确定部,基于多个声道的音频信号的频谱,确定混合比率,所述混合比率为针对所述多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;
混合部,基于所述确定部确定的所述混合比率,针对每个声道混合所述多个声道的频谱;以及
编码部,对经所述混合部混合之后的所述多个声道的频谱进行编码,
其中,所述确定部基于所述多个声道的频谱之间的水平比,确定所述混合比率。
2.根据权利要求1所述的音频编码器,其中,
所述确定部还基于所述多个声道的频谱之间的关联,确定所述混合比率。
3.根据权利要求2所述的音频编码器,其中,
所述确定部以下述方式确定所述混合比率:所述混合比率随着所述关联越接近0而变得越大,并且所述混合比率随着所述关联越接近-1而变得越小。
4.根据权利要求2所述的音频编码器,其中,
当所述关联小于预定负阈值时,所述确定部确定所述混合比率是0,其中所述预定负阈值大于-1。
5.根据权利要求1所述的音频编码器,其中,
所述确定部以下述方式确定所述混合比率:所述混合比率随着所述水平比越大而变得越小。
6.根据权利要求1所述的音频编码器,其中,
当所述多个声道中的至少一个声道的频谱的水平小于预定阈值时,所述确定部确定所述混合比率是0,而当所述多个声道的所有频谱的水平都等于或大于所述预定阈值时,所述确定部基于所述水平比确定所述混合比率。
7.根据权利要求1所述的音频编码器,其中,
所述确定部基于所述多个声道的频谱之间的能量比,确定所述混合比率。
8.根据权利要求1所述的音频编码器,其中,
所述确定部针对各个预定频带将所述多个声道的各个频谱划分成段,并且还基于针对每个频带的所述多个声道的频谱确定每个频带的混合比率,以及
所述混合部基于所述确定部确定的针对每个频带的混合比率,针对每个声道和每个频带而混合所述多个声道的频谱。
9.根据权利要求8所述的音频编码器,其中,
所述确定部基于每个频带的频谱和该频带的频率,确定每个频带的混合比率。
10.根据权利要求1所述的音频编码器,其中,
所述编码器对经所述混合部混合后的所述多个声道的频谱执行强度立体声编码。
11.一种音频编码方法,包括通过音频编码器执行如下步骤:
基于多个声道的音频信号的频谱,确定混合比率,该混合比率为针对所述多个声道中的每个声道,其它声道的频谱相对于该声道的混合后频谱的比率;
基于通过确定步骤的处理而确定的所述混合比率,针对每个声道混合所述多个声道的频谱;以及
对通过混合步骤的处理混合后的所述多个声道的频谱进行编码,
其中,基于所述多个声道的频谱之间的水平比,确定所述混合比率。
CN201210212498.9A 2011-07-01 2012-06-21 音频编码器和音频编码方法 Active CN102855876B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011147421 2011-07-01
JP2011-147421 2011-07-01
JP2011-230330 2011-10-20
JP2011230330A JP6061121B2 (ja) 2011-07-01 2011-10-20 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Publications (2)

Publication Number Publication Date
CN102855876A CN102855876A (zh) 2013-01-02
CN102855876B true CN102855876B (zh) 2017-04-12

Family

ID=47390722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210212498.9A Active CN102855876B (zh) 2011-07-01 2012-06-21 音频编码器和音频编码方法

Country Status (3)

Country Link
US (1) US9672832B2 (zh)
JP (1) JP6061121B2 (zh)
CN (1) CN102855876B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149671A1 (en) 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
CN105321521B (zh) * 2014-06-30 2019-06-04 美的集团股份有限公司 基于终端运行环境的音频信号编码方法和系统
CN108269577B (zh) 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101223820A (zh) * 2005-07-15 2008-07-16 松下电器产业株式会社 信号处理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2612214B2 (ja) * 1990-11-21 1997-05-21 日本電気システム建設 株式会社 8chオートミキサ
DE4136825C1 (zh) 1991-11-08 1993-03-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De
DE19628292B4 (de) 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JP3951690B2 (ja) * 2000-12-14 2007-08-01 ソニー株式会社 符号化装置および方法、並びに記録媒体
JP3598993B2 (ja) * 2001-05-18 2004-12-08 ソニー株式会社 符号化装置及び方法
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
RU2007120056A (ru) * 2004-11-30 2008-12-10 Мацусита Электрик Индастриал Ко. Устройство стереокодирования, устройство стереодекодирования и способы стереокодирования и стереодекодирования
JP2006287716A (ja) * 2005-04-01 2006-10-19 Tamura Seisakusho Co Ltd 音声調整装置
JP4997781B2 (ja) * 2006-02-14 2012-08-08 沖電気工業株式会社 ミックスダウン方法およびミックスダウン装置
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101223820A (zh) * 2005-07-15 2008-07-16 松下电器产业株式会社 信号处理装置

Also Published As

Publication number Publication date
JP2013033189A (ja) 2013-02-14
JP6061121B2 (ja) 2017-01-18
US9672832B2 (en) 2017-06-06
CN102855876A (zh) 2013-01-02
US20130003980A1 (en) 2013-01-03

Similar Documents

Publication Publication Date Title
TWI307248B (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
RU2388068C2 (ru) Временное и пространственное генерирование многоканальных аудиосигналов
CN102754151B (zh) 用于对便携式装置内的音频信号的响度进行非破坏性标准化的系统和方法
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
KR101707125B1 (ko) 효율적인 다운믹싱을 이용하는 오디오 디코더 및 디코딩 방법
AU2007208482B2 (en) Complex-transform channel coding with extended-band frequency coding
US8069050B2 (en) Multi-channel audio encoding and decoding
CN100589657C (zh) 编码音频的节约式响度测量方法及装置
JP5485909B2 (ja) オーディオ信号処理方法及び装置
US8433583B2 (en) Audio decoding
US20100318368A1 (en) Quantization and inverse quantization for audio
US20100076774A1 (en) Audio decoder
CN106847303B (zh) 支持谐波音频信号的带宽扩展的方法、设备和记录介质
EP1684266B1 (en) Method and apparatus for encoding and decoding digital signals
TW200404273A (en) Improved audio coding system using spectral hole filling
KR20070028481A (ko) 다중-채널 출력 신호를 발생시키기 위한 다중-채널합성장치 및 방법
TWI288915B (en) Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
WO2006054583A1 (ja) オーディオ信号符号化装置および方法
CN102265513A (zh) 频域中的音频信号响度确定和修改
EP2395503A2 (en) Audio signal encoding and decoding method, and apparatus for same
CN102855876B (zh) 音频编码器和音频编码方法
CN105679325A (zh) 解码设备、解码方法以及音频处理设备
EP2595147B1 (en) Audio data encoding method and device
EP3703050B1 (en) Audio encoding method and related product
WO2009081315A1 (en) Encoding and decoding audio or speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant