CN101010724B - 音频编码器 - Google Patents

音频编码器 Download PDF

Info

Publication number
CN101010724B
CN101010724B CN2005800287250A CN200580028725A CN101010724B CN 101010724 B CN101010724 B CN 101010724B CN 2005800287250 A CN2005800287250 A CN 2005800287250A CN 200580028725 A CN200580028725 A CN 200580028725A CN 101010724 B CN101010724 B CN 101010724B
Authority
CN
China
Prior art keywords
mentioned
signal
frequency
unit
sound channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005800287250A
Other languages
English (en)
Other versions
CN101010724A (zh
Inventor
宫阪修二
高木良明
田中直也
津岛峰生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101010724A publication Critical patent/CN101010724A/zh
Application granted granted Critical
Publication of CN101010724B publication Critical patent/CN101010724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/022Electronic editing of analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供一种音频编码器,可以只解码混合信号,并且能具体制作分离混合信号时必要的辅助信息。是压缩编码N声道(N>1)的音频信号的音频编码器(10),包括:混合信号编码部(11),对混合音频信号所得到的混合信号进行编码;以及辅助信息生成部(12a),生成辅助信息,该辅助信息是把由混合信号编码部(11)所编码的混合信号解码为N声道的音频信号所必要的;辅助信息生成部(12a)包括:(121)、(122),把音频信号分别变换为频域信号;检测部(123),检测相位差信息和增益比信息,该相位差信息和增益比信息表示频域信号间的相差程度;以及量化部(125),把检测部(123)检测出的相位差信息和增益比信息,用量化精度设定表(124)按对应的每频带进行量化。量化精度设定表(124),也可作为分割单元发挥功能,把频域信号的频带分割为多个。

Description

音频编码器
技术领域
本发明涉及编码至少2声道以上的多声道信号的音频编码器。尤其涉及具体制作辅助信息的技术,该辅助信息是把缩混多声道信号所得到的混合信号(缩混信号)分离为原来的多声道信号所必要的信息。
背景技术
近几年,正开发着被称为Spatial Codec(空间编码)的技术。此技术的目的为以非常少的信息量来压缩、编码多声道信号,并保持它的临场感。
譬如,已经作为数字电视的音频方式被广泛使用的多声道编解码器的AAC(Advanced Audio Coding)方式,针对5.1ch需要512kbps或384kbps的比特率。与此相对,Spatial Codec争取以128kbps、64kbps、或更少的48kbps这样非常少的比特率来压缩、编码多声道信号。作为此类技术,譬如有专利文献1。
根据此文献,记载着通过编码声道间的电平比(以下也记为“电平差”、“增益比”)等,以少量的信息量来压缩、编码多声道信号,并保持它的临场感。
更具体来说,在听觉空间(BCC:Binaural Cue Coding)编码中,输入信号的频谱成分被缩混,生成BCC参数(譬如,声道间电平和/或时间差),在实现立体声时,将左右声道变换成频域后,这一对左右声道的频谱成分被缩混为单一成分。此后,将这些单一成分和未被缩混的左右声道的频谱成分逆变换成时域来生成混合立体声信号,其次用现有的编码技术将这些混合立体声信号进行编码。为了再生,用现有的解码技术将被编码了的比特流进行解码。其次,通过用BCC合成技术来适用BCC参数,根据这些单一成分和未被缩混的立体声成分合成听觉场面。
因此在使用家庭等的AV机器正规视听的情况下,可以用辅助信息分离被编码了的混合信号,实现在听觉上没有不协调感地分离信号。而且,在用移动电话等,使用耳机随意视听的情况下,可以不用BCC参数,只解码缩混信号就可以,从而可以简单且低演算量地进行高音质再生,这是现有的压缩方式不能实现的。
专利文献1:US2003/0236583A1号公报(对应的日本国申请,特开2004-78183号公报)
然而,在专利文献1中,只有针对一个或多个被缩混的频谱成分生成一个或多个听觉空间参数的记载,或者该一个或多个听觉空间参数包含一个或多个声道间电平差和声道间时间差的记载,而这样的信息(辅助信息)具体是怎样被量化、压缩的并没有公开。
因此,需要开发具体制作辅助信息的技术。
发明内容
本发明,鉴于这种现有问题点,其目的在于提供一种音频编码器,可以只解码混合信号,并且可以具体制作分离混合信号时必要的辅助信息。
为了达到上述目的,本发明涉及的音频编码器,对N声道(N>1)的音频信号进行压缩编码,其特征在于,该音频编码器包括:混合信号编码单元,对混合上述音频信号所得到的混合信号进行编码;以及辅助信息生成单元,生成辅助信息,该辅助信息是把由上述混合信号编码单元所编码的混合信号解码为上述N声道的音频信号所必要的信息;上述辅助信息生成单元包括:变换单元,把上述N声道的音频信号分别变换为N声道的频域信号;第1分割单元,把上述N声道的频域信号的频带分别分割为多个;第2分割单元,把上述N声道的频域信号的频带,比上述第1分割单元更粗略地分别分割为多个;检测单元,检测相位差信息和增益比信息,该相位差信息按上述第2分割单元所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度,该增益比信息按上述第1分割单元所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度;以及量化单元,把由上述检测单元所检测出的相位差信息和增益比信息,按对应的各频带进行量化。
并且,本发明不仅可以实现这样的音频编码器,而且也可以实现以这样的音频编码器具备的特征性单元作为步骤的编码方法,也可以实现作为让计算机执行这些步骤的程序。并且,也可以作为把这样的音频编码器具备的特征性单元进行一体化的LSI(Large ScaleIntegration)来构成。并且,当然这样的程序,能通过CD-ROM等记录媒体或因特网等传送媒体进行配送。
根据上述说明明显得知,由本发明的音频编码器,可以只编码混合信号,而且可以具体制作分离混合信号时必要的辅助信息,达到这样的效果。
因此,根据本发明,可以简易且高品质地再生,在用移动电话等便携机器随意再生音乐、用AV机器正规再生音乐很普遍的现在,本发明的实用价值极高。
附图说明
图1是示出适用了本发明中的音频编码器的音频信号编码解码系统的全体结构的方框图。
图2是示出2声道的音频信号、混合信号、增益比、相位差在频率轴上的关系的图。
图3是示出从音频编码器10被输出的比特流的格式结构的图。
图4是示出图1所示的辅助信息生成部的详细结构例的方框图。
图5是示出量化精度设定表124的一例的图。
图6是用于对比现有技术和本发明进行说明的图。尤其是图6(a)是示出现有技术中的量化精度的图,图6(b)是示出本发明中的量化精度的图。
图7是示出本实施方式2中的辅助信息生成部的其他详细结构例的方框图。
图8是示出本实施方式3中的辅助信息生成部的其他更详细的结构例的方框图。
图9是示出有关增益比信息的分割频率的表1271的一例的图。
图10是示出有关相位差信息的分割频率的表1272的一例的图。
图11是示出分别设定了增益比信息的量化精度和相位差信息的量化精度的量化精度表1281的一例的图。
图12是示出以低比特率模式工作时的增益比信息的分割频率的表的一例的图。
图13是示出有关以低比特率模式工作时的相位差信息的分割频率的表的一例的图。
图14是用于说明本发明特征的图。尤其是图14(a)、图14(b),是示出比较高比特率时以及低比特率时的量化精度的图;图14(c)、图14(d)是示出比较相位差信息中以及增益比信息中的量化精度的图。
符号说明
10音频编码器
11混合信号编码部
12辅助信息生成部
13格式化部(formatter)
121第1变换部
122第2变换部
123检测部
124量化精度设定表
125量化部
126压缩部
127a第1分割部
127b第2分割部
127c第3分割部
127d第4分割部
128a第1量化部
128b第2量化部
1271分割频率的表
1272分割频率的表
1281量化精度表
具体实施方式
以下,对适用本发明的音频编码器的音频信号编码解码系统进行说明。
(实施方式1)
图1是示出用本发明的音频编码器构成的音频信号编码解码系统的全体结构的方框图。
如图1所示,音频信号编码解码系统1包括:音频编码器10,压缩编码N声道(N>1)的音频信号;以及音频解码器20,把由音频编码器10压缩编码了的音频信号进行解码。并且在这里,为了方便说明,图示了编码2声道的音频信号的情况。
音频编码器10包括:混合信号编码部11,对混合2声道的输入音频信号所得到的混合信号进行编码;辅助信息生成部12,生成辅助信息(电平比、相位差),该辅助信息是把由混合信号编码部11所编码的混合信号解码为N声道的音频信号所必要的;以及格式化部13,把由混合信号编码部11编码了的混合信号和由辅助信息生成部12生成了的辅助信息按规定的每帧连结,生成比特流,并把生成的比特流输出到音频解码器20。
譬如,当2声道的输入音频信号被表示为图2所示的2个矢量的情况下,混合信号编码部11,作为混合信号合成为用符号X表示的矢量。并且,在图2中,输入音频信号的一个,其绝对值被正规化为1,其他被正规化为电平比D。辅助信息生成部12,检测出2声道的输入音频信号的电平比D和相位差θ,按对应它们的每频带进行量化。辅助信息生成部12的详细结构将另外后述。格式化部13,按规定的每帧连结混合信号和辅助信息,生成比特流。
图3是示出上述比特流的格式结构的图。并且,图3只示例1个帧的内容。
本比特流中在由规定的时间间隔设置的每个帧中存储有区域α和区域β,其顺序是α,之后β,该区域α存储有上述被编码的混合信号,该区域β存储有辅助信息。
在图3中,有关第1帧的数据被分别存储在区域α、β中,对于第2帧也反复同样的构成。
假设在区域α存储有,譬如把缩混2声道的信号得出的混合信号,用MPEG标准AAC方式进行压缩编码而被编码的混合信号。在这里,把信号进行矢量合成的处理称为缩混。
在区域β存储有辅助信息,该辅助信息包含表示2声道的音频信号间的增益比D的值和表示2声道的音频信号间的相位差θ的值。在这里应该注意的是,表示上述相位差θ的值,不一定必须是直接将相位差θ编码了的值,譬如,也可以是把像cos θ这样的值进行编码得出的数据。在这样的情况下,根据cos θ的值可以在0°到180°的范围内表示上述相位差θ。
返回到图1,音频解码器20包括:反格式化部(defomatta)21,把从音频编码器10接收了的比特流,按每帧分离被编码了的混合信号和辅助信息;混合信号解码部22,把由反格式化部21分离了的被编码了的混合信号进行解码;以及输出选择部23,选择性地输出被混合了的音频信号和N声道的音频信号中任一个。输出选择部23包括输出目的地选择开关231和声道扩展解码部232。
音频解码器20是像移动电话这样的便携机器,在用耳机随意再生的情况下,利用输出目的地选择开关231,由混合信号解码部22被解码了的混合信号就直接被输出。
与此相对,在用AV机器等正规地再生的情况下,通过输出目的地选择开关231,由混合信号解码部22被解码了的混合信号被输出到声道扩展解码部232。声道扩展解码部232进行和辅助信息生成部12相反的处理,即进行反量化,将电平比和相位差进行解码后,在频率轴上针对来自输出目的地选择开关231的输入,进行和图2相反的处理,即求得菱形,由此来分离成2个声道的音频信号,把被分离的音频信号从频率轴变换为时间轴,从而高品质地再生增强了临场感的音乐,该菱形的对角线对应混合信号并其对顶角为相位差θ。
以下对本发明的实施方式1的辅助信息生成部,参照附图说明。
图4是示出图1所示的辅助信息生成部的详细结构例的方框图。
如图4所示,辅助信息生成部12a包括:第1变换部121、第2变换部122、检测部123、量化部125以及量化精度设定表124。
第1变换部121把第1输入音频信号变换为频带信号(频带中的频域信号)。
第2变换部122把第2输入音频信号变换为频带信号。
检测部123,检测与第1输入音频信号和第2输入音频信号相对应的频带信号间的相差程度。
量化精度设定表124按每频带设定在量化部125的量化精度。
量化部125对被检测出的每频带的相差程度进行量化。
关于如上所构成的辅助信息生成部12a的工作将在下面进行说明。
首先,第1变换部121把第1输入音频信号变换为多个频带信号。此变换譬如可以是这样的方法,即用傅里叶变换和余弦变换等,把输入的音频信号变换为频谱信号,归结几条频谱信号构成规定的频带信号。譬如,可以是把输入的音频信号变换为1024条频谱信号,从最低的频率归结4条频谱信号作为第1频带信号,归结接着的4条频谱信号作为第2频带信号等方法。在这里也可以是频率越向高频,将更多条频谱信号归结为频带信号。或者,也可以用正交镜像滤波器组(QMF)等求出频带信号。
接着,第2变换部122把第2输入音频信号变换为多个频带信号。这个方法和上述第1变换部121的方法相同。
接着,检测部123,检测与第1输入音频信号和第2输入音频信号相对应的频带信号间的相差程度。譬如,检测相对应的频带信号间的电平差、相位差。
检测电平差的方法,有比较相对应的每频带的振幅最大值的方法、比较能量大小的方法等。
检测相位差的方法,有从傅里叶级数的实数值和虚数值求出相位角的方法、从对应的频带信号的相关值求出的方法。即相关值为C(C在±1.0范围内)时,可以求出相位角π*(1-C)/2。
最后,量化部125量化被检测出的每频带的相差程度。在这里,预先由量化精度设定表124来设定每频带以多少的精度进行量化。
图5是示出量化精度设定表124的一例的图。
在图5中,表示对最低的频带给予6比特的量化比特数。对接着的频带给予5比特,再接着的频带给予4比特,如此对每频带都给予量化的精度,即越低的频带,越要进行高精度量化,譬如对进行量化的最高频带给予1比特。在这里,数值只不过是一个例子,当然也可以是其他值。另外,也可以不按频带的顺序来改变量化的精度,而是按听觉的敏感度特性来改变量化的精度。量化部125,根据量化精度设定表124设定的量化精度来量化在每频带的信号。
上述中,为了简化说明,假设每频带的量化精度由表预先被设定,但这并不一定是必要的。总之,也可以是按照输入信号,适当地设定该频带的量化精度,将表示该量化精度的信息也进行编码的方法。这样的情况下,为了变小表示量化精度的信息的编码信号大小,用2个阶段来表示量化的精度比较恰当。
如上所述,根据本实施方式1,辅助信息生成部12a包括:第1变换部121、第2变换部122,把N声道(N>1)的音频信号分别变换成多个频带信号;检测部123,检测N声道的音频信号间的,对应的频带信号的相差程度;以及量化部125,把被检测出的每频带的相差程度进行量化,该辅助信息生成部12a按每频带来设定量化部125的量化精度,从而能够以低比特率并且高音质地编码音频信号。
另外,在已被广泛使用的压缩方式中,也有部分使用把声道间的相位差、电平差编码的技术的方式。譬如上述的AAC方式(ISO/IEC13818-7)中,搭载有被称为Intensity Stereo的技术。因此也可以考虑到采用这个技术。
根据这个MPEG标准AAC方式(ISO/IEC13818-7)的IntensityStereo公开:声道间的电平差以多个频带为单位,以256值的量化精度被量化,并且通过霍夫曼(Hafuman)编码相邻的频带间的差分值而被压缩。
然而,如上所述方法,在每个频带都以256值进行高精度的量化,因此花费不必要的信息量。之所以导致花费不必要的信息量,是因为如果考虑到人的听觉特性,根据每频带敏感度不同,应该分别控制要以精密的量化精度进行量化的频带和以粗略的精度进行量化也不受影响的频带,却同样以256值进行高精度量化。
并且,根据MPEG标准AAC方式(ISO/IEC13818-7)中的IntensityStereo,以多个频带为单位,把声道间的相位差以2值的量化精度进行量化,其结果只能表现为没有相位差或者相位差为180度中的任一个,据此,也不能按听觉敏感度来控制。
即,现有技术中,如图6(a)所示,针对全频带以相同的量化精度(譬如在相位角的量化中例如用32值)来量化。
与此相对,如图6(b)所示,本发明按照不同频带,能变更电平比及相位差的量化精度,譬如在低频用32值,在它之上的频带用16值,在再上的频带用13值,在高频用11值。
因此,按每频带以不同的精度把声道间相位差信息和电平差信息进行量化,从而可以高音质且保持低比特率地编码音频信号。
并且,在高频等中,可以把相邻频带编为1组(grouping)来进行编码,譬如对11值×11值的120值用7比特的宽度进行编码,即,按每1频带以3.5比特来量化。可以根据这个实现低比特化。
(实施方式2)
参照附图,对本发明的实施方式2的辅助信息生成部进行如下说明。
图7是示出本实施方式2的辅助信息生成部的其他的详细结构例的方框图。
并且,对与图4所表示的辅助信息生成部12a的构成部分相对应的部分标有同样的符号,在此省略其说明。
如图7所示,辅助信息生成部12b不仅包括辅助信息生成部12的构成要素,即第1变换部121、第2变换部122、检测部123、量化精度设定表124及量化部125,并且进一步包括压缩部126。
总之,与实施方式1不同的是包括压缩部126,该压缩部126接收对每个频带的相差程度进行量化后的量化值,并进一步对该多个量化值进行可逆压缩,上述每个频带是由量化部125所量化的频带。在这里,所谓由压缩部126进行的可逆压缩,是指不会导致因压缩而引起的劣化而完全解码为原样的无损失压缩方法。
这个可逆压缩,譬如有根据霍夫曼编码来压缩各量化值的方法等。
或者也可以用差分编码的方法。即,使对应于最低频带的量化值不变,并且关于其以后的对应于相邻的频带的量化值,计算差分信号,将它作为压缩信号来利用。这是利用了在相邻的频带间,量化值没有大差别这个性质的可逆压缩。并且,也可以根据霍夫曼编码将差分信号进一步压缩。
或者,在相邻的频带间量化值相等的情况下,也可以根据游程编码来削减比特数,该游程编码把连续出现的相同的值的次数用数字来表示。并且,也可以根据霍夫曼编码对该游程编码进一步压缩。
或者,也可以对以B位数的A进制数表现的值进行编码,来进一步削减比特数,该值是指,以A值被量化后的相邻的B个量化值。
譬如,在以3位数的5进制数表现以5值被量化了的相邻的3个量化值的情况下,能取的值的最大值为124。这是因为3个量化值全部是最大值4时,为4*25+4*5+4=124。另一方面,因为124可以用7位数的二进制数来表现,以5值被量化了的相邻的3个量化值,所以可以以7比特来压缩。为了表现5值需要3比特的信息量,要表现3个5值必须9比特。即这个情况下,3个5值可以削减2比特的信息。
具体来说,可以进行以下等来压缩信息量:检测部123,检测输入的音频信号间的、对应的频率信号的相位差;量化部125,以5值量化被检测出的相位差;压缩部126,将被量化了的至少2个量化值一起压缩。在这里,量化部125,不一定必须把相位差以相同间隔5等分,进行量化。按照听觉的特性,相位差90°附近粗略地,0°附近细致地量化为好。
同样,也可以进行以下等来压缩信息量:检测部123,检测输入的音频信号间的、对应的频率信号的相位差;量化部125,以3值量化被检测出的相位差;压缩部126,将被量化了的至少3个量化值一起压缩。在这里,量化部125,不一定必须把相位差以相同间隔3等分,按照听觉的特性,相位差90°附近粗略地,0°附近细致地量化为好。
同样,也可以进行以下等来压缩信息量:检测部123,检测输入的音频信号间的、对应的频率信号的相位差;量化部125,以11值量化被检测出的相位差;压缩部126,将被量化了的至少2个量化值一起压缩。在这里,量化部125,不一定必须把相位差以相同间隔11等分,按照听觉的特性,相位差90°附近粗略地,0°附近细致地量化为好。
如上根据本实施方式2,由压缩部126对被量化了的多个量化值进行可逆压缩,从而可以更低比特率、且高音质地编码音频信号。
(实施方式3)
参照附图,对本发明的实施方式3的辅助信息生成部进行如下说明。
图8是示出本实施方式3中的辅助信息生成部的更加详细的其他结构例子的方框图。并且,对与图4所示的辅助信息生成部12a的构成部分相对应的部分,标有同样的符号,在此省略其说明。
如图8所示,辅助信息生成部12c包括:第1变换部121、第2变换部122、第1分割部127a、第2分割部127b、第3分割部127c、第4分割部127d和第1量化部128a、第2量化部128b。
第1变换部121,把第1输入音频信号变换为频域信号。
第2变换部122,把第2输入音频信号变换为频域信号。
第1分割部127a,具有有关增益比信息的分割频率的表1271,以多个频带为单位分割由第1变换部121生成的频域信号。
第2分割部127b,具有有关相位差信息的分割频率的表1272,用与第1分割部127a不同的分割方法,来分割由第1变换部121生成的频域信号。
第3分割部127c,具有有关增益比信息的分割频率的表1271,用与第1分割部127a同样的分割方法,来分割由第2变换部122生成的频域信号。
第4分割部127d,具有有关相位差信息的分割频率的表1272,用与第2分割部127b同样的分割方法,来分割由第2变换部122生成的频域信号。
第1量化部128a,具有分别设定了增益比信息的量化精度和相位差信息的量化精度的量化精度表1281,检测出分别与由第1分割部127a所分割的频带信号和由第3分割部127c所分割的频带信号相对应的每频带的增益比,并进行量化。
第2量化部128b,具有量化精度表1281,检测出分别与由第2分割部127b所分割的频带信号和由第4分割部127d所分割的频带信号相对应的每频带的相位差,并进行量化。
关于如上述所构成的辅助信息生成部12c的工作,如下说明。
首先,由第1变换部121把第1输入音频信号变换为频域信号。譬如用傅里叶变换等,把输入的音频信号变换成频谱信号。本实施方式3中,变换成1024条的复数傅里叶级数。
另一方面,第2变换部122把第2输入音频信号变换成频域信号。这个方法,与第1变换部121的方法相同。
接着,由第1分割部127a以多个频带为单位分割由第1变换部121生成的频域信号。此时分割方法遵照图9的表。
图9是示出分割频率的表1271的详细结构的图。
图9中,左列表示频带的号码,中央列表示该频带号码的频带的开始频率,右列表示该频带号码的频带的终端频率。即第1分割部127a遵照图9的表,分别按每个被表示的频带来分割由第1变换部121生成的频域信号(1024条复数傅里叶级数)。
同样,由第2分割部127b以多个频带为单位分割由第1变换部121生成的频域信号。此时分割方法遵照图10的表。
图10是示出分割频率的表1272详细结构的图。
图10的意思与图9相同,但具体的频带分割方法不同。在本实施方式3,作为一例,使高频侧的频带的分割宽度比图9表示的粗略。按照图10所示的表,第2分割部127b把由第1变换部121生成的频域信号(1024条复数傅里叶级数)分别按每个被表示的频带来分割。在本实施方式3中,作为一例把高频侧的频带分割宽度设为比图9表示的要粗略,但不一定必须这样,也可以有选择性地把听觉的敏感度低的频带宽度粗略分割。
第3分割部127c,以多个频带为单位分割由第2变换部122生成的频域信号,其工作与第1分割部127a相同。
第4分割部127d,以多个频带为单位分割由第2变换部122生成的频域信号,其工作与第2分割部127b相同。
其次,第1量化部128a检测增益比并进行量化,该增益比是由第1分割部127a分割的频带信号和由第3分割部127c分割的频带信号分别在相对应的每频带中的增益比。
在这里,检测增益比的方法,可以是比较对应的每频带的振幅最大值的方法、比较能量大小的方法等,用什么方法都可以,在第1量化部128a量化这样被检测出的增益比。
其次,第2量化部128b检测出相位差并进行量化,该相位差是由第2分割部127b分割的频带信号和由第4分割部127d分割的频带信号分别在相对应的每频带中的相位差。
在这里,检测相位差的方法,可以是从该频带内的傅里叶级数的实数值和虚数值的代表值求出相位角的方法等,用什么方法都可以,在第2量化部128b量化这样被检测出的相位差。
在这里应该注意的是,第1分割部127a和第3分割部127c都是用图9的表所示的分割方法,分别分割第1输入音频信号的频率信号和第2输入音频信号的频率信号,因此到较高的频域为止细致地进行分割。
与此相对,第2分割部127b和第4分割部127d,都是用图10的表所示的分割方法,分别分割第1输入音频信号的频率信号和第2输入音频信号的频率信号,因此在高频粗略地分割频率。
其结果,增益比信息到较高的频域为止以被细致分割了的频率为单位被检测出来并被量化,而相位差信息则在高频侧被粗略地检测出并被量化。这是考虑到对于高频域信号,不能正确检测相位信息这一听觉的特性的方法,根据此方法能抑制听觉上的音质劣化,并进行信息量的削减。
在上述中为了简化说明,频率信号的分割方法是由表预先所设定的,但没有必要一定这样。即,也可以是按照输入信号适宜地设定频率信号的分割方法,编码表示该分割方法的信息。
在这样的情况下,上述分割方法也可以如下进行。即把分割而得到的各小组(Group)具有的频带信号,从低域的频带依次按希望的宽度(Stride)编成一个组来分割。
最后这样被量化的增益比信息和相位差信息,以规定的规则被格式化、形成比特流,其通过怎样的方法都可以。
如上在本实施方式3中,通过以比增益比信息粗略的频率分割来量化相位差信息,能抑制听觉上的音质劣化,并进行信息量的削减。
并且本实施方式3通过粗略分割频率,削减了相位差信息的信息量,但是作为削减相位差信息的信息量的方法,也有其他方法,譬如有使每频带的相位差信息的量化精度比增益比信息的量化精度更粗略等方法。
譬如图11所示,设定相位差信息的量化精度比增益比信息的量化精度粗略。这也是根据相位差信息在听觉上的知觉敏感度,比增益比信息在听觉上的知觉敏感度迟钝这一特性。当然图11中的值只不过是一例,按照采样频率或比特率来适当设定就可以,但要设成用于相位差信息的比特数比用于增益比信息的比特数少,从而在量化时可以做到尽量抑制听觉上的音质劣化并实现高压缩。
另外,本实施方式3按照图9进行有关增益比信息的频率的分割,按照图10进行有关相位差信息的频率的分割,但是也可以是譬如按照图12进行有关增益比信息的频率的分割,按照图13进行有关相位差信息的频率的分割。
比较图9和图12,对于频率的分割,图12比图9粗略;比较图10和图13,对于频率的分割,图13比图10粗略。因此作为决定分割方法的表,如果选择图12、图13表示的图,可以削减量化时的信息量。因此在具有多个比特率的工作模式的编码器的情况下,以低比特率工作时,改变频率的分割方法就可以。在这种情况下,也可以使用按照频带号码的量化精度表1281,也可以准备比这个量化精度表1281低的比特率用的量化精度表来使用。
在这里说明本发明的特征。
如图14(a)、图14(b)所示,按照比特率来变更分割频带的方法。因此能抑制音质劣化并实现低比特率化。
另外如图14(c)、图14(d)所示,把相位差信息用比增益差信息粗略的频带的分割方法来编码。并且把相位差信息用比增益差信息粗略的量化精度来量化。
因此,根据上述,能抑制音质劣化,并实现低比特率化。
当然这里为了说明的简单化,作为频率信号的分割方法存在粗略的分割方法也存在细致的分割方法的例子,根据表预先设定分割方法,但当然没有必要一定要这样。譬如也可以把分割而得到的各小组(Group)所具有的频带信号数,从低域的频带依次按希望的宽度(Stride)进行编组,在这样的方法中,如下设定:通过把上述Stride的值设为大,分割的方法变得粗略,而把上述Stride的值设为小,分割的方法变得细致。
并且,上述实施方式是说明有关2声道的输入音频信号的,但也可以适用于有关2个以上的多声道的输入音频信号。
譬如5.1声道的多声道信号包括:配置于听众和观众正前面Center、右前方FR、左前方FL、右后方BR和左后方BL的音源的5声道的音频信号,以及表示音频信号的超低域的0.1声道的信号LFE。在这种情况下,混合信号编码部11可以把左前方FL、左后方BL、正前方Center和LFE的音频信号中的各2个进行混合,生成缩混信号DL;把右前方FR、右后方BR、正前方Center和LFE的音频信号中的各2个进行混合,生成缩混信号DR。另外,辅助信息生成部12可以对于缩混信号DL,检测出左前方FL、左后方BL、正前方Center和LFE的音频信号中的各2个信号的电平比及相位差;对于缩混信号DR,检测出右前方FR、右后方BR、正前方Center和LFE的音频信号中的2个信号的电平比及相位差。
本发明的音频编码器,是编码多声道信号的音频编码器,特别是能以非常少的比特数表现多声道间的相位差和电平差,因此适合被使用于用低比特率的音乐广播服务、音乐配送服务中用的机器,以及移动电话等便携机器、AV机器等接收机器中。

Claims (14)

1.一种音频编码器,对N声道的音频信号进行压缩编码,N>1,其特征在于,该音频编码器包括:
混合信号编码单元,对混合上述音频信号所得到的混合信号进行编码;以及
辅助信息生成单元,生成辅助信息,该辅助信息是把由上述混合信号编码单元所编码的混合信号解码为上述N声道的音频信号所必要的信息;
上述辅助信息生成单元包括:
变换单元,把上述N声道的音频信号分别变换为N声道的频域信号;
第1分割单元,把上述N声道的频域信号的频带分别分割为多个;
第2分割单元,把上述N声道的频域信号的频带,比上述第1分割单元更粗略地分别分割为多个;
检测单元,检测相位差信息和增益比信息,该相位差信息按上述第2分割单元所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度,该增益比信息按上述第1分割单元所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度;以及
量化单元,把由上述检测单元所检测出的相位差信息和增益比信息,按对应的各频带进行量化。
2.如权利要求1所述的音频编码器,其特征在于,
上述辅助信息生成单元进一步包括:
第1表,规定频带的分割方法;以及
第2表,规定比上述第1表更粗略的频带的分割方法,
上述第1分割单元按照上述第1表,把上述N声道的频域信号的频带分别分割为多个,
上述第2分割单元按照上述第2表,把上述N声道的频域信号的频带分别分割为多个。
3.如权利要求2所述的音频编码器,其特征在于,
上述辅助信息生成单元进一步包括比特率指定单元,该比特率指定单元用于指定比特率,
上述第1分割单元及上述第2分割单元按照由上述比特率指定单元指定了的比特率来变更频带的分割方法。
4.如权利要求1所述的音频编码器,其特征在于,
上述量化单元的量化精度,按每个频带被设定。
5.如权利要求4所述的音频编码器,其特征在于,
上述量化单元的量化精度被设定为,针对越低的频带,精度越细致。
6.如权利要求4所述的音频编码器,其特征在于,
上述量化单元的量化精度,按照听觉的敏感度特性被设定。
7.如权利要求4所述的音频编码器,其特征在于,
上述辅助信息生成单元进一步包括压缩单元,该压缩单元对由上述量化单元量化了的多个量化值进行可逆压缩。
8.如权利要求7所述的音频编码器,其特征在于,
上述压缩单元通过求出相邻的频带的量化值的差分来削减比特数。
9.如权利要求7所述的音频编码器,其特征在于,
在频带间的量化值相等的情况下,上述压缩单元根据游程编码来削减比特数,该游程编码把连续出现的相同的值的次数用数字来表示。
10.如权利要求7所述的音频编码器,其特征在于,
上述压缩单元采用可变长编码处理来削减比特数。
11.如权利要求7所述的音频编码器,其特征在于,
上述量化单元以具有A个级别的量化值,量化由上述检测单元检测出的相差程度;
上述压缩单元把上述被量化了的B个量化值结合来压缩,
按照上述A的值预先设定上述B的值,
上述B是在以下情况下使Q成为小于P*B的值,
该情况是指,将用二进制数表示A时的位数设为P且将用二进制数表示B位数的A进制数时的位数设为Q的情况。
12.如权利要求1所述的音频编码器,其特征在于,
上述量化单元以比上述增益比信息少的比特数,量化上述相位差信息。
13.一种编码方法,对N声道的音频信号进行压缩编码,N>1,其特征在于,该编码方法包括:
混合信号编码步骤,对混合上述音频信号所得到的混合信号进行编码;以及
辅助信息生成步骤,生成辅助信息,该辅助信息是把由上述混合信号编码步骤所编码的混合信号解码为上述N声道的音频信号所必要的信息,
上述辅助信息生成步骤包括:
变换步骤,把上述N声道的音频信号分别变换为N声道的频域信号;
第1分割步骤,把上述N声道的频域信号的频带分别分割为多个;
第2分割步骤,把上述N声道的频域信号的频带,比上述第1分割步骤更粗略地分别分割为多个;
检测步骤,检测相位差信息和增益比信息,该相位差信息按上述第2分割步骤所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度,该增益比信息按上述第1分割步骤所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度;以及
量化步骤,把由上述检测步骤所检测出的相位差信息和增益比信息,按对应的各频带进行量化。
14.一种LSI,用于音频编码器,对N声道的音频信号进行压缩编码,N>1,其特征在于,包括构成为一体的如下单元:
混合信号编码单元,对混合上述音频信号所得的混合信号进行编码;以及
辅助信息生成单元,生成辅助信息,该辅助信息是把由上述混合信号编码单元所编码的混合信号解码为上述N声道的音频信号所必要的信息,
上述辅助信息生成单元包括:
变换单元,把上述N声道的音频信号分别变换为N声道的频域信号;
第1分割单元,把上述N声道的频域信号的频带分别分割为多个;
第2分割单元,把上述N声道的频域信号的频带,比上述第1分割单元更粗略地分别分割为多个;
检测单元,检测相位差信息和增益比信息,该相位差信息按上述第2分割单元所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度,该增益比信息按上述第1分割单元所分割的多个频带中的各频带,表示上述N声道的频域信号的声道间的相差程度;以及
量化单元,把由上述检测单元所检测出的相位差信息和增益比信息,按对应的各频带进行量化。
CN2005800287250A 2004-08-27 2005-08-18 音频编码器 Active CN101010724B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP248990/2004 2004-08-27
JP2004248990 2004-08-27
PCT/JP2005/015083 WO2006022190A1 (ja) 2004-08-27 2005-08-18 オーディオエンコーダ

Publications (2)

Publication Number Publication Date
CN101010724A CN101010724A (zh) 2007-08-01
CN101010724B true CN101010724B (zh) 2011-05-25

Family

ID=35967403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800287250A Active CN101010724B (zh) 2004-08-27 2005-08-18 音频编码器

Country Status (4)

Country Link
US (1) US7848931B2 (zh)
JP (1) JP4794448B2 (zh)
CN (1) CN101010724B (zh)
WO (1) WO2006022190A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
WO2009072685A1 (en) * 2007-12-06 2009-06-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR20100086000A (ko) * 2007-12-18 2010-07-29 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
EP2661746B1 (en) 2011-01-05 2018-08-01 Nokia Technologies Oy Multi-channel encoding and/or decoding
JP5929301B2 (ja) * 2012-02-23 2016-06-01 オンキヨー株式会社 時間差補正方法、音声信号処理装置、再生装置およびプログラム
WO2013134667A1 (en) 2012-03-09 2013-09-12 Mayo Foundation For Medical Education And Research Modulating afferent signals to treat medical conditions
CN103812824A (zh) * 2012-11-07 2014-05-21 中兴通讯股份有限公司 音频多编码传输方法及相应装置
US9659569B2 (en) 2013-04-26 2017-05-23 Nokia Technologies Oy Audio signal encoder
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9911423B2 (en) 2014-01-13 2018-03-06 Nokia Technologies Oy Multi-channel audio signal classifier
ES2829413T3 (es) * 2015-05-20 2021-05-31 Ericsson Telefon Ab L M Codificación de señales de audio de múltiples canales
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
IL307898A (en) * 2018-07-02 2023-12-01 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding embedded audio signals
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1200645A (zh) * 1997-05-23 1998-12-02 德国汤姆逊-布朗特公司 多声道音频信号中误差掩蔽的方法和装置
CN1248824A (zh) * 1998-09-17 2000-03-29 松下电器产业株式会社 音频信号编码装置和方法以及解码装置和方法
JP2001306097A (ja) * 2000-04-26 2001-11-02 Matsushita Electric Ind Co Ltd 音声符号化方式及び装置、音声復号化方式及び装置、並びに記録媒体
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3277692B2 (ja) * 1994-06-13 2002-04-22 ソニー株式会社 情報符号化方法、情報復号化方法及び情報記録媒体
JP3341474B2 (ja) * 1994-07-28 2002-11-05 ソニー株式会社 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JP3557674B2 (ja) * 1994-12-15 2004-08-25 ソニー株式会社 高能率符号化方法及び装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP2000260855A (ja) * 1999-03-10 2000-09-22 Mitsubishi Electric Corp ウェハ処理装置
NL1013938C2 (nl) * 1999-12-23 2001-06-26 Asm Int Inrichting voor het behandelen van een wafer.
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
KR101021076B1 (ko) * 2002-04-22 2011-03-11 코닌클리케 필립스 일렉트로닉스 엔.브이. 신호 합성
CN1647156B (zh) * 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
CN100546233C (zh) * 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1200645A (zh) * 1997-05-23 1998-12-02 德国汤姆逊-布朗特公司 多声道音频信号中误差掩蔽的方法和装置
CN1248824A (zh) * 1998-09-17 2000-03-29 松下电器产业株式会社 音频信号编码装置和方法以及解码装置和方法
JP2001306097A (ja) * 2000-04-26 2001-11-02 Matsushita Electric Ind Co Ltd 音声符号化方式及び装置、音声復号化方式及び装置、並びに記録媒体
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Christof Faller et al.Binaural Cue Coding-Binaural Cue Coding-Part II:Schemes and Applicaions.IEEE Transactions On Speech And Audio Processing,Vol. 11 No. 6.2003,Vol. 11(No. 6),520-531. *
ChristofFalleretal.BinauralCueCoding-BinauralCueCoding-PartII:SchemesandApplicaions.IEEETransactionsOnSpeechAndAudioProcessing,Vol.11No.6.2003 Vol. 11(No. 6)

Also Published As

Publication number Publication date
US7848931B2 (en) 2010-12-07
JPWO2006022190A1 (ja) 2008-05-08
WO2006022190A9 (ja) 2006-05-11
US20070271095A1 (en) 2007-11-22
CN101010724A (zh) 2007-08-01
WO2006022190A1 (ja) 2006-03-02
JP4794448B2 (ja) 2011-10-19

Similar Documents

Publication Publication Date Title
CN101010724B (zh) 音频编码器
KR102535997B1 (ko) 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법
US7212973B2 (en) Encoding method, encoding apparatus, decoding method, decoding apparatus and program
US7620554B2 (en) Multichannel audio extension
CN101836250B (zh) 用于处理信号的方法及装置
CN102124655B (zh) 用以对符号编码的方法、用以对符号解码的方法、用以将符号从发射机发送至接收机的方法、编码器、解码器、及用以将符号从发射机发送至接收机的系统
KR100889750B1 (ko) 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법
WO1998000837A1 (fr) Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio
CN1369092A (zh) 高质量音频的可缩放编码方法
CN1758335A (zh) 用于低比特率音频编码应用的高效可标度参数立体声编码
US20060212290A1 (en) Audio coding apparatus and audio decoding apparatus
CA2704807A1 (en) Audio coding apparatus and method thereof
CN102656628A (zh) 优化的低吞吐量参数编码/解码
CN1240048C (zh) 音频编码
CN1969318B (zh) 音频编码装置、解码装置以及方法
CN100574114C (zh) 编码方法和设备以及解码方法和设备
JP3475985B2 (ja) 情報符号化装置および方法、情報復号化装置および方法
KR20080066537A (ko) 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치
JPH0761044B2 (ja) 音声符号化法
CN101010726A (zh) 音频解码器、方法以及程序
JP2820096B2 (ja) 符号化方式および復号方式
CN101771416A (zh) 位平面编码和解码方法、通信系统及相关设备
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
JP2001109497A (ja) オーディオ信号符号化装置およびオーディオ信号符号化方法
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant