CN101611442A - 编码装置、解码装置以及其方法 - Google Patents
编码装置、解码装置以及其方法 Download PDFInfo
- Publication number
- CN101611442A CN101611442A CNA2008800051345A CN200880005134A CN101611442A CN 101611442 A CN101611442 A CN 101611442A CN A2008800051345 A CNA2008800051345 A CN A2008800051345A CN 200880005134 A CN200880005134 A CN 200880005134A CN 101611442 A CN101611442 A CN 101611442A
- Authority
- CN
- China
- Prior art keywords
- ground floor
- band
- frequency band
- unit
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000006243 chemical reaction Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 26
- 238000004891 communication Methods 0.000 abstract description 7
- 238000001228 spectrum Methods 0.000 description 22
- 238000001914 filtration Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了能够以较少的运算量从全频带中正确地确定误差较大的频带的编码装置等。在该装置中,第一位置确定单元(201)使用表示了对输入信号的解码信号的误差的第一层误差变换系数,在输入信号的全频带中,以相对较宽的带宽搜索误差较大的频带,生成表示了确定的频带的第一位置信息,第二位置确定单元(202)在第一位置确定单元(201)所确定的频带中,以相对较窄的带宽搜索误差较大的目标频带,生成表示了确定的目标频带的第二位置信息,编码单元(203)对目标频带所包含的第一层解码误差变换系数进行编码而生成编码信息。第一位置信息、第二位置信息以及编码信息被发送给通信对方。
Description
技术领域
本发明涉及可扩展编码方式的通信系统所使用的编码装置、解码装置以及其方法。
背景技术
在移动通信系统中,为了有效利用电波资源,要求将语音信号压缩为低比特率后传输。另一方面,希望提高通话语音的质量和实现富有现场感的通话业务,为实现此目的,不仅是语音信号的高质量,而且也希望高质量地对频带更宽的音频信号等语音信号以外的信号进行编码。
对于这样两个相对立的要求,分层地结合多个编码技术的技术备受瞩目。该技术为分层地组合第一层和第二层,所述第一层为通过适合于语音信号的模式以低比特率对输入信号进行编码,所述第二层为通过适合于语音以外的信号的模式对输入信号与第一层的解码信号之间的差分信号进行编码。从编码装置获得的比特流具有可扩展性,即,即使从比特流的一部分的信息中也可获得解码信号的性质,所以一般将这样分层地进行编码的技术称为可扩展编码(分层编码)。
对可扩展编码方式而言,根据其性质,能够灵活地对应比特率不同的网络间的通信,所以也可以说其适合于以IP协议逐步结合多样的网络的、今后的网络环境。
作为使用基于MPEG-4(Moving Picture Experts Group phase-4:运动图像专家组阶段4)标准化的技术来实现可扩展编码的例子,例如有非专利文献1公开的技术。该技术是,在第一层中使用适合于语音信号的CELP(CodeExcited Linear Prediction:码激励线性预测)编码,在第二层中,对从原信号中减去第一层解码信号所得的残差信号,使用AAC(Advanced Audio Coder:高级音频编码)或TwinVQ(Transform Domain Weighted Interleave VectorQuantization;频域加权交织矢量量化)等变换编码。
另一方面,非专利文献2分开了下述方法,即,使用模块化的TwinVQ作为基本构成单位,对所期望的频带的MDCT(Modified discrete cosinetransform:改进离散余弦变换)系数分层地进行编码。将该模块共用化而多次使用,从而能够实现简单且自由性较高的可扩展编码。在该方法中,虽然基本采用预先规定作为各分层(layer)的编码对象的子带的结构,但也公开了下述结构,即,根据输入信号的性质,在预先规定的频带中使作为各分层的编码对象的子带的位置变动。
非专利文献1:三木弼一编著、「MPEG-4のすべて」、初版、(株)工業調查会、1998年9月30日、p.126-127
非专利文献3:“AMR Wideband Speech Codec;Transcoding functions”,3GPP TS 26.190,March 2001
非专利文献4:“Source-Controlled-Variable-Rate Multimode WidebandSpeech Codec(VMR-WB),Service options 62 and 63 for Spread SpectrumSystems”,3GPP2C.S0052-A,April 2005
发明内容
本发明需要解决的问题
但是,关键是在改善输出信号的语音质量后,如何设定第二层编码单元的子带(目标频带)。根据非专利文献2公开的方法,预先决定作为第二层的编码对象的子带(图1A)。此时存在下述问题,由于总是提高规定的子带的质量,从而在误差分量集中在该子带以外的频带时无法获得充分的语音质量的改善效果。
另外,记载有下述技术,根据输入信号的性质,在预先决定的频带中使作为各分层的编码对象的子带的位置变动(图1B),但是将子带的可采用的位置限定在规定的频带中,所以并没有解决上述的问题。而且,假设使子带的可采用的频带为输入信号的全频带的情况下,也存在用于确定子带的位置的运算量增加的问题。另外,在增加了层数时,由于需要对每层确定子带的位置,该问题更加明显。
本发明的目的在于,提供能够在可扩展编码方式中,以较少的运算量从全频带中正确地确定误差较大的频带的编码装置、解码装置以及其方法。
解决问题的方案
本发明的编码装置采用的结构,包括:第一层编码单元,对输入变换系数进行编码处理,生成第一层编码数据;第一层解码单元,使用所述第一层编码数据进行解码处理,生成第一层解码变换系数;以及第二层编码单元,对作为所述输入变换系数与所述第一层解码变换系数之间的误差的第一层误差变换系数中、所述误差最大的目标频带部分进行编码处理,从而生成第二层编码数据,所述第二层编码单元包括:第一位置确定单元,在全频带中,以规定的第一步长搜索具有比所述目标频带宽的带宽且所述误差最大的第一频带,并生成表示了确定的第一频带的第一位置信息;第二位置确定单元,在所述第一频带中,以比所述第一步长短的第二步长搜索所述目标频带,并生成表示了确定的目标频带的第二位置信息;以及编码单元,对根据所述第一位置信息和所述第二位置信息确定的目标频带所包含的所述第一层误差变换系数进行编码而生成编码信息。
本发明的解码装置采用的结构,包括:接收单元,接收第一层编码数据、第二层编码数据、第一位置信息以及第二位置信息,该第一层编码数据为对输入变换系数进行编码处理而获得的数据,该第二层编码数据为在对作为将所述第一层编码数据解码而获得的第一层解码变换系数与所述输入变换系数之间的误差的第一层误差变换系数中,对所述误差最大的目标频带部分进行编码处理而获得的数据,该第一位置信息表示具有比所述目标频带宽的带宽且所述误差最大的第一频带,该第二位置信息表示所述第一频带中的所述目标频带;第一层解码单元,对所述第一层编码数据进行解码而生成第一层解码变换系数;第二层解码单元,根据所述第一位置信息和所述第二位置信息确定所述目标频带,并对所述第二层编码数据进行解码而生成第一层解码误差变换系数;以及加法单元,将所述第一层解码变换系数与所述第一层解码误差变换系数相加而生成第二层解码变换系数。
本发明的编码方法采用的方法,包括:第一层编码步骤,对输入变换系数进行编码处理,生成第一层编码数据;第一层解码步骤,使用所述第一层编码数据进行解码处理,生成第一层解码变换系数;以及第二层编码步骤,对作为所述输入变换系数与所述第一层解码变换系数之间的误差的第一层误差变换系数中、所述误差最大的目标频带部分进行编码处理,生成第二层编码数据,所述第二层编码步骤包括:第一位置确定步骤,在全频带中,以规定的第一步长搜索具有比所述目标频带宽的带宽且所述误差最大的第一频带,并生成表示了确定的第一频带的第一位置信息;第二位置确定步骤,在所述第一频带中,以比所述第一步长短的第二步长搜索所述目标频带,并生成表示了确定的目标频带的第二位置信息;以及编码步骤,对根据所述第一位置信息和所述第二位置信息确定的目标频带所包含的所述第一层误差变换系数进行编码而生成编码信息。
本发明的解码方法采用的方法,包括:接收步骤,接收第一层编码数据、第二层编码数据、第一位置信息以及第二位置信息,该第一层编码数据为对输入变换系数进行编码处理而获得的数据,该第二层编码数据为在对作为将所述第一层编码数据解码而获得的第一层解码变换系数与所述输入变换系数之间的误差的第一层误差变换系数中,对所述误差最大的目标频带部分进行编码处理而获得的数据,该第一位置信息表示具有比所述目标频带宽的带宽且所述误差最大的第一频带,该第二位置信息表示所述第一频带中的所述目标频带;第一层解码步骤,对所述第一层编码数据进行解码而生成第一层解码变换系数;第二层解码步骤,根据所述第一位置信息和所述第二位置信息确定所述目标频带,并对所述第二层编码数据进行解码而生成第一层解码误差变换系数;以及相加步骤,将所述第一层解码变换系数与所述第一层解码误差变换系数相加而生成第二层解码变换系数。
发明的效果
根据本发明,通过第一位置确定单元,在输入信号的全频带中,以相对较宽的带宽和相对较长的步长(step size?),搜索并确定误差较大的频带,第二位置确定单元在由第一位置确定单元所确定的频带中,以相对较窄的带宽和相对较短的步长,搜索并确定目标频带(误差最大的频带),从而能够以较少的运算量从全频带中正确地确定误差较大的频带,改善音质。
附图说明
图1A~图1C是表示以往的语音编码装置的第二层编码单元的编码频带的图。
图2是表示本发明实施方式1的编码装置的主要结构的方框图。
图3是表示图2所示的第二层编码单元的结构的方框图。
图4是表示图3所示的第一位置确定单元确定的频带的位置的图。
图5是表示图3所示的第一位置确定单元确定的频带的其他位置的图。
图6是表示图3所示的第二位置确定单元确定的目标频带的位置的图。
图7是表示图3所示的编码单元的结构的方框图。
图8是表示本发明实施方式1的解码装置的主要结构的方框图。
图9是表示图8所示的第二层解码单元的结构的方框图。
图10是表示从图9所示的配置单元输出的第一层解码误差变换系数的情形的图。
图11是表示图3所示的第二位置确定单元确定的目标频率的位置的图。
图12是表示图7所示的编码单元的另外的形态的结构的方框图。
图13是表示图9所示的第二层解码单元的另外的形态的结构的方框图。
图14是表示本发明实施方式3的编码装置的第二层编码单元的结构的方框图。
图15A~图15C是表示实施方式3的编码装置的多个子位置确定单元确定的目标频率的位置的图。
图16是表示本发明实施方式4的编码装置的第二层编码单元的结构的方框图。
图17是表示图16所示的编码单元的结构的方框图。
图18是表示图17的第二位置信息码本中存储的各个第二位置信息候补具有三个目标频率时的编码单元的图。
图19是表示图16所示的编码单元的另外的结构的方框图。
图20是表示本发明实施方式5的第二层编码单元的结构的方框图。
图21是表示图20所示的第一位置确定单元确定的频带的位置的图。
图22是表示实施方式6的编码装置的主要结构的方框图。
图23是表示图22所示的编码装置的第一层编码单元的结构的方框图。
图24是表示图22所示的编码装置的第一层解码单元的结构的方框图。
图25是表示对应于图22所示的编码装置的解码装置的主要结构的方框图。
图26是表示实施方式7的编码装置的主要结构的方框图。
图27是表示对应于图26所示的编码装置的解码装置的主要结构的方框图。
图28是表示实施方式7的其他形态的编码装置的主要结构的方框图。
图29A是表示图28所示的第二层编码单元中的频带的位置的图。
图29B是表示图28所示的第三层编码单元中的频带的位置的图。
图29C是表示图28所示的第四层编码单元中的频带的位置的图。
图30是表示对应于图28所示的编码装置的解码装置的主要结构的方框图。
图31A是表示图28所示的第二层编码单元中的频带的其他位置的图。
图31B是表示图28所示的第三层编码单元中的频带的其他位置的图。
图31C是表示图28所示的第四层编码单元中的频带的其他位置的图。
图32是用来说明实施方式8的第一位置确定单元的动作的图。
图33是表示实施方式8的第一位置确定单元的结构的方框图。
图34是例示实施方式8的第一位置信息构成单元中构成第一位置信息的情形的图。
图35是用于说明实施方式8的解码处理的图。
图36是用于说明实施方式8的变形(variation)的图。
图37是用于说明实施方式8的变形的图。
具体实施方式
下面,参照附图详细地说明本发明的实施方式。
(实施方式1)
图2是表示本发明实施方式1的编码装置的主要结构的方框图。图2所示的编码装置100包括:频域变换单元101、第一层编码单元102、第一层解码单元103、减法单元104、第二层编码单元105以及复用单元106。
频域变换单元101将时域的输入信号变换为频域的信号(输入变换系数),并将输入变换系数输出到第一层编码单元102。
第一层编码单元102对输入变换系数进行编码处理,生成第一层编码数据,并将该第一层编码数据输出到第一层解码单元103和复用单元106。
第一层解码单元103使用第一层编码数据进行解码处理,生成第一层解码变换系数,并将其输出到减法单元104。
减法单元104从输入变换系数中减去由第一层解码单元103生成的第一层解码变换系数而生成第一层误差变换系数,并将该第一层误差变换系数输出到第二层编码单元105。
第二层编码单元105对减法单元104输出的第一层误差变换系数进行编码处理,生成第二层编码数据,并将该第二层编码数据输出到复用单元106。
复用单元106将由第一层编码单元102求得的第一层编码数据与由第二层编码单元105求得的第二层编码数据进行复用而形成比特流,并将其作为最终的编码数据输出到通信路径。
图3是表示图2所示的第二层编码单元105的结构的方框图。图3所示的第二层编码单元105包括:第一位置确定单元201、第二位置确定单元202、编码单元203以及复用单元204。
第一位置确定单元201使用从减法单元104输入的第一层误差变换系数,以规定的带宽和规定的步长搜索作为编码对象的频带可采用的频带,将表示确定了的频带的信息作为第一位置信息输出到第二位置确定单元202、编码单元203以及复用单元204。另外,在后面叙述第一位置确定单元201的细节。另外,该确定了的频带也可以称为“范围”或“区域”。
第二位置确定单元202在由第一位置确定单元201确定的频带中,以比第一位置确定单元201中的带宽窄的带宽和比第一位置确定单元201中的步长短的步长搜索目标频带,将用于表示确定了的目标频带的信息作为第二位置信息输出到编码单元203和复用单元204。另外,在后面叙述第二位置确定单元202的细节。
编码单元203对根据第一位置信息和第二位置信息确定的目标频带所包含的第一层误差变换系数进行编码,生成编码信息并将其输出到复用单元204。另外,在后面叙述编码单元203的细节。
复用单元204将第一位置信息、第二位置信息以及编码信息进行复用,生成第二层编码数据并将其输出。另外,该复用单元204并不是必须的,也可以将这些信息直接输出到图2所示的复用单元106。
图4是表示图3所示的第一位置确定单元201所确定的频带的图。
在图4中,第一位置确定单元201从以预先规定的带宽所设定的三个频带中确定一个频带,将该频带的位置信息作为第一位置信息输出到第二位置确定单元202、编码单元203以及复用单元204。图4所示的各个频带被设定为,具有目标频带以上的带宽(假设频带1为F1以上而小于F3、频带2为F2以上而小于F4、频带3为F3以上而小于F5)。另外,在本实施方式中各个频带被设定为,具有相同的带宽,但也可以设定为,各个频带具有不同的带宽。例如,也可以设定为像人的听觉的临界带宽那样,位于低频段的频带的带宽较窄,而位于高频段的频带的带宽较宽。
接着,说明由第一位置确定单元201进行的频带的确定方法。这里,第一位置确定单元201以第一层误差变换系数的能量的大小为基准,确定频带。将第一层误差变换系数表示为e1(k),通过下式(1)计算各个频带所包含的第一层误差变换系数的能量ER(i)。
其中,i为确定频带的识别符,FRL(i)表示频带i的最低频频率,FRH(i)表示频带i的最高频频率。
这样,确定第一层误差变换系数的能量较大的频带,并对误差较大的频带所包含的第一层误差变换系数进行编码,从而对输入信号的解码信号的误差变小,能够改善语音质量。
另外,也可以如下式(2)所示计算以带宽进行了归一化的归一能量NER(i),代替第一层误差变换系数的能量。
另外,作为确定频带的基准,也可以通过式(3)和式(4)计算进行了反映出人的听觉特征的加权的第一层误差变换系数的能量WER(i)、WNER(i)(以带宽进行了归一化的归一能量),代替第一层误差变换系数作为确定频带的基准。其中,w(k)表示与人的听觉特征相关的权重。
此时,第一位置确定单元201增大对听觉特征上重要度较高的频率的权重,并使包含该频率的频带容易被选择,另一方面,减小对重要度较低的频率的权重,并使包含该频率的频带不容易被选择。由此,由于听觉上重要的频带被优先选择,所以能够获得与上述同样的音质改善的效果。作为该权重,例如也可以使用基于输入信号或第一层的解码信号计算出的听觉屏蔽(auditory masking)阈值或利用人的听觉的响度(loudness)特征求出的值。
另外,在频带的选择法中,也可以从配置在频率比预先设定的基准频率(Fx)低的低频域的频带中选择频带。在图5的例子中,从频带1~频带8中选择频带。在频带选择中设定限制(基准频率)的理由如下所述。语音信号的一个特征即调波构造或谐波构造(以某频率间隔频谱呈峰值状的构造)为,与高频域相比低频域的峰值呈现出较大的值,在通过编码处理而产生的量化误差(误差频谱或误差变换系数)中也一样,低频域的峰值性要强于高频域。因此,即使低频域的误差频谱(误差变换系数)的能量小于高频域,也存在低频域的误差频谱(误差变换系数)的峰值性强于高频域的趋势,所以低频域的误差频谱(误差变换系数)容易超过听觉掩蔽阈值(人能够感觉到音的阈值),其结果,引起听觉上的音质劣化。
根据该方法,通过预先设定基准频率,与频率比基准频率(Fx)高的高频域相比,从误差变换系数(或误差频谱)的峰值性较强的低频域中决定目标频率,从而能够抑制误差变换系数的峰值,改善音质。
另外,在频带的选择方法中,也可以从配置在低中频域的频带中选择频带。在图4的例子中,从选择候补中排除频带3,从频带1和频带2中选择频带。由此,从低中频域中决定目标频带。
以下,第一位置确定单元201在确定频带1时输出“1”作为第一位置信息,在确定频带2时输出“2”作为第一位置信息,在确定频带3时输出“3”作为第一位置信息。
图6是表示图3所示的第二位置确定单元202确定的目标频带的位置的图。
第二位置确定单元202在由第一位置确定单元201确定出的频带中,以更短的步长确定目标频带,并将该目标频带的位置信息作为第二位置信息输出到编码单元203和复用单元204。
接着,说明由第二位置确定单元202进行的目标频带的确定方法。这里,以从图3所示的第一位置确定单元201输出的第一位置信息是“2”的情况为例,将目标频带的宽度设为BW。而且,以频带2的最低频率F2为起点,为了方便里起见而将该最低频率F2设为G1。然后,将第二位置确定单元202能够确定的目标频带的最低频率设为G2~GN。另外,第二位置确定单元202确定的目标频带的步长为Gn-Gn-1,另一方面,第一位置确定单元201确定的频带的步长为Fn-Fn-1(Gn-Gn-1<Fn-Fn-1)。
第二位置确定单元202从最低频率分别为G1、...、GN的目标频带候补中,基于第一层误差变换系数的能量或与其类似的基准,确定目标频带。例如,对于所有的Gn个目标频带候补,通过式(5)计算第一层误差变换系数的能量,确定计算出的能量ER(n)为最大的目标频带,将该目标频带的位置信息作为第二位置信息输出。
另外,如上所述,在以进行了反映出人的听觉特性的加权的第一层误差变换系数的能量WER(n)为基准时,通过下式(6)计算WER(n)。其中,w(k)表示与人的听觉特征相关的权重。作为该权重,例如也可以使用基于输入信号或第一层的解码信号计算出的听觉屏蔽阈值或利用人的听觉的响度特征求出的值。
此时,第二位置确定单元202增大对听觉特征上重要度较高的频率的权重,并使包含该频率的目标频带容易被选择,另一方面,减小对重要度较低的频率的权重,并使包含该频率的目标频带不容易被选择。由此,由于听觉上重要的目标频带被优先地选择,所以能够进一步地改善音质。
图7是表示图3所示的编码单元203的结构的方框图。图7所示的编码单元203包括:目标信号构成单元301、误差计算单元302、搜索单元303、形状码本304以及增益码本305。
目标信号构成单元301使用从第一位置确定单元201输入的第一位置信息和从第二位置确定单元202输入的第二位置信息来确定目标频率,从减法单元104输入的第一层误差变换系数中提取目标频带所包含的部分,并将提取出的第一层误差变换系数作为目标信号输出到误差计算单元302。该第一误差变换系数表示为e1(k)。
误差计算单元302基于从存储了表示误差变换系数的形状的候补(形状候补)的形状码本304输入的第i形状候补、从存储用于表示误差变换系数的增益的候补(增益候补)的增益码本305输入的第m增益候补以及从目标信号构成单元301输入的目标信号,通过下式(7)计算误差E,并将计算出的误差E输出到搜索单元303。
其中,sh(i,k)表示第i形状候补,ga(m)表示第m增益候补。
搜索单元303基于由误差计算单元302计算出的误差E,搜索使误差E为最小的形状候补与增益候补的组合,并将作为搜索结果的形状信息和增益信息作为编码信息输出到图3所示的复用单元204。这里,形状信息是指使误差E为最小时的参数m,增益信息是指使误差E为最小时的参数i。
另外,误差计算单元302也可以通过对听觉上重要的频谱施加较大的加权而增大听觉上重要的频谱的影响,并通过下式(8)求误差E。其中,w(k)表示与人的听觉特征相关的权重。
这样,增大对听觉特性上重要度较高的频率的权重,从而增大听觉特性上重要度较高的频率的量化失真的影响,另一方面,减小对重要度较低的频率的权重,从而减小重要度较低的频率的量化失真的影响,由此,能够改善主观质量。
图8是表示本实施方式的解码装置的主要结构的方框图。图8所示的解码装置600包括:分离单元601、第一层解码单元602、第二层解码单元603、减法单元604、切换单元605、时域变换单元606以及后置滤波器607。
分离单元601将经由通信路径输入的比特流分离为第一层编码数据和第二层编码数据,将第一层编码数据输入到第一层解码单元602,将第二层编码数据输入到第二层解码单元603。而且,分离单元601在所输入的比特流包含第一层编码数据和第二层编码数据双方时,将“2”作为层信息输出到切换单元605。另一方面,分离单元601在比特流仅包含第一层编码数据时,将“1”作为层信息输出到切换单元605。另外,也存在丢弃所有的编码数据的情况,但在这样的情况下假设各层的解码单元进行规定的差错补偿处理,后置滤波器进行层信息为“1”的处理。本实施方式中,以在解码装置中获得所有的编码数据或第二层编码数据被丢弃后所得的编码数据中的任一数据为前提进行说明。
第一层解码单元602进行第一层编码数据的解码处理而生成第一层解码变换系数,并将其输出到加法单元604和切换单元605。
第二层解码单元603进行第二层编码数据的解码处理而生成第一层解码误差变换系数,并将其输出到加法单元604。
加法单元604将第一层解码变换系数与第一层解码误差变换系数相加而生成第二层解码变换系数,并将其输出到切换单元605。
切换单元605基于从分离单元601输入的层信息,在层信息为“1”时将第一层解码变换系数作为解码变换系数输出到时域变换单元606,在层信息为“2”时将第二层解码变换系数作为解码变换系数输出到时域变换单元606。
时域变换单元606将解码变换系数变换为时域的信号而生成解码信号,并将其输出到后置滤波器607。
后置滤波器607对从时域变换单元606输出的解码信号进行后置滤波处理,从而生成输出信号。
图9是表示图8所示的第二层解码单元603的结构的图。图9所示的第二层解码单元603包括:形状码本701、增益码本702、乘法单元703以及配置单元704。
形状码本701基于从分离单元601输出的第二层编码数据所包含的形状信息,选择形状候补sh(i,k),并将其输出到乘法单元703。
增益码本702基于从分离单元601输出的第二层编码数据所包含的增益信息,选择增益候补ga(m),并将其输出到乘法单元703。
乘法单元703将形状候补sh(i,k)与增益候补ga(m)相乘,并将结果输出到配置单元704。
配置单元704将从乘法单元703输入的乘以增益候补后的形状候补配置到根据从分离单元601输出的第二层编码数据所包含的第一位置信息和第二位置信息而确定的目标频带,并将其作为第一层解码误差变换系数输出到加法单元604。
图10是表示从图9所示的配置单元704输出的第一层解码误差变换系数的情形的图。其中,Fm表示根据第一位置信息而确定的频率,Gn表示根据第二位置信息而确定的频率。
这样,根据本实施方式,第一位置确定单元201在输入信号的全频带中,以规定的带宽和规定的步长,搜索并确定误差较大的频带,第二位置确定单元202在第一位置确定单元201所确定的频带中,以比上述规定的带宽窄的带宽和比上述规定的步长短的步长,搜索并确定目标频带,由此,能够以较少的运算量从全频带中正确地确定误差较大的频带,能够改善音质。
(实施方式2)
在实施方式2中,说明由第二位置确定单元202进行的目标频带的另外的确定方法。图11是表示图3所示的第二位置确定单元202确定的目标频率的位置的图。本实施方式的编码装置的第二位置确定单元与实施方式1中已说明的编码装置的第二位置确定单元不同,确定单一的目标频率。以脉冲(或线谱)表示与单一的目标频率对应的误差变换系数的形状候补。另外,在本实施方式中,编码装置的结构除了编码单元203的内部结构以外,与图2所示的编码装置相同,解码装置的结构除了第二层解码单元603的内部结构以外,与图8所示的解码装置相同,所以省略这些部分的说明,仅说明与确定第二位置有关的编码单元203和解码装置的第二层解码单元603。
在本实施方式中,第二位置确定单元202在由第一位置确定单元201确定的频带中,确定单一的目标频率。因此,在本实施方式中,选择单一的第一层误差变换系数作为编码的对象。这里,以第一位置确定单元201确定频带2的情况为例进行说明。将目标频带的带宽表示为BW时,在本实施方式中,BW=1。
具体而言,如图11所示,第二位置确定单元202对频带2所包含的多个目标频率候补GN,通过上述的式(5)计算各个第一层误差变换系数的能量,并通过上述的式(6),计算各个进行了反映出人的听觉特性的加权的第一层误差变换系数的能量。而且,第二位置确定单元202确定计算出的能量为最大的目标频率Gn(1≤n≤N),将确定出的目标频率Gn的位置信息作为第二位置信息输出到编码单元203。
图12是表示图7所示的编码单元203的另外的形态的结构的方框图。相对于图7,图12所示的编码单元203采用删除了形状码本305的结构。另外,该结构相当于从形状码本304输出的信号总为“1”的情况。
编码单元203对第二位置确定单元202确定了的目标频率Gn所包含的第一层误差变换系数进行编码,生成编码信息并将其输出到复用单元204。这里,从第二位置确定单元202输入的目标频率是单一的,作为编码的对象的第一层误差变换系数也是单一的,所以编码单元203不需要来自形状码本304的形状信息,而仅以增益码本305进行搜索,将搜索结果的增益信息作为编码信息输出到复用单元204。
图13是表示图9所示的第二层解码单元603的另外的形态的结构的方框图。相对于图9,图13所示的第二层解码单元603采用删除了形状码本701和乘法单元703的结构。另外,该结构相当于从形状码本701输出的信号总为“1”的情况。
配置单元704将基于增益信息从增益码本中选择出的增益候补配置到,根据从分离单元601输出的第二层编码数据所包含的第一位置信息和第二位置信息而确定的单一的目标频率,并将其作为第一层解码误差变换系数输出到加法单元604。
这样,根据本实施方式,第二位置确定单元202通过从第一位置确定单元201所确定的频带中确定单一的目标频率,能够正确地表示线谱,从而能够改善母音那样的调性(tonality)较强的信号(具有可观察到大量峰值的频谱特性的信号)的音质。
(实施方式3)
在实施方式3中,说明由第二位置确定单元进行的目标频带的另外的确定方法。另外,在本实施方式中,编码装置的结构除了第二层编码单元105的内部结构以外,与图2所示的编码装置相同,所以省略其说明。
图14是表示本实施方式的解码装置的第二层编码单元105的结构的方框图。相对于图3,图14所示的第二层编码单元105采用具备第二位置确定单元301以代替第二位置确定单元202的结构。对与图3所示的第二层编码单元105相同的结构附加相同的标号,并省略其说明。
图14所示的第二位置确定单元301包括:第一子位置确定单元311-1、第二子位置确定单元311-2、...、第J子位置确定单元311-J以及复用单元312。
多个子位置确定单元(311-1、...、311-J)在第一位置确定单元201所确定的频带中,分别确定不同的目标频率。具体而言,在从第一位置确定单元201所确定的频带中除去第1~第n-1子位置确定单元(311-1、...、311-n-1)确定了的目标频率后所得的频带内,由第n子位置确定单元311-n确定第n目标频率。
图15是表示本实施方式的编码装置的多个子位置确定单元(311-1、...、311-J)所确定的目标频率的位置的图。其中,以第一位置确定单元201确定频带2,并且第二位置确定单元301确定J个目标频率的位置的情况为例进行说明。
如图15A所示,第一子位置确定单元311-1从频带2中的目标频率候补之中确定一个目标频率(这里是G3),将该目标频率的位置信息输出到复用单元312,并且将其输出到第二子位置确定单元311-2。
如图15B所示,在从频带2内除去第一子位置确定单元311-1所确定的目标频率G3后的目标频率候补中,第二子位置确定单元311-2确定一个目标频率(这里是GN-1),将该目标频率的位置信息输出到复用单元312,并且将其输出到第三子位置确定单元311-3。
同样地,如图15C所示,在从频带2内除去了第1~第J-1子位置确定单元(311-1、...、311-J-1)所确定的J-1个目标频率后的目标频率候补中,第J子位置确定单元311-J选择一个目标频率(这里是G5),并将确定它的位置信息输出到复用单元312。
复用单元312将从子位置确定单元(311-1、...311-J)输入的J个位置信息复用而生成第二位置信息,并将其输出到编码单元203和复用单元204。另外,该复用单元312并不是必须的,也可以直接将J个位置信息直接输出到编码单元203和复用单元204。
这样,第二位置确定单元301能够在第一位置确定单元201所确定的频带中,确定J个目标频率,表现多个峰值,所以能够改善母音那样的调性较强的信号的音质。而且,从第一位置确定单元201所确定的频带中决定J个目标频率即可,与从全频带中决定J个目标频率的情况相比,能够大幅地削减多个目标频率的组合数。由此,能够实现低比特率化和低运算量化。
(实施方式4)
在实施方式4中,说明第二层编码单元105中的另外的编码方法。另外,在本实施方式中,编码装置的结构除了第二层编码单元105的内部结构以外,与图2所示的编码装置相同,所以省略其说明。
图16是表示本实施方式的编码装置的其他的状态的第二层编码单元105的结构的方框图。图16所示的第二层编码单元105采用以下的结构,没有图3所示的第二位置确定单元202,另外,具备编码单元221以代替图3所示的编码单元203。
编码单元221决定第二位置信息,以使在对目标频率所包含的误差变换系数进行编码时产生的量化失真最小。将该第二位置信息存储在第二位置信息码本321中。
图17是表示图16所示的编码单元221的结构的方框图。图17所示的编码单元221采用下述的结构,对于图7所示的编码单元203追加了第二位置信息码本321,并且具备搜索单元322以代替搜索单元303。另外,对与图7所示的编码单元203相同的结构附加相同的标号,并省略其说明。
第二位置信息码本321根据来自后述的搜索单元322的控制信号,从存储的第二位置信息的候补中选择一个第二位置信息,并将其输出到目标信号构成单元301。在图17的第二位置信息码本321中,黑点表示各个第二位置信息候补的目标频率的位置。
目标信号构成单元301使用从第一位置确定单元201输入的第一位置信息和在第二位置信息码本321中选择的第二位置信息来确定目标频率,从减法单元104输入的第一层误差变换系数中提取确定了的目标频带所包含的部分,并将提取出的第一层误差变换系数作为目标信号输出到误差计算单元302。
搜索单元322基于从误差计算单元302输入的误差E,搜索使误差E为最小的形状候补和增益候补、以及第二位置信息候补的组合,并将作为搜索结果的形状信息、增益信息以及第二位置信息作为编码信息输出到图16所示的复用单元204。而且,搜索单元322将控制信号输出到第二位置信息码本321,该控制信号为使第二位置信息码本321选择第二位置信息候补并输出到目标信号构成单元301的信号。
这样,根据本实施方式,决定第二位置信息,以使在对目标频率所包含的误差变换系数进行编码时产生的量化失真为最小,所以最终的量化失真变小,从而能够改善语音质量。
另外,在本实施方式中,以图17所示的第二位置信息码本321存储具有单一的目标频率作为要素的第二位置信息候补为例进行了说明,但本发明并不限于此,如图18所示,第二位置信息码本321也可以存储具有多个目标频率作为要素的第二位置信息候补。图18是表示第二位置信息码本312中存储的第二位置信息候补分别具有三个目标频率时的编码单元221的图。
另外,在本实施方式中,以图17所示的误差计算单元302基于形状码本304和增益码本305计算误差E为例进行了说明,但本发明并不限于此,也可以如图19所示,删除形状码本304,仅基于增益码本305计算误差E。图19是表示图16所示的编码单元221的另外的结构的方框图。该结构相当于从形状码本304输出的信号总为“1”的情况。此时,形状由多个脉冲构成,不需要形状码本304,所以搜索单元322仅搜索增益码本305和第二位置信息码本321,将搜索结果的增益信息和第二位置信息作为编码信息,输出到图16所示的复用单元204。
另外,在本实施方式中,以下述情况为前提进行了说明,即,第二位置信息码本321实际上采用确保存储区域而存储第二位置信息候补的形态,但本发明并不限于此,第二位置信息码本321也可以按照预先规定的处理步骤生成第二位置信息候补。此时,第二位置信息码本321中不需要存储区域。
(实施方式5)
在实施方式5中,说明由第一位置确定单元进行的频带的另外的确定方法。另外,在本实施方式中,编码装置的结构除了第二层编码单元105的内部结构以外,与图2所示的编码装置相同,省略其说明。
图20是表示本实施方式的编码装置的第二层编码单元105的结构的方框图。图20所示的第二层编码单元105采用的结构为,具备第一位置确定单元231以代替图3所示的第一位置确定单元201。
未图示的计算单元对输入信号进行基音分析,求基音周期,并基于求得的基音周期的倒数计算基音频率。另外,计算单元也可以基于由第一层编码单元102的编码处理而生成的第一层编码数据,计算基音频率。此时,无需为了发送第一层编码数据而另行发送用于确定基音频率的信息。而且,计算单元将用于确定基音周期的基音周期信息输出到复用单元106。
第一位置确定单元231基于从未图示的计算单元输入的基音频率,以规定的相对较宽的带宽确定频带,将所确定的频带的位置信息作为第一位置信息输出到第二位置确定单元202、编码单元203以及复用单元204。
图21是表示图20所示的第一位置确定单元231确定的频带的位置的图。图21所示的三个频带是基于所输入的基音频率PF决定的基准频率F1~F3的整数倍的附近的频带。基准频率是对基音频率PF加上规定的值后求得的频率。作为具体的例子,这里,假设-1、0、1为与PF相加的值,则基准频率为F1=PF-1、F2=PF、F3=PF+1。
设定以基音频率的整数倍为基准的频带的理由是,在语音信号,特别是在基音周期较强的母音部中,具有在基音周期的倒数(基音频率)的整数倍附近出现频谱的峰值的特征(谐波结构或谐波),而且,在第一层误差变换系数中在基音频率的整数倍附近也容易产生较大的误差。
这样,根据本实施方式,由于第一位置确定单元231确定基音频率的整数倍附近的频带,所以最终由第二位置确定单元202所确定的目标频率在基音频率的附近,从而能够以较少的运算量改善语音质量。
(实施方式6)
在实施方式6,说明下述的情况,在编码处理中,对具有第一层编码单元的编码装置,适用本发明的编码方法,所述第一层编码单元使用以基于噪声等的近似信号来替代高频域的方法。图22是表示本实施方式的编码装置220的主要结构的方框图。图22所示的编码装置220包括:第一层编码单元2201、第一层解码单元2202、延迟单元2203、减法单元104、频域变换单元101、第二层编码单元105以及复用单元106。另外,在图22的编码装置220中,对与图2所示的编码装置100相同的结构要素附加相同的标号,省略其说明。
本实施方式的第一层编码单元2201采用以基于噪声等的近似信号来替代高频域的方式。具体而言,以近似信号来表示听觉上重要度较低的高频域,相反增加听觉上重要的低频域(或低中频域)的比特分配而提高对该频带的原信号的保真度。由此,提高整体的音质。例如,例举了AMR-WB(AdaptiveMulti-Rate Wideband:自适应多速率宽带编码)方式(非专利文献3)和VMR-WB(Variable-Rate Multimode Wideband:可变速率多模式宽带)方式(非专利文献4)。
第一层编码单元2201对输入信号进行编码而生成第一层编码数据,并将其输出到复用单元106和第一层解码单元2202。另外,在后面叙述第一层编码单元2201的细节。
第一层解码单元2202使用从第一层编码单元2201输入的第一层编码数据进行解码处理而生成第一层解码信号,并将其输出到减法单元104。另外,在后面叙述第一层解码单元2202的细节。
接着,使用图23说明第一层编码单元2201的细节。图23是表示编码装置220的第一层编码单元2201的结构的方框图。如图23所示,第一层编码单元2201由下采样单元2210和核心编码(core coding)单元2220构成。
下采样单元2210对时域的输入信号进行下采样,将其变换为所期望的下采样率,并将下采样后的时域信号输出到核心编码单元2220。
核心编码单元2220对下采样单元2210的输出信号进行编码处理而生成第一层编码数据,并将其输出到第一层解码单元2202和复用单元106。
接着,使用图24说明第一层解码单元2202的细节。图24是表示编码装置220的第一层解码单元2202的结构的方框图。如图24所示,第一层解码单元2202由主解码单元2230、上采样单元2240、高频分量附加单元2250构成。
主解码单元2230使用从核心编码单元2220输入的第一层编码数据进行解码处理而生成解码信号,将其输出到上采样单元2240,而且将通过解码处理求出的解码LPC系数输出到高频分量附加单元2250。
上采样单元2240对从主解码单元2230输出的解码信号进行上采样,变换为与输入信号相同的采样率,并将上采样后的信号输出到高频分量附加单元2250。
高频分量附加单元2250对由上采样单元2240上采样到的信号,通过例如非专利文献3和非专利文献4中记载的方法生成高频分量的近似信号,补充欠缺的高频域。
图25是表示本实施方式的与编码装置对应的解码装置的主要结构的方框图。图25的解码装置250具有与图8所示的解码装置600相同的基本结构,具备第一层解码单元2501以代替第一层解码单元602。第一层解码单元2501与编码装置的第一层解码单元2202同样,由未图示的主解码单元、上采样单元以及高频分量附加单元构成。这里,省略对这些单元的详细说明。
将噪声信号那样的没有由编码单元和解码单元附加信息而能够生成的信号通过由主解码单元提供的解码LPC系数构成的合成滤波器,将合成滤波器的输出信号用作高频分量的近似信号。此时,输入信号的高频分量与第一层解码信号的高频分量为完全不同的波形,当然由减法单元求得的误差信号的高频分量的能量大于输入信号的高频分量的能量。由此,在第二层编码单元中产生下述问题,配置在听觉上重要度较低的高频域的频带容易被选择。
根据本实施方式,如上所述,在第一层编码单元2201的编码处理中,在使用以基于噪声的近似信号来替代高频域的方法的编码装置220中,通过从频率比预先设定的基准频率低的低频域中选择频带,即使增大误差信号(或误差变换系数)的高频域的能量,也能够选择听觉上灵敏度较高的低频域作为第二层编码单元的编码对象,所以能够改善音质。
另外,在本实施方式中,以不将与高频域有关的信息传送到解码单元的结构为例进行了说明,但本发明并不限于此,例如,也可以采用非专利文献5那样与低频域相比以低比特率对高频域的信号进行编码后传送到解码单元的结构。
另外,在图22所示的编码装置220中,减法单元104为求时域的信号之间的差的结构,但是减法单元也可以采用求频域的变换系数之间的差的结构。此时,将频域变换单元101配置在延迟单元2203和减法单元104之间来求输入变换系数,在第一层解码单元2202和减法单元104之间新追加频域变换单元101来求第一层解码变换系数。另外,减法单元104采用的结构为,求输入变换系数与第一层解码变换系数之间的差,并将该误差变换系数直接提供给第二层编码单元。根据该结构,能够进行在某频带求差值而在另外的频带不求差值等适合于各个频带的减法处理,从而能够进一步改善音质。
(实施方式7)
在实施方式7,说明在其他结构的编码装置和解码装置中,适用本发明的编码方法的情况。图26是表示本实施方式的编码装置260的主要结构的方框图。
相对于图22所示的编码装置220,图26所示的编码装置260具有追加了权重滤波单元2601的结构。另外,在图26的编码装置260中,对与图22相同的结构要素附加相同的标号,省略其说明。
权重滤波单元2601进行对从减法单元104输入的误差信号施加听觉上的加权的滤波处理,并将滤波处理后的信号输出到频域变换单元101。权重滤波单元2601具有与输入信号的频谱包络相反的频谱特性,使输入信号的频谱平整(白化)或者变化为与其相近的频谱特性。例如,权重滤波W(z)使用由第一层解码单元2202获得的解码LPC系数,如下式(9)那样被构成。
其中,α(i)是解码LPC系数,NP是LPC系数的次方数,另外γ是用于控制频谱平整化(白化)的程度的参数,取值范围为0≤γ≤1。γ越大,平整化的程度越大,例如,γ为0.92。
相对于图25所示的解码装置250,图27所示的解码装置270具有追加了合成滤波单元2701的结构。另外,在图27的解码装置270中,对与图25相同的结构要素附加相同的标号,省略其说明。
合成滤波单元2701进行下述的滤波处理,即,对于从时域变换单元606输入的信号,将平整化后的频谱特性复原为原来的特性的滤波处理,并将滤波处理后的信号输出到加法单元604。合成滤波单元2701具有与式(9)所表示的权重滤波相反的频谱特性,即具有与输入信号的频谱包络相同的特性。使用式(9),如下式(10)那样表示合成滤波B(z)。
其中,、α(i)是解码LPC系数,NP是LPC系数的次方数,另外γ是用于控制频谱平整化(白化)的程度的参数,取值范围为0≤γ≤1。γ越大,平整化的程度越大,例如,γ为0.92。
一般地,在上述的编码装置和解码装置中,对语音信号的频谱包络而言,呈现出低频域的能量大于高频域的能量,从而即使通过合成滤波器之前的信号的编码失真在低频域和高频域相同,低频域的编码失真也在通过合成滤波器后变大。在将语音信号压缩为低比特率后转发的情况下,无法使编码失真非常小,所以存在下述问题,如上述那样的由于解码单元的合成滤波单元的影响而使编码失真的低频域的能量增大,容易出现低频域的质量劣化。
根据本实施方式的编码方法,从频率比基准频率低的低频域中决定目标频率,所以容易选择低频域作为第二层编码单元105的编码对象,由此能够减小低频域的编码失真。也就是说,根据本实施方式,即使低频域通过合成滤波器被增强,也难以感觉到低频域的编码失真,从而能够获得改善音质的效果。
另外,在本实施方式中,编码装置260的减法单元104采用求时域的信号之间的差的结构,但本发明并不限于此,也可以采用求频域的变换系数之间的差的结构。具体而言,将权重滤波单元2601和频域变换单元101配置在延迟单元2203和减法单元104之间,求输入变换系数,另外,在第一层解码单元2202和减法单元104之间新追加权重滤波单元2601和频域变换单元101,求第一层解码变换系数。另外,减法单元104采用的结构为,求输入变换系数与第一层解码变换系数之间的差,并将该误差变换系数直接提供给第二层编码单元105。根据该结构,能够进行在某频带求差值而在另外的频带不求差值等适合于各个频带的减法处理,从而能够进一步改善音质。
另外,在本实施方式中,以编码装置220的层数是2的情况为例进行了说明,但本发明并不限于此,也可以例如图28所示的编码装置280那样,编码分层采用层数为2以上的结构。
图28是表示编码装置280的主要结构的方框图。相对于图2所示的编码装置100,编码装置280采用的结构为,追加了第二层解码单元2801、第三层编码单元2802、第三层解码单元2803、第四层编码单元2804以及两个加法器2805,并且具有三个减法单元104。
图28所示的第三层编码单元2802和第四层编码单元2804具有与图2所示的第二层编码单元同样的结构,进行同样的动作,第二层解码单元2801和第三层解码单元2803具有与图2所示的第一层解码单元103同样的结构,进行同样的动作。这里,使用图29说明各层编码单元中的频带的位置。
作为各层编码单元中的频带的配置的一个例子,图29A表示第二层编码单元中的频带的位置,图29B表示第三层编码单元中的频带的位置,图29C表示第四层编码单元中的频带的位置,并且频带数分别为“4”。
更详细地说,在第二层编码单元105中,以不超过层2的基准频率Fx(L2)来配置四个频带,在第三层编码单元2802中,以不超过层3的基准频率Fx(L3)来配置四个频带,在第四层编码单元2804中,以不超过层4的基准频率Fx(L4)来配置频带。另外,各层的基准频率之间存在Fx(L2)<Fx(L3)<Fx(L4)的关系。也就是说,在比特率较低的层2中,从听觉上灵敏度较高的低频域中决定作为编码对象的频带,越是比特率变高的高层,越从直至高频域为止所包含的频带中决定作为编码对象的频带。
通过采用这样的结构,在低层中重视低频域,在高层中覆盖更宽的频带,从而能够实现语音信号的高音质化。
图30是表示与图28所示的编码装置280对应的解码装置300的主要结构的方框图。相对于图8所示的解码装置600,图30的解码装置300采用追加了第三层解码单元3001和第四层解码单元3002以及两个加法器604的结构。另外,第三层解码单元3001和第四层解码单元3002具有与图8所示的解码装置600的第二层解码单元603同样的结构,进行同样的动作,所以这里,省略其详细的说明。
另外,作为各层编码单元中的频带的配置的另外的一个例子,图31A表示第二层编码单元105中的四个频带的位置,图31B表示第三层编码单元2802中的六个频带的位置,图31C表示第四层编码单元2804中的八个频带的位置。
在图31,在各层编码单元中,等间隔地配置各个频带,在如图31A所示的低层中仅将配置在低频域的频带作为编码对象,越是如图31B或图31C所示的高层,越增加作为编码对象的频带。
根据这样的结构,在各层中等间隔地配置频带,在低层中选择作为编码对象的频带时,由于作为选择候补的配置在低频域的频带数较少,所以能够削减运算量和比特率。
(实施方式8)
本发明的实施方式8仅在第一位置确定单元的动作方面与实施方式1不同,为了表示这种不同,对本实施方式的第一位置确定单元附加标号“801”。第一位置确定单元801在确定作为编码对象的目标频率可采用的频带时,预先将全频带分割为多个部分频带,在各个部分频带中以规定的带宽和规定的步长进行搜索。然后,第一位置确定单元801将通过搜索求出的各个部分频带内的频带进行结合,将其设为编码对象的目标频率可采用的频带。
使用图32说明本实施方式的第一位置确定单元801的动作。图32例示了下述情况,即,部分频带数目N=2,为了覆盖低频域而设定部分频带1,为了覆盖高频域而设定部分频带2。在部分频带1中,从预先设定在规定的带宽内的多个频带中选择一个频带(将该频带的位置信息称为第一部分频带位置信息)。同样地,在部分频带2中,从预先设定在规定的带宽内的多个频带中选择一个频带(将该频带的位置信息称为第二部分频带位置信息)。
接着,第一位置确定单元801将在部分频带1中选择出的频带与在部分频带2中选择出的频带进行结合而构成结合频带。该结合频带为通过第一位置确定单元801确定的频带,接着,第二位置确定单元202基于该结合频带,确定第二位置信息。例如,在部分频带1中选择出的频带为频带2,在部分频带2中选择出的频带为频带4时,第一位置确定单元801如图32的下部所示将这两个频带结合,使其成为编码对象的频带可采用的频带。
图33是表示与部分频带数目为N的情况对应的第一位置确定单元801的结构的方框图。在图33中,将从减法单元104输入的第一层误差变换系数分别提供给部分频带1确定单元811-1~部分频带N确定单元811-N。各个的部分频带n确定单元811-n(n=1~N)从规定的部分频带n中选择一个频带,将表示选择出的频带的位置的信息(第n部分频带位置信息)输出到第一位置信息构成单元812。
第一位置信息构成单元812使用从各个的部分频带n确定单元811-n输入的第n部分频带位置信息(n=1~N)而构成第一位置信息,将该第一位置信息输出到第二位置确定单元202、编码单元203以及复用单元204。
图34是例示在第一位置信息构成单元812中构成第一位置信息的情形的图。在该图中,第一位置信息构成单元812依序排列第一部分频带位置信息(A1比特)~第N部分频带位置信息(AN比特)而构成第一位置信息。这里,根据各个部分频带n所包含的候补频带的数目来决定各个的第n部分频带位置信息的比特长度An,并可以为相互不同的值。
图35是表示,在本实施方式的解码处理中,使用第一位置信息和第二位置信息求第一层解码误差变换系数的情形的图。这里,以部分频带数目是2的情况为例进行说明。另外,在以下的说明中,改用构成了实施方式1的第二层解码单元603的各个结构要素的名称和标号。
配置单元704对从乘法单元703输入的与增益候补相乘后的形状候补,使用第二位置信息进行重新配置。接着,配置单元704对使用了第二位置信息的重新配置后的形状候补,使用第一位置信息再进行重新配置到部分频带1和部分频带2的配置。配置单元704将这样求得的信号作为第一层解码误差变换系数输出。
根据本实施方式,由于第一位置确定单元从各个的部分频带中选择一个频带,所以能够在部分频带配置至少一个解码频谱。由此,与从全频带中决定一个频带的实施方式相比,能够预先设定希望改善音质的多个频带。例如,在希望同时实现低频域和高频域双方的质量改善时等,本实施方式是极为有效的。
另外,根据本实施方式,即使在低层(本实施方式中为第一层)中进行低比特率的编码时,也能够改善解码信号的主观质量。在低层使用CELP方式的结构为其一例。CELP方式为基于波形匹配的编码方式,所以能够进行使其能量比高频域大的低频域的量化失真更小的编码。其结果,高频域的频谱衰减了,从而感觉到沉闷感(缺乏频带感)。另一方面,CELP方式的编码为低比特率的编码方式,所以不能充分地抑制低频段的量化失真,该量化失真被感觉为噪声。在本实施方式中,由于分别从低频域和高频域中选择作为编码对象的频带,所以能够同时消除两个不同的劣化原因,即低频域的噪声感和高频域的沉闷感,改善主观质量。
另外,根据本实施方式,将从低频段选择出的频带与从高频段选择出的频带结合而构成结合频带,并在该结合频带中决定频谱的形状,所以能够进行下述自适应处理,即,在与高频段相比需要改善低频段的质量的帧中,能够选择重视了低频段的频谱的形状,在与低频段相比需要改善高频段的质量的帧中,能够选择重视了高频段的频谱的形状,从而能够改善主观质量。例如,在用脉冲表示频谱的形状时,能够在与高频段相比需要改善低频段的质量的帧中,在低频段配置较多的脉冲,在与低频段相比需要改善高频段的质量的帧中,在高频段配置较多的脉冲,通过该自适应处理,能够改善主观质量。
另外,作为本实施方式的变形,如图36所示,也可以在确定的部分频带中总是选择固定的频带。在图36所示的例子中,在部分频带2中总是选择频带4,该频带成为结合频带的一部分。由此,与本实施方式的效果同样,能够预先设定希望改善音质的频带,并且,由于例如不需要部分频带2的部分频带位置信息,所以能够更加减少用于表示如图34所示的第一位置信息的比特数。
另外,图36例示了下述情况,即,在高频域(部分频带2)中总是选择固定范围,但并不限于此,也可以在低频域(部分频带1)中总是选择固定的范围,而且也可以在图36中未图示的中频域的部分频带中总是选择固定的范围。
另外,作为本实施方式的变形,如图37所示,在各个部分频带中设定的候补频带的带宽也可以不同。在图37中,例示了在部分频带2中设定的部分频带的带宽比在部分频带1中设定的候补频带短的情况。
至此,说明了本发明的实施方式。
另外,作为各层编码单元中的频带的配置并不限于本发明中上述说明过的例子,例如也可以采用使在低层中各个频带的带宽较窄,在高层中各个频带的带宽较宽的结构。
另外,在上述的各个实施方式中,也可以与在先前帧选择的频带关联地选择当前帧的频带。例如,也可以从位于在先前帧选择的频带的附近的频带中决定当前帧的频带。而且,也可以将当前帧的频带的候补重新配置到在先前帧选择的频带的附近,从该重新配置后的频带的候补中决定当前帧的频带。而且,也可以是,以每数帧一次的比例传输范围信息,并且在不传输范围信息的帧中使用先前传输的范围信息所表示的范围(频带信息的断续传输)。
另外,在上述的各个实施方式中,也可以与在低层选择的频带关联地选择当前层的频带。例如,也可以从位于在低层选择的频带的附近的频带中决定当前层的频带。也可以将当前层的频带的候补重新配置到在低层选择的频带的附近,从该重新配置后的频带的候补中决定当前层的频带。而且,也可以是,以每数帧一次的比例传输范围信息,并且在不传输范围信息的帧中使用先前传输的范围信息所表示的范围(频带信息的断续传输)。
另外,本发明并不限制可扩展编码的分层数。
另外,在上述的实施方式中,假设语音信号作为解码信号,但本发明并不限于此,也可以是例如音频信号等。
另外,在上述的各实施方式中,虽然以用硬件构成本发明的情形为例进行了说明,但也可以用软件实现本发明。
另外,用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些功能块既可以被单独地集成为一个芯片,也可以包含一部分或全部地被集成为一个芯片。虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以使用可在LSI制造后编程的FPGA(Field ProgrammableGate Array),或者可重构LSI内部的电路单元的连接和设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果出现能够替代LSI的集成电路化的新技术,当然可利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
2007年3月2日申请的日本专利申请第2007-053498号、2007年5月18日申请的日本专利申请第2007-133525号、2007年7月13日申请的日本专利申请第2007-184546号以及2008年2月26日申请的日本专利申请第2008-044774号所包含的说明书、附图以及说明书摘要公开的内容全部引用于本申请。
工业实用性
本发明特别适用于可扩展性编码方式的通信系统中所使用的编码装置、解码装置等。
Claims (14)
1、编码装置,包括:
第一层编码单元,对输入变换系数进行编码处理,生成第一层编码数据;
第一层解码单元,使用所述第一层编码数据进行解码处理,生成第一层解码变换系数;以及
第二层编码单元,对作为所述输入变换系数与所述第一层解码变换系数之间的误差的第一层误差变换系数中、所述误差最大的目标频带部分进行编码处理,生成第二层编码数据,
所述第二层编码单元包括:
第一位置确定单元,在全频带中,以规定的第一步长搜索具有比所述目标频带宽的带宽且所述误差最大的第一频带,并生成表示了确定的第一频带的第一位置信息;
第二位置确定单元,在所述第一频带中,以比所述第一步长短的第二步长搜索所述目标频带,并生成表示了确定的目标频带的第二位置信息;以及
编码单元,对根据所述第一位置信息和所述第二位置信息所确定的目标频带所包含的所述第一层误差变换系数进行编码而生成编码信息。
2、如权利要求1所述的编码装置,所述第二位置确定单元通过单一的目标频率,确定所述目标频带。
3、如权利要求1所述的编码装置,所述第二位置确定单元通过多个目标频率,确定所述目标频带。
4、如权利要求1所述的编码装置,所述第二位置确定单元确定所述目标频带,以使在对所述第一层误差变换系数进行编码时产生的量化失真最小。
5、如权利要求1所述的编码装置,所述第一位置确定单元以所述第一层误差变换系数的能量的大小为基准,确定所述第一频带。
6、如权利要求1所述的编码装置,所述第一位置确定单元从频率比所设定的基准频率低的低频域中确定所述第一频带。
7、如权利要求1所述的编码装置,所述第一位置确定单元以基音频率的整数倍为基准,确定所述第一频带。
8、如权利要求1所述的编码装置,
编码处理的层数为2以上,
越是高层,基准频率被设定得越高,
所述第一位置确定单元对每一层从频率比所述各个基准频率低的低频域中确定所述第一频带。
9、如权利要求1所述的编码装置,所述第一位置确定单元将全频带分割为多个部分频带,在所述多个部分频带的各个部分频带中选择一个频带,将结合了所选择的多个频带所获得的结合频带作为所述第一频带。
10、如权利要求9所述的编码装置,所述第一位置确定单元在所述多个部分频带中的至少一个部分频带内,选择预先决定的固定的频带。
11、解码装置,包括:
接收单元,接收第一层编码数据、第二层编码数据、第一位置信息以及第二位置信息,该第一层编码数据为对输入变换系数进行编码处理所获得的数据,该第二层编码数据为在对作为将所述第一层编码数据解码所获得的第一层解码变换系数与所述输入变换系数之间的误差的第一层误差变换系数中,对所述误差最大的目标频带部分进行编码处理所获得的数据,该第一位置信息表示具有比所述目标频带宽的带宽且所述误差最大的第一频带,该第二位置信息表示所述第一频带中的所述目标频带;
第一层解码单元,对所述第一层编码数据进行解码而生成第一层解码变换系数;
第二层解码单元,根据所述第一位置信息和所述第二位置信息确定所述目标频带,并对所述第二层编码数据进行解码而生成第一层解码误差变换系数;以及
加法单元,将所述第一层解码变换系数与所述第一层解码误差变换系数相加而生成第二层解码变换系数。
12、如权利要求11所述的解码装置,所述第二层解码单元使用所述第二层编码数据所包含的形状信息和增益信息进行解码。
13、编码方法,包括:
第一层编码步骤,对输入变换系数进行编码处理,生成第一层编码数据;
第一层解码步骤,使用所述第一层编码数据进行解码处理,生成第一层解码变换系数;以及
第二层编码步骤,对作为所述输入变换系数与所述第一层解码变换系数之间的误差的第一层误差变换系数中、所述误差最大的目标频带部分进行编码处理,生成第二层编码数据,
所述第二层编码步骤包括:
第一位置确定步骤,在全频带中,以规定的第一步长搜索具有比所述目标频带宽的带宽且所述误差最大的第一频带,并生成表示了确定的第一频带的第一位置信息;
第二位置确定步骤,在所述第一频带中,以比所述第一步长短的第二步长搜索所述目标频带,并生成表示了确定的目标频带的第二位置信息;以及
编码步骤,对根据所述第一位置信息和所述第二位置信息确定的目标频带所包含的所述第一层误差变换系数进行编码而生成编码信息。
14、解码方法,包括:
接收步骤,接收第一层编码数据、第二层编码数据、第一位置信息以及第二位置信息,该第一层编码数据为对输入变换系数进行编码处理所获得的数据,该第二层编码数据为在对作为将所述第一层编码数据解码所获得的第一层解码变换系数与所述输入变换系数之间的误差的第一层误差变换系数中,对所述误差最大的目标频带部分进行编码处理所获得的数据,该第一位置信息表示具有比所述目标频带宽的带宽且所述误差最大的第一频带,该第二位置信息表示所述第一频带中的所述目标频带;
第一层解码步骤,对所述第一层编码数据进行解码而生成第一层解码变换系数;
第二层解码步骤,根据所述第一位置信息和所述第二位置信息确定所述目标频带,并对所述第二层编码数据进行解码而生成第一层解码误差变换系数;以及
加法步骤,将所述第一层解码变换系数与所述第一层解码误差变换系数相加而生成第二层解码变换系数。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007053498 | 2007-03-02 | ||
JP053498/2007 | 2007-03-02 | ||
JP2007133525 | 2007-05-18 | ||
JP133525/2007 | 2007-05-18 | ||
JP2007184546 | 2007-07-13 | ||
JP184546/2007 | 2007-07-13 | ||
JP2008044774A JP4708446B2 (ja) | 2007-03-02 | 2008-02-26 | 符号化装置、復号装置およびそれらの方法 |
JP044774/2008 | 2008-02-26 | ||
PCT/JP2008/000396 WO2008120437A1 (ja) | 2007-03-02 | 2008-02-29 | 符号化装置、復号装置およびそれらの方法 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104225570A Division CN102385866B (zh) | 2007-03-02 | 2008-02-29 | 语音编码装置、解码装置和语音编码方法、解码方法 |
CN2011104249560A Division CN102394066B (zh) | 2007-03-02 | 2008-02-29 | 语音编码装置、解码装置和语音编码方法、解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101611442A true CN101611442A (zh) | 2009-12-23 |
CN101611442B CN101611442B (zh) | 2012-02-08 |
Family
ID=39808024
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104225570A Active CN102385866B (zh) | 2007-03-02 | 2008-02-29 | 语音编码装置、解码装置和语音编码方法、解码方法 |
CN2011104249560A Active CN102394066B (zh) | 2007-03-02 | 2008-02-29 | 语音编码装置、解码装置和语音编码方法、解码方法 |
CN2008800051345A Active CN101611442B (zh) | 2007-03-02 | 2008-02-29 | 编码装置、解码装置以及其方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104225570A Active CN102385866B (zh) | 2007-03-02 | 2008-02-29 | 语音编码装置、解码装置和语音编码方法、解码方法 |
CN2011104249560A Active CN102394066B (zh) | 2007-03-02 | 2008-02-29 | 语音编码装置、解码装置和语音编码方法、解码方法 |
Country Status (10)
Country | Link |
---|---|
US (3) | US8543392B2 (zh) |
EP (3) | EP2747080B1 (zh) |
JP (1) | JP4708446B2 (zh) |
KR (1) | KR101363793B1 (zh) |
CN (3) | CN102385866B (zh) |
BR (1) | BRPI0808705A2 (zh) |
CA (1) | CA2679192C (zh) |
ES (1) | ES2473277T3 (zh) |
RU (2) | RU2502138C2 (zh) |
WO (1) | WO2008120437A1 (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
US8352249B2 (en) * | 2007-11-01 | 2013-01-08 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
WO2010137300A1 (ja) | 2009-05-26 | 2010-12-02 | パナソニック株式会社 | 復号装置及び復号方法 |
FR2947944A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Codage/decodage perfectionne de signaux audionumeriques |
FR2947945A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
CN101989429B (zh) * | 2009-07-31 | 2012-02-01 | 华为技术有限公司 | 转码方法、装置、设备以及系统 |
EP2490216B1 (en) * | 2009-10-14 | 2019-04-24 | III Holdings 12, LLC | Layered speech coding |
CN102576539B (zh) * | 2009-10-20 | 2016-08-03 | 松下电器(美国)知识产权公司 | 编码装置、通信终端装置、基站装置以及编码方法 |
ES2936307T3 (es) * | 2009-10-21 | 2023-03-16 | Dolby Int Ab | Sobremuestreo en un banco de filtros de reemisor combinado |
CN102598124B (zh) * | 2009-10-30 | 2013-08-28 | 松下电器产业株式会社 | 编码装置、解码装置及其方法 |
EP2581904B1 (en) * | 2010-06-11 | 2015-10-07 | Panasonic Intellectual Property Corporation of America | Audio (de)coding apparatus and method |
BR112012032746A2 (pt) * | 2010-06-21 | 2016-11-08 | Panasonic Corp | dispositivo de descodificação, dispositivo de codificação, e métodos para os mesmos. |
CA3160488C (en) | 2010-07-02 | 2023-09-05 | Dolby International Ab | Audio decoding with selective post filtering |
RU2013110317A (ru) | 2010-09-10 | 2014-10-20 | Панасоник Корпорэйшн | Кодирующее устройство и способ кодирования |
AU2012217153B2 (en) | 2011-02-14 | 2015-07-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
PL3471092T3 (pl) | 2011-02-14 | 2020-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekodowanie pozycji impulsów ścieżek sygnału audio |
CN102959620B (zh) | 2011-02-14 | 2015-05-13 | 弗兰霍菲尔运输应用研究公司 | 利用重迭变换的信息信号表示 |
SG192746A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for processing a decoded audio signal in a spectral domain |
CN103534754B (zh) | 2011-02-14 | 2015-09-30 | 弗兰霍菲尔运输应用研究公司 | 在不活动阶段期间利用噪声合成的音频编解码器 |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
CA2827000C (en) | 2011-02-14 | 2016-04-05 | Jeremie Lecomte | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
ES2534972T3 (es) | 2011-02-14 | 2015-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral |
AU2012217216B2 (en) | 2011-02-14 | 2015-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
CN103718240B (zh) * | 2011-09-09 | 2017-02-15 | 松下电器(美国)知识产权公司 | 编码装置、解码装置、编码方法和解码方法 |
WO2013051210A1 (ja) | 2011-10-07 | 2013-04-11 | パナソニック株式会社 | 符号化装置及び符号化方法 |
BR112014028947A2 (pt) * | 2012-05-25 | 2017-06-27 | Koninklijke Philips Nv | método de configuração de um processador, dispositivo para configuração de um processador, processador, e produto de programa de computador |
PL3011557T3 (pl) | 2013-06-21 | 2017-10-31 | Fraunhofer Ges Forschung | Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów |
KR101987565B1 (ko) * | 2014-08-28 | 2019-06-10 | 노키아 테크놀로지스 오와이 | 오디오 파라미터 양자화 |
EP3230980B1 (en) | 2014-12-09 | 2018-11-28 | Dolby International AB | Mdct-domain error concealment |
US20160323425A1 (en) * | 2015-04-29 | 2016-11-03 | Qualcomm Incorporated | Enhanced voice services (evs) in 3gpp2 network |
WO2017129270A1 (en) * | 2016-01-29 | 2017-08-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal |
US10524173B2 (en) * | 2016-02-24 | 2019-12-31 | Cisco Technology, Inc. | System and method to facilitate sharing bearer information in a network environment |
KR102192998B1 (ko) | 2016-03-07 | 2020-12-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 상이한 주파수 대역에 대한 상이한 감쇠 인자에 따라 은닉된 오디오 프레임을 페이드 아웃하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램 |
CA3016837C (en) * | 2016-03-07 | 2021-09-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs |
MX2018010756A (es) | 2016-03-07 | 2019-01-14 | Fraunhofer Ges Forschung | Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente. |
JP6685198B2 (ja) * | 2016-07-27 | 2020-04-22 | キヤノン株式会社 | 撮像装置及びその制御方法及びプログラム |
US10917857B2 (en) * | 2019-04-18 | 2021-02-09 | Comcast Cable Communications, Llc | Methods and systems for wireless communication |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006881B1 (en) * | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
DE19638997B4 (de) * | 1995-09-22 | 2009-12-10 | Samsung Electronics Co., Ltd., Suwon | Digitales Toncodierungsverfahren und digitale Toncodierungsvorrichtung |
US5999905A (en) * | 1995-12-13 | 1999-12-07 | Sony Corporation | Apparatus and method for processing data to maintain continuity when subsequent data is added and an apparatus and method for recording said data |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
KR100335611B1 (ko) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
KR100304092B1 (ko) * | 1998-03-11 | 2001-09-26 | 마츠시타 덴끼 산교 가부시키가이샤 | 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치 |
JP3352406B2 (ja) * | 1998-09-17 | 2002-12-03 | 松下電器産業株式会社 | オーディオ信号の符号化及び復号方法及び装置 |
US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
JP2002020658A (ja) | 2000-07-05 | 2002-01-23 | Hiroshi Takimoto | 記録液 |
FI109393B (fi) * | 2000-07-14 | 2002-07-15 | Nokia Corp | Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite |
US7236839B2 (en) * | 2001-08-23 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Audio decoder with expanded band information |
US6950794B1 (en) * | 2001-11-20 | 2005-09-27 | Cirrus Logic, Inc. | Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression |
WO2003077235A1 (en) * | 2002-03-12 | 2003-09-18 | Nokia Corporation | Efficient improvements in scalable audio coding |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
FR2849727B1 (fr) | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
RU2248619C2 (ru) * | 2003-02-12 | 2005-03-20 | Рыболовлев Александр Аркадьевич | Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
US7724818B2 (en) * | 2003-04-30 | 2010-05-25 | Nokia Corporation | Method for coding sequences of pictures |
WO2005001814A1 (en) * | 2003-06-30 | 2005-01-06 | Koninklijke Philips Electronics N.V. | Improving quality of decoded audio by adding noise |
KR20050022419A (ko) * | 2003-08-30 | 2005-03-08 | 엘지전자 주식회사 | 음성 부호화기의 스펙트럼 벡터 양자화 장치 및 방법 |
US7844451B2 (en) | 2003-09-16 | 2010-11-30 | Panasonic Corporation | Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums |
EP2071565B1 (en) * | 2003-09-16 | 2011-05-04 | Panasonic Corporation | Coding apparatus and decoding apparatus |
JP4679049B2 (ja) * | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
BRPI0415464B1 (pt) * | 2003-10-23 | 2019-04-24 | Panasonic Intellectual Property Management Co., Ltd. | Aparelho e método de codificação de espectro. |
JP4771674B2 (ja) | 2004-09-02 | 2011-09-14 | パナソニック株式会社 | 音声符号化装置、音声復号化装置及びこれらの方法 |
RU2404506C2 (ru) | 2004-11-05 | 2010-11-20 | Панасоник Корпорэйшн | Устройство масштабируемого декодирования и устройство масштабируемого кодирования |
CN101147191B (zh) | 2005-03-25 | 2011-07-13 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
EP1876585B1 (en) | 2005-04-28 | 2010-06-16 | Panasonic Corporation | Audio encoding device and audio encoding method |
DE602006011600D1 (de) | 2005-04-28 | 2010-02-25 | Panasonic Corp | Audiocodierungseinrichtung und audiocodierungsverfahren |
RU2296377C2 (ru) * | 2005-06-14 | 2007-03-27 | Михаил Николаевич Гусев | Способ анализа и синтеза речи |
US8112286B2 (en) | 2005-10-31 | 2012-02-07 | Panasonic Corporation | Stereo encoding device, and stereo signal predicting method |
WO2007119368A1 (ja) | 2006-03-17 | 2007-10-25 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置およびスケーラブル符号化方法 |
JP4871894B2 (ja) * | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
-
2008
- 2008-02-26 JP JP2008044774A patent/JP4708446B2/ja active Active
- 2008-02-29 KR KR1020097017702A patent/KR101363793B1/ko active IP Right Grant
- 2008-02-29 EP EP14153981.7A patent/EP2747080B1/en active Active
- 2008-02-29 BR BRPI0808705-9A patent/BRPI0808705A2/pt not_active Application Discontinuation
- 2008-02-29 EP EP14153980.9A patent/EP2747079B1/en active Active
- 2008-02-29 US US12/528,869 patent/US8543392B2/en active Active
- 2008-02-29 CN CN2011104225570A patent/CN102385866B/zh active Active
- 2008-02-29 WO PCT/JP2008/000396 patent/WO2008120437A1/ja active Application Filing
- 2008-02-29 ES ES08720310.5T patent/ES2473277T3/es active Active
- 2008-02-29 CN CN2011104249560A patent/CN102394066B/zh active Active
- 2008-02-29 RU RU2012115551/08A patent/RU2502138C2/ru active
- 2008-02-29 EP EP08720310.5A patent/EP2128860B1/en active Active
- 2008-02-29 CA CA2679192A patent/CA2679192C/en active Active
- 2008-02-29 CN CN2008800051345A patent/CN101611442B/zh active Active
-
2012
- 2012-04-18 RU RU2012115550/08A patent/RU2488897C1/ru active
-
2013
- 2013-08-14 US US13/966,819 patent/US8935161B2/en active Active
- 2013-08-14 US US13/966,848 patent/US8935162B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2128860A1 (en) | 2009-12-02 |
CN102385866B (zh) | 2013-05-08 |
ES2473277T3 (es) | 2014-07-04 |
CA2679192C (en) | 2016-01-19 |
US8935161B2 (en) | 2015-01-13 |
EP2128860B1 (en) | 2014-06-04 |
EP2128860A4 (en) | 2013-10-23 |
CN102394066B (zh) | 2013-10-09 |
JP4708446B2 (ja) | 2011-06-22 |
EP2747079A2 (en) | 2014-06-25 |
RU2502138C2 (ru) | 2013-12-20 |
EP2747079A3 (en) | 2014-08-13 |
EP2747080B1 (en) | 2017-06-28 |
EP2747080A2 (en) | 2014-06-25 |
EP2747080A3 (en) | 2014-08-06 |
RU2012115551A (ru) | 2013-08-27 |
US8935162B2 (en) | 2015-01-13 |
EP2747079B1 (en) | 2018-04-04 |
RU2488897C1 (ru) | 2013-07-27 |
US8543392B2 (en) | 2013-09-24 |
WO2008120437A1 (ja) | 2008-10-09 |
KR20090117883A (ko) | 2009-11-13 |
US20100017200A1 (en) | 2010-01-21 |
CN102394066A (zh) | 2012-03-28 |
KR101363793B1 (ko) | 2014-02-14 |
CA2679192A1 (en) | 2008-10-09 |
BRPI0808705A2 (pt) | 2014-09-09 |
US20140019144A1 (en) | 2014-01-16 |
JP2009042733A (ja) | 2009-02-26 |
CN101611442B (zh) | 2012-02-08 |
CN102385866A (zh) | 2012-03-21 |
US20130332150A1 (en) | 2013-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102394066B (zh) | 语音编码装置、解码装置和语音编码方法、解码方法 | |
US8260620B2 (en) | Device for perceptual weighting in audio encoding/decoding | |
JP5863868B2 (ja) | 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 | |
EP2255358B1 (en) | Scalable speech and audio encoding using combinatorial encoding of mdct spectrum | |
JP5112309B2 (ja) | 階層符号化/復号化装置 | |
AU2007206167B2 (en) | Apparatus and method for encoding and decoding signal | |
US9489962B2 (en) | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method | |
US20100274555A1 (en) | Audio Coding Apparatus and Method Thereof | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN104123946A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
CN102411933A (zh) | 解码装置和解码方法 | |
EP2133872B1 (en) | Encoding device and encoding method | |
JP5969614B2 (ja) | 音声信号符号化方法及び音声信号復号方法 | |
US20100250260A1 (en) | Encoder | |
JP2011154383A (ja) | 音声符号化装置、音声復号装置およびそれらの方法 | |
US20170206905A1 (en) | Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model | |
Song et al. | New aliasing cancelation algorithm for the transition between non-aliased and TDAC-based coding modes | |
Seto | Scalable Speech Coding for IP Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD. Effective date: 20140717 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20140717 Address after: California, USA Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA Address before: Osaka Japan Patentee before: Matsushita Electric Industrial Co.,Ltd. |