CN103903626A - 编码装置、解码装置、编码方法以及解码方法 - Google Patents

编码装置、解码装置、编码方法以及解码方法 Download PDF

Info

Publication number
CN103903626A
CN103903626A CN201410119876.8A CN201410119876A CN103903626A CN 103903626 A CN103903626 A CN 103903626A CN 201410119876 A CN201410119876 A CN 201410119876A CN 103903626 A CN103903626 A CN 103903626A
Authority
CN
China
Prior art keywords
ground floor
gain
unit
scope
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410119876.8A
Other languages
English (en)
Other versions
CN103903626B (zh
Inventor
押切正浩
森井利幸
山梨智史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN103903626A publication Critical patent/CN103903626A/zh
Application granted granted Critical
Publication of CN103903626B publication Critical patent/CN103903626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了编码装置、解码装置、编码方法以及解码方法。所述编码装置包括:第一层编码单元;第一层解码单元;加权滤波单元;第一层误差变换系数计算单元;以及第二层编码单元,所述第二层编码单元包括:第一形状向量编码单元;目标增益计算单元;增益向量构成单元;以及增益向量编码单元。

Description

编码装置、解码装置、编码方法以及解码方法
本申请是以下专利申请的分案申请:
申请号:200880006787.5
申请日:2008年2月29日
发明名称:编码装置和编码方法
技术领域
本发明涉及对语音信号等的输入信号进行编码并传输的通信系统所使用的编码装置和编码方法。
背景技术
在移动通信系统中,为了有效利用电波资源等,要求将语音信号压缩到低比特率后传输。另一方面,还期望提高通话语音的质量及实现较高的现场感的通话服务,为了实现该需求,既期望提高语音信号的质量,又期望高质量地对频带更宽的音频信号等语音信号以外的信号进行编码。
对于这样相反的两种要求,分层地合并多个编码技术的技术备受关注。该技术分层组合基本层和扩展层,所述基本层通过适合于语音信号的模型(model)以低比特率对输入信号进行编码,所述扩展层通过也适合于语音以外的信号的模型对输入信号与基本层的解码信号之间的差分信号进行编码。这样分层地进行编码的技术,由于从编码装置得到的比特流具有扩展性(scalability),即具有即使通过比特流的一部分信息也能够得到解码信号的性质,因此一般被称为可扩展编码(分层编码)。
根据该性质,可扩展编码方式能够灵活地应对比特率不同的网络间的通信,因此可以说该方式适合于以IP(Internet Protocol,因特网协议)合并各种各样的网络的、今后的网络环境。
作为利用以MPEG-4(Moving Picture Experts Group phase(运动图像专家组)-4)进行标准化的技术来实现可扩展编码的例子,例如有非专利文献1所公开的技术。该技术在基本层中,利用适合于语音信号的CELP(Code ExcitedLinear Prediction,码激励线性预测)编码,在扩展层中,对残差信号利用诸如AAC(Advanced Audio Coder,高级音频编码器)或者TwinVQ(TransformDomain Weighted Interleave Vector Quantization,传输域加权交织向量量化)等的变换编码,所述残差信号是从原信号减去第一层解码信号而得到的信号。
另外,为了灵活地应对通信速度因异构网络(heterogeneous network)间切换(handover)或拥塞的发生等动态地变动的网络环境,需要实现比特率间隔较小的可扩展编码,因此需要对降低了比特率的层进行多层化处理而构成可扩展编码。
另一方面,在专利文献1和专利文献2中公开了以下技术:将作为编码对象的信号变换到频域,在由此得到的频域信号中进行编码的变换编码。在这样的变换编码中,首先对每个子带计算并量化频域信号的能量分量即增益(缩放因子,scale factor),接着计算并量化上述频域信号的微细分量即形状向量。
非专利文献1:三木弼一编著,《MPEG-4のすべて》第一版、株式会社工业调查会、1998年9月30日、p.126-127
专利文献1:日本专利申请特表第2006-513457号公报
专利文献2:日本专利申请特开平7-261800号公报
发明内容
发明需要解决的问题
然而,在对两个参数依前后的顺序进行量化时,因为在后量化的参数受到在前量化的参数的量化失真的影响,所以存在量化失真变大的倾向。因此,在专利文献1和专利文献2所记载的依增益、形状向量的顺序进行量化的变换编码中,存在形状向量的量化失真变大,从而无法正确地表示频谱的形状的倾向。该问题对如元音(vowel sound)那样的调性(tonality)较强的信号即可观察到多个波峰(peak)形状的频谱特性的信号,产生较大的质量劣化。该问题在实现低比特率时变得显著。
本发明的目的在于,提供能够正确地对如元音那样的调性较强的信号即可观察到多个波峰形状的频谱特性的信号的频谱的形状进行编码,从而能够提高解码语音的音质等解码信号的质量的编码装置和编码方法。
解决问题的方案
本发明的编码装置所采用的结构包括:第一层编码单元,对输入信号进行编码获得第一层编码数据;第一层解码单元,对所述第一层编码数据进行解码获得第一层解码信号;加权滤波单元,对所述输入信号与所述第一层解码信号之差即第一层误差信号进行滤波,获得加权第一层误差信号;第一层误差变换系数计算单元,将所述加权第一层误差信号变换到频域,计算第一层误差变换系数;以及第二层编码单元,对所述第一层误差变换系数进行编码获得第二层编码数据,所述第二层编码单元包括:第一形状向量编码单元,参照所述第一层误差变换系数,该第一层误差变换系数包含在包括频率低于规定频率的第二频带、并具有规定的第一带宽的第一频带中,在所述第一频带上配置规定数目的脉冲而生成第一形状向量,并且从所述规定数目的脉冲的位置生成第一形状编码信息;目标增益计算单元,使用所述频带所包含的所述第一层误差变换系数和所述第一形状向量,对具有规定的第二带宽的每个子带计算目标增益;增益向量构成单元,使用对于每个所述子带计算出的多个目标增益构成一个增益向量;以及增益向量编码单元,对所述增益向量进行编码获得第一增益编码信息。
本发明的解码装置所采用的结构包括:接收单元,接收通过对输入信号进行编码而得到的第一层编码数据、以及通过对第一层误差变换系数进行编码而得到的第二层编码数据,所述第一层误差变换系数通过将所述输入信号与对所述第一层编码数据进行解码而得到的第一层解码信号之差、即第一层误差信号变换为频域而计算得到;第一层解码单元,对所述第一层编码数据进行解码而生成第一层解码信号;第二层解码单元,对所述第二层编码数据进行解码而生成第一层解码误差变换系数;时域变换单元,将所述第一层解码误差变换系数变换到时域而生成第一解码误差信号;以及加法单元,将所述第一层解码信号和所述第一层解码误差信号相加而生成解码信号,所述第二层编码数据包含第一形状编码信息和第一增益编码信息,所述第一形状编码信息根据第一形状向量的多个脉冲的位置而求出,所述第一形状向量通过对于包含频率比所述第一层误差变换系数的规定频率低的第二频带、并且具有规定的第一带宽的第一频带,将脉冲配置在多个变换系数的位置而生成,所述第一增益编码信息通过对使用多个目标增益构成的一个增益向量进行编码而得到,所述目标增益通过将所述第一形状向量分为具有规定的第二带宽的多个子带、并对所述多个子带的每个子带使用所述第一形状向量和所述第一层误差变换系数进行计算而得到。
本发明的编码方法包括以下步骤:第一层编码步骤,对输入信号进行编码获得第一层编码数据;第一层解码步骤,对所述第一层编码数据进行解码获得第一层解码信号;加权滤波步骤,对所述输入信号与所述第一层解码信号之差即第一层误差信号进行滤波,获得加权第一层误差信号;第一层误差变换系数计算步骤,将所述加权第一层误差信号变换到频域,计算第一层误差变换系数;以及第二层编码步骤,对所述第一层误差变换系数进行编码获得第二层编码数据,所述第二层编码步骤包括:第一形状向量编码步骤,参照所述第一层误差变换系数,该第一层误差变换系数包含在包括频率低于规定频率的第二频带、并具有规定的第一带宽的第一频带中,在所述第一频带上配置规定数目的脉冲而生成第一形状向量,并且从所述规定数目的脉冲的位置生成第一形状编码信息;目标增益计算步骤,使用所述频带所包含的所述第一层误差变换系数和所述第一形状向量,对具有规定的第二带宽的每个子带计算目标增益;增益向量构成步骤,使用对于每个所述子带计算出的多个目标增益构成一个增益向量;以及增益向量编码步骤,对所述增益向量进行编码获得第一增益编码信息。
本发明的解码方法包括以下步骤:接收步骤,接收通过对输入信号进行编码而得到的第一层编码数据、以及通过对第一层误差变换系数进行编码而得到的第二层编码数据,所述第一层误差变换系数通过将所述输入信号与对所述第一层编码数据进行解码而得到的第一层解码信号之差、即第一层误差信号变换为频域而计算得到;第一层解码步骤,对所述第一层编码数据进行解码而生成第一层解码信号;第二层解码步骤,对所述第二层编码数据进行解码而生成第一层解码误差变换系数;时域变换步骤,将所述第一层解码误差变换系数变换到时域而生成第一解码误差信号;以及加法步骤,将所述第一层解码信号和所述第一层解码误差信号相加而生成解码信号,所述第二层编码数据包含第一形状编码信息和第一增益编码信息,所述第一形状编码信息根据第一形状向量的多个脉冲的位置而求出,所述第一形状向量通过对于包含频率比所述第一层误差变换系数的规定频率低的第二频带、并且具有规定的第一带宽的第一频带,将脉冲配置在振幅值大的多个变换系数的位置而生成,所述第一增益编码信息通过对使用多个目标增益构成的一个增益向量进行编码而得到,所述目标增益通过将所述第一形状向量分为具有规定的第二带宽的多个子带、并对所述多个子带的每个子带使用所述第一形状向量和所述第一层误差变换系数进行计算而得到。
本发明的编码装置所采用的结构包括:基本层编码单元,对输入信号进行编码而获得基本层编码数据;基本层解码单元,对所述基本层编码数据进行解码而获得基本层解码信号;以及扩展层编码单元,对作为所述输入信号与所述基本层解码信号之间的差的残差信号进行编码而获得扩展层编码数据,所述扩展层编码单元包括:分割单元,将所述残差信号分割为多个子带;第一形状向量编码单元,对所述多个子带的各个子带进行编码而获得第一形状编码信息,并且计算所述多个子带的各个子带的目标增益;增益向量构成单元,利用所述多个目标增益构成一个增益向量;以及增益向量编码单元,对所述增益向量进行编码而获得第一增益编码信息。
本发明的编码方法包括以下的步骤:将变换系数分割为多个子带,所述变换系数是将输入信号变换到频域而获得的变换系数;对所述多个子带的变换系数的各个变换系数进行编码而获得第一形状编码信息,并且计算所述多个子带的各个变换系数的目标增益;利用所述多个目标增益构成一个增益向量;以及对所述增益向量进行编码而获得第一增益编码信息。
发明的效果
根据本发明,能够进一步正确地对如元音那样的调性较强的信号即可观察到多个波峰形状的频谱特性的信号的频谱的形状进行编码,从而能够提高解码语音的音质等解码信号的质量。
附图说明
图1是表示本发明实施方式1的语音编码装置的主要结构的方框图。
图2是表示本发明实施方式1的第二层编码单元内部的结构的方框图。
图3是表示本发明实施方式1的第二层编码单元中的第二层编码处理的步骤的流程图。
图4是表示本发明实施方式1的形状向量编码单元内部的结构的方框图。
图5是表示本发明实施方式1的增益向量构成单元内部的结构的方框图。
图6是用于详细地说明本发明实施方式1的目标增益配置单元的动作的图。
图7是表示本发明实施方式1的增益向量编码单元内部的结构的方框图。
图8是表示本发明实施方式1的语音解码装置的主要结构的方框图。
图9是表示本发明实施方式1的第二层解码单元内部的结构的方框图。
图10是用于说明本发明实施方式2的形状向量码本的图。
图11是举例说明本发明实施方式2的形状向量码本所包含的多个形状向量候补的图。
图12是表示本发明实施方式3的第二层编码单元内部的结构的方框图。
图13是用于说明本发明实施方式3的范围选择单元中的范围选择处理的图。
图14是表示本发明实施方式3的第二层解码单元内部的结构的方框图。
图15是表示本发明实施方式3的范围选择单元的变化(variation)的图。
图16是表示本发明实施方式3的范围选择单元中的范围选择方法的变化的图。
图17是表示本发明实施方式3的范围选择单元的结构的变化的方框图。
图18是举例说明本发明实施方式3的、在范围信息构成单元中构成范围信息的情形的图。
图19是用于说明本发明实施方式3的第一层误差变换系数生成单元的变化的动作的图。
图20是表示本发明实施方式3的范围选择单元中的范围选择方法的变化的图。
图21是表示本发明实施方式3的范围选择单元中的范围选择方法的变化的图。
图22是表示本发明实施方式4的第二层编码单元内部的结构的方框图。
图23是表示本发明实施方式5的语音编码装置的主要结构的方框图。
图24是表示本发明实施方式5的第一层编码单元内部的主要结构的方框图。
图25是表示本发明实施方式5的第一层解码单元内部的主要结构的方框图。
图26是表示本发明实施方式5的语音解码装置的主要结构的方框图。
图27是表示本发明实施方式6的语音编码装置的主要结构的方框图。
图28是表示本发明实施方式6的语音解码装置的主要结构的方框图。
图29是表示本发明实施方式7的语音编码装置的主要结构的方框图。
图30A~图30C是用于说明在本发明实施方式7的语音编码装置的编码处理中、作为编码对象的范围的选择处理的图。
图31是表示本发明实施方式7的语音解码装置的主要结构的方框图。
图32A、图32B是用于说明在本发明实施方式7的语音编码装置的编码处理中、从等间隔地配置的范围的候补中选择编码对象的情况的图。
图33是用于说明在本发明实施方式7的语音编码装置的编码处理中、从等间隔地配置的范围的候补中选择编码对象的情况的图。
具体实施方式
下面,参照附图详细地说明本发明的实施方式。下面,使用语音编码装置/语音解码装置作为本发明的编码装置/解码装置的例子进行说明。
(实施方式1)
图1是表示本发明实施方式1的语音编码装置100的主要结构的方框图。作为本实施方式的语音编码装置和语音解码装置的结构,以采用两层的可扩展结构为例进行说明。另外,第一层构成基本层,第二层构成扩展层。
在图1中,语音编码装置100包括:频域变换单元101、第一层编码单元102、第一层解码单元103、减法器104、第二层编码单元105、以及复用单元106。
频域变换单元101将时域的输入信号变换到频域的信号,并将所获得的输入变换系数输出到第一层编码单元102和减法器104。
第一层编码单元102对由频域变换单元101输入的输入变换系数进行编码处理,并将所获得的第一层编码数据输出到第一层解码单元103和复用单元106。
第一层解码单元103利用由第一层编码单元102输入的第一层编码数据进行解码处理,并将所获得的第一层解码变换系数输出到减法器104。
减法器104从由频域变换单元101输入的输入变换系数减去由第一层解码单元103输入的第一层解码变换系数,并将所获得的第一层误差变换系数输出到第二层编码单元105。
第二层编码单元105对由减法器104输入的第一层误差变换系数进行编码处理,并将所获得的第二层编码数据输出到复用单元106。另外,将在后面叙述第二层编码单元105的细节。
复用单元106将由第一层编码单元102输入的第一层编码数据与由第二层编码单元105输入的第二层编码数据复用,并将所获得的比特流输出到通信路径。
图2是表示第二层编码单元105内部的结构的方框图。
在图2中,第二层编码单元105包括:子带构成单元151、形状向量编码单元152、增益向量构成单元153、增益向量编码单元154、以及复用单元155。
子带构成单元151将由减法器104输入的第一层误差变换系数分割为M个子带,并将所获得的M个子带变换系数输出到形状向量编码单元152。这里,在将第一层误差变换系数表示为el(k)时,第m(0≤m≤M-1)子带变换系数e(m,k)由下式(1)表示。
e(m,k)=e1(k+F(m))    …(1)(0≤k<F(m+1)-F(m))
在式(1)中,F(m)表示各个子带边界的频率,满足0≤F(0)<F(1)<…<F(M)≤FH的关系。这里,FH表示第一层误差变换系数的最大频率,m取0≤m≤M-1的整数。
形状向量编码单元152对由子带构成单元151依序输入的M个子带变换系数的各个系数进行形状向量量化,以生成M个子带的各个形状编码信息,并且计算M个子带变换系数各自的目标增益。形状向量编码单元152将所生成的形状编码信息输出到复用单元155,并将目标增益输出到增益向量构成单元153。另外,将在后面叙述形状向量编码单元152的细节。
增益向量构成单元153以由形状向量编码单元152输入的M个目标增益构成一个增益向量,并将其输出到增益向量编码单元154。另外,将在后面叙述增益向量构成单元153的细节。
增益向量编码单元154将由增益向量构成单元153输入的增益向量作为目标值而进行向量量化,并将所获得的增益编码信息输出到复用单元155。另外,将在后面叙述增益向量编码单元154的细节。
复用单元155将由形状向量编码单元152输入的形状编码信息与由增益向量编码单元154输入的增益编码信息复用,并将所获得的比特流作为第二层编码数据输出到复用单元106。
图3是表示第二层编码单元105中的第二层编码处理的步骤的流程图。
首先,在步骤(以下,略称为“ST”)1010中,子带构成单元151将第一层误差变换系数分割为M个子带,构成M个子带变换系数。
接着,在ST1020中,第二层编码单元105将作为用于计数子带的数目的值的、子带计数值m初始化为“0”。
接着,在ST1030中,形状向量编码单元152对第m子带变换系数进行形状向量编码,生成第m子带的形状编码信息,并且生成第m子带变换系数的目标增益。
接着,在ST1040中,第二层编码单元105将子带计数值m增值1。
接着,在ST1050中,第二层编码单元105判定是否为m<M。
在ST1050中,在判定为m<M时(ST1050:“是”),第二层编码单元105使处理步骤返回到ST1030。
另一方面,在ST1050中,在判定不为m<M时(ST1050:“否”),在ST1060中,增益向量构成单元153利用M个目标增益构成一个增益向量。
接着,在ST1070中,增益向量编码单元154将由增益向量构成单元153构成的增益向量作为目标值进行量化,生成增益编码信息。
接着,在ST1080中,复用单元155将由形状向量编码单元152生成的形状编码信息与由增益向量编码单元154生成的增益编码信息复用。
图4是表示形状向量编码单元152内部的结构的方框图。
在图4中,形状向量编码单元152包括:形状向量码本521、互相关计算单元522、自相关计算单元523、搜索单元524、以及目标增益计算单元525。
形状向量码本521存储了多个表示第一层误差变换系数的形状的形状向量候补,基于由搜索单元524输入的控制信号,将形状向量候补依序输出到互相关计算单元522和自相关计算单元523。另外,一般而言,形状向量码本既有采用实际地确保存储区域来存储形状向量候补的形态的情况,也有根据预先规定的处理步骤构成形状向量候补的情况。在后者的情况下,无需实际地确保存储区域。在本实施方式中采用哪种形状向量码本都可以,但下面以具有如图4所示的、存储有形状向量候补的形状向量码本521为前提进行说明。以下,将形状向量码本521所存储的多个形状向量候补中的第i候补表示为c(i,k)。这里,k表示用于构成形状向量候补的多个元素中的第k个。
互相关计算单元522根据下式(2)计算由子带构成单元151输入的第m子带变换系数与由形状向量码本521输入的第i形状向量候补之间的互相关ccor(i),并将其输出到搜索单元524和目标增益计算单元525。
ccor ( i ) = &Sigma; k = 0 F ( m + 1 ) - F ( m ) - 1 e ( m , k ) &CenterDot; c ( i , k ) . . . ( 2 )
自相关计算单元523根据下式(3),计算由形状向量码本521输入的形状向量候补c(i,k)之间的自相关acor(i),并将其输出到搜索单元524和目标增益计算单元525。
acor ( i ) = &Sigma; k = 0 F ( m + 1 ) - F ( m ) - 1 c ( i , k ) 2 . . . ( 3 )
搜索单元524利用由互相关计算单元522输入的互相关ccor(i)以及由自相关计算单元523输入的自相关acor(i),计算由下式(4)表示的贡献度A,并直至搜索到贡献度A的最大值为止,都将控制信号输出到形状向量码本521。搜索单元524将贡献度A是最大时的形状向量候补的索引iopt作为最优索引输出到目标增益计算单元525,并且将其作为形状编码信息输出到复用单元155。
A = ccor ( i ) 2 acor ( i ) . . . ( 4 )
目标增益计算单元525利用由互相关计算单元522输入的互相关ccor(i)、由自相关计算单元523输入的自相关acor(i)以及由搜索单元524输入的最优索引iopt,根据下式(5)计算目标增益,并将其输出到增益向量构成单元153。
gain = ccor ( i opt ) acor ( i opt ) . . . ( 5 )
图5是表示增益向量构成单元153的内部结构的方框图。
在图5中,增益向量构成单元153包括:配置位置决定单元531和目标增益配置单元532。
配置位置决定单元531具备初始值是“0”的计数器,在每次从形状向量编码单元152输入目标增益时,将计数器的值增值1,在计数器的值成为子带的总数M时,将计数器的值重新设定为零。这里,M也是由增益向量构成单元153构成的增益向量的向量长度,配置位置决定单元531所具备的计数器的处理相当于将计数器的值除以增益向量的向量长度而求余数。也就是说,计数器的值是“0”~M-1的整数。配置位置决定单元531在计数器的值每次被更新时,将更新后的计数器的值输出到目标增益配置单元532作为配置信息。
目标增益配置单元532包括:初始值分别是“0”的M个缓冲器,以及将由形状向量编码单元152输入的目标增益配置在各个缓冲器中的开关,该开关将由形状向量编码单元152输入的目标增益配置在以由配置位置决定单元531输入的配置信息所示的值作为序号的缓冲器中。
图6是用于详细地说明目标增益配置单元532的动作的图。
在图6中,在输入开关的配置信息是“0”时,目标增益配置在第0缓冲器中,而在配置信息是M-1时,目标增益配置在第M-1缓冲器中。在目标增益配置在所有的缓冲器中时,目标增益配置单元532将由配置在M个缓冲器中的目标增益构成的增益向量输出到增益向量编码单元154。
图7是表示增益向量编码单元154内部的结构的方框图。
在图7中,增益向量编码单元154包括:增益向量码本541、误差计算单元542、以及搜索单元543。
增益向量码本541存储了多个表示增益向量的增益向量候补,并基于由搜索单元543输入的控制信号,将增益向量候补依序输出到误差计算单元542。一般而言,增益向量码本既有采用实际地确保存储区域来存储增益向量候补的形态的情况,也有根据预先规定的处理步骤构成增益向量候补的情况。在后者的情况下,无需实际地确保存储区域。在本实施方式中采用哪种增益向量码本都可以,但下面以具有如图7所示的、存储有增益向量候补的增益向量码本541为前提进行说明。以下,将增益向量码本541所存储的多个增益向量候补中的第j候补表示为g(j,m)。这里,m表示用于构成增益向量候补的M个元素中的第m个。
误差计算单元542利用由增益向量构成单元153输入的增益向量、以及由增益向量码本541输入的增益向量候补,根据下式(6)计算误差E(j),并将其输出到搜索单元543。
E ( j ) = &Sigma; m = 0 M - 1 ( gv ( m ) - g ( j , m ) ) 2 . . . ( 6 )
在式(6)中,m表示子带的序号,gv(m)表示由增益向量构成单元153输入的增益向量。
直至搜索到由误差计算单元542输入的误差E(j)的最小值为止,搜索单元543都将控制信号输出到增益向量码本541,搜索误差E(j)最小时的增益向量候补的索引jopt,并将其作为增益编码信息输出到复用单元155。
图8是表示本实施方式的语音解码装置200的主要结构的方框图。
在图8中,语音解码装置200包括:分离单元201、第一层解码单元202、第二层解码单元203、加法器204、切换单元205、时域变换单元206、以及后置滤波器207。
分离单元201将由语音编码装置100经由通信路径传输的比特流分离为第一层编码数据和第二层编码数据,并将第一层编码数据输出到第一层解码单元202,将第二层编码数据输出到第二层解码单元203。但是,根据通信路径的状况(发生拥塞等),存在以下的情况,即编码数据的一部分丢失,例如第二层编码数据丢失,或者包含第一层编码数据和第二层编码数据的编码数据全部丢失。因此,分离单元201判定在接收到的编码数据中仅包含第一层编码数据还是包含第一层编码数据和第二层编码数据的两种数据,在前者的情况下,将“1”作为层信息输出到切换单元205,而在后者的情况下,将“2”作为层信息输出到切换单元205。另外,在分离单元201判定为包含第一层编码数据和第二层编码数据的编码数据全部丢失时,进行规定的补偿处理而生成第一层编码数据和第二层编码数据,将其分别输出到第一层解码单元202和第二层解码单元203,并将“2”作为层信息输出到切换单元205。
第一层解码单元202利用由分离单元201输入的第一层编码数据进行解码处理,并将所获得的第一层解码变换系数输出到加法器204和切换单元205。
第二层解码单元203利用由分离单元201输入的第二层编码数据进行解码处理,并将所获得的第一层误差变换系数输出到加法器204。
加法器204将由第一层解码单元202输入的第一层解码变换系数和由第二层解码单元203输入的第一层误差变换系数相加,并将所获得的第二层解码变换系数输出到切换单元205。
在由分离单元201输入的层信息是“1”时,切换单元205将第一层解码变换系数作为解码变换系数输出到时域变换单元206,而在层信息是“2”时,切换单元205将第二层解码变换系数作为解码变换系数输出到时域变换单元206。
时域变换单元206将由切换单元205输入的解码变换系数变换到时域的信号,并将所获得的解码信号输出到后置滤波器207。
后置滤波器207对由时域变换单元206输入的解码信号,进行共振峰增强、基音增强以及频谱斜率调整等的后置滤波处理后,将其输出作为解码语音。
图9是表示第二层解码单元203内部的结构的方框图。
在图9中,第二层解码单元203包括:分离单元231、形状向量码本232、增益向量码本233、以及第一层误差变换系数生成单元234。
分离单元231将由分离单元201输入的第二层编码数据进一步分离为形状编码信息和增益编码信息,并将形状编码信息输出到形状向量码本232,将增益编码信息输出到增益向量码本233。
形状向量码本232具有与图4的形状向量码本521所具有的多个形状向量候补同样的形状向量候补,并将由分离单元231输入的形状编码信息所示的形状向量候补输出到第一层误差变换系数生成单元234。
增益向量码本233具有与图7的增益向量码本541所具有的多个增益向量候补同样的增益向量候补,并将由分离单元231输入的增益编码信息所示的增益向量候补输出到第一层误差变换系数生成单元234。
第一层误差变换系数生成单元234将由形状向量码本232输入的形状向量候补乘以由增益向量码本233输入的增益向量候补而生成第一层误差变换系数,并将其输出到加法器204。具体而言,将由形状向量码本232依序输入的第m形状向量候补乘以由增益向量码本233输入的、用于构成增益向量候补的M个元素中的第m元素即第m子带变换系数的目标增益。这里,如上所述,M表示子带的总数。
这样,根据本实施方式,采用以下的结构,即对每个子带的目标信号(在本实施方式中,是第一层误差变换系数)的频谱的形状进行编码(形状向量的编码),接着计算使目标信号与编码后的形状向量之间的失真最小的目标增益(理想增益),并对其进行编码(目标增益的编码)。由此,与如现有技术那样的、对每个子带的目标信号的能量分量进行编码(增益或缩放因子的编码),利用其对目标信号进行归一化后,对频谱的形状进行编码(形状向量的编码)的方式相比,对使与目标信号之间的失真最小化的目标增益进行编码的本实施方式在原理上能够减小编码失真。另外,如式(5)所示,目标增益是对形状向量进行编码才能够计算的参数,所以通过如现有技术那样的、在时间上形状向量的编码位于增益信息的编码的后面的编码方式,无法将目标增益作为增益信息的编码对象,相对于此,通过本实施方式即可将目标增益作为增益信息的编码对象,从而能够进一步减小编码失真。
另外,在本实施方式中,采用以下的结构,即利用多个相邻的子带的目标增益构成一个增益向量,并对其进行编码。因为目标信号的相邻的子带间的能量信息相似,所以相邻子带间的目标增益的相似程度也同样较高。因此,在向量空间上的增益向量的分布产生偏差。通过配置增益码本所包含的增益向量候补,以使其适应于该偏差,能够降低目标增益的编码失真。
这样,根据本实施方式,能够降低目标信号的编码失真,由此能够提高解码语音的音质。而且,根据本实施方式,即使对如语音的元音(vowel sound)或音乐信号那样的、调性较强的信号的频谱,也能够正确地编码频谱的形状,所以能够提高音质。
另外,在现有技术中,利用所谓子带增益和形状向量的两个参数,控制频谱的大小。它可以理解为分别由子带增益和形状向量的两个参数来表示频谱的大小。相对于此,在本实施方式中,仅利用所谓目标增益的一个参数,控制频谱的大小。而且,该目标增益是使编码后的形状向量的编码失真最小的、理想的增益(理想增益)。由此,与现有技术相比,能够进行高效率的编码,从而即使在低比特率时也能够实现高音质化。
另外,在本实施方式中,举例说明了通过子带构成单元151将频域分割为多个子带并对每个子带进行编码的情况,但本发明并不限定于此,只要在时间上比进行增益向量编码先进行形状向量编码,则也可以对多个子带汇总进行编码,能够与本实施方式同样地获得能对如元音那样的、调性较强的信号频谱的形状更正确地进行编码的效果。例如,也可以采用以下的结构,即首先进行形状向量编码,其后将形状向量分割为子带而计算每个子带的目标增益来构成增益向量,进行增益向量的编码。
另外,在本实施方式中,举例说明了在第二层编码单元105中具备复用单元155(参照图2)的情况,但本发明并不限定于此,也可以采用以下结构:形状向量编码单元152和增益向量编码单元154的各个单元分别将形状编码信息和增益编码信息的各个信息直接输出到语音编码装置100的复用单元106(参照图1)。相应地,也可以采用以下结构:第二层解码单元203不具备分离单元231(参照图9),语音解码装置200的分离单元201(参照图8)利用比特流,直接分离出形状编码信息和增益编码信息,并将各个信息直接输出到形状向量码本232和增益向量码本233。
另外,在本实施方式中,举例说明了互相关计算单元522根据式(2)计算互相关ccor(i)的情况,但本发明并不限定于此,为了达到对听觉上重要的频谱赋予较大的权重而增大听觉上重要的频谱的贡献的目的,互相关计算单元522也可以根据下式(7)计算互相关ccor(i)。
ccor ( i ) = &Sigma; k = 0 F ( m + 1 ) - F ( m ) - 1 w ( k ) &CenterDot; e ( m , k ) &CenterDot; c ( i , k ) . . . ( 7 )
在式(7)中,w(k)表示与人的听觉特性相关的权重,对于在听觉特性上重要度越高的频率,w(k)越大。
另外,同样地,为了通过对听觉上重要的频谱赋予较大的权重来增大听觉上重要的频谱的贡献,自相关计算单元523也可以根据下式(8)计算自相关acor(i)。
acor ( i ) = &Sigma; k = 0 F ( m + 1 ) - F ( m ) - 1 w ( k ) &CenterDot; c ( i , k ) 2 . . . ( 8 )
另外,同样地,为了通过对听觉上重要的频谱赋予较大的权重来增大听觉上重要的频谱的贡献,误差计算单元542也可以根据下式(9)计算误差E(j)。
E ( j ) = &Sigma; m = 0 M - 1 w ( m ) &CenterDot; ( gv ( m ) - g ( j , m ) ) 2 . . . ( 9 )
作为式(7)、式(8)和式(9)中的权重,也可以利用例如听觉掩蔽阈值或人的听觉的响度(loudness)特性来求得的权重,所述听觉掩蔽阈值是基于输入信号或低层的解码信号(第一层解码信号)计算出的阈值。
另外,在本实施方式中,举例说明了形状向量编码单元152具备自相关计算单元523的情况,但本发明并不限定于此,在根据式(3)计算出的自相关系数acor(i)或者根据式(8)计算出的自相关系数acor(i)是常数时,也可以预先计算自相关acor(i),并利用预先计算出的自相关acor(i)而不设置自相关计算单元523。
(实施方式2)
本发明的实施方式2的语音编码装置和语音解码装置具有与实施方式1所示的语音编码装置100和语音解码装置200同样的结构并进行同样的动作,不同之处仅为所使用的形状向量码本。
图10是用于说明本实施方式的形状向量码本的图,并作为元音的一例,表示日文的元音“オ”(相当于英文的元音“o”)的频谱。
在图10中,横轴表示频率,纵轴表示频谱的对数能量。如图10所示,在元音的频谱中观察到多个波峰形状,表示较强的调性。另外,Fx表示多个波峰形状中的一个波峰所在的频率。
图11是举例说明本实施方式的形状向量码本所包含的多个形状向量候补的图。
在图11中,(a)举例说明作为在形状向量候补中振幅值是“+1”或“-1”的样本(即脉冲),(b)举例说明作为振幅值是“0”的样本。图11所示的多个形状向量候补包含位于任意的频率的多个脉冲。因此,通过搜索如图11所示的形状向量候补,能够对如图10所示的调性较强的频谱进一步正确地进行编码。具体而言,对如图10所示的调性较强的信号,通过搜索决定形状向量候补,以使与波峰形状所在的频率对应的振幅值,例如图10所示的Fx的位置的振幅值是“+1”或“-1”的脉冲(图11所示的样本(a)),波峰形状以外的频率的振幅值是“0”(图11所示的样本(b))。
在时间上先于形状向量编码进行增益编码的现有技术中,在进行子带增益的量化以及进行利用了子带增益的频谱的归一化后,进行频谱的微细分量(形状向量)的编码。若子带增益的量化失真因低比特率化而变大,则归一化的效果变小,无法使归一化后的频谱的动态范围足够小。由此,需要使下一个形状向量编码单元的量化步骤粗略,其结果,量化失真增大。由于该量化失真的影响,频谱的波峰形状衰减(丢失真正的波峰形状),或放大不是波峰形状的频谱而如波峰形状那样地出现(出现虚假的波峰形状)。由此,波峰形状的频率位置改变,引起波峰性较强的语音信号的元音部分或音乐信号的音质劣化。
相对于此,在本实施方式中,采用以下的结构,即先决定形状向量,接着计算目标增益,并对其进行量化。如本实施方式那样在向量的元素的几个元素具有由+1或-1的脉冲表示的形状向量时,先决定形状向量意味着先决定相应脉冲所树立的频率位置。能够不受到增益的量化的影响而决定脉冲所树立的频率位置,所以不会引起丢失真正的波峰形状或出现虚假的波峰形状的现象,从而能够避免上述的现有技术的问题。
这样,根据本实施方式,采用先决定形状向量的结构,并且利用由包含脉冲的形状向量构成的形状向量码本进行形状向量编码,所以能够确定波峰性较强的频谱的频率,并在那个频率位置树立脉冲。由此,对具有如语音信号的元音或音乐信号那样的调性较强的频谱的信号高质量地进行编码。
(实施方式3)
在本发明的实施方式3中,与实施方式1的不同之处在于,选择语音信号的频谱中调性较强的范围(区域),并限定在所选择的范围内进行编码。
本发明的实施方式3的语音编码装置具有与实施方式1的语音编码装置100(参照图1)同样的结构,与语音编码装置100的不同之处仅在于,具有第二层编码单元305以代替第二层编码单元105。因此,未图示本实施方式的语音编码装置的整体结构,并省略其详细的说明。
图12是表示本实施方式的第二层编码单元305内部的结构的方框图。另外,第二层编码单元305具有与实施方式1所示的第二层编码单元105(参照图1)同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
第二层编码单元305与实施方式1的第二层编码单元105的不同之处在于,还包括范围选择单元351。另外,第二层编码单元305的形状向量编码单元352与第二层编码单元105的形状向量编码单元152在一部分处理上存在不同,为了表示该不同而对其附加不同的标号。
范围选择单元351在由子带构成单元151输入的M个子带变换系数中,利用任意数的相邻的多个子带来构成多个范围,并计算各个范围的调性。范围选择单元351选择调性最高的范围,并将表示所选择的范围的范围信息输出到复用单元155和形状向量编码单元352。另外,将在后面叙述范围选择单元351中的范围选择处理的细节。
形状向量编码单元352与实施方式1的形状向量编码单元152的不同之处仅在于,基于由范围选择单元351输入的范围信息,从由子带构成单元151输入的子带变换系数中选择被包含在范围中的子带变换系数,对所选择的子带变换系数进行形状向量量化,这里省略其详细的说明。
图13是用于说明范围选择单元351中的范围选择处理的图。
在图13中,横轴表示频率,纵轴表示频谱的对数能量。另外,在图13中举例说明以下的情况,即子带的总数M是“8”,利用第0子带至第三子带构成范围0,利用第二子带至第五子带构成范围1,利用第四子带至第七子带构成范围2。在范围选择单元351中,作为评价规定的范围的调性的指标,计算频谱平坦度测量值(SFM:Spectral Flatness Measure),所述频谱平坦度测量值利用包含在规定的范围中的多个子带变换系数的几何平均和算数平均之比来表示。SFM取“0”至“1”的值,越接近“0”的值表示越强的调性。因此,在各个范围计算SFM,SFM最接近“0”的范围被选择。
本实施方式的语音解码装置具有与实施方式1的语音解码装置200(参照图8)同样的结构,与语音解码装置200的不同之处仅在于,具有第二层解码单元403以代替第二层解码单元203。因此,未图示本实施方式的语音解码装置的整体结构,并省略其详细的说明。
图14是表示本实施方式的第二层解码单元403内部的结构的方框图。另外,第二层解码单元403具有与实施方式1所示的第二层解码单元203同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
第二层解码单元403的分离单元431和第一层误差变换系数生成单元434与第二层解码单元203的分离单元231和第一层误差变换系数生成单元234在一部分处理上存在不同,为了表示该不同而对其附加不同的标号。
分离单元431与实施方式1所示的分离单元231的不同之处仅在于,除了形状编码信息和增益编码信息之外,还将范围信息分离从而将其输出到第一层误差变换系数生成单元434,这里省略其详细的说明。
第一层误差变换系数生成单元434将由形状向量码本232输入的形状向量候补乘以由增益向量码本233输入的增益向量候补而生成第一层误差变换系数,并将其配置在范围信息表示的范围所包含的子带中而输出到加法器204。
这样,根据本实施方式,语音编码装置选择调性最高的范围,在所选择的范围中,在时间上先于各个子带的增益地对形状向量进行编码。由此,对如语音的元音或音乐信号那样的调性较强的信号的频谱的形状进一步正确地进行编码,同时仅在所选择的范围中进行编码,从而能够减低编码比特率。
另外,在本实施方式中,举例说明了计算SFM作为评价规定的各个范围的调性的指标的情况,但本发明并不限定于此,例如,因为规定的范围的平均能量与调性的大小之间的相关较强,所以也可以计算规定的范围中包含的变换系数的平均能量作为调性评价的指标。由此,与求SFM相比,更能够减低运算量。
具体而言,范围选择单元351根据下式(10)计算范围j中包含的第一层误差变换系数e1(k)的能量ER(j)。
E R ( j ) = &Sigma; k = FRL ( j ) FRH ( j ) e 1 ( k ) 2 . . . ( 10 )
在该式中,j表示用于确定范围的识别符,FRL(j)表示范围j的最低频率,FRH(j)表示范围j的最高频率。这样,范围选择单元351求范围的能量ER(j),接着确定第一层误差变换系数的能量最大的范围,并对该范围中包含的第一层误差变换系数进行编码。
另外,也可以根据下式(11),进行反映了人的听觉特性的加权来求第一层误差变换系数的能量。
E R ( j ) = &Sigma; k = FRL ( j ) FRH ( j ) w ( k ) &CenterDot; e 1 ( k ) 2 . . . ( 11 )
在上述的情况下,对于听觉特性上的重要度越高的频率,使权重w(k)越大,以使易于选择包含该频率的范围,而对于重要度越低的频率,使权重w(k)越小,以使难以选择包含该频率的范围。由此,听觉上越重要的频带越优先地被选择,从而能够提高解码语音的音质。作为该权重w(k),也可以利用例如听觉掩蔽阈值或人的听觉的响度特性而求得的权重,所述听觉掩蔽阈值是基于输入信号或低层的解码信号(第一层解码信号)计算出的阈值。
另外,范围选择单元351也可以采用以下的结构,即从配置在比规定的频率(基准频率)低的频率的范围中进行选择。
图15是用于说明在范围选择单元351中,从配置在比规定的频率(基准频率)低的频率的范围中进行选择的方法的图。
在图15中,以八个选择范围的候补配置在比规定的基准频率Fy低的频带的情况为例进行说明。这些八个范围分别以F1、F2、...、F8作为起点,并由规定长度的频带而构成,范围选择单元351基于上述的选择方法,从这些八个候补中选择一个范围。由此,选择出位于比规定的基准频率Fy低的频率的范围。这样,重视低频(或低中频)而进行编码的优点如下。
作为语音信号的特征之一的谐波结构(或称为Harmonics结构)、即频谱在某个频率间隔出现波峰状的结构,与在高频部分相比,在低频部分出现较大的波峰。在通过编码处理产生的量化误差(误差频谱或误差变换系数)中也同样地残留波峰性,与高频部分相比,低频部分的波峰性较强。因此,即使在与高频部分相比,低频部分的误差频谱的能量较小时,误差频谱的波峰性也较强,所以误差频谱容易超过听觉掩蔽阈值(人能够听到声音的阈值),引起听觉上的音质劣化。也就是说,即使误差频谱的能量较小,与高频部分相比,低频部分的听觉上的灵敏度也较高。因此,范围选择单元351通过采用从配置在比规定的频率低的频率的候补中选择范围的结构,能够从误差频谱的波峰性较强的低频部分中确定作为编码的对象的范围,提高解码语音的音质。
另外,作为编码对象的范围的选择方法,也可以与在先前帧所选择的范围相关联来选择当前帧的范围。例如,可列举以下的方法,即(1)从位于在先前帧所选择的范围的附近的范围中决定当前帧的范围,(2)将当前帧的范围的候补重新配置到在先前帧所选择的范围的附近,并从该重新配置后的范围的候补中决定当前帧的范围,以及(3)以每几个帧一次的程度传输范围信息,并在不传输范围信息的帧中利用先前传输的范围信息所表示的范围(范围信息的间歇传输)等。
另外,如图16所示,范围选择单元351也可以将所有频带预先分割为多个部分频带,从各个部分频带中分别选择一个范围,结合各个部分频带中选择出的范围,并将该结合范围作为编码对象。在图16中,举例说明了部分频带的数目为2,并且设定了部分频带1以使其覆盖低频部分,设定了部分频带2以使其覆盖高频部分的情况。另外,部分频带1和部分频带2分别由多个范围构成。范围选择单元351从部分频带1和部分频带2中分别选择一个范围。例如,如图16所示,在部分频带1中选择了范围2,而在部分频带2中选择了范围4。以下,将表示从部分频带1中选择出的范围的信息称为第一部分频带范围信息,而将表示从部分频带2中选择出的范围的信息称为第二部分频带范围信息。接着,范围选择单元351结合从部分频带1中选择出的范围和从部分频带2中选择出的范围而构成结合范围。该结合范围是在范围选择单元351中选择出的范围,形状向量编码单元352对该结合范围进行形状向量编码。
图17是表示与部分频带的数目为N时对应的范围选择单元351的结构的方框图。在图17中,由子带构成单元151输入的子带变换系数分别提供给部分频带1选择单元511-1至部分频带N选择单元511-N。各自的部分频带n选择单元511-n(n=1至N)从各个部分频带n中选择一个范围,并将表示了选择出的范围的信息即第n部分频带范围信息输出到范围信息构成单元512。范围信息构成单元512将由部分频带1选择单元511-1至部分频带N选择单元511-N输入的各个第n部分频带范围信息(n=1至N)所示的各个范围进行结合而获得结合范围。然后,范围信息构成单元512将表示结合范围的信息输出到形状向量编码单元352和复用单元155作为范围信息。
图18是举例说明在范围信息构成单元512中构成范围信息的情形的图。如图18所示,范围信息构成单元512依序排列第一部分频带范围信息(A1比特)至第N部分频带范围信息(AN比特)来构成范围信息。这里,各个第n部分频带范围信息的比特长度An由各个部分频带n中包含的候补范围的数目来决定,其也可以分别具有不同的值。
图19是用于说明与图17所示的范围选择单元351对应的第一层误差变换系数生成单元434(参照图14)的动作的图。这里,以部分频带的数目是2的情况为例。第一层误差变换系数生成单元434将由形状向量码本232输入的形状向量候补乘以由增益向量码本233输入的增益向量候补。然后,第一层误差变换系数生成单元434将进行上述的增益候补乘法运算后的形状向量候补,配置在部分频带1和部分频带2的各个范围信息所示的各个范围中。这样求得的信号作为第一层误差变换系数被输出。
根据如图16所示的范围选择方法,从各个部分频带中决定一个范围,所以能够将至少一个解码频谱配置在部分频带中。因此,通过预先设定希望改善音质的多个频带,与从所有频带中仅选择一个范围的范围选择方法相比,能够提高解码语音的质量。例如,如图16所示的范围选择方法对于要同时实现低频部分和高频部分的两者的质量改善的情况等是有效的。
另外,作为图16所示的范围选择方法的变化,如图20举例说明的那样,也可以在特定的部分频带中总是选择固定的范围。在图20举例说明的例子中,在部分频带2中总是选择范围4,其是结合范围的一部分。根据图20所示的范围选择方法,与图16所示的范围选择方法的效果同样地,能够预先设定希望改善音质的频带,并且由于例如不需要部分频带2的部分频带范围信息,能够使用于表示范围信息的比特数更少。
另外,图20以在高频部分(部分频带2)中总是选择固定的范围的情况为例进行表示,但并不限定于此,既可以在低频部分(部分频带1)中总是选择固定的范围,还可以在图20中未图示的中频部分的部分频带中总是选择固定的范围。
另外,作为图16和图20所示的范围选择方法的变化,如图21所示,也可以在各个部分频带中包含的候补范围的带宽不同。在图21中,举例说明与在部分频带1中包含的候补范围相比,在部分频带2中包含的候补范围的带宽更短的情况。
(实施方式4)
在本发明的实施方式4中,对每个帧判断调性的程度,并根据其结果决定形状向量编码和增益编码的顺序。
本发明的实施方式4的语音编码装置具有与实施方式1的语音编码装置100(参照图1)同样的结构,与语音编码装置100的不同之处仅在于,具有第二层编码单元505以代替第二层编码单元105。因此,未图示本实施方式的语音编码装置的整体结构,并省略其详细的说明。
图22是表示第二层编码单元505内部的结构的方框图。另外,第二层编码单元505具有与图1所示的第二层编码单元105同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
第二层编码单元505与实施方式1的第二层编码单元105的不同之处在于,还包括:调性判定单元551、切换单元552、增益编码单元553、归一化单元554、形状向量编码单元555、以及切换单元556。另外,在图22中,形状向量编码单元152、增益向量构成单元153和增益向量编码单元154构成编码系统(a),增益编码单元553、归一化单元554和形状向量编码单元555构成编码系统(b)。
调性判定单元551求SFM作为评价由减法器104输入的第一层误差变换系数的调性的指标,在求得的SFM小于规定的阈值时,将“高”输出到切换单元552和切换单元556作为调性判定信息,而在求得的SFM为规定的阈值以上时,将“低”输出到切换单元552和切换单元556作为调性判定信息。
另外,这里利用SFM作为评价调性的指标而进行说明,但并不限定于此,也可以利用例如第一层误差变换系数的分散等其他的指标而进行判定。另外,对调性的判定,也可以利用输入信号等其他的信号而进行判定。例如,也可以利用输入信号的基音分析结果或在低层(在本实施方式中为第一层编码单元)对输入信号进行了编码的结果。
在由调性判定单元551输入的调性判定信息为“高”时,切换单元552将由子带构成单元151输入的M个子带变换系数依序输出到形状向量编码单元152,而在由调性判定单元551输入的调性判定信息为“低”时,切换单元552将由子带构成单元151输入的M个子带变换系数依序输出到增益编码单元553和归一化单元554。
增益编码单元553计算由切换单元552输入的M个子带变换系数的平均能量,对计算出的平均能量进行量化,并将量化索引输出到切换单元556作为增益编码信息。另外,增益编码单元553利用增益编码信息进行增益解码处理,并将所获得的解码增益输出到归一化单元554。
归一化单元554利用由增益编码单元553输入的解码增益,对由切换单元552输入的M个子带变换系数进行归一化,并将所获得的归一化形状向量输出到形状向量编码单元555。
形状向量编码单元555对由归一化单元554输入的归一化形状向量进行编码处理,并将获得的形状编码信息输出到切换单元556。
在由调性判定单元551输入的调性判定信息为“高”时,切换单元556将分别由形状向量编码单元152和增益向量编码单元154输入的形状编码信息和增益编码信息输出到复用单元155,而在由调性判定单元551输入的调性判定信息为“低”时,切换单元556将分别由增益编码单元553和形状向量编码单元555输入的增益编码信息和形状编码信息输出到复用单元155。
如上所述,在本实施方式的语音编码装置中,根据第一层误差变换系数的调性为“高”的情况,利用系统(a)先于增益编码进行形状向量编码,而根据第一层误差变换系数的调性为“低”的情况,利用系统(b)先于形状向量编码进行增益编码。
这样,根据本实施方式,按照第一层误差变换系数的调性,自适应地改变增益编码和形状向量编码的顺序,所以能够根据作为编码对象的输入信号抑制增益编码失真和形状向量编码失真的双方,从而能够进一步提高解码语音的音质。
(实施方式5)
图23是表示本发明实施方式5的语音编码装置600的主要结构的方框图。
在图23中,语音编码装置600包括:第一层编码单元601、第一层解码单元602、延迟单元603、减法器604、频域变换单元605、第二层编码单元606、以及复用单元106。其中,复用单元106与图1所示的复用单元106同样,所以省略其详细的说明。另外,在第二层编码单元606与图12所示的第二层编码单元305在一部分处理上存在不同,为了表示该不同而对其附加不同的标号。
第一层编码单元601对输入信号进行编码,并将所生成的第一层编码数据输出到第一层解码单元602和复用单元106。将在后面叙述第一层编码单元601的细节。
第一层解码单元602利用由第一层编码单元601输入的第一层编码数据进行解码处理,并将所生成的第一层解码信号输出到减法器604。将在后面叙述第一层解码单元602的细节。
延迟单元603对输入信号赋予规定的延迟后将其输出到减法器604。延迟的长度与在第一层编码单元601和第一层解码单元602的处理中产生的延迟的长度相同。
减法器604计算由延迟单元603输入的延迟后的输入信号与由第一层解码单元602输入的第一层解码信号之间的差,并将所获得的误差信号输出到频域变换单元605。
频域变换单元605将由减法器604输入的误差信号变换到频域的信号,并将所获得的误差变换系数输出到第二层编码单元606。
图24是表示第一层编码单元601内部的主要结构的方框图。
在图24中,第一层编码单元601包括下采样单元611和核心编码单元612。
下采样单元611对时域的输入信号进行下采样而变换为期望的采样率,并将下采样后的时域信号输出到核心编码单元612。
核心编码单元612对变换为期望的采样率后的输入信号进行编码处理,并将所生成的第一层编码数据输出到第一层解码单元602和复用单元106。
图25是表示第一层解码单元602内部的主要结构的方框图。
在图25中,第一层解码单元602包括:核心解码单元621、上采样单元622和高频分量赋予单元623,并且以由噪声等构成的类似信号代用高频部分。其基于以下技术,即通过以类似信号表示听觉上重要度较低的高频部分,相应地增大听觉上较重要的低频部分(或低中频部分)的比特分配而提高对于该频带的原始信号的保真度,从而实现整体地提高解码语音的音质。
核心解码单元621利用由第一层编码单元601输入的第一层编码数据进行解码处理,并将所获得的核心解码信号输出到上采样单元622。另外,核心解码单元621将通过解码处理所求得的解码LPC系数输出到高频分量赋予单元623。
上采样单元622对由核心解码单元621输入的解码信号进行上采样而变换为与输入信号相同的采样率,并将上采样后的核心解码信号输出到高频分量赋予单元623。
高频分量赋予单元623对下采样单元611中的下采样处理所产生的缺损了的高频分量利用类似信号进行补偿。作为类似信号的生成方法,由在核心解码单元621的解码处理中求得的解码LPC系数构成合成滤波器,并通过该合成滤波器和带通滤波器对能量调整后的噪声信号依序进行滤波的方法为人所知。虽然由此方法求得的高频分量对听觉上的频带感的扩散作出贡献,但由于其具有与原始信号的高频分量截然不同的波形,所以由减法器求得的误差信号的高频部分的能量增大。
在第一层编码处理具有这样的特征时,误差信号的高频部分的能量增大,从而难以选择出原本听觉上的灵敏度较高的低频部分。因此,本实施方式的第二层编码单元606从配置在比规定的频率(基准频率)低的频率的候补中选择范围,从而避免上述高频部分的误差信号的能量增加所造成的弊端。也就是说,第二层编码单元606进行如图15所示的选择处理。
图26是表示本发明实施方式5的语音解码装置700的主要结构的方框图。另外,语音解码装置700具有与图8所示的语音解码装置200同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
在语音解码装置700的第一层解码单元702与语音解码装置200的第一层解码单元202在一部分处理上存在不同,所以附加不同的标号。另外,第一层解码单元702的结构和动作与语音编码装置600的第一层解码单元602同样,所以省略其详细的说明。
语音解码装置700的时域变换单元706与语音解码装置200的时域变换单元206的不同之处仅在于配置位置,而进行同样的处理,所以附加不同的标号,并省略其详细的说明。
这样,根据本实施方式,在第一层的编码处理中以由噪声等构成的类似信号代用高频部分,相应地增大听觉上重要的低频部分(或低中频部分)的比特分配而提高对于该频带的原始信号的保真度,并且在第二层的编码处理中将比规定的频率低的范围作为编码对象而避免高频部分的误差信号的能量增大所造成的弊端,在时间上先于增益的编码进行形状向量的编码,因此对如元音那样的调性较强的信号的频谱的形状进一步正确地进行编码,同时能够不增加比特率而进一步减低增益向量编码失真,从而能够进一步提高解码语音的音质。
另外,在本实施方式中,举例说明了减法器604取时域的信号的差的情况,但本发明并不限定于此,减法器604也可以取频域的变换系数的差。在上述的情况下,将频域变换单元605配置在延迟单元603与减法器604之间而求输入变换系数,并且将另一个频域变换单元配置在第一层解码单元602与减法器604之间而求第一层解码变换系数。然后,减法器604取输入变换系数与第一层解码变换系数之间的差,并将该误差变换系数直接提供给第二层编码单元606。根据该结构,能够进行在某个频带取差而在其他的频带不取差那样的自适应的减法处理,从而能够进一步提高解码语音的音质。
另外,在本实施方式中,举例说明了不将关于高频部分的信息发送到语音解码装置的结构,但本发明并不限定于此,也可以采用对利用比低频部分低的比特率对高频部分的信号进行编码而发送到语音解码装置的结构。
(实施方式6)
图27是表示本发明实施方式6的语音编码装置800的主要结构的方框图。另外,语音编码装置800具有与图23所示的语音编码装置600同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
语音编码装置800与语音编码装置600的不同之处在于,还包括权重滤波器801。
权重滤波器801通过对误差信号进行滤波来进行听觉上的加权,并将加权后的误差信号输出到频域变换单元605。权重滤波器801使输入信号的频谱平坦化(白化)或变化为与其接近的频谱特性。例如,利用由第一层解码单元602获得的解码LPC系数,并利用下式(12)来表示权重滤波器的传递函数w(z)。
W ( z ) = 1 - &Sigma; i = 1 NP &alpha; ( i ) &CenterDot; &gamma; i &CenterDot; z - i . . . ( 12 )
在式(12)中,α(i)是LPC系数,NP是LPC系数的阶数,而且γ是控制频谱平坦化(白化)的程度的参数,取0≤γ≤1的范围的值。γ越大,平坦化的程度越大,这里例如对γ使用0.92。
图28是表示本发明实施方式6的语音解码装置900的主要结构的方框图。另外,语音解码装置900具有与图26所示的语音解码装置700同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
语音解码装置900与语音解码装置700的不同之处在于,还包括合成滤波器901。
合成滤波器901由具有与语音编码装置800的权重滤波器801相反的频谱特性的滤波器构成,对由时域变换单元706输入的信号进行滤波处理后输出到加法单元204。利用下式(13)表示合成滤波器901的传递函数B(z)。
B ( z ) = 1 / W ( z ) = 1 1 - &Sigma; i = 1 NP &alpha; ( i ) &CenterDot; &gamma; i &CenterDot; z - i . . . ( 13 )
在式(13)中,α(i)是LPC系数,NP是LPC系数的阶数,而且γ是控制频谱平坦化(白化)的程度的参数,取0≤γ≤1的范围的值。γ越大,平坦化的程度越大,这里例如对γ使用0.92。
如上所述,语音编码装置800的权重滤波器801由具有与输入信号的频谱包络相反的频谱特性的滤波器构成,而语音解码装置900的合成滤波器901由具有与权重滤波器相反的频谱特性的滤波器构成。因此,合成滤波器具有与输入信号的频谱包络同样的特性。一般而言,对于语音信号的频谱包络而言,低频部分的能量比高频部分的能量呈现得大,所以虽然通过合成滤波器前的信号的编码失真在低频部分与高频部分同等,但在通过合成滤波器后,低频部分的编码失真变大。原本,语音编码装置800的权重滤波器801以及语音解码装置900的合成滤波器901是为了通过听觉掩蔽效果来使编码失真难以听见而导入的,但在因低比特率而无法缩小编码失真时,听觉掩蔽效果无法充分地发挥效果,而编码失真变得容易被察觉。在这样的情况下,由于语音解码装置900的合成滤波器901增大编码失真的低频部分的能量,所以容易出现低频部分的质量劣化。在本实施方式中,如实施方式5所示,通过第二层编码单元606从配置在比规定的频率(基准频率)低的频率的候补中选择作为编码对象的范围,减轻上述低频部分的编码失真被增强的弊端,从而实现解码语音的音质的提高。
这样,根据本实施方式,语音编码装置具有权重滤波器,语音解码装置具有合成滤波器,利用听觉掩蔽效果来实现质量改善,而且在第二层的编码处理中,通过将比规定的频率低的范围作为编码对象,减轻使编码失真的低频部分的能量增大的弊端,并且由于在时间上先于增益的编码进行形状向量的编码,对如元音那样的调性较强的信号的频谱的形状进一步正确地进行编码,同时能够不增加比特率而降低增益向量编码失真,从而能够进一步提高解码语音的音质。
(实施方式7)
在本发明的实施方式7中,说明在语音编码装置和语音解码装置采用由一个基本层和多个扩展层构成的三层以上的结构时,在各个扩展层中选择作为编码对象的范围。
图29是表示本发明实施方式7的语音编码装置1000的主要结构的方框图。
语音编码装置1000具有四层,并包括:频域变换单元101、第一层编码单元102、第一层解码单元603、减法器604、第二层编码单元606、第二层解码单元1001、加法器1002、减法器1003、第三层编码单元1004、第三层解码单元1005、加法器1006、减法器1007、第四层编码单元1008、以及复用单元1009。其中,频域变换单元101和第一层编码单元102的结构和动作如图1所示,第一层解码单元603、减法器604和第二层编码单元606的结构和动作如图23所示,具有从1001至1009的序号的各个块的结构和动作与101、102、603、604和606的各个块的结构和动作类似而可以类推,所以这里省略其详细的说明。
图30是用于说明语音编码装置1000的编码处理中、作为编码对象的范围的选择处理的图。其中,图30A至图30C分别是用于说明第二层编码单元606的第二层编码、第三层编码单元1004的第三层编码、以及第四层编码单元1008的第四层编码中的范围选择的处理的图。
如图30A所示,在第二层编码中,选择范围的候补被配置在比第二层用基准频率Fy(L2)低的频带中,在第三层编码中,选择范围的候补被配置在比第三层用基准频率Fy(L3)低的频带中,在第四层编码中,选择范围的候补被配置在比第四层用基准频率Fy(L4)低的频带中。另外,在各个扩展层的基准频率之间存在Fy(L2)<Fy(L3)<Fy(L4)的关系。各个扩展层的选择范围的候补的数目是相同的,这里以四个的情况为例。也就是说,越是比特率较低的低层(例如第二层),越从听觉上的灵敏度较高的低频的频带中选择作为编码的对象的范围,在比特率较高的高层(例如第四层)从包含到高频部分为止的更宽的频带中选择作为编码的对象的范围。通过采用这样的结构,在低层中重视低频部分,在高层中覆盖更宽的频带,从而能够实现语音信号的高音质化。
图31是表示本实施方式的语音解码装置1100的主要结构的方框图。
在图31中,语音解码装置1100是由四层构成的可扩展语音解码装置,包括:分离单元1101、第一层解码单元1102、第二层解码单元1103、加法单元1104、第三层解码单元1105、加法单元1106、第四层解码单元1107、加法单元1108、切换单元1109、时域变换单元1110、以及后置滤波器1111。另外,这些各个功能块的结构和动作与图8所示的语音解码装置200的各个功能块的结构和动作类似而可以类推,所以这里省略其详细的说明。
这样,根据本实施方式,在可扩展语音编码装置中,通过越是比特率较低的低层,越从听觉上的灵敏度较高的低频的频带中选择作为编码的对象的范围,在比特率越高的高层越从包含到高频部分的宽的频带中选择作为编码的对象的范围,可在低层中重视低频部分,而在高层中覆盖更宽的频带,并且在时间上先于增益的编码进行形状向量的编码,因此对如元音那样的调性较强的信号的频谱的形状进一步正确地进行编码,同时能够不增加比特率而进一步降低增益向量编码失真,从而能够进一步提高解码语音的音质。
另外,在本实施方式中,举例说明了在各个扩展层的编码处理中,从如图30所示的范围选择的候补中选择编码对象的情况,但本发明并不限定于此,也可以从如图32和图33所示的等间隔地配置的范围的候补中选择编码对象。
图32A、图32B和图33分别是用于说明第二层编码、第三层编码和第四层编码中的范围选择的处理的图。如图32和图33所示,各个扩展层中的选择范围的候补的数目不同,这里分别举例说明四个、六个和八个的情况。在这样的结构中,在低层从低频的频带中决定作为编码的对象的范围,并且选择范围的候补的数目少于高层,所以也能够削减运算量和比特率。
另外,作为各个扩展层中的编码对象的范围的选择方法,也可以与在低层所选择的范围关联地选择当前层的范围。例如,可列举以下的方法,即(1)从位于在低层所选择的范围的附近的范围中决定当前层的范围,(2)将当前层的范围的候补重新配置到在低层所选择的范围的附近,并从该重新配置后的范围的候补中决定当前层的范围,以及(3)以每几个帧一次的程度传输范围信息,并在不传输范围信息的帧中利用先前传输的范围信息表示的范围(范围信息的间歇传输)等。
以上,说明了本发明的各个实施方式。
另外,在上述各个实施方式中,作为语音编码装置和语音解码装置的结构,举例说明了两层的可扩展结构,但本发明并不限定于此,也可以采用三层以上的可扩展结构。另外,本发明也能够适用于不是可扩展结构的语音编码装置。
另外,在上述各个实施方式中,能够利用CELP的方法作为第一层的编码方法。
另外,在上述各个实施方式中的频域变换单元由FFT、DFT(DiscreteFourier Transform,离散傅立叶变换)、DCT(Discrete Cosine Transform,离散余弦变换)、MDCT(Modified Discrete Cosine Transform,改进离散余弦变换)、子带滤波器等来实现。
而且,虽然在上述各个实施方式中,假定了语音信号作为解码信号,但本发明并不限于此,例如也可以是音频信号等。
另外,在上述各个实施方式中,举例说明了以硬件构成本发明的情况,但本发明也可通过软件来实现。
另外,在上述各个实施方式的说明中使用的各个功能块,典型地作为集成电路的LSI来实现。这些块既可是每个块单独地集成到一个芯片,或者可以是部分或所有块集成到一个芯片。在此虽然称为LSI,但根据集成度的不同也可以称为IC、系统LSI、超大LSI(Super LSI)或特大LSI(Ultra LSI)。
另外,集成电路化的技术不只限于LSI,也可以使用专用电路或通用处理器来实现。也可以利用能够在LSI制造后编程的FPGA(Field ProgrammableGate Array,现场可编程门阵列),或利用可重构LSI内部的电路单元的连接和设定的可重构处理器(Reconfigurable Processor)。
进而,随着半导体技术的进步或随之派生的其他技术出现,如果出现可取代LSI集成电路的新技术,当然也可以利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
本发明的实施例提供了一种编码装置,包括:基本层编码单元,对输入信号进行编码而获得基本层编码数据;基本层解码单元,对所述基本层编码数据进行解码而获得基本层解码信号;以及扩展层编码单元,对作为所述输入信号与所述基本层解码信号之间的差的残差信号进行编码而获得扩展层编码数据,所述扩展层编码单元包括:分割单元,将所述残差信号分割为多个子带;第一形状向量编码单元,对所述多个子带的各个子带进行编码而获得第一形状编码信息,并且计算所述多个子带的各个子带的目标增益;增益向量构成单元,利用所述多个目标增益构成一个增益向量;以及增益向量编码单元,对所述增益向量进行编码而获得第一增益编码信息。
根据本发明的实施例提供的编码装置,所述第一形状向量编码单元利用包含一个以上位于任意的频率的脉冲的、由多个形状向量候补构成的形状向量码本,对所述多个子带的各个子带进行编码。
根据本发明的实施例提供的编码装置,所述第一形状向量编码单元利用与从所述形状向量码本中选择出的所述形状向量候补有关的相关信息,对所述多个子带的各个子带进行编码。
根据本发明的实施例提供的编码装置,所述扩展层编码单元还包括:范围选择单元,计算利用任意数的相邻的所述子带构成的多个范围的调性,并从所述多个范围中选择所述调性最高的一个范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成所述选择所得的范围的多个子带进行处理。
根据本发明的实施例提供的编码装置,所述扩展层编码单元还包括:范围选择单元,计算利用任意数的相邻的所述子带构成的多个范围的平均能量,并从所述多个范围中选择所述平均能量最高的一个范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成所述选择所得的范围的多个子带进行处理。
根据本发明的实施例提供的编码装置,所述扩展层编码单元还包括:范围选择单元,计算利用任意数的相邻的所述子带构成的多个范围的听觉加权能量,并从所述多个范围中选择所述听觉加权能量最高的一个范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成所述选择所得的范围的多个子带进行处理。
根据本发明的实施例提供的编码装置,所述范围选择单元从频带频率比规定的频率低的频带的多个范围中选择一个范围。
根据本发明的实施例提供的编码装置,具有多个所述扩展层,越高的层,所述规定的频率越高。
根据本发明的实施例提供的编码装置,所述扩展层编码单元还包括:范围选择单元,利用任意数的相邻的所述子带构成多个范围,利用任意数的所述范围构成多个部分频带,在所述多个部分频带的各个部分频带中选择平均能量最高的一个范围,并将选择所得的多个范围进行结合而构成结合范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成所述选择所得的结合范围的多个子带进行处理。
根据本发明的实施例提供的编码装置,所述范围选择单元在所述多个部分频带的至少一个部分频带中,总是选择预先确定的固定的范围。
根据本发明的实施例提供的编码装置,所述扩展层编码单元还包括:调性判定单元,判定所述输入信号的调性的强度,在判定为所述输入信号的调性的强度是规定等级以上时,所述扩展层编码单元将所述残差信号分割为多个子带,对所述多个子带的各个子带进行编码而获得第一形状编码信息,并且计算所述多个子带的各个子带的目标增益,利用所述多个目标增益构成一个增益向量,对所述增益向量进行编码而获得第一增益编码信息。
根据本发明的实施例提供的编码装置,所述基本层编码单元还包括:下采样单元,对所述输入信号进行下采样而获得下采样信号;以及核心编码单元,对所述下采样信号进行编码而获得作为编码数据的核心编码数据,所述基本层解码单元包括:核心解码单元,对所述核心编码数据进行解码而获得核心解码信号;上采样单元,对所述核心解码信号进行上采样而获得上采样信号;以及代用单元,以噪声代用所述上采样信号的高频分量。
根据本发明的实施例提供的编码装置,还包括:增益编码单元,对所述多个子带的各个变换系数的增益进行编码而获得第二增益编码信息;归一化单元,利用对所述增益编码信息进行解码所得的解码增益,对所述多个子带的变换系数的各个变换系数进行归一化而获得归一化形状向量;第二形状向量编码单元,对所述多个归一化形状向量的各个归一化形状向量进行编码而获得第二形状编码信息;以及判定单元,对每个帧计算所述输入信号的调性,在判定为所述调性为所述阈值以上时,将所述多个子带的变换系数输出到所述第一形状向量编码单元,而在判定为所述调性小于所述阈值时,将所述多个子带的变换系数输出到所述增益编码单元。
本发明的实施例还提供一种编码方法,包括以下的步骤:将变换系数分割为多个子带,所述变换系数是将输入信号变换到频域而获得的变换系数;对所述多个子带的变换系数的各个变换系数进行编码而获得第一形状编码信息,并且计算所述多个子带的各个变换系数的目标增益;利用所述多个目标增益构成一个增益向量;以及对所述增益向量进行编码而获得第一增益编码信息。
在2007年3月2日提交的特愿第2007-053502号的日本专利申请、在2007年5月18日提交的特愿第2007-133545号的日本专利申请、在2007年7月13日提交的特愿第2007-185077号的日本专利申请以及在2008年2月26日提交的特愿第2008-045259号的日本专利申请中所包含的说明书、说明书附图和说明书摘要的公开内容,全部都引用于本申请。
工业实用性
本发明的语音编码装置和语音编码方法能够适用于移动通信系统中的无线通信终端装置和基站装置等。

Claims (17)

1.编码装置,包括:
第一层编码单元,对输入信号进行编码获得第一层编码数据;
第一层解码单元,对所述第一层编码数据进行解码获得第一层解码信号;
加权滤波单元,对所述输入信号与所述第一层解码信号之差即第一层误差信号进行滤波,获得加权第一层误差信号;
第一层误差变换系数计算单元,将所述加权第一层误差信号变换到频域,计算第一层误差变换系数;以及
第二层编码单元,对所述第一层误差变换系数进行编码获得第二层编码数据,
所述第二层编码单元包括:
第一形状向量编码单元,参照所述第一层误差变换系数,该第一层误差变换系数包含在包括频率低于规定频率的第二频带、并具有规定的第一带宽的第一频带中,在所述第一频带上配置规定数目的脉冲而生成第一形状向量,并且从所述规定数目的脉冲的位置生成第一形状编码信息;
目标增益计算单元,使用所述频带所包含的所述第一层误差变换系数和所述第一形状向量,对具有规定的第二带宽的每个子带计算目标增益;
增益向量构成单元,使用对于每个所述子带计算出的多个目标增益构成一个增益向量;以及
增益向量编码单元,对所述增益向量进行编码获得第一增益编码信息。
2.如权利要求1所述的编码装置,
所述第二层编码单元还包括范围选择单元,该范围选择单元计算使用任意数目的相邻的所述子带构成的多个范围的调性,从所述多个范围中选择所述调性最高的一个范围,
所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成选择出的所述范围的多个子带进行动作。
3.如权利要求1所述的编码装置,
所述第二层编码单元还包括范围选择单元,该范围选择单元计算使用任意数目的相邻的所述子带构成的多个范围的平均能量,从所述多个范围中选择所述平均能量最高的一个范围,
所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成选择出的所述范围的多个子带进行动作。
4.如权利要求1所述的编码装置,
所述第二层编码单元还包括范围选择单元,该范围选择单元计算使用任意数目的相邻的所述子带构成的多个范围的听觉加权能量,从所述多个范围中选择所述听觉加权能量最高的一个范围,
所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成选择出的所述范围的多个子带进行动作。
5.如权利要求1所述的编码装置,
所述第二层编码单元还包括范围选择单元,该范围选择单元使用任意数目的相邻的所述子带构成多个范围,使用任意数目的所述范围构成多个部分频带,在所述多个部分频带的每一个部分频带中,选择平均能量最高的一个范围,结合选择出的多个范围构成结合范围,
所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量编码单元对构成选择出的所述结合范围的多个子带进行动作。
6.如权利要求5所述的编码装置,
所述范围选择单元在所述多个部分频带的至少一个中,总是选择预先确定的固定范围。
7.如权利要求1所述的编码装置,
所述第二层编码单元还包括判定所述输入信号的调性的强度的调性判定单元,
在判定为所述输入信号的调性的强度为规定水平以上时,
将所述第一层误差变换系数分给多个子带,
对所述多个子带的每一个子带进行编码而获得第一形状编码信息,并计算所述多个子带的每一个子带的目标增益,
使用所述多个目标增益构成一个增益向量,
对所述增益向量进行编码获得第一增益编码信息。
8.如权利要求1至权利要求7中任一项所述的编码装置,
所述第一层编码单元包括:
下采样单元,对所述输入信号进行下采样获得下采样信号;以及
核心编码单元,对所述下采样信号进行编码获得作为编码数据的核心编码数据,
所述第一层解码单元包括:
核心解码单元,对所述核心编码数据进行解码获得核心解码信号;
上采样单元,对所述核心解码信号进行上采样获得上采样信号;以及
代用单元,以噪声代用所述上采样信号的高频分量。
9.如权利要求1所述的编码装置,
还包括:
增益编码单元,对所述多个子带的各变换系数的增益进行编码,获得第二增益编码信息;
归一化单元,使用对所述增益编码信息进行解码而得到的解码增益,对所述多个子带的各变换系数进行归一化而获得归一化形状向量;
第二形状向量编码单元,对所述多个归一化形状向量的每一个归一化形状向量进行编码而获得第二形状编码信息;
判定单元,对每个帧计算所述输入信号的调性,在判定为所述调性为阈值以上时,将所述多个子带的变换系数输出到所述第一形状向量编码单元,在判定为所述调性小于所述阈值时,将所述多个子带的变换系数输出到所述增益编码单元。
10.解码装置,包括:
接收单元,接收通过对输入信号进行编码而得到的第一层编码数据、以及通过对第一层误差变换系数进行编码而得到的第二层编码数据,所述第一层误差变换系数通过将所述输入信号与对所述第一层编码数据进行解码而得到的第一层解码信号之差、即第一层误差信号变换为频域而计算得到;
第一层解码单元,对所述第一层编码数据进行解码而生成第一层解码信号;
第二层解码单元,对所述第二层编码数据进行解码而生成第一层解码误差变换系数;
时域变换单元,将所述第一层解码误差变换系数变换到时域而生成第一解码误差信号;以及
加法单元,将所述第一层解码信号和所述第一层解码误差信号相加而生成解码信号,
所述第二层编码数据包含第一形状编码信息和第一增益编码信息,
所述第一形状编码信息根据第一形状向量的多个脉冲的位置而求出,所述第一形状向量通过对于包含频率比所述第一层误差变换系数的规定频率低的第二频带、并且具有规定的第一带宽的第一频带,将脉冲配置在多个变换系数的位置而生成,
所述第一增益编码信息通过对使用多个目标增益构成的一个增益向量进行编码而得到,所述目标增益通过将所述第一形状向量分为具有规定的第二带宽的多个子带、并对所述多个子带的每个子带使用所述第一形状向量和所述第一层误差变换系数进行计算而得到。
11.如权利要求10所述的解码装置,
所述第二层编码数据包括范围选择信息,该范围选择信息表示使用任意数目的相邻的所述子带构成的多个范围内的调性最高的范围,
所述第二层解码单元对构成所述范围选择信息表示的范围的子带进行解码处理,生成所述第一层解码误差变换系数。
12.如权利要求10所述的解码装置,
所述第二层编码数据包括范围选择信息,该范围选择信息表示使用任意数目的相邻的所述子带构成的多个范围内的平均能量最高的范围,
所述第二层解码单元对构成所述范围选择信息表示的范围的子带进行解码处理,生成所述第一层解码误差变换系数。
13.如权利要求10所述的解码装置,
所述第二层编码数据包括范围选择信息,该范围选择信息表示使用任意数目的相邻的所述子带构成的多个范围内的听觉加权能量最高的范围,
所述第二层解码单元对构成所述范围选择信息表示的范围的子带进行解码处理,生成所述第一层解码误差变换系数。
14.如权利要求10所述的解码装置,
所述第二层编码数据包括范围选择信息,该范围选择信息表示在使用任意数目的相邻的所述子带构成的多个部分频带的每个频带中,使用任意数目的相邻的所述子带构成的多个范围内的平均能量最高的范围,
所述第二层解码单元对构成结合所述范围选择信息表示的所述部分频带的各范围而构成的结合范围的子带进行解码处理,生成所述第一层解码误差变换系数。
15.如权利要求14所述的解码装置,
在所述多个部分频带的至少一个部分频带中,总是选择预先确定的固定范围,
所述范围选择信息包括表示成为所述固定范围的部分频带以外的部分频带的范围的信息。
16.编码方法,包括:
第一层编码步骤,对输入信号进行编码获得第一层编码数据;
第一层解码步骤,对所述第一层编码数据进行解码获得第一层解码信号;
加权滤波步骤,对所述输入信号与所述第一层解码信号之差即第一层误差信号进行滤波,获得加权第一层误差信号;
第一层误差变换系数计算步骤,将所述加权第一层误差信号变换到频域,计算第一层误差变换系数;以及
第二层编码步骤,对所述第一层误差变换系数进行编码获得第二层编码数据,
所述第二层编码步骤包括:
第一形状向量编码步骤,参照所述第一层误差变换系数,该第一层误差变换系数包含在包括频率低于规定频率的第二频带、并具有规定的第一带宽的第一频带中,在所述第一频带上配置规定数目的脉冲而生成第一形状向量,并且从所述规定数目的脉冲的位置生成第一形状编码信息;
目标增益计算步骤,使用所述频带所包含的所述第一层误差变换系数和所述第一形状向量,对具有规定的第二带宽的每个子带计算目标增益;
增益向量构成步骤,使用对于每个所述子带计算出的多个目标增益构成一个增益向量;以及
增益向量编码步骤,对所述增益向量进行编码获得第一增益编码信息。
17.解码方法,包括:
接收步骤,接收通过对输入信号进行编码而得到的第一层编码数据、以及通过对第一层误差变换系数进行编码而得到的第二层编码数据,所述第一层误差变换系数通过将所述输入信号与对所述第一层编码数据进行解码而得到的第一层解码信号之差、即第一层误差信号变换为频域而计算得到;
第一层解码步骤,对所述第一层编码数据进行解码而生成第一层解码信号;
第二层解码步骤,对所述第二层编码数据进行解码而生成第一层解码误差变换系数;
时域变换步骤,将所述第一层解码误差变换系数变换到时域而生成第一解码误差信号;以及
加法步骤,将所述第一层解码信号和所述第一层解码误差信号相加而生成解码信号,
所述第二层编码数据包含第一形状编码信息和第一增益编码信息,
所述第一形状编码信息根据第一形状向量的多个脉冲的位置而求出,所述第一形状向量通过对于包含频率比所述第一层误差变换系数的规定频率低的第二频带、并且具有规定的第一带宽的第一频带,将脉冲配置在振幅值大的多个变换系数的位置而生成,
所述第一增益编码信息通过对使用多个目标增益构成的一个增益向量进行编码而得到,所述目标增益通过将所述第一形状向量分为具有规定的第二带宽的多个子带、并对所述多个子带的每个子带使用所述第一形状向量和所述第一层误差变换系数进行计算而得到。
CN201410119876.8A 2007-03-02 2008-02-29 语音编码装置、语音解码装置、语音编码方法以及语音解码方法 Active CN103903626B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP053502/07 2007-03-02
JP2007053502 2007-03-02
JP2007133545 2007-05-18
JP133545/07 2007-05-18
JP185077/07 2007-07-13
JP2007185077 2007-07-13
JP045259/08 2008-02-26
JP2008045259A JP4871894B2 (ja) 2007-03-02 2008-02-26 符号化装置、復号装置、符号化方法および復号方法
CN200880006787.5A CN101622662B (zh) 2007-03-02 2008-02-29 编码装置和编码方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN200880006787.5A Division CN101622662B (zh) 2007-03-02 2008-02-29 编码装置和编码方法

Publications (2)

Publication Number Publication Date
CN103903626A true CN103903626A (zh) 2014-07-02
CN103903626B CN103903626B (zh) 2018-06-22

Family

ID=39808027

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201410119876.8A Active CN103903626B (zh) 2007-03-02 2008-02-29 语音编码装置、语音解码装置、语音编码方法以及语音解码方法
CN201210004224.0A Active CN102411933B (zh) 2007-03-02 2008-02-29 解码装置和解码方法
CN200880006787.5A Active CN101622662B (zh) 2007-03-02 2008-02-29 编码装置和编码方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201210004224.0A Active CN102411933B (zh) 2007-03-02 2008-02-29 解码装置和解码方法
CN200880006787.5A Active CN101622662B (zh) 2007-03-02 2008-02-29 编码装置和编码方法

Country Status (11)

Country Link
US (3) US8554549B2 (zh)
EP (1) EP2128857B1 (zh)
JP (1) JP4871894B2 (zh)
KR (1) KR101414354B1 (zh)
CN (3) CN103903626B (zh)
AU (1) AU2008233888B2 (zh)
BR (1) BRPI0808428A8 (zh)
MY (1) MY147075A (zh)
RU (3) RU2471252C2 (zh)
SG (2) SG178728A1 (zh)
WO (1) WO2008120440A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096892A (zh) * 2016-06-22 2016-11-09 严东军 供应链随货单编码及其编码规则和使用方法

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560328B2 (en) * 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
WO2010137300A1 (ja) 2009-05-26 2010-12-02 パナソニック株式会社 復号装置及び復号方法
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
EP2490216B1 (en) * 2009-10-14 2019-04-24 III Holdings 12, LLC Layered speech coding
JP5295380B2 (ja) * 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
JP5774490B2 (ja) 2009-11-12 2015-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
US9153242B2 (en) 2009-11-13 2015-10-06 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus, and related methods that use plural coding layers
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
EP2555186A4 (en) * 2010-03-31 2014-04-16 Korea Electronics Telecomm CODING METHOD AND DEVICE AND DECODING METHOD AND DEVICE
JP5714002B2 (ja) * 2010-04-19 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法及び復号方法
US8751225B2 (en) * 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
EP2657933B1 (en) 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension
WO2012102149A1 (ja) * 2011-01-25 2012-08-02 日本電信電話株式会社 符号化方法、符号化装置、周期性特徴量決定方法、周期性特徴量決定装置、プログラム、記録媒体
DK3244405T3 (da) * 2011-03-04 2019-07-22 Ericsson Telefon Ab L M Audiodekoder med forstærkningskorrektion efter kvantisering
CN103460287B (zh) 2011-04-05 2016-03-23 日本电信电话株式会社 音响信号的编码方法、解码方法、编码装置、解码装置
DK2908313T3 (da) 2011-04-15 2019-06-11 Ericsson Telefon Ab L M Adaptiv deling af forstærknings-/formrater
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
BR112013031816B1 (pt) * 2011-06-30 2021-03-30 Telefonaktiebolaget Lm Ericsson Método e codificador de transformada de áudio para codificar um segmento de tempo de um sinal de áudio, e método e decodificador de transformada de áudio para decodificar um segmento de tempo codificado de um sinal de áudio
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
ES2568640T3 (es) 2012-02-23 2016-05-03 Dolby International Ab Procedimientos y sistemas para recuperar de manera eficiente contenido de audio de alta frecuencia
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
BR112015010023B1 (pt) * 2012-11-07 2021-10-19 Dolby Laboratories Licensing Corporation Codificador de áudio e método para codificar um sinal de áudio
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
MX369614B (es) * 2014-03-14 2019-11-14 Ericsson Telefon Ab L M Metodo y aparato de codificacion de audio.
KR101848898B1 (ko) 2014-03-24 2018-04-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
CN110875048B (zh) * 2014-05-01 2023-06-09 日本电信电话株式会社 编码装置、及其方法、记录介质
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CN110710181B (zh) 2017-05-18 2022-09-23 弗劳恩霍夫应用研究促进协会 管理网络设备
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
CN110874402B (zh) * 2018-08-29 2024-05-14 北京三星通信技术研究有限公司 基于个性化信息的回复生成方法、设备和计算机可读介质
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
WO2021046136A1 (en) * 2019-09-03 2021-03-11 Dolby Laboratories Licensing Corporation Audio filterbank with decorrelating components
CN115171709B (zh) * 2022-09-05 2022-11-18 腾讯科技(深圳)有限公司 语音编码、解码方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0834863A2 (en) * 1996-08-26 1998-04-08 Nec Corporation Speech coder at low bit rates
EP0890943A2 (en) * 1997-07-11 1999-01-13 Nec Corporation Voice coding and decoding system
CN1650348A (zh) * 2002-04-26 2005-08-03 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
CN1689069A (zh) * 2002-09-06 2005-10-26 松下电器产业株式会社 声音编码设备和声音编码方法
CN1735928A (zh) * 2003-01-08 2006-02-15 法国电信公司 用于可变速率音频编解码的方法

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03263100A (ja) * 1990-03-14 1991-11-22 Mitsubishi Electric Corp 音声符号化・復号化装置
WO1994023426A1 (en) * 1993-03-26 1994-10-13 Motorola Inc. Vector quantizer method and apparatus
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
JP3186007B2 (ja) 1994-03-17 2001-07-11 日本電信電話株式会社 変換符号化方法、復号化方法
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH0846517A (ja) * 1994-07-28 1996-02-16 Sony Corp 高能率符号化及び復号化システム
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
JP3063668B2 (ja) 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP4281131B2 (ja) 1998-10-22 2009-06-17 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
BR9906090A (pt) * 1999-12-22 2001-07-24 Conselho Nacional Cnpq Sìntese de um potente agonista paramagnético (epm-3) do hormÈnio estimulador de melanócito contendo radical livre estável em forma de aminoácido
US7013268B1 (en) * 2000-07-25 2006-03-14 Mindspeed Technologies, Inc. Method and apparatus for improved weighting filters in a CELP encoder
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
JP3881946B2 (ja) * 2002-09-12 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
EP1619664B1 (en) * 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4464707B2 (ja) * 2004-02-24 2010-05-19 パナソニック株式会社 通信装置
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
JP4871501B2 (ja) 2004-11-04 2012-02-08 パナソニック株式会社 ベクトル変換装置及びベクトル変換方法
BRPI0517780A2 (pt) * 2004-11-05 2011-04-19 Matsushita Electric Ind Co Ltd aparelho de decodificação escalável e aparelho de codificação escalável
JP4977471B2 (ja) * 2004-11-05 2012-07-18 パナソニック株式会社 符号化装置及び符号化方法
BRPI0519454A2 (pt) * 2004-12-28 2009-01-27 Matsushita Electric Ind Co Ltd aparelho de codificaÇço reescalonÁvel e mÉtodo de codificaÇço reescalonÁvel
CN101147191B (zh) 2005-03-25 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
US8428956B2 (en) 2005-04-28 2013-04-23 Panasonic Corporation Audio encoding device and audio encoding method
CN101167124B (zh) 2005-04-28 2011-09-21 松下电器产业株式会社 语音编码装置和语音编码方法
US7978771B2 (en) * 2005-05-11 2011-07-12 Panasonic Corporation Encoder, decoder, and their methods
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
JP4170326B2 (ja) 2005-08-16 2008-10-22 富士通株式会社 メール送受信プログラムおよびメール送受信装置
WO2007052612A1 (ja) 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
JP2007133545A (ja) 2005-11-09 2007-05-31 Fujitsu Ltd 運用管理プログラムおよび運用管理方法
JP2007185077A (ja) 2006-01-10 2007-07-19 Yazaki Corp ワイヤーハーネス固定具
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
WO2007105586A1 (ja) * 2006-03-10 2007-09-20 Matsushita Electric Industrial Co., Ltd. 符号化装置および符号化方法
WO2007119368A1 (ja) 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
JP5190359B2 (ja) * 2006-05-10 2013-04-24 パナソニック株式会社 符号化装置及び符号化方法
EP1887118B1 (de) 2006-08-11 2012-06-13 Groz-Beckert KG Bestückungsset zur Bestückung einer gegebenen Anzahl von Systemteilen einer Strickmaschine, insbesondere einer Rundstrickmaschine
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
WO2008084688A1 (ja) * 2006-12-27 2008-07-17 Panasonic Corporation 符号化装置、復号装置及びこれらの方法
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0834863A2 (en) * 1996-08-26 1998-04-08 Nec Corporation Speech coder at low bit rates
EP0890943A2 (en) * 1997-07-11 1999-01-13 Nec Corporation Voice coding and decoding system
CN1650348A (zh) * 2002-04-26 2005-08-03 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
CN1689069A (zh) * 2002-09-06 2005-10-26 松下电器产业株式会社 声音编码设备和声音编码方法
CN1735928A (zh) * 2003-01-08 2006-02-15 法国电信公司 用于可变速率音频编解码的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T: "《ITU-T STANDARD INTERNATIONAL TELECOMMUNICATION UNION, G.729.1(05/2006)》", 31 May 2006 *
MASAHIRO OSHIKIRI ET AL: "A SCALABLE CODER DESIGNED FOR 10-KHZ BANDWIDTH SPEECH", 《SPEECH CODING, 2002, IEEE WORKSHOP PROCEEDINGS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096892A (zh) * 2016-06-22 2016-11-09 严东军 供应链随货单编码及其编码规则和使用方法

Also Published As

Publication number Publication date
CN103903626B (zh) 2018-06-22
WO2008120440A1 (ja) 2008-10-09
RU2579663C2 (ru) 2016-04-10
AU2008233888A1 (en) 2008-10-09
EP2128857B1 (en) 2018-09-12
RU2012135697A (ru) 2014-02-27
KR20090117890A (ko) 2009-11-13
RU2579662C2 (ru) 2016-04-10
RU2471252C2 (ru) 2012-12-27
AU2008233888B2 (en) 2013-01-31
SG178727A1 (en) 2012-03-29
US20130325457A1 (en) 2013-12-05
US8918314B2 (en) 2014-12-23
EP2128857A4 (en) 2013-08-14
JP4871894B2 (ja) 2012-02-08
US8554549B2 (en) 2013-10-08
JP2009042734A (ja) 2009-02-26
EP2128857A1 (en) 2009-12-02
BRPI0808428A8 (pt) 2016-12-20
MY147075A (en) 2012-10-31
BRPI0808428A2 (pt) 2014-07-22
SG178728A1 (en) 2012-03-29
RU2012135696A (ru) 2014-02-27
US20100017204A1 (en) 2010-01-21
RU2009132934A (ru) 2011-03-10
KR101414354B1 (ko) 2014-08-14
US8918315B2 (en) 2014-12-23
CN102411933B (zh) 2014-05-14
CN101622662A (zh) 2010-01-06
US20130332154A1 (en) 2013-12-12
CN101622662B (zh) 2014-05-14
CN102411933A (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
CN101622662B (zh) 编码装置和编码方法
CN102394066B (zh) 语音编码装置、解码装置和语音编码方法、解码方法
CN101903945B (zh) 编码装置、解码装置以及编码方法
CN101273404B (zh) 语音编码装置以及语音编码方法
RU2411645C2 (ru) Устройство и способ для генерации значений субполос звукового сигнала и устройство и способ для генерации аудиоотсчетов временной области
CN101128866B (zh) 多声道音频编码中的优化保真度和减少的信令
JP5688852B2 (ja) オーディオコーデックポストフィルタ
CN1910655B (zh) 构造多通道输出信号或生成下混信号的设备和方法
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
CN101044553B (zh) 可扩展编码装置、可扩展解码装置及其方法
US6871106B1 (en) Audio signal coding apparatus, audio signal decoding apparatus, and audio signal coding and decoding apparatus
CN101317217B (zh) 子带编码装置和子带编码方法
CN104025189B (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
US20110075855A1 (en) method and apparatus for processing audio signals
CN104321815A (zh) 用于带宽扩展的高频编码/高频解码方法和设备
CN101548318A (zh) 编码装置、解码装置以及其方法
CN102623014A (zh) 变换编码装置和变换编码方法
JP5236040B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
CN102947881A (zh) 解码装置、编码装置和解码方法、编码方法
CN103155034A (zh) 基于celp的语音编码器中的音频信号带宽扩展
KR20060131793A (ko) 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법
Jayant et al. Coding of wideband speech
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
EP0729132B1 (en) Wide band signal encoder
JP4618823B2 (ja) 信号符号化装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140718

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140718

Address after: California, USA

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

GR01 Patent grant
GR01 Patent grant