CN102779523B - 语音编码装置及编码方法、语音解码装置及解码方法 - Google Patents

语音编码装置及编码方法、语音解码装置及解码方法 Download PDF

Info

Publication number
CN102779523B
CN102779523B CN201210240805.4A CN201210240805A CN102779523B CN 102779523 B CN102779523 B CN 102779523B CN 201210240805 A CN201210240805 A CN 201210240805A CN 102779523 B CN102779523 B CN 102779523B
Authority
CN
China
Prior art keywords
frequency
temporal envelope
unit
decoding apparatus
audio decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210240805.4A
Other languages
English (en)
Other versions
CN102779523A (zh
Inventor
辻野孝辅
菊入圭
仲信彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN102779523A publication Critical patent/CN102779523A/zh
Application granted granted Critical
Publication of CN102779523B publication Critical patent/CN102779523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Abstract

本发明涉及语音编码装置及编码方法、语音解码装置及解码方法。针对频域中表现的信号,利用协方差法或自相关法在频率方向上进行线形预测分析,求出线形预测系数,进而对求出的线形预测系数进行滤波强度的调整,然后利用调整后的系数在频率方向上进行滤波处理,由此使信号的时间包络变形。从而在以SBR为代表的频域中的频带扩展技术中,能够减轻所产生的前回声/后回声,提高解码信号的主观性质量而不使比特率显著增大。

Description

语音编码装置及编码方法、语音解码装置及解码方法
本申请是原案申请号为No.201080014593.7的发明专利申请(国际申请号:PCT/JP2010/056077,申请日:2010年04月02日,发明名称:语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序)的分案申请。
技术领域
本发明涉及语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序。
背景技术
利用听觉心理去除人类知觉不需要的信息而将信号的数据量压缩为几十分之一的语音音频编码技术在信号的传送/积蓄中是极为重要的技术。作为广泛使用的知觉音频编码技术的例子,可列举以“ISO/IEC MPEG”标准化的“MPEG4 AAC”等。
作为进一步提高语音编码的性能利用低比特率获得高语音质量的方法,近年来广泛采用了利用语音的低频成分来生成高频成分的频带扩展技术。频带扩展技术的代表例是“MPEG4AAC”中利用的SBR(Spectral Band Replication:频带复制)技术。在SBR中,针对通过QMF(Quadrature Mirror Filter:正交镜像滤波器)滤波器组变换到频域的信号,进行从低频频带到高频频带的频谱系数的复写,由此生成高频成分,然后,通过调整复写的系数的频谱包络和调性(tonality)来进行高频成分的调整。利用了频带扩展技术的语音编码方式能够仅使用少量的辅助信息来再现信号的高频成分,因此对于语音编码的低比特率化是有效的。
以SBR为代表的频域中的频带扩展技术,通过调整相对于频谱系数的增益、时间方向的线形预测逆滤波处理、噪声重叠来对频域中表现的频谱系数进行频谱包络和调性的调整。通过该调整处理,在对语音信号、拍手及响板这样的时间包络变化大的信号进行编码时,有时在解码信号中会感知到被称为前回声(pre echo)或后回声(postecho)的残音状的噪声。这个问题是由于在调整处理的过程中高频成分的时间包络变形并且多数情况下成为比调整前更平坦的形状而导致的。经由调整处理而变平坦的高频成分的时间包络与编码前的原始信号中的高频成分的时间包络不一致,构成了产生前回声/后回声的原因。
在以“MPEG Surround(环绕MPEG)”以及参数立体声为代表的采用参数处理的多信道音频编码中也会产生同样的前回声/后回声的问题。多信道音频编码中的译码器包括对解码信号进行基于残音滤波器的非相关化处理的单元,而且在非相关化处理的过程中,信号的时间包络发生变形,产生与前回声/后回声同样的再现信号的劣化。作为针对此课题的解决方法有TES(Temporal Envelope Shaping:时间包络成形)技术(专利文献1)。在TES技术中,对QMF区域中表述的非相关化处理前的信号,在频率方向进行线形预测分析,获得线形预测系数,然后,利用所获得的线形预测系数对非相关化处理后的信号在频率方向进行线形预测合成滤波处理。通过该处理,TES技术提取出非相关化处理前的信号所具有的时间包络,并与其对应地调整非相关化处理后的信号的时间包络。由于非相关化处理前的信号具有变形小的时间包络,因此通过上述处理能够将非相关化处理后的信号的时间包络调整为变形小的形状,并且能够获得改善了前回声/后回声的再现信号。
现有技术文献
专利文献
专利文献1:美国专利申请公开第2006/0239473号说明书
发明内容
发明所要解决的问题
以上所示的TES技术利用了非相关化处理前的信号具有变形小的时间包络。但是,在SBR译码器中,通过对低频成分进行信号复写来复制出信号的高频成分,因此无法获得与高频成分有关的变形小的时间包络。作为对此问题的解决方法之一,考虑如下的方法:在SBR符号器中,对输入信号的高频成分进行分析,对分析结果获得的线形预测系数进行量化并在比特流中进行复用而传送。由此,在SBR译码器中,可获得包含与高频成分的时间包络有关的变形小的信息的线形预测系数。但是,此时,伴随有如下的问题:量化后的线形预测系数的传送需要较多的信息量,编码比特流整体的比特率明显增大。因此,本发明的目的是在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前回声/后回声并提高解码信号的主观性质量,而不使比特率显著增大。
解决问题的手段
本发明的语音编码装置是语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备:核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。
在本发明的语音编码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示在规定的分析区间内所述语音信号的高频成分中的时间包络的变化的急剧程度。
在本发明的语音编码装置中,优选为,所述语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元根据高频线形预测系数来计算所述时间包络辅助信息,该高频线形预测系数是通过在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析而取得的。
在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元对由所述频率变换单元变换到频域的所述语音信号的低频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数,根据该低频线形预测系数和所述高频线形预测系数来计算所述时间包络辅助信息。
在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元分别根据所述低频线形预测系数以及所述高频线形预测系数取得预测增益,并根据这两个预测增益的大小来计算所述时间包络辅助信息。
在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元从所述语音信号中分离出高频成分,从该高频成分中取得以时域表现的时间包络信息,并根据该时间包络信息的时间的变化的大小来计算所述时间包络辅助信息。
在本发明的语音编码装置中,优选为,所述时间包络辅助信息包含差分信息,该差分信息用于利用对所述语音信号的低频成分进行频率方向的线形预测分析而获得的低频线形预测系数来取得高频线形预测系数。
在本发明的语音编码装置中,优选为,该语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元分别对由所述频率变换单元变换到频域的所述语音信号的低频成分以及高频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数和高频线形预测系数,并取得该低频线形预测系数和高频线形预测系数的差分,由此来取得所述差分信息。
在本发明的语音编码装置中,优选为,所述差分信息表示LSP(线谱对)、ISP(导抗谱对)、LSF(线谱频率)、ISF(导抗谱频率)、PARCOR系数的任意一个区域中的线形预测系数的差分。
本发明的语音编码装置是对语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备:核心编码单元,其对所述语音信号的低频成分进行编码;频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。
本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,该语音解码装置还具备调整所述高频成分的高频调整单元,所述频率变换单元是具有实数或复数系数的64通道QMF滤波器组,所述频率变换单元、所述高频生成单元、所述高频调整单元进行以“ISO/IEC14496-3”规定的“MPEG4AAC”中的SBR译码器(SBR:Spectral Band Replication,频带复制)为依据的动作。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,所述时间包络变形单元针对由所述高频生成单元生成的频域的所述高频成分,利用由所述时间包络调整单元调整后的线形预测系数,进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息调整所述时间包络信息,所述时间包络变形单元通过将由所述高频生成单元生成的频域的高频成分与所述调整后的时间包络信息重叠来使高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元通过将所述高频生成单元所生成的频域的高频成分与所述调整后的时间包络信息相乘来使高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示用于调整线形预测系数的强度的滤波强度参数。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示所述时间包络信息的时间变化的大小。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息包含相对于所述低频线形预测系数的线形预测系数的差分信息。
在本发明的语音解码装置中,优选为,所述差分信息表示LSP(线谱对)、ISP(导抗谱对)、LSF(线谱频率)、ISF(导抗谱频率)、PARCOR系数的任意一个区域中的线形预测系数的差分。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用由所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且使该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息重叠,由此使所述高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且通过将该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息相乘来使所述高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示线形预测系数的滤波强度和所述时间包络信息的时间变化的大小两者。
本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述语音编码方法的特征在于,具有以下步骤:核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;时间包络辅助信息计算步骤,所述语音编码装置利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中进行编码了的所述低频成分、和在所述时间包络辅助信息计算步骤中计算出的所述时间包络辅助信息的比特流。
本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述该语音编码方法的特征在于,具有以下步骤:核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;频率变换步骤,所述语音编码装置将所述语音信号变换到频域;线形预测分析步骤,所述语音编码装置在频率方向上对在所述频率变换步骤中变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样步骤,所述语音编码装置在时间方向上对在所述线形预测分析步骤中取得的所述高频线形预测系数进行抽样;预测系数量化步骤,所述语音编码装置将在所述预测系数抽样步骤中进行了抽样后的所述高频线形预测系数进行量化;以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中编码后的所述低频成分、和在所述预测系数量化步骤中量化后的所述高频线形预测系数的比特流。
本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整步骤,所述语音解码装置利用所述时间包络辅助信息来调整在所述低频时间包络分析步骤中取得的所述时间包络信息;以及时间包络变形步骤,所述语音解码装置利用在所述时间包络调整步骤中调整后的所述时间包络信息,使在所述高频生成步骤中生成的所述高频成分的时间包络变形。
本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插步骤,所述语音解码装置在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形步骤,所述语音解码装置利用在所述线形预测系数内插/外插步骤中进行了内插或外插的所述线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能:核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。
本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能:核心编码单元,其对所述语音信号的低频成分进行编码;频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。
本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能:比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能:比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的功率调整为与所述线形预测滤波处理前相等的值。
在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的任意频率范围内的功率调整为与所述线形预测滤波处理前相等的值。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息是所述调整后的所述时间包络信息中的最小值与平均值的比率。
在本发明的语音解码装置中,优选为,所述时间包络变形单元控制所述调整后的时间包络的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,然后通过将所述频域的高频成分与所述增益控制后的时间包络相乘来使高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,还利用在SBR包络时间分段内的平均功率对每个所述QMF子带采样的功率进行归一化,由此取得表现为乘上了各QMF子带采样的增益系数的时间包络信息。
本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成部,其分析所述比特流而生成时间包络辅助信息;时间包络调整单元,其利用所述时间包络辅助信息来调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,该语音解码装置具备相当于所述高频调整单元的一次高频调整单元和二次高频调整单元,所述一次高频调整单元执行包含相当于所述高频调整单元的处理的一部分的处理,所述时间包络变形单元对所述一次高频调整单元的输出信号进行时间包络的变形,所述二次高频调整单元对所述时间包络变形单元的输出信号,执行相当于所述高频调整单元的处理中的、所述一次高频调整单元未执行的处理。所述二次高频调整单元优选为SBR解码过程中的正弦波的附加处理。
本发明提供一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整单元,其调整由所述高频生成单元生成的所述高频成分,生成调整后的高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;辅助信息变换单元,其将所述时间包络辅助信息变换为用于调整所述时间包络信息的参数;时间包络调整单元,其调整由所述低频时间包络分析单元取得的所述时间包络信息而生成调整后的时间包络信息,在该时间包络信息的调整中使用所述参数;以及时间包络变形单元,其利用所述调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
本发明提供一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整单元,其调整由所述高频生成单元生成的所述高频成分,生成调整后的高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成部,其分析所述比特流而生成用于调整所述时间包络信息的参数;时间包络调整单元,其调整由所述低频时间包络分析单元取得的所述时间包络信息而生成调整后的时间包络信息,在该时间包络信息的调整中使用所述参数;以及时间包络变形单元,其利用由所述调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
本发明提供一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整步骤,所述语音解码装置调整在所述高频生成步骤中生成的所述高频成分,生成调整后的高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;辅助信息变换步骤,所述语音解码装置将所述时间包络辅助信息变换为用于调整所述时间包络信息的参数;时间包络调整步骤,所述语音解码装置调整在所述低频时间包络分析步骤中取得的所述时间包络信息而生成调整后的时间包络信息,在该时间包络信息的调整中使用所述参数;以及时间包络变形步骤,所述语音解码装置利用所述调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
本发明提供一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:核心解码步骤,所述语音解码装置对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整步骤,所述语音解码装置调整在所述高频生成步骤中生成的所述高频成分,生成调整后的高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成步骤,所述语音解码装置分析所述比特流而生成用于调整所述时间包络信息的参数;时间包络调整步骤,所述语音解码装置调整在所述低频时间包络分析步骤中取得的所述时间包络信息而生成调整后的时间包络信息,在该时间包络信息的调整中使用所述参数;以及时间包络变形步骤,所述语音解码装置利用所述调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
发明效果
根据本发明,在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前回声/后回声并提高解码信号的主观质量,而不用使比特率明显增大。
附图说明
图1是示出第1实施方式的语音编码装置的结构的图。
图2是用于说明第1实施方式的语音编码装置的动作的流程图。
图3是示出第1实施方式的语音解码装置的结构的图。
图4是用于说明第1实施方式的语音解码装置的动作的流程图。
图5是示出第1实施方式的变形例1的语音编码装置的结构的图。
图6是示出第2实施方式的语音编码装置的结构的图。
图7是用于说明第2实施方式的语音编码装置的动作的流程图。
图8是示出第2实施方式的语音解码装置的结构的图。
图9是用于说明第2实施方式的语音解码装置的动作的流程图。
图10是示出第3实施方式的语音编码装置的结构的图。
图11是用于说明第3实施方式的语音编码装置的动作的流程图。
图12是示出第3实施方式的语音解码装置的结构的图。
图13是用于说明第3实施方式的语音解码装置的动作的流程图。
图14是示出第4实施方式的语音解码装置的结构的图。
图15是示出第4实施方式的变形例的语音解码装置的结构的图。
图16是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图17是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图18是示出第1实施方式的其它变形例的语音解码装置的结构的图。
图19是用于说明第1实施方式的其它变形例的语音解码装置的动作的流程图。
图20是示出第1实施方式的其它变形例的语音解码装置的结构的图。
图21是用于说明第1实施方式的其它变形例的语音解码装置的动作的流程图。
图22是示出第2实施方式的变形例的语音解码装置的结构的图。
图23是用于说明第2实施方式的变形例的语音解码装置的动作的流程图。
图24是示出第2实施方式的其它变形例的语音解码装置的结构的图。
图25是用于说明第2实施方式的其它变形例的语音解码装置的动作的流程图。
图26是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图27是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图28是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图29是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图30是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图31是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图32是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图33是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图34是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图35是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图36是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图37是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图38是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图39是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图40是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图41是说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图42是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图43是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图44是示出第1实施方式的其它变形例的语音编码装置的结构的图。
图45是示出第1实施方式的其它变形例的语音编码装置的结构的图。
图46是示出第2实施方式的变形例的语音编码装置的结构的图。
图47是示出第2实施方式的其它变形例的语音编码装置的结构的图。
图48是示出第4实施方式的语音编码装置的结构的图。
图49是示出第4实施方式的变形例的语音编码装置的结构的图。
图50是示出第4实施方式的其它变形例的语音编码装置的结构的图。
具体实施方式
以下,参照附图来详细说明本发明的优选实施方式。此外,在附图说明中,在可能的情况下,对同一要素标注同一标号,并省略重复说明。
(第1实施方式)
图1是示出第1实施方式的语音编码装置11的结构的图。语音编码装置11物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11的内置存储器中存储的预定的计算机程序(例如,用于进行图2的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音编码装置11。语音编码装置11的通信装置从外部接收作为编码对象的语音信号,而且,将编码后的复用比特流向外部输出。
语音编码装置11在功能上具备:频率变换部1a(频率变换单元)、频率逆变换部1b、核心编解码器(core codec)编码部1c(核心编码单元)、SBR编码部1d、线形预测分析部1e(时间包络辅助信息计算单元)、滤波强度参数计算部1f(时间包络辅助信息计算单元)以及比特流复用部1g(比特流复用单元)。图1所示的语音编码装置11的频率变换部1a~比特流复用部1g是通过语音编码装置11的CPU运行存储在语音编码装置11的内置存储器中的计算机程序而实现的功能。语音编码装置11的CPU通过运行该计算机程序(利用图1所示的频率变换部1a~比特流复用部1g)来依次执行图2的流程图所示处理(步骤Sa1~步骤Sa7的处理)。该计算机程序运行所需的各种数据以及通过运行该计算机程序生成的各种数据全部都存储在语音编码装置11的ROM或RAM等内置存储器中。
频率变换部1a通过多通道QMF滤波器组分析经由语音编码装置11的通信装置接收到的来自外部的输入信号,并获得QMF区域的信号q(k,r)(步骤Sa1的处理)。其中,k(0≤k≤63)是频率方向的索引,r是表示时隙的索引。频率逆变换部1b利用QMF滤波器组来合成从频率变换部1a获得的、QMF区域的信号中的低频侧的一半系数,并获得仅包含输入信号的低频成分的下采样后的时域信号(步骤Sa2的处理)。核心编解码器编码部1c对下采样后的时域信号进行编码并获得编码比特流(步骤Sa3的处理)。核心编解码器编码部1c中的编码可基于以CELP方式为代表的语音编码方式,另外还可基于以AAC为代表的转换编码或TCX(Transform CodedExcitation,转换编码激励)方式等的音频编码。
SBR编码部1d从频率变换部1a接收QMF区域的信号,并根据高频成分的功率/信号变化/调性等的分析进行SBR编码,获得SBR辅助信息(步骤Sa4的处理)。关于频率变换部1a中的QMF分析的方法以及SBR编码部1d中的SBR编码的方法,例如,在文献“3GPP TS26.404;Enhanced aacPlus encoder SBR part”中进行详细叙述。
线形预测分析部1e从频率变换部1a接收QMF区域的信号,并针对该信号的高频成分在频率方向上进行线形预测分析,取得高频线形预测系数aH(n,r)(1≤n≤N)(步骤Sa5的处理)。其中,N是线形预测次数。另外,索引r是与QMF区域的信号的子采样有关的时间方向的索引。关于信号线形预测分析,可以采用协方差法或自相关法。针对q(k,r)中满足kx<k≤63的高频成分进行取得aH(n,r)时的线形预测分析。其中,kx是与利用核心编解码器编码部1c进行编码的频谱区域的上限频率对应的频率索引。另外,线形预测分析部1e也可以针对与在取得aH(n,r)时分析的频率不同的低频成分进行线形预测分析,取得与aH(n,r)不同的低频线形预测系数aL(n,r)(这种与低频成分有关的线形预测系数与时间包络信息对应,以下,在第1实施方式中是同样的)。在取得aL(n,r)时的线形预测分析是针对满足0≤k<kx的低频成分进行分析。另外,该线形预测分析可以是针对0≤k<kx区间所包含的一部分频率区域进行分析。
滤波强度参数计算部1f例如采用线形预测分析部1e所取得的线形预测系数来计算滤波强度参数(滤波强度参数与时间包络辅助信息对应,以下,在第1实施方式中是同样的)(步骤Sa6的处理)。首先,由aH(n,r)计算预测增益GH(r)。预测增益的计算方法例如在“声音符号化、守谷健弘著電子情報通信学会編(语音编码、守谷健弘著、电子信息通信学会编)”中进行详细叙述。此外,在计算aL(n,r)的情况下,同样计算预测增益GL(r)。滤波强度参数K(r)是随着GH(r)变大而变大的参数,例如可根据下式(1)获得。其中,max(a,b)表示a和b的最大值,min(a,b)表示a和b的最小值。
[式1]
K(r)=ma×(0,min(1,GH(r)-1))
另外,在计算GL(r)的情况下,K(r)可作为随着GH(r)变大而变大、随着GL(r)变大而变小的参数取得。此时的K例如可根据下式(2)来取得。
[式2]
K(r)=ma×(0,m in(1,GH(r)/GL(r)-1))
K(r)是表示在SBR解码时调整高频成分的时间包络的强度的参数。与频率方向的线形预测系数相对的预测增益随着分析区间的信号的时间包络表现出急剧的变化而成为较大的值。K(r)是如下这样的参数:其值越大,越对译码器指示增强使SBR所生成的高频成分的时间包络急剧变化的处理。此外,K(r)也可以是如下这样的参数,其值越小,则越对译码器(例如,语音解码装置21等)指示减弱使SBR所生成的高频成分的时间包络急剧变化的处理,该参数还可包含表示不执行使时间包络急剧变化的处理的值。另外,还可以不传送各时隙的K(r),而传送代表多个时隙的K(r)。为了决定共用同一K(r)值的时隙的区间,优选采用包含在SBR辅助信息中的SBR包络的时间边界(SBR envelope time border)信息。
K(r)被量化之后被发送至比特流复用部1g。优选在量化前针对多个时隙r取得例如K(r)的平均,由此来计算代表多个时隙的K(r)。而且,在传送代表多个时隙的K(r)的情况下,也可以根据由多个时隙构成的整个区间的分析结果来取得代表的K(r),而不是像式(2)那样根据分析各个时隙得到的结果来独立地进行K(r)的计算。例如可根据下式(3)来计算这种情况下的K(r)。其中,mean(·)表示K(r)所代表的时隙区间内的平均值。
[式3]
K(r)=ma×(0,min(1,mean(GH(r)/mean(GL(r))-1)))
此外,在传送K(r)时,可与在“ISO/IEC14496-3subpart4General Audio Coding”中记载的SBR辅助信息中包含的逆滤波模式信息相互排斥地传送。即,对于传送SBR辅助信息的逆滤波模式信息的时隙,不传送K(r),而对于传送K(r)的时隙,不传送SBR辅助信息的逆滤波模式信息(“ISO/IEC14496-3subpart4General AudioCoding”中的bs#invf#mode)。此外,也可以附加表示已传送K(r)或SBR辅助信息中包含的逆滤波模式信息的哪一个的信息。另外,还可以将K(r)与SBR辅助信息中包含的逆滤波模式信息组合作为一个矢量信息使用,并对该矢量进行熵编码。此时,可以对K(r)与SBR辅助信息中包含的逆滤波模式信息之间的值的组合进行制约。
比特流复用部1g对由核心编解码器编码部1c计算出的编码比特流、由SBR编码部1d计算出的SBR辅助信息和由滤波强度参数计算部1f计算出的K(r)进行复用,并经由语音编码装置11的通信装置输出复用比特流(编码后的复用比特流)(步骤Sa7的处理)。
图3是示出第1实施方式的语音解码装置21的结构的图。语音解码装置21物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置21的内置存储器中存储的预定的计算机程序(例如,用于进行图4的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置21。语音解码装置21的通信装置接收从语音编码装置11、后述变形例1的语音编码装置11a或后述变形例2的语音编码装置输出的编码后的复用比特流,而且,向外部输出已解码的语音信号。如图3所示,语音解码装置21在功能上具备:比特流分离部2a(比特流分离单元)、核心编解码器解码部2b(核心解码单元)、频率变换部2c(频率变换单元)、低频线形预测分析部2d(低频时间包络分析单元)、信号变化检测部2e、滤波强度调整部2f(时间包络调整单元)、高频生成部2g(高频生成单元)、高频线形预测分析部2h、线形预测逆滤波部2i、高频调整部2j(高频调整单元)、线形预测滤波部2k(时间包络变形单元)、系数相加部2m以及频率逆变换部2n。图3所示的语音解码装置21的比特流分离部2a~频率逆变换部2n是通过语音解码装置21的CPU执行语音解码装置21的内置存储器中存储的计算机程序来实现的功能。语音解码装置21的CPU通过执行该计算机程序(利用图3所示的比特流分离部2a~频率逆变换部2n),依次执行图4的流程图所示的处理(步骤Sb1~步骤Sb11的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据全部存储在语音解码装置21的ROM或RAM等内置存储器中。
比特流分离部2a经由语音解码装置21的通信装置将输入的复用比特流分离为滤波强度参数、SBR辅助信息和编码比特流。核心编解码器解码部2b对从比特流分离部2a输出的编码比特流进行解码,获得仅包含低频成分的解码信号(步骤Sb1的处理)。此时,解码的方式可以基于以CELP方式为代表的语音编码方式,也可以基于AAC或TCX(Transform Coded Excitation)方式等的音频编码。
频率变换部2c通过多通道QMF滤波器组分析从核心编解码器解码部2b输出的解码信号,获得QMF区域的信号qdec(k,r)(步骤Sb2的处理)。其中,k(0≤k≤63)是频率方向的索引,r是表示与QMF区域信号的子采样有关的时间方向索引的索引。
低频线形预测分析部2d针对各个时隙r在频率方向对从频率变换部2c获得的qdec(k,r)进行线形预测分析,取得低频线形预测系数adec(n,r)(步骤Sb3的处理)。在与从核心编解码器解码部2b获得的解码信号的信号频带对应的0≤k<kx的范围中进行线形预测分析。此外,该线形预测分析可以是针对0≤k<kx区间中包含的一部分频域进行分析。
信号变化检测部2e检测从频率变换部2c获得的QMF区域的信号的时间变化,并作为检测结果T(r)输出。例如可利用以下所示的方法进行信号变化的检测。
1.利用下式(4)取得时隙r中的信号的短时功率p(r)。
[式4]
p ( r ) = &Sigma; k = 0 63 | q dec ( k , r ) | 2
2.利用下式(5)取得平滑了p(r)的包络penv(r)。其中,α是满足0<α<1的常数。
[式5]
penv(r)=α·penv(r-1)+(1-α)·p(r)
3.利用p(r)和penv(r)根据下式(6)取得T(r)。其中,β是常数。
[式6]
T(r)=max(1,p(r)/(β·penv(r)))
以上所示的方法是基于功率变化的信号变化检测的简单例,也可以利用其它更加简练的方法来进行信号变化检测。另外,还可以省略信号变化检测部2e。
滤波强度调整部2f针对从低频线形预测分析部2d获得的adec(n,r)进行滤波强度的调整,获得调整后的线形预测系数aadj(n,r)(步骤Sb4的处理)。滤波强度的调整可利用经由比特流分离部2a接收到的滤波强度参数K,例如根据下式(7)来进行。
[式7]
aadj(n,r)=adec(n,r)·K(r)n    (1≦n≦N)
此外,在获得信号变化检测部2e的输出T(r)的情况下,也可以根据下式(8)来进行强度的调整。
[式8]
aadj(n,r)=adec(n,r)·(K(r)·T(r))n    (1≦n≦N)
高频生成部2g将由频率变换部2c获得的QMF区域信号从低频频带复写到高频频带,生成高频成分的QMF区域信号qexp(k,r)(步骤Sb5的处理)。高频的生成可根据“MPEG4AAC”的SBR中的高频生成(HF generation)方法来进行(“ISO/IEC14496-3subpart4General Audio Coding”)。
高频线形预测分析部2h针对各个时隙r在频率方向对高频生成部2g所生成的qexp(k,r)进行线形预测分析,取得高频线形预测系数aexp(n,r)(步骤Sb6的处理)。针对与高频生成部2g所生成的高频成分对应的kx≤k≤63范围进行线形预测分析。
线形预测逆滤波部2i将高频生成部2g所生成的高频频带的QMF区域的信号作为对象,在频率方向进行以aexp(n,r)为系数的线形预测逆滤波处理(步骤Sb7的处理)。线形预测逆滤波器的传递函数如下式(9)所示。
[式9]
f ( z ) = 1 + &Sigma; n = 1 N a exp ( n , r ) z - n
该线形预测逆滤波处理可以从低频侧的系数向高频侧的系数进行,也可以反向进行。线形预测逆滤波处理是用于在后段中进行时间包络变形之前使高频成分的时间包络暂时平坦化的处理,也可以省略线形预测逆滤波部2i。另外,取代对来自高频生成部2g的输出进行针对高频成分的线形预测分析和逆滤波处理,可以针对来自后述高频调整部2j的输出进行基于高频线形预测分析部2h的线形预测分析和基于线形预测逆滤波部2i的逆滤波处理。此外,用于线形预测逆滤波处理的线形预测系数可以不是aexp(n,r),而是adec(n,r)或aadj(n,r)。另外,用于线形预测逆滤波处理的线形预测系数可以是对aexp(n,r)进行滤波强度调整而取得的线形预测系数aexp,adj(n,r)。强度调整与取得aadj(n,r)时同样例如可根据下式(10)来进行。
[式10]
aexp,adj(n,r)=aexp(n,r)·K(r)n    (1≦n≦N)
高频调整部2j对来自线形预测逆滤波部2i的输出进行高频成分的频率特性以及调性的调整(步骤Sb8的处理)。根据从比特流分离部2a输出的SBR辅助信息来进行该调整。基于高频调整部2j的处理是根据“MPEG4AAC”的SBR中的“高频调整(HFadjustment)”步骤来进行的,是针对高频频带的QMF区域信号进行时间方向的线形预测逆滤波处理、增益的调整以及噪声的重叠的调整。在“ISO/IEC14496-3subpart4General Audio Coding”中详细叙述了以上步骤的详细处理。此外,如上所述,频率变换部2c、高频生成部2g以及高频调整部2j均进行以“ISO/IEC14496-3”规定的“MPEG4AAC”中的SBR译码器为依据的动作。
线形预测滤波部2k针对从高频调整部2j输出的QMF区域的信号的高频成分qadj(n,r),利用从滤波强度调整部2f获得的aadj(n,r)在频率方向进行线形预测合成滤波处理(步骤Sb9的处理)。线形预测合成滤波处理中的传递函数如下式(11)所述。
[式11]
g ( z ) = 1 1 + &Sigma; n = 1 N a adj ( n , r ) z - n
通过该线形预测合成滤波处理,线形预测滤波部2k使基于SBR生成的高频成分的时间包络变形。
系数相加部2m将包含从频率变换部2c输出的低频成分的QMF区域的信号与包含从线形预测滤波部2k输出的高频成分的QMF区域的信号相加,输出包含低频成分与高频成分两者的QMF区域的信号(步骤Sb10的处理)。
频率逆变换部2n利用QMF合成滤波器组对从系数相加部2m获得的QMF区域的信号进行处理。由此,取得时域的解码后的语音信号(其包含由核心编解码器解码获得的低频成分和由SBR生成并利用线形预测滤波器对时间包络进行了变形的高频成分两者),将该取得的语音信号经由内置的通信装置输出至外部(步骤Sb11的处理)。此外,频率逆变换部2n在相互排斥地传送K(r)和“ISO/IEC14496-3subpart4General Audio Coding”中记载的SBR辅助信息的逆滤波模式信息的情况下,针对传送K(r)且不传送SBR辅助信息的逆滤波模式信息的时隙,利用与该时隙前后的时隙中的至少一个时隙对应的SBR辅助信息的逆滤波模式信息,可生成该时隙的SBR辅助信息的逆滤波模式信息,也可以将该时隙的SBR辅助信息的逆滤波模式信息设定为预先决定地规定模式。另一方面,频率逆变换部2n可针对传送SBR辅助信息的逆滤波器数据且不传送K(r)的时隙,利用与该时隙前后的时隙中的至少一个时隙对应的K(r),生成该时隙的K(r),也可以将该时隙K(r)设定为预先决定的规定值。此外,频率逆变换部2n可根据表示已传送K(r)或SBR辅助信息的逆滤波模式信息的哪一个的信息,来判断已传送的信息是K(r)还是SBR辅助信息的逆滤波模式信息。
(第1实施方式的变形例1)
图5是示出第1实施方式的语音编码装置的变形例(语音编码装置11a)的结构的图。语音编码装置11a物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11a的内置存储器中存储的规定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11a。语音编码装置11a的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。
如图5所示,语音编码装置11a在功能上具备:高频频率逆变换部1h、短时功率计算部1i(时间包络辅助信息计算单元)、滤波强度参数计算部1f1(时间包络辅助信息计算单元)以及比特流复用部1g1(比特流复用单元),来代替语音编码装置11的线形预测分析部1e、滤波强度参数计算部1f以及比特流复用部1g。比特流复用部1g1具有与比特流复用部1g同样的功能。图5所示的语音编码装置11a的频率变换部1a~SBR编码部1d、高频频率逆变换部1h、短时功率计算部1i、滤波强度参数计算部1f1以及比特流复用部1g1是通过语音编码装置11a的CPU运行存储在语音编码装置11a的内置存储器中的计算机程序来实现的功能。执行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据均存储在语音编码装置11a的ROM及RAM等内置存储器。
高频频率逆变换部1h在将从频率变换部1a获得的QMF区域的信号中的、与由核心编解码器编码部1c编码了的低频成分对应的系数置换为“0”之后,利用QMF合成滤波器组进行处理,获得仅包含高频成分的时域信号。短时功率计算部1i将从高频频率逆变换部1h获得的时域的高频成分划分为短区间而计算其功率,计算p(r)。此外,作为替代方法,还可以利用QMF区域的信号通过下式(12)来计算短时功率。
[式12]
( r ) = &Sigma; k = 0 63 | q ( k , r ) | 2
滤波强度参数计算部1f1检测p(r)的变化部分并决定K(r)的值,使得K(r)随着p(r)的变化变大而变大。K(r)的值例如可利用与语音解码装置21的信号变化检测部2e中计算T(r)相同的方法来计算。此外,还可以利用其它更简练的方法来进行信号变化检测。另外,滤波强度参数计算部1f1也可以在针对低频成分和高频成分分别取得短时功率之后,利用与语音解码装置21的信号变化检测部2e中计算T(r)相同的方法来取得低频成分以及高频成分各自的信号变化Tr(r)、Th(r),并利用它们来确定K(r)的值。此时,例如,可根据下式(13)来取得K(r)。其中,ε例如是3.0等常数。
[式13]
K(r)=max(0,ε·(Th(r)-Tr(r)))
(第1实施方式的变形例2)
第1实施方式的变形例2的语音编码装置(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等变形例2的语音编码装置的内置存储器中存储的预定的计算机程序加载到RAM并运行来统一地控制变形例2的语音编码装置。变形例2的语音编码装置的通信装置从外部接收作为编码对象的语音信号,并且将编码后的复用比特流输出至外部。
变形例2的语音编码装置在功能上具备未图示的线形预测系数差分编码部(时间包络辅助信息计算单元)和接收来自该线形预测系数差分编码部的输出的比特流复用部(比特流复用单元),来代替语音编码装置11的滤波强度参数计算部1f以及比特流复用部1g。变形例2的语音编码装置的频率变换部1a~线形预测分析部1e、线形预测系数差分编码部以及比特流复用部通过变形例2的语音编码装置的CPU执行变形例2的语音编码装置的内置存储器中存储的计算机程序来实现功能。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据都存储在变形例2的语音编码装置的ROM及RAM等内置存储器中。
线形预测系数差分编码部利用输入信号的aH(n,r)和输入信号的aL(n,r)根据下式(14)来计算线形预测系数的差分值aD(n,r)。
[式14]
aD(n,r)=aH(n,r)-aL(n,r)  (1≦n≦N)
线形预测系数差分编码部接着对aD(n,r)进行量化,并发送给比特流复用部(与比特流复用部1g对应的结构)。该比特流复用部取代K(r)而将aD(n,r)复用到比特流中,经由内置的通信装置将该复用比特流输出至外部。
第1实施方式的变形例2的语音解码装置(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等变形例2的语音解码装置的内置存储器中存储的预定的计算机程序加载到RAM中并运行,来统一地控制变形例2的语音解码装置。变形例2的语音解码装置的通信装置接收从语音编码装置11、变形例1的语音编码装置11a或变形例2的语音编码装置输出的编码后的复用比特流,而且将解码后的语音信号输出至外部。
变形例2的语音解码装置在功能上具备未图示的线形预测系数差分解码部,而取代了语音解码装置21的滤波强度调整部2f。变形例2的语音解码装置的比特流分离部2a~信号变化检测部2e、线形预测系数差分解码部以及高频生成部2g~频率逆变换部2n通过变形例2的语音解码装置的CPU运行变形例2的语音解码装置的内置存储器中存储的计算机程序来实现功能。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据均存储在变形例2的语音解码装置的ROM及RAM等内置存储器中。
线形预测系数差分解码部利用从低频线形预测分析部2d获得的aL(n,r)和从比特流分离部2a输出的aD(n,r),根据下式(15)来获得差分解码后的aadj(n,r)。
[式15]
aadj(n,r)=adec(n,r)+aD(n,r),1≦n≦N
线形预测系数差分解码部将这样差分解码后的aadj(n,r)发送给线形预测滤波部2k。aD(n,r)如式子(14)所示可以是预测系数的区域中的差分值,也可以是在将预测系数变换为LSP(Linear Spectrum Pair,线谱对)、ISP(Immittance Spectrum Pair,导抗谱对)、LSF(Linear Spectrum Frequency,线谱频率)、ISF(Immittance SpectrumFrequency,导抗谱频率)、PARCOR系数等其它表现形式之后取差分的值。在此情况下,差分解码也同样为相同的表现形式。
(第2实施方式)
图6是示出第2实施方式的语音编码装置12的结构的图。语音编码装置12物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置12的内置存储器中存储的预定的计算机程序(例如,用于进行图7的流程图所示处理的计算机程序)加载至RAM中并运行,来统一地控制语音编码装置12。语音编码装置12的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。
语音编码装置12在功能上具备线形预测系数抽样部1j(预测系数抽样单元)、线形预测系数量化部1k(预测系数量化单元)以及比特流复用部1g2(比特流复用单元),来取代语音编码装置11的滤波强度参数计算部1f以及比特流复用部1g。图6所示的语音编码装置12的频率变换部1a~线形预测分析部1e(线形预测分析单元)、线形预测系数抽样部1j、线形预测系数量化部1k以及比特流复用部1g2通过语音编码装置12的CPU执行语音编码装置12的内置存储器中存储的计算机程序来实现功能。语音编码装置12的CPU通过运行该计算机程序(利用图6所示的语音编码装置12的频率变换部1a~线形预测分析部1e、线形预测系数抽样部1j、线形预测系数量化部1k以及比特流复用部1g2)来依次执行图7的流程图所示的处理(步骤Sa1~步骤Sa5以及步骤Sc1~步骤Sc3的处理)。执行该计算机程序所需的各种数据以及执行该计算机程序所生成的各种数据均存储在语音编码装置12的ROM及RAM等内置存储器中。
线形预测系数抽样部1j在时间方向上对从线形预测分析部1e获得的aH(n,r)进行抽样,并将aH(n,r)中与一部分时隙ri对应的值和对应的ri的值发送给线形预测系数量化部1k(步骤Sc1的处理)。其中,0≤i<Nts,Nts是在帧中进行aH(n,r)的传送的时隙数。线形预测系数的抽样可以是基于固定的时间间隔的抽样,此外,也可以是基于aH(n,r)的性质的不等时间间隔的抽样。例如,考虑在具有某长度的帧中比较aH(n,r)的GH(r),在GH(r)超过固定值的情况下将aH(n,r)作为量化对象等的方法。在不依据aH(n,r)的性质而将线形预测系数的抽样间隔均设为固定间隔的情况下,无需针对不作为传送对象的时隙计算aH(n,r)。
线形预测系数量化部1k对从线形预测系数抽样部1j输出的抽样后的高频线形预测系数aH(n,ri)和对应时隙的索引ri进行量化,并发送至比特流复用部1g2(步骤Sc2的处理)。此外,作为代替结构,可以与第1实施方式的变形例2的语音编码装置同样,将线形预测系数的差分值aD(n,ri)作为量化对象,来取代对aH(n,ri)进行量化。
比特流复用部1g2将由核心编解码器编码部1c计算出的编码比特流、由SBR编码部1d计算出的SBR辅助信息、以及与线形预测系数量化部1k输出的量化后的aH(n,ri)对应的时隙的索引{ri}复用到比特流中,并经由语音编码装置12的通信装置输出该复用比特流(步骤Sc3的处理)。
图8是示出第2实施方式的语音解码装置22的结构的图。语音解码装置22物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU将ROM等语音解码装置22的内置存储器中存储的预定的计算机程序(例如,用于进行图9的流程图所示的处理的计算机程序)加载到RAM中并运行,来统一地控制语音解码装置22。语音解码装置22的通信装置接收从语音编码装置12输出的编码后的复用比特流,而且将解码后的语音信号输出至外部。
语音解码装置22在功能上具备比特流分离部2a1(比特流分离单元)、线形预测系数内插/外插部2p(线形预测系数内插/外插单元)以及线形预测滤波部2k1(时间包络变形单元),来代替语音解码装置21的比特流分离部2a、低频线形预测分析部2d、信号变化检测部2e、滤波强度调整部2f以及线形预测滤波部2k。图8所示的语音解码装置22的比特流分离部2a1、核心编解码器解码部2b、频率变换部2c、高频生成部2g~高频调整部2j、线形预测滤波部2k1、系数相加部2m、频率逆变换部2n以及线形预测系数内插/外插部2p通过语音编码装置22的CPU运行语音编码装置22的内置存储器中存储的计算机程序来实现功能。语音解码装置22的CPU通过执行该计算机程序(利用图8所示的比特流分离部2a1、核心编解码器解码部2b、频率变换部2c、高频生成部2g~高频调整部2j、线形预测滤波部2k1、系数相加部2m、频率逆变换部2n以及线形预测系数内插/外插部2p),来依次执行图9的流程图所示的处理(步骤Sb1~步骤Sb2、步骤Sd1、步骤Sb5~步骤Sb8、步骤Sd2以及步骤Sb10~步骤Sb11的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据均存储在语音解码装置22的ROM及RAM等内置存储器中。
语音解码装置22具备比特流分离部2a1、线形预测系数内插/外插部2p以及线形预测滤波部2k1,来代替语音解码装置22的比特流分离部2a、低频线形预测分析部2d、信号变化检测部2e、滤波强度调整部2f以及线形预测滤波部2k。
比特流分离部2a1将经由语音解码装置22的通信装置输入的复用比特流分离为与量化后的aH(n,ri)对应的时隙的索引ri、SBR辅助信息和编码比特流。
线形预测系数内插/外插部2p从比特流分离部2a1接收与量化后的aH(n,ri)对应的时隙的索引ri,并通过内插或外插取得与没有传送线形预测系数的时隙对应的aH(n,r)(步骤Sd1的处理)。线形预测系数内插/外插部2p例如可根据下式(16)来进行线形预测系数的外插。
[式16]
a H ( n , r ) = &delta; | r - r i 0 | a H ( n , r i 0 ) , ( 1 &le; n &le; N )
其中,ri0是与传送线形预测系数的时隙{ri}中的r最接近的数。另外,δ是满足0<δ<1的常数。
另外,线形预测系数内插/外插部2p例如可根据下式(17)来进行线形预测系数的内插。其中,满足ri0<r<ri0+1
[式17]
a H ( n , r ) = r i 0 + 1 - r r i 0 + 1 - r i &CenterDot; a H ( n , r i ) + r - r i 0 r i 0 + 1 - r i 0 &CenterDot; a H ( n , r i 0 + 1 ) , ( 1 &le; n &le; N )
此外,线形预测系数内插/外插部2p可以在将线形预测系数变换为LSP(LinearSpectrum Pair,线谱对),ISP(Immittance Spectrum Pair,导抗谱对),LSF(LinearSpectrum Frequency,线谱频率),ISF(Immittance Spectrum Frequency,导抗谱频率),PARCOR系数等的其它表现形式之后进行内插/外插,将获得的值变换为线形预测系数进行使用。将内插或外插后的aH(n,r)发送给线形预测滤波部2k1,用作线形预测合成滤波处理中的线形预测系数,但是也可以用作线形预测逆滤波部2i中的线形预测系数。在比特流中复用aD(n,ri)而不是aH(n,r)的情况下,线形预测系数内插/外插部2p在上述内插或外插处理之前,进行与第1实施方式的变形例2的语音解码装置同样的差分解码处理。
线形预测滤波部2k1针对从高频调整部2j输出的qadj(n,r),利用从线形预测系数内插/外插部2p获得的进行了内插或外插的aH(n,r),在频率方向上进行线形预测合成滤波处理(步骤Sd2的处理)。线形预测滤波部2k1的传递函数如下式(18)所述。线形预测滤波部2k1与语音解码装置21的线形预测滤波部2k同样地,通过进行线形预测合成滤波处理来使基于SBR生成的高频成分的时间包络变形。
[式18]
g ( z ) = 1 1 + &Sigma; n = 1 N a H ( n , r ) z - n
(第3实施方式)
图10是示出第3实施方式的语音编码装置13的结构的图。语音编码装置13物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置13的内置存储器中存储的预定的计算机程序(例如,用于进行图11的流程图所示的处理的计算机程序)加载到RAM中并运行,统一地控制语音编码装置13。语音编码装置13的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。
语音编码装置13在功能上具备时间包络计算部1m(时间包络辅助信息计算单元)、包络形状参数计算部1n(时间包络辅助信息计算单元)以及比特流复用部1g3(比特流复用单元),来代替语音编码装置11的线形预测分析部1e、滤波强度参数计算部1f以及比特流复用部1g。图10所示的语音编码装置13的频率变换部1a~SBR编码部1d、时间包络计算部1m、包络形状参数计算部1n以及比特流复用部1g3通过语音编码装置13的CPU运行语音编码装置13的内置存储器中存储的计算机程序来实现功能。语音编码装置13的CPU通过运行该计算机程序(利用图10所示语音编码装置13的频率变换部1a~SBR编码部1d、时间包络计算部1m、包络形状参数计算部1n以及比特流复用部1g3),来依次执行图11的流程图所示的处理(步骤Sa1~步骤Sa4以及步骤Se1~步骤Se3的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据均存储在语音编码装置13的ROM及RAM等内置存储器中。
时间包络计算部1m接收q(k,r),例如通过取得q(k,r)的每个时隙的功率来取得信号的高频成分的时间包络信息e(r)(步骤Se1的处理)。此时,根据下式(19)来取得e(r)。
[式19]
e ( r ) = &Sigma; k = k x 63 | q ( k , r ) | 2
包络形状参数计算部1n从时间包络计算部1m接收e(r),还从SBR编码部1d接收SBR包络的时间边界{bi}。其中,0≤i≤Ne,Ne是编码帧内的SBR包络数。包络形状参数计算部1n针对编码帧内的各个SBR包络例如根据下式(20)来取得包络形状参数s(i)(0≤i<Ne)(步骤Se2的处理)。此外,包络形状参数s(i)与时间包络辅助信息对应,在第3实施方式中是同样。
[式20]
s ( i ) = 1 b i + 1 - b i - 1 &Sigma; r = bi b i + 1 - 1 ( e ( i ) &OverBar; - e ( r ) ) 2
其中,
[式21]
e ( i ) &OverBar; = &Sigma; r = bi b i + 1 - 1 e ( r ) b i + 1 - b i
上述式子中的s(i)是表示满足bi≤r<bi+1的第i个SBR包络内的e(r)的变化大小的参数,e(r)随着时间包络的变化变大而取越大的值。上述式(20)以及(21)是s(i)的计算方法的一例,例如也可以利用e(r)的SMF(Spectral Flatness Measure,谱平坦度量度)或最大值与最小值之比等来取得s(i)。然后,对s(i)进行量化并传送给比特流复用部1g3。
比特流复用部1g3将由核心编解码器编码部1c计算出的编码比特流、由SBR编码部1d计算出的SBR辅助信息和s(i)复用到比特流中,并经由语音编码装置13的通信装置输出复用后的比特流(步骤Se3的处理)。
图12是示出第3实施方式的语音解码装置23的结构的图。语音解码装置23物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置23的内置存储器中存储的预定的计算机程序(例如,用于进行图13的流程图所示的处理的计算机程序)加载到RAM中并运行,来统一地控制语音解码装置23。语音解码装置23的通信装置接收从语音编码装置13输出的编码后的复用比特流,而且将解码后的语音信号输出至外部。
语音解码装置23在功能上具备比特流分离部2a2(比特流分离单元)、低频时间包络计算部2r(低频时间包络分析单元)、包络形状调整部2s(时间包络调整单元)、高频时间包络计算部2t、时间包络平坦化部2u以及时间包络变形部2v(时间包络变形单元),以代替语音解码装置21的比特流分离部2a、低频线形预测分析部2d、信号变化检测部2e、滤波强度调整部2f、高频线形预测分析部2h、线形预测逆滤波部2i以及线形预测滤波部2k。图12所示的语音解码装置23的比特流分离部2a2、核心编解码器解码部2b~频率变换部2c、高频生成部2g、高频调整部2j、系数相加部2m、频率逆变换部2n以及低频时间包络计算部2r~时间包络变形部2v通过语音编码装置23的CPU运行语音编码装置23的内置存储器中存储的计算机程序来实现功能。语音解码装置23的CPU通过运行该计算机程序(利用图12所示的语音解码装置23的比特流分离部2a2、核心编解码器解码部2b~频率变换部2c、高频生成部2g、高频调整部2j、系数相加部2m、频率逆变换部2n以及低频时间包络计算部2r~时间包络变形部2v),来依次执行图13的流程图所示的处理(步骤Sb1~步骤Sb2、步骤Sf1~步骤Sf2、步骤Sb5、步骤Sf3~步骤Sf4、步骤Sb8、步骤Sf5以及步骤Sb10~步骤Sb11的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据都存储在语音解码装置23的ROM及RAM等内置存储器中。
比特流分离部2a2将经由语音解码装置23的通信装置输入的复用比特流分离为s(i)、SBR辅助信息和编码比特流。低频时间包络计算部2r从频率变换部2c接受包含低频成分的qdec(k,r),并根据下式(22)取得e(r)(步骤Sf1的处理)。
[式22]
e ( r ) = &Sigma; k = 0 63 | q dec ( k , r ) | 2
包络形状调整部2s利用s(i)来调整e(r),取得调整后的时间包络信息eadj(r)(步骤Sf2的处理)。例如可根据下式(23)~(25)来进行针对该e(r)的调整。
[式23]
e adj ( r ) = e ( i ) &OverBar; + s ( i ) - v ( i ) &CenterDot; ( e ( r ) - e ( i ) &OverBar; ) , ( s ( i ) > v ( i ) )
eadj(r)=e(r)    (其它)
其中,
[式24]
e ( i ) &OverBar; = &Sigma; r = bi b i + 1 - 1 e ( r ) b i + 1 - b i
[式25]
v ( i ) = 1 b i + 1 - b i - 1 &Sigma; r = bi b i + 1 - 1 ( e ( i ) &OverBar; - e ( r ) ) 2
上述式(23)~(25)是调整方法的一例,还可以采用使eadj(r)的形状接近于s(i)所示的形状这样的其它调整方法。
高频时间包络计算部2t利用从高频生成部2g获得的qexp(k,r)根据下式(26)计算时间包络eexp(r)(步骤Sf3的处理)。
[式26]
e exp ( r ) = &Sigma; k = k x 63 | q exp ( k , r ) | 2
时间包络平坦化部2u根据下式(27)使从高频生成部2g获得的qexp(k,r)的时间包络平坦化,并将所获得的QMF区域的信号qflat(k,r)发送到高频调整部2j(步骤Sf4的处理)。
[式27]
q flat ( k , r ) = q exp ( k , r ) e exp ( r ) , ( k x &le; k &le; 63 )
可省略时间包络平坦化部2u中的时间包络的平坦化。另外,也可以取代针对来自高频生成部2g的输出进行高频成分的时间包络计算和时间包络的平坦化处理,而针对来自高频调整部2j的输出进行高频成分的时间包络计算和时间包络的平坦化处理。此外,在时间包络平坦化部2u中利用的时间包络可以是从包络形状调整部2s获得的eadj(r),而不是从高频时间包络计算部2t获得的eexp(r)。
时间包络变形部2v利用从时间包络变形部2v获得的eadj(r),使从高频调整部2j获得的qadj(k,r)变形,并取得时间包络已变形的QMF区域的信号qenvadj(k,r)(步骤Sf5的处理)。根据下式(28)来进行该变形。qenvadj(k,r)作为与高频成分对应的QMF区域的信号被发送给系数相加部2m。
[式28]
qenvadj(k,r)=qadj(k,r)·eadj(r)  (kx≦k≦63)
(第4实施方式)
图14是示出第4实施方式的语音解码装置24的结构的图。语音解码装置24物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装置24。语音解码装置24的通信装置接收从语音编码装置11或语音编码装置13输出的编码后的复用比特流,而且将解码后的语音信号输出至外部。
语音解码装置24在功能上具备:语音解码装置21的结构(核心编解码器解码部2b、频率变换部2c、低频线形预测分析部2d、信号变化检测部2e、滤波强度调整部2f、高频生成部2g、高频线形预测分析部2h、线形预测逆滤波部2i、高频调整部2j、线形预测滤波部2k、系数相加部2m以及频率逆变换部2n)和语音解码装置23的结构(低频时间包络计算部2r、包络形状调整部2s以及时间包络变形部2v)。而且,语音解码装置24具备比特流分离部2a3(比特流分离单元)以及辅助信息变换部2w。线形预测滤波部2k和时间包络变形部2v的顺序可以与图14所示的相反。此外,语音解码装置24优选将由语音编码装置11或语音编码装置13编码后的比特流作为输入。图14所示的语音解码装置24的结构通过语音解码装置24的CPU运行语音解码装置24的内置存储器中存储的计算机程序来实现功能。运行该计算机程序所需的各种数据以及执行该计算机程序所生成的各种数据都存储在语音解码装置24的ROM及RAM等内置存储器中。
比特流分离部2a3将经由语音解码装置24的通信装置输入的复用比特流分离为时间包络辅助信息、SBR辅助信息和编码比特流。时间包络辅助信息可以是在第1实施方式中介绍的K(r)或也可以是在第3实施方式中介绍的s(i)。而且,还可以是非K(r)、s(i)的其它参数X(r)。
辅助信息变换部2w对输入的时间包络辅助信息进行变换,获得K(r)和s(i)。在时间包络辅助信息是K(r)的情况下,辅助信息变换部2w将K(r)变换为s(i)。辅助信息变换部2w可以在取得例如bi≤r<bi+1区间内的K(r)的平均值
[式29]
K &OverBar; ( i )
之后,利用规定的表,将该式(29)所示的平均值变换为s(i),由此来进行该变换。此外,在时间包络辅助信息是s(i)的情况下,辅助信息变换部2w将s(i)变换为K(r)。辅助信息变换部2w可以例如利用规定的表将s(i)变换为K(r),由此进行该变换。其中,使i和r相对应,以满足bi≤r<bi+1的关系。
在时间包络辅助信息不是s(i)和K(r)而是参数X(r)的情况下,辅助信息变换部2w将X(r)变换为K(r)和s(i)。优选辅助信息变换部2w利用例如规定的表将X(r)变换为K(r)以及s(i),由此进行该变换。而且,优选辅助信息变换部2w将X(r)按照每个SBR包络传送1个代表值。将X(r)变换为K(r)以及s(i)的表可以互不相同。
(第1实施方式的变形例3)
在第1实施方式的语音解码装置21中,语音解码装置21的线形预测滤波部2k可包含自动增益控制处理。该自动增益控制处理是使线形预测滤波部2k的输出的QMF区域信号的功率与输入的QMF区域的信号功率一致的处理。一般情况下,利用下式来实现增益控制后的QMF区域信号qsyn,pow(n,r)。
[式30]
q syn , pow ( n , r ) = q syn ( n , r ) &CenterDot; P 0 ( r ) P 1 ( r )
这里,P0(r)、P1(r)分别用下式(31)以及式(32)表示。
[式31]
P 0 ( r ) = &Sigma; n = k x 63 | q adj ( n , r ) | 2
[式32]
P 1 ( r ) = &Sigma; n = k x 63 | q syn ( n , r ) | 2
通过该自动增益控制处理,将线形预测滤波部2k的输出信号的高频成分功率调整为与线形预测滤波处理前相等的值。其结果是,在根据SBR生成的高频成分的时间包络已变形的线形预测滤波部2k的输出信号中,确保了在高频调整部2j中进行的高频信号功率的调整的效果。此外,该自动增益控制处理还可以针对QMF区域的信号的任意频率范围分别进行。可通过将式(30)、式(31)、式(32)中的n分别限定在某个频率范围内来实现针对各个频率范围的处理。例如,第i个频率范围可表示为Fi≤n<Fi+1(此时的i是表示QMF区域的信号的任意频率范围的编号的索引)。Fi表示频率范围的边界,优选为在“MPEG4AAC”的SBR中规定的包络比例因子的频率边界表。根据“MPEG4AAC”的SBR的规定,在高频生成部2g中确定频率边界表。通过该自动增益控制处理,将线形预测滤波部2k的输出信号的高频成分的任意频率范围内的功率调整为与线形预测滤波处理前相等的值。其结果是,在根据SBR生成的高频成分的时间包络已变形的线形预测滤波部2k的输出信号中,以频率范围为单位保持了在高频调整部2j进行了的高频信号功率的调整的效果。另外,可对第4实施方式中的线形预测滤波部2k进行与第1实施方式的本变形例3同样的变更。
(第3实施方式的变形例1)
第3实施方式的语音编码装置13中的包络形状参数计算部1n还可以通过以下这样的处理来实现。包络形状参数计算部1n针对编码帧内的各个SBR包络,根据下式(33)来取得包络形状参数s(i)(0≤i<Ne)。
[式33]
s ( i ) = 1 - min ( e ( r ) e ( i ) &OverBar; )
其中,
[式34]
e ( i ) &OverBar;
是e(r)的SBR包络内的平均值,其计算方法依据式(21)来进行。其中,SBR包络表示满足bi≤r<bi+1的时间范围。另外,{bi}是作为信息包含在SBR辅助信息内的SBR包络的时间边界,是以表示任意时间范围、任意频率范围的平均信号能量的SBR包络比例因子为对象的时间范围的边界。另外,min(·)表示bi≤r<bi+1范围中的最小值。因此,在这种情况下,包络形状参数s(i)是指示调整后的时间包络信息的SBR包络内的最小值与平均值的比率的参数。另外,第3实施方式的语音解码装置23中的包络形状调整部2s还可以通过下述处理来实现。包络形状调整部2s利用s(i)来调整e(r),取得调整后的时间包络信息eadj(r)。调整的方法依据下式(35)或式(36)来进行。
[式35]
e adj ( r ) = e ( i ) &OverBar; ( 1 + s ( i ) ( e ( r ) - e ( i ) &OverBar; ) e ( i ) &OverBar; - min ( e ( r ) ) )
[式36]
e adj ( r ) = e ( i ) &OverBar; ( 1 + s ( i ) ( e ( r ) - e ( i ) &OverBar; ) e ( i ) &OverBar; )
式35用于调整包络形状,以使调整后的时间包络信息eadj(r)的SBR包络内的最小值与平均值的比率、与包络形状参数s(i)的值相等。另外,可以对第4实施方式进行与上述第3实施方式的本变形例1同样的变更。
(第3实施方式的变形例2)
时间包络变形部2v还可以用下式来取代式(28)。如式(37)所示,eadj,scaled(r)控制了调整后的时间包络信息eadj(r)的增益,使qadj(k,r)与qenvadj(k,r)的SBR包络内的功率相等。另外,如式(38)所示,在第3实施方式的本变形例2中,不将eadj(r)而是将eadj,scaled(r)与QMF区域的信号qadj(k,r)相乘而获得qenvadj(k,r)。因此,时间包络变形部2v可进行QMF区域的信号qadj(k,r)的时间包络的变形,使得SBR包络内的信号功率在时间包络变形前后相等。其中,SBR包络表示满足bi≤r<bi+1的时间范围。另外,{bi}是作为信息包含在SBR辅助信息内的、SBR包络的时间边界,是以SBR包络比例因子(其表示任意时间范围、任意频率范围的平均信号能量)为对象的时间范围的边界。另外,本发明实施例中的术语“SBR包络”相当于“ISO/IEC14496-3”所规定的“MPEG4AAC”中的术语“SBR包络时间分段”,所有实施例中,“SBR包络”表示与“SBR包络时间分段”相同的内容。
[式37]
e adj , scaled ( r ) = e adj ( r ) &CenterDot; &Sigma; k = k x 63 &Sigma; r = b i b i + 1 - 1 | q adj ( k , r ) | 2 &Sigma; k = k x 63 &Sigma; r = b i b i + 1 - 1 | q adj ( k , r ) &CenterDot; e adj ( r ) | 2
( k x &le; k &le; 63 , b i &le; r < b i + 1 )
[式38]
qenvadj(k,r)=qadj(k,r)·eadj,scaled(r)
(kx≤k≤63,bi≤r<bi+1)
另外,也可以对第4实施方式进行与上述第3实施方式的本变形例2同样的变更。
(第3实施方式的变形例3)
式(19)可以是下述的式(39)。
[式39]
e ( r ) = ( b i + 1 - b i ) &Sigma; k = k x 63 | q ( k , r ) | 2 &Sigma; r = b i b i + 1 - 1 &Sigma; k = k x 63 | q ( k , r ) | 2
式(22)可以是下述的式(40)。
[式40]
e ( r ) = ( b i + 1 - b i ) &Sigma; k = k x 63 | q dec ( k , r ) | 2 &Sigma; r = b i b i + 1 - 1 &Sigma; k = k x 63 | q dec ( k , r ) | 2
式(26)可以是下述的式(41)。
[式41]
e exp ( r ) = ( b i + 1 - b i ) &Sigma; k = k x 63 | q exp ( k , r ) | 2 &Sigma; r = b i b i + 1 - 1 &Sigma; k = k x 63 | q exp ( k , r ) | 2
在依据式(39)以及式(40)的情况下,时间包络信息e(r)利用SBR包络内的平均功率对每个QMF子带采样的功率进行归一化,并取平方根。其中,QMF子带采样在QMF区域信号中是与同一时间索引“r”对应的信号矢量,表示QMF区域中的一个子采样。另外,在本发明的整个实施方式中,术语“时隙”表示与“QMF子带采样”相同的内容。在此情况下,时间包络信息e(r)表示应与各QMF子带采样相乘的增益系数,调整后的时间包络信息eadj(r)也同样。
(第4实施方式的变形例1)
第4实施方式的变形例1的语音解码装置24a(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等的语音解码装置24a的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装置24a。语音解码装置24a的通信装置接收从语音编码装置11或语音编码装置13输出的编码后的复用比特流,而且向外部输出解码后的语音信号。语音解码装置24a在功能上具备比特流分离部2a4(未图示),以取代语音解码装置24的比特流分离部2a3,此外,还具备时间包络辅助信息生成部2y(未图示),以取代辅助信息变换部2w。比特流分离部2a4将复用比特流分离为SBR辅助信息和编码比特流。时间包络辅助信息生成部2y根据编码比特流以及SBR辅助信息中包含的信息生成时间包络辅助信息。
关于某SBR包络中的时间包络辅助信息的生成,可以例如利用该SBR包络的时间幅度(bi+1-bi)、帧类别、逆滤波器的强度参数、背景噪声(noise floor)、高频功率的大小、高频功率与低频功率的比率、在频率方向上对QMF区域中表现的低频信号进行线形预测分析的结果的自相关系数或预测增益等。根据这些参数之一或多个值来决定K(r)或s(i),由此能够生成时间包络辅助信息。例如可以根据(bi+1-bi)来决定K(r)或s(i),使得SBR包络的时间幅度(bi+1-bi)越宽,则K(r)或s(i)越小,或者使得SBR包络的时间幅度(bi+1-bi)越宽,则K(r)或s(i)越大,由此生成时间包络辅助信息。此外,可对第1实施方式以及第3实施方式进行同样的变更。
(第4实施方式的变形例2)
第4实施方式的变形例2的语音解码装置24b(参照图15)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24b的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装置24b。语音解码装置24b的通信装置接收从语音编码装置11或语音编码装置13输出的编码后的复用比特流,而且将解码后的语音信号输出至外部。语音解码装置24b如图15所示具备一次高频调整部2j1和二次高频调整部2j2,来取代高频调整部2j。
这里,一次高频调整部2j1进行基于“MPEG4AAC”的SBR中的“HF调整(HFadjustment)”步骤中的、针对高频频带的QMF区域信号在时间方向的线形预测逆滤波处理、增益调整以及噪声重叠处理的调整。此时,一次高频调整部2j1的输出信号相当于“ISO/IEC14496-3:2005”的“SBR工具(SBR tool)”内第4.6.18.7.6节“组合HF信号(Assembling HF signals)”中记载的信号W2。线形预测滤波部2k(或线形预测滤波部2k1)以及时间包络变形部2v以一次高频调整部的输出信号为对象进行时间包络的变形。二次高频调整部2j2对从时间包络变形部2v输出的QMF区域的信号进行“MPEG4AAC”的SBR中的“HF调整(HF adjustment)”步骤中的正弦波的附加处理。二次高频调整部的处理相当于以下处理:“ISO/IEC14496-3:2005”的“SBR工具(SBR tool)”内第4.6.18.7.6节“组合HF信号(Assembling HF signals)”中记载的根据信号W2生成信号Y的处理中的、将信号W2置换为时间包络变形部2v的输出信号的处理。
此外,在上述说明中仅将正弦波附加处理作为二次高频调整部2j2的处理,不过也可以将“HF调整”步骤中的任意一个处理的作为二次高频调整部2j2的处理。另外,可对第1实施方式、第2实施方式、第3实施方式进行同样的变形。此时,由于第1实施方式以及第2实施方式具备线形预测滤波部(线形预测滤波部2k、2k1)而不具备时间包络变形部,所以在对一次高频调整部2j1的输出信号进行了线形预测滤波部的处理之后,以线形预测滤波部的输出信号为对象进行二次高频调整部2j2的处理。
另外,由于第3实施方式具备时间包络变形部2v而不具备线形预测滤波部,所以在对一次高频调整部2j1的输出信号进行了时间包络变形部2v的处理之后,以时间包络变形部2v的输出信号为对象进行二次高频调整部的处理。
另外,在第4实施方式的语音解码装置(语音解码装置24、24a、24b)中,线形预测滤波部2k与时间包络变形部2v的处理的顺序可逆。即,也可以对高频调整部2j或一次高频调整部2j1的输出信号首先进行时间包络变形部2v的处理,接着,对时间包络变形部2v的输出信号进行线形预测滤波部2k的处理。
另外,时间包络辅助信息包含指示是否进行线形预测滤波部2k或时间包络变形部2v的处理的二进制控制信息,该控制信息不限于指示进行线形预测滤波部2k或时间包络变形部2v的处理的情况,也可以为还包含滤波强度参数K(r)、包络形状参数s(i)或者X(r)(决定K(r)和s(i)两者的参数)中任意一个以上作为信息的形式。
(第4实施方式的变形例3)
第4实施方式的变形例3的语音解码装置24c(参照图16)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24c的内置存储器中存储的预定的计算机程序(例如,用于进行图17的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24c。语音解码装置24c的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。语音解码装置24c如图16所示具备一次高频调整部2j3和二次高频调整部2j4,来代替高频调整部2j,此外还具备个别信号成分调整部2z1、2z2、2z3,来代替线形预测滤波部2k和时间包络变形部2v(个别信号成分调整部相当于时间包络变形单元)。
一次高频调整部2j3将高频频带的QMF区域的信号作为复写信号成分输出。一次高频调整部2j3也可以针对高频频带的QMF区域信号,将利用从比特流分离部2a3输出的SBR辅助信息进行了时间方向的线形预测逆滤波处理以及增益的调整(频率特性的调整)的至少一方的信号作为复写信号成分输出。此外,一次高频调整部2j3利用从比特流分离部2a3输出的SBR辅助信息来生成噪声信号成分以及正弦波信号成分,并以分离的形式分别输出复写信号成分、噪声信号成分以及正弦波信号成分(步骤Sg1的处理)。噪声信号成分以及正弦波信号成分依赖于SBR辅助信息的内容,存在不生成这些成分的情况。
个别信号成分调整部2z1、2z2、2z3对所述一次高频调整部的输出中包含的多个信号成分分别进行处理(步骤Sg2的处理)。个别信号成分调整部2z1、2z2、2z3中的处理可以是与线形预测滤波部2k同样的、利用了从滤波强度调整部2f获得的线形预测系数的频率方向的线形预测合成滤波处理(处理1)。此外,个别信号成分调整部2z1、2z2、2z3中的处理也可以是与时间包络变形部2v同样的、利用从包络形状调整部2s获得的时间包络将各QMF子带采样与增益系数相乘的处理(处理2)。另外,关于个别信号成分调整部2z1、2z2、2z3中的处理,在针对输入信号进行了与线形预测滤波部2k同样的、利用了从滤波强度调整部2f获得的线形预测系数的频率方向的线形预测合成滤波处理之后,还可以针对该输出信号进一步进行与时间包络变形部2v同样的、利用从包络形状调整部2s获得的时间包络将各QMF子带采样与增益系数相乘的处理(处理3)。另外,关于个别信号成分调整部2z1、2z2、2z3中的处理,在针对输入信号进行了与时间包络变形部2v同样的、利用从包络形状调整部2s获得的时间包络将各QMF子带采样与增益系数相乘的处理之后,还可以针对该输出信号进行与线形预测滤波部2k同样的、利用了从滤波强度调整部2f获得的线形预测系数的频率方向的线形预测合成滤波处理(处理4)。而且,个别信号成分调整部2z1、2z2、2z3也可以不对输入信号进行时间包络变形处理,而直接输出输入信号(处理5)。另外,个别信号成分调整部2z1、2z2、2z3中的处理也可以增加利用处理1~5以外的其它方法使输入信号的时间包络变形的一些处理(处理6)。另外,个别信号成分调整部2z1、2z2、2z3中的处理还可以是按照任意的顺序来组合处理1~6中的多个处理的处理(处理7)。
个别信号成分调整部2z1、2z2、2z3中的处理也可以彼此相同,但是个别信号成分调整部2z1、2z2、2z3也可以针对一次高频调整部的输出中包含的多个信号成分,分别以互不相同的方法进行时间包络的变形。例如,个别信号成分调整部2z1对所输入的复写信号进行处理2,个别信号成分调整部2z2对所输入的噪声信号成分进行处理3,个别信号成分调整部2z3对所输入的正弦波信号进行处理5,如此,针对复写信号、噪声信号、正弦波信号分别进行互不相同的处理。而且,此时,滤波强度调整部2f和包络形状调整部2s可以对个别信号成分调整部2z1、2z2、2z3分别发送相互相同的线形预测系数及时间包络,不过也可以发送互不相同的线形预测系数及时间包络,而且还可以对个别信号成分调整部2z1、2z2、2z3中任意2个以上发送同一线形预测系数及时间包络。由于个别信号成分调整部2z1、2z2、2z3的1个以上可以不进行时间包络变形处理而将输入信号直接输出(处理5),所以个别信号成分调整部2z1、2z2、2z3作为整体对从一次高频调整部2j3输出的多个信号成分的至少一个进行时间包络处理(在个别信号成分调整部2z1、2z2、2z3全部为处理5的情况下,由于对任何一个信号成分都不进行时间包络变形处理,因而不具有本发明的效果)。
个别信号成分调整部2z1、2z2、2z3各自的处理可以固定为处理1~处理7中的任意一个,也可以根据来自外部的控制信息,动态地决定进行处理1~处理7的哪一个。此时,上述控制信息优选包含在复用比特流中。而且,上述控制信息还可以指示特定的SBR包络时间分段、编码帧或者在其它时间范围中进行处理1~处理7的哪一个,而且,即使没有特别指定控制的时间范围,也可以指示进行处理1~处理7的哪一个。
二次高频调整部2j4对从个别信号成分调整部2z1、2z2、2z3输出的处理后的信号成分求和而输出至系数相加部(步骤Sg3的处理)。此外,二次高频调整部2j4可针对复写信号成分,利用从比特流分离部2a3输出的SBR辅助信息,进行时间方向的线形预测逆滤波处理以及增益调整(频率特性的调整)的至少一方。
个别信号成分调整部2z1、2z2、2z3相互协调地进行动作,并对进行了处理1~7中的任一处理之后的2个以上的信号成分相互求和,并对求和后的信号进一步施加处理1~7中的任一处理而生成中间阶段的输出信号。此时,二次高频调整部2j4对上述中间阶段的输出信号、以及还未与上述中间阶段的输出信号相加的信号成分求和,并输出至系数相加部。具体地说,在对复写信号成分进行处理5,对噪声成分施加处理1之后,优选将这2个信号成分相互求和,对求和后的信号进一步施加处理2而生成中间阶段的输出信号。此时,二次高频调整部2j4将上述中间阶段的输出信号与正弦波信号成分求和,并输出至系数相加部。
一次高频调整部2j3不限于复写信号成分、噪声信号成分、正弦波信号成分这3个信号成分,还可以以相互分离的形式输出任意的多个信号成分。此时的信号成分可以是将复写信号成分、噪声信号成分、正弦波信号成分中的2个以上求和后得到的成分。而且,可以是将复写信号成分、噪声信号成分、正弦波信号成分的任意一个进行了频带分割之后的信号。信号成分的数量可以是3以外,在这种情况下,个别信号成分调整部的数量也可以是3以外。
通过SBR生成的高频信号由将低频频带复写为高频频带而获得的复写信号成分、噪声信号和正弦波信号这3个要素构成。由于复写信号、噪声信号、正弦波信号分别具有互不相同的时间包络,所以如本变形例的个别信号成分调整部所进行的那样,通过互不相同的方法对各个信号成分进行时间包络的变形,由此与本发明的其它实施例相比,能够进一步提高解码信号的主观质量。尤其是,由于噪声信号通常具有平坦的时间包络,复写信号具有与低频频带的信号接近的时间包络,所以将它们分离后使用并施加互不相同的处理,从而能够独立地控制复写信号以及噪声信号的时间包络,这在提高解码信号的主观质量上是有效的。具体地说,优选对噪声信号进行使时间包络变形的处理(处理3或处理4),对复写信号进行与对噪声信号的处理不同的处理(处理1或处理2),还对正弦波信号进行处理5(即,不进行时间包络变形处理)。或者,优选对噪声信号进行时间包络的变形处理(处理3或处理4),对复写信号和正弦波信号进行处理5(即,不进行时间包络变形处理)。
(第1实施方式的变形例4)
第1实施方式的变形例4的语音编码装置11b(图44)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等的语音编码装置11b的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11b。语音编码装置11b的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。语音编码装置11b具备线形预测分析部1e1,以代替语音编码装置11的线形预测分析部1e,还具备时隙选择部1p。
时隙选择部1p从频率变换部1a接收QMF区域的信号,并选择实施线形预测分析部1e1的线形预测分析处理的时隙。线形预测分析部1e1根据由时隙选择部1p通知的选择结果,与线形预测分析部1e同样地对所选择的时隙的QMF区域信号进行线形预测分析,取得高频线形预测系数、低频线形预测系数中的至少一个。滤波强度参数计算部1f使用在线形预测分析部1e1中获得的、时隙选择部1p所选择的时隙的线形预测系数计算滤波强度参数。关于时隙选择部1p的时隙选择,例如可利用与后述本变形例的解码装置21a中的时隙选择部3a同样的、利用高频成分的QMF区域信号的信号功率的选择方法中的至少一种。此时,时隙选择部1p中的高频成分的QMF区域信号优选为从频率变换部1a接收的QMF区域的信号中的、在SBR编码部1d进行了编码的频率成分。时隙的选择方法可采用上述方法中的至少一种,还可以采用与上述方法不同的方法中的至少一种,还可以将它们组合来使用。
第1实施方式的变形例4的语音解码装置21a(参照图18)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置21a的内置存储器中存储的预定的计算机程序(例如,用于进行图19的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置21a。语音解码装置21a的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如图18所示,语音解码装置21a具备低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替语音解码装置21的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i以及线形预测滤波部2k,此外还具备时隙选择部3a。
时隙选择部3a针对由高频生成部2g生成的时隙r的高频成分的QMF区域的信号qexp(k,r),判断是否在线形预测滤波部2k中进行线形预测合成滤波处理,并选择进行线形预测合成滤波处理的时隙(步骤Sh1的处理)。时隙选择部3a向低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1、线形预测滤波部2k3通知时隙的选择结果。低频线形预测分析部2d1根据由时隙选择部3a通知的选择结果,与低频线形预测分析部2d同样地对所选择的时隙r1的QMF区域信号进行线形预测分析,并取得低频线形预测系数(步骤Sh2的处理)。信号变化检测部2e1根据由时隙选择部3a通知的选择结果,与信号变化检测部2e同样地检测所选择的时隙的QMF区域信号的时间变化,并输出检测结果T(r1)。
滤波强度调整部2f针对在低频线形预测分析部2d1中获得的、时隙选择部3a所选择的时隙的低频线形预测系数进行滤波强度调整,获得调整后的线形预测系数adec(n,r1)。高频线形预测分析部2h1根据由时隙选择部3a通知的选择结果,与所选择的时隙r1相关地,与高频线形预测分析部2h同样地在频率方向上对高频生成部2g所生成的高频成分的QMF区域信号进行线形预测分析,并取得高频线形预测系数aexp(n,r1)(步骤Sh3的处理)。线形预测逆滤波部2i1根据由时隙选择部3a通知的选择结果,与线形预测逆滤波部2i同样地,在频率方向上对所选择的时隙r1的高频成分的QMF区域的信号qexp(k,r)进行以aexp(n,r1)为系数的线形预测逆滤波处理(步骤Sh4的处理)。
线形预测滤波部2k3根据由时隙选择部3a通知的选择结果,针对从所选择的时隙r1的高频调整部2j输出的高频成分的QMF区域的信号qadj(k、r1),与线形预测滤波部2k同样地,利用从滤波强度调整部2f获得的aadj(n,r1),在频率方向上进行线形预测合成滤波处理(步骤Sh5的处理)。另外,可对线形预测滤波部2k3施加变形例3中记载的针对线形预测滤波部2k的变更。关于选择实施时隙选择部3a的线形预测合成滤波处理的时隙,例如可以选择高频成分的QMF区域信号qexp(k,r)的信号功率大于规定值Pexp,Th的一个以上的时隙r。优选用下式求出qexp(k,r)的信号功率。
[式42]
P exp ( r ) = &Sigma; k = k x k x + M - 1 | q exp ( k , r ) | 2
其中,M是表示比高频生成部2g所生成的高频成分的下限频率kx高的频率范围的值,此外,还可以将高频生成部2g所生成的高频成分的频率范围表示为kx<=k<kx+M。另外,规定值Pexp,Th可以是包含时隙r的规定时间幅度的Pexp(r)的平均值。此外,规定时间幅度可以是SBR包络。
另外,还可以选择为包含高频成分的QMF区域信号的信号功率达到峰值的时隙。信号功率的峰值例如也可以是针对信号功率的移动平均值
[式43]
Pexp,MA(r)
[式44]
Pexp,MA(r+1)-Pexp,MA(r)
从正值变为负值的时隙r的高频成分的QMF区域的信号功率作为峰值。信号功率的移动平均值
[式45]
Pexp,MA(r)
例如可通过下式来求出。
[式46]
P exp , MA ( r ) = 1 c &Sigma; r &prime; = r - c 2 r + c 2 - 1 P exp ( r &prime; )
其中,c是确定求出平均值的范围的规定值。另外,信号功率的峰值可利用上述方法求出,也可以利用不同方法求出。
此外,当从高频成分的QMF区域信号的信号功率变动小的稳定状态到变动大的过渡状态的时间幅度t小于规定值tth时,可以至少选择一个该时间幅度中包含的时隙。此外,当从高频成分的QMF区域信号的信号功率变动大的过渡状态到变动小的稳定状态的时间幅度t小于规定值tth时,可以至少选择一个该时间幅度中包含的时隙。可将|Pexp(r+1)-Pexp(r)|小于规定值(或小于等于规定值)的时隙r设为上述稳定状态,将|Pexp(r+1)-Pexp(r)|大于等于规定值(或大于规定值)的时隙r设为上述过渡状态,将|Pexp,MA(r+1)-Pexp,MA(r)|小于规定值(或小于等于规定值)的时隙r设为上述稳定状态,将Pexp,MA(r+1)-Pexp,MA(r)|大于等于规定值(或大于规定值)的时隙r设为上述过渡状态。而且,过渡状态、稳定状态可以利用上述方法进行定义,也可以利用不同的方法进行定义。时隙的选择方法可至少采用上述方法中的一个,也可以采用至少一个与上述不同的方法,还可以采用它们的组合。
(第1实施方式的变形例5)
第1实施方式的变形例5的语音编码装置11c(图45)物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11c的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11c。语音编码装置11c的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。语音编码装置11c具备时隙选择部1p1以及比特流复用部1g4,来代替变形例4的语音编码装置11b的时隙选择部1p以及比特流复用部1g。
时隙选择部1p1与第1实施方式的变形例4中记载的时隙选择部1p同样地选择时隙,并将时隙选择信息发送给比特流复用部1g4。比特流复用部1g4与比特流复用部1g同样地,将由核心编解码器编码部1c计算出的编码比特流、由SBR编码部1d计算出的SBR辅助信息以及由滤波强度参数计算部1f计算出的滤波强度参数复用,此外还复用从时隙选择部1p1接收到的时隙选择信息,并经由语音编码装置11c的通信装置输出复用比特流。上述时隙选择信息是后述语音解码装置21b中的时隙选择部3a1接收的时隙选择信息,例如可包含所选择的时隙的索引r1。此外,例如可以是时隙选择部3a1的时隙选择方法中使用的参数。第1实施方式的变形例5的语音解码装置21b(参照图20)物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置21b的内置存储器中存储的预定的计算机程序(例如,用于进行图21的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置21b。语音解码装置21b的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。
语音解码装置21b如图20所示具有比特流分离部2a5以及时隙选择部3a1,来代替变形例4的语音解码装置21a的比特流分离部2a以及时隙选择部3a,并向时隙选择部3a1输入时隙选择信息。在比特流分离部2a5中,与比特流分离部2a同样地,将复用比特流分离为滤波强度参数、SBR辅助信息和编码比特流,还分离时隙选择信息。在时隙选择部3a1中,根据从比特流分离部2a5发送的时隙选择信息来选择时隙(步骤Si1的处理)。时隙选择信息是用于选择时隙的信息,例如可包含所选择的时隙的索引r1。此外,还可以是例如变形例4中记载的时隙选择方法中使用的参数。在这种情况下,除了时隙选择信息之外,还将虽未图示但在高频生成部2g中生成的高频成分的QMF区域信号也输入时隙选择部3a1。所述参数可以是用于例如选择上述时隙的规定值(例如,Pexp,Th、tTh等)。
(第1实施方式的变形例6)
第1实施方式的变形例6的语音编码装置11d(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11d的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11d。语音编码装置11d的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。语音编码装置11d具备未图示的短时功率计算部1i1以取代变形例1的语音编码装置11a的短时功率计算部1i,还具备时隙选择部1p2。
时隙选择部1p2从频率变换部1a接收QMF区域的信号,并选择与在短时功率计算部1i中实施短时功率计算处理的时间区间对应的时隙。短时功率计算部1i1根据由时隙选择部1p2通知的选择结果,与变形例1的语音编码装置11a的短时功率计算部1i同样地,计算与所选择时隙对应的时间区间的短时功率。
(第1实施方式的变形例7)
第1实施方式的变形例7的语音编码装置11e(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11e的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11e。语音编码装置11e的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。语音编码装置11e具备未图示的时隙选择部1p3,以代替变形例6的语音编码装置11d的时隙选择部1p2。此外,还具备接收来自时隙选择部1p3的输出的比特流复用部,来代替比特流复用部1g1。时隙选择部1p3与第1实施方式的变形例6中记载的时隙选择部1p2同样地选择时隙,将时隙选择信息发送给比特流复用部。
(第1实施方式的变形例8)
第1实施方式的变形例8的语音编码装置(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等变形例8的语音编码装置的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例8的语音编码装置。变形例8的语音编码装置的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。变形例8的语音编码装置除了变形例2中记载的语音编码装置之外还具备时隙选择部1p。
第1实施方式中变形例8的语音解码装置(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等变形例8的语音解码装置的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例8的语音解码装置。变形例8的语音解码装置的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。变形例8的语音解码装置具备低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,以代替变形例2中记载的语音解码装置的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i以及线形预测滤波部2k,还具备时隙选择部3a。
(第1实施方式的变形例9)
第1实施方式的变形例9的语音编码装置(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等变形例9的语音编码装置的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例9的语音编码装置。变形例9的语音编码装置的通信装置从外部接收作为编码对象的语音信号,而且将编码后的复用比特流输出至外部。变形例9的语音编码装置具备时隙选择部1p1,来代替变形例8中记载的语音编码装置的时隙选择部1p。此外,取代变形例8中记载的比特流复用部,还具备除了向变形例8中记载的比特流复用部进行输入还接收来自时隙选择部1p1的输出的比特流复用部。
第1实施方式的变形例9的语音解码装置(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等变形例9的语音解码装置的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制变形例9的语音解码装置。变形例9的语音解码装置的通信装置接收编码后的复用比特流,而且向外部输出解码后的语音信号。变形例9的语音解码装置具备时隙选择部3a1来代替变形例8中记载的语音解码装置的时隙选择部3a。此外,还具备分离上述变形例2中记载的aD(n,r)的比特流分离部,来代替比特流分离部2a,取代比特流分离部2a5的滤波强度参数。
(第2实施方式的变形例1)
第2实施方式的变形例1的语音编码装置12a(图46)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置12a的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置12a。语音编码装置12a的通信装置从外部接收作为编码对象的语音信号,而且向外部输出编码后的复用比特流。语音编码装置12a具备线形预测分析部1e1来取代语音编码装置12的线形预测分析部1e,还具备时隙选择部1p。
第2实施方式的变形例1的语音解码装置22a(参照图22)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置22a的内置存储器中存储的预定的计算机程序(例如,用于进行图23的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置22a。语音解码装置22a的通信装置接收编码后的复用比特流,而且向外部输出解码后的语音信号。如图22所示,语音解码装置22a具备高频线形预测分析部2h1、线形预测逆滤波部2i1、线形预测滤波部2k2以及线形预测内插/外插部2p1,来取代第2实施方式的语音解码装置22的高频线形预测分析部2h、线形预测逆滤波部2i、线形预测滤波部2k1,以及线形预测内插/外插部2p,而且还具备时隙选择部3a。
时隙选择部3a向高频线形预测分析部2h1、线形预测逆滤波部2i1、线形预测滤波部2k2、线形预测系数内插/外插部2p1通知时隙的选择结果。在线形预测系数内插/外插部2p1中,根据从时隙选择部3a通知的选择结果,与线形预测系数内插/外插部2p同样地利用内插或外插来取得与作为所选择的时隙的没有传送线形预测系数的时隙r1对应的aH(n,r)(步骤Sj1的处理)。在线形预测滤波部2k2中,根据从时隙选择部3a通知的选择结果,与所选择的时隙r1相关地,针对从高频调整部2j输出的qadj(n,r1),利用从线形预测系数内插/外插部2p1获得的已内插或外插的aH(n,r1),与线形预测滤波部2k1同样地在频率方向进行线形预测合成滤波处理(步骤Sj2的处理)。另外,可对线形预测滤波部2k2施加对第1实施方式变形例3中记载的线形预测滤波部2k进行的变更。
(第2实施方式的变形例2)
第2实施方式的变形例2的语音编码装置12b(图47)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置12b的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置11b。语音编码装置12b的通信装置从外部接收作为编码对象的语音信号,而且向外部输出编码后的复用比特流。语音编码装置12b具备时隙选择部1p1以及比特流复用部1g5来代替变形例1的语音编码装置12a的时隙选择部1p以及比特流复用部1g2。比特流复用部1g5与比特流复用部1g2同样地,将在核心编解码器编码部1c中计算出的编码比特流、在SBR编码部1d中计算出的SBR辅助信息、以及与从线形预测系数量化部1k输出的量化后的线形预测系数对应的时隙的索引复用,此外,还在比特流中复用从时隙选择部1p1接收到的时隙选择信息,经由语音编码装置12b的通信装置将复用比特流输出。
第2实施方式的变形例2的语音解码装置22b(参照图24)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置22b的内置存储器中存储的预定的计算机程序(例如,用于进行图25的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置22b。语音解码装置22b的通信装置接收编码后的复用比特流,而且,将解码后的语音信号输出至外部。如图24所示,语音解码装置22b具备比特流分离部2a6以及时隙选择部3a1,来代替变形例1中记载的语音解码装置22a的比特流分离部2a1以及时隙选择部3a,并向时隙选择部3a1输入时隙选择信息。在比特流分离部2a6中,与比特流分离部2a1同样地将复用比特流分离为已量化的aH(n,ri)、与其对应的时隙的索引ri、SBR辅助信息和编码比特流,并进一步分离时隙选择信息。
(第3实施方式的变形例4)
在第3实施方式的变形例1中记载的
[式47]
e ( i ) &OverBar;
可以是在e(r)的SBR包络内的平均值,此外还可以是其它规定的值。
(第3实施方式的变形例5)
包络形状调整部2s如上述第3实施方式的变形例3中记载的那样,鉴于调整后的时间包络eadj(r)是例如在式(28)、式(37)以及(38)中那样与QMF子带采样相乘的增益系数,优选通过规定值eadj,Th(r)对eadj(r)进行如下限制。
[式48]
eadj(r)≥eadj,Th
(第4实施方式)
第4实施方式的语音编码装置14(图48)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置14的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置14。语音编码装置14的通信装置从外部接收作为编码对象的语音信号,而且向外部输出编码后的复用比特流。语音编码装置14具备比特流复用部1g7以代替第1实施方式的变形例4的语音编码装置11b的比特流复用部1g,此外还具备语音编码装置13的时间包络计算部1m以及包络形状参数计算部1n。
比特流复用部1g7与比特流复用部1g同样地将由核心编解码器编码部1c计算出的编码比特流和由SBR编码部1d计算出的SBR辅助信息复用,此外,还将滤波强度参数计算部计算出的滤波强度参数和包络形状参数计算部1n计算出的包络形状参数变换为时间包络辅助信息而进行复用,将复用比特流(编码后的复用比特流)经由语音编码装置14的通信装置输出。
(第4实施方式的变形例4)
第4实施方式的变形例4的语音编码装置14a(图49)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置14a的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置14a。语音编码装置14a的通信装置从外部接收作为编码对象的语音信号,而且向外部输出编码后的复用比特流。语音编码装置14a具备线形预测分析部1e1以代替第4实施方式的语音编码装置14的线形预测分析部1e,还具备时隙选择部1p。
第4实施方式的变形例4的语音解码装置24d(参照图26)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24d的内置存储器中存储的预定的计算机程序(例如,用于进行图27的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24d。语音解码装置24d的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如图26所示,语音解码装置24d具备低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替语音解码装置24的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i以及线形预测滤波部2k,还具备时隙选择部3a。时间包络变形部2v利用从包络形状调整部2s获得的时间包络信息,与第3实施方式、第4实施方式以及这些变形例的时间包络变形部2v同样地,使从线形预测滤波部2k3获得的QMF区域的信号变形(步骤Sk1的处理)。
(第4实施方式的变形例5)
第4实施方式的变形例5的语音解码装置24e(参照图28)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24e的内置存储器中存储的预定的计算机程序(例如,用于进行图29的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24e。语音解码装置24e的通信装置接收编码后的复用比特流,而且将解码的语音信号向外部输出。如图28所示,在变形例5中,语音解码装置24e省略了与第1实施方式同样地可通过第4实施方式整体省略的、变形例4中记载的语音解码装置24d的高频线形预测分析部2h1和线形预测逆滤波部2i1,并且具备时隙选择部3a2以及时间包络变形部2v1,来代替语音解码装置24d的时隙选择部3a以及时间包络变形部2v。此外,还变换作为可通过第4实施方式整体来变换处理顺序的、线形预测滤波部2k3的线形预测合成滤波处理和时间包络变形部2v1中的时间包络变形处理的顺序。
时间包络变形部2v1与时间包络变形部2v同样地利用从包络形状调整部2s获得的eadj(r)来使从高频调整部2j获得的qadj(k,r)变形,取得时间包络已变形的QMF区域的信号qenvadj(k,r)。此外,将利用在时间包络变形处理时获得的参数或至少在时间包络变形处理时获得的参数计算出的参数作为时隙选择信息,通知给时隙选择部3a2。作为时隙选择信息可以是式(22)、式(40)的e(r)或在其计算过程中未进行平方根运算的|e(r)|2,还可以将某多个时隙区间(例如SBR包络)
[式49]
bi≤r<bi+1
中的这些e(r)的平均值,即式(24)的
[式50]
e ( i ) &OverBar; , | e ( i ) &OverBar; | 2
作为时隙选择信息。其中,
[式51]
| e ( i ) &OverBar; | 2 = &Sigma; r = b i b i + 1 - 2 | e ( r ) | 2 b i + 1 - b i
此外,作为时隙选择信息可以是式(26)、式(41)的eexp(r)或在其计算过程中未进行平方根运算的|eexp(r)|2,还可以将某多个时隙区间(例如SBR包络)
[式52]
bi≤r<bi+1
中的这些eexp(r)的平均值,即
[式53]
e &OverBar; exp ( i ) , | e &OverBar; exp ( i ) | 2
作为时隙选择信息。其中,
[式54]
e &OverBar; exp ( i ) = &Sigma; r = b i b i + 1 - 1 e exp ( r ) b i + 1 - b i
[式55]
| e &OverBar; exp ( i ) | 2 = &Sigma; r = b i b i + 1 - 1 | e exp ( r ) | 2 b i + 1 - b i
此外,作为时隙选择信息,可以是式(23)、式(35)、式(36)的eadj(r)或在其计算过程中未进行平方根运算的|eadj(r)|2,还可以将某多个时隙区间(例如SBR包络)
[式56]
bi≤r<bi+1
中的这些eadj(r)的平均值
[式57]
e &OverBar; adj ( i ) , | e &OverBar; adj ( i ) | 2
作为时隙选择信息。其中,
[式58]
e &OverBar; adj ( i ) = &Sigma; r = b i b i + 1 - 1 e adj ( r ) b i + 1 - b i
[式59]
| e &OverBar; adj ( i ) | 2 = &Sigma; r = b i b i + 1 - 1 | e adj ( r ) | 2 b i + 1 - b i
此外,作为时隙选择信息可以是式(37)的eadj,scaled(r)或在其计算过程中未进行平方根运算的|eadj,scaled(r)|2,还可以将某多个时隙区间(例如SBR包络)
[式60]
bi≤r<bi+1
中的eadj,scaled(r)的平均值
[式61]
e &OverBar; adj , scaled ( i ) , | e &OverBar; adj , scaled ( i ) | 2
作为时隙选择信息。其中,
[式62]
e &OverBar; adj , scaled ( i ) = &Sigma; r = b i b i + 1 - 1 e adj , scaled ( r ) b i + 1 - b i
[式63]
| e &OverBar; adj , scaled ( i ) | 2 = &Sigma; r = b i b i + 1 - 1 | e adj , scaled ( r ) | 2 b i + 1 - b i
此外,作为时隙选择信息可以是与时间包络已变形的高频成分对应的QMF区域信号的时隙r的信号功率Penvadj(r)或进行了其平方根运算的信号振幅值
[式64]
P envadj ( r )
还可以将某多个时隙区间(例如SBR包络)
[式65]
bi≤r<bi+1
中的它们的平均值即
[式66]
P &OverBar; envadj ( i ) , P &OverBar; envadj ( i )
作为时隙选择信息。其中,
[式67]
P envadj ( r ) = &Sigma; k = k x k x + M - 1 | q envadj ( k , r ) | 2
[式68]
P &OverBar; envadj ( i ) = &Sigma; r = b i b i + 1 - 1 P envadj ( r ) b i + 1 - b i
其中,M是表示比高频生成部2g所生成的高频成分的下限频率kx高的频率范围的值,此外,还可以将高频生成部2g所生成的高频成分的频率范围表示为kx≤k<kx+M。
时隙选择部3a2根据由时间包络变形部2v1通知的时隙选择信息,来判断是否在线形预测滤波部2k中针对由时间包络变形部2v1使时间包络发生了变形的时隙r的高频成分的QMF区域的信号qenvadj(k,r)实施线形预测合成滤波处理,并选择实施线形预测合成滤波处理的时隙(步骤Sp1的处理)。
在本变形例的实施时隙选择部3a2的线形预测合成滤波处理的时隙选择中,可以选择包含在由时间包络变形部2v1通知的时隙选择信息中的参数u(r)大于规定值uTh的一个以上时隙r,也可以选择u(r)大于等于规定值uTh的一个以上时隙r。u(r)可包含上述e(r)、|e(r)|2、eexp(r)、|eexp(r)|2、eadj(r)、|eadj(r)|2、eadj,scaled(r)、|eadj,scaled(r)|2、Penvadj(r)以及
[式69]
P envadj ( r )
中的至少一个,uTh可包含上述
[式70]
e ( i ) &OverBar; , | e ( i ) &OverBar; | 2 , e exp ( i ) ,
| e &OverBar; exp ( i ) | 2 , e &OverBar; adj ( i ) , | e &OverBar; adj ( i ) | 2
e &OverBar; adj , scaled ( i ) , | e &OverBar; adj , scaled ( i ) | 2 ,
P &OverBar; envadj ( i ) , P &OverBar; envadj ( i ) ,
中的至少一个。另外,uTh可以是包含时隙r的预定的时间幅度(例如SBR包络)的u(r)的平均值。此外,还可以选择为包含u(r)为峰值的时隙。可与上述第1实施方式的变形例4中的高频成分的QMF区域信号的信号功率峰值的计算同样地计算u(r)的峰值。此外,可利用u(r)与上述第1实施方式的变形例4同样地判断上述第1实施方式的变形例4中的稳定状态和过渡状态,并根据该状态来选择时隙。时隙的选择方法可采用至少一个上述方法,也可以采用至少一个与上述方法不同的方法,还可以将这些方法组合起来。
(第4实施方式的变形例6)
第4实施方式的变形例6的语音解码装置24f(参照图30)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等的语音解码装置24f的内置存储器中存储的预定的计算机程序(例如,用于进行图29的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24f。语音解码装置24f的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如图30所示,在变形例6中,语音解码装置24f省略了与第1实施方式同样地可通过第4实施方式整体省略的、变形例4中记载的语音解码装置24d的信号变化检测部2e1、高频线形预测分析部2h1和线形预测逆滤波部2i1,并且具备时隙选择部3a2以及时间包络变形部2v1来代替语音解码装置24d的时隙选择部3a以及时间包络变形部2v。此外,还变换作为可通过第4实施方式的整体来变换处理顺序的、线形预测滤波部2k3的线形预测合成滤波处理和时间包络变形部2v1中的时间包络变形处理的顺序。
时隙选择部3a2根据由时间包络变形部2v1通知的时隙选择信息,判断是否在线形预测滤波部2k3中针对通过时间包络变形部2v1使时间包络变形的时隙r的高频成分的QMF区域的信号qenvadj(k,r)实施线形预测合成滤波处理,选择实施线形预测合成滤波处理的时隙,将所选择的时隙通知给低频线形预测分析部2d1和线形预测滤波部2k3。
(第4实施方式的变形例7)
第4实施方式的变形例7的语音编码装置14b(图50)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置14b的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音编码装置14b。语音编码装置14b的通信装置从外部接收作为编码对象的语音信号,而且向外部输出编码后的复用比特流。语音编码装置14b具备比特流复用部1g6以及时隙选择部1p1,来取代变形例4的语音编码装置14a的比特流复用部1g7以及时隙选择部1p。
与比特流复用部1g7同样地,比特流复用部1g6将由核心编解码器编码部1c计算出的编码比特流、由SBR编码部1d计算出的SBR辅助信息、以及将滤波强度参数计算部计算出的滤波强度参数和包络形状参数计算部1n计算出的包络形状参数进行了变换后得到的时间包络辅助信息复用,此外还复用从时隙选择部1p1接收到的时隙选择信息,将复用比特流(编码后的复用比特流)经由语音编码装置14b的通信装置输出。
第4实施方式的变形例7的语音解码装置24g(参照图31)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24g的内置存储器中存储的预定的计算机程序(例如,用于进行图32的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24g。语音解码装置24g的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输出。如图31所示,语音解码装置24g具备比特流分离部2a7以及时隙选择部3a1,来代替变形例4中记载的语音解码装置24d的比特流分离部2a3以及时隙选择部3a。
与比特流分离部2a3同样地,比特流分离部2a7将经由音解码装置24g的通信装置输入的复用比特流分离为时间包络辅助信息、SBR辅助信息和编码比特流,还分离出时隙选择信息。
(第4实施方式的变形例8)
第4实施方式的变形例8的语音解码装置24h(参照图33)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24h的内置存储器中存储的预定的计算机程序(例如,用于进行图34的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24h。语音解码装置24h的通信装置接收编码后的复用比特流而且将解码后的语音信号向外部输出。如图33所示,语音解码装置24h具备低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替变形例2的语音解码装置24b的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i以及线形预测滤波部2k,还具备时隙选择部3a。一次高频调整部2j1与第4实施方式变形例2中的一次高频调整部2j1同样地,进行上述“MPEG-4AAC"的SBR中的“HF调整(HF Adjustment)”步骤中的任意一个以上的处理(步骤Sm1的处理)。二次高频调整部2j2与第4实施方式变形例2中的二次高频调整部2j2同样地,进行上述“MPEG-4AAC"的SBR中的“HF调整(HFAdjustment)”步骤中的任意一个以上的处理(步骤Sm2的处理)。二次高频调整部2j2中进行的处理优选为上述“MPEG-4AAC"的SBR中的“HF调整(HF Adjustment)”步骤的处理中的、一次高频调整部2j1没有进行过的处理。
(第4实施方式的变形例9)
第4实施方式的变形例9的语音解码装置24i(参照图35)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24i的内置存储器中存储的预定的计算机程序(例如,用于进行图36的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24i。语音解码装置24i的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如图35所示,语音解码装置24i省略了与第1实施方式同样地可通过第4实施方式整体省略的、变形例8的语音解码装置24h的高频线形预测分析部2h1以及线形预测逆滤波部2i1,并且具备时间包络变形部2v1以及时隙选择部3a2,以代替变形例8的语音解码装置24h的时间包络变形部2v以及时隙选择部3a。此外,还变换作为可通过第4实施方式的整体来变换处理顺序的、线形预测滤波部2k3的线形预测合成滤波处理和时间包络变形部2v1中的时间包络变形处理的顺序。
(第4实施方式的变形例10)
第4实施方式的变形例10的语音解码装置24j(参照图37)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24j的内置存储器中存储的预定的计算机程序(例如,用于进行图36的流程图所示处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24j。语音解码装置24j的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。如图37所示,语音解码装置24j省略了与第1实施方式同样地可通过第4实施方式的整体省略的、变形例8的语音解码装置24h的信号变化检测部2e1、高频线形预测分析部2h1以及线形预测逆滤波部2i1,并且具备时间包络变形部2v1以及时隙选择部3a2,来代替变形例8的语音解码装置24h的时间包络变形部2v以及时隙选择部3a。此外,还变换作为可通过第4实施方式的整体来变换处理顺序的、线形预测滤波部2k3的线形预测合成滤波处理和在时间包络变形部2v1中的时间包络变形处理的顺序。
(第4实施方式的变形例11)
第4实施方式的变形例11的语音解码装置24k(参照图38)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24k的内置存储器中存储的预定的计算机程序(例如,用于进行图39的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24k。语音解码装置24k的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输出。语音解码装置24k如图38所示,具备比特流分离部2a7以及时隙选择部3a1,来代替变形例8的语音解码装置24h的比特流分离部2a3以及时隙选择部3a。
(第4实施方式的变形例12)
第4实施方式的变形例12的语音解码装置24q(参照图40)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24q的内置存储器中存储的预定的计算机程序(例如,用于进行图41的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24q。语音解码装置24q的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输出。如图40所示,语音解码装置24q具备低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及个别信号成分调整部2z4、2z5、2z6(个别信号成分调整部相当于时间包络变形单元),来代替变形例3的语音解码装置24c的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i以及个别信号成分调整部2z1、2z2、2z3,而且还具备时隙选择部3a。
个别信号成分调整部2z4、2z5、2z6中的至少一个与所述一次高频调整部的输出中包含的信号成分相关地,根据由时隙选择部3a通知的选择结果,与个别信号成分调整部2z1、2z2、2z3同样地,针对所选择的时隙的QMF区域信号进行处理(步骤Sn1的处理)。利用时隙选择信息进行的处理优选包含上述第4实施方式变形例3所记载的个别信号成分调整部2z1、2z2、2z3的处理中的、包括频率方向的线形预测合成滤波处理的处理中的至少一个。
个别信号成分调整部2z4、2z5、2z6中的处理与上述第4实施方式变形例3中记载的个别信号成分调整部2z1、2z2、2z3的处理同样可以彼此相同,但个别信号成分调整部2z4、2z5、2z6也可以针对一次高频调整部的输出中包含的多个信号成分分别以互不相同的方法进行时间包络的变形(个别信号成分调整部2z4、2z5、2z6均没有根据由时隙选择部3a通知的选择结果进行处理的情况与本发明第4实施方式的变形例3等同)。
从时隙选择部3a向个别信号成分调整部2z4、2z5、2z6分别通知的时隙的选择结果可以不全部相同,还可以全部都不相同或者一部分不同。
此外,在图40中构成为从一个时隙选择部3a向个别信号成分调整部2z4、2z5、2z6分别通知时隙的选择结果的结构,但也可以具有多个时隙选择部,针对个别信号成分调整部2z4、2z5、2z6的各个或一部分通知不同时隙的选择结果。另外,此时,与个别信号成分调整部2z4、2z5、2z6中进行第4实施方式变形例3中记载的处理4(针对输入信号,利用与时间包络变形部2v同样的、从包络形状调整部2s获得的时间包络进行了将各QMF子带采样与增益系数相乘的处理,然后针对该输出信号,进一步利用与线形预测滤波部2k同样的、从滤波强度调整部2f获得的线形预测系数的在频率方向的线形预测合成滤波处理)的个别信号成分调整部相对的时隙选择部也可以从时间包络变形部被输入时隙选择信息而进行时隙的选择处理。
(第4实施方式的变形例13)
第4实施方式的变形例13的语音解码装置24m(参照图42)物理地上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24m的内置存储器中存储的预定的计算机程序(例如,用于进行图43的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置24m。语音解码装置24m的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。语音解码装置24m如图42所示具备比特流分离部2a7以及时隙选择部3a1,来代替变形例12的语音解码装置24q的比特流分离部2a3以及时隙选择部3a。
(第4实施方式的变形例14)
第4实施方式的变形例14的语音解码装置24n(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24n的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装置24n。语音解码装置24n的通信装置接收编码后的复用比特流,而且将解码后的语音信号向外部输出。语音解码装置24n在功能上具备低频线形预测分析部2d1、信号变化检测部2e1、高频线形预测分析部2h1、线形预测逆滤波部2i1以及线形预测滤波部2k3,来代替变形例1的语音解码装置24a的低频线形预测分析部2d、信号变化检测部2e、高频线形预测分析部2h、线形预测逆滤波部2i,以及线形预测滤波部2k,而且还具备时隙选择部3a。
(第4实施方式的变形例15)
第4实施方式的变形例15的语音解码装置24p(未图示)物理上具备未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置24p的内置存储器中存储的预定的计算机程序加载到RAM中并运行来统一地控制语音解码装置24p。语音解码装置24p的通信装置接收编码后的复用比特流,而且将解码后的语音信号输出至外部。语音解码装置24p在功能上具备时隙选择部3a1,来代替变形例14的语音解码装置24n的时隙选择部3a。此外,还具备比特流分离部2a8(未图示)来取代比特流分离部2a4。
与比特流分离部2a4同样地,比特流分离部2a8将复用比特流分离为SBR辅助信息和编码比特流,还分离出时隙选择信息。
工业上的可利用性
作为以SBR为代表的频域内的频带扩展技术中应用的技术,本发明不会显著增大比特率,可用作减轻所产生的前回声/后回声并提高解码信号的主观性质量的技术。
标号说明
11、11a、11b、11c、12、12a、12b、13、14,14a、14b…语音编码装置,1a…频率变换部,1b…频率逆变换部,1c…核心编解码器编码部,1d…SBR编码部,1e、1e1…线形预测分析部,1f…滤波强度参数计算部,1f1…滤波强度参数计算部,1g、1g1、1g2、1g3、1g4、1g5、1g6、1g7…比特流复用部,1h…高频频率逆变换部,1i…短时功率计算部,1j…线形预测系数抽样部,1k…线形预测系数量化部,1m…时间包络计算部,1n…包络形状参数计算部,1p,1p1…时隙选择部,21、22、23、24、24b、24c…语音解码装置,2a、2a1、2a2、2a3、2a5、2a6、2a7…比特流分离部,2b…核心编解码器解码部,2c…频率变换部,2d、2d1…低频线形预测分析部,2e、2e1…信号变化检测部,2f..滤波强度调整部,2g…高频生成部,2h、2h1…高频线形预测分析部,2i、2i1…线形预测逆滤波部,2j、2j1、2j2、2j3、2j4…高频调整部,2k、2k1、2k2、2k3…线形预测滤波部,2m…系数相加部,2n…频率逆变换部,2p、2p1…线形预测系数内插/外插部,2r…低频时间包络计算部,2s…包络形状调整部,2t…高频时间包络计算部,2u…时间包络平坦化部,2v、2v1…时间包络变形部,2w…辅助信息变换部,2z1、2z2、2z3、2z4、2z5、2z6…个别信号成分调整部,3a、3a1、3a2…时隙选择部

Claims (31)

1.一种对语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备:
核心编码单元,其对所述语音信号的低频成分进行编码;
时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及
比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。
2.根据权利要求1所述的语音编码装置,其特征在于,
所述时间包络辅助信息表示如下参数,该参数表示在规定的分析区间内所述语音信号的高频成分中的时间包络的变化的急剧程度。
3.根据权利要求2所述的语音编码装置,其特征在于,
所述语音编码装置还具备将所述语音信号变换到频域的频率变换单元,
所述时间包络辅助信息计算单元根据高频线形预测系数来计算所述时间包络辅助信息,该高频线形预测系数是通过在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析而取得的。
4.根据权利要求3所述的语音编码装置,其特征在于,
所述时间包络辅助信息计算单元对由所述频率变换单元变换到频域的所述语音信号的低频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数,根据该低频线形预测系数和所述高频线形预测系数来计算所述时间包络辅助信息。
5.根据权利要求4所述的语音编码装置,其特征在于,
所述时间包络辅助信息计算单元分别根据所述低频线形预测系数以及所述高频线形预测系数取得预测增益,并根据这两个预测增益的大小来计算所述时间包络辅助信息。
6.根据权利要求2所述的语音编码装置,其特征在于,
所述时间包络辅助信息计算单元从所述语音信号中分离出高频成分,从该高频成分中取得以时域表现的时间包络信息,并根据该时间包络信息的时间的变化的大小来计算所述时间包络辅助信息。
7.根据权利要求1所述的语音编码装置,其特征在于,
所述时间包络辅助信息包含差分信息,该差分信息用于利用对所述语音信号的低频成分进行频率方向的线形预测分析而获得的低频线形预测系数来取得高频线形预测系数。
8.根据权利要求7所述的语音编码装置,其特征在于,
该语音编码装置还具备将所述语音信号变换到频域的频率变换单元,
所述时间包络辅助信息计算单元分别对由所述频率变换单元变换到频域的所述语音信号的低频成分以及高频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数和高频线形预测系数,并取得该低频线形预测系数和高频线形预测系数的差分,由此来取得所述差分信息。
9.根据权利要求8所述的语音编码装置,其特征在于,
所述差分信息表示LSP即线谱对、ISP即导抗谱对、LSF即线谱频率、ISF即导抗谱频率、PARCOR系数的任意一个的区域中的线形预测系数的差分。
10.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:
比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;
核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;
频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;
高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;
低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;
时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及
时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
11.根据权利要求10的语音解码装置,其特征在于,
该语音解码装置还具备调整所述高频成分的高频调整单元,
所述频率变换单元是具有实数或复数系数的64通道QMF滤波器组,
所述频率变换单元、所述高频生成单元、所述高频调整单元进行以“ISO/IEC14496-3”规定的“MPEG4 AAC”中的SBR译码器即频带复制译码器为依据的动作。
12.根据权利要求10或11所述的语音解码装置,其特征在于,
所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,
所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,
所述时间包络变形单元针对由所述高频生成单元生成的频域的所述高频成分,利用由所述时间包络调整单元调整后的线形预测系数,进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
13.根据权利要求10或11所述的语音解码装置,其特征在于,
所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,
所述时间包络调整单元利用所述时间包络辅助信息调整所述时间包络信息,
所述时间包络变形单元通过将由所述高频生成单元生成的频域的高频成分与所述调整后的时间包络信息重叠来使高频成分的时间包络变形。
14.根据权利要求10或11所述的语音解码装置,其特征在于,
所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,
所述时间包络调整单元利用所述时间包络辅助信息来调整所述时间包络信息,
所述时间包络变形单元通过将所述高频生成单元所生成的频域的高频成分与所述调整后的时间包络信息相乘来使高频成分的时间包络变形。
15.根据权利要求12所述的语音解码装置,其特征在于,
所述时间包络辅助信息表示用于调整线形预测系数的强度的滤波强度参数。
16.根据权利要求13所述的语音解码装置,其特征在于,
所述时间包络辅助信息表示如下参数,该参数表示所述时间包络信息的时间变化的大小。
17.根据权利要求12所述的语音解码装置,其特征在于,
所述时间包络辅助信息包含相对于所述低频线形预测系数的线形预测系数的差分信息。
18.根据权利要求17所述的语音解码装置,其特征在于,
所述差分信息表示LSP即线谱对、ISP即导抗谱对、LSF即线谱频率、ISF即导抗谱频率、PARCOR系数的任意一个的区域中的线形预测系数的差分。
19.根据权利要求10或11所述的语音解码装置,其特征在于,
所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,并且取得该频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,
所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,
所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用由所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且使该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息重叠,由此使所述高频成分的时间包络变形。
20.根据权利要求10或11所述的语音解码装置,其特征在于,
所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,并且取得该频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,
所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,
所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且通过将该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息相乘来使所述高频成分的时间包络变形。
21.根据权利要求19所述的语音解码装置,其特征在于,
所述时间包络辅助信息表示如下参数,该参数表示线形预测系数的滤波强度和所述时间包络信息的时间变化的大小两者。
22.根据权利要求12所述的语音解码装置,其特征在于,
所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的功率调整为与所述线形预测滤波处理前相等的值。
23.根据权利要求12所述的语音解码装置,其特征在于,
所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的任意频率范围内的功率调整为与所述线形预测滤波处理前相等的值。
24.根据权利要求13所述的语音解码装置,其特征在于,
所述时间包络辅助信息是所述调整后的所述时间包络信息中的最小值与平均值的比率。
25.根据权利要求13所述的语音解码装置,其特征在于,
所述时间包络变形单元控制所述调整后的时间包络的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,然后通过将所述频域的高频成分与增益控制后的时间包络相乘来使高频成分的时间包络变形。
26.根据权利要求11所述的语音解码装置,其特征在于,
所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,还利用在SBR包络时间分段内的平均功率对每个所述QMF子带采样的功率进行归一化,由此取得表现为乘上了各QMF子带采样的增益系数的时间包络信息。
27.根据权利要求11所述的语音解码装置,其特征在于,
该语音解码装置具备相当于所述高频调整单元的一次高频调整单元和二次高频调整单元,
所述一次高频调整单元执行包含相当于所述高频调整单元的处理的一部分的处理,
所述时间包络变形单元对所述一次高频调整单元的输出信号进行时间包络的变形,
所述二次高频调整单元对所述时间包络变形单元的输出信号,执行相当于所述高频调整单元的处理中的、所述一次高频调整单元未执行的处理。
28.根据权利要求27所述的语音解码装置,其特征在于,
所述二次高频调整单元是SBR解码过程中的正弦波的附加处理。
29.一种使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述语音编码方法的特征在于,具有以下步骤:
核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;
时间包络辅助信息计算步骤,所述语音编码装置利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及
比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中进行编码了的所述低频成分、和在所述时间包络辅助信息计算步骤中计算出的所述时间包络辅助信息的比特流。
30.一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤:
比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;
核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;
频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;
高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;
低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;
时间包络调整步骤,所述语音解码装置利用所述时间包络辅助信息来调整在所述低频时间包络分析步骤中取得的所述时间包络信息;以及
时间包络变形步骤,所述语音解码装置利用在所述时间包络调整步骤中调整后的所述时间包络信息,使在所述高频生成步骤中生成的所述高频成分的时间包络变形。
31.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备:
核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;
频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;
高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;
低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;
时间包络辅助信息生成部,其分析所述比特流而生成时间包络辅助信息;
时间包络调整单元,其利用所述时间包络辅助信息来调整由所述低频时间包络分析单元取得的所述时间包络信息;以及
时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
CN201210240805.4A 2009-04-03 2010-04-02 语音编码装置及编码方法、语音解码装置及解码方法 Active CN102779523B (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2009-091396 2009-04-03
JP2009091396 2009-04-03
JP2009146831 2009-06-19
JP2009-146831 2009-06-19
JP2009162238 2009-07-08
JP2009-162238 2009-07-08
JP2010004419A JP4932917B2 (ja) 2009-04-03 2010-01-12 音声復号装置、音声復号方法、及び音声復号プログラム
JP2010-004419 2010-01-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2010800145937A Division CN102379004B (zh) 2009-04-03 2010-04-02 语音编码装置、语音解码装置、语音编码方法、语音解码方法

Publications (2)

Publication Number Publication Date
CN102779523A CN102779523A (zh) 2012-11-14
CN102779523B true CN102779523B (zh) 2015-04-01

Family

ID=42828407

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201210240811.XA Active CN102737640B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN2010800145937A Active CN102379004B (zh) 2009-04-03 2010-04-02 语音编码装置、语音解码装置、语音编码方法、语音解码方法
CN201210240795.4A Active CN102779522B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN201210240328.1A Active CN102779521B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN201210241157.4A Active CN102779520B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN201210240805.4A Active CN102779523B (zh) 2009-04-03 2010-04-02 语音编码装置及编码方法、语音解码装置及解码方法

Family Applications Before (5)

Application Number Title Priority Date Filing Date
CN201210240811.XA Active CN102737640B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN2010800145937A Active CN102379004B (zh) 2009-04-03 2010-04-02 语音编码装置、语音解码装置、语音编码方法、语音解码方法
CN201210240795.4A Active CN102779522B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN201210240328.1A Active CN102779521B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法
CN201210241157.4A Active CN102779520B (zh) 2009-04-03 2010-04-02 语音解码装置及语音解码方法

Country Status (21)

Country Link
US (5) US8655649B2 (zh)
EP (5) EP2503547B1 (zh)
JP (1) JP4932917B2 (zh)
KR (7) KR101530295B1 (zh)
CN (6) CN102737640B (zh)
AU (1) AU2010232219B8 (zh)
BR (1) BRPI1015049B1 (zh)
CA (4) CA2757440C (zh)
CY (1) CY1114412T1 (zh)
DK (2) DK2509072T3 (zh)
ES (5) ES2587853T3 (zh)
HR (1) HRP20130841T1 (zh)
MX (1) MX2011010349A (zh)
PH (4) PH12012501118B1 (zh)
PL (2) PL2503548T3 (zh)
PT (3) PT2503548E (zh)
RU (6) RU2498421C2 (zh)
SG (2) SG10201401582VA (zh)
SI (1) SI2503548T1 (zh)
TW (6) TWI478150B (zh)
WO (1) WO2010114123A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
WO2011048798A1 (ja) * 2009-10-20 2011-04-28 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
KR101430118B1 (ko) * 2010-04-13 2014-08-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들
MX2013007489A (es) * 2010-12-29 2013-11-20 Samsung Electronics Co Ltd Aparato y metodo para codificacion/decodificacion para extension de ancho de banda de alta frecuencia.
CA3147525A1 (en) * 2011-02-18 2012-08-23 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
CN103730125B (zh) * 2012-10-12 2016-12-21 华为技术有限公司 一种回声抵消方法和设备
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
PL2939235T3 (pl) 2013-01-29 2017-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Adaptacyjna względem tonalności kwantyzacja o niskiej złożoności sygnału audio
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
TWI477789B (zh) * 2013-04-03 2015-03-21 Tatung Co 資訊擷取裝置及其發送頻率調整方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN110070877B (zh) * 2013-07-18 2022-11-11 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015017223A1 (en) * 2013-07-29 2015-02-05 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
AU2014336356B2 (en) 2013-10-18 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
EP3779982A1 (en) 2013-10-18 2021-02-17 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Concept of encoding an audio signal and decoding an audio signal using deterministic and noise like information
CN105706166B (zh) * 2013-10-31 2020-07-14 弗劳恩霍夫应用研究促进协会 对比特流进行解码的音频解码器设备和方法
KR20160087827A (ko) * 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
JP6319753B2 (ja) 2013-12-02 2018-05-09 華為技術有限公司Huawei Technologies Co.,Ltd. 符号化方法および装置
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
RU2662693C2 (ru) * 2014-02-28 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
RU2673691C1 (ru) 2014-04-25 2018-11-29 Нтт Докомо, Инк. Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания
CN110491401B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质
WO2016024853A1 (ko) * 2014-08-15 2016-02-18 삼성전자 주식회사 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US9455732B2 (en) * 2014-12-19 2016-09-27 Stmicroelectronics S.R.L. Method and device for analog-to-digital conversion of signals, corresponding apparatus
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CA2982017A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
PT3443557T (pt) * 2016-04-12 2020-08-27 Fraunhofer Ges Forschung Codificador de áudio para codificar um sinal de áudio, método para codificar um sinal de áudio e programa de computador sob consideração de uma região espectral de pico detetada numa banda de frequência superior
WO2017196382A1 (en) * 2016-05-11 2017-11-16 Nuance Communications, Inc. Enhanced de-esser for in-car communication systems
DE102017204181A1 (de) 2017-03-14 2018-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11275556B2 (en) * 2018-02-27 2022-03-15 Zetane Systems Inc. Method, computer-readable medium, and processing unit for programming using transforms on heterogeneous data
US10810455B2 (en) 2018-03-05 2020-10-20 Nvidia Corp. Spatio-temporal image metric for rendered animations
CN109243485B (zh) * 2018-09-13 2021-08-13 广州酷狗计算机科技有限公司 恢复高频信号的方法和装置
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
CN113192523A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
JP6872056B2 (ja) * 2020-04-09 2021-05-19 株式会社Nttドコモ 音声復号装置および音声復号方法
CN113190508B (zh) * 2021-04-26 2023-05-05 重庆市规划和自然资源信息中心 一种面向管理的自然语言识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527995A (zh) * 2001-11-14 2004-09-08 ���µ�����ҵ��ʽ���� 编码设备和解码设备
CN1606687A (zh) * 2002-09-19 2005-04-13 松下电器产业株式会社 音频解码设备和方法
CN1639770A (zh) * 2002-03-28 2005-07-13 杜比实验室特许公司 根据频率变换重建具有不完全频谱的音频信号的频谱
JP2008513848A (ja) * 2005-07-13 2008-05-01 シーメンス アクチエンゲゼルシヤフト 音声信号の帯域幅を疑似的に拡張するための方法および装置
JP2008535025A (ja) * 2005-04-01 2008-08-28 クゥアルコム・インコーポレイテッド 音声信号を帯域分割符合化する方法及び装置

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US8782254B2 (en) * 2001-06-28 2014-07-15 Oracle America, Inc. Differentiated quality of service context assignment and propagation
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
US7519538B2 (en) * 2003-10-30 2009-04-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US7668711B2 (en) * 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7045799B1 (en) 2004-11-19 2006-05-16 Varian Semiconductor Equipment Associates, Inc. Weakening focusing effect of acceleration-deceleration column of ion implanter
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US9043214B2 (en) * 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
JP4339820B2 (ja) * 2005-05-30 2009-10-07 太陽誘電株式会社 光情報記録装置および方法および信号処理回路
US20070006716A1 (en) * 2005-07-07 2007-01-11 Ryan Salmond On-board electric guitar tuner
JP4921365B2 (ja) 2005-07-15 2012-04-25 パナソニック株式会社 信号処理装置
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
JP5457171B2 (ja) * 2006-03-20 2014-04-02 オランジュ オーディオデコーダ内で信号を後処理する方法
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
WO2009029037A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive transition frequency between noise fill and bandwidth extension
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
KR20100007018A (ko) * 2008-07-11 2010-01-22 에스앤티대우(주) 피스톤밸브 어셈블리 및 이를 포함하는 연속 감쇠력 가변형댐퍼
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527995A (zh) * 2001-11-14 2004-09-08 ���µ�����ҵ��ʽ���� 编码设备和解码设备
CN1639770A (zh) * 2002-03-28 2005-07-13 杜比实验室特许公司 根据频率变换重建具有不完全频谱的音频信号的频谱
CN1606687A (zh) * 2002-09-19 2005-04-13 松下电器产业株式会社 音频解码设备和方法
JP2008535025A (ja) * 2005-04-01 2008-08-28 クゥアルコム・インコーポレイテッド 音声信号を帯域分割符合化する方法及び装置
JP2008513848A (ja) * 2005-07-13 2008-05-01 シーメンス アクチエンゲゼルシヤフト 音声信号の帯域幅を疑似的に拡張するための方法および装置

Also Published As

Publication number Publication date
TWI476763B (zh) 2015-03-11
US9064500B2 (en) 2015-06-23
CA2844441C (en) 2016-03-15
CA2844635A1 (en) 2010-10-07
TW201126515A (en) 2011-08-01
SG10201401582VA (en) 2014-08-28
TW201243833A (en) 2012-11-01
PL2503546T4 (pl) 2017-01-31
RU2011144573A (ru) 2013-05-10
EP2503548A1 (en) 2012-09-26
RU2012130461A (ru) 2014-02-10
CN102737640A (zh) 2012-10-17
CN102737640B (zh) 2014-08-27
TW201243831A (en) 2012-11-01
KR101702412B1 (ko) 2017-02-03
US20130138432A1 (en) 2013-05-30
SG174975A1 (en) 2011-11-28
EP2503547A1 (en) 2012-09-26
CN102779522A (zh) 2012-11-14
EP2416316A1 (en) 2012-02-08
TWI379288B (zh) 2012-12-11
RU2595915C2 (ru) 2016-08-27
CA2844438C (en) 2016-03-15
CN102779520A (zh) 2012-11-14
EP2509072B1 (en) 2016-10-19
MX2011010349A (es) 2011-11-29
TW201243830A (en) 2012-11-01
PH12012501116A1 (en) 2015-08-03
CY1114412T1 (el) 2016-08-31
TW201243832A (en) 2012-11-01
KR101702415B1 (ko) 2017-02-03
CA2844441A1 (en) 2010-10-07
ES2428316T3 (es) 2013-11-07
EP2503547B1 (en) 2016-05-11
US9779744B2 (en) 2017-10-03
KR101172325B1 (ko) 2012-08-14
PT2509072T (pt) 2016-12-13
EP2416316B1 (en) 2014-01-08
PL2503548T3 (pl) 2013-11-29
AU2010232219B2 (en) 2012-11-22
ES2453165T9 (es) 2014-05-06
KR20160137668A (ko) 2016-11-30
EP2503548B1 (en) 2013-06-19
PH12012501116B1 (en) 2015-08-03
EP2416316A4 (en) 2012-09-12
KR101172326B1 (ko) 2012-08-14
EP2503546A1 (en) 2012-09-26
RU2498420C1 (ru) 2013-11-10
ES2453165T3 (es) 2014-04-04
PT2503548E (pt) 2013-09-20
US20140163972A1 (en) 2014-06-12
DK2503548T3 (da) 2013-09-30
RU2595914C2 (ru) 2016-08-27
AU2010232219B8 (en) 2012-12-06
EP2503546B1 (en) 2016-05-11
CN102379004A (zh) 2012-03-14
PH12012501119B1 (en) 2015-05-18
RU2012130472A (ru) 2013-09-10
PH12012501118A1 (en) 2015-05-11
CN102779521A (zh) 2012-11-14
KR20120079182A (ko) 2012-07-11
RU2012130462A (ru) 2013-09-10
PH12012501117B1 (en) 2015-05-11
RU2498422C1 (ru) 2013-11-10
CA2757440C (en) 2016-07-05
PH12012501119A1 (en) 2015-05-18
PH12012501118B1 (en) 2015-05-11
AU2010232219A1 (en) 2011-11-03
EP2509072A1 (en) 2012-10-10
TWI479479B (zh) 2015-04-01
JP2011034046A (ja) 2011-02-17
HRP20130841T1 (hr) 2013-10-25
US10366696B2 (en) 2019-07-30
KR101530295B1 (ko) 2015-06-19
ES2586766T3 (es) 2016-10-18
US9460734B2 (en) 2016-10-04
TWI478150B (zh) 2015-03-21
PH12012501117A1 (en) 2015-05-11
CN102779522B (zh) 2015-06-03
KR20120080258A (ko) 2012-07-16
BRPI1015049B1 (pt) 2020-12-08
CA2844438A1 (en) 2010-10-07
RU2498421C2 (ru) 2013-11-10
PT2416316E (pt) 2014-02-24
CN102379004B (zh) 2012-12-12
TWI479480B (zh) 2015-04-01
CA2757440A1 (en) 2010-10-07
KR101530294B1 (ko) 2015-06-19
US20160365098A1 (en) 2016-12-15
ES2587853T3 (es) 2016-10-27
KR20110134442A (ko) 2011-12-14
PL2503546T3 (pl) 2016-11-30
TWI384461B (zh) 2013-02-01
TW201246194A (en) 2012-11-16
US20120010879A1 (en) 2012-01-12
KR20120082475A (ko) 2012-07-23
RU2595951C2 (ru) 2016-08-27
RU2012130466A (ru) 2014-01-27
KR101530296B1 (ko) 2015-06-19
JP4932917B2 (ja) 2012-05-16
US20160358615A1 (en) 2016-12-08
CN102779521B (zh) 2015-01-28
CN102779520B (zh) 2015-01-28
SI2503548T1 (sl) 2013-10-30
US8655649B2 (en) 2014-02-18
CN102779523A (zh) 2012-11-14
RU2012130470A (ru) 2014-01-27
KR20120080257A (ko) 2012-07-16
DK2509072T3 (en) 2016-12-12
ES2610363T3 (es) 2017-04-27
KR20120082476A (ko) 2012-07-23
WO2010114123A1 (ja) 2010-10-07
CA2844635C (en) 2016-03-29

Similar Documents

Publication Publication Date Title
CN102779523B (zh) 语音编码装置及编码方法、语音解码装置及解码方法
JP5588547B2 (ja) 音声復号装置、音声復号方法、及び音声復号プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant