CN102737642B - 声音信号编解码方法、编解码装置和声音信号处理系统 - Google Patents
声音信号编解码方法、编解码装置和声音信号处理系统 Download PDFInfo
- Publication number
- CN102737642B CN102737642B CN201210242200.9A CN201210242200A CN102737642B CN 102737642 B CN102737642 B CN 102737642B CN 201210242200 A CN201210242200 A CN 201210242200A CN 102737642 B CN102737642 B CN 102737642B
- Authority
- CN
- China
- Prior art keywords
- coding
- unit
- decoding
- frame
- internal state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 86
- 230000005236 sound signal Effects 0.000 title claims description 40
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 description 18
- 230000005055 memory storage Effects 0.000 description 17
- 230000009471 action Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000013213 extrapolation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 150000001875 compounds Chemical class 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005086 pumping Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供声音信号编解码方法、编解码装置和声音信号处理系统。在通过基于与线性预测编码方式不同的编码方式的第2编码部(14)对通过基于该线性预测编码方式的第1编码部(13)进行编码的编码对象帧前面的编码之前帧进行编码的情况下,通过对第1编码部(13)的内部状态进行初始化,能够通过线性预测编码方式进行编码对象帧的编码。由此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的编码处理。
Description
本申请是分案申请,原案申请的申请号为201080010716.X,国际申请号为PCT/JP2010/053454,申请日为2010年3月3日,发明名称为“声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统、声音信号编码程序以及声音信号解码程序”。
技术领域
本发明涉及声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统、声音信号编码程序以及声音信号解码程序。
背景技术
为了降低语音/音乐信号(声音信号)的通信、放送、蓄积所需要的成本,将语音/音乐信号压缩为低比特率的编码技术是很重要的。为了高效地对语音信号和音乐信号双方进行编码,切换利用适于语音信号的编码方式和适于音乐信号的编码方式的复合型编码方式是有效的。在使用复合型编码方式的情况下,通过在语音序列的中途进行编码方式的切换,即使在输入信号的性质随时间而变化的情况下,也能够高效地进行编码。
复合型编码方式通常包含适于语音信号编码的CELP方式(CELP:Code ExcitedLinear Prediction Coding、代码激励线性预测编码)的编码作为构成要素。一般地,CELP方式的编码器在内部保持与过去的残差信号有关的信息作为自适应码本,以便对通过对输入信号应用线性预测逆滤波器而得到的残差信号进行编码。由于在编码中利用该自适应码本,所以实现了高编码效率。
对语音信号和音乐信号进行编码的技术例如记载在专利文献1等中。在专利文献1中记载了对语音信号和音乐信号双方进行编码的编码算法等。专利文献1的技术使用语音信号和音乐信号双方共同的线性预测(LP)合成滤波器。LP合成滤波器根据语音信号或音乐信号的编码,分别对语音激励振荡器和转换激励振荡器进行切换。在语音信号的编码中使用现有的CELP技术,在音乐信号的编码中应用新的非对称重复相加转换技术。在进行共同的LP合成滤波时,对重复相加操作区域的信号进行LP系数的插值。
在语音序列的中途从CELP方式以外的其他编码方式切换为基于CELP方式的编码方式的情况下,由于在编码器中不保持与切换前的语音对应的残差信号的信息作为自适应码本,所以在编码方式刚刚切换之后的帧中,编码效率低下,由此,可能产生导致语音品质劣化的问题。作为利用基于CELP方式以外的其他编码方式的编码结果对CELP方式中的编码器的内部状态进行初始化的方法的相关现有技术,公知有作为在3rd Generation Partnership Project(3GPP)中被标准化的语音编码方式的AdaptiveMultiRate Wideband plus(AMR-WB+、非专利文献1)。AMR-WB+的编码器求出对输入信号进行线性预测逆滤波器处理而得到的残差信号,然后,通过切换利用CELP方式和Transform Coded Excitation(TCX)方式这两个编码方式,来进行残差信号的编码。AMR-WB+的编码器在从TCX方式切换为CELP方式的情况下,使用TCX方式中的激励信号对CELP方式中的自适应码本进行更新。
现有技术文献
专利文献
专利文献1:日本特开2003-44097号公报
非专利文献1:3GPP TS 26.290“Audio codec processing functions;ExtendedAdaptive Multi-Rate-Wideband(AMR-WB+)codec;Transcoding functions”.[online].[retrieved on5March2009]Retrieved fromthe Internet:<URL:http://www.3gpp.org/ftp/Specs/html-info/26290.htm>.
发明内容
发明要解决的课题
但是,在使用切换利用基于CELP方式的编码方式和不使用线性预测编码的编码方式的复合型编码方式的情况下,在基于不使用线性预测编码的编码方式的编码过程中,难以得到激励信号。因此,在从不使用线性预测编码的编码方式切换为基于CELP方式的编码方式的情况下,难以通过与切换前的语音对应的激励信号对CELP方式中的自适应码本进行初始化。本发明的目的在于,在从不使用线性预测的编码方式切换为基于线性预测编码的编码方式的情况下,将基于线性预测编码的编码方式的编码单元或解码单元的内部状态的初始值设定为适当的值,改善刚刚切换之后的帧中的语音品质。
用于解决课题的手段
本发明的声音信号编码方法使用基于线性预测编码方式的第1编码单元和基于与线性预测编码方式不同的编码方式的第2编码单元,对由多个帧构成的声音信号进行编码,其特征在于,该声音信号编码方法具有如下步骤:切换步骤,在通过所述第2编码单元对所述声音信号的第1帧进行了编码后,将对紧挨着该第1帧之后的第2帧进行编码的编码单元从所述第2编码单元切换为所述第1编码单元;以及初始化步骤,在所述切换步骤之后,通过规定方法对所述第1编码单元的内部状态进行初始化。
根据本发明的声音信号编码方法,即使在利用与线性预测编码方式不同的编码方式对通过该线性预测编码方式进行编码的第2帧前面的第1帧进行了编码的情况下,通过对基于线性预测编码方式的第1编码单元的内部状态进行初始化,也能够通过线性预测编码方式进行第2帧的编码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的编码处理。
进而,在本发明中,优选所述第1编码单元的所述内部状态是自适应码本的内容或用于求出零输入响应的线性预测合成滤波器的延迟要素所保持的值,优选在所述初始化步骤中,使用所述第1帧对所述第1编码单元的内部状态进行初始化,优选在所述初始化步骤中,使用残差信号进行所述第1编码单元的初始化,所述残差信号是针对所述第2编码单元编码前的所述第1帧、或者在所述第2编码单元编码后进行解码而得到的所述第1帧中的任意一方应用所述线性预测逆滤波器而得到的,优选在所述初始化步骤中,使用所述第1编码单元对位于所述第1帧前面的第3帧进行了编码时的线性预测系数,针对所述第2编码单元编码前的所述第1帧、或者在所述第2编码单元编码后进行解码而得到的所述第1帧中的任意一方应用所述线性预测逆滤波器。或者,优选在所述初始化步骤中,在所述第2帧的码中包含所述第1帧的线性预测系数的情况下,使用该第2帧的码中包含的线性预测系数,针对所述第2编码单元编码前的所述第1帧、或者在所述第2编码单元编码后进行解码而得到的所述第1帧中的任意一方应用所述线性预测逆滤波器。而且,在本发明中,也可以在所述初始化步骤中,使用所述第1编码单元对位于所述第1帧前面的帧进行了编码时的所述第1编码单元的内部状态,对该第1编码单元的内部状态进行初始化。并且,作为用于求出零输入响应的线性预测合成滤波器中的线性预测系数,优选使用所述第1编码单元对位于所述第1帧前面的第3帧进行了编码时的线性预测系数、或者在所述第2帧的码中包含所述第1帧中的线性预测系数的情况下在该第2帧的编码时计算出的所述第1帧中的线性预测系数、或者对它们应用了听觉加权滤波器而得到的线性预测系数。
本发明的声音信号解码方法使用基于线性预测编码方式的第1解码单元和基于与线性预测编码方式不同的编码方式的第2解码单元,对由多个帧构成的编码声音信号进行解码,其特征在于,该声音信号解码方法具有如下步骤:切换步骤,在通过所述第2解码单元对所述编码声音信号的第1帧进行了解码后,将对紧挨着该第1帧之后的第2帧进行解码的解码单元从所述第2解码单元切换为所述第1解码单元;以及初始化步骤,在所述切换步骤之后,通过规定方法对所述第1解码单元的内部状态进行初始化。
根据本发明的声音信号解码方法,在通过与线性预测编码方式不同的编码方式对使用该线性预测编码方式进行解码的第2帧前面的第1帧进行了解码的情况下,通过对基于线性预测编码方式的第1解码单元的内部状态进行初始化,也能够通过线性预测编码方式进行第2帧的解码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的解码处理。
进而,在本发明中,优选所述第1解码单元的所述内部状态是自适应码本的内容或线性预测合成滤波器的延迟要素所保持的值,优选在所述初始化步骤中,使用所述第1帧对所述第1解码单元的内部状态进行初始化,优选在所述初始化步骤中,使用残差信号进行所述第1解码单元的初始化,所述残差信号是针对所述第2解码单元解码后的所述第1帧应用所述线性预测逆滤波器而得到的,优选在所述初始化步骤中,使用由所述第1解码单元对位于所述第1帧前面的第3帧进行了解码时的线性预测系数,针对所述第2解码单元解码后的所述第1帧应用所述线性预测逆滤波器。或者,优选在所述初始化步骤中,在所述第2帧的码中包含所述第1帧的线性预测系数的情况下,使用该第2帧的码中包含的线性预测系数,针对所述第2解码单元解码后的所述第1帧应用所述线性预测逆滤波器。而且,在本发明中,也可以在所述初始化步骤中,使用所述第1解码单元对位于所述第1帧前面的帧进行了解码时的所述第1解码单元的内部状态,对该第1解码单元的内部状态进行初始化。
本发明的编码装置具有基于线性预测编码方式的第1编码单元和基于与所述线性预测编码方式不同的其他编码方式的第2编码单元,使用所述第1编码单元和所述第2编码单元对声音信号进行编码,其特征在于,该编码装置具有:第1编码判定单元,其判定利用所述第1编码单元或所述第2编码单元中的哪一个对所述声音信号中包含的作为编码对象的编码对象帧进行编码;第2编码判定单元,其在由所述第1编码判定单元判定为通过所述第1编码单元对所述编码对象帧进行编码的情况下,判定是通过所述第1编码单元对紧挨着所述编码对象帧之前的编码之前帧进行编码,还是通过所述第2编码单元对所述编码之前帧进行编码;编码内部状态计算单元,其在由所述第2编码判定单元判定为通过所述第2编码单元对所述编码之前帧进行编码的情况下,对所述编码之前帧的编码结果进行解码,使用该解码结果计算所述第1编码单元的内部状态;以及编码初始化单元,其使用由所述编码内部状态计算单元计算出的所述内部状态,对所述第1编码单元的内部状态进行初始化,在所述编码初始化单元对所述内部状态进行了初始化后,所述第1编码单元对所述编码对象帧进行编码。
根据本发明的编码装置,在通过基于与线性预测编码方式不同的编码方式的第2编码单元对通过基于该线性预测编码方式的第1编码单元进行编码的编码对象帧前面的编码之前帧进行了编码的情况下,通过对第1编码单元的内部状态进行初始化,也能够通过线性预测编码方式进行编码对象帧的编码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的编码处理。
本发明的解码装置具有基于线性预测编码方式的第1解码单元和基于与所述线性预测编码方式不同的其他编码方式的第2解码单元,使用所述第1解码单元和所述第2解码单元对编码声音信号进行解码,其特征在于,该解码装置具有:第1解码判定单元,其判定利用所述第1解码单元或所述第2解码单元中的哪一个对所述编码声音信号中包含的作为解码对象的解码对象帧进行解码;第2解码判定单元,其在由所述第1解码判定单元判定为通过所述第1解码单元对所述解码对象帧进行解码的情况下,判定是通过所述第1解码单元对紧挨着所述解码对象帧之前的解码之前帧进行了解码,还是通过所述第2解码单元对所述解码之前帧进行了解码;解码内部状态计算单元,其在由所述第2解码判定单元判定为通过所述第2解码单元对所述解码之前帧进行了解码的情况下,使用所述解码之前帧的解码结果计算所述第1解码单元的内部状态;以及解码初始化单元,其使用由所述解码内部状态计算单元计算出的所述内部状态,对所述第1解码单元的内部状态进行初始化,在所述解码初始化单元对所述内部状态进行了初始化后,所述第1解码单元对所述解码对象帧进行解码。
根据本发明的解码装置,即使在通过基于与线性预测编码方式不同的编码方式的第2解码单元对使用基于该线性预测编码方式的第1解码单元进行解码的解码对象帧前面的解码之前帧进行解码的情况下,通过对第1解码单元的内部状态进行初始化,也能够通过线性预测编码方式进行解码对象帧的解码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的解码处理。
本发明的声音信号处理系统的特征在于,该声音信号处理系统具有所述编码装置和所述解码装置,所述解码装置对由所述编码装置进行了编码的编码声音信号进行解码。
根据本发明的声音信号处理系统,即使在通过基于与线性预测编码方式不同的编码方式的第2编码单元对通过基于该线性预测编码方式的第1编码单元进行编码的编码对象帧前面的编码之前帧进行了编码的情况下,通过对第1编码单元的内部状态进行初始化,也能够通过线性预测编码方式进行编码对象帧的编码。即使在通过基于与线性预测编码方式不同的编码方式的第2解码单元对使用基于该线性预测编码方式的第1解码单元进行解码的解码对象帧前面的解码之前帧进行了解码的情况下,通过对第1解码单元的内部状态进行初始化,也能够通过线性预测编码方式进行解码对象帧的解码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的编码处理和解码处理。
本发明的声音信号编码程序的特征在于,为了使用基于线性预测编码方式的第1编码单元和基于与所述线性预测编码方式不同的其他编码方式的第2编码单元对声音信号进行编码,该声音信号编码程序使计算机装置发挥以下单元的功能:第1编码判定单元,其判定利用所述第1编码单元或所述第2编码单元中的哪一个对所述声音信号中包含的作为编码对象的编码对象帧进行编码;第2编码判定单元,其在由所述第1编码判定单元判定为通过所述第1编码单元对所述编码对象帧进行编码的情况下,判定是通过所述第1编码单元对紧挨着所述编码对象帧之前的编码之前帧进行编码,还是通过所述第2编码单元对所述编码之前帧进行编码;编码内部状态计算单元,其在由所述第2编码判定单元判定为通过所述第2编码单元对所述编码之前帧进行编码的情况下,对所述编码之前帧的编码结果进行解码,使用该解码结果计算所述第1编码单元的内部状态;编码初始化单元,其使用由所述编码内部状态计算单元计算出的所述内部状态,对所述第1编码单元的内部状态进行初始化;以及编码单元,其在通过所述编码初始化单元进行了所述内部状态的初始化之后,由所述第1编码单元对所述编码对象帧进行编码。
根据本发明的声音信号编码程序,即使在通过基于与线性预测编码方式不同的编码方式的第2编码单元对通过基于该线性预测编码方式的第1编码单元进行编码的编码对象帧前面的编码之前帧进行了编码的情况下,通过对第1编码单元的内部状态进行初始化,也能够通过线性预测编码方式进行编码对象帧的编码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的编码处理。
本发明的声音信号解码程序的特征在于,为了使用基于线性预测编码方式的第1解码单元和基于与所述线性预测编码方式不同的其他编码方式的第2解码单元对编码声音信号进行解码,该声音信号解码程序使计算机装置发挥以下单元的功能:第1解码判定单元,其判定利用所述第1解码单元或所述第2解码单元中的哪一个对所述编码声音信号中包含的作为解码对象的解码对象帧进行解码;第2解码判定单元,其在由所述第1解码判定单元判定为通过所述第1解码单元对所述解码对象帧进行解码的情况下,判定是通过所述第1解码单元对紧挨着所述解码对象帧之前的解码之前帧进行解码,还是通过所述第2解码单元对所述解码之前帧进行解码;解码内部状态计算单元,其在由所述第2解码判定单元判定为通过所述第2解码单元对所述解码之前帧进行了解码的情况下,使用所述解码之前帧的解码结果计算所述第1解码单元的内部状态;解码初始化单元,其使用由所述解码内部状态计算单元计算出的所述内部状态,对所述第1解码单元的内部状态进行初始化;以及解码单元,其在通过所述解码初始化单元进行了所述内部状态的初始化之后,由所述第1解码单元对所述解码对象帧进行解码。
根据本发明的声音信号解码程序,即使在通过基于与线性预测编码方式不同的编码方式的第2解码单元对使用基于该线性预测编码方式的第1解码单元进行了解码的解码对象帧前面的解码之前帧进行了解码的情况下,通过对第1解码单元的内部状态进行初始化,也能够通过线性预测编码方式进行解码对象帧的解码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的解码处理。
发明效果
根据本发明,在从不使用线性预测的编码方式切换为基于线性预测编码的编码方式的情况下,将基于线性预测编码的编码方式的编码单元或解码单元的内部状态的初始值设定为适当的值,能够改善刚刚切换之后的帧中的语音品质。
附图说明
图1是示出实施方式的编码装置和解码装置的结构的图。
图2是示出实施方式的编码装置的结构的图。
图3是用于说明实施方式的编码装置的动作的流程图。
图4是示出实施方式的解码装置的结构的图。
图5是用于说明实施方式的解码装置的动作的流程图。
具体实施方式
下面,参照附图详细说明本发明的优选实施方式。另外,在附图的说明中,在可能的情况下,对同一要素标注同一符号并省略重复的说明。实施方式的声音信号处理系统具有对输入的声音信号进行编码的编码装置10以及对编码装置10所编码的编码声音信号进行解码的解码装置20。图1和图2是示出实施方式的编码装置10的结构的图。编码装置10对所输入的语音/音乐信号(声音信号)进行编码并输出。语音/音乐信号是被预先分割成具有有限长度的帧之后输入到编码装置10中的信号。在语音/音乐信号是语音信号的情况下,编码装置10根据第1编码方式进行编码,在语音/音乐信号是音乐信号的情况下,编码装置10根据第2编码方式进行编码。第1编码方式是基于具有自适应码本的线性预测编码的ACELP等CELP方式。第2编码方式与第1编码方式不同,是不利用线性预测的编码方式。第2编码方式例如假设为AAC等转换编码。
编码装置10在物理上具有包含CPU 10a、ROM 10b、RAM 10c、存储装置10d和通信装置10e等的计算机装置,这些CPU 10a~通信装置10e与总线10f连接。CPU10a通过将存储在ROM 10b等内置存储器中的规定计算机程序(例如用于执行图3所示的流程图的处理的声音信号编码程序)加载到RAM 10c中执行,对编码装置10进行统一控制。存储装置10d是写入/读出自如的存储器,存储各种计算机程序、执行计算机程序所需要的各种数据等(例如在第1编码方式的编码中使用的自适应码本和线性预测系数、其他的基于第1编码方式和第2编码方式的编码所需要的各种参数、规定数的编码前后的帧等)。存储装置10d至少存储最后(之前)编码的一个帧的语音/音乐信号。
并且,编码装置10在功能上具有编码方式切换部12(第1编码判定单元、第2编码判定单元)、第1编码部13(第1编码单元)、第2编码部14(第2编码单元)、码复用部15、内部状态计算部16(编码内部状态计算单元)、内部状态初始化方法确定部17(编码初始化单元)。这些编码方式切换部12~内部状态初始化方法确定部17是通过CPU 10a执行存储在ROM 10b等编码装置10的内置存储器中的上述计算机程序、使图1所示的编码装置10的各结构部动作而实现的功能。CPU 10a通过执行上述声音信号编码程序(使用编码方式切换部12~内部状态初始化方法确定部17),执行图3的流程图所示的处理。
接着,参照图3说明编码装置10的动作。语音/音乐信号是被预先分割成具有有限长度的帧之后输入到编码装置10的通信装置10e中的信号。当经由通信装置10e输入语音/音乐信号后,编码方式切换部12根据该编码对象帧,判定通过第1编码方式或第2编码方式中的哪一个编码方式对该语音/音乐信号的编码对象帧(作为编码对象的帧)进行编码,根据该判定结果,向通过第1编码方式对语音/音乐信号进行编码的第1编码部13或通过第2编码方式对语音/音乐信号进行编码的第2编码部14中的任意一方发送编码对象帧(步骤S11;第1切换步骤)。在步骤S11中,在编码对象帧是语音信号的情况下,编码方式切换部12判定为通过第1编码方式进行编码,在编码对象帧是音乐信号的情况下,编码方式切换部12判定为通过第2编码方式进行编码。然后,在该第1切换步骤之后,执行用于对第1编码部13的内部状态(自适应码本的内容或用于求出零输入响应的线性预测合成滤波器的延迟要素所保持的值等,以下相同)进行初始化的第1初始化步骤(步骤S12~S18)。
编码方式切换部12在步骤S11中判定为编码对象帧是音乐信号、通过第2编码方式对编码对象帧进行编码的情况下(步骤S11;第2编码部),向第2编码部14发送编码对象帧,第2编码部14通过第2编码方式对从该编码方式切换部12发送的编码对象帧进行编码,经由通信装置10e输出该编码后的编码对象帧(编码语音/音乐信号)(步骤S18)。编码方式切换部12在步骤S11中判定为编码对象帧是语音信号、通过第1编码方式对编码对象帧进行编码的情况下(步骤S11;第1编码部),参照存储装置10d的内容,判定是通过第1编码部13对紧挨着编码对象帧之前的帧(编码之前帧)进行编码,还是通过第2编码部14对编码之前帧进行编码(步骤S12)。位于编码对象帧前面的规定数的帧(包含编码之前帧)的编码结果和编码前的帧本身均存储在存储装置10d中。
编码方式切换部12在步骤S12中判定为通过第1编码部13对编码之前帧进行了编码的情况下(步骤S12;是),向第1编码部13发送编码对象帧,第1编码部13通过第1编码方式对从该编码方式切换部12发送的编码对象帧进行编码,经由通信装置10e输出该编码后的编码对象帧(编码语音/音乐信号)(步骤S17)。编码方式切换部12在步骤S12中判定为通过第2编码部14对编码之前帧进行了编码的情况下(步骤S12;否),内部状态计算部16对存储在存储装置10d中的编码之前帧的编码结果进行解码,得到编码之前帧的解码结果(步骤S13)。通过内置于编码装置10中的解码器(省略图示)或后述的解码装置20得到编码装置10使用的解码结果。另外,为了省略解码所需要的运算,也可以代替对编码之前帧的编码结果进行解码后的解码结果,而使用第2编码部14进行编码前的编码之前帧。该编码前的编码之前帧存储在存储装置10d中。
在步骤S13之后,内部状态计算部16使用编码之前帧的解码结果,计算第1编码部13的内部状态(步骤S14)。内部状态计算部16进行的第1编码部13的内部状态的计算处理存在如下处理:作为对编码之前帧的解码结果进行处理并计算内部状态的例子,根据编码之前帧的解码结果(或者第2编码部14进行编码前的编码之前帧),使用协方差法等方法求出线性预测系数,然后,使用该求出的线性预测系数对解码结果应用线性预测逆滤波器,从而求出残差信号。
另外,由于根据编码之前帧的解码结果求出线性预测系数的处理的运算量大,所以内部状态计算部16也可以代替根据编码之前帧的解码结果求出线性预测系数,而使用在编码之前帧附近通过第1编码方式编码的帧(位于编码之前帧前面的帧)中的线性预测系数(存储在存储装置10d中)作为上述处理(第1编码部13的内部状态的计算处理)的线性预测系数,或者,还可以使用在帧间内插了该线性预测系数而得到的值作为上述处理(第1编码部13的内部状态的计算处理)的线性预测系数。进而,内部状态计算部16也可以使用通过使用编码之前帧附近的通过第1编码方式编码的帧中的线性预测系数进行外插而得到的值、或者通过使用在帧间内插了这些线性预测系数后的值进行外插而得到的值,作为上述处理(第1编码部13的内部状态的计算处理)的线性预测系数。内部状态计算部16也可以针对将线性预测系数转换为线谱频率后的值实施外插,将该外插结果再次转换为线性预测系数。并且,在编码对象帧的码中包含编码之前帧的线性预测系数的情况下,内部状态计算部16也可以使用该编码对象帧的码中包含的线性预测系数作为上述处理(第1编码部13的内部状态的计算处理)的线性预测系数。并且,内部状态计算部16也可以不计算线性预测系数,而直接使用编码之前帧的解码结果作为残差信号的替代品。进而,也可以使用在针对位于编码之前帧附近的通过第1编码方式编码的帧(位于编码之前帧前面的帧)进行编码的过程中得到的内部状态(表示该内部状态的信息被存储在存储装置10d中),对第1编码部13的内部状态进行初始化。并且,也可以不针对帧全体而仅针对帧的一部分进行对编码之前帧的解码结果应用线性预测逆滤波器的处理。
在步骤S14之后,内部状态初始化方法确定部17根据编码对象帧或者编码之前帧的解码结果,确定使用由内部状态计算部16计算出的内部状态对第1编码部13的内部状态进行初始化、或者利用“0”进行初始化等预先确定的初始化方法中的任意一种初始化方法(步骤S15)。然后,内部状态初始化方法确定部17通过在步骤S15中确定的初始化方法,对第1编码部13的内部状态进行初始化(步骤S16)。由内部状态初始化方法确定部17进行的第1编码部13的内部状态的初始化,是使用由内部状态计算部16计算出的内部状态对第1编码部13的内部状态进行初始化的处理,但是,也可以包含对在第1编码方式的残差信号的计算中使用的第1编码部13的线性预测合成滤波器的内部状态(延迟要素所保持的值)进行初始化的处理。并且,在确定第1编码部13的内部状态的初始化方法的情况下,内部状态初始化方法确定部17例如可以使用包含上述2个初始化方法在内的多个初始化方法,分别对编码对象帧尝试基于第1编码方式的编码,其结果,选择平方误差或听觉加权误差小的初始化方法。
在步骤S16中内部状态初始化方法确定部17对第1编码部13的内部状态进行了初始化之后,第1编码部13通过第1编码方式对编码对象帧进行编码,经由通信装置10e输出该编码后的编码对象帧(编码语音/音乐信号)(步骤S17)。
另外,也可以构成为,码复用部15在基于第1编码方式的编码结果中复用内部状态初始化方法确定部17在步骤S15中选择出的初始化方法的信息,作为辅助信息。并且,还可以构成为,根据在第1编码部13和第2编码部14与解码器(内置于编码装置10中的解码器或解码装置20)之间共同得到的信息(参照下述),确定第1编码部13的内部状态的初始化方式,该情况下,码复用部15不在编码结果中复用表示第1编码部13的内部状态的初始化方法的辅助信息。例如,在第1编码方式中的编码对象帧的自适应码本较大的情况下、或者编码之前帧中的解码结果的周期性较高的情况下等,内部状态初始化方法确定部17可以使用由内部状态计算部16计算出的内部状态对第1编码部13的内部状态进行初始化。
并且,也可以构成为,省略内部状态初始化方法确定部17,第1编码部13始终使用由内部状态计算部16计算出的内部状态对自身的内部状态进行初始化。并且,构成为在通过编码方式切换部12刚从第2编码方式切换为第1编码方式之后(第1切换步骤之后),内部状态计算部16和内部状态初始化方法确定部17对编码对象帧进行上述处理(第1初始化步骤),但是不限于此,也可以构成为,在对通过编码方式切换部12正要从第2编码方式切换为第1编码方式之前(编码对象帧之前)的编码之前帧进行编码时,内部状态计算部16和内部状态初始化方法确定部17进行上述处理。并且,例示了在第1编码方式(第1编码部13)和第2编码方式(第2编码部14)的2个编码方式之间进行切换的结构,但是,也可以构成为,存在多个与第1编码方式不同的编码方式,在3个以上的编码方式之间进行切换。
图1和图4是示出实施方式的解码装置20的结构的图。解码装置20在物理上具有包含CPU 20a、ROM 20b、RAM 20c、存储装置20d和通信装置20e等的计算机装置,这些CPU 20a~通信装置20e与总线20f连接。CPU 20a通过将存储在ROM 20b等内置存储器中的规定计算机程序(例如用于执行图5所示的流程图的处理的声音信号解码程序)加载到RAM 20c中执行,对解码装置20进行统一控制。存储装置20d是写入/读出自如的存储器,存储各种计算机程序、执行计算机程序所需要的各种数据等(例如在第1编码方式的解码中使用的自适应码本和线性预测系数、其他的基于第1编码方式和第2编码方式的解码所需要的各种参数、规定数的解码前后的帧等)。存储装置20d至少存储最后(之前)解码的一个帧的语音/音乐信号。
并且,解码装置20在功能上具有编码方式判定部22(第1解码判定单元、第2解码判定单元)、码分离部23、第1解码部24(第1解码单元)、第2解码部25(第2解码单元)、内部状态初始化方法确定部26(解码初始化单元)、内部状态计算部27(解码内部状态计算单元)。这些编码方式判定部22~内部状态计算部27是通过CPU 20a执行存储在ROM 20b等解码装置20的内置存储器中的上述计算机程序、使图1所示的解码装置20的各结构部动作而实现的功能。CPU 20a通过执行上述声音信号解码程序(使用编码方式判定部22~内部状态计算部27),执行图5的流程图所示的处理。
接着,参照图5说明解码装置20的动作。编码方式判定部22判定使用第1编码方式和第2编码方式中的哪一个编码方式对被编码的经由通信装置20e输入的编码语音/音乐信号的解码对象帧进行编码,根据该判定结果,向通过第1编码方式进行解码的第1解码部24或通过第2编码方式进行解码的第2解码部25中的任意一方发送解码对象帧(步骤S21;第2切换步骤)。在步骤S21中,在通过第1编码方式对解码对象帧进行编码的情况下,编码方式判定部22判定为通过第1解码部24进行解码,在通过第2编码方式对解码对象帧进行编码的情况下,编码方式判定部22判定为通过第2解码部25进行解码。然后,在该第2切换步骤之后,执行用于对第1解码部24的内部状态(自适应码本的内容或线性预测合成滤波器的延迟要素所保持的值等,以下相同)进行初始化的第2初始化步骤(步骤S22~S27)。
编码方式判定部22在步骤S21中判定为通过第2编码方式对解码对象帧进行编码(即通过第2解码部25进行解码)的情况下(步骤S21;第2解码部),向第2解码部25发送解码对象帧,第2解码部25通过第2编码方式对从该编码方式判定部22发送的解码对象帧进行解码,经由通信装置20e输出该解码后的解码对象帧(解码语音/音乐信号)(步骤S27)。编码方式判定部22在步骤S21中判定为通过第1编码方式对解码对象帧进行编码(即通过第1解码部24进行解码)的情况下(步骤S21;第1解码部),参照存储装置20d的内容,判定是通过第1编码方式对紧挨着解码对象帧之前的帧(解码之前帧)进行了编码(即通过第1解码部24进行了解码),还是通过第2编码方式对解码之前帧进行了编码(即通过第2解码部25进行了解码)(步骤S22)。位于解码对象帧前面的规定数的帧(包含解码之前帧)的解码结果和解码前后的帧本身均存储在存储装置20d中。
编码方式判定部22在步骤S22中判定为通过第1编码方式对解码之前帧进行了编码(即通过第1解码部24进行了解码)的情况下(步骤S22;是),向第1解码部24发送解码对象帧,第1解码部24通过第1编码方式对从该编码方式判定部22发送的解码对象帧进行解码,经由通信装置20e输出该解码后的解码对象帧(解码语音/音乐信号)(步骤S26)。
编码方式判定部22在步骤S22中判定为通过第2编码方式对解码之前帧进行了编码(即通过第2解码部25进行了解码)的情况下(步骤S22;否),向码分离部23发送解码之前帧,码分离部23将解码之前帧的复用的码分离为基于第1编码方式的码和表示第1解码部24的内部状态的初始化方法的辅助信息(例如由内部状态初始化方法确定部17确定的表示第1编码部13的内部状态的初始化方法、即在对解码之前帧进行编码时使用的初始化方法的信息)。然后,内部状态计算部27使用解码之前帧的解码结果,计算第1解码部24的内部状态(步骤S23)。内部状态计算部27进行的第1解码部24的内部状态的计算处理存在如下处理:作为对编码之前帧的解码结果进行处理来计算内部状态的例子,根据解码之前帧的解码结果,利用协方差法等方法求出线性预测系数,然后,使用该求出的线性预测系数对解码结果应用线性预测逆滤波器,从而求出残差信号。
另外,由于根据解码之前帧的解码结果求出线性预测系数的处理的运算量大,所以内部状态计算部27也可以代替根据解码之前帧的解码结果求出线性预测系数,而使用位于解码之前帧附近的通过第1编码方式编码的帧(位于解码之前帧前面的帧)中的线性预测系数(通过第1解码部24解码时的线性预测系数,存储在存储装置20d中)作为上述处理(第1解码部24的内部状态的计算处理)的线性预测系数,或者,还可以使用在帧间内插了该线性预测系数而得到的值作为上述处理(第1解码部24的内部状态的计算处理)的线性预测系数。进而,内部状态计算部27也可以使用通过使用位于解码之前帧附近的通过第1编码方式编码的帧中的线性预测系数进行外插而得到的值、或者通过使用在帧间内插了这些线性预测系数后的值进行外插而得到的值,作为上述处理(第1解码部24的内部状态的计算处理)的线性预测系数。内部状态计算部27也可以针对将线性预测系数转换为线谱频率后的值实施外插,将该外插结果再次转换为线性预测系数。并且,在解码对象帧的码中包含解码之前帧的线性预测系数的情况下,内部状态计算部27也可以使用该解码对象帧的码中包含的线性预测系数作为上述处理(第1解码部24的内部状态的计算处理)的线性预测系数。或者,通过省略线性预测逆滤波器的应用,也可以省略线性预测系数的计算。进而,也可以使用在针对位于解码之前帧附近的通过第1编码方式编码的帧(位于解码之前帧前面的帧)进行解码的过程中得到的内部状态(表示该内部状态的信息被存储在存储装置20d中),对第1解码部24的内部状态进行初始化。并且,也可以不针对帧全体而仅针对帧的一部分进行对解码之前帧的解码结果应用线性预测逆滤波器的处理。
在步骤S23之后,内部状态初始化方法确定部26根据表示解码之前帧的复用的码中包含的表示第1解码部24的内部状态的初始化方法的辅助信息,确定使用由内部状态计算部27计算出的内部状态对第1解码部24的内部状态进行初始化、或者利用“0”进行初始化等预先确定的方法中的任意一种初始化方法(步骤S24)。然后,内部状态初始化方法确定部26通过在步骤S24中确定的初始化方法,对第1解码部24的内部状态进行初始化(步骤S25)。由内部状态初始化方法确定部26进行的第1解码部24的内部状态的初始化,是使用由内部状态计算部27计算出的内部状态对第1解码部24的内部状态进行初始化的处理,但是,也可以包含对根据第1编码方式的残差信号计算输出信号的第1解码部24的线性预测合成滤波器的内部状态(延迟要素所保持的值)进行初始化的处理。
在步骤S25中内部状态初始化方法确定部26对第1解码部24的内部状态进行了初始化之后,第1解码部24通过第1编码方式对解码对象帧进行解码,经由通信装置20e输出该解码后的解码对象帧(解码语音/音乐信号)(步骤S26)。
另外,也可以不在解码之前帧的码中复用表示第1解码部24的内部状态的初始化方法的辅助信息,而使用第1编码方式中的对象编码帧的固定码本增益、或对解码之前帧中的解码结果的周期性进行了分析的结果等(使用在第1解码部24和第2解码部25与编码器(内置于解码装置20中的编码器或第1编码部13)之间共同得到的信息),确定第1解码部24的内部状态的初始化方法。并且,也可以构成为,省略内部状态初始化方法确定部26,第1解码部24始终使用由内部状态计算部27计算出的内部状态对自身的内部状态进行初始化。该情况下,不需要使用表示初始化方法且在解码之前帧的码中复用的辅助信息。并且,内部状态计算部27的动作和内部状态初始化方法确定部26的动作是通过第2编码方式对解码之前帧进行了编码、通过第1编码方式对解码对象帧进行了编码时的动作,但是不限于此,在通过预读已经决定了通过第2编码方式对解码对象帧进行了编码、通过第1编码方式对紧挨着解码对象帧之后的帧进行编码的情况下,内部状态计算部27和内部状态初始化方法确定部26也可以分别根据预读信息进行第1解码部24的内部状态的计算和内部状态初始化方法的选择。并且,例示了在第1编码方式和第2编码方式的2个编码方式之间进行切换的结构,但是,也可以构成为,存在多个与第1编码方式不同的编码方式,在3个以上的编码方式之间进行切换。
接着,说明实施方式的编码装置10的作用效果。编码装置10具有基于线性预测编码方式的第1编码部13、以及基于与线性预测编码方式不同的其他编码方式的第2编码部14,使用第1编码部13和第2编码部14对声音信号进行编码。编码装置10还具有编码方式切换部12、内部状态计算部16和内部状态初始化方法确定部17。编码方式切换部12判定通过第1编码部13或第2编码部14中的哪一个对声音信号中包含的作为编码对象的编码对象帧进行编码。并且,编码方式切换部12在判定为通过第1编码部13对编码对象帧进行编码的情况下,判定是通过第1编码部13对紧挨着编码对象帧之前的编码之前帧进行编码,还是通过第2编码部14对编码之前帧进行编码。在通过编码方式切换部12判定为通过第2编码部14对编码之前帧进行编码的情况下,内部状态计算部16对编码之前帧的编码结果进行解码,使用该解码结果计算第1编码部13的内部状态。内部状态初始化方法确定部17使用由内部状态计算部16计算出的内部状态对第1编码部13的内部状态进行初始化。然后,在内部状态初始化方法确定部17对内部状态进行初始化之后,第1编码部13对编码对象帧进行编码。
根据编码装置10,在通过基于与线性预测编码方式不同的编码方式的第2编码部14对通过基于该线性预测编码方式的第1编码部13进行编码的编码对象帧前面的编码之前帧进行了编码的情况下,通过对第1编码部13的内部状态进行初始化,也能够通过线性预测编码方式进行编码对象帧的编码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的编码处理。
接着,说明实施方式的解码装置20的作用效果。解码装置20具有基于线性预测编码方式的第1解码部24、以及基于与线性预测编码方式不同的其他编码方式的第2解码部25,使用第1解码部24和第2解码部25对编码声音信号进行解码。解码装置20还具有编码方式判定部22、内部状态计算部27和内部状态初始化方法确定部26。编码方式判定部22判定通过第1解码部24或第2解码部25中的哪一个对编码声音信号中包含的作为解码对象的解码对象帧进行解码。并且,在由编码方式判定部22判定为通过第1解码部24对解码对象帧进行解码的情况下,编码方式判定部22判定是通过第1解码部24对紧挨着解码对象帧之前的解码之前帧进行解码,还是通过第2解码部25对解码之前帧进行解码。在通过编码方式判定部22判定为通过第2解码部25对解码之前帧进行了解码的情况下,使用解码之前帧的解码结果计算第1解码部24的内部状态。使用由内部状态计算部27计算出的内部状态对第1解码部24的内部状态进行初始化。然后,在内部状态初始化方法确定部26对内部状态进行初始化之后,第1解码部24对解码对象帧进行解码。
根据解码装置20,即使在通过基于与线性预测编码方式不同的编码方式的第2解码部25对使用基于该线性预测编码方式的第1解码部24进行解码的解码对象帧前面的解码之前帧进行了解码的情况下,通过对第1解码部24的内部状态进行初始化,也能够通过线性预测编码方式进行解码对象帧的解码。因此,能够实现包含线性预测编码方式和与线性预测编码方式不同的其他编码方式的解码处理。
产业上的可利用性
在从不使用线性预测的编码方式切换为基于线性预测编码的编码方式的情况下,将基于线性预测编码的编码方式的编码单元或解码单元的内部状态的初始值设定为适当的值,改善刚刚切换之后的帧中的语音品质。
标号说明
10:编码装置;10a、20a:CPU;10b、20b:ROM;10c、20c:RAM;10d、20d:存储装置;10e、20e:通信装置;10f、20f:总线;12:编码方式切换部;13:第1编码部;14:第2编码部;15:码复用部;16、27:内部状态计算部;17、26:内部状态初始化方法确定部;20:解码装置;22:编码方式判定部;23:码分离部;24:第1解码部;25:第2解码部。
Claims (5)
1.一种声音信号编码方法,该声音信号编码方法使用基于线性预测编码方式的第1编码单元和基于与线性预测编码方式不同的编码方式的第2编码单元,对由多个帧构成的声音信号进行编码,其特征在于,该声音信号编码方法具有如下步骤:
切换步骤,在通过所述第2编码单元对所述声音信号的第1帧进行了编码后,将对紧挨着该第1帧之后的第2帧进行编码的编码单元从所述第2编码单元切换为所述第1编码单元;以及
初始化步骤,仅在所述切换步骤之后,通过规定方法对所述第1编码单元的内部状态进行初始化,
在所述初始化步骤中,对基于所述第2编码单元的所述第1帧的编码结果进行解码而求出解码结果,根据该解码结果求出残差信号,通过该残差信号对所述第1编码单元的自适应码本进行初始化,作为所述第1编码单元的内部状态。
2.一种声音信号解码方法,该声音信号解码方法使用基于线性预测编码方式的第1解码单元和基于与线性预测编码方式不同的编码方式的第2解码单元,对由多个帧构成的编码声音信号进行解码,其特征在于,该声音信号解码方法具有如下步骤:
切换步骤,在通过所述第2解码单元对所述编码声音信号的第1帧进行了解码后,将对紧挨着该第1帧之后的第2帧进行解码的解码单元从所述第2解码单元切换为所述第1解码单元;以及
初始化步骤,仅在所述切换步骤之后,通过规定方法对所述第1解码单元的内部状态进行初始化,
在所述初始化步骤中,根据所述第1帧的解码结果求出残差信号,通过该残差信号对所述第1解码单元的自适应码本进行初始化,作为所述第1解码单元的内部状态。
3.一种编码装置,该编码装置具有基于线性预测编码方式的第1编码单元和基于与所述线性预测编码方式不同的其他编码方式的第2编码单元,使用所述第1编码单元和所述第2编码单元对声音信号进行编码,其特征在于,该编码装置具有:
第1判定单元,其判定利用所述第1编码单元或所述第2编码单元中的哪一个对所述声音信号中包含的作为编码对象的对象帧进行编码;
第2判定单元,其在由所述第1判定单元判定为通过所述第1编码单元对所述对象帧进行编码的情况下,判定是通过所述第1编码单元对紧挨着所述对象帧之前的之前帧进行了编码,还是通过所述第2编码单元对所述之前帧进行了编码;
内部状态计算单元,其仅在由所述第2判定单元判定为通过所述第2编码单元对所述之前帧进行了编码的情况下,对所述之前帧的编码结果进行解码,根据该解码结果计算残差信号;以及
初始化单元,其使用由所述内部状态计算单元计算出的所述残差信号,对所述第1编码单元的自适应码本进行初始化,
在所述初始化单元进行的所述自适应码本的初始化后,所述第1编码单元对所述对象帧进行编码。
4.一种解码装置,该解码装置具有基于线性预测编码方式的第1解码单元和基于与所述线性预测编码方式不同的其他编码方式的第2解码单元,使用所述第1解码单元和所述第2解码单元对编码声音信号进行解码,其特征在于,该解码装置具有:
第1判定单元,其判定利用所述第1解码单元或所述第2解码单元中的哪一个对所述编码声音信号中包含的作为解码对象的对象帧进行解码;
第2判定单元,其在由所述第1判定单元判定为通过所述第1解码单元对所述对象帧进行解码的情况下,判定是通过所述第1解码单元对紧挨着所述对象帧之前的之前帧进行了解码,还是通过所述第2解码单元对所述之前帧进行了解码;
内部状态计算单元,其仅在由所述第2判定单元判定为通过所述第2解码单元对所述之前帧进行了解码的情况下,根据所述之前帧的解码结果计算残差信号;以及
初始化单元,其使用由所述内部状态计算单元计算出的所述残差信号,对所述第1解码单元的自适应码本进行初始化,
在所述初始化单元对所述内部状态进行了初始化后,所述第1解码单元对所述对象帧进行解码。
5.一种声音信号处理系统,其特征在于,
该声音信号处理系统具有权利要求3所述的编码装置和权利要求4所述的解码装置,
所述解码装置对由所述编码装置进行了编码的编码声音信号进行解码。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-053693 | 2009-03-06 | ||
JP2009053693A JP4977157B2 (ja) | 2009-03-06 | 2009-03-06 | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080010716XA Division CN102341851B (zh) | 2009-03-06 | 2010-03-03 | 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102737642A CN102737642A (zh) | 2012-10-17 |
CN102737642B true CN102737642B (zh) | 2014-07-30 |
Family
ID=42709745
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210241711.9A Active CN102737641B (zh) | 2009-03-06 | 2010-03-03 | 声音信号编解码方法、编解码装置和声音信号处理系统 |
CN201210242200.9A Active CN102737642B (zh) | 2009-03-06 | 2010-03-03 | 声音信号编解码方法、编解码装置和声音信号处理系统 |
CN201080010716XA Active CN102341851B (zh) | 2009-03-06 | 2010-03-03 | 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210241711.9A Active CN102737641B (zh) | 2009-03-06 | 2010-03-03 | 声音信号编解码方法、编解码装置和声音信号处理系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080010716XA Active CN102341851B (zh) | 2009-03-06 | 2010-03-03 | 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理系统 |
Country Status (22)
Country | Link |
---|---|
US (3) | US8751245B2 (zh) |
EP (3) | EP2511907A1 (zh) |
JP (1) | JP4977157B2 (zh) |
KR (3) | KR101175553B1 (zh) |
CN (3) | CN102737641B (zh) |
AU (1) | AU2010219643C1 (zh) |
BR (3) | BRPI1016262B1 (zh) |
CA (1) | CA2754404C (zh) |
CY (1) | CY1114649T1 (zh) |
DK (1) | DK2405426T3 (zh) |
ES (1) | ES2434125T3 (zh) |
HR (1) | HRP20131056T1 (zh) |
MX (1) | MX2011009333A (zh) |
PH (2) | PH12012501447A1 (zh) |
PL (1) | PL2405426T3 (zh) |
PT (1) | PT2405426E (zh) |
RU (3) | RU2482554C1 (zh) |
SG (1) | SG174241A1 (zh) |
SI (1) | SI2405426T1 (zh) |
SM (1) | SMT201400025B (zh) |
TW (3) | TWI385649B (zh) |
WO (1) | WO2010101190A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5395649B2 (ja) * | 2009-12-24 | 2014-01-22 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置及びプログラム |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
EP2772914A4 (en) * | 2011-10-28 | 2015-07-15 | Panasonic Corp | DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES |
US9043201B2 (en) | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
EP2922052B1 (en) | 2012-11-13 | 2021-10-13 | Samsung Electronics Co., Ltd. | Method for determining an encoding mode |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
JP5981408B2 (ja) * | 2013-10-29 | 2016-08-31 | 株式会社Nttドコモ | 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
US11589172B2 (en) | 2014-01-06 | 2023-02-21 | Shenzhen Shokz Co., Ltd. | Systems and methods for suppressing sound leakage |
US9685164B2 (en) * | 2014-03-31 | 2017-06-20 | Qualcomm Incorporated | Systems and methods of switching coding technologies at a device |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
FR3024582A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
CN104485112B (zh) * | 2014-12-08 | 2017-12-08 | 福建联迪商用设备有限公司 | 一种基于音频通讯中的音频解码方法及其装置 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3231393B1 (de) | 2016-04-13 | 2023-06-21 | Christian Vallbracht | Minimal-invasiv implantierbare mitral- und trikuspidalklappe |
CN109215667B (zh) | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
CN110556118B (zh) * | 2018-05-31 | 2022-05-10 | 华为技术有限公司 | 立体声信号的编码方法和装置 |
JP7137694B2 (ja) | 2018-09-12 | 2022-09-14 | シェンチェン ショックス カンパニー リミテッド | 複数の音響電気変換器を有する信号処理装置 |
CN115881140A (zh) * | 2021-09-29 | 2023-03-31 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437184A (zh) * | 2002-02-08 | 2003-08-20 | 株式会社Ntt都科摩 | 解码装置及编码装置与解码方法及编码方法 |
WO2005112005A1 (ja) * | 2004-04-27 | 2005-11-24 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0352899A (ja) * | 1989-07-20 | 1991-03-07 | Asahi Glass Co Ltd | カルシトニン類似体 |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
JP2904083B2 (ja) * | 1995-11-29 | 1999-06-14 | 日本電気株式会社 | 音声符号化切替えシステム |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
JP4216364B2 (ja) * | 1997-08-29 | 2009-01-28 | 株式会社東芝 | 音声符号化/復号化方法および音声信号の成分分離方法 |
JP3487158B2 (ja) * | 1998-02-26 | 2004-01-13 | 三菱電機株式会社 | 音声符号化伝送システム |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
JP4551555B2 (ja) * | 2000-11-29 | 2010-09-29 | 株式会社東芝 | 符号化データ伝送装置 |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
AU2002307884A1 (en) * | 2002-04-22 | 2003-11-03 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
JP2004053676A (ja) * | 2002-07-16 | 2004-02-19 | Mitsubishi Electric Corp | 音声符号化装置および復号装置 |
AU2003208517A1 (en) * | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
ATE371926T1 (de) * | 2004-05-17 | 2007-09-15 | Nokia Corp | Audiocodierung mit verschiedenen codierungsmodellen |
CA2566368A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
WO2006118179A1 (ja) * | 2005-04-28 | 2006-11-09 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
EP1883067A1 (en) * | 2006-07-24 | 2008-01-30 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream |
EP2311034B1 (en) * | 2008-07-11 | 2015-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
WO2011048117A1 (en) | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
-
2009
- 2009-03-06 JP JP2009053693A patent/JP4977157B2/ja active Active
-
2010
- 2010-03-03 DK DK10748784.5T patent/DK2405426T3/da active
- 2010-03-03 MX MX2011009333A patent/MX2011009333A/es active IP Right Grant
- 2010-03-03 KR KR1020127017742A patent/KR101175553B1/ko active IP Right Grant
- 2010-03-03 CN CN201210241711.9A patent/CN102737641B/zh active Active
- 2010-03-03 EP EP12175701A patent/EP2511907A1/en not_active Ceased
- 2010-03-03 KR KR1020127017741A patent/KR101175555B1/ko active IP Right Grant
- 2010-03-03 EP EP12175685A patent/EP2511906A1/en not_active Ceased
- 2010-03-03 AU AU2010219643A patent/AU2010219643C1/en active Active
- 2010-03-03 SG SG2011063633A patent/SG174241A1/en unknown
- 2010-03-03 CN CN201210242200.9A patent/CN102737642B/zh active Active
- 2010-03-03 PL PL10748784T patent/PL2405426T3/pl unknown
- 2010-03-03 KR KR1020117020793A patent/KR101256542B1/ko active IP Right Grant
- 2010-03-03 SI SI201030424T patent/SI2405426T1/sl unknown
- 2010-03-03 CA CA2754404A patent/CA2754404C/en active Active
- 2010-03-03 WO PCT/JP2010/053454 patent/WO2010101190A1/ja active Application Filing
- 2010-03-03 BR BRPI1016262-3A patent/BRPI1016262B1/pt active IP Right Grant
- 2010-03-03 CN CN201080010716XA patent/CN102341851B/zh active Active
- 2010-03-03 RU RU2011140533/08A patent/RU2482554C1/ru active
- 2010-03-03 BR BR122013014741-1A patent/BR122013014741B1/pt active IP Right Grant
- 2010-03-03 BR BR122013014739-0A patent/BR122013014739B1/pt active IP Right Grant
- 2010-03-03 ES ES10748784T patent/ES2434125T3/es active Active
- 2010-03-03 EP EP10748784.5A patent/EP2405426B1/en active Active
- 2010-03-03 PT PT107487845T patent/PT2405426E/pt unknown
- 2010-03-05 TW TW101125361A patent/TWI385649B/zh active
- 2010-03-05 TW TW101125359A patent/TWI385648B/zh active
- 2010-03-05 TW TW099106450A patent/TWI390504B/zh active
-
2011
- 2011-09-02 US US13/224,816 patent/US8751245B2/en active Active
-
2012
- 2012-07-16 PH PH12012501447A patent/PH12012501447A1/en unknown
- 2012-07-16 PH PH12012501446A patent/PH12012501446B1/en unknown
- 2012-07-23 RU RU2012131496/08A patent/RU2493620C1/ru active
- 2012-07-23 RU RU2012131495/08A patent/RU2493619C1/ru active
-
2013
- 2013-03-05 US US13/786,065 patent/US8666754B2/en active Active
- 2013-03-05 US US13/786,052 patent/US9214161B2/en active Active
- 2013-11-06 HR HRP20131056AT patent/HRP20131056T1/hr unknown
- 2013-11-27 CY CY20131101062T patent/CY1114649T1/el unknown
-
2014
- 2014-02-24 SM SM201400025T patent/SMT201400025B/xx unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437184A (zh) * | 2002-02-08 | 2003-08-20 | 株式会社Ntt都科摩 | 解码装置及编码装置与解码方法及编码方法 |
WO2005112005A1 (ja) * | 2004-04-27 | 2005-11-24 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 |
Non-Patent Citations (3)
Title |
---|
3rd Generation Partnership Project.《Audio codec processing functions: Extended Adaptive Multi-Rate-Wideband(AME-WB+) codec |
3rd Generation Partnership Project.《Audio codec processing functions: Extended Adaptive Multi-Rate-Wideband(AME-WB+) codec Transcoding functions》.《3GPP TS 26.290》.2009, * |
Transcoding functions》.《3GPP TS 26.290》.2009, |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737642B (zh) | 声音信号编解码方法、编解码装置和声音信号处理系统 | |
JP5197838B2 (ja) | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム | |
AU2012204147B2 (en) | Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program | |
JP4977268B2 (ja) | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |