CN1375818A - 音频编码装置、音频编码方法、音频解码装置及音频解码方法 - Google Patents
音频编码装置、音频编码方法、音频解码装置及音频解码方法 Download PDFInfo
- Publication number
- CN1375818A CN1375818A CN02106980A CN02106980A CN1375818A CN 1375818 A CN1375818 A CN 1375818A CN 02106980 A CN02106980 A CN 02106980A CN 02106980 A CN02106980 A CN 02106980A CN 1375818 A CN1375818 A CN 1375818A
- Authority
- CN
- China
- Prior art keywords
- audio
- driving
- cycle
- weight
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 62
- 239000013598 vector Substances 0.000 claims abstract description 195
- 230000003044 adaptive effect Effects 0.000 claims description 130
- 238000001228 spectrum Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 8
- 230000005284 excitation Effects 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000003786 synthesis reaction Methods 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 230000009931 harmful effect Effects 0.000 description 6
- 230000008676 import Effects 0.000 description 6
- 239000000654 additive Substances 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 3
- 125000002015 acyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明的装置包括:使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。
Description
技术领域
本发明涉及压缩数字音频信号、以减少信息量的音频编码装置及音频编码方法,以及对由上述音频编码装置生成的音频代码进行解码、生成数字音频信号的音频解码装置及音频解码方法。
背景技术
很多传统的音频编码方法及音频解码方法是将输入声音分成谱包络信息与音频源信号,以预定长度的帧为单位分别进行编码,生成音频代码,将该音频代码解码,利用综合型滤波器将谱包络信息与音频源信号合并而得到解码音频。应用音频编码方法及音频解码方法的最具代表性的音频编码装置及音频解码装置是采用码激励线性预测编码(Code-Excited Linear Prediction:CELP)方式的装置。
图13是表示传统的CELP型音频编码装置的结构图,在图中,1是线性预测分析单元,用于分析输入语音,抽出输入语音的谱包络信息、即线性预测系数;2是线性预测系数编码单元,用于在对由线性预测分析单元1抽出的线性预测系数进行编码、并输出到多路复用单元6的同时,将该线性预测系数的量化值输出到自适应音频源编码单元3、驱动音频源编码单元4及增益编码单元5。
3是自适应音频源编码单元,用于在利用由线性预测系数编码单元2输出的线性预测系数的量化值生成临时合成语音、选择使临时合成语音与输入语音距离最小的自适应音频源代码、并输出到多路复用单元6的同时,使与该自适应音频源代码对应的自适应音频源信号(过去的预定长度的音频源信号周期性反复时的时序向量)输出到增益编码单元5。4是驱动音频源编码单元,用于在利用由线性预测系数编码单元2输出的线性预测系数的量化值生成临时合成语音、选择使临时合成语音与编码对象信号(从输入声音中扣除由自适应音频源信号产生的合成语音的信号)距离最小的驱动音频源代码、并输出到多路复用单元6的同时,使对应该驱动音频源代码的时序向量、即驱动音频源信号输出到增益编码单元5。
5是增益编码单元,用于在将从自适应音频源编码单元3输出的自适应音频源信号与从驱动音频源编码单元4输出的驱动音频源信号乘以增益向量的各要素、将各乘法运算结果相加、生成音频源信号的同时,利用由线性预测系数编码单元2输出的线性预测系数的量化值,从该音频源信号生成临时合成语音,选择使临时合成语音与输入语音距离最小的增益代码,并输出到多路复用单元6。6是多路复用单元,用于将由线性预测系数编码单元2编码的线性预测系数代码、从自适应音频源编码单元3输出的自适应音频源代码、从驱动音频源编码单元4输出的驱动音频源代码、以及从增益编码单元5输出的增益代码多路复用,并输出音频代码。
图14是表示驱动音频源编码单元4内部的结构图,如图,11是驱动音频源码本;12是综合型滤波器;13是失真计算单元;14是失真估算单元。
图15是表示传统的CELP型音频解码装置的结构图,在图中、21是分离单元,用于将从音频编码装置输出的音频代码分离成线性预测系数代码、自适应音频源代码、驱动音频源代码、以及增益代码,并将该线性预测系数的代码输出到线性预测系数解码单元22,将自适应音频源代码输出到自适应音频源解码单元23,将驱动音频源代码输出到驱动音频源解码单元24,将增益代码输出到增益解码单元25。22是线性预测系数解码单元,对从分离单元21输出的线性预测系数的代码进行解码,并将该解码结果、即线性预测系数的量化值从综合型滤波器29输出。
23是自适应音频源解码单元,用于输出与从分离单元21输出的自适应音频源代码对应的自适应音频源信号(过去的音频源信号周期性反复时的时序向量)。24是驱动音频源解码单元,用于输出与从分离单元21输出的驱动音频源代码对应的时序向量、即驱动音频源信号。25是增益解码单元,用于输出与从分离单元21输出的增益代码对应的增益向量。
26是将从增益解码单元25输出的增益向量的要素乘以从自适应音频源解码单元23输出的自适应音频源信号的乘法运算器。27是将从增益解码单元25输出的增益向量的要素乘以从驱动音频源解码单元24输出的驱动音频源信号的乘法运算器。28是将乘法运算器26的运算结果及乘法运算器27的运算结果相加,生成音频源信号的加法运算器。29是对从加法运算器28中生成的音频源信号进行综合滤波处理,生成输出音频的综合型滤波器。
图16是表示驱动音频源解码单元24内部的结构图,如图,31是驱动音频源码本。
下面,对传统的音频编码装置及解码装置的操作进行说明。
传统的音频编码装置及音频解码装置,是以大约5~50ms为1帧,以帧为单元进行处理的。
首先、音频编码装置的线性预测分析单元1在输入语音后,对该输入的语音进行分析,抽出语音的谱包络信息、即线性预测系数。
线性预测系数编码单元2在线性预测分析单元1抽出线性预测系数后,对该线性预测系数编码,将该代码输出到多路复用单元6。同时、将该线性预测系数的量化值输出到自适应音频源编码单元3、驱动音频源编码单元4及增益编码单元5。
自适应音频源编码单元3内置有存储各种过去的预定长度的音频源信号的自适应音频源码本,根据在内部产生的各自适应音频源代码(自适应音频源代码用2进制数位表示),生成过去的音频源信号周期性反复时的时序向量。
接下来,将各时序向量乘以适当的增益后,使各时序向量从使用由线性预测系数编码单元2输出的线性预测系数的量化值的综合型滤波器中通过,生成临时合成语音。
自适应音频源编码单元3,例如调查临时合成语音与输入语音间的距离作为编码失真,选择使该距离最小的自适应音频源代码,使之输出到多路复用单元6的同时,将与该选择的自适应音频源代码对应的时序向量作为自适应音频源信号,输出到增益编码单元5。
另外,将从输入语音中扣除了由自适应音频源信号产生的合成语音的信号作为编码对象信号,输出到驱动音频源编码单元4。
下面,对驱动音频源编码单元4的操作进行说明。
驱动音频源编码单元4的驱动音频源码本11保存噪音的多个时序向量、即驱动代码向量,按照从失真估算单元14输出的各驱动音频源代码(驱动音频源代码用2进制数位表示),依次输出时序向量。然后,各时序向量在乘以适当的增益后,输入到综合型滤波器12。
综合型滤波器12利用由线性预测系数编码单元2输出的线性预测系数的量化值,生成乘以增益后的各时序向量的临时合成语音并输出。
失真计算单元13,例如计算临时合成语音与从自适应音频源编码单元3输出的编码对象信号之间的距离作为编码失真。
失真估算单元14,在选择使由失真计算单元13计算的临时合成语音与编码对象信号之间的距离最小的驱动音频源代码,并输出到多路复用单元6的同时,一个指令输出到驱动音频源码本11,指示与该驱动音频源代码对应的时序向量作为驱动音频源信号输出到增益编码单元5。
增益编码单元5内置有保存增益向量的增益码本,根据在内部产生的各增益代码(增益代码用2进制数位表示),从该增益码本中依次读出增益向量。
而且,将增益向量的各要素分别乘以从自适应音频源编码单元3输出的自适应音频源信号,以及从驱动音频源编码单元4输出的驱动音频源信号,并将各乘法运算结果相加,生成音频源信号。
接下来,使音频源信号从使用线性预测系数编码单元2输出的线性预测系数的量化值的综合型滤波器中通过,生成临时合成语音。
增益编码单元5,例如调查临时合成语音与输入语音间的距离作为编码失真,选择使该距离最小的增益代码,使之输出到多路复用单元6。另外,将与该增益代码对应的音频源信号输出到自适应音频源编码单元3。从而,自适应音频源编码单元3利用与由增益编码单元5选择的增益代码对应的音频源信号,更新内置的自适应音频源码本。
多路复用单元6将由线性预测系数编码单元2编码的线性预测系数代码、从自适应音频源编码单元3输出的自适应音频源代码、从驱动音频源编码单元4输出的驱动音频源代码,以及从增益编码单元5输出的增益代码多路复用,并输出该多路复用结果的音频代码。
音频解码装置的分离单元21在音频编码装置输出音频代码后,将该音频代码分离,使线性预测系数的代码输出到线性预测系数解码单元22,使自适应音频源代码输出到自适应音频源解码单元23,使驱动音频源代码输出到驱动音频源解码单元24,使增益代码输出到增益解码单元25。
线性预测系数解码单元22接受分离单元21输出的线性预测系数的代码后,对该代码进行解码,并将解码结果、即线性预测系数的量化值输出到综合型滤波器29。
自适应音频源解码单元23内置有存储过去的预定长度的音频源信号的自适应音频源码本,输出与从分离单元21输出的自适应音频源代码对应的自适应音频源信号(过去的音频源信号周期性反复时的时序向量)。
另一方面,驱动音频源解码单元24的驱动音频源码本31,保存噪音的多个时序向量,即驱动代码向量,将与从分离单元21输出的驱动音频源代码对应的时序向量作为驱动音频源信号输出。
增益编码单元25内置有保存增益向量的增益码本,输出与从分离单元21输出的增益代码对应的增益向量。
另外,从自适应音频源解码单元23输出的自适应音频源信号与从驱动音频源解码单元24输出的驱动音频源信号,经乘法运算器26,27乘以该增益向量的要素后,再由加法运算器28对乘法运算器26、27的乘法运算结果进行加法运算。
综合型滤波器29,对加法运算器28的加法运算结果,即音频源信号进行综合滤波处理,生成输出音频。另外,作为滤波系数,使用由线性预测系数解码单元22解码的线性预测系数的量化值。
最后,自适应音频源解码单元23使用上述音频源信号,更新内置的自适应音频源码本。
下面,说明对上述CELP型的音频编码装置及音频解码装置进行了改良的传统技术。
授予Wang等人的“Improved excitation for phonetically-segmentedVXC speech coding below 4kb/s”Proc.GLOBECOM’90,pp.946~950(文献1)以及特开平8-44397号公报(文献2),以即使从低比特率中也可以得到高品质的语音为目的,提出了加重音频源信号的音调特性的方案。
而且,在3GPP技术规格书3G TS 26.090(文献3)及ITU-T提案G.729中记载的音频编码方式中也采用与此相同的方法。
图17是表示加重音频源信号音调特性的驱动音频源编码单元4内部结构的图,如图,与图14相同的符号表示相同或相当部分,因此在此省略其说明。另外,除驱动音频源编码单元4的内部结构外,与图13具有相同的结构。
在图17中,15是向驱动代码向量提供音调特性的周期提供单元。
图18是表示加重音频源信号音调特性的驱动音频源解码单元24内部结构的图,如图,与图16相同的符号表示相同或相当部分,因此在此省略其说明。另外,除驱动音频源解码单元24的内部结构外,与图15具有相同的结构。
在图18中,32是向驱动代码向量提供音调特性的周期提供单元。
下面,对其操作进行说明。
除了驱动音频源编码单元4上装有周期提供单元15及驱动音频源解码单元24上装有周期提供单元32外,与上述CELP型音频编码装置及音频解码装置相同,因而在此只说明不同点。
周期提供单元15,加重从驱动音频源码本11输出的时序向量的音调周期性并输出。
周期提供单元32,加重从驱动音频源码本31输出的时序向量的音调周期性并输出。
周期提供单元15及周期提供单元32中的时序向量的音调周期性,可以通过例如梳状滤波器实现。
在文献1中,设梳状滤波器的增益(周期加重系数)为定值。并且,在文献2中,作为周期加重系数,使用编码帧中的音频信号的长周期预测增益。另外,在文献3中,使用相对于在过去的帧中编码的自适应音频源信号的增益。
由于传统的音频编码装置及音频解码装置具有以上结构,将为了加重音调周期性的周期加重系数相对于全部的驱动代码向量设定为同一值。因此,此周期加重系数取不适当值时,全部的驱动代码向量都受不良影响,从而,有无法利用周期的加重而获得品质的充分改善,并且,相反甚至会恶化的问题。
例如,如图19所示,设定周期加重系数,使编码对象信号表示周期T的强周期性,与此相对,使向驱动代码向量提供周期的梳状滤波器的脉冲响应显示弱周期性的情况下,由于全部驱动代码向量只加重了弱周期性,相对于表示强周期性的编码对象信号的编码失真很大,会产生品质恶化现象。
另外,相反,设定周期加重系数,与编码对象信号显示弱周期性相对,使驱动代码向量具有强周期性的情况下,同样编码失真很大,会产生品质恶化现象。
为提高音频编码的信息量压缩率,增大帧长是有效的,但是,因为帧长很长,在对分析帧内音调变动等周期加重系数进行计算时,易受不良因素影响(文献2的结构)。另外,过去的帧增益与适合于当前帧的周期加重系数之间的相关性变小(文献3的结构)。因此,周期加重系数变得不适当的情况增加,使上述问题更显著。
另外,为提高音频编码的信息量压缩率,使用保存有驱动代码向量的性质各异的多个驱动音频源码本是有效的,但是此时,适当的周期加重系数在每个驱动音频源码本上都不同,使用上述单一周期加重系数会带来更严重的品质恶化问题。
例如,同时具备保存有噪音驱动代码向量的驱动音频源码本和在帧内仅保存有少量脉冲的非噪音的(脉冲的)驱动代码向量的驱动音频源码本的情况下,对噪音的驱动代码向量经常提供强周期,减少输出音频的噪音音质,主观上能提高品质,但是同样,对非噪音驱动代码向量也经常提供强周期,相对于原本非周期的噪音的输入语音,输出音频变成脉冲性音质,主观上引起品质的恶化。
另外,例如,具备保存有驱动代码向量的驱动音频码本,该驱动代码向量随时间的功率分布有偏向、如只有帧前半部分有信号,帧后半部分为零信号等的情况下,不常对该驱动代码向量提供强周期,则帧后半部分中编码特性恶化的问题严重,主观上在功率小的部分产生品质恶化问题。
发明内容
本发明为解决上述问题,以获得能主观地得到品质佳的输出音频的音频编码装置、音频编码方法、音频解码装置、音频解码方法为目的。
根据本发明的音频编码装置包括:在估算驱动代码向量的编码失真时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。
根据本发明的音频编码方法包括:在估算驱动代码向量的编码失真时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供步骤;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供步骤。
根据本发明的音频编码方法是分析输入语音,决定第1周期加重系数的方法。
根据本发明的音频编码方法是从音频代码决定第1周期加重系数的方法。
根据本发明的音频编码方法是判断语音的模式,并根据该判断结果决定第1周期加重系数的方法。
根据本发明的音频编码方法是判定语音的摩擦音区间,在该摩擦音区间内使第1周期加重系数的加重程度减弱的方法。
根据本发明的音频编码方法是判定语音的普通声音区间,在该普通声音区间内使第1周期加重系数的加重程度增强的方法。
根据本发明的音频编码方法是根据驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本的方法。
根据本发明的音频编码方法是根据驱动音频源码本中保存的驱动代码向量随时间的功率分布,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本的方法。
根据本发明的音频解码装置包括:在抽出与驱动音频源代码对应的驱动代码向量时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。
根据本发明的音频解码方法包括:在抽出与驱动音频源代码对应的驱动代码向量时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供步骤;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供步骤。
根据本发明的音频解码方法是对音频代码中含有的周期加重系数的代码解码,求出第1周期加重系数的方法。
根据本发明的音频解码方法是从音频代码决定第1周期加重系数的方法。
根据本发明的音频解码方法是判断语音的模式,并根据该判断结果决定第1周期加重系数的方法。
根据本发明的音频解码方法是判定语音的摩擦音区间,在该摩擦音区间内使第1周期加重系数的加重程度减弱的方法。
根据本发明的音频解码方法是判定语音的普通声音区间,在该普通声音区间内使第1周期加重系数的加重程度增强的方法。
根据本发明的音频解码方法是根据驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本的方法。
根据本发明的音频解码方法是根据驱动音频源码本中保存的驱动代码向量随时间的功率分布,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本的方法。
附图说明
图1是表示根据本发明实施例1的音频编码装置的结构图。
图2是表示驱动音频源编码单元内部的结构图。
图3是表示根据本发明实施例1的音频解码装置的结构图。
图4是表示驱动音频源解码单元内部的结构图。
图5是表示相对于驱动代码向量的周期加重的说明图。
图6是表示根据本发明实施例2的音频编码装置的结构图。
图7是表示驱动音频源编码单元内部的结构图。
图8是表示根据本发明实施例2的音频解码装置的结构图。
图9是表示驱动音频源解码单元内部的结构图。
图10是表示驱动音频源编码单元内部的结构图。
图11是表示根据本发明实施例3的音频解码装置的结构图。
图12是表示驱动音频源解码单元内部的结构图。
图13是表示传统的CELP型音频编码装置的结构图。
图14是表示驱动音频源编码单元内部的结构图。
图15是表示传统的CELP型音频解码装置的结构图。
图16是表示驱动音频源解码单元内部的结构图。
图17是表示具有周期提供单元的驱动音频源编码单元内部的结构图。
图18是表示具有周期提供单元的驱动音频源解码单元内部的结构图。
图19是表示相对于驱动代码向量的周期加重的说明图。
具体实施方式
下面对本发明的实施例进行说明。
实施例1
图1是表示根据本发明实施例1的音频编码装置的结构图,如图,41是分析输入语音,抽出语音的谱包络信息、即线性预测系数的线性预测分析单元。42是在对由线性预测分析单元41抽出的线性预测系数编码,并将它输出到多路复用单元46的同时,将该线性预测系数的量化值输出到自适应音频源编码单元43、驱动音频源编码单元44及增益编码单元45的线性预测系数编码单元。
另外,由线性预测系数分析单元41及线性预测系数编码单元42构成谱包络信息编码单元。
43是自适应音频源编码单元,用于在利用由线性预测系数编码单元42输出的线性预测系数的量化值生成临时合成语音、选择使临时合成语音与输入声音距离最小的自适应音频源代码,并输出到多路复用单元46的同时,使与自适应音频源代码对应的自适应音频源信号(过去的预定长度的音频源信号周期性反复时的时序向量)到输出增益编码单元45。44是驱动音频源编码单元,用于在分析输入声音求出周期加重系数,对此周期加重系数编码,并输出到多路复用单元46的同时,利用该周期加重系数的量化值及由线性预测系数编码单元42输出的线性预测系数的量化值生成临时合成语音,选择使临时合成语音与编码对象信号(从输入语音中扣除了由自适应音频源信号产生的合成语音的信号)距离最小的驱动音频源代码,并输出到多路复用单元46的同时,使与该驱动音频源代码对应的时序向量,即驱动音频源信号输出到增益编码单元45。
45是增益编码单元,用于在将从自适应音频源编码单元43输出的自适应音频源信号与从驱动音频源编码单元44输出的驱动音频源信号乘以增益向量的各要素,将各乘法运算结果相加,生成音频源信号的同时,利用由线性预测系数编码单元42输出的线性预测系数的量化值,将该音频源信号生成临时合成语音,选择使临时合成语音与输入语音距离最小的增益代码,并输出到多路复用单元46。
另外,由自适应音频源编码单元43,驱动音频源编码单元44及增益编码单元45组成音频源信息编码单元。
46是多路复用单元,将由线性预测系数编码单元42编码的线性预测系数代码、从自适应音频源编码单元43输出的自适应音频源代码、从驱动音频源编码单元44输出的周期加重系数代码及驱动音频源代码,以及从增益编码单元45输出的增益代码多路复用,并输出音频代码。
图2是表示驱动音频源编码单元44内部的结构图,如图,51是分析输入语音,决定周期加重系数(第1周期加重系数)的周期加重系数计算单元;52是在对周期加重系数计算单元51求出的周期加重系数编码的同时,将该周期加重系数的量化值输出到第1周期提供单元54的周期加重系数编码单元;53是保存有多个非噪音的(脉冲的)时序向量(驱动代码向量)的第1驱动音频源码本;54是利用从周期加重系数编码单元52输出的周期加重系数的量化值,使各时序向量的周期性加重的第1周期提供单元;55是利用从线性预测系数编码单元42输出的线性预测系数的量化值,生成各时序向量的临时合成语音的第1综合型滤波器;56是计算临时合成语音与从自适应音频源编码单元43输出的编码对象信号之间的距离的第1失真计算单元。
57是保存多个噪音的时序向量(驱动代码向量)的第2驱动音频源码本;58是利用预定的固定周期加重系数(第2周期加重系数),使各时序向量的周期性加重的第2周期提供单元;59是利用从线性预测系数编码单元42输出的线性预测系数的量化值,生成各时序向量的临时合成语音的第2综合型滤波器;60是计算临时合成语音与从自适应音频源编码单元43输出的编码对象信号之间的距离的第2失真计算单元;61是比较、评价第1失真计算单元56的计算结果与第2失真计算单元60的计算结果,选择驱动音频源代码的失真估算单元。
图3是表示根据本发明实施例1的音频解码装置的结构图,如图,71是将从音频编码装置输出的音频代码分离,将线性预测系数的代码输出到线性预测系数解码单元72,将自适应音频源代码输出到自适应音频源解码单元73,将周期加重系数的代码及驱动音频源代码输出到驱动音频源解码单元74,将增益代码输出到增益解码单元75的分离单元。72是对从分离单元71输出的线性预测系数的代码进行解码,并将该解码结果,即线性预测系数的量化值输出到综合型滤波器79的线性预测系数解码单元。
73是输出与从分离单元71输出的自适应音频源代码对应的自适应音频源信号(过去的音频源信号周期性反复时的时序向量)的自适应音频源解码单元。74是输出与从分离单元71输出的周期加重系数代码及驱动音频源代码对应的时序向量,即驱动音频源信号的驱动音频源解码单元。75是输出与从分离单元71输出的增益代码对应的增益向量的增益解码单元。
76是将从增益解码单元75输出的增益向量的要素乘以从自适应音频源解码单元73输出的自适应音频源信号的乘法运算器。77是将从增益解码单元75输出的增益向量的要素乘以从驱动音频源解码单元74输出的驱动音频源信号的乘法运算器。78是将乘法运算器76的运算结果及乘法运算器77的运算结果相加,生成音频源信号的加法运算器。79是对从加法运算器78中生成的音频源信号进行综合滤波处理,生成输出音频的综合型滤波器。
图4是表示驱动音频源解码单元74内部的结构图,如图,81是对从分离单元71输出的周期加重系数代码解码,将该解码结果,即周期加重系数(第1周期加重系数)的量化值输出到第1周期提供单元83的周期加重系数解码单元;82是保存有多个非噪音的(脉冲的)时序向量(驱动代码向量)的第1驱动音频源码本;83是利用从周期加重系数编码单元81输出的周期加重系数的量化值,使各时序向量的周期性加重的第1周期提供单元;84是保存多个噪音的时序向量(驱动代码向量)的第2驱动音频源码本;85是利用预定的固定周期加重系数(第2周期加重系数),使各时序向量的周期性加重的第2周期提供单元。
下面对其操作进行说明。
音频编码装置是以大约5~50ms为1帧,以帧单位进行处理。
首先,对谱包络信息的编码进行说明。
线性预测分析单元41在输入语音后,对该输入的语音进行分析,抽出语音的谱包络信息,即线性预测系数。
线性预测系数编码单元42在线性预测分析单元41抽出线性预测系数后,对该线性预测系数编码,将该代码输出到多路复用单元46。
另外,将该线性预测系数的量化值输出到自适应音频源编码单元43、驱动音频源编码单元44及增益编码单元45。
接下来,对音频源信号的编码进行说明。
自适应音频源编码单元43内置有存储过去的预定长度的音频源信号的自适应音频源码本,根据在内部产生的各自适应音频源代码(自适应音频源代码用2进制数位表示),生成使过去的音频源信号周期性反复时的时序向量。
接下来,将各时序向量乘以适当的增益后,使各时序向量从利用由线性预测系数编码单元42输出的线性预测系数的量化值的综合型滤波器中通过,生成临时合成语音。
另外,自适应音频源编码单元43,例如调查临时合成语音与输入语音间的距离作为编码失真,选择使该距离最小的自适应音频源代码,使之输出到多路复用单元46的同时,将与该选择的自适应音频源代码对应的时序向量作为自适应音频源信号,输出到增益编码单元45。
另外,将与选择的自适应音频源代码对应的音调周期,以及将从输入声音中扣除了由自适应音频源信号产生的合成语音的编码对象信号,输出到驱动音频源编码单元44。
下面,对驱动音频源编码单元44的操作进行说明。
周期加重系数计算单元51分析输入语音决定周期加重系数。
周期加重系数,例如,基于输入语音的长周期预测增益,确定谱特征为有声时,增强加重程度;为无声时,减弱加重程度。另外,长周期预测增益及音调周期的时间变动小时,增强加重程度;时间变动大时,减弱加重程度。
周期加重系数编码单元52,在周期加重系数计算单元51决定周期加重系数后,对该周期加重系数编码,将代码输出到多路复用单元46。另外,将该周期加重系数的量化值输出到第1周期提供单元54。
第1驱动音频源码本53,保存多个非噪音的(脉冲的)时序向量,即驱动代码向量,按照从失真估算单元61输出的各驱动音频源代码,依次输出时序向量。第1周期提供单元54,利用周期加重系数编码单元52输出的周期加重系数的量化值,使从第1驱动音频源码本53输出的时序向量的周期性加重,并将它输出。在第1周期提供单元54中,对时序向量的周期性的加重是通过梳状滤波器实现的。
然后,周期性加重了的各时序向量在乘以适当的增益后,输入第1综合型滤波器55中。
第1综合型滤波器55,利用由线性预测系数编码单元42输出的线性预测系数的量化值,生成乘以增益后的各时序向量的临时合成语音并输出。
第1失真计算单元56,例如计算临时合成语音与从自适应音频源编码单元43输出的编码对象信号之间的距离作为编码失真,并输出到失真估算单元61。
另一方面,第2驱动音频源码本57,保存多个噪音的时序向量,即驱动代码向量,按照从失真估算单元61输出的各驱动音频源代码,依次输出时序向量。第2周期提供单元58,利用预定的固定周期加重系数,使从第2驱动音频源码本57输出的时序向量的周期性加重并输出。在第2周期提供单元58中,对时序向量的周期性的加重是通过梳状滤波器实现的。
在此,第2周期提供单元58使用的固定周期加重系数是预定的,例如,通过这样的方法确定,对学习用输入语音编码,抽出第1周期提供单元54使用的周期加重系数不适当的帧,使得在此帧中的平均编码品质变好。
然后,周期性加重了的各时序向量在乘以适当的增益后,输入第2综合型滤波器59中。
第2综合型滤波器59,利用由线性预测系数编码单元42输出的线性预测系数的量化值,生成乘以增益后的各时序向量的临时合成语音并输出。
第2失真计算单元60,例如计算临时合成语音与从自适应音频源编码单元43输出的编码对象信号之间的距离作为编码失真,并输出到失真估算单元61。
失真估算单元61,选择使临时合成声音与编码对象信号之间的距离最小的驱动音频源代码,并输出到多路复用单元46。另外,一个指令输出到第1驱动音频源码本53或第2驱动音频源码本57,指示与该选择的驱动音频源代码对应的时序向量输出。第1周期提供单元54或第2周期提供单元58,使第1驱动音频源码本53或第2驱动音频源码本57输出的时序向量的音调周期性加重,将它作为驱动音频源信号输出到增益编码单元54。
如上所述,驱动音频源编码单元44输出驱动音频源信号后,增益编码单元45内置有保存增益向量的增益码本,根据在内部产生的各增益代码(增益代码用2进制数位表示),从增益码本中依次读出增益向量。
并且,将各增益向量的要素分别乘以从自适应音频源编码单元43输出的自适应音频源信号,以及从驱动音频源编码单元44输出的驱动音频源信号,并将各乘法运算结果相加,生成音频源信号。
接下来,使该音频源信号从利用由线性预测系数编码单元42输出的线性预测系数的量化值的综合型滤波器中通过,生成临时合成语音。
增益编码单元45,例如调查临时合成语音与输入语音间的距离作为编码失真,选择使该距离最小的增益代码,使之输出到多路复用单元46。另外,将与该增益代码对应的音频源信号输出到自适应音频源编码单元43。从而,自适应音频源编码单元43利用与由增益编码单元45选择的增益代码对应的音频源信号,更新内置的自适应音频源编码本。
多路复用单元46是将由线性预测系数编码单元42编码的线性预测系数代码、从自适应音频源编码单元43输出的自适应音频源信号、从驱动音频源编码单元44输出的周期加重系数的代码及驱动音频源代码,以及从增益编码单元45输出的增益代码多路复用,并将多路复用结果的音频代码输出。
音频编码装置输出音频代码后,音频解码装置的分离单元71将该音频代码分离,使线性预测系数的代码输出到线性预测系数解码单元72,自适应音频源代码输出到自适应音频源解码单元73,周期加重系数的代码及驱动音频源代码输出到驱动音频源解码单元74,增益代码输出到增益解码单元75。
线性预测系数解码单元72接受从分离单元71输出的线性预测系数的代码,对该代码进行解码,并将解码结果,即线性预测系数的量化值输出到综合型滤波器79。
自适应音频源解码单元73内置有存储过去的预定长度的音频源信号的自适应音频源码本,输出与从分离单元71输出的自适应音频源代码对应的自适应音频源信号(过去的音频源信号周期性反复时的时序向量)。
下面,对驱动音频源解码单元74的操作进行说明。
周期加重系数解码单元81接受从分离单元71输出的周期加重系数代码,将该代码解码,将解码结果,即周期加重系数的量化值输出到第1周期提供单元83。
第1驱动音频源码本82保存有多个非噪音的(脉冲的)时序向量,另外,第2驱动音频源码本84保存多个噪音的时序向量。第1驱动音频源码本82或第2驱动音频源码本84输出与从分离单元71输出的驱动音频源代码对应的时序向量。
第1驱动音频源码本82输出与驱动音频源代码对应的时序向量时,第1周期提供单元83利用从周期加重系数解码单元81输出的周期加重系数的量化值,使第1驱动音频源码本82输出的时序向量的周期性加重,并将它作为驱动音频源信号输出。
另一方面,第2驱动音频源码本84输出与驱动音频源代码对应的时序向量时,第2周期提供单元85利用预定的固定周期加重系数,使第2驱动音频源码本84输出的时序向量的周期性加重,并将它作为驱动音频源信号输出。
增益编码单元75内置有保存增益向量的增益码本,输出与从分离单元71输出的增益代码对应的增益向量。
从自适应音频源解码单元73输出的自适应音频源信号与从驱动音频源解码单元74输出的驱动音频源信号,经乘法运算器76,77乘以该增益向量的要素后,再由加法运算器78对乘法运算器76,77的乘法运算结果进行加法运算。
综合型滤波器79,对加法运算器78的加法运算结果,即音频源信号进行综合滤波处理,生成输出音频。另外,作为滤波系数,使用由线性预测系数解码单元72解码的线性预测系数的量化值。
最后,自适应音频源解码单元73使用上述音频源信号,更新内置的自适应音频源码本。
如上所述,根据实施例1的结构具备:在估算驱动代码向量的编码失真时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。因此,如图5所示,即使第1周期加重系数或第2周期加重系数中任意一个为不适当的值,由不适当的周期加重系数带来的不良影响被限定在一部分驱动代码向量上,主观上可以有效地获得品质较高的输出音频。
另外,根据分析输入语音求出的参数,决定第1周期加重系数,因此使用能从输入语音中抽出的多个参数,按精细的规则可决定周期加重系数。这样,可降低求出不适当的周期加重系数的频率,主观上可以有效地获得品质高的输出音频。
而且,根据驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本,因此,能够对噪音的驱动代码向量时常提供强周期,可降低输出音频的噪音音质。另外,对非噪音的驱动代码向量不常提供强周期,输出音频可避免变成脉冲音质,主观上可以有效地获得品质高的输出音频。
实施例2
图6是表示根据本发明实施例2的音频编码装置的结构图;如图,由于与图1相同的符号是表示相同或相当部分,在此省略其说明。
47是驱动音频源编码单元,用于从自适应音频源信号的增益中求出周期加重系数,利用周期加重系数及由线性预测系数编码单元42输出的线性预测系数的量化值生成临时合成语音,选择使临时合成语音与编码对象信号(从输入声音中扣除由自适应音频源信号产生的合成语音的信号)距离最小的驱动音频源代码,并输出到多路复用单元49的同时,使与该驱动音频源代码对应的时序向量,即驱动音频源信号输出到增益编码单元48。
48是增益编码单元,用于将从自适应音频源编码单元43输出的自适应音频源信号与从驱动音频源编码单元47输出的驱动音频源信号乘以增益向量的各要素,将各乘法运算结果相加,生成音频源信号的同时,利用由线性预测系数编码单元42输出的线性预测系数的量化值,将该音频源信号生成临时合成语音,选择使临时合成语音与输入语音距离最小的增益代码,并输出到多路复用单元49。
图7是表示驱动音频源编码单元47内部的结构图,如图,由于与图2相同的符号是表示相同或相当部分,在此省略其说明。
62是从自适应音频源信号的增益求出周期加重系数的周期加重系数计算单元。
图8是表示根据本发明实施例2的音频解码装置的结构图,如图,由于与图3相同的符号是表示相同或相当部分,在此省略其说明。
80是从自适应音频源信号的增益求出周期加重系数,输出该周期加重系数及与从分离单元71输出的驱动音频源代码对应的时序向量,即驱动音频源信号的驱动音频源解码单元。
图9是表示驱动音频源解码单元80内部的结构图,如图,由于与图4相同的符号是表示相同或相当部分,在此省略其说明。
86是从自适应音频源信号的增益求出周期加重系数的周期加重系数计算单元。
下面,对其操作进行说明。
除了驱动音频源编码单元47的周期加重系数计算单元62、增益编码单元48及驱动音频源解码单元80的周期加重系数计算单元86外,与上述实施例1相同,在此只对不同点进行说明。
周期加重系数计算单元62,利用对于从增益编码单元48输出的自适应音频源信号的增益,例如,利用对于先前帧的自适应音频源信号的增益,决定周期加重系数,将该周期加重系数输出到第1周期提供单元54。
增益编码单元48内置有保存增益向量的增益码本,根据在内部产生的各增益代码(增益代码用2进制数位表示),从增益码本中依次读出增益向量。
然后,将增益向量的各要素分别乘以从自适应音频源编码单元43输出的自适应音频源信号,以及从驱动音频源编码单元47输出的驱动音频源信号,并将各乘法运算结果相加,生成音频源信号。
接下来,该增益编码单元48使该音频源信号从利用由线性预测系数编码单元42输出的线性预测系数的量化值的综合型滤波器中通过,生成临时合成语音。
增益编码单元48,例如调查临时合成语音与输入语音间的距离作为编码失真,选择使该距离最小的增益代码,使之输出到多路复用单元49。而且,将与该增益代码对应的音频源信号输出到自适应音频源编码单元43的同时,使与该增益代码对应的自适应音频源信号的增益输出到驱动音频源编码单元47。
与驱动音频源编码单元47的周期加重系数计算单元62一样,周期加重系数计算单元86从增益解码单元75输出的自适应音频源信号的增益决定周期加重系数,将该周期加重系数输出到第1周期提供单元83。
如上所述,根据实施例2的结构可以使得基于可从音频代码求出的参数能够决定第1周期加重系数,因此不必个别地对周期加重系数编码,即使是低比特率,利用按所定的规则求出的适当的第1周期加重系数或预定的固定第2周期加重系数,可以进行对驱动代码向量的周期性加重的处理,主观上可以得到品质较高的输出音频。
实施例3
图10是根据本发明的实施例3,表示音频编码装置中驱动音频源编码单元47内部的结构图,由于与图2相同的符号是表示相同或相当部分,在此省略其说明。
63是从线性预测系数的量化值、音调周期及自适应音频源信号的增益判定声音模式的音频模式判定单元。64是从音频模式的判定结果与自适应音频源信号的增益决定周期加重系数的周期加重系数计算单元。
图11是表示根据本发明实施例3的音频解码装置的结构图,如图,由于与图3相同的符号是表示相同或相当部分,在此省略其说明。
91是驱动音频源解码单元,用于从线性预测系数的量化值、音调周期及自适应音频源信号的增益判定声音模式,通过该音频模式的判定结果与自适应音频源信号的增益求出周期加重系数,将该周期加重系数和与由分离单元71输出的驱动音频源代码对应的时序向量,即驱动音频源信号输出。
图12是表示驱动音频源解码单元91内部的结构图,由于与图4相同的符号是表示相同或相当部分,在此省略其说明。
87是从线性预测系数的量化值、音调周期及自适应音频源信号的增益来判定声音模式的音频模式判定单元。88是从音频模式的判定结果与自适应音频源信号的增益来决定周期加重系数的周期加重系数计算单元。
下面对其操作进行说明。
除驱动音频源编码单元47的语音模式判定单元63及周期加重系数计算单元64、驱动音频源解码单元91的声音模式判定单元87及周期加重系数计算单元88外,与上述实施例2相同,在此只对不同点进行说明。
语音模式判定单元63,从线性预测系数编码单元42输出的线性预测系数的量化值,自适应音频源编码单元43输出的音调周期及增益编码单元48输出的自适应音频源信号的增益,判定输入语音的模式为例如摩擦音、普通声音或其它,将该判定结果输出到周期加重系数计算单元64。
语音模式的判定,例如从线性预测系数的量化值中求出谱的斜率,如果它显示从低频率区域移向高频率区域时,音频的功率增大,则此种模式为摩擦音;求出音调周期及增益的时间变动,若变动小则为普通声音;不符合以上条件则为其它。
周期加重系数计算单元64,利用从语音模式判定单元63输出的语音模式的判定结果和对于增益编码单元48输出的自适应音频源信号的增益,例如,利用对先前帧的自适应音频源信号的增益,决定周期加重系数,将周期加重系数输出到第1周期提供单元54。
在此,上述周期加重系数,在语音模式为摩擦声音时,加重程度减弱;语音模式为普通声音时,加重程度增强。
从而,在本来输入语音的无周期性的摩擦音区间,对驱动音频源向量进行强周期加重,或在本来输入语音的周期性强的普通声音区间,对驱动音频源向量只进行弱周期加重等不适当的周期加重的情况不会出现,主观上可以得到品质较高的编码语音。
与驱动音频源编码单元47的语音模式判定单元63相同,语音模式判定单元87从线性预测系数编码单元72输出的线性预测系数的量化值、自适应音频源解码单元73输出的音调周期及增益解码单元75输出的自适应音频源信号的增益来判定输入语音的模式,并将该判定结果输出到周期加重系数计算单元88。
与驱动音频源编码单元47的周期加重系数计算单元64相同,周期加重系数计算单元88从语音模式判定单元87输出的语音模式的判定结果和对于增益解码单元75输出的自适应音频源信号的增益来决定周期加重系数,将该周期加重系数输出到第1周期提供单元83。
从而,根据可从音频代码求出的参数判定语音模式,对应此判定结果决定周期加重系数,因此,不增加传送信息量也可以更精确地控制周期加重系数,主观上可得到品质较高的编码语音。
另外,语音模式的判定结果为本来无周期性的摩擦音时,使周期加重系数的加重程度减弱,从而,主观上可得到品质较高的编码语音。
并且,语音模式的判定结果为本来周期性强的普通声音时,使周期加重系数的加重程度增强,从而,主观上可得到品质较高的编码语音。
实施例4
上述实施例1~3中说明了对应驱动音频源码本保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本的结构,也可以是这样的结构,即第1驱动音频源码本53、82保存有随时间的功率分布较平坦的多个时序向量(驱动代码向量),第2驱动音频源码本57、84中保存有随时间的功率分布偏向帧前半部分的多个时序向量(驱动代码向量)。
根据这样的结构,可以向随时间的功率分布有偏向的驱动代码向量经常提供强周期,提供周期后的驱动代码向量的功率分布的偏向减小,主观上可得到品质较高的编码语音。
实施例5
上述实施例1~4中准备了2个驱动音频源码本,也可以准备3个以上驱动音频源码本,构成驱动音频源编码单元44,47以及驱动音频源解码单元74、80、91。
另外,上述实施例1~4中,明显说明了具有多个驱动音频源码本的结构,也可以将保存在单一驱动音频源码本中的时序向量分割成多个子集,将各个子集作为单个的驱动音频源码本。
另外,上述实施例1~4中,第1驱动音频源码本53、82与第2驱动音频源码本57、84中保存着不同的驱动代码向量,当然,也可以保存同一代码向量。即,将第1周期提供步骤及第2周期提供步骤应用于单一的驱动音频源码本。
另外,上述实施例1~4中的结构是具备第1综合型滤波器55与第2综合型滤波器59这2个综合型滤波器的结构,由于它们进行着相同的操作,因而也可以构成共用1个综合型滤波器的结构。同样,第1失真计算单元56与第2失真计算单元60也可以共用一个失真计算单元。
如上所述,根据本发明的结构包括:在估算驱动代码向量的编码失真时,利用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。因此,即使第1周期加重系数或第2周期加重系数中任意一个为不适当的值,由不适当的周期加重系数带来的不良影响被限定在一部分驱动代码向量上,主观上可以有效地获得品质较高的输出音频。
根据本发明的方法包括:在估算驱动代码向量的编码失真时,利用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供步骤;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供步骤。因此,即使第1周期加重系数或第2周期加重系数中任意一个为不适当的值,由不适当的周期加重系数带来的不良影响被限定在一部分驱动代码向量上,主观上可以有效地获得品质较高的输出音频。
根据本发明,分析输入语音,决定第1周期加重系数,因此可降低求出不适当的周期加重系数的频率,主观上可以有效地获得品质高的输出音频。
根据本发明,从音频代码决定第1周期加重系数,因此不必个别对周期加重系数编码,即不增加传送信息量也可以对驱动代码向量进行周期性加重,主观上可得到品质较高的输出音频。
根据本发明,判断语音的模式,并根据该判断结果决定第1周期加重系数,因此,可以更精细地控制周期加重系数,主观上可得到品质较高的编码音频。
根据本发明,判定声音的摩擦音区间,在该摩擦音区间内使第1周期加重系数的加重程度减弱;主观上可得到品质较高的编码音频。
根据本发明,判定声音的普通声音区间,在该普通声音区间内使第1周期加重系数的加重程度增强;主观上可得到品质较高的编码音频。
根据本发明,对应驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本,因此,可降低输出音频的噪音音质,另外,输出音频可避免变成脉冲音质,主观上可以有效地获得品质高的编码声音。
根据本发明,对应驱动音频源码本中保存的驱动代码向量随时间的功率分布,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本,因此,可以减轻周期提供后的驱动代码向量的功率分布的偏向,主观上可以有效地获得品质高的编码音频。
根据本发明的结构包括:在抽出与驱动音频源代码对应的驱动代码向量时,利用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。因此,即使第1周期加重系数或第2周期加重系数中任意一个为不适当的值,由不适当的周期加重系数带来的不良影响被限定在一部分驱动代码向量上,主观上可以有效地获得品质较高的输出音频。
根据本发明的方法包括:在抽出与驱动音频源代码对应的驱动代码向量时,利用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供步骤;使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供步骤。因此,即使第1周期加重系数或第2周期加重系数中任意一个为不适当的值,由不适当的周期加重系数带来的不良影响被限定在一部分驱动代码向量上,主观上可以有效地获得品质较高的输出音频。
根据本发明,对音频代码中包含的周期加重系数代码进行解码,求出第1周期加重系数,因此,主观上可以有效地获得品质高的输出音频。
根据本发明,从音频代码决定第1周期加重系数,因此不必个别对周期加重系数编码,即不增加传送信息量也可以对驱动代码向量进行周期性加重,主观上可得到品质较高的输出音频。
根据本发明,判断语音的模式,并根据模式判断结果决定第1周期加重系数,因此,可以更精细地控制周期加重系数,主观上可得到品质较高的编码音频。
根据本发明,判定语音的摩擦音区间,在该摩擦音区间内使第1周期加重系数的加重程度减弱,主观上可得到品质较高的编码音频。
根据本发明,判定语音的普通声音区间,在该普通声音区间内使第1周期加重系数的加重程度增强,主观上可得到品质较高的编码音频。
根据本发明,对应驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本,因此,可降低输出音频的噪音音质,另外,输出音频可避免变成脉冲音质,主观上可以有效地获得品质高的编码声音。
根据本发明,对应驱动音频源码本中保存的驱动代码向量随时间的功率分布,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本,因此,可以减轻周期提供后的驱动代码向量的功率分布的偏向,主观上可以有效地获得品质高的编码音频。
Claims (18)
1.一种音频编码装置,包括:
从输入语音中抽出谱包络信息,对该谱包络信息编码的谱包络信息编码单元;
利用由上述谱包络信息编码单元中抽出的谱包络信息,决定使生成的合成语音编码失真最小的自适应音频源代码、驱动音频源代码及增益代码的音频源信息编码单元;以及
使由上述谱包络信息编码单元编码的谱包络信息及由上述音频源信息编码单元决定的自适应音频源代码、驱动音频源代码及增益代码多路复用,输出音频代码的多路复用单元,
其特征在于,上述音频源信息编码单元包括:
对保存在多个驱动音频源码本中的驱动代码向量的编码失真进行估算,决定驱动音频源代码的驱动音频源编码单元;
在估算该驱动代码向量的编码失真时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;以及
使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。
2.一种音频编码方法,包括:
从输入语音中抽出谱包络信息,对该谱包络信息编码的谱包络信息编码步骤;
利用由上述谱包络信息编码步骤中抽出的谱包络信息,决定使生成的合成语音编码失真最小的自适应音频源代码、驱动音频源代码及增益代码的音频源信号编码步骤;以及
使由上述谱包络信息编码步骤编码的谱包络信息及由上述音频源信号编码步骤决定的自适应音频源代码、驱动音频源代码及增益代码多路复用,输出音频代码的多路复用步骤,
其特征在于,上述音频源信号编码步骤包括:
对保存在多个驱动音频源码本中的驱动代码向量的编码失真进行估算,决定驱动音频源代码的驱动音频源编码步骤;
在估算该驱动代码向量的编码失真时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供步骤;以及
使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供步骤。
3.如权利要求2所述的音频编码方法,其特征在于:分析输入语音,决定第1周期加重系数。
4.如权利要求2所述的音频编码方法,其特征在于:从音频代码决定第1周期加重系数。
5.如权利要求3或4所述的音频编码方法,其特征在于:判断语音的模式,并根据该判断结果决定第1周期加重系数。
6.如权利要求5所述的音频编码方法,其特征在于:判定语音的摩擦音区间,在该摩擦音区间内使第1周期加重系数的加重程度减弱。
7.如权利要求5所述的音频编码方法,其特征在于:判定语音的普通声音区间,在该普通声音区间内使第1周期加重系数的加重程度增强。
8.如权利要求2所述的音频编码方法,其特征在于:对应驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本。
9.如权利要求2所述的音频编码方法,其特征在于:对应驱动音频源码本中保存的驱动代码向量随时间的功率分布,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本。
10.一种音频解码装置,包括:
从音频代码中分离出谱包络信息和音频源信息,即自适应音频源代码、驱动音频源代码及增益代码的分离单元;
对由上述分离单元分离的谱包络信息解码的谱包络信息解码单元;以及
对来自由上述分离单元分离的自适应音频源代码、驱动音频源代码及增益代码的音频源信号进行解码的音频源信号解码单元,
其特征在于,上述音频源信号解码单元包括:
从保存在多个驱动音频源码本中的驱动代码向量中抽出与驱动音频源代码对应的驱动代码向量的驱动音频源解码单元;
在抽出与驱动音频源代码对应的驱动代码向量时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供单元;以及
使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供单元。
11.一种音频解码方法,包括:
从音频代码中分离出谱包络信息和音频源信息,即自适应音频源代码、驱动音频源代码及增益代码的分离步骤;
对由上述分离步骤分离的谱包络信息解码的谱包络信息解码步骤;以及
对来自由上述分离步骤分离的自适应音频源代码、驱动音频源代码及增益代码的音频源信号进行解码的音频源信号解码步骤,
其特征在于,上述音频源信号解码步骤包括:
从保存在多个驱动音频源码本中的驱动代码向量中抽出与驱动音频源代码对应的驱动代码向量的驱动音频源解码步骤;
在抽出与驱动音频源代码对应的驱动代码向量时,使用基于所定的规则求出的适合的第1周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第1周期提供步骤;以及
使用预定的第2周期加重系数,使得从至少一个以上的驱动音频源码本输出的驱动代码向量的周期性加重的第2周期提供步骤。
12.根据权利要求11所述的音频解码方法,其特征在于:对音频代码中含有的周期加重系数的代码解码,求出第1周期加重系数。
13.根据权利要求11所述的音频解码方法,其特征在于:从音频代码决定第1周期加重系数。
14.根据权利要求13所述的音频解码方法,其特征在于:判断语音的模式,并根据该判断结果决定第1周期加重系数。
15.根据权利要求14所述的音频解码方法,其特征在于:判定语音的摩擦音区间,在该摩擦音区间内使第1周期加重系数的加重程度减弱。
16.根据权利要求14所述的音频解码方法,其特征在于:判定语音的普通声音区间,在该普通声音区间内使第1周期加重系数的加重程度增强。
17.根据权利要求11所述的音频解码方法,其特征在于:对应驱动音频源码本中保存的驱动代码向量的噪音特性的程度,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本。
18.根据权利要求11所述的音频解码方法,其特征在于:对应驱动音频源码本中保存的驱动代码向量随时间的功率分布,使第1周期提供步骤或第2周期提供步骤中任意一个应用于该驱动音频源码本。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP67631/01 | 2001-03-09 | ||
JP2001067631A JP3566220B2 (ja) | 2001-03-09 | 2001-03-09 | 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法 |
JP67631/2001 | 2001-03-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1375818A true CN1375818A (zh) | 2002-10-23 |
CN1172294C CN1172294C (zh) | 2004-10-20 |
Family
ID=18925954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021069808A Expired - Fee Related CN1172294C (zh) | 2001-03-09 | 2002-03-08 | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7006966B2 (zh) |
EP (1) | EP1239464B1 (zh) |
JP (1) | JP3566220B2 (zh) |
CN (1) | CN1172294C (zh) |
DE (1) | DE60201766T2 (zh) |
IL (1) | IL148413A0 (zh) |
TW (1) | TW550541B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111602196A (zh) * | 2018-01-17 | 2020-08-28 | 日本电信电话株式会社 | 编码装置、解码装置、摩擦音判定装置、它们的方法以及程序 |
CN111602197A (zh) * | 2018-01-17 | 2020-08-28 | 日本电信电话株式会社 | 解码装置、编码装置、它们的方法以及程序 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996234B2 (en) * | 2003-08-26 | 2011-08-09 | Akikaze Technologies, Llc | Method and apparatus for adaptive variable bit rate audio encoding |
US7329383B2 (en) | 2003-10-22 | 2008-02-12 | Boston Scientific Scimed, Inc. | Alloy compositions and devices including the compositions |
EP1905002B1 (en) | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
WO2006126859A2 (en) | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method of encoding and decoding an audio signal |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
WO2007004833A2 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US8073702B2 (en) | 2005-06-30 | 2011-12-06 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
JP5227794B2 (ja) | 2005-06-30 | 2013-07-03 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
WO2007027051A1 (en) | 2005-08-30 | 2007-03-08 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8577483B2 (en) | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
JP4568363B2 (ja) | 2005-08-30 | 2010-10-27 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
US7788107B2 (en) | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
EP1946297B1 (en) | 2005-09-14 | 2017-03-08 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100857111B1 (ko) | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7672379B2 (en) | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7751485B2 (en) | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US7646319B2 (en) | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US8068569B2 (en) | 2005-10-05 | 2011-11-29 | Lg Electronics, Inc. | Method and apparatus for signal processing and encoding and decoding |
WO2007040364A1 (en) | 2005-10-05 | 2007-04-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7653533B2 (en) | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
KR100885700B1 (ko) | 2006-01-19 | 2009-02-26 | 엘지전자 주식회사 | 신호 디코딩 방법 및 장치 |
WO2007083952A1 (en) | 2006-01-19 | 2007-07-26 | Lg Electronics Inc. | Method and apparatus for processing a media signal |
EP1984913A4 (en) | 2006-02-07 | 2011-01-12 | Lg Electronics Inc | DEVICE AND METHOD FOR CODING / DECODING A SIGNAL |
US7974287B2 (en) | 2006-02-23 | 2011-07-05 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
KR20080071971A (ko) | 2006-03-30 | 2008-08-05 | 엘지전자 주식회사 | 미디어 신호 처리 방법 및 장치 |
US20080235006A1 (en) | 2006-08-18 | 2008-09-25 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
US7780798B2 (en) | 2006-10-13 | 2010-08-24 | Boston Scientific Scimed, Inc. | Medical devices including hardened alloys |
EP2116997A4 (en) * | 2007-03-02 | 2011-11-23 | Panasonic Corp | AUDIO DECODING DEVICE AND AUDIO DECODING METHOD |
WO2009081568A1 (ja) * | 2007-12-21 | 2009-07-02 | Panasonic Corporation | 符号化装置、復号装置および符号化方法 |
US9208798B2 (en) * | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
EP2860729A4 (en) * | 2012-06-04 | 2016-03-02 | Samsung Electronics Co Ltd | METHOD AND DEVICE FOR AUDIO CODING, METHOD AND DEVICE FOR AUDIO DECODING, AND MULTIMEDIA DEVICE EMPLOYING THEM |
JP6962268B2 (ja) * | 2018-05-10 | 2021-11-05 | 日本電信電話株式会社 | ピッチ強調装置、その方法、およびプログラム |
JP6962269B2 (ja) * | 2018-05-10 | 2021-11-05 | 日本電信電話株式会社 | ピッチ強調装置、その方法、およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3192051B2 (ja) | 1994-07-28 | 2001-07-23 | 日本電気株式会社 | 音声符号化装置 |
JP3328080B2 (ja) | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
JP3206497B2 (ja) * | 1997-06-16 | 2001-09-10 | 日本電気株式会社 | インデックスによる信号生成型適応符号帳 |
CN1494055A (zh) | 1997-12-24 | 2004-05-05 | ������������ʽ���� | 声音编码方法和声音译码方法以及声音编码装置和声音译码装置 |
JP4308345B2 (ja) | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
-
2001
- 2001-03-09 JP JP2001067631A patent/JP3566220B2/ja not_active Expired - Fee Related
-
2002
- 2002-02-25 TW TW091103258A patent/TW550541B/zh not_active IP Right Cessation
- 2002-02-27 IL IL14841302A patent/IL148413A0/xx unknown
- 2002-02-27 US US10/083,556 patent/US7006966B2/en not_active Expired - Fee Related
- 2002-02-28 DE DE60201766T patent/DE60201766T2/de not_active Expired - Lifetime
- 2002-02-28 EP EP02004644A patent/EP1239464B1/en not_active Expired - Fee Related
- 2002-03-08 CN CNB021069808A patent/CN1172294C/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111602196A (zh) * | 2018-01-17 | 2020-08-28 | 日本电信电话株式会社 | 编码装置、解码装置、摩擦音判定装置、它们的方法以及程序 |
CN111602197A (zh) * | 2018-01-17 | 2020-08-28 | 日本电信电话株式会社 | 解码装置、编码装置、它们的方法以及程序 |
CN111602196B (zh) * | 2018-01-17 | 2023-08-04 | 日本电信电话株式会社 | 编码装置、解码装置、它们的方法及计算机可读记录介质 |
CN111602197B (zh) * | 2018-01-17 | 2023-09-05 | 日本电信电话株式会社 | 解码装置、编码装置、它们的方法以及计算机可读记录介质 |
Also Published As
Publication number | Publication date |
---|---|
US20020128829A1 (en) | 2002-09-12 |
TW550541B (en) | 2003-09-01 |
IL148413A0 (en) | 2002-09-12 |
JP2002268690A (ja) | 2002-09-20 |
EP1239464A2 (en) | 2002-09-11 |
DE60201766T2 (de) | 2005-12-01 |
EP1239464B1 (en) | 2004-11-03 |
EP1239464A3 (en) | 2004-01-28 |
US7006966B2 (en) | 2006-02-28 |
DE60201766D1 (de) | 2004-12-09 |
CN1172294C (zh) | 2004-10-20 |
JP3566220B2 (ja) | 2004-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1172294C (zh) | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 | |
CN1192358C (zh) | 声音信号加工方法和声音信号加工装置 | |
CN1185625C (zh) | 语音编码方法及语音编码装置 | |
CN1187716C (zh) | 用于编码和解码关键字数据的装置和方法 | |
CN1200403C (zh) | 线性预测编码参数的矢量量化装置 | |
CN1185620C (zh) | 声音合成装置和方法以及电话装置 | |
CN1957399A (zh) | 语音/音频解码装置以及语音/音频解码方法 | |
CN1222926C (zh) | 语音编码方法及其装置 | |
CN1299560A (zh) | 图像编码方法、图像编码译码方法、图像编码装置或图像记录再生装置 | |
CN1106710C (zh) | 向量量化装置和方法 | |
CN1249035A (zh) | 声音编码装置、声音译码装置及声音编码译码装置、以及声音编码方法、声音译码方法及声音编码译码方法 | |
CN1922660A (zh) | 通信装置和信号编码/解码方法 | |
CN1097396C (zh) | 声音编码装置和方法 | |
CN1310431C (zh) | 用于编码音频信号的设备和方法 | |
CN1151491C (zh) | 音频编码装置和音频编码译码装置 | |
CN1702974A (zh) | 用于对数字信号编码/解码的方法和设备 | |
CN1282107C (zh) | 一种对图像进行快速压缩和解压缩的方法 | |
CN101061638A (zh) | 信号编码器、信号解码器、信号编码方法、信号解码方法、程序、记录介质和信号编解码方法 | |
CN1947173A (zh) | 分层编码装置及分层编码方法 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN1383614A (zh) | 压缩方法及装置、扩展方法及装置、压缩扩展系统、存储媒体、程序 | |
CN1135528C (zh) | 声音编码装置以及声音解码装置 | |
CN1229501A (zh) | 用前向和反向线性预测编码分析编码音频信号的方法和装置 | |
CN1669071A (zh) | 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质 | |
CN1144178C (zh) | 音频信号编码装置和译码装置以及音频信号编码和译码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20041020 Termination date: 20180308 |
|
CF01 | Termination of patent right due to non-payment of annual fee |