CN102648493B - 音频信号处理方法和设备 - Google Patents

音频信号处理方法和设备 Download PDF

Info

Publication number
CN102648493B
CN102648493B CN201080053308.2A CN201080053308A CN102648493B CN 102648493 B CN102648493 B CN 102648493B CN 201080053308 A CN201080053308 A CN 201080053308A CN 102648493 B CN102648493 B CN 102648493B
Authority
CN
China
Prior art keywords
term
short
present frame
frame
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080053308.2A
Other languages
English (en)
Other versions
CN102648493A (zh
Inventor
田惠晶
金大焕
姜泓求
李珉基
李炳锡
丁奎赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IND ACADEMIC COOP
LG Electronics Inc
Original Assignee
IND ACADEMIC COOP
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IND ACADEMIC COOP, LG Electronics Inc filed Critical IND ACADEMIC COOP
Publication of CN102648493A publication Critical patent/CN102648493A/zh
Application granted granted Critical
Publication of CN102648493B publication Critical patent/CN102648493B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

所公开的是一种音频信号处理方法,包括步骤:接收包含当前的帧数据的音频信号;当在当前的帧数据中出现错误时,通过随机码本相对于当前的帧数据执行帧错误隐蔽,产生用于当前帧的第一临时输出信号;通过基于第一临时输出信号执行短期预测、长期预测和固定码本搜索中的一个或多个,产生参数;以及存储器更新所述参数用于下一个帧;其中,所述参数包括音调增益、音调延迟、固定码本增益和固定码本中的一个或多个。

Description

音频信号处理方法和设备
技术领域
本发明涉及一种以编码或者解码音频信号的音频信号处理方法和设备。
背景技术
由于语音信号传输的目的通常是实时通信,所以当语音信号的编码和解码延迟降低时,音频信号的传输,尤其是语音信号的传输得到改善。
发明内容
技术问题
当语音信号或者音频信号被传送给接收侧时,会出现导致音频质量降低的错误或者损耗。
技术解决方案
已经提出本发明以便克服上述的问题,并且本发明的目的是提供一种用于在接收器处隐蔽帧损耗的音频信号处理方法和设备。
另一个目的是提供一种音频信号处理方法和设备,其用于最小化由于任意产生的信号而导致的到下一个帧的错误的传播,以隐蔽帧损耗。
有益效果
本发明提供以下的优点和益处。
第一,由于执行基于接收器的损耗隐蔽方法,所以不需要用于帧错误隐蔽的附加信息的比特,并且因此,即使在低比特率环境下也有可能有效率地隐蔽损耗。
第二,当执行当前的损耗隐蔽方法时,有可能将到下一个帧的错误传播最小化,并且因此,可以尽可能地防止音频质量劣化。
附图说明
图1是根据本发明实施例的音频信号处理设备的框图;
图2是根据本发明实施例的音频信号处理方法的流程图;
图3是根据本发明实施例的错误隐蔽单元130的详细框图;
图4是错误隐蔽步骤S400的流程图;
图5举例说明根据本发明实施例由错误隐蔽单元产生的信号;
图6是根据本发明实施例的再编码器140的详细框图;
图7是再编码步骤S500的流程图;
图8是根据本发明实施例的解码器120的详细框图;
图9是编码步骤S700的流程图;以及
图10举例说明根据本发明实施例的由解码器产生的信号。
具体实施方式
根据本发明实现以上目的的音频信号处理方法包括:接收包括当前帧数据的音频信号,当在当前帧的数据中出现错误时,使用随机码本对当前帧的数据执行帧错误隐蔽,以产生当前帧的第一临时输出信号,基于第一临时输出信号执行短期预测、长期预测和固定码本搜索中的至少一个,以产生参数,以及利用参数来更新存储器用于下一个帧,其中,参数包括音调(pitch)增益、音调延迟、固定码本增益和固定码本中的至少一个。
根据本发明,音频信号处理方法可以进一步包括:当在当前帧的数据中出现错误时,对过去的输入信号执行外推,以产生第二临时输出信号,以及根据先前帧的语音特征,选择第一临时输出信号或者第二临时输出信号,其中参数可以通过对选择的临时输出信号执行短期预测、长期预测、和固定码本搜索中的至少一个来产生。
根据本发明,先前帧的语音特征可以与先前帧的浊音特征较大或者清音特征较大相关联,并且当音调增益为高并且音调延迟改变很少时,浊音特征可以较大。
根据本发明,存储器可以包括用于长期预测的存储器、以及用于短期预测的存储器,并且包括用于预测方案的参数量化的存储器。
根据本发明,音频信号处理方法可以进一步包括:通过使用参数,执行固定码本获取、自适应码本合成和短期合成中的至少一个,产生当前帧的最终输出信号。
根据本发明,音频信号处理方法可以进一步包括:以经由长期合成和固定码本合成而获取的最终输出信号和激励信号来更新存储器。
根据本发明,音频信号处理方法可以进一步包括:当在下一个帧的数据中没有出现错误时,基于存储器对下一个帧执行长期合成和短期合成中的至少一个。
根据本发明实现以上目的的音频信号处理设备包括:解复用器,其用于接收包括当前帧的数据的音频信号,以及检查在当前帧的数据中是否出现错误;错误隐蔽单元,其用于当在当前帧的数据中出现错误时,使用随机码本对当前帧的数据执行帧错误隐蔽,以产生当前帧的第一临时输出信号;再编码器,其用于基于第一临时输出信号来执行短期预测、长期预测、和固定码本搜索中的至少一个,以产生参数;以及解码器,其用于利用参数来更新存储器用于下一个帧,其中,参数包括音调增益、音调延迟、固定码本增益和固定码本中的至少一个。
根据本发明,错误隐蔽单元可以包括:外推单元,其用于当在当前帧的数据中出现错误时,对过去的输入信号执行外推,以产生第二临时输出信号;以及选择器,其用于根据先前帧的语音特征,选择第一临时输出信号或者第二临时输出信号,其中,可以通过对选择的临时输出信号执行短期预测、长期预测和固定码本搜索中的至少一个来产生参数。
根据本发明,先前帧的语音特征可以与先前帧的浊音特征较大或者清音特征较大相关联,并且当音调增益高并且音调延迟改变很少时,浊音特征可以较大。
根据本发明,存储器可以包括用于长期预测的存储器、以及用于短期预测的存储器,并且包括用于预测方案的参数量化的存储器。
根据本发明,解码器可以通过使用参数来执行固定码本获取、自适应码本合成、和短期合成中的至少一个产生当前帧的最终输出信号。
根据本发明,解码器可以以经由长期合成和固定码本合成而获取的最终输出信号和激励信号来更新存储器。
根据本发明,当在下一个帧的数据中没有出现错误时,解码器可以基于存储器对下一个帧执行长期合成和短期合成中的至少一个。
用于发明的模式
现在将参考伴随的附图详细描述本发明的优选实施例。在描述之前,应当注意到,在本说明书和权利要求书中使用的术语和措词应该解释为不限于在通用或者字典的含义,而是替代的应该理解为基于发明人可以适宜地定义每个术语的概念,以便以可允许的最好的方式描述他的/她自己发明的原理,具有与本发明的精神相符合的含义和概念。因此,在该说明书中描述的实施例以及在附图中示出的配置只是本发明最优选的例子,并且不意欲举例说明本发明精神的所有方面。因而,应该理解,可以进行各种各样的等效和修改,以在申请本申请时替换该例子。
在本发明中使用的以下的术语可以如以下描述的那样解释,并且在下面没有描述的其他的术语也可以以相同的方式解释。术语“编译”可以根据需要解释为编码或者解码,并且“信息”是包含值、参数、系数、元素等的术语,而且本发明不局限于上述术语的含义,其含义根据需要变化。
在这里,在广义上,术语“音频信号”不同于“视频信号”,并且其表示当再现时可以听得见地识别的信号。在狭义上,术语“音频信号”区别于“语音信号”,并且其表示几乎没有语音特征的信号。在本发明中,术语“音频信号”应该在广义上解释,当用作不同于“语音信号”的术语时,术语“音频信号”可以理解为在狭义上的音频信号。
此外,虽然该术语“编译”可以仅仅表示编码,其也可以具有包括编码和解码两者的含义。
图1是根据本发明实施例的音频信号处理设备的框图,以及图2是根据本发明实施例的音频信号处理方法的流程图。
首先,如图1所示,根据本发明实施例的音频信号处理设备100包括错误隐蔽单元130和再编码器140,并且可以进一步包括解复用器110和解码器120。该音频信号处理设备100的每个部件参考图1和2描述如下。
解复用器110经由网络接收包括当前帧数据的音频信号(S100)。在这里,解复用器110对接收的音频信号的分组执行信道编码,并且检查是否出现错误(S200)。然后,解复用器110根据作为错误检查结果的差的帧指标(BFI)将当前帧的接收数据提供给解码器120或者错误隐蔽单元130。特别地,当出现错误时,解复用器110将当前帧的数据提供给错误隐蔽单元130(在步骤S300中,为是),并且当没有出现错误时,将当前帧的数据提供给解码器120(在步骤S300中,为否)。
然后,错误隐蔽单元130使用随机码本和过去的信息对当前帧执行错误隐蔽,以产生临时输出信号(S400)。稍后将参考图3至5详细地描述由错误隐蔽单元130执行的过程。
再编码器140对临时输出信号执行再编码,以产生编码的参数(S500)。在这里,再编码可以包括短期预测、长期预测和码本搜索中的至少一个,并且参数可以包括音调增益、音调延迟、固定码本增益和固定码本中的至少一个。稍后将参考图6和7详细地描述步骤S500和再编码器140的详细配置。再编码器140将编码的参数提供给解码器120(S600)。
当在步骤S300中确定没有出现错误(即,在步骤S300中,为否)时,解码器120对从比特流提取的当前帧的数据执行解码(S700),或者基于从再编码器140接收的当前帧的编码参数执行解码(S700)。稍后将参考图8至10详细地描述解码器120和步骤S700的操作。
图3是根据本发明实施例的错误隐蔽单元130的详细框图,图4是错误隐蔽步骤S400的流程图,以及图5举例说明根据本发明的实施例由错误隐蔽单元产生的信号。
首先,如图3所示,错误隐蔽单元130可以包括错误隐蔽单元130、长期合成器132、随机信号发生器134、增强器136、外推器138-2和选择器139。在下面参考图3和4描述错误隐蔽单元130的详细配置。
首先,长期合成器132获取任意音调增益gpa和任意音调延迟Da(S410)。音调增益和音调延迟是经由长期预测(LTP)产生的参数,并且LTP滤波器可以由以下的表达式表示。
[表达式1]
1 P ( z ) = 1 1 - g p z - D
在这里,gp表示音调增益,并且D表示音调延迟。
也就是说,可以构成自适应码本的接收的音调增益和接收的音调延迟被代入表达式1。由于当前帧的接收数据的音调增益和音调延迟可能包含错误,所以长期合成器132获取任意音调增益gpa以及任意音调延迟Da,用于替换接收的音调增益和接收的音调延迟。在这里,任意音调增益gpa可以等于先前帧的音调增益值,并且也可以通过以一定的权重来对来自存储在先前帧的增益值之中的最近的增益值进行加权来计算,但是本发明不受限于此。任意音调增益gpa也可以通过根据语音信号的特征来适当地减小加权增益值而获得。任意音调延迟da也可以等于先前帧数据的那个,但是本发明不受限于此。
在先前帧的数据用于产生任意音调增益gpa和任意音调延迟Da的情形下,可以使用从解码器120的存储器接收的值(未示出)。
自适应码本是使用在步骤S410中获取的任意音调增益gpa和任意音调延迟Da,例如,通过将任意音调增益gpa和任意音调延迟Da代入表达式1来产生的(S420)。在这里,在步骤S420中,可以使用从解码器120接收的先前帧的过去的激励信号。图5(A)举例说明基于任意音调延迟和任意音调增益而产生的示例性的长期合成的信号gpav(n)以及先前帧的长期合成的信号(自适应码本)。
回到参考图3和4,随机信号发生器134使用任意码本增益gca和随机码本rand(n)来产生用于替换固定码本的信号gcarand(n)(S430)。在这里,任意码本增益gca也可以通过以某一权重来对来自存储在先前帧的增益值之中的最近的增益值进行加权来计算,并且也可以通过根据语音信号的特征适当地减小加权增益值来计算。但是,本发明不局限于这些计算方法。
图5(B)举例说明使用随机码本rand(n)和任意码本增益gca产生的示例性的固定码本信号gcarand(n)。参考回到图3和4,错误隐蔽的激励信号ufec(n)是使用在步骤S420产生的LTP合成的信号和在步骤S430产生的码本信号而产生的(S440)。
[表达式2]
ufec(n)=gpav(n)+gcarand(n)
在这里,ufec(n)表示错误隐蔽的激励信号,gpa表示任意音调增益(自适应码本增益),v(n)表示自适应码本,gca表示任意码本增益,以及rand(n)表示随机码本。
增强器136用于从错误隐蔽的激励信号ufec(n)中除去伪差(artifact),其可能在低传送速率模式中出现,或者当已经适用错误隐蔽时,其可能由于不充足的信息而出现。首先,增强器136通过FIR滤波器而使得码本自然,以便对于脉冲的短缺来补偿固定码本,并且通过语音特征分类过程来调整固定码本和自适应码本的增益。但是,本发明不局限于这种方法。
短期合成器138首先获取频谱矢量I[0],其任意短期预测系数(或者任意线性预测系数)已经被转换用于当前的帧。在这里,已经产生任意短期预测系数,以便由于在当前帧的数据中出现错误而替换接收的短期预测系数。任意短期预测系数是基于先前帧(包括紧接的先前帧)的短期预测系数产生的,并且可以根据以下的表达式产生,但是本发明不受限于此。
[表达式3]
I[0]=αI[-1]+(1-α)Iref
在这里,I[0]表示对应于任意短期预测系数的导抗光谱频率(ISP)矢量,I[-1]表示对应于先前帧的短期预测系数的ISP矢量,Iref表示对应于存储的短期预测系数的每个阶的ISP矢量,并且α表示权重。
短期合成器138使用任意短期频谱矢量I[0]执行短期预测合成或者线性预测(LPC)合成。在这里,STP合成滤波器可以由以下的表达式表示,但是本发明不受限于此。
[表达式4]
1 S ( z ) = 1 1 - A ( z ) = 1 1 - Σ i = 1 p a i z - i
在这里,ai是第i阶短期预测系数。
短期合成器138然后使用通过短期合成而获得的信号和在步骤S440产生的激励信号来产生第一临时输出信号(S460)。第一临时输出信号可以通过经由短期预测合成滤波器传送激励信号而产生,这是因为激励信号对应于短期预测合成滤波器的输入信号。
外推器138-2执行外推,以基于过去的信号产生未来的信号,以便产生用于错误隐蔽的第二临时输出信号(S470)。在这里,外推器138-2可以对过去的信号执行音调分析,并且存储对应于一个音调周期的信号,以及然后通过音调同步叠加和增加(PSOLA)方法,通过以叠加和增加方式顺序地耦合信号,可以产生第二临时输出信号,但是本发明的外推方法不局限于PSOLA。
选择器139从第一临时输出信号和第二临时输出信号之中选择再编码器140的目标信号(S480)。一旦通过过去的信号的语音特征分类确定输入声音是清音,则选择器139可以选择第一临时输出信号,并且一旦确定输入声音是浊音,则选择第二临时输出信号。嵌入在编解码器中的功能可用于执行语音特征分类,并且当长期增益为大,并且长期延迟值改变很少时,其可以确定输入声音是浊音,但是本发明不受限于此。
在下文中,将参考图6和7描述该再编码器140。图6是根据本发明实施例的再编码器140的详细框图,以及图7是再编码步骤S500的流程图。
首先,参考图6,再编码器140包括短期预测器142、感知(perceptual)加权滤波器144、长期预测器146和码本搜索器148中的至少一个。
如图6和7所示,短期预测器142接收第一临时输出信号和第二临时输出信号中的一个,其是如上参考图1所述的错误隐蔽单元130的输出信号,并且对接收信号执行短期预测分析(S510)。在这里,可以经由短期预测分析获得线性预测系数(LPC)。步骤S510的目的是产生短期预测系数,其经由短期分析将短期预测(STP)滤波器的错误(即,对应于在原始和预测信号之间差别的预测错误)减到最小。在这里,例如,有可能使用如上所述的表达式4的定义。
然后,感知加权滤波器144将感知加权滤波适用于残留信号r(n),其是在临时输出信号和经由短期预测获得的预测的信号之间的差值(S520)。在这里,感知加权滤波可以由以下的表达式表示。
[表达式5]
W ( z ) = A ( z / γ 1 ) A ( z / γ 2 )
在这里,γ1和γ2是权重。
优选的是,使用与在编码中使用的相同的权重。例如,γ1可以是0.94,并且γ2可以是0.6,但是本发明不受限于此。
长期预测器146可以通过对感知加权滤波已经适用于其的加权的输入信号执行开环搜索,以获得长期预测延迟值D,并且在离长期预测延迟值D的±d范围内,对长期预测延迟值D执行闭环搜索,以选择最终的长期预测延迟值T和相应的增益(S530)。在这里,d可以是8个采样,但是本发明不受限于此。
在这里,优选的是,使用与在编码器中使用的相同的长期预测方法。
特别地,长期预测延迟值(音调延迟)D可以根据以下的表达式计算。
[表达式6]
D = arg max k { Σ n = 0 L - 1 d ( n ) d ( n - k ) Σ n = 0 L - 1 d ( n - k ) d ( n - k ) }
在这里,长期预测延迟D是k,其最大化功能的值。
长期预测增益(音调增益)可以根据以下的表达式计算。
[表达式7]
g p = Σ n = 0 L - 1 d ( n ) d ( n - D ) Σ n = 0 L - 1 d 2 ( n - D ) , 以0≤gp≤1.2为界
在这里,d(n)表示长期预测目标信号,并且u(n)表示感知加权输入信号,L表示子帧的长度,D表示长期预测延迟值(音调延迟),以及gp表示长期预测增益(音调增益)。
d(n)在闭环方案中可以是输入信号x(n),并且在开环方案中可以是感知加权滤波已经适用于其的wx(n)。
在这里,长期预测增益是使用根据如上所述的表达式6确定的长期预测增益D而获得的。
长期预测器146经由以上所述的过程产生音调增益gp和长期预测延迟值D,并且将固定码本目标信号c(n)(其是通过从短期预测残留信号r(n)中除去经由长期预测产生的自适应码本信号而获得的)提供给码本搜索器148。
[表达式8]
c(n)=r(n)-gpv(n)
在这里,c(n)表示固定码本目标信号,r(n)表示短期预测残留信号,gp表示自适应码本增益,以及v(n)表示与自适应码本延迟D相对应的音调信号。
在这里,v(n)可以表示从先前的激励信号存储器使用长期预测器而获得的自适应码本,先前的激励信号存储器可以是参考图1如上所述的解码器120的存储器。
码本搜索器148通过对码本信号执行码本搜索来产生固定码本增益gc和固定码本(S540)。在这里,优选的是使用与在编码器中使用的相同的码本搜索方法。
在这里,参数可以以闭环方式产生,使得考虑到合成处理(诸如,长期合成和短期合成)(其是使用在步骤S510、S530和S540中产生的参数(包括短期预测系数、长期预测增益、长期预测延迟值、固定码本增益和固定码本)而执行的)的结果,编码的参数被重新确定。
经由以上所述的过程产生的参数被提供给如上参考图1和2所述的解码器120。
图8是根据本发明实施例的解码器120的详细框图,以及图9是编码步骤S700的流程图。图10举例说明根据本发明实施例的由解码器产生的信号。首先,参考图8,解码器120包括开关121、长期合成器122、固定码本获取器124、短期合成器126和存储器128。
参考图8和9,开关121根据错误检查结果(BFI)从解复用器110接收参数,或者从再编码器140接收参数(S710)。从解复用器110接收的参数是包括在已经由解复用器110提取的比特流中的参数。从再编码器140接收的参数是在错误隐蔽单元130对于如上所述出现错误的间隔(例如,帧)执行错误隐蔽之后,已经由再编码器140编码的参数。以下的描述参考在其中参数从再编码器140接收的后者的情形给出。
长期合成器122基于长期预测增益gp和长期预测延迟D执行长期合成,以产生自适应码本(S720)。长期合成器122类似于如上所述的长期合成器132,并且其差别在于输入参数。图10(A)举例说明使用接收的音调增益和接收的音调延迟而产生的示例性的长期合成信号gpv(n)。
码本获取器124使用接收的固定码本增益gc和固定码本参数而产生固定码本信号(S730)。图10(B)举例说明使用固定码本增益和固定码本索引而产生的示例性的固定码本信号。
激励信号u(n)是通过音调信号和码本信号求和而产生的。图10(C)举例说明示例性的激励信号。
与如上参考图3所述的随机信号发生器134不同,码本获取器124使用接收的固定码本而不是随机码本。
短期合成器126基于先前帧的信号和短期预测系数执行短期合成,并且将激励信号u(n)添加给短期合成信号,以产生最终输出信号(S740)。在这里,可以适用以下的表达式。
[表达式9]
u ( n ) = g p v ( n ) + g c c ^ ( n )
在这里,u(n)表示激励信号,gp表示自适应码本增益,v(n)表示与音调延迟D相对应的自适应码本,gc(n)表示固定码本增益,并且表示具有单位大小的固定码本。
短期合成器126的操作的详细说明在此处被省略,因为其类似于如上参考图3所述的短期合成器138的操作。
然后,以接收的参数、基于该参数产生的信号、最终输出信号等来更新存储器128(S750)。在这里,存储器128可以被分成用于错误隐蔽的存储器128-1(未示出)和用于解码的存储器128-2(未示出)。用于错误隐蔽的存储器128-1存储用于错误隐蔽单元130需要的数据(例如,长期预测增益、长期预测延迟值、过去的延迟值历史、固定码本增益和短期预测系数),并且用于解码的存储器128-2存储解码器120执行解码所需要的数据(例如,用于下一个帧的合成的当前帧的激励信号、增益值和最终输出信号)。二个存储器可以作为单个存储器128来实现,而不是分离地来实现。用于解码的存储器128-2可以包括用于长期预测的存储器和用于短期预测的存储器。用于长期预测的存储器128-2可以包括经由长期合成而从下一个帧产生激励信号所需要的存储器和用于短期合成所需要的存储器。
在当在下一个帧的数据中没有出现错误时,参数是经由图8的开关121从解复用器110接收的情形下,基于在步骤S750中更新的存储器的数据,对下一个帧执行长期合成122和短期合成126中的一个。
通过以上述方式,利用对应于错误隐蔽的信号的参数来更新包含错误的帧的数据,可以在解码下一个帧之后,尽可能地防止错误传播。
根据本发明的音频信号处理方法可以作为由要计算机执行的程序实现,并且程序然后可以存储在计算机可读的记录介质中。具有根据本发明的数据结构的多媒体数据也可以存储在计算机可读的存储介质中。计算机可读的记录介质包括任何类型的存储设备,其存储可以由计算机系统读取的数据。计算机可读的记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储设备等。计算机可读的记录介质还可以以载波(例如,经因特网传送的信号)的形式实施。经由如上所述的编码方法产生的比特流可以存储在计算机可读的记录介质中,或者可以经有线/无线通信网络传送。
虽然已经参考特定的实施例和附图如上所述了本发明,但是本发明不局限于该特定的实施例和附图,并且对于那些本领域技术人员来说显而易见的是,在不脱离本发明的精神和所附的权利要求书的范围及其等效的情况下,可以在本发明中进行各种各样的修改和变化。
工业适用性
本发明适用于音频信号处理和输出。

Claims (12)

1.一种音频信号处理方法,包括:
接收包括当前帧的数据的音频信号;
当在所述当前帧的数据中出现错误时,对所述当前帧的数据执行帧错误隐蔽,其中,对所述当前帧的数据执行帧错误隐蔽包括:
当所述当前帧具有错误时,基于先前帧的音调增益和先前帧的音调延迟产生当前帧的音调增益和当前帧的音调延迟;
使用所述当前帧的音调增益和所述当前帧的音调延迟产生自适应码本;
基于先前帧的任意码本增益产生当前帧的任意码本增益;以及
基于所述当前帧的音调增益、所述自适应码本以及所述当前帧的任意码本增益产生错误隐蔽的激励信号;
基于所述先前帧的短期预测系数产生所述当前帧的短期频谱矢量;以及
使用所述当前帧的短期频谱矢量和错误隐蔽的激励信号产生临时输出信号;以及
利用参数来更新存储器用于下一个帧,
其中,所述参数包括短期预测系数、音调增益、音调延迟、固定码本增益和固定码本中的至少一个。
2.根据权利要求1所述的音频信号处理方法,其中,所述产生所述当前帧的短期频谱矢量包括:
获得预定权重和参考短期频谱矢量;以及
使用所述先前帧的权重和所述参考短期频谱矢量和所述短期预测系数产生所述当前帧的所述短期频谱矢量。
3.根据权利要求1所述的音频信号处理方法,其中,所述存储器包括用于长期预测的存储器以及用于短期预测的存储器,并且包括用于预测方案的参数量化的存储器。
4.根据权利要求1所述的音频信号处理方法,进一步包括:
通过使用所述参数执行固定码本获取、自适应码本合成和短期合成中的至少一个,来产生当前帧的最终输出信号。
5.根据权利要求4所述的音频信号处理方法,进一步包括:
以经由长期合成和固定码本合成而获取的最终输出信号和激励信号来更新存储器。
6.根据权利要求1所述的音频信号处理方法,进一步包括:
当在下一个帧的数据中没有出现错误时,基于存储器对所述下一个帧执行长期合成和短期合成中的至少一个。
7.一种音频信号处理设备,包括:
解复用器,所述解复用器用于接收包括当前帧的数据的音频信号,以及检查在所述当前帧的数据中是否出现错误;
错误隐蔽单元,所述错误隐蔽单元用于当在所述当前帧的数据中出现错误时对所述数据执行帧错误隐蔽,其中,对所述当前帧的数据执行帧错误隐蔽包括:
当所述当前帧具有错误时基于先前帧的音调增益和所述先前帧的音调延迟产生当前帧的音调增益和所述当前帧的音调延迟;
使用所述当前帧的音调增益和所述当前帧的音调延迟产生自适应码本;
基于先前帧的任意码本增益产生所述当前帧的任意码本增益;以及
基于所述当前帧的音调增益、所述自适应码本以及所述当前帧的任意码本增益产生错误隐蔽的激励信号;
再解码器,所述再解码器用于基于所述当前帧的短期预测系数产生所述当前帧的短期频谱矢量,并且使用所述当前帧的短期频谱矢量和所述错误隐蔽的激励信号产生临时输出信号;
解码器,所述解码器利用参数来更新存储器用于下一个帧,
其中,所述参数包括短期预测系数、音调增益、音调延迟、固定码本增益和固定码本中的至少一个。
8.根据权利要求7所述的音频信号处理设备,其中,所述再解码器用于:
获得预定权重和参考短期频谱矢量;以及
使用所述先前帧的所述权重和所述参考短期频谱矢量和所述短期预测系数产生所述当前帧的所述短期频谱矢量。
9.根据权利要求7所述的音频信号处理设备,其中,所述存储器包括用于长期预测的存储器以及用于短期预测的存储器,并且包括用于预测方案的参数量化的存储器。
10.根据权利要求7所述的音频信号处理设备,其中,所述解码器通过使用所述参数来执行固定码本获取、自适应码本合成和短期合成中的至少一个,来产生所述当前帧的最终输出信号。
11.根据权利要求10所述的音频信号处理设备,其中,所述解码器利用经由长期合成和固定码本合成而获取的最终输出信号和激励信号来更新所述存储器。
12.根据权利要求7所述的音频信号处理设备,其中,当在下一个帧的数据中没有出现错误时,所述解码器基于所述存储器对所述下一个帧执行长期合成和短期合成中的至少一个。
CN201080053308.2A 2009-11-24 2010-11-24 音频信号处理方法和设备 Expired - Fee Related CN102648493B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US26424809P 2009-11-24 2009-11-24
US61/264,248 2009-11-24
US28518309P 2009-12-10 2009-12-10
US61/285,183 2009-12-10
US29516610P 2010-01-15 2010-01-15
US61/295,166 2010-01-15
PCT/KR2010/008336 WO2011065741A2 (ko) 2009-11-24 2010-11-24 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
CN102648493A CN102648493A (zh) 2012-08-22
CN102648493B true CN102648493B (zh) 2016-01-20

Family

ID=44067093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080053308.2A Expired - Fee Related CN102648493B (zh) 2009-11-24 2010-11-24 音频信号处理方法和设备

Country Status (5)

Country Link
US (2) US9020812B2 (zh)
EP (1) EP2506253A4 (zh)
KR (1) KR101761629B1 (zh)
CN (1) CN102648493B (zh)
WO (1) WO2011065741A2 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140067512A (ko) * 2012-11-26 2014-06-05 삼성전자주식회사 신호 처리 장치 및 그 신호 처리 방법
MX371425B (es) * 2013-06-21 2020-01-29 Fraunhofer Ges Forschung Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono.
PL3011557T3 (pl) 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
CN112992160B (zh) * 2021-05-08 2021-07-27 北京百瑞互联技术有限公司 一种音频错误隐藏方法及装置
CN113782050B (zh) * 2021-09-08 2024-08-30 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147190A (zh) * 2005-01-31 2008-03-19 高通股份有限公司 语音通信中的帧擦除隐蔽
CN101268351A (zh) * 2005-05-31 2008-09-17 微软公司 健壮解码器

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
JPH04264597A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
EP0588932B1 (en) * 1991-06-11 2001-11-14 QUALCOMM Incorporated Variable rate vocoder
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
CN1100396C (zh) * 1995-05-22 2003-01-29 Ntt移动通信网株式会社 语音解码器
WO1998006091A1 (fr) * 1996-08-02 1998-02-12 Matsushita Electric Industrial Co., Ltd. Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications
JP3206497B2 (ja) * 1997-06-16 2001-09-10 日本電気株式会社 インデックスによる信号生成型適応符号帳
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
JP3319396B2 (ja) * 1998-07-13 2002-08-26 日本電気株式会社 音声符号化装置ならびに音声符号化復号化装置
KR100281181B1 (ko) * 1998-10-16 2001-02-01 윤종용 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100462024B1 (ko) * 2002-12-09 2004-12-17 한국전자통신연구원 부가 음성 데이터를 이용한 패킷 손실 복구 방법 및 이를이용한 송수신기
US7146309B1 (en) * 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7873515B2 (en) * 2004-11-23 2011-01-18 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for error reconstruction of streaming audio information
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
KR101261528B1 (ko) * 2006-05-16 2013-05-07 삼성전자주식회사 복호화된 오디오 신호의 오류 은폐 방법 및 장치
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8010351B2 (en) 2006-12-26 2011-08-30 Yang Gao Speech coding system to improve packet loss concealment
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147190A (zh) * 2005-01-31 2008-03-19 高通股份有限公司 语音通信中的帧擦除隐蔽
CN101268351A (zh) * 2005-05-31 2008-09-17 微软公司 健壮解码器

Also Published As

Publication number Publication date
WO2011065741A3 (ko) 2011-10-20
KR20120098701A (ko) 2012-09-05
CN102648493A (zh) 2012-08-22
WO2011065741A2 (ko) 2011-06-03
KR101761629B1 (ko) 2017-07-26
US9020812B2 (en) 2015-04-28
EP2506253A2 (en) 2012-10-03
US20120239389A1 (en) 2012-09-20
US9153237B2 (en) 2015-10-06
EP2506253A4 (en) 2014-01-01
US20150221311A1 (en) 2015-08-06

Similar Documents

Publication Publication Date Title
CN102648493B (zh) 音频信号处理方法和设备
JP2746039B2 (ja) 音声符号化方式
US5018200A (en) Communication system capable of improving a speech quality by classifying speech signals
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JPH0353300A (ja) 音声符号化装置
WO2002043052A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
CN104299614A (zh) 解码方法和解码装置
JP2000163096A (ja) 音声符号化方法及び音声符号化装置
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
JP2002140099A (ja) 音声復号化装置
WO2004090864A2 (en) Method and apparatus for the encoding and decoding of speech
JP3179291B2 (ja) 音声符号化装置
JP3353852B2 (ja) 音声の符号化方法
JP3308764B2 (ja) 音声符号化装置
CN116052700A (zh) 声音编解码方法以及相关装置、系统
JP2829978B2 (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3144284B2 (ja) 音声符号化装置
CN106935243A (zh) 一种基于melp的低比特数字语音矢量量化方法和系统
JP3299099B2 (ja) 音声符号化装置
JP3153075B2 (ja) 音声符号化装置
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP3192051B2 (ja) 音声符号化装置
JP3024467B2 (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20171124