CN101490749A - 声音数据解码装置 - Google Patents

声音数据解码装置 Download PDF

Info

Publication number
CN101490749A
CN101490749A CNA2007800276772A CN200780027677A CN101490749A CN 101490749 A CN101490749 A CN 101490749A CN A2007800276772 A CNA2007800276772 A CN A2007800276772A CN 200780027677 A CN200780027677 A CN 200780027677A CN 101490749 A CN101490749 A CN 101490749A
Authority
CN
China
Prior art keywords
parameter
loss
voice
signal
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800276772A
Other languages
English (en)
Other versions
CN101490749B (zh
Inventor
伊藤博纪
小泽一范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101490749A publication Critical patent/CN101490749A/zh
Application granted granted Critical
Publication of CN101490749B publication Critical patent/CN101490749B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

基于波形编码方式的声音数据解码装置包括损失检测器、声音数据解码器、声音数据分析器、参数修正部、以及声音合成部。损失检测器检测在声音数据中是否存在损失。声音数据解码器解码声音数据来生成第一解码声音信号。声音数据分析器从第一解码声音信号中提取第一参数。参数修正部根据损失检测的结果,修正第一参数。声音合成部使用经修正的第一参数来生成第一合成声音信号。由此可防止声音数据的错误补偿中音质的恶化。

Description

声音数据解码装置
技术领域
本发明涉及一种声音数据的解码装置、声音数据的转换装置、以及错误补偿方法。
背景技术
当使用线路交换网或分组网传输声音数据时,通过对声音数据进行编码及解码来进行声音信号的收发。作为该声音压缩方式,例如公知有ITU-T(International Telecommunication Union TelecommunicationStandardization Sector,国际电信联盟电信标准化部)建议G.711方式以及CELP(Code-Excited Linear Prediction,代码激励线性预测)方式。
当传输通过上述压缩方式编码的声音数据时,由于无线错误或者网络拥挤等,声音数据的一部分有可能缺失。作为针对该缺失部分的错误补偿,基于在缺失部分之前的声音数据的部分的信息,针对缺失部分生成声音信号。
在上述的错误补偿中,音质有可能恶化。日本专利文献特开2002-268697号公报公开了降低音质恶化的方法。在该方法中,使用迟后接收到的分组中所包含的声音帧数据来更新滤波器存储器值。即,当迟后接收到所损失的分组时,使用该分组中包含的声音帧数据来更新在音调滤波器(pitch filter)或者表示频谱外形的滤波器中使用的滤波器存储器值。
另外,日本专利文献特开2005-274917号公报公开了与ADPCM(Adaptive Differential Pulse Code Modulation,自适应差分脉冲编码调制)编码相关的技术。该技术能够解决由于编码侧与解码侧的预测器状态不一致而输出令人不快的异常音的问题。即使在编码数据的缺失后接收了正确的编码数据也有可能发生该问题。即,在分组损失的状态从“检测”变为“非检测”之后的预定的时间内,逐渐减少由检测状态控制部根据过去的声音数据生成的插补信号的强度,之后,随着时间的流逝,编码侧与解码侧的预测器的状态逐渐变一致,声音信号渐渐变正常,因此逐渐增大声音信号的强度。其结果是,该技术起到了即使刚从编码数据的缺失状态恢复之后也不会输出异常音的效果。
此外,在日本专利文献特开平11-305797号公报中公开了根据声音信号计算线性预测系数,并通过该线性预测系数生成声音信号的方法。
发明内容
由于以往的针对声音数据的错误补偿方式是单纯重复过去的声音波形的方式,因此,虽然公开了上述的技术,但音质依然存在改善的余地。
本发明的目的是防止音质恶化并补偿声音数据的错误。
基于波形编码方式的声音数据解码装置包括损失检测器、声音数据解码器、声音数据分析器、参数修正部、以及声音合成部。损失检测器检测声音数据中是否具有损失。声音数据解码器对声音数据进行解码而生成第一解码声音信号。声音数据分析器从第一解码声音信号中提取第一参数。参数修正部根据损失检测的结果而修正第一参数。声音合成部使用修正得到的第一参数来生成第一合成声音信号。
根据本发明,能够防止音质恶化并补偿声音数据的错误。
附图说明
图1是示出本发明实施例1的声音数据解码装置的结构的示意图;
图2是示出本发明实施例1的声音数据解码装置的动作的流程图;
图3是示出本发明实施例2的声音数据解码装置的结构的示意图;
图4是示出本发明实施例2的声音数据解码装置的动作的流程图;
图5是示出本发明实施例3的声音数据解码装置的结构的示意图;
图6是示出本发明实施例3的声音数据解码装置的动作的流程图;
图7是示出本发明实施例4的声音数据解码装置的结构的示意图;
图8是示出本发明实施例4的声音数据解码装置的动作的流程图;
图9是示出本发明实施例5的声音数据转换装置的结构的示意图;
图10是示出本发明实施例5的声音数据转换装置的动作的流程图。
具体实施方式
参考附图来说明本发明的实施方式。但是,所述的方式并不用来限定本发明的技术范围。
以下,参考图1以及图2来说明本发明的实施例1。
图1示出了用于声音数据的解码装置的结构,其中声音数据是已通过以G.711方式为代表的波形编码方式进行编码的声音数据。实施例1的声音数据解码装置包括:损失检测器101、声音数据解码器102、声音数据分析器103、参数修正部104、声音合成部105、以及声音信号输出部106。这里,声音数据是指对某一连串的声音进行编码得到的数据,并指至少包含一个声音帧的声音的数据。
损失检测器101将所接收的声音数据输出给声音数据解码器102,并且检测所接收的声音数据是否有损失,并将损失检测结果输出给声音数据解码器102、参数修正部104、以及声音信号输出部106。
声音数据解码器102对从损失检测器101输入的声音数据进行解码,并将解码声音信号输出给声音数据输出部106和声音数据分析器103。
声音数据分析器103按照每一帧来分割解码声音信号,并对分割得到的信号使用线性预测分析,从而提取表示声音信号的频谱特性的频谱参数。各帧的长度例如为20ms。接着,声音数据分析器103将分割得到的声音信号分割为子帧,并基于过去的音源信号针对每个子帧提取与音调周期对应的延迟参数和自适应码书增益,以作为自适应码书中的参数。各子帧的长度例如为5ms。另外,声音数据分析器103根据自适应码书对相应子帧的声音信号进行音调预测。此外,声音数据分析器103对进行音调预测求得的残差信号进行归一化,并提取归一化残差信号和归一化残差信号增益。并且,所述声音数据分析器103将提取的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益(有时将它们称为参数)输出给参数修正部104。优选的是,声音数据分析器103从频谱参数、延迟参数、自适应码书增益、归一化残差信号、以及归一化残差信号增益中提取2个以上。
参数修正部104根据从损失检测器101输入的损失检测结果,或者不对从声音数据分析器103输入的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益进行修正,或者进行加入±1%的随机数或逐渐减小增益等的修正。此外,参数修正部104将修正过的值或者没有修正的值输出给声音合成部105。修正上述参数的值的原因是为了防止由于重复而生成不自然的声音信号。
声音合成部105使用从参数修正部104输入的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益来生成合成声音信号并将其输出给声音信号输出部106。
根据从损失检测器101输入的损失检测结果,声音信号输出部106输出以下的某一个信号,即:从声音数据解码器102输入的解码声音信号、从声音合成部105输入的合成声音信号、或以某一比率混合解码声音信号和合成声音信号而得到的信号。
接着,参考图2来说明实施例1的声音数据解码装置的动作。
首先,损失检测器101检测所接收的声音数据是否存在损失(步骤S601)。损失检测器101可以使用以下的方法,即:当使用CRC(CyclicRedundancy Check,循环冗余校验码)码检测到无线网络中的误码时检测为声音数据发生了损失的方法;或者当根据RFC3550RTP(A TransportProtocol for Real-Time Applications,一种用于实时应用的传输协议)头部的序号的遗漏而检测到IP(Internet Protocol,网络协议)网络中的损失时检测为声音数据发生了损失的方法。
如果损失检测器101没有检测到声音数据的损失,则声音数据分析器103对所接收的声音数据进行解码并输出给声音信号输出部(步骤S602)。
如果损失检测器101检测到声音数据的损失,则声音数据分析器103基于与声音数据的刚要发生损失之前的部分相对应的解码声音信号,提取频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益(步骤S603)。这里,解码声音信号的分析既可以对与声音数据的刚要发生损失之前的部分相对应的解码声音信号进行,也可以对所有的解码声音信号进行。接着,参数修正部104根据损失检测结果,或者不对频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益进行修正,或者通过加入±1%的随机数等来进行修正(步骤S604)。声音合成部105使用这些值来生成合成声音信号(步骤S605)。
并且,根据损失检测结果,声音信号输出部106输出以下的某一个信号,即:从声音数据解码器102输入的解码声音信号、从声音合成部105输入的合成声音信号、或者以某一比率混合解码声音信号和合成声音信号而得到的信号(步骤S606)。具体地说,当在前面的帧和当前帧中没有检测到损失时,声音信号输出部106输出解码声音信号。当检测到损失时,声音信号输出部106输出合成声音信号。在检测到损失后接下来的帧中,按照最初使合成声音信号所占的比率大并随着时间的经过使解码声音信号所占的比率变大的方式对声音信号进行相加,由此防止从声音信号输出部106输出的声音信号变得不连续。
实施例1的声音数据解码装置通过提取参数并将该参数的值使用于对声音数据的损失进行插补的信号,能够提高对损失进行插补的声音的音质。以往,在G.711方式中没有提取参数。
参考图3以及图4来说明实施例2。实施例2与实施例1的不同点在于,当检测到声音数据的损失时,在输出对损失部分进行插补的声音信号之前,检测是否接收了发生损失之后接下来的声音数据。并且,在检测到后一个声音数据的情况下,当生成与所损失的声音数据相应的声音信号时,除了实施例1的动作以外,还使用接下来的声音数据的信息。
图3示出了用于声音数据的解码装置的结构,其中声音数据是已通过以G.711方式为代表的波形编码方式进行编码的声音数据。实施例2的声音数据解码装置包括:损失检测器201、声音数据解码器202、声音数据分析器203、参数修正部204、声音合成部205、以及声音信号输出部206。这里,声音数据解码器202、参数修正部204、以及声音合成部205与实施例1的声音数据解码器102、参数修正部104、以及声音合成部105进行相同的动作。
损失检测器201执行与损失检测器101相同的动作。当检测到声音数据的损失时,损失检测器201在输出对损失部分进行插补的声音信号之前检测是否接收了发生损失之后接下来的声音数据。并且,损失检测器201将该检测结果输出给声音数据解码器202、声音数据分析器203、参数修正部204、以及声音信号输出部206。
声音数据分析器203执行与声音数据分析器103相同的动作。声音数据分析器203基于来自损失检测器201的检测结果,生成与检测到损失后的接下来的声音数据相应的声音信号的时间反向(time-reversed)的信号。并且,以与实施例1相同的步骤对该信号进行分析,并将提取的频谱参数、延迟参数、自适应码书增益,归一化残差信号、或者归一化残差信号增益输出给参数修正部204。
根据从损失检测器201输入的损失检测结果,声音信号输出部206输出以下的某一个信号,即:从声音数据解码器202输入的解码声音信号;或者按照最初使通过检测到损失之前的声音数据的参数生成的合成声音信号所占的比率大、最后使通过检测到损失之后接下来的声音数据的参数生成的合成声音信号的时间反向的信号所占的比率大的方式相加得到的信号。
接着,参考图4来说明实施例2的声音数据解码装置的动作。
首先,损失检测器201检测所接收的声音数据是否发生了损失(步骤S701)。如果损失检测器201没有检测到声音数据的损失,则进行与步骤S602相同的动作(步骤S702)。
如果损失检测器201检测到声音数据的损失,则损失检测器201检测在声音信号输出部206输出对损失部分进行插补的声音信号之前是否接收了发生损失后接下来的声音数据(步骤S703)。如果没有接收到接下来的声音数据,则进行与步骤S603至S605相同的动作(步骤S704至S706)。如果已接收接下来的声音数据,则声音数据解码器202对接下来的声音数据进行解码(步骤S707)。声音数据分析器203基于经所述解码的接下来的声音数据,提取频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益(步骤S708)。接着,参数修正部204根据损失检测结果,或者不对频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益进行修正,或者通过加入±1%的随机数等来进行修正(步骤S709)。声音合成部205使用这些值来生成合成声音信号(步骤S710)。
并且,根据从损失检测部201输入的损失检测结果,声音信号输出部206输出以下的某一个信号,即:从声音数据解码器202输入的解码声音信号;或者按照最初使通过检测到损失之前的声音数据的参数来生成的合成声音信号所占的比率大、最后使通过检测到损失之后接下来的声音数据的参数来生成的合成声音信号的时间反向的信号所占的比率大的方式相加得到的信号(步骤S711)。
近年来,在快速普及的VoIP(Voice over IP)中,为了吸收声音数据的到达时间的波动,对所接收的声音数据进行缓存。根据实施例2,当插补所损失部分的声音信号时,通过使用缓存器中所存在的发生损失后接下来的声音数据,能够提高插补信号的音质。
参考图5以及图6来说明实施例3。在本实施例中,就以CELP方式已编码的声音数据的解码来说,当检测到声音数据的损失时,与实施例2同样地,如果在第一声音数据解码器302输出对损失部分进行插补的声音信号之前接收了发生损失后接下来的声音数据,则在生成与所损失的声音数据相对应的声音信号时使用接下来的声音数据的信息。
图5示出了用于以CELP方式已编码的声音数据的解码装置的结构。实施例3的声音数据解码装置包括:损失检测器301、第一声音数据解码器302、参数插补部304、第二声音数据解码器303、以及声音信号输出部305。
损失检测器301将所接收的声音数据输出给第一声音数据解码器302和第二声音数据解码器303,并且检测所接收的声音数据是否存在损失。在检测到损失时,检测在第一声音数据解码器302输出对损失部分进行插补的声音信号之前是否接收了接下来的声音数据,并将检测结果输出给第一声音数据解码器302和第二声音数据解码器303。
当没有检测到损失时,第一声音数据解码器302对从损失检测器301输入的声音数据进行解码,将解码声音信号输出给声音数据输出部,并将解码时的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益输出给参数插补部303。另外,当检测到损失且还没有接收到接下来的声音数据时,第一声音数据解码器302使用过去的声音数据的信息来生成对损失部分进行插补的声音信号。第一声音数据解码器302可以使用日本专利文献特开2002-268697号公报中所记载的方法来生成声音信号。此外,第一声音数据解码器302使用从参数插补部304输入的参数来生成与损失的声音数据相对应的声音信号并将该声音信号输出给声音信号输出部305。
当检测到损失并且在第一声音数据解码器302输出对损失部分进行插补的声音信号之前已接收了接下来的声音数据时,第二声音数据解码器303使用过去的声音数据来生成与损失的声音数据相对应的声音信号。并且,第二声音数据解码器303使用所生成的声音数据来对接下来的声音数据进行解码,提取解码所使用的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益并将它们输出给参数插补部304。
参数插补部304使用从第一声音数据解码器302输入的参数以及从第二声音数据解码器303输入的参数来生成与损失的声音数据相对应的参数,并将所生成的参数输出给第一声音数据解码器302。
声音信号输出部305输出从声音数据解码器302输入的解码声音信号。
接着,参考图6来说明实施例3的声音数据解码装置的动作。
首先,损失检测器301检测所接收的声音数据是否存在损失(步骤S801)。如果没有损失,第一声音数据解码器302对从损失检测器301输入的声音数据进行解码,并将解码时的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益输出给参数插补部304(步骤S802、S803)。
如果存在损失,损失检测器301检测在第一声音数据解码器302输出对损失部分进行插补的声音信号之前是否接收了发生损失后接下来的声音数据(步骤S804)。如果没有接收到接下来的声音数据,则第一声音数据解码器302使用过去的声音数据的信息来生成对损失部分进行插补的声音信号(步骤S805)。
如果已接收到接下来的声音数据,第二声音数据解码器303使用过去的声音数据的信息来生成与损失的声音数据相对应的声音信号(步骤S806)。第二声音数据解码器303使用所生成的声音信号对接下来的声音数据进行解码,生成解码时的频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益,并将它们输出给参数插补部303(步骤S807)。接着,参数插补部304使用从第一声音数据解码器302输入的参数和从第二声音数据解码器303输入的参数来生成与损失的声音数据相对应的参数(步骤S808)。并且,第一声音数据解码器302使用参数插补部304所生成的参数来生成与损失的声音数据相对应的声音信号并将生成的声音信号输出给声音信号输出部305(步骤S809)。
第一声音数据解码器302将在各个情况下生成的声音信号输出给声音信号输出部305,声音信号输出部305输出解码声音信号(步骤S810)。
近年来,在快速普及的VoIP中,为了克服声音数据的到达时间的波动,对所接收的声音数据进行缓存。根据实施例3,当在CELP方式下对所损失部分的声音信号进行插补时,通过使用缓冲器中所存在的发生损失后接下来的声音数据,能够提高插补信号的音质。
参考图7以及图8来说明实施例4。在CELP方式下,如果在声音数据发生损失时使用插补信号,虽然损失的部分能够得到补偿,但是插补信号并不是从正确的声音数据生成的,因而将导致其后接收的声音数据的音质下降。因此,在实施例4中,当在输出与声音数据的损失部分相对应的插补声音信号之后,所损失部分的声音数据迟后到达时,除了实施例3的步骤以外,还使用该声音数据,由此来提高发生损失之后接下来的声音数据的声音信号的品质。
图7示出了用于以CELP方式已编码的声音数据的解码装置的结构。实施例4的声音数据解码装置包括:损失检测器401、第一声音数据解码器402、第二声音数据解码器403、存储器储存部404、以及声音信号输出部405。
损失检测器401将所接收的声音数据输出给第一声音数据解码器402和第二声音数据解码器403。另外,损失检测器401检测所接收的声音数据是否存在损失。当检测到损失时,检测是否接收了接下来的声音数据,并将检测结果输出给第一声音数据解码器402、第二声音数据解码器403、以及声音信号输出部405。此外,损失检测器401检测是否迟后接收到损失的声音数据。
当没有检测到损失时,第一声音数据解码器402对从损失检测器401输入的声音数据进行解码。另外,当检测到损失时,第一声音数据解码器402使用过去的声音数据的信息来生成声音信号并并将声音信号输出给声音数据输出部405。第一声音数据解码器402可以使用日本专利文献特开2002-268697号公报后面所记载的方法来生成声音信号。此外,第一声音数据解码器402将合成滤波器等的存储器输出给存储器储存部404。
当损失部分的声音数据迟后到达时,第二声音数据解码器403使用存储器储存部404中所储存的刚要检测到损失之前的分组的合成滤波器等的存储器,对迟后到达的声音数据进行解码,并将解码信号输出给声音信号输出部405。
根据从损失检测器401输入的损失检测结果,声音信号输出部405输出从第一声音数据解码器402输入的解码声音信号、从第二声音数据解码器403输入的解码声音信号、或者以某个比率将上述两个信号相加得到的声音信号。
接着,参考图8来说明实施例4的声音数据解码装置的动作。
首先,声音数据解码装置进行步骤S801至S810的动作,并输出对损失的声音数据进行插补的声音信号。这里,当执行步骤S805以及S806时,在从过去的声音数据生成了声音信号时将合成滤波器等的存储器输出给存储器储存部404(步骤S903以及S904)。并且,损失检测器401检测是否迟后接收到损失的声音数据(步骤S905)。如果损失检测器401没有检测到上述的迟后接收,则输出通过实施例3生成的声音信号。如果损失检测器401检测到上述的迟后接收,第二声音数据解码器403使用存储器储存部404中所储存的刚要检测到损失之前的分组的合成滤波器等的存储器,对迟后到达的声音数据进行解码(步骤S906)。
并且,根据从损失检测器401输入的损失检测结果,声音信号输出部405输出从第一声音数据解码器402输入的解码声音信号、从第二声音数据解码器403输入的解码声音信号、或者以某个比率将上述两个信号相加得到的声音信号(步骤S907)。具体地说,当检测到损失且声音数据迟后到达时,作为与发生损失的声音数据的接下来的声音数据相对应的声音信号,声音信号输出部405最初使从第一声音数据解码器402输入的解码声音信号的比率大。然后,随着时间的经过,声音信号输出部405输出按照使从第二声音数据解码器402输入的解码声音信号的比率大的方式来相加的声音信号。
根据实施例4,通过使用迟后到达的损失部分的声音数据来改写合成滤波器等的存储器,能够生成正确的解码声音信号。另外,不见得直接输出该正确的解码声音信号,可通过输出以某个比率相加得到的声音信号来防止声音变得不连续。此外,即使对所损失部分使用插补信号,通过用迟后到达的损失部分的声音数据改写合成滤波器等的存储器而生成解码声音信号,能够提高插补信号后的音质。
这里,对作为实施例3的变形例的实施例4进行了说明,但实施例4也可以是其他实施例的变形例。
参考图9以及图10来说明实施例5的声音数据转换装置。
图9示出了用于将以某一声音编码方式进行编码的声音信号转换为以另一声音编码方式的声音数据转换装置的结构。声音数据转换装置例如将通过以G.711为代表的波形编码方式进行编码的声音数据转换为通过CELP方式进行编码的声音数据。实施例5的声音数据转换装置包括:损失检测器501、声音数据解码器502、声音数据编码器503、参数修正部504、以及声音数据输出部505。
损失检测器501将所接收的声音数据输出给声音数据解码器502。另外,损失检测器501检测所接收的声音数据是否存在损失,并将检测结果输出给声音数据解码器502、声音数据编码器503、参数修正部504、以及声音数据输出部505。
当没有检测到损失时,声音数据解码器502对从损失检测器501输入的声音数据进行解码,并将解码声音信号输出给声音数据编码器503。
当没有检测到损失时,声音数据编码器503对从声音数据解码器502输入的解码声音信号进行编码,并将编码后的声音数据输出给声音数据输出部505。另外,声音数据编码器503将作为编码时的参数的频谱参数、延迟参数、自适应码书增益、残差信号、或者残差信号增益输出给参数修正部504。此外,当检测到损失时,声音数据编码器503接收从参数修正部504输入的参数。此外,声音数据编码器503保持有提取参数时使用的滤波器(没有图示),并对从参数修正部504接收的参数进行编码来生成声音数据。此时,声音数据编码器503对滤波器等的存储器进行更新。这里,当由于编码时产生的量化误差而编码后的参数值不等于与从参数值修正部504输入的值相同的值时,声音数据编码器503进行选择,以使编码后的参数值最接近于从参数修正部504输入的值。另外,声音数据编码器503在生成声音数据时更新在提取参数等时使用的滤波器所具有的存储器(没有图示),以便防止在该存储器与通信对方的无线通信装置所保持的滤波器的存储器之间产生矛盾。此外,声音数据编码器503将所生成的声音数据输出给声音数据输出部505。
参数修正部504从声音数据编码器503接收编码时的参数、即频谱参数、延迟参数、自适应码书增益、残差信号、或者残差信号增益,并保存这些参数。另外,参数修正部504对所保持的检测到损失之前的参数不进行修正、或者进行预定的修正,并根据从损失检测器501输入的损失检测结果,向声音数据编码器503输出未经修正或经修正的参数。。
根据从损失检测器501接收的损失检测结果,声音数据输出部505输出从声音数据编码器503接收的声音信号。
接着,参考图10来说明实施例5的声音数据转换装置。
首先,损失检测器501检测所接收的声音数据是否存在损失(步骤S1001)。如果损失检测器501没有检测到损失,声音数据解码器502基于所接收的声音数据来生成解码声音信号(步骤S1002)。然后,声音数据编码器503对解码声音信号进行编码,并输出作为编码时的参数的频谱参数、延迟参数、自适应码书增益、残差信号、或者残差信号增益(步骤S1003)。
如果损失检测器501检测到损失,则参数修正部504对所保存的发生损失之前的参数不进行修正或进行预定的修正,向声音数据编码器503输出未经修正或经修正的参数。接收了该参数的声音数据编码器503对用于提取参数的滤波器所具有的存储器进行更新(步骤S1004)。此外,声音数据编码器503基于刚要发生损失之前的参数来生成声音信号(步骤S1005)。
然后,声音数据输出部505根据损失检测结果,输出从声音数据编码器503接收的声音信号(步骤S1006)。
根据实施例5,例如在网关等转换数据的装置中,不通过波形编码方式生成与声音数据的损失相对应的插补信号,而是使用参数等对损失部分进行插补,从而能够提高插补信号的音质。另外,不通过波形编码方式生成与声音数据的损失相对应的插补信号,而是使用参数等对损失部分进行插补,从而能够减少运算量。
这里,在实施例5中示出了将通过以G.711为代表的波形编码方式进行编码的声音数据转换为通过CELP方式进行编码的声音数据的方式,但是,也可以是将以CELP方式进行编码的声音数据转换为以另外的CELP方式进行编码的声音数据的方式。
根据上述实施例的一些装置例如可以如下概述。
基于波形编码方式的声音数据解码装置包括:损失检测器、声音数据解码器、声音数据分析器、参数修正部、声音合成部、以及声音信号输出部。损失检测器检测声音数据中的损失,并检测在声音信号输出部输出对损失进行插补的声音信号之前是否接收了发生损失之后的声音帧。声音数据解码器解码声音帧来生成解码声音数据。声音数据分析器使解码声音信号的时间反向来提取参数。参数修正部对参数进行预定的修正。声音合成部使用经修正的参数来生成合成声音信号。
基于CELP方式(Code-Exciyed Linear Prediction,代码激励线性预测)的声音数据解码装置包括:损失检测器、第一声音数据解码器、第二声音数据解码器、参数插补部、以及声音信号输出部。损失检测器检测在声音数据中是否存在损失,并检测在第一声音数据解码器输出第一声音信号之前是否接收了发生损失之后的声音帧。第一声音数据解码器根据损失检测的结果,对声音数据进行解码来生成声音数据。第二声音数据解码器根据损失检测的结果,生成与声音帧相对应的声音信号。参数插补部使用第一以及第二参数而生成与损失相对应的第三参数,并将该第三参数输出给第一声音数据解码器。声音信号输出部输出从第一声音数据解码器输入的声音信号。当没有检测到损失时,第一声音数据解码器对声音数据进行解码而生成声音信号,并将在该解码时提取的第一参数输出给参数插补部。当检测到损失时,第一声音数据解码器使用声音数据的发生损失之前的部分来生成与损失相对应的第一声音信号。在检测到损失并且在第一声音数据解码器输出第一声音信号之前检测到声音帧时,第二声音数据解码器使用声音数据的发生损失之前的部分来生成与损失相对应的第二声音信号,使用第二声音信号对声音帧进行解码,并将在该解码时提取的第二参数输出给参数插补部。第一声音数据解码器使用从参数插补部输入的第三参数来生成与损失相对应的第三声音信号。
基于CELP方式输出对声音数据中的损失进行插补的插补信号的声音数据编码装置包括:损失检测器、声音数据解码器、以及声音信号输出部。损失检测器检测损失并检测迟后接收了声音数据的损失部分。损失部分对应于损失。声音数据解码器使用储存在存储器储存部中的声音数据的发生损失之前的部分来对损失部分进行解码,由此生成解码声音信号。声音信号输出部以改变解码声音信号的强度对声音信号的强度的比率的方式输出包含解码声音信号的声音信号。
将第一声音编码方式的第一声音数据转换为第二声音编码方式的第二声音数据的声音数据转换装置包括:损失检测器、声音数据解码器、声音数据编码器、以及参数修正部。损失检测器检测第一声音数据中的损失。声音数据解码器对第一声音数据进行解码来生成解码声音信号。声音数据编码器包括提取参数的滤波器,该声音数据编码器以第二声音编码方式对解码声音信号进行编码。参数修正部从声音数据编码器接收参数并保持该参数。参数修正部对参数进行预定的修正或不进行修正,并根据损失检测的结果,将所述参数输出给声音数据编码器。当没有检测到损失时,声音数据编码器以第二声音编码方式对解码声音信号进行编码,并将在该编码时提取的参数输出给参数修正部。当检测到损失时,声音数据编码器基于从参数修正部输入的参数来生成声音信号,并更新滤波器所具有的存储器。
优选的是,第一声音编码方式为波形编码方式,第二声音编码方式为CELP方式。
优选的是,参数为频谱参数、延迟参数、自适应码书增益、归一化残差信号、或者归一化残差信号增益。
本领域技术人员能够容易地实施上述实施例的各种变形。因此,本发明不限定于上述实施例,能够以参考权利要求及其等同物的最大范围进行解释。

Claims (4)

1.一种基于波形编码方式的声音数据解码装置,包括:
损失检测器,所述损失检测器检测声音数据中是否存在损失;
声音数据解码器,所述声音数据解码器解码所述声音数据而生成第一解码声音信号;
声音数据分析器,所述声音数据分析器从所述第一解码声音信号中提取第一参数;
参数修正部,所述参数修正部根据所述损失检测的结果而修正所述第一参数;以及
声音合成部,使用经修正的所述第一参数而生成第一合成声音信号。
2.根据权利要求1所述的声音数据解码装置,其中,
还包括声音信号输出部,所述声音信号输出部根据所述损失检测的结果,在改变所述第一解码声音信号的强度对所述第一合成声音信号的强度的比率的情况下输出包含所述第一解码声音信号和所述第一合成声音信号的声音信号。
3.根据权利要求1所述的声音数据解码装置,其中,
还包括声音信号输出部,
所述损失检测器检测在所述声音信号输出部输出对所述损失进行插补的声音信号之前是否接收了所述损失之后的声音帧,
所述声音数据解码器解码所述声音帧来生成第二解码声音信号,
所述声音数据分析器使所述第二解码声音信号的时间反向而提取第二参数,
所述参数修正部对所述第二参数进行预定的修正,
所述声音合成部使用经修正的所述第二参数而生成第二合成声音信号,
所述声音信号输出部根据所述损失检测的结果,输出所述第一解码声音信号,并在改变所述第一合成声音信号的强度对所述第二合成声音信号的强度的比率的情况下输出包含所述第一合成声音信号和所述第二合成声音信号的声音信号。
4.根据权利要求1至3中任一项所述的声音数据解码装置,其中,
所述第一参数为频谱参数、延迟参数、自适应码本增益、归一化残差信号、或者归一化残差信号增益。
CN2007800276772A 2006-07-27 2007-07-23 声音数据解码装置 Expired - Fee Related CN101490749B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP204781/2006 2006-07-27
JP2006204781 2006-07-27
PCT/JP2007/064421 WO2008013135A1 (fr) 2006-07-27 2007-07-23 Dispositif de décodage de données audio

Publications (2)

Publication Number Publication Date
CN101490749A true CN101490749A (zh) 2009-07-22
CN101490749B CN101490749B (zh) 2012-04-11

Family

ID=38981447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800276772A Expired - Fee Related CN101490749B (zh) 2006-07-27 2007-07-23 声音数据解码装置

Country Status (10)

Country Link
US (1) US8327209B2 (zh)
EP (1) EP2051243A4 (zh)
JP (1) JP4678440B2 (zh)
KR (1) KR101032805B1 (zh)
CN (1) CN101490749B (zh)
BR (1) BRPI0713809A2 (zh)
CA (1) CA2658962A1 (zh)
MX (1) MX2009000054A (zh)
RU (1) RU2009102043A (zh)
WO (1) WO2008013135A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615154B1 (ko) * 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11495243B2 (en) * 2020-07-30 2022-11-08 Lawrence Livermore National Security, Llc Localization based on time-reversed event sounds
KR20230140955A (ko) * 2022-03-30 2023-10-10 삼성전자주식회사 음성 안내 기능을 갖는 전자 장치 및 전자 장치에 의한 음성 안내 방법

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2539494B2 (ja) 1988-07-13 1996-10-02 沖電気工業株式会社 音声パケット補間方法
JP2655485B2 (ja) * 1994-06-24 1997-09-17 日本電気株式会社 音声セル符号化装置
JP3085347B2 (ja) * 1994-10-07 2000-09-04 日本電信電話株式会社 音声の復号化方法およびその装置
JPH09231783A (ja) * 1996-02-26 1997-09-05 Sharp Corp 半導体記憶装置
JP3157116B2 (ja) 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
DE69836454T2 (de) 1997-02-10 2007-10-04 Koninklijke Philips Electronics N.V. Kommunikationsnetzwerk zur übertragung von sprachsignalen
JP3235654B2 (ja) 1997-11-18 2001-12-04 日本電気株式会社 無線電話装置
JP3472704B2 (ja) 1998-04-23 2003-12-02 シャープ株式会社 音声分析器および音声分析合成器
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
JP2001177481A (ja) 1999-12-21 2001-06-29 Sanyo Electric Co Ltd 復号化装置
KR100341823B1 (ko) 2000-02-21 2002-06-26 윤덕용 유무선 영상 통신시스템에서의 비트에러확률 기준값설정방법
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP2002268697A (ja) 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
KR100462024B1 (ko) 2002-12-09 2004-12-17 한국전자통신연구원 부가 음성 데이터를 이용한 패킷 손실 복구 방법 및 이를이용한 송수신기
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
JP2005077889A (ja) * 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
JP2005274917A (ja) 2004-03-24 2005-10-06 Mitsubishi Electric Corp 音声復号装置
KR100594599B1 (ko) 2004-07-02 2006-06-30 한국전자통신연구원 수신단 기반의 패킷 손실 복구 장치 및 그 방법
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs

Also Published As

Publication number Publication date
US20100005362A1 (en) 2010-01-07
CN101490749B (zh) 2012-04-11
BRPI0713809A2 (pt) 2012-11-06
US8327209B2 (en) 2012-12-04
CA2658962A1 (en) 2008-01-31
EP2051243A1 (en) 2009-04-22
MX2009000054A (es) 2009-01-23
EP2051243A4 (en) 2010-12-22
JPWO2008013135A1 (ja) 2009-12-17
JP4678440B2 (ja) 2011-04-27
WO2008013135A1 (fr) 2008-01-31
RU2009102043A (ru) 2010-07-27
KR20090025355A (ko) 2009-03-10
KR101032805B1 (ko) 2011-05-04

Similar Documents

Publication Publication Date Title
JP6423460B2 (ja) フレームエラー隠匿装置
US8391373B2 (en) Concealment of transmission error in a digital audio signal in a hierarchical decoding structure
EP2535893B1 (en) Device and method for lost frame concealment
JP6846500B2 (ja) 音声符号化装置
KR20070028373A (ko) 음성음악 복호화 장치 및 음성음악 복호화 방법
TW521265B (en) Relative pulse position in CELP vocoding
CN101490749B (zh) 声音数据解码装置
KR102132326B1 (ko) 통신 시스템에서 오류 은닉 방법 및 장치
JPH06295199A (ja) 音声符号化装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120411

Termination date: 20190723

CF01 Termination of patent right due to non-payment of annual fee