CN1957399A - 语音/音频解码装置以及语音/音频解码方法 - Google Patents

语音/音频解码装置以及语音/音频解码方法 Download PDF

Info

Publication number
CN1957399A
CN1957399A CNA2005800168247A CN200580016824A CN1957399A CN 1957399 A CN1957399 A CN 1957399A CN A2005800168247 A CNA2005800168247 A CN A2005800168247A CN 200580016824 A CN200580016824 A CN 200580016824A CN 1957399 A CN1957399 A CN 1957399A
Authority
CN
China
Prior art keywords
sound source
coded message
self
lsp
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800168247A
Other languages
English (en)
Other versions
CN1957399B (zh
Inventor
佐藤薰
森井利幸
山梨智史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1957399A publication Critical patent/CN1957399A/zh
Application granted granted Critical
Publication of CN1957399B publication Critical patent/CN1957399B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

能够在可扩展编码方式中实现通过帧丢失的隐藏处理而生成的解码信号的质量提升的语音/音频解码装置。在该语音/音频解码装置中,帧丢失检测单元(152)判定编码信息是否被正常接收,生成表示判定结果的帧丢失信息。第一解码单元(153)基于帧丢失信息,在解码时使用前一个帧的第一编码信息、当前帧的第一编码信息以及当前帧的第二编码信息中的至少一个以上的编码信息。第二解码单元(154)基于帧丢失信息,在解码时使用前一个帧的第一编码信息、当前帧的第一编码信息、前一个帧的第二编码信息以及当前帧的第二编码信息中的至少一个以上的编码信息。加法器(155)将从第一解码单元(153)输出的解码信号和从第二解码单元(154)输出的解码信号相加。

Description

语音/音频解码装置以及语音/音频解码方法
技术领域
本发明涉及在将语音/音频信号编码并传输的通信系统中使用的语音/音频解码装置以及语音/音频解码方法。
背景技术
在以数字无线通信和因特网通信为代表的分组通信或语音存储等领域中,为实现电波等的传输路径容量和存储媒体的有效利用,语音信号的编码/解码技术不可或缺,因此至今已开发出多种语音编码/解码方式。其中,CELP方式的语音编码/解码方式已作为主流方式被付诸实用(例如,参照非专利文献1)。
CELO方式的语音编码装置基于事先存储的语音模型将输入语音编码。具体地说,将数字化语音信号划分成大约10~20ms的帧,一帧一帧地对语音信号进行线性预测分析,获取线性预测系数和线性预测残差矢量,并个别对线性预测系数和线性预测残差矢量进行编码。然后,为了进行低比特率通信,由于存储的语音模型量是有限的,在传统CELP型语音编码/解码方式中主要存储发声语音模型。
在诸如因特网通信之类传输分组的通信系统中,会因网络状态而发生分组丢失,因此最理想的是,即使部分编码信息丢失,也能够从其余编码信息部分中解码出语音和音频。同样地,在根据通信容量改变比特率的可变速率通信系统中,当通信容量降低时,理想的是,通过只传输部分编码信息就可以轻易地减轻通信容量的负担。于是,作为使用所有编码信息或仅使用部分编码信息来解码语音和音频的技术,最近,可扩展编码技术备受瞩目。在以往,一些可扩展编码方式已被公开(例如,参照专利文献1)。
可扩展编码方式一般包括基本层和多个增强层,各个层以基本层作为最低层来形成分层结构。并且,在各个层中,对作为较低层的输入信号和输出信号的差的残差信号进行编码。根据这个结构,能够仅使用所有层的编码信息或较低层的编码信息来解码语音/音频。
另外,在传输所述分组的通信系统中,因分组丢失等而不能在解码装置侧接收编码信息时,通过丢失补偿(隐藏)处理能够将解码语音信号的恶化抑制某些程度。例如,在ITU-T建议G.729等规定了帧丢失的隐藏方法作为解码算法的一部分。
丢失补偿(隐藏)处理一般是基于事前接收的帧中包含的编码信息来进行当前帧的再现。例如,通过将丢失帧的前一个帧中包含的编码信息用作丢失帧的编码信息,并逐渐地使使用前一个帧中包含的编码信息生成的解码信号的功率衰减等方法,来形成丢失帧的解码语音信号。
[专利文献1]特开平10-97295号公报
[非专利文献1]M.R.Schroeder,B.S.Atal,″Code Excited Linear Prediction:High Quality Speech at Low Bit Rate″,IEEE proc.,ICASSP′85pp.937-940
发明内容
然而,在以往的丢失补偿(隐藏)处理中,仅是使用丢失帧的前一个帧中包含的编码信息来再现解码语音信号,虽然能将解码语音信号的恶化抑制某些程度,但解码语音信号的质量仍不能说是足够。并且,在可扩展编码方式中,一般说来基本层的编码信息的重要度高,在基本层的编码信息因帧丢失而失去时,仅使用前一个帧中包含的编码信息来再现解码语音信号的话,不能获得质量充分的解码语音信号。
本发明的目的在于提供一种在可扩展编码方式中,即使在发生帧丢失而失去编码信息时也能够获得充分质量的解码语音信号的语音/音频解码装置以及语音/音频解码方法。
本发明的语音/音频解码装置是对通过可扩展编码由多个层构成的编码信息进行解码并生成解码信号的语音/音频解码装置,所采取的结构包括:帧丢失检测单元,判定接收到的帧的所述各个层的编码信息是否正常,生成作为判定结果的帧丢失信息;以及与所述层相同数量的解码单元,基于所述帧丢失信息由所述接收到的编码信息和之前接收到的多个编码信息决定用于各个层的解码的编码信息,并使用决定的编码信息进行解码来生成解码信号。
本发明的语音/音频解码方法是对通过可扩展编码由多个层构成的编码信息进行解码并生成解码信号的语音/音频解码方法,所采用的方法包括:帧丢失检测步骤,判定接收到的帧的所述各个层的编码信息是否正常,生成作为判定结果的帧丢失信息;以及与所述层相同数量的解码步骤,基于所述帧丢失信息由所述接收到的编码信息和之前接收到的多个编码信息决定用于各个层的解码的编码信息,并使用决定的编码信息进行解码来生成解码信号。
根据本发明,与仅使用之前获得编码信息的情况相比,通过除了之前获得的编码信息之外,还使用由其他编码单元获得的编码信息来获得解码信号,能够实现解码语音信号的质量提升。
附图说明
图1是表示本发明实施方式1的编码装置以及解码装置的结构方框图。
图2是表示本发明实施方式1的第一编码单元的内部结构的方框图。
图3是用于说明决定自适应声源延迟的处理的图。
图4是用于说明决定固定声源向量的处理。
图5是表示本发明实施方式1的第一局部解码单元的内部结构的方框图。
图6是表示本发明实施方式1的第二编码单元的内部结构的方框图。
图7是用于简单地说明决定自适应声源延迟的处理的图。
图8是表示本发明实施方式1的第一解码单元的内部结构的方框图。
图9是表示本发明实施方式1的第二解码单元的内部结构的方框图。
图10是表示本发明实施方式1的编码信息操作单元的内部结构的方框图。
图11是表示本发明实施方式1的编码信息操作单元的内部结构的方框图。
图12是表示本发明实施方式1的帧丢失信息以及在解码单元使用的参数的图。
图13是用于在从视觉上说明通过添加第二编码信息来提高质量的原理的图。
图14A是表示本发明实施方式2的语音/音频发送装置的结构方框图。
图14B是表示本发明实施方式2的语音/音频接收装置的结构方框图。
具体实施方式
本发明的要旨在于,在由多个编码单元构成的可扩展编码方式中,从各个编码单元输出编码信息并传输到解码装置侧,在解码装置侧判定编码信息是否没有丢失地被传输,在检测出编码信息的丢失时,通过除了丢失帧的前一个帧的编码信息之外,还使用从其他编码单元输出的编码信息来进行解码,能够实现解码语音信号的质量提升。
下面,参照附图详细地说明本发明的实施方式。并且,这里以进行CELP方式的语音/音频编码/解码的情况为例进行说明。
(实施方式1)
图1是表示本发明实施方式1的编码装置100以及解码装置150的主要结构的方框图。
编码装置100主要包括第一编码单元101、第一局部解码单元102、加法器103、第二编码单元104、判定单元105、复用单元106。并且,解码装置150主要包括复用分离单元151、帧丢失检测单元152、第一解码单元153、第二解码单元154、加法器155。从编码装置100输出的编码信息通过传输路径130被传输到解码装置150。
下面,说明编码装置100的各个单元的处理。作为输入信号的语音/音频信号被输入到第一编码单元101和加法器103。
第一编码单元101使用CELP方式的语音/音频编码方法由输入的语音/音频信号求出第一编码信息,将获得的第一编码信息输出到第一局部解码单元102和复用单元106。
第一局部解码单元102使用CELP方式的语音/音频解码方法将从第一编码单元101输出的第一编码信息解码为第一解码信号,将通过这个解码获得的解码信号输出到加法器103。
加法器103将从第一局部解码单元102输出的第一解码信号的极性反转后与输入的语音/音频信号相加,将作为相加结果的残差信号输出到第二编码单元104。
第二编码单元104使用CELP方式的语音/音频编码方法由从加法器103输出的残差信号求出第二编码信息,将获得的第二编码信息输出到复用单元106。
判定单元105由后述的方法生成标记信息,将此输出到复用单元106。这里,“标记信息”是用于在解码装置150中检测出第一编码信息的丢失时,指示第一解码单元153是否将第二编码信息包含在用于解码的编码信息的信息。这里,使用“0”或“1”的值作为标记信息。标记信息为“0”时,第一解码单元153仅使用前面帧的第一编码信息进行解码,标记信息为“1”时,第一解码单元153使用前面帧的第一编码信息和第二编码信息进行解码。
复用单元106对从第一编码单元101输出的第一编码信息、从第二编码单元104输出的第二编码信息、从判定单元105输出的标记信息进行复用,并作为复用信息输出到传输路径130。
在本说明书中,假设在编码装置100以帧为单位进行语音/音频信号的编码处理,将1帧的第一编码信息和第二编码信息分别存储到一个分组中并进行传输。因此,一个帧内有存储了第一编码信息的分组和存储了第二编码信息的分组的两个分组存在。所述两个分组按每个帧被传输到解码装置150,在发生分组丢失时,失去第一编码信息和第二编码信息中的至少一个以上的编码信息。
接着,说明解码装置150的各个单元的处理。复用分离单元151将从编码装置100传输的复用信息分离为第一编码信息、第二编码信息以及标记信息,将分离的第一及第二编码信息输出到帧丢失检测单元152,并将标记信息输出到第一解码单元153。
帧丢失检测单元152判定从复用分离单元151输出的第一及第二编码信息是否被正常接收,生成表示判定结果的帧丢失信息。另外,作为帧丢失的检测方法,例如已知有对被附加在分组的识别信息进行监视的方法。例如,通过在接收侧监视分组的序列号(分组号)、表示分组被生成的时刻的时戳等附加在分组的识别信息,检测这些识别信息的不连续性来检测分组的丢失。作为识别信息,例如可利用通信协议的TCP/IP的序列号、UDP/IP的序列号、时戳信息等。
这里,使用“0”~“3”的值作为帧丢失信息。帧丢失信息在第一编码信息和第二编码信息都没有被正常接收时取“0”值,在第一编码信息被正常接收、第二编码信息没有被正常接收时取“1”值,在第二编码信息被正常接收、第一编码信息没有被正常接收时取“2”值,在第一编码信息和第二编码信息都被正常接收时取“3”值。然后,帧丢失检测单元152将帧丢失信息输出到第一解码单元153和第二解码单元154。接着,帧丢失检测单元152将被正常接收的编码信息输出到对应的解码单元。具体地说,帧丢失检测单元152在帧丢失信息为“1”或“3”时(第一编码信息被正常接收时),将第一编码信息输出到第一解码信息153,在帧丢失信息为“2”或“3”时(第二编码信息被正常接收时),将第二编码信息输出到第二解码单元154。
第一解码单元153从复用分离单元151输入标记信息,从帧丢失检测单元152输入帧丢失信息。并且,第一解码单元153在内部设有存储前一个帧的第一编码信息的缓冲器,在当前帧的第一编码信息没有被正常接收时,在解码时使用存储在缓冲器的前一个帧的第一编码信息。
接着,第一解码单元153参照帧丢失信息,帧丢失信息为“1”或“3”时(第一编码信息被正常接收时),从帧丢失检测单元152输入第一编码信息,使用CELP方式的语音/音频解码方法解码第一编码信息,帧丢失信息为“0”时,使用CELP方式的语音/音频解码方法解码前一个帧的第一编码信息,帧丢失信息为“2”时,从第二解码单元154输入第二编码信息,使用CELP方式的语音/音频解码方法对由第二编码信息和前一个帧的第一编码信息获得的编码信息进行解码。另外,第一解码单元153在标记信息为“0”时,不使用第二编码信息。
这样,在本实施方式中,在第一编码信息被正常接收时,解码第一编码信息,在第一编码信息没有被正常接收时,解码包含在前一个帧的第一编码信息。并且,在本实施方式中,在第二编码信息被正常接收且第一编码信息没有被正常接收时,通过除了包含在前一个帧的第一编码信息之外,还使用第二编码信息,由此能够实现解码信号质量的进一步提升。
接着,第一解码单元153将通过解码获得的第一解码信号输出到加法器155。另外,第一解码单元153在帧丢失信息为“1”或“3”时,将第一编码信息输出到第二解码单元154。并且,第一解码单元153在帧丢失信息为“0”或“2”时,将前一个帧的第一编码信息输出到第二解码单元154。
另外,第一解码单元153的具体的编码信息的解码方法将后述。
第二解码单元154从帧丢失检测单元152输入帧丢失信息。并且,第二解码单元154在内部设有存储前一个帧的第二编码信息的缓冲器,在当前帧的第二编码信息没有被正常接收时,在解码时使用存储在缓冲器的前一个帧的第二编码信息。
接着,第二解码单元154参照帧丢失信息,帧丢失信息为“3”时,从帧丢失检测单元152输入第二编码信息,使用CELP方式的语音/音频解码方法解码第二编码信息,帧丢失信息为“2”时,从帧丢失检测单元152输入第二编码信息,并从第一解码单元153输入前一个帧的第一编码信息,使用CELP方式的语音/音频解码方法解码由第二编码信息和前一个帧的第一编码信息获得的编码信息,帧丢失信息为“1”时,从第一解码单元153输入第一编码信息,使用CELP方式的语音/音频解码方法对由第一编码信息和前一个帧的第二编码信息获得的编码信息进行解码,帧丢失信息为“0”时,从第一解码单元153输入前一个帧的第一编码信息,使用CELP方式的语音/音频解码方法对由前一个帧的第一编码信息和前一个帧的第二编码信息获得的编码信息进行解码。
这样,第二解码单元154在第二编码信息没有被正常接收时,使用第二编码信息和第一编码信息或前一个帧的第一编码信息进行解码,在第二编码信息没有被正常接收时,使用前一个帧的第二编码信息和第一编码信息或前一个帧的第一编码信息进行解码。
接着,第二解码单元154将通过解码获得的第二解码信号输出到加法器155。另外,第二解码单元154在帧丢失信息为“2”时,将第二编码信息输出到第一解码单元153。
另外,第二解码单元154的具体的编码信息的解码方法将后述。
加法器155从第一解码单元153输入第一解码信号,从第二解码单元154输入第二解码信号,将第一解码信号和第二解码信号相加,将作为相加结果的解码信号作为输入信号输出。
接着,说明编码装置100的第一编码单元101的内部结构。图2是表示第一编码单元101的内部结构的方框图。第一编码单元101将输入的语音/音频信号按N个样本进行划分(N为自然数),以N个样本作为一个帧,并对每个帧进行编码。
第一编码单元101的输入信号被输入到预处理单元201。预处理单元201进行除去DC(直流)成分的高通滤波处理、以及用以改善后续编码处理的性能的波形整形处理和预加强处理,并将经过这些处理后的信号(Xin)输出到LPC分析单元202和加法器205。
LSP分析单元202使用Xin进行线性预测分析,将作为分析结果的LPC(线性预测系数)变换为LSP(Line Spectral Pairs),将变换结果作为第一LSP输出到LSP量化单元203和判定单元105。
LSP量化单元203进行从LSP分析单元202输出的第一LSP的量化处理,将量化的第一LSP(第一量化LSP)输出到合成滤波器204。并且,LSP量化单元203将表示第一量化LSP的第一量化LSP代码(L1)输出到复用单元214。
合成滤波器204根据基于第一量化LSP的滤波系数,对从后述的加法器211输出的驱动声源进行滤波合成来生成合成信号,将合成信号输出到加法器205。
加法器205将合成信号的极性反转后与Xin相加,由此计算误差信号并将误差信号输出到听觉加权单元212。
自适应声源代码本206将之前由加法器211输出的驱动声源存储在缓冲器,并且在从参数决定单元213输出的信号所指定的截取位置从缓冲器截取相当于1帧的样本,作为第一自适应声源向量输出到乘法器209。并且,自适应声源代码本206在每次从加法器211输入驱动声源时进行缓冲器的更新。
量化增益生成单元207由从参数决定单元213输出的信号决定第一量化自适应声源增益和第一量化固定声源增益,并分别输出到乘法器209和乘法器210。
固定声源代码本208将具有由参数决定单元213输出的信号所指定的形状的向量作为第一固定声源向量输出到乘法器210。
乘法器209将从量化增益生成单元207输出的第一量化自适应声源增益与从自适应声源代码本206输出的第一自适应声源向量相乘,并输出到加法器211。乘法器210将从量化增益生成单元207输出的第一量化固定声源增益与从固定声源代码本208输出的第一固定声源向量相乘,并输出到加法器211。
加法器211分别从乘法器209和乘法器210输入已乘以增益的第一自适应声源向量和第一固定声源向量,将已乘以增益的第一自适应声源向量和第一固定声源向量相加,将作为相加结果的驱动声源输出到合成滤波器204和自适应声源代码本206。另外,输入自适应声源代码本206的驱动声源被存储在缓冲器。
听觉加权单元212对从加法器205输出的误差信号进行听觉加权,并作为编码失真输出到参数决定单元213。
参数决定单元213从自适应声源代码本206选择使听觉加权单元212输出的编码失真最小的第一自适应声源延迟,并将表示选择结果的第一自适应声源延迟代码(A1)输出到复用单元214。这里,“第一自适应声源延迟”是截取第一自适应声源向量的截取位置,详细说明将后述。并且,参数决定单元213从固定声源代码本208选择使听觉加权单元212输出的编码失真最小的第一固定声源向量,并将表示选择结果的第一固定声源向量代码(F1)输出到复用单元214。另外,参数决定单元213从量化增益生成单元207选择使听觉加权单元212输出的编码失真最小的第一量化自适应声源增益和第一量化固定声源增益,并将表示选择结果的第一量化声源增益代码(G1)输出到复用单元214。
复用单元214从LSP量化单元203输入第一量化LSP代码(L1),从参数决定单元213输入第一自适应声源延迟代码(A1)、第一固定声源向量代码(F1)以及第一量化声源增益代码(G1),对这些信息进行复用后作为第一编码信息输出。
接着,以使分配给第一量化LSP代码(L1)的比特数为“8”,并对第一LSP进行向量量化的情况为例,对LSP量化单元203决定第一量化LSP的处理进行简单的说明。
LSP量化单元203具有存储了事先生成的256种类的第一LSP代码向量lsp1 (l1)(i)的第一LSP码本。这里,(l1)是附加在第一LSP代码向量的索引,取0~255的值。并且,第一LSP代码向量lsp1 (l1)(i)是N维向量,i取0~N-1的值。LSP量化单元203将从LSP分析单元202输出的第一LSPα(i)输入。这里,第一LSPα(i)是N维向量。
接着,LSP量化单元203基于式(1)求出第一LSPα(i)和第一LSP代码向量lsp1 (l1)(i)的均方误差er1
er 1 = Σ i = 0 N - 1 ( α 1 ( i ) - lsp 1 ( l 1 ) ( i ) ) 2 - - - ( 1 )
然后,LSP量化单元203对所有l1求出均方误差er1,决定均方误差er1成为最小的l1的值(l1min)。接着,LSP量化单元203将l1min作为第一量化LSP代码(L1)输出到复用单元214,并且,将lsp1 (l1min)(i)作为第一量化LSP输出到合成滤波器204。
这样,由LSP量化单元203求出的lsp1 (l1min)(i)就是“第一量化LSP”。
接着,使用图3说明参数决定单元213决定第一自适应声源延迟的处理。在图3,缓冲器301是备有自适应声源代码本206的缓冲器,位置302是第一自适应声源向量的截取位置,向量303是被截取的第一自适应声源向量。并且,数值“41”、“296”分别对应于移动截取位置302的范围的下限和上限。
在分配给表示第一自适应声源延迟的代码(A1)的比特数为“8”的情况,移动截取位置302的范围可以设定在“256”的长度范围(例如,41~296)上。并且,移动截取位置302的范围可以任意地设定。
参数决定单元213在设定的范围内移动截取位置302,并依次向自适应声源代码本206指示截取位置302。接着,自适应声源代码本206使用由参数决定单元213指示的截取位置302,按帧长截取第一自适应声源向量303,并将截取的第一自适应声源向量输出到乘法器209。然后,参数决定单元213对于在所有的截取位置302截取第一自适应声源向量303的情况,求出从听觉加权单元212输出的编码失真,并决定使编码失真最小的截取位置302。
因此,由参数决定单元213求出的缓冲器的截取位置302就是“第一自适应声源延迟”。
接着,参数决定单元213将表示使编码失真最小的第一自适应声源延迟的第一自适应声源延迟代码(A1)输出到复用单元214。
接着,使用图4说明参数决定单元213决定第一固定声源向量的处理。并且,这里以分配给第一固定声源向量代码(F1)的比特数为“12”的情况为例进行说明。
在图4,轨迹(track)401、402及403分别生成1条单位脉冲(振幅值为1)。并且,乘法器404、405及406对由轨迹401、402及403生成的单位脉冲附加极性。加法器407是将生成的3条单位脉冲相加的加法器,向量408是由3条单位脉冲构成的“第一固定声源向量”。
各轨迹能生成的单位脉冲的位置不同,在图4中,其构成为,轨迹401能在然后,生成的单位脉冲分别由乘法器404、405及406附加极性,由加法器407将3条单位脉冲相加,由此构成作为相加结果的第一固定声源向量408。
在图4的例子中,对于各个单位脉冲,位置有8种,极性有正负2种,所以位置信息3比特和极性信息1比特用于表现各单位脉冲。因此,变成合计为12比特的固定声源代码本。参数决定单元213为了使3条单位脉冲的生成位置和极性移动,依次将生成位置和极性指示给固定声源代码本208。然后,固定声源代码本208使用参数决定单元213指示的生成位置和极性来构成第一固定声源向量408,将所构成的第一固定声源向量408输出到乘法器210。接着,参数决定单元213对于所有的生成位置和极性的组合,求出从听觉加权单元212输出的编码失真,来决定使编码失真最小的生成位置和极性的组合。然后,参数决定单元213将表示使编码失真最小的生成位置和极性的组合的第一固定声源向量代码(F1)输出到复用单元214。
接着,以使分配给第一量化声源增益代码(G1)的比特数为“8”的情况为例,对参数决定单元213决定由量化增益生成单元207生成的第一量化自适应声源增益和第一量化固定声源增益的处理进行说明。量化增益生成单元207具有存储了事先生成的256种类的第一声源增益代码向量gain1 (k1)(i)的第一声源增益码本。这里,k1是附加在第一声源增益代码向量的索引,取0~255的值。并且,第一声源增益代码向量gain1 (k1)(i)是二维向量,i取0~1的值。参数决定单元213从0~255为止依次将K1的值指示给量化增益生成单元207。量化增益生成单元207使用由参数决定单元213指示的K1,从第一声源增益码本中选择第一声源增益代码向量gain1 (k1)(i),将gain1 (k1)(0)作为第一量化自适应声源增益输出到乘法器209,并将gain1 (k1)(1)作为第一量化固定声源增益输出到乘法器210。
由此,由量化增益生成单元207求出的gain1 (k1)(0)为“第一量化自适应声源增益”,gain1 (k1)(1)为“第一量化固定声源增益”。参数决定单元213对所有的k1求出由听觉加权单元212输出的编码失真,并决定编码失真最小的k1的值(k1min)。接着,参数决定单元213将k1min作为第一量化声源增益代码(G1)输出到复用单元214。
接着,使用图5表示的方框图说明第一局部解码单元102的内部结构。在图5,输入第一局部解码单元102的第一编码信息由复用分离单元501分离成各个代码(L1、A1、G1、F1)。分离出的第一量化LSP代码(L1)被输出到LSP解码单元502,分离出的第一自适应声源延迟代码(A1)被输出到自适应声源代码本505,分离出的第一量化声源增益代码(G1)被输出到量化增益生成单元506,分离出的第一固定声源向量代码(F1)被输出到固定声源代码本507。
LSP解码单元502由从复用分离单元501输出的第一量化LSP代码(L1)解码第一量化LSP,将解码的第一量化LSP输出到合成滤波器503、第二编码单元104和判定单元105。
自适应声源代码本505在从复用分离单元501输出的第一自适应声源延迟代码(A1)指定的截取位置从缓冲器截取相当于1帧的样本,将截取的向量作为第一自适应声源向量输出到乘法器508。并且,自适应声源代码本505将第一自适应声源延迟代码(A1)指定的截取位置作为第一自适应声源延迟输出到第二编码单元104。另外,自适应声源代码本505在每次从加法器510输入驱动声源时进行缓冲器的更新。
量化增益生成单元506对从复用分离单元501输出的第一量化声源增益代码(G1)指定的第一量化自适应声源增益和第一量化固定声源增益进行解码,将第一量化自适应声源增益输出到乘法器508,并将第一量化固定声源增益输出到乘法器509。
固定声源代码本507生成从复用分离单元501输出的第一固定声源向量代码(F1)指定的第一固定声源向量,并输出到乘法器509。
乘法器508对第一自适应声源向量乘以第一量化自适应声源增益,并输出到加法器510。乘法器509对第一固定声源向量乘以第一量化固定声源增益,并输出到加法器510。
加法器510对从乘法器508和509输出的、已乘以增益后的第一自适应声源向量和第一固定声源向量进行相加,生成驱动声源,并将驱动声源输出到合成滤波器503和自适应声源代码本505。另外,输入自适应声源代码本505的驱动声源被存储在缓冲器。
合成滤波器503使用从加法器510输出的驱动声源和由LSP解码单元502解码的滤波系数来进行滤波合成,将合成信号输出到后处理单元504。
后处理单元504对从合成滤波器503输出的合成信号进行共振峰增强和音调增强之类的改善语音主观质量的处理以及改善静态噪声的主观质量的处理等,作为第一解码信号输出。
接着,使用图6表示的方框图说明第二编码单元104的内部结构。第二编码单元104将输入的残差信号按N个样本进行划分(N为自然数),以N个样本作为一个帧,并对每个帧进行编码。
第二编码单元104的输入信号被输入到预处理单元601。预处理单元601进行除去DC(直流)成分的高通滤波处理、以及用以改善后续编码处理的性能的波形整形处理和预加强处理,并将经过这些处理后的信号(Xin)输出到LPC分析单元602和加法器605。
LSP分析单元602使用Xin进行线性预测分析,将作为分析结果的LPC(线性预测系数)变换为LSP(Line Spectral Pairs),将变换结果作为第二LSP输出到LSP量化单元603。
LSP量化单元603输入第一量化LSP并从LSP分析单元602输入第二LSP。然后,LSP量化单元603将第一量化LSP的极性反转并与第二LSP相加,由此计算出残差LSP。然后,LSP量化单元603进行残差LSP的量化处理,通过将已量化的残差LSP(量化残差LSP)与第一量化LSP相加来计算第二量化LSP。然后,LSP量化单元603将第二量化LSP输出到合成滤波器604,同时将表示量化残差LSP的第二量化LSP代码(L2)输出到复用单元614。并且,LSP量化单元603将量化残差LSP输出到判定单元105。
合成滤波器604根据基于第二量化LSP的滤波系数,对从后述的加法器611输出的驱动声源进行滤波合成来生成合成信号,将合成信号输出到加法器605。
加法器605将合成信号的极性反转后与Xin相加,由此计算误差信号并将误差信号输出到听觉加权单元612。
自适应声源代码本606将之前由加法器611输出的驱动声源存储在缓冲器,并且在第一自适应声源延迟和参数决定单元613输出的信号所指定的截取位置从缓冲器截取相当于1帧的样本,作为第二自适应声源向量输出到乘法器609。另外,自适应声源代码本606在每次从加法器611输入驱动声源时进行缓冲器的更新。
量化增益生成单元607由从参数决定单元613输出的信号决定第二量化自适应声源增益和第二量化固定声源增益,并分别输出到乘法器609和乘法器610。
固定声源代码本608将具有由参数决定单元613输出的信号所指定的形状的向量作为第二固定声源向量输出到乘法器610。
乘法器609将从量化增益生成单元607输出的第二量化自适应声源增益与从自适应声源代码本606输出的第二自适应声源向量相乘,并输出到加法器611。乘法器610将从量化增益生成单元607输出的第二量化固定声源增益与从固定声源代码本608输出的第二固定声源向量相乘,并输出到加法器611。
加法器611分别从乘法器609和乘法器610输入已乘以增益的第二自适应声源向量和第二固定声源向量,并将其相加,将作为相加结果的驱动声源输出到合成滤波器604和自适应声源代码本606。另外,输入自适应声源代码本606的驱动声源被存储在缓冲器。
听觉加权单元612对从加法器605输出的误差信号进行听觉加权,并作为编码失真输出到参数决定单元613。
参数决定单元613从自适应声源代码本606选择使听觉加权单元612输出的编码失真最小的第二自适应声源延迟,并将表示选择结果的第二自适应声源延迟代码(A2)输出到复用单元614。这里,“第二自适应声源延迟”是截取第二自适应声源向量的截取位置,详细说明将后述。并且,参数决定单元613从固定声源代码本608选择使听觉加权单元612输出的编码失真最小的第二固定声源向量,并将表示选择结果的第二固定声源向量代码(F2)输出到复用单元614。并且,参数决定单元613从量化增益生成单元607选择使听觉加权单元612输出的编码失真最小的第二量化自适应声源增益和第二量化固定声源增益,并将表示选择结果的第二量化声源增益代码(G2)输出到复用单元614。
复用单元614从LSP量化单元603输入第二量化LSP代码(L2),从参数决定单元613输入第二自适应声源延迟代码(A2)、第二固定声源向量代码(F2)以及第二量化声源增益代码(G2),对这些信息进行复用后作为第二编码信息输出。
接着,以使分配给第二量化LSP代码(L2)的比特数为“8”,并对残差LSP进行向量量化的情况为例,对LSP量化单元603决定第二量化LSP的处理进行简单的说明。
LSP量化单元603具有存储了事先生成的256种类的第二LSP代码向量lspres (l2)(i)的第二LSP码本。这里,(l2)是附加在第二LSP代码向量的索引,取0~255的值。并且,第二LSP代码向量lspres (l2)(i)是N维向量,i取0~N-1的值。LSP量化单元603将从LSP分析单元602输出的第二LSPα(i)输入。这里,第二LSPα(i)是N维向量。LSP量化单元603将从第一局部解码单元102输出的第一量化LSPlsp1 (l1min)(i)输入。这里,第一量化LSPlsp1 (l1min)(i)是N维向量,i取0~N-1的值。
然后,LSP量化单元603由式(2)求出残差LSPres(i)。
res ( i ) = α 2 ( i ) - lsp 1 ( l 1 min ) ( i ) , ( i = 0 , · · · , N - 1 ) - - - ( 2 )
接着,LSP量化单元603基于式(3)求出残差LSPres(i)和第二LSP代码向量lspres (l2)(i)的均方误差er2
er 2 = Σ i = 0 N - 1 ( res ( i ) - lsp res ( l 2 ) ( i ) ) 2 - - - ( 3 )
然后,LSP量化单元603对所有l2求出均方误差er2,决定均方误差er2成为最小的l2的值(l2min)。然后,LSP量化单元603将l2min作为第二量化LSP代码(L2)输出到复用单元614。
然后,LSP量化单元603由式(4)求出第二量化LSPlsp2(i)。
lsp 2 ( i ) = lsp 1 ( l 1 min ) ( i ) + lsp res ( l 2 min ) ( i ) , ( i = 0 , · · · , N - 1 ) - - - ( 4 )
然后,LSP量化单元603将第二量化LSPlsp2(i)输出到合成滤波器604。
这样,由LSP量化单元603求出的lsp2(i)为“第二量化LSP”,使均方误差er2最小的LSPres (l2min)(i)为“量化残差LSP”。
接着,使用图7说明参数决定单元613决定第二自适应声源延迟的处理。在图7,缓冲器701是备有自适应声源代码本606的缓冲器,位置702是第二自适应声源向量的截取位置,向量703是被截取的第二自适应声源向量。并且,“t”是第一自适应声源延迟,而数值“41”、“296”对应于参数决定单元213进行第一自适应声源延迟的搜索的范围的下限和上限。另外、“t-16”、“t+15”对应于移动第二自适应声源向量的截取位置的下限和上限。
在分配给表示第二自适应声源延迟的代码(A2)的比特数为“5”的情况,移动截取位置702的范围可以设定在“32”的长度范围(例如,t-16~t+15)上。并且,移动截取位置702的范围可以任意地设定。
参数决定单元613从第一局部解码单元102输入第一自适应声源延迟“t”,将移动截取位置702的范围设定在t-16~t+15。接着,参数决定单元613在设定的范围内移动截取位置702,并依次向自适应声源代码本606指示截取位置702。接着,自适应声源代码本606使用由参数决定单元613指示的截取位置702,按帧长截取第二自适应声源向量703,并将截取的第二自适应声源向量703输出到乘法器609。然后,参数决定单元613对于在所有的截取位置702截取第二自适应声源向量703的情况,求出从听觉加权单元612输出的编码失真,并决定使编码失真最小的截取位置702。
这样,由参数决定单元613求出的缓冲器的截取位置702为t+γ时,γ(γ为-16~15的任一个值)为“第二自适应声源延迟”。因此,为了由第二解码单元154截取第二自适应声源向量703,需通过将第一自适应声源延迟t和第二自适应声源延迟γ相加,将相加结果t+γ作为截取位置702,由此截取第二自适应声源延迟703。
接着,参数决定单元613将表示使编码失真最小的第二自适应声源延迟的第二自适应声源延迟代码(A2)输出到复用单元614。
另外,参数决定单元613通过与参数决定单元213决定第一固定声源向量代码(F1)的处理相同的处理,来决定第二固定声源向量代码(F2)。
再有,参数决定单元613通过与参数决定单元213决定第一量化声源增益代码(G1)的处理相同的处理,来决定第二量化声源增益代码(G2)。
接着,说明判定单元105生成标记信息的处理。判定单元105从第一编码单元101输入第一LSP,从第一局部解码单元102输入第一量化LSP,从第二编码单元输入量化残差LSP。并且,判定单元105在内部具有存储前面帧的第一量化LSP的缓冲器。
接着,判定单元105使用式(5)求出第一LSP和前面帧第一量化LSP的均方误差er3
er 2 = Σ i = 0 N - 1 ( res ( i ) - lsp res ( l 2 ) ( i ) ) 2 - - - ( 3 )
这里,α(i)是第一LSP,lspprel(i)是存储在缓冲器的前面帧第一量化LSP。
接着,判定单元105使用式(6)求出第一LSP和将前面帧第一量化LSP与量化残差LSP相加的向量的均方误差er4
er 4 = Σ i = 0 N - 1 ( α 1 ( i ) - ( lsp prel ( i ) + lsp res ( i ) ) ) 2 - - - ( 6 )
这里,lspres(i)是量化残差LSP。
接着,判定单元105进行均方误差er3和均方误差er4的大小比较,在均方误差er3较小时,标记信息取“0”值,在均方误差er4较小时,标记信息取“1”值。接着,判定单元105将标记信息输出到复用单元106。然后,判定单元105通过将从第一局部解码单元102输入的第一量化LSP存储在缓冲器来进行缓冲器的更新。存储的第一量化LSP在下一个帧中被用作前面帧第一量化LSP。
这样,在将仅使用前面帧第一编码信息的情况与使用前面帧第一编码信息和量化残差LSP的情况相比,哪个情况能够获得更接近第一LSP的值的信息作为标记信息并传输到解码装置侧,由此能够在解码装置侧检测出第一编码信息的丢失时,指示在第一解码单元是仅使用前面帧第一编码信息来进行解码,还是使用前面帧第一编码信息和量化残差LSP进行解码。
接着,使用图8表示的方框图说明第一解码单元153的内部结构。在图8,在第一编码信息没有被丢失地被传输时,输入第一解码单元153的第一编码信息由复用分离单元801分离成各个代码(L1、A1、G1、F1)。分离出的第一量化LSP代码(L1)被输出到LSP解码单元802,分离出的第一自适应声源延迟代码(A1)被输出到自适应声源代码本805,分离出的第一量化声源增益代码(G1)被输出到量化增益生成单元806,分离出的第一固定声源向量代码(F1)被输出到固定声源代码本807。
LSP解码单元802从复用分离单元151输入标记信息,并从编码信息操作单元811输入帧丢失信息。LSP解码单元802在帧丢失信息为“1”或“3”时,从复用分离单元801输入第一量化LSP代码(L1),并从第一量化LSP代码(L1)解码第一量化LSP。LSP解码单元802在帧丢失信息为“0”时,从编码信息操作单元811输入前面帧第一量化LSP,并将此作为第一量化LSP。LSP解码单元802在帧丢失信息为“2”时,从编码信息操作单元811输入前面帧第一量化LSP和量化残差LSP,并将相加的相加结果作为第一量化LSP。可是,LSP解码单元802在标记信息为“0”时,不使用量化残差LSP。接着,LSP解码单元802将所述第一量化LSP输出到合成滤波器803和编码信息操作单元811。输出到编码信息操作单元811的第一量化LSP在下一个帧的解码处理时被用作前面帧第一量化LSP。
自适应声源代码本805将之前由加法器810输出的驱动声源存储在缓冲器。自适应声源代码本805从编码信息操作单元811输入帧丢失信息。自适应声源代码本805在帧丢失信息为“1”或“3”时,从复用分离单元801输入第一自适应声源延迟代码(A1),在第一自适应声源延迟代码(A1)指定的截取位置从缓冲器截取相当于1帧的样本,将截取的向量作为第一自适应声源向量。自适应声源代码本805在帧丢失信息为“0”时,从编码信息操作单元811输入前面帧第一自适应声源延迟,在前面帧第一自适应声源延迟所指定的截取位置从缓冲器截取相当于1帧的样本,使截截取的向量作为第一自适应声源向量。自适应声源代码本805在帧丢失信息为“2”时,从编码信息操作单元811输入前面帧第一自适应声源延迟和第二自适应声源延迟,在将这两者相加后的相加结果所指定的截取位置从缓冲器截取相当于1帧的样本,将截取的向量作为第一自适应声源向量。
然后,自适应声源代码本805将第一自适应声源向量输出到乘法器808。并且,自适应声源代码本805将第一自适应声源向量的截取位置作为第一自适应声源延迟输出到编码信息操作单元811。输出到编码信息操作单元811的第一自适应声源延迟在下一个帧的解码处理时被用作前面帧第一自适应声源延迟。另外,自适应声源代码本805在每次从加法器810输入驱动声源时进行缓冲器的更新。
量化增益生成单元806从编码信息操作单元811输入帧丢失信息。量化增益生成单元806在帧丢失信息为“1”或“3”时,从复用分离单元801输入第一量化声源增益代码(G1),并对第一量化声源增益代码(G1)指定的第一量化自适应声源增益和第一量化固定声源增益进行解码。量化增益生成单元806在帧丢失信息为“0”时,从编码信息操作单元811输入前面帧第一量化自适应声源增益和前面帧第一量化自适应声源增益,并将此作为第一量化自适应声源增益和第一量化固定声源增益。量化增益生成单元806在帧丢失信息为“2”时,从编码信息操作单元811输入前面帧第一量化自适应声源增益和前面帧第一量化固定声源增益和第二量化自适应声源增益和第二量化固定声源增益,将前面帧第一量化自适应声源增益和第二量化自适应声源增益相加,将相加结果乘以0.5后的乘法运算结果作为第一量化自适应声源增益,并且将前面帧第一量化固定声源增益和第二量化固定声源增益相加,将相加结果乘以0.5后的乘法运算结果作为第一量化固定声源增益。然后,量化增益生成单元806将第一量化自适应声源增益输出到乘法器808和编码信息操作单元811,并将第一量化固定声源增益输出到乘法器809和编码信息操作单元811。输出到编码信息操作单元811的第一量化自适应声源增益和第一量化固定声源增益在下一个帧的解码处理时被用作前面帧第一量化自适应声源增益和前面帧第一量化固定声源增益。
固定声源代码本807从编码信息操作单元811输入帧丢失信息。固定声源代码本807在帧丢失信息为“1”或“3”时,从复用分离单元801输入第一固定声源向量代码(F1),并生成第一固定声源向量代码(F1)指定的第一固定声源向量。固定声源代码本807在帧丢失信息为“0”或“2”时,从编码信息操作单元811输入前面帧第一固定声源向量,并将此作为第一固定声源向量。然后,固定声源代码本807将第一固定声源向量输出到乘法器809和编码信息操作单元811。输出到编码信息操作单元811的第一固定声源向量在下一个帧的解码处理时被用作前面帧第一固定声源向量。
乘法器808对第一自适应声源向量乘以第一量化自适应声源增益,并输出到加法器810。乘法器809对第一固定声源向量乘以第一量化固定声源增益,并输出到加法器810。
加法器810对从乘法器808和809输出的、已乘以增益后的第一自适应声源向量和第一固定声源向量进行相加,生成驱动声源,并将驱动声源输出到合成滤波器803和自适应声源代码本805。
合成滤波器803使用从加法器810输出的驱动声源和由LSP解码单元802解码的滤波系数来进行滤波合成,将合成信号输出到后处理单元804。
后处理单元804对从合成滤波器803输出的合成信号进行共振峰增强和音调增强之类的改善语音主观质量的处理以及改善静态噪声的主观质量的处理等,作为第一解码信号输出。
编码信息操作单元811在内部设有存储各种参数的缓冲器,在缓冲器中存储了在前面帧求出的第一量化LSP(前面帧第一量化LSP)、在前面帧求出的第一自适应声源延迟(前面帧第一自适应声源延迟)、在前面帧求出的第一量化自适应声源增益(前面帧第一量化自适应声源增益)、在前面帧求出的第一量化固定声源增益(前面帧第一量化固定声源增益)以及在前面帧求出的第一固定声源向量(前面帧第一固定声源向量)。
编码信息操作单元811从帧丢失检测单元152输入帧丢失信息。另外,编码信息操作单元811在帧丢失信息为“2”时,从第二解码单元154输入量化残差LSP、第二自适应声源延迟、第二量化自适应声源增益以及第二量化固定声源增益。然后,编码信息操作单元811将帧丢失信息输出到LSP解码单元802、自适应声源代码本805、量化增益生成单元806以及固定声源代码本807。编码信息操作单元811在帧丢失信息为“0”时,将前面帧第一量化LSP输出到LSP解码单元802,将前面帧第一自适应声源延迟输出到自适应声源代码本805,将前面帧第一量化自适应声源增益和前面帧第一量化固定声源增益输出到量化增益生成单元806,并将前面帧第一固定声源向量输出到固定声源代码本807。编码信息操作单元811在帧丢失信息为“2”时,将前面帧第一量化LSP和量化残差LSP输出到LSP解码单元802,将前面帧第一自适应声源延迟和第二自适应声源延迟输出到自适应声源代码本805,将前面帧第一量化自适应声源增益、前面帧第一量化固定声源增益、第二量化自适应声源增益以及第二量化固定声源增益输出到量化增益生成单元806,并将前面帧第一固定声源向量输出到固定声源代码本807。
接着,编码信息操作单元811从LSP解码单元802输入已用于当前帧的解码处理的第一量化LSP,从自适应声源代码本805输入已用于当前帧的解码处理的第一自适应声源延迟,从量化增益生成单元806输入已用于当前帧的解码处理的第一量化自适应声源增益和第一量化固定声源增益,并从固定声源代码本807输入已用于当前帧的解码处理的第一固定声源向量。然后,编码信息操作单元811在帧丢失信息为“1”或“3”时,将第一量化LSP、第一自适应声源延迟、第一量化自适应声源增益以及第一量化固定声源增益输出到第二解码单元154,在帧丢失信息为“0”或“2”时,将存储在缓冲器的前面帧第一量化LSP和前面帧第一自适应声源延迟输出到第二解码单元154。
编码信息操作单元811在上述处理结束后,使已用于当前帧的解码处理的第一量化LSP作为前面帧第一量化LSP、第一自适应声源延迟作为前面帧第一自适应声源延迟、第一量化自适应声源增益作为前面帧第一量化自适应声源增益、第一量化固定声源增益作为前面帧第一量化固定声源增益、第一固定声源向量作为前面帧第一固定声源向量存储到缓冲器,进行缓冲器的更新。
接着,使用图9表示的方框图说明第二解码单元154的内部结构。在图9,在第二编码信息没有被丢失地被传输时,输入第二解码单元154的第二编码信息由复用分离单元901分离成各个代码(L2、A2、G2、F2)。分离出的第二量化LSP代码(L2)被输出到LSP解码单元902,分离出的第二自适应声源延迟代码(A2)被输出到自适应声源代码本905,分离出的第二量化声源增益代码(G2)被输出到量化增益生成单元906,分离出的第二固定声源向量代码(F2)被输出到固定声源代码本907。
LSP解码单元902从编码信息操作单元911输入帧丢失信息。LSP解码单元902在帧丢失信息为“3”时,从编码信息操作单元911输入第一量化LSP,并且从复用分离单元901输入第二量化LSP代码(L2),从第二量化LSP代码(L2)解码量化残差LSP,并将第一量化LSP和量化残差LSP相加的相加结果作为第二量化LSP。LSP解码单元902在帧丢失信息为“1”时,从编码信息操作单元911输入第一量化LSP和前面帧量化残差LSP,并将第一量化LSP和前面帧量化残差LSP相加的相加结果作为第二量化LSP。LSP解码单元902在帧丢失信息为“2”时,从编码信息操作单元911输入前面帧第一量化LSP,并且从复用分离单元901输入第二量化LSP代码(L2),从第二量化LSP代码(L2)解码量化残差LSP,并将前面帧第一量化LSP和量化残差LSP相加的相加结果作为第二量化LSP。LSP解码单元902在帧丢失信息为“0”时,从编码信息操作单元911输入前面帧第一量化LSP和前面帧量化残差LSP,并将前面帧第一量化LSP和前面帧量化残差LSP相加的相加结果作为第二量化LSP。
然后,LSP解码单元902将所述第二量化LSP输出到合成滤波器903。接着,LSP解码单元902在帧丢失信息为“2”或“3”时,将解码第二量化LSP代码(L2)而获得的量化残差LSP输出到编码信息操作单元911,在帧丢失信息为“0”或“1”时,将前面帧量化残差LSP输出到编码信息操作单元911。输出到编码信息操作单元911的量化残差LSP或前面帧量化残差LSP在下一个帧的解码处理时被用作前面帧量化残差LSP。
自适应声源代码本905将之前由加法器910输出的驱动声源存储在缓冲器。自适应声源代码本905从编码信息操作单元911输入帧丢失信息。自适应声源代码本905在帧丢失信息为“3”时,从编码信息操作单元911输入第一自适应声源延迟,并从复用分离单元901输入第二自适应声源延迟代码(A2),在将第一自适应声源延迟和第二自适应声源延迟代码(A2)相加后的相加结果所指定的截取位置从缓冲器截取相当于1帧的样本,使截截取的向量作为第二自适应声源向量。自适应声源代码本905在帧丢失信息为“1”时,从编码信息操作单元911输入第一自适应声源延迟和第二自适应声源延迟,在将这两个自适应声源延迟相加后的相加结果所指定的截取位置从缓冲器截取相当于1帧的样本,将截取的向量作为第二自适应声源向量。自适应声源代码本905在帧丢失信息为“2”时,从编码信息操作单元911输入前面帧第一自适应声源延迟,并从复用分离单元901输入第二自适应声源延迟代码(A2),在将前面帧第一自适应声源延迟和第二自适应声源延迟代码(A2)相加后的相加结果所指定的截取位置从缓冲器截取相当于1帧的样本,使截截取的向量作为第二自适应声源向量。自适应声源代码本905在帧丢失信息为“0”时,从编码信息操作单元911输入前面帧第一自适应声源延迟和前面帧第二自适应声源延迟,在将这两个自适应声源延迟相加后的相加结果所指定的截取位置从缓冲器截取相当于1帧的样本,将截取的向量作为第二自适应声源向量。
然后,自适应声源代码本905将第二自适应声源向量输出到乘法器908。接着,自适应声源代码本905在帧丢失信息为“2”或“3”时,将第二自适应声源延迟代码(A2)作为第二自适应声源延迟输出到编码信息操作单元911,在帧丢失信息为“0”或“1”时,将前面帧第二自适应声源延迟输出到编码信息操作单元911。输出到编码信息操作单元911的第二自适应声源延迟或前面帧第二自适应声源延迟在下一个帧的解码处理时被用作前面帧第二自适应声源延迟。并且,自适应声源代码本905在每次从加法器910输入驱动声源时进行缓冲器的更新。
量化增益生成单元906从编码信息操作单元911输入帧丢失信息。量化增益生成单元906在帧丢失信息为“2”或“3”时,从复用分离单元901输入第二量化声源增益代码(G2),并对第二量化声源增益代码(G2)指定的第二量化自适应声源增益和第二量化固定声源增益进行解码。量化增益生成单元906在帧丢失信息为“1”时,从编码信息操作单元911输入第一量化自适应声源增益和第一量化固定声源增益和前面帧第二量化自适应声源增益和前面帧第二量化固定声源增益,将第一量化自适应声源增益和前面帧第二量化自适应声源增益相加,将相加结果乘以0.5后的乘法运算结果作为第二量化自适应声源增益,并且将第一量化固定声源增益和前面帧第二量化固定声源增益相加,将相加结果乘以0.5后的乘法运算结果作为第二量化固定声源增益。量化增益生成单元906在帧丢失信息为“0”时,从编码信息操作单元911输入前面帧第二量化自适应声源增益和前面帧第二量化自适应声源增益,并将此作为第二量化自适应声源增益和第二量化固定声源增益。
然后,量化增益生成单元906将第二量化自适应声源增益输出到乘法器908和编码信息操作单元911,并将第二量化固定声源增益输出到乘法器909和编码信息操作单元911。输出到编码信息操作单元911的第二量化自适应声源增益和第二量化固定声源增益在下一个帧的解码处理时被用作前面帧第二量化自适应声源增益和前面帧第二量化固定声源增益。
固定声源代码本907从编码信息操作单元911输入帧丢失信息。固定声源代码本907在帧丢失信息为“2”或“3”时,从复用分离单元901输入第二固定声源向量代码(F2),并生成第一固定声源向量代码(F2)指定的第二固定声源向量。固定声源代码本907在帧丢失信息为“0”或“1”时,从编码信息操作单元911输入前面帧第二固定声源向量,并将此作为第二固定声源向量。然后,固定声源代码本907将第二固定声源向量输出到乘法器909和编码信息操作单元911。输出到编码信息操作单元911的第二固定声源向量在下一个帧的解码处理时被用作前面帧第二固定声源向量。
乘法器908对第二自适应声源向量乘以第二量化自适应声源增益,并输出到加法器910。乘法器909对第二固定声源向量乘以第二量化固定声源增益,并输出到加法器910。
加法器910对从乘法器908和909输出的、已乘以增益后的第二自适应声源向量和第二固定声源向量进行相加,生成驱动声源,并将驱动声源输出到合成滤波器903和自适应声源代码本905。
合成滤波器903使用从加法器910输出的驱动声源和由LSP解码单元902解码的滤波系数来进行滤波合成,将合成信号输出到后处理单元904。
后处理单元904对从合成滤波器903输出的合成信号进行共振峰增强和音调增强之类的改善语音主观质量的处理以及改善静态噪声的主观质量的处理等,作为第二解码信号输出。
编码信息操作单元911在内部设有存储各种参数的缓冲器,在缓冲器中存储了在前面帧求出的量化残差LSP(前面帧量化残差LSP)、在前面帧求出的第二自适应声源延迟(前面帧第二自适应声源延迟)、在前面帧求出的第二量化自适应声源增益(前面帧第二量化自适应声源增益)、在前面帧求出的第二量化固定声源增益(前面帧第二量化固定声源增益)以及在前面帧求出的第二固定声源向量(前面帧第二固定声源向量)。
编码信息操作单元911从帧丢失检测单元152输入帧丢失信息。编码信息操作单元911在帧丢失信息为“1”或“3”时,从第一解码单元153输入第一量化LSP、第一自适应声源延迟、第一量化自适应声源增益以及第一量化固定声源增益。编码信息操作单元911在帧丢失信息为“0”或“2”时,从第一解码单元153输入前面帧第一量化LSP和前面帧第一自适应声源延迟。然后,编码信息操作单元911将帧丢失信息输出到LSP解码单元902、自适应声源代码本905、量化增益生成单元906以及固定声源代码本907。编码信息操作单元911在帧丢失信息为“0”时,将前面帧第一量化LSP和前面帧量化残差LSP输出到LSP解码单元902,将前面帧第一自适应声源延迟和前面帧第二自适应声源延迟输出到自适应声源代码本905,将前面帧第二量化自适应声源增益和前面帧第二量化固定声源增益输出到量化增益生成单元906,并将前面帧第二固定声源向量输出到固定声源代码本907。编码信息操作单元911在帧丢失信息为“1”时,将第一量化LSP和前面帧量化残差LSP输出到LSP解码单元902,将第一自适应声源延迟和前面帧第二自适应声源延迟输出到自适应声源代码本905,将第一量化自适应声源增益、第一量化固定声源增益、前面帧第二量化自适应声源增益以及前面帧第二量化固定声源增益输出到量化增益生成单元906,并将前面帧第二固定声源向量输出到固定声源代码本907。编码信息操作单元911在帧丢失信息为“2”时,将前面帧第一量化LSP输出到LSP解码单元902,并将前面帧第一自适应声源延迟输出到自适应声源代码本905。编码信息操作单元911在帧丢失信息为“3”时,将第一量化LSP输出到LSP解码单元902,并将第一自适应声源延迟输出到自适应声源代码本905。
接着,编码信息操作单元911从LSP解码单元902输入已用于当前帧的解码处理的量化残差LSP,从自适应声源代码本905输入已用于当前帧的解码处理的第二自适应声源延迟,从量化增益生成单元906输入已用于当前帧的解码处理的第二量化自适应声源增益和第二量化固定声源增益,并从固定声源代码本907输入已用于当前帧的解码处理的第二固定声源向量。另外,编码信息操作单元911在帧丢失信息为“2”时,将量化残差LSP、第二自适应声源延迟、第二量化自适应声源增益以及第二量化固定声源增益输出到第一解码单元153。
编码信息操作单元911在上述处理结束后,使已用于当前帧的解码处理的量化残差LSP作为前面帧量化残差LSP、第二自适应声源延迟作为前面帧第二自适应声源延迟、第二量化自适应声源增益作为前面帧第二量化自适应声源增益、第二量化固定声源增益作为前面帧第二量化固定声源增益、第二固定声源向量作为前面帧第二固定声源向量存储到缓冲器,进行缓冲器的更新。
由此,在第一解码单元153和第二解码单元154中,通过基于帧丢失信息,从第一编码信息、第二编码信息、前面帧第一编码信息以及前面帧第二编码信息中适宜地选择用于解码的参数,能够进行适合于编码信息的丢失状态的解码,从而能够获得质量良好的解码信号。
接着,使用图10表示的方框图说明编码信息操作单元811的内部结构。帧丢失信息分配单元1001从帧丢失检测单元152输入帧丢失信息,并将此输出到第一编码信息分配单元1002、编码信息存储单元1003、第二编码信息分配单元1004、LSP解码单元802、自适应声源代码本805、量化增益生成单元806以及固定声源代码本807。
第一编码信息分配单元1002从帧丢失信息分配单元1001输入帧丢失信息。接着,第一编码信息分配单元1002从LSP解码单元802输入第一量化LSP,从自适应声源代码本805输入第一自适应声源延迟,从量化增益生成单元806输入第一量化自适应声源增益和第一量化固定声源增益,并从固定声源代码本807输入第一固定声源向量。然后,第一编码信息分配单元1002将第一量化LSP、第一自适应声源延迟、第一固定声源向量、第一量化自适应声源增益以及第一量化固定声源增益输出到编码信息存储单元1003。接着,第一编码信息分配单元1002在帧丢失信息为“1”或“3”时,将第一量化LSP、第一自适应声源延迟、第一固定声源向量、第一量化自适应声源增益以及第一量化固定声源增益输出到第二解码单元154。
编码信息存储单元1003从帧丢失信息分配单元1001输入帧丢失信息。并且,编码信息存储单元1003在内部设有对前面帧的第一量化LSP、第一自适应声源延迟、第一固定声源向量、第一量化自适应声源增益以及第一量化固定声源增益进行存储的缓冲器。编码信息存储单元1003在帧丢失信息为“0”或“2”时,将前面帧第一量化LSP输出到LSP解码单元802,将前面帧第一自适应声源延迟输出到自适应声源代码本805,将前面帧第一固定声源向量输出到固定声源代码本807,并将前面帧第一量化自适应声源增益和前面帧第一量化固定声源增益输出到量化增益生成单元806。编码信息存储单元1003在帧丢失信息为“0”或“2”时,将前面帧第一量化LSP和前面帧第一自适应声源延迟输出到第二解码单元154。然后,编码信息存储单元1003从第一编码信息分配单元1002输入第一量化LSP、第一自适应声源延迟、第一固定声源向量、第一量化自适应声源增益以及第一量化固定声源增益。接着,编码信息存储单元1003通过将第一量化LSP、第一自适应声源延迟、第一固定声源向量、第一量化自适应声源增益以及第一量化固定声源增益存储到缓冲器,来对缓冲器进行更新。存储的第一量化LSP、第一自适应声源延迟、第一固定声源向量、第一量化自适应声源增益以及第一量化固定声源增益在下一个帧中被用作前面帧第一量化LSP、前面帧第一自适应声源延迟、前面帧第一固定声源向量、前面帧第一量化自适应声源增益以及前面帧第一量化固定声源增益。
第二编码信息分配单元1004从帧丢失信息分配单元1001输入帧丢失信息。然后,第二编码信息分配单元1004在帧丢失信息为“2”时,从第二解码单元154输入量化残差LSP、第二自适应声源延迟、第二量化自适应声源增益以及第二量化固定声源增益。接着,第二编码信息分配单元1004在帧丢失信息为“2”时,将量化残差LSP输出到LSP解码单元802,将第二自适应声源延迟输出到自适应声源代码本805,将第二量化自适应声源增益和第二量化固定声源增益输出到量化增益生成单元806。
接着,使用图11表示的方框图说明编码信息操作单元911的内部结构。帧丢失信息分配单元1101从帧丢失检测单元152输入帧丢失信息,并将此输出到第一编码信息分配单元1102、编码信息存储单元1103、第二编码信息分配单元1104、LSP解码单元902、自适应声源代码本905、量化增益生成单元906以及固定声源代码本907。
第一编码信息分配单元1102从帧丢失信息分配单元1101输入帧丢失信息。然后,第二编码信息分配单元1102在帧丢失信息为“1”或“3”时,从第一解码单元153输入第一量化LSP、第二自适应声源延迟、第一量化自适应声源增益以及第一量化固定声源增益。并且,第一编码信息分配单元1102在帧丢失信息为“0”或“2”时,从第一解码单元153输入前面帧第一量化LSP和前面帧第一自适应声源延迟。然后,第一编码信息分配单元1102在帧丢失信息为“1”或“3”时,将第一量化LSP输出到LSP解码单元902,并将第一自适应声源延迟输出到自适应声源代码本905。并且,第一编码信息分配单元1102在帧丢失信息为“1”时,将第一量化自适应声源增益和第一量化固定声源增益输出到量化增益生成单元906。另外,第一编码信息分配单元1102在帧丢失信息为“0”或“2”时,将前面帧第一量化LSP输出到LSP解码单元902,并将前面帧第一自适应声源延迟输出到自适应声源代码本905。
第二编码信息分配单元1104从帧丢失信息分配单元1101输入帧丢失信息。然后,第二编码信息分配单元1104从LSP解码单元902输入量化残差LSP,从自适应声源代码本905输入第二自适应声源延迟,从量化增益生成单元906输入第二量化自适应声源增益和第一量化固定声源增益,并从固定声源代码本907输入第二固定声源向量。接着,第二编码信息分配单元1104将量化残差LSP、第二自适应声源延迟、第二固定声源向量、第二量化自适应声源增益以及第二量化固定声源增益输出到编码信息存储单元1103。然后,第二编码信息分配单元1104在帧丢失信息为“2”时,将量化残差LSP、第二自适应声源延迟、第二量化自适应声源增益以及第二量化固定声源增益输出到第一解码单元153。
编码信息存储单元1103从帧丢失信息分配单元1101输入帧丢失信息。并且,编码信息存储单元1103在内部设有对前面帧的量化残差LSP、第二自适应声源延迟、第二固定声源向量、第二量化自适应声源增益以及第二量化固定声源增益进行存储的缓冲器。然后,编码信息存储单元1103在帧丢失信息为“0”或“1”时,将前面帧量化残差LSP输出到LSP解码单元902,将前面帧第二自适应声源延迟输出到自适应声源代码本905,将前面帧第二固定声源向量输出到固定声源代码本907,并将前面帧第二量化自适应声源增益和前面帧第二量化固定声源增益输出到量化增益生成单元906。接着,编码信息存储单元1103从第二编码信息分配单元1104输入量化残差LSP、第二自适应声源延迟、第二固定声源向量、第二量化自适应声源增益以及第二量化固定声源增益。接着,编码信息存储单元1103通过将量化残差LSP、第二自适应声源延迟、第二固定声源向量、第二量化自适应声源增益以及第二量化固定声源增益存储到缓冲器,来对缓冲器进行更新。存储的量化残差LSP、第二自适应声源延迟、第二固定声源向量、第二量化自适应声源增益以及第二量化固定声源增益在下一个帧中被用作前面帧量化LSP残差、前面帧第二自适应声源延迟、前面帧第二固定声源向量、前面帧第二量化自适应声源增益以及前面帧第二量化固定声源增益。
图12是表示帧丢失信息以及第一解码单元153和第二解码单元154基于帧丢失信息在解码使用的参数的种类的图。并且,将帧丢失信息及与此对应的第一编码信息的状态和第二编码信息的状态一起示出。另外,在图12中,“lsp”表示第一量化LSP、“p_lsp”表示前面帧第一量化LSP、“lag”表示第一自适应声源延迟、“p_lag”表示前面帧第一自适应声源延迟、“sc”表示第一固定声源向量、“p_sc”表示前面帧第一固定声源向量、“ga”表示第一量化自适应声源增益、“p_ga”表示前面帧第一量化自适应声源增益、“gs”表示第一量化固定声源增益、“p_gs”表示前面帧第一量化固定声源增益、“d_lsp”表示量化残差LSP、“p_d_lsp”表示前面帧量化残差LSP、“d_lag”表示第二自适应声源延迟、“p_d_lag”前面帧第二自适应声源延迟、“e_sc”表示第二固定声源向量、“p_e_sc”表示前面帧第二固定声源向量、“e_ga”表示第二量化自适应声源增益、“p_e_ga”表示前面帧第二量化自适应声源增益、“e_gs”表示第二量化固定声源增益、“p_e_gs”表示前面帧第二量化固定声源增益。
并且,在图12中,“正常接收”表示编码信息被正常接收的状态,“丢失”表示没有被正常接收(丢失)的状态。
帧丢失信息为“3”时,由于第一编码信息和第二编码信息都被正常接收,第一解码单元153和第二解码单元154使用接收到的第一编码信息和第二编码信息进行解码。换言之,进行不考虑帧丢失的一般解码。
帧丢失信息为“2”时,由于第一编码信息没有被正常接收,第一解码单元153和第二解码单元154使用前面帧的第一编码信息以取代第一编码信息来进行解码。并且,第一解码单元153通过除了前面帧的第一编码信息之外,还使用第二编码信息来进行解码,由此实现解码信息的质量提升。
帧丢失信息为“1”时,由于第二编码信息没有被正常接收,第二解码单元154使用前面帧的第二编码信息以取代第二编码信息来进行解码。
帧丢失信息为“0”时,由于第一编码信息和第二编码信息都没有被正常接收,第一解码单元153和第二解码单元154使用前面帧的第一编码信息和前面帧第二编码信息以取代第一编码信息和第二编码信息来进行解码。
图13是从视觉上说明在第一编码信息没有被正常接收的情况,第一解码单元153除了前面帧第一编码信息之外还使用第二编码信息来进行解码,由此实现解码信号的质量提升的图。
这里,以第一解码单元153的LSP解码单元802求出第一量化LSP的情况为例进行说明。并且,为简化说明,假设第一量化LSP为二维向量。
在图13中,参考标号1300是示意性地表示第一量化LSP、量化残差LSP以及第一LSP的图。这里,“×”表示第一LSP,较长的箭头表示第一量化LSP,较短的箭头表示量化残差LSP。第一量化LSP包含在第一编码信息,量化残差LSP包含在第二编码信息。
另外,参考标号1301是示意性地表示第一量化LSP、前面帧第一量化LSP以及第一LSP的图。这里,“×”表示第一LSP,虚线的箭头表示第一量化LSP,实线的箭头表示前面帧第一量化LSP。换言之,这表示第一编码信息(第一量化LSP)没有被正常接收,LSP解码单元802仅使用前面帧第一量化LSP求出第一量化LSP(使前面帧第一量化LSP作为第一量化LSP)的情况。
另外,参考标号1302是示意性地表示第一量化LSP、前面帧第一量化LSP、量化残差LSP以及第一LSP的图。这里,“×”表示第一LSP,虚线箭头表示第一量化LSP,较长的实线箭头表示前面帧第一量化LSP,较短的实线箭头表示量化残差LSP。换言之,第一编码信息(第一量化LSP)没有被正常接收,LSP解码单元802将前面帧第一量化LSP和量化残差LSP相加,将相加的结果作为第一量化LSP的情况。
在第一量化LSP和前面帧第一量化LSP之间的相关高且误差小的情况,与仅使用前面帧第一量化LSP的方法(1301)相比,使用前面帧第一量化LSP和量化残差LSP的方法(1302)求出的第一量化LSP较接近第一LSP(“×”)。
然而,在第一量化LSP和前面帧第一量化LSP之间的相关低且误差大的情况,使用前面帧第一量化LSP和量化残差LSP的方法所求出的第一量化LSP不一定较接近第一LSP(“×”)(1303)。因此,关于仅使用前面帧第一量化LSP的方法和使用前面帧第一量化LSP和量化残差LSP的方法的两种方法,进行实际地以帧为单位求出第一量化LSP并进行比较,看哪一个方法的第一量化LSP较接近第一LSP,并以帧为单位输出的实验。使用8秒左右的语音信号的8个样本进行实验的结果,获得了关于所有8个样本,后者的方法的接近第一LSP的帧数较多的结果。并且,可得知上述倾向尤其在有声区间表示得更为明显。
另外,本实施方式虽然以编码装置100具有两个编码单元的情况为例进行了说明,但编码单元的数量不限于此,可以是三个以上。
并且,本实施方式虽然以解码装置150具有两个解码单元的情况为例进行了说明,但解码单元的数量不限于此,可以是三个以上。
另外,在本实施方式中说明了下述情况,即,帧丢失信息为“0”时,第一解码单元153仅使用前面帧的第一编码信息进行解码,但本发明也能够适用于第一解码单元153除了前面帧的第一编码信息之外,还使用前面帧的第二编码信息进行解码的情况,并且能够获得与本实施方式相同的作用效果。此时,能够以与帧丢失信息为“2”时的第一解码单元153的解码方法相同的方法求出第一解码信号。
并且,在本实施方式中虽然对下述情况进行了说明,即,使用标记信息来指示是否将第二编码信息包含在第一解码单元153用于解码的编码信息,但本发明也能够适用于不使用标记信息,而一定将第二编码信息包含在第一解码单元153用于解码的编码信息的情况,并且能够获得与本实施方式相同的作用效果。
另外,在本实施方式中对下述情况进行了说明,即,第一解码单元153和第二解码单元154将前面帧的编码信息直接用作当前帧的编码信息并生成解码信号,但也可以对前面帧的编码信息乘以某个一定的衰减率来求出驱动声源,使在当前帧生成的驱动声源与在前面帧生成的驱动声源相比变得稍微衰减,由此来生成解码信号。例如,帧丢失信息为“2”时,量化增益生成单元806对求出的第一量化自适应声源增益(第一量化固定声源增益)乘以某个一定的衰减率(例如,0.9),使乘法运算结果作为第一量化自适应声源增益(第一量化固定声源增益)输出,由此能够使在当前帧生成的驱动声源衰减。
并且,在本实施方式中说明了下述情况,即,在帧丢失信息为“2”时,量化增益生成单元806将前面帧第一量化自适应声源增益(前面帧第一量化固定声源增益)和第二量化自适应声源增益(第二量化固定声源增益)相加,使对相加结果乘以0.5的乘法运算结果作为第一量化自适应声源增益(第一量化固定声源增益),但也可以以某个一定的比例将前面帧第一量化自适应声源增益(前面帧第一量化固定声源增益)和第二量化自适应声源增益(第二量化固定声源增益)相加,来求出第一量化自适应声源增益(第一量化固定声源增益)。例如,通过式(7)能够求出第一量化自适应声源增益(第一量化固定声源增益)b_gain。
b_gain=p_gain×β+e_gain×(1-β)    …(7)
这里,p_gain表示前面帧第一量化自适应声源增益(前面帧第一量化固定声源增益),e_gain表示第二量化自适应声源增益(第二量化固定声源增益),β取0到1的任一个值。并且,β的值可以任意设定。
并且,在本实施方式中说明了下述情况,即,在帧丢失信息为“1”时,量化增益生成单元906将第一量化自适应声源增益(前面帧第一量化固定声源增益)和前面帧第二量化自适应声源增益(前面帧第二量化固定声源增益)相加,使对相加结果乘以0.5的乘法运算结果作为第二量化自适应声源增益(第二量化固定声源增益),但也可以使用与上述相同的方法来求出第二量化自适应声源增益(第二量化固定声源增益)。
另外,在本实施方式中,虽然以使用十进数作为帧丢失信息的情况为例进行了说明,但本发明也能够适用于使用二进数作为帧丢失信息的情况,并能够获得与本实施方式相同的作用效果。例如,在使用二进数表现两个编码信息(第一~二编码信息)的状态时,通过以“1”表示被正常接收的状态,以“0”表示没有被正常接收的状态,能够以两位的二进数(“00”~“11”)来表现帧丢失信息。
再有,在本实施方式中,说明了固定声源代码本208生成的固定声源向量是通过脉冲形成的情况,但本发明也能够适用于形成固定声源向量的脉冲为扩频脉冲的情况,并且能够获得与本实施方式相同的作用效果。
另外,在本实施方式中虽然说明了编码单元/解码单元为CELP型的语音/音频编码/解码方法的情况,但本发明也能够适用于编码单元/解码单元为CELP型以外的语音/音频编码/解码方法(例如,脉冲代码调制、预测编码、向量量化、声码器(vocoder))的情况,并且能够获得与本实施方式相同的作用效果。再有,本发明也能够适用于语音/音频编码/解码方法在各个编码单元/解码单元不同的语音/音频编码/解码方法的情况,并且能够获得与本实施方式相同的作用效果。
(实施方式2)
图14(a)是包含上述实施方式1说明的编码装置的本发明实施方式2的语音/音频发送装置的结构方框图。
语音/音频信号1401由输入装置1402变换成电信号,被输出到A/D变换装置1403。A/D变换装置1403将从输入装置1402输出的(模拟)信号变换为数字信号,并输出到语音/音频编码装置1404。语音/音频编码装置1404搭载图1所示的编码装置100,对从A/D变换装置1403输出的数字语音/音频信号进行编码,将编码信息输出到RF调制装置1405。RF调制装置1405将从语音/音频编码装置1404输出的编码信息变换成用于载入电波等传播介质进行发送的信号,并输出到发送天线1406。发送天线1406将从RF调制装置1405输出的输出信号作为电波(RF信号)发送。另外,图中的RF信号1407表示从发送天线1406发送的电波(RF信号)。
以上为语音/音频信号发送装置的结构以及动作。
图14(b)是包含上述实施方式1说明的解码装置的本发明实施方式2的语音/音频接收装置的结构方框图。
RF信号1408被接收天线1409接收后被输出到RF解调装置1410。另外,图中的RF信号1408表示由接收天线1409接收的电波,在传播路径上如果没有信号的衰减或噪声的重叠,则与RF信号1407完全相同。
RF解调装置1410根据从接收天线1409输出的RF信号对编码信息进行解调,并输出到语音/音频解码装置1411。语音/音频解码装置1411搭载图1所示的解码装置150,从RF解调装置1410输出的编码信息解调语音/音频信号,并输出到D/A变换装置1412。D/A变换装置1412将从语音/音频解码装置1411输出的数字语音/音频信号变换为模拟的电信号,并输出到输出装置1413。输出装置1413将电信号变换成空气的振动输出,以便作为声波使人耳能听到。并且,在图中,参考标号1414表示被输出的声波。
以上为语音/音频信号接收装置的结构以及动作。
在无线通信系统中的基站装置以及通信终端装置上,通过具备上述的语音/音频信号发送装置以及语音/音频信号接收装置,能够得到高质量的输出信号。
这样,根据本实施方式,能够将本发明中的编码装置以及解码装置实际安装在语音/音频信号发送装置以及语音/音频信号接收装置。
本发明中的编码装置以及解码装置不限于上述的实施方式1~2,能够实施各种变更。
本发明中的编码装置以及语音解码装置也能搭载于移动通信系统中的移动终端装置和基站装置,由此,能够提供具有与上述同样的作用效果的移动终端装置和基站装置。
另外,在这里举例说明了由硬件构成本发明的情况,但是,本发明也能由软件来实现。
本说明书基于2004年5月24日申请的特愿2004-153997。其内容全部包含于此。
工业利用性
本发明的编码装置和解码装置具有即使在失去编码信息的情况下也能够获得质量良好的解码语音信号的效果,作为在将语音/音频信号编码并传输的通信系统中使用的语音/音频编码装置和语音/音频解码方法等特别有用。

Claims (16)

1、一种对通过可扩展编码由多个层构成的编码信息进行解码并生成解码信号的语音/音频解码装置,包括:
帧丢失检测单元,判定接收到的帧的所述各个层的编码信息是否正常,生成作为判定结果的帧丢失信息;以及
与所述层相同数量的解码单元,基于所述帧丢失信息由所述接收到的编码信息和之前接收到的多个编码信息决定用于各个层的解码的编码信息,并使用决定的编码信息进行解码来生成解码信号。
2、如权利要求1所述的语音/音频解码装置,其中,
所述第i层(i为2以上的整数)的解码单元在第i层中检测到帧丢失时,从接收到的第(i+1)层之后的编码信息和前面帧的第i层编码信息中选择至少一个以上的编码信息,使用选择的编码信息进行解码,由此生成解码信号。
3、如权利要求1所述的语音/音频解码装置,其中,
所述第1层的解码单元在第1层的编码信息没有被正常接收时,从第2层的编码信息和前面帧的第1层编码信息中选择至少一个以上的编码信息,使用选择的编码信息进行解码,由此生成解码信号。
4、如权利要求1所述的语音/音频解码装置,其中,帧丢失信息由数值表现编码信息的接收状态。
5、如权利要求1所述的语音/音频解码装置,其中,帧丢失信息由二进数表现编码信息的接收状态。
6、如权利要求1所述的语音/音频解码装置,其中,至少一个解码单元通过CELP型的语音/音频解码方法进行解码。
7、如权利要求6所述的语音/音频解码装置,其中,
CELP型的解码单元包括:
LSP解码单元,解码量化LSP代码并生成量化LSP;
自适应声源向量生成单元,解码自适应声源延迟代码并生成自适应声源向量;
固定声源向量生成单元,解码固定声源向量代码并生成固定声源向量;
量化声源增益生成单元,解码量化声源增益代码,并生成量化自适应声源增益和量化固定声源增益;以及
编码信息操作单元,在第i层的编码信息没有被正常接收时,从包含在第(i+1)层之后的编码信息和前面帧的第i层的编码信息的多个量化LSP代码中选择至少一个以上的量化LSP代码,
所述LSP解码单元使用在所述编码信息操作单元选择的量化LSP代码进行解码,并生成量化LSP。
8、如权利要求7所述的语音/音频解码装置,其中,
所述LSP解码单元将通过对所述编码信息操作单元选择的量化LSP代码进行解码而获得的所有量化LSP相加,并将相加结果作为量化LSP。
9、如权利要求7所述的语音/音频解码装置,其中,
所述编码信息操作单元在第i层的编码信息没有被正常接收时,从包含在第(i+1)层之后的编码信息和前面帧的第i层的编码信息的多个自适应声源延迟代码中选择至少一个以上的自适应声源延迟代码,
所述自适应声源向量生成单元使用在所述编码信息操作单元选择的自适应声源延迟代码进行解码,并生成自适应声源向量。
10、如权利要求7所述的语音/音频解码装置,其中,
所述自适应声源向量生成单元将通过对所述编码信息操作单元选择的自适应声源延迟代码进行解码而获得的所有自适应声源延迟相加,并使用相加结果生成自适应声源向量。
11、如权利要求7所述的语音/音频解码装置,其中,
所述编码信息操作单元在第i层的编码信息没有被正常接收时,从包含在第(i+1)层之后的编码信息和前面帧的第i层的编码信息的多个量化声源增益代码中选择至少一个以上的量化声源增益代码,
所述量化声源增益生成单元使用选择的量化声源增益代码进行解码,并生成量化自适应声源增益和量化固定声源增益。
12、如权利要求7所述的语音/音频解码装置,其中,
所述量化声源增益生成单元以某个一定的比例,将通过对所述编码信息操作单元选择的量化自适应声源增益代码进行解码而获得的所有量化自适应声源增益相加,并使相加结果作为量化自适应声源增益,并且以某个一定的比例将所有的量化固定声源增益相加,使相加结果作为量化固定声源。
13、一种语音/音频信号接收装置,具备如权利要求1所述的语音/音频解码装置。
14、一种基站装置,具备如权利要求13所述的语音/音频信号接收装置。
15、一种通信终端装置,具备如权利要求13所述的语音/音频信号接收装置。
16、一种对通过可扩展编码由多个层构成的编码信息进行解码并生成解码信号的语音/音频解码方法,包括:
帧丢失检测步骤,判定接收到的帧的所述各个层的编码信息是否正常,生成作为判定结果的帧丢失信息;以及
与所述层相同数量的解码步骤,基于所述帧丢失信息由所述接收到的编码信息和之前接收到的多个编码信息决定用于各个层的解码的编码信息,并使用决定的编码信息进行解码来生成解码信号。
CN2005800168247A 2004-05-24 2005-05-13 语音/音频解码装置以及语音/音频解码方法 Expired - Fee Related CN1957399B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004153997A JP4445328B2 (ja) 2004-05-24 2004-05-24 音声・楽音復号化装置および音声・楽音復号化方法
JP153997/2004 2004-05-24
PCT/JP2005/008774 WO2005114655A1 (ja) 2004-05-24 2005-05-13 音声・楽音復号化装置および音声・楽音復号化方法

Publications (2)

Publication Number Publication Date
CN1957399A true CN1957399A (zh) 2007-05-02
CN1957399B CN1957399B (zh) 2011-06-15

Family

ID=35428593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800168247A Expired - Fee Related CN1957399B (zh) 2004-05-24 2005-05-13 语音/音频解码装置以及语音/音频解码方法

Country Status (8)

Country Link
US (1) US8255210B2 (zh)
EP (1) EP1750254B1 (zh)
JP (1) JP4445328B2 (zh)
KR (1) KR20070028373A (zh)
CN (1) CN1957399B (zh)
CA (1) CA2567788A1 (zh)
DE (1) DE602005026802D1 (zh)
WO (1) WO2005114655A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646647A (zh) * 2013-12-13 2014-03-19 武汉大学 混合音频解码器中帧差错隐藏的谱参数代替方法及系统
CN106575505A (zh) * 2014-07-29 2017-04-19 奥兰吉公司 Fd/lpd转换环境中的帧丢失管理

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0611430A2 (pt) * 2005-05-11 2010-11-23 Matsushita Electric Ind Co Ltd codificador, decodificador e seus métodos
EP1990800B1 (en) 2006-03-17 2016-11-16 Panasonic Intellectual Property Management Co., Ltd. Scalable encoding device and scalable encoding method
JP4551472B2 (ja) * 2006-05-25 2010-09-29 パイオニア株式会社 デジタル音声データ処理装置及び処理方法
WO2008007698A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
JP5289319B2 (ja) * 2006-10-20 2013-09-11 フランス・テレコム 隠蔽フレーム(パケット)を生成するための方法、プログラムおよび装置
KR20090076964A (ko) 2006-11-10 2009-07-13 파나소닉 주식회사 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법
JP4504389B2 (ja) 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP5377287B2 (ja) * 2007-03-02 2013-12-25 パナソニック株式会社 ポストフィルタ、復号装置およびポストフィルタ処理方法
CN100583649C (zh) * 2007-07-23 2010-01-20 华为技术有限公司 矢量编/解码方法、装置及流媒体播放器
JP2009047914A (ja) * 2007-08-20 2009-03-05 Nec Corp 音声復号化装置、音声復号化方法、音声復号化プログラムおよびプログラム記録媒体
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN101588341B (zh) 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN103280222B (zh) * 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
CN112750419B (zh) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN113724716B (zh) * 2021-09-30 2024-02-23 北京达佳互联信息技术有限公司 语音处理方法和语音处理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
EP1071081B1 (en) 1996-11-07 2002-05-08 Matsushita Electric Industrial Co., Ltd. Vector quantization codebook generation method
EP1746583B1 (en) 1997-10-22 2008-09-17 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
WO1999065017A1 (en) 1998-06-09 1999-12-16 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus and speech decoding apparatus
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
JP3628268B2 (ja) * 2001-03-13 2005-03-09 日本電信電話株式会社 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JPWO2006025313A1 (ja) 2004-08-31 2008-05-08 松下電器産業株式会社 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
CN101023470A (zh) 2004-09-17 2007-08-22 松下电器产业株式会社 语音编码装置、语音解码装置、通信装置及语音编码方法
KR100612889B1 (ko) 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646647A (zh) * 2013-12-13 2014-03-19 武汉大学 混合音频解码器中帧差错隐藏的谱参数代替方法及系统
CN103646647B (zh) * 2013-12-13 2016-03-16 武汉大学 混合音频解码器中帧差错隐藏的谱参数代替方法及系统
CN106575505A (zh) * 2014-07-29 2017-04-19 奥兰吉公司 Fd/lpd转换环境中的帧丢失管理
CN106575505B (zh) * 2014-07-29 2021-06-01 奥兰吉公司 Fd/lpd转换环境中的帧丢失管理

Also Published As

Publication number Publication date
EP1750254B1 (en) 2011-03-09
JP4445328B2 (ja) 2010-04-07
US20070271101A1 (en) 2007-11-22
EP1750254A4 (en) 2007-10-03
CA2567788A1 (en) 2005-12-01
EP1750254A1 (en) 2007-02-07
KR20070028373A (ko) 2007-03-12
DE602005026802D1 (de) 2011-04-21
CN1957399B (zh) 2011-06-15
WO2005114655A1 (ja) 2005-12-01
JP2005338200A (ja) 2005-12-08
US8255210B2 (en) 2012-08-28

Similar Documents

Publication Publication Date Title
CN1957399A (zh) 语音/音频解码装置以及语音/音频解码方法
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1172292C (zh) 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备
CN1096148C (zh) 信号编码方法和装置
CN1267891C (zh) 处理丢失帧的语音通信系统及方法
CN1185620C (zh) 声音合成装置和方法以及电话装置
CN1977311A (zh) 语音编码装置、语音解码装置及其方法
CN1220178C (zh) 在码本中进行搜索以对声音信号编码的方法和设备
CN1922660A (zh) 通信装置和信号编码/解码方法
CN1172294C (zh) 音频编码装置、音频编码方法、音频解码装置及音频解码方法
CN1201288C (zh) 解码方法和设备
CN1220179C (zh) 在通信系统中确定速率的装置和方法
CN1689069A (zh) 声音编码设备和声音编码方法
CN1871501A (zh) 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法
CN101048649A (zh) 可扩展解码装置及可扩展编码装置
CN101055721A (zh) 多声道数字音频编码设备及其方法
CN101059957A (zh) 一种语音编码选择性加密方法
CN1291375C (zh) 声信号编码方法和设备、解码方法和设备
CN1151491C (zh) 音频编码装置和音频编码译码装置
CN1435817A (zh) 语音编码转换方法和装置
CN1139912C (zh) 码激励线性预测编码型语音编码装置
CN1437169A (zh) 对于语音代码进行数据嵌入/抽取方法、装置以及系统
CN1483188A (zh) 语音编码方法及其装置
CN1144178C (zh) 音频信号编码装置和译码装置以及音频信号编码和译码方法
CN1135528C (zh) 声音编码装置以及声音解码装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140730

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140730

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170518

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110615

CF01 Termination of patent right due to non-payment of annual fee