CN103988255A - 管理抖动缓存器的方法和使用其的抖动缓存器 - Google Patents

管理抖动缓存器的方法和使用其的抖动缓存器 Download PDF

Info

Publication number
CN103988255A
CN103988255A CN201280061772.5A CN201280061772A CN103988255A CN 103988255 A CN103988255 A CN 103988255A CN 201280061772 A CN201280061772 A CN 201280061772A CN 103988255 A CN103988255 A CN 103988255A
Authority
CN
China
Prior art keywords
subframe
frame
decoding parametric
compensation
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280061772.5A
Other languages
English (en)
Other versions
CN103988255B (zh
Inventor
姜仁圭
李英汉
郑奎赫
田惠晶
金洛榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN103988255A publication Critical patent/CN103988255A/zh
Application granted granted Critical
Publication of CN103988255B publication Critical patent/CN103988255B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)

Abstract

本发明涉及管理抖动缓存器的方法和使用其的抖动缓存器。管理抖动缓存器的方法包括步骤:接收音频信息帧;和基于接收的音频信息帧调整抖动缓存器,其中调整抖动缓存器的步骤包括音频信号的补偿,并且音频信号的补偿可以对于音频信息帧的每个子帧执行。

Description

管理抖动缓存器的方法和使用其的抖动缓存器
技术领域
本发明涉及处理音频信号的技术,尤其是,涉及管理/控制用于解码的接收端的抖动缓存器的方法,和使用该方法的抖动缓存器。
背景技术
通常,音频信号包括各种频带的信号。人类可听得到的频率是在20Hz至20kHz的范围之内,而通常的人类语音是在等于或者小于大约4kHz的频带中。
可能存在输入音频信号包括其中人类语音很难存在的大于或等于7kHz的高频带分量,以及人类语音存在的带的情形。
因而,如果适用于窄带(例如,~4kHz)的编译方案被应用于宽带(大约~8kHz)或者超宽带(大约~16kHz)信号,由于没有编码的带导致存在声音质量劣化的问题。
近来,随着对视频电话、电视会议等等需求的增加,存在对通过其将音频信号,即话音信号,恢复为接近于真实的语音的编码/解码技术增长的兴趣。更具体地说,存在有关通过其编码带被扩展的编码/解码技术的增长的兴趣,并且此外,在用于发送语音信息的网络中,感兴趣区域从电路交换网方案转移到分组交换网络方案。
在这种情况下,在发送通过使用编码而分组化的音频信号的过程中,由于有关网络的问题,可能发生延迟。在传输过程中出现的延迟导致在输出端的输出延迟或者声音质量劣化。
因此,需要考虑一种在接收端中使用以解决音频信号延迟或者在传输过程中出现的损失问题的方法。
发明内容
技术问题
本发明提供用于通过在需要抖动缓存控制的时间基于语音分组的重要性赋予权重来执行抖动缓存控制的方法和装置。
本发明还提供在语音信息调整中基于语音分组的重要性为要处理的目标分配优先级的方法和装置。
本发明还提供通过利用分配给静默持续时间的优先级而丢弃或者恢复语音分组,经由抖动缓存器控制避免声音质量劣化以及有助于回放的方法和装置。
本发明还提供了考虑到与当静默持续时间被处理时处理静默持续时间的情形相比施加在声音质量上的影响显然更小的事实,通过压缩音频信号,在静默持续时间优先地丢弃/恢复语音分组,或者执行抖动缓存管理的方法和装置。
本发明还提供了方法和装置,其中,当基于重要性确定时,如果具有较高优先级的语音分组(例如,具有低重要性的语音分组)不存在,则抖动缓存控制请求被存储在事件堆栈中,并且基于时间戳的序列号以重排顺序被发送给回放端。
技术解决方案
根据本发明的一个方面,提供了一种管理抖动缓存器的方法。该方法包括:接收语音信息帧;和基于接收的语音信息帧执行抖动缓存器调整,其中抖动缓存器调整包括补偿音频信号。
此外,对于音频信号的补偿可以以语音信息帧的子帧为单位执行。
此外,对于音频信号的补偿可以在音频信号的解码参数级别上执行。
此外,对于音频信号的补偿可以基于音频信号帧的重要性执行。在此处,音频信号可以以重要性的升序变为音频信号补偿的目标,并且音频信号帧可以在连续的静默持续时间中具有最低的重要性。
此外,如果执行帧抽取作为对于音频信号补偿,则子帧的新的解码参数可以通过对用于构成音频信号帧的两个子帧的解码参数内插来产生。
此外,如果执行帧抽取作为对于音频信号补偿,则新的子帧的解码参数可以通过对用于构成音频信号帧的两个子帧的解码参数内插来产生。
此外,如果执行帧抽取作为对于音频信号补偿,可以执行子帧内插,并且子帧内插可以包括:在构成音频信号帧的两个子帧之间产生新的子帧,和通过对用于两个子帧的解码参数内插产生新的子帧的解码参数。
根据本发明的另一个方面,提供了一种抖动缓存器,包括:用于接收语音信息帧的接收机;用于存储和管理语音信息帧的缓存器;和用于输出语音信息帧的输出单元,其中缓存器以接收的语音信息帧的子帧为单位补偿语音信息。
此外,该缓存器可以在解码参数级别上补偿语音信息。
此外,该缓存器可以通过堆两个不同的子帧的解码参数内插产生新的解码参数。
有益效果
根据本发明,在需要抖动缓存控制时,通过基于语音分组的重要性赋予权重可以改善性能。例如,用于要处理的目标的优先级可以基于在语音信息调整中的重要性来确定。
根据本发明,在抖动缓存器管理中施加在声音质量上的影响可以通过基于特定准则的重要性执行抖动缓存管理而减小。
根据本发明,通过利用分配给静默持续时间的优先级丢弃或者恢复语音分组,经由抖动缓存管理,声音质量劣化可以减小,并且此外,可以有助于回放。
根据本发明,考虑到与当处理静默持续时间的时候处理静默持续时间的情形相比施加在声音质量上的影响显著更小的事实,抖动缓存管理可以通过优先地丢弃/恢复静默持续时间的语音分组而变得更加有效。
根据本发明,可以通过基于在抖动缓存器中分组的重要性对分组的丢弃/恢复和/或音频信号的压缩/扩展赋予优先级,提供更少受到抖动缓存管理影响的高质量语音服务。
根据本发明,当基于重要性确定的时候,如果具有较高优先级的语音分组(例如,具有低重要性的语音分组)不存在,则抖动缓存控制请求可以被存储在事件堆栈中,并且可以基于时间戳的序列号以重排顺序被发送给回放端。
附图说明
图1是示出典型的音频编码器的示例性结构的方框图。
图2是示出典型的音频解码器的示例性结构的方框图。
图3是示出抖动缓存器的示例性结构的方框图。
图4是示出典型抖动缓存器的示例性实施例的示意图。
图5是示出不使用抖动缓存器的示例的示意图。
图6是示出抖动缓存器管理的示例的示意图。
图7是示出需要抖动缓存控制的示例的示意图。
图8是示出当在抖动缓存器中补偿语音信息的时候,在抖动缓存器中确定语音帧重要性的示例性方法的示意图。
图9是示出包括语音帧补偿的示例性抖动缓存器管理方法的流程图。
图10是示出示例性抖动缓存器调整方法的流程图。
图11是示出在分组接收的情况下示例性抖动缓存器调整方法的流程图。
图12是示出在回放请求的情况下示例性抖动缓存器调整方法的流程图。
图13是示出在比特流级别上执行抖动缓存器管理示例的示意图。
图14是示出在音频信号级别上执行抖动缓存器管理示例的示意图。
图15是示出以语音帧的子帧为单位补偿语音信息示例的示意图。
图16至图22是示出用于在解码参数级别上以子帧为单位补偿语音信息的示例性方法的示意图。
具体实施方式
在下文中将参考伴随的附图详细描述本发明示例性实施例。在本发明示例性实施例的以下的描述中,公知的功能或者结构不详细描述,因为它们将使本发明在不必要的细节方面难以理解。
当第一构成元件如提及“连接”到或者“接入”第二构成元件的时候,这可以指的是其直接连接到或者接入第二构成元件,或者应该理解,其借助于第三构成元件连接到或者接入第二构成元件。
术语“第一”、“第二”等等可用于区别一种技术结构与另一种技术结构。例如,在本发明的技术特征的范围内称作第一构成元件的构成元件也可以称作执行相同功能的第二构成元件。
图1是示出典型的音频编码器的示例性结构的方框图。
参考图1,音频编码器100可以包括带宽确认单元105、采样转换单元125、预处理单元130、带分解单元110、线性预测分析单元115和135、线性预测量化单元140、150和175、变换单元145、反变换单元155和180、基音(pitch)检测单元160、自适应码本搜索单元165、固定码本搜索单元170、模式选择单元185、带预测单元190,和补偿增益预测单元195。
该带宽确认单元105可以确定输入音频信号的带宽信息。音频信号可以根据带宽分类,诸如具有大约4kHz带宽并且主要地在公共电话交换网(PSTN)中使用的窄带信号,具有大约7kHz带宽并且主要地在AM无线电或者比窄带音频信号更加自然的高质量语音中使用的宽带信号,主要地在声音质量是重要的诸如数字广播的扇区中使用的超宽带信号。带宽确认单元105可以将输入音频信号改变为频率域信号以确定是否当前的音频信号的带宽对应于窄带信号或者宽带信号或者超宽带信号。带宽确认单元105可以将输入音频信号转换为频率域信号以确定是否谱的上带二进制数(upper-band bins)存在,和/或可以检查和确定其分量。根据实施例,当输入音频信号的带宽是固定的时候,带宽确认单元105可以不被单独提供。
根据输入音频信号的带宽,带宽确认单元105可以将超宽带信号发送给带分解单元110,并且可以将窄带信号或者宽带信号发送给采样转换单元125。
带分解单元110可以转换输入信号的采样速率,并且可以将其分解为上带和下带。例如,32kHz的音频信号可以被转换为25.6kHz的采样频率,并且可以通过12.8kHz转换为上带和下带。在分解带之中,带分解单元110将下带信号发送给预处理单元130,并且将上带信号发送给线性预测分析单元115。
采样转换单元125可以接收输入窄带信号或者宽带信号,并且可以改变特定的采样速率。例如,如果输入窄带音频信号的采样速率是8kHz,则上带信号可以通过执行上采样至12.8kHz而产生,并且如果输入宽带音频信号是16kHz,则下带信号可以通过执行下采样到12.8kHz而生成。采样转换单元125输出采样转换的下带信号。内部采样频率可以具有除12.8kHz以外的另一个采样频率。
预处理单元130对从采样转换单元125和带分解单元110输出的下带信号执行预处理。预处理单元130对输入信号执行滤波,以便有效地提取音频参数。截止频率可以根据语音带宽不同地设置,并且可以对非常低的频率执行高通滤波,非常低的频率是在其中采集相对次要的信息的频带,从而能够集中在当提取参数的时候需要的重要带上。对于另一个示例,预加重滤波器可用于提升输入信号的高频带,以便低频区域和高频区域的能量可以被缩放。因此,当分析线性预测的时候,可以提高分辨率。
线性预测分析单元115和135可以计算线性预测系数(LPC)。线性预测分析单元115和135可以对共振峰执行建模,共振峰表示音频信号的频谱的整个形状。线性预测分析单元115和135可以计算LPC值以具有表示通过使用原始音频信号与由线性预测分析单元115和135计算的LPC产生的预测音频信号的差值的误差值的最小的均方差(MSE)。LPC可以通过使用各种方法,诸如自动校正方法、协方差方法等等计算。
与用于下带信号的线性预测分析单元135不同,线性预测分析单元115可以提取低阶的LPC。
线性预测量化单元120和140可以转换提取的LPC以产生频率域的变换系数,诸如线性谱对(LSP)或者线性谱频率(LSF),并且可以量化产生的频率域的变换值。由于LPC具有大的动态范围,所以当LPC被直接发送的时候需要许多比特。因此,LPC信息可以通过转换为频率域并且通过量化变换系数来以少量比特(即,压缩量)发送。
线性预测量化单元120和140可以去量化该量化的LPC,并且通过使用转换为时间域的LPC产生线性预测残留信号。线性预测残留信号是从音频信号中除去预测共振峰分量的信号,并且可以包括基音信息和随机信号。
线性预测量化单元120可以使用量化的LPC来通过关于原始上带信号滤波而产生先前的预测残留信号。产生的线性预测残留信号被发送给补偿增益预测单元195以获得关于上带预测激励信号的补偿增益。
线性预测量化单元140使用量化的LPC来通过关于原始下带信号滤波而产生线性预测残留信号。产生的线性预测残留信号被输入给变换单元145和基音检测单元160。
在图1中,变换单元145、量化单元150和反变换单元155可以操作为执行TCX模式的变换码激励(TCX)模式执行单元。此外,基音检测单元160、自适应码本搜索单元165和固定码本搜索单元170可以操作为执行CELP模式的码激励线性预测(CELP)模式执行单元。
变换单元145可以基于变换函数,诸如离散傅里叶变换(DFT)或者快速傅里叶变换(FFT),将输入线性预测残留信号转换到频率域。该变换单元145可以将变换系数信息发送给量化单元150。
量化单元150可以对由变换单元145产生的变换系数执行量化。量化单元150可以通过使用各种方法执行量化。量化单元150可以根据频带有选择地执行量化,并且可以通过使用综合分析(AbS)计算最佳频率组合。
反变换单元155可以基于量化的信息执行反变换,并且可以在时间域中产生线性预测残留信号的恢复的激励信号。
在量化之后反转换的线性预测残留信号,也就是说,恢复的激励信号,经由线性预测被恢复为音频信号。恢复的音频信号被发送给模式选择单元185。这样,以TCX模式恢复的音频信号可以与以CELP模式量化并恢复的音频信号相比较,如下所述。
同时,在CELP模式中,基音检测单元160可以通过使用开环方案,诸如自相关方法,计算用于线性预测残留信号的基音。例如,基音检测单元160可以通过比较合成的音频信号和实际的音频信号计算基音周期、峰值等等。在这种情况下,可以使用AbS等方法等等。
自适应码本搜索单元165基于从基音检测单元计算的基音信息提取自适应码本索引和增益。自适应码本搜索单元165可以通过使用AbS等基于自适应码本索引和增益信息从线性预测残留信号中计算基音结构。自适应码本搜索单元165将其中除去了自适应码本的贡献部分,例如,有关基音结构的信息的线性预测残留信号发送给固定码本搜索单元170。
固定码本搜索单元170可以基于从自适应码本搜索单元165接收的线性预测残留信号提取和编码固定码本索引和增益。在这种情况下,用于从固定码本搜索单元170中提取固定码本索引和增益的线性预测残留信号可以是从其中除去有关基音结构的信息的线性预测残留信号。
量化单元175量化参数,诸如从基音检测单元160输出的基音信息,从自适应码本搜索单元165输出的自适应码本索引和增益,和从固定码本搜索单元170输出的固定码本索引和增益等等。
反变换单元180可以通过使用由量化单元175量化的信息产生激励信号,其是线性预测残留信号。基于该激励信号,通过使用线性预测的反过程可以恢复音频信号。
反变换单元180可以将以CELP模式恢复的音频信号发送给模式选择单元185。
模式选择单元185可以比较经由TCX模式恢复的TCX激励信号,和经由CELP模式恢复的CELP激励信号,并且可以选择更加类似于原始线性预测残留信号的信号。模式选择单元185也可以编码表示经由其恢复选择的激励信号的特定模式的信息。模式选择单元185可以将激励信号和关于恢复的音频信号的选择的选择信息发送给带预测单元190。
带预测单元190可以通过使用恢复的激励信号和从模式选择单元185发送的选择信息产生上带预测激励信号。
补偿增益预测单元195可以比较从带预测单元190发送的上带预测激励信号和从线性预测量化单元120发送的上带预测残留信号,以补偿有关谱的增益。
同时,在图1的示例中,每个构成元件可以操作为单独模块,或者多个构成元件可以通过形成一个模块来操作。例如,量化单元120、140、150和175可以作为一个模块执行相应的操作,并且量化单元120、140、150和175的每个可以作为额外的模块提供在处理器所需要的位置。
图2是示出典型的音频解码器的示例性结构的方框图。
参考图2,音频解码器200可以包括去量化单元205和210、带预测单元220、增益补偿单元225、反变换单元215、线性预测合成单元230和235、采样转换单元240、带合成单元250和后处理滤波单元245和255。
去量化单元205和210从音频编码器接收量化的参数信息,并且将其去量化。
反变换单元215可以通过对以TCX模式或者CELP模式编码的语音信息执行反变换恢复激励信号。反变换单元215可以基于从编码器接收的参数产生恢复的激励信号。在这种情况下,反变换单元215可以仅仅对从音频编码器中选择出来的某些带执行反变换。反变换单元215可以将恢复的激励信号发送给线性预测合成单元235和带预测单元220。
该线性预测合成单元235可以通过使用从反变换单元215发送的激励信号和从音频编码器发送的线性预测系数恢复下带信号。线性预测合成单元235可以将恢复的下带信号发送给采样转换单元240和带合成单元250。
带预测单元220可以基于从反变换单元215接收的恢复的激励信号值产生上带预测激励信号。
增益补偿单元225可以基于从带预测单元220接收的上带预测激励信号和从编码器发送的补偿增益值,关于超宽带音频信号补偿有关谱的增益。
线性预测合成单元230从增益补偿单元225接收补偿的上带预测激励信号值,并且可以基于从音频编码器接收的线性预测系数值和补偿的上带预测激励信号值来恢复上带信号。
带合成单元250可以从线性预测合成单元235接收恢复的下带信号,并且可以从带线性预测合成单元435接收恢复的上带信号,从而能够执行对于接收的上带信号和下带信号的带合成。
采样转换单元240可以将内部采样频率值转换回到原始采样频率值。
后处理滤波单元245和255可以执行信号恢复所需的后处理。例如,后处理滤波单元245和255可以包括能够对在预处理单元中的预加重滤波器执行反滤波的去加重滤波器。后处理滤波单元245和255可以不仅执行滤波,而且可以执行若干后处理操作,例如,将量化误差减到最小,或者消除波谷,同时保持频谱的谐波峰。后处理滤波单元245可以输出恢复的窄带或者宽带信号,并且后处理滤波单元255可以输出恢复的超宽带信号。
如上所述,在图1和图2中图示的音频编码器是在本发明中使用的一个示例,并且可以在本发明的技术特征的范围内不同地应用。
如上所述,编码器从输入音频信号中提取参数,量化该参数,并且作为分组发送该参数。解码器接收从编码器发送的分组,并且基于接收的分组执行用于恢复音频信号的解码。在这种情况下,从音频信号中提取/发送并且然后接收/解码的参数包括激励信号、基音周期和LPC系数。由于很难量化LPC系数,所以可以通过以1:1方式转换为对应于LPC系数的导抗谱对(ISP)系数来发送。
音频信号的共振峰分量可以通过使用线性预测(LP)进行建模。此外,残留信号部分可以通过使用基音搜索进行建模。在基音搜索之后剩余的残留部分可以基于码本通过使用激励信号补偿。
在给定的时间点,音频信号可以通过先前的音频信号的线性组合,也就是说,通过线性预测,来接近,并且在由线性预测产生的信号和原始信号之间的误差可以通过使用激励信号补偿。
在这种情况下,在线性预测中应用于先前的音频采样的增益或者系数被称作线性预测(LP)或者线性预测编译(LPC)系数。如上所述,对于量化,LPC系数可以被转换为ISP系数。通过转换LPC参数(即,LPC系数)获得ISP。例如,ISP系数可以是通过分离具有奇对称的传递函数和具有偶对称的传递函数而获得的多项式的根。
除了ISP系数之外,从LPC系数转换的其它的系数可以在音频信号编码/解码中使用。例如,除了ISP系数之外,可以使用线性谱对(LSP)系数、导抗谱频率(ISF)系数、线性谱频率(LSF)系数等等。
类似于ISP系数,LSP系数可以是通过基于LPC系数利用反向滤波功能构成加法多项式和减法多项式创建的奇对称传递函数和偶对称传递函数的根。
LSP和ISP可以考虑到要获得的根的数目,根据以上构成的多项式的项的数目来区别。例如,当10阶LPC系数被转换的时候可以使用LSP,并且当16阶LPC系数被转换的时候可以使用ISP。
ISF系数和LSF系数是通过将ISP和LSP映射为余弦域而获得的值。
此外,先前的音频信号可以选择用于每个基音周期。基音隐含例如在时间轴中周期地出现的峰值频率,并且具有与音频信号的基本频率相同的频率。基音周期可以基于通过使用用于将误差减到最小的循环搜索(即,AbS)发现的滞后来确定。
激励信号可以被认为是用于补偿在原始音频信号和由线性预测产生的音频信号之间误差的残留信号。激励信号可以通过使用码本指定。
编码器可以通过对其执行量化和编码来发送关于每个帧的LPC系数的信息(例如,用于推导LPC系数的ISP系数),关于基音周期的信息(例如,用于推导基音周期的基音滞后),关于激励信号的信息(例如,用于推导激励信号的码本索引和码本增益)。
解码器可以基于从ISP系数推导出的LPC系数和激励信号以及基音信息恢复音频信号。解码器可以基于在从编码器接收的信息之中的码本索引和增益产生激励信号,并且可以基于基音滞后和增益产生基音周期。解码器可以通过从码本获得基音信息、增益以及位置和符号信息产生激励信号。
作为用于推导基音周期和激励信号的码本,可以使用代数码本或者自适应/固定码本。自适应码本包括适用于每个子帧的激励信号信息(即,激励信号矢量),并且用于基音周期的滞后值可以从自适应码本的索引导出。固定码本包括用于语音合成滤波的激励矢量,并且包括在其中的内容可以具有固定的值。
解码器也可以通过转换ISP系数产生LPC系数。可以通过反向地应用前面提到的用于转换ISP的过程推导出LPC系数。
解码器可以通过合成恢复的信号(例如,LPC系数、基音周期、激励信号等等)恢复音频信号。
在下文中,解码音频信号需要的参数(例如,LPC系数或者ISP系数、基音周期、激励信号等等)在本发明中被称作解码参数。
如下所述,音频信号可以在从解码器解码之后经由抖动缓存器输出给输出/回放设备。此外,音频信号可以经由抖动缓存器在从解码器解码之后输出给音频输出/回放设备。此外,音频信号可以在抖动缓存器和解码器中被并行处理。当音频信号被并行处理的时候,该音频信号可以在抖动缓存器中存储/管理,并且可以在解码器中解码,同时抖动缓存器的存储/管理所需要的信息,和解码器的解码所需要的信息可以在抖动缓存器和解码器之间发送/接收。
图3是示出抖动缓存器的示例性结构的方框图。参考图3,抖动缓存器300可以包括接收器310、缓存器320和输出单元330。
接收器310可以接收音频信号。接收的音频信号可以是语音分组或者语音帧。接收器310可以从编码器接收音频信号,并且可以经由解码器接收音频信号。
缓存器320可以存储和管理音频信号。要存储和管理的音频信号可以是语音分组或者语音帧。
输出单元330可以根据回放时间输出音频信号。要输出的音频信号可以是语音分组或者语音帧。输出单元330可以将缓存在抖动缓存器中的音频信号输出给解码器,并且可以将音频信号输出给回放设备(即,输出设备)。
虽然在此处为了解释方便起见,其描述该抖动缓存器300包括三个部件,但是本发明不受限于此。因此,抖动缓存器本身可以接收、管理/处理和输出音频信号。
抖动缓存器是用于处置与在网络上发生的数据抖动相关问题的缓存器。
抖动暗指可变的网络延迟,这在当通过编码语音信息分组化的语音分组抵达目的地(例如,解码器)的时候发生,并且可以在其上发送分组的网络上产生。例如,抖动可能由于几个原因发生,诸如在用于确定分组优先级的路由器中排队,和/或在LAN之间的冲突。因此,语音分组可能不以特定的间隔抵达,并且抖动缓存器用于解决在这种情况下可能发生的问题。
换句话说,可以说使用抖动缓存器的一个目的是调整要输入的数据的不规律性。
图4是示出典型抖动缓存器的示例性实施例的示意图。抖动缓存器的缓存器具有能够排队5个语音分组大小的情形在图4中示范。
抖动缓存器可以对在缓存器(或者队列)中的语音分组执行排队,并且通过使用语音分组的实时传输协议(RTP)头部信息解释用于产生语音分组的顺序和间隔,并且可以基于该解释在缓存器中顺序地重新排序语音分组。
参考图4,在抖动缓存器中接收的语音分组以序列100的分组(即,时间戳(TS)8000)、序列101的分组(即,TS8160)、序列102的分组(即,TS8320),和序列104的分组(即,TS8640)的顺序安排在缓存器(或者队列)中的情形下,如果序列103的分组410(即,TS8480)被输入,则抖动缓存器通过考虑分组的产生顺序重新排序序列103的分组和序列104的分组的顺序。
在抖动缓存器中的语音分组被以顺序地方式从具有最高优先级的分组420输出。
抖动缓存器抽取或者产生音频信号,并且因此可以解决由延迟接收或者丢失等等所引起的问题。此外,抖动缓存器可以通过考虑待用的音频信号的长度减小或者增大抖动缓存器的大小。
当不使用抖动缓存器的时候,存在很难恒定地保持音频信号的回放时间的问题。
图5是示出不使用抖动缓存器的示例的示意图。参考图5,五个语音分组PKT1至PKT5被以顺序地方式在语音分组的发送侧发送。
用于在发送端中发送语音分组的传输时间表示在传输时间轴510上。例如,语音分组PKT1至PKT5在相应的传输时间Ts1至Ts5以时间间隔Tpkt发送。在这种情况下,时间间隔Tpkt可以是每个语音分组的回放时间。
用于在接收端中接收语音分组的接收时间表示在接收时间轴520上。例如,语音分组PKT1至PKT5在相应的接收时间Tr1至Tr5上被接收。如图示的,接收的语音分组可能受到在传输过程中各种延迟因素的影响,并且可能不以特定的时间间隔接收。
用于在回放端回放每个语音分组的回放时间表示在回放时间轴530上。例如,语音分组PKT1至PKT5必须在回放时间Tp1至Tp5以回放时间间隔Tpkt输出。但是,语音分组可能不以特定的时间间隔接收。因此,如图示的,语音分组PKT3和语音分组PKT4可能以大于回放时间Tpkt的时间间隔接收。
考虑图5的示例,由于分组PKT4在用于在回放端回放分组PKT4的时间Tp4未接收,所以分组PKT4不能在回放端中回放,这可能导致声音质量劣化。
换句话说,在没有使用抖动缓存器的情形下,第X个语音分组的接收时间TrX可能比回放时间TpX更迟,这可能导致声音质量劣化。
为了解决在接收时间和回放时间之间倒置或者回放延迟/无法使用的问题,抖动缓存器排队足够的语音分组,并且在回放端中为定期的分组请求作准备。在抖动缓存器中首先接收的语音分组,诸如图4的分组420,可以响应于回放请求被最先输出。
抖动缓存器可以基于语音分组的RTP头部信息,根据用于产生每个语音分组的间隔/时间来补偿语音分组。例如,具有相同的产生间隔的语音分组可以被产生,并且在相同的时间域中语音分组的至少一个可以被抽取。因此,抖动缓存器可以将由要回放的语音分组所引起的声音质量劣化减到最小。
图6是示出抖动缓存器管理的示例的示意图。发送/接收/管理/回放五个语音分组的情形在图6中示范。
参考图6,用于在发送端中发送语音分组的传输时间表示在时间轴610上。例如,语音分组PKT1至PKT5在相应的传输时间Ts1至Ts5以时间间隔Tpkt发送。在这种情况下,时间间隔Tpkt可以是每个语音分组的回放时间。
用于在接收端中接收语音分组的接收时间表示在时间轴620上。例如,语音分组PKT1至PKT5在相应的接收时间Tr1至Tr5上被接收。如图示的,接收的语音分组可能受到在传输过程中各种延迟因素的影响,并且可能不以特定的时间间隔接收。
与在图5的情况下不同,语音分组被传送给抖动缓存器。语音分组输入给抖动缓存器的时间表示在抖动缓存器时间轴630上。例如,语音分组PKT1至PKT5在抖动缓存输入时间Tj1至Tj5被输入给抖动缓存器。抖动缓存器可以在特定的时间期间存储对应的语音分组,并且此后,可以根据用于每个语音分组的回放时间将语音分组传送给回放端。
语音分组在回放端回放的回放时间表示在回放时间轴640上。例如,语音分组PKT1至PKT5在回放时间Tp1至Tp5以回放时间Tpkt的间隔输入。与图5的情形相比较,在从图5的回放时间TpX开始经过缓存时间Tj之后,第X个语音分组在回放端被回放。
参考图6,类似于图5,第四个语音分组TPK4在比抖动缓存输入预测时间Tj4更迟的Tr4被接收,但是在缓存时间Tj内被接收,以便分组TPK4可以在回放时间Tp4平滑地回放。
当在抖动缓存器中提供的缓存时间Tj很大的时候,由传输延迟所引起的声音质量劣化可以被减小,但是额外的延迟可能在抖动缓存器中出现。因此,声音质量劣化和延迟具有与值Tj成比例的折衷关系。
抖动缓存器需要被控制/管理以优化在声音质量劣化和延迟之间的关系,并且改善回放性能。在抖动缓存器中的语音分组(或者语音帧)可以由包括在RTP头部中的时间戳字段和序列号字段指定,并且可以在其基础上处理。
时间戳字段表示语音分组被回放的时间。序列号字段将对于每个语音分组增加的编号提供给抖动缓存器(或者用于控制抖动缓存器的设备),以便语音分组被以顺序地方式安排在抖动缓存器中。
经历排队的语音分组被根据相应的回放时间顺序地回放。在这方面,抖动缓存器需要在两个情形下管理,例如,抖动缓存器充满语音分组的情形,和在抖动缓存器中的语音分组的数目小于可以由最小大小的缓存器容纳的语音分组的数目的情形。
当语音分组以减小的长时间传输延迟抵达的时候,或者当在发送侧的记录单元中存在振荡误差(例如,如果其比给定的采样速率更快)的时候,或者当在接收侧的回放单元中存在振荡误差(例如,如果其比给定的采样速率更慢)的时候,可能发生抖动缓存器充满语音分组,并且因此无法在缓存器中再容纳语音分组的情形。在这种情况下,为了解决这个问题,抖动缓存器可以丢弃在抖动缓存器中的语音分组,或者在回放过程中压缩音频信号。
当语音分组的传输延迟增加持续长的时间段和/或语音分组被丢失的时候,或者当在发送侧的记录单元中存在振荡误差(例如,如果其比给定的采样速率更小)的时候,或者当在接收侧的回放单元中存在振荡误差(例如,如果其比给定的采样速率更快)的时候,可能发生在抖动缓存器中语音分组的数目不够,并且因此语音分组不能平滑地回放的情形。在这种情况下,该问题可以通过产生语音分组或者通过扩展音频信号的长度解决。
图7是示出需要抖动缓存控制的示例的示意图。参考图7,在发送端发送语音分组的传输时间表示在传输时间轴710上,并且在接收端接收语音分组的接收时间表示在接收时间轴720上。
语音分组被输入给抖动缓存器的时间表示在抖动缓存器时间轴730上。此外,在回放端回放语音分组的回放时间表示在回放时间轴740上。
在图7的示例中,分组PKT3、PKT4和PKT5的抖动缓存输入时间由于传输延迟被集中在Tj5。因此,在分组PTK3和PKT4的回放时间Tp3和Tp4,要回放的语音分组在抖动缓存器中不存在。
因此,当根据回放时间考虑抖动缓存器的管理的时候,如上所述,存在在回放时间Tp3和Tp4在抖动缓存器中语音分组不足的问题,并且如上所述存在在回放时间Tp5由于语音分组导致抖动缓存器被突然充满的问题。
在抖动缓存器或者回放端中,在抖动缓存器中最上面分组的时间戳和序列号被确认以回放存储在抖动缓存器中的语音分组。例如,如果序列号增加了期待的增量,则对应的语音分组可以被回放。另一方面,如果其不是顺序地增加期待的增量的序列号(例如,如果序列号没有比先前地回放的语音分组大1),则可以认为存在分组丢失,并且因此,可以执行对此的补偿的过程。
如果确定在语音分组中存在丢失,则可以考虑产生用于补偿丢失分组(或者帧)的替选信息(例如,替选语音帧或者替选语音分组)和回放产生的替选信息的方法。如果在抖动缓存器中没有存储的语音分组,则根据使用白噪声帧的回放方法和扩展信号长度的回放方法,可以使用对于特定的时间周期补偿丢失分组的方法。
同时,如上所述,如果抖动缓存器的大小太小,则对于抖动缓存器来说难以充分地处理语音分组的抖动。此外,由于抖动缓存器容易充满,变得难以输入新的语音分组。
另一方面,如果抖动缓存器的大小太大,则抖动缓存器可能导致过大的回放延迟。
因此,为了实现没有延迟的音频回放,同时不劣化音频信号的信号质量,需要有效地调整抖动缓存器的大小或者补偿语音信息方法。
在这种情况下,不是仅仅考虑在回放端中请求的最上面的语音分组,而是通过考虑语音分组的类型,例如基于关于在抖动缓存器中语音分组的重要性可以补偿语音信息。
音频信号可以由非静默持续时间和静默持续时间组成。语音分组是对应于非静默语音还是对应于静默语音可以通过使用编码的语音分组的帧类型(FT)指标表示。此外,语音分组是对应于非静默语音还是静默语音可以在语音分组被解码之后,通过使用额外的分类块,例如,语音活动检测(VAD)等等来表示。
通常,与非静默持续时间的信号编辑相比,静默持续时间的信号编辑对声音质量具有更少的影响。因此,在抖动缓存器中的语音分组的重要性可以通过使用这样的特征确定。
抖动缓存器可以基于确定的语音分组的重要性执行抖动缓冲控制。通过基于语音分组的重要性管理/控制抖动缓存器,由抖动缓存控制所引起的语音失真的频率可以被减小,并且声音质量可以改善。
更具体地说,变为抖动缓存器管理/控制目标的语音分组的重要性可以通过以下的顺序确定。例如,变为抖动缓存管理目标的语音分组的顺序可以以这样的方式确定,即,首先变为抖动缓存管理目标的语音分组被确定,然后其次变为抖动缓存管理目标的语音分组被确定。
可以变为具有第一优先级的抖动缓存控制目标的语音分组可以是位于连续的静默持续时间中间的语音分组。例如,在自适应多速率宽带(AMR-WB)的情况下,在连续的静默持续时间中间的分组可以被确定为不连续传输(DTX)分组。
可以变为具有第二优先级的抖动缓存控制目标的语音分组可以是位于单静默持续时间中的语音分组。例如,在AMR-WB的情况下,在单静默持续时间中的分组可以被确定为SID分组。
可以变为具有第三优先级的抖动缓存控制目标的语音分组可以是在抖动缓存器中位于最前面位置中的语音分组。
语音分组的重要性可以是要处理的目标的相反顺序。因此,具有最低的重要性的语音分组是位于连续的静默持续时间中间的语音分组,具有第二最低的重要性的语音分组是位于单个静默持续时间中的语音分组,并且具有第三最低的重要性的语音分组是在缓存器中位于最前面位置的语音分组。
当控制在缓存器中的语音分组的时候,抖动缓存器可以根据分组的优先级选择控制目标语音分组,即,根据以下的顺序:位于连续的静默持续时间中间的语音分组→位于单静默持续时间中的语音分组→在抖动缓存器中位于最前面位置的语音分组。
图8是示出当在抖动缓存器中补偿语音信息的时候,在抖动缓存器中确定语音帧重要性的示例性方法的示意图。
在图8的示例中,抖动缓存器的当前大小810被以这样的方式设置,即,直至9个语音分组可以存储在缓存器中。参考图8,语音分组P0、P1、P2和P7是非静默信号,并且语音分组P3、P4、P5、P6和P8是静默信号。
当抖动缓存控制的目标根据前面提到的确定语音分组重要性方法被确定的时候,具有第一优先级的控制目标对应于位于连续的静默持续时间P3至P6中间的语音分组P4和P5。在图8的示例中,具有第二优先级的控制目标对应于单静默分组830,即,语音分组P3、P6和P8。在图8的示例中,具有第三优先级的控制目标对应于在缓存器中位于最前面位置的分组P0840。
在本发明中,如上所述,抖动缓存器被基于语音分组的重要性来管理。抖动缓存器可以确定在缓存器中语音分组的重要性,并且如果语音信息需要被补偿,则从基于该重要性选择的语音分组开始的语音分组可以被处置为抖动缓存管理的目标。
图9是示出包括语音帧补偿的示例性抖动缓存器管理方法的流程图。抖动缓存管理可以包括缓冲区大小的调整和在缓存器中语音信息的补偿,并且可以表示为抖动缓存控制。
参考图9,抖动缓存器接收语音分组(即,语音帧)(步骤S910)。可以从解码器发送语音分组,或者可以通过使用比特流直接从编码器发送。
抖动缓存器可以基于接收的语音分组执行抖动缓存调整(步骤S920)。
抖动缓存调整(或者抖动缓存管理)包括缓冲区大小的调整和在缓存器中语音信息的补偿。
缓冲区大小调整可以以这样的方式执行,即,缓冲区大小在缓存器的最大大小和最小大小之间减小或者增大。
对于语音信息的补偿包括语音信息抽取和语音信息产生。语音信息可以是语音分组或者语音帧。语音帧或者语音分组的抽取也可以被认为是对于音频信号的补偿。语音帧的产生或者语音分组的产生可以被认为是音频信号的扩展。
通常,当执行语音信息补偿的时候,语音信息可以以语音分组为单位或者以语音帧为单位抽取或者产生。此外,语音信息在比特流级别或者完成恢复的音频信号的级别被抽取/压缩或者产生/扩展。
在这方面,如果以语音分组为单位或者以语音帧为单位对于语音信息执行补偿,则在一个时间丢失或者产生的信息等于或者大于帧长度,这可能由于连续的语音信息的丢失导致声音质量劣化。因此,可以考虑以语音帧的子帧为单位对于语音信息执行补偿的方法。
此外,当在比特流级别,或者在完成恢复的音频信号级别执行补偿的时候,基本信号可能丢失,或者计算量可能增加。因此,可以考虑在解码参数级别对于语音信息执行补偿的方法,解码参数级别可以被认为是在比特流级别和恢复的音频信号的信息之间的中间区域。
在本发明中,解码参数是在比特流被解码然后被合成/恢复为音频信号之前使用的信息,并且包括LPC系数或者用于推导LPC系数的ISP系数、基音周期、激励信号分量、用于推导激励信号分量的码本索引等等。
图10是示出示例性抖动缓存器调整方法的流程图。
参考图10,一旦接收到语音分组,抖动缓存器可以执行抖动缓存器调整(步骤S1010)。这被称作在语音信息接收的情况下的抖动缓存器调整或者抖动缓存器管理。
一旦接收到该语音分组,抖动缓存器可以基于当前缓存器的状态调整缓冲区大小。例如,如果当前缓存器充满,并且因此,不能容纳新的语音分组,则抖动缓存器可以调整抖动缓冲区大小以确保用于容纳新的语音分组的空间。
此外,抖动缓存器可以补偿在缓存器中的语音信息。
如果存在回放请求,则抖动缓存器可以执行抖动缓存器调整(步骤S1020)。这被称作在回放请求的情况下的抖动缓存器调整或者抖动缓存器管理。
在回放请求的情况下,抖动缓存器可以基于当前缓存器的状态调整缓存器的大小。例如,如果当前缓存器是空的,并且因此,没有要回放的语音帧,或者如果在当前缓存器中的语音帧的数目很少,并且因此存在回放被延迟的担心,则抖动缓存器可以通过调整缓冲区大小减小缓存时间。
此外,抖动缓存器可以补偿在缓存器中的语音信息。
如果如图10所示由于网络问题,振荡误差等等产生抖动,则抖动缓存器可以补偿语音信息,或者可以调整缓冲区大小,以便平滑地实现回放。
如上所述,在本发明中,通过利用抖动缓存管理对于语音信息的补偿可以以子帧为单位在解码参数级别执行。经由比特流发送的语音分组可以包括至少一个语音帧。
语音帧和与之相关的参数可以通过使用解析从语音分组中提取。
因此,就语音分组被分析为具有参数的语音帧或者被解码的位置而论,基于本发明的抖动缓存器结构可以是如下当参考图3的时候所述的5种结构的任何一个。
(i)一种结构,其中基于解码参数以这样的方式执行抖动缓存器管理,即,比特流直接从接收器310接收,抖动缓存器300或者抖动缓存器300的缓存器320解码语音分组,并且具有解码参数级别的信息的语音帧被存储在缓存器320中。
(ii)一种结构,其中抖动缓存器管理基于解码参数以这样的方式执行,即,具有解码参数级别的信息的语音帧由接收器310从解码器接收,并且存储在缓存器320中。
(iii)一种结构,其中比特流(即,语音分组)直接由接收器310接收,并且存储在缓存器320中,并且必要时,解码器或者解码器的某些模块被调用以获得具有解码参数级别的信息的语音帧,并且执行抖动缓存器管理。
(iv)一种结构,其中比特流(即,语音分组)直接由接收器310接收,并且存储在缓存器320中,并且必要时,抖动缓存器300或者抖动缓存器300的缓存器从语音分组获得具有解码参数级别的信息的语音帧以执行抖动缓存器管理。
(v)一种结构,其中抖动缓存器300被作为解码器的某些构成元件包括在解码器中,并且从语音分组获得的语音帧在缓存器320中存储和管理,并且根据解码过程被输出。
因此,在结构(i)和(iv)中,语音信息可以以抖动缓存器→解码器的顺序传送,并且在结构(ii)中,语音信息可以以解码器→抖动缓存器的顺序传送。此外,在结构(iii)中,抖动缓存器和解码器需要执行并行数据处理,并且如果其在抖动缓存器和解码器之间需要,则语音信息可以被发送和接收。
在结构(i)和(ii)中,抖动缓存器可以存储具有解码参数级别的信息的语音帧,并且抖动缓存器管理可以以子帧为单位执行。在结构(iii)和(iv)中,抖动缓存器可以存储语音分组,并且必要时,可以获得具有解码参数级别的信息的语音帧,并且以子帧为单位补偿语音信息。
在这方面,如果对语音帧执行抖动缓存器管理,则确定语音分组的重要性的方法也可以应用于语音帧。在抖动缓存器存储和管理语音帧的情形下,可以是具有第一优先级的抖动缓存器管理目标的语音帧是连续的静默语音帧,可以是具有第二优先级的抖动缓存器管理目标的语音帧是不连续的静默语音帧,并且可以是具有第三优先级的抖动缓存器管理目标的语音帧是在抖动缓存器中位于最前面位置的语音帧。
与抖动缓存器相关的语音信息可以经由解码器发送给回放设备(即,输出设备),并且可以不经由解码器传送给回放设备的输出缓存器。例如,如果抖动缓存器在缓存器中存储需要被解码的语音信息作为解码参数级别的信息,则该信息可以在解码器中解码,并且此后,可以输出给回放设备。
在下文中,对于单独的情形描述抖动缓存器管理,即,在分组接收的情况下抖动缓存器调整,和在回放请求的情况下抖动缓存器调整。
在分组接收的情况下抖动缓存器调整
图11是示出在分组接收的情况下示例性抖动缓存器调整方法的流程图。在图11中,对于前面提到的结构(iii)或者(iv)描述抖动缓存器在缓存器中存储语音分组,并且执行抖动缓存器管理的情形。因此,为了如上所述以子帧为单位补偿解码参数级别的语音信息,抖动缓存器可以从解码器获得必需的信息,或者抖动缓存器可以从语音分组中提取该信息。
参考图11,抖动缓存器接收语音分组(步骤S1100)。
抖动缓存器确定是否当前缓存器充满语音分组(步骤S1110)。
如果缓存器充满语音分组,则抖动缓存器可以确定在缓存器中关于语音分组的重要性(步骤S1120)。如上所述,位于连续的静默持续时间中间的语音分组具有最低的重要性,位于单静默持续时间中的语音分组具有第二最低的重要性,并且在缓存器中位于最前面位置的语音分组具有最低的重要性。
抖动缓存器处理在当前缓存器中的语音分组之中具有最低的重要性的分组(步骤S1130)。抖动缓存器可以抽取具有最低的重要性的语音分组。当抽取语音分组的时候,可以设置表示这些的抽取信息(例如,表示该分组被抽取的标记Del_flag)。该抽取信息可以在回放请求时引用,并且可以报告给抖动缓存器、解码器或者回放设备等等对应的语音信息不存在。
如果具有低重要性的语音分组的处理是分组的抽取,则抖动缓存器可以获得用于语音帧和子帧的解码参数,以属于语音帧的子帧为单位在解码参数级别执行抽取语音信息的补偿。用于语音帧和子帧的解码参数可以如上所述从解码器获得,或者可以由抖动缓存器通过执行解码自主地获得。
在处理具有低重要性的语音分组之后,抖动缓存器可以比较当前抖动缓存器的缓存器大小和抖动缓存器的最大缓存器大小(步骤S1140)。
如果当前缓存器大小小于最大缓存器大小,则抖动缓存器可以提高当前缓存器大小(步骤S1150)。如果由于缓存器充满语音分组而需要确保在缓存器中空间,并且由于当前缓存器大小小于最大缓存器大小,所以存在用于提高缓存器大小的空间,则抖动缓存器可以提高当前抖动缓存器的缓存器大小。
更具体地说,抖动缓存器的缓存器大小可以根据可以存储在缓存器中的语音分组的数目确定。抖动缓存器大小Tjit可以具有在最小抖动缓存器大小Tjmin和最大抖动缓存器大小Tjmax范围内的值。
抖动缓存器大小Tjit可以以作为每个语音分组的回放时间的Tpkt为单位调整。在这种情况下,通过考虑网络情形等等,Tjmin和Tjmax可以以Tpkt为单位可变地设置。
例如,如果在呼叫期间的端到端延迟被设置为小于或等于Td,则最大抖动缓存器大小Tjmax满足公式1的关系。
<公式1>
Tjmax≤Td–Tpkt–Tetc1
公式1中,Tetc1表示由在网络上产生的额外的延迟因素所引起的延迟时间。例如,额外的延迟因素可以包括固定的延迟因素,诸如,后处理滤波、网络中继问题、发送端记录单元和接收端回放单元的振荡误差等等,并且端到端延迟Td可以被设置为典型使用的端到端延迟,即150ms等等。
为了满足公式1的关系而新设置的抖动缓存器的缓存器大小,即,Tjit可以由公式2表示。
<公式2>
Tjit=Tjit+Tpkt,Tjit≤Tjmax
在抖动缓存器的缓存器没有充满的情形下,抖动缓存器可以将接收的语音分组添加到缓存器(步骤S1160)。抖动缓存器的缓存器没有充满的情形可以是在步骤S1110中抖动缓存器的缓存器没有充满的情形,在步骤S1140中抖动缓存器的当前缓存器大小是最大大小的情形,和在步骤S1150中抖动缓存器的缓存器大小被提高的情形的任何一个。
抖动缓存器可以比较在缓存器中语音分组的序列号和时间戳编号(步骤S1170)。时间戳编号表示语音分组开始回放的时间,并且通过对抖动缓存器提供对于每个语音分组增加的编号,序列号用于在抖动缓存器中以顺序地方式安排语音分组。
抖动缓存器可以在缓存器中重新排序语音分组(步骤S1180)。例如,抖动缓存器可以根据每个分组的序列号在缓存器中以顺序地方式重新排序语音分组。
抖动缓存器可以基于当前时间戳的值丢弃语音分组(步骤S1190)。例如,抖动缓存器可以确认在抖动缓存器的缓存器中的语音分组的时间戳,并且如果存在具有当前回放时间的先前的时间戳(例如,具有小于对应于当前回放时间的时间戳值的时间戳)的语音分组,则可以丢弃对应的语音分组。
虽然在语音分组接收的情况下可以执行的抖动缓存器调整的内容在图11中充分地描述,但是抖动缓存器可以充分地执行前面提到的抖动缓存器调整,或者可以有选择地仅仅执行关于抖动缓存器调整的必要的操作。
此外,虽然抖动缓存器具有前面提到的结构(iii)或者(iv)的情形在图11中示例,但是本发明不受限于此,并且因此,也可以同样地应用于抖动缓存器具有结构(i)或者(ii)的情形。
在抖动缓存器具有结构(i)和(ii)的情形下,抖动缓存器可以执行不用于语音分组而是用于语音帧的步骤S1100至S1190。在这种情况下,在步骤S1100中,抖动缓存器接收或者获得不是语音分组,而是具有解码参数级别的信息的语音帧,并且将其在缓存器中存储和管理。
在回放请求的情况下抖动缓存器调整
图12是示出在回放请求的情况下示例性抖动缓存器调整方法的流程图。为了解释方便起见,抖动缓存器具有前面提到的结构(iii)或者(iv)的情形在图12的描述中采用为示例。因此,为了如上所述以子帧为单位补偿解码参数级别的语音信息,抖动缓存器可以从解码器获得必需的信息,或者抖动缓存器可以从语音分组中提取该信息。
参考图12,如果存在来自回放端(即,回放设备)的回放请求,则抖动缓存器可以确定是否当前缓存器是空的(步骤S1200)。例如,在回放请求时,抖动缓存器可以确定在缓存器中是否存在用于回放所需要的足够的语音分组。
如果确定缓存器是空的,则抖动缓存器可以确定当前缓存器的大小(即,抖动缓存器的大小)是否大于最小抖动缓存器大小(步骤S1210)。
如果抖动缓存器的当前缓存器大小大于最小抖动缓存器大小,则抖动缓存器可以减小抖动缓存器的缓存器大小(步骤S1220)。如果在缓存器中没有语音分组,或者语音分组的数目太少,并且因此,用于在缓存器中停留的时间需要减小,则抖动缓存器可以减小当前抖动缓存器的缓存器大小。
更具体地说,抖动缓存器大小Tjit可以具有在最小抖动缓存器大小Tjmin和最大抖动缓存器大小Tjmax范围内的值,并且可以以作为每个语音分组的回放时间的Tpkt为单位调整。在这种情况下,通过考虑网络情形等等,Tjmin和Tjmax可以以Tpkt为单位可变地设置。
例如,由于最大抖动缓存器大小Tjmin可以被设置为大于至少作为每个语音分组的回放时间的Tpkt,所以公式3的关系满足。
<公式3>
Tjmin≥Tpkt+Tetc2
在公式3中,Tetc2表示由其它的延迟因素所引起的延迟时间。其它的延迟因素包括由于在回放端中振荡元件的误差产生的回放频率误差等等。
为了满足公式3的关系而新设置的抖动缓存器的缓存器大小,即,Tjit可以由公式4表示。
<公式4>
Tjit=Tjit-Tpkt,Tjit≥Tjmin
同时,如果在回放请求时抖动缓存器不是空的(即,如果存在用于回放所需要的足够的语音分组),则抖动缓存器可以确定是否在缓存器中语音分组的序列号根据语音分组被安排的顺序而顺序地增加,或者是否设置抽取标记(即,Del-flag)(步骤S1230)。
通过确定是否在缓存器中的语音分组的序列号被顺序地增加,或者是否Del-flag被设置,抖动缓存器可以确定是否需要补偿语音信息。
例如,由于抖动缓存器确定是否在缓存器中的语音分组的序列号被顺序地增加,所以可以通过对语音信息补偿来确定是否需要产生新的语音分组。在这种情况下,如果抽取信息(即,del_flag)被设置,则抖动缓存器可以确定其中设置抽取信息的语音分组被抽取。
在序列号没有顺序地增加,或者抽取信息(即,del_flag)被设置的情形下,或者在抖动缓存器的当前缓存器大小等于最小抖动缓存器大小,或者抖动缓存器的缓存器大小被减小的情形下,当需要的时候,该抖动缓存器可以补偿语音信息(步骤S1240)。
抖动缓存器可以基于语音分组的重要性产生语音信息。在这种情况下,为了在解码参数级别以属于语音帧的子帧为单位产生语音信息,抖动缓存器可以获得用于语音帧和子帧的解码参数。用于语音帧和子帧的解码参数可以如上所述从解码器获得,或者可以由抖动缓存器通过执行解码自主地获得。
如果序列号被顺序地增加,并且抽取信息(即,del_flag)没有被设置,则语音分组可以无需对语音信息补偿来被解码(步骤S1250)。语音分组可以在解码器中被解码。如果序列号被顺序地增加,并且del_flag没有被设置,则抖动缓存器可以将语音分组发送给解码器。解码器可以解码接收的语音分组以产生(一个或多个)语音帧。
语音帧可以被添加到输出设备(即,回放设备)的输出缓存器(步骤S1260)。
输出设备可以更新回放序列号,以便语音帧被顺序地回放(步骤S1270)。
语音帧可以被顺序地传送给用户(步骤S1280)。语音帧通过顺序地从输出设备传送给用户而被回放。
虽然在语音分组接收的情况下可以执行的抖动缓存器调整的内容在图11中充分地描述,但是抖动缓存器可以完全执行前面提到的抖动缓存器调整,或者可以有选择地仅仅执行关于抖动缓存器调整的必要的操作。
此外,虽然抖动缓存器具有前面提到的结构(iii)或者(iv)的情形在图12中示例,但是本发明不受限于此,并且因此,也可以同样地应用于抖动缓存器具有结构(i)或者(ii)的情形。
在抖动缓存器具有结构(i)和(ii)的情形下,抖动缓存器可以执行不用于语音分组而是用于语音帧的步骤S1200至S1280。在这种情况下,由于抖动缓存器存储和管理在缓存器中的语音帧,所以抖动缓存器管理可以通过使用属于语音帧的子帧和在其上的解码参数来执行。例如,在解码步骤中,用于以语音帧为单位恢复音频信号的解码可以通过使用解码参数来执行。
在下文中,详细描述可应用于语音分组接收的情况下的抖动缓存器调整和回放请求的情况下的抖动缓存器调整的语音信息补偿方法。
如上所述,对于语音信息的补偿包括语音信息抽取和语音信息产生。参考图11和图12,语音信息的抽取可以应用于在语音分组接收的情况下的抖动缓存器调整(例如,步骤S1130),并且语音信息的产生可以应用于在回放请求的情况下的抖动缓存器调整(例如,步骤S1240)。
作为管理抖动缓存器的方法,除了解码参数级别之外,语音信息的处理还可以在比特流级别以常规的方式执行,并且也可以在音频信号级别执行。
图13是示出在比特流级别执行抖动缓存器管理示例的示意图。在图13的示例中,抖动缓存器管理以抽取语音帧这样的方式执行。
如果缓存器充满,则抖动缓存器可以确定要从比特流抽取的帧,并且可以抽取选择的帧。参考图13,如果抽取第n个语音帧,则抖动缓存器管理通过从比特流桶中抽取第n个帧来执行。
在图13的情况下,由于抖动缓存器以语音帧为单位处理信息,所以其可以位于解码器的输出端,并且因此,可以接收由解码器解码的语音信息,并且存储/管理该信息。
图14是示出在音频信号级别执行抖动缓存器管理示例的示意图。在图14的示例中,抖动缓存器管理通过降低音频信号的长度来执行。
如果缓存器充满,则抖动缓存器可以将比特流恢复为音频信号,并且可以通过应用时间缩放修改(TSM)技术减小音频信号的长度。参考图14,在抖动缓存器管理之后,第(n-1)个语音帧、第n个语音帧,和第(n+1)个语音帧的总长度减小了语音帧长度,同时保持音频信号的总体样式。
在图14的情况下,由于抖动缓存器处理音频信号,其可以位于解码器的输出端,并且因此,可以接收由解码器解码的语音信息,并且存储/管理该信息。
同时,当抖动缓存器管理如图13的示例所示通过在比特流级别以帧为单位抽取语音信息执行的时候,虽然抖动缓存器可以通过使用简单算术操作来调整,但是由于对应于一个语音帧的语音信息(或者音频信号)在某时被抽取,所以声音质量显著地劣化。
此外,当抖动缓存器管理如图14的示例所示在音频信号级别执行的时候,由于存在提高音频回放速度的效果,虽然与在比特流级别执行抖动缓存器管理的情形相比,可能丢失更少的音频信息,但是编码器/解码器的复杂度增加。
因此,根据本发明,如上所述抖动缓存器管理在解码参数级别以语音帧的子帧为单位执行,从而能够避免声音质量劣化,并且降低处理的复杂度。
当根据本发明抖动缓存器被在解码参数级别以属于语音帧的子帧为单位管理的时候,与抖动缓存器位于解码器的输出端中的图13和图14的示例不同,抖动缓存器可以将信息输出给解码器,或者如上所述可以在结构(i)至(v)中从解码器接收信息。
图15是示出以语音帧的子帧为单位补偿语音信息示例的示意图。
如上所述,如果在执行抖动缓存器管理的过程中音频信号被以语音帧为单位抽取,则由于在某时丢失的音频信号与语音帧的长度相同,所以声音质量劣化变得显著。
在图15的示例中,音频信号被以子帧为单位抽取,以降低连续丢失的音频信号的分量。
参考图15,与图13和图14的情形相比较,要抽取的音频信号与一个帧是相同的。但是,在图15的示例中,音频信号可以以相邻帧的子帧以要抽取的语音帧的子帧替换这样的方式抽取。
在本发明中,用于表示帧或者分组的n-1、n和n+1是用于表示连续的语音帧或者连续的语音分组的索引。第n个的帧是在整个帧序列中作为抽取目标帧的任何的第n个的帧,并且第(n-1)个帧和第(n+1)个帧是位于抽取目标(或者删除的)帧前和后的相邻帧。
在图15的示例中,第n个帧的第一子帧S1替换第(n-1)个帧的第三子帧S3,第n个帧的第二子帧S2替换第(n-1)个帧的第四子帧S4,第n个帧的第三子帧S3替换第(n+1)个帧的第一子帧S1,且第n个帧的第四子帧S4替换第(n+1)个帧的第二子帧S3。
因此,第n个语音帧被抽取,并且第(n-1)个语音帧的第三子帧S3’和第四子帧S4’以及第(n+1)个语音帧的第一子帧S1’和第二子帧S2’被新产生。
当音频信号被以子帧为单位抽取的时候,如图示的,由于某些子帧被从目标语音帧的相邻语音帧抽取,所以集中在一个帧上丢失的音频信号的效果可以由相邻帧分担。因此,连续地丢失的音频信号的分量可以被降低,并且同时,能够避免在抖动缓存器管理中伴随的额外的计算(即,在复杂度方面增加)的发生。
虽然语音帧由四个子帧组成的情形被描述为在图15中的示例,但是本发明不受限于此。例如,如果语音帧由L个子帧组成,则抽取目标帧(即,第n个帧)的先前帧(即,第(n-1)个帧)的后L/2个子帧可以以抽取目标帧(即,第n个帧)的前L/2个子帧替换,并且抽取目标帧(即,第n个帧)的下一个帧(即,第(n+1)个帧)的前L/2个子帧可以以抽取目标帧(即,第n个帧)的后L/2个子帧替换。
同时,当语音信息在比特流级别被补偿的时候,即使语音信息被以子帧为单位抽取,对应的子帧的分量直接消失,这可能导致特定的级别的声音质量劣化。如果语音信息在音频信号级别补偿以避免这些,则计算量可能显著地提高。
因此,虽然以子帧为单位对于语音信息补偿,但是可以允许语音信息在解码参数级别被补偿,解码参数级别可以被认为是比特流级别信息和恢复的音频信号的中间级别。在此处,解码参数隐含在比特流被解码然后被合成为音频信号之前使用的信息。
解码参数的示例包括LPC系数或者用于推导LPC系数的ISP系数、、基音周期、激励信号分量、用于推导激励信号分量的码本索引等等。
抖动缓存器可以通过使用相邻帧或者相邻帧的解码参数来补偿语音信息,而不是简单地抽取目标帧或者目标子帧及其解码参数。在这种情况下,抽取目标子帧的解码参数可用于补偿语音信息。
当接收到语音分组的时候,抖动缓存器可以根据前面提到的分组重要性(即,帧重要性)确定抽取目标帧,并且可以执行关于语音信息抽取的以下的三个语音信息补偿操作的任何一个。
(1)抖动缓存器抽取抽取目标帧,同时通过使用抽取目标帧的解码参数,修改属于位于抽取目标帧前和后的帧的子帧的解码参数。
(2)抽取目标帧被抽取,同时通过使用抽取目标帧的解码参数,修改属于位于抽取目标帧之前的帧的子帧的解码参数。
(3)抽取目标帧被抽取,同时通过使用抽取目标帧的解码参数,修改属于位于抽取目标帧之后的帧的子帧的解码参数。
图16是示出在解码参数级别以子帧为单位补偿语音信息的示例性方法的示意图。
在图16的示例中,描述前面提到的操作(1)的语音信息补偿方法。因此,通过使用两个相邻子帧的解码参数修改用于在要抽取的帧(即,第n个帧)之前/之后的帧中的某些子帧的解码参数。
参考图16,如果第n个语音帧被抽取,则作为相邻语音帧的第(n-1)个语音帧和第(n+1)个语音帧的帧分量(即,解码参数)被修改。
通过补偿语音信息,第n个帧被抽取,第(n-1)个帧的子帧S3’的解码参数通过使用在语音信息补偿之前第(n-1)个帧的子帧S3和S4的解码参数来修改,第(n-1)个帧的子帧S4’的解码参数通过使用在被抽取之前第n个帧的子帧S1和S2的解码参数来修改,第(n+1)个帧的子帧S1’的解码参数通过使用在被抽取之前第n个帧的子帧S3和S4的解码参数来修改,以及第(n+1)个帧的子帧S2’的解码参数通过使用在语音信息补偿之前第(n+1)个帧的子帧S1和S2的解码参数来修改。
在这种情况下,解码参数可以被修改为通过内插两个子帧的解码参数而产生的值。
公式5示出根据图16的示例通过补偿语音信息(或者通过抽取语音信息),将在解码参数之中的ISP系数修改为通过内插两个子帧的ISP系数而产生的值的方法。
<公式5>
ISPn-1m3=0.5x ISPn-13+0.5x ISPn-14
ISPn-1m4=0.5x ISPn1+0.5x ISPn2
ISPn+1m1=0.5x ISPn3+0.5x ISPn4
ISPn+1m2=0.5x ISPn+11+0.5x ISPn+12
在本发明中,ISPNL表示属于第N个帧的第L个子帧的ISP系数,并且ISPNmL表示属于第N个帧的第L个子帧的修改的ISP系数。
ISP系数可以如上所述通过从LPC系数转换推导出,并且LPC系数可以通过从ISP系数转换推导出。
公式6示出根据图16的示例通过补偿语音信息(或者通过抽取声音信息),将在解码参数之中的基音周期修改为通过内插两个子帧的基音周期而产生的值的方法。
<公式6>
Pn-1m3=0.5x Pn-13+0.5x Pn-14
Pn-1m4=0.5x Pn1+0.5x Pn2
Pn+1m1=0.5x Pn3+0.5x Pn4
Pn+1m2=0.5x Pn+11+0.5x Pn+12
在本发明中,PNL表示属于第N个帧的第L个子帧的基音周期,并且PNmL表示属于第N个帧的第L个子帧的修改的基音周期。
基音周期可以通过解码长期预测(LTP)滤波、基音延迟(滞后)、码本增益等等获得。
公式7示出根据图16的示例通过补偿语音信息(或者通过抽取语音信息),将在解码参数之中的激励信号分量(即,FCB)修改为通过内插两个子帧的激励信号分量而产生的值的方法。
<公式7>
FCBn-1m3(k)=0.5x FCBn-13(k)+0.5x FCBn-14(k)
FCBn-1m4(k)=0.5x FCBn1(k)+0.5x FCBn2(k)
FCBn+1m1(k)=0.5x FCBn3(k)+0.5x FCBn4(k)
FCBn+1m2(k)=0.5x FCBn+11(k)+0.5x FCBn+12(k)
在本发明中,FCBNL(K)表示在属于第N个帧的第L个子帧的激励信号中的第K个分量,并且FCBNmL(K)表示属于第N个帧的第L个子帧的激励信号的修改的第K个分量。
激励信号可以通过解码固定码本和码本增益获得。
同时,在激励信号的情况下,代替通过使用内插被修改,能够应用在要修改的子帧的激励信号分量之中的前半分量和后半分量分别地替换为修改之前的子帧的激励信号分量的方法。
公式8示出根据图16的示例通过补偿语音信息(或者通过抽取语音信息),将激励信号分量修改为通过部分地替换两个子帧的激励信号分量而产生的值的方法。
<公式8>
FCBn-1m3(k)=FCBn-13(k)  (k=0~子帧/2)
=FCBn-14(k)  (k=子帧/2~子帧)
FCBn-1m4(k)=FCBn1(k)  (k=0~子帧/2)
=FCBn2(k)  (k=子帧/2~子帧)
FCBn+1m1(k)=FCBn3(k)  (k=0~子帧/2)
=FCBn4(k)  (k=子帧/2~子帧)
FCBn+1m2(k)=FCBn+11(k)  (k=0~子帧/2)
=FCBn+12(k)  (k=子帧/2~子帧)
根据公式8,通过补偿语音信息抽取第n个帧,但是,其前一半以属于第(n-1)个帧的第三子帧S3的第K个激动信号分量替换,并且其后一半以属于第(n-1)个帧的第四子帧S4的第K个激动信号分量替换,从而产生具有修改的解码参数的第(n-1)个帧的第三子帧S3’。
以同样的方式,如公式8所示,可以获得具有修改的解码参数的第(n-1)个帧的第四子帧S4’、具有修改的解码参数的第(n+1)个帧的第一子帧S1’,和具有修改的解码参数的第(n+1)个帧的第二子帧S2’。
此外,在解码参数之中,在激励信号分量的情况下,可以应用要修改的子帧的激励信号分量以用于产生激励信号的轨迹为单位替换的方法。
公式9示出根据图16的示例通过补偿语音信息(或者通过抽取语音信息),将激励信号分量修改为通过以用于产生激励信号分量的轨迹为单位替换而产生的值的方法。
<公式9>
FCBn-1m3(k)=FCBn-13(k)(轨迹1&3)+FCBn-14(k)(轨迹2&4)
FCBn-1m4(k)=FCBn1(k)(轨迹1&3)+FCBn2(k)(轨迹2&4)
FCBn+1m1(k)=FCBn3(k)(轨迹1&3)+FCBn4(k)(轨迹2&4)
FCBn+1m2(k)=FCBn+11(k)(轨迹1&3)+FCBn+12(k)(轨迹2&4)
要修改的子帧的激励信号分量由在修改(即,补偿语音信息)之前的两个子帧的激励信号分量的部分和组成。在这种情况下,对于波数k所属于的每个轨迹,要修改的子帧的激励信号分量选择在对应的轨迹上的激励信号值。
虽然语音帧由四个子帧组成的情形在图16中示例,但是本发明不受限于此。例如,如果语音帧由L个子帧组成,则抽取目标帧(即,第n个帧)的先前帧(即,第(n-1)个帧)的后L/2个子帧,和抽取目标帧(即,第n个帧)的下一个帧(即,第(n+1)个帧)的前L/2个子帧如上所述通过使用抽取目标帧(即,第n个帧)的子帧,和抽取目标帧(即,第n个)的先前帧(即,第(n-1)个帧)的后L/2个子帧,以及抽取目标帧(即,第n个帧)的下一个帧(即,第(n+1)个帧)的前L/2个子帧修改,然后可以抽取该目标帧(即,第n个帧)。
在这种情况下,参考公式5至7描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)来执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)来确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,平滑比可以确定为1/p。
图17是示出在解码参数级别以子帧为单位补偿语音信息的另一个示例性方法的示意图。
操作(2)的语音信息补偿方法的情形在图17中示例。因此,用于在要抽取的帧(即,第n个帧)的下一个帧中的子帧的解码参数可以通过使用在属于要抽取的帧的下一个帧的子帧之中的两个相邻子帧的解码参数修改。
解码参数可以被修改为通过内插两个子帧的解码参数而产生的值。
公式10示出根据图17的示例通过补偿语音信息(或者通过抽取语音信息),内插和修改在解码参数之中的ISP系数的方法。
<公式10>
ISPn+1m1=0.5x ISPn1+0.5x ISPn2
ISPn+1m2=0.5x ISPn3+0.5x ISPn4
ISPn+1m3=0.5x ISPn+11+0.5x ISPn+12
ISPn+1m4=0.5x ISPn+13+0.5x ISPn+14
与公式5一样应用公式10,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式5的子帧。
公式11示出根据图17的示例通过补偿语音信息(或者通过抽取语音信息),经由内插修改在解码参数之中的基音周期的方法。
<公式11>
Pn+1m1=0.5x Pn1+0.5x Pn2
Pn+1m2=0.5x Pn3+0.5x Pn4
Pn+1m3=0.5x Pn+11+0.5x Pn+12
Pn+1m4=0.5x Pn+13+0.5x Pn+14
与公式6一样应用公式11,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式6的子帧。
公式12示出根据图17的示例通过补偿语音信息(或者通过抽取语音信息),经由内插修改在解码参数之中的激励信号分量(即,FCB)的方法。
<公式12>
FCBn+1m1=0.5x FCBn1+0.5x FCBn2
FCBn+1m2=0.5x FCBn3+0.5x FCBn4
FCBn+1m3=0.5x FCBn+11+0.5x FCBn+12
FCBn+1m4=0.5x FCBn+13+0.5x FCBn+14
与公式7一样应用公式12,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式7的子帧。
如图16的示例所示,在激励信号的情况下,能够应用在要修改的子帧的激励信号分量之中的前一半分量和后一半分量分别地以修改之前的子帧的激励信号分量替换的方法。
公式13示出根据图17的示例通过补偿语音信息(或者通过抽取语音信息),将激励信号分量修改为通过部分地替换两个子帧的激励信号分量而产生的值的方法。
<公式13>
FCBn+1m1(k)=FCBn1(k)  (k=0~子帧/2)
=FCBn2(k)  (k=子帧/2~子帧)
FCBn+1m2(k)=FCBn3(k)  (k=0~子帧/2)
=FCBn4(k)  (k=子帧/2~子帧)
FCBn+1m3(k)=FCBn+11(k)  (k=0~子帧/2)
=FCBn+12(k)  (k=子帧/2~子帧)
FCBn+1m4(k)=FCBn+13(k)  (k=0~子帧/2)
=FCBn+14(k)  (k=子帧/2~子帧)
与公式8一样应用公式13,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式8的子帧。
此外,在解码参数之中,在激励信号分量的情况下,可以应用要修改的子帧的激励信号分量以用于产生激励信号的轨迹为单位替换的方法。
公式14示出根据图17的示例通过补偿语音信息(或者通过抽取语音信息),将激励信号分量修改为通过以用于产生激励信号分量的轨迹为单位替换而产生的值的方法。
<公式14>
FCBn+1m1(k)=FCBn1(k)(轨迹1&3)+FCBn2(k)(轨迹2&4)
FCBn+1m2(k)=FCBn3(k)(轨迹1&3)+FCBn4(k)(轨迹2&4)
FCBn+1m3(k)=FCBn+11(k)(轨迹1&3)+FCBn+12(k)(轨迹2&4)
FCBn+1m4(k)=FCBn+13(k)(轨迹1&3)+FCBn+14(k)(轨迹2&4)
与公式9一样应用公式14,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式9的子帧。
虽然语音帧由四个子帧组成的情形被描述为在图17中的示例,但是本发明不受限于此。例如,如果语音帧由L个子帧组成,则抽取目标帧(即,第n个帧)的下一个帧(即,第(n+1)个帧)的子帧如上所述通过使用抽取目标帧(即,第n个帧)的子帧,和抽取目标帧(即,第n个帧)的下一个帧(即,第(n+1)个帧)的子帧修改,然后可以抽取该目标帧(即,第n个帧)。
在这种情况下,参考公式10至12描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)来执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,则平滑比可以确定为1/p。
图18是示出在解码参数级别以子帧为单位补偿语音信息的另一个示例性方法的示意图。
操作(3)的抖动缓存器调整方法的情形在图18中示例。因此,用于属于要抽取的帧(即,第n个帧)的先前帧的子帧的解码参数可以通过使用在属于要抽取的帧和先前帧的子帧之中的两个相邻子帧的解码参数被修改。
解码参数可以被修改为通过内插两个子帧的解码参数而产生的值。
公式15示出根据图18的示例通过补偿语音信息(或者通过抽取语音信息),内插和修改在解码参数之中的ISP系数的方法。
<公式15>
ISPn-1m1=0.5x ISPn-11+0.5x ISPn-12
ISPn-1m2=0.5x ISPn-13+0.5x ISPn-14
ISPn-1m3=0.5x ISPn1+0.5x ISPn2
ISPn-1m4=0.5x ISPn3+0.5x ISPn4
与公式5一样应用公式15,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式5的子帧。
公式16示出根据图18的示例通过补偿语音信息(或者通过抽取语音信息),经由内插修改在解码参数之中的基音周期的方法。
<公式16>
Pn-1m1=0.5x Pn-11+0.5x Pn-12
Pn-1m2=0.5x Pn-13+0.5x Pn-14
Pn-1m3=0.5x Pn1+0.5x Pn2
Pn-1m4=0.5x Pn3+0.5x Pn4
与公式6一样应用公式16,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式6的子帧。
公式17示出根据图17的示例通过补偿语音信息(或者通过抽取语音信息),经由内插修改在解码参数之中的激励信号分量(即,FCB)的方法。
<公式17>
FCBn-1m1=0.5x FCBn-11+0.5x FCBn-12
FCBn-1m2=0.5x FCBn-13+0.5x FCBn-14
FCBn-1m3=0.5x FCBn1+0.5x FCBn2
FCBn-1m4=0.5x FCBn3+0.5x FCBn4
与公式7一样应用公式17,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式7的子帧。
如图16的示例所示,在激励信号的情况下,能够应用在要修改的子帧的激励信号分量之中的前一半分量和后一半分量分别地以修改之前的子帧的激励信号分量替换的方法。
公式18示出根据图18的示例通过补偿语音信息(或者通过抽取语音信息),将激励信号分量修改为通过部分地替换两个子帧的激励信号分量而产生的值的方法。
<公式18>
FCBn-1m1(k)=FCBn-11(k)  (k=0~子帧/2)
=FCBn-12(k)  (k=子帧/2~子帧)
FCBn-1m2(k)=FCBn-13(k)  (k=0~子帧/2)
=FCBn-14(k)  (k=子帧/2~子帧)
FCBn-1m3(k)=FCBn1(k)  (k=0~子帧/2)
=FCBn2(k)  (k=子帧/2~子帧)
FCBn-1m4(k)=FCBn3(k)  (k=0~子帧/2)
=FCBn4(k)  (k=子帧/2~子帧)
与公式8一样应用公式18,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式8的子帧。
此外,在解码参数之中,在激励信号分量的情况下,可以应用要修改的子帧的激励信号分量以用于产生激励信号的轨迹为单位替换的方法。
公式19示出根据图18的示例通过补偿语音信息(或者通过抽取语音信息),将激励信号分量修改为通过以用于产生激励信号分量的轨迹为单位替换而产生的值的方法。
<公式19>
FCBn-1m1(k)=FCBn-11(k)(轨迹1&3)+FCBn-12(k)(轨迹2&4)
FCBn-1m2(k)=FCBn-13(k)(轨迹1&3)+FCBn-14(k)(轨迹2&4)
FCBnm3(k)=FCBn1(k)(轨迹1&3)+FCBn2(k)(轨迹2&4)
FCBnm4(k)=FCBn3(k)(轨迹1&3)+FCBn4(k)(轨迹2&4)
与公式9一样应用公式19,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式9的子帧。
虽然语音帧由四个子帧组成的情形被描述为在图18中的示例,但是本发明不受限于此。例如,如果语音帧由L个子帧组成,则抽取目标帧(即,第n个帧)的先前帧(即,第(n-1)个帧)的子帧如上所述通过使用抽取目标帧(即,第n个帧)的子帧,和抽取目标帧(即,第n个帧)的下一个帧(即,第(n-1)个帧)的子帧修改,然后可以抽取该目标帧(即,第n个帧)。
在这种情况下,参考公式15至17描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)来执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,则平滑比可以确定为1/p。
同时,当接收到回放请求的时候,抖动缓存器可以执行关于语音信息产生的以下四个语音信息补偿操作的任何一个。
(A)子帧被以帧为单位产生以扩展音频信号,同时通过使用属于两个相邻帧之中后一帧的子帧的解码参数,和属于其前一帧的某些子帧的解码参数,产生新的子帧的解码参数。
(B)子帧被以帧为单位产生以扩展音频信号,同时通过使用属于两个相邻帧之中前一帧的子帧的解码参数,和属于其后一帧的某些子帧的解码参数,产生新的子帧的解码参数。
(C)子帧被以帧为单位产生以扩展音频信号,同时通过使用属于两个相邻帧之中前一帧的某些子帧的解码参数,和属于其后一帧的某些子帧的解码参数,产生新的子帧的解码参数。
(D)子帧被以帧为单位产生以扩展音频信号,同时通过使用属于两个相邻帧之中前一帧的子帧的解码参数,和属于其后一帧的子帧的解码参数,产生新的子帧的解码参数。
在以上操作(A)至(D)的语音信息补偿中,新的子帧在抖动缓存器调整之前在两个相邻子帧之间产生。新的子帧的解码参数可以通过使用两个相邻子帧的解码参数产生。
图19是示出在解码参数级别以子帧为单位补偿语音信息的另一个示例性方法的示意图。
应用操作(A)的语音信息补偿的情形在图19中示例。因此,通过使用属于要产生的帧(即,第n个帧)的先前帧(即,第(n-1)个帧)的某些子帧的解码参数,和属于下一个帧(即,第(n+1)个帧)的子帧的解码参数,可以推导出要产生的子帧的解码参数。
更具体地说,新的子帧在先前帧的最后的子帧S4和下一个帧的第一子帧S1之间产生,新的子帧在下一个帧的第一子帧S1和下一个帧的第二子帧S2之间产生,新的子帧在下一个帧的第二子帧S2和下一个帧的第三子帧S3之间产生,并且新的子帧在下一个帧的第三子帧S3和下一个帧的最后的子帧S4之间产生。要产生的子帧的解码参数从在产生中使用的子帧的解码参数中导出。
抖动缓存器可以通过以帧为单位聚合产生的子帧来配置新的帧。例如,如果新的子帧在旧的子帧之间产生,则可以配置由旧的子帧和新的子帧组成的帧。
公式20示出根据图19的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的ISP系数的方法。
<公式20>
ISPnm1=0.5x ISPn-14+0.5x ISPn+11
ISPnm3=0.5x ISPn+11+0.5x ISPn+12
ISPn+1m1=0.5x ISPn+12+0.5x ISPn+13
ISPn+1m3=0.5x ISPn+13+0.5x ISPn+14
ISP系数可以如上所述通过从LPC系数转换推导出,并且LPC系数可以通过从ISP系数转换推导出。
公式21示出根据图19的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的基音周期的方法。
<公式21>
Pnm1=0.5x Pn-14+0.5x Pn+11
Pnm3=0.5x Pn+11+0.5x Pn+12
Pn+1m1=0.5x Pn+12+0.5x Pn+13
Pn+1m3=0.5x Pn+13+0.5x Pn+14
基音周期可以通过解码长期预测(LTP)滤波、基音延迟(滞后)、码本增益等等获得。
公式22示出根据图19的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的激励信号分量的方法。
<公式22>
FCBnm1=0.5x FCBn-14+0.5x FCBn+11
FCBnm3=0.5x FCBn+11+0.5x FCBn+12
FCBn+1m1=0.5x FCBn+12+0.5x FCBn+13
FCBn+1m3=0.5x FCBn+13+0.5x FCBn+14
激励信号可以通过解码固定码本和码本增益获得。
同时,在激励信号的情况下,代替通过使用内插产生,能够应用将在产生中使用的子帧的激励信号分量作为用于要产生的子帧的激励信号分量的前一半分量和后一半分量来使用的方法。
公式23示出根据图19的示例,通过补偿语音信息(或者通过产生语音信息),将在产生中使用的子帧的激励信号分量作为用于要产生的子帧的激励信号分量的前一半分量和后一半分量使用的方法。
<公式23>
FCBnm1(k)=FCBn-14(k)  (k=0~子帧/2)
=FCBn+11(k)  (k=子帧/2~子帧)
FCBnm3(k)=FCBn+11(k)  (k=0~子帧/2)
=FCBn+12(k)  (k=子帧/2~子帧)
FCBn+1m1(k)=FCBn+12(k)  (k=0~子帧/2)
=FCBn+13(k)  (k=子帧/2~子帧)
FCBn+1m3(k)=FCBn+13(k)  (k=0~子帧/2)
=FCBn+14(k)  (k=子帧/2~子帧)
此外,在解码参数之中的激励信号分量的情况下,可以通过以轨迹为单位应用使用在产生中使用的子帧的激励信号分量的方法产生激励信号分量。
公式24示出根据图19的示例,通过补偿语音信息(或者通过产生语音信息),通过以轨迹为单位使用现有的子帧的激励信号分量产生激励信号分量的方法。
<公式24>
FCBnm1(k)=FCBn-14(k)(轨迹1&3)+FCBn+11(k)(轨迹2&4)
FCBnm3(k)=FCBn+11(k)(轨迹1&3)+FCBn+12(k)(轨迹2&4)
FCBn+1m1(k)=FCBn+12(k)(轨迹1&3)+FCBn+13(k)(轨迹2&4)
FCBn+1m3(k)=FCBn+13(k)(轨迹1&3)+FCBn+14(k)(轨迹2&4)
要产生的子帧的激励信号分量由现有的两个子帧的激励信号分量的部分和组成。在这种情况下,对于波数k所属于的每个轨迹,要产生的子帧的激励信号分量在对应的轨迹上选择激励信号值。
虽然语音帧由四个子帧组成的情形在图19中示例,但是本发明不受限于此。例如,如果语音帧由L个子帧组成,则帧(即,第n个帧)可以如上所述通过使用在先前帧(即,第(n-1)个帧)中的一个子帧,和通过使用在下一个帧(即,第(n+1)个帧)中的L个子帧产生。
在这种情况下,参考公式20至22描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)来执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,则平滑比可以确定为1/p。
图20是示出在解码参数级别以子帧为单位补偿语音信息的另一个示例性方法的示意图。
应用操作(B)的语音信息补偿的情形在图20中示例。因此,通过使用属于要产生的帧(即,第n个帧)的下一个帧(即,第(n+1)个帧)的某些子帧的解码参数,和属于先前帧(即,第(n-1)个帧)的子帧的解码参数,可以推导出要产生的子帧的解码参数。
图20的示例基本上使用与图19的示例相同的方法,但是,子帧和解码参数通过使用不同于在图19的示例中使用的子帧和解码参数来产生。
更具体地说,新的子帧在先前帧的第一子帧S1和先前帧的第二子帧S2之间产生,新的子帧在先前帧的第二子帧S2和先前帧的第三子帧S3之间产生,新的子帧在先前帧的第三子帧和先前帧的最后的子帧S4之间产生,并且新的子帧在先前帧的最后的子帧S4和下一个帧的第一子帧S1之间产生。要产生的子帧的解码参数从在产生中使用的子帧的解码参数中导出。
新的帧可以通过以帧为单位聚合产生的子帧来配置。例如,如果新的子帧在旧的子帧之间产生,则可以配置由旧的子帧和新的子帧组成的帧。
公式25示出根据图20的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的ISP系数的方法。
<公式25>
ISPn-1m2=0.5x ISPn-11+0.5x ISPn-12
ISPn-1m4=0.5x ISPn-12+0.5x ISPn-13
ISPnm2=0.5x ISPn-13+0.5x ISPn-14
ISPnm4=0.5x ISPn-14+0.5x ISPn+11
可以与等式20一样应用公式25,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式20的子帧。
公式26示出根据图20的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的基音周期的方法。
<公式26>
Pn-1m2=0.5x Pn-11+0.5x Pn-12
Pn-1m4=0.5x Pn-12+0.5x Pn-13
Pnm2=0.5x Pn-13+0.5x Pn-14
Pnm4=0.5x Pn-14+0.5x Pn+11
可以与公式21一样应用公式26,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式21的子帧。
公式27示出根据图20的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的激励信号分量的方法。
<公式27>
FCBn-1m2=0.5x FCBn-11+0.5x FCBn-12
FCBn-1m4=0.5x FCBn-12+0.5x FCBn-13
FCBnm2=0.5x FCBn-13+0.5x FCBn-14
FCBnm4=0.5x FCBn-14+0.5x FCBn+11
可以与公式22一样应用公式27,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式22的子帧。
公式28示出根据图20的示例,通过补偿语音信息(或者通过产生语音信息)的方法,其中在激励信号不是通过使用内插产生的情况下,在产生中使用的子帧的激励信号分量用作用于要产生的子帧的激励信号分量的前一半分量和后一半分量。
<公式28>
FCBn-1m2(k)=FCBn-11(k)  (k=0~子帧/2)
=FCBn-12(k)  (k=子帧/2~子帧)
FCBn-1m4(k)=FCBn-12(k)  (k=0~子帧/2)
=FCBn-13(k)  (k=子帧/2~子帧)
FCBnm2(k)=FCBn-13(k)  (k=0~子帧/2)
=FCBn-14(k)  (k=子帧/2~子帧)
FCBnm4(k)=FCBn-14(k)  (k=0~子帧/2)
=FCBn+11(k)  (k=子帧/2~子帧)
可以与公式23一样应用公式28,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式23的子帧。
公式29示出根据图20的示例,通过补偿语音信息(或者通过产生语音信息),通过以轨迹为单位使用现有的子帧的激励信号分量产生激励信号分量的方法。
<公式29>
FCBn-1m2(k)=FCBn-11(k)(轨迹1&3)+FCBn-12(k)(轨迹2&4)
FCBn-1m4(k)=FCBn-12(k)(轨迹1&3)+FCBn-13(k)(轨迹2&4)
FCBnm2(k)=FCBn-13(k)(轨迹1&3)+FCBn-14(k)(轨迹2&4)
FCBnm4(k)=FCBn-14(k)(轨迹1&3)+FCBn+11(k)(轨迹2&4)
可以与公式24一样应用公式29,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式24的子帧。
虽然语音帧由四个子帧组成的情形在图20中示例,但是本发明不受限于此。例如,如果语音帧由L个子帧组成,则帧(即,第n个帧)可以如上所述通过使用在下一个帧(即,第(n+1)个帧)中的一个子帧,和通过使用在先前帧(即,第(n-1)个帧)中的L个子帧产生。
在这种情况下,参考公式25至27描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,则平滑比可以确定为1/p。
图21是示出在解码参数级别以子帧为单位补偿语音信息的另一个示例性方法的示意图。
适用操作(C)的语音信息补偿的情形在图21中示例。因此,通过使用属于要产生的帧(即,第n个帧)的先前帧(即,第(n+1)个帧)的某些子帧的解码参数,和属于下一个帧(即,第(n-1)个帧)的某些子帧的解码参数,可以推导出要产生的子帧的解码参数。
图21的示例基本上使用与图19和图20的示例相同的方法,但是,子帧和解码参数通过使用不同于在图19和图20的示例中使用的子帧和解码参数来产生。
更具体地说,新的子帧在先前帧的第二子帧S2和先前帧的第三子帧S3之间产生,新的子帧在先前帧的第三子帧S3和先前帧的第四子帧S4之间产生,新的子帧在下一个帧的第一子帧S1和下一个帧的第二子帧S2之间产生,并且新的子帧在下一个帧的第二子帧S3和下一个帧的第三子帧S4之间产生。要产生的子帧的解码参数从在产生中使用的子帧的解码参数中导出。
抖动缓存器可以通过以帧为单位聚合产生的子帧来配置新的帧。例如,如果新的子帧在旧的子帧之间产生,则可以配置由旧的子帧和新的子帧组成的帧。
公式30示出根据图21的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的ISP系数的方法。
<公式30>
ISPn-1m3=0.5x ISPn-12+0.5x ISPn-13
ISPnm1=0.5x ISPn-13+0.5x ISPn-14
ISPnm4=0.5x ISPn+11+0.5x ISPn+12
ISPn+1m2=0.5x ISPn+12+0.5x ISPn+13
可以与公式20一样应用公式30,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式20的子帧。
公式31示出根据图21的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的基音周期的方法。
<公式31>
Pn-1m3=0.5x Pn-12+0.5x Pn-13
Pnm1=0.5x Pn-13+0.5x Pn-14
Pnm4=0.5x Pn+11+0.5x Pn+12
Pn+1m2=0.5x Pn+12+0.5x Pn+13
可以与公式21一样应用公式31,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式21的子帧。
公式32示出根据图21的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的激励信号分量的方法。
<公式32>
FCBn-1m3=0.5x FCBn-12+0.5x FCBn-13
FCBnm1=0.5x FCBn-13+0.5x FCBn-14
FCBnm4=0.5x FCBn+11+0.5x FCBn+12
FCBn+1m2=0.5x FCBn+12+0.5x FCBn+13
可以与公式22一样应用公式32,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式22的子帧。
公式33示出根据图21的示例,通过补偿语音信息(或者通过产生语音信息)的方法,其中在激励信号不是通过使用内插产生的情况下,在产生中使用的子帧的激励信号分量用作用于要产生的子帧的激励信号分量的前一半分量和后一半分量。
<公式33>
FCBn-1m3(k)=FCBn-12(k)  (k=0~子帧/2)
=FCBn-13(k)  (k=子帧/2~子帧)
FCBnm1(k)=FCBn-13(k)  (k=0~子帧/2)
=FCBn-14(k)  (k=子帧/2~子帧)
FCBnm4(k)=FCBn+11(k)  (k=0~子帧/2)
=FCBn+12(k)  (k=子帧/2~子帧)
FCBn+1m2(k)=FCBn+12(k)  (k=0~子帧/2)
=FCBn+13(k)  (k=子帧/2~子帧)
可以与公式23一样应用公式33,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式23的子帧。
公式34示出根据图21的示例,通过补偿语音信息(或者通过产生语音信息),通过以轨迹为单位使用现有的子帧的激励信号分量产生激励信号分量的方法。
<公式34>
FCBn-1m3(k)=FCBn-12(k)(轨迹1&3)+FCBn-13(k)(轨迹2&4)
FCBnm1(k)=FCBn-13(k)(轨迹1&3)+FCBn-14(k)(轨迹2&4)
FCBnm4(k)=FCBn+11(k)(轨迹1&3)+FCBn+12(k)(轨迹2&4)
FCBn+1m2(k)=FCBn+12(k)(轨迹1&3)+FCBn+13(k)(轨迹2&4)
可以与公式24一样应用公式34,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式24的子帧。
虽然语音帧由四个子帧组成的情形被描述为在图21中的示例,但是本发明不受限于此。例如,帧(即,第n个帧)可以如上所述通过使用下一个帧(即,第(n+1)个帧)和先前帧(即,第(n-1)个帧)的子帧产生。
在这种情况下,参考公式30至32描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)来执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,则平滑比可以确定为1/p。
图22是示出在解码参数级别以子帧为单位补偿语音信息的另一个示例性方法的示意图。
适用操作(D)的语音信息补偿的情形在图22中示例。因此,通过使用属于要产生的帧(即,第n个帧)的先前帧(即,第(n+1)个帧)的子帧的解码参数,和属于下一个帧(即,第(n-1)个帧)的子帧的解码参数,可以推导出要产生的子帧的解码参数。
图22的示例基本上使用与图19至图21的示例相同的方法,但是,子帧和解码参数通过使用不同于在图19至图21的示例中使用的子帧和解码参数产生。
更具体地说,新的子帧在先前帧的第一子帧S1和先前帧的第二子帧S2之间产生,新的子帧在先前帧的第三子帧S3和先前帧的第四子帧S4之间产生,新的子帧在下一个帧的第一子帧S1和下一个帧的第二子帧S2之间产生,并且新的子帧在下一个帧的第三子帧S3和下一个帧的最后的子帧S4之间产生。要产生的子帧的解码参数从在产生中使用的子帧的解码参数中导出。
抖动缓存器可以通过以帧为单位聚合产生的子帧来配置新的帧。例如,如果新的子帧在旧的子帧之间产生,则可以配置由旧的子帧和新的子帧组成的帧。
公式35示出根据图22的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的ISP系数的方法。
<公式35>
ISPn-1m2=0.5x ISPn-11+0.5x ISPn-12
ISPnm1=0.5x ISPn-13+0.5x ISPn-14
ISPnm4=0.5x ISPn+11+0.5x ISPn+12
ISPn+1m3=0.5x ISPn+13+0.5x ISPn+14
可以与公式20一样应用公式35,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式22的子帧。
公式36示出根据图22的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的基音周期的方法。
<公式36>
Pn-1m2=0.5x Pn-11+0.5x Pn-12
Pnm1=0.5x Pn-13+0.5x Pn-14
Pnm4=0.5x Pn+11+0.5x Pn+12
Pn+1m3=0.5x Pn+13+0.5x Pn+14
可以与公式21一样应用公式36,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式21的子帧。
公式37示出根据图22的示例通过补偿语音信息(或者通过产生语音信息),内插和产生在解码参数之中的激励信号分量的方法。
<公式37>
FCBn-1m2=0.5x FCBn-11+0.5x FCBn-12
FCBnm1=0.5x FCBn-13+0.5x FCBn-14
FCBnm4=0.5x FCBn+11+0.5x FCBn+12
FCBn+1m3=0.5x FCBn+13+0.5x FCBn+14
可以与公式22一样应用公式37,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式22的子帧。
公式38示出根据图22的示例,通过补偿语音信息(或者通过产生语音信息)的方法,其中在激励信号不是通过使用内插产生的情况下,在产生中使用的子帧的激励信号分量用作用于要产生的子帧的激励信号分量的前一半分量和后一半分量。
<公式38>
FCBn-1m2(k)=FCBn-11(k)  (k=0~子帧/2)
=FCBn-12(k)  (k=子帧/2~子帧)
FCBnm1(k)=FCBn-13(k)  (k=0~子帧/2)
=FCBn-14(k)  (k=子帧/2~子帧)
FCBnm4(k)=FCBn+11(k)  (k=0~子帧/2)
=FCBn+12(k)  (k=子帧/2~子帧)
FCBn+1m3(k)=FCBn+13(k)  (k=0~子帧/2)
=FCBn+14(k)  (k=子帧/2~子帧)
可以与公式23一样应用公式38,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式24的子帧。
公式39示出根据图22的示例,通过补偿语音信息(或者通过产生语音信息),通过以轨迹为单位使用现有的子帧的激励信号分量产生激励信号分量的方法。
<公式39>
FCBn-1m2(k)=FCBn-11(k)(轨迹1&3)+FCBn-12(k)(轨迹2&4)
FCBnm1(k)=FCBn-13(k)(轨迹1&3)+FCBn-14(k)(轨迹2&4)
FCBnm4(k)=FCBn+11(k)(轨迹1&3)+FCBn+12(k)(轨迹2&4)
FCBn+1m3(k)=FCBn+13(k)(轨迹1&3)+FCBn+14(k)(轨迹2&4)
可以与公式24一样应用公式39,并且差别仅仅是要修改的解码参数所属于的子帧和要使用的解码参数所属于的子帧不同于公式24的子帧。
虽然语音帧由四个子帧组成的情形被描述为在图22中的示例,但是本发明不受限于此。例如,帧(即,第n个帧)可以如上所述通过使用下一个帧(即,第(n+1)个帧)的解码参数和子帧,和先前帧(即,第(n-1)个帧)的解码参数和子帧产生。
在这种情况下,参考公式35至37描述的内插也可以通过使用p个子帧(即,子帧的解码参数)(这里2≤p≤L)来执行。在这种情况下,内插的滤波系数(即,平滑比)可以根据在内插中使用的子帧的数目(即,子帧的解码参数)确定,而不是确定为对于应用两个子帧的情形使用的0.5。例如,如果使用p个子帧,则平滑比可以确定为1/p。
同时,虽然例如在前面提到的说明书中描述了ISP系数用作与LPC系数相关的解码参数的情形,但是本发明不受限于此。例如,用于ISP系数的内插方法同样可以与前面提到的ISP系数一起应用于LSP系数,并且也可以通过考虑变换为频率域应用于ISF系数和LSF系数。
虽然前面提到的示例性实施例的方法已经基于在其中步骤或者模块依次列出的流程图描述,但是本发明的步骤不局限于某个顺序。因此,某个步骤可以相对于上面的描述在不同的步骤中,或者以不同的顺序或者同时地执行。此外,前面提到的示例性实施例包括各种方面的示例。例如,前面提到的实施例可以以组合方式执行,并且这些也包括在本发明的实施例中。所有替换、修改和变化将落在本发明的权利要求书的精神和范围内。

Claims (18)

1.一种管理抖动缓存器的方法,所述方法包括:
接收语音信息帧;和
基于接收的语音信息帧执行抖动缓存器调整,
其中,所述抖动缓存器调整包括对音频信号的补偿,以及
其中,对所述音频信号的所述补偿以所述语音信息帧的子帧为单位执行。
2.根据权利要求1的方法,其中,对所述音频信号的所述补偿在所述音频信号的解码参数级别执行。
3.根据权利要求1的方法,其中,对所述音频信号的所述补偿基于所述音频信号帧的重要性执行。
4.根据权利要求3的方法,
其中,所述音频信号以重要性的升序变为音频信号补偿的目标,以及
其中,所述音频信号帧在连续的静默持续时间中具有最低的重要性。
5.根据权利要求1的方法,其中,如果执行帧抽取作为对所述音频信号的所述补偿,则关于抽取目标帧、所述抽取目标帧的先前帧和所述抽取目标帧的下一个帧,用于所述抽取目标帧的前一半子帧的解码参数被以用于所述先前帧的后一半子帧的解码参数替换,并且用于所述抽取目标帧的后一半子帧的解码参数被以用于所述下一个帧的前一半子帧的解码参数替换,由此抽取所述抽取目标帧。
6.根据权利要求1的方法,其中,如果执行帧抽取作为对所述音频信号的所述补偿,则子帧的新的解码参数通过内插用于构成音频信号帧的两个子帧的解码参数来产生。
7.根据权利要求1的方法,其中,如果执行帧抽取作为对所述音频信号的所述补偿,则关于抽取目标帧、作为所述抽取目标帧的先前帧的第一相邻帧和作为所述抽取目标帧的下一个帧的第二相邻帧,执行对于所述音频信号的所述补偿以产生补偿的第一相邻帧和补偿的第二相邻帧,用于所述补偿的第一相邻帧的后一半第一子帧的解码参数通过内插用于所述第一相邻帧的后一半子帧的解码参数产生,用于所述补偿的第一相邻帧的后一半第二子帧的解码参数通过内插用于所述抽取目标帧的前一半子帧的解码参数产生,用于所述补偿的第二相邻帧的前一半子帧的解码参数通过内插用于所述抽取目标帧的后一半子帧的解码参数产生,以及用于所述补偿的第二相邻帧的前一半第二子帧的解码参数通过内插用于所述第二相邻帧的前一半子帧的解码参数产生。
8.根据权利要求1的方法,其中,如果执行帧抽取作为对所述音频信号的所述补偿,则关于抽取目标帧和所述抽取目标帧的先前帧,执行对于所述音频信号的所述补偿以产生补偿的先前帧,所述补偿的先前帧的第一子帧通过内插用于所述先前帧的前一半子帧的解码参数产生,所述补偿的先前帧的第二子帧通过内插用于所述先前帧的后一半子帧的解码参数产生,所述补偿的先前帧的第三子帧通过内插用于所述抽取目标帧的前一半子帧的解码参数产生,以及所述补偿的先前帧的第四子帧通过内插所述抽取目标帧的后一半子帧的解码参数产生。
9.根据权利要求1的方法,其中,如果执行帧抽取作为对所述音频信号的所述补偿,则关于抽取目标帧和所述抽取目标帧的下一个帧,补偿的下一个帧通过对音频信号的补偿而产生,所述补偿的下一个帧的第一子帧通过内插用于所述抽取目标帧的前一半子帧的解码参数产生,所述补偿的下一个帧的第二子帧通过内插用于所述抽取目标帧的后一半子帧的解码参数产生,所述补偿的下一个帧的第三子帧通过内插用于所述下一个帧的前一半子帧的解码参数产生,以及所述补偿的下一个帧的第四子帧通过内插用于所述下一个帧的后一半子帧的解码参数产生。
10.根据权利要求1的方法,其中,如果执行帧抽取作为对所述音频信号的所述补偿,则新的子帧的解码参数通过内插用于构成音频信号帧的两个子帧的解码参数来产生。
11.根据权利要求1的方法,
其中,如果执行帧抽取作为对所述音频信号的所述补偿,则执行子帧内插,并且
其中所述子帧内插包括:
在构成音频信号帧的两个子帧之间产生新的子帧,以及
通过内插用于所述两个子帧的解码参数产生所述新的子帧的解码参数。
12.根据权利要求11的方法,其中,对于由在第一帧的四个子帧和第二子帧的第一子帧之中的相邻子帧组成的四个子帧对执行所述子帧内插。
13.根据权利要求11的方法,其中,对于由在第一帧的四个帧和第二帧的四个子帧之中的相邻子帧组成的四个帧对执行所述子帧内插。
14.根据权利要求11的方法,其中,对于第一帧的第二和第三子帧,第一帧的第三和第四子帧,第二帧的第一和第二子帧,以及第二帧的第二和第三子帧执行所述子帧内插。
15.根据权利要求11的方法,其中,对于第一帧的第一和第二子帧,第一帧的第三和第四子帧,第二帧的第一和第二子帧,以及第二帧的第三和第四子帧执行所述子帧内插。
16.一种抖动缓存器,包括:
用于接收语音信息帧的接收机;
用于存储和管理所述语音信息帧的缓存器;和
用于输出所述语音信息帧的输出单元,
其中,所述缓存器以接收的语音信息帧的子帧为单位补偿语音信息。
17.根据权利要求16的抖动缓存器,其中,所述缓存器在解码参数级别补偿所述语音信息。
18.根据权利要求16的抖动缓存器,其中,所述缓存器通过内插两个不同的子帧的解码参数产生新的解码参数。
CN201280061772.5A 2011-10-20 2012-10-22 管理抖动缓存器的方法和使用其的抖动缓存器 Expired - Fee Related CN103988255B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161549252P 2011-10-20 2011-10-20
US61/549,252 2011-10-20
US201261706053P 2012-09-26 2012-09-26
US61/706,053 2012-09-26
PCT/KR2012/008670 WO2013058626A2 (ko) 2011-10-20 2012-10-22 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼

Publications (2)

Publication Number Publication Date
CN103988255A true CN103988255A (zh) 2014-08-13
CN103988255B CN103988255B (zh) 2016-03-02

Family

ID=48141566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280061772.5A Expired - Fee Related CN103988255B (zh) 2011-10-20 2012-10-22 管理抖动缓存器的方法和使用其的抖动缓存器

Country Status (6)

Country Link
US (1) US9324336B2 (zh)
EP (1) EP2770504B1 (zh)
JP (1) JP5894286B2 (zh)
KR (1) KR102058714B1 (zh)
CN (1) CN103988255B (zh)
WO (1) WO2013058626A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107613320A (zh) * 2017-09-20 2018-01-19 高斯贝尔数码科技股份有限公司 一种传输流复用的插包控制方法及系统
CN109217975A (zh) * 2017-06-29 2019-01-15 大唐移动通信设备有限公司 一种数据处理方法和装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282980A1 (en) * 2010-05-11 2011-11-17 Udaya Kumar Dynamic protection of a resource during sudden surges in traffic
US9680689B2 (en) * 2013-02-14 2017-06-13 Comcast Cable Communications, Llc Fragmenting media content
JP2014167525A (ja) 2013-02-28 2014-09-11 Mitsubishi Electric Corp 音声復号装置
US9313250B2 (en) * 2013-06-04 2016-04-12 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
ES2667823T3 (es) 2013-06-21 2018-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad
PL3011692T3 (pl) 2013-06-21 2017-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sterowanie buforem rozsynchronizowania, dekoder sygnału audio, sposób i program komputerowy
US9521057B2 (en) * 2014-10-14 2016-12-13 Amazon Technologies, Inc. Adaptive audio stream with latency compensation
JP6531449B2 (ja) * 2015-03-20 2019-06-19 沖電気工業株式会社 音声処理装置、プログラム及び方法、並びに、交換装置
GB201614356D0 (en) * 2016-08-23 2016-10-05 Microsoft Technology Licensing Llc Media buffering
CN116631416A (zh) * 2017-01-10 2023-08-22 弗劳恩霍夫应用研究促进协会 音频解码器、提供解码的音频信号的方法、和计算机程序
GB2571526A (en) 2018-02-28 2019-09-04 Sony Corp Data buffer and data buffer control
US11595316B2 (en) * 2018-06-01 2023-02-28 Apple Inc. Adaptive and seamless playback buffer adjustment for streaming content

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1531276A (zh) * 2003-03-13 2004-09-22 华为技术有限公司 用于消除ip语音数据抖动的自适应抖动缓存实现方法
US7266127B2 (en) * 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US7379466B2 (en) * 2004-04-17 2008-05-27 Innomedia Pte Ltd In band signal detection and presentation for IP phone
CN101449545A (zh) * 2006-05-19 2009-06-03 卢森特技术有限公司 使用抖动缓冲器通信及处理voip数据包的方法和系统
US20110077945A1 (en) * 2007-07-18 2011-03-31 Nokia Corporation Flexible parameter update in audio/speech coded signals

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
US6389032B1 (en) * 1999-02-11 2002-05-14 International Business Machines Corporation Internet voice transmission
DE60030069T2 (de) 1999-11-23 2007-02-22 Texas Instruments Inc., Dallas Verschleierungsverfahren bei Verlust von Sprachrahmen
AU2094201A (en) * 1999-12-13 2001-06-18 Broadcom Corporation Voice gateway with downstream voice synchronization
JP2005157045A (ja) 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd 音声伝送方法
JP4146489B2 (ja) 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP4751245B2 (ja) 2006-06-20 2011-08-17 パナソニック株式会社 音声伝送装置および音声伝送方法
JP5121408B2 (ja) 2007-11-13 2013-01-16 株式会社タダノエンジニアリング ジャッキ付き作業機のジャッキに着脱される構造物の積み降ろし装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7266127B2 (en) * 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
CN1531276A (zh) * 2003-03-13 2004-09-22 华为技术有限公司 用于消除ip语音数据抖动的自适应抖动缓存实现方法
US7379466B2 (en) * 2004-04-17 2008-05-27 Innomedia Pte Ltd In band signal detection and presentation for IP phone
CN101449545A (zh) * 2006-05-19 2009-06-03 卢森特技术有限公司 使用抖动缓冲器通信及处理voip数据包的方法和系统
US20110077945A1 (en) * 2007-07-18 2011-03-31 Nokia Corporation Flexible parameter update in audio/speech coded signals

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109217975A (zh) * 2017-06-29 2019-01-15 大唐移动通信设备有限公司 一种数据处理方法和装置
CN107613320A (zh) * 2017-09-20 2018-01-19 高斯贝尔数码科技股份有限公司 一种传输流复用的插包控制方法及系统
CN107613320B (zh) * 2017-09-20 2019-09-06 高斯贝尔数码科技股份有限公司 一种传输流复用的插包控制方法及系统

Also Published As

Publication number Publication date
JP5894286B2 (ja) 2016-03-23
US9324336B2 (en) 2016-04-26
KR102058714B1 (ko) 2019-12-23
US20140310008A1 (en) 2014-10-16
WO2013058626A3 (ko) 2013-06-13
CN103988255B (zh) 2016-03-02
EP2770504A2 (en) 2014-08-27
JP2014531055A (ja) 2014-11-20
KR20140085452A (ko) 2014-07-07
WO2013058626A2 (ko) 2013-04-25
EP2770504A4 (en) 2015-08-05
EP2770504B1 (en) 2016-11-30

Similar Documents

Publication Publication Date Title
CN103988255B (zh) 管理抖动缓存器的方法和使用其的抖动缓存器
KR101344110B1 (ko) 로버스트 디코더
CN101189662B (zh) 带多级码本和冗余编码的子带话音编解码器
CN1735927B (zh) 用于高质量语音编码转换的方法和装置
CN102985969A (zh) 编码装置、解码装置和编码方法、解码方法
US8036390B2 (en) Scalable encoding device and scalable encoding method
CN104025189A (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
US7634402B2 (en) Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof
CN113196389A (zh) 语音解码器中的相位重构
EP3899931B1 (en) Phase quantization in a speech encoder
KR20170003596A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
US20040054529A1 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
KR100341398B1 (ko) 씨이엘피형 보코더의 코드북 검색 방법
JPH09297597A (ja) 高能率音声伝送方法及び高能率音声伝送装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20171022

CF01 Termination of patent right due to non-payment of annual fee