CN1735927B - 用于高质量语音编码转换的方法和装置 - Google Patents

用于高质量语音编码转换的方法和装置 Download PDF

Info

Publication number
CN1735927B
CN1735927B CN2004800020527A CN200480002052A CN1735927B CN 1735927 B CN1735927 B CN 1735927B CN 2004800020527 A CN2004800020527 A CN 2004800020527A CN 200480002052 A CN200480002052 A CN 200480002052A CN 1735927 B CN1735927 B CN 1735927B
Authority
CN
China
Prior art keywords
codec
module
parameter
destination
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2004800020527A
Other languages
English (en)
Other versions
CN1735927A (zh
Inventor
马尔万·贾布里
王建伟
尼古拉·昌雄-怀特
迈克尔·易卜拉欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dilithium (assignment for the benefit of creditors) LLC
Dilithium network Co.
Dilithium Networks Inc
Original Assignee
Dilithium Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dilithium Networks Inc filed Critical Dilithium Networks Inc
Publication of CN1735927A publication Critical patent/CN1735927A/zh
Application granted granted Critical
Publication of CN1735927B publication Critical patent/CN1735927B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于语音编码转换器的方法和装置,其使用利用调节的加权因子的感觉加权操作,将代表根据第一语音压缩标准而编码的数据帧的比特流转换为代表根据第二语音压缩标准的数据帧的比特流,从而使得第二语音压缩标准的比特流产生比可比较的串行编码转换解决方案更高质量的解码语音信号。该方法包括预先计算感觉加权滤波器的针对特定源和目的地编解码器对而被优化的加权因子;预先配置编码转换策略;根据所选择的编码策略映射码激励线性预测参数空间中的码激励线性预测参数;如果被编码转换策略规定,则执行线性预测分析;使用调节的加权因子来对话音进行感觉加权;以及搜索自适应码书和固定码书参数,以获得目的地编解码器参数的量化集合。

Description

用于高质量语音编码转换的方法和装置
相关申请的交叉引用
本申请要求2003年1月9日提交的题为“High Quality AudioTranscoding”的美国临时专利申请No.60/439,420的优先权,其通过引用结合于此,以用于各种目的。
背景技术
本发明一般地涉及处理电信信号。更具体地说,本发明涉及用于提高将数字数据包从一种压缩格式转换为另一种压缩格式的编码转换器的输出信号质量的方法和装置。仅通过示例的方式,本发明被应用于码激励线性预测(Code-Excited Linear Prediction,CELP)编解码器(codec)之间的语音编码转换,但是应当理解,本发明具有更加广泛的应用。在这里,可应用的种类的编解码器标记为“普通”编解码器。
从一种语音压缩格式到另一种语音压缩格式的转换处理可使用各种技术来执行。串行(tandem)编码手段是将压缩信号完全解码,回到脉冲编码调制(PCM)表达形式,然后重新编码该信号。这需要大量处理,并且会导致延迟增加。更有效率的手段包括这样的编码转换方法,其中压缩参数在被保留在参数空间中的同时,从一种压缩格式被转换为另一种。
很多当前的标准化低比特率话音编码器都是基于码激励线性预测(CELP)模型的。CELP编码器的公共参数是线性预测参数、自适应码书延时(adaptive codebook lag)和增益参数,以及固定码书索引和增益参数。
基于CELP的编解码器之间的相似性使得可以利用它们同有的处理冗余度。图1示出了典型现有技术CELP解码器的框图。该解码器接收由若干参数组成的比特流作为输入,所述若干参数一般代表固定码书索引、固定码书增益、自适应码书增益、自适应码书(基音(pitch))延时以及线性预测(LP)参数。解码器构造固定码字,然后固定码字被码书增益按比例换算。自适应码字是被基音延时所延迟,并被自适应增益按比例换算的先前的激励段,其被添加到固定码书分量。然后,所得到的激励信号被用于产生合成话音的短期预测器滤波。然后,该话音被后滤波,以便减小任何合成迹象的可感觉程度并提高话音质量。
图2示出了典型现有技术CELP编码器的框图。首先,进入话音信号被预处理,例如被高通滤波以去除任何多余信息,例如极低频信息。接着,通过线性预测(LP)分析来提取谱形状信息。LP参数通常用线谱对(Line Spectral Pairs,LSP)来代表,并且被量化。然后,利用反LP合成滤波器对话音信号进行滤波,以去除谱包络分量并产生激励信号。经过预处理的话音和激励被感觉加权(perceptual weighting)滤波器滤波。经常使用开环基音延时搜索和闭环(合成分析)基音延时和基音增益搜索来分析被感觉加权的话音的周期性。从被感觉加权的话音中减去基音分量,以创建用于固定码书搜索的目标信号。固定码书搜索由合成分析算法组成,其中各种码字被评估,以最小化合成码字和目标信号之间的误差。
编码转换针对当两种不兼容的标准的编码需要互相操作时出现的问题。图3所示的传统的现有技术串行编码方案是将来自一种压缩格式的信号完全解码为PCM,然后使用另一种压缩格式来对PCM信号重新编码。该方案的缺点是计算复杂,而且完全解码和完全编码会引入质量劣化。可替换地,可以使用如图4所示的现有技术编码转换器,其将比特流从一种压缩格式转换为不同的压缩格式,而并不将信号完全解码为PCM然后对其重新编码。
一些编码转换手段包括仅转换CELP域中的参数。这些方法的优点是减小了计算复杂度。图5示出了一种现有技术编码转换手段的示例,其中源编解码器LSP被直接翻译并量化为目的地编解码器格式。然后,使用目的地编解码器LSP来合成话音,并且使用搜索算法找出其余的CELP参数。这种技术并未最大限度地提高编码转换信号的质量,而且在某些条件下未必是最佳方案。
虽然已经开发了以快速的方式将一种CELP格式的参数映射到另一种的灵活的编码转换技术,但是仍然非常希望有这样的编码转换方案:其提供具有比传统串行编码方案更高质量的被编码转换的话音,并且可以被配置和调整用于具体的源和目的地编解码器对。
发明内容
根据本发明,提供了一种方法和装置,用于通过包括使用具有调节的加权因子的加权滤波器来对话音进行感觉加权,提高将数字数据包从一种压缩格式转换为另一种压缩格式的编码转换器的输出信号质量。仅通过示例的方式,本发明已被应用于码激励线性预测(CELP)编解码器之间的语音编码转换,但是应当理解,本发明具有更广泛的应用,如在此处和此后被称为普通编解码器中的应用。
在具体实施例中,本发明提供了用于基于CELP的语音编解码器之间的高质量语音编码转换的方法和装置。该装置包括:输入CELP参数解包模块,其将输入比特流数据包转换为CELP参数的输入集合;线性预测参数生成模块,用于确定目的地编解码器线性预测(LP)参数;使用调节的加权因子的感觉滤波器模块;激励参数生成模块,用于确定目的地编解码器的激励参数;打包模块,用于打包目的地编解码器比特流;以及控制模块,其配置编码转换策略并控制编码转换处理。线性预测参数生成模块包括LP分析模块和LP参数内插和映射模块。激励参数生成模块包括自适应和固定码书参数搜索模块,以及自适应和固定码书参数内插和映射模块。
所述方法包括:预先计算感觉加权滤波器的针对特定源和目的地编解码器对而被优化的加权因子,并将它们存储在系统中;预先配置编码转换策略;解包源编解码器比特流;重构话音;根据所选择的编码策略映射CELP参数空间中的至少一个(一般多于一个)CELP参数;如果被编码转换策略规定,则执行LP分析;使用具有调节的加权因子的加权滤波器来对话音进行感觉加权;以及搜索一个或多个自适应码书和固定码书参数,以获得目的地编解码器参数的量化集合。对话音的重构不包括任何后滤波处理。另外,作为输入传递给LP分析和话音感觉加权的重构的话音不经历任何预处理滤波或噪声抑制。映射一个或多个CELP参数包括如果在源和目的地编解码器之间存在帧大小或子帧大小上的差别,则对参数进行内插。CELP参数可包括LP系数、自适应码书基音延时、自适应码书增益、固定码书索引、固定码书增益、激励信号,以及其他与源和目的地编解码器有关的参数。搜索自适应码书和固定码书参数的操作可与CELP参数的搜索和转换操作进行组合,以获得高语音质量。这是由编码转换策略控制的。搜索模块中的算法可以不同于标准目的地编解码器自身中使用的算法。
本发明的优点在于,与串行编码解决方案相比,其提供了具有高语音质量和低复杂度的编码转换后的语音信号。组合了用于确定参数值的映射和搜索处理的处理策略可适用于不同的源和目的地编解码器对。
本发明的目的、特征和优点在所附权利要求中被具体列出,这些目的、特征和优点以我们现有的知识来看是新颖的。结合附图,参照下面的说明,将最好地理解本发明及其组成和操作方式,以及进一步的目的和优点。
附图说明
图1是示出了现有技术CELP解码器的示例的简化框图。
图2是示出了现有技术CELP编码器的示例的简化框图。
图3是示出了现有技术串行编码过程的简化框图。
图4是示出了不对信号完全解码和重新编码的现有技术的编码转换过程的简化框图。
图5是现有技术的编码转换手段的简化框图。
图6是高语音质量编码转换器方法的示意图。
图7是示出了根据本发明的实施例,从一个基于CELP的编解码器到另一个基于CELP的编解码器的高语音质量编码转换器的框图。
图8是示出了在根据本发明的实施例的高语音质量编码转换器的激励参数生成模块中,由编码转换策略控制的处理选项的框图。
图9是示出了在根据本发明的实施例的高语音质量编码转换器中,激励参数搜索模块的另一种形式。
图10是示出了根据本发明的实施例的高质量语音编码转换方法的流程图。
图11是根据本发明实施例的激励参数搜索方法的流程图。
图12是根据本发明的实施例,获取用于特定源和目的地编解码器对的话音感觉加权滤波器的加权因子的处理示意图。
图13是示出了从EVRC到SMV的串行编码转换中使用的后处理和预处理功能的流程图。
具体实施方式
在本发明的具体实施例中,采用了基于码激励线性预测(CELP)的压缩方案。使用基于CELP的压缩方案的音频压缩是用来减小用于音频传输和存储的数据带宽的常用技术。因此,可以使用为其定义了公共编解码器参数空间的任何普通编解码器。在很多情况下,希望具有跨越不同网络进行通信的能力,例如从因特网协议(IP)网络到蜂窝移动电话网络。这些网络使用不同的CELP压缩方案,以便进行音频通信,尤其是语音。不同的CELP编码标准虽然互不兼容,但是它们通常使用类似的分解和压缩技术。
图6所示的示图示出了根据本发明,对从编码转换得到的高语音质量或目标有贡献的若干因素。除了去掉后处理和预处理功能之外,对优化后的感觉加权因子、被配置的编码转换策略、CELP域中的参数映射以及高级搜索功能的使用有助于获得更高质量的编码转换信号。
图7示出了根据本发明的高质量编码转换器的框图。该装置包括:解包模块,其将输入源编解码器比特流数据包转换为一组公共编解码器参数,例如CELP参数;线性预测参数生成模块,用于确定目的地编解码器参数,例如线性预测(LP)参数;感觉加权滤波器模块,其使用调节的或定制的加权因子;激励参数生成模块,用于确定目的地编解码器的激励参数;打包模块,用于将目的地编解码器比特流打包;以及控制模块,其配置编码转换策略并控制编码转换处理。线性预测参数生成模块包括线性预测(LP)分析模块、LP参数内插和映射模块。激励参数生成模块包括自适应和固定码书参数搜索模块,以及自适应和固定码书参数内插和映射模块。控制模块根据编码转换策略,控制是否执行参数映射或搜索。
编码转换策略依赖于源和目的地编解码器的相似性而被配置,以便优化从源编码CELP参数到目的地编码CELP参数的映射。图8和图9示出了这样的激励参数生成模块,其中依赖于编码转换策略,诸如直接映射、搜索或者(在相同的源和目的地编解码器的情况时)通过(pass-through)之类的若干搜索过程中的一个可被选择用于确定每个激励参数。用于编码转换器中的自适应码书搜索和固定码书搜索的算法可与传统或标准目的地CELP编解码器的不同。在搜索过程中,感觉加权滤波器被用来对量化噪声进行整形。感觉加权因子不一定要与目的地标准中所定义的一样。考虑到源编解码器特性,它们可例如依据经验方法而被精细调节或定制。该操作可进一步提高音频质量。
通过不使用不需要的源编解码器后滤波、目的地编解码器前滤波、目的地编解码器LP分析或目的地编解码器开环基音搜索等计算密集步骤,本发明的编码转换算法可变得比传统的串行解决方案更有效率。通过直接映射一个或多个激励参数而不是执行复杂的搜索,可以实现进一步的节约。
图10示出了本发明的语音编码转换处理的实施例的流程图。如果源和目的地编解码器的类型和比特率相同,则不需要(CELP)参数搜索,并且输出比特流被设置为输入比特流。否则,该比特流就被解包。重构激励信号并合成话音。在对所合成的话音执行LP分析或映射来自源编解码器的LP参数两者之间进行选择。使用具有下述加权因子的感觉加权合成滤波器来生成用于确定激励参数的目标和冲激响应信号,其中所述加权因子针对具体的源编解码器和目的地编解码器对而被优化。通过搜索来确定其余的公共编解码器(CELP)参数,然后将它们打包到输出比特流。
图11示出了公共编解码器(CELP)参数搜索方法的实施例的流程图。对于自适应码书延时、自适应码书增益、固定码书索引和固定码书增益的公共编解码器参数中的每一个,确定是直接映射来自源编解码器(CELP)参数集的参数,还是执行对该参数的搜索。该确定操作是由所选择的编码转换策略控制的,该策略是基于源和目的地编解码器对的。
图12示出了用于优化在搜索目的地编解码器的激励参数中使用的感觉加权滤波器的加权因子的过程。感觉加权滤波器可由传递函数表达:
H w ( z ) = A ( z γ 1 ) A ( z γ 2 )
其中A(z)=1+a1z-1+a2z-2+…+aNz-N,a1,…代表用于当前话音段的线性预测系数,1、2是加权因子。通过对加权因子进行调节或定制以最好地适合源和目的地编解码器对,编码转换后的输出话音的质量可以提高。这可使用自动反馈方法或使用通过执行以下步骤的经验方法来实现:使用不同的加权因子组合来对一组测试样本执行编码转换,使用主观或客观方法来评估输出语音质量,并保留对于该特定的源和目的地编解码器对得到了最高感知到的或测得的输出语音质量的加权因子。
作为一个示例,高质量语音编码转换被应用在GSM-AMR(所有模式)和G.729之间。本领域的技术人员将认识到可采用其他步骤、配置和设计,而不偏离本发明的精神和范围。
GSM-AMR标准利用20ms帧,其被划分为4个5ms子帧。对于最高GSM-AMR模式,对每帧执行两次LP分析,而对所有其他模式,每帧执行一次。从感觉加权的话音信号获得开环基音估计。对12.2kbps模式,每帧执行两次,对其他模式,每帧执行一次。对每个子帧,闭环基音搜索和固定码字搜索都被执行一次,并且固定码书是基于交错单脉冲排列(interleaved single-pulse permutation,ISPP)设计。
G.729标准利用10ms帧,其被划分为2个5ms子帧。对每帧执行一次LP分析。对于每帧,在感觉加权话音信号上计算一次开环基音估计。与GSM-AMR类似,对每个子帧,闭环基音搜索和固定码字搜索都被执行一次,并且固定码书是基于交错单脉冲排列(ISPP)设计。
对于G.729到GSM-AMR编码转换器,两个输入G.729帧产生一个GSM-AMR输出帧。从输入比特流解包并解码LP参数、码书索引、增益和基音延时。由于搜索过程、码书和某些参数的量化频率的差别,最佳编码转换策略可能依赖于AMR模式而有所不同。具体地说,与G.729和AMR 7.95kbps相关的相似性可能会导致这样的编码转换策略配置:与G.729到AMR 4.75kbps编码转换器相比,该策略选择更多的用于直接映射的参数和更少的用于搜索的参数。
如果编码转换策略规定一些激励参数通过搜索方法找到,则合成重构激励信号被感觉加权,以产生目标信号。每种模式的感觉加权滤波器的最佳加权因子以及编码转换器的源和目的地编解码器的比特率是在编码转换前确定的。一般,当从G.729到AMR 12.2kbps进行编码转换时,将使用与到其他AMR模式的编码转换不同的一组加权因子,所述到其他AMR模式的编码转换例如从G.729到AMR 7.95kbps,或从G.729到AMR 4.75kbps。
在编码转换时,质量上限是源编解码器质量或目的地编解码器质量中较低者。本发明的高质量语音编码转换能够显著减小质量上限和通过串行编码解决方案获得的质量之间的质量差别。
在可替换实施例中,语音编码转换被应用在编码转换器中,由此源编解码器是增强型可变速率编码器(Enhanced Variable Rate Codec,EVRC),目的地编解码器是可选模式声码器(Selectable Mode Vocoder,SMV)。SMV和EVRC都是采用内建噪声抑制算法的公共编解码器参数类型。串行编码转换解决方案中使用的EVRC的后处理功能和SMV的预处理功能的流程图示出在图13中。通过去掉EVRC后滤波、SMV高通滤波、SMV寂静增强、SMV噪声抑制以及SMV自适应倾斜滤波等处理中的一个或多个,可获得与串行编码转换解决方案相比具有更低复杂度和更高质量的编码转换解决方案。由于EVRC已经使用了噪声抑制,输入中的多数背景噪声已经在源编码器处被去掉,因此编码转换期间的第二噪声抑制算法造成话音进一步恶化,而几乎没有改变背景噪声级别。使用对感觉加权因子的优化、映射CELP域中的一些参数并通过搜索来确定一些参数的混合编码转换策略,可实现进一步减小复杂度和/或提高质量。
用于高语音质量编码转换的本发明对基于CELP的编解码器之间的所有语音编码转换都是通用的,并且适用于现有的编解码器G.732.1、GSM-EFR、GSM-AMR、EVRC、G.728、G.729、SMV、QCELP、MPEG-4CELP、AMR-WB中的任何语音编码转换器,以及使用语音编码转换的所有其他未来的基于CELP的语音编码转换器。上述对其定义了公共编解码器参数空间的每种普通编解码器标准被认为是示例性的而非限制性的。
上述对具体实施例的描述被提供以使本领域的普通技术人员可制造或使用本发明。对本领域的技术人员来说,很明显可对这些实施例作出各种修改,而且这里定义的一般原则不需要创造性能力就可被应用于其他实施例。因此,本发明并不限于此处所示的实施例,而是符合与此处公开的原理和特征相一致的最大范围。

Claims (29)

1.一种用于从源编解码器格式的源编码比特流产生目的地编解码器格式的目的地编码比特流的语音编码转换器的装置,其中,所述源编解码器格式和所述目的地编解码器格式与码激励线性预测编解码器相关,所述装置包括:
解包模块,所述解包模块可操作来解包源编解码器比特流,并且将信息解码为重构的话音信号和对其定义了公共编解码器参数空间的普通编解码器的至少一个参数;
线性预测参数生成模块,所述线性预测参数生成模块可操作来通过从源编解码器线性预测参数进行映射或通过线性预测分析,生成目的地编解码器线性预测参数;
感觉加权滤波器模块,所述感觉加权滤波器模块可操作来使用加权因子对所述重构的话音信号进行加权,其中所述加权因子与所述源编解码器和所述目的地编解码器之间的编码转换相关并被优化用于所述源编解码器和所述目的地编解码器之间的编码转换;
激励参数生成模块,用于确定目的地编解码器格式的至少一个公共编解码器激励参数,所述参数生成模块可操作来提供用于每个所述公共编解码器激励参数的直接映射处理和搜索处理;
打包模块,所述打包模块可操作来将目的地编解码器公共编解码器参数打包到比特流;以及
控制模块,用于选择编码转换策略和提供附加控制信息。
2.如权利要求1所述的装置,其中,所述线性预测参数生成模块包括:
线性预测参数映射和转换模块,用于在确定源编解码器帧大小和目的地编解码器帧大小之间的差异后,对所述线性预测参数进行内插,以及将所述线性预测参数映射到所述目的地编解码器格式;以及
线性预测分析模块,用于使用所述源编码比特流从重构的话音信号生成线性预测参数。
3.如权利要求1所述的装置,其中,所述感觉加权滤波器模块的优化的加权因子是在编码转换和被存储作为所述装置的一部分之前,被预先计算的。
4.如权利要求1所述的装置,其中,所述激励参数生成模块包括:
第一模块,用于将源编解码器激励参数格式直接映射到目的地编解码器激励参数格式;
第二模块,用于搜索所述源编解码器激励参数和所述目的地编解码器激励参数;以及
用于第三激励参数的通过模块,如果所述源编解码器和所述目的地编解码器的类型相同并且各自的比特率相同,则使用所述第三激励参数。
5.如权利要求4所述的装置,其中,用于激励参数的直接映射的所述第一模块包括自适应码书基音延时映射模块、自适应码书基音增益映射模块、固定码书增益映射模块以及固定码书索引映射模块。
6.如权利要求4所述的装置,其中,用于搜索激励参数的所述第二模块包括自适应码书基音延时搜索模块、自适应码书基音增益搜索模块、固定码书增益搜索模块、固定码书索引搜索模块以及激励重构模块。
7.如权利要求4所述的装置,其中,用于激励参数的所述通过模块包括自适应码书基音延时通过模块、自适应码书基音增益通过模块、固定码书增益通过模块、固定码书索引通过模块以及激励重构模块。
8.如权利要求1所述的装置,其中,所述控制模块可操作来采用包括一组规则的编码转换策略以确定编码转换的具体处理,其中,所述编码转换策略组合了映射和搜索过程。
9.如权利要求1所述的装置,其中,所述线性预测参数生成模块由所述控制模块控制。
10.如权利要求1所述的装置,其中,所述激励参数生成模块由所述控制模块控制。
11.如权利要求1所述的装置,其中,所述源编解码器的重构的话音不被预处理。
12.如权利要求1所述的装置,其中,所述线性预测参数生成模块还包括:
线性预测参数映射和转换模块,用于将所述线性预测参数映射到所述目的地编解码器格式,其中所述映射包括在确定源编解码器子帧大小和目的地编解码器子帧大小之间的差异后,对所述线性预测参数进行内插。
13.不具有噪声抑制功能的如权利要求1所述的装置。
14.不具有后滤波和增益调节的如权利要求1所述的装置。
15.一种用于从源编解码器格式的源编码比特流产生目的地编解码器格式的目的地编码比特流,以便执行码激励线性预测编解码器之间的语音编码转换的方法,所述方法包括:
确定并存储用于感觉加权滤波器的加权因子,所述加权因子与所述源编解码器和所述目的地编解码器之间的编码转换有关并被优化用于所述源编解码器和所述目的地编解码器之间的编码转换;
对每个预先选择的编码转换对配置编码转换策略;
解包所述源编解码器比特流,以产生源编解码器公共编解码器参数;
使用源编解码器公共编解码器参数来重构重构的话音信号;
根据所选择的编码转换策略,映射公共编解码器参数的参数空间中的一个或多个参数;
根据所选择的编码转换策略,使用所述感觉加权滤波器来对所述重构的话音信号进行感觉加权;
根据所选择的编码转换策略,搜索一个或多个激励参数;以及
将目的地编解码器公共编解码器参数打包到目的地编解码器比特流。
16.如权利要求15所述的方法,其中,所述公共编解码器参数是由线性编码定义的,所述方法还包括以下中间步骤:
根据所选择的编码转换策略,从所述重构的话音信号执行线性预测分析,以确定用于进一步处理的线性预测系数。
17.如权利要求15所述的方法,其中,所述激励参数映射包括在确定源编解码器和目的地编解码器之间的帧大小、子帧大小和可映射特性的差别中的至少一个后,通过对源编解码器参数进行内插,确定自适应码书基音延时、自适应码书基音增益、固定码书索引和固定码书增益中至少一个的量化值;以及
直接将激励参数转换为目的地编解码器格式。
18.如权利要求15所述的方法,其中,所述激励参数搜索步骤包括通过将重构的信号和目标信号之间的误差最小化,确定自适应码书基音延时、自适应码书基音增益、固定码书索引和固定码书增益中至少一个的量化值。
19.如权利要求15所述的方法,其中,编码转换策略配置步骤包括选择若干各自的映射和搜索选项,来确定信号处理流程,其中,所述编码转换策略与所述原编解码器和所述目的地编解码器之间的相似性有关。
20.如权利要求15所述的方法,其中,编码转换策略规定这样的处理,通过所述处理,一些参数首先从所述公共编解码器参数映射获得,而其余参数通过搜索过程获得。
21.如权利要求15所述的方法,其中,编码转换策略规定这样的处理,通过所述处理,来自源编解码器的所有公共编解码器参数被映射到目的地编解码器而不进行搜索。
22.如权利要求15所述的方法,其中,对话音信号重构不包括后处理操作。
23.如权利要求15所述的方法,其中,在话音感觉加权之前不执行噪声抑制或话音预处理。
24.如权利要求15所述的方法,其中,所述编码转换策略包括:
在确定编码转换对的源编解码器和目的地编解码器之间存在类似的码激励线性预测参数压缩处理后,直接映射码激励线性预测参数;
如果需要搜索以确定目的地编解码器的码激励线性预测参数,则执行话音重构和话音感觉加权;
如果在编码转换对中的源编解码器和目的地编解码器之间存在线性预测参数压缩处理上的实质差别,并且如果线性预测参数内插、映射和转换的步骤没有产生编码转换中的目标输出语音质量,则执行线性预测分析,
如果需要线性预测分析处理,则搜索自适应码书;
如果1)自适应码书参数压缩处理在编码转换对中的源编解码器和目的地编解码器之间有实质差别,以及2)自适应码书参数空间映射方法没有产生编码转换中的目标输出语音质量,则搜索自适应码书;
如果需要自适应码书搜索,则搜索固定码书;
如果固定码书参数压缩处理在编码转换对中的源编解码器和目的地编解码器之间有实质差别,以及如果固定码书参数空间映射方法没有产生编码转换中的目标输出语音质量,则搜索固定码书。
25.如权利要求15所述的方法,其中,所述加权因子获取步骤包括使用不同的加权因子值来对一组语音样本进行编码转换,对编码转换后的语音信号执行语音质量测试,以及选择用于特定源编解码器和目的地编解码器对的特定加权因子,以便产生目标语音质量。
26.如权利要求15所述的方法,其中,所述加权因子获取步骤包括找出对于每种可能模式以及源编解码器和目的地编解码器的比特率组合的最佳加权因子。
27.如权利要求15所述的方法,其中,所述搜索一个或多个激励参数使用的是与和所述目的地编解码器格式相关的标准中所提供的算法不同的算法。
28.如权利要求15所述的方法,其中,所述搜索还包括最小化重构的信号与目标信号之间的误差,并映射或搜索自适应码书基音延迟、自适应码书基音增益、固定码书索引和固定码书增益中至少一个。
29.如权利要求15所述的方法,其中,所述搜索一个或多个激励参数包括使用具有下述加权因子的感觉加权合成滤波器生成目标信号和冲激响应信号,其中所述加权因子针对所述源编解码器和所述目的地编解码器而被优化。
CN2004800020527A 2003-01-09 2004-01-09 用于高质量语音编码转换的方法和装置 Expired - Fee Related CN1735927B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US43942003P 2003-01-09 2003-01-09
US60/439,420 2003-01-09
PCT/AU2004/000014 WO2004064041A1 (en) 2003-01-09 2004-01-09 Method and apparatus for improved quality voice transcoding

Publications (2)

Publication Number Publication Date
CN1735927A CN1735927A (zh) 2006-02-15
CN1735927B true CN1735927B (zh) 2011-08-31

Family

ID=32713478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800020527A Expired - Fee Related CN1735927B (zh) 2003-01-09 2004-01-09 用于高质量语音编码转换的方法和装置

Country Status (5)

Country Link
US (3) US7263481B2 (zh)
EP (1) EP1579427A4 (zh)
KR (1) KR100837451B1 (zh)
CN (1) CN1735927B (zh)
WO (1) WO2004064041A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4108317B2 (ja) * 2001-11-13 2008-06-25 日本電気株式会社 符号変換方法及び装置とプログラム並びに記憶媒体
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7257130B2 (en) * 2003-06-30 2007-08-14 Texas Instruments Incorporated Asymmetric companion codecs
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US20070250308A1 (en) * 2004-08-31 2007-10-25 Koninklijke Philips Electronics, N.V. Method and device for transcoding
GB2418818B (en) * 2004-10-01 2007-05-02 Siemens Ag A method and an arrangement to provide a common platform for tencoder and decoder of various CELP codecs
US20060095261A1 (en) * 2004-10-30 2006-05-04 Ibm Corporation Voice packet identification based on celp compression parameters
EP1829027A1 (en) * 2004-12-15 2007-09-05 Telefonaktiebolaget LM Ericsson (publ) Method and device for encoding mode changing of encoded data streams
EP2127230A4 (en) * 2007-02-09 2014-12-31 Onmobile Global Ltd METHOD AND APPARATUS FOR ADAPTING MULTIMEDIA CONTENT IN TELECOMMUNICATIONS NETWORKS
EP2118769A2 (en) * 2007-02-09 2009-11-18 Dilithium Networks Pty Ltd. Method and apparatus for a multimedia value added service delivery system
JP5596341B2 (ja) * 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法
US8300849B2 (en) * 2007-11-06 2012-10-30 Microsoft Corporation Perceptually weighted digital audio level compression
CN101572093B (zh) * 2008-04-30 2012-04-25 北京工业大学 一种转码方法和装置
WO2010009660A1 (zh) * 2008-07-25 2010-01-28 华为技术有限公司 一种数据帧的转换方法及装置
EP2321969A4 (en) * 2008-09-09 2012-05-09 Onmobile Global Ltd METHOD AND APPARATUS FOR VIDEO TRANSMISSION
US8838824B2 (en) * 2009-03-16 2014-09-16 Onmobile Global Limited Method and apparatus for delivery of adapted media
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
KR20110068792A (ko) * 2009-12-16 2011-06-22 한국전자통신연구원 적응적 영상 부호화 장치 및 방법
US20110300874A1 (en) * 2010-06-04 2011-12-08 Apple Inc. System and method for removing tdma audio noise
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
CN102143185B (zh) * 2011-03-31 2015-11-25 北京经纬恒润科技有限公司 数据传输方法和数据传输装置
US9185152B2 (en) * 2011-08-25 2015-11-10 Ustream, Inc. Bidirectional communication on live multimedia broadcasts
RU2610588C2 (ru) * 2012-11-07 2017-02-13 Долби Интернешнл Аб Вычисление отношения сигнал-шум конвертора с уменьшенной сложностью
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
KR102271852B1 (ko) 2013-11-02 2021-07-01 삼성전자주식회사 광대역 신호 생성방법 및 장치와 이를 채용하는 기기
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9510125B2 (en) * 2014-06-20 2016-11-29 Microsoft Technology Licensing, Llc Parametric wave field coding for real-time sound propagation for dynamic sources
EP3182412B1 (en) 2014-08-15 2023-06-07 Samsung Electronics Co., Ltd. Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
CN107113357B (zh) * 2014-12-23 2021-05-28 杜比实验室特许公司 与语音质量估计相关的改进方法和设备
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN107979378B (zh) * 2017-12-14 2022-09-02 深圳Tcl新技术有限公司 惯性数据压缩方法、服务器及计算机可读存储介质
CN108768587B (zh) * 2018-05-11 2021-04-27 Tcl华星光电技术有限公司 编码方法、设备及可读存储介质
US10602298B2 (en) 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
CN112565254B (zh) * 2020-12-04 2023-03-31 深圳前海微众银行股份有限公司 数据传输方法、装置、设备与计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1202251A2 (en) * 2000-10-30 2002-05-02 Fujitsu Limited Transcoder for prevention of tandem coding of speech

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US5704001A (en) * 1994-08-04 1997-12-30 Qualcomm Incorporated Sensitivity weighted vector quantization of line spectral pair frequencies
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
KR100776529B1 (ko) * 2000-03-13 2007-11-16 소니 가부시끼 가이샤 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및 장치
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
WO2002080417A1 (en) 2001-03-28 2002-10-10 Netrake Corporation Learning state machine for use in networks
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
EP1464047A4 (en) 2002-01-08 2005-12-07 Dilithium Networks Pty Ltd TRANSCODE SCHEME BETWEEN CELP-BASED LANGUAGE CODES
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP2004222009A (ja) 2003-01-16 2004-08-05 Nec Corp 異種網接続ゲートウェイおよび異種網間通信課金システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1202251A2 (en) * 2000-10-30 2002-05-02 Fujitsu Limited Transcoder for prevention of tandem coding of speech

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chen J.-H.
Chen, J.-H., Jayant, N. and Cox, R.V..IMPROVING THE PERFORMANCE OF THE 16KB/SLD-CELP SPEECH CODER.1992 IEEE International Conference on Acoustics, Speech and Signal Processingvol.1.1992,1992(1),I-69至I-72. *

Also Published As

Publication number Publication date
US20080195384A1 (en) 2008-08-14
US20040158463A1 (en) 2004-08-12
KR20050091082A (ko) 2005-09-14
US7263481B2 (en) 2007-08-28
EP1579427A1 (en) 2005-09-28
CN1735927A (zh) 2006-02-15
EP1579427A4 (en) 2007-05-16
KR100837451B1 (ko) 2008-06-12
US7962333B2 (en) 2011-06-14
US20110264448A1 (en) 2011-10-27
WO2004064041A1 (en) 2004-07-29
US8150685B2 (en) 2012-04-03

Similar Documents

Publication Publication Date Title
CN1735927B (zh) 用于高质量语音编码转换的方法和装置
US7184953B2 (en) Transcoding method and system between CELP-based speech codes with externally provided status
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
KR101303145B1 (ko) 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더
JP4550289B2 (ja) Celp符号変換
CN100578617C (zh) 代码转换方法及代码转换装置
EP1751743A1 (en) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications
JP2006525533A5 (zh)
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP2005515486A (ja) Celpによる音声符号間のトランスコーディング・スキーム
KR20010075491A (ko) 음성 코더 매개변수를 양자화하는 방법
US7684978B2 (en) Apparatus and method for transcoding between CELP type codecs having different bandwidths
US8112271B2 (en) Audio encoding device and audio encoding method
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JPH08234795A (ja) 音声符号化装置
Shevchuk et al. Method of converting speech codec formats between GSM 06.20 and G. 729
JP2005062410A (ja) 音声信号の符号化方法
JPH06195098A (ja) 音声符号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: ONMOBILE GLOBAL LTD.

Free format text: FORMER OWNER: DALIXING (FOR THE TRANSFER OF THE INTERESTS OF CREDITORS) CO., LTD.

Effective date: 20110708

Owner name: DALIXING (FOR THE TRANSFER OF THE INTERESTS OF CRE

Free format text: FORMER OWNER: DILITHIUM NETWORK COMPANY

Effective date: 20110708

Owner name: DILITHIUM NETWORK COMPANY

Free format text: FORMER OWNER: DILITHIUM NETWORKS PTY LTD.

Effective date: 20110708

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: CALIFORNIA STATE, THE USA TO: BANGALORE, INDIA

Free format text: CORRECT: ADDRESS; FROM: STATE OF NEW SOUTH WALES, AUSTRALIA TO: CALIFORNIA STATE, THE USA

TA01 Transfer of patent application right

Effective date of registration: 20110708

Address after: bangalore

Applicant after: DILITHIUM NETWORKS, Inc.

Address before: California, USA

Applicant before: Dilithium (assignment for the benefit of creditors) LLC

Effective date of registration: 20110708

Address after: California, USA

Applicant after: Dilithium (assignment for the benefit of creditors) LLC

Address before: California, USA

Applicant before: Dilithium network Co.

Effective date of registration: 20110708

Address after: California, USA

Applicant after: Dilithium network Co.

Address before: New South Wales Australia

Applicant before: DILITHIUM NETWORKS Pty Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110831

Termination date: 20150109

EXPY Termination of patent right or utility model