CN1262992C - 包括软自适应特性的语音编码 - Google Patents

包括软自适应特性的语音编码 Download PDF

Info

Publication number
CN1262992C
CN1262992C CNB2004100698240A CN200410069824A CN1262992C CN 1262992 C CN1262992 C CN 1262992C CN B2004100698240 A CNB2004100698240 A CN B2004100698240A CN 200410069824 A CN200410069824 A CN 200410069824A CN 1262992 C CN1262992 C CN 1262992C
Authority
CN
China
Prior art keywords
signal
valuation
coded
receive
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB2004100698240A
Other languages
English (en)
Other versions
CN1555047A (zh
Inventor
E·埃库登
R·哈根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=21877362&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1262992(C) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN1555047A publication Critical patent/CN1555047A/zh
Application granted granted Critical
Publication of CN1262992C publication Critical patent/CN1262992C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

自适应语音编码包括:接收原始语音信号、对于原始语音信号执行当前的编码运行、以及响应于在当前编码运行(17,18,19)时使用的信息而调整当前编码运行(11)。自适应语音译码包括接收编码的信息、对于编码的信息执行当前的译码运行(200)、以及响应于在当前译码运行(17,18,19)时使用的信息而调整当前编码运行。

Description

包括软自适应特性的语音编码
                       发明领域
本发明总的涉及语音编码,更具体地,本发明涉及使语音信号的编码能够适应于语音信号的局部特性。
                       发明背景
大多数传统的语音编码器采用同一个编码方法而不管要被编码的语音段的局部特性。然而,已认识到,如果按照语音的局部特性改变或调整编码方法,则可以改进质量。这样的自适应方法通常是基于一个给定的语音段的某种分类的形式,该分类被用来选择几种编码模式(多模式编码)中的一种模式。这样的技术在有背景噪声时是特别有用的,这时为了达到自然的声音重现,所需要的编码方法不同于通常应用于语音信号本身的编码技术。
与上述的分类方案有关的一个缺点是,它们多少是硬性的;会造成将给定的语音段误分类的危险,其结果是,对于该语音段选择了不正确的编码模式。不正确的编码模式典型地导致所产生的编码的语音信号的严重恶化。因此,该分类方法不利地限制了语音编码器的性能。
多模式编码的熟知的技术是执行这样一种闭环模式判决,在其中编码器尝试所有的模式,并按照某个准则决定最好的模式。这在一定程度上缓和了误分类问题,但问题是要寻找到对于这种方案的一个好的准则。正如上述的分类方案时的情形一样,必须发送信息(即,通过通信信道从发射机的编码器向接收机的译码器发送附加开销比特)以便描述要选择哪种模式。这实际上限制了编码模式的数目。
所以,希望允许语音编码(编码或译码)程序能够按照语音的局部特性进行改变或调整,而不会导致与上述的传统分类方法相关联的严重恶化和不需要发送附加开销的比特来描述所选择的调整。
按照本发明,语音编码(编码或译码)程序可被调整而不用进行硬性分类和不会冒伴随而来的编码的语音信号严重恶化的风险,以及不需要发送附加开销的比特来描述所选择的调整。这种调整是基于编码器(编码器或译码器)中已有的参量,所以,不必发送额外的信息来描述该调整。这使得采取完全的软自适应方案成为可能,其中可以对编码(编码或译码)方法进行次数不受限制的修改。而且,这种调整是基于信号编码器的特征的,以及该调整是按照该基本编码方法对于某个语音段工作的好坏程度而作出的。
                       附图简述
图1是总的显示按照本发明的软自适应语音编码方案的方框图。
图1A更详细地显示图1的装置。
图2更详细地显示图1A的装置。
图3更详细地显示图2和21多级别代码修正器。
图4显示图2和21的软自适应控制器的一个例子。
图5是显示图4的软自适应控制器的运行的流程图。
图6以图形显示按照本发明的抗稀疏滤波器,它可作为图3的多级别代码修正器中的一个修正器级别被提供。
图7-11以图形显示图6所示的该类抗稀疏滤波器的运行。
图12-16以图形显示图6所示的该类抗稀疏滤波器以比图7-11的抗滤波器更低的抗稀疏运行级别的运行。
图17显示按照本发明的另一个语音编码装置的相应的部分。
图18显示按照本发明的又一个语音编码装置的相应的部分。
图19显示可应用于图2、17和21的语音编码装置的修正。
图20是总的显示按照本发明的软自适应语音编码方案的方框图。
图20A更详细地显示图20的装置。
图21更详细地显示图20A的装置。
                     详细描述
示例的图1总的显示本发明在语音编码处理上的应用。图1的装置可被使用于无线语音通信设备,例如,用于蜂窝电话。语音编码装置11在其输入端接收未编码的信号,以及在其输出端提供编码的语音信号。未编码的信号是原始语音信号。语音编码装置11包括控制输入端17,用于接收来自软自适应控制器19的控制信号。来自控制器19的控制信号表示由编码装置11执行的编码要被调整的程度。控制器19包括输入端18,用于从编码器11接收表示未编码的信号的局部语音特性的信息。控制器19响应于在18处接收的信息,从而在17处提供控制信号。
图1A显示了图1所示的一般类型的语音编码装置的例子,它包括编码器和按照本发明的软自适应控制。图1A显示代码激励线性预测(CELP)语音编码器的相关部分,它包括固定的增益形状(gainshape)部分12和自适应增益形状部分14。软自适应控制被提供给固定的增益形状部分12,以便允许由部分12实施固定增益形状编码方法的软自适应。
图2更详细地显示了图1的示例的CELP编码装置。如图2所示,图1A的固定增益形状编码部分12包括固定代码簿21、增益乘法器25、和代码修正器16。图1A的自适应增益形状编码部分14包括自适应的代码簿23和增益乘法器29。加到固定代码簿的增益FG和加到自适应代码簿23的增益AG通常是在CELP编码器中产生的。具体地,传统的搜索方法通常是响应于未编码的信号输入和综合滤波器28的输出而在15处被执行的,这正如技术上所熟知的那样。搜索方法提供增益AG和FG,以及加到代码簿21和23的输入。
自适应代码簿增益AG和固定代码簿增益FG被输入到控制器19,以便提供表示局部语音特征的信息。具体地,本发明认识到:自适应代码簿增益AG也可被用作为当前话音段的话音电平(即,音调周期性的强度)的指示器,以及固定代码簿增益FG也可被用作为当前话音段的信号能量的指示器。以通常的8kHz采样速率,每5毫秒从每个通常的自适应和固定的代码簿21和23存取各自的40个样本的一个组。对于由当前从固定代码簿21和自适应代码簿23存取的各个样本组所代表的语音段,AG提供话音电平信息以及FG提供信号能量信息。
在25处加上增益FG以后,代码修正器16在24处接收来自固定的代码簿21的编码的信号估值。修正器16然后在26处把有选择地修正的编码信号估值提供给加法电路27。正如通常的那样,在29处加上增益FG以后,加法电路27的另一个输入端接收来自自适应代码簿23的编码的信号估值。加法电路27的输出驱动传统的综合滤波器28,并且它也被反馈到自适应代码簿23。
如果自适应代码簿增益AG很高,则编码器大量地利用自适应代码簿分量,这样语音段多半是由话音产生的语音段,它典型地由CELP编码器可接受地处理,很少带有或不带有自适应的编码处理。如果AG很低,则信号多半是非话音的语音或是背景噪声。在这个低AG的情形中,修正器16应当有利地提供相对较高级别的编码修正。在高的自适应代码簿增益与低的自适应代码簿增益之间的范围内,所需要的修正量优选地是处在与低的自适应代码簿增益有关的相对较高级别的修正和与高的自适应代码簿增益有关的相当低的修正或不修正之间的某个位置。
示例的图3更详细地显示了图2的代码修正器16。如示例图3所示,在17处从控制器19接收的控制信号控制着开关31和33,以便选择在24处接收的代码信号估值的想要的修正级别。如图3所示,修正级别0传送不带有修正的编码的信号估值。在一个实施例中,修正级别1提供相对较低级别的修正,修正级别2提供一种比由修正级别1提供的级别高的级别的修正,以及修正级别1和2提供比例如由修正级别N提供的级别低的代码修正。因此,软自适应控制器使用自适应代码簿增益(话音电平信息)和固定的代码簿增益(信号能量信息)来选择代码修正器16应施加多少(什麽级别的)修正到编码信号估值。因为这个增益信息已经由编码器在它的编码过程中被产生,不需要附加开销来产生想要的话音电平和信号能量信息。
虽然自适应的代码簿增益和固定代码簿增益被使用来分别提供有关话音电平和信号能量的信息,但当在除了CELP编码器以外的语音编码器中引用本发明的软自适应控制技术时,其它适当的参量也可以提供想要的话音电平和信号能量信息(或其它想要的信息)。
示例的图4是方框图,它更详细地显示了软自适应控制器19的图2的实施例。用于每个语音段的自适应代码簿增益AG和固定的代码簿增益FG被接收和被存储在各个缓存器41和42中。缓存器41和42被使用来存储现在的语音段的增益值以及预定数目的先前语音段的增益值。缓存器41和42被连接到精加工逻辑43。精加工逻辑43具有被连接到代码修正级别对应表44的输出端45。代码修正级别对应表(例如,查找表)在其输出端49提供要被代码修正器16实施的一个建议的新修正级别。这个新的修正级别被存储在新的级别寄存器46中。新的级别寄存器46被连接到当前级别寄存器48,以及滞后逻辑47被连接到寄存器47和48。当前级别寄存器48提供想要的修正级别信息给代码修正器16的输入端17。代码修正器16然后控制开关31和33,以提供由当前级别寄存器48指示的修正级别。
现在参照图5的流程图进一步理解图4的软自适应控制器的结构和运行。
图5显示了由图2和图4所示的软自适应控制器实施例执行的级别控制运行的一个例子。在图5上,在50处,软自适应控制器等待接收与从自适应代码簿得到的最新近的样本组相关的自适应代码簿增益AG。在接收AG以后,图4的改进装置43在51确定这个新的自适应代码簿增益值AG是否大于门限值THAG。如果不是的话,则自适应代码簿增益值AG被用来在56处从图4的对应表得出新级别(NEW LEVEL)值。因此,当自适应代码簿增益值没有超过门限值THAG时,图4的精加工逻辑43把自适应代码簿增益值传送到图4的代码修正级别对应表44,在这里,自适应代码簿增益值被使用来得出新的级别数值。
在本发明的一个实施例中,在第一范围内的自适应代码簿增益值被对应为等于0的新的级别数值(因此在图3的代码修正器中选择级别0),在第二范围内的增益值被对应为等于1的新的级别数值(因此在图3的代码修正器中选择级别1修正),在第三范围内的增益值被对应为等于2的新的级别数值(相应于在代码修正器16中选择级别2修正),等等。每个增益值可被对应为唯一的新的级别数值,如果修正器11具有足够的修正级别的话。由于修正级别与AG数值的这个比值增加,修正级别中的改变可以更细微(甚至达到无穷小),因此提供了对于AG的改变的“软”自适应。
如果在51,自适应代码簿增益值超过门限值,则图4的精加工逻辑43就检验固定代码簿增益缓存器42,以便确定超过门限的AG值是否对应于FG值的较大的增加,FG的较大增加将表示出现语音起始(Speechonset)。如果在52已检测到,则在56将自适应代码簿增益值提供给对应表(见图4的44)。
如果在52指示出没有起始,则精加工逻辑(见图4的43)会考虑存储在图4的缓存器41中的先前的自适应代码簿增益的数值。虽然当前的AG值是从步骤51得出的一个过门限值,然而,在53将会考虑先前的AC值,以便在54确定这个过门限AG值是否为虚假值。在53可以实施的处理类型的例子是平滑运算、平均运算、其它类型的滤波运算、或只计数没有超过门限值THAG的先前的AG值的数目。例如,如果在缓存器41中一半或一半以上的AG值没有超过门限值THAG,则从方块54选取“是”路径(虚假AG值),以及精加工逻辑(图4的43)将在55降低AG值。如上所述,较低的AG值倾向于表示较低的话音电平,所以,较低的AG值优选地对应为较高的新的级别数值,这将导致编码语音估值的相对较大的修正。应当指出,如果在52检测到起始,则接受过门限AG值而不用考虑先前的AG值。如果在53和54没有检测到虚假的AG值,则可以接受这个过门限AG值,以及在56,把它提供到对应表44中。
应当理解,由编码器使用的先前信息(例如在图5的53-55处所得出的AG值)的可提供性和考虑将会允许一种高分辨率的、“软”自适应控制,其中可以对编码方法进行次数不受限制的修正或调整。
在图5的57,滞后逻辑(见图4的47)把新的级别数值(NL)与当前级别数值(CL)进行比较,得出那些数值之间的差值(DIFF)。如果在58,差值DIFF超过滞后的门限值THH,则在59,滞后逻辑将新的级别数值按需要加一个增量或减一个增量,以便把它移到接近于当前的级别数值。此后,新的级别数值和当前级别数值在57再次进行比较,以确定在它们之间的差值DIFF。随后,在58再次地确定DIFF是否超过滞后的门限,如果是的话,则在59,新的级别数值再次地被移到更接近于当前的级别数值,以及在57再次地确定差值DIFF。无论何时发现在58差值DIFF没有超过滞后的门限值时,滞后逻辑(图4的47)就在60允许把新的级别数值写入到当前级别寄存器48中。来自寄存器48的当前值被连接到图3的代码修正器的开关控制输入端17,由此可选择想要的修正级别。
从上述的内容将会注意到,滞后逻辑47限制修正级别的数目,根据这些级别该修正从一个语音段到下一个语音段可以有改变。然而,应当指出,如果精加工逻辑从固定的代码簿增益缓存器确定出现了语音起始,则在57-59进行的滞后操作从判决块61被旁路。在这种情况下,精加工逻辑43禁止滞后逻辑的滞后运行(见图4的控制线40)。这允许新的级别数值直接被装载到当前的级别寄存器48中。因此,滞后不施加在语音起始的事件中。
上述的使用AG和FG来控制自适应判决可以有利地不需要比特发送附加开销,因为AG和FG是由编码器根据未编码的输入信号的本身特性而产生的。
示例的图20总的显示了本发明对于语音译码处理的应用。图20的装置可被利用于无线语音通信设备,例如,蜂窝电话。语音译码装置在200在其输入端接收编码的信息,以及在其输出端提供译码的信号。在译码器200的输入端处接收的编码的信息代表由图1的编码器11输出的、和通过通信信道发送到译码器200的编码的信号的被接收的版本。本发明的软自适应控制19以类似于以上对于图1的编码器11所描述的方式被加到译码器200。
图20A显示了图20所示的一般类型的语音译码装置的例子,其中包括译码器和按照本发明的软自适应控制。图20A显示了CELP语音译码器的相关部分。图20A的CELP译码装置类似于图1A所示的CELP编码装置,所不同的是:送入到固定的和自适应的增益形状编码部分12和14的输入信号是通过分接在译码器输入端接收的编码信息得到的(如通常的那样),而输入到图1A的编码器的那些部分的输入是根据通常的搜索方法得到的。在CELP编码器和CELP译码器之间的这些关系在技术上是熟知的。在图20A,正如在图1A那样,本发明的软自适应控制19以总的类似于以上对于图1所描述的方式而加到固定的增益形状编码部分12。
正如在示例的图21中更详细地看到的,图21上更详细地显示了图20A的装置,在图21的译码器装置中的本发明的软自适应控制19的应用类似于在图2的编码器装置中它的实施方案。如上所述,送入到固定的和自适应的代码簿21和23的输入信号是从接收的编码的信息分接的。增益译码器22还接收已经从译码器接收的已编码信息中被分接的输入信号,如通常的那样。从对图2和图21的比较中应当看到,本发明的软自适应控制在图21的译码器中以类似于以上对于图2的编码器所描述的方式运行。所以,将会看到,本发明的软自适应控制关于图2的编码器的以上的描述(包括图3-5及其相应的正文)可类似地应用于图21的译码器。
图6显示了图3的代码修正器的一个修正级别的示例的实施方案。图6的装置的特征在于一个被设计成可以用来减小从图2或图21的固定的代码簿中接收的编码的语音估值中的稀疏性的抗稀疏滤波器。稀疏性总的是指这种情形,其中在固定的代码簿21(例如,代数代码簿)中只有几个给定的代码簿项目的样本具有非零样本值。这种稀疏条件在代数代码簿的比特速率为了尽力提供语音压缩而被减小时是特别普遍的。对于代码簿项目中非常少的非零样本,其所产生的稀疏性是传统的语音编码器的已编码语音信号中十分容易觉察到的恶化。
图6所示的抗稀疏滤波器被设计用来解决稀疏问题。图6的抗稀疏滤波器包括一个卷积器63,它执行从固定的(例如,代数)代码簿21接收的编码的语音估值与有关全通滤波器的冲击响应(在65处)的循环卷积。图7-11上显示了图6的抗稀疏滤波器的一个实例的运行。
图10显示了来自图2(或图21)的代码簿21中的一个项目的例子,该代码簿在总共40个样本中只有两个非零样本。如果增加非零样本的数目,则这种稀疏特性将被减小。增加非零样本的数目的一个方法是把图10中的代码簿项目提供到一个具有适当的特性的滤波器,以便把能量分散到40个样本的整个组中。图7和8分别显示全通滤波器的幅度和相位(以弧度计)特性,该全通滤波器可用来把能量适当地分散到图10的代码簿项目的40个样本上。图7和8的滤波器改变在2和4kHz之间的高频区域中的相位谱,而只非常临界地改变2kHz以下的低频区域。
示例的图9以图形方式显示了图7和8规定的全通滤波器的冲击响应。图6的抗稀疏滤波器产生对于图10的样本组的图9冲击响应的环形卷积。因为代码簿项目是以40样本的组从代码簿被提供的,卷积运算是以组的方式进行的。图10上的每个样本将产生卷积运算的40个中间乘法结果。取图10的位置7的样本作为例子,前34个乘法结果被分配给图11结果组的位置7-40,其余6个乘法结果由环形卷积运算所“环绕”,以使得它们被分配给结果组的位置1-6。由每个剩余的图10样本产生的40个中间乘法结果以类似的方式被分配给图11结果组中的位置,样本1当然不需要环绕。对于图11的结果组的每个位置,被分配给这些位置的40个中间乘法结果(图10上每个样本一个乘法结果)被相加在一起,此和值代表对于该位置的卷积结果。
通过观察图10和11可以看到,环形卷积运算改变图10组的富立叶频谱,从而使得能量被分散在整个组内,由此显著地增加非零样本数和相应地减小稀疏量。逐组地执行环形卷积的结果可以由图2(或图21)的综合滤波器28进行平滑。
图12-16显示了在图6上总的显示的类型的抗稀疏滤波器的运行的另一个例子。图12和13的全通滤波器改变在3和4kHz之间的相位谱,而几乎不改变3kHz以下的相位谱。图14上显示了滤波器的冲击响应。参照图16以及注意到图15显示与图10相同的样本组,可以看到,图12-16所示的抗稀疏操作没有分散像图11那样多的能量。因此,图12-16规定了这样一种抗稀疏滤波器,它所修正的代码簿项目比起图7-11规定的滤波器少。因此,图7-11和图12-16的滤波器分别规定编码的语音估值的不同的修正级别。再次参照图2和3,低的AG值表示自适应代码簿成分将是相对较小的,因此导致了固定(例如,代数)代码簿21的相对较大的贡献的可能性。由于上述的固定代码簿项目的稀疏性,控制器19将选择图7-11的抗稀疏滤波器,而不选择图12-16的抗稀疏滤波器,因为图7-11的滤波器比图12-16的滤波器提供对样本组的更大的修正。对于较大的自适应代码簿AG的数值,固定的代码簿贡献相对较小,控制器19于是可选择提供较小的抗稀疏修正的图12-16的滤波器。
因此,本发明提供了使用给定的语音段的局部特性的能力,以便来确定是否修正和修正多少该语音段的编码的语音估值。各种修正级别的例子包括:不修正、具有相对较高能量分散特性的抗稀疏滤波器、和具有相对较低能量分散特性的抗稀疏滤波器。在CELP编码器中,通常当自适应代码簿增益值很高时,这表示话音电平相对较高,因此一般地很少需要修正或不需要修正。相反,在低的自适应代码簿增益值的情况下,则建议重大的修正可能是有利的。在抗稀疏滤波器的具体例子中,一个与低的固定代码簿增益值相联系的高的自适应代码簿增益值表示固定代码簿的贡献(稀疏贡献)是相对较低的,因此只需要来自抗稀疏滤波器的很少的修正(例如,图12-16)。相反地,一个与较低的自适应代码簿增益值相联系的较高的固定代码簿增益值表示固定代码簿的贡献是相对较大的,因此建议使用大的抗稀疏修正(例如,图7-11的抗稀疏滤波器)。如上所述,按照本发明的多级别代码修正器可以包含所希望的那样多的不同的可选择的修正级别。
图17显示了图2的CELP编码装置和图21的CELP译码装置的一个示例性的替换例,具体地,把带有软自适应控制的多级别修正应用到自适应代码簿输出上。
图18显示了图2的CELP编码装置和图21的CELP译码装置的另一个示例性替换例,其中包括施加在相加门电路的输出端上的多级别修正器和软自适应控制器。
图19显示了图2、17和21的CELP编码装置如何被加以修正,以便从加法电路10提供反馈给自适应代码簿23,该加法电路的输入端处在修正器16的上游。
本领域技术人员将会看到,以上的对于图1-21描述的实施例可以通过使用适当地编程的数字信号处理器或其他数据处理器容易地实现,以及可替换地通过使用适当地编程的数字信号处理器或其它数据处理器结合被连接到其上的附加的外部电路而实现。
虽然已经详细地描述了本发明的示例性实施例,但这并不限制本发明的范围,本发明可以以各种实施例来实施。

Claims (37)

1.一种语音编码装置,包括:
用于接收与代表原始语音信号的未编码信号有关的输入信息的编码部分,所述编码部分包括用于接收所述输入信息和产生第一编码信号估值的固定编码部分,和用于接收所述输入信息和产生第二编码信号估值的自适应编码部分;其特征在于
被连接到所述固定编码部分和所述自适应编码部分的控制器,用于接收表示所述未编码的信号的语音特性的信息和用于生成控制信号,所述控制器包括软自适应控制器;
用于接收来自所述固定编码部分的所述第一编码信号估值和来自所述控制器的所述控制信号以及产生修正的信号估值的代码修正器;以及
用于接收所述修正信号估值和产生代表所述原始语音信号的编码信号的合成器部分。
2.权利要求1的语音编码装置,其特征在于:
用于相加所述修正信号估值和所述第二编码信号估值并产生相加的信号估值的相加部分;以及
所述合成器部分接收所述相加的信号估值和产生代表所述原始语音信号的编码信号。
3.权利要求1的语音编码装置,其特征在于,表示所述未编码的信号的语音特性的所述信息还包括来自固定增益形状编码部分的固定编码增益和来自自适应增益形状编码部分的自适应编码增益。
4.权利要求1的语音编码装置,其特征在于,该代码修正器包括多个代码修正级别,所述多个代码修正级别中的每一个选择地用来对所述第一编码信号估值执行不同级别的修正。
5.权利要求4的语音编码装置,其特征在于,该代码修正器还包括切换装置,用于根据所述控制信号选择所述多个代码修正级别中的一个。
6.权利要求4的语音编码装置,其特征在于,所述控制器根据所述自适应编码增益的至少一个先前的值生成所述控制信号。
7.权利要求1的语音编码装置,其特征在于,所述控制器根据所述原始语音信号的语音开始的发生生成所述控制信号。
8.权利要求1的语音编码装置,其特征在于,该代码修正器包括抗稀疏滤波器,所述抗稀疏滤波器对所述第一编码信号估值执行抗稀疏运算以产生所述修正的信号估值。
9.权利要求8的语音编码装置,其特征在于,该抗稀疏滤波器包括卷积器,用于对所述第一编码信号估值和与所述抗稀疏滤波器有关的冲激响应执行循环卷积以产生所述修正的信号估值。
10.权利要求4的语音编码装置,其特征在于,所述多个代码修正级别中的每一个包括,用来对所述第一编码信号估值执行不同级别的抗稀疏修正的抗稀疏滤波器。
11.权利要求1的语音编码装置,其特征在于,该自适应编码部分包括自适应增益形状编码部分。
12.权利要求1的语音编码装置,其特征在于,该语音编码装置包括线性预测语音编码器。
13.一种用于产生原始语音信号的编码表示的语音编码方法,所述语音编码方法包括以下步骤:
接收与代表所述原始语音信号的未编码信号有关的输入信息;
从所述输入信息中产生来自固定编码部分的第一编码信号估值,和来自自适应编码部分的第二编码信号估值;
根据表示所述未编码的信号的语音特性的信息,从所述第一和第二编码信号估值生成控制信号,
根据所述控制信号修正所述第一编码信号估值,以产生修正的信号估值;以及
从所述修正信号估值合成代表所述原始语音信号的编码信号。
14.权利要求13的语音编码方法,其特征在于,所述修正步骤还包括以下步骤:
根据所述控制信号从多个修正级别中选择一个修正级别,由此按照所选择的修正级别执行所述修正。
15.权利要求13的语音编码方法,其特征在于,所述修正步骤还包括对所述第一编码信号估值执行抗稀疏运算的步骤。
16.权利要求15的语音编码方法,其特征在于,所述执行抗稀疏运算的步骤包括对所述第一编码信号估值和与抗稀疏滤波器有关的冲激响应执行卷积的步骤。
17.一种语音译码装置,包括:
用于接收与代表原始语音信号的编码信号有关的输入信息的编码部分,所述编码部分包括用于产生第一编码信号估值的固定编码部分,和用于产生第二编码信号估值的自适应编码部分,其特征在于
被连接到所述固定编码部分和所述自适应编码部分的控制器,用于接收表示所述编码的信号的语音特性的信息和用于生成控制信号,所述控制器包括软自适应控制器;
用于接收所述第一编码信号估值和所述控制信号以及产生修正的信号估值的代码修正器;以及
用于接收所述修正信号估值和产生代表所述原始语音信号的未编码信号的合成器部分。
18.权利要求17的语音译码装置,该装置还包括:
用于相加所述修正信号估值和所述第二编码信号估值并产生相加的信号估值的相加部分;以及
所述合成器部分接收所述相加的信号估值和产生代表所述原始语音信号的未编码信号。
19.权利要求17的语音译码装置,其特征在于,表示所述编码的信号的语音特性的信息还包括来自固定增益形状编码部分的固定编码增益和来自自适应增益形状编码部分的自适应编码增益。
20.权利要求17的语音译码装置,其特征在于,该代码修正器包括多个代码修正级别,所述多个代码修正级别中的每一个选择地用来对所述第一编码信号估值执行不同级别的修正。
21.权利要求20的语音译码装置,其特征在于,该代码修正器还包括切换装置,用于根据所述控制信号选择所述多个代码修正级别中的一个。
22.权利要求20的语音译码装置,其特征在于,该控制器根据所述固定编码增益和所述自适应编码增益的至少一个生成所述控制信号。
23.权利要求20的语音译码装置,其特征在于,该控制器根据所述自适应编码增益的至少一个先前的值生成所述控制信号。
24.权利要求19的语音译码装置,其特征在于,该控制器根据所述原始语音信号的语音开始的发生生成所述控制信号。
25.权利要求17的语音译码装置,其特征在于,该代码修正器包括抗稀疏滤波器,所述抗稀疏滤波器对所述第一编码信号估值执行抗稀疏运算以产生所述修正的信号估值。
26.权利要求25的语音译码装置,其特征在于,该抗稀疏滤波器包括卷积器,用于对所述第一编码信号估值和与所述抗稀疏滤波器有关的冲激响应执行循环卷积以产生所述修正的信号估值。
27.权利要求20的语音译码装置,其特征在于,所述多个代码修正级别中的每一个包括用来对所述第一编码信号估值执行不同级别的抗稀疏修正的抗稀疏滤波器。
28.权利要求17的语音译码装置,其特征在于,该自适应编码部分包括自适应增益形状编码部分。
29.权利要求17的语音译码装置,其特征在于,该语音译码装置包括线性预测语音编码器。
30.一种用于从编码信号产生代表原始语音信号的未编码信号的语音译码方法,所述语音译码方法包括以下步骤:
接收与代表所述原始语音信号的编码信号有关的输入信息;
从所述接收的输入信息中产生来自固定编码部分的第一编码信号估值,和来自自适应编码部分的第二编码信号估值;其特征在于以下步骤:
根据表示所述编码的信号的语音特性的信息,从所述第一和第二信号估值生成控制信号,
根据所述控制信号修正所述第一编码信号估值,以产生修正的信号估值;以及
从所述修正的信号估值合成代表所述原始语音信号的译码的信号。
31.权利要求30的语音译码方法,其特征在于,所述修正步骤还包括以下步骤:
根据所述控制信号从多个修正级别中选择一个修正级别,由此按照所选择的修正级别执行所述修正。
32.权利要求30的语音译码方法,其特征在于,所述修正步骤还包括对所述第一编码信号估值执行抗稀疏运算的步骤。
33.权利要求32的语音译码方法,其特征在于,所述执行抗稀疏运算的步骤包括对所述第一编码信号估值和与抗稀疏滤波器有关的冲激响应执行卷积的步骤。
34.一种用于编码和译码语音信号的系统,所述系统包括:
用于接收与代表原始语音信号的第一未编码信号有关的第一输入信息的第一编码部分,所述第一编码部分包括用于接收所述第一输入信息和产生第一编码信号估值的第一固定编码部分,和用于接收所述第一输入信息和产生第二编码信号估值的第一自适应编码部分;其特征在于:
被连接到所述第一固定编码部分和所述第一自适应编码部分的第一控制器,用于接收表示所述第一未编码的信号的语音特性的信息和用于生成第一控制信号,所述第一控制器包括软自适应控制器;
用于接收所述第一编码信号估值和所述第一控制信号以及产生第一修正信号估值的第一代码修正器;
用于接收所述第一修正信号估值和产生代表所述原始语音信号的编码信号的第一合成器部分;
用于接收与代表所述原始语音信号的所述编码信号有关的第二输入信息的第二编码部分,所述第二编码部分包括用于接收所述第二输入信息和产生第三编码信号估值的第二固定编码部分,以及用于接收所述第二输入信息和产生第四编码信号估值的第二自适应编码部分;
被连接到所述第二固定编码部分和所述第二自适应编码部分的第二控制器,用于接收表示所述编码的信号的语音特性的信息和生成第二控制信号,所述第二控制器包括软自适应控制器;
用于接收所述第三编码信号估值和所述第二控制信号以及用于产生第二修正信号估值的第二代码修正器;以及
用于接收所述第二修正信号估值和产生代表所述原始语音信号的第二未编码的信号的第二合成器部分。
35.一种语音编码和译码的方法,所述语音编码和译码的方法包括以下步骤:
接收与代表原始语音信号的第一未编码语音信号有关的第一输入信息;
从所述接收的第一输入信息产生来自第一固定编码部分的第一编码信号估值和来自第一自适应编码部分的第二信号估值;其特征在于:
根据表示所述未编码的语音信号的语音特性的信息,从所述第一和第二编码信号估值生成第一控制信号;
根据所述第一控制信号修正所述第一编码信号估值,以产生第一修正的信号估值;
从所述第一修正信号估值合成代表所述原始语音信号的编码信号;
接收与所述编码信号有关的第二输入信息;
从所述接收的第二输入信息产生来自第二固定编码部分的第三编码信号估值和来自第二自适应编码部分的第四编码信号估值;
根据表示所述编码的信号的语音特性的信息,从所述第三和第四编码信号估值生成第二控制信号;
根据所述第二控制信号修正所述第三编码信号估值,以产生第二修正的信号估值;以及
从所述第二修正信号估值合成代表所述原始语音信号的第二未编码的信号。
36.一种无线通信设备,所述无线通信设备包括语音编码装置,所述语音编码装置包括:
用于接收与代表原始语音信号的未编码信号有关的输入信息的编码部分,所述编码部分包括用于接收所述输入信息和产生第一编码信号估值的固定编码部分以及用于接收所述输入信息和产生第二编码信号估值的自适应编码部分,其特征在于:
被连接到所述固定编码部分和所述自适应编码部分的控制器,用于接收表示所述未编码的信号的语音特性的信息和用于生成控制信号,所述控制器包括软自适应控制器;
用于接收来自所述固定编码部分的所述第一编码信号估值和来自所述控制器的所述控制信号以及产生修正的信号估值的代码修正器;以及
用于接收所述修正信号估值和产生代表所述原始语音信号的编码信号的合成器部分。
37.一种无线通信设备,所述无线通信设备包括语音译码装置,所述语音译码装置包括:
用于接收与代表原始语音信号的编码信号有关的输入信息的编码部分,所述编码部分包括用于产生第一编码信号估值的固定编码部分和用于产生第二编码信号估值的自适应编码部分,其特征在于:
被连接到所述固定编码部分和所述自适应编码部分的控制器,用于接收表示所述编码的信号的语音特性的信息和用于生成控制信号,所述控制器包括软自适应控制器;
用于接收所述第一编码信号估值和所述控制信号以及产生修正的信号估值的代码修正器;以及
用于接收所述修正信号估值和产生代表所述原始语音信号的未编码信号的合成器部分。
CNB2004100698240A 1998-03-04 1999-03-02 包括软自适应特性的语音编码 Expired - Lifetime CN1262992C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/034,590 US6058359A (en) 1998-03-04 1998-03-04 Speech coding including soft adaptability feature
US09/034590 1998-03-04

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB998036404A Division CN1183513C (zh) 1998-03-04 1999-03-02 包括软自适应特性的语音编码

Publications (2)

Publication Number Publication Date
CN1555047A CN1555047A (zh) 2004-12-15
CN1262992C true CN1262992C (zh) 2006-07-05

Family

ID=21877362

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB998036404A Expired - Lifetime CN1183513C (zh) 1998-03-04 1999-03-02 包括软自适应特性的语音编码
CNB2004100698240A Expired - Lifetime CN1262992C (zh) 1998-03-04 1999-03-02 包括软自适应特性的语音编码

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB998036404A Expired - Lifetime CN1183513C (zh) 1998-03-04 1999-03-02 包括软自适应特性的语音编码

Country Status (8)

Country Link
US (2) US6058359A (zh)
EP (2) EP1058927B1 (zh)
JP (1) JP3378238B2 (zh)
CN (2) CN1183513C (zh)
AU (1) AU2756299A (zh)
DE (2) DE69902233T2 (zh)
RU (1) RU2239239C2 (zh)
WO (1) WO1999045532A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69708693C5 (de) * 1996-11-07 2021-10-28 Godo Kaisha Ip Bridge 1 Verfahren und Vorrichtung für CELP Sprachcodierung oder -decodierung
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
CA2684452C (en) * 1997-10-22 2014-01-14 Panasonic Corporation Multi-stage vector quantization for speech encoding
CN1494055A (zh) 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
US6131047A (en) 1997-12-30 2000-10-10 Ericsson Inc. Radiotelephones having contact-sensitive user interfaces and methods of operating same
US6301556B1 (en) * 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
DE10009444A1 (de) * 2000-02-29 2001-09-06 Philips Corp Intellectual Pty Betriebsverfahren für ein Mobiltelefon
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
CN101719814B (zh) * 2009-12-08 2013-03-27 华为终端有限公司 确定带内信令译码模式的方法及装置
EP2593937B1 (en) * 2010-07-16 2015-11-11 Telefonaktiebolaget LM Ericsson (publ) Audio encoder and decoder and methods for encoding and decoding an audio signal
BR112013033900B1 (pt) 2011-06-30 2022-03-15 Samsung Electronics Co., Ltd Método para gerar um sinal estendido de largura de banda para decodificação de áudio
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
DE69615870T2 (de) * 1995-01-17 2002-04-04 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
US6029125A (en) * 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder

Also Published As

Publication number Publication date
RU2239239C2 (ru) 2004-10-27
EP1267329B1 (en) 2005-05-25
DE69902233D1 (de) 2002-08-29
EP1058927B1 (en) 2002-07-24
US6058359A (en) 2000-05-02
CN1183513C (zh) 2005-01-05
AU2756299A (en) 1999-09-20
CN1292913A (zh) 2001-04-25
WO1999045532A1 (en) 1999-09-10
EP1267329A1 (en) 2002-12-18
US6564183B1 (en) 2003-05-13
DE69925515T2 (de) 2006-02-09
DE69902233T2 (de) 2003-01-16
EP1058927A1 (en) 2000-12-13
JP2002506242A (ja) 2002-02-26
JP3378238B2 (ja) 2003-02-17
CN1555047A (zh) 2004-12-15
DE69925515D1 (de) 2005-06-30

Similar Documents

Publication Publication Date Title
CN1262992C (zh) 包括软自适应特性的语音编码
AU2006270259B2 (en) Selectively using multiple entropy models in adaptive coding and decoding
CN1051392C (zh) 矢量量化器方法
US8547255B2 (en) Method for encoding a symbol, method for decoding a symbol, method for transmitting a symbol from a transmitter to a receiver, encoder, decoder and system for transmitting a symbol from a transmitter to a receiver
CN1288557A (zh) 解码方法和包括自适应后置滤波器的系统
US20070016415A1 (en) Prediction of spectral coefficients in waveform coding and decoding
US20070016406A1 (en) Reordering coefficients for waveform coding or decoding
CN1125438C (zh) 降低编码的语音信号中的稀疏
Gersho et al. Adaptive vector quantization by progressive codevector replacement
NZ564311A (en) Frequency segmentation to obtain bands for efficient coding of digital media
CN1143270C (zh) 代码激励线性预测编/译码方法及设备
US20080052084A1 (en) Sound encoder and sound decoder
Eriksson et al. Exploiting interframe correlation in spectral quantization: a study of different memory VQ schemes
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
US8140343B2 (en) Method, device and system for signal encoding and decoding
US6295520B1 (en) Multi-pulse synthesis simplification in analysis-by-synthesis coders
CN1244090C (zh) 具备背景噪声再现的语音编码
CN1229774C (zh) 有特殊步长适应的自适应差分脉码调制语音编码系统
CN1285986A (zh) 信息编码、解码和传输的方法,信号处理器和无线电装置
US6289307B1 (en) Codebook preliminary selection device and method, and storage medium storing codebook preliminary selection program
JPH07239699A (ja) 音声符号化方法およびこの方法を用いた音声符号化装置
JPH0382224A (ja) 可変レート音声符号器
MXPA01002144A (es) Un criterio adaptable para codificacion de voz

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20060705

CX01 Expiry of patent term