CN103348597B - 低比特率信号的编码及解码方法 - Google Patents

低比特率信号的编码及解码方法 Download PDF

Info

Publication number
CN103348597B
CN103348597B CN201180063393.5A CN201180063393A CN103348597B CN 103348597 B CN103348597 B CN 103348597B CN 201180063393 A CN201180063393 A CN 201180063393A CN 103348597 B CN103348597 B CN 103348597B
Authority
CN
China
Prior art keywords
model
parameter
data
complete
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180063393.5A
Other languages
English (en)
Other versions
CN103348597A (zh
Inventor
颜亚南
艾丽娜·格罗德尼茨基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN103348597A publication Critical patent/CN103348597A/zh
Application granted granted Critical
Publication of CN103348597B publication Critical patent/CN103348597B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Abstract

公开了一种振荡器与外部激励模型的改进混合,以及用于估计模型参数、评估模型质量、和将其与本领域已知的方法进行结合的方法。对现有振荡器的改进允许模型接收除了所获取的数据中的最新点之外的所有输入。通过包含从最佳模型参数恢复对于解码器不可用的数据的处理,以及通过利用指标来选择稳定的恢复的模型输出,实现了模型稳定性。本发明对于包括数字化语音、音频和图形数据的数字信号的极低比特率编码/压缩和解码/解压、以及对于信号的分析、检测和分类是有效率的。可实时地执行操作,并且可以在用户指定的压缩水平下实现参数化。

Description

低比特率信号的编码及解码方法
相关申请的交叉引用
本PCT专利申请要求2010年10月29日提交的题为“极低比特率信号编码器及解码器(Very Low Bit Rate Signal Coder and Decoder)”的美国专利申请No.12/915989的优先权。该相关专利申请的内容在此通过引用以主题不会不一致或产生限制的方式并入本文。
序列清单、表格、或计算机清单附录的引用
不适用。
版权保护声明
本专利公开文本的一部分包含受到著作权保护的材料。著作权人不反对任何人对专利文档或专利公开按其出现在专利商标局、专利文件或记录中的形式的复制,但是除此之外保留一切可能的著作权权利。
技术领域
本发明的一个或多个实施例总体上涉及信号及数据的建模、压缩/解压(无损和有损)、编码/解码、以及诸如检测和归类之类的分析的领域。更具体地说,本发明的一个或多个实施例涉及激励模型、以及用于基于该激励模型获取新数据模型的系统。
背景技术
下述背景信息可能展示了现有技术的特定方面的示例(示例包括但不限于:措施、事实、或常识),虽然期望这些示例有助于向读者进一步教 授现有技术的其它方面,但是这些示例不被理解为将本发明或其任意实施方式限制成此处描述或暗示或推断的任意内容。
下面是现有技术的特定方面的一个示例,虽然期望该示例有助于向读者进一步教授现有技术的其它方面,但是该示例不被理解为将本发明或其任意实施例限制成此处描述或暗示或推断的任意内容。作为教育背景,现有技术的总体上有必要关注的一个方面在于信号分析及建模的一个目标是尽可能有效地并且利用尽可能少的参数来表示信息。例如,这对于信号检测和归类很有用。信号编码(也可能被称为压缩)具有类似的目标,即,使存储或传递的参数的数量(一般由比特表示)最少,由此提高存储、发布和传输信息的效率。将信源序列变换成一组模型参数的处理被称为编码,恢复则被称为解码。因此,同样的方法可应用至信号建模或编码。然而,编码器一般与第二处理(从编码的参数重构信号的解码器)结合使用。因此,对于方法论的目的,编码可被看作是包含建模作为其处理的一部分的技术。
通常在编码时,输入信号被分成多个间隔,通常称为帧、段、或事件。每个帧可通过窗口处理和/或滤波处理(也可能是其它操作)进行变换,以获取经窗口处理的/经滤波处理的/经变换的帧。标准振荡器模型将当前数据帧变换成由延迟或指针及与之相关的加权系数组成的一小组参数。指针参考包含早期获取的数据帧的恢复版本的缓冲中的固定长度的块。一旦已经估计出帧的模型参数,即进行帧的恢复,并且恢复的帧被保存在存储器中,产生代表输入序列的恢复版本的历史数据序列。选择这些历史数据的块以使得它们的加权求和提供当前数据帧的‘最佳匹配’,其中‘最佳匹配’在许多应用中可被定义为使当前帧及其模型之间的均方误差最小的那个匹配。按照这样的方式,输入信号由一组指向匹配位置的整数地址代码以及与匹配数据块的加权相关的乘数系数代替。
下面是现有技术的特定方面的一个示例,虽然期望该示例有助于向读者进一步教授现有技术的其它方面,但是该示例不被理解为将本发明或其任意实施例限制成此处描述或暗示或推断的任意内容。作为教育背景,现有技术的总体上有必要关注的另一个方面在于,传统振荡器(也称为自激励模型,例如自激励声码器(SEV))的一个限制是在数据的先前建模的帧 与正在建模的当前帧之间做出区分,即当前帧中的数据不参与获取该帧的模型参数。该方案对于在超过至少一个帧长的时间跨度上再现的信源模式的建模运行良好。由此,传统振荡器可被看作是用于对数据中的长尺寸结构进行建模的方法。
下面是现有技术的特定方面的一个示例,虽然期望该示例有助于向读者进一步教授现有技术的其它方面,但是该示例不被理解为将本发明或其任意实施例限制成此处描述或暗示或推断的任意内容。作为教育背景,现有技术的另一个方面在于典型的现代编码器可采用多个模型来对信源模式中的不同尺寸进行编码。例如,移动通信中采用的自适应多速率(AMR)系列编解码器通常采用串行的三个模型,首先是用于对短尺寸模式进行建模的线性预测值(LP),随后是“自适应代码簿”(AC)(一种改进的SEV式的模型,可对中等至长的尺寸的结构进行编码),最后是对应用了前两个模型之后剩余的残留进行编码的第三模型。AMR中的AC模型通过允许来自当前输入帧的数据的受限段用来对该数据进行建模来改进传统SEV。这就将可利用AC建模的结构范围扩展至中等至长的尺寸的结构。然而,该改进仍然不能实现所有信源尺寸的建模,这就是为什么在AMR中在AC之前使用LP的原因。
通常在现有技术中对信号进行建模时,将数据分成不同尺寸或分量并单独对这些分量进行建模。可将输入分成频带、子波、或其它类型的波形,以使得这些分量被单独编码,针对每帧产生多组参数。回过来参考语音编码,其另一示例是被称为多带激励(MBE、IMBE和AMBE)的编码器系列,其根据每个带的语音/非语音特征将输入信号分成多个频带,并且单独地对各个带进行编码。
按照多模型或分量的形式对单个帧进行编码意味着该帧由相应的多组编码参数表示,每组通常都分配有固定的编码预算。利用多组参数对信号编码可能不是有效率的,如果利用更少的单组参数可以实现可比拟的建模质量。在小组参数中有效地表示信号以提取信息、最大化传输速率、以及最小化存储系统中的存储器的需求,都激励着更有效的编码技术的开发。
鉴于上述情况,很显然这些传统技术并不完美,为更好的方案留出了 空间。
发明内容
在本发明第一方面,本发明提供了一种其上存储有可执行程序的非瞬时性计算机可读存储介质,其中用于对数据信号进行分析和建模的所述程序指示处理器执行包括下述步骤的方法:
预处理数据信号以产生数据帧,所述预处理能够:对数据信号采样,变换数据信号,使数据信号平滑化,以及将数据信号分解成将作为单独输入而被建模的一个或多个分量;
对数据帧进行建模作为从参考缓冲提取的波形的固定长度块的组合,由此确定模型参数,参考缓冲包括当前帧的除了最新数据点之外的所有数据点;
评估多个模型的质量以选择最佳模型;以及
处理计算的模型参数,所述处理能够对数据信号进行存储、传输、分析以及分类。
所述方法还可包括对下述至少一个进行存储并使之对于后续计算可用的步骤:不参考当前数据帧而从最佳模型的参数恢复的波形;从最佳模型的参数的子集恢复的波形;利用所有可用数据从最佳模型估计出的输出;以及正被建模的数据帧。
其中参考缓冲可包括从下述至少一个导出的附加参考:之前建模的数据;和/或从之前建模的数据的模型参数恢复的帧。
其中参考缓冲还可包括通过下述两种方式中的至少一种方式导出的附加参考:从存储的波形本身或其参数的字典导出;和/或从当前数据帧导出。
其中对模型质量的所述评估可使用一个或多个指标,所述指标可以是下述项中的一个或多个的函数:利用其参考的所有可用数据点计算出的模型输出;利用输入帧的恢复值合成的模型输出,其中所述合成使用正被评 估的模型的实际参数或近似参数。
所述方法还可包括对模型参数进行变换和/或量化的步骤。
在本发明第二方面,本发明还提供了一种其上存储有可执行程序的非瞬时性计算机可读存储介质,其中用于从模型参数解码数据帧的所述程序指示处理器执行包括下述步骤的方法:
获取包含用于对数据帧进行编码的参数的代码;
确定所述代码是否包含用于合成参考波形的参数,并且如果包含,则合成参考波形;
确定是否有任意参数索引至包含在正被解码的帧中的数据;
在参数仅仅索引至不包含在正被解码的帧中的数据时一次性地合成整个数据帧,通过利用所获取的代码中的参数值评估编码器使用的分析式来执行所述合成;以及
在参数索引至包含在正被解码的帧中的至少一个数据点时依次合成所述帧的各个点,通过利用单个点替换编码器使用的参数化的分析式中的块来执行所述合成。
在本发明第三方面,本发明还提供了一种其上存储有可执行程序的非瞬时性计算机可读存储介质,其中用于对数据信号进行分析和建模的所述程序指示处理器执行包括下述步骤的方法:
获取数据信号;
预处理数据信号以产生数据帧,所述预处理能够:对数据信号采样,变换数据信号,使数据信号平滑化,以及将数据信号分解成在分析时被当作单独的输入帧的一个或多个分量;
在多种建模方法中进行选择,所述选择能够选择性地评估输入信号和建模的输出的特性并且基于评估结果而指示建模处理;
选择性地对数据帧的一些或全部特征进行建模作为从参考缓冲提取的波形的固定长度块的组合;
选择性地对数据帧的剩余特征进行建模;
评估多个估计的候选模型的质量以选择最佳模型;以及
处理计算的模型参数,所述处理提供对数据信号进行存储、传输、分析或分类的手段。
所述方法还可包括对下述至少一个进行存储并使之对于后续计算可用的步骤:不参考当前数据帧而从最佳模型的参数恢复的波形;从最佳模型的参数的子集恢复的波形;利用所有可用数据从最佳模型估计出的输出;以及正被建模的数据帧。
其中可以利用仅仅一种方法对整个数据帧进行建模。
其中模型质量的所述评估可使用一个或多个指标,所述指标是下述项中的一个或多个的函数:利用其参考的所有可用数据点计算出的模型输出;以及利用输入帧的恢复值合成的模型输出,其中所述合成可使用正被评估的模型的实际参数或近似参数。
所述方法还可包括对模型参数进行变换和/或量化的步骤。
其中所述信号可包括音频信号。
其中数据信号可包括从二维图像提取出来的序列。
在本发明第四方面,本发明还提供了一种其上存储有可执行程序的非瞬时性计算机可读存储介质,其中用于从模型参数解码数据帧的所述程序指示处理器执行包括下述步骤的方法:
获取包含用于对数据帧进行编码的参数的代码;
确定代码是否包含用于合成任意参考波形的参数,合成该波形,并且将其放置在参考缓冲中;
根据代码识别出曾经在数据帧的编码中使用的具体方法和模型;
通过反转用于产生代码的建模步骤,从接收的代码合成数据帧。
在本发明第五方面,本发明还提供了一种计算机实现的系统,其包括非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质包含在被处理装置执行时用于执行本发明第一方面所述的方法的一组指令。
在本发明第六方面,本发明还提供了一种计算机实现的系统,其包括非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质包含在被处理装置执行时用于执行本发明第二方面所述的方法的一组指令。
在本发明第七方面,本发明还提供了一种计算机实现的系统,其包括非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质包含在被处理装置执行时用于执行本发明第三方面所述的方法的一组指令。
在本发明第八方面,本发明还提供了一种计算机实现的系统,其包括非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质包含在被处理装置执行时用于执行本发明第四方面所述的方法的一组指令。
附图简述
通过示例而不是限制的方式在附图的示图中说明了本发明,其中类似的参考标号表示类似元件,并且其中:
图1图示了描绘根据本发明实施例的基于COMPLETE的分析/编码系统的三个基本组件的示意性框图;
图2图示了用于估计COMPLETE模型()的参数的基本分析分量的示意性框图,其更详细地示出了代码产生模块170的基本块;
图3图示了根据本发明实施例的从接收到的COMPLETE参数恢复信号的COMPLETE合成器/解码器的示意性框图;
图4图示了示出根据本发明实施例的通用多模式COMPLETE/KAM系统的组件的示意性框图;
图5图示了示出根据本发明实施例的利用多模式COMPLETE/PACT实施的语音分析(编码)系统的示例的示意性框图;以及
图6图示了典型的计算机系统,其在适当配置或设计时可作为其中实施了本发明的计算机系统。
除非明确说明,否则附图无需按比例绘制。
具体实施方式
通过参考详细附图和此处阐述的说明来最好地理解本发明的实施例。
下面参考附图来讨论本发明的实施例。然而,本领域技术人员容易理解的是,此处参考附图给出的详细描述用于示例目的,本发明的范围超出这些有限的实施例。例如,可以理解的是,本领域技术人员在本发明的指教下将根据具体应用的要求而想到多种替换的适当方案,以实现本文详细描述的任意功能,超出下述实施例描述和示出的具体实施方式的选择。也就是说,本发明存在多种修改和变形,这些修改和变形由于太多而不能逐一例举,但是它们都落入本发明的范围。而且,单数名词应当被阅读为复数,反之亦然;阳性词作为阴性词,反之亦然;适当的替换实施例并不必然地暗示这两者相互排斥。
还应该理解的是,本发明并不限于此处描述的特定的方法、化合物、材料、制造技术、用法和应用,它们可以变化。还应该理解的是,此处描述的术语仅仅用来描述特定实施例,而不是用来限制本发明的范围。必须注意的是,此处的以及所附权利要求中使用的单数形式"一个"、"一种"以及"该"包括复数基准,除非上下文明确表示相反意思。因此,例如,对"一个元素"的引述意味着对一个或多个元素的引述,并且包括本领域技术人员已知的它的等价物。类似地,作为另一示例,对"一个步骤"或"一个装置"的引述意味着对一个或多个步骤或装置的引述,并且可能包括次级步骤以及次级装置。应该以最广义的含义来理解使用的所有连词。因此,词语"或"应该被理解为具有逻辑"或"的定义,而不是逻辑"异或"的定义,除非上下文明确表示相反意思。此处描述的结构将被理解为还引述该结构的功能等效物。可被解释为近似的语言应该被那样理解,除非上下文明确表示相反意思。
除非相反地定义,此处使用的所有技术和科技的术语具有与本发明所属领域的普通技术人员所普遍理解的含义相同的含义。描述了优选方法、技术、装置和材料,但是与此处描述的这些类似或等价的任意方法、技术、装置或材料可用于本发明的实践和测试。此处描述的结构将被理解为还引述该结构的功能等效物。现在将参考附图中图示的实施例来详细描述本发明。
通过阅读本公开文本,其它变形和修改对于本领域技术人员来说是明显的。这些变形和修改包含等效形式和本领域已知的其它特征,它们可用 来替换或补充此处已经描述的特征。
虽然本申请中的权利要求已经被表示为特定特征的组合,但是应该理解的是本发明的公开的范围还包括任意新颖特征或本文明确地或暗示地公开的特征的任意新颖组合或者它们的概括,不管其是否涉及与任意权利要求当前所要求保护的发明相同的发明,也不管其是否出现了与本发明所解决的任意或所有技术问题相同的技术问题。
分开的实施例的上下文中描述对特征也可在单独的实施例中进行组合。反之,出于简洁的目的而在单个实施例中描述的各种特征也可单独或者以任意适当组合的形式提供。申请人在此提醒,新的权利要求可在本申请或由其引出的任意后续申请的申请过程中被构建为该特征和/或该特征的组合。
对"一个实施例"、"某个实施例"、"示例实施例"、"各种实施例"等的引述表示本发明这样描述的单个实施例或多个实施例可包括具体特征、结构或特征,但是不是每个实施例必须包括具体特征、结构或特征。而且,短语"在一个实施例中"或"在示例性实施例中"的重复使用并非必然表示相同实施例,虽然有可能是。
本领域技术人员已知的是,在系统的商业实施(具体地说,本发明的实施例)的最佳制造的设计时通常必须进行许多谨慎的考虑和折中。根据本发明的精神和指教的实施方式可根据具体应用的需求来进行配置,其中与本发明的任意描述的实施例相关的指教的任意方面、特征、功能、结果、组件、方案或步骤可适当省略、涵纳、调整、混合和匹配、由本领域技术人员利用一般技能和已知技术来改进和/或优化,由此实现解决特定应用的需求的期望实施方式。
"计算机"可指能够接受结构性输入、根据预定规则处理结构性输入、以及产生处理结果作为输出的一个或多个设备和/或一个或多个系统。计算机的示例可包括:计算机;固定和/或便携计算机;具有单个处理器、多个处理器或并行和/或不并行操作的多核处理器的计算机;通用计算机;超级计算机;主机;超小型计算机;小型计算机;工作站;微计算机;服务器;客户端;交互式电视;网络应用;具有网络访问的通信装置;计算机和交互式电视的混合组件;便携计算机;平板个人电脑(PC);个人数 字助理(PDA);便携电话;对计算机和/或软件进行仿真的应用专用硬件,例如,数字信号处理器(DSP),现场可编程门阵列(FPGA),专用集成电路(ASIC),专用指令集处理器(ASIP),一个芯片,多个芯片,片上系统,或者芯片组;数据获取装置;光学计算机;量子计算机;生物计算机;以及一般意义上的可接受数据、根据存储的一个或多个软件程序来处理数据、产生结果、并通常包括输入、输出、存储、算术、逻辑和控制单元的设备。
"软件"可能指的是操作计算机的预定规则。软件的示例可包括:采用一种或多个计算机可读语言的代码段;图形和/或文字指令;支程序;预编译代码;编译代码;以及计算机程序。
"计算机可读介质"可能指的是用于存储计算机可访问的数据的存储装置。计算机可读介质的示例可包括:磁盘;软盘;光盘,例如DVD;磁带;闪存;存储器芯片和/或其上可存储可机读指令的其它类型的介质。
"计算机系统"可能指的是具有一个或多个计算机的系统,其中每个计算机可包括实体化软件以操作计算机或其一个或多个组件的计算机可读介质。计算机系统的示例可包括:分布式计算机系统,用于通过经由网络链接的计算机系统处理信息;经由网络连接在一起的两个或更多计算机系统,用于在计算机系统之间传输和/或接收信息;在单个计算机中包含两个或更多处理器的计算机系统;以及一个或多个设备和/或一个或多个系统,其可接受数据,可根据一个或多个存储的软件程序处理数据,可产生结果,并且一般可包括输入、输出、存储、算术、逻辑和控制单元。
"网络"可能指的是通过通信设施连接的大量计算机以及相关装置。网络可包括诸如电缆之类的永久连接或诸如通过电话或其它通信链路形成的连接之类的暂时连接。网络还可以包括硬连线连接(例如,同轴电缆,双绞线,光纤,波导等)和/或无线连接(例如,无线电频率波形,自由空间光波形,声波等)。网络的示例可包括:互联网,例如因特网;内联网;局域网(LAN);广域网(WAN);以及网络的组合,例如互联网和内联网。
示例性网络可根据大量协议中的任意协议运行,例如互联网协议(IP)、异步传输模式(ATM)和/或同步光网络(SONET)、用户数据报协 议(UDP)、IEEE 802.x,等。
本发明的实施例可包括用于执行本文公开的操作的设备。设备可被特殊地构建以用于期望目的,或其可包括选择性地激活的或被装置中存储的程序重构的通用装置。
还可以在硬件、固件和软件中的一个或组合中实现本发明的实施例。它们可被实现为存储在机器可读介质中的指令,这些指令可被计算平台读取和执行从而执行本文描述的操作。
在后面的说明书以及权利要求中,术语"计算机程序介质"和"计算机可读介质"可用来总的指示介质,例如但不限于,移动存储器、硬盘驱动中安装的硬盘等。这些计算机程序产品可向计算机系统提供软件。本发明的实施例可能是这样的计算机程序产品。
此处的算法总体上被看作是导致期望结果的自相容的动作或操作序列。这包括物理量的物理操作。通常,虽然不是必须的,这些量具有能够被存储、传递、组合、比较和其它操作的电或磁信号的形式。原则上由于通用的原因,将这些信号称作比特、数值、元素、符号、字符、术语、数字等,有时候被证明是方便的。然而,应该理解的是,所有这些和类似术语将与适当物理量关联并且仅仅是应用至这些量的方便的符号。
除非特别相反地声明,如可以从后面的说明书以及权利要求明显看出的,应该理解的是,采用诸如"处理"、"计算"、"确定"等之类的术语的说明书描述通篇指的是计算机或计算系统或类似电子计算装置的动作和/或处理,其将计算系统的寄存器和/或存储器内的表示为物理(例如电子)量的数据操纵和/或变换为计算系统的存储器、寄存器或其它信息存储、传输或显示装置内的类似地表示为物理量的其它数据。按照类似的方式,术语"处理器"可能指的是处理来自寄存器和/或存储器的电子数据以便将该电子数据变换成可存储在寄存器和/或存储器中的其它电子数据的任意装置或装置的一部分。"计算平台"可包括一个或多个处理器。
非瞬时性计算机可读介质包括但不限于硬盘、紧致盘、闪存、非永久性存储器、随机访问存储器、磁存储器、光存储器、基于半导体的存储器、相变存储器、光存储器、定期刷新的存储器等;然而,非瞬时性计算机可读介质不包括纯瞬时性信号本身。
考虑到效率,本发明的一些实施例在此指的是一种编码器/解码器,应该理解的是编码部分可等同地应用至信号和数据建模和分析。而且,术语压缩通常与对离散无记忆信源进行编码相关联–其中信源评估中的任意已有模式被静态地处置,而不是采取模型形式。本发明的一些实施例至少对于其中数据序列根据一些可量化的规则而演变的编码类型来说是有用的,更具体地说,对于获取该规则的模型(–封闭形式的表示)来说是有用的。
本发明的实用实施例利用一个简约模型对尽可能多的信号信息进行建模/编码,从而尽可能多地替换用于在现有技术中进行编码的参数组。许多实用实施例尽可能保真地解码信息。在许多实用实施例中,被称为完整振荡器加外部激励(COMPLETE)的建模方法对当前模型的改进在于,它可能同时导致了信源模式中的所有尺寸以及数据中随机特征,由此使得用户在很多情况下能够采用单个高度有效的模型来替换现有技术中使用的多个模型。在许多实用实施例中,COMPLETE如下所述地改进标准振荡器模型。在对该帧进行建模时,除了使用早期获取的帧之外,还能够使用当前输入帧中的所有数据(除了最后一个点)。在模型使用输入帧时必须解决的一个关键挑战在于,对于向解码器恢复帧对来这些数据不可用。通常在现有技术中(包括AMR中的AC),解码器利用来自先前帧的数据代替这些不可用数据。由于相邻帧之间的数据的差异对于很多类型的信号(包括语音)来说是实质性的,所以这可以不是最优的。本发明的许多实用实施例通过从导出的模型参数点对点地在解码器重构不可用数据来改进这一方面。重构数据而不是利用先前帧来替换它们,相对于现有技术改进了解码信号的精确度,并且继而改进了振荡器的稳定性,并进一步使得本发明能够使用来自当前帧的数据的新的最大范围。但是,即使利用本发明实现的估计不可用数据时的提高的精确度,重构的帧可能不会等同于建模的信号。恢复的与建模的输入信号之间的差异可能累积至正被建模的每个后续帧,并最终导致模型的不稳定性。当来自当前输入的最大数量的数据点被允许用来对该输入进行建模,并且整个输入内容如本发明所配置的那样可利用该模型来进行编码时,导致模型的不稳定性的差异将迅速增长,很快就使得模型不稳定。这是在本发明的许多实用实施例中解决的一个挑战, 由此在模型评估处理期间通过评估多个候选的重构帧,确保了模型稳定性。标准的模型拟合方法在实施例中扩展为结合了多个评价指标,这除了其它功能之外还确保了模型稳定性。而且,本发明实施例的使得能够评估稳定的模型的这种方法的使用,还实现了将‘自激励’模型结构扩展成包括与早期建模的帧不同的激励的实施例。通过并入这些激励(称为外部激励),实现了数据中的模型不重现特征,并进一步扩展了本发明的实施例的建模能力。
在许多实用实施例中,COMPLETE模型不等同于各种现有短尺寸和长尺寸模型的组合。实际上,得到的COMPLETE表示与任何现有模型都不同。并且,利用COMPLETE全面地一次性捕获整个信号结构,导致了非常简洁的模型,其具有的参数远少于现有技术中分别针对短尺寸和长尺寸模型获取的参数总和。由于这种效率,可根据本发明以高精确度对较宽范围的各种信号类别进行建模,某些甚至具有少至两种模型项。COMPLETE的许多实用实施例涉及可能包含噪声和不稳定特征的信号有损编码。而且,本发明的一些实施例可提供用于根据不断定义的动态规则演变的完全确定的信源的无损编码。应该注意的是,许多信号类别包含短尺寸和长尺寸模式。
振荡器按照定义使用所获取的数据的结构中的冗余度来开发模型。因此,振荡器一般被认为很不适合于建模所获取的数据模式中没有明确定义的瞬态特征,例如独立事件、不连续特征、以及噪声类特征。语音是快速变化信号的一个示例,其中半振荡的和噪声类能量之间的比值可突然变化。在许多实用实施例中,COMPLETE模型对于被认为对传统振荡器不利的一些这样的情况(例如存在有色噪声和特定瞬态)而言是稳健的,其中COMPLETE稳健性的程度由COMPLETE模型的具体被选函数形式以及外部激励矢量的具体实施的组合来确定。否则,COMPLETE的性能在这种不利情况被声明时可能衰退。在其中必须满足特定水平的性能的应用中,性能的潜在损耗是不期望的。本发明的许多实用实施例构成了这样的系统,其结合了COMPLETE以及本领域已知的方法(KAM),以便实现基于COMPLETE的编码器的期望水平的性能或者提高KAM的编码效率。根据本发明实施例的这种多模式COMPLETE/KAM系统的另一用途是为COMPLETE提供初始状态。
在许多实用实施例中,应用上述原理的创新包含:将模型参考的范围 扩展成包括从数据历史导出的信息的混合的改进的激励模型,来自当前输入的数据的最大因果性范围,系统从数据历史之外的信源导出的附加信息,以及预定波形的字典;用于评估该模型的创新方法,该创新方法可采用多个指标以及多个不同类型的模型输出来选择最佳模型并且确保模型稳定性;用于解码利用从数据导出的模型参数重构不可用参考数据的信号的改进方法;用于将本发明的至少一些实施例与现有技术中的可用来初始化COMPLETE并提高COMPLETE和/或现有编码/压缩方法的效率的已知方法进行组合的方法和系统;以及从这些创新实现的样本语音编码器/解码器,下文将予以详细描述。
在许多实用实施例中,用于对输入帧进行建模和编码的方法使用模型参考的改进范围。除了重构的早期建模的帧的典型使用之外,在一些情况下,来自当前帧的数据的一部分、来自当前输入帧的所有数据(除了最近的一个点)被用作内部激励输入。这允许通过一个全面的信源模型来对信源中的短尺寸和长尺寸模式进行编码。而且,除了一般用于振荡器模型中的内部激励之外,并非之前获取的帧的一部分的外部激励被包含作为可能的模型参考。外部激励矢量使得能够建模数据中的非结构特征以及最近出现的结构。外部激励还可用来初始化COMPLETE模型。内部和外部参考的混合使得能够利用单个简洁的代码对包含多尺寸模式和非结构特征的复杂信号进行建模。
在许多实用实施例中,总体上提供了用于估计该完整的振荡器模型的参数以及从该参数恢复(解码)信号的方法,其使用在模型估计(估计步骤)和解码期间点对点重构不可用模型参考的创新处理。
在许多实用实施例中,用于评估COMPLETE模型的质量的创新方法扩展了用来估计对于具体应用最佳的模型的指标选择的范围。而且,多步骤处理被提供用来利用多个指标评估单个模型。此外,指标的扩展范围被应用至不同的模型输出,包括不使用来自当前输入帧的数据而从模型参数恢复的输出。这一改进的关键方面来自这样恢复的帧可能不同于用来估计其参数的帧模型这一事实。评估中使用的恢复的模型输出有利于确保COMPLETE模型对于帧的稳定性。
在许多实用实施例中,提供了用于利用现有技术中已知的方法(KAM) 来初始化COMPLETE操作的方法。
在许多实用实施例中,提供了用于在COMPLETE和KAM之间进行选择和/或用于组合COMPLETE和一个或多个KAM模型以便对各个帧进行编码的方法和系统。通过扩展用于评估COMPLETE模型的质量的方法来开发实施该选择的各种系统。
在最后一个实施例中,基于多模式COMPLETE/KAM系统提供了用于语音编码/解码的方法和系统。
模式1:COMPLETE编码器/解码器系统
图1图示了描绘根据本发明实施例的基于COMPLETE的分析/编码系统的三个基本组件的示意性框图。图1示出了基于COMPLETE的编码系统10的基本块的示图。COMPLETE 10可包含预处理器120,其构建了一个L-样本输入帧,并且可例如通过窗口处理和滤波对输入进行变换。预处理操作还可包括在单元90中执行的可选模拟采样,单元90可以将模拟输入转换成数字信号。COMPLETE 10还可以包括作为主要的COMPLETE代码产生模块的COMPLETE发生器模块170;以及后置处理器160,其能够组织/存储/发送导出的代码参数,并且还可以分析/变换这些参数。输入可以是随时间演变的信号或空间矢量,例如从二维图像提取的数据序列。数字或模拟输入可被提供至图1中的预处理模块。模拟输入在被传递至预处理器120之前可首先在单元90中进行采样,而数字信号输入可直接被预处理器120接收。
预处理器120可根据等式Xk=[x(n-L+1),…,x(n)]输出包含输入信号的L个样本的帧Xk,其中x(n-L+1)表示帧中的第一个数据点,x(n)表示帧中的最后一个数据点。下标‘k’表示获取帧的顺序。在整个说明书中,下标‘k’将表示正在建模的当前帧Xk,并且下标‘k-s’(其中‘s’是整数值)将表示比当前帧早‘s’帧获取的帧。预处理器120还可利用适合于该应用的已知方法对输入帧进行过滤、窗口处理或变换。而且,可能产生重叠帧Xk,其中来自前一帧Xk-1的数据的一部分保留在预处理器120中并被用来形成当前帧Xk的一部分。
图2图示了用于估计COMPLETE模型(等式(1))的参数的基本分析 分量的示意性框图,其更详细地示出了代码产生模块170的基本块。如图2所示,COMPLETE发生器模块170可包括存储单元110、参考缓冲(RB)130、模型估计器/评估器140、以及信号合成器(解码器)150。单元140对输入帧Xk进行建模,作为该模式中详细描述的参考矢量的函数。参考矢量从参考缓冲RB 130提供至单元140,参考缓冲RB 130本身接收和组织来自存储单元110和预处理器120的输入。存储单元110可存储一些形式的接收信号历史,而且在一些实施例中,外部参考矢量定义如下。
1.参考存储和缓冲,单元110和130
图2中的存储单元110存储可用来对当前帧建模的参考信息。单元110可存储的一种类型的信息是从在当前帧Xk之前接收的输入导出的数据历史。这种历史值可为COMPLETE提供一部分参考数据。在图2所示的优选实施例中,存储单元110累积了恢复的之前的输入帧[Yk-p,...,Yk-1],其中Yk-s(其中s=(1,...,p))表示输入帧Xk-s的恢复值,并且如之前所述的那样,下标‘k-s’表示获取帧的顺序。110中存储的每个Yk-s已经被解码器150利用下述方法针对相应的帧‘k-s’根据导出的COMPLETE参数进行合成。而且,单元110可存储这些矢量的变换版本,以便例如匹配对帧Xk执行的变换。在其它实施例中,存储单元110可存储一些形式的实际的早期输入(可选地如上所述地在预处理器120中进行了变换)。如果使用重叠帧,则适当加权的实际的/恢复的重叠帧可在110中组合以再现重叠部分中的实际的/恢复的输入序列。
单元110可存储的另一类参考被称为‘外部参考’或‘外部激励’,以将之与从之前获取的帧导出的‘内部’激励进行区分。在一些实施例中,外部参考[E1,...,Eh]可以是一组预定波形,基本示例可以是一组各种频率的单位振幅正弦波,可据其执行合成的这些波形或参数在系统操作开始之前可放置在单元110中。该波形的选择和数量一般由当前应用以及硬件限制来决定。在其它实施例中,在该操作期间,可以在系统10的多个单元中推断外部参考。它们的基本功能是利用数据历史来推断未被很好地建模的输入数据中的信息,并且使得该信息能够以附加参考的形式为该模型所用。推断的激励被系统10编码成可被解码器用来重构推断的激励波形的一组参数。例如,预处理器120可估计测量当前帧Xk中的噪声类能 量的参数,并使用这些参数来产生外部激励。可利用现有技术中已知的方法来完成这一估计。举例来说,一些语音编码器使用基于傅里叶变换的方法来估计输入中的的噪声类能量的参数。作为另一示例,140或150可计算输入Xk及其重构版本Yk之间的残留Rk=Xk-Yk,并基于该残留产生外部激励。当利用估计模型的输出在140或150中推断出外部激励时,一些实施例可使用推断的外部激励连同现有参考矢量,来估计当前数据帧的新模型。而且,一些实施例选项可采用两种类型的外部激励,即先前定义的和推断的外部参考。
当必须利用外部参考重构至少一些帧内容时,原因可能是帧包含随机事件,例如脉冲或噪声类能量。可替换地,原因可能是,例如在系统操作的初始化期间,可用信号历史没有包含足够的COMPLEX信源模式信息。但是,另一个原因可能是信源结构本身的变化,在这样的情况下,历史数据可能不具有所有新信源特征。在后面两种情况中,外部参考建模的内容是信源结构的一部分,在优选实施例中,它被结合至数据历史中。在这样的情况下,单元110可存储根据所有已用参考(内部及外部)重构的Yk帧。其它实施例是可行的,其中单元110可存储输入的仅仅从其模型(对应于仅仅基于过往的信源模式的信源模型)中包含的内部参考重构的版本。但是,在其它实施例中,单元110可存储输入的从其模型中包含的内部参考和仅仅一些含有的外部参考重构的版本。例如,仅仅采用先前定义的外部参考,而不采用推断的参考。对这些选项的选择取决于具体应用,并且上述实施例的许多实现方式可根据基本原则来设计。
通常,存储单元110具有固定长度的存储容量。信源模式的一个周期被要求利用COMPLETE来建模整个信源模式,但是在非理想环境中运行时采用多个周期提供了稳健性。因此,单元110的所选存储容量可取决于应用,但是也可能由诸如硬件限制之类的其它考虑所束缚。通过每次在单元110中布置新帧Yk时删除最老的内部参考帧,可将存储单元110的尺寸保持为规定容量。在一些实施例中,类似的策略可用来更新外部参考矢量。
单元130组合并布置来自单元110的参考信息以及当前帧Xk的除了最近一个点之外的所有点,即L-1个点Xk(n-1)=[x(n-L+1),…,x(n-1)],它们在图2中是从预处理器100接收的。在图2中标为RB的参考缓冲中 布置信息,并且单元140和150访问布置。在图2所示的实施例中,RB中的矢量依次布置,开始是外部参考波形[E1,...,Eh],可由单元110提供或者可从110中它们对应的参数进行合成,如果合适则在提供给单元130之前;随后是如上所述从数据历史导出的[Yk-p,...,Yk-1]序列;再随后是尾部的最新的L-1个数据点Xk(n-1)。大量的其它缓冲配置可用于RB,只要RB的不同部分被系统10的各种单元一致地索引。RB中包含点[x(n-L+1),…,x(n-1)]使得最短尺寸结构对于建模输入帧而言可用。这是COMPLETE与现有振荡器区别开来的一个方面。包含外部参考[E1,...,Eh]则使得能够对未包含在历史中的数据部分进行建模。改进的数据驱动振荡器与外部参考的使用的结合是另一新颖方面,其使得能够利用一个简洁的代码组来对整个数据(结构性的和非结构性的)建模。
在一些实施例中,存储单元110在系统开始其操作时并不包含历史数据的帧,而且在一些实施例中这种数据可以在信源模式显著变化时随时清除。在这样的情况下,COMPLETE系统10可利用先前提供的外部参考和/或来自当前输入Xk的L-1个数据点[x(n-L+1),…,x(n-1)](利用除了最新点之外的所有点),在存储单元110中产生数据历史。在这种情况下,通过利用附加点补充L-1个输入点,可从当前输入产生完整的L-点参考块;其中可通过重复现有点之一(例如创建[x(n-L+1),x(n-L+1),…,x(n-1)]),或通过利用已知的推算方法从多个现有点推算附加点,在单元130中产生附加点。替换实施例可替换地利用作为参考的L-1个点[x(n-L+1),…,x(n-1)]以及外部参考的相应尺寸的矢量对输入的L-1个点[x(n-L+2),…,x(n)]进行建模。随后,通过重复恢复的帧中的一些数据点,或者通过从恢复的帧中的一些数据点推算出数据点,可以从该模型的L-1个点输出创建完整的L-点参考块。一旦创建了这样的L-点参考块,则它可以存储在单元110中并用作对后续帧进行建模的参考。根据该点,系统可利用其下述常规实施例来产生数据历史。用于产生数据历史的另一种选择是使用本领域已知方法(KAM)来在单元110中创建至少一些或全部的所需数据历史参考。实现这种手段的系统将在模式2中予以更全面的描述。
可以理解的是,存储单元110、预处理器120、以及缓冲130无需实 现为物理上分开的组件,而是可以实现为单个软件或硬件组件,或者在多个组件上任意划分,只要可以通过适当软件或硬件来访问所有信息以仿真上述操作。
可以理解的是,单元110、120和130中的数据序列可能指的是输入数据的所有类型的经变换的、过滤的、窗口化的或近似的版本。而且,存储单元110、预处理器120和滤波器130中的序列可能指的是输入信号的一些原始的/经变换的/近似的版本的一些分量,例如子波分量。
2.COMPLETE估计器/评估器140
估计器/评估器单元140执行COMPLETE模型估计功能。下面的说明将参考图2所示的实施例,其中在缓冲RB中按照序列布置参考。模型估计的处理识别出RB130中的一组长度为N的L个块{Bd(i),i=1,...,N},以使得输入帧Xk被建模为{Bd(i)}的一些规定函数:
Xk=G(Bd(i)),i=1,...,N, (1)
其中:G表示规定的函数形式(线性或非线性);
N是等式(1)中使用的Bd(i)块的数量;
i是表明第i个数据块Bd(i)的指数;
Bd(i)是从RB的项d(i)开始起从RB130取出的第i个块,也称为第i个'抽头(tap)';其中
d(i)表示第i个延迟(为了方便,也可以写成di),它是RB130中的项(块Bd(i)中的第一个元素)的指针。可能的延迟值的范围是整数集合1≤di≤maxd,maxd=m-L+1,其中m是RB中的点的总数。
等式(1)定义的COMPLETE模型同时考虑了输入中的短尺寸和长尺寸模式以及非结构性分量。延迟{di}的集合提供了一种识别出RB 130中的适当块{Bd(i)}的手段。模型估计意味着估计延迟{di}的值和函数G专有的任意变量。G所表示的函数形式通常适用于当前的特定应用,它可以是非线性的。然而,在许多应用中,包含少量抽头的线性COMPLETE足以用来以 高精度对许多类型的信号进行建模。为此,为了方便描述与本发明当前实施例更相关的特征,后面对当前模式的描述将重点关注线性COMPLETE,而非线性COMPLETE则本发明的一些实施例中另述。
线性COMPLETE将Xk表示为块{Bd(i)}的线性组合:
X k = Σ i = 1 N a i B d ( i ) , - - - ( 2 )
其中:N、di、Bd(i)与等式(1)中的定义相同;并且,
ai是相应块Bd(i)的相对缩放(权值)。
等式(2)中需要估计的参数包括集合{ai}和{di},其中i=1,...,N,项数为N。注意,由于COMPLETE的效率,在N=2个线性COMPLETE模型的情况下可精确地对许多信号类别进行编码。即使对于高度复杂的信号s,N=4也是足够的。而且,N的选择对于给定应用一般是已知的。在这种情况下,估计等式(2)中的模型缩减为仅仅估计参数集{ai,di}。下面将描述用于估计参数{ai,di}的多种方法。如果必须还要估计模型项N的数量,则下面提供的同样的方法可用来针对N的不同值估计参数集{ai,di},而且本领域已知方法(例如,赤池信息量准则)可用于选择项N的最佳数量。在部分2,最后描述针对等式(1)的非线性COMPLETE调整所述方法。
2a.COMPLETE参数的估计
可通过调整用于将参量模型拟合至数据的多种已知方法之一而在COMPLETE估计器/评估器140中估计参数{ai,di}。在此描述的实施例总体上执行两个基本程序。第一程序产生多个候选的模型。结果被传递给第二程序,第二程序利用预选的指标来评估估计出的候选模型的性能,从而找出‘性能最佳的’模型。‘性能最佳的’模型被定义为提供根据预设指标测得的最好结果的模型。下面将描述每个程序的多个实施例。应该理解的是,这些描述提供的示例并非用于估计COMPLETE及其参数的穷尽方式。基于基本原理的其它方法的使用不会消弱本发明的权利。
第一程序–产生多个候选模型
此处提供的用于产生候选的模型的方法执行三个基本步骤:第一步骤 挑选一个或多个候选延迟{dt^}(其中t=1,...,D,D≤N,上标^用来表示这是正被考虑的候选值),并且从RB 130取出相应的延迟抽头{Bd^(t)}。第二步骤计算与{Bd^(t)}对应的系数{at^}。这可以利用已知方式通过求解代数最小二乘问题来完成:
[ a 1 ^ , ... , a t ^ ] ′ = i n v [ B d ( t ) ^ ] X ′ k , - - - ( 3 )
其中:
[B^d(t)]是矩阵,它的列是从130选出的块B^d(t)
inv[B^d(t)]是利用已知方法(例如奇异值分解法)计算出的矩阵[B^d(t)]的伪逆;
[a^1,...,a^t]′是系数{at^}组成的列矢量;以及,
X′k是输入Xk的元素组成的列矢量。
以上两个步骤重复以创建多个候选参数集合{at^dt^}j,其中下标j=1,...,J被用来索引具体候选集合,每个这样的集合都是针对第一步骤中选择的{dt^}的具体选择导出的。作为附加步骤,如果适合于给定应用,则COMPLETE参数可通过下述方式而被量化。第三步骤针对每个候选集合{at^,dt^}j,计算下文COMPLETE模型输出。
具体地,步骤1和3存在可选的大量实现方法。接下来描述步骤1(以及对步骤2的相应调节)的几种实现方式。此后,将在模型评估部分中描述描述用于在步骤3中测量‘模型输出’的选择。
产生候选参数集合{dt^}j的方法
下面描述用于产生候选参数集合的三种方法,它们可相应地使用详尽搜索、依次搜索和受限搜索以产生候选延迟集合。这三种方法都从整数集合D导出延迟值,集合D本身是从范围[1maxd]构建的。集合[1maxd]中的一些值不提供有意义的延迟,并且无需被涵纳作为D的一部分。具体地说,[Yk-p,...,Yk-1]组成的序列中的所有点通常提供有意义的参考以使得 对这些点的块Bd(i)进行索引的延迟一般涵纳在D中。另一方面,例如,跨越两个外部参考Ei和Ei+1或外部参考Eh和Yk-p的块Bd(i)一般不提供有意义的参考,由此对这些块进行索引的延迟不涵纳在D中。
详尽搜索方法从D选择N个延迟的组合,并随后通过求解上述等式3来针对每种组合计算相应的系数{a1^,a2^,…,aN^}。详尽搜索方法可首先产生延迟的所有可行集合以及相应的系数值,并随后评估来自所有所得到的候选模型的结果,以识别出产生最佳模型结果的最佳参数集合。可替换地,可在多个组的集合中产生及评估参数的可行集合。现有智能搜索方法之一(例如寻优编程)可用来实现详尽搜索。详尽搜索方法在三种搜索方法中可产生最接近最佳模型的模型,但是它在估计包含多于两个延迟的COMPLETE模型时在计算上的耗费较大。
另一方法是依次搜索方案,依次搜索方案使用迭代过程,其中每个步骤找出最佳参数值的一个集合。例如,如下地实现一次考虑一个延迟的依次搜索。首先,通过针对从集合D选出的d1^的所有可能的值以及通过求解等式3而找出的它们相应的系数a1^评估候选模型结果,可针对等式(2)的一个延迟的COMPLETE(即Xk=a1Bd^(1))找出最佳延迟值d1*。在下一次迭代中,通过评估所有两个延迟的COMPLETE来找出最佳d2*值,其中d1*值保持固定为第一次迭代中找出的最佳值,并且从D中选择候选的d2^值。通过如上所述地求解等式3来计算对应于延迟{d1*,d2^}的候选集合的系数{a1^,a2^}。注意,虽然d1*的值在第一次迭代之后固定,但是系数a1的值不是如此而是必须在每个下一次迭代中重新计算。处理重复直到获取所有COMPLETE参数的最佳值。依次搜索方法能以远远低于详尽搜索的复杂度产生接近的最佳结果。
第三种方法是受限搜索,其结合了前两种方法的特定方面。首先,如上所述地执行依次搜索以产生“种子”估计{d1^,d2^,…,dN^}。随后,将候选延迟限制至种子周围的范围,该估计成为选择候选延迟的基准:di^-μ≤di^≤di^+μ,i=1,...,N,其中μ指定了每个di^周围的点数,并且它的值的设定取决于期望的搜索复杂度。在受限的候选延迟范围内使用上述详尽搜索程序,由此产生候选参数的新集合,并评估相应模型结果以识别出产生最佳模型结果的参数值。该方法的性能通常介于前两 种方法之间。
参数产生方法的以上描述同等地看待RB 130中包含的所有类型的参考。可使用替换实施例,其中在对Xk进行建模时,RB中的参考波形的子集的选择优先于其它参考波形。例如,在一些实施例,最新的数据历史可优于更早获得的历史。在另一示例中,‘内部’参考[Yk-p,...,Yk-1]可优于外部参考[E1,...,Eh]。特定参考的优选处理可实现为下面将要描述的模型评估和选择处理的一部分。上述参数产生方法可针对这一目的而进行修改,并且这些修改一般实现为对可在模型评估和选择期间采用的任意优选处理的补充。例如,以上方法可修改为,其中候选集合{at^,dt^}j被排序以反映期望的优先。例如,当取决于最新历史数据的模型是优选的时,候选参数集合可按照每个集合中的最小延迟的值的降序进行排序,由此在候选模型评估/选择处理期间可首先评估参考最新数据历史的模型。候选模型评估/选择处理可以在找到满足期望性能标准的第一个模型时终止。可独立使用或者与前一策略一起使用的另一策略是仅仅产生候选参数集合的对应于最优选参考的子集,并首先评估该子集。通过利用第一个策略,如果从第一个子集中找到满足满足期望性能标准的模型,则可以终止候选模型评估/选择处理。否则,接下来可创建并评估包含较少优选参考的候选子集。更先进的实施例可包括复杂的折中标准,该折中标准可允许用户支持模型中的特定参考,即使该选择导致了不够标准的结果。例如,在一些实施例中,性能的预定损失对于仅仅取决于‘内部’参考[Yk-p,...,Yk-1]的模型来说是允许的,如果该模型优选的。一般,可利用基本原理来设计更支持RB 130中的一些参考的许多实现方式,并且这种设计的采用不会消弱本发明的权利。
第二程序–评估候选模型
上述第一程序输出根据等式(2)得到的参数化的候选模型的集合。接下来将描述为了评估这些候选模型的质量而对单元140使用的各种方法做出的调整。通常,当模型由等式定义时,利用该等式计算其输出。具体地说,在等式(2)的情况下,标准模型输出被定义为Xk^(j)=Σi Dai^Bd^(i)(针对第j个候选参数set{at^,dt^}j的实例),其中t=1,...,D,D≤N,并且其它标记与前面的定义相同。通常,这种标准输出Xk^(j)可用来评估模型质量。针对这一点的通用测量是均方误差(MSE),对于第j个候选参数集合{a^,d^}j的实例有:
M S E ( j ) = 1 L [ X k - X k ^ ( j ) ] ′ [ X k - X k ^ ( j ) ] . - - - ( 4 )
最佳候选模型在这种情况下被识别为使得MSE最小的模型。一般,大量指标可代替MSE来统计上分析模型输出的时域和频域特征。一个指标或多个指标的选择可根据具体应用的需求来确定。为了评估候选COMPLETE模型的质量,本发明以没有限制的方式覆盖任意指标的使用,不管是现有技术中的已有指标还是根据已知的基本原理设计的指标,不管是单独使用还是和其它已知指标一起使用。在此将描述多个指标。
除了用于评估候选模型的质量的指标的选择范围之外,接下来将描述使用模型输出而不是上述定义的标准Xk^的多个实施例。在一些实施例(包括图2所示的实施例)中,第二模型输出,即根据单元140提供的参数在合成器150中合成的Yk^,被用作模型评估/选择处理的一部分,并且被用于在单元110中创建数据历史参考。此处的关键点在于,在COMPLETE的情况下,对于给定的参数集合,合成的Yk^可能不同于估计的Xk^,这是因为Yk^可能是从输入帧中的重构数据导出的,而Xk^参考了实际输入Xk。而且,可利用近似模型参数而不是精确的模型参数来计算两个估计(Xk^和Yk^),例如量化的参数,其中通过下面描述的方式来进行量化。因此,在所提供的实施例中,可修改被用来评估封闭形式的模型的现有指标,例如等式(4)中的MSE,其中由利用等式(2)通过近似(例如量化的参数)计算出的估计X^^k来替换模型估计Xk^的所有实例,或者可选地由从精确的或近似的模型参数合成的估计Yk^来替换模型估计Xk^的所有实例。实际上,更有意义的是使用具有合成的Yk^的特定指标以及具有Xk^的其它指标,并且可根据当前应用来决定选择。例如,在涉及语音的应用中,通常期望优化合成的输出Yk^的感知特征而不是Xk^的感知特征。注意,基于Yk^的模型评估可被看作是涉及整合分析(analysis-by-synthesis)技术,其中对根据各种输入合成的多个系统输出进行比较以选择最佳输出。然而,在许多实施例中,基于在COMPLETE模型选择中使用的合成输出的指标可与其 它指标结合,通常包括X^k或X^^k,由此整个COMPLETE模型估计程序可包括多个步骤的评估处理。在非限制性的示例中,依次使用两个指标的实施例可首先根据等式(4)给出的最小MSE标准来产生q个最佳候选模型,随后在合成器(解码器)150中从这q个最佳候选模型的量化参数合成出q个输出Yk^,并将这q个合成的输出传递至估计器/评估器单元140,在估计器/评估器单元140中利用第二指标(例如,下面的等式(7)给出的PWE感知指标)来对其进行评估。本发明的实施例的模式3提供了采用多个评估指标的语音编码器的具体情况。基于多个指标的评估程序的设计是COMPLETE的一部分,其不仅针对实际应用进行了调整,而且用于针对其采用的参考的扩展范围确保了COMPLETE模型的稳定性。接下来给出一些指标的非限制性示例,用于评估Yk^的实例,但是如前面说明的那样,可利用Xk^或X^^k来替换地应用这些和其它指标从而评估COMPLETE质量(如果对于给定应用来说有必要)。
信噪比:最小信噪比(SNR)是用于选择最佳模型的通用标准。对于Yk^,SNR可计算为
S N R ( j ) = 10 log 10 X k 2 [ X k - Y k ^ ( j ) ] 2 , - - - ( 5 )
其中j表示候选参数集合{ai^,di^}j的指数。
对数频谱距离:对数频谱距离(LSD)是用于评估模型结果的频谱特性的另一通用指标。可进行如下计算
L S D ( j ) = 1 f s ∫ 0 f s 10 log 10 | F [ X k ] ( f ) | 2 | F [ Y k ^ ] ( j , f ) | 2 d f , - - - ( 6 )
其中
fs是采样频率;
F表示傅立叶变换;
f是范围为[0,fs]的相关频率箱;而且,
j是候选参数集合{ai^,di^}j的指标。
用于评估语音的感知质量的公共指标是感知加权误差(PWE)。通过最小化PWE来优化感知质量:
P W E ( j ) = 1 f s ∫ 0 f s | F [ X k ] ( f ) - F [ Y k ^ ] ( j , f ) | 2 | W ( f ) | 2 d f , - - - ( 7 )
其中
fs、F[.]和j具有与等式(6)相同的定义;
│.│表示强度频谱;
W(z)是加权滤波器:
其中Z[b]表示Z变换,而且通过使线性预测模型的失配误差最小来计算系数b:
X k = Σ u = 1 U b u X k ( u ) , - - - ( 8 )
其中Xk(u)=[x(n-u-L+1),…,x(n-u-1)]表示相对于最后一个点Xk具有滞后u-1的长度-L数据序列。
在此描述的方法不应该被解释为提供了用于执行所述模型评估的全面或穷尽的方式。基于基本原理的其它评估方法的采用不会消弱本发明的权利。
可在140或150中的对模型参数的评估处理中、或随后在160中的对模型参数的后续处理中,量化模型参数。可利用现有技术中的任意数量的方法来实现量化,包括但不限于针对系数{ai}的矢量量化、针对延迟{di}的标量量化、以及它们的所有衍生形式。
估计器/评估器140中执行的评估的结果是产生最佳模型结果的参数集合{ai^,di^}*。如果最佳模型采用推断的外部参考,则需要重构这些参数的参数也变成来自单元140的输出代码的一部分。因此,输入帧的COMPLETE代码可包括模型参数,以及如果可以的话则还包括外部参考的参数。从估 计器/评估器140向合成器150和后置处理器160输出最终代码以进行存储和/或传递。根据图2所示的实施例,如果在模型估计处理期间没有保存最佳的恢复帧Yk的期望形式,则在单元150中从提供的参数对其进行合成并将其输出值存储单元110。单元160还可以在存储/传输COMPLETE代码之前通过适合于当前应用的方法来处理或变换COMPLETE代码。例如,如果参数还没有在140中被量化,则可以在后置处理器160中通过前面描述的现有技术的方法对它们进行量化。
上述分析步骤可直接地转换至由Bd(i)的线性和非线性函数的加权求和构成的任意非线性模型。而且,一般的非线性函数可通过由块Bd(i)本身和块Bd(i)的上升为指数的元素的加权求和构成的截断的多项式展开来近似。上述分析方法可被调整用于估计非线性模型的多项式展开,如下所述。和前面一样,延迟di可在参考缓冲130中索引数据块。针对上述所选延迟值取出数据B^d(i)的块,并将其用于计算新的块的集合{B^term(c)},其中每个B^term(c)对应于多项式展开的第c项。在线性COMPLETE的情况下,在计算了块{B^term(c)}之后,通过在等式3中将项{B^term(c)}代入{Bd^(i)},多项式展开中它们对应的权值被类似地计算成系数{a^i}。余下的分析如前面针对线性COMPLETE描述的那样进行。
3.合成器150和解码器250中的信号的解码
图3图示了根据本发明实施例的从接收到的COMPLETE参数恢复信号的COMPLETE合成器/解码器的示意性框图。解码指的是在图2中的合成器150以及图3中的单元250中执行的操作。合成器(解码器)150/250根据提供的参数以一定精度恢复原始输入帧。在图2中的合成器150的情况下,从估计器/评估器140输入合成参数,在图3中的独立解码系统的情况下,根据传递的/存储的代码获取参数。
在图3所示的解码器实施例中,在单元250中按照与信号在150中合成的方法相同的方式恢复信号。在图3所示的实施例中,单元210存储并布置恢复的'信号历史'[Yk-p,...,Yk-1]以及所有先前定义外部参考,它们的实际波形或者它们的生成所需的参数。210中的布置镜像了这些参考在图2的单元130中的布置。产生推断的外部参考所需的参数(如果有的话) 也作为传输的/存储的代码的一部分而提供至Fig 3的解码器,并且用于产生这些外部参考波形。在提供至单元150/250的代码中没有延迟{di}索引了当前数据帧中的任意点的情况下,与前面针对帧Xk的等式(2)给出的模型估计的计算类似地,从提供的参数集合恢复当前帧Yk,即:
Y k = Σ i = 1 N a i B d ( i ) .
否则,如果至少一个延迟索引了当前输入帧中的数据,则合成器150/250点对点地合成整个Yk,按照从当前帧的最早点开始、向帧的尾部前进的方式,如下地估计每个点:
y ( s ) = Σ i = 1 N a i b ( d ( i ) + s - 1 )
其中b(d(i)+s-1)要么指的是现有参考中的点,要么指的是已经在当前y(s)之前合成的并且正被保持在被150/250访问各个缓冲中的当前帧的元素。
模式2:将COMPLETE与现有技术中的已知方法进行结合
图4图示了示出根据本发明实施例的通用多模式COMPLETE/KAM系统的组件的示意性框图。图4示出了混合多模式COMPLETE/KAM系统400的总体结构,混合多模式COMPLETE/KAM系统400通过通过在各种形式的COMPLETE单元10a,10b,…,10n和各种本领域已知方法(KAM)405a,405b,...405n以及它们的组合、各种块和单元(可实现为硬件、软件或它们的组合)中进行选择,来对输入帧进行编码。系统400的实施例可提供两个实用功能:1)COMPLETE的初始化;以及2)改进KAM的性能,或者在COMPLETE本身不提供期望水平的性能的应用中改进COMPLETE的性能。如在本发明的发明内容中讨论的那样,输入信号中的‘模式突破’事件(例如,在相对于信号的持续模式演变的时间跨度较短的时间跨度发生的非结构性能量的突然上升、断开以及瞬变)会负面地影响COMPLETE性能。在这样的情况下,KAM 405可用来编码一部分信号,COMPLETE可用来编码其它部分,由此将总体性能提高至高于KAM或COMPLETE单独所能提供的 性能。
图4中的COMPLETE/KAM系统400可包括前置选择器410,其可以分析输入信号Xk并且选择COMPLETE 10、KAM 405或COMPLETE 10/KAM 405的组合中的那个被用于建模Xk;COMPLETE/KAM编码模块415,其包含可被前置选择器410和/或后置选择器430激活的各种COMPLETE 10和KAM405模型估计单元;参考/存储单元420,其结合了上述单元110和130的功能。单元420可包含如上所述的内部和外部激励,这些内部和外部激励可被COMPLETE10访问,并且在需要时可被COMPLETE/KAM模块415的KAM405单元访问;后置选择器430,其从最终选择的‘最佳’模型向存储器420和后置处理器440路由相关输出,并且可选地,它可以评估从COMPLETE/KAM模块415提供的候选模型的输出;以及后置处理器440。
对于模式2,为多模式COMPLETE/KAM系统产生输入帧的前置选择器410的数据预处理功能,可类似于模式1中描述的图1的预处理器120的预处理功能,所以该组件以及相关预处理步骤不在模式2中重复描述。类似地,图4的后置处理器单元440的功能可实现为类似于模式1中的后置处理器160的功能(参见图1),不同之处在于后置处理器440可执行将最终模型的参数连同它们的模型标识符代码一起封装识符代码的附加功能。模型标识符代码被后置选择器430连同模型参数一起提供给440,并且模型标识符代码由给定系统指定哪个模型或模型组合被用于编码当前帧所需的最少数量的比特构成。
前置选择器410和后置选择器430以及图4中的COMPLETE/KAM模块415为COMPLETE/KAM系统的各个实施例提供了主要块。在描述了单元410和430以及COMPLETE/KAM模块415执行的操作之后,下面将描述COMPLETE/KAM系统的三种基本实现方式的实施例。
作为其操作的一部分,前置选择器410可在COMPLETE/KAM模块415中选择COMPLETE10和/或KAM 405的集合。在一些实施例中,前置选择器410的实现可以是一个简单的多路分离器,其在刚好两个模型(单个COMPLETE 10和单个实施的KAM 405)之间进行选择,并且还可选地能够选择两者的组合。可替换地,前置选择器410可根据输入信号Xk的本质来选择COMPLETE和/或KAM方法的复杂组合。这种选择处理可包括针对反映 信号的统计上的和/或确定性的特性的输入Xk计算参数,分析这些特征,并随后利用结果选择多个COMPLETE 10a-10n和KAM 405a-405n的组合以对Xk进行建模。根据什么适合于给定应用,针对输入Xk计算出的参数可反映可利用现有方法获取的信号的任意数量的统计的时间的、频率的、以及时频的特征。可对照预设基准/阈值或其它预定指标来分析计算出的参数值。
前置选择器410能够起到作用的一个功能是检测‘模式突破’事件。对于这些实施例,前置选择器410可利用已知方法分析特定参数在当前和先前帧Xk上的的连贯性。例如,前置选择器410可将Xk中的确定性能量的分布与一些先前输入帧[Xk-p...Xk-1]中的确定性能量的分布进行比较。例如,所述分布可通过计算基频(在语音编码中被称为音高周期)以及能够揭示帧中的准周期能量(V)和噪声类能量(U)的特性的其它参数来测量。可利用本领域已知方法来估计这些参数。例如,一些语音编码器利用基于傅立叶变换(FT)的方法(例如快速傅立叶变换(FFT))来计算U和V参数,以便针对每个帧来进行语音/非语音识别。计算出的准周期能量的参数V(t,w)和噪声类能量的参数U(t,w)是时间(t)和频率(w)的函数。还可以采用用于计算这些参数的其它已知方法。在本示例中,给定帧内计算出的准周期和噪声类能量在时间和频率上的分布相对于这些量在先前帧中的分布,可控制COMPLETE 10和KAM405是否以及有多少能被前置选择器410选择。考虑到输出的期望质量,这种控制处理同样可以按照许多已知方式来实现。例如,准周期能量V和噪声类能量U的分布可分成多个范围或多个箱,并且COMPLETE和/或KAM的具体选择可分配给每个箱。
前置选择器410还可以从可修改前置选择器410的设置的外部信源接收命令,或者可替换地,命令可整合为前置选择器410的决策逻辑的一部分。例如,什么时候出现‘模式突破’的知识可从COMPLETE/KAM系统外部获取,在这种情况下,外部命令可将这一信息提供给前置选择器410,由此使前置选择器410无需执行该分析。
如上所述,图4中的COMPLETE/KAM模块415包含一个或多个COMPLETE10和KAM 405估计器。COMPLETE/KAM模块415中的每个COMPLETE 10估计COMPLETE的不同功能形式。例如,COMPLETE/KAM模块415可包含4个 COMPLETE单元,其中每个单独的单元利用特定数量(1至4)的延迟来估计线性COMPLETE。可假设每个COMPLETE 10或KAM 405在其被来自前置选择器410、后置选择器430或来自COMPLETE/KAM模块415中的另一COMPLETE 10或KAM 405的输入切换至“开启”之前保持未激活。因此,可将COMPLETE和KAM单元切换至“开启”,并向它们单独或按各种组合(即,串行组合、并行组合、或串并混合的组合)施加所提供的输入。在‘串行’组合中,第一个被选的单元对Xk进行编码,下一个单元对第一个单元的残留输出进行编码,依此类推,最后结果是一个串行模型,例如(COMPLETE10a+KAM 405a+...KAM 405e)。在‘并行’组合中,第一个被选的单元对Xk的一部分进行编码,下一个单元对Xk的另一部分进行编码,依此类推。而且,描述的这些方案可彼此组合使用以便创建COM和KAM的任意组合。
KAM 405单元可使用已知方法来估计它们各自的模型。对于图4中的COMPLETE 10单元,同样的实现方式可用于上述COMPLETE 10的COMPLETE估计器/评估器140和合成器150(参见图2),不同之处如下所述。以上针对COMPLETE估计器/评估器140描述过的候选模型质量的评估在模式2下可在COMPLETE/KAM模块415的模型估计单元和后置选择器430之间划分。处理的这个部分的划分方式可取决于具体的COMPLETE/KAM系统实现方式的选择,其中一些选择将在下文予以更全面的描述。然而,不管模型评估功能如何在COMPLETE/KAM模块415和后置选择器430之间划分,用于评估候选模型以针对给定方法来选择最佳模型的整个处理和指标类似于参考单元140描述的那些处理和指标。而且,应该注意的是,在一些实施例中,在各个COMPLETE或KAM估计单元内合成候选模型输出。对于一些实施例,替换实施例可使用COMPLETE/KAM模块415内的或COMPLETE/KAM模块415外的其它分量以合成这些模型输出。
可以理解的是,仅仅出于描述简洁的原因,图4所示的COMPLETE/KAM模块415中的分开的COMPLETE 10和KAM 405被用来表示不同形式的COMPLETE 10和KAM。多个模型类型的估计可在单个单元完成或者以一些方式划分至多个单元,在这样的情况下,软件或硬件可用来选择适合于期望模型的具体项。例如,与利用四个分开的单元估计四个线性COMPLETE(每个具有不同数量的延迟(1至4))不同,COMPLETE/KAM模块415可具有允许多达四个延迟的单个COMPLETE单元,并且可在模型估计处理期间选择期望数量的延迟。
一旦COMPLETE/KAM模块415中的模型估计处理完成,建模结果可被提供至后置选择器430以进行进一步处理。如图4所示,后置选择器430可从COMPLETE/KAM模块415接收结果,并且可访问所提供的结果。COMPLETE/KAM系统400的具体逻辑结构的选择(下文将描述一些可用的逻辑结构)控制在后置选择器430中执行多少处理。以下将描述后置选择器430可执行的功能的完整集合,需要理解的是,特定实现方式可结合所述处理步骤的全部或部分、甚至不结合所述处理步骤。
可在后置选择器430中执行的一个功能是对从COMPLETE/KAM模块415接收到的分析结果进行评估。可执行两种类型的评估。第一类型评估了模型质量,并且可用来辅助在从单个建模方法获取的各种候选模型中进行选择。评估的第二类型可用来在从COMPLETE/KAM模块415的不同COMPLETE10和/或KAM405获取的结果中进行选择。可利用用于评估模型质量的方法(已经在模式1中针对COMPLETE估计器/评估器140做出了描述)在后置选择器430中实现评估的第一类型。可利用与模式1中在COMPLETE估计器/评估器140中评估模型质量的方法相同的方法实现第二类型,但是除了与模型质量相关的测量之外,它还可以包括性能测量。示例包括就给定参数集合编码所需的比特数、计算复杂度、模型对于环境噪声的稳健性、量化稳健性和本领域已知的适合于当前具体应用的其它性能指标而言的编码效率。可以利用现有技术的方法来计算所有这些测量。而且,多个性能指标可相互组合以及可与模型质量相关测量组合使用,在这种情况下,评估一般包括基于多个指标的性能折中。一个示例是涉及模型质量和编码效率之间的折中的选择标准。
估计结果可控制后置选择器430中做出的决策处理。一种实施方式选择是让后置选择器430总是根据一些预设标准来选择最佳模型,并且该模型被当作分析的最终结果,在这种情况下,后置选择器430向后置处理器440输出选择的模型参数以及模型标识符代码,并且如果可用,则向存储器420输出从所选的最佳模型的参数恢复的最终的Yk帧。如果最终的Yk 不可获取,则后置选择器430指示COMPLETE/KAM模块415合成该Yk并将其输出至单元420。可替换地,在一些实施方式选择中,后置选择器430可选择继续COMPLETE/KAM模块415中的模型估计处理。为了初始化模型估计处理的新迭代,后置选择器430打开COMPLETE/KAM模块415中的所选的模型估计单元,并且向它们提供所有必要的输入。通过后置选择器430提供给单元415的数据帧可包含从Xk导出的一些形式的数据,或者可替换地,该输入可通过之前的迭代获取,例如通过之前的迭代获取的f残留误差。这些模型估计步骤可迭代地重复,直到后置选择器430选择最终模型,并通过向单元440输出所选的模型参数和模型标识符代码以及向单元420输出由所选模型恢复的Yk帧,来终止模型估计处理,如之前描述的那样。
COMPLETE/KAM系统400存在三种基本逻辑结构,其能够以不同逻辑次序组合前置选择器410、COMPLETE/KAM模块415和后置处理器430中执行的各种功能。这些实施例可称为先决策(DF,Decision-First)、后决策(DL,Decision-Later)以及混合决策(MD,Mixed-Decision)实施例。模式3中将提供MD实施例对于语音编码器的一个具体示例。
先决策(DF):DF实施例做出与图4中的前置选择器410中的模型的选择有关的所有决策,并选择用于对给定帧Xk进行编码的一个具体方法,这个方法可以是COMPLETE、KAM、或COMPLETE和/或KAM的组合。DF实施例的基本示例是用于COMPLETE初始化的系统,其中基本COMPLETE/KAM系统由一个COMPLETE和一个KAM构成。在这样的情况下,单元410是一个简单开关,其被设置成在系统操作开始时(以及在要求重新初始化的事件之后)选择KAM,直到在单元420中产生了足以实现COMPLETE操作的信号历史[Yk-p,...,Yk-1]。在这之后,前置选择器410可被设置成选择COMPLETE。采用前面在对前置选择器410的描述中描述过的输入Xk的分析,可得到能够在COMPLETE 10a-10n以及KAM 405a-405n的多个选项中做出选择的更复杂的DF实现方式。
后决策(DL):DL实施例做出与后置选择器430(而非前置选择器410)中的一个模型或多个模型的选择有关的所有决策。DL策略允许多个可行的实施例。最基本的DL策略计算COMPLETE/KAM 415中的所有可用方法选项的候选模型,随后后置选择器430利用用于估量模型质量的一个或多个估 计指标以及前面在对后置选择器430的描述中给出的其它性能测量,通过对从它们各自的最佳模型获取的结果进行比较,在所有方法选择中做出选择。例如,可以在目标是根据一些预定的标准集合来选择具有最佳总体性能的模型时,采用该策略。更复杂的DL策略可由多个迭代步骤构成,每个步骤包括在COMPLETE/KAM 415中产生多个候选模型以及在后置选择器430中评估来自这些模型的结果,直到得到期望性能。例如,可以在估计标准包括折中(例如,用于找出提供最低比特率同时符合或超过对模型质量的预设要求的COMPLETE/KAM模型的标准)时采用该DL策略。在该示例中,首先可利用前述方法来找出提供最低比特率的模型,并且如果其输出质量不满足期望要求,则针对下一个最低比特率模型重复该处理,直到得到具有期望质量的模型。
迭代DL实施例可结合基于已知决策制定协议的更复杂的逻辑。例如,可评估来自一个迭代步骤的结果,并且基于结论,后置选择器430可针对下一次迭代来选择与上一步骤中使用的集合完全不同的COMPLETE 10或KAM 405的集合。例如,后置选择器430可根据来自给定迭代的估计结果将使用的方法从COMPLETE 10切换成KAM 405。而且,后置选择器430可以指示针对从原始输入帧Xk导出的信号或者替换地针对从在之前的迭代中的一个迭代中评估的模型获取的残留误差,评估这个新模型。一旦已经完成了预定次数的迭代,则可终止迭代处理。可替换地,一旦找到满足预设标准的模型,后置选择器430可做出决策来终止迭代。
混合决策(MD):MD实施例可使用前置选择器410和后置选择器430两者以结合DF和DL策略的属性。在MD实施例中,前置选择器410可选择将针对每个帧进行评估的潜在方法的集合,而不是如DF实施例中那样指定单个方法。单元430可以在对所选模型做出了评估之后进一步在所选模型中做出选择。因此,410可用来缩小COMPLETE/KAM模块415中需要针对给定帧予以考虑的COMPLETE 10和KAM 405的选择范围。同时,如果合适,后置选择器430可以在评估过所选模型之后改变决定并选择并非前置选择器410初始选择的另一模型。
可以理解的是,上述策略代表了一些基本系统实现选择,从它们可以开发出将COMPLETE和KAM以各种方式结合在一起的无数的可能实施例。
解码
在所有的COMPLETE/KAM实施例中,解码器估量所接收的模型标识符代码,并利用与对Xk进行编码所使用的方法相对应的方法来相应地重构输出信号Yk。编码器所用的这种方法可以是COMPLETE或KAM、或者COMPLETE和/或KAM的组合。由KAM编码的信号的每个部分利用针对该KAM已知的解码方法来进行解码。利用模式1中描述的相应的COMPLETE解码方法来对被COMPLETE编码的该信号的每个部分进行解码。恢复的帧按照对恢复的帧在编码器端的存储器420中的累积进行镜像的方式在解码器的存储单元中累积,并且在需要时被用于恢复未来帧。
模式3:语音编码器/解码器
模式3提供了模式1和2中讨论的一些实施例的具体示例。图5图示了示出根据本发明实施例的利用多模式COMPLETE/PACT实施的语音分析(编码)系统的示例的示意性框图。图5示出了语音编码器50的基本部分的框图,语音编码器50能够以可与现代编解码器的比特率相比拟的比特率产生长话级语音,并且是利用在本发明的模式2中描述的混合COMPLETE/KAM策略实现的。为了更容易说明一些关键点,模式3使用COMPLETE模型的完整振荡器(COM)部分。该模型的COM部分使用仅仅从数据历史和当前帧导出的参考,但是不使用外部参考。出于描述简洁的目的,模式3中使用的模型将被称为COM。图5中的语音编码器包括预处理器模块500;前置选择器单元510,其控制初始化处理;以及COM/PACT编码模块515,其包含一个COM估计单元525和实现了下面将要详细描述的脉冲自回归补偿器(PACT,Pulsed Autoregressive Compensator)方法的一个KAM估计单元535。语音编码器50还可进一步包括存储单元520,其包含可由COM 525访问的恢复的早期输入[Yk-p,...,Yk-1];以及后置选择器530,其在正常(非初始化)模式下控制模型选择处理,并且在通过将后面描述的相关信息路由至单元520和后置处理器540来找到‘最佳’模型之后初始化输出处理。后置处理器540如模式2中描述的图4的后置处理器440那样的操作,由此省略对其的描述。
图5中的预处理器500利用与针对模式1(参见图1)描述的处理模 块120相同的通用方法来处理输入数据,但是被调整成适应语音编码应用。如果输入数据是模拟的,则对输入数据进行采样,并利用根据现有技术的一种窗口进行窗口处理以创建帧,一般可选择Hamming、Hann或Kaiser窗口。窗口操作可用来创建输入数据的与它们前面的输入帧重叠一些固定数量的数据点的帧。通常,还可以利用许多已知方法中的一种来对帧进行凌波以去除噪声。语音编码中一般是5毫秒(ms)至40ms的窗口大小。在一些实施例中,模式3使用20ms的三角窗口以及50%的帧重叠。创建的每个帧可被预处理器530输出至前置选择器510。
前置选择器510将当前输入帧提供给COM 525或PACT 535,并且由此控制在COM/PACT模块515中一开始使用哪个模型。前置选择器510中的操作遵循对前置选择器410in模式2中的前置选择器410中的初始化处理所做的总体描述,但是存在一些区别。具体地说,单元510在操作开始时或者在检测到输入信号的中断之后,切换至‘初始化’模式。在给出的实施方式中,单元510保持‘初始化’模式,直到在单元520中累积了足以获知一个音高周期的最大时间间隔是多少的足够多的帧。例如,在标准美式英语发出的语音的编码中,在单元520中捕获帧形式的32ms连续语音就足够了。模式1中描述的其它考虑也会影响到存储单元520中累积的帧的数量。在完成了累积之后,单元510可切换至‘正常’模式。在‘初始化’模式中,单元510可通过向模块515中的PACT单元535输入当前输入帧来将之激活,由此对该帧的建模进行初始化。在正常’模式中,前置选择器510通过将接收到的帧输入至COM 525来激活COM/PACT模块515中的COM单元525。
在一些实施例中,图5中的COM/PACT模块515可包含:估计等式(2)所示形式的线性4-延迟COM的COM 525,以及如下所述地估计自回归线性预测器模型的PACT 535。在当前实施例中,采用了第八级自回归线性预测器模型。替换实施例可使用COM 525,COM 525具有不同数量的延迟和COM的非线性函数形式以及不同阶的PACT 535和代替PACT的不同KAM。利用之前模式1中描述的通用COM估计程序的下述实施例来执行COM的估计。首先,针对如下所述地量化的参数的所有可能集合来计算候选模型输出的集合{Yk^[COMj],j=1,...J}。如前面的描述一样,上标^在此用来表示 候选值,符号[]表示当前用来计算给定变量的方法,下标j是用来表示各个候选参数集合的指数。随后可利用上述等式(7)的感知加权误差(PWE)指标来评估每个候选模型Yk^[COMj]的质量,得出最小PWE的参数值被识别为提供最佳模型的参数值,并且这些参数与相应的输出Yk[COM]一起被提供给后置选择器530。
可如下所述地在PACT 535中执行PACT模型的估计。在多个实施例中,估计了8阶的自回归线性预测器模型,如下式所示:
X k = Σ u = 1 8 b u X u ( z ) + E k , - - - ( 9 )
其中Xk与前面描述的一样表示长度为L的输入序列,Xu(z)是具有滞后z的长L的数据块,这就表示块在Xk中在最后一个点之前开始z个样本,Ek是建模误差(预测误差),而且bu表示通过利用例如Levinson-Durbin算法或一些根据现有技术的其他方法使Ek最小化而找到的系数。从估计的参数根据等式(9)恢复输入,其中一般如等式(10)所示地近似Ek。近似(标记为Rk)被计算为由迪拉克δ函数(Dirac delta函数)表示的成比例的时移脉冲的组合,如下所示
R k = Σ v = 1 P c v δ p ( v ) , - - - ( 10 )
其中:δp(v)表示当前帧中的p(v)处具有幅值1而其它处为0的迪拉克δ函数;
p(v)表示当前帧内脉冲v的位置;
cv表示脉冲v的增益;而且,
P是近似中使用的脉冲数,在给出的实施例中P=8。
用于PACT模型的候选参数集合由可利用多种方法产生的脉冲位置{pv}和系数{cv}构成。一种选择是调整同一个用于在该模式下产生COM参数的 方法。在这样的情况下,可按照与延迟{di}相同的方式选择脉冲位置{pv},同时可按照与等式(3)中的{ai}相同的方式计算系数{cv}。也可以采用其它基本参数产生法而不会消弱本发明的权利。PACT模型参数也可被量化,例如如下所述,而且可使用与上述候选COM的估计中使用的指标相同的指标来评估候选PACT模型的质量。具体地说,表示从候选PACT模型合成的结果的{Yk^PACTj],j=1,...,T}被找到并用来计算PWE。得出最小PWE的参数值被选为提供最佳模型的参数值。
COM和PACT模型的参数可在COM/PACT模块515中的它们各自的单元中进行量化。以下的实施例假设窄带语音编码器,其中在8kHz的速率下对其输入进行采样。在这样的情况下,20ms的输入帧可包含160个数据点(L=160),它们被翻译成针对COM的256个可能的延迟值以及针对PACT的160脉冲位置,这两个集合的值都是正整数。可直接利用8比特来量化这两个集合。为了减少所使用的比特数,模式3的这一实施例可使用下述已知方法来将延迟和脉冲位置划分成交织的子集。
延迟可分成包含64项的多个子集,并且利用6比特来表示每个子集内的各个位置。PACT脉冲位置被分成包含32项的多个子集,并且利用5比特来表示每个分组内的各个位置。利用一种已知矢量量化方法将COM系数{ai}量化成12比特。因此,本实施例中的COM代码中使用的比特总数是(6*4)+12=36比特/每帧。PACT线性预测器模型的系数可被转换成线谱频率(本领域标准),并且可利用已知的分裂矢量量化方法来量化。随后结果被分成每个具有4个频率的两个次级矢量,并且11比特被用来对每个次级矢量进行编码,得到总共11+11=22比特来表示系数。利用已知矢量量化方法中的一种来将PACT模型中的脉冲的权值量化成13比特,该方法可以是与用于COM系数的方法相同的方法。本示例中用来表示PACT的比特总数为每帧22+(5*8)+13=75比特。
编码器的操作描述控制了后置选择器530中执行的功能的次序。在‘初始化’模式中,后置选择器530接收针对最佳PACT模型的量化的参数集合,并且初始化输入代码的处理(这将在下文予以描述),同时系统50进行至下一帧的处理。在‘正常’模式下,后置选择器530从模块515接收根据最佳候选COM模型获取的合成的输出Yk[COM*]以及与之对应的量化参 数集合,并且利用Yk[COM*]计算等式(5)给出的信噪比(SNR)指标。上标*表示获取给定变量的最佳模型。如果SNR[COM*]小于一些预定数量(例如,在本实施例中采用1dB),则表示信号中不存在足够的冗余度并且PACT模型应该被用来编码帧。在这样的情况下,后置选择器530促使前置选择器510向初始化PACT估计的COM/PACT模块515中的PACT单元输入Xk。否则,后置选择器530向初始化PACT估计的COM/PACT模块515中的PACT单元提供残留误差Ek=Xk–Yk[COM*]。
在PACT 535接收到包含输入Xk或者残留误差项Ek的帧之后,执行第二模型评估,其中按照与前面已经描述过的方法相同的方法来估计PACT模型,在每种情况下将接收到的帧当作将被建模的输入。在当前迭代中找到最佳PACT之后,相应的合成输出(Yk[PACT*],如果建模了Xk;或者Yk[COM*+PACT*],如果建模了残留误差Ek)与相应的量化参数集合一起被PACT 535提供给后置选择器530,并且被用于计算等式(6)给出的数频谱距离(LSD)指标。在第二次迭代中建模了输入Xk的情况下,后置选择器530初始化输出代码的处理(这将在下文予以描述),同时系统进行至下一帧的处理。否则,针对两个合成的输出Yk[COM*]和Yk[COM*+PACT*]计算LSD指标。如果两者之差小于一些阈值,例如本实施例中使用的LSD[COM*]-LSD[COM**+PACT*]<0.5dB,则COM 525被选为最终模型,否则选择PACT 535。在这两种情况下,后置选择器530初始化输出代码的处理,如下所述,同时系统进行至下一帧Xk+1的处理。
后置选择器530中输出代码的处理由向后置处理器540提供所选参数以及模型标识符代码构成。而且,作为输出处理的一部分,后置选择器530向存储器520提供从所选参数合成的信号,这通常已经在模型识别的处理中进行了计算,否则如果没有,则后置选择器530可对计算进行初始化。
所述的基本实施例在平均9.77千比特每秒(kbps)的无噪声测试条件下产生了长话级语音。就比特率和感知质量而言,该编码器的总体性能介于运行在其最好质量模式下的当前顶级的G.729和AMR编码器之间。当前模式下使用的基本实施例提供了出于陈述简便和清楚的目的而选择的示例。上述指定参数的变化以无限制的方式涵盖在本发明中。而且,通过基于模式1和2中描述的原理实现各种优化选择,可从此处描述的底线上 改进编码器性能。
解码器处的语音恢复
对于模式3,利用上述模式1和2的解码方法在解码器处重构语音帧。
本领域技术人员根据本发明的指教将很容易认识到,任意步骤和/或系统模块可被适当地替换、重排、去除,并且附加的步骤和/或系统模块可根据具体应用的需求而插入,而且前述实施例的系统可利用任意任意的各种各样的适当的处理和系统模块来实现,而不限于任意特定的计算机硬件、软件、中间件、固件、微代码等。对于本申请中描述的可在计算机器中执行的任意方法步骤,传统的计算机系统可在被适当配置或设计时作为其中实现了本发明的这些方面的计算机系统。
图6图示了典型的计算机系统,其在适当配置或设计时可作为其中实施了本发明的计算机系统。计算机系统600包括任意数量的处理器602(也称为中央处理单元,即CPU),处理器602耦接至包括主存储器606(一般是随机存储器,即RAM)、主存储器604(一般是只读存储器,即ROM)的存储装置。CPU 602可以是任何类型,包括微控制器(例如,具有嵌入式RAM/ROM)和诸如可编程器件(例如,基于RISC或SISC,或CPLD和FPGA)和不可编程器件(例如,门阵列ASIC或通用微处理器)之类的微处理器。本领域公知的是,主存储器604用于单向地向CPU传递数据和指令,主而存储器606通常用于按照双向方式传递数据和指令。两种主存储器都可包括任意适当的非瞬时性计算机可读介质,例如前面描述的介质。大容量存储装置608还可以双向地耦接至CPU 602,并提供附加的数据存储容量并可包括前面描述的任意非瞬时性计算机可读介质。大容量存储装置608可用来存储程序、数据等,它一般是次级存储介质,例如硬盘。可以理解的是,大容量存储装置608中保持的信息可在适当情况下按照标准方式并作主存储器606的一部分,作为虚拟存储器。诸如CD-ROM 614之类的特定大容量存储装置还可以单向地向CPU传递数据。
CPU 602还可耦接至接口610,接口610连接至一个或多个输入/输出装置,例如视频监控器、轨迹球、鼠标、键盘、麦克风、触摸感应显示器、传感器读卡器、磁或纸带读取器、刻写板、手写笔、语音或手写识别器、 或者其它已知的输入装置,例如其它计算机。最终,CPU 602利用外部连接(总体上如612所示,可利用适当已知技术实现为硬布线的或无的线通信链路)选择性地耦接至外部装置,例如数据库或计算机或通信装置或互联网网络。利用这样的连接,可以想到的是,CPU执行在本发明指教中描述的方法步骤的过程中,可接收来自网络的信息,或可输出信息至网络。
说明书中公开的所有特征(包括所有附上的摘要和附图)可由用于相同、等效或类似目的替换特征替换,除非明确地表示相反的意思。因此,除非明确地表示相反的意思,公开的每个特征是的等效或类似特征的通用系列的仅仅一个示例。
虽然已经全面地描述了本发明的至少一个实施例,根据本发明的信号编码和解码的其它等价或替换方法对于本领域技术人员来说是明显的。以上已经通过示例的方式描述了本发明,公开的具体实施例并非旨在将本发明限制为公开的具体形式。因此,本发明涵盖了落入所附权利要求的精神和范围内的所有变形、等价形式和替换。
权利要求元素和步骤可能被单独编码和/或标记以有助于阅读和理解。任何这种编码和标记本身不旨在也不应该被用来表示权利要求中的元素和/或步骤的排序。

Claims (6)

1.一种用于对信号进行建模和编码的方法,所述方法包括如下步骤:
i)将来自所述信号的L个数据点聚集成输入帧Xk的步骤,其中,所述步骤可配置为通过执行对所述信号的分量进行变换、平滑和/或提取中的任一项来选择性地预处理所述信号;
ii)将来自所述输入帧Xk的预定数据段复制并插入到参考序列中的步骤,其中所述预定数据段不包括在所述输入帧Xk中的最后一个数据点;
iii)估计一个或多个选定形式的完整振荡器加外部激励模型的参数的步骤,其中所述完整振荡器加外部激励模型将所述输入帧Xk的全部分量或选定分量表示为在所述参考序列中出现的一个或多个数据块的函数,其中每个所述数据块包含L个数据点,且给定形式的所述完整振荡器加外部激励模型的参数代表:每个数据块的第一个点在所述参考序列中的位置,以及当适用时,定义一种形式的完整振荡器加外部激励模型的所述函数专有的变量;以及
iv)输出代码的步骤,所述代码含有代表以下内容的值:来自步骤(iii)的参数,其产生Xk的性能最佳的模型,所述性能最佳的模型被定义为提供根据预设指标测得的最好结果的Xk的模型,以及当适用时,Xk的选定特征的参数;其中:
(a)Xk的模型的结果通过根据一个或多个指标评估所述Xk的模型的一个或多个选定类型的输出的性能来确定,所述指标基于给定应用的需求来选择;以及
(b)所述一个或多个选定类型的输出通过在所述Xk的模型的精确参数或所述Xk的模型的量化参数之间选择以及生成以下内容之一来生成:来自所述Xk的模型的分析式的输出或根据所述分析式而不使用来自Xk的数据恢复的输出,从而在所述Xk的模型需要包含来自Xk的数据的数据块的情况下,所述输出通过将单个点而不是所述数据块输入所述分析式中被点到点地顺序地合成,所述单个点根据所述Xk的模型的参数提供的索引或从所述参考序列中或从较早合成的输出点中提取。
2.根据权利要求1所述的方法,其中,所述参考序列还包括从如下中的一个或多个获取的至少一个数据段:在获得所述输入帧XK之前获得的帧;至少一个之前获得的帧中的至少一个模型的输出;和/或外部参考,所述外部参考包括预定的数据段,所述预定的数据段根据预定的方法从所存储的信息中恢复和/或按需求生成。
3.根据权利要求2所述的方法,其中,
步骤(iii)包括根据从以下组成的集合中选择的一个或多个方法估计用于编码XK的参数:权利要求1的步骤(iii)中所限定的方法和多个本领域已知的方法;
方法的所述选择基于以下中的一个或多个:预定的决策逻辑,Xk的所选择的信号特征,以及从所选择的方法中获得的模型的选定性能;以及
当适用时,步骤(iv)还包括输出模型标识符代码,其识别用于编码XK的一个或多个方法。
4.根据权利要求3所述的方法,其中,所述方法在音频编解码器中使用。
5.一种用于解码与参考序列相关的编码信息的方法,所述方法包括以下步骤:
当用于执行更新的参数在所述编码信息中被检测到时,更新所述参考序列;
从所述编码信息中提取用于一种或多种解码方法的参数并根据所提取的参数执行解码步骤,其中,当解码步骤需要计算完整振荡器加外部激励模型的输出时,所述计算使用以下两种方式中的一种来完成:
(a)当所述完整振荡器加外部激励模型的参数参考所有数据包含在所述参考序列中的数据块时,所述输出通过将所述数据块输入到所述完整振荡器加外部激励模型的合成公式中来立刻合成,或(b)否则,所述输出通过将单个点而不是所述数据块输入所述完整振荡器加外部激励模型的合成公式中被点到点地顺序地合成,其中,每个所述单个点或者在所述点在所述参考序列中可用时从所述参考序列中取出,或者是在被合成的输出点之前的紧挨着的输出点。
6.根据权利要求5所述的方法,其中,所述方法在音频编解码器中使用。
CN201180063393.5A 2010-10-29 2011-10-28 低比特率信号的编码及解码方法 Expired - Fee Related CN103348597B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/915,989 US8620660B2 (en) 2010-10-29 2010-10-29 Very low bit rate signal coder and decoder
US12/915,989 2010-10-29
PCT/US2011/058479 WO2012058650A2 (en) 2010-10-29 2011-10-28 Low bit rate signal coder and decoder

Publications (2)

Publication Number Publication Date
CN103348597A CN103348597A (zh) 2013-10-09
CN103348597B true CN103348597B (zh) 2017-01-18

Family

ID=45994838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180063393.5A Expired - Fee Related CN103348597B (zh) 2010-10-29 2011-10-28 低比特率信号的编码及解码方法

Country Status (11)

Country Link
US (3) US8620660B2 (zh)
EP (1) EP2633625A4 (zh)
JP (1) JP5815723B2 (zh)
KR (1) KR101505341B1 (zh)
CN (1) CN103348597B (zh)
AU (1) AU2011320141B2 (zh)
BR (1) BR112013010518A2 (zh)
IL (1) IL226045A (zh)
MX (1) MX337311B (zh)
RU (1) RU2565995C2 (zh)
WO (1) WO2012058650A2 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
WO2013127086A1 (zh) * 2012-03-02 2013-09-06 华为技术有限公司 Sdp中标识、获取ambe编解码速率信息方法及设备
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
US9456075B2 (en) * 2014-10-13 2016-09-27 Avaya Inc. Codec sequence detection
WO2016103222A2 (en) * 2014-12-23 2016-06-30 Dolby Laboratories Licensing Corporation Methods and devices for improvements relating to voice quality estimation
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
RU2610285C1 (ru) * 2016-02-15 2017-02-08 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ распознавания протоколов низкоскоростного кодирования
RU2667462C1 (ru) * 2017-10-24 2018-09-19 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ распознавания протоколов низкоскоростного кодирования речи
CN110768680B (zh) * 2019-11-04 2024-03-29 重庆邮电大学 一种scl剪枝技术联合球型列表译码的方法及装置
CN116110409B (zh) * 2023-04-10 2023-06-20 南京信息工程大学 一种ASIP架构的大容量并行Codec2声码器系统及编解码方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320257A (zh) * 1999-06-18 2001-10-31 皇家菲利浦电子有限公司 带有改进的编码器的音频传输系统
CN1383546A (zh) * 2000-06-20 2002-12-04 皇家菲利浦电子有限公司 正弦编码
WO2005024783A1 (en) * 2003-09-05 2005-03-17 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1179803B (it) 1984-10-30 1987-09-16 Cselt Centro Studi Lab Telecom Metodo e dispositivo per la correzione di errori causati da rumore di tipo impulsivo su segnali vocali codificati con bassa velocita di ci fra e trasmessi su canali di comunicazione radio
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5717819A (en) * 1995-04-28 1998-02-10 Motorola, Inc. Methods and apparatus for encoding/decoding speech signals at low bit rates
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE69720527T2 (de) 1997-09-30 2004-03-04 Infineon Technologies Ag Verfahren zur kodierung eines sprachsignals
EP1147669B1 (en) * 1999-11-29 2006-12-27 Sony Corporation Video signal processing method and apparatus by feature points extraction in the compressed domain.
SE517156C2 (sv) * 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP3876781B2 (ja) * 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
RU2260032C1 (ru) * 2004-04-13 2005-09-10 Глущенко Виктор Николаевич Способ разрушения водонефтяной ловушечной эмульсии
CA2596341C (en) * 2005-01-31 2013-12-03 Sonorit Aps Method for concatenating frames in communication system
EP1971978B1 (en) * 2006-01-09 2010-08-04 Nokia Corporation Controlling the decoding of binaural audio signals
JPWO2007132750A1 (ja) * 2006-05-12 2009-09-24 パナソニック株式会社 Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320257A (zh) * 1999-06-18 2001-10-31 皇家菲利浦电子有限公司 带有改进的编码器的音频传输系统
CN1383546A (zh) * 2000-06-20 2002-12-04 皇家菲利浦电子有限公司 正弦编码
WO2005024783A1 (en) * 2003-09-05 2005-03-17 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《THE SELF EXCITED VOCODER-AN ALTERNATE APPROACH TO TOLL QUALITY AT 4800bps》;Richard C. Rose,Thomas P. Barnwell;《IEEE international conference on speech and signal processing》;19861231;全文 *

Also Published As

Publication number Publication date
US10084475B2 (en) 2018-09-25
US10686465B2 (en) 2020-06-16
WO2012058650A3 (en) 2012-09-27
KR20130086234A (ko) 2013-07-31
MX337311B (es) 2016-02-25
US20180358981A1 (en) 2018-12-13
EP2633625A2 (en) 2013-09-04
CN103348597A (zh) 2013-10-09
US20120109653A1 (en) 2012-05-03
JP5815723B2 (ja) 2015-11-17
BR112013010518A2 (pt) 2016-08-02
AU2011320141A1 (en) 2013-06-27
MX2013004802A (es) 2014-05-09
EP2633625A4 (en) 2014-05-07
KR101505341B1 (ko) 2015-03-23
WO2012058650A2 (en) 2012-05-03
IL226045A (en) 2016-05-31
US20130214943A1 (en) 2013-08-22
AU2011320141B2 (en) 2015-06-04
JP2014502366A (ja) 2014-01-30
US8620660B2 (en) 2013-12-31
RU2013124363A (ru) 2014-12-10
IL226045A0 (en) 2013-06-27
RU2565995C2 (ru) 2015-10-20

Similar Documents

Publication Publication Date Title
CN103348597B (zh) 低比特率信号的编码及解码方法
Ren et al. Portaspeech: Portable and high-quality generative text-to-speech
Kumar et al. High-fidelity audio compression with improved rvqgan
CN101925950B (zh) 音频编码器和解码器
CN103477386B (zh) 音频编解码器中的噪声产生
CN102985966B (zh) 音频编码器和解码器及用于音频信号的编码和解码的方法
CN103384900A (zh) 在预测编码与变换编码之间交替的低延迟声音编码
CN1751338B (zh) 用于语音编码的方法和设备
KR20230127293A (ko) 정보 합성 방법 및 장치, 전자 장치 및 컴퓨터 판독가능 저장 매체
KR20160097232A (ko) 블라인드 대역폭 확장의 시스템들 및 방법들
CN116997962A (zh) 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN101208741A (zh) 一种适用于数字信号短时相关性模型之间的互用性的方法
Hao et al. Time-domain neural network approach for speech bandwidth extension
CN105096958B (zh) 音频编码方法及相关装置
CN101159136A (zh) 一种低比特率音乐信号编码方法
Jiang et al. Nonlinear prediction with deep recurrent neural networks for non-blind audio bandwidth extension
Gueham et al. Packet loss concealment method based on hidden Markov model and decision tree for AMR-WB codec
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
JP2000514207A (ja) 音声合成システム
Sheferaw et al. Waveform based speech coding using nonlinear predictive techniques: a systematic review
CN101420230A (zh) 一种选择预测矢量量化的迭代优化设计方法
Liu et al. Speech Synthesis Method Based on Tacotron+ WaveNet
Hasanabadi MFCC-GAN Codec: A New AI-based Audio Coding
Byun et al. Perceptual Improvement of Deep Neural Network (DNN) Speech Coder Using Parametric and Non-parametric Density Models
Gao et al. A new approach to generating Pitch Cycle Waveform (PCW) for Waveform Interpolation codec

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170118

Termination date: 20201028

CF01 Termination of patent right due to non-payment of annual fee