CN106157960A - 音频内容的自适应算术编解码 - Google Patents

音频内容的自适应算术编解码 Download PDF

Info

Publication number
CN106157960A
CN106157960A CN201510175941.3A CN201510175941A CN106157960A CN 106157960 A CN106157960 A CN 106157960A CN 201510175941 A CN201510175941 A CN 201510175941A CN 106157960 A CN106157960 A CN 106157960A
Authority
CN
China
Prior art keywords
audio
probability
audio content
coding symbol
audio coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510175941.3A
Other languages
English (en)
Inventor
孙学京
施栋
J·克莱杰萨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201510175941.3A priority Critical patent/CN106157960A/zh
Priority to EP16720235.7A priority patent/EP3284085A1/en
Priority to PCT/US2016/027362 priority patent/WO2016168356A1/en
Priority to US15/564,125 priority patent/US20180082695A1/en
Publication of CN106157960A publication Critical patent/CN106157960A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4031Fixed length to variable length coding
    • H03M7/4037Prefix coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6017Methods or arrangements to increase the throughput
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本文中公开的示例实施例涉及音频内容的自适应算术编解码。公开了一种编码音频内容的方法。该方法包括确定音频内容的特性,其包括音频内容的类型和属性中的至少一个。该方法还包括基于音频内容的特性来分类音频内容,并通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。该方法进一步包括基于音频编码符号和对应的概率来编码音频内容以获取编码值,编码值表示音频内容的压缩编解码格式。还公开了相应的编码音频内容的系统和计算机程序产品、以及相应的解码音频内容的方法、系统和计算机程序产品。

Description

音频内容的自适应算术编解码
技术领域
本文中所公开的示例实施例总体上涉及音频内容的自适应算术编解码,并且更具体地,涉及从用于编码音频内容的方法和系统、以及用于解码音频内容的方法和系统。
背景技术
音频编解码是用于压缩或解压缩数字音频信号的过程,以便将音频信号用少量的比特来表示、同时保持音频信号的质量。熵编解码是无损音频编码技术的一种示例。更具体的,熵编解码利用数字信号的统计模型来将各种长度的码字指派给表示数字信号的符号。例如,一些熵编解码方法根据符号的概率来将不同的前缀码指派给出现在输入数据中的每个不同的符号(例如哈弗曼(Huffman)编解码)。表示符号的每个码字的长度与对应的符号在输入数据中出现的概率的负对数近似成比例。因此,最常出现的符号使用最短的码。这个策略减少了要用于编码信号符号的平均比特率。
算术编解码(AC)是熵编解码方法的一种示例。相较于其他熵编解码方法(例如,哈弗曼编解码),算术编解码通过将编解码和信号源建模分离开来而提供了更多的灵活性,并且通常提供更高的压缩率。尽管哈弗曼编解码典型地采用了稳定的概率模型(例如,要被编码的符号的概率质量函数),上下文自适应算术编解码方法、诸如上下文自适应二进制算术编解码(CABAC)采用自适应概率模型。CABAC根据在当前要被编码的符号附近的已经编码的符号来进行更新。因为由附近的符号所提供的信息有限,这因此阻碍了音频压缩的效率,所以这样的方法可能易于出现建模错误。因而,期望提出一种音频编解码的方法,其能够通过改进现有的自适应算术编解码方法来实现更高的压缩率。此外,由算术编解码器使用的概率模型的自适应的过程通常与相对大的计算复杂度有关。例如,在一些情况下,可能要求概率模型需要针对每个编码符号进行更新,这可能导致大量的计算负担。具体地,一些算术操作通常与大的计算开销(例如,整数除法运算)有关。因此,减少在模型更新过程中的除法运算的数目也是有益的。
发明内容
一般地,本文中所公开的示例实施例提出一种编码音频内容的方法和系统、以及解码音频内容的方法和系统。
在一个方面,本文中所公开的示例实施例提供一种编码音频内容的方法。该方法包括确定音频内容的特性,音频内容的特性包括音频内容的类型和属性中的至少一个。该方法还包括基于音频内容的所确定的特性来分类音频内容,并且通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。该方法进一步包括基于预定义的音频编码符号和对应的概率来编码音频内容以获取编码值,编码值表示音频内容的压缩编解码格式。这方面的实施例还包括相应的计算机程序产品。
在第二方面,本文中所公开的示例实施例提供一种解码音频内容的方法。该方法包括获取音频内容的编码值和分类的结果,编码值表示音频内容的压缩编解码格式,分类的结果基于音频内容的特性来确定,音频内容的特性包括音频内容的类型和属性中的至少一个。该方法还包括通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。该方法进一步包括基于预定义的音频编码符号和对应的概率来解码该编码值以获取表示音频内容的音频编码符号。这方面的实施例还包括相应的计算机程序产品。
在第三方面,本文中所公开的示例实施例提供一种编码音频内容的系统。该系统包括特性确定单元,被配置为确定音频内容的特性,音频内容的特性包括音频内容的类型和属性中的至少一个。该系统还包括内容分类单元,被配置为基于音频内容的所确定的特性来分类音频内容,以及概率确定单元,被配置为通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。该系统进一步包括编码单元,被配置为基于预定义的音频编码符号和对应的概率来编码音频内容以获取编码值,编码值表示音频内容的压缩编解码格式。
在第四方面,本文中所公开的示例实施例提供一种解码音频内容的系统。该系统包括获取单元,被配置为获取音频内容的编码值和分类的结果,编码值表示音频内容的压缩编解码格式,分类的结果基于音频内容的特性来确定,音频内容的特性包括音频内容的类型和属性中的至少一个。该系统还包括概率确定单元,被配置为通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。该系统进一步包括解码单元,被配置为基于预定义的音频编码符号和对应的概率来解码编码值以获取表示音频内容的音频编码符号。
通过下文描述将会理解,根据本文中所公开的实施例,将理解到,根据音频内容的基于特性的分类,确定用于编码输入音频内容的音频编码符号的概率,并且因此该概率确定可以是内容特定的,这可以提高编解码效率。本文中所公开的实施例所带来的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本文中所公开的示例实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本文中所公开的若干实施例,其中:
图1示出了根据本文中所公开的一个示例实施例的编码音频内容的方法的流程图;
图2A示出了根据本文中所公开的一个示例实施例的音频编码系统的框图;
图2B示出了根据本文中所公开的另一个示例实施例的音频编码系统的框图;
图3示出了根据本文中所公开的一个示例实施例的解码音频内容的方法的流程图;
图4A示出了根据本文中所公开的一个示例实施例的音频解码系统的框图;
图4B示出了根据本文中所公开的另一个示例实施例的音频解码系统的框图;
图5示出了根据本文中所公开的一个示例实施例的编码音频内容的系统的框图;
图6示出了根据本文中所公开的一个示例实施例的解码音频内容的系统的框图;以及
图7示出了适于实现本文中所公开的示例实施例的示例计算机系统的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本文中所公开的示例实施例的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本文中所公开的示例实施例,而并非以任何方式限制本文中所公开的主题的范围。
在解释说明本文中所提出的技术方案之前,首先引入算术编解码(AC)的一些基本注释。注意到,本文中所使用的“编解码”指的是编码过程和解码过程两者。
在编码侧,使得S={s1,s2,...,sN}表示被提供给算术编码器的N个符号的序列。在不失一般性的情况下,可以假设在序列S中每个符号可能取M个不同的值。在下文中,序列S中的每个符号被称为M个不同符号中的一个符号的实例。通常,N个符号可以是随机的。在算术编解码被应用到音频编解码的情况中,N个符号的序列可以是在音频内容的预处理(例如,数字化(quantization))之后获得的一系列符号。假设M个不同的音频编码符号是连续的整数{0,1,...,M-1},那么符号sk(k=1,2,...,N)以概率p(m)从集合{0,1,...,M-1}中取一个整数值,这被表示为如下:
p(m)=Prob{sk=m}, (1)
其中m=0,1,2,...,M-1,并且M和N均是整数。
在下文中,在用于编解码音频内容的序列中的每个元素(例如,在这种情况下是集合{0,1,...,M-1}中的整数符号)被称为音频编码符号,并且从音频内容获得的序列S中的每个元素被称为相应的音频编码符号的实例。
此外,累积分布函数(CDF)被定义为:
c ( m ) = Σ s = 0 m - 1 p ( s ) - - - ( 2 )
其中m=0,1,2,…,M,并且c(M)=1。
算术编码过程基本上包括如下地生成具有嵌套间隔的序列:
Φk(S)=[αkk), (3)
其中k=0,1,...,N,0≤αk≤αk+1,并且βk+1≤βk≤1。
备选地,间隔可以被表示为|b,l>的形式,其中b表示该间隔的基点或起始点,并且l表示该间隔的长度,即l=β-α。那么编码过程由以下递归公式来定义:
Φ0(S)=[α00)=|b0,l0=|0,1>, (4)
Φk(S)=[αkk)=[αk-1+c(sk)(βk-1k-1),αk-1+c(sk+1)(βk-1k-1)), (5)
或者
Φk(S)=|bk,lk>=|bk-1+c(sk)lk-1,p(sk)lk-1>. (6)
该过程针对输入序列S中的所有符号而递归地执行。
算术编码的最终任务是定义将表示序列S的编码值将从最终的嵌套间隔中的高低值的范围中将编码值确定为属于该间隔的一个点。该点的位置然后可以由实分数值来表示。在一些实施例中,该间隔定义了码字,因此为输入序列中的最后符号确定的嵌套间隔中的任何点可以被映射到该码字,也就是说
解码过程开始于从编码器获得的编码值开始,顺序地根据来确定并且根据计算这在以下公式(7)-(9)中表示。在计算之前也要估计每个符号的概率和累积分布函数。
v ^ 1 = v ^ , - - - ( 7 )
s ^ k ( v ^ ) = { s : c ( s ) &le; v k ^ < c ( s + 1 ) } , k = 1 , 2 , . . . , N , - - - ( 8 )
v ^ k + 1 = v ^ k - c ( s ^ k ( v ^ ) ) p ( s ^ k ( v ^ ) ) , k = 1 , 2 , . . . , N - 1 - - - ( 9 )
解码过程递归地执行,以获得解码序列
从编码和解码过程可以看到,概率估计组成了算术编解码的核心部分,这对最终输出的复杂度和编解码效率造成影响。概率估计的过程也被称为概率建模。在一些常规的方法中,音频编码符号的概率被简单地设置为预定义的值(例如,经训练的概率质量函数的值)并且在编解码过程中保持固定。由于音频信号可以被视为非稳定的,预定义的固定的概率质量函数将不能正确地描述符号序列的统计属性,这可能导致码字的长度增加并且因此将导致编解码效率降低。在一些其他常规的方法中,每个音频编码符号的概率或CDF通过符号的频率计数和之后的重新归一化来更新,这在计算上效率不足。
由于音频数据的非稳定特性,将静态概率模型用于算术编解码通常是次优的。取代静态概率模型,可以考虑使用能够递归地调节的自适应模型。因此,期望提供一种用于音频编解码的有效技术方案,该技术方案自适应地确定音频编码符号的概率分布(或CDF)。
根据本文中所公开的示例实施例,提供了一种音频内容的自适应算术编解码,其中根据音频内容的基于特性的分类来确定音频编码符号的特性,实现了在编码和解码过程中编解码效率的提高和复杂度的降低。
图1描绘了根据本文中所公开的一个示例实施例的编码音频内容的方法100的流程图。应当注意的是,这里的音频内容可以是任何类型的音频,诸如语音、音乐、噪声或者它们的组合等。此外,音频内容可以具有任何时间长度,例如,一个帧的一部分、一个帧、或者多于一个帧等。本文中所公开的主题的范围在这些方面不受限制。
如图1所示,在步骤101,确定输入音频内容的特性,其中音频内容的特性包括音频内容的类型和属性中的至少一个。
在本文中所公开的示例实施例中,期望基于音频内容的特性来调节算术编解码中的概率估计。例如,对于不同类型的要被编码的音频内容,包含音频编码符号的概率的不同概率集合可以被预先训练用于音频编解码。又例如,取决于音频内容的属性,可以预先训练不同的概率集合。此外,在确定音频内容的概率时可以将音频内容的类型和属性均纳入考虑。
在本文中所公开的一些示例实施例中,音频内容属性可以包括音频内容的全频带能量、音频内容的子频带能量、音频内容的频谱质心、音频内容的频谱通量、以及音频内容的调和性。在本文中所公开的一些示例实施例中,音频内容类型可以包括语音、音乐、噪声等。一些类别的音频内容可以进一步被分类成多个子类别。例如,音乐类别可以被进一步分类成蓝调音乐、摇滚音乐等。本文中所公开的主题的范围在此方面不受限制。
在本文中所公开的一些示例实施例中,可以处理输入音频内容以分析它的时间和频谱属性,从而确定音频内容的类型或属性。例如,可以使用时频转换将在时域中表示的输入音频内容转换成频域表示,时频转换诸如复数正交镜像滤波器组(complex quadrature mirrorfilterbank,CQMF)、改进离散余弦变换(modified discrete cosinetransform,MDCT)/改进离散正弦变换(modified discrete sinetransform,MDST)、改进复数重叠变换(modified complex lappedtransform,MCLT)等。全频率范围可以可选地被划分成多个频率子带,每个频率子带包括预定义的频率范围。该处理的输出可以是时频块,并且可以针对每个时频块执行特性确定。在本文中所公开的一些示例实施例中,特性确定可以针对音频内容的每个帧来执行。例如,如果输入音频内容要被确定为语音类型或非语音类型,特性确定可以包括对音频内容的每个帧的语音活动检测(VAD)。
在步骤102,基于音频内容的所确定的特性来分类音频内容。
所分类的音频内容被分类到一个或多个类别。可以使用任何适当的音频内容分类技术,无论是当前已知的或者是未来将被开发的。在本文中所公开的一些示例实施例中,每个类别可以一种类型的音频内容相关联。在本文中所公开的一些其他示例实施例中,每个类别可以与音频内容的特定属性、或者音频内容的所确定的属性的组合相关联。例如,如果音频内容的全频带能量的范围落入与一个类别相关联的全频带能量范围内,则该音频内容可以被分类到该类别中。又例如,可以基于全频带能量和子频带能量的组合来确定分类结果。在进一步的示例实施例中,分类结果可以与音频内容的类型和属性的组合相关联。
在步骤103,通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率。
如以上所提及的,在算术编解码过程中,可以预定义多个音频编码符号,并且它们各自的概率可以被确定以用于编码输入音频内容。音频编码符号可以根据要被编码的音频内容的数据序列、以各种方式来表示音频内容。在一些实施例中,可以诸如通过噪声降低、调平等来预处理音频内容,以获得要被编码的音频内容的增益。增益可以是包括多个元素的向量。例如,在一些语音系统中,增益可以是48维的向量,其可以对应于以20ms为基础的处理。因此,在一些实施例中,可以从在所获得的向量中出现的个体元素来构建音频编码符号,或者在一些其他实施例中,可以从在输入音频内容中出现的个体向量来构建音频编码符号。在音频内容的预处理之后获得的元素或向量的序列被称为预定义的音频编码符号的实例,并且可以以某种方式用于表示音频内容。
在此给出一个简单的示例用于解释说明。如果在音频内容的预处理之后获得的符号序列是整数序列{2,1,0,0,1,3},存在与该音频内容相关联的四个音频编码符号“0”、“1”、“2”和“3”,以及整数序列中的音频编码符号的六个实例。
为了以算术编解码的方法将音频内容编码为编码值,在本文中所公开的示例实施例中,可以基于分类结果来计算音频编码符号中每个音频编码符号的概率。例如,在编码数据序列{2,1,0,0,1,3}之前可以计算四个音频编码符号“0”、“1”、“2”和“3”的相应概率。基于获得的不同分类结果,可以确定不同的概率集合。
将在下文中详细描述概率确定。
方法100行进至步骤104,其中基于预定义的音频编码符号和对应的概率来编码音频内容以获取编码值。
如以上所提及的,可以诸如通过噪声降低、调平(leveling)等来预处理音频内容,以获得要被编码的增益(例如,增益向量)。利用所确定的与预定义的音频编码符号相对应的概率,在预定义的音频编码符号是音频内容的向量中的不同元素的情况下,可以例如基于公式(2)和(4)-(6)将音频内容的每个向量编码为编码值。在一些其他实施例中,在预定义的音频编码符号是音频内容中出现的向量的情况下,向量的序列可以被编码为编码值。
应当注意的是,可以利用基于所确定的概率来编码音频内容的许多其他方法,并且本文中所公开的主题的范围在此方面不受限制。
在本文中所公开的示例实施例中,音频编码系统的输入音频内容可以根据以上所描述的方法100来持续地编码。在本文中所公开的一些示例实施例中,编码值可以被存储在音频编码系统的本地存储器或者外部存储设备中,或者可以被提供至音频解码系统。在一些示例实施例中,分类的结果也可以被传递给对应的音频解码系统,以协助解码侧的概率确定。本文中所公开的主题的范围在这些方面不受限制。
现在参照图2A,其描绘了根据本文中所公开的一个示例实施例的音频编码系统200的框图。如所描绘的,系统200包括处理单元21、音频内容分析器22、概率确定单元23、编码单元24以及传输单元25。
处理单元21被配置为接收输入音频内容并且处理音频内容以获得要由编码单元24编码的信息。例如,处理单元21可以对输入音频内容执行噪声降低和调平,以获得要被编码的数据序列(例如,增益向量)。
音频内容分析器22被配置为分析输入音频内容,包括确定音频内容的类型和/或属性以及基于类型和/或属性来分类音频内容。由音频内容分析器22获得的分类结果被传递给概率确定单元23。在一些示例实施例中,分类结果可以被可选地提供给传输单元25。
概率确定单元23被配置为基于分类结果来为与音频内容相关联的多个预定义的音频编码符号确定概率。
编码单元24从处理单元21获得要被编码的音频内容的数据序列并且从概率确定单元23获得它们相应的概率。编码单元24被配置为基于预定义的音频编码符号和对应的概率来编码音频内容的数据序列,以获得编码值。
由编码单元24确定的编码值被传递到传输单元25中。传输单元25被配置为向音频解码系统传输该编码值并且在本文中公开的一些示例实施例中,向音频解码系统传输分类结果。
理解的是,图2A的音频编码系统200被示出为示例,并且在音频编码系统中可以存在另外的或更少的功能块。例如,附加的存储单元可以被包括在系统200中以存储编码值或者其他瞬时信息。在另一个示例中,如果编码值将不被传输到音频解码系统,传输单元25可以被省略。
现在将详细讨论针对多个预定义的音频编码符号的概率确定。如以上所讨论的,概率确定基于音频内容的音频内容的分类结果。
在本文中公开的一些示例实施例中,可以预定多个类别,并且输入音频内容可以被分类到预定的类别之一。在这种情况下,可以在离线预先训练每个类别的概率集合。在每个概率集合中,针对被分类到对应的类别的音频内容,预先确定多个预定义的音频编码符号的概率和/或CDF。基于音频内容的特性,针对多种类别,预定的概率和/或CDF可以不同。为此,预定的概率可以不被简单地设置为彼此相等,而是可以被设置为对于不同的音频内容是特定的,这可以提高音频编解码效率、例如提高压缩率。在编码输入音频内容的时候,取决于输入音频内容被分类到哪个类别,可以选择对应的概率集合,并且为这个集合预定的概率可以被用于编码该输入音频内容。
例如,存在两个类别的音频内容,语音类别和非语音类别,并且针对这两个类别预先训练了两个不同的概率集合。当输入音频内容根据其特性被分类为语音类别时,用于语音类别的概率集合可以被选择并且在该概率集合中预定的概率和/或CDF被用于编码输入音频内容。
由于每个音频编码符号的概率指示该音频编码符号在音频内容中出现的频率,如果音频编码符号在音频内容中频繁地出现,可以据此增加它的概率加,并且因此减小其他音频编码符号的概率,以便保证所有音频编码符号的概率之和是1。在本文中所公开的一些示例实施例中,音频编码符号的概率在编码过程期间可以根据音频内容的分类结果而更新。
具体地,可以基于分类结果确定针对音频内容的调节因数,并且然后可以基于调节因数来调节音频编码符号中每个音频编码符号的概率。调节因数可以在0到1的范围,指示音频编码符号中的每个音频编码符号的概率变化的速率。基于音频内容的不同分类结果,调节因数可以不同。例如,如果分类结果指示音频内容是稳定的,例如,音频内容被分类为噪声或蓝调音乐的类别,调节因数可以被设置为较高的值,从而概率的变化速率可以较小。如果分类结果只是音频内容变化范围较大,例如,音频内容被分类为摇滚音乐的类别,调节因数可以被设置为较低的值,从而概率的变化速率可以较高。
每次更新概率的时候,所有音频编码符号的经更新的概率之和应当保证为等于1。此外,每个经更新的概率可以大于0。在本文中所公开的一个示例实施例中,可以配置每个概率的最小阈值和最大阈值,从而概率在更新过程期间可以不会变得过小或者过大。例如,每个概率的最小值可以被设置为probmin=4×10-5,并且probmax=0.5。将理解的是,最小和最大阈值可以被配置为其他值,并且本文中所公开的主题的范围在此方面不受限制。
在本文中所公开的一个示例实施例中,音频编码符号的概率的初始化值可以被设置为相等。让以数据序列{2,1,0,0,1,3}作为示例。该序列中唯一的音频编码符号“0”、“1”、“2”和“3”中的每个音频编码符号的概率例如可以被初始化为相等。也就是说,由于所有音频编码符号的概率之和应当是1,每个音频编码符号的概率是0.25。
在其中针对不同类别的音频内容预先训练不同的概率集合的一些其他示例实施例中,初始化的值可以是在被确定为与要被编码的输入音频内容相关联的概率集合中的概率值。
在更新过程期间,对于给定的音频编码符号,如果在音频内容中检测到给定的音频编码符号(也就是说,给定的音频编码符号的实例出现在音频内容中),则基于调节因数来增加它的概率,并且如果在音频内容中未检测到给定的音频编码符号,则基于调节因数来减小它的概率。更新过程可以被表示为如下:
其中α表示处于0到1的范围中的调节因数,pk-1(m)表示在编码音频内容的数据序列S={s1,s2,...,sN}中的第(k-1)个符号sk-1时音频编码符号m的概率,并且pk(m)表示在编码音频内容的数据序列中的第k个符号sk时音频编码符号m的概率。在公式(10)中,如果音频编码符号m在音频内容中被检测到(例如,m=sk),它的概率被增加为αpk-1(m)+(1-α);否则,它的概率被减小为αpk-1(m)。注意到,公式(10)并不要求除法操作来重归一化概率质量函数。这在一些情况下可以实现计算上的优势,因为在公式(10)中的乘法更新比在许多硬件平台上要求的除法操作更便宜。
假设调节因数是0.8。对于数据序列{2,1,0,0,1,3},响应于检测到序列中第一个到来的音频编码符号实例“2”,在预定义的音频编码符号集合{0,1,2,3}中的对应音频编码符号“2”的概率根据公式(10)而增加为:
p1(2)=0.8p0(2)+(1-0.8)=0.8×0.25+0.2=0.4. (11)
也就是说,“2”的概率从0.25增加到0.4。其他音频编码符号0、1、3的概率可以基于调节因数而被减少为如下,以便确保所有概率之和等于1:
p1(0)=0.8p0(0)=0.8×0.25=0.2, (12)
p1(1)=0.8p0(1)=0.8×0.25=0.2, (13)
p1(3)=0.8p0(3)=0.8×0.25=0.2. (14)
也就是说,当在数据序列中检测到音频编码符号实例“2”时,“0”、“1”和“3”的概率均从0.25减少到0.2。响应于在序列{1,0,0,1,3}中的随后的音频编码符号的实例,对应的音频编码符号的概率可以类似地被更新。
在本文中所公开的一些示例实施例中,调节因数可以是0到1的范围中的时间恒定的值。也就是说,对于特定的输入音频内容,调节因数可以是固定的。在上述示例中,针对输入音频内容,调节因数可以被规定为0.8。在本文中所公开的一些示例实施例中,固定的调节因数可以基于相对长时间的对分类结果的观察来确定。例如,如果在长的持续时间中、例如在多个子帧期间音频内容的分类结果指示音频内容是稳定的,调节因数可以被设置为0到1的范围中相对高的值。
在本文中所公开的一些示例实施例中,调节因数可以是时间变化的值。例如,可以基于分类结果,逐帧地确定调节因数。时间变化的参数可以被引入以控制概率在时域的改变速率。例如,公式(10)可以被修改为如下:
其中αρ表示调节因数,α表示根据在相对长的持续时间中(例如在多个子帧期间)观测的分类结果确定的时间恒定的参数,并且ρ表示根据在相对短的持续时间(例如一个帧)中观测的分类结果确定的时间变化的参数。
在本文中所公开的一些示例实施例中,可以根据需要配置时间恒定或时间变化的调节因数。在本文中所公开的一些其他示例实施例中,可以使用不同的调节因数来调节概率,并且逐帧地选择可以给出最短长度的编码值的调节因数。
在其中针对不同类别的音频内容预先训练不同的概率集合的示例实施例中,针对预先训练的概率集合的调节因数可以分别地被确定并且可以是不同的。当根据分类结果选择对应的概率集合时,针对这个概率集合而预先确定的概率可以基于相应的调节因数来更新,这可以被表示为如下:
其中αi表示为第i个概率集合确定的调节因数,i=1,2,…,K,并且K表示预定的概率集合的总数目。
从以上讨论可以理解的是,在本文中所公开的一些实施例中,可以基于音频内容的分类来确定仅一个概率集合,并且可以根据调节因数来更新这个概率集合。备选地,在本文中所公开的一些其他实施例中,可以针对不同类别的音频内容预先训练多余一个的概率集合,并且可以根据输入音频内容的分类结果来选择一个集合用于编码。在这些实施例中,也可以根据相应的调节因数来更新预先训练的概率集合。
图2B描绘了音频编码系统210的框图,其可以被认为是以上描述的系统200的一种实施方式。如示出的,在系统210中,概率确定单元23被实施为复用器,该复用器被配置为基于来自音频内容分析器22的分类结果来选择预定的概率集合中的一个概率集合。所选择的概率集合被提供给编码单元24用于编码输入音频内容。
概率集合可以在系统210中被存储为码本。图2B示出了两个码本,即码本1和码本2。要理解的是,这仅仅是出于解释说明的目的,而不是给出对本文中所公开的主题的范围的任何限制。可以使用任何适当数量的码本。码本可以被实施为例如数据库表、可扩展标记语言(XML)文件、纯文本文件等。
在其中音频内容包含语音信号的一些实施例中,音频内容的输入帧可以被分类为语音帧或非语音帧。在这些实施例中,音频内容分析器22可以被实施为语音活动检测(VAD)块,并且在系统210中可以存在两个码本分别用于编码这两个类别的帧。如果音频内容分析器22的输出指示当前帧是语音帧或非语音帧,概率确定单元23,其用作复用器,可以为编码单元22选择对应的码本。编码单元24可以基于所选择的码本来编码当前帧,以获得编码值。在一些实施例中,编码值连同VAD块22的分类结果一起可以通过传输单元25被传输至编码侧。分类结果例如可以是1比特的标志,指示当前帧是语音帧或非语音帧。
在本文中所公开的一些实施例中,在多个码本中的相应概率可以针对相应类别的音频内容而以不同的方式来预先训练。在一些其他实施例中,在每个码本中的概率可以被初始化为针对每个音频编码符号是相等的,并且可以根据公式(16)而逐帧地更新。用于更新码本的调节因数可以是不同的。例如,可以针对用于编码语音帧的码本和用于编码非语音帧的码本,分别设置调节因数0.99和0.90。
根据以上描述的概率确定,因为通过简单的乘法操作和加法操作来更新概率、避免使用任何的除法操作,可以减少计算开销。此外,经更新的概率可以更准确地指示相应的音频编码符号在音频内容中出现的频率,并且因此可以提高编解码效率。
在本文中所公开的一些示例实施例中,取代概率,可以基于分类结果来更新用于编码音频内容的累积分布函数(CDF)。在一个实施例中,类似于用于更新概率的公式(10),可以基于从分类结果确定的固定调节因数来更新CDF,其可以被表示为如下:
在另一个实施例中,类似于用于更新概率的公式(15),还可以基于时间变化的调节因数来更新音频编码符号的CDF,其可以被表示为如下:
调节因数α或者αρ也可以基于音频内容的分类结果而类似地确定。由于CDF可能对音频内容的编码值产生影响,利用经更新的CDF,编解码效率也可以提高。在CDF更新期间,所有音频编码符号的概率之和也应当被确保为等于1。
在本文中所公开的一些进一步的实施例中,除了音频内容的分类结果之外,概率确定可以进一步基于音频编码符号的上下文。
术语给定的音频编码符号的“上下文”在此以其广义的理解而被使用。在本文中所公开的一些示例实施例中,对于给定的音频编码符号m=sk,它的上下文可以指的是在给定的音频编码符号m的实例之前的一个或多个已被处理的音频编码符号的实例Sk-1={s1,s2,...,sk-1},以及分别为它们的相应音频编码符号而确定的概率。音频编码符号的上下文可以备选地或附加地包括在处理音频编码符号的一个或多个实例Sk-1={s1,s2,...,sk-1}时确定的针对给定的音频编码符号的一个或多个先前的概率p1(m),p2(m),...,pk-1(m)。
可以基于音频编码符号的上下文以及取决于音频内容的分类结果的(多个)参数、诸如调节因数来构建概率模型。在本文中所公开的一个示例实施例中,概率模型可以被表示为pk(sk|Sk-1,Tk),其中Sk-1表示先前处理的在音频内容中出现的音频编码符号的实例,并且Tk表示先前处理的音频内容。使用贝叶斯规则来构建概率模型,可以获得以下公式:
pk(sk|Sk-1,Tk)=pk((sk|Sk-1)|Tk), (19)
p k = ( ( s k | S k - 1 ) | T k ) = p k ( s k | S k - 1 ) p k ( T k | ( s k | S k - 1 ) ) p k ( T k ) . - - - ( 20 )
假定:
pk(Tk|(sk|Sk-1))=pk(Tk|sk), (21)
概率模型可以被确定为:
p k = ( s k | S k - 1 , T k ) = p k ( s k | S k - 1 ) p k ( s k | T k ) p k ( s k ) , - - - ( 22 )
其中pk(sk|Sk-1)表示取决于音频编码符号的上下文Sk-1的概率模型,pk(sk|Tk)表示取决于音频内容、例如音频内容的分类结果的概率模型,并且pk(sk)表示一元模型。
在本文中所公开的一些示例实施例中,可以使用一些现有的基于上下文的概率估计方法来确定概率模型pk(sk|Sk-1)。概率模型pk(sk|Tk)可以根据以上关于基于分类结果的概率确定和更新所讨论的一些示例实施例来确定。pk(sk)可以被确定为音频编码符号的实例sk的初始化的概率值。
理解的是,以上给出的用于确定音频编码符号的概率的概率模型仅是示例,并且可以存在许多其他方式用于基于上下文和分类结果的组合来构建概率模型。本文中所公开的主题的范围在此方面不受限制。
在本文中所公开的一些进一步的示例实施例中,可以以它们的概率的降序顺序来排序音频编码符号。例如,每隔预定义秒(或者帧),可以从最高概率到最低概率来排序音频编码符号。如以上所讨论的,在音频编码符号与它们的概率之间存在对应关系。当基于预定义的音频编码符号的集合和它们的概率来编码从输入音频内容获得的数据序列时,对于数据序列中给定的符号,从音频编码符号的集合中搜索与给定符号相关联的音频编码符号,并且获取对应的概率用于编码。将具有最高概率的音频编码符号放在集合的开始处,可以有效地减少在编码音频内容时的搜索时间,特别是在存在大量的预定义音频编码符号时。
在以上描述中,描述了在编码侧的概率确定。基于所确定的概率,输入音频内容可以被编码为编码值。编码值可以被提供至音频解码系统,用于解码音频内容。如以上所提及的,在算术编解码算法中,解码过程类似于编码过程,在解码过程中也可以估计概率以用于解码。为了准确地解码音频内容,期望所估计的音频编码符号的概率基本上与在编码侧估计的概率相等。为此,概率估计所依据的分类结果以及音频编码符号的上下文应当在编码和解码侧保持一致性。
图3描绘了根据本文中所公开的一个示例实施例的解码音频内容的方法300的流程图。
如图3所示,在步骤301,获取音频内容的编码值和分类的结果。编码值表示音频内容的压缩编解码格式,并且可以从音频编码系统直接地获取或者可以从存储设备获取。
类似于音频编码系统,分类结果可以基于音频内容的特性来确定,音频内容的特性包括音频内容的类型和属性中的至少一个。也与音频编码系统类似,分类结果可以用于确定预定义的音频编码符号的概率。
为了促进准确的概率估计,分类结果应当基本上与在编码侧确定的分类结果相同。为此,在本文中所公开的一些示例实施例中,可以直接地从音频编码系统获取分类结果。指示分类结果的信息可以从音频编码系统传输并且有音频解码系统接收。例如,如图2A的系统200所描绘的,由音频内容分析器22确定的分类结果被传递给传输单元25并且然后被提供至音频解码系统。
在本文中所公开的一些其他示例实施例中,通过根据基于音频解码系统可获得的过去的音频内容、例如音频内容的已解码部分而确定的音频内容的特性来分类音频内容,可以获取分类结果。例如,如果音频内容的一部分已经被成功地解码,可以基于音频内容的所确定的特性来分类音频内容的这个部分。特性可以从音频编码系统获得,或者通过分析过去的音频内容来获得。
在方法300的步骤302,通过基于分类结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率。
在音频解码系统中的概率确定类似于在音频编码系统中的概率确定,并且出于清楚性的目的而在此省略详细描述。将理解的是,在更新概率的示例实施例中,对于给定的音频编码符号,如果由音频解码系统解码出给定的音频编码符号,则基于调节因数来增加该给定的音频编码符号的概率,并且如果音频解码系统未解码出给定的音频编码符号,则基于调节因数来较小该给定的音频编码符号的概率。
在音频解码系统中的预定义的音频编码符号也可以以相应的概率的降序顺序来排序,从而减少在解码音频内容时搜索音频编码符号集合的时间。
在步骤303,基于预定义的音频编码符号和对应的概率来解码编码值,以获得表示音频内容的音频编码符号。
利用所确定的音频编码符号的概率,可以例如基于公式(7)-(9)来将编码值解码为表示音频内容的数据序列。解码的数据序列可以包括可以表示音频内容的音频编码符号的实例,这些实例与在编码侧获得的实例相同或基本上相同。注意的是,可以存在许多其他方法来利用所确定的概率解码编码值,并且本文中所公开的主题的范围在此方面不受限制。
因为解码的数据序列处于数字表示,通过对数据序列的后续处理,例如通过数模转换等,可以获得解码的数据信号并且解码的数据信号然后例如通过扬声器来播放。
现在参照图4A,其描绘了根据本文中所公开的一个示例实施例的音频解码系统400的框图。如所描述的,系统400包括接收单元41、概率确定单元42、音频内容分析器43、解码单元44和处理单元45。
接收单元41被配置为从音频编码系统接收编码值并且将其提供至解码单元44。在本文中所公开的一个示例实施例中,接收单元41还被配置为从音频编码系统接收音频内容的分类结果并且将其传递至概率确定单元42。
概率确定单元42被配置为基于分类结果来确定多个预定义的音频编码符号的概率。在本文中所公开的一些示例实施例中,分类结果可以从接收单元41获取,或者在本文中所公开的一些其他示例实施例中,分类结果可以从音频内容分析器43获取。
音频内容分析器43是音频解码系统400中的可选功能块。在其中分类结果不由音频编码系统提供的示例实施例中,音频内容分析器43被配置为基于来自解码单元44的解码结果,确定音频内容被分类到哪个类别。在其中分类结果由音频编码系统提供的示例实施例中,音频内容分析器43可以停止操作。
解码单元44被配置为基于预定义的音频编码符号和来自概率确定单元42的它们相应的概率来解码编码值,以获得表示音频内容的数据序列。
处理单元45被配置为例如通过数模转换等来处理所获得的数据序列,以获得解码的音频内容。
理解的是,图4A的音频解码系统400被示出为示例,并且在音频解码系统中可以存在另外的或更少的功能块。例如,附加的存储单元可以被包括在系统400中以存储解码的数据序列或数据内容。在另一个示例中,如果分类结果由音频编码系统提供,则音频内容分析器43可以被省略。
根据本文中所公开的实施例,音频解码系统400可以具有各种实施方式或变形,以实现与音频编码侧一致的概率确定。图4B描绘了音频解码系统410的框图,其可以被认为是以上描述的系统400的一种实施方式。如所示出的,在系统410中,概率确定单元42被实施为复用器,该复用器被配置为基于接收单元41和/或音频内容分析器43提供的分类结果来选择预定的概率集合中的一个概率集合。所选择的概率集合被提供给解码单元44用于解码接收到的编码值。
概率集合可以在系统410中被存储为码本。图4B示出了两个码本,即码本1和码本2。要理解的是,这仅仅是出于解释说明的目的,而不是给出对本文中所公开的主题的范围的任何限制。可以使用任何适当数量的码本。码本可以被实施为例如数据库表、可扩展标记语言(XML)文件、纯文本文件等。
在其中音频内容包含语音信号的一些实施例中,要被解码的音频内容的帧可以被分类为语音帧或非语音帧。在这些实施例中,可以从编码侧接收到1比特的标志,指示当前帧是语音帧或者是非语音帧。在其中分类结果并不由编码侧提供的情况下,音频内容分析器43可以操作为语音活动检测(VAD)块,以确定分类结果用于概率确定。在这些实施例中,在系统410中可以存在两个码本分别用于编码这两个类别的帧。如果所接收的分类结果或音频内容分析器43的输出指示当前帧是语音帧或非语音帧,概率确定单元42,其用作复用器,可以为解码单元44选择对应的码本。解码单元44可以基于所选择的码本来解码当前帧的编码值。
在本文中所公开的一些实施例中在多个码本中的相应概率可以针对相应类别的音频内容而以不同的方式来预先训练。在一些其他实施例中,在每个码本中的概率可以被初始化为针对每个音频编码符号是相等的,并且可以根据公式(16)而逐帧地更新。用于更新码本的调节因数可以是与编码侧使用的调节因数保持一致。例如,如果在编码系统210中调节因数0.99和0.90分别被设置用于编码语音帧的码本和用于编码非语音帧的码本,则应当在解码系统410中使用相同的调节因数。
图5描绘了根据本文中所公开的一个示例实施例的编码音频内容的系统500的框图。如所描绘的,系统500包括特性确定单元501,被配置为确定音频内容的特性,音频内容的特性包括音频内容的类型和属性中的至少一个.系统500还包括内容分类单元502,被配置为基于音频内容的所确定的特性来分类音频内容,以及概率确定单元503,被配置为通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。系统500进一步包括编码单元504,被配置为基于预定义的音频编码符号和对应的概率来编码音频内容以获取编码值,编码值表示音频内容的压缩编解码格式。
在本文中所公开的一些实施例中,可以基于音频内容的属性来分类音频内容,音频内容的属性包括以下各项中的至少一项:音频内容的全频带能量、音频内容的子频带能量、音频内容的频谱质心、音频内容的频谱通量、以及音频内容的调和性。
在本文中所公开的一些实施例中,概率确定单元503可以进一步被配置为进一步基于音频编码符号的上下文来计算音频编码符号中的每个音频编码符号的概率。
在本文中所公开的一些实施例中,概率确定单元503可以进一步被配置为基于分类的结果确定针对音频内容的调节因数,调节因数指示音频编码符号中的每个音频编码符号的概率变化的速率,并且基于调节因数来调节音频编码符号中的每个音频编码符号的概率。
在本文中所公开的一些实施例中,概率确定单元503可以进一步被配置为对于给定的音频编码符号,如果在音频内容中检测到给定的音频编码符号,基于调节因数来增加给定的音频编码符号的概率,并且如果在音频内容中未检测到给定的音频编码符号,基于调节因数来降低给定的音频编码符号的概率。
在本文中所公开的一些实施例中,系统500可以进一步包括符号排序单元,被配置为以对应的概率的降序顺序来排序预定义的音频编码符号。在这些实施例中,编码单元504可以被配置为基于经排序的音频编码符号和对应的概率来编码音频内容。
图6描绘了根据本文中所公开的一个示例实施例的解码音频内容的系统600的框图。如所描绘的,系统600包括获取单元601,被配置为获取音频内容的编码值和分类的结果,编码值表示音频内容的压缩编解码格式,分类的结果基于音频内容的特性来确定,音频内容的特性包括音频内容的类型和属性中的至少一个。系统600还包括概率确定单元602,被配置为通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率。系统600进一步包括解码单元603,被配置为基于预定义的音频编码符号和对应的概率来解码编码值以获取表示音频内容的音频编码符号。
在本文中所公开的一些实施例中,可以通过从编码系统接收指示分类的结果的指示信息来获取分类的结果,编码系统提供编码值。
在本文中所公开的一些实施例中,可以通过根据基于音频内容的已解码部分而确定的音频内容的特性来分类音频内容,获取分类的结果。
在本文中所公开的一些实施例中,音频内容的属性可以包括以下各项中的至少一项:音频内容的全频带能量、音频内容的子频带能量、音频内容的频谱质心、音频内容的频谱通量、以及音频内容的调和性。
在本文中所公开的一些实施例中,概率确定单元602可以进一步被配置为进一步基于音频编码符号的上下文来计算音频编码符号中的每个音频编码符号的概率。
在本文中所公开的一些实施例中,概率确定单元602可以进一步被配置为基于分类的结果确定针对音频内容的调节因数,调节因数指示音频编码符号中的每个音频编码符号的概率变化的速率,并且基于调节因数来调节音频编码符号中的每个音频编码符号的概率。
在本文中所公开的一些实施例中,概率确定单元602可以进一步被配置为对于给定的音频编码符号,如果解码出给定的音频编码符号,基于调节因数来增加给定的音频编码符号的概率,并且如果未解码出给定的音频编码符号,基于调节因数来降低给定的音频编码符号的概率。
在本文中所公开的一些实施例中,系统600可以进一步包括符号排序单元,被配置为以对应的概率的降序顺序来排序预定义的音频编码符号。在这些实施例中,解码单元603可以被配置为基于经排序的音频编码符号和对应的概率来解码编码值。
为清晰起见,在图5中没有描绘出系统500的某些另外的部件,并且在图6中没有描绘出系统600的某些另外的部件。然而,应当理解,上文参考图1-2B所描述的各个特征同样适用于系统500,并且上文参考图3-4B所描述的各个特征同样适用于系统600。而且,系统500或600中的各部件可以是硬件模块,也可以是软件单元模块等等。例如,在某些示例实施例中,系统500或600可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,系统500或600可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。
图7描绘了了适于用来实现本文中所公开的示例实施例的示例计算机系统700的示意性框图。在一些示例实施例中,计算机系统700可以适于实施编码音频内容的方法,或者适于实施解码音频内容的方法。在一些示例实施例中,计算机系统700可以使用实施编码音频内容的方法和解码音频内容的方法两者。
如所描绘的,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。如所需要的,在RAM 703中,还存储有CPU 701执行各种过程等的数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本文中所公开的示例实施例,上文参考图1和3描述的过程可以被实现为计算机软件程序。例如,本文中所公开的示例实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100和/或方法300所描述的过程的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
一般而言,本文中所公开的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本文中所公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本文中所公开的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本文中所公开的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以被分布在被特定编程的设备,这些设备通常在本文中可以被称为“模块”。这些模块的软件分组部分可以以任何具体计算机语言来编写并且可以是单片集成代码库的一部分,或者可以被开发成多个离散代码部分,诸如通常以面向对象的计算机语言来开发。此外,模块可以跨多个计算机平台、服务器、终端、移动设备等来分布。给定的模块甚至可以被实施为使得所描述的功能有单个处理器和/或计算机硬件平台来执行。
如本申请中所使用的,术语“电路装置”指的是以下的所有:(a)仅硬件电路实现方式(诸如仅模拟电路装置和/或仅数字电路装置的实现方式)以及(b)与电路和软件(和/或固件)的组合,诸如(可用的):(i)与处理器的组合或(ii)处理器/软件(包括数字信号处理器)、软件、和存储器的一部分,这些部分一起工作以使得装置(诸如移动电话或服务器)执行各种功能,以及(c)电路,诸如微处理器或微处理器的一部分,其需要软件或固件用于操作,即使软件或固件不是物理存在的。此外,本领域技术人员已知的是,通信媒介通常体现计算机可读指令、数据结构、程序模块或模块化数据信号中的其他数据,该数据信号诸如载波或其他传输机制,并且通信媒介包括任何信息传送媒介。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务和并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制本文中所公开的主题或权利要求的范围,而应解释为对可以针对特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对本文中所公开的前述示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本文中所公开的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本文中所公开的这些实施例的技术领域的技术人员将会想到此处阐明的其他实施例。
由此,本主题可以通过在此描述的任何形式来实现。例如,以下的枚举示例实施例(EEE)描述了本文中所公开的某些方面的某些结构、特征和功能。
EEE 1.一种编码音频内容的方法,包括:确定音频内容的特性,音频内容的特性包括音频内容的类型和属性中的至少一个;基于音频内容的所确定的特性来分类音频内容;通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率;以及基于预定义的音频编码符号和对应的概率来编码音频内容以获取编码值,编码值表示音频内容的压缩编解码格式。
EEE 2.根据EEE 1的方法,基于音频内容的属性来分类音频内容,音频内容的属性包括以下各项中的至少一项:音频内容的全频带能量、音频内容的子频带能量、音频内容的频谱质心、音频内容的频谱通量、以及音频内容的调和性。
EEE 3.根据EEE 1的方法,确定多个预定义的音频编码符号的概率包括进一步基于音频编码符号的上下文来计算音频编码符号中的每个音频编码符号的概率。
EEE 4.根据EEE 1至3中任一项的方法,确定预定义的音频编码符号的概率进一步包括基于分类的结果确定针对音频内容的调节因数,调节因数指示音频编码符号中的每个音频编码符号的概率变化的速率;以及基于调节因数来调节音频编码符号中的每个音频编码符号的概率。
EEE 5.根据EEE 4的方法,调节因数是时间恒定的值,并且处于0到1的范围。
EEE 6.根据EEE 4的方法,调节因数是时间变化的值,并且处于0到1的范围。
EEE 7.根据EEE 4的方法,基于调节因数来调节音频编码符号中的每个音频编码符号的概率包括:对于给定的音频编码符号,如果在音频内容中检测到给定的音频编码符号,基于调节因数来增加给定的音频编码符号的概率,以及如果在音频内容中未检测到给定的音频编码符号,基于调节因数来降低给定的音频编码符号的概率。
EEE 8.根据EEE 1的方法,该方法进一步包括以对应的概率的降序顺序来排序预定义的音频编码符号;并且基于预定义的音频编码符号和对应的概率来编码音频内容包括基于经排序的音频编码符号和对应的概率来编码音频内容。
EEE 9.一种解码音频内容的方法,包括获取音频内容的编码值和分类的结果,编码值表示音频内容的压缩编解码格式,分类的结果基于音频内容的特性来确定,音频内容的特性包括音频内容的类型和属性中的至少一个;通过基于分类的结果计算与音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定预定义的音频编码符号的概率,音频编码符号的概率指示音频编码符号在音频内容中出现的频率;以及基于预定义的音频编码符号和对应的概率来解码编码值以获取表示音频内容的音频编码符号。
EEE 10.根据EEE 9的方法,通过从编码系统接收指示分类的结果的指示信息来获取分类的结果,编码系统提供编码值。
EEE 11.根据EEE 9的方法,通过根据基于音频内容的已解码部分而确定的音频内容的特性来分类音频内容,获取分类的结果。
EEE 12.根据EEE 9的方法,音频内容的属性包括以下各项中的至少一项:音频内容的全频带能量、音频内容的子频带能量、音频内容的频谱质心、音频内容的频谱通量、以及音频内容的调和性。
EEE 13.根据EEE 9的方法,确定预定义的音频编码符号的概率包括进一步基于音频编码符号的上下文来计算音频编码符号中的每个音频编码符号的概率。
EEE 14.根据EEE 9至13中任一项的方法,确定预定义的音频编码符号的概率包括基于分类的结果确定针对音频内容的调节因数,调节因数指示音频编码符号中的每个音频编码符号的概率变化的速率;以及基于调节因数来调节音频编码符号中的每个音频编码符号的概率。
EEE 15.根据EEE 14的方法,调节因数是时间恒定的值,并且处于0到1的范围。
EEE 16.根据EEE 14的方法,调节因数是时间变化的值,并且处于0到1的范围。
EEE 17.根据EEE 14的方法,基于调节因数来调节音频编码符号中的每个音频编码符号的概率包括:对于给定的音频编码符号,如果解码出给定的音频编码符号,基于调节因数来增加给定的音频编码符号的概率;以及如果未解码出给定的音频编码符号,基于调节因数来降低给定的音频编码符号的概率。
EEE 18.根据EEE 9的方法,该方法进一步包括以对应的概率的降序顺序来排序预定义的音频编码符号;并且基于预定义的音频编码符号和对应的概率来解码编码值包括基于经排序的音频编码符号和对应的概率来解码编码值。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (30)

1.一种编码音频内容的方法,包括:
确定所述音频内容的特性,所述音频内容的特性包括所述音频内容的类型和属性中的至少一个;
基于所述音频内容的所确定的特性来分类所述音频内容;
通过基于所述分类的结果计算与所述音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定所述预定义的音频编码符号的概率,音频编码符号的概率指示所述音频编码符号在所述音频内容中出现的频率;以及
基于所述预定义的音频编码符号和对应的概率来编码所述音频内容以获取编码值,所述编码值表示所述音频内容的压缩编解码格式。
2.根据权利要求1所述的方法,其中基于所述音频内容的属性来分类所述音频内容,所述音频内容的属性包括以下各项中的至少一项:所述音频内容的全频带能量、所述音频内容的子频带能量、所述音频内容的频谱质心、所述音频内容的频谱通量、以及所述音频内容的调和性。
3.根据权利要求1所述的方法,其中确定所述预定义的音频编码符号的概率包括:
进一步基于所述音频编码符号的上下文来计算所述音频编码符号中的每个音频编码符号的概率。
4.根据权利要求1至3中任一项所述的方法,其中确定所述预定义的音频编码符号的概率进一步包括:
基于所述分类的结果确定针对所述音频内容的调节因数,所述调节因数指示所述音频编码符号中的每个音频编码符号的概率变化的速率;以及
基于所述调节因数来调节所述音频编码符号中的每个音频编码符号的概率。
5.根据权利要求4所述的方法,其中基于所述调节因数来调节所述音频编码符号中的每个音频编码符号的概率包括:
对于给定的音频编码符号,
如果在所述音频内容中检测到所述给定的音频编码符号,基于所述调节因数来增加所述给定的音频编码符号的概率;以及
如果在所述音频内容中未检测到所述给定的音频编码符号,基于所述调节因数来降低所述给定的音频编码符号的概率。
6.根据权利要求1所述的方法,进一步包括:
以对应的概率的降序顺序来排序所述预定义的音频编码符号;并且
其中基于所述预定义的音频编码符号和对应的概率来编码所述音频内容包括:
基于经排序的音频编码符号和对应的概率来编码所述音频内容。
7.一种解码音频内容的方法,包括:
获取所述音频内容的编码值和分类的结果,所述编码值表示所述音频内容的压缩编解码格式,所述分类的结果基于所述音频内容的特性来确定,所述音频内容的特性包括所述音频内容的类型和属性中的至少一个;
通过基于所述分类的结果计算与所述音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定所述预定义的音频编码符号的概率,音频编码符号的概率指示所述音频编码符号在所述音频内容中出现的频率;以及
基于所述预定义的音频编码符号和对应的概率来解码所述编码值以获取表示所述音频内容的音频编码符号。
8.根据权利要求7所述的方法,其中通过从编码系统接收指示所述分类的结果的指示信息来获取所述分类的结果,所述编码系统提供所述编码值。
9.根据权利要求7所述的方法,其中通过根据基于所述音频内容的已解码部分而确定的所述音频内容的特性来分类所述音频内容,获取所述分类的结果。
10.根据权利要求7所述的方法,其中所述音频内容的属性包括以下各项中的至少一项:所述音频内容的全频带能量、所述音频内容的子频带能量、所述音频内容的频谱质心、所述音频内容的频谱通量、以及所述音频内容的调和性。
11.根据权利要求7所述的方法,其中确定所述预定义的音频编码符号的概率包括:
进一步基于所述音频编码符号的上下文来计算所述音频编码符号中的每个音频编码符号的概率。
12.根据权利要求7至11中任一项所述的方法,其中确定所述预定义的音频编码符号的概率包括:
基于所述分类的结果确定针对所述音频内容的调节因数,所述调节因数指示所述音频编码符号中的每个音频编码符号的概率变化的速率;以及
基于所述调节因数来调节所述音频编码符号中的每个音频编码符号的概率。
13.根据权利要求12所述的方法,其中基于所述调节因数来调节所述音频编码符号中的每个音频编码符号的概率包括:
对于给定的音频编码符号,
如果解码出所述给定的音频编码符号,基于所述调节因数来增加所述给定的音频编码符号的概率;以及
如果未解码出所述给定的音频编码符号,基于所述调节因数来降低所述给定的音频编码符号的概率。
14.根据权利要求7所述的方法,进一步包括:
以对应的概率的降序顺序来排序所述预定义的音频编码符号;并且
其中基于所述预定义的音频编码符号和对应的概率来解码所述编码值包括:
基于经排序的音频编码符号和对应的概率来解码所述编码值。
15.一种编码音频内容的系统,包括:
特性确定单元,被配置为确定所述音频内容的特性,所述音频内容的特性包括所述音频内容的类型和属性中的至少一个;
内容分类单元,被配置为基于所述音频内容的所确定的特性来分类所述音频内容;
概率确定单元,被配置为通过基于所述分类的结果计算与所述音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定所述预定义的音频编码符号的概率,音频编码符号的概率指示所述音频编码符号在所述音频内容中出现的频率;以及
编码单元,被配置为基于所述预定义的音频编码符号和对应的概率来编码所述音频内容以获取编码值,所述编码值表示所述音频内容的压缩编解码格式。
16.根据权利要求15所述的系统,其中基于所述音频内容的属性来分类所述音频内容,所述音频内容的属性包括以下各项中的至少一项:所述音频内容的全频带能量、所述音频内容的子频带能量、所述音频内容的频谱质心、所述音频内容的频谱通量、以及所述音频内容的调和性。
17.根据权利要求15所述的系统,其中所述概率确定单元进一步被配置为进一步基于所述音频编码符号的上下文来计算所述音频编码符号中的每个音频编码符号的概率。
18.根据权利要求15至17中任一项所述的系统,其中所述概率确定单元进一步被配置为:
基于所述分类的结果确定针对所述音频内容的调节因数,所述调节因数指示所述音频编码符号中的每个音频编码符号的概率变化的速率;以及
基于所述调节因数来调节所述音频编码符号中的每个音频编码符号的概率。
19.根据权利要求18所述的系统,其中所述概率确定单元进一步被配置为:
对于给定的音频编码符号,
如果在所述音频内容中检测到所述给定的音频编码符号,基于所述调节因数来增加所述给定的音频编码符号的概率;以及
如果在所述音频内容中未检测到所述给定的音频编码符号,基于所述调节因数来降低所述给定的音频编码符号的概率。
20.根据权利要求15所述的系统,进一步包括:
符号排序单元,被配置为以对应的概率的降序顺序来排序所述预定义的音频编码符号;并且
其中所述编码单元被配置为基于经排序的音频编码符号和对应的概率来编码所述音频内容。
21.一种解码音频内容的系统,包括:
获取单元,被配置为获取所述音频内容的编码值和分类的结果,所述编码值表示所述音频内容的压缩编解码格式,所述分类的结果基于所述音频内容的特性来确定,所述音频内容的特性包括所述音频内容的类型和属性中的至少一个;
概率确定单元,被配置为通过基于所述分类的结果计算与所述音频内容相关联的多个预定义的音频编码符号中的每个音频编码符号的概率,来确定所述预定义的音频编码符号的概率,音频编码符号的概率指示所述音频编码符号在所述音频内容中出现的频率;以及
解码单元,被配置为基于所述预定义的音频编码符号和对应的概率来解码所述编码值以获取表示所述音频内容的音频编码符号。
22.根据权利要求21所述的系统,其中通过从编码系统接收指示所述分类的结果的指示信息来获取所述分类的结果,所述编码系统提供所述编码值。
23.根据权利要求21所述的系统,其中通过根据基于所述音频内容的已解码部分而确定的所述音频内容的特性来分类所述音频内容,获取所述分类的结果。
24.根据权利要求21所述的系统,其中所述音频内容的属性包括以下各项中的至少一项:所述音频内容的全频带能量、所述音频内容的子频带能量、所述音频内容的频谱质心、所述音频内容的频谱通量、以及所述音频内容的调和性。
25.根据权利要求21所述的系统,其中所述概率确定单元进一步被配置为进一步基于所述音频编码符号的上下文来计算所述音频编码符号中的每个音频编码符号的概率。
26.根据权利要求21至25中任一项所述的系统,其中所述概率确定单元进一步被配置为:
基于所述分类的结果确定针对所述音频内容的调节因数,所述调节因数指示所述音频编码符号中的每个音频编码符号的概率变化的速率;以及
基于所述调节因数来调节所述音频编码符号中的每个音频编码符号的概率。
27.根据权利要求26所述的系统,其中所述概率确定单元进一步被配置为:
对于给定的音频编码符号,
如果解码出所述给定的音频编码符号,基于所述调节因数来增加所述给定的音频编码符号的概率;以及
如果未解码出所述给定的音频编码符号,基于所述调节因数来降低所述给定的音频编码符号的概率。
28.根据权利要求21所述的系统,进一步包括:
符号排序单元,被配置为以对应的概率的降序顺序来排序所述预定义的音频编码符号;并且
其中所述解码单元被配置为基于经排序的音频编码符号和对应的概率来解码所述编码值。
29.一种编码音频内容的计算机程序产品,所述计算机程序产品包括被有形地体现在机器可读介质上的计算机程序,所述计算机程序包含程序代码,所述程序代码用于执行根据权利要求1至6中任一项所述的方法的步骤。
30.一种解码音频内容的计算机程序产品,所述计算机程序产品包括被有形地体现在机器可读介质上的计算机程序,所述计算机程序包含程序代码,所述程序代码用于执行根据权利要求7至14中任一项所述的方法的步骤。
CN201510175941.3A 2015-04-14 2015-04-14 音频内容的自适应算术编解码 Pending CN106157960A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510175941.3A CN106157960A (zh) 2015-04-14 2015-04-14 音频内容的自适应算术编解码
EP16720235.7A EP3284085A1 (en) 2015-04-14 2016-04-13 Adaptive arithmetic coding of audio content
PCT/US2016/027362 WO2016168356A1 (en) 2015-04-14 2016-04-13 Adaptive arithmetic coding of audio content
US15/564,125 US20180082695A1 (en) 2015-04-14 2016-04-13 Adaptive arithmetic coding of audio content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510175941.3A CN106157960A (zh) 2015-04-14 2015-04-14 音频内容的自适应算术编解码

Publications (1)

Publication Number Publication Date
CN106157960A true CN106157960A (zh) 2016-11-23

Family

ID=57126832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510175941.3A Pending CN106157960A (zh) 2015-04-14 2015-04-14 音频内容的自适应算术编解码

Country Status (4)

Country Link
US (1) US20180082695A1 (zh)
EP (1) EP3284085A1 (zh)
CN (1) CN106157960A (zh)
WO (1) WO2016168356A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310409A (zh) * 2022-06-29 2022-11-08 杭州似然数据有限公司 一种数据编码的方法、系统、电子装置和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4981174B2 (ja) * 2007-08-24 2012-07-18 フランス・テレコム 確率テーブルの動的な計算によるシンボルプレーン符号化/復号化
EP2315358A1 (en) * 2009-10-09 2011-04-27 Thomson Licensing Method and device for arithmetic encoding or arithmetic decoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310409A (zh) * 2022-06-29 2022-11-08 杭州似然数据有限公司 一种数据编码的方法、系统、电子装置和存储介质

Also Published As

Publication number Publication date
EP3284085A1 (en) 2018-02-21
WO2016168356A1 (en) 2016-10-20
US20180082695A1 (en) 2018-03-22

Similar Documents

Publication Publication Date Title
US20190180732A1 (en) Systems and methods for parallel wave generation in end-to-end text-to-speech
CN101114450B (zh) 一种语音编码选择性加密方法
US20190096386A1 (en) Method and apparatus for generating speech synthesis model
US11942102B2 (en) Pyramid vector quantizer shape search
CN102682778B (zh) 编码装置以及编码方法
CN104321815A (zh) 用于带宽扩展的高频编码/高频解码方法和设备
US20070118370A1 (en) Methods and apparatuses for variable dimension vector quantization
US11848021B2 (en) Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium
CN111164682A (zh) 使用机器学习的音频重建方法和设备
CN104584122A (zh) 使用改进的概率分布估计的基于线性预测的音频编码
CN112509554A (zh) 语音合成方法、装置、电子设备及存储介质
CN110164412A (zh) 一种基于lstm的音乐自动合成方法及系统
CN103918028A (zh) 基于自回归系数的有效表示的音频编码/解码
WO2022126969A1 (zh) 业务语音的质检方法、装置、设备及存储介质
Das et al. Variable-dimension vector quantization of speech spectra for low-rate vocoders
CN102982807A (zh) 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN106157960A (zh) 音频内容的自适应算术编解码
CN101895373B (zh) 信道译码方法、系统及装置
CN102812512B (zh) 处理音频信号的方法和装置
US20050256702A1 (en) Algebraic codebook search implementation on processors with multiple data paths
CN116564322A (zh) 语音转换方法、装置、设备及存储介质
CN103081007A (zh) 量化装置及量化方法
CN114999442A (zh) 一种基于元学习的自适应文字转语音方法及其相关设备
Vasilache et al. Multiple-scale leader-lattice VQ with application to LSF quantization
Mohammadi et al. Low cost vector quantization methods for spectral coding in low rate speech coders

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123