CN102687200B - 使用可切换模型核心的嵌入式语音和音频代码化 - Google Patents

使用可切换模型核心的嵌入式语音和音频代码化 Download PDF

Info

Publication number
CN102687200B
CN102687200B CN201080059971.3A CN201080059971A CN102687200B CN 102687200 B CN102687200 B CN 102687200B CN 201080059971 A CN201080059971 A CN 201080059971A CN 102687200 B CN102687200 B CN 102687200B
Authority
CN
China
Prior art keywords
frame
bit stream
audio
processed
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080059971.3A
Other languages
English (en)
Other versions
CN102687200A (zh
Inventor
詹姆斯·P·阿什利
乔纳森·A·吉布斯
乌达·米塔尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN102687200A publication Critical patent/CN102687200A/zh
Application granted granted Critical
Publication of CN102687200B publication Critical patent/CN102687200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于处理音频信号的方法,包括:将输入帧分类为语音帧或通用音频帧;基于输入帧来产生编码比特流和对应处理帧;基于在输入帧和处理帧之间的差来产生增强层编码比特流;以及基于码字指示输入帧被分类为语音帧还是通用音频帧来将增强层编码比特流、码字和语音编码比特流或通用音频编码比特流多路复用成组合的比特流,其中,编码比特流是语音编码比特流或者通用音频编码比特流。

Description

使用可切换模型核心的嵌入式语音和音频代码化
技术领域
本公开通用地涉及语音和音频代码化,并且更具体地,涉及使用利用增强型编码的混合核心编解码器的嵌入式语音和音频代码化。
技术背景
已知基于源滤波器模型的语音代码器具有处理诸如音乐、音调、背景噪声以及甚至混响语音的通用音频输入信号的质量问题。这样的编解码器包括线性预测代码化(LPC)处理器,如码激励线性预测(CELP)代码化器。语音代码器用于处理语音信号低比特率。相反,基于听觉模型的通用音频代码化系统通常由于比特率的限制而不能将语音信号很好地处理为对人类语音失真敏感。对该问题的一个解决方案已经提供了一种分类器,该分类器在逐个帧的基础上确定输入信号更像语音还是不太像语音,并且然后基于该分类来选择适当的代码化器,即语音或通用音频代码器。能够处理不同信号类型的音频信号处理器有时被称为混合核心编解码器。
在EVRC-WB(3GPP2C.S0014-C)中描述了使用语音通用音频输入辨别器的实际系统的示例。该方法的问题在于,作为一种实践,特别是当输入信号在切换阈值附近时,经常难以在语音和通用音频输入之间进行区分。例如,具有语音和音乐或混响语音的组合的信号的辨别可能造成在语音和通用音频代码器之间频繁切换,而导致所处理的信号具有不一致的声音质量。
提供良好语音和通用音频质量的另一解决方案是在语音代码器输出之上利用音频变换域增强层。该方法从输入信号中去掉语音代码器输出信号,并且然后将得到的误差信号变换为进一步进行代码化的频域。在ITU-T建议G.718中使用该方法。该解决方案的问题在于,当通用音频信号用作对语音代码器的输入时,输出可能失真,有时严重地失真,并且大部分增强层代码化工作进行对单个模式失配所产生的噪声的影响的反转,这导致了针对给定比特率的有限的整体质量。
在仔细考虑了下面的具体实施方式和下文描述的附图之后,本发明的各个方面、特征和优点对于本领域的普通技术人员来说将变得更加显而易见。为了简洁而简化了这些附图,并且没有必要按比例绘制。
附图说明
图1是音频信号编码处理示图。
图2是适用于处理语音和通用音频信号的混合核心编解码器的示意性框图。
图3是适用于处理语音和通用音频信号的替代混合核心编解码器的示意性框图。
图4是音频信号解码处理示图。
图5是混合核心编解码器的解码器部分。
具体实施方式
本公开通常涉及用于处理音频信号的方法和装置,并且更具体地,涉及用于处理以诸如帧或子帧序列的序列设置的音频信号的方法和装置。包括帧的输入音频信号通常被数字化。信号单元通常在逐个单元的基础上被分类为更适用于至少两个不同代码化方案中的一个。在一个实施例中,代码化的单元或帧与误差信号和代码化方案的指示进行组合,以进行存储和通信。本公开还涉及用于基于代码化方案指示来对代码化单元和误差信号的组合进行解码的方法和装置。将在下文更全面地讨论本公开的这些和其他方面。
在一个实施例中,音频信号被分类为更像语音或不太像语音,其中,利用更适用于像语音的信号的编解码器来处理更像语音的帧,并且利用更适用于不太像语音的信号的编解码器来处理不太像语音的帧。本公开不限于处理分类为语音或通用音频信号的音频信号帧。更通用地,本公开针对在不考虑编解码器的类型并且不考虑用于确定对特定帧应用哪个代码化方案的准则的情况下,利用至少两个不同的代码化器中的一个来处理音频信号帧。
在本申请中,不太像语音的信号被称为通用音频信号。然而,通用音频信号不必完全没有语音。通用音频信号可以包括音乐、音调、背景噪声或仅其组合和者与一些语音的组合。通用音频信号还可以包括混响语音。即,因为语音代码化算法所基于的模型参数在某种程度上可能被折衷,所以由于大量声反射(混响)而破坏的语音信号可能更适合于由通用音频代码器来代码化。在一个实施例中,分类为通用音频帧的帧包括背景中有语音的非语音、或者背景中有非语音的语音。在另一实施例中,通用音频帧包括作为显著非语音的一部分以及作为显著语音的不太显著的另一部分。
在图1的过程100中,在110处,处于帧序列中的输入帧被分类为帧的至少两个不同的预先指定的类型中的一个。在示例性实现中,输入音频信号包括帧序列,这些帧中的每一个都被分类为语音帧或通用音频帧。然而,更通用地,输入帧可以被分类成音频帧的至少两种不同类型中的一个。换言之,没有必要基于这些帧是语音帧或通用音频帧来对这些帧进行区分。更通用地,可以对输入帧进行评估以确定如何最好地对该帧进行编码。例如,可以对通用音频帧序列进行评估,以确定如何使用至少两个不同编解码器中的一个来最好地对该帧进行编码。音频帧的分类对于本领域的技术人员是公知的,并且因此准则和辨别机制的详细讨论将不在本公开的范围内。该分类可以在代码化之前或者在代码化之后发生,如以下进一步描述的。
图2图示了处理输入音频信号s(n)的帧的音频信号处理器200的第一示意性框图,其中“n”是音频采样索引。音频信号处理器包括模式选择器210,模式选择器210对输入音频信号s(n)的帧进行分类。图3还图示了包括模式选择器310的另一音频信号处理器300的示意性框图,该模式选择器310对输入音频信号s(n)的帧进行分类。示例性模式选择器确定输入音频信号的帧是更像语音还是不太像语音。然而,更通用地,可以将输入音频帧的其他准则评估为用于模式选择的基础。在图2和图3中,模式选择码字由模式选择器来生成并且被分别提供到多路复用器220和320。码字可以包括指示操作模式的一个或多个比特。具体地,码字在逐个帧的基础上指示通过其来处理输入信号的对应帧的模式。因此,例如,码字指示输入音频帧被处理为语音信号还是被处理为通用音频信号。
在图1中,在120处,基于输入音频信号的对应帧来产生编码的比特流和对应处理帧。在图2中,音频信号处理器200包括语音代码器230和通用音频代码器240。例如,语音代码器是码激励线性预测(CELP)代码化器或者特别适用于对语音信号进行代码化的一些其他代码化器。例如,通用音频代码器是时域混迭消除(TDAC)类型代码化器,如改进的离散余弦变换(MDCT)代码化器。然而,更通用地,代码化器230和240可以是任何不同的代码化器。例如,代码化器可以是针对不同类型的语音所优化的不同类型的CELP类代码化器。代码化器还可以是不同类型的TDAC类代码化器或者一些其他类的代码器。如述,每个代码化器基于由代码化器处理的对应输入音频帧来产生编码的比特流。每个代码化器还产生对应处理帧,该帧是输入信号的重新构建,由sc(n)指示。该重新构建的信号通过对编码的比特流进行解码来获得。为了便于图示,在附图中,编码和解码功能由单个功能块来表示,但是可以由编码块来表示编码比特流的生成,并且可以由独立解码块来表示重新构建的输入信号。因此,对重新构建的帧进行编码和解码。
在图2中,第一和第二代码化器230和240具有通过选择开关250耦合到输入音频信号的输入,该选择开关250基于由模式选择器210所选择或确定的模式来控制。例如,开关250可以由处理器基于模式选择器的码字输出来控制。开关250针对处理语音帧选择语音代码器230,并且开关250针对处理通用音频帧选择通用音频代码器。在图2中,借助于选择开关250仅通过例如语音代码器或通用音频代码器的一个代码化器来处理每个帧。尽管在图2中仅图示了两个代码器,但是更通用地,可以通过若干不同代码化器中的一个来处理该帧。例如,可以选择三个或更多个代码化器中的一个来处理输入音频信号的特定帧。然而,在另一实施例中,通过所有代码化器来处理每个帧,如下文进一步所描述。
在图2中,在代码化器230和240的输出上的开关252将所选择的代码器的处理的输出耦合到多路复用器220。更具体地,该开关将所选择的代码化器的编码比特流输出耦合到多路复用器。基于由模式选择器210选择或确定的模式来控制开关252。例如,处理器可以基于模式选择器210的码字输出来控制开关252。多路复用器220将码字与基于码字所选择的对应代码化器的编码比特流输出进行多路复用。因此,对于通用音频帧,开关252将通用音频代码器240的输出耦合到多路复用器220,并且对于语音帧,开关252将语音代码器230的输出耦合到多路复用器。
在图3中,在不使用例如图2中的开关250的选择开关的情况下,将输入音频信号直接施加到第一和第二代码化器330和340。在图3的处理中,通过例如语音代码器330和通用音频代码器340的所有代码器来处理输入音频信号的每个帧。通常,每个代码化器基于由代码器所处理的对应输入音频帧来产生编码比特流。每个代码化器还通过对编码比特流进行解码来产生对应处理帧,其中,处理帧是由sc(n)指示的输入帧的重新构建。通常,可以通过第一和/或第二代码化器所固有的延迟实体(未示出)来对输入音频信号进行延迟。还可以通过第一或第二代码化器之前的滤波实体(未示出)来对该输入音频信号进行滤波。在一个实施例中,滤波实体对输入信号执行重新采样或速率转换处理。例如,8、16或32kHz的输入音频信号可以被转换成12.8kHz的信号,这是语音信号的典型。更通用地,尽管在图3中仅图示了两个代码化器时,但是存在多个代码化器。
在图3中,在代码化器330和340的输出上的开关352将所选择的代码化器的处理的输出耦合到多路复用器320。更具体地,开关将代码化器的编码比特流输出耦合到多路复用器。基于模式选择器310所选择或确定的模式来控制开关352。例如,处理器可以基于模式选择器310的码字输出来控制开关352。多路复用器320将该码字与基于该码字所选择的对应代码化器的编码比特流输出进行多路复用。因此,对于通用音频帧,开关352将通用音频代码器340的输出耦合到多路复用器320,并且对于语音帧,开关352将语音代码器330的输出耦合到多路复用器。
在图1中,在130处,基于在输入帧和由选择的代码化器生成的对应处理帧之间的差来产生增强层编码比特流。如上所述,所处理的帧是重新构建帧sc(n)。在图2的处理器中,差信号生成器260基于输入音频信号的帧和由与如码字所指示的选择的模式相关联的代码化器输出的对应处理帧来生成差信号。在代码化器230和240的输出处的开关254将所选择的代码化器输出耦合到差信号生成器260。差信号被标识为误差信号E。
将差信号输入到增强层代码化器270,该增强层编码器270基于该差信号来生成增强层比特流。在图3的替代处理器中,差信号生成器360基于输入音频信号的帧和由与如码字所指示的选择的模式相关联的对应的代码化器输出的对应处理帧来生成差信号。在代码化器330和340的输出处的开关354将所选择的代码化器输出耦合到差信号生成器360。将差信号输入到增强层代码化器370,该增强层编码器370基于差信号来生成增强层比特流。
在一些实施中,在不同信号生成之前或之后处理输入音频信号的帧。在一个实施例中,对差信号进行加权,并且例如使用MDCT将其变换为频域,以供由增强层编码器来进行处理。在增强层中,误差信号由加权的差信号组成,将该加权的差信号变换成MDCT(改进的离散余弦变换)域,以供由例如在图2和图3中的增强层编码器的误差信号编码器来处理。将误差信号E给出为:
E=MDCT{W(s-sc)},    等式(1)
其中,W是基于来自核心层解码器的线性预测(LP)滤波器系数A(z)的感知加权(perceptual weighting)矩阵,s是来自输入音频信号s(n)的采样的向量(即,帧),并且sc是来自核心层解码器的采样的对应向量。
在一个实施例中,对于由语音代码器处理的帧和对于由通用音频代码器处理的帧,增强层编码器使用类似的代码化方法。在将输入帧分类成由CELP代码化器代码化的语音帧的情况下,由CELP代码化码器生成的线性预测滤波系数(A(z))可用于基于在输入帧和由语音(CELP)代码化器输出的处理帧sc(n)之间的差来对对应的误差信号进行加权。然而,对于将输入帧分类成由通用音频代码化器使用基于MDCT的代码化方案所代码化的通用音频帧的情况,不存在用于对误差信号进行加权的可用LP滤波系数。为了解决该情况,在一个实施例中,首先在差信号生成器出生成误差信号之前,通过对由通用音频代码器输出的处理帧sc(n)执行LPC分析来获得LP滤波系数。然后,这些得到的LPC系数用于在增强层编码之前生成应用于误差信号的感知加权矩阵W。
在另一实现中,生成误差信号E包括通过预先调整来修改信号sc(n)。在特定实施例中,基于利用不同增益值调整的信号来生成多个误差值,其中具有相对低的值的误差信号用于生成增强层比特流。在与标题为“Method and Apparatus for Generating an Enhancement Layerwithin an Audio Coding System(在音频代码化系统内生成增强层的方法和装置)”的美国申请No.12/187423相对应的美国公开No.中更加完整地描述了生成和处理误差=信号的这些和其他方面。
在图1中,在140处,基于输入音频信号的公共帧的所有增强层编码比特流、码字以及编码比特流被多路复用成组合的比特流。例如,如果输入音频信号的帧被分类成语音帧,则编码的比特流由语音代码器产生,增强层比特流基于由语音代码器产生的处理帧,并且该码字指示输入音频信号的对应帧是语音帧。对于输入音频信号的帧被分类成通用音频帧的情况,编码的比特流由通用音频代码器产生,增强层比特流基于由通用音频代码器产生的处理帧,并且该码字指示输入音频信号的对应帧是通用音频帧。类似地,对于任何其他代码化器,该码字指示输入音频帧的分类,并且代码化的比特流和处理帧由对应的代码化器产生。
在图2中,向多路复用器220发送与由模式选择实体210选择的分类或模式相对应的码字。在代码化器230和240的输出上的第二开关252将与所选择的模式相对应的代码化器耦合到多路复用器220,使得对应的代码化比特流被传送到多路复用器。具体地,开关252将语音代码器230或通用音频代码器240的代码化比特流输出耦合到多路复用器220。基于由模式选择器210选择或确定的模式来控制开关252。处理器可以基于模式选择器的码字输出来控制开关252。还从增强层代码化器270向多路复用器220发送增强层比特流。多路复用器组合码字、选择的代码化器比特流以及增强层比特流。例如,在通用音频帧的情况下,开关250将输入信号耦合到通用音频编码器240,并且开关252将通用音频代码器的输出耦合到多路复用器220。开关254将由通用音频代码器生成的处理帧耦合到差信号生成器,该差信号生成器输出用于生成增强层比特流,该增强层比特流与码字和代码化的比特流进行多路复用。多路复用的信息可以针对输入音频信号的每个帧被聚集并且被存储和/或传送,以用于随后的解码。将在以下描述组合信息的解码。
在图3中,向多路复用器320发送与由模式选择实体310选择的分类或模式相对应的码字。在代码化器330和340的输出上的第二开关352将与选择的模式相对应的代码化器耦合到多路复用器320,使得对应的代码化比特流被传送到多路复用器。具体地,开关352将语音代码器330或通用音频代码器340的编码比特流输出耦合到多路复用器320。基于由模式选择器310选择或确定的模式来控制开关352。处理器可以基于模式选择器的码字输出来控制开关352。还从增强层代码化器370向多路复用器320传送增强层比特流。多路复用器组合码字、选择的代码化器比特流以及增强层比特流。例如,在语音帧的情况下,开关352将语音代码器330的输出耦合到多路复用器320。开关354将由语音代码器生成的处理帧耦合到差信号生成器360,差信号生成器360的输出用于生成增强层比特流,该增强层比特流与码字和代码化比特流进行多路复用。所多路复用的信息针对输入音频信号的每个帧被聚集并且被存储和/或传送,以用于随后的解码。将在下文讨论对组合的信息的解码。
通常,可以通过第一和/或第二代码化器所固有的延迟实体(未示出)来对输出音频信号进行延迟。具体地,可能需要延迟元件沿着一个或多个处理路径,以同步在多路复用器处组合的信息。例如,相对于编码的比特流中的一个的生成,增强层比特流的生成可以需要更多的处理时间。因此,可能有必要延迟编码比特流,以便于使其与代码化的增强层比特流进行同步。也可以延迟码字的通信,以便于使该码字与代码化比特流和代码化增强层同步。替代地,多路复用器可以在码字和编码比特流被生成时存储并且保持该码字和代码化比特流,并且仅在接收到所有要组合的元素之后执行多路复用。
可以由在第一或第二代码化器之前的滤波实体(未示出)对输入音频信号进行滤波。在一个实施例中,滤波实体对输入信号执行重新采样或速率转换处理。例如,8、16或32kHz的输入音频信号可以被转换成12.8kHz的语音信号。更具体地,可以对所有代码化器的信号进行速率转换,上采样或下采样。在对一个帧类型进行速率转换并且对另一帧类型不进行速率转换的实施例中,可能有必要在不进行速率转换的帧的处理中提供一些延迟。当不同帧类型的转换速率引入了不同的延迟量时,一个或多个延迟元件也可能是期望的。
在一个实施例中,可以基于不同音频代码化器产生处理的音频帧的对应集合来将输入音频信号分类成语音信号或通用音频信号。在示例性语音和通用音频信号处理实施例中,这样的实现提出了在模式选择发生或确定之前,由音频代码化器和语音代码器二者来处理输入帧。在图3中,模式选择实体310基于由语音代码器330生成的语音处理帧并且基于由通用音频代码器340生成的通用音频处理帧来将输入音频信号的输入帧分类成语音帧或通用音频帧。在更特定的实现中,基于第一和第二差信号的比较来对输入帧进行分类,其中第一差信号基于输入帧和语音处理帧来生成,并且第二差信号基于输入帧和通用音频处理帧来生成。例如,可以将与第一差信号相关联的差信号音频采样的第一集合的能量特性同与第二差信号相关联的差信号音频采样的第二集合的能量特性作比较。为了实施后者的方法,图3的示意性框图可能需要一些修正,以包括从一个或多个差信号生成器到模式选择实体310的输出。这些实现还可以适用于其中采用其他类型的代码化器的实施例。
在图4中,在410处,将组合的比特流解多路复用为增强层编码比特流、码字和编码比特流。在图5中,解多路复用器510对组合的比特流执行处理,以产生码字、增强层比特流和编码比特流。码字指示所选择的模式,并且特别是用于对编码的比特流进行编码的代码化器的类型。在示例性实施例中,码字指示编码的比特流是语音编码比特流还是通用编码比特流。然而,更具体地,该码字可以指示除了语音或通用音频代码器之外的代码化器。在上文已经描述了替代代码化器的一些示例。
在图5中,开关512基于码字来选择用于对代码化的比特流进行解码的解码器。具体地,开关512选择语音解码器520或者通用音频解码器530,从而将代码化的比特流路由或者耦合到适当的解码器。由适当的解码器来处理代码化的比特流,以产生标识为s’c(n)的处理的音频帧,该处理的音频帧应当与在假设没有信道误差下的编码器侧的信号sc(n)相同。在最实际的实现中,处理的音频帧s’c(n)将与输入信号sc(n)对应帧不同。在一些实施例中,第二开关514将选择的解码器的输出耦合到加总实体540,加总实体540的功能将在下文进一步描述。基于如由码字指示的选择的模式来控制一个或多个开关的状态,并且处理器可以基于解多路复用器的码字输出来控制一个或多个开关的状态。
在图4中,在430处,将增强层编码比特流输出解码成解码的增强层帧。在图5中,增强层解码器550对从解多路复用器510输出的增强层编码比特流进行解码。因为解码的误差或差信号是原始误差信号E的近似,所以解码的误差信号被指示为E’。在图4中,在440处,将解码的增强层编码比特流与解码的音频帧组合。在图5的信号解码处理器中,近似的误差信号E’与处理的音频信号s’c(n)组合,以重新构建对输入帧s’(n)的对应估计。在例如由以上等式(1)中的加权矩阵来对误差信号进行加权和编码的比特流是通用音频编码比特流的实施例中,在组合之前将逆加权矩阵(inverse weighting matrix)应用于加权的误差信号。在与标题为“Method and Apparatus for Generating anEnhancement Layer within an Audio Coding System(在音频代码化系统内生成增强层的方法和装置)”的美国申请No.12/187423相对应的美国公开No.____中更全面地描述了根据误差信号的生成和处理的原始输入帧的重新构建的这些和其他方面。
尽管以建立占有并且使得本领域的普通技术人员能够作出和使用本公开的方式描述了本公开及其最佳模式,但是应该理解和明白的是,存有与此处所公开的示例性实施例的等同物,并且在不脱离本发明的范围和精神的情形下可以进行修正和更改,本发明的范围和精神不由示例性实施例而是由所附权利要求来限定。

Claims (10)

1.一种用于对音频信号进行编码的方法,所述方法包括:
将输入帧分类为语音帧或通用音频帧,所述输入帧是基于所述音频信号;
基于所述输入帧来产生编码比特流和对应的处理帧;
基于在所述输入帧和所述处理帧之间的差来产生增强层编码比特流;以及
基于码字指示所述输入帧被分类为语音帧还是通用音频帧来将所述增强层编码比特流、所述码字以及语音编码比特流或通用音频编码比特流多路复用成组合比特流,
其中,所述编码比特流是语音编码比特流或通用音频编码比特流,
其中,产生所述对应的处理帧的步骤包括:产生语音处理帧和产生通用音频处理帧,
其中,基于第一差信号与第二差信号的比较来对所述输入帧进行分类,其中,基于所述输入帧和所述语音处理帧来产生所述第一差信号,并且基于所述输入帧和所述通用音频处理帧来产生所述第二差信号。
2.根据权利要求1所述的方法,
当所述输入帧被分类为语音帧时,基于所述输入帧来产生至少语音编码比特流和至少对应的语音处理帧,并且当所述输入帧被分类为通用音频帧时,基于所述输入帧来产生至少通用音频编码比特流和至少通用音频处理帧,
仅当所述输入帧被分类为语音帧时,将所述增强层编码比特流、所述语音编码比特流和所述码字多路复用成所述组合比特流,并且
仅当所述输入帧被分类为通用音频帧时,将所述增强层编码比特流、所述通用音频编码比特流和所述码字多路复用成所述组合比特流。
3.根据权利要求2所述的方法,
其中,当所述输入帧被分类为语音帧时,所述处理帧是语音处理帧,并且
其中,当所述输入帧被分类为通用音频帧时,所述处理帧是通用音频处理帧。
4.根据权利要求3所述的方法,所述处理帧是通用音频处理帧,所述方法进一步包括:
通过执行所述处理帧的线性预测代码化分析来获得线性预测滤波系数,
基于所述线性预测滤波系数来对在所述输入帧和所述处理帧之间的差进行加权。
5.根据权利要求1所述的方法,
仅当所述输入帧被分类为语音帧时,产生所述语音编码比特流和对应的语音处理帧,
仅当所述输入帧被分类为通用音频帧时,产生所述通用音频编码比特流和对应的通用音频处理帧,
仅当所述输入帧被分类为语音帧时,将所述增强层编码比特流、所述语音编码比特流和所述码字多路复用成所述组合比特流,并且
仅当所述输入帧被分类为通用音频帧时,将所述增强层编码比特流、所述通用音频编码比特流和所述码字多路复用成所述组合比特流。
6.根据权利要求5所述的方法,
其中,当所述输入帧被分类为语音帧时,所述处理帧是语音处理帧,并且
其中,当所述输入帧被分类为通用音频帧时,所述处理帧是通用音频处理帧。
7.根据权利要求6所述的方法,在产生所述语音编码比特流或者所述通用音频编码比特流之前,对所述输入帧进行分类。
8.根据权利要求6所述的方法,所述处理帧是通用音频处理帧,所述方法进一步包括:
通过执行所述通用音频代码器的所述处理帧的线性预测代码化分析来获得线性预测滤波系数,
基于所述线性预测滤波系数来对在所述输入帧和所述通用音频代码器的所述处理帧之间的差进行加权。
9.根据权利要求1所述的方法,其中,将输入帧分类为语音帧或通用音频帧的步骤进一步包括:基于与所述第一差信号相关联的差信号音频采样的第一集合与所述第二差信号相关联的差信号音频采样的第二集合的能量特性的比较,来将所述输入信号分类为语音信号或通用音频信号。
10.根据权利要求1所述的方法,所述处理帧是通用音频处理帧,所述方法进一步包括:
通过执行所述处理帧的线性预测代码化分析来获得线性预测滤波系数,
基于所述线性预测滤波系数来对在所述输入帧和所述处理帧之间的差进行加权,
基于所加权的差来产生所述增强层编码比特流。
CN201080059971.3A 2009-12-31 2010-11-29 使用可切换模型核心的嵌入式语音和音频代码化 Active CN102687200B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/650,970 2009-12-31
US12/650,970 US8442837B2 (en) 2009-12-31 2009-12-31 Embedded speech and audio coding using a switchable model core
PCT/US2010/058193 WO2011081751A1 (en) 2009-12-31 2010-11-29 Embedded speech and audio coding using a switchable model core

Publications (2)

Publication Number Publication Date
CN102687200A CN102687200A (zh) 2012-09-19
CN102687200B true CN102687200B (zh) 2014-12-10

Family

ID=43457859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080059971.3A Active CN102687200B (zh) 2009-12-31 2010-11-29 使用可切换模型核心的嵌入式语音和音频代码化

Country Status (6)

Country Link
US (1) US8442837B2 (zh)
EP (1) EP2519945B1 (zh)
KR (1) KR101380431B1 (zh)
CN (1) CN102687200B (zh)
BR (1) BR112012016370B1 (zh)
WO (1) WO2011081751A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
MY177336A (en) * 2013-01-29 2020-09-12 Fraunhofer Ges Forschung Concept for coding mode switching compensation
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2017047603A1 (ja) 2015-09-15 2017-03-23 株式会社村田製作所 操作検出装置
KR102526699B1 (ko) * 2018-09-13 2023-04-27 라인플러스 주식회사 통화 품질 정보를 제공하는 방법 및 장치
CN113113032A (zh) * 2020-01-10 2021-07-13 华为技术有限公司 一种音频编解码方法和音频编解码设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954365A (zh) * 2004-05-17 2007-04-25 诺基亚公司 使用不同编码模型的音频编码
CN101145345A (zh) * 2006-09-13 2008-03-19 华为技术有限公司 音频分类方法
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置
CN102089814A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
IL129752A (en) * 1999-05-04 2003-01-12 Eci Telecom Ltd Telecommunication method and system for using same
US6236960B1 (en) * 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6950794B1 (en) 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
DE60214599T2 (de) 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
EP1619664B1 (en) 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US20060047522A1 (en) * 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
EP1793373A4 (en) * 2004-09-17 2008-10-01 Matsushita Electric Ind Co Ltd AUDIO CODING APPARATUS, AUDIO DECODING APPARATUS, COMMUNICATION APPARATUS, AND AUDIO CODING METHOD
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8396707B2 (en) * 2007-09-28 2013-03-12 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
WO2009118044A1 (en) * 2008-03-26 2009-10-01 Nokia Corporation An audio signal classifier
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954365A (zh) * 2004-05-17 2007-04-25 诺基亚公司 使用不同编码模型的音频编码
CN101145345A (zh) * 2006-09-13 2008-03-19 华为技术有限公司 音频分类方法
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置
CN102089814A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵力.感觉加权滤波器.《语音信号处理》.2003,148. *

Also Published As

Publication number Publication date
US8442837B2 (en) 2013-05-14
KR101380431B1 (ko) 2014-04-01
BR112012016370A2 (pt) 2018-05-15
US20110161087A1 (en) 2011-06-30
EP2519945B1 (en) 2015-01-21
EP2519945A1 (en) 2012-11-07
CN102687200A (zh) 2012-09-19
KR20120109600A (ko) 2012-10-08
WO2011081751A1 (en) 2011-07-07
BR112012016370B1 (pt) 2020-09-15

Similar Documents

Publication Publication Date Title
CN102687200B (zh) 使用可切换模型核心的嵌入式语音和音频代码化
CA2691993C (en) Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
CN107077858B (zh) 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器
CN103187066B (zh) 处理音频帧以在不同编解码器之间转变的方法和装置
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
AU2007206167B8 (en) Apparatus and method for encoding and decoding signal
KR101145578B1 (ko) 동적 가변 와핑 특성을 가지는 오디오 인코더, 오디오 디코더 및 오디오 프로세서
KR20080083719A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
KR101429564B1 (ko) 디코딩된 다중채널 오디오 신호 또는 디코딩된 스테레오 신호를 포스트프로세싱하기 위한 장치 및 방법
CN101496100A (zh) 用于对无效帧进行宽带编码和解码的系统、方法和设备
CN102099856A (zh) 具有可切换旁路的音频编码/解码方案
EP1756807B1 (en) Audio encoding
US20140074489A1 (en) Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
CN101494055A (zh) 用于码分多址无线系统的方法和装置
EP1990799A1 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP5174651B2 (ja) 低演算量符号励振線形予測符号化
JPH05232996A (ja) 音声符号化装置
Gournay et al. A 1200 bits/s HSX speech coder for very-low-bit-rate communications
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
JPH08160996A (ja) 音声符号化装置
KR20080091305A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法
Chenchamma et al. Speech Coding with Linear Predictive Coding
JPH10105200A (ja) 音声符号化/復号化方法
Moreno Variable frame size for vector quantization and application to speech coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160412

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC