CN101523486B - 用于编码和解码音频信号的方法和设备 - Google Patents
用于编码和解码音频信号的方法和设备 Download PDFInfo
- Publication number
- CN101523486B CN101523486B CN2007800374370A CN200780037437A CN101523486B CN 101523486 B CN101523486 B CN 101523486B CN 2007800374370 A CN2007800374370 A CN 2007800374370A CN 200780037437 A CN200780037437 A CN 200780037437A CN 101523486 B CN101523486 B CN 101523486B
- Authority
- CN
- China
- Prior art keywords
- signal
- parameter
- input signal
- time domain
- transform domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 35
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明描述用于有效地编码输入信号的技术。在一个设计中,一般化编码器基于至少一个检测器和多个编码器来编码所述输入信号(例如,音频信号)。所述至少一个检测器可包括信号活动检测器、类噪声信号检测器、稀疏度检测器、某一其它检测器或其组合。所述多个编码器可包括静默编码器、类噪声信号编码器、时域编码器、变换域编码器、某一其它编码器或其组合。可基于所述至少一个检测器来确定所述输入信号的特征。可基于所述输入信号的所述特征从所述多个编码器中选择一编码器。可基于所述选定的编码器来编码所述输入信号。所述输入信号可包括帧序列,且可针对每一帧执行检测和编码。
Description
本申请案主张2006年10月10日申请的题为“用于编码一般化音频信号的构架”的第60/828,816号美国临时申请案和2007年6月8日申请的题为“用于编码和解码音频信号的方法和设备”的第60/942,984号美国申请案的优先权,所述两个申请案转让给本受让人,且以引用的方式并入本文中。
技术领域
本发明大体上涉及通信,且更特定来说,涉及用于编码和解码音频信号的技术。
背景技术
音频编码器和解码器广泛用于各种应用,例如,无线通信、因特网语音协议(VoIP)、多媒体、数字音频等。音频编码器以输入位速率接收音频信号、基于编码机制来编码所述音频信号且以通常低于(且有时远低于)所述输入位速率的输出位速率产生经编码信号。此允许使用较少资源来发送或存储经编码信号。
可基于音频信号的某些假定特征设计音频编码器且可利用所述信号特征以便使用尽可能少的位来表示所述音频信号中的信息。所述音频编码器的效用可取决于实际音频信号与借以设计所述音频编码器的假定特征的匹配程度。如果所述音频信号具有不同于借以设计所述音频编码器特征的特征,则所述音频编码器的性能可能相对较差。
发明内容
本文中描述用于有效地编码输入信号并解码经编码信号的技术。在一个设计中,一般化编码器可基于至少一个检测器和多个编码器来编码输入信号(例如,音频信号)。所述至少一个检测器可包含信号活动检测器、类噪声信号检测器、稀疏度检测器、某一其它检测器或其组合。所述多个编码器可包含静默编码器、类噪声信号编码器、时域编码器、至少一个变换域编码器、某一其它编码器或其组合。可基于所述至少一个检测器来确定所述输入信号的特征。可基于所述输入信号的特征从所述多个编码器中选择一编码器。接着可基于选定的编码器来编码所述输入信号。所述输入信号可包含帧序列。对于每一帧来说,可确定所述帧的信号特征,可基于所述帧的特征来为所述帧选择编码器,且可基于选定的编码器来编码所述帧。
在另一设计中,一般化编码器可基于稀疏度检测器和用于多个域的多个编码器来编码输入信号。可确定所述输入信号在所述多个域中的每一者中的稀疏度。可基于所述输入信号在所述多个域中的稀疏度从所述多个编码器中选择编码器。接着可基于选定的编码器来编码所述输入信号。所述多个域可包括时域和变换域。如果认为所述输入信号在时域中比在变换域中更稀疏,则可选择时域编码器以在时域中编码所述输入信号。如果认为所述输入信号在变换域中比在时域中更稀疏,则可选择变换域编码器以在变换域(例如,频域)中编码所述输入信号。
在又一设计中,稀疏度检测器可通过变换第一域(例如,时域)中的第一信号以获得第二域(例如,变换域)中的第二信号来执行稀疏度检测。可基于所述第一信号和所述第二信号中的值/分量的能量来确定第一参数和第二参数。也可基于所述第一信号更稀疏的先前宣告和所述第二信号更稀疏的先前宣告来确定至少一个计数。可基于所述第一参数和所述第二参数和所述至少一个计数(如果使用)来确定是所述第一信号还是所述第二信号更稀疏。
在下文进一步详细描述本发明的各个方面和特征。
附图说明
图1展示一般化音频编码器的方框图。
图2展示稀疏度检测器的方框图。
图3展示另一稀疏度检测器的方框图。
图4A和图4B展示语音信号和器乐信号在时域和变换域中的曲线图。
图5A和图5B展示所述语音信号和所述器乐信号的时域和变换域压实因子的曲线图。
图6A和6B展示用于为音频帧选择时域编码器或变换域编码器的过程。
图7展示用于使用一般化编码器来编码输入信号的过程。
图8展示用于使用用于多个域的编码器来编码输入信号的过程。
图9展示用于执行稀疏度检测的过程。
图10展示一般化音频解码器的方框图。
图11展示无线通信装置的方框图。
具体实施方式
可使用各种类型的音频编码器以编码音频信号。一些音频编码器可能能够编码不同类别的音频信号(例如,语音、音乐、音调等)。这些音频编码器可被称作通用音频编码器。可设计一些其它音频编码器以用于特定类别的音频信号(例如,语音、音乐、背景噪声等)。这些音频编码器可被称作信号类别特定音频编码器、专用音频编码器等。一般来说,与通用音频编码器相比,经设计以用于特定类别的音频信号的信号类别特定音频编码器可能能够更有效地编码那个类别的音频信号。信号类别特定音频编码器可能能够实现对特定类别的音频信号以低至8千位/秒(Kbps)的位速率进行改进的源编码。
一般化音频编码器可使用一组信号类别特定音频编码器以便有效地编码一般化音频信号。所述一般化音频信号可属于不同类别和/或可随时间动态地改变类别。举例来说,音频信号可在一些时间间隔中主要含有音乐、在一些其它时间间隔中主要含有语音、在另一些其它时间间隔中主要含有噪声等。所述一般化音频编码器可能能够在不同时间间隔中使用不同适当选择的信号类别特定音频编码器来有效地编码此音频信号。所述一般化音频编码器可能能够实现不同类别和/或动态改变类别的音频信号的良好编码性能。
图1展示能够编码具有不同和/或改变特征的音频信号的一般化音频编码器100的设计的方框图。音频编码器100包括一组检测器110、一选择器120、一组信号类别特定音频编码器130和多路复用器(Mux)140。检测器110和选择器120提供基于所述音频信号的特征来选择合适的类别特定音频编码器的机制。不同信号类别特定音频编码器也可被称作不同编码模式。
在音频编码器100内,信号活动检测器112可在所述音频信号中检测活动。如果未检测到信号活动,如方框122中所确定,则可基于可有效编码大部分噪声的静默编码器132来编码所述音频信号。
如果检测到信号活动,则检测器114可检测所述音频信号的周期性和/或类噪声特征。如果所述音频信号并非为周期性的、不具有可预测的结构或样式、不具有基本(音高)周期等,则其可能具有类噪声特征。举例来说,字母“s”的发音可被视作具有类噪声特征。如果所述音频信号具有类噪声特征,如方框124中所确定,则可基于类噪声信号编码器134来编码所述音频信号。编码器134可实施噪声激发线性预测(NELP)技术和/或可有效地编码具有类噪声特征的信号的某一其它编码技术。
如果所述音频信号不具有类噪声特征,则稀疏度检测器116可分析所述音频信号以确定所述信号在时域中还是在一个或一个以上变换域中演示稀疏度。可基于变换将所述音频信号从时域变换到另一域(例如,频域),且变换域是指所述音频信号被变换到的域。可基于不同类型的变换将所述音频信号变换到不同变换域。稀疏度是指用较少位来表示信息的能力。如果给定域中的音频信号的仅较少值或分量含有所述信号的大部分能量或信息,则所述信号可被视为在那个域中稀疏。
如果所述音频信号在时域中稀疏,如方框126中所确定,则可基于时域编码器136来编码所述音频信号。编码器136可实施码激发线性预测(CELP)技术和/或可有效地编码在时域中稀疏的信号的某一其它编码技术。编码器136可确定所述音频信号的长期和短期预测的残差(residual)并将其编码。另外,如果所述音频信号在所述变换域中的一者中稀疏和/或编码效率在所述变换域中的一者中比在时域和其它变换域中更佳,则可基于变换域编码器138来编码所述音频信号。变换域编码器为在变换域中编码其变换域表示是稀疏的信号的编码器。编码器138可实施修正离散余弦变换(MDCT)、一组滤波器库、正弦模型化和/或可有效地表示信号变换的稀疏系数的某一其它编码技术。
多路复用器140可接收编码器132、134、136和138的输出且可将一个编码器的输出提供作为经编码信号。可基于所述音频信号的特征而在不同时间间隔中选择编码器132、134、136和138中的不同编码器。
图1展示一般化音频编码器100的特定设计。一般来说,一般化音频编码器可包括可用以检测音频信号的任何特征的任何数目的检测器和任何类型的检测器。所述一般化音频编码器也可包括可用以编码所述音频信号的任何数目的编码器和任何类型的编码器。在上文给出一些实例检测器和编码器且是所属领域的技术人员已知的。可以各种方式布置所述检测器和所述编码器。图1展示呈一个实例布置的一组实例检测器和编码器。一般化音频编码器可包括少于、多于和/或不同于图1中所示的编码器和检测器的编码器和检测器。
可以帧为单位来处理所述音频信号。帧可包括在预定时间间隔(例如,10毫秒(ms)、20ms等)内收集的数据。帧也可包括预定样本率下的预定数目的样本。帧也可被称作包、数据方框、数据单元等。
如图1中所示,一般化音频编码器100可处理每一帧。对于每一帧来说,信号活动检测器112可确定帧含有静默还是活动。如果检测到静默帧,则静默编码器132可编码所述帧且提供经编码的帧。否则,检测器114可确定所述帧是否含有类噪声信号,且如果含有类噪声信号,则编码器134可编码所述帧。否则,编码器136或138可基于由检测器116进行的所述帧中的稀疏度的检测来编码所述帧。一般化音频编码器100可为每一帧选择合适的编码器以便使编码效率最大化(例如,以低位速率实现良好重建质量),同时实现在不同编码器之间的无缝过渡。
虽然下文描述内容描述了实现在时域与变换域之间进行选择的稀疏度检测器,但是下文的设计可经一般化以从时域和任何数目的变换域中选择一个域。同样,一般化音频编码器中的编码器可包括任何数目和任何类型的变换域编码器,可选择其中的一者以编码信号或信号的帧。
在图1中所示的设计中,稀疏度检测器116可确定所述音频信号是在时域还是变换域中稀疏。此确定的结果可用以为所述音频信号选择时域编码器136或变换域编码器138。因为可用较少位表示稀疏信息,所以稀疏度标准可用以为所述音频信号选择有效编码器。可以各种方式检测稀疏度。
图2展示稀疏度检测器116a的方框图,其为图1中的稀疏度检测器116的一个设计。在此设计中,稀疏度检测器116a接收音频帧且确定所述音频帧是在时域还是变换域中更稀疏。
在图2中所示的设计中,单元210可在当前音频帧附近执行线性预测编码(LPC)分析且提供残差的一帧。附近通常包括当前音频帧且可进一步包括过去和/或未来帧。举例来说,单元210可基于仅当前帧、或当前帧和一个或一个以上过去帧、或当前帧和一个或一个以上未来帧、或当前帧、一个或一个以上过去帧和一个或一个以上未来帧等中的样本导出被预测的帧。也可基于不同帧中的相同或不同数目的样本(例如,来自当前帧的160个样本、来自下一帧的80个样本等)来导出所述被预测的帧。在任何状况下,单元210可计算当前音频帧与被预测的帧之间的差以获得含有当前帧与被预测的帧之间的差的残差帧。所述差也被称作残差、预测误差等。
当前音频帧可含有K个样本且可由单元210处理以获得含有K个残差的残差帧,其中K可为任何整数值。单元220可将残差帧变换(例如,基于由图1中的变换域编码器138使用的相同变换)以获得含有K个系数的被变换的帧。
单元212可计算残差帧中的每一残差的平方量值或能量,如下:
其中xk=xi,k+jxq,k为残差帧中的第k个复数值残差,且
|xk|2为第k个残差的平方量值或能量。
单元212可过滤所述残差且接着计算所过滤的残差的能量。单元212也可平滑化和/或重新取样残差能量值。在任何状况下,单元212可在时域中提供N个残差能量值,其中N≤K。
单元214可将N个残差能量值以降序排序,如下:
X1≥X2≥...≥XN,等式(2)
其中,在来自单元212的N个|xk|2值中,X1为最大|xk|2值,X2为第二大|xk|2值,等等,且XN为最小|xk|2值。
单元216可将N个残差能量值求和以获得总残差能量。单元216也可累加N个经排序的残差能量值,一次累加一个能量值,直到所累加的残差能量超过预定百分比的总残差能量为止,如下:
其中Etotal,X为所有N个残差能量值的总能量,
η为预定百分比,例如η=70或某一其它值,且
NT为所累加的能量超过η%的总残差能量情况下残差能量值的最小数目。
单元222可计算被变换的帧中的每一系数的平方量值或能量,如下:
其中yk=yi,k+jyq,k为被变换的帧中的第k个系数,且
|yk|2为第k个系数的平方量值或能量。
单元222可以与单元212相同的方式对被变换的帧中的系数进行操作。举例来说,单元222可平滑化和/或重新取样系数能量值。单元222可提供N个系数能量值。
单元224可将N个系数能量值以降序排序,如下:
Y1≥Y2≥...≥YN, 等式(5)
其中,在来自单元222的N个|yk|2值中,Y1为最大|yk|2值,Y2为第二大|yk|2值,等等,且YN为最小|yk|2值。
单元226可将N个系数能量值求和以获得总系数能量。单元226也可累加N个经排序的系数能量值,一次累加一个能量值,直到所累加系数能量超过预定百分比的总系数能量为止,如下:
其中Etotal,Y为所有N个系数能量值的总能量,且
NM为所累加的能量超过η%的总系数能量情况下系数能量值的最小数目。
单元218和228可分别计算时域和变换域的压实因子,如下:
其中CT(i)为时域的压实因子,且
CM(i)为变换域的压实因子。
CT(i)指示顶部i个残差能量值的总能量。可将CT(i)视为时域的累积能量函数。CM(i)指示顶部i个系数能量值的总能量。可将CM(i)视为变换域的累积能量函数。
单元238可基于所述压实因子来计算德耳塔参数D(i),如下:
D(i)=CM(i)-CT(i)。 等式(8)
决策模块240可接收分别来自单元216和226的参数NT和NM、来自单元238的德耳塔参数D(i)和可能的其它信息。决策模块240可基于NT、NM、D(i)和/或其它信息来为当前帧选择时域编码器136或变换域编码器138。
在一个设计中,决策模块240可为当前帧选择时域编码器136或变换域编码器138,如下:
如果NT<(NM-Q1),则选择时域编码器136, 等式(9a)
如果NM<(NT-Q2),则选择变换域编码器138, 等式(9b)
其中Q1和Q2为预定阈值,例如,Q1≥0且Q2≥0。
NT可指示残差帧在时域中的稀疏度,其中NT的较小值对应于较稀疏的残差帧,且反之亦然。类似地,NM可指示被变换的帧在变换域中的稀疏度,其中NM的较小值对应于较稀疏的被变换的帧,且反之亦然。如果残差的时域表示较稀疏,则等式(9a)选择时域编码器136,且如果残差的变换域表示较稀疏,则等式(9b)选择变换域编码器138。
对于当前帧,方程组(9)中的选择可为未定的。此可为(例如)NT=NM、Q1>0和/或Q2>0时的状况。在此状况下,可使用一个或一个以上额外参数(例如,D(i))以确定为当前帧选择时域编码器136还是变换域编码器138。举例来说,如果方程组(9)单独不足以选择编码器,则在D(i)大于零时可选择变换域编码器138,且在D(i)小于零时可选择时域编码器136。
阈值Q1和Q2可用以实现各种效应。举例来说,可选择阈值Q1和/或Q2以虑及NT和NM的计算中的差或偏差(如果存在)。阈值Q1和/或Q2也可用以(i)通过使用较小Q1值和/或较大Q2值使时域编码器136比变换域编码器138更受青睐或(ii)通过使用较小Q2值和/或较大Q1值使变换域编码器138比时域编码器136更受青睐。阈值Q1和/或Q2也可用以实现在选择编码器136或138过程中的迟滞(hysteresis)。举例来说,如果为过去帧选择时域编码器136,则可在NM小于NT达Q2时为当前帧选择变换域编码器138,其中Q2为从编码器136到编码器138的假设(hypothesis)的量。类似地,如果为过去帧选择变换域编码器138,则可在NT小于NM达Q1时为当前帧选择时域编码器136,其中Q1为从编码器138到编码器136的假设的量。唯有在信号特征已改变足够量时,方可使用所述假设来改变编码器,其中可通过Q1和Q2值的适当选择来界定所述足够的量。
在另一设计中,决策模块240可基于对当前和过去帧的初始决策而为当前帧选择时域编码器136或变换域编码器138。在每一帧中,决策模块240可作出关于对那个帧使用时域编码器136还是变换域编码器138的初始决策,例如,如上文所述。接着决策模块240可基于选择规则而从一个编码器切换到另一编码器。举例来说,唯有在Q3个最近的帧更喜欢切换时、在Q5个最近的帧中的Q4个更喜欢切换时等,决策模块240才可切换到另一编码器,其中Q3、Q4和Q5可为合适选择的值。如果未进行切换,则决策模块240可为当前帧使用当前编码器。此设计可提供时间假设且防止在连续帧中编码器之间的连续切换。
图3展示稀疏度检测器116b的方框图,其为图1中稀疏度检测器116的另一设计。在此设计中,稀疏度检测器116b包括如上文针对图2所描述而操作的单元210、212、214、218、220、222、224和228以计算时域的压实因子CT(i)和变换域的压实因子CM(i)。
单元330可针对高达预定值的CT(i)和CM(i)的所有值确定CT(i)≥CM(i)的次数和CM(i)≥CT(i)的次数,如下:
KT=基数{CT(i):CT(i)≥CM(i),i≤i≤N且CT(i)≤τ},等式(10a)
KM=基数{CM(i):CM(i)≥CT(i),1≤i≤N且CM(i)≤τ},等式(10b)
其中KT为时域稀疏度参数,
KM为变换域稀疏度参数,且
τ为正考虑以确定KT和KM的总能量的百分比。
一集合的基数为所述集合中元素的数目。
在等式(10a)中,对于i=1,...,N且CT(i)≤τ,比较每一时域压实因子CT(i)与对应变换域压实因子CM(i)。对于被比较的所有时域压实因子来说,将时域压实因子大于或等于所述对应变换域压实因子的数目提供作为KT。
在等式(10b)中,对于i=1,...,N且CM(i)≤τ,比较每一变换域压实因子CM(i)与对应时域压实因子CT(i)。对于被比较的所有变换域压实因子来说,将变换域压实因子大于或等于所述对应时域压实因子的数目提供作为KM。
单元332可确定参数ΔT和ΔM,如下:
ΔT=∑{CT(i)-CM(i)},对于所有CT(i)>CM(i),1≤i≤N,且CT(i)≤τ}。等式(11a)
ΔM=∑{CM(i)-CT(i)},对于所有CM(i)>CT(i),1≤i≤N,且CM(i)≤τ}。等式(11b)
KT指示CT(i)符合或超过CM(i)的次数,且ΔT指示当CT(i)>CM(i)时CT(i)超过CM(i)的总量。KM指示CM(i)符合或超过CT(i)的次数,且ΔM指示当CM(i)>CT(i)时CM(i)超过CT(i)的总量。
决策模块340可接收来自单元330和332的参数KT、KM、ΔT和ΔM且可为当前帧选择时域编码器136或变换域编码器138。决策模块340可维持时域历史计数HT和变换域历史计数HM。时域历史计数HT可在每当认为帧在时域中更稀疏时增加且在每当认为帧在变换域中更稀疏时减小。变换域历史计数HM可在每当认为帧在变换域中更稀疏时增加且在每当认为帧在时域中更稀疏时减小。
图4A展示实例语音信号在时域和变换域(例如,MDCT域)中的曲线图。在此实例中,所述语音信号在时域中具有相对较少的较大值但在变换域中具有许多较大值。此语音信号在时域中更稀疏且可基于时域编码器136被更有效地编码。
图4B展示实例器乐信号在时域和变换域(例如,MDCT域)中的曲线图。在此实例中,所述器乐信号在时域中具有许多较大值但在变换域中具有较少较大值。此器乐信号在变换域中更稀疏且可基于变换域编码器138被更有效地编码。
图5A展示图4A中所示的语音信号的时域压实因子CT(i)的曲线图510和变换域压实因子CM(i)的曲线图512。曲线图510和512指示给定百分比的总能量可由比变换域值少的时域值俘获。
图5B展示图4B中所示的器乐信号的时域压实因子CT(i)的曲线图520和变换域压实因子CM(i)的曲线图522。曲线图520和522指示给定百分比的总能量可由比时域值更少的变换域值俘获。
图6A和图6B展示用于为音频帧选择时域编码器136或变换域编码器138的过程600的设计的流程图。过程600可用于图3中的稀疏度检测器116b。在以下描述中,ZT1和ZT2为时域历史计数HT与其比较的阈值,且ZM1、ZM2、ZM3为变换域历史计数HM与其比较的阈值。UT1、UT2和UT3为当选择时域编码器136时HT的递增量,且UM1、UM2和UM3为当选择变换域编码器138时HM的递增量。所述递增量可为相同值或不同值。DT1、DT2和DT3为当选择变换域编码器138时HT的递减量,且DM1、DM2和DM3为当选择时域编码器136时HM的递减量。所述递减量可为相同值或不同值。V1、V2、V3和V4为用以决定是否更新历史计数HT和HM的阈值。
在图6A中,起初接收要编码的音频帧(方框612)。确定先前音频帧是静默帧还是类噪声信号帧(方框614)。如果回答为“是”,则将时域历史计数和变换域历史计数重设为HT=0和HM=0(方框616)。在方框614回答为“否”时且还在方框616之后,如上文所描述针对当前音频帧计算参数KT、KM、ΔT和ΔM(方框618)。
接着确定是否KT>KM且KM<ZM1(方框620)。条件KT>KM可指示当前音频帧在所述时域中比在所述变换域中更稀疏。条件HM<ZM1可指示先前音频帧在所述变换域中尚未非常稀疏。如果方框620的回答为“是”,则为当前音频帧选择时域编码器136(方框622)。接着可在方框624中更新所述历史计数,如下:
HT=HT+UT1和HM=HM-DM1。等式(12)
如果方框620的回答为“否”,则确定是否KM>KT且HM>ZM2(方框630)。条件KM>KT可指示当前音频帧在所述变换域中比在所述时域中更稀疏。条件HM>ZM2可指示先前音频帧在所述变换域中已稀疏。方框630的所述组条件有助于使所述决策偏向较频繁地选择时域编码器138。可用HT>ZT1取代方框中的第二个条件以与方框620匹配。如果方框630的回答为“是”,则为当前音频帧选择变换域编码器138(方框632)。接着可在方框634中更新所述历史计数,如下:
HM=HM+UM1和HT=HT-DT1。 等式(13)
在方框624和634之后,所述过程终止。如果方框630的回答为“否”,则所述过程继续进行到图6B。
如果KT=KM或如果未满足方框620和/或630中的历史计数条件,则到达图6B。首先确定是否ΔM>ΔT且HM>ZM2(方框640)。条件ΔM>ΔT可指示当前音频帧在所述变换域中比在所述时域中更稀疏。如果方框640的回答为“是”,则为当前音频帧选择变换域编码器138(方框642)。接着确定是否(ΔM-ΔT)>V1(方框644)。如果回答为“是”,则可在方框646中更新所述历史计数,如下:
HM=HM+UM2和HT=HT-DT2。 等式(14)
如果方框640的回答为“否”,则确定是否ΔM>ΔT且HT>ZT1(方框650)。如果方框650的回答为“是”,则为当前音频帧选择时域编码器136(方框652)。接着确定是否(ΔT-ΔM)>V2(方框654)。如果回答为“是”,则可在方框656中更新所述历史计数,如下:
HT=HT+UT2和HM=HM-DM2。 等式(15)
如果方框650的回答为“否”,则确定是否ΔT>ΔM且HT>ZT2(方框660)。条件ΔT>ΔM可指示当前音频帧在所述时域中比在所述变换域中更稀疏。如果方框660的回答为“是”,则为当前音频帧选择时域编码器136(方框662)。接着确定是否(ΔT-ΔM)>V3(方框664)。如果回答为“是”,则可在方框666中更新所述历史计数,如下:
HT=HT+UT3和HM=HM-DM3。 等式(16)
如果方框660的回答为“否”,则确定是否ΔT>ΔM且HM>ZM3(方框670)。如果方框670的回答为“是”,则为当前音频帧选择变换域编码器138(方框672)。接着确定是否(ΔM-ΔT)>V4(方框674)。如果回答为“是”,则可在方框676中更新所述历史计数,如下:
HM=HM+UM3和HT=HT-DT3。 等式(17)
如果方框670的回答为“否”,则可为当前音频帧选择默认编码器(方框682)。所述默认编码器可为用于前面音频帧的编码器、特定编码器(例如,时域编码器136或变换域编码器138)等。
过程600中使用多个阈值以允许调整对时域编码器136或变换域编码器138的选择。所述阈值可经选择以使在某些情形下一个编码器比另一编码器更受青睐。在一个实例设计中,ZM1=ZM2=ZT1=ZT2=4,UT1=UM1=2,DT1=DM1=1,V1=V2=V3=V4=1且UM2=DT2=1。其它阈值也可用于过程600。
图2到图6B展示图1中的稀疏度检测器116的若干设计。也可以其它方式(例如,用其它参数)执行稀疏度检测。可使用以下目标设计稀疏度检测器:
·基于信号特征来检测稀疏度以选择时域编码器136或变换域编码器138,
·用于有声语音信号帧的良好稀疏度检测,例如为有声语音信号帧选择变换域编码器138的较低概率,
·对于从例如小提琴的乐器得到的音频帧,应在较大百分比的时间内选择变换域编码器138,
·使时域编码器136与变换域编码器138之间的频繁切换最小化以减少假影,
·较低复杂性和优选开环操作,以及
·跨越不同信号特征和噪声条件的稳健性能。
图7展示用于使用一般化编码器来编码输入信号(例如,音频信号)的过程700的流程图。可基于至少一个检测器来确定所述输入信号的特征(方框712),所述至少一个检测器可包含信号活动检测器、类噪声信号检测器、稀疏度检测器、某一其它检测器或其组合。可基于所述输入信号的特征从多个编码器中选择编码器(方框714)。所述多个编码器可包含静默编码器、类噪声信号编码器(例如,NELP编码器)、时域编码器(例如,CELP编码器)、至少一个变换域编码器(例如,MDCT编码器)、某一其它编码器或其组合。可基于选定的编码器来编码所述输入信号(方框716)。
对于方框712和714来说,可在所述输入信号中检测活动,且可当在所述输入信号中未检测到活动时选择静默编码器。可确定所述输入信号是否具有类噪声信号特征,且可在所述输入信号具有类噪声信号特征时选择所述类噪声信号编码器。可确定所述输入信号在时域和用于至少一个变换域编码器的至少一个变换域中的稀疏度。可在认为所述输入信号在时域中比在所述至少一个变换域中更稀疏时选择所述时域编码器。可在认为所述输入信号在对应变换域中比在时域和可能存在的其它变换域中更稀疏时选择所述至少一个变换域编码器中的一者。可以各种次序执行信号检测和编码器选择。
所述输入信号可包含帧序列。可确定每一帧的特征,且基于所述帧的信号特征为所述帧选择编码器。可基于为每一帧选择的编码器来编码那个帧。在给定帧和预定数目的前面帧指示到特定编码器的切换时,可为那个帧选择那个特定编码器。一般来说,为每一帧选择编码器可基于任何参数。
图8展示用于编码输入信号(例如,音频信号)的过程800的流程图。可(例如)基于上文所描述的设计中的任一者来确定所述输入信号在多个域中的每一者中的稀疏度(方框812)。可基于所述输入信号在所述多个域中的稀疏度从所述多个编码器中选择编码器(方框814)。可基于选定的编码器来编码所述输入信号(方框816)。
所述多个域可包含时域和至少一个变换域,例如,频域。可基于上文所描述的参数、一个或一个以上历史计数等中的任一者来确定所述输入信号在所述时域和所述至少一个变换域中的稀疏度,可基于对时域编码器的先前选择和对至少一个变换域编码器的先前选择来更新所述一个或一个以上历时计数。可在确定所述输入信号在所述时域中比在所述至少一个变换域中更稀疏时选择所述时域编码器以在时域中编码所述输入信号。可在确定所述输入信号在所述对应变换域中比在所述时域和可能存在的其它变换域中更稀疏时选择所述至少一个变换域编码器中的一者以在那个变换域中编码输入信号。
图9展示用于执行稀疏度检测的过程900的流程图。可变换第一域中的第一信号(例如,基于MDCT)以获得第二域中的第二信号(方框912)。可通过对音频输入信号执行线性预测编码(LPC)而获得所述第一信号。所述第一域可为时域,且所述第二域可为变换域,例如,频域。可基于所述第一信号和所述第二信号(例如,基于所述第一信号和所述第二信号中的值/分量的能量)来确定第一参数和第二参数(方框914)。可基于所述第一信号更稀疏的先前宣告和所述第二信号更稀疏的先前宣告来确定至少一个计数(方框916)。可基于所述第一参数和所述第二参数和所述至少一个计数(如果使用)来确定是所述第一信号还是所述第二信号更稀疏(方框918)。
对于图2中所示的设计来说,所述第一参数可对应于所述第一信号中含有至少一特定百分比的所述第一信号的总能量的值的最小数目(NT)。所述第二参数可对应于所述第二信号中含有至少所述特定百分比的所述第二信号的总能量的值的最小数目(NM)。基于所述第一参数小于所述第二参数达第一阈值(例如,如等式(9a)中所示),可认为所述第一信号更稀疏。基于所述第二参数小于所述第一参数达第二阈值(例如,如等式(9b)中所示),可认为所述第二信号更稀疏。可确定指示所述第一信号的累积能量的第三参数(例如CT(i))。也可确定指示所述第二信号的累积能量的第四参数(例如CM(i))。可进一步基于所述第三参数和所述第四参数来确定是所述第一信号还是所述第二信号更稀疏。
对于图3、图6A和图6B中所示的设计,可确定所述第一信号的第一累积能量函数(例如CT(i))和所述第二信号的第二累积能量函数(例如CM(i))。可将所述第一累积能量函数符合或超过所述第二累积能量函数的次数提供作为第一参数(例如KT)。可将所述第二累积能量函数符合或超过所述第一累积能量函数的次数提供作为第二参数(例如KM)。基于所述第一参数大于所述第二参数,可认为所述第一信号更稀疏。基于所述第二参数大于所述第一参数,可认为所述第二信号更稀疏。可基于所述第一累积能量函数超过所述第二累积能量函数的情况(例如,如等式(11a)中所示)来确定第三参数(例如ΔT)。可基于所述第二累积能量函数超过所述第一累积能量函数的情况(例如,如等式(11b)中所示)来确定第四参数(例如ΔM)。可进一步基于所述第三参数和所述第四参数来确定是所述第一信号还是所述第二信号更稀疏。
对于两个设计来说,对于所述第一信号更稀疏的每一宣告,第一计数(例如,HT)可递增且第二计数(例如,HM)可递减。对于所述第二信号更稀疏的每一宣告,所述第一计数可递减且所述第二计数可递增。可进一步基于所述第三计数和所述第四计数来确定是所述第一信号还是所述第二信号更稀疏。
如上文所描述,可使用多个编码器来编码音频信号。可以各种方式发送关于如何编码所述音频信号的信息。在一个设计中,每一经编码帧包括指示用于那个帧的特定编码器的编码器/编码信息。在另一设计中,仅在用于经编码帧的编码器不同于用于前面帧的编码器时,那个帧才包括编码器信息。在此设计中,仅在每当进行编码器的切换时发送编码器信息,且如果使用同一编码器则不发送信息。一般来说,所述编码器可包括所述经编码信息内的通知解码器选择哪一编码器的符号/位。或者,可使用侧通道来独立地传输此信息。
图10展示能够解码使用图1中的一般化音频编码器100进行编码的音频信号的一般化音频解码器1000的设计的方框图。音频解码器1000包括一选择器1020、一组信号类别特定音频解码器1030和一多路复用器1040。
在选择器1020内,方框1022可接收经编码的音频帧且(例如)基于所述帧中所包括的编码器信息来确定所接收的帧是否为静默帧。如果所接收的帧为静默帧,则静默解码器1032可解码所接收的帧且提供经解码的帧。否则,方框1024可确定所接收的帧是否为类噪声信号帧。如果回答为“是”,则类噪声信号解码器1034可解码所接收的帧且提供经解码的帧。否则,方框1026可确定所接收的帧是否为时域帧。如果回答为“是”,则时域解码器1036可解码所接收的帧且提供经解码的帧。否则,变换域解码器1038可解码所接收的帧且提供经解码的帧。解码器1032、1034、1036和1038可以与图1中的一般化音频编码器100内的编码器132、134、136和138分别执行的编码互补的方式执行解码。多路复用器1040可接收解码器1032、1034、1036和1038的输出且可将一个解码器的输出提供作为经解码的帧。可基于所述音频信号的特征而以不同时间间隔选择解码器1032、1034、1036和1038中的不同解码器。
图10展示一般化音频解码器1000的特定设计。一般来说,一般化音频解码器可包括可以各种方式布置的任何数目的解码器和任何类型的解码器。图10展示在一实例布置中的一组实例解码器。一般化音频解码器可包括更少、更多和/或不同解码器,其可以其它方式布置。
本文中所描述的编码和解码技术可用于通信、计算、网络连接、个人电子器件等。举例来说,所述技术可用于无线通信装置、手持式装置、游戏装置、计算装置、消费者电子装置、个人计算机等。下文描述所述技术用于无线通信装置的实例使用。
图11展示无线通信系统中无线通信装置1100的设计的方框图。无线装置1100可为蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话等。所述无线通信系统可为码分多址(CDMA)系统、全球移动通信系统(GSM)系统等。
无线装置1100能够经由接收路径和传输路径来提供双向通信。在所述接收路径上,由基站传输的信号由天线1112接收且被提供到接收器(RCVR)1114。接收器1114调节并数字化所接收的信号且将样本提供到数字区段1120以供进一步处理。在所述传输路径上,传输器(TMTR)1116接收将要从数字区段1120传输的数据、处理并调节所述数据,且产生经调制的信号,经由天线1112将所述经调制的信号传输到基站。接收器1114和传输器1116可为可支持CDMA、GSM等的收发器的部分。
数字区段1120包括各种处理、接口和存储器单元,例如,调制解调器处理器1122、精简指令集计算机/数字信号处理器(RISC/DSP)1124、控制器/处理器1126、内部存储器1128、一般化音频编码器1132、一般化音频解码器1134、图形/显示处理器1136和外部总线接口(EBI)1138。调制解调器处理器1122可针对数据传输和接收执行处理,例如,编码、调制、解调和解码。RISC/DSP 1124可针对无线装置1100执行一般和专用处理。控制器/处理器1126可引导数字区段1120内的各种处理和接口单元的操作。内部存储器1128可存储用于数字区段1120内的各种单元的数据和/或指令。
一般化音频编码器1132可针对来自音频源1142、麦克风1143等的输入信号执行编码。可如图1中所示实施一般化音频编码器1132。一般化音频解码器1134可针对经编码的音频数据执行解码且可将输出信号提供到扬声器/耳机1144。可如图10中所示实施般化音频解码器1134。图形/显示处理器1136可针对可呈现给显示单元1146的图形、视频、图像和文字执行处理。EBI 1138可促进数据在数字区段1120与主存储器1148之间的传送。
可使用一个或一个以上处理器、DSP、微处理器、RISC等来实施数字区段1120。也可将数字区段1120制造在一个或一个以上专用集成电路(ASIC)和/或某一其它类型的集成电路(IC)上。
一般来说,本文中所描述的任何装置可代表各种类型的装置,例如,无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、经由无线信道进行通信的装置等。装置可具有各种名称,例如,接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动装置、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器,以及硬件、软件、固件,或其组合。
可通过各种手段实施本文中所描述的编码和解码技术(例如,图1中的编码器100、图2中的稀疏度检测器116a、图3中的稀疏度检测器116b、图10中的解码器1000等)。举例来说,这些技术可实施于硬件、固件、软件,或其组合中。对于硬件实施方案来说,用以执行所述技术的处理单元可实施于一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机,或其组合中。
对于固件和/或软件实施方案来说,所述技术可作为指令而实施于处理器可读媒体上,例如,随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、电可擦除PROM(EEPROM)、快闪存储器、压缩光盘(CD)、磁性或光学数据存储装置等。所述指令可由一个或一个以上处理器执行且可使所述处理器执行本文中所描述的功能性的某些方面。
提供本发明的先前描述以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将容易明白对本发明的各种修改,且在不偏离本发明的精神或范围的情况下,本文中所界定的一般原理可应用于其它变化形式。因此,不希望将本发明限于本文中所描述的实例,而是赋予其与本文中所揭示的原理和新颖特征一致的最广泛范围。
Claims (32)
1.一种用于编码音频信号的设备,其包含:
用于基于音频输入信号的多个参数来确定所述输入信号至少在时域和变换域中的稀疏度的装置,其中所述用于确定稀疏度的装置包含:
用于基于所述输入信号在所述时域中的值的最小数目来确定第一参数的装置,其中所述输入信号在所述时域中的所述最小数目的值所累加的能量值至少为特定百分比的所述输入信号在所述时域中的总能量;以及
用于基于所述输入信号在所述变换域中的值的最小数目来确定第二参数的装置,其中所述输入信号在所述变换域中的所述最小数目的值所累加的能量值至少为所述特定百分比的所述输入信号在所述变换域中的总能量;
用于基于所述第一和第二参数来将所述输入信号在所述时域中的稀疏度与所述输入信号在所述变换域中的稀疏度相比较的装置;
用于基于所述比较至少从时域编码器和变换域编码器中选择一编码器的装置;以及
用于基于所选定的编码器来编码所述输入信号的装置。
2.根据权利要求1所述的设备,其进一步包含用于在所述输入信号中检测活动的装置,且其中所述用于选择所述编码器的装置进一步包含用于当在所述输入信号中未检测到活动时选择静默编码器的装置。
3.根据权利要求1所述的设备,其进一步包含用于确定所述输入信号是否具有类噪声信号特征的装置,其中所述用于选择所述编码器的装置进一步包含用于在所述输入信号具有类噪声信号特征时选择类噪声信号编码器的装置。
4.根据权利要求1所述的设备,其中所述时域编码器包含码激发线性预测(CELP)编码器,且所述变换域编码器包含修正离散余弦变换(MDCT)编码器。
5.根据权利要求1所述的设备,其中所述输入信号包含帧序列,且其中所述设备进一步包含:
用于确定所述序列中的每一帧的特征的装置;
用于基于每一帧的所述确定的特征为所述帧选择编码器的装置;以及
用于基于为每一帧选择的所述编码器来编码所述帧的装置。
6.根据权利要求5所述的设备,其进一步包含用于在特定帧和预定数目的前面帧指示切换到特定编码器时为所述特定帧选择所述特定编码器的装置。
7.根据权利要求1所述的设备,其进一步包含:
用于在确定所述输入信号在所述时域中比在所述变换域中更稀疏时选择所述时域编码器以在所述时域中编码所述输入信号的装置;以及
用于在确定所述输入信号在所述变换域中比在所述时域中更稀疏时选择所述变换域编码器以在所述变换域中编码所述输入信号的装置。
8.根据权利要求1所述的设备,其中所述用于选择所述编码器的装置包含:
用于在所述第一参数和所述第二参数指示所述输入信号在所述时域中比在所述变换域中更稀疏时选择所述时域编码器的装置;以及
用于在所述第一参数和所述第二参数指示所述输入信号在所述变换域中比在所述时域中更稀疏时选择所述变换域编码器的装置。
9.根据权利要求8所述的设备,其进一步包含:
用于基于对所述时域编码器的先前选择和对所述变换域编码器的先前选择来确定至少一个计数的装置,且其中所述用于选择编码器的装置包含用于进一步基于所述至少一个计数来选择所述时域编码器或所述变换域编码器的装置。
10.根据权利要求1所述的设备,其中所述用于将所述输入信号在所述时域中的稀疏度与所述输入信号在所述变换域中的稀疏度相比较的装置包含:
用于变换时域中的第一信号以获得变换域中的第二信号的装置;
用于基于所述第一信号和所述第二信号来确定所述第一参数和所述第二参数的装置;以及
用于基于所述第一参数和所述第二参数来确定是所述第一信号还是所述第二信号更稀疏的装置。
11.根据权利要求10所述的设备,其进一步包含用于基于修正离散余弦变换(MDCT)来变换所述第一信号以获得所述第二信号的装置。
12.根据权利要求10所述的设备,其进一步包含:
用于对所述输入信号执行线性预测编码(LPC)以获得所述第一信号中的残差的装置;
用于变换所述第一信号中的所述残差以获得所述第二信号中的系数的装置;
用于确定所述第一信号中的所述残差的能量值的装置;
用于确定所述第二信号中的所述系数的能量值的装置;以及
用于基于所述残差的所述能量值和所述系数的所述能量值来确定所述第一参数和所述第二参数的装置。
13.根据权利要求10所述的设备,其进一步包含:
用于基于所述第一参数小于所述第二参数达第一阈值来确定所述第一信号更稀疏的装置;以及
用于基于所述第二参数小于所述第一参数达第二阈值来确定所述第二信号更稀疏的装置。
14.根据权利要求10所述的设备,其进一步包含:
用于确定指示所述第一信号的累积能量的第三参数的装置;
用于确定指示所述第二信号的累积能量的第四参数的装置;以及
用于进一步基于所述第三参数和所述第四参数来确定是所述第一信号还是所述第二信号更稀疏的装置。
15.根据权利要求10所述的设备,其进一步包含:
用于确定所述第一信号的第一累积能量函数的装置;以及
用于确定所述第二信号的第二累积能量函数的装置,且其中所述用于确定所述第一参数和所述第二参数的装置包含:
用于基于所述第一累积能量函数符合或超过所述第二累积能量函数的次数来确定所述第一参数的装置;以及
用于基于所述第二累积能量函数符合或超过所述第一累积能量函数的次数来确定所述第二参数的装置。
16.根据权利要求15所述的设备,其进一步包含:
用于基于所述第一参数大于所述第二参数来确定所述第一信号更稀疏的装置;以及
用于基于所述第二参数大于所述第一参数来确定所述第二信号更稀疏的装置。
17.根据权利要求15所述的设备,其进一步包含:
用于基于所述第一累积能量函数超过所述第二累积能量函数的情况来确定第三参数的装置;以及
用于基于所述第二累积能量函数超过所述第一累积能量函数的情况来确定第四参数的装置,且其中进一步基于所述第三参数和所述第四参数来确定是所述第一信号还是所述第二信号更稀疏。
18.根据权利要求10所述的设备,其进一步包含:
用于基于所述第一信号更稀疏的先前宣告和所述第二信号更稀疏的先前宣告来确定至少一个计数的装置,且其中进一步基于所述至少一个计数来确定是所述第一信号还是所述第二信号更稀疏。
19.根据权利要求10所述的设备,其进一步包含:
用于针对所述第一信号更稀疏的每一宣告而递增第一计数且递减第二计数的装置;
用于针对所述第二信号更稀疏的每一宣告而递减所述第一计数且递增所述第二计数的装置;以及
用于基于所述第一计数和所述第二计数来确定是所述第一信号还是所述第二信号更稀疏的装置。
20.一种用于编码音频信号的方法,其包含:
基于音频输入信号的多个参数来确定所述输入信号至少在时域和变换域中的稀疏度,其中所述确定稀疏度包含:
基于所述输入信号在所述时域中的值的最小数目来确定第一参数,其中所述输入信号在所述时域中的所述最小数目的值所累加的能量值至少为特定百分比的所述输入信号在所述时域中的总能量;以及
基于所述输入信号在所述变换域中的值的最小数目来确定第二参数,其中所述输入信号在所述变换域中的所述最小数目的值所累加的能量值至少为所述特定百分比的所述输入信号在所述变换域中的总能量;
基于所述第一和第二参数来将所述输入信号在所述时域中的稀疏度与所述输入信号在所述变换域中的稀疏度相比较;
基于所述比较至少从时域编码器和变换域编码器中选择一编码器;以及
基于所选定的编码器来编码所述输入信号。
21.根据权利要求20所述的方法,其进一步包含在所述输入信号中检测活动,且其中选择所述编码器进一步包含当在所述输入信号中未检测到活动时选择静默编码器。
22.根据权利要求20所述的方法,其进一步包含确定所述输入信号是否具有类噪声信号特征,且其中选择所述编码器进一步包含在所述输入信号具有类噪声信号特征时选择类噪声信号编码器。
23.根据权利要求20所述的方法,其中选择所述编码器包含:
在所述第一参数和所述第二参数指示所述输入信号在所述时域中比在所述变换域中更稀疏时选择所述时域编码器,以及
在所述第一参数和所述第二参数指示所述输入信号在所述变换域中比在所述时域中更稀疏时选择所述变换域编码器。
24.根据权利要求23所述的方法,其进一步包含:
基于对所述时域编码器的先前选择和对所述变换域编码器的先前选择来确定至少一个计数,且
其中所述选择编码器包含进一步基于所述至少一个计数来选择所述时域编码器或所述变换域编码器。
25.根据权利要求20所述的方法,其中将所述输入信号在所述时域中的稀疏度与所述输入信号在所述变换域中的稀疏度相比较包含:
变换时域中的第一信号以获得变换域中的第二信号;
基于所述第一信号和所述第二信号来确定所述第一参数和所述第二参数;以及
基于所述第一参数和所述第二参数来确定是所述第一信号还是所述第二信号更稀疏。
26.根据权利要求25所述的方法,其中确定所述第一参数和所述第二参数包含:
基于所述第一信号中含有所述第一信号的至少一特定百分比的总能量的值的最小数目来确定所述第一参数,以及
基于所述第二信号中含有所述第二信号的至少所述特定百分比的总能量的值的最小数目来确定所述第二参数。
27.根据权利要求25所述的方法,其进一步包含:
确定所述第一信号的第一累积能量函数;以及
确定所述第二信号的第二累积能量函数,且其中确定所述第一参数和所述第二参数包含:
基于所述第一累积能量函数符合或超过所述第二累积能量函数的次数来确定所述第一参数,以及
基于所述第二累积能量函数符合或超过所述第一累积能量函数的次数来确定所述第二参数。
28.根据权利要求27所述的方法,其进一步包含:
基于所述第一累积能量函数超过所述第二累积能量函数的情况来确定第三参数;以及
基于所述第二累积能量函数超过所述第一累积能量函数的情况来确定第四参数,且其中进一步基于所述第三参数和所述第四参数来确定是所述第一信号还是所述第二信号更稀疏。
29.根据权利要求25所述的方法,其进一步包含:
基于所述第一信号更稀疏的先前宣告和所述第二信号更稀疏的先前宣告来确定至少一个计数,且其中进一步基于所述至少一个计数来确定是所述第一信号还是所述第二信号更稀疏。
30.一种用于解码音频信号的设备,其包含:
用于确定是时域编码器还是变换域编码器被用以从音频输入信号产生经编码信号的装置,其中当第一参数和第二参数指示所述输入信号在时域中比在变换域中更稀疏时,所述时域编码器被用以产生所述经编码信号,且其中当所述第一参数和所述第二参数指示所述输入信号在所述变换域中比在所述时域中更稀疏时,所述变换域编码器被用以产生所述经编码信号,其中:
所述第一参数是基于所述输入信号在所述时域中的值的最小数目来确定的,其中所述输入信号在所述时域中的所述最小数目的值所累加的能量值至少为特定百分比的所述输入信号在所述时域中的总能量,以及
所述第二参数是基于所述输入信号在所述变换域中的值的最小数目来确定的,其中所述输入信号在所述变换域中的所述最小数目的值所累加的能量值至少为所述特定百分比的所述输入信号在所述变换域中的总能量;以及
用于基于与用以产生所述经编码信号的所述编码器互补的解码器来解码所述经编码信号的装置。
31.根据权利要求30所述的设备,其进一步包含用于基于与所述经编码信号一起发送的编码器信息来确定用以产生所述经编码信号的所述编码器的装置。
32.一种用于解码音频信号的方法,其包含:
确定是时域编码器还是变换域编码器被用以从音频输入信号产生经编码信号,其中当第一参数和第二参数指示所述输入信号在时域中比在变换域中更稀疏时,所述时域编码器被用以产生所述经编码信号,且其中当所述第一参数和所述第二参数指示所述输入信号在所述变换域中比在所述时域中更稀疏时,所述变换域编码器被用以产生所述经编码信号,其中:
所述第一参数是基于所述输入信号在所述时域中的值的最小数目来确定的,其中所述输入信号在所述时域中的所述最小数目的值所累加的能量值至少为特定百分比的所述输入信号在所述时域中的总能量,以及
所述第二参数是基于所述输入信号在所述变换域中的值的最小数目来确定的,其中所述输入信号在所述变换域中的所述最小数目的值所累加的能量值至少为所述特定百分比的所述输入信号在所述变换域中的总能量;以及
基于与用以产生所述经编码信号的所述编码器互补的解码器来解码所述经编码信号。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82881606P | 2006-10-10 | 2006-10-10 | |
US60/828,816 | 2006-10-10 | ||
US94298407P | 2007-06-08 | 2007-06-08 | |
US60/942,984 | 2007-06-08 | ||
PCT/US2007/080744 WO2008045846A1 (en) | 2006-10-10 | 2007-10-08 | Method and apparatus for encoding and decoding audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101523486A CN101523486A (zh) | 2009-09-02 |
CN101523486B true CN101523486B (zh) | 2013-08-14 |
Family
ID=38870234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800374370A Expired - Fee Related CN101523486B (zh) | 2006-10-10 | 2007-10-08 | 用于编码和解码音频信号的方法和设备 |
Country Status (10)
Country | Link |
---|---|
US (1) | US9583117B2 (zh) |
EP (2) | EP2092517B1 (zh) |
JP (1) | JP5096474B2 (zh) |
KR (1) | KR101186133B1 (zh) |
CN (1) | CN101523486B (zh) |
BR (1) | BRPI0719886A2 (zh) |
CA (1) | CA2663904C (zh) |
RU (1) | RU2426179C2 (zh) |
TW (1) | TWI349927B (zh) |
WO (1) | WO2008045846A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452391A (zh) * | 2014-04-29 | 2017-12-08 | 华为技术有限公司 | 音频编码方法及相关装置 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
RU2454736C2 (ru) * | 2007-10-15 | 2012-06-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство обработки сигнала |
WO2009059633A1 (en) * | 2007-11-06 | 2009-05-14 | Nokia Corporation | An encoder |
US20100250260A1 (en) * | 2007-11-06 | 2010-09-30 | Lasse Laaksonen | Encoder |
EP2220646A1 (en) * | 2007-11-06 | 2010-08-25 | Nokia Corporation | Audio coding apparatus and method thereof |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
KR20100006492A (ko) * | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
MX2011000364A (es) * | 2008-07-11 | 2011-02-25 | Ten Forschung Ev Fraunhofer | Metodo y discriminador para clasificar distintos segmentos de una señal. |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
BR122021009252B1 (pt) * | 2008-07-11 | 2022-03-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
KR101230183B1 (ko) * | 2008-07-14 | 2013-02-15 | 광운대학교 산학협력단 | 오디오 신호의 상태결정 장치 |
WO2010008173A2 (ko) * | 2008-07-14 | 2010-01-21 | 한국전자통신연구원 | 오디오 신호의 상태결정 장치 |
US10008212B2 (en) * | 2009-04-17 | 2018-06-26 | The Nielsen Company (Us), Llc | System and method for utilizing audio encoding for measuring media exposure with environmental masking |
CN102142924B (zh) * | 2010-02-03 | 2014-04-09 | 中兴通讯股份有限公司 | 一种多用途语音频编码传输方法和装置 |
US9112591B2 (en) | 2010-04-16 | 2015-08-18 | Samsung Electronics Co., Ltd. | Apparatus for encoding/decoding multichannel signal and method thereof |
US9224398B2 (en) * | 2010-07-01 | 2015-12-29 | Nokia Technologies Oy | Compressed sampling audio apparatus |
US9236063B2 (en) | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US20130066638A1 (en) * | 2011-09-09 | 2013-03-14 | Qnx Software Systems Limited | Echo Cancelling-Codec |
WO2013056388A1 (en) * | 2011-10-18 | 2013-04-25 | Telefonaktiebolaget L M Ericsson (Publ) | An improved method and apparatus for adaptive multi rate codec |
RU2656681C1 (ru) * | 2012-11-13 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ, и устройство для декодирования аудиосигналов |
MY176776A (en) * | 2013-10-18 | 2020-08-21 | Ericsson Telefon Ab L M | Coding and decoding of spectral peak positions |
CN106256001B (zh) * | 2014-02-24 | 2020-01-21 | 三星电子株式会社 | 信号分类方法和装置以及使用其的音频编码方法和装置 |
CN107424621B (zh) * | 2014-06-24 | 2021-10-26 | 华为技术有限公司 | 音频编码方法和装置 |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
US10186276B2 (en) * | 2015-09-25 | 2019-01-22 | Qualcomm Incorporated | Adaptive noise suppression for super wideband music |
KR101728047B1 (ko) | 2016-04-27 | 2017-04-18 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
WO2023110082A1 (en) * | 2021-12-15 | 2023-06-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive predictive encoding |
CN113948085B (zh) * | 2021-12-22 | 2022-03-25 | 中国科学院自动化研究所 | 语音识别方法、系统、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
CN1649421A (zh) * | 2004-11-11 | 2005-08-03 | 向为 | 话音的自适应多速率编码和传输方法 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5109417A (en) * | 1989-01-27 | 1992-04-28 | Dolby Laboratories Licensing Corporation | Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio |
CA2483322C (en) * | 1991-06-11 | 2008-09-23 | Qualcomm Incorporated | Error masking in a variable rate vocoder |
KR0166722B1 (ko) * | 1992-11-30 | 1999-03-20 | 윤종용 | 부호화 및 복호화방법 및 그 장치 |
BE1007617A3 (nl) | 1993-10-11 | 1995-08-22 | Philips Electronics Nv | Transmissiesysteem met gebruik van verschillende codeerprincipes. |
US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
CN1090409C (zh) * | 1994-10-06 | 2002-09-04 | 皇家菲利浦电子有限公司 | 采用不同编码原理的传送系统 |
JP3158932B2 (ja) * | 1995-01-27 | 2001-04-23 | 日本ビクター株式会社 | 信号符号化装置及び信号復号化装置 |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
US5978756A (en) * | 1996-03-28 | 1999-11-02 | Intel Corporation | Encoding audio signals using precomputed silence |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
GB2326572A (en) * | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
JP2001500285A (ja) | 1997-07-11 | 2001-01-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 改良した音声符号器を備えた送信機及び復号器 |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
JP2000267699A (ja) | 1999-03-19 | 2000-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置 |
US6697430B1 (en) * | 1999-05-19 | 2004-02-24 | Matsushita Electric Industrial Co., Ltd. | MPEG encoder |
JP2000347693A (ja) | 1999-06-03 | 2000-12-15 | Canon Inc | オーディオ符号化復号化システム、符号化装置、復号化装置及びこれらの方法並びに記憶媒体 |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6438518B1 (en) * | 1999-10-28 | 2002-08-20 | Qualcomm Incorporated | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
FR2802329B1 (fr) * | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
EP1796083B1 (en) * | 2000-04-24 | 2009-01-07 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
SE519981C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
WO2002059772A2 (en) * | 2000-11-09 | 2002-08-01 | Hrl Laboratories, Llc | Blind decomposition using fourier and wavelet transforms |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US6631139B2 (en) * | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
US6694293B2 (en) | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US6785646B2 (en) * | 2001-05-14 | 2004-08-31 | Renesas Technology Corporation | Method and system for performing a codebook search used in waveform coding |
KR100748313B1 (ko) | 2001-06-28 | 2007-08-09 | 매그나칩 반도체 유한회사 | 이미지센서의 제조방법 |
JP4399185B2 (ja) * | 2002-04-11 | 2010-01-13 | パナソニック株式会社 | 符号化装置および復号化装置 |
JP4022111B2 (ja) | 2002-08-23 | 2007-12-12 | 株式会社エヌ・ティ・ティ・ドコモ | 信号符号化装置及び信号符号化方法 |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
KR100604032B1 (ko) * | 2003-01-08 | 2006-07-24 | 엘지전자 주식회사 | 복수 코덱을 지원하는 장치와 방법 |
US20050096898A1 (en) * | 2003-10-29 | 2005-05-05 | Manoj Singhal | Classification of speech and music using sub-band energy |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
JP4699117B2 (ja) | 2005-07-11 | 2011-06-08 | 株式会社エヌ・ティ・ティ・ドコモ | 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。 |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
-
2007
- 2007-10-08 JP JP2009532524A patent/JP5096474B2/ja not_active Expired - Fee Related
- 2007-10-08 KR KR1020097009018A patent/KR101186133B1/ko active IP Right Grant
- 2007-10-08 BR BRPI0719886-8A2A patent/BRPI0719886A2/pt not_active Application Discontinuation
- 2007-10-08 US US11/915,834 patent/US9583117B2/en active Active
- 2007-10-08 WO PCT/US2007/080744 patent/WO2008045846A1/en active Application Filing
- 2007-10-08 EP EP07843981A patent/EP2092517B1/en not_active Not-in-force
- 2007-10-08 CN CN2007800374370A patent/CN101523486B/zh not_active Expired - Fee Related
- 2007-10-08 RU RU2009117663A patent/RU2426179C2/ru active
- 2007-10-08 EP EP20120000494 patent/EP2458588A3/en not_active Withdrawn
- 2007-10-08 CA CA2663904A patent/CA2663904C/en not_active Expired - Fee Related
- 2007-10-09 TW TW096137932A patent/TWI349927B/zh not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
CN1649421A (zh) * | 2004-11-11 | 2005-08-03 | 向为 | 话音的自适应多速率编码和传输方法 |
Non-Patent Citations (3)
Title |
---|
ITU-T.G.722.2 Annex A: Comfort noise aspects.《G.722.2 Annex A: Comfort noise aspects》.2002,第1-8页. * |
Laurent Daudet.SPARSE AMD STRUCTURED DECOMPOSITIONS OF AUDIO SIGNALS IN OVERCOMPLETE SPACES.《Proc. of the 7th Int. Conference on Digital Audio Effects》.2004,第22-26页. * |
M.Davies et.al.Simple mixture model for sparse overcomplete ICA.《IEE Proceeding-Visual Image Signal Processing》.2004,第151卷(第1期),第35-43页. * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452391A (zh) * | 2014-04-29 | 2017-12-08 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN107452391B (zh) * | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5096474B2 (ja) | 2012-12-12 |
CA2663904A1 (en) | 2008-04-17 |
BRPI0719886A2 (pt) | 2014-05-06 |
EP2092517B1 (en) | 2012-07-18 |
KR101186133B1 (ko) | 2012-09-27 |
RU2009117663A (ru) | 2010-11-20 |
TWI349927B (en) | 2011-10-01 |
US9583117B2 (en) | 2017-02-28 |
US20090187409A1 (en) | 2009-07-23 |
TW200839741A (en) | 2008-10-01 |
RU2426179C2 (ru) | 2011-08-10 |
EP2458588A2 (en) | 2012-05-30 |
CA2663904C (en) | 2014-05-27 |
EP2458588A3 (en) | 2012-07-04 |
KR20090074070A (ko) | 2009-07-03 |
JP2010506239A (ja) | 2010-02-25 |
EP2092517A1 (en) | 2009-08-26 |
WO2008045846A1 (en) | 2008-04-17 |
CN101523486A (zh) | 2009-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101523486B (zh) | 用于编码和解码音频信号的方法和设备 | |
CN100362568C (zh) | 用于预测量化有声语音的方法和设备 | |
RU2418323C2 (ru) | Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом | |
CN103038821B (zh) | 用于谐波信号的译码的系统、方法、设备 | |
CN101496100B (zh) | 用于对无效帧进行宽带编码和解码的系统、方法和设备 | |
CN101080767B (zh) | 用于低比特率语音编码的方法和装置 | |
CN101322182B (zh) | 用于检测音调分量的系统、方法和设备 | |
CN102150205B (zh) | 用于编码和解码统合的语音与音频的设备 | |
CN101523484A (zh) | 用于帧擦除恢复的系统、方法和设备 | |
WO2000038179A2 (en) | Variable rate speech coding | |
CN103620675A (zh) | 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置 | |
CN101622666B (zh) | 非因果后置滤波器 | |
CN1212607C (zh) | 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器 | |
CN104040626A (zh) | 多译码模式信号分类 | |
US6397175B1 (en) | Method and apparatus for subsampling phase spectrum information | |
CN101208741B (zh) | 一种适用于数字信号短时相关性模型之间的互用性的方法 | |
JP4857468B2 (ja) | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 | |
JP5798257B2 (ja) | 信号の複合符号化のための装置および方法 | |
CN101606193A (zh) | 音频编码和解码装置和方法 | |
CN101573752B (zh) | 用于将与第一位速率相关联的第一包弱化成与第二位速率相关联的第二包的系统和方法 | |
KR100875783B1 (ko) | 데이터 처리 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130814 Termination date: 20211008 |
|
CF01 | Termination of patent right due to non-payment of annual fee |