CN1408110A - 基于正弦模型的音频信号编码 - Google Patents

基于正弦模型的音频信号编码 Download PDF

Info

Publication number
CN1408110A
CN1408110A CN01805964A CN01805964A CN1408110A CN 1408110 A CN1408110 A CN 1408110A CN 01805964 A CN01805964 A CN 01805964A CN 01805964 A CN01805964 A CN 01805964A CN 1408110 A CN1408110 A CN 1408110A
Authority
CN
China
Prior art keywords
function
coding method
input signal
signal
norm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01805964A
Other languages
English (en)
Other versions
CN1216366C (zh
Inventor
R·霍伊斯登斯
R·瓦芬
W·B·克莱恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pendragon wireless limited liability company
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1408110A publication Critical patent/CN1408110A/zh
Application granted granted Critical
Publication of CN1216366C publication Critical patent/CN1216366C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明有关一种信号编码装置和方法。使用了一种用于正弦建模的综合分析算法。按时间划分一个要被建模的输入信号,生成多个帧。从词典中选出函数以生成包含在每个帧中的输入信号部分的近似。该选择是基于一个声学心理学范数执行的。在本方法的一个实例中,该函数词典由复指数组成,并且,它们被迭代地选出以构成包含在每个帧中的输入信号部分。在每次迭代之后,都根据在下一步骤中要建模的剩余信号的屏蔽阈值的改变,修改声学心理学范数。

Description

基于正弦模型的音频信号编码
本发明有关一个装置和一种方法,用于信号编码,特别是,但不仅仅是,有关一种用于编码音频信号的装置和方法。
正弦建模是一种已知的信号编码方法。一个要被编码的输入信号被划分为一些帧,对每个帧应用正弦建模技术。每个帧的正弦建模都包括寻找一组以幅值、频率、相位和阻尼系数为参数的正弦信号,表示包含在该帧中的输入信号部分。
正弦建模可以涉及挑选输入信号中的频谱峰值。或者,可以使用综合分析技术。一般,综合分析技术包括迭代地识别并消除输入帧中包含的最大能量的正弦信号。如果能识别出足够的正弦分量,执行综合分析的算法能生成输入信号的准确复现。
以上描述的综合分析的一个局限性是,具有最大能量的正弦分量可能并非感性上最有意义的。在执行正弦建模的目的是减小复现一个输入信号所需的信息量的情况下,按频谱分量的能量对输入信号建模可能比按频谱分量的感性意义对输入信号建模效率低。一种已知的将人类听觉系统的心理声学考虑在内的技术是加权匹配追踪。总的来说,匹配追踪是通过对从冗余词典中选出的元素进行有限扩充来近似一个输入信号的。利用加权匹配追踪方法,按照一个感性加权改变字典元素的比例。
为了更好地解释加权匹配追踪方法,以下描述一个通用的匹配追踪算法。该通用匹配追踪算法从一个Hilbert空间H中单位范数元素的一个完全词典中选择函数。若该词典包含元素gr并由D=(gr)r∈Г给出,则H是该词典元素的闭环线性跨度。x∈H域内的一个输入信号被投射到词典元素gr,并且,从输入信号x中减去与输入信号x最匹配的元素,形成一个剩余信号。将前一步的剩余信号作为新的输入信号,重复这一过程。将第m-1次迭代后的冗余记为Rm-1x,并将与Rm-1x最匹配的词典元素记为grm,第m次迭代的冗余按下式分解:
            Rm-1x=(Rm-1x,grm>grm+Rmx         (1)其中grm∈D | < R m - 1 x , g rm > | = sup r &Element; &Gamma; | < R m - 1 x , g r > | - - - ( 2 ) Rmx和grm的正交表明: | | R m - 1 x | | 2 = | < R m - 1 x , g rm > | 2 + | | R m x | | 2
在按人类听觉改变词典元素gr的比例时,该算法成为加权匹配追踪算法。
由于对词典元素加权会引入偏差,因此,当要被建模的信号包含词典元素之一时,加权匹配追踪算法可能没有选出正确的词典元素。并且,加权匹配追踪算法可能很难鉴别旁瓣峰值(在对输入信号开窗以将其划分为一些帧时引入)和被建模信号的实际分量。
本发明推荐实例的一个目的是提供一种方法,例如,基于综合分析的正弦建模,以便在近似包含在一个有限长度帧中的信号部分时,能改善词典元素的选择。为此,本发明提供了一种如附加权利要求所定义的信号编码方法,一种编码装置和一种发射装置。在相关权利要求中定义了有利的实例。
本发明的一个第一方面提供了:
(a)接收一个输入信号;
(b)按时间划分该输入信号,生成多个帧,每个帧都包含该输入信号的一部分;
(c)从一个函数词典中挑选函数以近似每个帧中的信号;其中,第(c)步的挑选过程是以一个范数为基础执行的,该范数的基础是一个组合,例如,表示为一个频率的函数的加权函数,和一个定义一组帧中每个帧的窗函数和要建模的输入信号部分的乘积,窗函数和要建模的输入信号部分的乘积可表示为一个频率的函数。该范数可定义为: | | Rx | | = &Integral; a &OverBar; ( f ) | ( wRx &OverBar; ) ( f ) | 2 df - - - ( 3 ) 其中Rx代表一个要建模的输入信号部分, a(f)代表被表示为一个频率函数的加权函数的傅利叶变换,( wRx)(f)代表一个窗函数w(定义一组帧中的每一个帧)和Rx(表示为一个频率的函数)的乘积的傅利叶变换。该范数最好结合人类听觉的心理声学知识以协助步骤(c)的选择过程。
人类听觉的心理声学知识最好通过函数 a(f)引入该范数中。 a(f)最好是基于人类音频系统的屏蔽阈值。 a(f)最好是该屏蔽阈值的倒数。
第(c)步的挑选过程最好是在多个子步骤中执行,在每个子步骤中从一个函数词典中识别一个单独的函数。
从该帧中的输入信号中减去在第一个子步骤中识别出的函数,生成一个剩余信号,并且,在随后的每一个子步骤中,都识别出一个函数并将其从剩余信号中减去生成下一个剩余信号。
在每个子步骤中识别出的函数被相加,生成每个帧中信号的近似。
该范数最好适应于第(c)步的挑选过程的每个子步骤。
在第(c)步的挑选过程的每个子步骤中,最好根据一个当前的剩余信号推导一个新的范数。 a(f)最好随着每个子步骤中剩余信号的改变而更新,以便将该剩余信号的屏蔽特性考虑在内。最好根据屏蔽阈值的已知模型例如在MPEG层3标准中定义的模型,通过计算更新 a(f)。在另一个实例中,函数 a(f)保持恒定,以消除在每次迭代时重新估算剩余信号的屏蔽特性所带来的计算量。函数 a(f)可根据输入信号的屏蔽阈值保持恒定,以确保收敛。输入信号的屏蔽阈值最好也是按照一个已知模型计算的,例如MPEG层3标准中定义的模型。
函数 a(f)最好是基于人类听觉系统的屏蔽阈值的,并且是被编码帧中一个输入信号部分的屏蔽阈值的逆,并且,是利用该屏蔽阈值的一个已知模型计算的。
该范数最好按内积推导: < x , y > = &Integral; 0 1 a &OverBar; ( f ) ( wx &OverBar; ) ( f ) ( wy &OverBar; ) * ( f ) df - - - ( 4 )
将第m次迭代的冗余1记为Rmx,并将前一次迭代的加权函数记为am-1,从函数词典中识别的函数使
Figure A0180596400072
最小,这里
Figure A0180596400073
代表利用 am-1计算的范数。
该音频编码方法的收敛性是由下面定理的有效性确保的,即,对于所有的m>0,存在一个λ>0,使 | | R m x | | a &OverBar; m &le; 2 - &lambda;m | | x | | a - 0 ,这里,x代表要被建模的输入信号的起始部分。
该音频编码方法的收敛性是由每个子步骤中每个帧内屏蔽阈值的增加或不变性确保的,因此,在整个频率范围f∈[0,1)内, am(f)≤ am-1(f)。
窗函数可以是一个Hanning窗。窗函数可以是一个Hamming窗。窗函数还可以是一个矩形窗。窗函数可以是任何合适的窗。
本发明包括按本方法工作的一个编码装置。
为了更好地理解本发明,并且为了描述怎样将本发明付诸实现,下面通过举例的方式并借助于附图描述本发明的推荐实例,其中:
图1示出了一个按本发明技术工作的编码装置的实例,
图2示出了按本发明一个实例的一个发射装置。
在以下每一种实例中,都描述了一个语音编码过程中的一个具体步骤,称为从一个函数词典中挑选函数,生成每个帧中信号的近似的步骤。该挑选步骤是所描述音频编码方法中关键的第三步骤(c),该方法还包括初始步骤:(a)接收一个输入信号;(b)按时间划分该输入信号,生成多个帧,每个帧都包含该输入信号的一部分。
上面提到的步骤(a)和步骤(b)对于许多信号编码方法来说都是通用的,因此本技术专业人员很容易理解,此处不必过多解释。
在以下描述的每一个实例中,选择步骤(c)包括:从一个函数词典中选择函数,生成每个帧中信号的近似,该选择步骤是在一个范数的基础上执行的,该范数被定义为 | | Rx | | = &Integral; a &OverBar; ( f ) | ( wRx &OverBar; ) ( f ) | 2 df - - - ( 3 ) ,其中,Rx代表要被建模的输入信号的一部分, a(f)代表一个加权函数的傅利叶变换,该加权函数被表示为一个频率的函数,( wRx)(f)代表w和Rx乘积的傅利叶变换,w是一个定义一组帧中每个帧的窗函数,Rx表示为一个频率的函数。
现在描述本发明的第一个实例。在该实例中,词典函数包含复指数,因此D=(gr)r∈Г,这里,对于r∈[0,1), g r = 1 N e i 2 &pi;rn , n = 0 , . . . , N - 1
为了找出在第m次迭代时的最匹配词典元素,要计算Rm-1x和每个词典元素的内积。在这一实例中,内积<Rm-1x,gr>的计算值由下式给出 < R m - 1 x , g r > = 1 N &Integral; 0 1 a &OverBar; m - 1 ( f ) ( wR m - 1 x &OverBar; ) ( f ) w &OverBar; * ( f - r ) df - - - ( 5 )
函数 a(f)中结合有将人类听觉的声学心理学知识,是因为该函数包含人类听觉系统的屏蔽阈值的逆,该值是根据前一次迭代的剩余信号,利用一个已知模型建模的。在前一次迭代中,屏蔽阈值是根据输入信号建模的。
随后,根据已知的前面已介绍过的公式(2)和按公式(1)计算的冗余值,计算最匹配的词典元素。
构造词典(例如本发明这一实例中介绍的)的使用能明显降低计算内积<Rm-1x,gr>的计算复杂性。在如本发明这一实例中所介绍的复指数词典的情况下,可利用傅利叶变换计算公式(5): < R m - 1 x , g r > = 1 N &Integral; 0 1 a &OverBar; m - 1 ( f ) ( wRx &OverBar; ) ( f ) w &OverBar; * ( f - r ) df = 1 N &Sigma; n &Element; Z ( &Integral; 0 1 a &OverBar; m - 1 ( f ) ( wR m - 1 x &OverBar; ) ( f ) e i 2 &pi;fn df ) w * ( n ) e - i 2 &pi;rn - - - ( 6 )
因此,要为所有的r计算<Rm-1x,gr>,就要计算wRm-1x的傅利叶变换,结果乘 a。随后,计算该乘积的逆傅利叶变换,结果乘w*,然后进行傅利叶变换。以这种方式,可以利用三次傅利叶变换操作计算公式(6)的结果。
一旦选定了这一迭代过程中的最匹配元素,就从剩余信号中减去该元素,减法操作的结果被作为下次迭代要建模的信号。以这种方式,可建立一个近似值,该值包含每次迭代过程中识别的词典元素的和。
取每个复指数函数之和的复共扼值,可生成一个实数值的正弦波信号。以这种方式,可建立一个实输入信号。该技术要求在每一步迭代中都找出一对词典元素(gr *,gr)。为了重构该实正弦波信号,还必须找出内积<gr *,gr>。这些内积并没有傅利叶变换方面的有效实现,但由于<gr *,gr>≈0的r值总是0或1/2,因此,可以避免计算r值的多数范围的内积。由于这个原因,计算最匹配组<gr *,gr>的复杂度与找出最匹配指数函数gr的复杂度是相同的。
第二个实例是基于上述第一个实例的,但与第一个实例不同的是,此处N非常大。在这种情况下, w(f)趋向一个Dirac delta函数并且公式 < R m - 1 x , g r > = 1 N &Integral; 0 1 a &OverBar; m - 1 ( f ) ( wR m - 1 x &OverBar; ) ( f ) w &OverBar; * ( f - r ) df - - - ( 5 ) 简化为 < R m - 1 x , g rm > = 1 N a &OverBar; m - 1 ( r ) ( R m - 1 x &OverBar; ) ( r ) - - - ( 7 )
匹配追踪算法挑选gr∈D,因此 | < R m - 1 x , g rm > | = 1 N sup r &Element; &Gamma; | a &OverBar; m - 1 ( r ) ( R m - 1 x &OverBar; ) ( r ) | - - - ( 8 )
在这一实例中,每次迭代获得的结果都使剩余信号的对数波谱和对数屏蔽阈值之间的绝对差值最大。
如果 am-1是第m次迭代中屏蔽阈值的倒数,则该过程挑选的复指数位于剩余信号波谱与屏蔽阈值的绝对差值最大的地方。在每次迭代中识别期望的词典元素都要求按照公式(2)计算内积,对于第一和第二实例来说,在存在大量词典元素时,这一过程在计算上就变得很密集。
本发明的第三个实例在接收和划分一个输入信号的步骤上与第一和第二实例相同。同样,从函数词典中识别出的一个函数被用于生成要在下一次迭代中建模的一个剩余信号,不过,在第三个实例中,函数 a(f)并不适应于每次迭代中剩余信号的屏蔽特性,而是不随迭代次数改变的。对于任何普通内积来说,公式(1)可被简化为
<Rmx,gr>=<Rm-1x,gr>-<Rm-1x,grm><grm,gr>          (9)
因此,若 a(f)不随迭代次数改变,利用由内积公式(4)推导出来的本发明的范数定义,每次迭代所需的额外的计算只是估算内积<grm,gr>。这些内积的值(称为每个词典元素与所有词典元素的内积)可预先计算并存储在存储器中。若在所有的频率上,函数 a(f)都保持为一,则该方法简化为已知的匹配追踪算法。不过, a(f)可采用任何通用形式。一个特别有利的方案是使 a(f)等于整个输入信号的屏蔽阈值的倒数。该方案按以上不等式收敛并且易于计算。
现在参照图1,此处概略示出了一个按本发明技术工作的编码装置的实例。
在图1中,示出了一个信号编码器10,在其输入端接收一个音频信号Ain,并在输出代码C之前,按照此处所描述的任何一种方法对其进行处理。编码器10利用一种匹配追踪算法估算正弦参数,其中,通过在一个信号空间上定义一个适应于心理声学的范数,来将人类听觉系统(举例来说)的心理声学属性考虑在内。
以上所描述的实例提供了信号编码方法,这些方法特别适用于语音或其它音频信号。按本发明实例的这些方法结合了人类听觉系统的心理声学知识(函数 a(f)是人类听觉系统屏蔽阈值的逆),并且,与其它已知方法相比,在被编码信号是有限周期信号时,不会明显增加计算复杂度。
图2示出了按本发明一个实例的发射装置1,该发射装置包含一个图1所示的编码装置10。该发射装置1还包括一个源11,用于获得输入信号Ain,该输入信号是,例如一个音频信号。源11可以是,例如一个麦克风,或一个接收单元/天线。输入信号Ain被提供给编码装置10,编码装置10对其进行编码以获得编码信号C。代码C被提供给输出单元12,输出单元12发射该代码C。输出单元12可以是一个多路复用器,调制器等。所发射的是一个基于代码C的输出信号[C]。输出信号[C]可以被发射给一个远方接收机,但也可以被发射给一个本地接收机或被发射到一个存储介质上。
尽管已描述了与音频编码有关的本发明的实例,但本技术专业人员可以理解,本发明方法可完全或部分用于其它信号编码应用中。
应指出,以上提到的实例例证本发明而非限制本发明,并且,本技术专业人员可以设计一些替换实例,这并不脱离附加权利要求的范围。在权利要求中,括号内的任何参考符号都不限定权利要求,“包含”一次并不排除出现权利要求所列出的元件和步骤之外的元件和步骤的可能性。本发明可通过包含若干分立元件的硬件实现,并可通过适当编程的计算机实现。在一个列举了若干元件的设备权利要求中,这些元件中的若干个都可由同一个硬件实现。一些方法是在互相不同的相关权利要求中描述的,这并不意味着这些方法不能组合使用。

Claims (19)

1.一种信号编码方法,该方法包含以下步骤:
(a)接收一个输入信号;
(b)按时间划分该输入信号,生成多个帧,每个帧都包含该输入信号的一部分;
(c)从一个函数词典中挑选函数,生成每个帧中信号的一个近似;其中挑选步骤(c)是在一个范数的基础上执行的,该范数基于一个组合,例如一个乘积,即,一个加权函数(表示为频率的函数)和一个乘积(定义多个帧中每个帧的窗函数和要被建模的输入信号部分的乘积)的乘积,窗函数和要被建模的输入信号部分的乘积被表示为一个频率的函数。
2.按权利要求1的一种信号编码方法,其中该范数定义为: | | Rx | | = &Integral; a &OverBar; ( f ) | ( wRx &OverBar; ) ( f ) | 2 df 其中,Rx代表一个要建模的输入信号部分, a(f)代表被表示为一个频率函数的加权函数,( wRx)(f)代表一个窗函数w(定义一组帧中的每一个帧)和Rx的乘积的变换,例如一个傅利叶变换。
3.按权利要求1或2的一种信号编码方法,其中加权函数中结合了人类听觉的声学心理学知识,以帮助步骤(c)的选择过程。
4.按权利要求3的一种信号编码方法,其中,人类听觉的声学心理学知识是通过函数 a(f)组合进范数中的。
5.按权利要求4的一种信号编码方法,其中, a(f)基于人类听觉系统的屏蔽阈值,并且是该屏蔽阈值的逆。
6.按权利要求5的一种信号编码方法,其中, a(f)是利用屏蔽模型的一个已知模型计算的。
7.按权利要求1到6中任一个的一种信号编码方法,其中挑选步骤(c)是在多个子步骤中进行的,在每个子步骤中从一个函数词典中识别一个单个的函数。
8.按权利要求7的一种信号编码方法,其中,从该帧中的输入信号中减去在第一子步骤中识别出的函数,生成一个剩余信号,并且在随后的每个子步骤中识别出一个函数并从该剩余信号中减去该函数,生成另一个剩余信号,在每个子步骤中识别出的函数之和形成每个帧中信号的近似。
9.按前面权利要求中任一个的信号编码方法,其中该范数适应于挑选步骤(c)的每个子步骤。
10.按权利要求9的信号编码方法,其中,在挑选步骤(c)的每个子步骤中,根据一个当前剩余信号推导一个新的范数, a(f)也要更新以将该剩余信号的屏蔽特性考虑在内。
11.按权利要求1或2的信号编码方法,其中,加权函数不随迭代次数改变。
12.按权利要求11的信号编码方法,其中,函数 a(f)是基于人类听觉系统的屏蔽阈值的,是被编码的一个帧中输入信号部分的屏蔽阈值的倒数,并且是利用该屏蔽阈值的一个已知模型计算的。
13.前面任一权利要求的方法,其中该范数是根据以下内积推导的: < x , y > = &Integral; 0 1 a &OverBar; ( f ) ( wx &OverBar; ) ( f ) ( wy &OverBar; ) * ( f ) df - - - ( 4 )
14.按权利要求13的音频编码方法,其中,将第m次迭代的剩余信号记为Rmx,将前一次迭代的加权函数记为 am-1,从函数词典中识别的函数使
Figure A0180596400032
最小,这里
Figure A0180596400033
代表利用 am-1计算出的范数。
15.按权利要求14的信号编码方法,其中,该音频编码方法的收敛性是由以下定理的有效性确保的,即:对于所有的m>0,存在一个λ>0,使 | | R m x | | a &OverBar; m &le; 2 - &lambda;m | | x | | a &OverBar; 0 ,这里,x代表要被建模的输入信号的起始部分。
16.按权利要求13的音频编码方法,其中,该音频编码方法的收敛性是这样确保的,在每个子步骤中增加或改变每个帧的屏蔽阈值,因此,在整个频率范围f∈[0,1)内, am(f)≤ am-1(f)。
17.按前面任一个权利要求的信号编码方法,其中,窗函数是下列函数中的任一个:一个Hamming窗,一个Hanning窗,一个矩形窗或任何合适的窗。
18.编码装置(10)按照前面任一权利要求中的方法工作。
19.一个发射装置(1)包括:
一个用于提供输入信号的源(11);
一个按权利要求18工作的编码装置(10),用于编码输入信号以获得一个编码信号,和
一个用于输出编码信号的输出装置。
CN018059643A 2000-11-03 2001-10-31 基于正弦模型的音频信号编码 Expired - Fee Related CN1216366C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP00203856.0 2000-11-03
EP00203856 2000-11-03
EP01201685.3 2001-05-08
EP01201685 2001-05-08

Publications (2)

Publication Number Publication Date
CN1408110A true CN1408110A (zh) 2003-04-02
CN1216366C CN1216366C (zh) 2005-08-24

Family

ID=26072835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN018059643A Expired - Fee Related CN1216366C (zh) 2000-11-03 2001-10-31 基于正弦模型的音频信号编码

Country Status (8)

Country Link
US (1) US7120587B2 (zh)
EP (1) EP1338001B1 (zh)
JP (1) JP2004513392A (zh)
KR (1) KR20020070373A (zh)
CN (1) CN1216366C (zh)
AT (1) ATE354850T1 (zh)
DE (1) DE60126811T2 (zh)
WO (1) WO2002037476A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1934619B (zh) * 2004-03-17 2010-05-26 皇家飞利浦电子股份有限公司 音频编码
CN101563848B (zh) * 2006-12-29 2013-02-13 三星电子株式会社 音频编码与解码装置及其方法
CN101606193B (zh) * 2007-02-12 2013-11-13 三星电子株式会社 音频编码和解码装置和方法
CN103021416B (zh) * 2011-09-26 2017-04-26 索尼公司 音频编码装置和方法、音频解码装置和方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7079986B2 (en) * 2003-12-31 2006-07-18 Sieracki Jeffrey M Greedy adaptive signature discrimination system and method
US8478539B2 (en) 2003-12-31 2013-07-02 Jeffrey M. Sieracki System and method for neurological activity signature determination, discrimination, and detection
US8271200B2 (en) * 2003-12-31 2012-09-18 Sieracki Jeffrey M System and method for acoustic signature extraction, detection, discrimination, and localization
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
KR101441898B1 (ko) 2008-02-01 2014-09-23 삼성전자주식회사 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치
US8805083B1 (en) 2010-03-21 2014-08-12 Jeffrey M. Sieracki System and method for discriminating constituents of image by complex spectral signature extraction
US9886945B1 (en) 2011-07-03 2018-02-06 Reality Analytics, Inc. System and method for taxonomically distinguishing sample data captured from biota sources
US9691395B1 (en) 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
US9558762B1 (en) 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
JPWO2018198454A1 (ja) * 2017-04-28 2019-06-27 ソニー株式会社 情報処理装置、および情報処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1934619B (zh) * 2004-03-17 2010-05-26 皇家飞利浦电子股份有限公司 音频编码
CN101563848B (zh) * 2006-12-29 2013-02-13 三星电子株式会社 音频编码与解码装置及其方法
US8725519B2 (en) 2006-12-29 2014-05-13 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method thereof
CN101606193B (zh) * 2007-02-12 2013-11-13 三星电子株式会社 音频编码和解码装置和方法
CN103021416B (zh) * 2011-09-26 2017-04-26 索尼公司 音频编码装置和方法、音频解码装置和方法

Also Published As

Publication number Publication date
US7120587B2 (en) 2006-10-10
EP1338001A1 (en) 2003-08-27
DE60126811T2 (de) 2007-12-06
JP2004513392A (ja) 2004-04-30
US20030009332A1 (en) 2003-01-09
CN1216366C (zh) 2005-08-24
KR20020070373A (ko) 2002-09-06
WO2002037476A1 (en) 2002-05-10
ATE354850T1 (de) 2007-03-15
DE60126811D1 (de) 2007-04-05
EP1338001B1 (en) 2007-02-21

Similar Documents

Publication Publication Date Title
US10609501B2 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
CN1408110A (zh) 基于正弦模型的音频信号编码
US7680656B2 (en) Multi-sensory speech enhancement using a speech-state model
US9037454B2 (en) Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT)
JP6574287B2 (ja) ピラミッドベクトル量子化器形状サーチ
TWI657434B (zh) 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置
US20080219466A1 (en) Low bit-rate universal audio coder
KR20070051857A (ko) 스케일러블 오디오 코딩
Goodwin The STFT, sinusoidal models, and speech modification
US20180358025A1 (en) Method and apparatus for audio object coding based on informed source separation
Nguyen et al. Fregrad: Lightweight and Fast Frequency-Aware Diffusion Vocoder
CN114333891B (zh) 一种语音处理方法、装置、电子设备和可读介质
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
RU2660633C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем разделения огибающей аудиосигнала с использованием квантования и кодирования распределения
US20070129939A1 (en) Method for scale-factor estimation in an audio encoder
RU2823441C9 (ru) Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
Vafin et al. Rate-distortion optimized quantization in multistage audio coding
Petrovsky et al. Audio coding with a masking threshold adapted wavelet packet based on run-time reconfigurable processor architecture
RU2823441C2 (ru) Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
Christensen et al. Amplitude modulated sinusoidal signal decomposition for audio coding
Chen Parametric speech coding using short-time amplitude spectrum
Zahedi et al. On Perceptual Audio Compression with Side Information at the Decoder
Pena et al. Realtime implementations of MPEG-2 and MPEG-4 natural audio coders
Scanio A Prony Speech Processing Technique

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IPG ELECTRONICS 503 CO., LTD.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20090828

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090828

Address after: British Channel Islands

Patentee after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

ASS Succession or assignment of patent right

Owner name: PENDRAGON WIRELESS CO., LTD.

Free format text: FORMER OWNER: IPG ELECTRONICS 503 LTD.

Effective date: 20130110

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130110

Address after: Washington State

Patentee after: Pendragon wireless limited liability company

Address before: British Channel Islands

Patentee before: Koninkl Philips Electronics NV

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050824

Termination date: 20141031

EXPY Termination of patent right or utility model