CN101573751B - 一种合成用连续的采样块表示的数字音频信号的方法和装置 - Google Patents

一种合成用连续的采样块表示的数字音频信号的方法和装置 Download PDF

Info

Publication number
CN101573751B
CN101573751B CN2007800458535A CN200780045853A CN101573751B CN 101573751 B CN101573751 B CN 101573751B CN 2007800458535 A CN2007800458535 A CN 2007800458535A CN 200780045853 A CN200780045853 A CN 200780045853A CN 101573751 B CN101573751 B CN 101573751B
Authority
CN
China
Prior art keywords
sampling
signal
grouping
inverted
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800458535A
Other languages
English (en)
Other versions
CN101573751A (zh
Inventor
大卫·维赫特
巴拉兹·科维斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101573751A publication Critical patent/CN101573751A/zh
Application granted granted Critical
Publication of CN101573751B publication Critical patent/CN101573751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了对于由连续的块组成的信号的合成方法及装置。具体而言,当接收到这样一种信号时,通过合成而取代信号中的丢失或错误块。为此目的,本发明提出了对于在信号合成过程中产生的过浊音度进行衰减的方法。更具体地,通过在该音调周期的持续时间内选择性地增加或减少一个采样进行矫正(根据采样的数目),通过构建包括至少两个样本的分组(A’,B’,C’,D’),以及对分组内的采样的位置进行随机地或强制地方式倒置,从而产生一种基于在在先块中被预估或被传送的音调周期(T)的一浊音激励。由此,在所产生的激励中破坏过谐波,并在所产生的信号的合成过程中的过浊音度作用也因此得以衰减。

Description

一种合成用连续的采样块表示的数字音频信号的方法和装置
本发明涉及数字音频信号的处理,例如在通信中的语音信号,尤其涉及此类信号的解码。 
简要回顾现有技术中,语音信号可以通过使用在短视窗(例如10-20ms)上评估的参数,从其最近的轨迹(例如在8KHz速率下从8-12个采样)来预测。这些代表了声道转移功能(例如发音协调性)的短时(short-term)预测参数,可以通过线性预测编码(LPC)方法获得。长时(long-term)相关性也被用于确定语音(例如元音)的周期,该语音源于声带振动产生的浊音(voiced sounds)。这涉及到至少确定浊音信号的基频(fundamental frequency),该基频因人而异,其范围从60HZ(低音)到600HZ(高音)不等。然后,一种长时预测(LTP)分析方法被用于确定一种长时预测器(predictor)的LTP参数,特别是基频的倒数,通常被称为“音调周期(pitch period)”。接着,在一个音调周期内的采样的数目根据Fe/F0的比值关系(或它的整数部分)得以确定: 
-Fe表示采样速率, 
-F0表示基频。 
从上述回顾中可知,包括音调周期在内的长时预测LTP参数,代表了语音信号的基本抖动情况(当它是浊音时),而短时预测LPC参数则代表了信号的频谱包络。 
产生于语音编码中的LPC和LTP参数的集合,通过一个或多个通信网络,被分块发送到相应的解码器,从而使得原始的语音可以被重构。 
在此类分块信号的通信构架中,可能发生一个或多个连续分块被 丢失的情况。术语“块”意味着信号数据的一个序列,例如,可以是移动无线通信中的一个帧(frame),或者是通过英特网协议(IP)或者其他协议进行通信的一个包(packet)。 
以移动无线通信为例,大多数预测分析编码技术,尤其是“代码激励线性预测”(CELP,code excited linear predictive)类型的编码,都提出了恢复被擦除帧的解决方案。例如,通过发送产生于信道解码器的一个帧的擦除信息,解码器可获知一个擦除帧的发生。恢复擦除帧的目标是,从一个或多个被认为是有效的帧中,推断擦除帧的参数。被预测性解码器操作或编码的某些参数在帧间具有高度相关性。典型地,这涉及到长时预测LTP参数,例如,对于浊音而言,以及短时预测LPC参数。由于这种相关性,重用最后一个有效帧的参数来合成擦除帧,相比较于使用随机甚至错误的参数,具备更多优点。 
在标准模式下,为了产生CELP激励,擦除帧的参数可按照如下步骤获得: 
首先,通过简单的参数复制,或者也可以通过引入一定的衰减(参见G723.1标准编码器中使用的技术),从最后一个有效帧的LPC参数中获得将被重建的帧的LPC参数。然后,在语音信号中检测一浊音或非浊音(non-voicing),以确定在擦除帧处的信号的谐度(a degreeof harmonicity)。 
如果信号是非浊(non-voiced)的,则可以随机产生一个激励信号(通过从前次激励(past excitation)中产生一个代码字(code word),通过对前次激励的增益的小幅衰减,通过在前次激励中随机选择,或者通过使用可能完全错误的下一步被传输的代码(code))。 
如果信号是浊(voiced)的,则音调周期(也被称为“LTP延迟”,“LTP delay”)一般根据在先帧来计算,可选地伴有微小的“抖动(jitter)”(对于连续的误帧(error frames),增加LTP延迟的值,LTP增益可以取非常接近于1或等于1)。由此,激励信号被限制于从前次激励获得的长时预测。 
在解码时,擦除帧的隐藏方法通常与解码器的结构有非常密切的关系,并且,其与该解码器的模块一致,例如信号合成模块。这类方法也使用了在解码器中可获取的中间信号,例如,在擦除帧之前的有效帧的处理过程中被保存的在先激励信号。 
某些技术被用于隐藏由数据传送过程中丢失的包(packet)而产生的错误,这些数据根据一种时间类型编码规则(a time-type coding)进行编码,这些编码常常依赖于波形迭代技术(waveform substitutiontechniques)。此种技术致力于通过选择在丢失周期之前的部分被解码的信号来重构信号,并且不采用合成模型。平滑技术(smoothingtechnique)也被用于防止由不同信号的串联而产生的伪差(artefacts)。 
对于针对通过变换编码方式进行编码的信号进行操作的解码器,重构擦除帧的技术一般依赖于被使用的编码结构。某些技术用于从擦除前的系数所得到的值中,重新产生已丢失的变换系数(transformedcoefficient)。 
其它用于隐藏擦除帧的技术与信道编码技术进行了交错发展。它们利用了由信道解码器提供的信息,例如,与所接收到的参数的可靠程度相关的信息。这里需要指出的是,相反地,本发明的主题并不以信道编码器的存在为前提。 
在Combescure等人的文章: 
“A 16.24.32kbit/s Wideband Speech Codec Based on A TCELP”,P.Combescure,J.Schnitzler,K.Ficher,R.Kirchherr,C.Lamblin,A.LeGuyader,D.Massaloux,C.Quinquis,J.Stegmann,P.Vary,ICASSP(1998)Conference Proceedings(一种基于ATCELP的16.24.36kbit/s宽带语音编解码器,P.Combescure等,ICASSP(1998)会议录)中,提出了使用一种关于应用擦除帧隐藏方法,其相当于在CELP编码器中为了变换编码所应用的方法。 
该方法的缺点在于引入了声谱失真(audible spectral distortion)(“合成”语声,多余共鸣等)。这些缺点具体是由于使用了控制较差的长时合成滤波器(浊音中的单个谐波分量(single harmonic component),以及部分使用了非浊音中的在先残余信号)。此外,此处的激励信号水平中采用了能量控制,以及该信号的能量目标在整个擦除期间被保持为常量,也导致了棘手的音频伪差(audibleartefacts)。 
在第FR-2.813.722号专利中,提出了一种隐藏擦除帧的技术,在更高错误率(higher error rates)和/或更长的擦除间隔时,它不会产生更严重的失真。该技术的目的在于避免浊音的剩余周期,以及增强对于产生非浊音激励的控制。为了达到这个目的,激励信号(如果是浊音)被认为是两个信号的和: 
-一高谐波分量,其频带(band)被限制在整个频谱的低频端,以及 
-其它被限制于较高的频率的谐波分量(less harmoniccomponent)。 
高谐波分量通过LTP滤波获得。第二个分量也通过非周期性的LTP滤波获得,通过随机修正其基本周期实现。 
至今在CELP编码中使用的错误的隐藏技术的主要问题在于,当多个连续帧丢失时,由于在多个帧上相同的音调周期的重复,浊音激励的产生可能导致一种过浊音度效果(overvoicing effect)。 
本发明提供了一种对于上述情况的改进方案。 
为了达到这个目的,本发明提出了一种合成数字音频信号的方法,该数字音频信号用采样的连续分块表示,当接收到该信号时,为了取代至少一个无效块,从该无效块之前的至少一个有效块的采样中产生一个取代块。 
根据本发明的方法包括以下步骤: 
a)在所述无效块之前的至少一个最后的有效块中,选择一既定数的采样以形成一个序列, 
b)将所述的采样序列分段为采样分组(A,B,C,D),并且,在所述采样分组的至少一部分内,根据预定规则倒置这些采样, 
c)重新连接这些分组,形成(A’,B’,C’,D’),为了形成所述取代块的至少一部分(T”),其中的一些采样至少已经在步骤b)中进行了倒置, 
d)如果在步骤c)中获得的所述部分没有填满整个所述取代块,则复制所述部分(T”)到所述取代块中,并且对于所述被复制部分再次执行步骤a),b),c)。 
倒置采样的目的是,“破坏”如果采用简单复制音调周期的方式时出现的过谐波(over-harmonicity)现象,而倒置采样可以由一种非常简单的采样处理组成,其在计算和处理方式方面具备低开销的特点。 
因此,本发明在所提供的很多优点中,它的实现仅需要很低的计算开销。 
有利地,本发明可应用于数字音频信号是一个浊音语音信号的情况,更具体地,可应用于由于简单地复制音调周期而导致的弱浊音的情况。这样,利用这一优点,可以在语音信号中检测浊音度,当该语音信号至少是弱浊音时,执行步骤a)至d)。 
有利地,本发明还利用数字音频信号的基频来构建步骤b)中的分组。从而,优选地,在步骤a)中: 
a1)在所述数字音频信号(56)中检测一个音调, 
a2)在步骤a)中被选择的所述样本的所述既定数,与包括在一个周期(T)内的采样的数目相对应,所述周期对应于被检测的所述音调的基频的倒数。 
当然,在语音信号的情况下,步骤a1)可以包括浊音的检测,以及当语音信号是浊音时,步骤a2)也可以包括选择延伸在整个音调周期(语音语调的基频的倒置)内的一定数量的采样。但是,以下将揭示上述步骤对于除了语音信号之外的其他信号也是适用的,特别是音乐信号,如果一个完整音乐音调的特定基频可以被检测到的话。 
在一个实施例中,步骤b)中的分段通过包括两个采样的分组来实现,其中每个分组中的采样的位置进行相互倒置。 
然而,在这个实施例中,区分音调周期(或者更一般的基频的倒置周期)包括偶数还是奇数个采样的情况是合适的。具体而言,如果检测到的音调周期包括的采样的个数是偶数,则为了完成步骤a)中的选择,一奇数数目的采样(优选地,是一个采样)将被添加到所述周期的采样中,或者从所述周期的采样中减去。 
明确“预先确定的倒置规则”的涵义也是合适的。这些可以根据被接收到的信号的特征进行选择的规则,具体地,会影响在步骤b)中每个分组中的采样的数量,以及在每个分组中进行采样倒置的方式。在上述实施例中,提供了包括两个采样的分组,以及一个分组中的两个采样的各自位置的简单倒置。然而,其它构成配置也是有可能的(包括由多于两个采样构成的分组以及这种分组中的所有采样的排列方式)。此外,倒置规则也可以设定将进行倒置的分组的数目。另一个特殊的实施例包括,要求在对每个分组中的采样进行倒置时进行随机判断,并且设定一个可能性门限值(probability threshold)用于确定是否倒置分组中的采样。该可能性门限值可以是一个固定值,也可以是一个可变值,并且,有利地,该可能性门限值依赖于一个与音调周期有关的相关函数(correlation function)。在这种情况下,正式确定音调周期本身已不再必要。而且,更一般地,如果接收到的有效信号是简单的非浊音信号,也可以执行根据本发明所述的方法,在这种情况下,并没有实际的可检测的音调周期。此时,可以设置一给定的采样的任意数目(例如两百个采样),并且根据这个采样数执行根据本发明所述的方法。也可以通过将搜索限制在一个值的区间(例如在MAX_PITCH/2与MAX_PITCH之间,此时MAX_PITCH是音调搜索周期的最大值),取相关函数的最大值。 
这样,本发明提出了衰减过浊音度的方法,并具备以下优点: 
-在一个块的丢失期间合成的话音,实际上不再出现过谐波或者过浊音度现象;以及 
-产生一个浊音激励所需要的复杂度是非常低的,这在后面的实施例的详细阐述中会更变得更清楚。 
此外,本发明的更多优点和特点将通过下面实施例的详尽描述而更加明晰,本发明的附图说明为: 
图1示出了激励产生的基本原理,通过在整个音调周期内,在包括两个采样的块上进行采样随机倒置,从而使过浊音度作用得以衰减,在所示的例子中,有50%的可能性进行倒置; 
图2示出了激励产生的基本原理,通过在整个音调周期内,在本例给出的包括两个采样的块上,系统地进行采样倒置; 
图3a示出了将图2中的系统倒置应用在一个信号上,该信号已经被估计的音调周期包括奇数个采样; 
图3b纯粹地图示了将图2中的系统倒置应用在一个信号上,该信号已经被估计的音调周期包括偶数个采样; 
图3c示出了图2中的系统倒置的应用,这里通过在相应的音调周期持续时间内增加一个采样进行矫正,使得在该持续时间内包括奇数个采样; 
图4示出了本发明所述的方法在解码时的基本步骤; 
图5示出了一个用于接收数字音频信号的装置的结构,包括一个执行本发明所述方法的合成装置。 
首先,参考图4给出了实施本发明的背景。一旦在解码时收到一个输入信号Si,一个或一个以上的连续的块的丢失被检测到(测试50,test50)。如果没有检测到块的丢失(测试50输出到箭头Y),当然就不会出现问题,图4的处理可以结束。 
另一方面,如果一个或一个以上的块的丢失被检测到(测试50输出到箭头N),然后就要检测信号的浊音度(测试51,test 51)。 
如果信号是非浊音(测试51输出到箭头N),丢失块将被取代,例如,被一个语音白噪音、叫作“舒适噪音”(comfort noise)52所取代,因此被重建的块的采样的增益(gain)61也被调整。例如,对于重建信号So的能量进行控制,可以通过演进规则(evolution law) 的调整,和/或使得模型的参数根据一个剩余信号(rest signal),例如舒适噪音52,而改变。 
在本发明的一个变化例中,只考虑两类信号,一方面是浊音信号,另一方面是弱浊音或者非浊音信号。这一变化例的优点是,非浊音信号的产生将与弱浊音信号的合成相同。正如之前所述,非浊音信号所使用的“音调周期”是一个随机值,优选地,取一个很大的值(例如,两百个采样)。在非浊音块中,在先信号是非谐波(non-harmonic)的;通过在本发明所述方法的步骤中采用足够大的周期,可以保证由此产生的信号保持为非谐波。信号的本质可以被有利地保持,这在使用随机产生的信号(例如白噪声)时是无法保证的。 
如果信号是高浊音度(测试51输出到箭头Y),则丢失块将通过复制音调周期T而被取代。这样在被接收信号Si的仍然有效的上一部分中识别出的音调周期T被确定(使用任何本身可以是已知的技术53)。然后这一音调周期T的采样被复制到丢失块中(参见54)。接着,一个合适的增益61被应用到因此被取代的采样中(以实现例如一种衰减或者“衰退”(fading))。 
在所描述的实施例中,如果信号是平均浊音(averagely voiced)(或者以一种不太复杂而更普遍的变化形式,如果信号是简单浊音(simply voiced)),则可以采用根据本发明所述的方法(根据浊音度,测试51输出到箭头A)。 
参考图1和图2,本发明的原理包括,将接收到的最后的有效块的采样集合为包括至少两个采样的分组。在图1和图2的示例中,这些采样已经有效地以两个采样为一个分组。当然它们也可以被划分为包括多于两个采样的分组,在这种情况下,将会进一步考虑对分组中的采样进行倒置的规则,以及考虑一个音调周期中的采样个数的奇偶性,这将在下文详述。 
具体参考图2,在被接收到的最后的有效块中,包括两个采样的分组A、B、C、D,最后接收的有效块中的两个采样被复制,并与最后接收到的采样相连接。然而,在这些标识为A’,B’,C’,D’的被复制 的分组中,每个分组中的两个采样的值已被倒置(或者它们的值被保留,以及它们各自的位置被倒置)。因而,分组A成为分组A’,它的两个采样与分组A相比进行了倒置(根据图2中示出的分组A’的两个箭头)。分组B成为分组B’,它的两个采样与分组B相比进行了倒置,以此类推。有利地,根据音调周期T,进行分组A’,B’,C’,D’的复制和连接。这样,由分组A的采样倒置组成的分组A’,与分组A之间间隔着和音调周期T的期间内相对应的采样个数的采样。相似地,分组B’与分组B之间也间隔着音调周期T的期间内相对应的采样个数的采样,以此类推。 
在图2中,通过分组进行采样倒置是系统性的。作为对于图1所示的变型,这一倒置的发生可以是随机的。甚至还可以设定一个可能性门限值p用于表示是否对一个分组中的采样进行倒置。在图1所示的例子中,门限值p被设定为50%,使得四个分组中只有两个分组B’、C’的采样被倒置。还可以设置该可能性门限值p是可变的,具体而言,使之依赖于一个与音调周期T相关的相关函数,这在下文中将进行阐述。 
回到图2所示的实施例的描述,其中对分组的采样进行系统性地倒置,参照附图3a,获得一个新的采样序列T’,其具备一个与音调周期T相应的持续时间,但采样的倒置是成对进行的。图3a示出了在接收到的信号Si中的最后的有效块的最后采样,以及这些采用被存储在解码器中。在此情况下,该倒置是系统性的,并不和一被估计的相关性进行随机倒置,浊音信号的音调周期T已经被确定(通过一种本身已知的方法),并且在信号Si中,延伸在音调周期的持续时间内的最后的采样10、11等直到22,也已经被收集。标记为So的被重构的信号中最先的两个采样10和11被倒置。第三和第四个采样12和13也被倒置,以此类推。一个序列T’从采样11、10、13、12等中获得,该序列在和音调周期相同的持续时间内延伸。如果在多个音调周期内延伸的多个块在解码时丢失,信号So的重构将通过获得序列T’而继续,并在那里重新开始对于序列T’的采样的成对倒置, 以获得一个新的序列T”,以此类推。 
在图3a的情况下,每个周期T、T’、T”内的采样的数目等于一个奇数(在所示的实施例中为13个采样),从而当信号So的重构进行时,使获得一个累进的采样混合,以及一种过谐波(或者,换言之,重构信号的过浊音度)的有效衰减,成为可能。 
另一方面,在图3b所示的情况下,其中每个周期T,T’,T”内的采样个数是偶数(在所示的实施例中为12个采样),通过对音调周期T内的采样进行的成对倒置执行两次(从周期T到周期T’,然后从周期T’到周期T”),则如同音调周期T在序列T”中,完全相同的序列得以建立,然后产生一个过谐波。 
这一问题可以通过修改每个分组中被倒置的采样的个数来克服(例如,给每个分组取奇数个采样)。 
然而,图3c示出了一个优选的实施例。当音调周期包括偶数个采样,以及在每个分组中被倒置包括每个分组的偶数个采样时,该实施例简单地包括,在被重构的信号的音调周期内加入奇数个采样。在图3c中,最后检测到的音调周期T包括12个采样31、32直到42。然后一个采样被加到音调周期内,从而获得由奇数个采样组成的周期T+1。这样,在图3c的示例中,采样30成为存储器中的第一个采样,从该采样开始进行如图2(或者图3a)所示的采样的成对倒置。获取重构信号So的周期T’,其包括奇数个采样,为了得到周期T”对这些采样再次执行采样的成对倒置,并再次包括奇数个采样,以此类推。然后将发现周期T”的采样序列33、30、35、32、34等,将与最初的音调周期T的采样序列30、31、32、33等,非常不同。 
再来参考附图4,其是对于图2,3a,3c所示的实施例的具体实现,当信号Si是平均浊音时(测试51输出到箭头A),音调周期T根据有效收到的信号Si的最后采样确定(通过本身已知的技术56)。再执行检测音调周期T内的采样个数是奇数还是偶数。如果是奇数(测试57输出到箭头N),则直接进行采样的成对倒置(步骤58),参考上述图3a中所描述的。如果音调周期T内的采样个数是偶数(测 试57输出到箭头Y),那么一个采样将被加到音调周期T内(步骤59),然后进行采样的成对倒置(步骤58),参考上述图3c中所描述的。然后,可选择性地,选定一增益61被应用到已获得的采样序列中,以形成最终的被重构的信号So。 
正如之前如图4所示的,首先从一个或多个在先帧中计算出音调周期。接着,通过系统性地倒置,运用如图2所示的方式,一个减小的谐波激励被产生。然而,在图1所示的实施例的一个变型中,该谐波激励也可以通过随机倒置而产生。这种对于浊音激励采样的不规则倒置,有利地,使得对于过谐波的衰减成为可能。这一优选实施例将在下面详细阐述。 
通常,在一个音调周期的简单复制中,浊音激励是根据此类公式进行计算的: 
s(n)=gltp.s(n-T)    (1) 
其中T表示被估计的音调周期,gltp是一个选定的LTP增益。 
在本发明的一个实施例中,浊音激励是按照如下处理方式、按照包括两个采样的每个分组以及使用随机倒置进行计算的。 
首先,在间隔[0;1]内产生一个随机数(random number)x,然后,根据x的值: 
·如果x<p,则s(n)和s(n+1)根据示公式(1)进行计算; 
·如果x≥p,则s(n)和s(n+1)根据以下的公式(2)和(3)进行计算: 
s(n)=gltp.s(n-T+1)   (2) 
s(n+1)=gltp.s(n-T)   (3) 
其中,p表示倒置两个采样s(n)和s(n+1)的可能性。 
例如,p的值可以被设置为p=50%。 
在一个优选的变化实施例中,也可以选择一个可变的可能性值,例如以下形式: 
p=corr    (4) 
其中,可变值corr与音调周期上的相关函数的最大值相应,标记 为Corr(T)。在一个音调周期T,相关函数Corr(T)使用被存储的信号的结尾处的仅仅2*Tm个采样进行计算,并且: 
Corr ( T ) = 2 Σ i = Lmem - 2 T m + T Lmem - 1 m i m i - T Σ i = Lmem - 2 T m Lmem - 1 m i 2 + Σ i = Lmem - 2 T m + T Lmem - 1 - T m i 2 - - - ( 5 )
其中m0...mLmem-1是在先被解码的信号中的最后的采样,且仍然可从解码器的存储器中获取。 
从这个公式可以理解出,这个存储器的长度Lmem(用被存储的采样的个数计算)必须等于音调周期的持续时间(用采样的个数计算)的最大值的至少两倍。为了考虑频率最低的声音(要求最低基频为50HZ),对于低窄带采样速率而言,被存储的采样数可以达到300的数量,而对于更高的采样速率,被存储的采样数则要大于300。 
当可变量T对应于音调周期T0时,公式(5)给出的相关函数Corr(T)达到一个最大值,并且该最大值表征了浊音度。典型地,如果该最大值非常接近于1,则信号是高浊音度的。如果它接近于0,信号则是非浊音的。 
因此可以理解,在本实施例中,对于构造要被倒置的采样的分组,并不需要预先确定音调周期。具体而言,在本发明所述的方法中,通过应用上述公式(5),音调周期T0的确定可以与分组的构建共同进行。 
如果信号是高浊音度的,则可能性p的值将会非常高,依照公式(1)进行计算,浊音度将会被保持。另一方面,如果信号Si的浊音不是特别明显,则可能性值p会较低,优选地,可以应用公式(2)和(3)。 
当然,也可以使用其它的相关性计算。 
例如,根据预定的分类,计算谐波激励也是可能的。对于高浊音度的分类,优选使用公式(1)。对于平均或弱浊音度的分类,则优 选使用公式(2)和(3)。对于非浊音的分类,则不产生谐波激励,然后激励可以从白噪声中产生。然而,在先前描述的变化实施例中,当具有足够大的任意音调周期时,也可以使用公式(2)和(3)。 
更一般地,本发明并不局限于上述描述的举例式的实施例,它也可以扩展到其它的变化实施例。 
在上述详述的本发明的实施例的上下文中,在编码中通过CELP预先合成的激励产生,其目的是为了防止在帧传送的错误隐藏中的过浊音度。尽管如此,对于带宽扩展,本领域技术人员仍然可以想到适用本发明的原理。在一个带宽扩展的系统(有或者没有数据发送)中,基于CELP(或者子频带CELP)类型的模型,也可以利用扩展带宽激励的产生。高带(High-band)激励可以按照如前所述进行计算,从而使得限制该激励的过谐波成为可能。 
此外,本发明的应用还特别适合于通过网络以帧或包的形式发送信号的情形,例如“基于因特网协议的语音(VOIP,voice over internetprotocol)”,当包丢失时,以提供可接受的基于IP的话音质量,同时仍能保证有限度的复杂性。 
当然,采样的倒置可以在多于两个采样的分组上实现。 
而且,从一个无效块之前的有效块的采样中该无效块产生取代块的过程已经在前文进行了阐述。作为变型,为了实现对于无效块的合成,依靠一个无效块之后的有效块作为代替也是可能的(一种后验合成,a posteriori synthesis)。这种实现方式是有利的,特别是对于合成多个连续无效块的情形,以及对于合成: 
-从一些在先有效块中合成的无效块紧跟在这些在先的有效块之后; 
-从一些在后有效块中合成的无效块紧靠在这些在后的有效块之前。 
本发明还包括了可以存储在数字音频信号分析装置的存储器中的计算机程序。当该程序被这种分析装置的处理器执行时,该程序包括执行本发明所述的方法的指令。此外,前述的图4也示出了这种计 算机程序的一个流程图。 
此外,本发明还包括一种由块的序列组成的数字音频信号的合成装置。该装置进一步可以包括一个存储器,以存储上面提到的计算机程序。参考图5,该装置SYN包括: 
-一输入单元,用于在至少一个要被合成的当前块之前,接收信号(Si)的块, 
-一输出单元,用于传送合成信号(So),包括至少一个所述当前块。 
根据本发明所述的合成装置SYN包括,存储装置,如工作存储器MEM(或者用于存储上述计算机程序的存储器),以及一个与该存储器MEM相配合的处理器PROC,用于执行本发明所述的方法,并且由此从信号Si的至少一个在先块开始合成当前块。 
本发明还包括一个用于接收由块的序列构成数字音频信号的装置,例如一个这样的信号的解码器。再次参考图5,该装置可以进一步包括一个无效块检测器DET,以及根据本发明所述的装置SYN,以用于合成由检测器DET检测到的无效块。 

Claims (8)

1.一种合成用连续的采样块表示的数字音频信号的方法,当收到这样一个信号时,为了取代至少一个无效块,从所述无效块之前的至少一个有效块的采样中产生一个取代块,其特征在于,该方法包括以下步骤:
a)在所述无效块之前的至少一个最后的有效块中,选择一既定数的采样以形成一个采样序列,
b)将所述的采样序列分段为采样分组(A,B,C,D),并且,在所述采样分组的至少一部分内,根据预先确定的规则倒置这些采样,
c)重新连接这些分组,形成(A’,B’,C’,D’),为了形成所述取代块的至少一部分(T”),其中的一些采样至少已经在步骤b)中进行了倒置,
d)如果在步骤c)中获得的所述部分没有填满整个所述取代块,则复制所述部分(T”)到所述取代块中,并且对于所述被复制部分再次执行步骤a),b),c),
其特征还在于,步骤b)中的所述分段是通过包括两个采样的分组实现的,并且,每个分组(B’,C’)中的两个采样的位置互换以进行倒置。
2.根据权利要求1所述的方法,所述数字音频信号是一语音信号,其特征在于,在所述语音信号中检测浊音度(51),并且,当所述信号是弱浊音或者非浊音时,执行步骤a)到d)。
3.根据权利要求1所述的方法,其特征在于,为了执行步骤a):
a1)在所述数字音频信号中检测(56)一个音调,
a2)在步骤a)中的被选择的所述样本的所述既定数,与包括在一个周期(T)内的采样的数目相对应,所述周期对应于被检测的所述音调的基频的倒数。
4.根据权利要求3所述的方法,其特征在于,如果被检测的所述音调的周期(T)内包括的采样的数目是一个偶数,则为了完成步骤a)中的所述选择,一奇数数目的采样(30)将被添加到所述周期(T)的采样中,或者从所述周期(T)的采样中减去。
5.根据权利要求3所述的方法,其特征在于,所述预先确定的规则要求在对每个分组中的采样进行倒置时进行随机判断,并且设定一个可能性门限值(p)用于确定是否倒置分组中的采样。
6.根据权利要求3所述的方法,其特征在于,所述预先确定的规则要求在对每个分组中的采样进行倒置时进行随机判断,并且设定一个可能性门限值(p)用于确定是否倒置分组中的采样,
以及,所述的可能性门限值(p)是可变的,并且取决于一个和所述周期(T)有关的相关函数。
7.一种合成数字音频信号的装置,所述数字音频信号由一个块的序列组成,该装置包括:
-一输入单元,用于接收所述信号(Si)的在至少一个要被合成的当前块之前的块,
-一输出单元,用于传送被合成的信号(So),包括至少一个所述当前块,
其特征在于,该装置还包括用于执行根据权利要求1至6中任一项所述的方法的装置(MEM,PROC),用于从所述无效块之前的至少一个有效块开始合成所述当前块。
8.一种用于接收由一个块的序列组成的数字音频信号的装置,包括一个无效块的检测器(DET),其特征在于,该装置还包括一根据权利要求7所述的装置(SYN),用于合成无效块。
CN2007800458535A 2006-10-20 2007-10-17 一种合成用连续的采样块表示的数字音频信号的方法和装置 Active CN101573751B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0609225 2006-10-20
FR0609225 2006-10-20
PCT/FR2007/052188 WO2008047051A2 (fr) 2006-10-20 2007-10-17 Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information

Publications (2)

Publication Number Publication Date
CN101573751A CN101573751A (zh) 2009-11-04
CN101573751B true CN101573751B (zh) 2013-09-25

Family

ID=38011219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800458535A Active CN101573751B (zh) 2006-10-20 2007-10-17 一种合成用连续的采样块表示的数字音频信号的方法和装置

Country Status (11)

Country Link
US (1) US8417520B2 (zh)
EP (1) EP2080194B1 (zh)
JP (1) JP5289319B2 (zh)
KR (1) KR101409305B1 (zh)
CN (1) CN101573751B (zh)
AT (1) ATE536613T1 (zh)
BR (1) BRPI0718423B1 (zh)
ES (1) ES2378972T3 (zh)
MX (1) MX2009004212A (zh)
RU (1) RU2437170C2 (zh)
WO (1) WO2008047051A2 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL196146A (en) * 2008-12-23 2014-01-30 Elta Systems Ltd Signal transmission system and method back to the source of transmission
GB0920729D0 (en) * 2009-11-26 2010-01-13 Icera Inc Signal fading
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
AU2014283198B2 (en) * 2013-06-21 2016-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application
EP3285256B1 (en) * 2013-10-31 2019-06-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
SG10201609146YA (en) 2013-10-31 2016-12-29 Fraunhofer Ges Forschung Audio Decoder And Method For Providing A Decoded Audio Information Using An Error Concealment Modifying A Time Domain Excitation Signal
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021515A1 (fr) * 2000-09-05 2002-03-14 France Telecom Dissimulation d'erreurs de transmission dans un signal audio
EP1495548B1 (de) * 2002-04-29 2006-02-22 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Vorrichtung und verfahren zum verschleiern eines fehlers
WO2006079348A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for generating concealment frames in communication system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3374109D1 (en) * 1983-10-28 1987-11-19 Ibm Method of recovering lost information in a digital speech transmission system, and transmission system using said method
EP0712218B1 (en) * 1994-11-10 1999-07-14 Telefonaktiebolaget Lm Ericsson A method and an arrangement for sound reconstruction during erasures
GB2360178B (en) * 2000-03-06 2004-04-14 Mitel Corp Sub-packet insertion for packet loss compensation in Voice Over IP networks
EP1217613A1 (fr) * 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7711563B2 (en) * 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP4445328B2 (ja) * 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021515A1 (fr) * 2000-09-05 2002-03-14 France Telecom Dissimulation d'erreurs de transmission dans un signal audio
EP1495548B1 (de) * 2002-04-29 2006-02-22 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Vorrichtung und verfahren zum verschleiern eines fehlers
WO2006079348A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for generating concealment frames in communication system

Also Published As

Publication number Publication date
WO2008047051A2 (fr) 2008-04-24
EP2080194B1 (fr) 2011-12-07
CN101573751A (zh) 2009-11-04
RU2009118918A (ru) 2010-11-27
BRPI0718423B1 (pt) 2020-03-10
US20100324907A1 (en) 2010-12-23
JP2010507120A (ja) 2010-03-04
EP2080194A2 (fr) 2009-07-22
US8417520B2 (en) 2013-04-09
KR101409305B1 (ko) 2014-06-18
ES2378972T3 (es) 2012-04-19
RU2437170C2 (ru) 2011-12-20
KR20090090312A (ko) 2009-08-25
ATE536613T1 (de) 2011-12-15
BRPI0718423A2 (pt) 2013-11-12
MX2009004212A (es) 2009-07-02
JP5289319B2 (ja) 2013-09-11
WO2008047051A3 (fr) 2008-06-12

Similar Documents

Publication Publication Date Title
RU2496156C2 (ru) Маскирование ошибки передачи в цифровом аудиосигнале в иерархической структуре декодирования
CN101573751B (zh) 一种合成用连续的采样块表示的数字音频信号的方法和装置
RU2419891C2 (ru) Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
EP2026330B1 (en) Device and method for lost frame concealment
RU2432625C2 (ru) Синтез потерянных блоков цифрового аудиосигнала с коррекцией питч-периода
CN1873778B (zh) 解码语音信号的方法
EP1235203B1 (en) Method for concealing erased speech frames and decoder therefor
JP5062937B2 (ja) オーディオ信号における伝送エラーの抑止シミュレーション
JP5072835B2 (ja) 堅牢なデコーダ
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
US6826527B1 (en) Concealment of frame erasures and method
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
EP1103953A2 (en) Method for concealing erased speech frames
KR20100084632A (ko) 복잡성 분배를 이용하는 디지털 신호에서의 전송 에러 위장
Chibani Increasing the robustness of CELP speech codecs against packet losses.
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz
KR20080101594A (ko) 프레임 손실 은닉 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant