CN102334157B - 用以获得描述信号的信号特性变异的参数的装置与方法 - Google Patents
用以获得描述信号的信号特性变异的参数的装置与方法 Download PDFInfo
- Publication number
- CN102334157B CN102334157B CN201080008756.0A CN201080008756A CN102334157B CN 102334157 B CN102334157 B CN 102334157B CN 201080008756 A CN201080008756 A CN 201080008756A CN 102334157 B CN102334157 B CN 102334157B
- Authority
- CN
- China
- Prior art keywords
- parameter
- transform domain
- audio signals
- time
- variation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 106
- 230000005236 sound signal Effects 0.000 claims abstract description 157
- 230000035772 mutation Effects 0.000 claims description 94
- 230000008859 change Effects 0.000 claims description 34
- 238000001914 filtration Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 abstract description 22
- 230000006870 function Effects 0.000 description 21
- 238000010606 normalization Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000006641 stabilisation Effects 0.000 description 5
- 238000011105 stabilization Methods 0.000 description 5
- 238000012821 model calculation Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 241001417524 Pomacanthidae Species 0.000 description 1
- 241000282485 Vulpes vulpes Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Auxiliary Devices For Music (AREA)
- Stored Programmes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用以在描述变换域之该音讯信号的实际变换域参数的基础上,获得描述一信号的信号特性变异的一参数的一装置包含一参数判定器。该参数判定器受组配以依据表示一信号特性的一个或多个变换域参数,来判定描述该变换域参数的演进的一变换域变异模型的一个或多个模型参数。
Description
技术领域
本发明的实施例涉及用以在描述一变换域中的音讯信号的实际变换域参数的基础上,获得描述信号的信号特性变异(variation)的参数的装置、方法及电脑程式。
背景技术
根据本发明的较佳实施例涉及用以在描述一变换域中的音讯信号的实际变换域参数的基础上,获得描述音讯信号的信号特性时间变异的参数的一装置、一方法及一电脑程式。
根据本发明的其他实施例涉及信号变异估计。
尽管本发明的原始范围是对音讯信号的时间变异分析,但是同一方法可容易地适用于任何数字信号及变异,且此等信号的变异呈现在其任何轴上。此等信号及变异包括例如,诸如影像及电影的强度对比的特性空间及时间变异、诸如雷达及无线电信号之振幅及频率的特性调变(变异)、及诸如心电图信号的异质的特性变异。
在下面,将给出关于信号变异估计概念的一简单介绍。
传统的信号处理通常由假设局部稳定信号开始,且对于许多应用,这是一合理的假设。但是,要求诸如语音及音讯的信号是局部稳定拉伸的权利,事实上在一些情况下超过了可接受的水平。特性快速改变的信号会将失真引入难以由传统方式包含的分析结果中,且从而对于快速变化的信号需要特别定制的方法论。
例如,可能要考虑具有一变换式编码器的一语音信号的编码。此处,输入信号在视窗中予以分析,其内容转换为频谱域。当该信号是基频快速改变的一谐波信号时,相对应于该谐波的频谱峰值的位置随着时间改变。如果,例如,相比于基频的改变,分析视窗的长度相当长,则该频谱峰值会延伸至相邻的频率槽(bin)。换句话说,该频谱表示(representation)会模糊不清。此失真可能在上方频率处尤为严重,其中当基频改变时,频谱峰值的位置较快速地移动。
尽管存在能补偿该基频中诸如时间卷曲修正型余弦变换(TW-MDCT)(参见参考文献[8]及[3])的改变的方法,但是音高(pitch)变异估计仍然是一挑战。
在过去,音高变异已经通过测量该音高及使用时间导数来估计。然而,因为音高估计是一困难且通常不明确的任务,所以该音高变异估计值会由于错误而错乱。其中,音高估计遭受两种类型的共同错误(例如参见参考文献[2])。首先,当该谐波具有大于基频的能量时,估计器通常遭分散以明确该谐波实际上是该基频,藉此输出实际频率的整数倍。此等错误可作为该音高追踪中的不连续性而观察到,且在时间导数方面产生一极大错误。其次,大多数音高估计方法基本上依赖于根据一些启发,从该(等)自相关(或相似)域中所选取的峰值。特别是,在改变信号的情况下,这些峰值是广泛的(在顶部是平坦的),藉此该自相关估计值中的小错误也会显著地移动所估计的峰值位置。因而,该音高估计值是一不稳定的估计值。
如上所示,在信号处理中的一般方法是假设信号在短时间间隔中是恒定的,且以此间隔来估计特性。如果该信号实际上是时变的,那么假设该信号的时间演进相当慢,使得在短间隔中稳定性的假设是相当正确的,且在短间隔中的分析将不会产生显著的失真。
考虑上面内容,期望提供用以获得描述具有改良稳健性的信号特征的时间变异的参数的一概念。
发明内容
根据本发明的一实施例产生用以在描述一变换域中音讯信号的实际变换域参数的基础上,获得描述音讯信号的信号特性时间变异的参数的一装置。该装置包含一参数判定器,该参数判定器受组配以依据表示一信号特性的一个或多个参数,来判定描述变换域参数的时间演进的一变换域变异模型的一个或多个模型参数,使得一模型错误、在变换域参数的模型化时间演进与实际变换域参数的时间演进之间的偏差表示处于一预定临界值下,或予以最小化。
此实施例是基于以下发现:一音讯信号的典型时间变异产生该变换域中的一特征时间演进,其可以仅使用有限数量的模型参数予以良好的描述。不仅对于其中该特性时间演进由人类语音嗓音的典型解剖来判定的声音信号,这尤其正确,而且该假设在广泛范围的音讯及其他信号,如典型的音乐信号中仍然正确。
而且,一信号特性(例如音高、包络、音调、噪度等)的典型平滑时间演进可通过该变换域变异模型考虑。因此,一参数化变换域变异模型的使用可以甚至用以增强(或考虑)所估计信号特性的平滑性。因而,所估计信号特性或其导数的不连续性可予以避免。因此,通过选择该变换域变异模型,任何典型的限制都可作用于该等信号特性的模型化变异,例如一变异的限制比率、一值的限制范围等。而且,通过适当地选择变换域变异模型,谐波的影响可获得考虑,使得,例如,可以通过同时模型化一基频及其谐波的一时间演进,来获得改良的可靠性。
而且,通过使用该变换域中的一变异模型化,可以限制信号失真的影响。尽管某些类型的失真(例如一频率相关信号延迟)导致一信号波形的严重改变,但是此失真可能对一信号的变换域表示具有限制性的影响。因为自然地还期望精确估计存在失真的信号特性,所以该变换域的使用显示为一极好的选择。
综上所述,变换域变异模型的使用使典型音讯信号的信号特性能够在良好的精度及可靠性下予以判定,该变换域变异模型的参数适用于使该参数化变换域变异模型(或其输出)与描述输入音讯信号的实际变换域参数的实际时间演进相一致。
在一较佳实施例中,该装置可受组配以获得作为实际变换域参数的第一组变换域参数,所述第一组变换域参数描述用于预定的一组转换变量(在此还指定为“变换变量”)值的变换域中的音讯信号的第一时间间隔。类似地,该装置可受组配以获得描述用于预定的该组转换变量值的变换域中音讯信号的第二时间间隔的第二组变换域参数。在此种情况下,该参数判定器可受组配以使用包含一频率-变异(或音高-变异)参数且针对假设该音讯信号为平滑频率变异的转换变量,代表音讯信号的变换域表示的压缩或扩展的参数化变换域变异模型,获得一频率(或音高)变异模型参数。该参数判定器可受组配以判定该频率变异参数,使得该参数化变换域变异模型适用于该第一组变换域参数及该第二组变换域参数。通过使用此方式,一极有效的使用可以由可用于该变换域中的信息构成。已经得出的是,一音讯信号的变换域表示(例如一自相关域表示、一自协方差域表示、一傅利叶变换域表示、一离散型余弦变换域表示等)在基频或音高变化时,予以平滑地扩展或压缩。通过模型化该变换域表示的平滑压缩或扩展,该变换域表示的完全信息内容可予以使用,因为该变换域表示的多重取样(对于该转换变量的不同值)可相匹配。
在一较佳实施例中,该装置可受组配以获得作为实际变换域参数的、描述作为一变换变量函数的变换域中音讯信号的变换域参数。该变换域可以经过选择,使得音讯信号的频率变换至少产生有关变换变量的音讯信号的变换域表示的频率偏移,或有关变换变量的变换域表示的伸展,或有关变换变量的变换域表示的压缩。该参数判定器可受组配以在相对应(例如与该变换变量的相同值相关联)实际变换域参数的时间变异的基础上,获得一频率-变异模型参数(或音高-变异模型参数),考虑来自变换变量的音讯信号的变换域表示的依赖性。使用此方式,关于相对应实际变换域参数(例如用于相同自相关滞后、自协方差滞后或傅利叶变换频率bin的变换域参数)的时间变异的信息可分别地被评估以获得考虑转换变量的变换域表示的依赖性的信息。随后,经分别计算的信息可以相结合。因而,一特别有效的方式可用于,例如通过比较多对变换域参数及考虑变换域表示的变换参数依赖变量的经估计的局部梯度,来估计变换域表示的扩展或压缩。换句话说,变换域表示的局部坡度,依据变换参数及变换域表示的时间改变(例如,横跨随后视窗)而定,可以相结合以估计变换域表示的时间压缩或扩展的幅值,其结果是一时间频率变异或音高变异的测量。
其他较佳的实施例还定义于附属权利要求中。
根据本发明的另一实施例产生用以在描述变换域中的音讯信号的实际变换域参数的基础上,获得描述一音讯信号的信号特性时间变异的参数的方法。
又一实施例产生用以获得描述一音讯信号的信号特性时间变异的参数的电脑程式。
附图说明
图1a显示用以获得描述音讯信号之信号特性时间变异之参数的一装置的一方块示意图;
图1b显示用以获得描述音讯信号之信号特性时间变异之参数的一方法的一流程图;
图2显示根据本发明之一实施例,用以获得描述信号包络之时间变异之参数的一方法的一流程图;
图3a显示根据本发明之一实施例,用以获得描述一音高之时间变异之参数的一方法的一流程图;
图3b显示用以获得描述该音高之时间演进之参数的该方法的一简化流程图;
图4显示根据本发明之一实施例,用以获得描述一音高之时间变异之参数的另一改良方法的一流程图;
图5显示用以获得描述一自协方差域中音讯信号之信号特性时间变异之参数的一方法的一流程图;
图6显示根据本发明之该实施例,一音讯信号编码器的一方块示意图;以及
图7显示用以获得描述信号变异之参数的一般方法的一流程图。
具体实施方式
在下面,将大体上描述变异模型化的概念,以促进对本发明的理解。随后,一般实施例将根据本发明参照图1a及1b来描述。随后,较特定的实施例将参照图2至5来描述。最后,对于音讯信号编码的发明构思的应用将参照图6来描述,且将参照图7给出总结。
为了避免混淆,术语将如下使用:
其中用语“变异”是指描述特性在时间上改变的一组一般函数,及
空间)导数 作为按数学精确定义的一实体使用。
换句话说,“变异”是指信号特性(在抽象层面上),而“导数”在使用数学定义的任何时候用作,例如,自相关/自协方差的k(自相关滞后/自协方差滞后)或t(时间)导数。
任何其他改变的测量将以其他词来说明,而一般不使用名词“变化(variation)”。
而且,随后将针对音讯信号时间变异的估计,描述根据本发明的实施例。然而,本发明不仅限于音讯信号及时间变异。相反地,根据本发明的实施例可用以估计一般的信号变异,即使本发明目前主要用以估计音讯信号的时间变异。
变异模型化
关于变异模型化的一般概述
大体上来说,根据本发明的实施例使用变异模型来分析输入音讯信号。因而,该变异模型用以提供估计该变异的一方法。
变异模型化的假设
在下面,在常规信号特性估计与用于根据本发明实施例中的概念之间的一些不同将予以讨论。
然而传统的方法假设,信号(例如一音讯信号)的特性在短时间视窗中是恒定的(或稳定的),但是本发明的主要方法之一是假设(例如一信号特性(如一音高或一包络)的)(归一化)变化率在一短时间视窗中是恒定的。因而,尽管传统的方法在适度位准失真的情况下,也能够处理稳定信号、缓慢变化的信号,但是根据本发明的一些实施例在适度位准失真的情况下,可以处理稳定信号、线性变化信号(或呈指数变化的信号)、非线性变化率很慢的非线性改变信号。
如上所述,本发明的主要方式之一是假设(归一化)改变率在短视窗中是恒定的,但是所呈现的方法及概念可容易地扩展为较一般的情况。例如,归一化改变率、变异可由任何函数来模型化,且只要变异模型(或所述函数)具有小于数据点数量的参数,模型参数就可予以明确地解决。
在较佳实施例中,变异模型可描述例如一信号特性的平滑改变。例如,该模型可基于假设一信号特性(或其归一化变化率)遵循一基本函数的调节版本,或基本函数的调节结合(其中基本函数包含:xa;1/xa;;1/x;1/x2;ex;ax;ln(x);loga(x);sinh x;cosh x;tanh x;coth x;arsinh x;arcosh x;artanh x;arcoth x;sin x;cos x;tan x;cot x;sec x;csc x;arcsin x;arccos x;arctan x;arccot x;)。在一些实施例中,较佳的是描述该信号特性或该归一化变化率的时间演进的函数在重要范围内是稳定且平滑的。
不同域中的适用性
根据本发明的概念的主要应用领域之一是分析信号特性,其中改变的幅值,变异,比该特性的幅值更有用。例如,在音高方面,这意味着根据本发明实施例有关对音高改变而不是音高幅值较感兴趣的应用。
然而,如果在一应用中,人们对一信号特性的幅值而不是变化率较感兴趣,那么人们仍然可以受益于根据本发明的概念。例如,如果关于信号特性的先前信息是可用的,诸如变化率的有效范围,那么该信号变异可用作额外的信息,以获得信号特性正确且稳健的时间轮廓。例如,在音高方面,可能藉由常规的方法来逐格地估计该音高,及使用该音高变异来消除估计错误、异数、音阶跳跃,并帮助使该音高轮廓成为一连续的轨迹,而不是在每一分析视窗中央处的隔离点。换句话说,可能将模型参数相结合,将变换域变异模型参数化,且由描述一信号特性快照值的一个或多个离散值来描述一信号特性的变异。
而且,在根据本发明的一实施例中,一主要方式是模型化该归一化变化幅值,因为信号特性的幅值接着从计算中明确地消去。大体上,此方式使数学公式较易处理。然而,根据本发明的实施例不限于使用变异的归一化测量,因为不存在应该限制变异归一化测量概念的内在原因。
数学变异模型
在下面,可用于根据本发明的一些实施例中的一数学变异模型将予以描述。然而,自然地,也可使用其他变异模型。
考虑具有诸如音高的特性的一信号随时间而变化,且由p(t)表示。音高的改变是其导数,且为了消去该音高幅值的影响,我们藉由p -1(t)来将该改变归一化,并定义为
(1)
我们称此测量c(t)为该归一化音高变异,或简单称为音高变异,因为音高变异的非线性化测量在本范例中是无意义的。
一信号的周期长度T(t)与该音高成反比例,T(t)=p -1 (t),由此我们可以容易地获得
通过假设该音高变异在一小间隔t中是恒定的,c(t)=c,方程式1的偏微分方程式可予以容易地解决,由此我们获得
p(t)=p 0 e ct (2)
及
T(t)=T
0
e
-ct
其中及分别表示在时间t=0时音高及周期的长度。
尽管是时间t时的音高长度,但是我们认识到任何时间特征都遵循相同的公式。特别是,对于时间t时的自相关R(k, t)的滞后k,在该k-域中的时间特征遵循此公式。换句话说,t=0时在滞后k 0 处出现的自相关特征将移位作为t函数如
k(t)=k 0 e -ct (3)。
类似地,我们具有
(4)。
在方程式2中,我们仅考虑假设可在一短间隔中恒定的变异。然而,如果期望的话,我们可通过允许该变异在一短时间间隔内遵循某一函数形式来使用较高阶的模型。在此情况下特别关注的是多项式,因为产生的微分方程式可容易地解决。例如,如果我们定义该变异遵循多项式形式
那么
。
现在应注意的是,在不丧失一般性的情况下,方程式2中出现的恒量p 0 已经纳入该指数中,以使表示更清晰。
此形式证明该变异模型可以如何容易地延伸至较复杂的情况中。然而,除非另外说明,在此文档中,我们将仅考虑该一阶情况(恒定变异),以保持可理解性及可达性。本领域技术人员可容易地将该方法延伸至较高阶的情况中。
此处,在不对其他测量作修改的情况下,用于音高变异模型化的相同方式可予以使用,对于所述其他测量,归一化导数是一保证良好的域。例如,相对应于该信号希伯特变换的瞬间能量的信号时间包络是此种测量。通常,相比于该包络时间变异的相对值,该时间包络的幅值较不重要。在音讯编码中,时间包络的模型化在逐渐缩小时间杂讯扩展中是有用的,且通常由称为时间杂讯重整(TNS)的方法来实现,其中该时间包络由在该频域中的线性预测模型(参见,例如,参考文献[4])来模型化。本发明提供TNS的一替代物来模型化及估计该时间包络。
如果我们用a(t)来表示该时间包络,那么该(归一化)包络变异h(t)为
(5)
且相对应地,该偏微分方程式的解为
。
应注意的是,上面的形式暗示了在对数域中,该振幅是一简单的多项式。这是方便的,因为振幅通常由分贝量度(dB)表示。
用以获得描述信号特性时间变异参数的装置的一般实施例
图1显示用以在描述一变换域中的音讯信号的实际变换域参数(例如自相关值、自协方差值、傅利叶系数等)的基础上,获得描述音讯信号的信号特性时间变异的参数的装置的方块示意图。图1a所示装置的全部内容由100来表示。该装置100受组配以获得(例如接收或计算)描述在一变换域中的音讯信号的实际变换域参数120。而且,该装置100受组配以依据一个或多个模型参数,提供描述变化域参数时间演进的变换域变异模型的一个或多个模型参数140。该装置100包含一可取舍的变换器110,该可取舍的变换器110受组配以在该音讯信号的时域表示118的基础上,提供实际变换域参数120,使得该等实际变换域参数120描述变换域中的音讯信号。然而,该装置100可选择地受组配以从变换域参数的外部源中接收实际变换域参数120。
该装置100还包含一参数判定器130,其中该参数判定器130受组配以判定该变换域变异模型的一个或多个模型参数,使得表示在变换域参数的模型化时间演进与实际变换域参数的实际时间演进之间的偏差的模型错误,在一预定临界值以下或予以最小化。因而,依据表示信号特性的一个或多个模型参数来描述变换域参数的时间演进的变换域变异模型,适用于(或适合于)由实际变换域参数所表示的音讯信号。因而,可有效地实现,由变换域变异模型所隐含地或明确地描述的音讯信号变换域参数的模型化变异,近似于(在一预定的容忍范围内)变换域参数的实际变异。
许多不同的实施概念可用于该参数判定器。例如,该参数判定器可包含,例如,储存于其中(或在一外部数据载体上)的描述将变换域参数映射于变异模型参数上的变异模型参数计算方程式130a。在此种情况下,该参数判定器130还可包含一变异模型参数计算器130b(例如一可编程的电脑或一信号处理器或一现场可程式闸阵列(fpga)),其可受组配为例如硬件或软件,以评估变异模型参数计算方程式130a。例如,变异模型参数计算器130b可受组配以接收描述在一变换域中的音讯信号的多个实际变换域参数,并使用变异模型参数计算方程式130a,计算一个或多个模型参数140。变异模型参数计算方程式130a可,例如,以明确的形式描述将实际变换域参数120映射于一个或多个模型参数140上。
可选择地,参数判定器130可以,例如,执行一迭代最优化。以此为目的,参数判定器130可包含该时域变异模型的一表示130c,其考虑到描述假设为时间演进的模型参数,允许,例如,在先前的一组实际变换域参数(表示该音讯信号)的基础上,计算随后的一组经估计的变换域参数。在此种情况下,参数判定器130还可包含一模型参数优化器130d,其中模型参数优化器130d可受组配以修改时域变异模型130c的一个或多个模型参数,直至使用先前的一组实际变换域参数,由参数化时域变异模型130c所获得的该组经估计的变换域参数与目前的实际变换域参数完全一致(例如在一预定差临界值内)。
然而,自然地,存在用以在实际变换域参数的基础上,判定一个或多个模型参数140的多个其他方法,因为对于判定模型参数的一般问题,存在不同的数学公式解,使得该模型化结果近似于实际变换域参数(和/或其时间演进)。
由上面的讨论,装置100的功能性可参照图1b来说明,图1b显示用以获得描述音讯信号的信号特性时间变异的参数140的方法150的流程图。方法150包含一可取舍的步骤160,计算描述变换域中的音讯信号的实际变换域参数120。方法150还包含步骤170,依据表示一信号特性的一个或多个模型参数,来判定描述变换域参数时间演进的变换域变异模型的一个或多个模型参数140,使得表示模型化时间演进与实际变换域参数之间的偏差的模型错误在一预定临界值以下或予以最小化。
在下面,将较详细地描述根据本发明的一些实施例,以较详细地说明该发明构思。
在自相关域中的变异估计
在本文中,信号x n 的自相关定义为
r k =E[x n x n+k ]
且估计为
其中我们假设仅在[1,N]范围上为非零。应注意的是,当N变得无穷大时,该估计值收敛于一真值。而且,大体上,某种开视窗可以在该自相关估计之前用于,以加强其在[1,N]范围之外时为零的假设。
在自相关域中的变异估计-音高变异
在一实施例中,我们的目的是估计信号变异,也就是说,在音高变异的情况下,估计作为时间函数的自相关伸展或收缩的量。换句话说,我们的目的是判定自相关滞后k的时间导数,其表示为。为了清晰,我们现在使用简写形式k来替代k(t),且假设t的相依性是隐含的。
从方程式4中,我们获得
。
在根据本发明的一些实施例中克服的一常规问题是,k的时间导数不可用,且直接的估计很困难。然而,已经认识到的是,导数的一系列规则可用以获得
及
。 (6)
已经得出的是,使用c的一估计值,我们可接着在时间t 2 时使用一阶泰勒级数来模型化该自相关,在时间t 1 时使用该自相关及时间导数
。
在一实际应用中,导数可由,例如,二阶估计值来估计
。
此估计值在一阶差值R(k+1)-R(k-1)上是较佳的,因为该二阶估计值不遭受像一阶估计值那样的半样本相移。为了改良正确性或计算效率,其他的估计值可予以使用,诸如正弦函数的导数的经视窗化音段。
使用最小的均方误差标准,我们获得最优化的问题
(7)
其解可容易地获得为
(8)
当音高变异由连续的自协方差视窗而不是该自相关来估计时,也可以持有相同的导数。然而,相比于该自相关,自协方差包含额外的信息,该额外信息的使用在题名为“在自协方差域中的模型化”的部分中描述。
在自相关域中的变异估计-时间包络
如下面将描述的,包络的时间演进还可在自相关域中予以估计。
在下面,将参照图2给出时间包络变异的判定的简单概述。随后,根据本发明的一实施例,一可能的演算法将予以详细地描述。
图2显示用以获得描述音讯信号包络时间变异参数的方法的流程图。图2所示方法的全部内容由200来表示。该方法200包含判定210多个连续时间间隔的短时能量值。判定该短时能量值可包含例如,对于多个连续的(时间上交叠或时间上不交叠)自相关视窗,判定在共同预定滞后(例如滞后0)下的自相关值,以获得短时能量值。步骤220还包含判定适当的模型参数。例如,步骤220可包含判定多项式时间函数的多项式系数,使得该多项式函数近似于该短时能量值的时间演进。在下面,用以判定多项式系数的示范算法将被描述。例如,步骤220可包含步骤220a,设置包含与连续时间间隔(在例如时间t1、t2、t3等时开始或居中的时间间隔)相关联的时间值的幂序列的一矩阵(例如由V表示)。步骤220还包含步骤220b,设置一目标向量(例如由r表示),该目标向量的输入(the entries)描述连续时间间隔的短时能量值。
此外,步骤220可包含步骤220c,解决由矩阵(例如由V表示)及由目标向量(例如由r表示)所定义的一线性方程式系统(例如r=Vh的形式),以获得作为一解的多项式系数(例如由向量h所描述)。
在下面,关于此步骤的额外细节将予以说明。
在自相关域中,时间包络的模型化是直接的。我们可容易地证明,在滞后零处的自相关相对应于振幅的均方值。再者,在所有其他滞后处的自相关由该振幅的均方值来调节。换句话说,相同的信息在任何及所有滞后处都是可用的,藉以仅在滞后零处,充分地考虑该自相关。
因为包络变异的一阶模型是平凡的,所以一较高阶模型用于一较佳实施例中。这还作为如何用较高阶模型进行,以及如何在音高变异估计的情况下进行的范例。
根据方程式5,考虑该包络变异的M阶多项式模型。我们接着具有M+1个未知,且从而对于一解,较佳地使用至少M+1个方程式。换句话说,较佳地使用至少M+1个连续的自相关视窗(例如,由自相关视窗居中时间或自相关视窗开始时间t h 、R(t,t h )),h∈[0,N]及来表示)。接着,在N+1个不同时间t=t h (或对于N+1个不同的交叠或非交叠时间间隔)处,获得a(t)的值(例如,在例如线性或非线性调节中描述短期平均乘幂或短期平均振幅),也就是a(t h )=R(0,t h ) 1/2 及
因为a(t)是一多项式(较精确地:近似于一多项式),所以这是存在于文献中多个方法解决该多项式系数的经典问题。
一个基本的替代解是使用如下的凡德芒矩阵。
例如,该凡德芒矩阵V定义为
,
且可在例如步骤220a中予以计算。目标向量r及解向量h可定义为
该目标向量可在例如步骤220b中予以计算。
接着
r=Vh。
因为是不同的,所以如果M=N,那么倒数V -1存在且我们在例如步骤220c中获得
h=V -1 r。
如果M>N,那么虚倒数生成答案。然而,如果N及M很大,那么在该技术领域中已知的更精确的方法可用于有效解。
在自相关域中的变异估计-偏差分析
尽管上面介绍了估计值测量变异,但是存在一些实施例中尚未克服的假设局部稳定的一个步骤。也就是,通过常规方式(例如使用有限长度的自相关视窗)的自相关的估计假设该信号是局部稳定的。在下面,将显示的是,信号变异不会将偏差引入估计值中,使得该方法可视为充分正确。
为了分析该自相关的偏差,假设音高变异在此时间间隔中是恒定的。再者,假设我们具有一信号x(t),该信号x(t)在t 0 处具有周期长度T(t 0 )=T 0 ,接着假设在第二点t 1 处具有周期长度T(t 1 )=T 0 exp(-c(t 1 -t 0 ))。在间隔[t 0, t 1 ]上的平均周期长度是
。
观察到的是,上面计算式的后半部分是一“双曲线正弦”函数,我们将用下式来表示该函数
。
接着对于长度为△t win =t 1 -t 0 的一视窗,我们具有
。 (9)
通过T与k之间的类比,此计算式还量化自相关估计值由于信号变异而伸展的量。然而,如果开视窗用于自相关估计之前,则由于信号变异而产生的偏差获得减小,因为该估计值接着收敛于该分析视窗的中间点周围。
当从二个连续的有偏差自相关音框中估计c时,每一讯框的k值是有偏差的,且遵循公式
其中及是每一讯框的中间点。
参数c可通过定义=0及视窗之间的距离来解决,从而
其中我们观察到的是,△t win 的所有实例已经相互消除掉。换句话说,即使信号变异使该自相关估计值有偏差,从两个自相关中所提取的变异估计也无偏差。
然而,尽管信号变异不会使变异估计值有偏差,但是由于过短的分析视窗所导致的估计错误不可能避免。来自短分析视窗的自相关估计倾向于产生错误,因为其依据该分析视窗相对于信号相位的位置而定。较长的分析视窗减小了此种类型的估计错误,但是为了保持局部恒定变异的假设,必须寻求一折衷方法。在本技术领域中大体上可接受的一选择是具有长度是最低期望周期长度两倍的分析视窗。然而,如果所增加的错误时是可接收的,较短的分析视窗也可以使用。
在时间包络变异方面,结果是相似的。对于一阶模型,包络变异的估计值无偏差。而且,准确地来说,相同的逻辑也可用于自协方差估计,从而对于该自协方差持有相同的结果。
在自相关域中的变异估计-应用
在下面,用于音高变异估计的本发明的一可能应用将予以描述。首先,将参照图3来描述一般概念,图3显示了用以根据本发明的一实施例,获得描述音讯信号的音高时间变异参数的方法300的流程图。随后,将给出所述方法300的实施细节。
图3所示的方法300包含一可取舍的第一步骤310,其执行输入音讯信号的音讯信号预处理。该音讯信号预处理可包含,例如,通过减少任何有害的信号成分,来促进提取所期望的音讯信号特性的预处理。例如,下面所述的共振结构模型化可用作音讯信号预处理步骤310。
该方法300还包含步骤320,其相对于第一时间或时间间隔t 1 ,以及相对于多个不同的自相关滞后值k判定音讯信号x n 的第一组自相关值R(k,t 1 )。对于自相关值的定义,参照下面的描述。
方法300还包含步骤322,其相对于第二时间或时间间隔t 2 ,以及相对于多个不同的自相关滞后值k判定音讯信号x n 的第二组自相关值R(k,t 2 )。因此,方法300的步骤320及322可提供自相关值对,每一对自相关值包含与该音讯信号的不同时间间隔相关联,但具有相同自相关滞后值k的两个自相关(结果)值。方法300还包含步骤330,其在自相关滞后上判定该自相关的偏导数,例如,对于在t 1 处开始的第一时间间隔或在t 2 处开始的第二时间间隔。可选择地,可对于时间或者,位于或延伸于时间t 1 与时间t 2 之间的时间间隔上的不同实例,计算在自相关滞后上的偏导数。
因此,可相对于多个不同自相关滞后值k,例如,相对于第一组自相关值及第二组自相关值在步骤320、322中被判定的那些自相关滞后值,判定自相关滞后上的自相关变异R(k,t)。
自然地,对于步骤320、322、330的执行,不存在固定的时间次序,使得这些步骤可以部分地或完全地并行执行,或以不同的次序执行。
方法300还包含步骤340,其使用在自相关滞后上的第一组自相关值、第二组自相关值及自相关的偏导数,来判定变异模型的一个或多个模型参数。
当判定该一个或多个模型参数时,在自相关值对(如上所述)的自相关值之间的时间变异可予以考虑。例如,依据在滞后上的自相关变异(),该自相关值对的两个自相关值之间的差值可予以加权。在加权该自相关值对的两个自相关值之间的差值中,自相关滞后值k(与该自相关值对相关联)也可视为一加权因数。因此,形式的总和项
可用于判定该一个或多个模型参数,其中所述总和项可与一给定的自相关滞后值k相关联,且其中该总和项包含形式为
R(k,h+1)-R(k,h)
的在自相关值对两个自相关值之间差值与滞后相关加权因数的乘积,例如其形式为
。
该自相关滞后相关加权因数允许考虑以下事实,相比于小的自相关滞后值,该自相关对于较大自相关滞后值能较集中地延伸,因为纳入了自相关滞后值因数k。而且,在滞后上自相关值变异的加入使其可能在局部(相等自相关滞后)自相关值对的基础上,估计该自相关函数的扩展或压缩。因而,该自相关函数(在滞后上)的扩展或压缩可予以估计,而不执行型式调节及匹配功能性。相反地,个别总和项基于局部(单一滞后值k)贡献R(k,h+1)、R(k,h)、 。
然而,为了获得来自该自相关函数的大量信息,与不同滞后值k相关联的总和项可相结合,其中个别总和项仍然是单一滞后值的总和项。
此外,归一化可以在判定该变异模型的模型参数时予以执行,其中归一化因数可,例如,采用如下形式
且可包含例如单一自相关滞后值项的总和。
换句话说,该一个或多个模型参数的判定可包含,对于给定的、共同的自相关滞后值,但不同时间间隔,以及对于在滞后上该自相关值的变异的计算(自相关的k-导数),自相关值的比较(例如差值形成或减少);对于给定的、共同的时间间隔但不同自相关滞后值,自相关值的比较。然而,避免了对于可能会引起相当大影响的不同时间间隔及不同自相关滞后值的自相关值比较(或减去)。
方法300可取舍地还包含步骤350,其在步骤340中判定的一个或多个模型参数的基础上,计算诸如时间音高轮廓的参数轮廓。
在下面,参照图3a所述概念的可能实施将予以详细地说明。
作为本创新的一具体应用,我们将在下面展示估计自相关域中一时间信号的音高变异的方法的实施例。在图3b中示意表示的方法(360)包含下面步骤(或由下面步骤组成):
1. 对于长度为△t win 且由△t step 分离的视窗h及h+1(例如由开视窗函数w n 开视窗),估计(320、322; 370) x n 的自相关R(k,h)
2. 对于视窗(或“讯框”)h,例如通过下式,估计(330;374)自相关的k-导数
3. 使用下式(来自式8),来估计(340;378)视窗或讯框h与h+1之间的音高变异c h
。
如果所期望的是一(可取舍归一化的)音高轮廓,而不仅是该音高变异测量c n ,则应该加入另一步骤:
4. 使视窗或讯框h的中间点为t h 。接着在视窗或音框h与之h+1之间的音高轮廓为
对于t∈[t h ,t h+1 ]
其中p(t h )从先前的该对讯框或音高幅值的实际估计值中获得。如果音高幅值中没有量测是可用的,则我们可以将p(0)设定为任意选择的开始值,例如p(0)=1,且迭代地计算所有连续视窗的音高轮廓。
在本技术领域中已知的多个预处理步骤(310)可用以改良估计的正确性。例如,语音信号大体上具有在80至400 Hz范围中的基频,且如果期望估计音高中的改变,有利的是带通滤波例如在80至1000 Hz范围中的输入信号,以保持该基本及少量的第一谐波,而削弱可能降低品质的高频成分,特别是降低导数估计值的品质,并从而还降低整体估计值的品质。
在上面,该方法用于自相关域中,但是该方法,相比照地,可取舍地实施于诸如自协方差域的其他域中。类似地,在上面,该方法出现于音高变异估计的应用中,但是相同的方式可用以估计在信号的其他特性中诸如时间包络幅值的变异。而且,变异参数可以由不止两个视窗来估计,以增加正确性,或当该变异模型公式需要额外的自由度时。所呈现方法的一般形式描述于图7中。
如果与该输入信号的特性有关的额外信息是可用的,则临界值可取舍地用以移除不可实行的变异估计值。例如,语音信号的音高(或音高变异)很少超过15八度/秒,从而超过此值的任何估计典型地是无语音的或估计错误,且可以忽略。类似地,来自式7的最小模型化错误可取舍地用作估计值品质的指示符。特别是,可能对该模型化错误设定临界值,使得基于具有大模型化错误的模型的估计被忽略,因为在该模型中所呈现的改变通过该模型不会得到良好的描述,且该估计自身是不可靠的。
在自相关域中的变异估计-共振结构模型化
在下面,音讯信号预处理的概念将予以描述,其可用以改良音讯信号的特性(例如,音高变异)的估计。
在语音处理中,共振结构大体上由线性预测(LP)模型(参见参考文献[6]及其导数,诸如卷曲线性预测(WLP)(参见参考文献[5])或最小变异不失真回应(MVDR)(参见参考文献[9])来模型化。再者,尽管语音恒定改变,但是共振模型通常内插于线性频谱配对(LSP)域(参见参考文献[7])中或等效地,内插于电抗频谱配对(ISP)域(参见参考文献[1])中,以获得在分析视窗之间的平滑转变。
然而,对于共振的LP模型化,归一化变异不是最重要的,因为在一些情况下归一化该LP模型不会产生相关的优点。特别是,在语音处理中,相比于其位置的改变,共振的位置通常是更重要且更有趣的信息。因而,尽管也可能公式化共振的归一化变异模型,但是我们将关注更有趣的消去共振影响的主题。
换句话说,用于共振改变的模型的纳入可用以改良音高变异或其他特性估计的正确性。也就是说,通过在音高变异估计之前,消去信号中共振结构改变的影响,可能减小将共振结构改变解译为音高改变的机会。共振位置及音高二者均可改变高达大概15八度每秒,这意味着改变是极为快速的,其大概在相同的范围上改变,且其贡献可能会容易混淆。
为了可取舍地消去共振结构的影响,我们首先对每一讯框估计一LP模型,通过滤波移除共振结构,且将该经滤波的数据用于音高变异估计中。对于音高变异估计,重要的是,该自相关具有低通特性,且从而可用于由该高通滤波信号来估计LP模型,而仅消去原始信号中的共振结构(即不经高通滤波),从而该经滤波的数据将具有低通特性。如已知的,该低通特性使得能较容易地估计该信号的导数。该滤波过程自身根据该应用的计算需求,可在时域、自相关域或频域中执行。
特别是,用以消去该自相关中共振结构的预处理方法可描述为
1. 用一固定的高通滤波器过滤该信号。
2. 估计该高通滤波信号每一个音框的LP模型。
3. 通过用该LP滤波器过滤原始信号来移除共振结构的贡献。
步骤1中固定的高通滤波器可取舍地由一信号适应性滤波器来替代,诸如对每一讯框进行估计的低阶LP模型,如果需要较高水平的正确性。如果低通滤波用作该演算法中另一阶段的预处理步骤,则此高通滤波步骤可忽略,只要该低通滤波出现在共振消除之后。
步骤2中的LP估计方法可根据该应用的需求予以自由地选择。良好保证的选择可能是,例如,常规的LP(参见参考文献[6])、卷曲LP(参见参考文献[5])及MVDR(参见参考文献[9])。模型次序及方法应经选择,使得LP模型不模型化基频,但仅模型化频谱包络。
在步骤3中,用LP滤波器过滤信号可在视窗接视窗的基础上或在原始连续信号上执行。如果不开视窗地过滤信号(即过滤连续信号),则使用在本技术领域中已知的诸如LSP或ISP的内插方法,来降低分析视窗之间的转变处信号特性的突然改变,这是有用的。
在下面,共振结构移除(或减少)的过程将参照图4予以简单概述。作为图4所示流程图的方法400包含步骤410,其从输入音讯信号中减少或移除共振结构,以获得共振结构减少的音讯信号。方法400还包含步骤420,其在共振结构减少的音讯信号的基础上,判定音高变异参数。大体上来说,减少或移除共振结构的步骤410包含子步骤410a,其在输入音讯信号的高通滤波版本或信号适应性滤波版本的基础上,估计输入音讯信号的线性预测模型的参数。步骤410还包含子步骤410b,其在所估计参数的基础上,过滤输入音讯信号的宽频版本,以获得共振结构减少的音讯信号,使得共振结构减少的音讯信号包含低通特性。
自然地,如上所述,方法400可予以修改,例如,如果输入音讯信号已经获得低通滤波。
大体上,可以说,输入音讯信号中共振结构的减少或移除可用作音讯信号预处理,该音讯信号预处理与不同参数(例如音高变异、包络变异等)估计相结合,且还与不同域(例如自相关域、自协方差域、傅利叶变换域等)中的处理相结合。
在自协方差域中的模型化
在自协方差域中的模型化:介绍及概述
在下面,将描述的是,表示音讯信号时间变异的模型参数可以如何在自协方差域中被估计。如上所述,不同的模型参数,如音高变异模型参数或包络变异模型参数,可获得估计。
该自协方差定义为
,
其中x n 表示输入音讯信号的样本。应注意,与该自相关不同的是,此处我们不会假设x n 仅在该分析间隔中为非零。也就是说,x n 不需要在分析之前予以开视窗。与该自相关一样,对于稳定信号,当N 时该自协方差收敛于E[x n x n+k ]。
相比于自相关,该自协方差是一极为相似的域,但具有某些额外信息。特别是,当处于自相关域中,信号的相位信息被丢弃,而在协方差中其获得保留。当观察稳定信号时,我们通常得出相位信息是没有用的,但是对于快速变化的信号,其可能会是极有用的。潜在的不同来自于以下事实:对于稳定信号,期望值与时间不相关
E[x
n
,x
n+k
]=E[x
n
,x
n-k
]
但是对于非稳定信号,则相关。
假设在时间t(或对于开始于时间t或在时间t居中的时间间隔)处,我们估计信号x n 的自协方差Q(k, t)。接着我们可以容易看到,其保持为E[Q(k,t)]= E[Q(-k,t+k)]。在下面,我们将采用期望值(由操作符E[…]描述)是隐含的一符号,从而Q(k,t)= Q(-k,t+k)。类似地,可以保持关系Q(-k,t)= Q(k,t-k)。
通过使用局部恒定时间包络变异的假设,我们具有
E[x(t)]=e
ht
E[x(0)]
及类似地
Q(k,t)=e 2ht Q(k,0)。
从而Q(k, t)的时间导数是
。 (10)
使用这些关系式,现在我们可以形成集中于t的Q(k, t)的一阶泰勒估计值
。
例如,时移可以作为自相关滞后在相同的单元中测量,使得在下面可以保持:。
现在所有项都在时间t(或对于相同的时间间隔)上出现于相同点处,所以我们可以定义q k =Q(k,t)及。
记得我们的目的是估计包络变异h。因为对于所有k都持有该上面关系式,我们可以,例如,最小化平方模型化误差
(11)
该最小化可容易地得出
。 (12)
此处我们已经选择使用最小均方误差(MMSE)作为最优化标准,但是在本技术领域中已知的任何其他标准也可良好地用于此处,且也可用于其他实施例中。同样地,我们已经选择对在k=-N与k=N之间所有滞后上实行估计,但是指数的选择可用于获得计算效率及正确性的好处,如果在此期望的话,并且还可用于其他实施例中。
应注意的是,相比于自相关,对于自协方差,我们不需要使用连续的分析视窗,但是可以由单一视窗来估计时间包络变异。一相似的方式可容易地获得发展,用于从单一自协方差视窗来估计音高变异。
再者,应注意的是,相比于音高变异估计,对于包络估计,我们不需要由低通滤波器预先过滤该信号,因为不需要该自协方差的k-导数。
在自协方差域中的模型化-应用
作为本发明概念具体应用的另一范例,我们将展示估计自协方差域中信号的时间包络变异的方法。该方法包含下面步骤(或由下面步骤组成):
1. 对于长度为的一视窗,估计信号x n 的自协方差q k
对于
2. 通过计算下式得出时间包络变异h
。
如果期望归一化包络轮廓仅替代包络变异测量h,则应该可取舍地加入另一步骤:
3. 该包络轮廓是
a(t)=a 0 e ht 对于
其中a0从先前讯框或包络幅值的一实际估计值中获得。如果该包络幅值中没有量测是可用的,则我们可设定a 0 =1,且对于所有连续的视窗,迭代地计算包络轮廓。
如果与输入信号的特性有关的额外信息是可用的,则临界值可取舍地用以移除不可实行的变异估计。例如,式11中的最小模型化错误可取舍地用作估计品质的一指示符。特别是,可能设定该模型化错误的临界值,使得基于具有大模型化错误的模型的估计可以忽略,因为在该模型中所呈现的改变通过该模型不会获得良好的描述,且该估计自身是不可靠的。
为了进一步改良正确性,可能首先可取舍地消去输入信号的共振结构(如题目为“在自相关域中的变异估计-共振结构模型化”的部分中所说明)。但是,应注意的是,在语音信号方面,我们接着获得替代语音信号(语音声压波形)的声压波形估计,且该时间包络从而模型化该声压包络,这依据该应用而定,可以是或可以不是期望的结果。
在自协方差域中的模型化-音高及包络变异的联合估计
类似地,与包络变异在先前部分中的估计相同,音高变异也可以由单一自协方差视窗来直接估计。然而,在本部分中,我们将展示如何由单一自协方差视窗来联合估计音高及包络变异的较一般问题。接着对于在本领域技术人员直截了当的是,仅修改用以估计该音高变异的方法。应理解的是,此处不一定在该自协方差域中使用任何开视窗。例如,其足以计算自协方差参数,如在题目为“在自协方差域中的模型化-概述”的部分中所述。然而,该表述“单一自协方差视窗”表示,音讯信号的单一固定部分的自协方差估计可用以估计变异,相比于自相关,其中音讯信号的至少二个固定部分的自相关估计必须用以估计变异。使用单一自协方差视窗是可能的,因为在滞后+k及-k处的自协方差分别表示给定样本的正向及反向自协方差k步骤。换句话说,因为该信号特性随着时间而发展,所以样本的正向及反向自协方差将是不同的,且在该正向及反向自协方差中的差值表示信号特性中的改变幅值。这样的估计在该自相关域中是不可能的,因为该自相关域是对称的,也就是说,自相关的正向及反向是相同的。
考虑一信号x(t)=a(t)f(b(t)),其中振幅及音高变异由一阶模型来模型化,从而 a(t)=a 0 e ht 且b(t)=b0tect。接着x(t)的自协方差Q x (k)是
Q x (k,t)=E[x(t)x(t+k)]=a(t)a(t+k)E[f(b(t))f(b(t+k))]=a(t)a(t+k)Q f (k,t) (13)
其中Q f (k,t)是f(b(t))的自协方差。
使用方程式6、10及13,我们获得Q x (k, t)的时间导数为
。
然而,上面方程式包含ch的乘积,且从而不是c与h的线性函数。为了促成参数的有效解,我们可假设极小,由此我们可约计
。
如上所述,我们可定义q k =Q x (k,t),且形成一阶泰勒估计值
。
真实值q k 与泰勒估计值之间的平方差值将在得出最佳(或至少近似于最佳)c及h时,再次作为目标函数。我们获得最小化问题
其解可容易地获得为
(14)
其中
虽然公式看似很复杂,但是A及u的构造可仅使用长度为2N(滞后零可以被省略)的向量操作来执行,而c及h的解可使用2×2矩阵A的倒置来执行。从而该计算复杂度仅是适度的O(N)(即N阶的)。
音高及包络变异的联合估计的应用遵循如题目为“在自协方差域中的模型化-应用”的部分中所呈现的相同方式,但是使用步骤2中的式14。
在自协方差域中的模型化-其他概念
在下面,模型化自协方差域的不同方式将参照图5予以简单讨论。图5显示了根据本发明的一实施例,用以获得描述音讯信号的信号特性时间变异的参数的方法500的方块示意图。方法500包含作为可取舍步骤510的音讯信号预处理。步骤510中的音讯信号预处理可,例如,包含该音讯信号的滤波(例如低通滤波)和/或共振结构减少/移除,如上所述。方法500还可包含步骤520,获得对于第一时间间隔及对于多个不同自协方差滞后值k的描述该音讯信号的自协方差的第一自协方差信息。方法500还可包含步骤522,获得对于第二时间间隔及对于不同自协方差滞后值k的描述该音讯信号的自协方差的第二自协方差信息。而且,方法500可包含步骤530,对于多个不同自协方差滞后值k,评估在第一自协方差信息与第二自协方差信息之间的差值,以获得时间变异信息。
而且,方法500可包含步骤540,对于多个不同滞后值,估计在滞后上的自协方差信息的“局部”(即在各自滞后值的环境中)变异,以获得“局部滞后变异信息”。
而且,方法500可大体上包含步骤550,其将时间变异信息与关于在滞后上自协方差信息的局部变异的信息(也由“局部滞后变异信息”表示)相结合,以获得模型参数。
当将时间变异信息与关于在滞后上自协方差信息的局部变异的信息相结合时,时间变异信息和/或关于在滞后上自协方差信息的局部变异的信息可根据相对应的自协方差滞后k来调节,例如,与自协方差滞后k或其效力(potency)成比例地调节。
可选择地,步骤520、522及530可由步骤570、580来替代,如下面将所说明的。在步骤570中,可获得描述相对于单一自协方差视窗,但是相对于不同自协方差滞后值k的音讯信号的自协方差的自协方差信息。例如,可获得自协方差值Q(k,t)=q k 及自协方差信息q -k =Q(-k,t)。
随后,与不同滞后值(例如-k、+k)相关联的自协方差值之间的加权差值,例如2k(q k -q -k )和/或k2(q k -q -k ),可在步骤580中相对于多个不同自协方差滞后值k来评估。加权(例如2k、k 2)可依据各自所减去的自协方差值的滞后值的差值(例如在自协方差值q k 、q -k 之间的滞后中的差值:k-(-k)=2k)来选择。
综上所述,存在许多不同的方式来获得自协方差域中的一个或多个所期望的模型参数。在较佳实施例中,单一自协方差视窗可能就足以估计一个或多个时间变异模型参数。在此种情况下,与不同自协方差滞后值相关联的自协方差值之间的差值可相比较(例如相减)。可选择地,相对于不同时间间隔,但是相同自协方差滞后值的自协方差值可以相比较(例如相减),以获得时间变异信息。在这两种情况下,在推导模型参数时,可引入考虑自协方差差值或自协方差滞后的加权。
在其他域中的模型化
除了自相关及自协方差,在此所公开的概念还可以在诸如傅利叶频谱的其他域中予以公式化。当将该方法用于域Ψ中时,该方法可包含下面步骤:
1. 将时间信号变换为域Ψ。
2. 在域Ψ中,以该变异模型参数以明确形式存在的形式来计算时间导数。
3. 形成该信号在域Ψ中的泰勒级数近似值,且将其最小化使其适合于真实的时间演进,以获得变异模型参数。
4. (可取舍的)计算信号变异的时间轮廓。
在一实际应用中,该发明构思的应用可,例如,包含将信号变换为所期望的域,并判定泰勒级数近似值的参数,使得由该泰勒级数近似值所表示的模型获得调整,以适合于该变换域信号表示的实际时间演进。
在一些实施例中,该变换域也可能是显然的,也就是说,可能将该模型直接用于时域中。
如在先前部分中所呈现,变异模型可以例如是(一个或多个)局部恒量、(一个或多个)多项式或具有(一个或多个)其他功能形式。
如在先前段落中所证明的,泰勒级数近似值可用于横跨连续视窗,在一视窗内,或在视窗内与横跨连续视窗的结合。
泰勒级数近似可以是任何阶数,尽管一阶模型大体上是吸引人的,因为接着该参数可作为线性方程式的解获得。而且,还可以使用在本技术领域中已知的其他近似方法。
大体上,均方误差(MMSE)的最小化是一有用的最小化标准,因为接着参数可以作为线性方程式的解获得。其他最小化标准可用以改良稳健性或用于该参数较佳地解释于另一最小化域中时。
用以编码音讯信号的装置
如上所述,该发明构思可用于编码音讯信号的装置中。例如,在音讯编码器(或音讯解码器,或任何其他音讯处理装置)中无论在什么时候需要关于音讯信号时间变异的信息,该发明构思都特别有用。
图6显示乐根据本发明的一实施例,一音讯编码器的方块示意图。图6所示的音讯编码器的全部内容由600来表示。该音讯编码器600受组配以接收输入音讯信号的表示606(例如音讯信号的时域表示),及在其基础上,提供输入音讯信号的编码表示630。该音讯编码器600可取舍地,包含第一音讯信号预处理器610,及进一步可取舍地,第二音讯信号预处理器612。而且,该音讯编码器600可包含音讯信号编码器核心620,其可受组配以接收输入音讯信号的表示606,或例如由第一音讯信号预处理器610所提供的表示606的经预处理版本。该音讯信号编码器核心620进一步受组配以接收描述音讯信号606的信号特性时间变异的参数622。而且,该音讯信号编码器核心620可受组配以根据考虑参数622的音讯信号编码算法,来编码音讯信号606,或其各自的预处理版本。例如,音讯信号编码器核心620的一编码算法可获得调整,以遵循输入音讯信号的变化特性(由参数622所描述),或补偿输入音讯信号的变化特性。
因而,该音讯信号编码以信号适应性方式来执行,考虑信号特性的时间变异。
音讯信号编码器核心620可予以例如最优化,以编码音乐音讯信号(例如,使用频域编码算法)。可选择地,音讯信号编码器可予以最优化来编码语音,且从而还可被视为语音编码器核心。然而,自然地,音讯信号编码器核心或语音编码器核心还可受组配以遵循同时对编码音乐信号及语音信号呈现良好性能的所谓的“混合”方式。
例如,音讯信号编码器核心或语音编码器核心620可构造(或包含)一时间卷曲编码器核心,从而使用描述一信号特性(例如音高)的时间变异的参数622作为卷曲参数。
音讯编码器600可从而包含参照图1所述装置100,其中装置100受组配以接收输入音讯信号606,或其经预处理的版本(由该可取舍的音讯信号预处理器612所提供),及在其基础上,提供描述音讯信号606的信号特性(例如音高)的时间变异的参数信息622。
因而,音讯编码器606可受组配以利用在此所述的任何发明构思来在输入音讯信号606的基础上获得参数622。
电脑实施
依据某些实施需求而定,本发明的实施例可以实施于硬件或软件中。该实施可使用例如软碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH记忆体的具有储存于其上的电气可读控制信号的数字储存媒体来执行,其与可编程电脑系统协作(或能够协作),使得各自方法获得执行。
根据本发明的一些实施例包含具有电气可读控制信号的数据载体,其能够与可编程电脑系统协作,使得在此所述的方法之一获得执行。
大体上,本发明的实施例可以实施为具有程式代码的电脑程式产品,该程式代码可操作地用以在电脑程式产品在电脑上运行时,执行该方法之一。该程式码可以储存于例如机器可读载体上。
其他实施例包含用以执行在此所述方法之一,储存于机器可读载体上的电脑程式。
换句话说,该发明构思的实施例因此是具有程式码的电脑程式,该程式码用以在该电脑程式在电脑上运行时,执行该方法之一。
该发明构思的另一实施例因此是包含储存于其上用以执行在此所述方法之一的电脑程式的数据载体(或数字储存媒体,或电脑可读媒体)。
该发明方法的另一实施例因此是表示用以执行在此所述方法之一的电脑程式的数据流或信号序列。例如,该数据流或信号序列可受组配以经由数据通讯连接体,例如经由网际网路来传输。
另一实施例包含受组配以执行或适用于执行在此所述方法之一的处理装置,例如电脑或可编程逻辑设备。
另一实施例包含具有安装于其上用以执行在此所述方法之一的电脑程式的电脑。
在一些实施例中,可编程逻辑组件(例如现场可编程门阵列)可用以执行在此所述方法中的一些或所有功能。在一些实施例中,现场可编程门阵列可与微处理器协作,以执行在此所述方法之一。
结论
在下面,该发明构思将参照图7来简单概述,图7显示了根据本发明的一实施例的方法700的流程图。方法700包含步骤710,其计算输入信号(例如,输入音讯信号)的变换域表示。方法700还包含步骤730,其最小化描述在该域中变异影响的模型的模型化误差。720模型化该变换域中变异影响可作为方法700的一部分来执行,但是也可作为预备步骤来执行。
然而,当在步骤730中最小化模型化误差时,输入音讯信号的变换域表示及描述变异影响的模型都可予以考虑。描述该变异影响的模型可以以描述一随后变换域表示的估计值的形式,用作先前(或随后,或其他)实际变换域参数的明确函数,或以描述最佳(或至少足够良好)变异模型参数的形式,用作(该输入音讯信号的变换域表示的)多个实际变换域参数的明确函数。
步骤730中将模型化误差最小化,产生描述变异幅值的一个或多个模型参数。
产生一轮廓的可取舍步骤740产生对该输入(音讯)信号的信号特性轮廓的描述。
概括地说,上面根据本发明的实施例提出在信号处理中一个最基本的问题,即,信号改变了多少?
根据本发明,实施例提供用以估计信号特性诸如基频改变或时间包络改变的变异的方法(及装置)。在简单,但是有效且未偏移的自相关(或自协方差)中,这对于八度跳跃影响甚微,对误差来说是稳健的。
特别是,根据本发明的实施例包含下面特征:
在(例如输入音讯信号的)信号特性中的变异被模型化。在音高变异或时间包络方面,该模型指明该自相关或自协方差(或另一变换域表示)如何随着时间改变。
尽管信号特性不能假设为局部恒定,但是信号特性中的变异(其在一些实施例中可予以归一化)可假设为恒定的,或遵循一函数形式。
通过模型化该信号改变,其变异(=该信号特性的时间演进)可被模型化。
信号变异模型(例如以隐含或明确的函数表示)通过使该模型化误差最小化,从而使该模型参数量化变异幅值,而适合于观察(例如通过变换输入音讯信号而获得的实际变换域参数)。
在音高变异估计方面,该变异由该信号直接估计,而没有音高估计的中间步骤(例如音高绝对值的估计)。
通过模型化音高中的变异,该变异影响可由自相关的任何滞后并且不只是在整数倍的周期长度处来测量,从而使所有可用的数据能够使用,且从而获得高水平的强健性(robustness)及稳定性。
即使由一非稳定信号估计自相关或自协方差对该自相关及自协方差估计引入了偏差,在本发明中的变异估计在一些实施例中将仍然是未偏移的。
当该信号的实际特性被找出,且不仅是特性的变异,该方法可取舍地提供可以适用于沿着轮廓估计信号特性的正确且连续的轮廓。
在语音及音讯编码中,所呈现的方法可用作时间卷曲MDCT的输入,使得已知音高中的改变时,在使用该MDCT之前,其影响可以由时间卷曲消去。这将减小频率成分的模糊,且从而改良能量集中。
当由自相关估计时,连续的分析视窗可用以获得时间改变。当由自协方差估计时,仅需要单一视窗来测量该时间改变,但是连续视窗在期望的时候可予以使用。
联合估计音高及时间包络两者中的改变相对应于该信号的AM-FM分析。
在下面,将简单概述根据本发明的一些实施例。
根据一层面,根据本发明的一实施例包含信号变异估计器。该信号变异估计器包含在变换域中的信号变异模型化、在变换域中信号的时间演进模型化、及适合于输入信号的模型误差最小化。
根据本发明的一层面,该信号变异估计器估计该自相关域中的变异。
根据另一层面,该信号变异估计器估计音高中的变异。
根据一层面,本发明产生音高变异估计器,其中变异模型包含:
用于在自相关滞后中转换(shift)的模型。
自相关滞后导数的估计。
以下关系的模型(i.)自相关滞后的时间导数,(ii.)自相关的时间导数,及(iii.)自相关滞后导数。
自相关的泰勒级数估计
模型拟合的MMSE估计,其产生音高变异参数。
根据本发明的一层面,该音高变异估计器可以在语音及音讯编码中,与时间卷曲修改型离散余弦变换(TW-MDCT,参见参考文献[3])相结合,作为该时间卷曲修改型离散余弦变换(TW-MDCT)的输入来使用。
根据本发明的一层面,该信号变异估计器估计该自相关域中的变异。
根绝一层面,该信号变异估计器估计在时间包络中的变异。
根据一层面,该时间包络变异估计器包含一变异模型,该变异模型包含:
作为滞后k的函数的自协方差上时间包络变异影响的一模型。
自协方差的泰勒级数估计。
模型拟合的MMSE估计,其产生包络变异参数。
根据一层面,共振结构的影响在该信号变异估计器中被消去。
根据另一层面,本发明包含将信号的某些特性的信号变异估计用作额外的信息,来得出此特性准确且强健的估计。
概括地说,根据本发明的实施例使用变异模型来分析信号。相反,常规的方法需要将音高变异的估计作为其演算法的输入,但是不提供用以估计该变异的方法。
参考文献
[1] Y. Bistritz and S. Peller. Immittance spectral pairs (ISP) for speech encoding . In Proc. Acou Speech Signal Processing, ICASSP-93, Minneapolis, MN, USA, April 27-30 1993.
[2] A. de Cheveigné and H. Kawahara. YIN, a fundamental frequency estimator for speech and music. J Acoust Soc Am, 111(4):1917-1930, April 2002.
[3] B. Edler, S. Disch, R. Geiger, S. Bayer, U. Kr?mer, G. Fuchs, M. Neundorf, M. Multrus, G. Schuller and H. Popp. Audio processing using high-quality pitch correction. US Patent application 61/042,314, 2008.
[4] J. Herre and J.D. Johnston. Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS). In Proc AES Convention 101, Los Angeles, CA, USA, November 8-11 1996.
[5] A. H?rm?. Linear predictive coding with modified filter structures. IEEE Trans. Speech Audio Process., 9(8):769-777, November 2001.
[6] J. Makhoul. Linear prediction: A tutorial review. Proc. IEEE, 63(4): 561-580, April 1975
[7] K.K. Paliwal. Interpolation properties of linear prediction parametric representations. In Proc Eurospeech’95, Madrid, Spain, September 18-21 1995.
[8] L. Villemoes. Time warped modified transform coding of audio signals. International Patent PCT/EP2006/010246, Published 10.05.2007.
[9] M. Wolfel and J. McDonough. Minimum variance distortionless response spectral estimation. IEEE Signal Process Mag., 22(5):117-126, September 2005.
Claims (14)
1.一种装置(100),其用以在描述变换域中信号的信号变换域表示的实际变换域参数(120)的基础上,获得描述音讯信号的信号特性变异的一个或多个模型参数(140),所述装置包含:
参数判定器(130),受组配以判定变换域变异模型(130a;130c)的一个或多个模型参数(140),所述变换域变异模型(130a;130c)依据一个或多个模型参数(140)描述变换域参数的演进,使得表示在变换域参数的模型化时间演进与实际的变换域参数时间演进之间的偏差的模型误差在一预定临界值以下,或予以最小化;
其中装置(100)受组配以获得作为实际变换域参数的第一变换域信息(R(k,h))和第二变换域信息(R(k,h+1)),其中所述第一变换域信息(R(k,h))包含第一组变换域参数并描述了变换变量(k)多个不同值的第一时间间隔的音讯信号,所述第二变换域信息(R(k,h+1))包括第二组变换域参数并描述了变换变量不同值的第二时间间隔的音讯信号;
其中所述参数判定器(130)受组配以,为变换变量(k)的多个不同值,估计在第一变换域信息和第二变换域信息之间的时间变异,来获得时间变异信息,
所述参数判定器(130)受组配以在变换变量上为变换变量的多个不同值,估计变换域信息的局部变异,来获得局部变异信息,以及
所述参数判定器(130)受组配以合并时间变异信息和局部变异信息,来获得频率变异模型参数
其中参数判定器(130)受组配以获得频率变异模型参数,其使用一变换域变异模型,该模型包括频率变异模型参数并表示与假设音讯信号为平滑频率变异的变换变量(k)相关的音讯信号的变换域表示的压缩或扩展;
其中参数判定器受组配以判定频率变异模型参数,使得经参数化的变换域变异模型适用于第一组变换域参数和第二组变换域参数。
2.根据权利要求1所述的装置(100),其中该装置(100)受组配以获得作为实际变换域参数的,相对于预定的一组变换变量(k)值的描述变换域中音讯信号的第一时间间隔的第一组变换域参数(R(k,h)),以及相对于变换变量(k)预定的一组值而描述在变换域中音讯信号的第二时间间隔的第二组变换域参数(R(k,h+1))。
3.根据权利要求1所述的装置(100),其中装置(100)受组配以获得作为实际变换域参数(120)的,描述变换域中的音讯信号作为变换变量(k)的函数的变换域参数,
其中变换域经选择,使得音讯信号的频率变换至少产生有关变换变量的音讯信号的变换域表示的转换,或有关变换变量的变换域表示的延伸,或有关变换变量的变换域表示的压缩;
其中参数判定器(130)受组配以在相应实际变换域参数的时间改变(R(k,h+1)-R(k,h))的基础上,考虑音讯信号的变换域表示对变换变量(k)的依赖性,获得频率变异模型参数
4.根据权利要求1所述的装置(100),其中装置(100)受组配以获得作为实际变换域参数的,描述相对于第一时间间隔且相对于多个不同自相关滞后值(k)的音讯信号的自相关的第一自相关信息(R(k,h)),以及描述相对于第二时间间隔且相对于不同自相关滞后值的音讯信号的自相关的第二自相关信息(R(k,h+1));
其中参数判定器(130)受组配以相对于多个不同的自相关滞后值(k),评估在第一自相关信息与第二自相关信息之间的时间变异,来获得时间变异信息,
以相对于多个不同滞后值,估计在滞后上的自相关信息的局部变异(qi’),来获得局部滞后变异信息,及
以将时间变异信息与局部滞后变异信息相结合,来获得模型参数。
5.根据权利要求4所述的装置(100),其中参数判定器受组配以使用下面的方程式计算所估计的变异参数
其中
k表示描述不同自相关滞后值的运行变量;
h表示第一时间间隔;
h+1表示第二时间间隔;
N≥2表示待评估的自相关滞后值的数量;
R(k,h)表示相对于由指数h所表示的视窗的音讯信号的自相关;
R(k,h+1)表示由指数h+1所表示的视窗的音讯信号xn的自相关;及
表示在由k所表示的滞后周围,对于由指数h所表示视窗,在滞后上的自相关R(k,h)的变异;
Δtstep表示视窗之间的距离。
6.根据权利要求1所述的装置(100),其中装置受组配以获得作为实际变换域参数的,描述相对于第一时间间隔且相对于多个不同自相关滞后值(k)的音讯信号的自协方差的第一自协方差信息(Q(k,t)=qk),及描述相对于第二时间间隔(t-k)且相对于多个不同自相关滞后值的音讯信号的自协方差的第二自协方差信息(Q(-k,t)=Q(k,t-k)=q-k);及
其中参数判定器受组配以相对于多个不同的自协方差滞后值,评估在第一自协方差信息与第二自协方差信息之间的变异(qk-q-k),以获得时间变异信息,
以相对于多个不同滞后值,估计在滞后上的自协方差信息的局部导数来获得局部滞后变异信息,及
以将时间变异信息与局部滞后变异信息相结合,来获得模型参数(140)。
7.根据权利要求1所述的装置(100),其中装置(100)受组配以获得描述相对于单一自协方差视窗,但是相对于不同自协方差滞后值的音讯信号的自协方差的自协方差信息(Q(k,t)=qk,Q(-k,t)=q-k),
以相对多个不同的自协方差滞后值对(-k,k),估计在自协方差值对之间的加权差值(k2(qk-q-k)),
其中加权依据各自滞后值对的滞后值的差值(2k),及依据在滞后上自协方差值的变异(q’-k)来选择,
以将不同加权差值的总数相结合,来获得一结合值,及
以在结合值的基础上获得模型参数。
8.根据权利要求1所述的装置(100),其中装置(100)受组配以获得描述音讯信号包络的时间变异的参数,
其中参数判定器(130)受组配以获得多个变换域参数(R(0,th)),多个变换域参数相对于多个时间间隔描述音讯信号的信号功率,
其中参数判定器受组配以获得包络变异模型参数,其使用变换域变异模型的表示,参数化变换域变异模型包含包络变异模型参数并表示当假设音讯信号为平滑包络变异时的音讯信号的变换域表示的幂时间增加或幂时间降低,及
其中参数判定器受组配以判定包络变异模型参数,使得变换域变异模型适用于变换域参数(R(0,th))。
9.根据权利要求8所述的装置(100),其中所述参数判定器(130)受组配以获得相对于给定的自相关滞后或自协方差滞后的多个自相关参数或自协方差参数,及
其中参数判定器受组配以判定多项式包络变异模型的多个多项式参数。
10.根据权利要求1所述的装置,其中装置受组配以获得描述在自相关域中的音讯信号的自相关域参数,及
其中参数判定器(130)受组配以判定自相关域变异模型的一个或多个模型参数(140);或
其中装置受组配以获得描述在自协方差域中音讯信号的自协方差域参数,及
其中参数判定器(130)受组配以判定自协方差域变异模型的一个或多个模型参数。
11.根据权利要求1所述的装置,其中变换域变异模型描述音讯信号的音高的时间变异,或
其中变换域变异模型描述音讯信号的包络的时间变异,或
其中变换域变异模型描述音讯信号的音高和包络的同时时间变异。
12.根据权利要求1所述的装置(100),其中装置包含共振结构减少器,其受组配以预处理输入音讯信号,来获得共振结构减少的音讯信号;及
其中装置受组配以在共振结构减少的音讯信号的基础上,获得实际变换域参数;
其中共振结构减少器受组配以在输入音讯信号的经高通滤波的版本基础上,估计输入音讯信号的线性预测模型的参数,及
以在线性预测模型的所估计参数的基础上,过滤输入音讯信号的宽频版本,
以获得共振结构减少的音讯信号,使得共振结构减少的音讯信号包含低通特性。
13.一种方法,其用以在描述变换域中的音讯信号的实际变换域参数的基础上,获得描述音讯信号的信号特性变异的一个或多个模型参数,方法包含:
判定变换域变异模型的一个或多个模型参数(140),所述模型参数(140)依据所述一个或多个模型参数描述变换域参数的演进,使得表示在变换域参数的模型化时间演进与实际变换域参数的演进之间的偏差的模型误差位于一预定临界值以下,或予以最小化;
获得作为实际变换域参数的第一变换域信息和第二变换域信息,其中第一变换域信息包含第一组变换域参数并描述了变换变量多个不同值的第一时间间隔的音讯信号,第二变换域信息包括第二组变换域参数并描述了变换变量不同值的第二时间间隔的音讯信号;
针对变换变量(k)的多个不同值,估计在第一变换域信息和第二变换域信息之间的时间变化,来获得时间变异信息;
在变换变量上针对变换变量的多个不同值,估计变换域信息的局部变异,来获得局部变异信息;
合并时间变异信息和局部变异信息,来获得频率变异模型参数;
使用变换域变异模型获得频率变异模型参数,所述变换域变异模型包括频率变异模型参数并表示与假设音讯信号为平滑频率变异的变换变量(k)相关的音讯信号的变换域表示的压缩或扩展;
判定频率变异模型参数,使得经参数化的变换域变异模型适用于第一组变换域参数和第二组变换域参数。
14.一种用以时间卷曲编码输入音讯信号的时间卷曲音讯编码器,时间卷曲音讯编码器包含:
根据权利要求1所述的装置(100),获得描述音讯信号的信号特性时间变异的参数,
其中用以获得参数的装置受组配以获得描述输入音讯信号的时间音高变异的音高变异参数;及
时间卷曲信号处理器,其受组配以使用音高变异参数来执行输入音讯信号的时间卷曲信号取样,来调整时间卷曲。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14606309P | 2009-01-21 | 2009-01-21 | |
US61/146,063 | 2009-01-21 | ||
EP09005486A EP2211335A1 (en) | 2009-01-21 | 2009-04-17 | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
EP09005486.7 | 2009-04-17 | ||
PCT/EP2010/050229 WO2010084046A1 (en) | 2009-01-21 | 2010-01-11 | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102334157A CN102334157A (zh) | 2012-01-25 |
CN102334157B true CN102334157B (zh) | 2014-10-22 |
Family
ID=40935040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080008756.0A Active CN102334157B (zh) | 2009-01-21 | 2010-01-11 | 用以获得描述信号的信号特性变异的参数的装置与方法 |
Country Status (20)
Country | Link |
---|---|
US (1) | US8571876B2 (zh) |
EP (2) | EP2211335A1 (zh) |
JP (2) | JP5551715B2 (zh) |
KR (1) | KR101307079B1 (zh) |
CN (1) | CN102334157B (zh) |
AR (1) | AR075020A1 (zh) |
AU (1) | AU2010206229B2 (zh) |
BR (1) | BRPI1005165B1 (zh) |
CA (1) | CA2750037C (zh) |
CO (1) | CO6420379A2 (zh) |
ES (1) | ES2831409T3 (zh) |
MX (1) | MX2011007762A (zh) |
MY (1) | MY160539A (zh) |
PL (1) | PL2380165T3 (zh) |
PT (1) | PT2380165T (zh) |
RU (1) | RU2543308C2 (zh) |
SG (1) | SG173083A1 (zh) |
TW (1) | TWI470623B (zh) |
WO (1) | WO2010084046A1 (zh) |
ZA (1) | ZA201105338B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120089390A1 (en) * | 2010-08-27 | 2012-04-12 | Smule, Inc. | Pitch corrected vocal capture for telephony targets |
US8805697B2 (en) * | 2010-10-25 | 2014-08-12 | Qualcomm Incorporated | Decomposition of music signals using basis functions with time-evolution information |
US10316833B2 (en) * | 2011-01-26 | 2019-06-11 | Avista Corporation | Hydroelectric power optimization |
US8626352B2 (en) * | 2011-01-26 | 2014-01-07 | Avista Corporation | Hydroelectric power optimization service |
US9026257B2 (en) | 2011-10-06 | 2015-05-05 | Avista Corporation | Real-time optimization of hydropower generation facilities |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
US10324068B2 (en) * | 2012-07-19 | 2019-06-18 | Carnegie Mellon University | Temperature compensation in wave-based damage detection systems |
TR201818834T4 (tr) | 2012-10-05 | 2019-01-21 | Fraunhofer Ges Forschung | Otokorelasyon alanında acelp kullanan bir konuşma sinyalinin şifrelenmesine ilişkin bir ekipman. |
US8554712B1 (en) | 2012-12-17 | 2013-10-08 | Arrapoi, Inc. | Simplified method of predicting a time-dependent response of a component of a system to an input into the system |
US9741350B2 (en) * | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
GB2513870A (en) | 2013-05-07 | 2014-11-12 | Nec Corp | Communication system |
EP3156861B1 (en) * | 2015-10-16 | 2018-09-26 | GE Renewable Technologies | Controller for hydroelectric group |
RU169931U1 (ru) * | 2016-11-02 | 2017-04-06 | Акционерное Общество "Объединенные Цифровые Сети" | Устройство сжатия аудиосигнала для передачи по каналам распространения данных |
KR102634916B1 (ko) * | 2019-08-29 | 2024-02-06 | 주식회사 엘지에너지솔루션 | 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템 |
CN112309425B (zh) * | 2020-10-14 | 2024-08-30 | 浙江大华技术股份有限公司 | 一种声音变调方法、电子设备及计算机可读存储介质 |
CN115913231B (zh) * | 2023-01-06 | 2023-05-09 | 上海芯炽科技集团有限公司 | 一种tiadc的采样时间误差数字估计方法 |
CN117727330B (zh) * | 2024-02-18 | 2024-04-16 | 百鸟数据科技(北京)有限责任公司 | 基于音频分解的生物多样性预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6035271A (en) * | 1995-03-15 | 2000-03-07 | International Business Machines Corporation | Statistical methods and apparatus for pitch extraction in speech recognition, synthesis and regeneration |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4231408A (en) | 1978-06-08 | 1980-11-04 | Henry Replin | Tire structure |
NL8701798A (nl) * | 1987-07-30 | 1989-02-16 | Philips Nv | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
EP0588932B1 (en) * | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
RU27259U1 (ru) * | 2000-09-07 | 2003-01-10 | Железняк Владимир Кириллович | Устройство для измерения разборчивости речи |
US7017175B2 (en) | 2001-02-02 | 2006-03-21 | Opentv, Inc. | Digital television application protocol for interactive television |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US20070276894A1 (en) * | 2003-09-29 | 2007-11-29 | Agency For Science, Technology And Research | Process And Device For Determining A Transforming Element For A Given Transformation Function, Method And Device For Transforming A Digital Signal From The Time Domain Into The Frequency Domain And Vice Versa And Computer Readable Medium |
KR100612840B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
KR20050087956A (ko) * | 2004-02-27 | 2005-09-01 | 삼성전자주식회사 | 무손실 오디오 부호화/복호화 방법 및 장치 |
ATE488838T1 (de) * | 2004-08-30 | 2010-12-15 | Qualcomm Inc | Verfahren und vorrichtung für einen adaptiven de- jitter-puffer |
US7565018B2 (en) * | 2005-08-12 | 2009-07-21 | Microsoft Corporation | Adaptive coding and decoding of wide-range coefficients |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US7965848B2 (en) * | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
JP2007288468A (ja) | 2006-04-17 | 2007-11-01 | Sony Corp | オーディオ出力装置、パラメータ算出方法 |
KR101393298B1 (ko) * | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
JP4958241B2 (ja) * | 2008-08-05 | 2012-06-20 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、信号処理プログラムおよび記録媒体 |
-
2009
- 2009-04-17 EP EP09005486A patent/EP2211335A1/en not_active Withdrawn
- 2009-12-21 TW TW98143908A patent/TWI470623B/zh active
-
2010
- 2010-01-11 PT PT107016396T patent/PT2380165T/pt unknown
- 2010-01-11 MY MYPI2011003405A patent/MY160539A/en unknown
- 2010-01-11 MX MX2011007762A patent/MX2011007762A/es active IP Right Grant
- 2010-01-11 KR KR1020117017778A patent/KR101307079B1/ko active IP Right Grant
- 2010-01-11 CA CA2750037A patent/CA2750037C/en active Active
- 2010-01-11 EP EP10701639.6A patent/EP2380165B1/en active Active
- 2010-01-11 PL PL10701639T patent/PL2380165T3/pl unknown
- 2010-01-11 CN CN201080008756.0A patent/CN102334157B/zh active Active
- 2010-01-11 JP JP2011546736A patent/JP5551715B2/ja active Active
- 2010-01-11 SG SG2011052677A patent/SG173083A1/en unknown
- 2010-01-11 WO PCT/EP2010/050229 patent/WO2010084046A1/en active Application Filing
- 2010-01-11 AU AU2010206229A patent/AU2010206229B2/en active Active
- 2010-01-11 BR BRPI1005165-1A patent/BRPI1005165B1/pt active IP Right Grant
- 2010-01-11 ES ES10701639T patent/ES2831409T3/es active Active
- 2010-01-11 RU RU2011130422/08A patent/RU2543308C2/ru active
- 2010-01-14 AR ARP100100085A patent/AR075020A1/es active IP Right Grant
-
2011
- 2011-07-20 US US13/186,688 patent/US8571876B2/en active Active
- 2011-07-20 ZA ZA2011/05338A patent/ZA201105338B/en unknown
- 2011-08-19 CO CO11105765A patent/CO6420379A2/es not_active Application Discontinuation
-
2013
- 2013-07-29 JP JP2013156381A patent/JP5625093B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6035271A (en) * | 1995-03-15 | 2000-03-07 | International Business Machines Corporation | Statistical methods and apparatus for pitch extraction in speech recognition, synthesis and regeneration |
Non-Patent Citations (4)
Title |
---|
AlaindeCheveigneetal.YIN a fundamental frequency estimator for speech and music.《Journal of Acoustical Society of America》.2002 |
PARAMETRIC AM/FM DECOMPOSITION FOR SPEECH AND AUDIO CODING;Tom Backstrom et al;《2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》;20091021;全文 * |
Tom Backstrom et al.PARAMETRIC AM/FM DECOMPOSITION FOR SPEECH AND AUDIO CODING.《2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》.2009, |
YIN, a fundamental frequency estimator for speech and music;Alain de Cheveigne et al;《Journal of Acoustical Society of America》;20020430;第111卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
BRPI1005165A2 (pt) | 2017-08-22 |
CA2750037A1 (en) | 2010-07-29 |
ZA201105338B (en) | 2012-08-29 |
TW201108201A (en) | 2011-03-01 |
AU2010206229A1 (en) | 2011-08-25 |
AU2010206229B2 (en) | 2014-01-16 |
PL2380165T3 (pl) | 2021-04-06 |
EP2211335A1 (en) | 2010-07-28 |
WO2010084046A1 (en) | 2010-07-29 |
ES2831409T3 (es) | 2021-06-08 |
KR101307079B1 (ko) | 2013-09-11 |
CN102334157A (zh) | 2012-01-25 |
JP2012515939A (ja) | 2012-07-12 |
JP5625093B2 (ja) | 2014-11-12 |
KR20110110785A (ko) | 2011-10-07 |
PT2380165T (pt) | 2020-12-18 |
EP2380165B1 (en) | 2020-09-16 |
TWI470623B (zh) | 2015-01-21 |
SG173083A1 (en) | 2011-08-29 |
EP2380165A1 (en) | 2011-10-26 |
US8571876B2 (en) | 2013-10-29 |
JP2014013395A (ja) | 2014-01-23 |
BRPI1005165A8 (pt) | 2018-12-18 |
CA2750037C (en) | 2016-05-17 |
MX2011007762A (es) | 2011-08-12 |
BRPI1005165B1 (pt) | 2021-07-27 |
US20110313777A1 (en) | 2011-12-22 |
JP5551715B2 (ja) | 2014-07-16 |
CO6420379A2 (es) | 2012-04-16 |
AR075020A1 (es) | 2011-03-02 |
RU2543308C2 (ru) | 2015-02-27 |
MY160539A (en) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102334157B (zh) | 用以获得描述信号的信号特性变异的参数的装置与方法 | |
Markel et al. | Linear prediction of speech | |
EP2178082B1 (en) | Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method | |
US20030074191A1 (en) | Method and apparatus for a tunable high-resolution spectral estimator | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
EP2774146B1 (en) | Audio encoding based on an efficient representation of auto-regressive coefficients | |
de Fréin | Power-weighted LPC formant estimation | |
Yu et al. | A hybrid speech enhancement system with DNN based speech reconstruction and Kalman filtering | |
Albu et al. | Architecture selection for a multilayer feedforward network | |
Giacobello et al. | Speech coding based on sparse linear prediction | |
Kawahara et al. | Beyond bandlimited sampling of speech spectral envelope imposed by the harmonic structure of voiced sounds. | |
Srivastava | Fundamentals of linear prediction | |
Backstrom et al. | All-pole modeling technique based on weighted sum of LSP polynomials | |
CN118230741A (zh) | 一种基于正弦谐波模型的低速率语音编解码方法 | |
Grekas | On Speaker Interpolation and Speech Conversion for parallel corpora. | |
Katsir | Artificial Bandwidth Extension of Band Limited Speech Based on Vocal Tract Shape Estimation | |
Beierholm et al. | Particle filter inference in an articulatory-based speech model | |
Kovacevic et al. | Applications of Robust Estimators in Speech Signal Processing | |
장세영 | Modulation Spectrum-based Postfiltering of Synthesized Speech in the Wavelet Domain | |
Yuan et al. | All-pole Modelling of Noisy Speech with the Weighted Sum of the Line Spectrum Pair | |
Giacobello et al. | Paper C | |
JPH0990998A (ja) | 音響信号変換復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |