CN101496095A - 用于信号变化检测的系统、方法及设备 - Google Patents
用于信号变化检测的系统、方法及设备 Download PDFInfo
- Publication number
- CN101496095A CN101496095A CNA2007800280814A CN200780028081A CN101496095A CN 101496095 A CN101496095 A CN 101496095A CN A2007800280814 A CNA2007800280814 A CN A2007800280814A CN 200780028081 A CN200780028081 A CN 200780028081A CN 101496095 A CN101496095 A CN 101496095A
- Authority
- CN
- China
- Prior art keywords
- spectral tilt
- frame
- tilt value
- invalid
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明所揭示的配置包括经布置以产生基于语音信号无效帧的频谱倾斜值序列的系统、方法及设备。对于所述语音信号的多个无效帧中的每一者而言,根据在所述序列中的至少两个对应值之间所计算出的变化而作出传输决定。所述传输决定的结果确定是否针对所述对应无效帧而传输静默描述。
Description
相关申请案
本申请案主张2006年7月31日申请的第60/834,689号美国临时专利申请案的权益,该案的标题为“基于频谱倾斜的DTX方案”(“SPECTRAL TILT BASED DTXSCHEME,”),代理人案号为061657P1。
技术领域
本发明涉及信号处理。
背景技术
通过数字技术进行的话音传输已变得普遍,特别是在长途电话、例如IP话音(VoIP)的包交换电话及例如蜂窝式电话的数字无线电话中。此增长产生了对减少用于在传输信道上传送话音通信的信息量同时维持重建语音的感知质量的兴趣。
经配置以通过提取与人类语音产生模型相关的参数而压缩语音的装置称为“语音编码装置”。语音编码装置一般包括编码器及解码器。编码器通常将传入的语音信号(表示音频信息的数字信号)划分成称为“帧”的时间片段、分析每一帧以提取某些相关参数,且将所述参数量化成二进制表示,例如,一组位或二进制数据包。数据包经由传输信道(亦即,有线或无线网络连接)上传输至包括解码器的接收器。解码器接收并处理数据包、将其解量化以产生所述参数,且使用经解量化的参数重建语音帧。
在典型对话中,每一说话者在约百分之六十的时间内是静默的。语音编码器通常经配置以区分语音信号中含有语音的帧(“有效帧”)与语音信号中仅含有静默或背景噪声的帧(“无效帧”)。此编码器可经配置以使用不同的编码模式及/或速率来编码有效帧及无效帧。举例而言,语音编码器通常经配置以用比经编码的有效帧低的速率来传输经编码的无效帧(也称为“静默描述符”、“静默描述”或SID)。
在全双工电话通信期间的任一时刻,可能预期对至少一个语音编码器的输入将为无效帧。可能需要编码器针对少于所有的无效帧而传输SID。此操作也称为不连贯传输(DTX)。在一个实例中,语音编码器通过针对每一串32个连贯的无效帧传输一个SID而执行DTX。对应解码器应用SID中的信息来更新由舒适噪声产生算法用于合成无效帧的噪声产生模型。
发明内容
根据一配置的一种处理语音信号的方法包括产生基于语音信号的多个无效帧的频谱倾斜值序列。此方法包括:计算频谱倾斜值序列中的至少两个值之间的变化;及针对所述多个无效帧当中的一个无效帧,决定是否传输对所述帧的描述。在此方法中,决定是否传输对所述帧的描述是基于计算出的变化。
根据另一配置的一种计算机程序产品包括计算机可读媒体。此媒体包括用于使至少一个计算机产生基于语音信号的多个无效帧的频谱倾斜值序列的代码。此媒体包括用于使至少一个计算机计算频谱倾斜值序列中的至少两个值之间的变化的代码;及用于使至少一个计算机针对所述多个无效帧当中的一个无效帧且基于计算出的变化来决定是否传输对所述帧的描述的代码。
根据又一配置的一种用于处理语音信号的设备包括序列产生器,所述序列产生器经配置以产生基于语音信号的多个无效帧的频谱倾斜值序列。此设备包括:计算器,其经配置以计算频谱倾斜值序列中的至少两个值之间的变化;及比较器,其经配置以针对所述多个无效帧当中的一个无效帧且基于计算出的变化来决定是否传输对所述帧的描述。
根据另一配置的一种用于处理语音信号的设备包括用于产生基于语音信号的多个无效帧的频谱倾斜值序列的装置。此设备包括:用于计算频谱倾斜值序列中的至少两个值之间的变化的装置;及用以针对所述多个无效帧当中的一个无效帧且基于计算出的变化来决定是否传输对所述帧的描述的装置。
附图说明
图1A展示根据一配置的方法M100的流程图。
图1B展示根据一配置的设备A100的方框图。
图1C展示方法M100的实施方案M101的流程图。
图1D展示设备A100的实施方案A101的方框图。
图2展示平滑器130的实施方案132的方框图。
图3展示说明性实例,其中每一圆圈表示语音信号中随着时间的一系列连贯帧中的一者。
图4展示计算器140的实施方案142的方框图。
图5展示比较器150的实施方案152的方框图。
图6展示比较器150的实施方案154的方框图。
图7A展示设备A100的实施方案A102的方框图。
图7B展示将若干不同的传输指示组合成复合传输指示的实例。
图8A展示可经执行以执行方法M100的实施方案的指令集的源代码列表。
图8B展示可经执行以执行方法M100的另一实施方案的指令集的源代码列表。
图9展示包含方法M101与语音编码方法的组合的方法的流程图。
图10展示包含设备A101与语音编码器的组合的设备的方框图。
图11A展示方法M100的实施方案M200的流程图。
图11B展示设备A100的实施方案A200的流程图。
图12A展示方法M101的实施方案M110的流程图。
图12B展示方法M200的实施方案M210的流程图。
图12C展示方法M101的实施方案M120的流程图。
图12D展示方法M200的实施方案M220的流程图。
图13A及图13B分别展示在应用及不应用延期的情况下的经平滑频谱倾斜轮廓的实例。
图14展示可经执行以执行方法M100的另一实施方案的指令集的源代码列表。
图15展示延期逻辑电路的实例的方框图。
图16A展示平滑器132的实施方案134的方框图。
图16B展示平滑器132的实施方案136的方框图。
图17A展示控制信号产生器60的一个实例62的方框图,实例62经配置以基于预测增益而产生更新控制信号。
图17B展示控制信号产生器62的一个实例64的方框图,实例64经配置以应用延期。
图18展示控制信号产生器64的实施方案66的方框图,实施方案66也包括延期逻辑电路52。
图19A展示传输指示控制电路70的一个实例72的方框图。
图19B展示比较器152的实施方案156的方框图。
图20展示控制电路80的一个实例82的方框图,实例82经配置以产生更新控制信号并门控SID传输指示。
图21展示可经执行以执行方法M100的另一实施方案的指令集的源代码列表。
具体实施方式
本文所述的配置包括用于检测语音信号变化的系统、方法及设备。举例而言,揭示了用于检测信号的无效时期期间的变化且基于此检测而起始对信号描述的更新的多个配置。这些配置通常意在用于包交换网络(例如,经配置以根据例如IP话音或VoIP的协议载运话音传输的有线及/或无线网络)中,但也明确涵盖并特此揭示在电路交换网络中的使用。
除非在术语“计算”的上下文中明确加以限制,否则术语“计算”在本文中是用于指示其普通意义中的任一者,例如,计算、评估、平滑及从多个值中进行选择。在术语“包含”用于本实施方式及权利要求书的情况下,其并不排除其它元件或操作。术语“A基于B”用于指示其普通意义中的任一者,包括下述情况:(i)“A基于至少B”,及(ii)“A等于B”(如果在特定上下文中是合适的)。
实施DTX的编码器可经配置以根据消隐方案(blanking scheme)丢弃(或“消隐”)大多数无效帧。消隐方案的一个实例以规则间隔(例如,每16个或32个连贯无效帧一次)发出对静默描述(silence description)的更新。其它消隐方案(也称为“智能消隐”方案)经配置以在检测到可指示背景噪声变化的能量及/或频谱特性波动后即发出对静默描述的更新。
仅依赖于能量波动的消隐方案可能有时无法检测到感知上显著的背景噪声变化。在某些情况下,感知上不同的无效帧将具有类似的能量特性(通常编码为增益值)。尽管(例如)街道中的背景噪声(“街道噪声”)可能会具有与拥挤空间中的背景噪声(“串音噪声”(babble noise))的随时间能量分布类似的随时间能量分布,但是这两种类型的噪声通常将以极为不同的方式被感知。无法区分感知上不同类型的噪声的消隐方案可能在解码器处引起可听假象(artifact)。因为有效帧也包括(例如)背景噪声,所以在解码器从解码的有效帧切换成从不当SID产生的舒适噪声时可能发生可听不连贯性。
需要消隐方案检测可能感知上显著的背景噪声变化。举例而言,可能需要消隐方案检测背景噪声的一个或一个以上频谱特性(例如,频谱倾斜)的突然变化。如本文所述的方法或设备可用于实施此消隐方案。或者,如本文所述的方法或设备可用于辅助另一消隐方案。举例而言,语音编码器或语音编码方法可将如本文所述的方法或设备与如第2006/0171419号美国专利申请案公开案(斯宾得勒(Spindola)等人,2006年8月3日公开)中所述的消隐方案或与经配置以检测帧能量变化及/或语音信号的频谱特性变化(例如,线谱对向量之间的差值)的另一消隐方案组合。
图1A展示根据一般配置的方法M100的流程图。基于语音信号的多个无效帧,任务T200产生频谱倾斜值序列。任务T400计算频谱倾斜值序列内的变化(例如,序列中的至少两个值之间的变化)。针对语音信号的无效帧,任务T500决定是否传输对所述帧的描述,其中所述决定基于计算出的变化。举例而言,是否传输描述的决定可基于(A)计算出的变化的量值与(B)阈值之间的关系。
在方法M100的典型实施方案中,频谱倾斜值序列当中的每一者基于对应无效帧的频谱倾斜。语音信号的帧的频谱倾斜为描述帧内的能量在频率范围上的分布的值。通常,频谱倾斜指示对应帧上信号的频谱的斜率,且可为正的或负的。产生频谱倾斜序列的下一个值的行为也称为“更新”所述序列。
频谱倾斜值序列中的值通常布置为按时间顺序,以使得序列的连续值对应于时间上连续的信号片段。以此方式布置的频谱倾斜值序列可被说成表示描述语音信号的能谱斜率随时间的变化的轮廓(亦即,频谱倾斜轮廓)。
可实施任务T200以用若干不同方式中的任一方式来产生频谱倾斜值序列。举例而言,任务T200可经配置以从存储元件或阵列(例如,半导体存储器单元或阵列)、从较大过程(例如,语音编码方法)的另一任务或从例如语音编码器的设备的元件接收此序列。或者,任务T200可经配置以如本文所述计算此序列。
任务T200可经配置以输出所接收或计算出的序列(本文中也表示为x)而作为产生的频谱倾斜值序列。或者,任务T200可经配置以通过对此序列x执行一个或一个以上其它操作而产生频谱倾斜值序列y。这些其它操作可包括从序列x中的值当中选择另一序列:例如,每n个值选择(其中n为大于1的整数),及/或仅选择对应于无效帧的那些值。如本文所述,这些其它操作也可包括平滑所接收的、计算出的或选定的序列。
语音信号的每一时间片段(也称为“片段”或“帧”)的持续时间通常选择为足够短,以使得可预期信号的频谱包络保持为相对平稳的。举例而言,一个典型帧长度为20毫秒,此对应于8千赫(kHz)取样速率下的160个样本,但可使用任何被视为适合于特定应用的帧长度或取样速率。在某些应用中,帧为非重迭的,而在其它应用中则使用重迭帧方案。举例而言,语音编码装置普遍在编码器处使用重迭帧方案而在解码器处使用非重迭帧方案。
在典型应用中,逻辑门阵列经配置以执行方法M100的各种任务中的一者、一者以上乃至全部任务。举例而言,此任务或这些任务可实施为待由例如处理器的可编程阵列执行的机器可执行代码。方法M100的任务也可由一个以上的此阵列执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如是蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以(例如,使用例如VoIP的一个或一个以上协议)与电路交换及/或包交换网络通信。举例而言,此装置可包括经配置以传输编码的有效帧及SID的RF电路。方法M100也可实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如,磁盘、快闪存储器或其它非易失性存储卡、半导体存储器芯片等)中的机器可读代码。
在方法M100的典型应用中,任务T400在任务T200所产生的频谱倾斜值序列上进行迭代,以基于连续对的频谱倾斜值而计算一系列变化,且任务T500在所述系列变化上进行迭代以执行一系列传输决定。一般而言,任务T200作为现行过程执行,且任务T400与T500以串行方式或并行方式进行迭代,从而针对语音信号的每一个无效帧而产生频谱倾斜值以及对应的计算出的变化及传输指示(例如,可能在一个或一个以上无效帧的初始化时期之后)。也可能将方法M100实施成使得任务T200以低于每个无效帧的频率(例如,对于每两个或三个帧)产生频谱倾斜值,使得任务T400以与任务T200一样的频率或较低的频率(例如,对于任务T200的每两个或三个迭代)执行,及/或使得任务T500以与任务T400一样的频率或较低的频率(例如,对于任务T400的每两个或三个迭代)执行。
图1B展示根据一般配置的设备A100的方框图。序列产生器120经配置以产生基于语音信号的多个无效帧的频谱倾斜值序列。举例而言,序列产生器120可经配置以执行如本文所揭示的任务T200的实施方案。计算器140经配置以计算频谱倾斜值序列中的至少两个值之间的变化。举例而言,计算器140可经配置以执行如本文所揭示的任务T400的实施方案。比较器150经配置以决定是否传输对语音信号的无效片段的描述,其中所述决定基于计算出的变化(例如,基于(A)计算出的变化的量值与(B)阈值之间的关系)。举例而言,比较器150可经配置以执行如本文所揭示的任务T500的实施方案。在典型应用中,设备A100的实施方案经布置以处理频谱倾斜值序列,并基于所述序列产生一系列传输决定。
设备A100的各种元件可以视为适合于所意图的应用的硬件、软件及/或固件的任一组合而实施。举例而言,这些元件中的任一者均可实施为一个或一个以上逻辑门阵列。这些元件中的任两者或两者以上乃至全部可实施于同一阵列或若干相同阵列内。此阵列或这些阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。设备A100的各种元件中的任一者也可实施为一个或一个以上计算机(例如,经编程以执行一个或一个以上指令集或指令序列的阵列,也称为“处理器”),且这些元件中的任两者或两者以上乃至全部可实施于同一个此计算机或若干相同的此计算机内。设备A100的各种元件可包括于用于无线通信的装置内,所述装置例如是蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以(例如,使用例如VoIP的一个或一个以上协议)与电路交换及/或包交换网络通信。举例而言,此装置可包括经配置以根据对应传输决定的结果而传输SID的语音编码器,及/或经配置以传输编码的有效帧及SID的RF电路。
值可用于指示帧的频谱倾斜的参数的一个实例为第一反射系数k0,且下文将描述其它此类参数。任务T200可经布置以从较大程序(例如,语音编码方法)的另一任务接收频谱倾斜值序列。或者,任务T200可经实施以包括任务T210,如下文所述,任务T210经配置以计算这些值。同样,序列产生器120可经配置以从例如语音编码器或通信装置的较大设备的另一元件接收频谱倾斜值序列。或者,序列产生器120可经实施以包括计算器128,如下文所述,计算器128经配置以计算这些值。
任务T200可经实施以包括任务T300,任务T300平滑频谱倾斜值序列。任务T300的典型实施方案经配置以根据自回归模型(例如,无限脉冲响应(IIR)滤波器)对频谱倾斜值序列进行滤波。任务T300的特定实例执行下述的第一级IIR滤波操作,以将经平滑序列y的每一值计算为输入的频谱倾斜值序列x的当前值与经平滑序列y的前一值的加权平均值:
y[n]=ax[n]+(1-a)y[n-1],(1)
其中n表示顺序索引。视所要的平滑度而定,增益因数a可具有从0至1的任一值。一般而言,增益因数a具有不大于0.6的值。举例而言,增益因数a可具有处于从0.1(或从0.15)至0.4(或至0.5)的范围中的值。在一个特定实例中,序列x为第一反射系数k0的一系列值,且增益因数a具有值0.2(零点二)。图1C展示方法M100的实施方案M101的流程图,其中任务T200实施为任务T300。图1D展示设备A100的实施方案A101的方框图,其中序列产生器120实施为经配置以执行任务T300的实施方案的平滑器130。
图2展示平滑器130的实施方案132的一个实例的方框图。平滑器132包括:第一乘法器,其经配置以将增益因数G10应用于输入的频谱倾斜值序列的当前值x[n];第二乘法器,其经配置以将增益因数G20应用于如从延缓元件D获取的经平滑的频谱倾斜值序列的前一值y[n-1];及加法器,其经布置以输出作为所述两个乘积的和的y[n]。可能需要(例如,为了稳定性)增益因数G10具有如上文参考任务T300所描述的值a,且需要增益因数G20具有值(1-a)。在一个特定实例中,序列x为第一反射系数k0的一系列值,增益因数G10具有值0.2(零点二),且增益因数G20具有值0.8(零点八)。如上所述,平滑器132可以视为适合于所意图的应用的硬件、软件及/或固件的任一组合而实施。
替代或另外,任务T300可经配置以通过对频谱倾斜值序列x(或对序列x执行平滑操作的结果)执行一个或一个以上其它求平均值、积分及/或低通滤波操作而计算经平滑的频谱倾斜值序列y的值。举例而言,在方法M100的替代实施方案中,任务T300经配置以根据移动平均模型(例如,有限脉冲响应(FIR)滤波器)而对序列x进行滤波。在方法M100的另一替代实施方案中,任务T300经配置以根据自回归移动平均(ARMA)模型而对序列x进行滤波。类似地,平滑器130可实施为经配置以基于两个或两个以上输入值而产生平滑值的积分器或其它低通滤波器(例如,FIR或ARMA滤波器)。
方法M100通常经实施以使得在任务T300中经平滑的频谱倾斜值序列x中的每一值对应于语音信号的多个连续帧中的一者。类似地,设备A100通常经实施以使得由平滑器130进行平滑的序列x中的每一值对应于语音信号的多个连续帧中的一者。注意,这些连续帧无需为连贯的,下文将对此更为详细地进行描述。
语音信号将通常含有有效帧以及无效帧。然而,在有效帧期间的能量分布很可能主要归因于背景噪声之外的因素,从而使得来自有效帧的能量分布值不太可能提供关于背景噪声变化的可靠信息。因此,可能需要频谱倾斜值序列x仅包括对应于无效帧的值。在此情况下,序列x的值可对应于语音信号中不连贯的连续(无效)帧。
为说明此原理,图3展示一实例,其中每一圆圈表示语音信号中随着时间的一系列连贯帧中的一者。表示无效帧的圆圈每一者标记有频谱倾斜值序列x中的对应值的索引编号。在此实例中,值74及75在序列中是连贯的。尽管对应于值74及75的无效帧在语音信号中是连续的,但是其由有效帧区块分隔,且因此并非彼此连贯。
方法M100可经布置以使得任务T300仅接收序列x中对应于无效帧的频谱倾斜值。或者,任务T300可经实施以从对应于连贯帧的频谱倾斜值序列当中仅选择对应于无效帧的那些值。举例而言,任务T300的此实施方案可经配置以如下文所述基于从语音编码器、语音编码方法或话音活动检测任务T100接收的话音活动指示而选择对应于无效帧的频谱倾斜值(及/或去除对应于有效帧的值)。
同样,设备A100可经配置以使得平滑器130仅接收序列x中对应于无效帧的频谱倾斜值。或者,平滑器130可经实施以从对应于连贯帧的频谱倾斜值序列当中仅选择对应于无效帧的那些值。举例而言,平滑器130的此实施方案可经配置以如下文所述基于从语音编码器、语音编码方法或话音活动检测器110接收的话音活动指示而选择对应于无效帧的频谱倾斜值(及/或除去对应于有效帧的值)。
任务T400计算任务T200所产生的频谱倾斜值序列中的至少两个值之间的变化。举例而言,任务T400可经配置以根据例如下述表达式的表达式来计算经平滑序列y中的连贯值之间的差值(也称为“德耳塔(Delta)”):
z[n]=y[n]-by[n-1],(2)
其中z表示输出,且b表示增益因数。图4展示计算器140的实施方案142,实施方案142可用于执行任务T400的此实例中b等于1的特定情况(亦即,根据第一级FIR高通滤波操作z[n]=y[n]-y[n-1])。计算器140及/或任务T400的其它实施方案可经配置以使用b的不同值而应用此滤波操作。举例而言,b的值可根据所要的频率响应进行选择。对于任务T200经配置以产生序列x的情况而言,T400或计算器142的此实施方案可经布置以根据例如z[n]=x[n]-x[n-1]的表达式而计算差值。如上所述,计算器142可以视为适合于所意图的应用的硬件、软件及/或固件的任一组合而实施。
替代或另外,任务T400可经配置以对所产生的频谱倾斜值序列执行一个或一个以上其它微分操作,例如,不同的高通滤波操作(例如,将第一级IIR高通滤波器应用于所产生的序列),或用其它方式计算所产生的序列中的值之间的距离或其它变化。类似地,计算器140可实施为经配置以计算两个或两个以上输入值之间的差值或其它距离或变化的微分器、差值计算器或其它高通IIR或FIR滤波器。
任务T400所计算出的变化可用于指示所产生的频谱倾斜值序列的变化率。举例而言,如上所述的z[n]的量值可用于指示背景噪声的频谱倾斜轮廓从一个无效帧至下一个无效帧变化了多少。任务T400通常经布置以用迭代方式计算一系列距离,所述距离的量值表示在相应帧周期上经平滑轮廓的变化率。
任务T500决定是否传输对语音信号的无效片段的描述,其中所述决定基于任务T400所计算出的对应变化。举例而言,任务T500可经配置以通过将计算出的变化的量值与阈值T比较而决定是否传输描述。任务T500的此实施方案可经配置以根据此比较的结果而设置二进制旗标:
其中旗标p[n]的值指示传输决定的结果。在此情况下,一或逻辑“真”的p[n]值是肯定传输指示(亦即,具有肯定状态的传输指示、传输启用指示、对传输的决定的指示),其指示应针对当前帧而传输对静默描述的更新;且零或逻辑“假”的p[n]值是否传输指示(亦即,具有否定状态的传输指示、传输停用指示、对不传输的决定的指示),其指示不应针对当前帧而传输对静默描述的更新。在一个实例中,阈值T具有值0.2。较低阈值可用于提供对所产生的频谱倾斜值序列中的变更的较大敏感性,而较高阈值可用于提供所产生的频谱倾斜值序列中的瞬变的较大去除。
所属领域的技术人员将认识到,在方法M100的替代实施方案中,任务T400可根据例如下述表达式的表达式而将变化计算为一量值:
z[n]=|y[n]-by[n-1]|,
且任务T500可经配置以根据例如下述比较的比较的结果而设置二进制旗标:
方法M100也可经实施以包括任务T500的不同变化形式,例如,将阈值与计算出的变化中的两者或两者以上的平均量值(例如,当前及先前帧的计算出的变化的平均量值)相比较的实施方案。
图5展示比较器150的实施方案152的方框图,实施方案152可用于执行任务T500的实施方案。在此实例中,比较器152经配置以通过计算所计算出的变化的量值并将所述量值与阈值T10相比较而执行传输决定。在一个特定实例中,阈值T10具有值0.2(零点二)。图6展示比较器150的另一实施方案154的方框图,实施方案154可用于执行任务T500的实施方案。在此实例中,比较器154经配置以分别将计算出的变化的带正负号的值与正阈值T10及负阈值T20相比较,并在计算出的变化大于(或者,不小于)阈值T10或小于(或者,不大于)阈值T20时发出肯定传输指示。在一个实例中,阈值T20具有为阈值T10的负值的值,以使得比较器152与154经配置以产生相同结果。然而,如果需要的话,比较器154也可经实施以使得阈值T20与阈值T10具有不同的量值。
比较器150的另一实施方案经布置以从计算器140接收计算出的变化作为一量值,并将此量值与阈值T10相比较。如上所述,比较器150的这些实施方案(亦即,包括比较器152及154)可用视为适合于所意图的应用的硬件、软件及/或固件的任一组合而实施。图7A展示设备A100的一个实施方案A102的方框图,实施方案A102经配置以对输入信号x[n]执行如上所述的多种操作以产生对应传输指示。
图8A展示一指令集的源代码列表的一个实例,所述指令集可由可编程逻辑元件阵列或其它状态机(例如,计算机或处理器)执行以执行方法M101的一实施方案,所述实施方案包括任务T300、T400及T500的实施方案。在此实例中,变量k0保留当前帧的频谱倾斜值x[n],变量y_当前(y_current)最初保留经平滑的频谱倾斜值序列y的最近值,而旗标p保留传输指示的状态。第1部分通过使用增益因数a的值0.2根据上文的表达式(1)来计算经平滑序列y的当前值而执行任务T300。第2部分通过使用增益因数b的值1根据上文的表达式(2)来计算经平滑序列y的当前值与最近值之间的变化而执行任务T400。第3部分通过使用阈值0.2根据计算出的变化与阈值之间的比较结果来设置旗标p而执行任务T500。在典型应用中,以迭代方式执行所述指令集(例如,针对每一个无效帧),从而使得每一迭代的变量y_当前的初始值为在先前迭代期间所计算出的变量y_当前的最终值。
如上所述,任务T300可经配置以基于频谱倾斜值序列x的一个或一个以上过去值及/或经平滑的频谱倾斜值序列y的一个或一个以上过去值而计算经平滑序列y的当前值。然而,对于经平滑序列y的初始值而言,序列x的过去值及/或经平滑序列y的过去值可能不存在。如果任务T300使用任意值或零值替代过去值来计算经平滑序列y的值,则结果可使任务T400输出大得不适当的计算出的变化,此又可能会导致任务T500甚至在频谱倾斜轮廓实际上恒定的情况下也输出肯定传输指示。
可能需要初始化经配置以保留序列x及/或经平滑序列y的过去值的一个或一个以上变量(例如,数据存储位置)。此初始化可在任务T300首次执行之前执行,及/或可在任务T300内执行。举例而言,一个或一个以上此类变量可经初始化成序列x的当前值。在特定实例中,经配置以存储经平滑序列的过去值(上文的表达式(1)中的y[n-1])的变量被初始化为输入序列的当前值(上文的表达式(1)中的x[n])。对于任务T400经布置以基于值x[n]及x[n-1]而计算变化的不同实例而言,经配置以存储输入序列的过去值x[n-1]的变量被初始化为输入序列的当前值x[n]。替代或另外,方法M100可经配置以避免针对最先几个无效帧输出肯定传输指示(例如,通过迫使任务T500针对那些帧输出具有否定状态的传输指示)。在此情况下,任务T200(可能包括任务T300)可经配置以将任意值或零值用于一个或一个以上过去值中的每一者,而非如本文所述初始化那些变量。
图8B展示指令集的源代码列表的另一实例,所述指令集可由可编程逻辑元件阵列或其它状态机(例如,处理器)执行以执行方法M101的一实施方案,所述实施方案包括任务T300的实施方案T310以及任务T400及T500的实施方案。在此实例中,任务T310包括初始化操作,所述初始化操作使用变量Y_有效(Y_VALID)来指示之前是否已调用所述指令集且因此指示存储于变量y_当前中的值是否有效。在此情况下,调用例行程序(例如,较大程序,例如语音编码方法)将经配置以在调用所述指令集之前将Y_有效的值初始化为“假”。如果所述指令集确定Y_有效的值为“假”(亦即,如果所述指令集正在首次执行),那么将变量y_当前初始化为变量k0的当前值。
静默描述(SID)通常包括对帧的频谱包络的描述及/或对帧的能量包络的描述。这些描述可能是从当前无效帧及/或从一个或一个以上先前无效帧导出的。SID也可叫作其它名称,例如“静默描述更新”、“静默描述符”、“静默插入描述符”、“舒适噪声描述符帧”及“舒适噪声参数”。在如文件3GPP2C.S0014-C版本1.0“用于宽带扩展频谱数字系统的增强可变速率编解码器、语音服务选项3、68及70”(“Enhanced Variable RateCodec,Speech Service Options 3,68,and 70for Wideband Spread Spectrum DigitalSystems”)中所述的增强型可变速率编解码器(EVRC)的特定实例中,使用噪声激励线性预测(NELP)编码模式以八分之一速率(每帧16个位)对SID进行编码,而使用码激励线性预测(CELP)、原型音调周期(PPP)或NELP编码模式以全速率(每帧171个位)、半速率(每帧80个位)或四分之一速率(每帧40个位)对有效帧进行编码。
频谱包络描述一般包括一组编码参数,例如滤波系数、反射系数、线谱频率(LSF)、线谱对(LSP)、导抗频谱频率(ISF)、导抗谱对(ISP)、倒频谱系数、或对数面积比。可布置为一个或一个以上向量的所述组编码参数通常作为一个或一个以上索引量化至对应查找表或“代码簿”中。
SID内的频谱包络描述的典型长度目前处于8至28个位的范围中。在如上文引用的3GPP2C.S0014-C版本1.0中所述的EVRC的特定实例中,每一16位的SID包括代码簿中用于频谱包络的低频信息的四位的索引LSPIDX1,及代码簿中用于频谱包络的高频信息的四位的索引LSPIDX2。在如文件ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),Sophia Antipolis Cedex,FR,2004年12月)中所述的自适应多速率(AMR)语音编解码器的特定实例中,每一35位的SID包括用于三个LSF子向量中的每一者的8位或9位长的索引。在如文件ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所述的AMR宽带语音编解码器的特定实例中,每一35位的SID包括用于五个ISF子向量中的每一者的5位或6位长的索引。
能量包络描述可包括待应用于帧的增益值(也称为“增益框架”)。替代或另外,能量包络描述可包括待应用于帧的若干子帧中的每一者的增益值(统称为“增益轮廓(gainprofile)”)。通常,将增益框架及/或增益轮廓作为一个或一个以上索引量化至对应代码簿中,但在某些情况下可使用一算法以在不使用代码簿的情况下量化及/或解量化增益框架及/或增益轮廓。SID内的能量包络描述的典型长度目前处于5至8个位的范围中。在如上文引用的3GPP2C.S0014-C v.1.0中所述的EVRC的特定实例中,每一16位的SID包括8位的能量索引FGIDX。在如上文引用的ETSI TS 126 092 V6.0.0中所述的AMR语音编解码器及上文引用的ETSI TS 126 192 V6.0.0中所述的AMR宽带语音编解码器的特定实例中,每一35位的SID包括6位的能量索引。
方法M100或设备A100可用作消隐方案以支持DTX。举例而言,包括方法M100的程序或包括设备A100的装置可经配置以仅在任务T500所产生的传输指示的状态为肯定时执行SID的传输。其它消隐方案也可用于支持DTX。一个此实例为每当最近SID传输以来所出现的连贯无效帧的数目达到(或者,超过)阈值DTX_最大值(DTX_MAX)时便发出肯定SID传输指示的方法或设备。DTX_最大值的典型值包括16及32。消隐方案的另一实例在每当最近有效帧以来所出现的连贯无效帧的数目达到(或者,超过)一阈值时便发出肯定SID传输指示。
可用于支持DTX的其它消隐方案包括经配置以在检测到语音信号的能量及/或频谱包络描述的变化后发出肯定SID传输指示的方案。举例而言,此方案可经配置以在检测到帧的频谱包络描述(例如,LSF、LSP、ISF或ISP向量)与最后传输的SID的频谱包络描述之间的距离超过阈值(或者,不小于阈值)时发出肯定SID传输指示,其指示传输对当前无效帧的描述的决定。可能需要在计算距离之前对频谱包络描述进行滤波(例如,平滑)。此方案的一变化形式经配置以在其也检测到当前无效帧的能量包络描述与最后传输的SID的能量包络描述之间的距离超过阈值(或者,不小于阈值)时发出肯定SID传输指示。另一变化形式经配置以在其检测到满足这些条件中的任一者时发出肯定SID传输指示。可使用的其它消隐方案包括经配置以根据阈值与例如帧的平均绝对值或帧的能量值(例如,样本平方和)的值(可对所述值进行滤波及/或加权)之间的比较而发出肯定SID传输指示的方案。
可用于支持DTX的消隐方案的另一实例经配置以在检测到最后传输的SID与当前无效帧之间的板仓(Itakura)距离超过阈值(或者,不小于阈值)时发出肯定SID传输指示。此方案的一变化形式经配置以在检测到(A)最后传输的SID与(B)当前无效帧与先前无效帧的平均值之间的板仓距离超过阈值(或者,不小于阈值)时发出肯定SID传输指示。板仓距离为基于自相关及残余能量值的频谱变化指标,且此方案的描述可在ITU-T建议G.729附录B(ITU-T Recommendation G.729Annex B,国际电信联盟,日内瓦,CH,1996年10月)中查知。
方法M100或设备A100的实施方案可与一个或一个以上其它消隐方案(例如,上述的消隐方案中的一者或一者以上)组合。举例而言,包括或执行此实施方案的设备可经配置以在其消隐方案中的任一者针对所述帧发出肯定SID传输指示时传输SID。图7B展示此实例的一个实施方案,其中使用逻辑“或”运算将若干不同的传输指示组合成一复合传输指示。
如上所述,SID可从一个或一个以上无效帧导出。举例而言,可能需要包括设备A100的装置或包括方法M100的程序计算并传输表示若干经编码无效帧的平均值的SID,而非将SID作为单个经编码无效帧来传输。此平均值可使用FIR或IIR滤波操作及/或通过使用例如中值滤波的统计方法进行计算,其中所述中值滤波可包括废弃离群值(outlier)或用中值取代离群值。举例而言,所述装置或程序可经配置以通过用对一个或一个以上先前无效帧的能量及频谱包络描述以统计方式平滑对当前帧的能量及频谱包络描述而计算SID,从而使得所得的SID含有近期最常出现的增益及频率值。
对其计算平均值的帧的数目可为固定的,或可根据(例如)平稳性指标而变更。此指标的一个实例为在不同的两组帧上所获得的频谱平均值之间的距离(例如,板仓距离)。在如上文引用的G.729附录B中所述的一个此实例中,对六个过去帧(包括当前帧)及对两个过去帧计算平均值。如果这两个平均值之间的距离超过阈值(或者,不小于阈值),那么SID包括对两个帧求平均值的频谱描述(例如,假设信号是局部不平稳的)。否则,SID包括对六个帧求平均值的频谱描述(例如,假设信号是局部平稳的)。在如上文引用的ETSI TS 126 192 V6.0.0中所述的AMR宽带编解码器的特定实例中,SID包括抖动指示,所述抖动指示的状态是根据当前帧与先前七个帧之间的频谱距离的和或根据当前帧的能量与过去帧的平均能量值之间的距离而设置。
方法M100可经实施以使得任务T200从另一过程(例如,语音编码过程)接收频谱倾斜值序列。举例而言,经配置以执行方法M100的实施方案的装置或系统通常也将经配置以对语音信号执行语音编码方法。语音编码方法可包括线性预测编码(LPC)分析,所述分析计算一组系数,所述组系数将语音信号在时刻t的样本模型化为语首信号在t之前的时刻的样本的线性组合。由通信装置(例如,蜂窝式电话)的语音编码器执行的LPC分析通常具有级数四、六、八、十、12、16、20、24、28或32。就对语音信号的不同频带执行单独的LPC分析的情况而言,任务T200可经布置以接收基于对低频带(例如,包括1kHz以下的频率)或中频带(例如,包括至少处于1kHz与2kHz之间的频率)的分析的频谱倾斜值序列。
任务T200可经配置以接收频谱倾斜值序列作为反射系数序列,例如,第一或第二反射系数序列。本文所揭示的配置的范围包括包含方法M100与语音编码方法的组合(例如,如图9所述)的方法,以及包括方法M100的语音编码方法。
设备A100可经实施以使得序列产生器120从例如语音编码器的另一设备接收频谱倾斜值序列。举例而言,包括设备A100的实施方案的装置或系统通常将也包括语音编码器,所述语音编码器可经配置以对语音信号执行LPC分析。在此情况下,序列产生器120可经布置以接收频谱倾斜值序列作为反射系数序列。本文所揭示的配置的范围包括包含设备A100与语音编码器的组合(例如,如图10所描绘)的设备,以及包括设备A100的语音编码器。
或者,任务T200可经实施以包括任务T210,任务T210基于语音信号的多个无效帧而计算频谱倾斜值序列。任务T210可经配置以(例如)根据如下文所述的若干不同技术中的一者或一者以上而对一系列帧中的每一者评估信号的频谱倾斜。图11A展示方法M100的实施方案M200的流程图,实施方案M200包括任务T200的此实施方案T202。任务T210也可经配置以将计算出的频谱倾斜值序列提供至较大过程(例如,语音编码方法)的其它任务。方法M100也可经实施以便将任务T200实施为任务T210。
图11B展示设备A100的实施方案A200的方框图,实施方案A200包括序列产生器120的实施方案122。序列产生器122包括计算器128,计算器128经配置以基于语音信号的多个无效帧而计算频谱倾斜值序列。举例而言,计算器128可经配置以执行如本文所揭示的任务T210的实施方案。如同设备A200的其它元件,计算器128也可用视为适合于所意图的应用的硬件、软件及/或固件的任一组合而实施。计算器128也可经配置以将计算出的频谱倾斜值序列提供至例如语音编码器的较大设备的其它任务。设备A100也可经实施以便将序列产生器120实施为计算器128。
任务T210的典型实施方案经配置以将频谱倾斜计算为语音信号的对应帧的第一反射系数。可将帧的第一反射系数(通常表示为k0)计算为比R(1)/R(0)(亦即,帧的正规化的第一自相关值),对于处于-1至+1的范围中的样本值而言,比R(1)/R(0)具有处于-1与+1之间的纯量值。在此表达式中,R(1)表示帧的第一自相关系数(亦即,在滞后一个样本时帧的自相关函数的值),且R(0)表示帧的第零个自相关系数(亦即,在零滞后时帧的自相关函数的值)。
在其它实施方案中,任务T210经配置以将频谱倾斜计算为语音信号的对应帧的第二反射系数。帧的第二反射系数(通常表示为k1)可计算为:
其中R(2)表示帧的第二自相关系数(亦即,在滞后两个样本时帧的自相关函数的值)。也可实施任务T210以基于一个或一个以上其它参数(例如,一个或一个以上LPC滤波系数)而计算对应帧的一个或一个以上反射系数(例如,第一及/或第二反射系数)。
任务T210的实施方案的范围并不限于将频谱倾斜计算为反射系数的那些实施方案。或者或另外,任务T210可经配置以执行一个或一个以上其它频谱评估技术,从而计算一个或一个以上帧的频谱倾斜。这些频谱评估技术可包括将每一帧的频谱倾斜计算为高频带能量与低频带能量之间的比。此计算可包括对片段执行频率变换,例如离散傅立叶变换(DFT)。这些频谱评估技术可包括将频谱倾斜计算为每一片段内的零交叉的数目。在此情况下,较高数目的零交叉可理解为是指示较大量的高频能量。
在计算频谱倾斜值序列时,任务T210可经配置以基于自相关函数的值而执行计算,例如,如上所述计算一个或一个以上反射系数。计算LPC模型参数(例如滤波或反射系数)的自相关方法涉及执行一系列迭代以求解包括特普立兹(Toeplitz)矩阵的方程式。在某些实施方案中,任务T210经配置以根据用于求解此方程式的众所周知的李文森(Levinson)及/或杜宾(Durbin)递归算法中的任一者而执行自相关方法。此算法通常将反射系数(也称为部分相关(PARCOR)系数、负PARCOR系数或斯促尔-斯蔡格(Schur-Szego)参数)计算为产生一组LPC滤波系数的过程中的中间值。
在其它实施方案中,任务T210经配置以执行一系列迭代,从而计算一个或一个以上反射系数而非一组滤波系数。举例而言,任务T210可经配置以使用勒鲁-盖恩(Leroux-Gueguen)算法的实施方案来获取一个或一个以上反射系数。或者,任务T210可经配置以使用另一众所周知的迭代方法的实施方案,以便从自相关值获取一个或一个以上反射系数,例如斯促尔递归算法(其可经配置而用于有效的平行计算)或博格(Burg)递归算法。
任务T210可经配置以计算语音信号的对应帧的自相关函数的一个或一个以上值。举例而言,任务T210可经配置以根据例如下述表达式的表达式而针对特定滞后值m(其中m为不小于零的整数)来评估帧的自相关函数:
其中N表示帧中的样本的数目。或者,任务T210可经配置以(例如,从语音编码器或语音编码方法或其它过程)接收自相关函数的值。
语音编码器或语音编码方法可经配置以将自相关函数的值用于编码操作中,所述编码操作例如是计算LPC模型的参数(例如,滤波及/或反射系数)。可能需要此语音编码器或语音编码方法对自相关值执行一个或一个以上预处理操作。举例而言,可通过执行例如下述操作的操作而对自相关值R(m)进行频谱平滑:
在此情境中,任务T210可经配置以对自相关值执行频谱平滑或另一预处理操操作,及/或使用经过频谱平滑或以其它方式进行预处理的自相关值来计算频谱倾斜参数的值。
在将自相关函数应用于语音信号(例如,通过任务T210,或语音编码器或语音编码方法)之前,可能需要将开窗函数w[n]应用于所述信号。举例而言,可能需要使当前正被应用自相关函数的帧外面的语音信号归零。在某些情况下,开窗函数w[n]为矩形或三角形的。可能需要使用在窗的每一端具有低样本权重的楔形开窗函数,此可帮助减少窗外的分量的影响。举例而言,可能需要升余弦窗,例如,下述的汉明(Hamming)开窗函数:
其中N为帧中的样本的数目。
可使用的其它楔形窗包括汉宁(Hanning)、布雷克曼(Blackman)、凯斯(Kaiser)及巴列特(Bartlett)窗。开窗的帧sw[n]可根据例如下述表达式的表达式而计算:
sw[n]=s[n]w[n];0≤n≤N-1。
开窗函数无需对称,以使得窗的一半可以与另一半以不同的方式进行加权。也可使用混合窗,例如汉明余弦窗,或具有两半不同的窗(例如,大小不同的两个汉明窗)的窗。可在样本值及/或开窗的值用于评估自相关函数之前对其执行例如感知加权的一个或一个以上其它预处理操作(例如,通过任务T210或语音编码器或语音编码方法)。
开窗函数w[n]可经配置以包括当前帧的样本以及来自一个或一个以上邻近帧的样本。在某些情况下,窗包括来自当前帧以及邻近的先前帧及后来帧的样本(例如,包括紧接在20毫秒帧之前及之后的5毫秒的5-20-5窗)。在其它情况下,窗包括仅来自当前帧及邻近的先前帧的样本(例如,包括当前20毫秒帧及先前帧的最后10毫秒的10-20窗)。
对将开窗函数应用于语音信号(例如,通过任务T210或语音编码器或语音编码方法)的情况而言,帧的自相关函数可根据例如下述表达式的表达式而计算:
如上所述,可能需要任务T300或平滑器130平滑仅包括对应于无效帧的值的序列。在此情况下,方法M100或设备A100可经布置以(例如,从语音编码器或语音编码方法)接收帧中的话音活动的水平的指示。举例而言,此指示(也称为“话音活动指示”)可具有二进制变量或旗标的形式,所述二进制变量或旗标的状态指示对应帧是有效的还是无效的。
话音活动指示可用于控制平滑任务T300的操作。举例而言,话音活动指示可用于允许从对应无效帧产生经平滑的频谱倾斜值,及/或防止从对应有效帧产生经平滑的频谱倾斜值。在一个此实例中,计算机或处理器经配置以控制任务T300仅在话音活动指示指示对应帧为无效帧时平滑频谱倾斜值。或者,任务T300可包括根据对应话音活动检测的值而决定是否产生经平滑的频谱倾斜值或决定接受还是去除频谱倾斜值。图12A展示方法M101的实施方案M110的流程图,实施方案M110包括任务T300的此实施方案T320。
话音活动指示可用于控制计算任务T210的操作。举例而言,话音活动指示可用于允许针对对应无效帧产生频谱倾斜,及/或防止针对对应有效帧产生频谱倾斜。在一个此实例中,处理器经配置以控制任务T210仅在话音活动指示指示当前帧为无效帧时计算频谱倾斜。或者,根据对应话音活动指示的值,任务T210可经配置以包括决定是否针对给定帧产生频谱倾斜,或可经配置以控制其输入(例如,接受还是去除帧)及/或其输出(例如,是否发出频谱倾斜值)。图12B展示方法M200的实施方案M210的流程图,实施方案M210包括任务T202的实施方案T204,其中任务T204包括任务T210的此实施方案T220。
作为接收话音活动指示的替代方式,方法M100可经实施以包括任务T100,任务T100经配置以指示帧是有效的还是无效的。举例而言,任务T100可经配置以计算如上所述的话音活动指示(VAI)。图12C展示方法M101的包括任务T100的实施方案M120的流程图,且图12D展示方法M200的包括任务T100的实施方案M220的流程图。任务T100可经配置以基于一个或一个以上因素而将帧分为有效或无效的,所述一个或一个以上因素例如是全频带能量、低频带能量、高频带能量、频谱参数(例如,一个或一个以上LSF及/或反射系数)、周期性及零交叉率。举例而言,此分类可包括将此特性的值与固定或自适应阈值相比较,及/或计算此特性的值的变化量值(例如,两个值之间的差值的量值,或一值与一移动平均值之间的差值的量值)并将所述量值与固定或自适应阈值相比较。
任务T100可经配置以评估当前帧在低频带及高频带中的每一者中的能量,并在每一频带中的能量小于(或者,不大于)相应阈值时指示帧为无效的。这些阈值可为固定或自适应的。举例而言,每一阈值可基于所要的编码速率。在上文所引用的C.S0014-Cv.1.0的章节4.7中描述了一对自适应阈值的一个实例。在此实例中,用于每一频带的阈值是基于锚定操作点(如从所要的平均数据速率导出)、先前帧的在所述频带中的背景噪声电平的估计及先前帧的在所述频带中的信噪比。
从有效语音到无效语音的过渡通常发生在一段具有若干帧的时期上,且除背景噪声之外,在从有效语音过渡之后的最先几个无效帧还可能会包括发音残余(voicingremnant)。发音残余可能会使这些后过渡无效帧具有与背景噪声的频谱倾斜不同的频谱倾斜,且这些差别可能会破坏任务T200所产生的频谱倾斜值序列,并导致不必要的SID传输。
如上所述,可能需要任务T200产生仅基于无效帧的序列x的值。同样,可能需要任务T300产生仅基于来自无效帧的一个或一个以上频谱倾斜值的经平滑序列y的值。也可能需要方法M100的实施方案避免使用来自一个或一个以上后过渡帧的频谱倾斜值更新频谱倾斜轮廓。此限制可帮助减小决定任务T500作出错误肯定的可能性。
任务T200可经配置以根据对应无效帧与先前有效帧之间的时间距离而产生所产生的频谱倾斜值序列的一个或一个以上值。举例而言,任务T200或任务T300的此实施方案可经配置以在从有效语音过渡之后针对一个或一个以上无效帧而延迟或延缓频谱倾斜轮廓更新的开始。图13A及图13B分别说明此过渡及此延迟或延缓的影响的实例。图13A展示后过渡帧中的发音残余所引起的经平滑频谱倾斜轮廓幅值的急剧变化。此变化可导致不当的肯定SID传输决定。在此特定实例中,频谱倾斜参数为第一反射系数k0,以使得发音残余引起经平滑频谱倾斜轮廓的幅值的急剧上升,但发音残余可能会在使用另一频谱倾斜参数的情况下改为引起幅值的急剧降低。通过比较,图13B展示一实例,其中应用延迟(也称为“延期”)以在后过渡帧期间停用对经平滑轮廓的更新。在此情况下,并不发生图13A中所看到的急剧上升。在一个特定实例中,在从有效语音过渡到无效语音之后使用五个帧的延期。
图14展示一指令集的源代码列表的一实例,所述指令集可由可编程逻辑元件阵列或其它状态机(例如,处理器)执行以执行方法M100的一实施方案,所述实施方案包括任务T310的实施方案T312以及任务T400及T500的实施方案。在此实例中,任务T312读取存储话音活动指示的当前状态的变量帧_有效(FRAME_ACTIVE)。如果帧_有效的值为“真”(此指示当前帧是有效的),则将延期计数存储至变量延期_1(hangover_1),且所述指令集终止。在此特定实例中,延期计数为5,但可使用任何其它正整数值。当帧_有效的值变为“假”时(此指示当前帧是无效的),所述指令集的每一后续迭代使变量延期_1的值递减,且至变量延期_1的值达到零时便早早终止。在此实例中,任务T400及T500使用如上文参考图8B而描述的指令加以实施。
方法M100及设备A100的实例包括经配置以根据更新控制信号的状态而控制对频谱倾斜轮廓的更新的实施方案。此信号可基于如上所述的话音活动指示。图14所示的变量帧_有效为更新控制信号(具体来说是更新停用信号)的一个实例。延期逻辑电路50可用于通过在话音活动指示中延迟有效至无效的过渡而计算更新控制信号。图15展示延期逻辑电路50的实施方案52,实施方案52经配置以产生更新控制信号(具体来说是更新启用信号)。在此图中,话音活动指示的状态对于无效帧而言为低而对于有效帧而言为高,具有三个延迟元件的抽头延迟线用于实施三个帧的延期,且逻辑“或非”运算用于组合当前与延缓的话音活动指示。在其它实例中,话音活动指示的状态对于无效帧而言可能为高而对于有效帧而言可能为低,且在此情况下,可使用逻辑“与”运算组合当前与延迟的话音活动指示。就抽头延迟线而言,此电路的其它实例可根据所要的延期持续时间而使用任一数目的延迟元件。或者,延期逻辑电路50可经实施以使用延迟计数器从有效到无效的过渡进行递减计数(或递增计数),及/或计算更新停用信号而非更新启用信号。
序列产生器120可经配置以根据对应无效帧与先前有效帧之间的时间距离而产生所产生的频谱倾斜值序列的一个或一个以上值。举例而言,序列产生器120或平滑器130可经配置以根据所要的延期而在有效到无效的过渡之后延缓频谱倾斜轮廓更新的开始。序列产生器120或平滑器130的此实施方案可经配置以包括如上所述的延期逻辑电路50的实施方案。图16A展示平滑器132的一个此实施方案134。在此实例中,选择器(例如,多路复用器)根据更新控制信号的状态而在序列的当前值(亦即,x[n])与经平滑频谱倾斜轮廓的先前值(亦即,y[n-1])之间切换平滑器的输入。或者,平滑器110的实施方案可经配置以在更新控制信号为高时存储当前值x[n],且在更新控制信号为低时将此存储的值用于输入。
图16B展示平滑器132的另一实施方案136,实施方案136包括如上所述的延期逻辑电路50的实施方案。此实例包括两个选择器(例如,多路复用器),所述两个选择器经配置以根据更新控制信号的状态而输出不同的增益因数。第一选择器输出待应用于x[n]的增益因数。当更新控制信号的状态为高时,此选择器便输出增益因数F10,且当更新控制信号的状态为低时,此选择器输出增益因数F12。第二选择器输出待应用于y[n-1]的增益因数。当更新控制信号的状态为高时,此选择器输出增益因数F20,且当更新控制信号的状态为低时,此选择器输出增益因数F22。在一个实例中,增益因数F10及F12分别具有值0.2及0,且增益因数F20及F22分别具有值0.8及1.0。
平滑器136的另一实施方案可经配置以在用于每一增益因数的两个以上的值之间进行选择,从而使得平滑器从延缓至正常操作的过渡更为平缓。举例而言,替代产生双态控制信号的延期逻辑电路,此平滑器可包括延期逻辑电路50的经配置以产生具有两个以上状态的控制信号的实施方案。延期逻辑电路50的此实例可经配置以产生响应于有效到无效的过渡而经历c个状态的更新控制信号,其中c为大于二的整数。在此情况下,平滑器136的所述两个选择器可经配置以使得,响应于过渡且在一系列c个帧上,应用于x[n]的增益因数经历从最小值到最大值(例如,从0.0到0.2)的c个值,而应用于y[n-1]的增益因数经历从最大值到最小值(例如,从1.0到0.8)的c个值。
编码增益指标描述由语音编码器(或语音编码方法)所接收的信号的能量与对应编码误差的能量之间的关系。通常,语音编码器或语音编码方法比起无效帧而言将更为有效地编码有效帧,从而使得有效帧的编码增益指标将高于无效帧。帧的编码增益指标的一个实例为初始信号能量Ein(例如,开窗帧的能量)与编码残余能量Eerr的比。在这些情况下,通常将每一信号的能量计算为样本量值的和。LPC分析的另一常见编码增益指标为预测增益,可对于所有i≤j(或者,对于所有i,1<i≤j))将其计算为(1-ki 2)的结果的倒数,其中j为LPC分析的级数,而ki指示第i个反射系数。
语音编码器或语音编码方法所实现的编码增益程度往往随着信号统计数据的变化而逐帧地变更。然而,在一系列无效帧期间,可预期信号将相对平稳以使得其统计数据将不会发生显著的变更。因此,可预期编码增益指标的值Gc甚至在背景噪声发生可察觉的显著变化期间也保持相对恒定。
编码增益指标的值Gc的较大变化可能指示语音信号由于除背景噪声变化之外的因素而发生变化。可引起值Gc的此变化的一个因素为话音活动低于编码器话音活动检测器的检测阈值。在此情况下,频谱倾斜值也可能发生较大变化,从而导致即使背景噪声尚未显著变化,任务T500也会作出肯定SID传输决定。
可能需要实施方法M100以考虑到与编码增益指标的值Gc的变化相关联的频谱倾斜变化。举例而言,任务T200的实施方案T230或任务T300的实施方案T330可经配置以基于编码增益指标的值Gc的变化量值而启用或停用轮廓更新。
在某些情况下,编码增益指标可依据编码误差来计算,正如在例如以下表达式中:
同样,预测增益也可计算为预测误差,正如在例如以下表达式中:
编码增益指标也可根据其它表达式来计算,所述其它表达式(例如)也包括下述乘积:
或包括Ein与Eerr之间的比作为因数或项。
编码增益指标可在线性标度上或另一域中(例如,在对数标度上)进行表达。这些表达式的实例包括下述表达式:
编码增益指标通常是针对每一帧而评估,但也可以较低频率(例如,针对每两个或每三个帧)及/或在较长间隔上(例如,在一对或三个帧上)进行评估。
在典型布置中,任务T230或任务T330经配置以在值Gc从一个无效帧至下一个无效帧变化超过阈量(或者,不小于阈量)时停用对所产生的频谱倾斜轮廓的更新。在一个特定实例中,任务T330经配置以在预测增益的值从先前无效帧到当前无效帧变化超过0.72dB时停用对经平滑轮廓的更新。任务T230或任务T330的实施方案可经配置以应用延期,从而将此停用扩展至一个或一个以上后续帧。任务T230或任务T330的另一实施方案也可经配置以如上文所述(例如,参考图13A至图16B)在从有效语音过渡之后应用延期。
可能需要实施设备A100以考虑到与编码增益指标(例如,上述实例之一)的值Gc的变化相关联的频谱倾斜轮廓变化。举例而言,设备A100可经实施以包括经配置以产生更新控制信号的控制信号产生器60,所述更新控制信号的状态基于预测增益的变化的量值。图17A展示控制信号产生器60的一个实例62的方框图。控制信号产生器60也可经实施以应用延期,如同在图17B所示的控制信号产生器64的实例中一样。在一个特定实例中,阈值T30的值为0.72dB。替代经配置以在话音活动指示中延迟有效到无效的过渡的电路或除了所述电路之外,平滑器134或136的实施方案可包括控制信号产生器60的实施方案。举例而言,此实施方案可包括如图18所示的控制信号产生器66,控制信号产生器66组合延期逻辑电路62与控制信号产生器64的操作。
方法M100的实施方案可经配置以根据编码增益指标的值的变化而控制SID传输指示的产生。举例而言,方法M100的实施方案可包括任务T400的一实施方案,任务T400的所述实施方案经配置以在编码增益指标(例如,预测增益)的值从一个无效帧到下一个无效帧变化超过阈量(或者,不小于阈量)时输出距离零。另外或在替代方案中,方法M100的实施方案可包括任务T500的一实施方案,任务T500的所述实施方案经配置以根据预测增益的变化的量值而启用或停用肯定SID传输指示的产生。任务T500的一个此实施方案T510经配置以停用肯定SID传输指示的产生,除非预测增益从先前无效帧至当前无效帧变化小于(或者,不超过)阈值。在一个此特定实例中,所述阈值为0.65dB。除了控制频谱倾斜轮廓的更新之外或作为控制频谱倾斜轮廓的更新的替代方式,可执行对传输指示的产生的控制。
设备A100的实施方案可经配置以根据编码增益指标的值Gc的变化而控制SID传输指示的产生。图19A展示传输指示控制电路70的一个实例72的方框图,实例72经配置以根据阈值T40与预测增益变化的量值之间的关系而门控肯定SID传输指示。在一个特定实例中,阈值T40的值为0.65dB。图19B展示比较器152的实施方案156的方框图,实施方案156包括传输指示控制电路72。
设备A100的实施方案可经配置以基于编码增益指标的值Gc的变化而控制更新控制信号与SID传输指示的产生。图20展示控制电路80的经配置以执行这些操作的一个实例82的方框图。此电路可经配置以从比较器150接收SID传输指示,并将更新控制信号提供到平滑器130。此电路也可实施于平滑器130或比较器150内。举例而言,在平滑器134或136中,控制电路82可经布置以取代延期逻辑电路52,并根据预测增益而门控来自比较器150的SID传输指示。在另一实例中,控制电路82可布置于比较器152内,以根据预测增益而门控SID传输指示,且也将更新控制信号提供至平滑器130。
图21展示一指令集的源代码列表的一个实例,所述指令集可由可编程逻辑元件阵列或其它状态机(例如,处理器)执行以执行方法M100的一实施方案,所述实施方案包括任务T312及T330的实施方案T332、任务T500的实施方案T510及任务T400的实施方案。在此实例中,变量帧_有效的状态指示当前帧是有效的还是无效的,变量Y_有效(Y_VALID)的状态指示之前是否已调用所述指令集(且因此指示存储于变量y_当前中的值是否有效),且变量Gc的值指示用于当前帧的预测增益。
如果所述指令集确定Y_有效的值为“假”(亦即,如果所述指令集正在首次执行),那么将变量Gc_当前初始化为变量Gc的当前值。将Gc的当前值与过去值之间的绝对差值存储至变量Gc_差值(Gc_diff),且如果此差值大于阈值,则应用两个帧的延期。在第3部分中,仅在Gc_差值的值小于阈值时才设置旗标p。
呈现本文所述的逻辑实施方案的特定实例以解释本发明而非对其进行限制,且所属领域的技术人员将易了解,替代性逻辑实施方案包括在本发明的范围内。举例而言,在一个情境中实施为经布置以仅在其所有输入均为高时才产生有效高信号的“与”门的选择逻辑可在另一情境中实施为经配置以仅在其所有输入均为低时才产生有效低信号的“或”门。从第一值到第二值的递减计数也可实施为从第二值到第一值的递增计数,且反之亦然。肯定或“真”指示在一情境中可用二进制高值表达,而在另一情境中可用二进制低值表达。预期且由此揭示这些及其它实施性等效物也包括在本发明的范围内。
在上述实例中,假设频谱倾斜值序列包括一系列连贯无效帧中的每一者的值。然而,也预期方法M100及设备A100可经实施以使得频谱倾斜值序列包括少于一系列连贯无效帧中的每一者的一个值。举例而言,所述序列可包括所述系列中的每隔一个帧(或每隔两个帧等)的值。此序列可通过忽略中间帧或废弃来自这些帧的值而获取,或通过求每一对(三个等等)帧的值的平均值而获取。替代或另外,这些原理可应用于其它序列,例如编码增益指标的值的序列。
所属领域的技术人员将了解,信息及信号可用多种不同技术及技艺中的任一者来表示。举例而言,可在整个上述描述中提及的数据、指令、命令、信息、信号、位及符号可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任一组合表示。尽管从其导出所产生的频谱倾斜值序列的信号称为“语音信号”,但是也预期且由此揭示此信号也可在有效帧期间载运音乐或其它非语音信息内容。
如本文所述的设备100的各种实施方案的元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片之间的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件阵列,例如晶体管或门。如本文所述的设备100的各种实施方案的一个或一个以上元件也可整个或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行,所述逻辑元件阵列例如是微处理器、嵌入式处理器、IP核心、数字信号处理器、场可编程门阵列(FPGA)、专用标准产品(ASSP)专用集成电路(ASIC)。
设备100的实施方案的一个或一个以上元件可用于执行并非与所述设备的操作直接相关的任务或执行并非与所述设备的操作直接相关的其它指令集,例如与嵌入有所述设备的装置或系统的另一操作相关的任务。设备A100的实施方案的一个或一个以上元件也可具有共同结构(例如,用于在不同时刻执行代码的对应于不同元件的部分的处理器、经执行以在不同时刻执行对应于不同元件的任务的指令集,或在不同时刻对不同元件执行操作的电子及/或光学装置的布置)。在一个此实例中,平滑器130、计算器140及比较器150经实施为经布置以在同一处理器上执行的指令集。在另一此实例中,序列产生器120乃至语音编码器(其可包括设备A100)经实施为经布置以在所述处理器上执行的一个或一个以上指令集。
提供对所描述的配置的以上陈述以使所属领域的技术人员能够制造或使用本文所揭示的方法及其它结构。本文所展示并描述的流程图及其它结构仅为实例,且这些结构的其它变化形式也在本发明的范围内。对这些配置的多种修改是可能的,且本文所呈现的一般原理也可应用于其它配置。
本文所述的配置可部分或整个地实施为硬连线电路、实施为制造成专用集成电路的电路配置,或实施为载入至非易失性存储装置中的固件程序或作为机器可读代码而从数据存储媒体载入或载入至数据存储媒体的软件程序,此代码为可由逻辑元件阵列(例如,微处理器或其它数字信号处理单元)执行的指令。数据存储媒体可为存储元件的阵列,所述存储元件例如是半导体存储器(其可包括(但不限于)动态或静态RAM(随机存取存储器)、ROM(只读存储器)及/或快闪RAM);或铁电、磁电阻、双向、聚合或相变存储器;或例如磁盘或光盘的盘媒体。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列及这些实例的任一组合。
本文所揭示的方法也可确实地(例如,在上文所列举的一个或一个以上数据存储媒体中)体现为一个或一个以上指令集,所述一个或一个以上指令集可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取及/或执行。因此,本发明并非意在限于上文所示的配置,而是意在符合与本文中、包括在所申请的随附权利要求书中以任一方式揭示的原理及新颖特征一致的最广泛范围,其中附加权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将进一步了解到,结合本文所揭示的配置而描述的各种说明性逻辑区块、模块、电路及操作可实施为电子硬件、计算机软件或两者的组合。这些逻辑区块、模块、电路及操作可使用通用处理器、数字信号处理器(DSP)、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文所述功能的其任一组合来实施或执行。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心结合的组合或任何其它此配置。
本文所述的方法及算法的任务可直接以硬件、以可由处理器执行的软件模块或以所述两者的组合而实施。软件模块可驻留于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可换式磁盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合至处理器,以使得处理器可从所述存储媒体读取信息及将信息写入到所述存储媒体。在替代方案中,存储媒体可整合到处理器。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器及存储媒体可作为离散组件而驻留于用户终端中。
Claims (46)
1.一种处理语音信号的方法,所述方法包含:
产生基于所述语音信号的多个无效帧的频谱倾斜值序列;
计算所述频谱倾斜值序列中的至少两个值之间的变化;及
针对所述多个无效帧当中的一个无效帧,决定是否传输对所述帧的描述,
其中所述决定是否传输对所述帧的描述是基于所述计算出的变化。
2.根据权利要求1所述的处理语音信号的方法,其中所述产生频谱倾斜值序列包含平滑另一频谱倾斜值序列以产生所述频谱倾斜值序列,
其中所述另一序列中的所述频谱倾斜值中的每一者指示所述多个无效帧中的一个对应无效帧的频谱倾斜。
3.根据权利要求1所述的处理语音信号的方法,其中所述频谱倾斜值中的每一者是基于所述语音信号的对应无效帧的至少一个反射系数。
4.根据权利要求1所述的处理语音信号的方法,其中多个所述频谱倾斜值中的每一者是基于所述频谱倾斜值序列中的其它频谱倾斜值中的至少一者。
5.根据权利要求1所述的处理语音信号的方法,其中多个所述频谱倾斜值中的每一者是基于(A)所述多个无效帧中的一个对应无效帧的频谱倾斜及(B)所述频谱倾斜值序列中的所述其它频谱倾斜值中的至少一者。
6.根据权利要求1所述的处理语音信号的方法,其中所述计算出的变化是基于所述频谱倾斜值序列中的连贯值之间的差值。
7.根据权利要求1所述的处理语音信号的方法,其中所述计算变化包含计算所述频谱倾斜值序列中的邻近值之间的距离。
8.根据权利要求1所述的处理语音信号的方法,其中所述决定是否传输对所述帧的描述包含将所述计算出的变化与阈值相比较。
9.根据权利要求1所述的处理语音信号的方法,其中所述决定是否传输对所述帧的描述的结果是基于(A)所述计算出的变化的量值与(B)阈值之间的关系。
10.根据权利要求1所述的处理语音信号的方法,其中所述方法包含如果所述决定是否传输对所述帧的描述的结果为决定传输对所述帧的描述,则传输静默描述,所述静默描述包括频谱包络描述及能量包络描述中的至少一者。
11.根据权利要求10所述的处理语音信号的方法,其中所述方法包含基于(A)对多个无效帧中的每一者的频谱包络描述及(B)对多个无效帧中的每一者的能量包络描述当中的至少一者而计算所述静默描述。
12.根据权利要求1所述的处理语音信号的方法,其中所述决定是否传输对所述帧的描述是基于下述各项当中的至少一者:(A)描述所述帧的频谱包络的向量、(B)所述帧的残余能量、(C)到对无效帧的描述的最近传输的时间距离、(D)到最近有效帧的时间距离、(E)对所述帧的能量包络的描述、(F)所述帧的平均绝对值、及(G)所述帧的能量值。
13.根据权利要求12所述的处理语音信号的方法,其中所述方法包含如果所述决定是否传输对所述帧的描述的结果为决定传输对所述帧的描述,则传输静默描述,所述静默描述包括频谱包络描述及能量包络描述中的至少一者。
14.根据权利要求1所述的处理语音信号的方法,其中所述决定是否传输对所述帧的描述包含响应于检测到编码增益指标的变化超过阈值而决定不传输对所述帧的描述。
15.根据权利要求14所述的处理语音信号的方法,其中所述编码增益指标的每一值均基于所述语音信号的对应无效帧的多个反射系数的值。
16.根据权利要求1所述的处理语音信号的方法,其中所述方法包含针对所述频谱倾斜值序列中的多个所述频谱倾斜值中的每一者而计算所述频谱倾斜值与所述频谱倾斜值序列中的至少一个其它频谱倾斜值之间的变化,且
其中所述方法包含针对所述语音信号的另外多个无效帧中的每一者而决定是否传输对所述帧的描述,且
其中,对于所述另外多个无效帧中的每一者,所述决定是否传输对所述帧的描述的结果是基于所述计算出的变化中的至少一者。
17.根据权利要求16所述的处理语音信号的方法,其中,对于所述另外多个无效帧中的至少一些无效帧中的每一者,所述决定是否传输对所述帧的描述的结果是决定不传输对所述帧的描述。
18.根据权利要求16所述的处理语音信号的方法,其中,对于所述另外多个无效帧中的每一者,所述决定是否传输对所述帧的描述包含响应于检测到编码增益指标的变化超过阈值而决定不传输对所述帧的描述。
19.根据权利要求18所述的处理语音信号的方法,其中,对于所述另外多个无效帧中的每一者,编码增益指标的所述变化是基于(A)用于所述语音信号中处于所述帧之前的第一个无效帧的所述编码增益指标的值及(B)用于所述语音信号中处于所述帧之前且不同于所述第一个无效帧的第二无效帧的所述编码增益指标的值。
20.根据权利要求1所述的处理语音信号的方法,其中所述产生频谱倾斜值序列包含针对所述多个无效帧当中的至少一些无效帧中的每一者,根据所述无效帧与所述语音信号的先前有效帧之间的时间距离而产生所述频谱倾斜值序列当中的一个对应频谱倾斜值。
21.根据权利要求20所述的处理语音信号的方法,其中所述产生所述频谱倾斜值序列当中的一个对应频谱倾斜值包含当所述无效帧与所述语音信号的先前有效帧之间的所述时间距离小于阈值时,将所述频谱倾斜值设置为所述频谱倾斜值序列当中的前一者。
22.根据权利要求1所述的处理语音信号的方法,其中所述产生频谱倾斜值序列包含针对所述多个无效帧当中的至少一些无效帧中的每一者,根据所述无效帧的编码增益指标而计算所述频谱倾斜值序列当中的一个对应频谱倾斜值。
23.根据权利要求1所述的处理语音信号的方法,其中所述产生频谱倾斜值序列包含针对所述频谱倾斜值序列当中的至少一者中的每一者,响应于检测到编码增益指标的变化超过阈值而将所述频谱倾斜值设置为所述频谱倾斜值序列当中的前一者。
24.一种计算机程序产品,其包含计算机可读媒体,所述媒体包含:
用于使至少一个计算机产生基于语音信号的多个无效帧的频谱倾斜值序列的代码;
用于使至少一个计算机计算所述频谱倾斜值序列中的至少两个值之间的变化的代码;及
用于使至少一个计算机针对所述多个无效帧当中的一个无效帧且基于所述计算出的变化来决定是否传输对所述帧的描述的代码。
25.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机产生频谱倾斜值序列的所述代码经配置以使所述至少一个计算机基于所述频谱倾斜值序列中的其它频谱倾斜值中的至少一者而产生多个所述频谱倾斜值中的每一者。
26.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机计算变化的所述代码经配置以使所述至少一个计算机基于所述频谱倾斜值序列中的连贯值之间的差值而计算所述变化。
27.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机决定是否传输对所述帧的描述的所述代码经配置以使所述至少一个计算机基于(A)所述计算出的变化的量值与(B)阈值之间的关系而决定是否传输对所述帧的描述。
28.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机决定是否传输对所述帧的描述的所述代码包括用以使所述至少一个计算机响应于编码增益指标的变化超过阈值而决定不传输对所述帧的描述的代码。
29.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机计算变化的所述代码经配置以使所述至少一个计算机针对所述频谱倾斜值序列中的多个所述频谱倾斜值中的每一者而计算所述频谱倾斜值与所述频谱倾斜值序列中的至少一个其它频谱倾斜值之间的变化,且
其中用于使至少一个计算机决定是否传输对所述帧的描述的所述代码经配置以使所述至少一个计算机针对所述语音信号的另外多个无效帧中的每一者而决定是否传输对所述帧的描述,且
其中用于使至少一个计算机决定是否传输对所述帧的描述的所述代码经配置以使得对于所述另外多个无效帧中的每一者,是否传输对所述帧的描述的所述决定是基于所述计算出的变化中的至少一者。
30.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机产生频谱倾斜值序列的所述代码包含用于使所述至少一个计算机针对所述多个无效帧当中的至少一些无效帧中的每一者而根据所述无效帧与所述语音信号的先前有效帧之间的时间距离来产生所述频谱倾斜值序列当中的一个对应频谱倾斜值的代码。
31.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机产生频谱倾斜值序列的所述代码经配置以使所述至少一个计算机针对所述频谱倾斜值序列当中的至少一者中的每一者而响应于检测到编码增益指标的变化超过阈值来将所述频谱倾斜值设置为所述频谱倾斜值序列当中的前一者。
32.根据权利要求24所述的计算机程序产品,其中用于使至少一个计算机产生频谱倾斜值序列的所述代码经配置以使所述至少一个计算机平滑另一频谱倾斜值序列而产生所述频谱倾斜值序列,
其中所述另一序列中的所述频谱倾斜值中的每一者指示所述多个无效帧中的一个对应无效帧的频谱倾斜。
33.一种用于处理语音信号的设备,所述设备包含:
序列产生器,其经配置以产生基于所述语音信号的多个无效帧的频谱倾斜值序列;
计算器,其经配置以计算所述频谱倾斜值序列中的至少两个值之间的变化;及
比较器,其经配置以针对所述多个无效帧当中的一个无效帧且基于所述计算出的变化来决定是否传输对所述帧的描述。
34.根据权利要求33所述的用于处理语音信号的设备,其中所述比较器经配置以基于(A)所述计算出的变化的量值与(B)阈值之间的关系而决定是否传输对所述帧的描述。
35.根据权利要求33所述的用于处理语音信号的设备,其中所述设备包含用于无线通信的装置,所述装置包括所述序列产生器、所述计算器及所述比较器,且
其中所述装置经配置以响应于所述比较器所作出的传输对所述帧的描述的决定而传输静默描述,所述静默描述包括频谱包络描述及能量包络描述中的至少一者。
36.根据权利要求33所述的用于处理语音信号的设备,其中所述比较器经配置以响应于编码增益指标的变化超过阈值而决定不传输对所述帧的描述。
37.根据权利要求33所述的用于处理语音信号的设备,其中所述计算器经配置以针对所述频谱倾斜值序列中的多个所述频谱倾斜值中的每一者而计算所述频谱倾斜值与所述频谱倾斜值序列中的至少一个其它频谱倾斜值之间的变化,且
其中所述比较器经配置以针对所述语音信号的另外多个无效帧中的每一者而决定是否传输对所述帧的描述,且
其中所述比较器经配置以使得对于所述另外多个无效帧中的每一者,是否传输对所述帧的描述的所述决定是基于所述计算出的变化中的至少一者。
38.根据权利要求33所述的用于处理语音信号的设备,其中所述序列产生器经配置以针对所述多个无效帧当中的至少一些无效帧中的每一者而根据所述无效帧与所述语音信号的先前有效帧之间的时间距离来产生所述频谱倾斜值序列当中的一个对应频谱倾斜值。
39.根据权利要求33所述的用于处理语音信号的设备,其中所述序列产生器经配置以针对所述频谱倾斜值序列当中的至少一者中的每一者而响应于检测到编码增益指标的变化超过阈值来将所述频谱倾斜值设置为所述频谱倾斜值序列当中的前一者。
40.根据权利要求33所述的用于处理语音信号的设备,其中所述序列产生器经配置以通过平滑另一频谱倾斜值序列而产生所述频谱倾斜值序列,
其中所述另一序列中的所述频谱倾斜值中的每一者指示所述多个无效帧中的一个对应无效帧的频谱倾斜。
41.一种用于处理语音信号的设备,所述设备包含:
用于产生基于所述语音信号的多个无效帧的频谱倾斜值序列的装置;
用于计算所述频谱倾斜值序列中的至少两个值之间的变化的装置;及
用于针对所述多个无效帧当中的一个无效帧且基于所述计算出的变化来决定是否传输对所述帧的描述的装置。
42.根据权利要求41所述的用于处理语音信号的设备,其中所述设备包含用于响应于所述用于决定的装置所作出的传输对所述帧的描述的决定而传输静默描述的装置,所述静默描述包括频谱包络描述及能量包络描述中的至少一者。
43.根据权利要求41所述的用于处理语音信号的设备,其中用于产生频谱倾斜值序列的所述装置经配置以针对所述多个无效帧当中的至少一些无效帧中的每一者而根据所述无效帧与所述语音信号的先前有效帧之间的时间距离来产生所述频谱倾斜值序列当中的一个对应频谱倾斜值。
44.根据权利要求41所述的用于处理语音信号的设备,其中所述用于产生频谱倾斜值序列的装置经配置以针对所述频谱倾斜值序列当中的至少一者中的每一者而响应于检测到编码增益指标的变化超过阈值来将所述频谱倾斜值设置为所述频谱倾斜值序列当中的前一者。
45.根据权利要求41所述的用于处理语音信号的设备,其中所述用于产生频谱倾斜值序列的装置经配置以通过平滑另一频谱倾斜值序列而产生所述频谱倾斜值序列,其中所述另一序列中的所述频谱倾斜值中的每一者指示所述多个无效帧中的一个对应无效帧的频谱倾斜。
46.一种处理语音信号的方法,所述方法包含:
产生基于所述语音信号的多个无效帧的频谱倾斜值序列;
计算所述频谱倾斜值序列中的至少两个值之间的变化;及
针对所述多个无效帧当中的一个无效帧,决定是否传输对所述帧的描述,
其中所述决定是否传输对所述帧的描述是基于所述计算出的变化,且
其中所述产生频谱倾斜值序列包含针对所述多个无效帧当中的至少一些无效帧中的每一者,根据所述无效帧与所述语音信号的先前有效帧之间的时间距离来产生所述频谱倾斜值序列当中的一个对应频谱倾斜值。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US83468906P | 2006-07-31 | 2006-07-31 | |
US60/834,689 | 2006-07-31 | ||
US11/830,548 US8725499B2 (en) | 2006-07-31 | 2007-07-30 | Systems, methods, and apparatus for signal change detection |
US11/830,548 | 2007-07-30 | ||
PCT/US2007/074895 WO2008016942A2 (en) | 2006-07-31 | 2007-07-31 | Systems, methods, and apparatus for signal change detection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101496095A true CN101496095A (zh) | 2009-07-29 |
CN101496095B CN101496095B (zh) | 2012-11-21 |
Family
ID=40925461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800280814A Active CN101496095B (zh) | 2006-07-31 | 2007-07-31 | 用于信号变化检测的系统、方法及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101496095B (zh) |
TW (1) | TWI467979B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014190641A1 (zh) * | 2013-05-30 | 2014-12-04 | 华为技术有限公司 | 一种媒体数据的传输方法、装置和系统 |
CN105590629A (zh) * | 2014-11-18 | 2016-05-18 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
CN106575509A (zh) * | 2014-07-28 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 谐波滤波器工具的谐度依赖控制 |
CN106847306A (zh) * | 2016-12-26 | 2017-06-13 | 华为技术有限公司 | 一种异常声音信号的检测方法及装置 |
CN108962275A (zh) * | 2018-08-01 | 2018-12-07 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
CN110164458A (zh) * | 2013-10-29 | 2019-08-23 | 株式会社Ntt都科摩 | 音频信号处理装置以及音频信号处理方法 |
CN112334980A (zh) * | 2018-06-28 | 2021-02-05 | 瑞典爱立信有限公司 | 自适应舒适噪声参数确定 |
CN112530407A (zh) * | 2020-11-25 | 2021-03-19 | 北京快鱼电子股份公司 | 一种语种识别方法及系统 |
CN112334980B (zh) * | 2018-06-28 | 2024-05-14 | 瑞典爱立信有限公司 | 自适应舒适噪声参数确定 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110138367A (ko) * | 2009-03-13 | 2011-12-27 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 보조 데이터의 삽입 및 추출 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
US6687668B2 (en) * | 1999-12-31 | 2004-02-03 | C & S Technology Co., Ltd. | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
US6807525B1 (en) * | 2000-10-31 | 2004-10-19 | Telogy Networks, Inc. | SID frame detection with human auditory perception compensation |
KR20050049103A (ko) * | 2003-11-21 | 2005-05-25 | 삼성전자주식회사 | 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 |
-
2007
- 2007-07-31 CN CN2007800280814A patent/CN101496095B/zh active Active
- 2007-07-31 TW TW96128125A patent/TWI467979B/zh active
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886960B2 (en) | 2013-05-30 | 2018-02-06 | Huawei Technologies Co., Ltd. | Voice signal processing method and device |
US10692509B2 (en) | 2013-05-30 | 2020-06-23 | Huawei Technologies Co., Ltd. | Signal encoding of comfort noise according to deviation degree of silence signal |
WO2014190641A1 (zh) * | 2013-05-30 | 2014-12-04 | 华为技术有限公司 | 一种媒体数据的传输方法、装置和系统 |
CN104217723A (zh) * | 2013-05-30 | 2014-12-17 | 华为技术有限公司 | 信号编码方法及设备 |
CN106169297B (zh) * | 2013-05-30 | 2019-04-19 | 华为技术有限公司 | 信号编码方法及设备 |
CN104217723B (zh) * | 2013-05-30 | 2016-11-09 | 华为技术有限公司 | 信号编码方法及设备 |
CN106169297A (zh) * | 2013-05-30 | 2016-11-30 | 华为技术有限公司 | 信号编码方法及设备 |
CN105225668A (zh) * | 2013-05-30 | 2016-01-06 | 华为技术有限公司 | 信号编码方法及设备 |
CN105225668B (zh) * | 2013-05-30 | 2017-05-10 | 华为技术有限公司 | 信号编码方法及设备 |
CN110164458A (zh) * | 2013-10-29 | 2019-08-23 | 株式会社Ntt都科摩 | 音频信号处理装置以及音频信号处理方法 |
CN106575509A (zh) * | 2014-07-28 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 谐波滤波器工具的谐度依赖控制 |
WO2016078439A1 (zh) * | 2014-11-18 | 2016-05-26 | 华为技术有限公司 | 一种语音处理的方法及装置 |
CN105590629A (zh) * | 2014-11-18 | 2016-05-18 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
CN105590629B (zh) * | 2014-11-18 | 2018-09-21 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
CN106847306A (zh) * | 2016-12-26 | 2017-06-13 | 华为技术有限公司 | 一种异常声音信号的检测方法及装置 |
CN106847306B (zh) * | 2016-12-26 | 2020-01-17 | 华为技术有限公司 | 一种异常声音信号的检测方法及装置 |
CN112334980A (zh) * | 2018-06-28 | 2021-02-05 | 瑞典爱立信有限公司 | 自适应舒适噪声参数确定 |
CN112334980B (zh) * | 2018-06-28 | 2024-05-14 | 瑞典爱立信有限公司 | 自适应舒适噪声参数确定 |
CN108962275A (zh) * | 2018-08-01 | 2018-12-07 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
CN112530407A (zh) * | 2020-11-25 | 2021-03-19 | 北京快鱼电子股份公司 | 一种语种识别方法及系统 |
CN112530407B (zh) * | 2020-11-25 | 2021-07-23 | 北京快鱼电子股份公司 | 一种语种识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
TW200818802A (en) | 2008-04-16 |
TWI467979B (zh) | 2015-01-01 |
CN101496095B (zh) | 2012-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101496095B (zh) | 用于信号变化检测的系统、方法及设备 | |
EP2047457B1 (en) | Systems, methods, and apparatus for signal change detection | |
CN101496100B (zh) | 用于对无效帧进行宽带编码和解码的系统、方法和设备 | |
US9418666B2 (en) | Method and apparatus for encoding and decoding audio/speech signal | |
JP6185457B2 (ja) | 効率的なコンテンツ分類及びラウドネス推定 | |
CN101903945B (zh) | 编码装置、解码装置以及编码方法 | |
US8219392B2 (en) | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function | |
CN101523484B (zh) | 用于帧擦除恢复的系统、方法和设备 | |
Tan et al. | Multi-band summary correlogram-based pitch detection for noisy speech | |
JP3840684B2 (ja) | ピッチ抽出装置及びピッチ抽出方法 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
CN102934163A (zh) | 用于宽带语音编码的系统、方法、设备和计算机程序产品 | |
EP2089877A1 (en) | Voice activity detection system and method | |
US10984811B2 (en) | Audio coding method and related apparatus | |
CN104137179A (zh) | 在音频数据信号中检测预定频带的方法、检测设备以及相应的计算机程序 | |
Ravenscroft et al. | Att-TasNet: Attending to Encodings in Time-Domain Audio Speech Separation of Noisy, Reverberant Speech Mixtures | |
RU2682851C2 (ru) | Усовершенствованная коррекция потери кадров с помощью речевой информации | |
EP1815463A1 (en) | Efficient audio coding using signal properties | |
US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs | |
Lin et al. | Unsupervised speech enhancement with deep dynamical generative speech and noise models | |
Cabañas‐Molero et al. | Voicing detection based on adaptive aperiodicity thresholding for speech enhancement in non‐stationary noise | |
Szwoch et al. | Transient detection for speech coding applications | |
CN114613375A (zh) | 一种针对音频信号的时域噪声整形方法及装置 | |
CN115862685A (zh) | 一种实时语音活动的检测方法、装置和电子设备 | |
Zopf | Real-time implementation of a variable rate CELP speech codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |