CN103026407A - 带宽扩展器 - Google Patents

带宽扩展器 Download PDF

Info

Publication number
CN103026407A
CN103026407A CN2010800682585A CN201080068258A CN103026407A CN 103026407 A CN103026407 A CN 103026407A CN 2010800682585 A CN2010800682585 A CN 2010800682585A CN 201080068258 A CN201080068258 A CN 201080068258A CN 103026407 A CN103026407 A CN 103026407A
Authority
CN
China
Prior art keywords
signal
sound signal
subband
frequency
shape parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800682585A
Other languages
English (en)
Other versions
CN103026407B (zh
Inventor
V·M·米吕拉
L·拉克索宁
H·J·普拉卡
P·I·阿尔库
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=45003396&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN103026407(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN103026407A publication Critical patent/CN103026407A/zh
Application granted granted Critical
Publication of CN103026407B publication Critical patent/CN103026407B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

一种用于扩展音频信号的带宽的装置,所述装置配置为:从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。

Description

带宽扩展器
技术领域
本发明涉及用于改进音频信号的质量的装置和方法。更具体地,本发明涉及用于扩展音频信号的带宽的装置和方法。
背景技术
可将例如话音或音乐的音频信号进行编码,以能够进行音频信号的高效传输或存储。
音频信号可受限制于带宽,这典型地由传输系统或存储介质的可用容量来确定。然而,在一些实例中,可期望按照比原始编码音频信号的带宽更宽的带宽来观察解码后的音频信号。在这些实例中,可在解码器处实施人工带宽扩展,从而可通过使用从解码后的音频信号本身单独确定的信息来扩展解码后的音频信号的带宽。
在移动电信领域中可存在一个人工带宽扩展的应用的这种实例。典型地,在例如全球移动通信系统(GSM)的移动通信系统中,话音信号可受限于小于4kHz的带宽,换句话说,受限于窄带话音信号。然而,自然发生的话音可包含高达10kHz的主要频率分量。传统的更高频率可有助于话音信号的总体质量和清晰度,与等同的窄带信号相比导致更清脆和更响亮的声音。
现有的通过人工带宽扩展来改进窄带话音的质量和清晰度的方法可部署生成额外高频率分量的码书。所述码书可包括不同频谱特性的频率向量,所有频率向量覆盖感兴趣的频率的范围。可通过选择最佳向量并对其增加来自接收的解码后信号的频谱分量,基于逐个帧来扩展频率范围。
此外,人工带宽扩展方法可实施上采样技术,按更高频率分量建立接收的信号的别名副本。然后,可调节别名的频率分量的大小或能量等级,以建立话音信号的代表性更高频率。
然而,现有的人工带宽扩展的方法可遭遇不佳的质量和低效率。
例如,人工带宽扩展的一些方法可采用一种按进入话音帧的语音内容将他们归类以确定上带封包。然后,所述封包可用于将低频率的频混所建立的频率频谱进行定形。
然而,使用这个方法生成的上带不能始终听起来自然。这可部分地导致在不同因素之间的转换在话音信号中是自然平滑的事实。然而,使用将因素归类的系统可具有在判断边界引入不连续性的结果。
其他因素也可倾向于使用上述人工带宽扩展方法(例如进入话音帧的不正确归类和高带频谱形状的不精确估计)来进行非自然发音。
发明内容
本发明考虑到现有人工带宽扩展方案可导致扩展的音频信号的总体观察的自然性降低而做出。这个降低可特别地对于私密语音的总体观察是普遍的。
实施例旨在解决以上问题。
根据一些实施例的第一方面,提供一种方法,包括:从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
根据实施例,该方法在生成激励信号时可包括:通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号;基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用三角形遮蔽函数来遮蔽。
或者,重叠带根据梅尔标度来分布,以及其中所述子带信号使用梯形遮蔽函数来遮蔽。
从特征向量确定至少一个谱形参数包括:使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
所述特征向量的至少一个频域分量特征包括以下至少一个:音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个:基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
该方法还包括:将子带信号与音频信号组合,以提供带宽扩展的音频信号。
根据一些实施例的第二方面,提供一种装置,包括至少一个处理器和含有计算机代码的至少一个存储器,所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所述装置至少执行:从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
根据一个实施例,该装置当所述至少一个存储器和所述计算机代码配置为使得所述装置至少执行生成激励信号时,还配置为执行:通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号;基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用三角形遮蔽函数来遮蔽。
或者,重叠带根据梅尔标度来分布,以及其中所述子带信号使用梯形遮蔽函数来遮蔽。
所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所述装置至少执行从特征向量确定至少一个谱形参数,还配置为执行:使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
所述特征向量的至少一个频域分量特征包括以下至少一个:音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个:基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
所述至少一个存储器和所述计算机代码还配置为执行:将子带信号与音频信号组合,以提供带宽扩展的音频信号。
根据一些实施例的第三方面,提供一种计算机程序产品,其中软件代码存储于计算机可读介质中,其中所述代码在由处理器执行时实现以下步骤:从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
根据实施例,所述代码在由处理器执行时实现生成激励信号,还实现:通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号;基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用三角形遮蔽函数来遮蔽。
或者,重叠带根据梅尔标度来分布,以及其中所述子带信号使用梯形遮蔽函数来遮蔽。
所述代码在由处理器执行时实现从特征向量确定至少一个谱形参数,还实现:使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
所述特征向量的至少一个频域分量特征包括以下至少一个:音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个:基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
所述代码还实现:将子带信号与音频信号组合,以提供带宽扩展的音频信号。
根据一些实施例的第四方面,提供一种装置,包括:激励信号生成器,配置为从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;特征提取器,配置为从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;频谱参数确定器,配置为从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和滤波器组,配置为通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
激励信号生成器可包括:逆线性预测滤波器,配置为通过过滤所述音频信号来生成剩余信号;包括自回归移动平均滤波器的后滤波器阶段,配置为过滤剩余信号,其中自回归移动平均滤波器取决于线性预测滤波器;和上采样器,配置为通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽:三角形遮蔽函数;和梯形遮蔽函数。
频谱参数确定器可包括:神经网络,配置为从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
滤波器组包括:衰减器,配置为当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
所述特征向量的至少一个频域分量特征包括以下至少一个:音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个:基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
该装置还包括:信号组合器,配置为将子带信号与音频信号组合,以提供带宽扩展的音频信号。
电子设备可包括上述装置。
芯片集可包括上述装置。
附图说明
为了更好地理解本发明,现在通过实例参照附图,其中
图1示意性示出采用本发明实施例的电子设备;
图2示意性示出采用本发明实施例的解码器系统;
图3示意性示出采用本发明第一实施例的解码器;
图4示意性示出根据本发明一些实施例的带宽扩展器;
图5示出以下优点:对于带宽扩展器的输入音频信号应用临界带和听觉遮蔽的属性,以促进特征提取;
图6示出以下优点:应用临界带,以促进人工带宽扩展的信号的生成;
图7示出以下优点:布置由临界带确定子带的滤波器组;
图8示出一流程图,用于表示根据本发明一些实施例的带宽扩展器的操作;
图9示出一流程图,用于更详细表示如图4所示的带宽扩展器的实施例的操作的一部分;和
图10示出一流程图,用于更详细表示如图4所示的带宽扩展器的实施例的操作的另一部分。
具体实施方式
以下更详细地描述用于提供人工扩展解码后音频信号的带宽的可能机构。由此,首先参照图1,其示出可根据本发明实施例结合编解码器的示例性电子设备10或装置的示意性框图。
电子设备或装置10例如可以是移动终端和无线通信的用户装备。在一些其他实施例中,装置10可以是电子设备中任意适合的音频或音频子系统组件,例如音频播放器(还已知为MP3播放器)或媒体播放器(还已知为MP4播放器)。
电子设备10包括麦克风11,其经由模数变换器(ADC)14链接至处理器21。处理器21进一步经由数模变换器(DAC)32链接至扬声器33。处理器21进一步链接至收发器(RX/TX)13、用户接口(UI)15和存储器22。
处理器21可配置为执行各种程序代码。实现的程序代码23可包括音频解码代码或话音解码代码。实现的程序代码23例如可存储于存储器22,每当需要时由处理器21提取。存储器22还可提供用于存储数据的分区24,例如,根据本发明编码了的数据。
在本发明的实施例中,可在基于电子的硬件或固件中实现解码代码。
用户接口15使得用户能够例如经由键板向电子设备10输入命令,和/或例如经由显示器从电子设备110获得信息。收发器13能够例如经由无线通信网络与其他电子设备通信。
同样可理解,电子设备10的结构可按许多方式来补充和改变。
电子设备10的用户可使用麦克风11,用于输入要发送至某些其他电子设备或存储于存储器22的数据分区24的话音。至此,由用户经过用户接口15激活了对应的应用。可通过处理器21运行的本申请使得处理器21执行在存储器22中存储的编码代码。
模数变换器14将输入模拟音频信号变换成数字音频信号,并向处理器21提供数字音频信号。
电子设备10可经由其收发器13从另一电子设备接收具有对应编码数据的比特流。或者,编码数据可存储于存储器22的数据分区24,例如,用于稍后由相同电子设备10进行呈现。在这两个情况下,处理器21可执行在存储器22中存储的解码程序代码。处理器21例如通过与参照图3和4所述相同的方式解码接收的数据,并向数模变换器32提供解码的数据。数模变换器32将数字解码的数据转换成模拟音频数据,并经由扬声器33输出他们。解码程序代码的执行也可通过经由用户接口15由用户调用的应用来触发。
接收的解码数据也可存储于存储器22的数据分区24,而并非经由扬声器33立即呈现,例如能够稍后呈现或转发至另一电子设备。
可理解,图3和4所述的示意性结构和图8、9和10中的方法步骤仅代表完整的带宽扩展器的操作的一部分,如图1所示的电子设备中实现的示例性所示。
话音和音频编解码器的一般性操作是本领域已知的,并且不再详细描述无助于本发明的实施例的操作的理解的这些编解码器的特点。
现在,关于图2至10更详细描述本申请的实施例。
图2中示出由本申请的实施例采用的话音和音频解码器的一般性操作。图2中示意性示出一般的解码系统102。该系统102可包括存储或媒体信道(还已知为通信信道)106和解码器108。
解码器108解压缩比特流112,并生成输出音频信号114。与输入信号110相关的比特流112的比特率和输出音频信号114的质量是主要特征,这定义编码系统102的性能。
图3示意性示出根据本申请的一些实施例的解码器108。解码器108包括输入302,经由媒体信道106由此接收编码的流112。一些实施例中,输入302连接至音频解码器301。这样的实施例中,音频解码器301配置为从媒体或通信信道接收编码数据,由此可存储和取出接收的数据。这样的实施例中,音频解码器301还配置为从媒体信道106解码所述编码数据,以生成基于输出样本的音频流304。从音频解码器301输出的音频流可连接至人工带宽扩展器303的输入。一些实施例中,带宽扩展器303可布置为扩展音频流输入304的带宽,以生成输出带宽扩展的音频信号306。
一些实施例中,带宽扩展的音频信号306可形成来自解码器108的输出音频信号114。
可理解,一些实施例中,音频解码器301可具体地布置为解码由输入302传送的输入编码数据。换句话说,可通过用于生成编码数据的音频编码技术来确定音频解码器301采用的音频解码技术。
还可理解,一些实施例中,音频解码器301可布置为解码音频或话音编码数据。
例如,一些实施例中,音频解码器301可配置为解码根据自适应多速率(AMR)语音编码标准编码了的话音信号。
AMR编解码的细节例如可在3GPP TS26.090技术规范中找到。
参照图4,更详细示出根据一些实施例的音频带宽扩展器303。
音频带宽扩展器303包括输入401,其可配置为从音频解码器301接收音频样本流输出304。
可理解,进入带宽扩展器303的解码音频样本流可看作低带信号。一些实施例中,带宽扩展器303可随后分析低带信号,以识别特定特征。这样的实施例中,识别的特征可随后用于建立高带音频信号,其可随后与低带音频信号组合以生成带宽扩展的音频信号306。
还可理解,一些实施例中,可在不需要来自编码器的额外端信息的情况下,形成带宽扩展的音频信号的高带分量。
一些实施例中,输入低带信号可被确定为具有300至3400Hz的电话带宽,其中采样频率为8kHz。这些实施例中,带宽扩展器303可将输入音频信号扩展至宽带音频信号,其采样频率为16kHz,以及其频率范围可宽于输入的频率范围。
可理解,在这里,术语“高带”的使用可表示由带宽扩展器303生成的扩展的频率分量。
为了有助于理解本发明,以下参照图8的流程图更详细地说明宽带扩展器303的操作。
一些实施例中,音频带宽扩展器303包括帧收集器403。
一些实施例中,输入401连接至帧收集器403,从而将输入音频信号(或者已知为音频样本流)划分和整理成连续系列的音频帧。
一些实施例中,整理成帧的音频样本的数目可取决于输入音频信号的采样频率。
例如,一些实施例中,输入音频信号304的采样频率可以是8kHz。这样的实施例中,帧收集器403可布置为将输入音频信号划分成多个音频帧,其中每个音频帧跨越12ms的时间周期。换句话说,这样的实施例中,每个音频帧包括以8kHz的采样率的96个音频样本。
此外,一些实施例中,帧收集器403可布置为具有重叠帧,从而更新帧的速率小于音频帧的长度。
例如,一些实施例中,可通过帧收集器403以每10ms(80个样本)来更新音频帧,从而在帧之间可存在16个样本的重叠。
可理解,一些实施例中,帧收集器403可按多采样频率和帧大小来运行,并且带宽扩展器303的操作不限于一些实施例给出的实例。
作为图8的处理步骤801,示出由帧收集器403将输入音频样本整理成音频信号帧404的步骤。
一些实施例中,人工带宽扩展器303包括时间频率变换器405。
一些实施例中,来自帧收集器403的输出可传递至时间频率变换器405,从而基于时间的音频信号帧404可基于逐个帧经过基于正交的变换。
一些实施例中,基于正交的变换可实现为快速傅立叶变换(FFT),从而96个样本的基于时间的音频信号帧404可变换成具有128点FFT的频域。这些实施例中,128点FFT的应用可通过用额外零值样本填充音频信号帧404来应用。
可理解,一些实施例中,音频信号帧404到频率系数的变换促进频域特征的提取。
还可理解,一些实施例中,为音频信号帧404生成的频率系数可看作低带频域音频信号。
如图8的处理步骤803示出将音频信号帧404变换成包括频率系数的频域表示的步骤。
一些实施例中,人工带宽扩展器303包括特征提取器407。
这些实施例中,音频信号帧404的频域系数可传递至特征提取器407的输入。
一些实施例中,特征提取器407也可布置为从帧收集器403接收其他输入。这个其他输入可用于将音频信号帧404直接从帧收集器403传递至特征提取器407,从而绕过时间频率变换器405。
参照图4,这些实施例中,时域频域信号帧404可由连接440在帧收集器403和特征提取器407之间传递。
一些实施例中,特征提取器407可用于从音频信号帧和音频信号帧的频域变换两者提取特征。一些实施例中,从特征提取器407提取的特征可用于部分地生成音频信号帧的扩展频率区域。
可理解,这里,音频信号帧的扩展频率区域可称为高带信号。
还可理解,这里,一些实施例中,音频信号帧的频域变换可称为频域信号。
一些实施例中,可对于输入音频信号和频域信号的每个帧提取包括频域和时域特征两者的九维特征向量。
一些其他实施例中,可对于每个帧提取包括频域和时域特征两者的十维或其他数目维度特征向量。
一些实施例中,可通过将频域信号分成多个重叠子带并随后确定每个子带的能量,来到处频域特征向量的第一集。然后,这样的实施例中,每个子带能量值可形成特征向量的频域分量。
一些实施例中,可通过将位于子带内的每个频域系数的大小乘方来确定每个子带的能量。换句话说,这些实施例中,可至少部分地通过确定输入信号的频率系数的功率频谱密度来提取频域特征。
一些实施例中,可将频域信号分成多个重叠子带,其中每个子带根据心理声学导出的梅尔(mel)标度可具有相等带宽。
例如,在对于带宽扩展器303的输入音频信号具有8kHz的采样频率的一些实施例中,低带音频信号可具有从250到3500Hz的有效频率范围。这些实施例中,可将频域信号分成5个子带,从而每个子带根据心理声学导出的梅尔标度可具有相等带宽。
一些实施例中、频率分量从Hz到梅尔标度的映射可表示为
m=2595log10(1+f/700),
其中f是Hz表示的频率,m是与频率分量f对应的梅尔标度映射。
这些实施例中,可根据三角形带通滤波器来过滤平分(梅尔标度)的重叠子带的每一个。换句话说,可对于每个子带的频域分量应用三角形定形遮蔽(triangular shaped mask),以获得子带能量。
一些实施例中,三角形定形遮蔽可具有以下优点:在人类听觉系统的相同临界带中模型化频率的听觉遮蔽特性。
其他实施例中,可用梯形带通滤波器来过滤平分的重叠子带的每一个。
可理解,一些实施例中,可导出梯形或三角形的定形遮蔽滤波器,从而该滤波器宽于人类听觉系统的临界带。
可理解,一些实施例中,该滤波器可随后应用于频域中的每个子带,这可具有以下优点:跨输入音频信号的宽度模型化人类听觉系统的频率分辨率。这个优点可在图5中看出,图5在频域中示出将三角形定形滤波器应用于频域信号的分量。
参照图5,还可看出,一些实施例中,在频域中听觉滤波器在低频处具有的带宽比位于高频处的听觉滤波器更窄。此外,还可看出,一些实施例中,每个随后的听觉滤波器的带宽根据梅尔标度增加。
可理解,一些实施例中,可根据梅尔标度使用子带滤波器来过滤对于输入音频信号帧的功率频谱密度值。换句话说,可根据图5使用基于听觉的子带滤波器的系列来过滤功率频谱密度值。
还可理解,一些实施例中,以上过滤步骤具有以下优点:将输入音频信号帧的功率频谱密度表示分成在梅尔标度上均匀地分隔的多个子带。
一旦将输入音频信号帧过滤成了多个子带,这些实施例中,可通过计算在子带中过滤的功率频谱密度值的总和来确定对于每个子带的能量。
一般地,可理解,一些实施例中,可通过初始地计算信号(其中可通过将频谱大小值乘方来确定其功率频谱)的频域频谱来确定子带能量等级值。然后,对于每个子带,可使用听觉滤波器(例如上述三角形窗口)将构成讨论中的特定子带的功率频谱值加权(或定形)。然后,通过子带中加权的功率频谱分量的总和来给出每个子带的能量。
一些实施例中,可存在5个子带能量值,其中每个子带能量值可对应于5个子带之一。然而,可理解,在一些其他实施例中可确定多于或少于5个子带能量值。
可理解,子带能量值可提供用于音频信号帧404的频谱形状和功率等级的简明表示。
还可理解,在一些实施例中,与前5个子带对应的子带能量可形成为每个音频信号帧提取的特征向量的前5个特征。
一些实施例中,可根据分贝标度转换与5个子带对应的子带能量。
一些实施例中,特征提取器407也可从频域信号提取其他频域特征。这些其他频域特征可基于频域信号的频谱的质心,或者还已知为重心。
一些实施例中,可通过使用由时间频率变换器405计算的频谱的乘方大小来确定频域信号的频谱的质心C。
根据一些实施例,对于N个样本的频域信号频谱的质心C可确定为
C = ( Σ i = 0 N / 2 f ( i ) P ( i ) ( N / 2 + 1 ) Σ i = 0 N / 2 P ( i ) ) 2
其中i是指示低带音频信号中频率分量的索引,P(i)指示频率分量i的乘方大小,f(i)指示在索引i处的频率。
可理解,一些实施例中,频域信号频谱的质心可形成提取特征的第六分量。
一些实施例可通过确定输入音频信号帧的频谱平整性来导出基于第七频域的特征。这个特征可用于指示输入音频信号帧的音调。
这些实施例中,可通过确定在信号的功率频谱的几何平均值和算术平均值之间的比来导出信号的频谱平整度。
根据一些实施例,频谱平整度测量可表示为
x sf = log 10 Π i = N l N h P ( i ) N sf 1 N sf Σ i = N l N h P ( i ) ,
其中P(i)指示在频率索引i处的功率频谱值,Nl和Nh指示确定频谱平整度测量的第一和最后频率分量的索引,Nsf指示这个范围内的数目分量。
一些实施例中,可在从300Hz至3.4kHz的频率范围上确定频谱平整度测量。
如上所述,一些实施例中,特征提取器407还通过处理在连接440上传递的时域信号来从音频信号帧404提取基于时域的特征。
一些实施例中,由特征提取器407提取的第一基于时域的特征可以是基于时域中话音信号的梯度的大小的总和的梯度指数。
可理解,这样的实施例中,所述梯度可在话音信号波形的任意点处确定。然而,这些实施例中,可对于在可导致梯度值的符号改变的话音波形中的那些点来确定梯度指数。换句话说,一些实施例中,梯度指数可基于话音波形中导致话音波形改变的点处梯度的大小的总和。
一些实施例中,梯度指数xgi可确定为
Σ N = 1 N T - 1 ΔΨ ( n ) | s ( n ) - s ( n - 1 ) | Σ μ = 0 N - 1 ( s ( n ) 2 ) ,
其中s(n)指示在时间实例n处话音的样本,NT指示音频信号帧404中话音样本的数目。项Δψ(n)可以表示在时间实例n处梯度的符号改变,并且可确定为
ΔΨ ( n ) = 1 2 | ψ ( n ) - ψ ( n - 1 ) | ,
其中ψ(n)指示梯度s(n)-s(n-1)的符号,并且可确定为
ψ ( n ) = s ( n ) - s ( n - 1 ) | s ( n ) - s ( n - 1 ) |
一些实施例中,可观察到,梯度指数xgi可在发出声音期间具有低值,在不发出声音期间具有高值。
一些实施例还可提取第二基于时间的特征,这可取决于音频信号帧的能量比。
这些实施例中,可通过计算当前音频信号帧404的能量与先前音频信号帧的能量的比来确定该特征。然后,一些实施例中,得到的结果可根据贝尔范围来衡量。
一些实施例中,可观察到,以上特征可具有这样的累加优点:将不发出的停止恒定声音从其他不发出的话音声音区分开。
一些实施例可通过确定信号展现出活动还是不活动区域来导出用于听觉信号帧的第三基于时间的特征。
这些实施例中,可通过语音活动性检测器(VAD)来处理听觉信号帧404,以将信号归类为活动的或不活动的。
一些实施例中,可通过借助于适当的正交变换(例如FFT)初始地将时域信号(或者已知为听觉信号帧404)变换成频域来实现VAD。一旦对于VAD的输入信号变换成了频域,则他可分组成多个子带。典型地,一些实施例中,可对于非线性标度来执行这个分组处理,其中,将更多的频率分量分配给感知上更重要的低子带。然后,通过考虑每个子带中信号和背景噪音的能量来计算对于每个子带的信噪比(SNR)。然后,通过将每个子带信号的SNR的总和与自适应阈值相比较来导出VAD判断。
典型地,一些实施例中,在有噪音的输入帧期间使用基于自回归的方案来适配对于每个子带的背景噪音能量。
一些实施例可布置多个技术来防止错误的VAD判断。例如,一些实施例可布置“悬置期间”,从而使得从活动到不活动的VAD判断延迟,以防止当信号正在显示无声特性时做出错误判断。一些实施例中,其他技术可包括测量瞬时帧与帧SNR的方差,以在使信号高度波动期间增加VAD判断阈值。
一些实施例中,可布置语音活动性检测技术,例如,可使用第三代合作伙伴计划(3GPP)标准自适应性自适应多速率(AMR)语音编解码3GPPTS26.090指定的技术。
可理解,一些实施例中,以上概括的第三基于时间的特征可构成由特征提取器407提取的其他特征。换句话说,一些实施例中,梯度指数、能量比和二进制VAD输出可形成由特征提取器407生成的特征向量的三个其他分量。
还可理解,一些实施例中,可从输入音频信号401基于逐个帧确定由特征提取器407确定的特征向量。
如图8的处理步骤805可示出在时域和频域两者中处理音频信号帧404以提取特征向量的步骤。
一些实施例中,人工带宽扩展器303包括神经网络处理器409。
一些实施例中,由特征提取器407确定的特征向量传递至神经网络处理器409。
一些实施例中,神经网络处理器409可用于部分地生成人工生成的高带信号431的谱形。
一些实施例中,神经网络处理器409可包括神经网络,其可通过可变数据进行训练,以在不同环境和条件下(例如不同噪音类型、噪音等级或语言)发展神经网络的能力。
一些实施例中,可采取基于遗传算法的神经发展方法来发展神经网络。这些发展的神经网络可以是经常性的,换句话说,他们可收集和使用关于发展处理的历史信息,并且不限于来自特征提取器407的输入向量的特征。
一些实施例中,可使用基于增强神经网络拓扑的神经发展的方法。这个方法典型地可开始于最小网络拓扑,其可随后通过增加额外节点和网络链路以及修改与网络节点相关的加权因子来逐渐改进。
典型地,一些实施例中,可用仅包括输入神经元和输出神经元的类感知器的前馈网络来发展基于增强拓扑的神经发展(NEAT)的神经网络。作为通过具体步骤的发展过程,网络的拓扑的复杂度可通过向连接路径中插入新神经元,或通过在(先前未连接的)神经元之间建立新连接来生长。
一些实施例中,可使用包括多个不同扬声器的多个音频样本的训练数据库以离线的方式训练NEAT神经网络。
一些其他实施例中,可通过任意适当的模式识别装置或算法(例如任意适当的人工神经网络、自组织图或自组织特征图、Baysean网络等)来执行归类和模式识别鉴定操作。
一些实施例中,来自训练库的音频样本可以被首先高通过滤,以仿真移动站的输入频率响应。一些实施例中,所述过滤可根据如国际电信联盟(ITU)标准G.191指定的移动站输入滤波器(MSIN)来进行。
一些实施例中,可对于训练数据库中每个音频样本提取特征向量,如上述用于训练NEAT神经网络中。
此外,一些实施例中,可为神经网络生成目标输出的集,其中神经网络的每个目标输出对应于训练库中特定音频样本。这些目标输出可随后用于在神经网络的训练阶段期间确定其性能。换句话说,可将对于训练库的每个音频样本的神经网络的输出与对应的目标输出相比较,以确定神经网络的性能。
一些实施例中,可通过对于训练数据库的每个对应音频样本确定与人工生成的高带信号的谱形相关的参数来生成对于神经网络的目标输出。
因此,可理解,为了训练上述神经网络,需要对于训练数据库(其中每个音频训练样本可包括宽带音频信号)的每个音频训练样本生成目标输出。
一些实施例中,可通过初始地确定每个宽带音频训练样本的高带分量,并随后生成与每个确定的高带分量相关的谱形参数,来生成与每个音频训练样本相关的目标输出。
可理解,一些实施例中,谱形参数的每个集可形成神经网络的目标输出,并且这些实施例中,每个目标输出可关联于来自训练数据库的特定音频训练样本。
根据一些实施例,对于以上神经网络的训练处理可采用以下形式:可将每个宽带训练信号分成多个帧,其中每个帧的长度可通过宽带扩展器303的操作帧长度来确定;然后,可确定每个帧的高带分量;并且随后,对于每个高带分量,可计算作为(高带分量的)每个子带的能量等级表示的谱形。
可理解,是高带分量的每个子带的能量等级形成对于神经网络估计器的目标值。
还可理解,上述高带信号相似于人工生成的高带信号431。换句话说,高带信号是人工生成的高带信号431的表示,其被形成用于在神经网络处理器409中训练神经网络的目的。
一些实施例中,人工生成的高带频谱的形状可实现为能量等级的集,其中每个能量等级可对应于多个子带之一。换句话说,这样的实施例中,人工生成的高带频谱的谱形参数的集可实现为以上能量等级的集。
一些实施例中,可通过从心理声学导出的梅尔标度得到的4个部分重叠子带的能量等级来实现人工生成的高带频谱的谱形。换句话说,以16kHz采样的宽带信号的频率分量可模型化为均匀地位于从4kHz到8kHz的频率范围上的对数标度上的4个子带。
一些实施例中,可在频域中作为三角形窗口函数来实现与每个子带相关的带通滤波器,并且然后,通过计算处于子带中的频率分量的功率频谱来确定每个子带的能量等级。
一些实施例中,可通过将过滤的子带中频率分量的大小的乘方求和来确定对于每个子带的能量。
可参照图6看出对于高带信号应用三角形窗口函数的优点,图6示出在频域中对于人工生成的高带信号431的子带的分布。
此外,参照图6还可看出,每个带通滤波器的库(换句话说,三角形窗口函数)可近似地在两个相邻子带的重心频率之间扩展。
因此,可理解,可随后对于每个训练数据库样本执行确定每个重叠子带(或者已知为谱形参数)的能量等级的以上处理。
还可理解,一些实施例中,这些重叠子带能量等级可在离线训练阶段期间形成神经网络的目标输出。换句话说,与每个宽带训练数据库样本的高带相关的重叠子带能量等级的每个集形成NEAT神经网络的目标输出。
可理解,一些实施例中,当NEAT神经网络以“在线”的操作模式运行时,随后神经网络的发展基因组可用于处理来自特征提取器407的每个特征向量。随后,这可由神经网络处理器409使用,以生成人工高带信号431的谱形参数。换句话说,从(低带)音频信号帧提取的特征向量可由神经网络处理器409使用,以生成人工生成的高带信号431的谱形参数的对应集。
可基于逐个音频帧来执行谱形参数的生成。
还可理解,一些实施例中,当以“在线”模式运行时来自NEAT神经网络处理器409的输出可构成与4个梅尔重叠子带对应的4个子带能量等级,如上所述。
可理解,一些实施例中,可通过使用单独从(低带)音频信号帧404提取的特征来确定谱形参数(换句话说,每个子带的子带能量等级)。
如图8的处理步骤807示出通过神经网络处理器409确定谱形参数的步骤。
一些实施例中,人工带宽扩展器303包括带能量平滑器411。然后,来自神经网络处理器409的输出可连接至带能量平滑器411的输入。
一些实施例中,带能量平滑器411可过滤在当前和过去值之上每个子带的能量等级。这可具有以下优点:抵消可作为神经网络处理器409的结果生成的不佳的假象;选择可在一些实施例中太高的子带能量等级。换句话说,每个子带能量等级的过滤可具有以下优点:缓和任意快速改变。
一些实施例中,带能量平滑器411可使得每个子带的能量等级经过第一阶自回归滤波器。换句话说,可使用当前子带能量等级和过去过滤的子带能量等级对于每个子带能量等级计算加权的平均值。
一些实施例中,对于每个子带能量等级应用的自回归滤波器可表示为
Ef(n)=φE(n)+γEf(n-1)
其中E(n)和Ef(n)表示分别在帧实例n处的子带能量等级和过滤的子带能量等级。其中φ指示对于当前子带能量等级E(n)应用的加权因子,以及γ指示对于先前过滤的子带能量等级Ef(n-1)应用的加权因子。
一些实施例中,仅对于大于先前过滤的子带能量等级的那些子带能量等级来应用以上自回归滤波器。换句话说,这样的实施例中,滤波器仅在E(n)>Ef(n-1)时应用。
可理解,可随后在这些实施例中,对于每个子带的能量等级应用以上自回归滤波器。
还可理解,可基于每个帧n来执行以上过滤处理。
在第一组实施例中,可将φ和γ的值分别确定为0.25和0.75。
可理解,一些实施例中,φ和γ的值不仅限于以上的值。例如,一些其他实施例可布置φ和γ的其他值,从而选择的值对于表达式φ+γ=1保持真。
一些实施例中,带能量平滑器411可结合额外处理步骤,从而当输入音频信号(换句话说,低通信号或电话带信号)的功率接近于自适应噪音等级估计时,可使高带信号衰减。
为了完成这个额外处理步骤,可对于每帧计算输入音频信号404的能量,一些实施例中,这个计算可作为帧收集器403的功能的一部分来执行。
一些实施例中,输入音频信号的底噪音估计可通过基于逐个帧过滤在输入音频信号之上的能量轮廓来确定。该过滤例如可通过使用第一阶回归滤波器来执行。
一些实施例中,第一阶回归滤波器可具有根据能量轮廓的方向改变而改变的系数。例如,一些实施例中,当能量轮廓方向存在向上改变时,第一阶回归滤波器可采用特定系数,该特定系数具有的值可与当能量轮廓方向存在向下改变时使用的滤波器系数不同。
一些实施例中,可选择滤波器系数的值,使得噪音等级估计在话音的区域期间逐渐上升,以及当在音频信号404中存在暂停时朝向最小值快速衰退。
一些实施例中,可根据当前音频信号帧的能量和使用逐段线性映射的底噪音估计之间的差来衰减与人工生成的高带信号431的当前帧相关的子带能量等级。
这样的实施例中,上述自适应衰减技术可具有以下优点:降低人工生成的高带信号431中观察的噪音。
如图8的处理步骤809示出过滤与人工生成的高带信号431的每个子带相关的能量等级的步骤。
一些实施例中,人工带宽扩展器303包括激励信号生成器417、上采样器419、滤波器组421和带加权和求和处理器415。
这样的实施例中,可通过向激励信号生成器417输入时域帧,在上采样器419中上采样激励信号生成器417的输出,通过滤波器组421过滤上采样的激励信号,然后用从对应梅尔带能量等级导出的增益因子加权每个子带信号,来至少部分地生成人工生成的高带信号431。换句话说,一些实施例中,可通过对应子带增益因子分别加权来自滤波器组421的每个子带。一些实施例中,增益因子可从与讨论中的特定子带相关的子带能量等级,以及与相邻子带相关的子带能量等级导出。这样的实施例中,随后,可通过在带加权和求和处理器415中将加权的子带信号在一起求和来构成人工生成的高带信号431。
一些实施例中,可通过能量增益转换器413确定对于滤波器组421的每个子带的子带增益因子,从而这样的实施例中,与滤波器组的特定子带相关的能量等级可转换成适当增益因子。
可理解,对于一些实施例,神经网络处理器409在上面确定每个能量等级的带宽可相当于随后滤波器组的每个子带的带宽。换句话说,随后滤波器组也可使用与神经网络处理器409使用的相同的部分重叠子带,以确定高带能量等级。
一些实施例中,滤波器组可具有4个子带,这可等同于用来获得高带能量等级的4个子带。然而,一些其他实施例中,可使用比4个更少或更多的子带来获得高带能量等级。
图7示出在第一组实施例中布置的滤波器组421的每个子带的频率分布的实例。
通过将图7的子带频率分布与图6的子带分布相比较,可以看出,滤波器组的4个子带的带宽和频率分布等同于在神经网络处理器409中用来获得高带能量等级的4个子带。换句话说,在两组的滤波器组中,每个子带的重心频率和频率范围等同。
参照图4,可以看出,一些实施例中,对于能量增益转换器413的输入可连接至带能量平滑器411的输出。这样的配置中,与每个子带相关的能量等级可从带能量平滑器411向能量增益转换器413传递。
如上所述,一些实施例中,能量增益转换器413可用于确定对于滤波器组的每个子带的子带增益因子。
为了帮助理解一些实施例的操作,以下将子带能量等级E写作关于子带索引k的函数。
一些实施例中,可采用基于迭代的技术来确定对于滤波器组421的每个子带k的子带增益因子g(k)。
为了帮助理解本发明,以下将参照图9的流程图描述确定对于滤波器组421的每个子带的子带增益因子的步骤。
如图9的处理步骤901示出从带能量平滑器411的输出来输入子带能量等级的步骤。
可理解,一些实施例中,心理声学导出的窗口函数可以是根据上述梅尔标度的基于三角形的窗口函数。
还可理解,这些实施例中,对于人工生成的高带信号431的心理声学导出的子带结构可包括多个重叠子带,从而来自一个子带的能量可有助于每个其相邻子带的能量。图7中可看出重叠子带的效果的实例,其中可看出,第二子带一方的能量有助于相邻的第一和第三子带双方的能量。
第一实例中,可通过估计将对于子带k给出子带能量E的增益值来对于每个子带确定初始增益因子g0(k),而不需考虑相邻的子带。
一些实施例中,对于子带k的这个初始增益因子g0(k)可估计为
g 0 ( k ) = E ( k ) c k ,
其中E(k)是对于子带k的子带能量等级,ck是表示第k合成带的能量的预计算常数。
如图9的处理步骤903示出确定对于子带k的初始增益因子g0(k)的步骤。
一旦确定了对于特定子带的初始增益因子g0(k),则可基于对于特定子带k将初始增益因子加权来计算增益因子g1(k)的新估计。一些实施例中,对于子带k的增益因子g1(k)的新估计可看作对于子带增益因子g(k)的确定算法的第一迭代。这些实施例中,可通过考虑对于子带k的能量值E(k)(或者称为对于子带k的子带能量等级E)与对于子带k的能量等级值(考虑向相邻带的扩展)来执行初始增益因子的加权。对于子带增益因子确定处理的第一迭代,可将子带k的能量等级值指示为E0(k)。这些实施例中,可随后通过采用能量比的平方根来获得加权因子。
可理解,一些实施例中,对于子带k的能量值E(k)可以是在处理步骤809期间由带能量平滑器411的输出确定的子带能量值。
如图9的处理步骤905和907示出确定加权因子的步骤。
根据一些实施例,对于子带k的第一迭代的增益因子的新估计可表示为
g 1 ( k ) = g 0 ( k ) E ( k ) E 0 ( k ) ,
一般情况下,该算法的迭代i可获得如下的子带k的增益因子:
g i ( k ) = g i - 1 ( k ) E ( k ) E i - 1 ( k ) ,
其中gi(k)指示与第i迭代对应的子带增益因子,gi-1(k)指示与第i-1迭代对应的子带增益因子的值,Ei-1(k)对应于子带k的能量等级值。一些实施例中,Ei-1(k)的值可确定为平方增益因子gi-1(k)、以及来自相邻子带的邻近增益因子的乘积(即gi-1(k-1)*gi-1(k)和gi-1(k)*gi-1(k+1))的加权总和。
这些实施例可具有以下优点:在确定Ei-1(k)的值时考虑了来自相邻子带的能量。
一些实施例中,Ei-1(k)的以上计算还可包括通过加权系数将增益因子的平方、以及邻近增益因子的乘积加权。可确定加权系数,使得在滤波器组421的最高子带滤波器的中心点之上的频率在单位增益;以及在滤波器组421的最低子带滤波器的中心点之下的频率也在单位增益。
如图9的处理步骤909示出加权来自先前迭代的增益因子以生成增益因子的新值的步骤。
可对于多个迭代执行增益因子确定算法,直到达到中止条件。
如图9的处理步骤911示出确定是否达到中止条件的步骤,以及如图9的处理步骤913示出若没有达到中止条件则重复进一步迭代的处理的步骤。
例如,一些实施例中,确定了发现算法的两个迭代足以估计子带增益因子。已实验地确定了这个值,以生成有利的结果。
如图9的处理步骤915示出确定增益因子的当前迭代获得特定子带的增益因子的步骤。
可理解,一些实施例中,可对于人工生成的高带信号的每个重叠子带重复以上增益因子确定处理。
例如,一些实施例中,可同时对于每个子带执行以上增益因子确定处理,以考虑相邻子带的效果。
还可理解,一些实施例中,可基于每个音频帧执行以上子带增益因子确定处理。
如图8的处理步骤811示出确定滤波器组421的每个子带的子带增益因子的步骤。
然后,可经由连接从能量增益转换器413向带加权和求和处理器415传送子带增益因子。
如先前所述,可通过向滤波器组421中传送信号,并随后根据对应子带增益因子将每个输出子带信号加权来生成人工生成的高带信号。
可理解,一些实施例中,用滤波器组过滤激励信号并随后用对应子带增益因子加权每个随后子带信号的处理可看作提供人工生成的高带信号431的高带谱形。
一些实施例中,可从人工带宽扩展器303中的输入(窄带)音频信号(换句话说,信号401)生成激励信号。
为了促进对于滤波器组生成激励信号,一些实施例中,帧收集器403的输出额外地连接至激励信号生成器417。这样的实施例中,可在输入音频信号帧404上执行线性预测(LP)分析滤波,以生成具有基本平谱的激励信号。
一些实施例中,可基于逐个帧执行线性预测分析滤波,从而可对于每个音频信号帧404计算LP分析滤波器的系数。
为了帮助理解激励信号生成处理,以下将参照图10的流程图描述激励信号生成器414的功能。
为了对于LP分析滤波器确定滤波器系数,一些实施例中,激励信号生成器417可分析由帧收集器403提供的音频信号帧404中的短期相关性。
本发明的一些实施例中,可通过线性预测编码(LPC)分析来实现音频帧的短期相关性的分析。这个技术取决于在不同样本延迟的范围上输入音频帧的自协方差或自相关,从而可由滤波器阶确定样本延迟的范围。
一些实施例中,可使用自相关方法执行LPC分析,从而在(由滤波器阶确定的)不同延迟的范围上计算自相关的结果可形成对称方阵,已知为Toeplitz(托普利茨)矩阵。所述Toeplitz矩阵具有关于主对角线对称并且沿着任意给定对角线的所有元素相等的属性。为了确定LPC滤波器系数,一些实施例中,可使用Levinson-Durbin算法来转换矩阵。
一些其他实施例中,可使用自协方差方法来执行LPC分析。
在自协方差方法中,可确定音频帧中样本的不同延迟的范围上的协方差,以形成协方差矩阵。通过在上面计算协方差的不同值的延迟的范围来确定矩阵的大小。
如上,可理解,通过LPC系数的数目,因此通过随后LP分析滤波器的阶来确定在上面可计算协方差的值的延迟的范围。
一些实施例中,协方差矩阵关于主对角线对称。然而,与Toeplitz矩阵不同,在给定对角线中的值不必相等。这些实施例中,可使用Cholesky分界来转换该矩阵,以导出LPC滤波器系数。
可理解,这些实施例中,协方差方法不需要在LPC分析之前用适当窗口化功能来标度音频信号帧。随后,这样的实施例中,可能不执行帧收集器403内的窗口化功能。
在图10的处理步骤1001中示出确定输入音频信号帧404的LPC系数的步骤。
一旦在激励信号生成器417中确定了LPC滤波器系数,则一些实施例中,输入音频信号帧404可通过LP分析滤波器来过滤,以生成LP剩余信号。
一些实施例中,可通过以下表达式来表示LP分析滤波器的形成
A ( z ) = 1 + Σ i = 1 M a i z - i ,
其中a表示LPC滤波器系数,z是单位样本延迟,M是LPC滤波器阶。
一些实施例中,LPC阶M可确定为10。这个值可被实验地确定以生成有利的结果。
如图10的处理步骤1003示出由LPC分析滤波器过滤音频信号帧404的步骤。
可进一步通过自回归移动平均(ARMA)滤波器来过滤LP剩余信号,所述ARMA滤波器从对于当前音频信号帧计算的LPC滤波器系数形成。
还可理解,一些实施例中,LP分析过滤具有以下效果:将信号中的谱谷放大至得到的总体谱形主要为平整这样的程度。然而,谱谷可典型地与解码的音频信号中的低信噪比的区域相关。因此,一些实施例中,LP分析过滤可具有以下不利效果:放大LP剩余信号中的噪音。
为了抵消以上效果的一些,一些实施例中,ARMA滤波器可应用于LP剩余信号。ARMA滤波器的应用在一些实施例中具有以下优点:略微地放大共振峰,同时略微地使谱谷衰减。这可具有以下进一步优点:减小LP剩余信号中噪音的等级。
一些实施例中,ARMA滤波器的形式类似于在第三代合作伙伴计划技术规范3GPP TS26.090指定的许多话音编解码器中找到的后滤波器。
ARMA滤波器的形式可通过以下表达式来表示
H ff ( z ) = A ( z / β ) A ( z / α ) = 1 + Σ i = 1 M a i β i z - i 1 + Σ i = 1 M a i α i z - i ,
其中因子α和β可看作加权因子,他们的值可位于范围0<β<α<1中。因子α具有以下效果:将以上ARMA滤波器的极端拉向单位圆的中心,以及类似地,因子β具有以下效果:将对应的0拉向单位圆的中心。
一些实施例中,可将加权因子α和β分别确定为0.9和0.5。这些值可实现性确定,以生成有利结果。
可理解,其他实施例可布置这样的ARMA滤波器,其加权因子可不同于第一组实施例的加权因子。
如图10的处理步骤1005示出后过滤由LPC分析滤波器生成的剩余信号的步骤。
在布置用于改进剩余LP的质量的上述ARMA滤波器的实施例中,可采用应用频谱倾斜滤波器的其他处理步骤。
可理解,这些实施例中,使用以上ARMA滤波器的效果可导致过滤的LP剩余信号的频率的频谱倾斜。为了抵消这个效果,一些实施例中,可将频谱倾斜滤波器应用于ARMA过滤的LP剩余信号,这可随后加强衰减了的频率,将得到的LP剩余信号返回至主要平整的频谱。
一些实施例中,以上频谱倾斜滤波器可具有第一阶极端零滤波器的形式,这可通过以下表达式来确定
H t ( z ) = 1 - &mu;z - 1 1 + &mu;z - 1 ,
其中系数μ与以上ARMA滤波器Hff的第一反射系数成比例,并且可确定为
&mu; = k t R ( 1 ) R ( 0 ) ,
其中R(0)和R(1)分别是对于ARMA滤波器Hff的截断脉冲响应的第零和第一自相关系数,并且kt是控制滤波器中频谱倾斜的量的常数。
一些实施例中,kt可确定为0.6。这个值已被实验地确定,以生成有利结果。
如图10的处理步骤1007示出将频谱倾斜应用于ARMA后过滤阶段的输出。
一些实施例中,可应用其他处理步骤,从而可使LP剩余信号中的谐波衰减。这个其他处理步骤可特别地有利于输入低带信号可展示强谐波特性的操作实例。例如,一些女性说话者可展示特别强的发声区域,这在扩展信号中体现成不自然的难听的振铃噪音。
为了抵消这个效果,一些实施例中,其他谐波滤波器可应用于以下形式的LP剩余信号:
Hpf(z)=1-kpfgz-M
其中M是LP剩余信号的音节周期(或滞后),g是对应的最佳音节增益。一些实施例中,可使用因子kpf来控制在每个音节周期上应用的衰减的量。换句话说,可使用因子kpf来控制LP剩余信号中的谐波。
一些实施例中,可将因子kpf确定为0.65。这个值可实验地确定,以生成有利的结果。
一些实施例中,可通过使用开放环音节滞后估计方法(其中可在多个不同音节延迟上计算音频信号帧的相关性)来确定音节周期(或滞后)M和对应的最佳音节增益g。这样的实施例中,可随后将音节周期M和对应的最佳音节增益g确定为最大化音频信号帧的相关性的音节滞后和音节增益。
一些其他实施例中,可通过最大化LP剩余信号的相关性而并非输入音频信号帧,来确定音节周期和最佳音节滞后。
在由第三代合作伙伴计划技术规范3GPP TS26.090指定的AMR编解码器中可找到可用作谐波过滤的处理的一部分的适当音节确定算法的实例。
可理解,以上谐波滤波器结构可看作一种梳形滤波器。
如图10的处理步骤1009示出谐波过滤LPC剩余信号的操作。
还可理解,一些实施例中,来自梳形滤波器的输出可形成激励信号。
如图8的处理步骤813示出通过使用激励信号生成器417生成激励信号的操作。
一些实施例中,来自激励信号生成器417的输出激励信号可连接至上采样器419的输入。
一些实施例中,上采样器419可用指定的因子将输入LP剩余信号上采样。
这些实施例中,可通过在LP剩余信号的每个样本之间插入零值样本来实现上采样。可使用重叠和累加来建立连续的时域信号。
可理解,在以上的上采样器419中可不使用低通过滤,以允许LP剩余信号的频谱的别名。这具有以下优点:生成跨整个带扩展的信号。
一些实施例中,可用因子2来上采样LP剩余信号。换句话说,可通过在每个样本值之间插入零值样本,将LP剩余信号从8kHz上采样至16kHz。
如图8的处理步骤815示出上采样滤波器组激励信号的操作。
然后,一些实施例中,上采样的LP剩余信号可形成对于滤波器组421的上采样的激励信号。
如上所述,一些实施例中,滤波器组421可具有类似于用来从神经网络处理器409确定子带能量等级那些的频率特性。换句话说,这样的实施例中,滤波器组421可实现为遵循相同心理声学导出的梅尔标度的多个重叠子带,如对于人工生成的高带信号431确定子带能量等级而使用的。
因此,可理解,一些实施例中,在滤波器组421中子带的分布可大约对应于人类听觉系统的临界带。
一些实施例中,可通过使用线性相位频率脉冲响应(FIR)滤波器单独实现滤波器组的每个子带。
一些实施例中,滤波器组412可包括4个子带,每个子带实现为128拍FIR滤波器。
一些实施例中,可通过用适当的FIR滤波器过滤激励信号来形成每个子带信号。
参照图7,示出根据第一组实施例在滤波器组421中子带的分布。
如图8的处理步骤817示出通过使得滤波器组421的输入接受激励信号生成多个子带信号的操作。
然后,来自滤波器组421的输出子带信号可传递至带加权和求和处理器415的输入。
然后,一些实施例中,带加权和求和处理器415可用其对应的子带增益因子单独加权每个带信号。
如上所述,可由能量增益转换器413对每个子带确定子带增益因子。可经由带加权和求和处理器415的其他输入从能量增益转换器413传递子带增益因子。
一旦每个子带信号通过其对应的子带增益因子分别加权,则一些实施例中,可将加权的子带信号在一起求和以形成人工生成的高带信号431。
如图8的处理步骤823示出用对应的加权因子加权每个子带信号的操作。
一些实施例中,在每个子带的连续帧之间的子带增益因子中可存在渐变。换句话说,可通过在当前帧和随后帧的子带增益因子之间差值来导出特定子带的子带增益因子。
一些实施例中,通过使用正弦变化函数来实现在连续帧上子带增益因子的差值。
可理解,一些实施例中,人工生成的高带信号431的采样频率涉及扩展音频信号435的等同Nyquist带宽。
例如,如果确定人工生成的高带信号431具有的Nyquist带宽等同于输入音频信号401的Nyquist带宽,则人工生成的高带信号431的采样频率可使得输入音频信号401的采样频率翻倍。换句话说,人工生成的高带信号431的采样频率可以是输入音频信号401的双倍,以适应由人工带宽扩展处理生成的额外频率分量。
还可理解,一些实施例中,人工带宽扩展的音频信号435的总采样频率也可具有与人工生成的高带信号431相同的采样频率。
一些实施例中,输入音频信号帧404的Nyquist带宽可以是4kHz。然后,这样的实施例中,人工带宽扩展处理可建立人工生成的高带信号,其以16kHz的采样频率跨越从4kHz到8kHz的频率范围。
然后,一些实施例中,人工生成的高带信号431可传递至求和器427的输入,其中将信号431与上采样的输入音频信号433组合以生成带宽扩展的信号435。
可理解,一些实施例中,输入音频信号433的采样频率可与人工生成的高带信号431的采样频率相同。
为了促进音频信号的上采样,一些实施例中,输入音频信号401可额外地连接至其他上采样器435的输入。这样的实施例中,其他上采样器435可通过与剩余信号路径上布置的上采样器419相同的因子来上采样输入音频信号401。
可理解,可通过在输入音频信号401的每个采样之间插入零,并随后将得到的信号低通过滤以移除不期望的图像分量,来布置其他上采样器423。
一些实施例中,其他上采样器423可通过因子2来上采样输入音频信号401。这些实施例中,输入音频信号401的采样频率可从8kHz上采样至16kHz。
如图8的处理步骤819示出对输入音频信号401上采样从而他可以相同于人工生成的高带信号431的采样频率的操作。
一些实施例中,上采样器423的输出可连接至信号延迟设备425的输入。这样的实施例中,信号延迟设备425可配置为在上采样的输入音频信号上及时执行样本延迟。
一些实施例中,信号延迟设备425可延迟上采样的输入音频信号401,从而他与人工生成的高带信号431在时间上一致。
如图8的处理步骤821示出延迟上采样的输入音频信号的操作。
这样的实施例中,延迟的上采样的输入音频信号形成对于求和器427的输入信号433,其中输入音频信号与人工生成的高带信号431组合,以形成上述带宽扩展的信号435。
如图8的处理步骤825示出形成带宽扩展的信号435的操作。
然后,带宽扩展的信号435可连接至带宽扩展器303的输出306。
因此,总的来说,本发明的至少一个实施例包括一种方法,包括:从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
尽管以上实例描述了在电子设备10或装置中的编解码器中操作的本发明的实施例,但是可理解,以下描述的本发明可实现为任意音频解码处理的一部分。因此,例如,本发明的实施例可实现于可实施从固定或有线通信路径进行音频解码的音频解码器中。
因此,用户装备可包括带宽扩展器,例如,在以上本发明的实施例所述的那些。
可理解,术语“用户装备”旨在涵盖任意适当类型的无线用户装备,例如移动电话、便携式数据处理设备或便携式web浏览器。
此外,公共陆地移动网络(PLMN)的元件也可包括上述音频编解码器。
一般地,本发明的各个实施例可实现于硬件或特定电路、软件、逻辑或其任意组合中。例如,一些方面可实现于硬件中,而其他方面可实现于可由控制器、微处理器或其他计算设备执行的固件或软件中,但是本发明不限于此。尽管作为框图、流程图、或使用一些其他图形表示显示和描述了本发明的各个方面,但是可理解,这里所述的这些方框、装置、系统、技术或方法可实现于,作为非限制性实例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其一些组合中。
本发明的实施例可通过例如在处理器实体中的移动设备的数据处理器可执行的计算机软件,或通过硬件,或通过软件和硬件的组合来实现。此外,由此,应注意,如附图中的逻辑流的任意方框可表示程序步骤,或互连的逻辑电路、方框和功能、或程序步骤和逻辑电路、方框和功能的组合。
因此,总的来说,本发明的至少一个实施例包括一种装置,配置为从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
存储器可以是适合于本地技术环境的任意类型,以及可使用任意适合的数据存储技术来实现,例如,基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适合于本地技术环境的任意类型,以及可包括作为非限制性实例的通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器的一个或多个。
本发明的实施例可在例如集成电路模块的各个组件中实现。集成电路的设计总的说为高度自动化的处理。复杂和强大的软件工具可用于将逻辑级的设计转换成半导体电路设计,以备用于在半导体基板上蚀刻和形成。
例如由Synopsys,Mountain View公司,San Jose,California的California和Cadence Design提供的那些的程序使用良好建立的设计规则以及预先存储的设计模块的库在半导体芯片上自动路由导体和定位组件。一旦完成了对于半导体电路的设计,可向半导体制造设施或“晶圆”发送标准化电子格式(例如Opus、GDSII等)得到的设计,用于制造。
通过示例性和非限制性实例,以上描述提供了本发明的示例性实施例的完整和信息性描述。然而,对于相关领域中的技术人员,当结合附图和所附权利要求阅读时,各个修改和适配从以上描述的角度可变得清楚。然而,本发明的教导的所有这样的和类似的修改将仍旧落入所附权利要求定义的本发明的范围内。

Claims (36)

1.一种方法,包括:
从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;
从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;
从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和
通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
2.如权利要求1所述的方法,其中生成激励信号包括:
通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号;
基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和
通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
3.如权利要求2所述的方法,其中所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
4.如权利要求1至3所述的方法,其中子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
5.如权利要求4所述的分发,其中重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽:
三角形遮蔽函数;和
梯形遮蔽函数。
6.如权利要求1至5所述的方法,其中从特征向量确定至少一个谱形参数包括:
使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
7.如权利要求1至6所述的方法,其中所述谱形参数是子带能量等级值。
8.如权利要求7所述的方法,其中所述谱形参数是基于子带能量等级值的子带增益因子。
9.如权利要求7和8所述的方法,其中当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
10.如权利要求1至9所述的方法,其中所述特征向量的至少一个频域分量特征包括以下至少一个:
音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;
表示音频信号的频域频谱的质心的值;和
表示所述频域频谱的平整度的值。
11.如权利要求1至10所述的方法,其中所述特征向量的至少时域分量特征包括以下至少一个:
基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;
音频信号的帧的能量与音频信号的先前帧的能量的比;和
指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
12.如权利要求1至11中任一项所述的方法,还包括:
将子带信号与音频信号组合,以提供带宽扩展的音频信号。
13.一种装置,包括至少一个处理器和含有计算机代码的至少一个存储器,所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所述装置至少执行:
从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;
从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;
从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和
通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
14.如权利要求13所述的装置,其中所述至少一个存储器和所述计算机代码配置为使得所述装置至少执行生成激励信号,还配置为执行:
通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号;
基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和
通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
15.如权利要求13所述的装置,其中所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
16.如权利要求13至15所述的装置,其中子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
17.如权利要求16所述的装置,其中重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽:三角形遮蔽函数;和梯形遮蔽函数。
18.如权利要求13至17所述的装置,其中所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所述装置至少执行从特征向量确定至少一个谱形参数,还配置为执行:
使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
19.如权利要求13至18所述的装置,其中所述谱形参数是子带能量等级值。
20.如权利要求19所述的装置,其中所述谱形参数是基于子带能量等级值的子带增益因子。
21.如权利要求19和20所述的装置,其中当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
22.如权利要求13至21所述的装置,其中所述特征向量的至少一个频域分量特征包括以下至少一个:
音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;
表示音频信号的频域频谱的质心的值;和
表示所述频域频谱的平整度的值。
23.如权利要求13至22所述的装置,其中所述特征向量的至少时域分量特征包括以下至少一个:
基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;
音频信号的帧的能量与音频信号的先前帧的能量的比;和
指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
24.如权利要求13至23中任一项所述的装置,其中所述至少一个存储器和所述计算机代码还配置为执行:
将子带信号与音频信号组合,以提供带宽扩展的音频信号。
25.一种计算机程序产品,其中软件代码存储于计算机可读介质中,其中所述代码在由处理器执行时实现以下步骤:
从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;
从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;
从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和
通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
26.如权利要求25所述的计算机程序产品,其中所述代码在由处理器执行时实现生成激励信号,还实现:
通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号;
基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和
通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
27.如权利要求25所述的计算机程序产品,其中所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
28.如权利要求25至27所述的计算机程序产品,其中子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
29.如权利要求28所述的计算机程序产品,其中重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽:三角形遮蔽函数;和梯形遮蔽函数。
30.如权利要求25至29所述的计算机程序产品,其中所述代码在由处理器执行时实现从特征向量确定至少一个谱形参数,还实现:
使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
31.如权利要求25至30所述的计算机程序产品,其中所述谱形参数是子带能量等级值。
32.如权利要求31所述的计算机程序产品,其中所述谱形参数是基于子带能量等级值的子带增益因子。
33.如权利要求31和32所述的计算机程序产品,其中当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
34.如权利要求25至33所述的计算机程序产品,其中所述特征向量的至少一个频域分量特征包括以下至少一个:
音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;
表示音频信号的频域频谱的质心的值;和
表示所述频域频谱的平整度的值。
35.如权利要求25至34所述的计算机程序产品,其中所述特征向量的至少时域分量特征包括以下至少一个:
基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;
音频信号的帧的能量与音频信号的先前帧的能量的比;和
指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
36.如权利要求25至35中任一项所述的计算机程序产品,其中所述代码还实现:
将子带信号与音频信号组合,以提供带宽扩展的音频信号。
CN201080068258.5A 2010-05-25 2010-05-25 带宽扩展器 Expired - Fee Related CN103026407B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2010/052315 WO2011148230A1 (en) 2010-05-25 2010-05-25 A bandwidth extender

Publications (2)

Publication Number Publication Date
CN103026407A true CN103026407A (zh) 2013-04-03
CN103026407B CN103026407B (zh) 2015-08-26

Family

ID=45003396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080068258.5A Expired - Fee Related CN103026407B (zh) 2010-05-25 2010-05-25 带宽扩展器

Country Status (8)

Country Link
US (1) US9294060B2 (zh)
EP (1) EP2577656A4 (zh)
KR (1) KR101461774B1 (zh)
CN (1) CN103026407B (zh)
CA (1) CA2800208C (zh)
RU (1) RU2552184C2 (zh)
SG (1) SG185606A1 (zh)
WO (1) WO2011148230A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043151A1 (zh) * 2013-09-26 2015-04-02 华为技术有限公司 一种高频激励信号预测方法及装置
CN105103228A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 用于使用增强信号成形技术产生频率增强信号的装置及方法
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN106716528A (zh) * 2014-07-28 2017-05-24 弗劳恩霍夫应用研究促进协会 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
CN107408392A (zh) * 2015-04-05 2017-11-28 高通股份有限公司 音频带宽选择
CN109155006A (zh) * 2016-05-10 2019-01-04 谷歌有限责任公司 使用神经网络进行基于频率的音频分析
CN110556123A (zh) * 2019-09-18 2019-12-10 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110570874A (zh) * 2018-06-05 2019-12-13 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的系统及其方法
CN112088385A (zh) * 2018-04-23 2020-12-15 塞伦妮经营公司 用于回归深度神经网络的判别训练的系统和方法
CN112530446A (zh) * 2019-09-18 2021-03-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN113196387A (zh) * 2019-01-13 2021-07-30 华为技术有限公司 高分辨率音频编解码

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2774148B1 (en) * 2011-11-03 2014-12-24 Telefonaktiebolaget LM Ericsson (PUBL) Bandwidth extension of audio signals
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
KR101737254B1 (ko) 2013-01-29 2017-05-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호, 디코더, 인코더, 시스템 및 컴퓨터 프로그램을 합성하기 위한 장치 및 방법
US9336789B2 (en) 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
WO2014138539A1 (en) * 2013-03-08 2014-09-12 Motorola Mobility Llc Conversion of linear predictive coefficients using auto-regressive extension of correlation coefficients in sub-band audio codecs
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9524720B2 (en) 2013-12-15 2016-12-20 Qualcomm Incorporated Systems and methods of blind bandwidth extension
US9672843B2 (en) 2014-05-29 2017-06-06 Apple Inc. Apparatus and method for improving an audio signal in the spectral domain
RU2582050C1 (ru) * 2015-01-28 2016-04-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет") Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9571786B1 (en) * 2015-10-15 2017-02-14 Eth Zurich Systems and methods for interpolating frames of a video
US10157621B2 (en) * 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
JP6759898B2 (ja) * 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US9911215B1 (en) 2016-11-04 2018-03-06 Disney Enterprises, Inc. Systems and methods for propagating edits through a video
KR20180056032A (ko) 2016-11-18 2018-05-28 삼성전자주식회사 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
US11545162B2 (en) 2017-10-24 2023-01-03 Samsung Electronics Co., Ltd. Audio reconstruction method and device which use machine learning
EP3624113A1 (en) * 2018-09-13 2020-03-18 Nxp B.V. Apparatus for processing a signal
KR102645659B1 (ko) * 2019-01-04 2024-03-11 삼성전자주식회사 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN117975976A (zh) * 2019-09-18 2024-05-03 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
US20210241776A1 (en) * 2020-02-03 2021-08-05 Pindrop Security, Inc. Cross-channel enrollment and authentication of voice biometrics
US20240087586A1 (en) * 2021-01-29 2024-03-14 Hewlett-Packard Development Company, L.P. Acoustic pattern determination
US11837244B2 (en) * 2021-03-29 2023-12-05 Invictumtech Inc. Analysis filter bank and computing procedure thereof, analysis filter bank based signal processing system and procedure suitable for real-time applications

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
CN1516865A (zh) * 2002-04-11 2004-07-28 ���µ�����ҵ��ʽ���� 编码设备和解码设备
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
JP2009524846A (ja) * 2006-01-24 2009-07-02 サムスン エレクトロニクス カンパニー リミテッド 適応的時間/周波数ベース符号化モード決定装置およびこのための符号化モード決定方法
CN101548316A (zh) * 2006-12-13 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
JP2003044098A (ja) 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
KR101375582B1 (ko) * 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US7912729B2 (en) * 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
EP2559026A1 (en) * 2010-04-12 2013-02-20 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
CN1516865A (zh) * 2002-04-11 2004-07-28 ���µ�����ҵ��ʽ���� 编码设备和解码设备
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
JP2009524846A (ja) * 2006-01-24 2009-07-02 サムスン エレクトロニクス カンパニー リミテッド 適応的時間/周波数ベース符号化モード決定装置およびこのための符号化モード決定方法
CN101548316A (zh) * 2006-12-13 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105103228B (zh) * 2013-01-29 2019-04-09 弗劳恩霍夫应用研究促进协会 用于使用增强信号成形技术产生频率增强信号的装置及方法
CN105103228A (zh) * 2013-01-29 2015-11-25 弗劳恩霍夫应用研究促进协会 用于使用增强信号成形技术产生频率增强信号的装置及方法
US10354665B2 (en) 2013-01-29 2019-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
US10607620B2 (en) 2013-09-26 2020-03-31 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
WO2015043151A1 (zh) * 2013-09-26 2015-04-02 华为技术有限公司 一种高频激励信号预测方法及装置
US9685165B2 (en) 2013-09-26 2017-06-20 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
RU2637885C2 (ru) * 2013-09-26 2017-12-07 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство предсказания сигнала возбуждения верхней полосы
US10339944B2 (en) 2013-09-26 2019-07-02 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
US10762912B2 (en) 2014-07-28 2020-09-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Estimating noise in an audio signal in the LOG2-domain
CN106716528A (zh) * 2014-07-28 2017-05-24 弗劳恩霍夫应用研究促进协会 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
CN106716528B (zh) * 2014-07-28 2020-11-17 弗劳恩霍夫应用研究促进协会 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统
US11335355B2 (en) 2014-07-28 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Estimating noise of an audio signal in the log2-domain
CN107408392A (zh) * 2015-04-05 2017-11-28 高通股份有限公司 音频带宽选择
CN107408392B (zh) * 2015-04-05 2021-07-30 高通股份有限公司 译码方法和设备
CN105679312B (zh) * 2016-03-04 2019-09-10 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN109155006A (zh) * 2016-05-10 2019-01-04 谷歌有限责任公司 使用神经网络进行基于频率的音频分析
CN112088385A (zh) * 2018-04-23 2020-12-15 塞伦妮经营公司 用于回归深度神经网络的判别训练的系统和方法
CN110570874A (zh) * 2018-06-05 2019-12-13 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的系统及其方法
CN110570874B (zh) * 2018-06-05 2021-10-22 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的系统及其方法
CN113196387A (zh) * 2019-01-13 2021-07-30 华为技术有限公司 高分辨率音频编解码
CN110556123A (zh) * 2019-09-18 2019-12-10 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112530446A (zh) * 2019-09-18 2021-03-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112530446B (zh) * 2019-09-18 2023-10-20 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556123B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
US12002479B2 (en) 2019-09-18 2024-06-04 Tencent Technology (Shenzhen) Company Limited Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium

Also Published As

Publication number Publication date
SG185606A1 (en) 2012-12-28
CA2800208A1 (en) 2011-12-01
CA2800208C (en) 2016-05-17
WO2011148230A1 (en) 2011-12-01
EP2577656A1 (en) 2013-04-10
KR20130031849A (ko) 2013-03-29
KR101461774B1 (ko) 2014-12-02
US20130144614A1 (en) 2013-06-06
US9294060B2 (en) 2016-03-22
RU2552184C2 (ru) 2015-06-10
RU2012151035A (ru) 2014-06-27
CN103026407B (zh) 2015-08-26
EP2577656A4 (en) 2014-09-10

Similar Documents

Publication Publication Date Title
CN103026407B (zh) 带宽扩展器
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
CN1750124B (zh) 带限音频信号的带宽扩展
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
CN101510905B (zh) 移动设备上多传感语音增强的方法和装置
CN104520925B (zh) 噪声降低增益的百分位滤波
EP1252621B1 (en) System and method for modifying speech signals
EP1995723B1 (en) Neuroevolution training system
EP2559026A1 (en) Audio communication device, method for outputting an audio signal, and communication system
CN106409310A (zh) 一种音频信号分类方法和装置
CN104538011A (zh) 一种音调调节方法、装置及终端设备
CN104424956A (zh) 激活音检测方法和装置
JP2003514263A (ja) マッピング・マトリックスを用いた広帯域音声合成
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
JPH08123484A (ja) 信号合成方法および信号合成装置
Roy et al. DeepLPC-MHANet: Multi-head self-attention for augmented Kalman filter-based speech enhancement
Fraile et al. Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise
US11270721B2 (en) Systems and methods of pre-processing of speech signals for improved speech recognition
WO2011029484A1 (en) Signal enhancement processing
Graf Design of Scenario-specific Features for Voice Activity Detection and Evaluation for Different Speech Enhancement Applications
Chatterjee et al. Auditory model based modified MFCC features
Onshaunjit et al. LSP Trajectory Analysis for Speech Recognition
PALIWAL DeepLPC: A Deep Learning Approach to Augmented Kalman Filter-Based Single-Channel Speech Enhancement
Kwon et al. A Simple Speech/Non-speech Classifier Using Adaptive Boosting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151230

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150826

Termination date: 20170525

CF01 Termination of patent right due to non-payment of annual fee