CN103460286B - 带宽扩展的方法和设备 - Google Patents

带宽扩展的方法和设备 Download PDF

Info

Publication number
CN103460286B
CN103460286B CN201280015425.9A CN201280015425A CN103460286B CN 103460286 B CN103460286 B CN 103460286B CN 201280015425 A CN201280015425 A CN 201280015425A CN 103460286 B CN103460286 B CN 103460286B
Authority
CN
China
Prior art keywords
signal
energy component
frequency
component
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280015425.9A
Other languages
English (en)
Other versions
CN103460286A (zh
Inventor
郑奎赫
李英汉
田惠晶
金洪国
姜仁圭
金洛榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kwangiu Science & Technology Inst
LG Electronics Inc
Gwangju Institute of Science and Technology
Original Assignee
Kwangiu Science & Technology Inst
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kwangiu Science & Technology Inst, LG Electronics Inc filed Critical Kwangiu Science & Technology Inst
Publication of CN103460286A publication Critical patent/CN103460286A/zh
Application granted granted Critical
Publication of CN103460286B publication Critical patent/CN103460286B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Abstract

本发明提供了一种扩展语音或音频信号的信号带宽的方法和设备。该带宽扩展方法包括步骤:通过使输入信号经受MDCT(修正的离散余弦变换来产生第一变换信号;基于第一变换信号来产生第二变换信号和第三变换信号;从第一变换信号、第二变换信号和第三变换信号来产生相应正常分量和能量分量;从相应正常分量产生扩展的正常分量,以及从相应能量分量产生扩展的能量分量;基于扩展的正常分量和扩展的能量分量来产生扩展的变换信号;以及使扩展的变换信号经受IMDCT(逆MDCT)。

Description

带宽扩展的方法和设备
技术领域
本发明涉及一种语音信号的编码和解码,并且更具体而言,涉及信号带变换技术。
背景技术
随着无所不在的时代的出现,对基于其上的高质量语音和音频服务的需要已经增长得越来越多。为了满足增长需求,存在对有效语音和/或音频编解码器的需要。
随着网络的进步,为语音和音频服务提供的带宽已经扩展,并且已经考虑以高比特速率提供高质量音频、以及以低比特速率提供语音或者中等质量或者低质量音频的可缩放的语音和音频编码/解码方法。
在可缩放的编码/解码中,通过可变地提供带宽以及比特速率,服务的质量可以改善,并且编码/解码效率可以提高。例如,当输入信号是SWB信号时,通过从超宽带(SWB)信号再现宽带(WB)信号,或者当输入信号是WB信号时,从WB信号再现SWB信号。
因此,已经研究了从WB信号产生SWB信号的方法。
发明内容
技术问题
本发明的技术目的是在音频/语音信号的编码和解码中提供有效的带宽扩展方法和设备。
本发明的另一技术目的是在音频/语音信号的编码和解码中提供基于WB信号重建SWB信号的方法和设备。
本发明的另一个技术目的是在音频/语音信号的编码和解码中在没有从编码级传输附加信息的情况下在解码级中提供扩展带的方法和设备。
本发明的另一个技术目的是在音频/语音信号的编码和解码中在不考虑处理带中的增长的情况下提供不导致性能退化的带宽扩展方法和设备。
本发明的另一个技术目的是在音频/语音信号的编码和解码中提供在低带和扩展的较高带之间的边界处能够有效地防止噪声出现的带宽扩展方法和设备。
技术的解决方案
按照本发明的方面,提供了一种带宽扩展方法,包括步骤:对输入信号执行修正的离散余弦变换(MDCT)过程以产生第一变换信号;基于第一变换信号来产生第二变换信号和第三变换信号;从其产生第一变换信号、第二变换信号和第三变换信号的规格化(Normalized)分量和能量分量;从规格化分量来产生扩展的规格化分量,以及从能量分量产生扩展的能量分量;基于扩展的规格化分量和扩展的能量分量来产生扩展的变换信号;以及对扩展的变换信号执行逆MDCT(IMDCT)过程。这里,第二变换信号可以是通过频谱地扩展第一变换信号为较高频带所获得的信号,以及第三变换信号可以是通过相对于第一基准频带反射第一变换信号获得的信号。
具体地,第二变换信号可以是通过将第一变换信号的信号带加倍扩展为较高的频带所获得的信号。
第三变换信号可以是通过相对于第一变换信号的最上面的频率而反射第一变换信号所获得的信号,以及第三变换信号可以被定义在集中于第一变换信号的最上面的频率的重迭带宽中。这里,第三变换信号可以在重迭带宽中与第一变换信号合成。
第一变换信号的能量分量在第一频率部分中可以是第一变换信号的平均绝对值,第二变换信号的能量分量在第二频率部分中可以是第二变换信号的平均绝对值,第三变换信号的能量分量在第三频率部分中可以是第三变换信号的平均绝对值,第一频率部分可以存在于其中定义第一变换信号的频率部分中,第二频率部分可以存在于其中定义第二变换信号的频率部分中,以及第三频率部分可以存在于其中定义第三变换信号的频率部分中。
第一至第三频率部分的宽度可以对应于其中定义第一至第三变换信号的频带的10个连续的频带,其中定义第一变换信号的频率部分可以对应于从其中定义第一变换信号的最下面的频带开始的连续的280个较高频带,其中定义第二变换信号的频率部分可以对应于从其中定义第一变换信号的最下面的频带开始的连续的560个较高频带,以及
其中定义第三变换信号的频率部分可以对应于集中于其中定义第一变换信号的最上面的频带的140个频带。
另一方面,第一变换信号的规格化信号可以是第一变换信号与第一变换信号的能量分量的比,第二变换信号的规格化信号可以是第二变换信号与第二变换信号的能量分量的比,以及第三变换信号的规格化信号可以是第三变换信号与第三变换信号的能量分量的比。
扩展的能量分量可以是在具有其中定义第一变换信号的K的频率带宽的第一能量部分中的第一变换信号的能量分量,可以是在第二能量部分中第二变换信号的能量分量和第三变换信号的能量分量的重迭,第二能量部分是具有从第一能量部分的最上面的频带开始的带宽K/2的较高部分,以及可以是在第三能量部分中的第二变换信号的能量分量,第三能量部分是具有从第二能量部分的最上面的频带开始的带宽K/2的较高部分。这里,权重可以在第二能量部分的第一半中被赋予给第三变换信号的能量分量,以及权重可以在第二能量部分的下半中被赋予给第二变换信号的能量分量。
扩展的规格化分量可以是在低于第二基准频带的频带中的第一变换信号的规格化分量,以及可以是在高于第二基准频带的频带中的第二变换信号的规格化分量,以及第二基准频带可以是其中在第一变换信号和第二变换信号之间的互相关是最大的频带。
产生扩展的规格化分量和扩展的能量分量的步骤可以包括在其中定义扩展的能量分量的最上面的频带中平滑扩展的能量分量。
按照本发明的另一方面,提供了一种带宽扩展设备,其包括:变换单元,其对输入信号执行修正的离散余弦变换(MDCT)以产生第一变换信号;信号产生单元,其基于第一变换信号来产生信号;信号合成单元,其将来自第一变换信号的扩展频带信号和由信号产生单元产生的信号合成;以及逆变换单元,其对扩展的变换信号执行逆MDCT(IMDCT)过程。这里,信号产生单元通过频谱地扩展第一变换信号为较高频带来产生第二变换信号,通过相对于第一基准频带而反射第一变换信号来产生第三变换信号,以及从第一至第三变换信号中提取规格化分量和能量分量,以及信号合成单元基于第一变换信号和第二变换信号的规格化分量来合成扩展的规格化分量,以及基于第一至第三变换信号的能量分量来合成扩展的能量分量,以及基于扩展的规格化分量和扩展的能量分量来产生扩展的带信号。
第一变换信号的能量分量在第一频率部分中可以是第一变换信号的平均绝对值,第二变换信号的能量分量在第二频率部分中可以是第二变换信号的平均绝对值,以及第三变换信号的能量分量在第三频率部分中可以是第三变换信号的平均绝对值。
第一变换信号的规格化信号可以是第一变换信号与第一变换信号的能量分量的比,第二变换信号的规格化信号可以是第二变换信号与第二变换信号的能量分量的比,以及第三变换信号的规格化信号可以是第三变换信号与第三变换信号的能量分量的比。
扩展的能量分量可以是在具有其中定义第一变换信号的K的频率带宽的第一能量部分中的第一变换信号的能量分量,可以是在第二能量部分中第二变换信号的能量分量和第三变换信号的能量分量的重迭,所述第二能量部分是具有从第一能量部分的最上面的频带开始的带宽K/2的较高部分,以及可以是在第三能量部分中的第二变换信号的能量分量,所述第三能量部分是具有从第二能量部分的最上面的频带开始的带宽K/2的较高部分。
权重可以在第二能量部分的第一半中被赋予给第三变换信号的能量分量,以及权重可以在第二能量部分的第二半中被赋予给第二变换信号的能量分量。
扩展的规格化分量可以是在低于第二基准频带的频带中的第一变换信号的规格化分量,以及可以是在高于第二基准频带的频带中的第二变换信号的规格化分量,以及第二基准频带可以是在第一变换信号和第二变换信号之间的互相关是最大的频带。
有益效果
按照本发明,可以在音频/语音信号的编码和解码中有效地扩展带宽。
按照本发明,可以在音频/语音信号的编码和解码中扩展输入WB信号的带宽以重建SWB信号。
按照本发明,可以在音频/语音信号的编码和解码中在没有从编码级传输附加信息的情况下在解码级中扩展带宽。
按照本发明,在音频/语音信号的编码和解码中,在不考虑处理频带增长的情况下,可以扩展带宽而没有性能退化。
按照本发明,可以在音频/语音信号的编码和解码中在低带和扩展的较高带之间的边界处有效地防止噪声出现。
附图说明
图1是示意地示出按照本发明的语音编码器的配置示例的示意图。
图2是示出按照本发明实施例的语音解码器的概念示意图。
图3是示意地示出基于码本的频谱包络预测和划分带激励信号预测应用作为ABE方法的示例的示意图。
图4是示意地示出基于带宽扩展技术来应用ABE的示例的示意图。
图5是示意地示出按照本发明的扩展带的方法的流程图。
图6是示意地示出按照本发明的由带宽扩展设备执行的带宽扩展方法的另一方法的流程图。
图7是示意地示出按照本发明的合成SWB信号的能量分量的方法的示意图。
具体实施方式
在下文中,本发明的实施例将参考附图来具体地描述。当其确定在本发明中涉及的已知的配置或者功能的详细说明使本发明的要点模糊时,将不对其进行详细说明。
如果其提及组件被“连接到”或者“耦合到”另一组件,则应该理解的是,再一个组件可以插入在其间,以及该组件可以直接连接或者耦合到另一组件。
诸如第一和第二的术语能够用于描述各种单元,但是该组件不必限于该术语。例如,在本发明的技术精神内被称作第一组件的组件可以称作第二组件,以及可以执行相同的功能。
图1是示意地示出按照本发明的语音编码器的配置示例的示意图。
参考图1,语音编码器100包括带宽检查单元105、采样转换单元125、预处理单元130、带划分单元110、线性预测分析单元115和135、线性预测量化单元140、150和175、变换单元145、逆变换单元155和180、基音检测单元160、自适应码本搜索单元165、固定码本搜索单元170、模式选择单元185、带预测单元190以及补偿增益预测单元195。
带宽检查单元105确定输入语音信号的带宽信息。语音信号可以根据带宽被分类为具有在公共交换电话网络(PSTN)中广泛使用的大约4kHz带宽的窄带信号、具有比窄带语音信号或者AM无线电更加自然的广泛使用的高质量语音的大约7kHz带宽的宽带信号、以及具有在声音质量加强的领域,诸如数字广播中广泛地使用的14kHz带宽的超宽带信号。带宽检查单元105将输入语音信号变换为频率域,以及确定是否输入语音信号是窄带信号,或者宽带信号,或者超宽带信号。带宽检查单元105可以将输入语音信号变换为频率域,以及可以检查和确定存在和/或频谱的较高带容量(bin)的分量。当根据实施,要输入的语音信号的带宽是固定时,带宽检查单元105可以不必分开地提供。
带宽检查单元105将超宽带信号传送给带划分单元110,以及根据输入语音信号的带宽,将窄带信号或者宽带信号传送给采样转换单元125。
带划分单元110改变输入信号的采样速率,以及将输入信号分为较高带信号和较低带信号。例如,32kHz的语音信号的频率被变换为25.6kHz的采样频率,以及该语音信号通过12.8kHz被分为较高带和较低带。带划分单元110将较低带信号传送给预处理单元130,以及将较高带信号传送给线性预测分析单元115。
采样转换单元125接收输入窄带信号或者宽带信号,以及改变采样速率。例如,当输入窄带语音信号的采样速率是8kHz时,采样转换单元将采样速率改变为12.8kHz,以及产生较高带信号,以及当输入宽带语音信号的采样速率是16kHz时,将采样速率改变为12.8kHz,以及产生较低带信号。采样转换单元125输出其的采样速率改变的较低带信号。内部采样频率可以是除了12.8kHz以外的采样频率。
预处理单元130对从采样转换单元125和带划分单元110输出的较低带信号执行预处理操作。预处理单元130产生语音参数。重要的带的频率分量可以例如使用诸如高通滤波方法或者预加重滤波方法的滤波处理来提取。参数的提取可以通过根据语音带宽将截止频率设置为不同以及高通滤波非常低的频带(其是相对次要的信息被采集的频带)来集中在重要的带上。例如,通过使用预加重滤波方法来升高输入信号的高频带,较低频带和高频带的能量可以被缩放。因此,可以提高线性预测分析的分辨率。
线性预测分析单元115和135计算线性预测系数(LPC)。线性预测分析单元115和135可以建模表示语音信号的频谱的整个形状的共振峰。线性预测分析单元115和135计算LPC值,使得误差值的均方误差是最小的,所述误差值是在使用由线性预测分析单元135计算的线性预测系数产生的预测语音信号和初始语音信号之间的差。诸如自相关方法或者协方差方法的各种方法用于计算LPC。
与用于低带信号的线性预测分析单元135不同,线性预测分析单元115能够提取高阶LPC。
线性预测量化单元120和140转变提取的LPC以在频率域中产生变换系数,诸如线性频谱对(LSP)或者线性频谱(LSF),以及在频率域中量化产生的变换系数。LPC具有宽的动态范围。因此,当LPC被传送而没有任何变化时,其压缩速率被降低。因此,LPC信息可以通过将LPC变换为频率域并且量化变换系数来以少量的信息产生。
线性预测量化单元120和140通过对量化的LPC去量化、使用变换为时间域的LPC来产生线性预测残留信号。线性预测残留信号是通过从语音信号去除预测共振峰分量所获得的信号,以及包括基音信息和随机信号。
线性预测量化单元120使用量化的LPC、通过以初始较高带信号滤波来产生线性预测残留信号。产生的线性预测残留信号被传送给补偿增益预测单元195,以便计算具有较高带预测激励信号的补偿增益。
线性预测量化单元140使用量化的LPC、通过以初始较低带信号滤波来产生线性预测残留信号。产生的线性预测残留信号被输入给变换单元145和基音检测单元160。
在图1中,变换单元145、量化单元150和逆变换单元155可以用作执行变换编译的激励(TCX)模式的RCX模式执行单元。基音检测单元160、自适应码本搜索单元165和固定码本搜索单元170可以用作执行码激励线性预测(CELP)模式的CELP模式执行单元。
变换单元145基于诸如离散傅里叶变换(DFT)或者快速傅里叶变换(FFT)的变换功能来将输入线性预测残留信号变换为频率域。变换单元145将变换系数信息传送给量化单元150。
量化单元150量化从变换单元145产生的变换系数。量化单元150以各种方法执行量化。量化单元150可以根据频带来有选择地执行量化,或者可以使用AbS(综合分析)方法来计算最佳频率组合。
逆变换单元155基于量化的信息来执行逆变换处理,以及在时间域中产生线性预测残留信号的重建的激励信号。
量化和逆变换的线性预测残留信号,即重建的激励信号,被经由线性预测重建为语音信号。重建的语音信号被传送给模式选择单元185。以TCX模式重建的语音信号被与稍后描述的以CELP模式量化和重建的语音信号相比。
另一方面,在CELP模式中,基音检测单元160使用诸如自相关方法的开环方法来计算线性预测残留信号的基音。例如,基音检测单元160通过将合成的语音信号与实际的语音信号比较来计算基音周期和峰值,以及此时使用AbS(综合分析)方法等。
自适应码本搜索单元165基于通过基音检测单元所计算的基音信息来提取自适应码本索引和增益。自适应码本搜索单元165基于自适应码本索引和增益信息、使用AbS方法等从线性预测残留信号来计算基音结构。自适应码本搜索单元165将自适应码本的贡献数据,例如线性预测残留信号(有关基音结构的信息从其中排除)传送给固定码本搜索单元170。
固定码本搜索单元170基于从自适应码本搜索单元165接收的线性预测残留信号来提取和编码固定码本索引和增益。
量化单元175量化参数,诸如从基音检测单元160输出的基音信息、从自适应码本搜索单元165输出的自适应码本索引和增益、以及从固定码本搜索单元170输出的固定码本索引和增益。
逆变换单元180产生激励信号,所述激励信号是使用由量化单元175量化的信息所重建的线性预测残留信号。逆变换单元基于激励信号、通过线性预测的逆处理来重建语音信号。
逆变换单元180将以CELP模式所重建的语音信号传送给模式选择单元185。
模式选择单元185将以TCX模式所重建的TCX激励信号和以CELP模式所重建的CELP激励信号互相比较,以及选择更类似于初始线性预测残留信号的激励信号。模式选择单元185还编码有关选择的激励信号以什幺模式重建的信息。模式选择单元185将有关重建的语音信号和激励信号的选择的选择信息作为比特流传送给带预测单元190。
带预测单元190使用从模式选择单元185传送的选择信息和重建的激励信号来产生较高带的预测激励信号。
补偿增益预测单元195将从带预测单元190传送的较高带预测激励信号和从线性预测量化单元120传送的较高带预测残留信号互相比较,以及在频谱中补偿增益。
另一方面,在图1示出的示例中组成单元可以作为单个模块来操作,或者多个组成单元可以作为单个模块来操作。例如,量化单元120、140、150和175可以作为单个模块来操作,或者量化单元120、140、150和175可以在处理中作为单个模块被设置在必要的位置处。
图2是示出按照本发明实施例的语音解码器的示意图。
参考图2,语音解码器200包括去量化单元205和210、带预测单元220、增益补偿单元225、逆变换单元215、线性预测合成单元230和235、采样转换单元240、带合成单元250和后处理滤波单元245和255。
去量化单元205和210从语音编码器接收量化的参数信息,以及去量化接收的参数信息。
逆变换单元215逆变换以TCX模式或者CELP模式编码的语音信息以重建激励信号。逆变换单元215基于从语音编码器接收的参数来产生重建的激励信号。此时,逆变换单元215可以仅逆变换由语音编码器选择的部分带。逆变换单元215将重建的激励信号传送给线性预测合成单元235和带预测单元220。
线性预测合成单元235使用从逆变换单元215传送的激励信号和从语音编码器传送的线性预测系数来重建较低带信号。线性预测合成单元235将重建的较低带信号传送给采样转换单元240和带合成单元250。
带预测单元220基于从逆变换单元215接收的重建的激励信号来产生较高带预测激励信号。
增益补偿单元225基于从带预测单元220接收的较高带预测激励信号和从语音编码器接收的补偿增益、在SWB语音信号的频谱中来补偿增益。
线性预测合成单元230从增益补偿单元225来接收补偿的较高带预测激励信号,以及基于补偿的较高带预测激励信号和从语音编码器接收的线性预测系数来重建较高带信号。
带合成单元250从线性预测合成单元235接收重建的较低带信号,从线性预测合成单元435接收重建的较高带信号,以及合成接收的较高带信号和接收的较低带信号的带。
采样转换单元240将内部采样频率转换为初始采样频率。
后处理滤波单元245和255执行为重建信号所必需的后处理。例如,后处理滤波单元245和255包括去加重滤波器,所述去加重滤波器可以在预处理单元中执行预加重滤波器的逆滤波。除了滤波处理之外,后处理滤波单元245和255可以执行各种后处理,诸如量化误差最小化过程和加重频谱的谐振峰和去加重谷的过程。后处理滤波单元245输出重建的窄带或者宽带信号,以及后处理滤波单元255输出重建的超宽带信号。
如上所述,在图1和2中示出的语音编码器和语音解码器仅是本发明的示例,以及在不脱离本发明的技术精神的情况下可以不同地改变。
另一方面,可缩放的编码/解码方法被认为提供有效的语音和/或音频服务。
通常,可缩放的语音和音频编码器/解码器可变地提供带宽以及比特速率。例如,以当输入语音/音频信号是SWB信号时从SWB信号再现WB信号以及当输入语音/音频信号是SB信号时从WB信号再现SWB信号的方式,可变地提供带宽。
将WB信号转换为SWB信号的过程通过重新采样来执行。
然而,当上采样过程简单地用于将WB信号转换为SWB信号时,采样速率是SWB信号的采样速率,但是信号实际地存在其中的带宽与WB信号相同。因此,由于上采样,信息量(也就是说,数据速率)增加,但是声音质量没有改善。
在这方面,在没有提高比特速率的情况下从WB信号或者窄带(NB)信号来重建SWB信号的方法被称为人工带宽扩展(ABE)。
在本说明书中,下面将详细地描述接收WB信号或者较低带信号以及在没有提高比特速率的情况下从其重建SWB信号的带宽扩展方法,例如宽带到超宽带重新采样方法。
在本发明中,SWB信号在修正的离散余弦变换(MDCT)域中使用WB信号的反射带信息和预测带信息来重建,修正的离散余弦变换(MDCT)域是可缩放的语音和音频编码器的处理域。
作为初始语音编解码器,由于对网络的带宽和算法处理速率的限制,诸如以少量计算处理窄带的G.711的编解码器已经被主要地开发。换句话说,已经使用提供适用于具有少量计算的语音通信的声音质量的方法,而不是通过采用具有高的比特速率的复合方法来提供好的声音质量的编解码器。
随着信号处理技术和网络的进步,已经开发了具有高复杂度和好的声音质量的编解码器技术。例如,已经开发了仅仅处理3.4kHz或者更小的带宽的窄带语音编解码器和处理高达7kHz的带宽的宽带语音编解码器。
然而,当如上所述考虑对于高质量语音服务的需求增加时,可以考虑使用能够支持等于或者大于基于宽带语音编解码器的宽带的带宽的可缩放的编解码器的方法。此时,G729.1、G718等可以用作宽带语音编解码器。
支持基于宽带语音编解码器的超宽带的可缩放的编解码器能够在各种情形中使用。例如,假设使用呼叫服务的互相通信的2个用户中的一个具有能够仅处理WB信号的终端,以及另一个具有能够处理SWB信号的终端。在这种情况下,会出现基于WB信号而不是SWB信号的语音信号被提供给具有能够处理SWB信号的终端的用户的问题以保持在2个用户之间通信。当SWB信号可以基于WB信号被重新采样和重建时,这个问题能够被解决。
按照本发明的语音编解码器可以处理WB信号和SWB信号这两者,以及能够基于WB信号、通过重新采样来重建SWB信号。
用于重新采样技术的ABE技术迄今通常已经以基于NB信号重建WB信号这样的方式研究。
ABE技术可以划分为频谱包络预测技术和激励信号预测技术。激励信号可以经由调制等来预测。频谱包络可以使用模式识别技术来预测。用于预测频谱包络的模式识别技术的示例包括高斯混合模型(GMM)和隐藏马尔可夫(Markov)模型(HMM)。
作为预测WB信号的ABE方法,利用使用语音识别特征矢量的MFCC(美尔倒谱系数(Mel-Frequency Cepstral Coefficient)),或者利用用于量化MFCC等的矢量量化(VQ)索引的方法已经被研究。
图3是示意地示出基于码本的频谱包络预测和划分带激励信号预测应用作为ABE方法的示例的示意图。
参考图3,关于频率扩展,宽带码本被基于窄带(电话带)码本来预测。同时,激励信号单独地经历低带扩展和高带扩展,然后在合成级中,扩展的信号被经由线性预测编译(LPC)来合成。线性预测编译的结果与频率扩展的结果结合。
另一方面,基于在图3中示出的示例的方法需要大量的计算,并且因此其难以用作语音编码器的组件技术。例如,由于特征矢量随处理带的增加而增加,所以性能退化可能出现。根据训练数据库的特征,性能偏离可以提高。其还难以基于在图3中示出的示例使用该方法以预测在MDCT域中处理的SWB信号。
图4是示意地示出基于带宽扩展技术应用ABE的示例的示意图。基于频谱包络预测技术的ABE方法和激励信号预测方法以及在图4中示出的ABE方法基于现有的带宽扩展技术来被应用。
参考图4,在时间域中的包络信息与在频率域中的包络信息一起被沿着时间轴预测。例如,GMM被使用从低带信号提取的MFCC应用作为特征矢量,以便预测为高带信号的合成所必需的参数。
按照参考在图4中示出的示例描述的方法,ABE可以仅通过预测在现有带宽扩展方法中定义的参数以及重新使用用于为预测其它参数所必需的结构的现有方法来被执行。
然而,在图4中示出的方法一般是差的。例如,由于与该激励信号相对应的部分被预先预测和使用,要预测的信息是相对有限的。
在图4中示出的带宽扩展方法难以与忽略的带特征来一起使用。也就是说,在图4中示出的带宽扩展方法已经被开发用于带宽扩展为宽频带,该方法难以应用于从WB信号重建SWB信号。具体地,这个方法是当基线带的信号被充分地重建时保证性能的方法。因此,当基线带的信号可以仅在编码器中重建时,其难以获得期望的效果。
因此,需要考虑在不引起大量计算的情况下以及在非常依赖于数据库的特征的情况下能够保持普遍性的带宽扩展技术。
在本发明中,在不使用任何附加比特的情况下,带宽被扩展。也就是说,在不使用任何附加比特的情况下,输入WB信号(例如,以16kHz的采样频率输入的信号)可以作为SWB信号(例如,具有32kHz采样频率的信号)输出。
按照本发明的带宽扩展方法也可以应用于(移动、无线)通信。除了MDCT变换以外,带宽可以在没有额外的延迟的情况下被扩展。
按照本发明的带宽扩展方法可以在考虑到普遍性的情况下使用与基线编码器/解码器的帧相同长度的帧。例如,当G.718用作基线编码器时,帧的长度可以设置为20ms。在这种情况下,基于32kHz的信号,20ms对应于640个采样。
表1示意地示出当使用按照本发明的带宽扩展方法时说明的示例。
表1
图5是示意地示出按照本发明的带宽扩展方法的流程图。图5示出接收WB信号和输出SWB信号的重新采样方法。
在图5中示出的步骤可以由编码器和/或解码器来执行。为了解释便利的目的,在图5中假设该步骤由在编码器和/或解码器中的带宽扩展设备来执行。该带宽扩展设备可以被设置在解码器的带预测单元或者带合成单元中,或者可以作为特定单元被设置在解码器中。
在图5中示出的步骤可以由带宽扩展设备来执行,或者可以由与该步骤相对应的机械单元来执行。
在图5中示出的带宽扩展方法可以近似地被分成四个步骤。例如,这四个步骤包括:(1)将输入信号变换为MDCT域的步骤,(2)产生扩展信号和反射信号以使用低带(宽带)输入信号来产生高带信号的步骤,(3)产生能量分量和规格化频谱容量分量以便产生高带信号的步骤,以及(4)产生和输出该输入信号的扩展信号的步骤。
参考图5,带宽扩展设备接收WB信号,以及对其执行MDCT(S510)。
输入WB信号可以是以32kHz采样的单信号,以及可以经由MDCT以时间/频率(T/F)变换方式来变换。在此处提及MDCT的使用,但是可以使用执行时间/频率变换的另一变换方法。
当输入信号以32kHz采样时,输入信号的一个帧包括320个采样。由于MDCT具有重迭和添加(overlap-and-add)结构,所以时间/频率(T/F)变换被执行为包括构成当前帧的先前帧的320个采样的640个采样。
输入信号经历MDCT以产生频谱容量XWB(k)。XWB(k)表示第k个频谱容量,并且k表示采样频率或者频率分量。频谱容量可以被分析为通过执行MDCT获得的MDCT系数。当输入信号被以32kHz采样时,产生320个频谱容量(1≤k≤320)。
320个频谱容量对应于0至8kHz,但是使用与在频谱容量以外的宽带(7kHz的带宽)相对应的280个频谱容量来执行带宽扩展。因此,作为按照本发明的带宽扩展的结果,SWB信号XSWB(k)被作为包括560个频谱容量的重建信号来产生。
带宽扩展设备将经由MDCT产生的频谱容量分组为包括预先确定数目的频谱容量的子带(S520)。例如,用于每个子带的频谱容量的数目可以被设置为10。因此,带宽扩展设备从输入信号构成28个子带,并且基于其产生包括56个子带的输出信号。
带宽扩展设备通过扩展和反射从输入信号构造的28个子带来产生扩展带信号XExt(k)和反射带信号XRef(k)(S530)。扩展带信号经由频谱插值来产生,以及反射带信号经由低带频谱折迭来产生。这些处理将稍后描述。
带宽扩展设备从子带信号中的每个提取能量分量,以及规格化子带信号中的每个(S540)。带宽扩展设备将输入信号(宽带信号)分为能量分量GWB(j)以及规格化频谱容量分量。带宽扩展设备将扩展带信号XExt(k)分为能量分量GExt(j)和规格化频谱容量分量带宽扩展设备将反射带信号XRef(k)分为能量分量GRef(j)和规格化频谱容量分量另一方面,与扩展带信号和反射带信号(其是高带信号)相比,输入信号(其是宽带信号)可以被称为低带信号。输入信号与扩展带信号和反射带信号一起构造超宽带信号。另一方面,在能量分量中的j是指示频谱容量分组为的子带的索引。
带宽扩展设备基于能量分量GWB(j)、GExt(j)和GRef(j)来产生超宽带信号的能量分量GSWB(j)(S550)。稍后将描述合成和产生超宽带信号的能量分量的方法。
带宽扩展设备预测频谱系数(MDCT系数)(S560)。带宽扩展设备能够使用在输入信号的规格化频谱容量分量和扩展带信号的规格化频谱容量分量之间的互相关来计算最佳取回索引。带宽扩展设备基于计算的取回索引来产生超宽带信号的规格化频谱容量分量。
带宽扩展设备使用超宽带信号的能量分量GSWB(j)和超宽带信号的规格化频谱容量分量来产生超宽带信号XSWB(k)(S570)。
稍后将描述产生超宽带信号XSWB(k)的特定方法。
然后,带宽扩展设备执行逆MDCT(IMDCT),以及输出重建的超宽带信号(S580)。
如上所述,带宽扩展设备包括与步骤S510至S580相对应的机械单元。例如,带宽扩展设备包括MDCT单元、分组单元、扩展和反射单元、能量分量提取和规格化单元、SWB能量分量产生单元、频谱系数预测单元、SWB信号产生单元和IMDCT单元。此时,由机械单元执行的操作与在相应的步骤中描述的操作相同。
图6是示意地示出按照本发明的由带宽扩展设备执行的带宽扩展方法的另一示例的流程图。类似于在图5中示出的示例,在图6中示出的示例包括与在S500中相同的MDCT执行步骤(S600)、与在S510中相同的分组步骤(S610)、与在S520中相同的扩展和反射步骤(S620)、与S540相对应的能量提取/规格化步骤(S630)、与S550相对应的SWB扩展步骤(S640、S650和S660)、与在S560中相同的频谱系数预测步骤(S670)、与在S570中相同的SWB信号产生步骤(S680)、以及与在S580中相同的IMDCT步骤(S690)。
在图6中,与图5中的不同,仅输入信号的能量分量GWB(j)被在能量提取/规格化步骤中提取,基于其的提取反射带信号的能量分量GRef(j)的步骤(S640)和提取扩展带信号的能量分量GExt(j)的步骤(S650)在SWB扩展步骤中执行。在SWB扩展步骤中,超宽带信号的能量分量GSWB(j)基于输入信号的能量分量GWB(j)、GExt(j)和GRef(j)来产生(S660)。
在图6示出的示例中,带宽扩展设备包括与步骤S600至S690相对应的机械单元。例如,带宽扩展设备包括MDCT单元、分组单元、扩展和反射单元、能量分量提取和规格化单元、SWB扩展单元(反射带信号能量分量提取单元、扩展带信号能量分量提取单元和SWB信号能量分量产生单元)、频谱系数预测单元、SWB信号产生单元和IMDCT单元。此时,由机械单元执行的操作与在相应的步骤中描述的相同。
当在图5和6中示出的步骤近似地被分成如上所述的四个步骤时,(1)将输入信号变换为MDCT域的步骤包括MDCT步骤(S510和S600),(2)产生扩展信号和反射信号以使用低带(宽带)输入信号产生高带信号的步骤包括分组步骤(S520和S610)以及扩展和反射步骤(S530和S620),(3)产生能量分量和规格化频谱容量分量以便产生高带信号的步骤包括能量分量提取和规格化步骤(S540、S630、S640和S650)、MDCT系数预测单元(S560和S670)和高带能量合成步骤(S550和S660)和(4)产生和输出该输入信号的扩展信号的步骤包括超宽带信号合成单元(S570和S680)和IMDCT步骤(S580和S690)。
具有在图5和6中示出的配置的带宽扩展设备可以在解码器中作为单独的模块来操作。带宽扩展设备可以作为解码器的带预测单元或者带合成单元的一部分来操作。
另一方面,当采用层结构以及编码器基于先前层的信号来重建和处理高带信号时,编码器还包括按照本发明的带宽扩展设备。
在下面将描述按照本发明的构成扩展带信号和反射带信号的方法、提取能量分量和产生规格化分量的方法、合成SWB信号的能量分量的方法、计算取回索引和基于其产生SWB的规格化分量的方法、平滑能量分量的方法和合成SWB信号的方法。
<扩展带信号的结构/反射带信号的结构>
在按照本发明的带宽扩展方法中,与输入信号(WB信号)相比较,高带的信号被处理,并且SWB信号被输出。
当输入信号是大约50Hz至7kHz的WB信号时,要另外处理的带具有从7kHz到14kHz范围的7kHz的带宽。此时,要另外处理的带具有与用作基线编码器的编码器的处理带宽相同的带宽。也就是说,当基线编码器的处理带宽是7kHz时,要另外处理的带具有7kHz的带宽,以便重建SWB信号,同时在没有任何变化的情况下使用基线编码器。
此时,当低带信号被取回以扩展低带(宽带)输入信号的带宽时,若干问题出现。例如,取回索引必须具有280的值,以将与7kHz的输入信号相对应的第一至第280个频谱容量用作与7kHz至14kHz的带相对应的第281至第560个频谱容量。然而,在这种情况下,由于取回索引是固定的,所以其难以不同地选择/计算取回索引。由于具有强的谐波特征的低带分量用作7至8kHz的扩展带信号,所以会出现声音质量的退化。
然而,当低带信号中的一些不用于解决这样的问题时,不可能通过扩展7kHz的带宽来重建超宽带信号。
因此,必须在扩展带宽之前改变带宽。
在按照本发明的带宽扩展方法中,在使用低带信号扩展带宽之前,构造扩展带信号XExt(k)。因此,可以扩大用于取回的选择(取回索引的选择),以及甚至在没有处理在被取回以产生SWB信号的带(部分)中具有谐波特征的低带分量的情况下扩展7kHz的带宽。
扩展带信号XExt(k)可以通过一系列的信号XWB(k)的加倍扩展频谱的加倍频谱伸展来产生。这可以由表达式1来算术地表示。
表达式1
X Ext ( k ) = X WB ( k / 2 ) , k = 0,2,4 , &CenterDot; &CenterDot; &CenterDot; , N - 4 , N - 2 0 , k = 1,3,5 , &CenterDot; &CenterDot; &CenterDot; , N - 3 , N - 1
在这里,N表示与加倍采样的输入信号数目相对应的数目。例如,当在输入信号XWB(k)中的k满足1≤k≤280时,N可以是560。
另一方面,当使用表达式1来扩展带宽时,由于能量分量不同以及在现有的低带信号XWB(k)和扩展信号XExt(k)之间的相位分量差,噪声会在最后重建的SWB信号中出现。为了解决这个问题,能量差可以在低带信号XWB(k)和扩展信号XExt(k)之间的边界处通过能量匹配处理的使用来补偿。然而,由于能量补偿以帧为单位来执行,所以时间/频率变换分辨率被限制。
因此,为了防止在本发明中出现噪声,反射带信号XRef(k)被产生,以及使用反射带信号和扩展带信号这两者来执行带宽扩展。
反射带信号XRef(k)通过将低带(宽带)输入信号反射为高带信号来产生。这可以由表达式2来算术地表示。
表达式2
XRef(k+280)=XWB(279-k),0≤k≤Nw
在表达式2中,包括280个采样的WB信号的输入信号的情形被作为示例来解释。在表达式2中,Nw表示用于合成反射带信号的重迭和添加窗口的长度。这将在能量分量的合成描述中再次描述。
<能量分量的提取和规格化>
在按照本发明的带宽扩展方法中,要重建的SWB信号的规格化频谱容量和能量分量被使用单独的方法来预测。
首先,能量分量被从信号中提取。例如,低带(宽带)输入信号XWB(k)的能量分量GWB(j)被提取,扩展带信号XExt(k)的能量分量GExt(j)被提取,以及反射带信号XRef(k)的能量分量GRef(j)被提取。
用于每个信号的子带的能量分量可以作为在相应的子带中信号的增益的平均值来提取。这可以由表达式3来算术地表示。
表达式3
G XX ( j ) = 1 10 &Sigma; k = 0 9 X XX 2 ( k + 10 &times; j ) , 0 &le; j &le; M XX - 1
在表达式3中,XX表示WB、Ext和Ref中的任何一个。例如,关于低带(宽带)输入信号XWB(k)的能量分量GXX(j)是GWB(j)。关于扩展带信号XExt(k)的能量分量GXX(j)是GExt(j)。关于反射带信号XRef(k)的能量分量GXX(j)是GRef(j)。
在表达式3中,MXX表示用于每个信号的子带的数目。例如,MWB表示属于低带(宽带)输入信号的子带的数目,MExt表示属于扩展带信号的子带的数目以及MRef表示属于反射带信号的子带的数目。如在本发明的实施例中,用于包括280个频谱容量的输入信号的能量分量GWB(j)的MWB是28,用于包括560个频谱容量的扩展带信号的能量分量GExt(j)的MExt是56,以及用于包括140个频谱容量的反射带信号的能量分量GRef(j)的MRef是14。稍后将描述构成反射带信号的频谱容量的数目。
每个信号的频谱容量可以基于信号的能量分量来规格化。例如,规格化频谱容量是频谱容量与相应的能量分量的比。具体地,规格化频谱容量被定义为频谱容量与频谱容量所属于的子带信号的相应的能量分量的比。这可以由表达式4来算术地表示。
表达式4
X ~ XX ( k + 10 &times; j ) = X XX ( k + 10 &times; j ) G XX ( j ) , 0 &le; j &le; M XX - 1,0 &le; k &le; K XX
在表达式4中,KXX表示频谱容量的数目。因此,KXX是10MXX。例如,如在本发明的实施例中,包括280个频谱容量的输入信号XWB(k)的KWB是280,包括560个频谱容量的扩展带信号XExt(k)的KExt是560,以及包括140个频谱容量的反射带信号XRef(k)的KRef是140。
因此,与频率分量相对应的规格化频谱容量可以被获得。
<超宽带信号的能量分量合成>
在按照本发明的带宽扩展方法中,使用基于低带输入信号XWB(k)所产生的反射带信号的能量分量GRef(j)和扩展带信号的能量分量GExt(j)来产生SWB信号的高带能量分量。
具体地,在本发明中,在要重建的SWB信号中在较低带和较高带之间的中间带的能量分量通过重迭和添加扩展带信号的能量分量和反射带信号的能量分量来产生。窗口函数可用于重迭和添加扩展带信号的能量分量和反射带信号的能量分量。例如,在本发明中,中间带的能量分量可以使用汉宁(Hanning)窗口来产生。
在要重建的SWB信号中较高带的能量分量可以使用扩展带信号来产生。
图7是示意地示出按照本发明的合成SWB信号的能量分量的方法的示意图。在图7的(a)至(d)中,垂直轴表示信号的增益或者强度(I),以及水平轴表示信号的带,即频率(f)。
参考图7的(a),当低带(宽带)输入信号的能量分量700在没有任何变化的情况下被扩展为较高带时,在图中示出的能量分量710被获得。然而,如上所述,当输入信号在没有任何变化的情况下用作高带信号时,会在声音质量中导致问题,以及会在基线编码器/解码器的普遍性中导致问题。
因此,在本发明中,SWB信号的能量分量通过产生如图7的(b)所示的扩展带信号的能量分量720以及产生如图7的(c)所示的反射带信号的能量分量730来重建。也就是说,使用反射带信号,在低带(宽带)输入信号和扩展带信号之间的边界处重建SWB信号。
如上所述,由于扩展带信号通过频谱地插入,即频谱地伸展输入信号来产生,所以扩展带信号具有的斜度小于输入信号的斜度。因此,扩展带信号不能与终止部分(k=280的一部分和邻近部分)相匹配,或者在输入信号的终止部分中的互相关可以被降低。
因此,在输入信号的终止部分中,SWB信号的能量分量通过将权重赋予给通过如上所述反射输入信号所产生的反射带信号的能量分量来重建。
图7的(d)示意地示出其中SWB信号的能量分量被使用输入信号的能量分量、扩展带信号的能量分量以及反射带信号的能量分量来合成的示例。参考图7的(d),与在输入信号的能量分量和扩展带信号的能量分量之间的连接相比较,在输入信号的能量分量和反射带信号的能量分量之间的连接更加精确。
因此,在低带信号(输入信号)和高带信号之间的中间带的能量分量可以通过加权反射带信号的能量分量和扩展带信号的能量分量来合成。此时,中间带的长度等于在表达式2中描述的重迭和添加窗口的长度。
例如,反射带信号的能量分量被对于中间带的较下部(接近于输入信号的部分)加权,以及扩展带信号的能量分量被对于中间带的较上部加权。此时,权重可以作为窗口函数被给出。
在高于中间带的较高带中,扩展带信号的能量分量用作SWB信号的能量分量。
在本发明的实施例中,当低带(宽带)输入信号XWB(k)包括28(这里0≤j≤27)个子带信号,以及扩展带信号的能量分量和反射带信号的能量分量被在预先确定的带(例如,扩展带的一半)中重迭和添加时,要重建的SWB信号的能量分量可以通过表达式5来获得。
表达式5
G SWB ( j ) = G WB ( j ) , 0 &le; j &le; 27 G Ref ( j ) w ( N - 14 + j - 28 ) + G Ext ( j ) w ( j - 28 ) , 28 &le; j &le; 41 G Ext ( j ) , 42 &le; j &le; 55
在表达式5中,w表示汉宁窗口,以及w(n)表示包括56个采样的汉宁窗口的第n个值。汉宁窗口是在表达式2中描述的重迭和添加窗口的示例。
此时,与表达式5不同,当在仅考虑到高于输入信号的带的较高带的情况下应用汉宁窗口时,表达式6可以被建立。在这里,在表达式6中的GSWB(j)仅表示在比GWB(j)的带高的带中的信号的能量分量。
表达式6
G SWB ( j ) = G Ref ( j + 28 ) w ( N - 14 + j ) + G Ext ( j + 28 ) w ( j ) , 0 &le; j &le; 13 G Ext ( j ) , 14 &le; j &le; 27
在表达式6中,w(n)表示包括28个采样的汉宁窗口的第n个值。
当连续信号的相应部分被指定时,汉宁窗口导致信号的量值在预先确定部分的开始和结束处收敛在0上。
表达式7示出汉宁窗口的示例,其可以应用于按照本发明的表达式5和6。
表达式7
w ( n ) = 0.5 ( 1 - cos ( 2 &pi;n N - 1 ) ) , 0 &le; n &le; N - 1
在表达式7中汉宁窗口的长度是表达式5的中间带(28≤j≤41)或者表达式6的中间带(0≤j≤13)的长度,以及汉宁窗口的长度是在表达式2中描述的重迭和添加窗口的长度。当表达式7的汉宁窗口应用于表达式5时,N的值是56。当表达式7的汉宁窗口应用于表达式6时,N的值是28。
以下将参考表达式5来描述本发明。参考表达式7,在表达式5的中间带(28≤j≤41)的重迭和添加中,用于扩展带信号的能量分量的窗口的值在中间带的起点(j=28)处是0,以及用于反射带信号的能量分量的窗口的值在中间带的终点处(j=41)是0。也就是说,反射带信号的能量分量在中间带的较下部(接近于输入信号的部分)被加权,以及扩展带信号的能量分量在中间带的较上部被加权。
参考表达式5,如上所述,输入信号(宽带信号)的能量分量在按照本发明的带宽扩展中用作在SWB信号的低带部分中的能量分量。
当使用表达式6时,本发明可以以与如上所述的同样方式来实施。在这种情况下,在N的值设置为28的情况下应用汉宁窗口。应当注意到,使用表达式6所获得的SWB信号的能量分量通过从整个SWB信号的能量分量去除低带能量分量GWB(j)来获得,以及整个SWB信号的能量分量使用利用表达式6获得的GSWB(j)和GWB(j)这两者来获得。
<规格化频谱容量的取回索引>
在按照本发明的带宽扩展方法中,互相关用于确定最佳取回索引。
也就是说,SWB信号的规格化频谱容量分量包括输入信号(宽带信号)的规格化频谱容量分量、以及扩展带信号的规格化频谱容量分量。此时,在扩展带信号的规格化频谱容量分量和要重建的SWB信号的规格化频谱容量分量之间的关系可以使用取回索引来设置。
例如,其中与输入信号的规格化频谱容量分量的互相关是最高的扩展带信号的规格化频谱容量被确定。具有最高互相关的扩展带信号的规格化频谱容量分量可以使用频率k的值来指定。因此,在比输入信号的带高的SWB信号的较高带中的规格化频谱容量可以使用指定具有最高互相关的扩展带信号的规格化频谱容量的频率来确定。
确定指定具有最高互相关的扩展带信号的规格化频谱容量的频率,即取回索引的方法将在下面来具体描述。
互相关部分和互相关索引在其间具有折衷关系。互相关部分指的是用于计算互相关,即确定互相关的带的部分。互相关索引指示用于计算互相关的特定频率。当互相关部分被扩大时,可选择的互相关索引的数目减小,以及当互相关部分变窄时,可选择的互相关索引的数目增加。
通过考虑输入信号的较低带包括强信号,互相关部分可以被设置为输入信号带的部分较高带以便避免误差的出现。
在按照本发明的带宽扩展方法中,当作为输入信号的宽带信号包括7kHz带(0≤k≤279)的280个采样时,取回索引(最大互相关索引)被确定,使得互相关部分的数目和互相关索引的数目的总和是140。
最大互相关索引指示用于指定在互相关部分中具有包括与输入信号的规格化频谱容量分量的最高互相关的扩展带信号的规格化频谱容量分量的频率。
在本发明的实施例中,为了解释便利的目的,将描述其中互相关部分被设置为与80个采样相对应的部分以及互相关索引i的数目(也就是说,当移动采样的同时互相关被测量时移动的数目)被设置为60。
在这种情况下,最大互相关索引max_index能够被确定为是在输入信号带0≤k≤279的200≤k≤279的部分中,在60个k值以外,在输入信号的规格化频谱容量分量和扩展带信号的规格化频谱容量分量之间具有最高互相关的k的值。
这可以由表达式8来算术地表示。
表达式8
max _ index = arg max 0 &le; i &le; 60 CC ( X ~ Ext ( i + 140 ) , X ~ WB ( 200 ) )
在这里,CC(x(m),y(n))表示互相关函数,以及由表达式9来定义。
表达式9
CC ( x ( m ) y ( n ) ) = &Sigma; k = 0 59 x ( m + k ) y ( n + k )
如上所述,在要重建的SWB信号的较高带中的规格化频谱容量分量可以使用最大互相关索引max_index来确定。
例如,当作为输入信号的WB信号包括7kHz带的280个采样时,在SWB信号中的第280个采样频率之后,在第k个频率分量中的规格化频谱容量分量是从最大互相关的第k个频率分量中的扩展带信号的规格化频谱容量分量。这可以由表达式10来算术地表示。
表达式10
X ~ SWB ( k + 280 ) = X ~ Ext ( k + max _ index ) , 0 &le; k &le; 279
<能量平滑>
由于如上所述产生的SWB信号的能量分量GSWB(j)通过组合扩展带信号的能量分量GExt(j)和反射带信号的能量分量GRef(j)来产生,在14kHz带中的分量可以被预测为巨大的。
由于这个预测误差,噪声会混合到高频分量中。也就是说,当SWB信号的较高带以高增益终止时,会导致声音质量退化。
因此,在本发明中,在SWB信号的合成能量分量的较高带中的一些较高能量分量可以被平滑。根据该频率分量,该平滑对能量分量给出特定衰减。
例如,当在较高带中的10个能量分量被平滑时,SWB信号的能量分量可以被如由表达式11表示的那样来平滑。
表达式11
G SWB ( j ) = G SWB ( j ) , 0 &le; j &le; 45 G SWB ( j ) &times; ( 0.9 ) j - 45 , 46 &le; j &le; 55
<超宽带(SWB)信号的合成>
在按照本发明的带宽扩展方法中,SWB信号可以基于产生的SWB信号的能量分量GSWB(j)和SWB信号的规格化频谱容量来重建。在第k个频率分量中的SWB信号可以通过将在第k个频率分量中的SWB信号的规格化频谱容量用作时间/频率变换系数被表示为在第k个频率分量属于其的子带j中具有能量的信号。
这可以由表达式12来算术地表示。
表达式12
在表达式12中,表示不大于k的整数。由于一个子带包括10个频谱容量,子带索引j表示10个频谱容量的组。因此,表示相应的频谱容量属于其的子带,以及表示相应的子带的能量分量。
虽然在以上提及的示范性系统中的方法已经基于包括一系列的步骤或者块的流程图来描述,但是本发明不局限于该步骤的顺序,以及特定步骤可以以除了如上所述或者同时如上所述以外的步骤或者顺序来执行。以上提及的实施例可以包括各种示例。因此,应该理解,本发明包括属于所附的权利要求的所有其它替换、变化和改进。
当如上所述的是组件“连接到”或者“耦合到”另一组件时,应该理解的是,再一组件可以插入在其间,以及该组件可以直接连接或者耦合到另一组件。相反地,当其提及组件“直接连接到”或者“直接耦合到”另一组件时,应该理解的是,又一单元没有插入在其间。

Claims (15)

1.一种用于扩展音频信号的带宽的方法,所述方法包括下列步骤:
对输入音频信号执行修正的离散余弦变换(MDCT)过程以产生第一变换信号;
基于所述第一变换信号产生第二变换信号和第三变换信号;
从所述第一变换信号、所述第二变换信号和所述第三变换产生所述第一变换信号、所述第二变换信号和所述第三变换信号的能量分量和规格化分量;
从所述规格化分量产生扩展的规格化分量,以及从所述能量分量产生扩展的能量分量;
基于所述扩展的规格化分量和所述扩展的能量分量来产生扩展的变换信号;以及
对所述扩展的变换信号执行逆MDCT(IMDCT)过程,
其中,所述第二变换信号是通过将所述第一变换信号频谱地扩展为较高频带而获得的信号,以及
其中,所述第三变换信号是通过相对于第一基准频带反射所述第一变换信号获得的信号,以及
其中,所述扩展的能量分量是在具有所述第一变换信号被定义的K的频率带宽的第一能量部分中的第一变换信号的能量分量,是在第二能量部分中所述第二变换信号的能量分量和所述第三变换信号的能量分量的重迭,所述第二能量部分是具有从所述第一能量部分的最上面频带开始的带宽K/2的较高部分,以及是在第三能量部分中的第二变换信号的能量分量,所述第三能量部分是具有从所述第二能量部分的最上面频带开始的带宽K/2的较高部分。
2.根据权利要求1所述的带宽扩展方法,其中,所述第二变换信号是通过将所述第一变换信号的信号带加倍扩展为较高频带所获得的信号。
3.根据权利要求1所述的带宽扩展方法,其中,所述第三变换信号是通过相对于所述第一变换信号的最上面频率反射所述第一变换信号所获得的信号,以及
其中,所述第三变换信号被定义在集中于所述第一变换信号的最上面频率的重迭带宽中。
4.根据权利要求3所述的带宽扩展方法,其中,所述第三变换信号在重迭带宽中与所述第一变换信号合成。
5.根据权利要求1所述的带宽扩展方法,其中,所述第一变换信号的能量分量在第一频率部分中是所述第一变换信号的平均绝对值,
其中,所述第二变换信号的能量分量在第二频率部分中是所述第二变换信号的平均绝对值,
其中,所述第三变换信号的能量分量在第三频率部分中是所述第三变换信号的平均绝对值,
其中,所述第一频率部分存在于其中定义所述第一变换信号的频率部分中,
其中,所述第二频率部分存在于其中定义所述第二变换信号的频率部分中,以及
其中,所述第三频率部分存在于其中定义所述第三变换信号的频率部分中。
6.根据权利要求5所述的带宽扩展方法,其中,所述第一至第三频率部分的宽度对应于所述第一至第三变换信号的频带的10个连续频带,
其中,所述第一变换信号被定义的频率部分对应于从所述第一变换信号被定义的最下面频带开始的连续的280个较高频带,
其中,所述第二变换信号被定义的频率部分对应于从所述第一变换信号被定义的最下面频带开始的连续的560个较高频带,以及
其中,所述第三变换信号被定义的频率部分对应于集中于所述第一变换信号被定义的最上面频带的140个频带。
7.根据权利要求1所述的带宽扩展方法,其中,所述第一变换信号的规格化信号是所述第一变换信号比所述第一变换信号的能量分量,
其中,所述第二变换信号的规格化信号是所述第二变换信号比所述第二变换信号的能量分量,以及
其中,所述第三变换信号的规格化信号是所述第三变换信号比所述第三变换信号的能量分量。
8.根据权利要求1所述的带宽扩展方法,其中,权重被在所述第二能量部分的第一半中赋予给所述第三变换信号的能量分量,以及权重被在所述第二能量部分的第二半中赋予给所述第二变换信号的能量分量。
9.根据权利要求1所述的带宽扩展方法,其中,扩展的规格化分量是在低于所述第二基准频带的频带中的第一变换信号的规格化分量,以及是在高于所述第二基准频带的频带中的第二变换信号的规格化分量,以及
其中,所述第二基准频带是在所述第一变换信号和所述第二变换信号之间的互相关是最大的频带。
10.根据权利要求1所述的带宽扩展方法,其中,产生所述扩展的规格化分量和所述扩展的能量分量的步骤包括在所述扩展的能量分量被定义的最上面频带中平滑所述扩展的能量分量。
11.一种用于扩展音频信号的带宽的设备,包括:
变换单元,所述变换单元对输入音频信号执行修正的离散余弦变换(MDCT)以产生第一变换信号;
信号产生单元,所述信号产生单元基于所述第一变换信号产生信号;
信号合成单元,所述信号合成单元将来自所述第一变换信号的扩展带信号和由所述信号产生单元产生的信号合成;
逆变换单元,所述逆变换单元对所述扩展的变换信号执行逆MDCT(IMDCT)过程,
其中,所述信号产生单元通过将所述第一变换信号频谱地扩展为较高频带来产生第二变换信号,通过相对于第一基准频带反射所述第一变换信号来产生第三变换信号,以及从所述第一至第三变换信号提取规格化分量和能量分量,以及
其中,所述信号合成单元基于所述第一变换信号和所述第二变换信号的规格化分量来合成扩展的规格化分量,以及基于所述第一至第三变换信号的能量分量来合成扩展的能量分量,以及基于扩展的规格化分量和扩展的能量分量来产生扩展带信号,以及
其中,所述扩展的能量分量是在具有所述第一变换信号被定义的K的频率带宽的第一能量部分中的第一变换信号的能量分量,是在第二能量部分中所述第二变换信号的能量分量和所述第三变换信号的能量分量的重迭,所述第二能量部分是具有从所述第一能量部分的最上面频带开始的带宽K/2的较高部分,以及是在第三能量部分中的第二变换信号的能量分量,所述第三能量部分是具有从所述第二能量部分的最上面频带开始的带宽K/2的较高部分。
12.根据权利要求11所述的带宽扩展设备,其中,所述第一变换信号的能量分量在第一频率部分中是所述第一变换信号的平均绝对值,
其中,所述第二变换信号的能量分量在第二频率部分中是所述第二变换信号的平均绝对值,以及
其中,所述第三变换信号的能量分量在第三频率部分中是所述第三变换信号的平均绝对值。
13.根据权利要求11所述的带宽扩展设备,其中,所述第一变换信号的规格化信号是所述第一变换信号比所述第一变换信号的能量分量,
其中,所述第二变换信号的规格化信号是所述第二变换信号比所述第二变换信号的能量分量,以及
其中,所述第三变换信号的规格化信号是所述第三变换信号比所述第三变换信号的能量分量。
14.根据权利要求11所述的带宽扩展设备,其中,在所述第二能量部分的第一半中将权重赋予给所述第三变换信号的能量分量,以及在所述第二能量部分的第二半中将权重赋予给所述第二变换信号的能量分量。
15.根据权利要求11所述的带宽扩展设备,其中,所述扩展的规格化分量是在低于所述第二基准频带的频带中的第一变换信号的规格化分量,以及是在高于所述第二基准频带的频带中的第二变换信号的规格化分量,以及
其中,所述第二基准频带是在所述第一变换信号和所述第二变换信号之间的互相关是最大的频带。
CN201280015425.9A 2011-02-08 2012-02-08 带宽扩展的方法和设备 Expired - Fee Related CN103460286B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161440843P 2011-02-08 2011-02-08
US61/440,843 2011-02-08
US201161479405P 2011-04-27 2011-04-27
US61/479,405 2011-04-27
PCT/KR2012/000910 WO2012108680A2 (ko) 2011-02-08 2012-02-08 대역 확장 방법 및 장치

Publications (2)

Publication Number Publication Date
CN103460286A CN103460286A (zh) 2013-12-18
CN103460286B true CN103460286B (zh) 2015-07-15

Family

ID=46639053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280015425.9A Expired - Fee Related CN103460286B (zh) 2011-02-08 2012-02-08 带宽扩展的方法和设备

Country Status (6)

Country Link
US (1) US9589568B2 (zh)
EP (1) EP2674942B1 (zh)
JP (1) JP5833675B2 (zh)
KR (1) KR20140027091A (zh)
CN (1) CN103460286B (zh)
WO (1) WO2012108680A2 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
WO2014118159A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
KR102386736B1 (ko) * 2014-03-03 2022-04-14 삼성전자주식회사 대역폭 확장을 위한 고주파 복호화 방법 및 장치
CN111312277B (zh) 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
SG11201609834TA (en) 2014-03-24 2016-12-29 Samsung Electronics Co Ltd High-band encoding method and device, and high-band decoding method and device
US9729287B2 (en) * 2014-12-05 2017-08-08 Facebook, Inc. Codec with variable packet size
US10506004B2 (en) 2014-12-05 2019-12-10 Facebook, Inc. Advanced comfort noise techniques
US10469630B2 (en) 2014-12-05 2019-11-05 Facebook, Inc. Embedded RTCP packets
US9729601B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Decoupled audio and video codecs
US9729726B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Seamless codec switching
US9667801B2 (en) 2014-12-05 2017-05-30 Facebook, Inc. Codec selection based on offer
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
JP7392510B2 (ja) 2020-02-19 2023-12-06 中国電力株式会社 門扉用施錠装置
WO2021172053A1 (ja) * 2020-02-25 2021-09-02 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256000A (ja) * 2001-12-25 2003-09-10 Matsushita Electric Ind Co Ltd 電話装置
CN1830148A (zh) * 2003-07-29 2006-09-06 松下电器产业株式会社 音频信号频带扩展装置及方法
JP4627548B2 (ja) * 2005-09-08 2011-02-09 パイオニア株式会社 帯域拡張装置、帯域拡張方法および帯域拡張プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6607136B1 (en) * 1998-09-16 2003-08-19 Beepcard Inc. Physical presence digital authentication system
KR100935961B1 (ko) * 2001-11-14 2010-01-08 파나소닉 주식회사 부호화 장치 및 복호화 장치
US7228271B2 (en) 2001-12-25 2007-06-05 Matsushita Electric Industrial Co., Ltd. Telephone apparatus
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
US8532983B2 (en) 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
JP5197278B2 (ja) * 2008-10-02 2013-05-15 クラリオン株式会社 高域補完装置
US8463599B2 (en) 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5127754B2 (ja) * 2009-03-24 2013-01-23 株式会社東芝 信号処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256000A (ja) * 2001-12-25 2003-09-10 Matsushita Electric Ind Co Ltd 電話装置
CN1830148A (zh) * 2003-07-29 2006-09-06 松下电器产业株式会社 音频信号频带扩展装置及方法
JP4627548B2 (ja) * 2005-09-08 2011-02-09 パイオニア株式会社 帯域拡張装置、帯域拡張方法および帯域拡張プログラム

Also Published As

Publication number Publication date
JP5833675B2 (ja) 2015-12-16
KR20140027091A (ko) 2014-03-06
EP2674942B1 (en) 2017-10-25
US9589568B2 (en) 2017-03-07
EP2674942A4 (en) 2014-07-02
EP2674942A2 (en) 2013-12-18
US20130317812A1 (en) 2013-11-28
WO2012108680A2 (ko) 2012-08-16
WO2012108680A3 (ko) 2012-11-22
JP2014508322A (ja) 2014-04-03
CN103460286A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103460286B (zh) 带宽扩展的方法和设备
US10580425B2 (en) Determining weighting functions for line spectral frequency coefficients
CN106104682B (zh) 用于对线性预测编码系数进行量化的加权函数确定装置和方法
KR101660843B1 (ko) Lpc 계수 양자화를 위한 가중치 함수 결정 장치 및 방법
CN103999153B (zh) 用于以带选择的方式量化语音信号的方法和设备
KR101761820B1 (ko) Lpc 계수 양자화를 위한 가중치 함수 결정 장치 및 방법
KR101857799B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
JP2000514207A (ja) 音声合成システム
KR101997897B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
KR101867596B1 (ko) Lpc 계수 양자화를 위한 가중치 함수 결정 장치 및 방법
Fuchs et al. Super-Wideband Spectral Envelope Modeling for Speech Coding.
Li et al. A new distortion measure for parameter quantization based on MELP
Nishiguchi Harmonic vector excitation coding of speech
Xia et al. A GMM based residual prediction method for voice conversion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150715

Termination date: 20170208

CF01 Termination of patent right due to non-payment of annual fee