CN103038825A - 语音增强方法和设备 - Google Patents

语音增强方法和设备 Download PDF

Info

Publication number
CN103038825A
CN103038825A CN2011800014460A CN201180001446A CN103038825A CN 103038825 A CN103038825 A CN 103038825A CN 2011800014460 A CN2011800014460 A CN 2011800014460A CN 201180001446 A CN201180001446 A CN 201180001446A CN 103038825 A CN103038825 A CN 103038825A
Authority
CN
China
Prior art keywords
predictor coefficient
linear predictor
linear
lifting factor
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800014460A
Other languages
English (en)
Other versions
CN103038825B (zh
Inventor
田薇
李玉龙
邝秀玉
贺知明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
University of Electronic Science and Technology of China
Original Assignee
Huawei Technologies Co Ltd
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, University of Electronic Science and Technology of China filed Critical Huawei Technologies Co Ltd
Publication of CN103038825A publication Critical patent/CN103038825A/zh
Application granted granted Critical
Publication of CN103038825B publication Critical patent/CN103038825B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例涉及语音增强的方法和设备。语音增强方法包括:获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;获取提升因子,其中,提升因子根据M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;根据提升因子以及M个第一线性预测系数之间的相关性修改M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性,经过本发明实施例的方法处理后,语音的质量和可懂度都得到了共同的提升。

Description

语音增强方法和设备
技术领域
本发明实施例涉及通信领域,具体地说,涉及语音增强方法和设备。
背景技术
无线技术的发展,使得网络间互融的现象日趋增多,而要实现网络间的互通,则需进行不同码流之间的转换。如要实现IP电话网和移动电话网的融合,以手机拨打IP电话为例(其中IP电话的语音编码使用的比较多的G..723和G..729协议;而移动通信领域使用的比较多的是自适应多码率语音编码(AMR)标准),则需要实现G.729和AMR这两种不同码流之间的转换。目前码流间的转换主要有两种方案,级联(Tandem)和码流转换(Transcoding)方案。采用Tandem方案进行码流转换时,由于包括了两次失真压缩,语音质量受损,客观平均意见得分(Mean Opinion Score,简称MOS)下降,影响了语音的可懂度。而Transcoding方案相对于前一种方案是能大幅度的降低运算量,但由于两种码流之间的速率等存在不匹配,故经过码流转换后其语音质量仍然受损,语音的可懂度发生下降,即语音的辨识水平下降。
现有技术其语音可懂度的提升有可能会同时放大或引入刺耳的噪声、带来失真甚至是畸变,且无法恢复丢失的高频成份。也就是说现有技术中的语音可懂度提升是以语音质量的牺牲为代价的,即目前的技术难于实现语音可懂度与语音质量的共同提升。
发明内容
本发明所要解决的一个技术问题在于,克服现有技术在提升语音可懂度的同时语音质量下降的缺点,利用共振峰以及语音的中高频成分对语音可懂度的作用,提供一种具有高频补偿作用的语音增强方法。
根据本发明实施例,提出了一种语音增强方法,所述方法包括:
获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;
获取提升因子,其中,所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;
根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。
根据本发明实施例,提出了一种语音增强设备,所述设备包括:
获取模块,用于获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;
处理模块,用于获取提升因子,其中,所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;
合成模块,根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。
在本发明实施例的方法中,提升因子包含了语音各频率间的相关性,语音短时谱包络的修改通过M个第一线性预测系数的修改得到,也包含了语音的相关性,使得修改后的短时谱包络其共振峰能量得到增强且语音丢失的中高频频谱分量得到了一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性,经过本发明实施例方法的处理后,语音的质量和可懂度都得到了共同的提升。
根据本发明实施例的语音增强方法计算过程简单、鲁棒性好、能同时提高语音的可懂度和质量,而且能恢复由于编码失真而丢失的高频成分,特别适合改善不同网关融合互通所引起的通信语音质量下降的情况。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的方法的流程图;
图2是采用现有技术的级联方案以及采用本发明实施例的语音增强方法处理过的浊音帧的LPC谱;
图3是浊音帧经过级联方案和本发明实施例的语音增强方法处理后在频域的比较,其中图3(a)是原始语音,图3(b)是原始语音经过级联方案处理后的频率分布,图3(c)是级联后的语音经过本发明实施例的语音增强方法处理后的频率分布;
图4是原始语音、级联处理后的语音以及根据本发明实施例的方法处理后的语音的DRT得分;
图5是本发明实施例的设备的示意结构图;
图6是本发明实施例的设备的示意结构图;和
图7是用来实现本发明实施例的设备的示意硬件结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的技术方案,可以应用于各种通信系统,例如:GSM,码分多址(CDMA,Code Division Multiple Access)系统,宽带码分多址(WCDMA,Wideband Code Division Multiple Access Wireless),通用分组无线业务(GPRS,General Packet Radio Service),长期演进(LTE,Long TermEvolution)等。
图1是本发明实施例的语音传输的增强方法100的流程图。如图1所示,方法100包括:
110:获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;
120:获取提升因子,其中,所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;
130:根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。
在110中,可以设获取的浊音帧为s(n),则语音传输的传递函数可以表示为:
H ( z ) = 1 A ( z ) = 1 1 - Σ i = 1 M α i z - i - - - ( 1 )
其中M为线性预测滤波器的阶数,αi为第一线性预测系数。
下面具体描述在120中,根据M个第一线性预测系数αi对应的短时谱包络中频率之间的相关性获取提升因子。
第一线性预测系数αi是根据下式计算的:
R n ( j ) - Σ i = 1 M α i R n ( j - i ) = 0 1≤j≤M        (2)
其中Rn(j)为浊音帧s(n)在j时刻的自相关函数,即
R n ( j ) = Σ n s ( n ) s ( n - j ) - - - ( 3 )
根据本发明实施例,可以采用莱文森-杜宾(Levinson-Durbin)递推算法来求解(2)式,其递推过程如下:
a.计算s(n)的自相关函数Rn(j),j=0,1...M;
b.令E(0)=Rn(0);
c.递推过程从i=1开始;
d.按照以下(4)-(6)式进行递推运算:
k i = R n ( i ) - Σ j = 1 i - 1 a j ( i - 1 ) R n ( i - j ) E ( i - 1 ) - - - ( 4 )
α j ( i ) = α j ( i - 1 ) - k i α i - j ( i - 1 ) j=1,......,i-1          (5)
E ( i ) = ( 1 - k i 2 ) E ( i - 1 ) - - - ( 6 )
e.i=i+1,如果i>M,则算法结束,否则返回(d)步骤,重新进行递推。
在以上(4)-(6)式中,
Figure BDA0000092275070000047
表示第i阶线性预测滤波器的第j个预测系数,E(i)为第i阶线性预测滤波器的预测残差能量,经过递推后可以得到第i=1、2、...M各阶预测器的解。其最终解为:
α j = α j ( M ) j=1,2,...,M           (7)
若令z=e,则可以得到浊音帧信号的发生模型的频率特性,即语音发生模型的线性系统的频率响应可以描述为:
H ( e iω ) = G 1 - Σ i = 1 M α i e - jiω = G A ( e iω ) - - - ( 8 )
根据功率谱的定义,可以定义语音帧的短时谱包络为:
| H ( e iω ) | 2 = | G A ( e iω ) | 2 - - - ( 9 )
下面具体描述步骤130,即根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。
首先对输入的语音帧信号s(n)的第一线性预测系数αi按照下式进行归一化:
xi=|αi|-((int)(|αi|/2π)×2π),i=1,2...M    (10)
再利用正弦模型对其进行处理:
在αi≥0时
flag i = - 1 ; x i > &pi; 1 ; x i < &pi; 0 ; x i = &pi; - - - ( 11 - 1 )
在αi<0时
flag i = - 1 ; x i < &pi; 1 ; x i > &pi; 0 ; x i = &pi; - - - ( 11 - 2 )
则,提升因子f由下式给出:
f = ( &Sigma; i = 1 M ( flag i - &mu; ) ) M - - - ( 12 )
其中μ为所述第一线性预测系数αi的均值,M为线性预测滤波器的阶数。
需要说明的是,利用归一化的第一线性预测系数以及浊音帧的正弦模型来获取提升因子,仅仅是一种示例,本领域技术人员可以根据具体情况选择其他的方法来获取提升因子。
然后利用(13)式修改上述线性预测系数αi,以获得第二线性预测系数βi
&beta; j ( i ) = &alpha; j ( i - 1 ) - f&alpha; i - j ( i - 1 ) j=1,...,i-1            (13)
将修改后获得的第二线性预测系数βi替换(9)式中的第一线性预测系数αi,则传递函数可以写为:
H ( z ) = y ( n ) s ( n ) = 1 1 - &Sigma; i = 1 M &beta; i z - i - - - ( 14 )
其中y(n)表示经过本发明实施例的语音增强方法增强后输出的语音帧,则
y ( n ) = &Sigma; i = 1 M ( &beta; i &times; y ( n - i ) ) + s ( n ) - - - ( 15 )
根据本发明实施例,可以利用(15)式对浊音帧信号s(n)进行线性滤波,由此得到可懂度提升的语音帧信号。
需要注意的是,以上根据提升因子以及第一线性预测系数的相关性而根据式(13)修改第一线性预测系数仅仅是一种示例,本领域技术人员可以根据需要选择适当的方法来修改第一线性预测系数,只要能实现共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿的技术效果即可。
根据本发明实施例,考虑到语音帧的共振峰仅在浊音帧中出现,因此在步骤110之前,本发明实施例的方法可以包括判断语音帧是否为浊音帧的过程,仅在语音帧为浊音帧的情况下,才根据本发明实施例的方法对语音帧进行处理,而在语音帧为清音帧的情况下,直接输出,以节省处理资源,提高处理效率。
根据本发明实施例,在步骤110之前,可以对语音帧信号进行预加重,例如根据式(16)进行预加重:
H(z)=1-0.95z-1                  (16)
在此情况下,对输入的语音帧进行可懂度提升之后,还要进行相反的处理,以消除预加重的影响。
根据本发明实施例的方法,在一种具体的应用中,本发明实施例的语音增强方法的效果可以从图2至图4看出。
图2是采用现有技术的级联方案以及采用本发明实施例的语音增强方法处理过的浊音帧的LPC谱。从图2可以看出,经过本发明的语音增强方法处理的浊音帧的LPC谱得到普遍增强,不仅仅包括共振峰能量的增强。
图3是浊音帧经过级联方案和本发明实施例的语音增强方法处理后在频域的比较,其中图3(a)是原始语音,图3(b)是原始语音经过级联方案处理后的频率分布,图3(c)是级联后的语音经过本发明实施例的语音增强方法处理后的频率分布。从图3(b)与3(c)的比较可以看出,经过本发明实施例的语音增强方法处理之后,原始语音中的中高频分量得到明显的补偿。
图4是原始语音、级联处理后的语音以及根据本发明实施例的方法处理后的语音的DRT得分。在图4中,O表示原始语音,I表示经过一次级联处理后的语音;II表示经过二次级联处理后的语音帧;III表示经过三次级联处理后的语音帧,eII表示根据本发明实施例的方法对二次级联后的语音帧进行处理,eIII表示根据本发明实施例的方法对三次级联后的语音帧进行处理。比较III和eIII,可以看出,经过本发明实施例的方法处理后,DRT最高可提升6.26%。
在本发明实施例的方法中,提升因子包含了语音各频率间的相关性,语音短时谱包络的修改通过M个第一线性预测系数的修改得到,也包含了语音的相关性,使得修改后的短时谱包络其共振峰能量得到增强且语音丢失的中高频频谱分量得到了一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性,经过本发明实施例方法的处理后,语音的质量和可懂度都得到了共同的提升。
另外,根据本发明实施例的方法,计算过程简单、鲁棒性好。由于利用了语音各个频率之间的相关性,故能很好地解决现有技术在处理畸变共振峰增强或是共振峰信息丢失的不足,且能很好的恢复由于不同网络融合而丢失的高频成份。
图5是本发明实施例的语音增强设备200的示意结构图。语音增强设备可以用来实施本发明实施例的方法。如图2所示,语音增强设备200包括:
获取模块210,用于获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;
处理模块220,用于获取提升因子,其中,所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;
合成模块230,根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。
根据本发明实施例,所述获取模块210用于根据所述浊音帧的自相关函数,利用莱文森-杜宾递推算法来计算所述第一线性预测系数。
根据本发明实施例,所述处理模块用于根据上述式(10)-(12)计算所述提升因子。
根据本发明实施例,所述合成模块用于利用上述式(13)修改所述第一线性预测系数,以获得所述第二线性预测系数。
如图6所示,根据本发明实施例,语音增强设备200还包括滤波模块240,用于根据所述第二线性预测系数对所述浊音帧信号进行线性滤波。
如图6所示,根据本发明实施例,语音增强设备200还包括预加重模块250,用于在所述获取模块获取浊音帧信号的M个第一线性预测系数之前,利用上述式(16)对所述浊音帧信号预加重。
根据本发明实施例,所述获取模块可以用于判断语音帧是否为浊音帧,仅在语音帧为浊音帧的情况下,才根据本发明实施例的方法对语音帧进行处理,而在语音帧为清音帧的情况下,直接输出,以节省处理资源,提高处理效率。
本领与技术人员应该理解,根据本发明实施例的语音增强设备200可以利用各种硬件设备例如数字信号处理(Digital Signal Processing,简称DSP)芯片来实现,其中所述的获取模块210、处理模块220、合成模块230以及滤波模块240,可以各自分别基于分开的硬件设备来实现,也可以集成在一个硬件设备中来实现。
图7是用来实现本发明实施例的语音增强设备200的一种示意硬件结构700。如图7所示,该硬件结构700包括DSP芯片710、存储器720和接口单元730。DSP芯片710可以用来实现本发明实施例的语音增强设备200的处理功能,包括完成获取模块210、处理模块220、合成模块230以及滤波模块240全部的处理功能。存储器720可以用来存储待处理的浊音帧信号以及处理过程的中间变量以及经过处理的浊音帧信号等。接口单元730可以用来与下级设备进行数据传输。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种语音增强方法,其特征在于,包括:
获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;
获取提升因子,其中,所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;
根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰得到增强并且中高频频谱分量得到一定程度的补偿。
2.如权利要求1所述的方法,其特征在于,
所述获取浊音帧信号的M个第一线性预测系数,包括:
根据所述浊音帧的自相关函数,利用莱文森-杜宾递推算法来计算所述第一线性预测系数。
3.如权利要求1所述的方法,其特征在于,
所述获取提升因子,包括:根据以下公式计算提升因子:
xi=|αi|-((int)(|αi|/2π)×2π),i=1,2..M
在αi≥0时
flag i = - 1 ; x i > &pi; 1 ; x i < &pi; 0 ; x i = &pi;
在αi<0时
flag i = - 1 ; x i < &pi; 1 ; x i > &pi; 0 ; x i = &pi;
f = ( &Sigma; i = 1 M ( flag i - &mu; ) ) M
其中,αi为所述第一线性预测系数,xi为归一化的第一线性预测系数,flagi为正弦模型取值,μ为αi的均值,M为线性预测的阶数,f为所述提升因子。
4.如权利要求1至3任一项所述的方法,其特征在于,
所述根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,包括:
利用以下公式修改所述第一线性预测系数,以获得所述第二线性预测系数:
&beta; j ( i ) = &alpha; j ( i - 1 ) - f&alpha; i - j ( i - 1 ) j=1,...,i-1
其中,i为M阶线性预测滤波器中第i阶系数;
Figure FDA0000092275060000022
为第一线性预测系数,表示第i阶线性预测滤波器的第j个线性预测系数;f为提升因子;
Figure FDA0000092275060000023
为第二线性预测系数,表示第i阶线性预测滤波器的第j个线性预测系数。
5.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
根据所述第二线性预测系数对所述浊音帧进行线性滤波。
6.如权利要求1至5任一项所述的方法,其特征在于,
在所述获取浊音帧信号的M个第一线性预测系数之前,所述方法还包括:
利用下式对所述浊音帧信号预加重:
H(z)=1-0.95z-1。。
7.一种语音增强设备,其特征在于,所述设备包括:
获取模块,用于获取浊音帧信号的M个第一线性预测系数,其中M是线性预测滤波器的阶数;
处理模块,用于获取提升因子,其中,所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到;
合成模块,根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数,使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比,共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。
8.如权利要求7所述的设备,其特征在于,
所述获取模块用于根据所述浊音帧的自相关函数,利用莱文森-杜宾递推算法来计算所述第一线性预测系数。
9.如权利要求7所述的设备,其特征在于,
所述处理模块用于根据以下公式计算所述提升因子:
xi=|αi|-((int)(|αi|/2π)×2π),i=1,2...M
在αi≥0时
flag i = - 1 ; x i > &pi; 1 ; x i < &pi; 0 ; x i = &pi;
在αi<0时
flag i = - 1 ; x i < &pi; 1 ; x i > &pi; 0 ; x i = &pi;
f = ( &Sigma; i = 1 M ( flag i - &mu; ) ) M
其中,αi为所述第一线性预测系数,xi为归一化的第一线性预测系数,flagi为正弦模型取值,μ为αi的均值,M为线性预测的阶数,f为所述提升因子。
10.如权利要求7至9任一项所述的设备,其特征在于,
所述合成模块利用以下公式修改所述第一线性预测系数,以获得所述第二线性预测系数:
&beta; j ( i ) = &alpha; j ( i - 1 ) - f&alpha; i - j ( i - 1 ) j=1,...,i-1          (5)
其中,i为M阶线性预测滤波器中第i阶系数;
Figure FDA0000092275060000035
为第一线性预测系数,表示第i阶线性预测滤波器的第j个线性预测系数;f为提升因子;
Figure FDA0000092275060000036
为第二线性预测系数,表示第i阶线性预测滤波器的第j个线性预测系数。
11.如权利要求7至10任一项所述的设备,其特征在于,所述设备还包括:
滤波模块,用于根据所述第二线性预测系数对所述浊音帧信号进行线性滤波。
12.如权利要求7至10任一项所述的设备,其特征在于,所述设备还包括:
预加重模块,用于在所述获取模块获取浊音帧信号的M个第一线性预测系数之前,利用下式对所述浊音帧信号预加重:
H(z)=1-0.95z-1 。
CN201180001446.0A 2011-08-05 2011-08-05 语音增强方法和设备 Expired - Fee Related CN103038825B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/078087 WO2012159370A1 (zh) 2011-08-05 2011-08-05 语音增强方法和设备

Publications (2)

Publication Number Publication Date
CN103038825A true CN103038825A (zh) 2013-04-10
CN103038825B CN103038825B (zh) 2014-04-30

Family

ID=47216591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180001446.0A Expired - Fee Related CN103038825B (zh) 2011-08-05 2011-08-05 语音增强方法和设备

Country Status (2)

Country Link
CN (1) CN103038825B (zh)
WO (1) WO2012159370A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI555010B (zh) * 2013-12-16 2016-10-21 三星電子股份有限公司 音訊編碼方法及裝置、音訊解碼方法以及非暫時性電腦可讀記錄媒體
CN106856623A (zh) * 2017-02-20 2017-06-16 鲁睿 基带语音信号通讯噪声抑制方法及系统
CN110663080A (zh) * 2017-02-13 2020-01-07 法国国家科研中心 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN110797039A (zh) * 2019-08-15 2020-02-14 腾讯科技(深圳)有限公司 语音处理方法、装置、终端及介质
CN113870872A (zh) * 2018-06-05 2021-12-31 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1303586C (zh) * 2003-11-21 2007-03-07 三星电子株式会社 使用共振峰增强对话的方法和装置
US20100063808A1 (en) * 2008-09-06 2010-03-11 Yang Gao Spectral Envelope Coding of Energy Attack Signal
CN102044250A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 频带扩展方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1303586C (zh) * 2003-11-21 2007-03-07 三星电子株式会社 使用共振峰增强对话的方法和装置
US20100063808A1 (en) * 2008-09-06 2010-03-11 Yang Gao Spectral Envelope Coding of Energy Attack Signal
CN102044250A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 频带扩展方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI555010B (zh) * 2013-12-16 2016-10-21 三星電子股份有限公司 音訊編碼方法及裝置、音訊解碼方法以及非暫時性電腦可讀記錄媒體
CN110663080A (zh) * 2017-02-13 2020-01-07 法国国家科研中心 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN106856623A (zh) * 2017-02-20 2017-06-16 鲁睿 基带语音信号通讯噪声抑制方法及系统
CN106856623B (zh) * 2017-02-20 2020-02-11 鲁睿 基带语音信号通讯噪声抑制方法及系统
CN113870872A (zh) * 2018-06-05 2021-12-31 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN110797039A (zh) * 2019-08-15 2020-02-14 腾讯科技(深圳)有限公司 语音处理方法、装置、终端及介质
CN110797039B (zh) * 2019-08-15 2023-10-24 腾讯科技(深圳)有限公司 语音处理方法、装置、终端及介质

Also Published As

Publication number Publication date
WO2012159370A1 (zh) 2012-11-29
CN103038825B (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
CN103038825B (zh) 语音增强方法和设备
CN1288625C (zh) 音频编码与解码设备及其方法
CN1215459C (zh) 声信号带宽扩展
CN101030377B (zh) 提高声码器基音周期参数量化精度的方法
CN101763856B (zh) 信号分类处理方法、分类处理装置及编码系统
CN102985969B (zh) 编码装置、解码装置和编码方法、解码方法
CN1647159A (zh) 使用预编程的语音特征的语音转换器
CN101548319A (zh) 后置滤波器以及滤波方法
CN101051461A (zh) 特征向量补偿装置和特征向量补偿方法
CN101996640B (zh) 频带扩展方法及装置
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1922658A (zh) 音频信号的分类
CN102044250B (zh) 频带扩展方法及装置
CN1297222A (zh) 信息处理设备、方法和记录媒体
CN1181151A (zh) 快速语音编码的代数码书深度优先搜索
CN1186765C (zh) 2.3kb/s谐波激励线性预测语音编码方法
CN1897467A (zh) 信号编码、信号解码装置和方法、程序以及记录介质
CN101031960A (zh) 可扩展性编码装置和可扩展性解码装置及其方法
CN101027718A (zh) 可扩展性编码装置以及可扩展性编码方法
CN114708855B (zh) 一种基于二值残差神经网络的语音唤醒方法及系统
CN101185123B (zh) 可扩展编码装置及可扩展编码方法
CN104751849A (zh) 语音频码流的解码方法及装置
CN102737636B (zh) 一种音频编码方法及装置
CN101009096B (zh) 子带清浊音模糊判决的方法
CN101454829B (zh) 搜索固定码本的方法和设备以及使用搜索固定码本的方法和设备对语音信号编码/解码的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140430

Termination date: 20190805