CN101527141A - 基于径向基神经网络的耳语音转换为正常语音的方法 - Google Patents

基于径向基神经网络的耳语音转换为正常语音的方法 Download PDF

Info

Publication number
CN101527141A
CN101527141A CN200910025321A CN200910025321A CN101527141A CN 101527141 A CN101527141 A CN 101527141A CN 200910025321 A CN200910025321 A CN 200910025321A CN 200910025321 A CN200910025321 A CN 200910025321A CN 101527141 A CN101527141 A CN 101527141A
Authority
CN
China
Prior art keywords
voice
line spectrum
whispering
neural net
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910025321A
Other languages
English (en)
Other versions
CN101527141B (zh
Inventor
陶智
赵鹤鸣
顾济华
韩韬
陈大庆
许宜申
吴迪
张晓俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN2009100253216A priority Critical patent/CN101527141B/zh
Publication of CN101527141A publication Critical patent/CN101527141A/zh
Application granted granted Critical
Publication of CN101527141B publication Critical patent/CN101527141B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于径向基神经网络的耳语音转换为正常语音的方法。包括训练以及转换两个步骤:训练时分别提取耳语音、正常语音的线谱对参数,使用径向基神经网络捕获耳语音、正常语音频谱包络的映射关系;转换时对耳语音预处理、提取线谱对参数,然后使用已训练好的径向基神经网络转换耳语音的线谱对参数,最后以语音的基频平均值作为基音频率生成语音的激励源,通过线谱对参数合成器转换出正常语音。本发明转换的耳语音在可懂度以及音质方面都达到了很好的效果。

Description

基于径向基神经网络的耳语音转换为正常语音的方法
技术领域
本发明属于语音信号处理技术领域,特别涉及耳语音转换为正常语音技术。
背景技术
耳语音是一种有别于正常语音的发音模式,其主要特点是发音时音量低且声带完全不振动。在某些场合说话时,人们为了不影响他人或为了对话的保密性,常常使用耳语方式。然而由于耳语发音的特殊性和受对话环境的影响,这种方式下的语音信号不仅信噪比低而且可懂度、清晰度都较差,特别是在通过通讯设备进行交流时,既影响通话质量,又易使人产生疲劳。另外一些嗓音病人或发音功能不正常者交流时也只能使用耳语方式,影响了交流。
目前国内外关于耳语音转换的研究较少,已有的方法有:1、使用线性预测法(LPC)实现耳语音的重建,通过提取耳语音的偏相关系数构成斜格型合成滤波器进行合成,其遇到的问题,一是耳语音的共振峰不易提取,二是在该方法中,认为耳语音与正常语音的共振峰结构大致不变,但实际上耳语音的共振峰频率是向高频偏移的,所以恢复出的语音往往不能让人准确听辨;2、采用混合激励线性预测模型(MELP)重建耳语音,将语音分为五个频带,并将四个低频带作为浊音段激励,高频段作为清音段激励,这样重建的语音带有明显的失真;3、基于同态信号处理方法并结合相对熵声韵分割的耳语重建系统,在对耳语音声韵分割后,使用同态信号处理方法得到声道响应序列,根据音调加入基频,由于耳语音传输函数有别于正常语音,虽然经过了一些后处理但是转换语音的自然度不高。
发明内容
本发明目的是提供一种将耳语音转换为正常语音的方法,使得恢复的语音在可懂度以及音质上均达到比较好的效果,以更方便人们的交流。
为达到上述目的,本发明采用的技术方案是:一种基于径向基神经网络的耳语音转换为正常语音的方法,包括训练步骤和转换步骤,
所述训练步骤为,分别提取出相同发音内容的耳语音和正常语音的线谱对参数,使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练,捕获耳语音、正常语音频谱包络的映射关系;
所述转换步骤为,提取待转换的耳语音的线谱对参数,使用已训练好的径向基神经网络进行转换,获得对应于正常语音的线谱对参数,并使用线谱对参数合成器转换出正常语音。
上文中,通过使用径向基神经网络,创造性地提出了利用耳语音和正常语音的线谱对参数间的关联性,实现耳语音和正常语音的转换。其中,在获得正常语音的线谱对参数后,用线谱对参数合成器进行合成转换出正常语音是现有技术。进行语音合成时,需要提供激励源,激励源分为浊音源和清音源两种,发浊音时声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲的波形类似于斜三角的脉冲。它的数学表达式如下:
式中,N1=0.5N为斜三角波上升部分的时间,N2=0.35N为其下降部分的时间,N为语音基音周期的时间。选取语音基频平均值为基音频率。
发清音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流。所以,可以把清音激励模拟成随机白噪声。实际情况下一般使用均值为0的、方差为1的,并在时间或/和幅值上为白色分布的序列。
利用上述激励源,将经过已训练径向基神经网络转换后的耳语音线谱对参数构成合成器,通过线谱对参数合成器转换出正常语音。
上述技术方案中,所述训练步骤中,获取耳语音的线谱对参数的方法为,获取采样率不低于10KHz的音频文件,进行下列处理,
(1)预处理:先采用一阶数字滤波器进行预加重处理,所述一阶数字滤波器为H(z)=1-uz-1,式中,H是传递函数,z是z变换,u为预加重系数,其取值为0.9<u<1;
再进行分帧加窗处理,每帧时间长度为20~30毫秒,帧长取2的整数次方,帧移与帧长的比值为1/4~1/2,采用汉明窗进行加窗处理,
Figure A20091002532100061
式中,n为加窗点,N为汉明窗的窗长,w为汉明窗;
(2)线谱对分析:对经过预处理后的耳语音提取线谱对参数(wi、θi),并且wi、θi按下式关系排列:
0<w1<θ1<…<wp/2<θp/2<π,
其中p为线性预测误差滤波器传递函数 A ( z ) = 1 + Σ k = 1 p a k z - k 的阶数,ak为线性预测系数,z为z变换,A为线性预测误差滤波器;
获取正常语音的线谱对参数时,其步骤与上述耳语音的处理步骤相同。
优选的技术方案,所述步骤(1)中,u的取值为0.937。
所述音频文件的采样率为10KHz,所述步骤(1)中,帧长为256点,帧移为128点。
所述步骤(2)中,p的取值为10~15的整数。
上述技术方案中,所述训练步骤中,使用径向基神经网络,将耳语音的线谱对参数(wi耳、θi耳)作为径向基神经网络输入值x,正常语音的线谱对参数(wi 、θi正)作为导师信号d,径向基神经网络的实际输出为y,通过径向基神经网络的学习,得到基函数的中心和方差以及隐含层与输出层间的权值,最后得到耳语音、正常语音频谱包络的映射关系。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明创造性地提出了耳语音和正常语音的线谱对参数之间存在对应关系,并利用径向基神经网络经过训练将耳语音的线谱对参数转换成对应于正常语音的线谱对参数,再使用线谱对参数合成器转换为正常语音,实现了耳语音的转换。
2.实验表明,采用本发明的方法对耳语音进行转换,恢复的语音在可懂度以及音质上均达到了比较好的效果。
3.利用本发明的方法可以实现保密通话,并方便嗓音病人或发音功能不正常者的交流。
附图说明
图1为本发明实施例一中耳语音转换为正常语音方法的框图;
图2为具有单隐层的径向基三层前馈网络;
图3为单个斜三角波形;
图4为线谱对参数合成器;
图5为实施例二中正常语音“a”的波形图以及语谱图;
图6为使用线性预测法转换后的语音“a”的波形图以及语谱图;
图7为使用本发明方法转换后的语音“a”的波形图以及语谱图;
图8为使用本发明方法以及线性预测法转换后语音“a、o、e、i、u、v”的频谱距离比较。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见附图1至4所示,
耳语音没有基音周期,其能量比正常语音低20dB,信噪比更低。这种语音信号不仅信噪比低而且可懂度、清晰度都较差,这既影响通话质量,又易使人产生疲劳。本实施例选取了采样率为10KHz的wav格式音频文件,下面具体说明各步骤的工作流程。
如图1所示,本实施例的方法包括以下步骤:
步骤11:对耳语音进行预处理。首先对耳语音进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便用于频谱分析或声道参数的分析。所用的预加重数字滤波器是一阶的数字滤波器:
H(z)=1-uz-1
式中,u的值接近于1。
进行过预加重数字滤波器处理后,接下来要进行分帧加窗处理。帧长取256点,帧移取帧长的一半128点,这样是为了使帧与帧之间平滑过渡,保持其连续性。加窗选用的窗是汉明窗(Hamming),使得语音短时参数更好地反映语音信号的特性变化:
Figure A20091002532100081
式中,n为加窗点,N为窗长。
步骤12:线谱对分析,对经过预处理后的耳语音提取线谱对参数(wi、θi)。线谱对是频域参数,因而和语音信号谱包络的峰有着更紧密的关系,它具有良好的量化特性和插值特性。并且wi、θi按下式关系排列:
0<w1<θ1<…<wp/2<θp/2<π,其中p为线性预测误差滤波器传递函数 A ( z ) = 1 + Σ k = 1 p a k z - k 的阶数。ak为线性预测系数。
由于P(z)=1-(a1+ap)z-1-(a2+ap-1)z-2…-(ap+a1)z-p+z-(p+1)
Q(z)=1-(a1-ap)z-1-(a2-ap-1)z-2…-(ap-a1)z-p-z-(p+1)
其中ai,1≤i≤p为线性预测系数。设P(z)的零点为
Figure A20091002532100083
Q(z)的零点为
Figure A20091002532100084
那么P(z)和Q(z)可写成下列形式:
P ( z ) = ( 1 + z - 1 ) Π p / 2 ( 1 - 2 cos w i z - 1 + z - 2 ) Q ( z ) = ( 1 - z - 1 ) Π p / 2 ( 1 - 2 cos θ i z - 1 + z - 2 )
Π j = 1 m ( 1 - 2 z - 1 cos w j + z - 2 ) = ( 2 z - 1 ) m Π j = 1 m ( z + z - 1 2 - cos w j ) ( z + z - 1 ) / 2 | z = e jw = cos w = x , 所以P(z)/(1+x-1)=0是关于x的一个p/2次代数方程。同理Q(z)/(1+z-1)=0也是关于x的一个p/2次代数方程。联立解此代数方程组求得x,再由wi=cos-1xi就可以得到线谱对参数(wi、θi)。
步骤15:对正常语音进行预处理。
步骤14:线谱对分析,对经过预处理后的正常语音提取线谱对参数。
步骤13:径向基神经网络训练,使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练,捕获耳语音、正常语音频谱包络的映射关系。
径向基是具有单隐层的三层前馈网络如图2示。它能够以任意精度逼近任意连续函数。它包括隐含层和输出层。输入层有M个神经元,其中任一神经元用m表示;隐含层有N个神经元,任一神经元用i表示,Φ(X,Xi)为“基函数”,它是第i个隐单元的激励输出;输出层有J个神经元,其中任一神经元用j表示。隐含层与输出层突触权值用wij(i=1,2,…,N;j=1,2,…,J)表示。
当网络输入训练样本Xk时,网络第j个输出神经元的实际输出为
Figure A20091002532100091
,j=1,2,…,J
其中“基函数”一般选用格林函数
Figure A20091002532100092
当“基函数”为高斯函数(一种特殊的格林函数)
Figure A20091002532100093
(σ>0,r∈R)
式中,t为高斯函数的中心,σ为方差。
此步训练时将耳语音的线谱对参数(wi耳、θi耳)作为径向基神经网络输入值x,正常语音的线谱对参数(wi正、θi正)作为导师信号d,径向基神经网络的实际输出为y。通过径向基神经网络的学习,得到基函数的中心和方差以及隐含层与输出层间的权值,最后得到耳语音、正常语音频谱包络的映射关系。
步骤21:对要转换的耳语音进行预处理。
步骤22:对预处理后的耳语音线谱对分析。
步骤23:使用经过训练后的径向基神经网络转换耳语音的线谱对参数,使得耳语音的线谱对参数接近于正常语音线谱对参数的数值。
将需要转换的耳语音线谱对参数(wi、θi)输入到经过训练后的径向基神经网络(频谱包络的映射关系),经过转换后径向基神经网络的输出值为(wi转、θi转)。
步骤24:以语音基频平均值作为基音频率生成语音的激励源。
激励源一般分为浊音激励和清音激励。
发浊音时声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲的波形类似于斜三角的脉冲。如下图3示,它的数学表达式如下:
Figure A20091002532100101
式中,N1=0.5N为斜三角波上升部分的时间,N2=0.35N为其下降部分的时间,N为语音基音周期的时间。选取语音基频平均值为基音频率。
发清音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流。所以,可以把清音激励模拟成随机白噪声。实际情况下一般使用均值为0的、方差为1的,并在时间或/和幅值上为白色分布的序列。
步骤25:将转换后的耳语音线谱对参数(wi转、θi转)输入到线谱对参数合成器中,使用线谱对参数合成器转换出正常语音。
线谱对参数合成器如图4示。线谱对合成滤波器传递函数表达式为:
H ( z ) = 1 1 + 1 2 { [ P ( z ) - 1 ] + [ Q ( z ) - 1 ] }
线谱对参数为(wi转、θi转)有:
Figure A20091002532100103
令ai=-2coswi转,bi=-2cosθi转有:
P ( z ) = ( 1 + z - 1 ) Π p / 2 ( 1 - a i z - 1 + z - 2 ) Q ( z ) = ( 1 - z - 1 ) Π p / 2 ( 1 - b i z - 1 + z - 2 )
进一步推得:
P ( z ) - 1 = z - 1 [ ( a 1 + z - 1 ) + Σ i = 1 p / 2 - 1 ( a i + 1 + z - 1 ) Π j = 1 i ( 1 + a j z - 1 + z - 2 ) + Π j = 1 p / 2 ( 1 + a j z - 1 + z - 2 ) ]
Q ( z ) - 1 = z - 1 [ ( b 1 + z - 1 ) + Σ i = 1 p / 2 - 1 ( b i + 1 + z - 1 ) Π j = 1 i ( 1 + b j z - 1 + z - 2 ) + Π j = 1 p / 2 ( 1 + b j z - 1 + z - 2 ) ]
以上两式所表示的声道滤波器结构即为线谱对参数合成器,将生成的激励源输入到此合成器,最后转换出正常语音。
实施例二:参见附图5至8所示,
对采样率为10KHz的wav格式音频文件耳语音“a、o、e、i、u、v”分别进行如下处理:(1)使用线性预测法(LPC)转换耳语音;(2)使用本发明方法转换耳语音。图5~7分别给出了正常语音以及通过上述两种算法处理后语音“a”的波形图和语谱图。可以看出本发明方法转换语音的语谱图更接近于正常语音的语谱图。
对两种方法转换后的语音分别进行了主观和客观测试。主观可懂度评价采用DRT(Diagnostic Rhyme Test)方法,质量度量采用主观平均判分方法(MeanOpinion Score,MOS)。
表1为DRT以及MOS评价的评分标准。
表1
  DRT  质量级别   MOS  质量级别   失真级别
  >=95%  优(Excellent)   5.0  优(Excellent)   不察觉
  85%-94%  良(Good)   4.0  良(Good)   刚有察觉
  75%-84%  中(Fair)   3.0  中(Fair)   有察觉稍觉可厌
  65%-75%  差(Poor)   2.0  差(Poor)   明显察觉且可厌但可忍受
  <65%  劣(Bad)   1.0  劣(Bad)   不可忍受
共挑选了10名实验者对转换后的语音进行听力测试,测试耳机为:BOSE-QC-1,然后分别给出音频质量的主观评分,表2给出了对两种方法转换语音的评分结果。
表2
  线性预测法(LPC)   本发明方法
  DRT   65%   80%
  MOS   2.5   3.5
客观评价采用改进型巴克谱失真测度(MBSD)测量频谱距离,MBSD的计算公式为:
MBSD = 1 N Σ n = 1 N [ Σ i = 4 18 M ( n , i ) | L x ( n , i ) - L y ( n , i ) | ] M ( n , i ) = 0 | L x ( n , i ) - L y ( n , i ) | ≤ T ( n , i ) 1 | L x ( n , i ) - L y ( n , i ) | > T ( n , i )
式中:N为处理语音的总帧数;Lx(n,i)和Ly(n,i)分别为原始语音和失真语音第n帧第i个巴克带的响度值;M(n,i)为掩蔽效应;T(n,i)为第n帧第i个巴克带的掩蔽门限值。在MBSD中取第4~18个巴克带的失真测度进行计算。图8给出了对转换语音频谱距离的评价结果。可以看出本发明方法转换语音的频谱失真距离小于LPC方法,更接近于正常语音。实验结果表明使用本发明方法转换后语音的可懂度以及音质均达到了比较好的效果。

Claims (6)

1.一种基于径向基神经网络的耳语音转换为正常语音的方法,包括训练步骤和转换步骤,其特征在于:
所述训练步骤为,分别提取出相同发音内容的耳语音和正常语音的线谱对参数,使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练,捕获耳语音、正常语音频谱包络的映射关系;
所述转换步骤为,提取待转换的耳语音的线谱对参数,使用已训练好的径向基神经网络进行转换,获得对应于正常语音的线谱对参数,并使用线谱对参数合成器转换出正常语音。
2.根据权利要求1所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述训练步骤中,获取耳语音的线谱对参数的方法为,获取采样率不低于10KHz的音频文件,进行下列处理,
(1)预处理:先采用一阶数字滤波器进行预加重处理,所述一阶数字滤波器为H(z)=1-uz-1,式中,H是传递函数,z是z变换,u为预加重系数,其取值为0.9<u<1;
再进行分帧加窗处理,每帧时间长度为20~30毫秒,帧长取2的整数次方,帧移与帧长的比值为1/4~1/2,采用汉明窗进行加窗处理,
Figure A2009100253210002C1
式中,n为加窗点,N为汉明窗的窗长,w为汉明窗;
(2)线谱对分析:对经过预处理后的耳语音提取线谱对参数(wi、θi),并且wi、θi按下式关系排列:
0<w1<θ1<…<wp/2<θp/2<π,
其中p为线性预测误差滤波器传递函数 A ( z ) = 1 + Σ k = 1 p a k z - k 的阶数,ak为线性预测系数,z为z变换,A为线性预测误差滤波器;
获取正常语音的线谱对参数时,其步骤与上述耳语音的处理步骤相同。
3.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述步骤(1)中,u的取值为0.937。
4.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述音频文件的采样率为10KHz,所述步骤(1)中,帧长为256点,帧移为128点。
5.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述步骤(2)中,p的取值为10~15的整数。
6.根据权利要求1所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述训练步骤中,使用径向基神经网络,将耳语音的线谱对参数(wi耳、θi耳)作为径向基神经网络输入值x,正常语音的线谱对参数(wi 、θi正)作为导师信号d,径向基神经网络的实际输出为y,通过径向基神经网络的学习,得到基函数的中心和方差以及隐含层与输出层间的权值,最后得到耳语音、正常语音频谱包络的映射关系。
CN2009100253216A 2009-03-10 2009-03-10 基于径向基神经网络的耳语音转换为正常语音的方法 Expired - Fee Related CN101527141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100253216A CN101527141B (zh) 2009-03-10 2009-03-10 基于径向基神经网络的耳语音转换为正常语音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100253216A CN101527141B (zh) 2009-03-10 2009-03-10 基于径向基神经网络的耳语音转换为正常语音的方法

Publications (2)

Publication Number Publication Date
CN101527141A true CN101527141A (zh) 2009-09-09
CN101527141B CN101527141B (zh) 2011-06-22

Family

ID=41094977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100253216A Expired - Fee Related CN101527141B (zh) 2009-03-10 2009-03-10 基于径向基神经网络的耳语音转换为正常语音的方法

Country Status (1)

Country Link
CN (1) CN101527141B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102610236A (zh) * 2012-02-29 2012-07-25 山东大学 一种改善喉振话筒语音音质的方法
CN104143337A (zh) * 2014-01-08 2014-11-12 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
CN106328123A (zh) * 2016-08-25 2017-01-11 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN107993673A (zh) * 2012-02-23 2018-05-04 杜比国际公司 确定噪声混合因子的方法、系统、编码器、解码器和介质
CN108417198A (zh) * 2017-12-28 2018-08-17 中南大学 一种基于频谱包络和基音周期的男女语音转换方法
CN108520741A (zh) * 2018-04-12 2018-09-11 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN109671437A (zh) * 2019-01-10 2019-04-23 广东小天才科技有限公司 一种音频处理方法、音频处理装置及终端设备
CN110070894A (zh) * 2019-03-26 2019-07-30 天津大学 一种改进的多个病理单元音识别方法
WO2020134851A1 (zh) * 2018-12-28 2020-07-02 广州市百果园信息技术有限公司 语音信号变换方法、装置、设备和存储介质
CN111902862A (zh) * 2018-04-10 2020-11-06 华为技术有限公司 耳语音处理方法及设备
CN114403878A (zh) * 2022-01-20 2022-04-29 南通理工学院 一种基于深度学习的语音检测疲劳度方法
CN115294970A (zh) * 2022-10-09 2022-11-04 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281747A (zh) * 2008-05-30 2008-10-08 苏州大学 基于声道参数的汉语耳语音声调识别方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993673A (zh) * 2012-02-23 2018-05-04 杜比国际公司 确定噪声混合因子的方法、系统、编码器、解码器和介质
CN107993673B (zh) * 2012-02-23 2022-09-27 杜比国际公司 确定噪声混合因子的方法、系统、编码器、解码器和介质
CN102610236A (zh) * 2012-02-29 2012-07-25 山东大学 一种改善喉振话筒语音音质的方法
CN104143337A (zh) * 2014-01-08 2014-11-12 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
US9646633B2 (en) 2014-01-08 2017-05-09 Tencent Technology (Shenzhen) Company Limited Method and device for processing audio signals
CN106328123B (zh) * 2016-08-25 2020-03-20 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN106328123A (zh) * 2016-08-25 2017-01-11 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN108417198A (zh) * 2017-12-28 2018-08-17 中南大学 一种基于频谱包络和基音周期的男女语音转换方法
CN111902862A (zh) * 2018-04-10 2020-11-06 华为技术有限公司 耳语音处理方法及设备
JP2020515877A (ja) * 2018-04-12 2020-05-28 アイフライテック カンパニー,リミテッド ささやき声変換方法、装置、デバイス及び可読記憶媒体
WO2019196196A1 (zh) * 2018-04-12 2019-10-17 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN108520741A (zh) * 2018-04-12 2018-09-11 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
US11508366B2 (en) 2018-04-12 2022-11-22 Iflytek Co., Ltd. Whispering voice recovery method, apparatus and device, and readable storage medium
WO2020134851A1 (zh) * 2018-12-28 2020-07-02 广州市百果园信息技术有限公司 语音信号变换方法、装置、设备和存储介质
CN109671437A (zh) * 2019-01-10 2019-04-23 广东小天才科技有限公司 一种音频处理方法、音频处理装置及终端设备
CN110070894A (zh) * 2019-03-26 2019-07-30 天津大学 一种改进的多个病理单元音识别方法
CN114403878A (zh) * 2022-01-20 2022-04-29 南通理工学院 一种基于深度学习的语音检测疲劳度方法
CN115294970A (zh) * 2022-10-09 2022-11-04 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质

Also Published As

Publication number Publication date
CN101527141B (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
CN101527141B (zh) 基于径向基神经网络的耳语音转换为正常语音的方法
Kong et al. Speech denoising in the waveform domain with self-attention
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
Rao et al. Prosody modification using instants of significant excitation
Childers et al. Voice conversion
CN102201240B (zh) 基于逆滤波的谐波噪声激励模型声码器
CN102664003B (zh) 基于谐波加噪声模型的残差激励信号合成及语音转换方法
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN108447495A (zh) 一种基于综合特征集的深度学习语音增强方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
Mittal et al. Study of characteristics of aperiodicity in Noh voices
CN103258543B (zh) 一种人工语音带宽扩展的方法
CN106997765B (zh) 人声音色的定量表征方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN102655003A (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
Shah et al. Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
Bhatt Simulation and overall comparative evaluation of performance between different techniques for high band feature extraction based on artificial bandwidth extension of speech over proposed global system for mobile full rate narrow band coder
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
CN103886859B (zh) 基于一对多码书映射的语音转换方法
CN103155035A (zh) 基于celp的语音编码器中的音频信号带宽扩展
CN104658547A (zh) 一种人工语音带宽扩展的方法
Tao et al. Reconstruction of normal speech from whispered speech based on RBF neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Suzhou City, Jiangsu province 215137 Xiangcheng District Ji Road No. 8

Patentee after: Soochow University

Address before: 215123 Suzhou City, Suzhou Province Industrial Park, No. love road, No. 199

Patentee before: Soochow University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110622

Termination date: 20150310

EXPY Termination of patent right or utility model