CN101527141A - 基于径向基神经网络的耳语音转换为正常语音的方法 - Google Patents
基于径向基神经网络的耳语音转换为正常语音的方法 Download PDFInfo
- Publication number
- CN101527141A CN101527141A CN200910025321A CN200910025321A CN101527141A CN 101527141 A CN101527141 A CN 101527141A CN 200910025321 A CN200910025321 A CN 200910025321A CN 200910025321 A CN200910025321 A CN 200910025321A CN 101527141 A CN101527141 A CN 101527141A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- line spectrum
- normal
- ear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000007935 neutral effect Effects 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims 12
- 101100489867 Mus musculus Got2 gene Proteins 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 21
- 230000005284 excitation Effects 0.000 abstract description 13
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 210000002569 neuron Anatomy 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于径向基神经网络的耳语音转换为正常语音的方法。包括训练以及转换两个步骤:训练时分别提取耳语音、正常语音的线谱对参数,使用径向基神经网络捕获耳语音、正常语音频谱包络的映射关系;转换时对耳语音预处理、提取线谱对参数,然后使用已训练好的径向基神经网络转换耳语音的线谱对参数,最后以语音的基频平均值作为基音频率生成语音的激励源,通过线谱对参数合成器转换出正常语音。本发明转换的耳语音在可懂度以及音质方面都达到了很好的效果。
Description
技术领域
本发明属于语音信号处理技术领域,特别涉及耳语音转换为正常语音技术。
背景技术
耳语音是一种有别于正常语音的发音模式,其主要特点是发音时音量低且声带完全不振动。在某些场合说话时,人们为了不影响他人或为了对话的保密性,常常使用耳语方式。然而由于耳语发音的特殊性和受对话环境的影响,这种方式下的语音信号不仅信噪比低而且可懂度、清晰度都较差,特别是在通过通讯设备进行交流时,既影响通话质量,又易使人产生疲劳。另外一些嗓音病人或发音功能不正常者交流时也只能使用耳语方式,影响了交流。
目前国内外关于耳语音转换的研究较少,已有的方法有:1、使用线性预测法(LPC)实现耳语音的重建,通过提取耳语音的偏相关系数构成斜格型合成滤波器进行合成,其遇到的问题,一是耳语音的共振峰不易提取,二是在该方法中,认为耳语音与正常语音的共振峰结构大致不变,但实际上耳语音的共振峰频率是向高频偏移的,所以恢复出的语音往往不能让人准确听辨;2、采用混合激励线性预测模型(MELP)重建耳语音,将语音分为五个频带,并将四个低频带作为浊音段激励,高频段作为清音段激励,这样重建的语音带有明显的失真;3、基于同态信号处理方法并结合相对熵声韵分割的耳语重建系统,在对耳语音声韵分割后,使用同态信号处理方法得到声道响应序列,根据音调加入基频,由于耳语音传输函数有别于正常语音,虽然经过了一些后处理但是转换语音的自然度不高。
发明内容
本发明目的是提供一种将耳语音转换为正常语音的方法,使得恢复的语音在可懂度以及音质上均达到比较好的效果,以更方便人们的交流。
为达到上述目的,本发明采用的技术方案是:一种基于径向基神经网络的耳语音转换为正常语音的方法,包括训练步骤和转换步骤,
所述训练步骤为,分别提取出相同发音内容的耳语音和正常语音的线谱对参数,使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练,捕获耳语音、正常语音频谱包络的映射关系;
所述转换步骤为,提取待转换的耳语音的线谱对参数,使用已训练好的径向基神经网络进行转换,获得对应于正常语音的线谱对参数,并使用线谱对参数合成器转换出正常语音。
上文中,通过使用径向基神经网络,创造性地提出了利用耳语音和正常语音的线谱对参数间的关联性,实现耳语音和正常语音的转换。其中,在获得正常语音的线谱对参数后,用线谱对参数合成器进行合成转换出正常语音是现有技术。进行语音合成时,需要提供激励源,激励源分为浊音源和清音源两种,发浊音时声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲的波形类似于斜三角的脉冲。它的数学表达式如下:
式中,N1=0.5N为斜三角波上升部分的时间,N2=0.35N为其下降部分的时间,N为语音基音周期的时间。选取语音基频平均值为基音频率。
发清音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流。所以,可以把清音激励模拟成随机白噪声。实际情况下一般使用均值为0的、方差为1的,并在时间或/和幅值上为白色分布的序列。
利用上述激励源,将经过已训练径向基神经网络转换后的耳语音线谱对参数构成合成器,通过线谱对参数合成器转换出正常语音。
上述技术方案中,所述训练步骤中,获取耳语音的线谱对参数的方法为,获取采样率不低于10KHz的音频文件,进行下列处理,
(1)预处理:先采用一阶数字滤波器进行预加重处理,所述一阶数字滤波器为H(z)=1-uz-1,式中,H是传递函数,z是z变换,u为预加重系数,其取值为0.9<u<1;
再进行分帧加窗处理,每帧时间长度为20~30毫秒,帧长取2的整数次方,帧移与帧长的比值为1/4~1/2,采用汉明窗进行加窗处理,
式中,n为加窗点,N为汉明窗的窗长,w为汉明窗;
(2)线谱对分析:对经过预处理后的耳语音提取线谱对参数(wi、θi),并且wi、θi按下式关系排列:
0<w1<θ1<…<wp/2<θp/2<π,
其中p为线性预测误差滤波器传递函数 的阶数,ak为线性预测系数,z为z变换,A为线性预测误差滤波器;
获取正常语音的线谱对参数时,其步骤与上述耳语音的处理步骤相同。
优选的技术方案,所述步骤(1)中,u的取值为0.937。
所述音频文件的采样率为10KHz,所述步骤(1)中,帧长为256点,帧移为128点。
所述步骤(2)中,p的取值为10~15的整数。
上述技术方案中,所述训练步骤中,使用径向基神经网络,将耳语音的线谱对参数(wi耳、θi耳)作为径向基神经网络输入值x,正常语音的线谱对参数(wi 正、θi正)作为导师信号d,径向基神经网络的实际输出为y,通过径向基神经网络的学习,得到基函数的中心和方差以及隐含层与输出层间的权值,最后得到耳语音、正常语音频谱包络的映射关系。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明创造性地提出了耳语音和正常语音的线谱对参数之间存在对应关系,并利用径向基神经网络经过训练将耳语音的线谱对参数转换成对应于正常语音的线谱对参数,再使用线谱对参数合成器转换为正常语音,实现了耳语音的转换。
2.实验表明,采用本发明的方法对耳语音进行转换,恢复的语音在可懂度以及音质上均达到了比较好的效果。
3.利用本发明的方法可以实现保密通话,并方便嗓音病人或发音功能不正常者的交流。
附图说明
图1为本发明实施例一中耳语音转换为正常语音方法的框图;
图2为具有单隐层的径向基三层前馈网络;
图3为单个斜三角波形;
图4为线谱对参数合成器;
图5为实施例二中正常语音“a”的波形图以及语谱图;
图6为使用线性预测法转换后的语音“a”的波形图以及语谱图;
图7为使用本发明方法转换后的语音“a”的波形图以及语谱图;
图8为使用本发明方法以及线性预测法转换后语音“a、o、e、i、u、v”的频谱距离比较。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见附图1至4所示,
耳语音没有基音周期,其能量比正常语音低20dB,信噪比更低。这种语音信号不仅信噪比低而且可懂度、清晰度都较差,这既影响通话质量,又易使人产生疲劳。本实施例选取了采样率为10KHz的wav格式音频文件,下面具体说明各步骤的工作流程。
如图1所示,本实施例的方法包括以下步骤:
步骤11:对耳语音进行预处理。首先对耳语音进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便用于频谱分析或声道参数的分析。所用的预加重数字滤波器是一阶的数字滤波器:
H(z)=1-uz-1
式中,u的值接近于1。
进行过预加重数字滤波器处理后,接下来要进行分帧加窗处理。帧长取256点,帧移取帧长的一半128点,这样是为了使帧与帧之间平滑过渡,保持其连续性。加窗选用的窗是汉明窗(Hamming),使得语音短时参数更好地反映语音信号的特性变化:
式中,n为加窗点,N为窗长。
步骤12:线谱对分析,对经过预处理后的耳语音提取线谱对参数(wi、θi)。线谱对是频域参数,因而和语音信号谱包络的峰有着更紧密的关系,它具有良好的量化特性和插值特性。并且wi、θi按下式关系排列:
0<w1<θ1<…<wp/2<θp/2<π,其中p为线性预测误差滤波器传递函数 的阶数。ak为线性预测系数。
由于P(z)=1-(a1+ap)z-1-(a2+ap-1)z-2…-(ap+a1)z-p+z-(p+1)
Q(z)=1-(a1-ap)z-1-(a2-ap-1)z-2…-(ap-a1)z-p-z-(p+1)
步骤15:对正常语音进行预处理。
步骤14:线谱对分析,对经过预处理后的正常语音提取线谱对参数。
步骤13:径向基神经网络训练,使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练,捕获耳语音、正常语音频谱包络的映射关系。
径向基是具有单隐层的三层前馈网络如图2示。它能够以任意精度逼近任意连续函数。它包括隐含层和输出层。输入层有M个神经元,其中任一神经元用m表示;隐含层有N个神经元,任一神经元用i表示,Φ(X,Xi)为“基函数”,它是第i个隐单元的激励输出;输出层有J个神经元,其中任一神经元用j表示。隐含层与输出层突触权值用wij(i=1,2,…,N;j=1,2,…,J)表示。
当网络输入训练样本Xk时,网络第j个输出神经元的实际输出为
其中“基函数”一般选用格林函数
当“基函数”为高斯函数(一种特殊的格林函数)
式中,t为高斯函数的中心,σ为方差。
此步训练时将耳语音的线谱对参数(wi耳、θi耳)作为径向基神经网络输入值x,正常语音的线谱对参数(wi正、θi正)作为导师信号d,径向基神经网络的实际输出为y。通过径向基神经网络的学习,得到基函数的中心和方差以及隐含层与输出层间的权值,最后得到耳语音、正常语音频谱包络的映射关系。
步骤21:对要转换的耳语音进行预处理。
步骤22:对预处理后的耳语音线谱对分析。
步骤23:使用经过训练后的径向基神经网络转换耳语音的线谱对参数,使得耳语音的线谱对参数接近于正常语音线谱对参数的数值。
将需要转换的耳语音线谱对参数(wi、θi)输入到经过训练后的径向基神经网络(频谱包络的映射关系),经过转换后径向基神经网络的输出值为(wi转、θi转)。
步骤24:以语音基频平均值作为基音频率生成语音的激励源。
激励源一般分为浊音激励和清音激励。
发浊音时声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲的波形类似于斜三角的脉冲。如下图3示,它的数学表达式如下:
式中,N1=0.5N为斜三角波上升部分的时间,N2=0.35N为其下降部分的时间,N为语音基音周期的时间。选取语音基频平均值为基音频率。
发清音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流。所以,可以把清音激励模拟成随机白噪声。实际情况下一般使用均值为0的、方差为1的,并在时间或/和幅值上为白色分布的序列。
步骤25:将转换后的耳语音线谱对参数(wi转、θi转)输入到线谱对参数合成器中,使用线谱对参数合成器转换出正常语音。
线谱对参数合成器如图4示。线谱对合成滤波器传递函数表达式为:
进一步推得:
以上两式所表示的声道滤波器结构即为线谱对参数合成器,将生成的激励源输入到此合成器,最后转换出正常语音。
实施例二:参见附图5至8所示,
对采样率为10KHz的wav格式音频文件耳语音“a、o、e、i、u、v”分别进行如下处理:(1)使用线性预测法(LPC)转换耳语音;(2)使用本发明方法转换耳语音。图5~7分别给出了正常语音以及通过上述两种算法处理后语音“a”的波形图和语谱图。可以看出本发明方法转换语音的语谱图更接近于正常语音的语谱图。
对两种方法转换后的语音分别进行了主观和客观测试。主观可懂度评价采用DRT(Diagnostic Rhyme Test)方法,质量度量采用主观平均判分方法(MeanOpinion Score,MOS)。
表1为DRT以及MOS评价的评分标准。
表1
DRT | 质量级别 | MOS | 质量级别 | 失真级别 |
>=95% | 优(Excellent) | 5.0 | 优(Excellent) | 不察觉 |
85%-94% | 良(Good) | 4.0 | 良(Good) | 刚有察觉 |
75%-84% | 中(Fair) | 3.0 | 中(Fair) | 有察觉稍觉可厌 |
65%-75% | 差(Poor) | 2.0 | 差(Poor) | 明显察觉且可厌但可忍受 |
<65% | 劣(Bad) | 1.0 | 劣(Bad) | 不可忍受 |
共挑选了10名实验者对转换后的语音进行听力测试,测试耳机为:BOSE-QC-1,然后分别给出音频质量的主观评分,表2给出了对两种方法转换语音的评分结果。
表2
线性预测法(LPC) | 本发明方法 | |
DRT | 65% | 80% |
MOS | 2.5 | 3.5 |
客观评价采用改进型巴克谱失真测度(MBSD)测量频谱距离,MBSD的计算公式为:
式中:N为处理语音的总帧数;Lx(n,i)和Ly(n,i)分别为原始语音和失真语音第n帧第i个巴克带的响度值;M(n,i)为掩蔽效应;T(n,i)为第n帧第i个巴克带的掩蔽门限值。在MBSD中取第4~18个巴克带的失真测度进行计算。图8给出了对转换语音频谱距离的评价结果。可以看出本发明方法转换语音的频谱失真距离小于LPC方法,更接近于正常语音。实验结果表明使用本发明方法转换后语音的可懂度以及音质均达到了比较好的效果。
Claims (6)
1.一种基于径向基神经网络的耳语音转换为正常语音的方法,包括训练步骤和转换步骤,其特征在于:
所述训练步骤为,分别提取出相同发音内容的耳语音和正常语音的线谱对参数,使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练,捕获耳语音、正常语音频谱包络的映射关系;
所述转换步骤为,提取待转换的耳语音的线谱对参数,使用已训练好的径向基神经网络进行转换,获得对应于正常语音的线谱对参数,并使用线谱对参数合成器转换出正常语音。
2.根据权利要求1所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述训练步骤中,获取耳语音的线谱对参数的方法为,获取采样率不低于10KHz的音频文件,进行下列处理,
(1)预处理:先采用一阶数字滤波器进行预加重处理,所述一阶数字滤波器为H(z)=1-uz-1,式中,H是传递函数,z是z变换,u为预加重系数,其取值为0.9<u<1;
再进行分帧加窗处理,每帧时间长度为20~30毫秒,帧长取2的整数次方,帧移与帧长的比值为1/4~1/2,采用汉明窗进行加窗处理,
式中,n为加窗点,N为汉明窗的窗长,w为汉明窗;
(2)线谱对分析:对经过预处理后的耳语音提取线谱对参数(wi、θi),并且wi、θi按下式关系排列:
0<w1<θ1<…<wp/2<θp/2<π,
其中p为线性预测误差滤波器传递函数 的阶数,ak为线性预测系数,z为z变换,A为线性预测误差滤波器;
获取正常语音的线谱对参数时,其步骤与上述耳语音的处理步骤相同。
3.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述步骤(1)中,u的取值为0.937。
4.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述音频文件的采样率为10KHz,所述步骤(1)中,帧长为256点,帧移为128点。
5.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述步骤(2)中,p的取值为10~15的整数。
6.根据权利要求1所述的基于径向基神经网络的耳语音转换为正常语音的方法,其特征在于:所述训练步骤中,使用径向基神经网络,将耳语音的线谱对参数(wi耳、θi耳)作为径向基神经网络输入值x,正常语音的线谱对参数(wi 正、θi正)作为导师信号d,径向基神经网络的实际输出为y,通过径向基神经网络的学习,得到基函数的中心和方差以及隐含层与输出层间的权值,最后得到耳语音、正常语音频谱包络的映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100253216A CN101527141B (zh) | 2009-03-10 | 2009-03-10 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100253216A CN101527141B (zh) | 2009-03-10 | 2009-03-10 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101527141A true CN101527141A (zh) | 2009-09-09 |
CN101527141B CN101527141B (zh) | 2011-06-22 |
Family
ID=41094977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100253216A Expired - Fee Related CN101527141B (zh) | 2009-03-10 | 2009-03-10 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101527141B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102610236A (zh) * | 2012-02-29 | 2012-07-25 | 山东大学 | 一种改善喉振话筒语音音质的方法 |
CN104143337A (zh) * | 2014-01-08 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种提高音频信号音质的方法和装置 |
CN106328123A (zh) * | 2016-08-25 | 2017-01-11 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
CN107993673A (zh) * | 2012-02-23 | 2018-05-04 | 杜比国际公司 | 确定噪声混合因子的方法、系统、编码器、解码器和介质 |
CN108417198A (zh) * | 2017-12-28 | 2018-08-17 | 中南大学 | 一种基于频谱包络和基音周期的男女语音转换方法 |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN109671437A (zh) * | 2019-01-10 | 2019-04-23 | 广东小天才科技有限公司 | 一种音频处理方法、音频处理装置及终端设备 |
CN110070894A (zh) * | 2019-03-26 | 2019-07-30 | 天津大学 | 一种改进的多个病理单元音识别方法 |
WO2020134851A1 (zh) * | 2018-12-28 | 2020-07-02 | 广州市百果园信息技术有限公司 | 语音信号变换方法、装置、设备和存储介质 |
CN111902862A (zh) * | 2018-04-10 | 2020-11-06 | 华为技术有限公司 | 耳语音处理方法及设备 |
CN114403878A (zh) * | 2022-01-20 | 2022-04-29 | 南通理工学院 | 一种基于深度学习的语音检测疲劳度方法 |
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281747A (zh) * | 2008-05-30 | 2008-10-08 | 苏州大学 | 基于声道参数的汉语耳语音声调识别方法 |
-
2009
- 2009-03-10 CN CN2009100253216A patent/CN101527141B/zh not_active Expired - Fee Related
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993673A (zh) * | 2012-02-23 | 2018-05-04 | 杜比国际公司 | 确定噪声混合因子的方法、系统、编码器、解码器和介质 |
CN107993673B (zh) * | 2012-02-23 | 2022-09-27 | 杜比国际公司 | 确定噪声混合因子的方法、系统、编码器、解码器和介质 |
CN102610236A (zh) * | 2012-02-29 | 2012-07-25 | 山东大学 | 一种改善喉振话筒语音音质的方法 |
CN104143337A (zh) * | 2014-01-08 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种提高音频信号音质的方法和装置 |
CN104143337B (zh) * | 2014-01-08 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种提高音频信号音质的方法和装置 |
US9646633B2 (en) | 2014-01-08 | 2017-05-09 | Tencent Technology (Shenzhen) Company Limited | Method and device for processing audio signals |
CN106328123A (zh) * | 2016-08-25 | 2017-01-11 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
CN106328123B (zh) * | 2016-08-25 | 2020-03-20 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
CN108417198A (zh) * | 2017-12-28 | 2018-08-17 | 中南大学 | 一种基于频谱包络和基音周期的男女语音转换方法 |
CN111902862A (zh) * | 2018-04-10 | 2020-11-06 | 华为技术有限公司 | 耳语音处理方法及设备 |
WO2019196196A1 (zh) * | 2018-04-12 | 2019-10-17 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
JP2020515877A (ja) * | 2018-04-12 | 2020-05-28 | アイフライテック カンパニー,リミテッド | ささやき声変換方法、装置、デバイス及び可読記憶媒体 |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US11508366B2 (en) | 2018-04-12 | 2022-11-22 | Iflytek Co., Ltd. | Whispering voice recovery method, apparatus and device, and readable storage medium |
WO2020134851A1 (zh) * | 2018-12-28 | 2020-07-02 | 广州市百果园信息技术有限公司 | 语音信号变换方法、装置、设备和存储介质 |
US12142287B2 (en) | 2018-12-28 | 2024-11-12 | Bigo Technology Pte. Ltd. | Method for transforming audio signal, device, and storage medium |
CN109671437A (zh) * | 2019-01-10 | 2019-04-23 | 广东小天才科技有限公司 | 一种音频处理方法、音频处理装置及终端设备 |
CN110070894A (zh) * | 2019-03-26 | 2019-07-30 | 天津大学 | 一种改进的多个病理单元音识别方法 |
CN114403878A (zh) * | 2022-01-20 | 2022-04-29 | 南通理工学院 | 一种基于深度学习的语音检测疲劳度方法 |
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101527141B (zh) | 2011-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101527141A (zh) | 基于径向基神经网络的耳语音转换为正常语音的方法 | |
CN107886967B (zh) | 一种深度双向门递归神经网络的骨导语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN101751921B (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
CN103531205B (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议系统 | |
CN110648684A (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
CN102568476A (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN102610236A (zh) | 一种改善喉振话筒语音音质的方法 | |
CN102655003A (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
CN112992121A (zh) | 基于注意力残差学习的语音增强方法 | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
CN108198566A (zh) | 信息处理方法及装置、电子设备及存储介质 | |
Jia et al. | A deep learning-based time-domain approach for non-intrusive speech quality assessment | |
Dubey et al. | Pitch-Adaptive Front-end Feature for Hypernasality Detection. | |
CN108447470A (zh) | 一种基于声道和韵律特征的情感语音转换方法 | |
Dubey et al. | Detection and assessment of hypernasality in repaired cleft palate speech using vocal tract and residual features | |
Mathew et al. | Evaluation of speech enhancement algorithms applied to electrolaryngeal speech degraded by noise | |
CN103886859B (zh) | 基于一对多码书映射的语音转换方法 | |
CN102231279B (zh) | 基于听觉关注度的音频质量客观评价系统及方法 | |
CN108417198A (zh) | 一种基于频谱包络和基音周期的男女语音转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP02 | Change in the address of a patent holder |
Address after: Suzhou City, Jiangsu province 215137 Xiangcheng District Ji Road No. 8 Patentee after: Soochow University Address before: 215123 Suzhou City, Suzhou Province Industrial Park, No. love road, No. 199 Patentee before: Soochow University |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110622 Termination date: 20150310 |
|
EXPY | Termination of patent right or utility model |