CN109346107B - 一种基于lstm的独立说话人语音发音逆求解的方法 - Google Patents
一种基于lstm的独立说话人语音发音逆求解的方法 Download PDFInfo
- Publication number
- CN109346107B CN109346107B CN201811179314.7A CN201811179314A CN109346107B CN 109346107 B CN109346107 B CN 109346107B CN 201811179314 A CN201811179314 A CN 201811179314A CN 109346107 B CN109346107 B CN 109346107B
- Authority
- CN
- China
- Prior art keywords
- lstm
- track
- pronunciation
- rmse
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000001360 synchronised effect Effects 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 21
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000001934 delay Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000015654 memory Effects 0.000 claims description 2
- 238000009472 formulation Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及试验系统及其方法,更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法,具体步骤如下:(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upper lip,UL)、下唇(Lower lip,LL)、下齿龈(Lower incisor,LI)、舌尖(Tongue tip,TP)、舌中(Tongue body,TB),舌根(Tongue dorsum,TD)六个点的数据进行采集;(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集。本发明第一:预测了未在训练集中出现说话人的语音发音轨迹;第二:改变输入特征,选取了效果更好、更合适的的声学特征作为网络输入,提升了RMSE和相关系数;第三:克服了轨迹采集时不连续、不平滑的特性。
Description
技术领域
本发明涉及试验系统及其方法,更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法。
背景技术
语音发音逆求解是通过采集到发音器官的轨迹数据以及同步音频,通过神经网络模型训练从而获得拟求解模型,试图从声音语音信号中推断声道发音器位置。系统能够从声学信号中预测发音器的位置。该系统能够从以下几个方面得以应用:在语音识别中,发音信息可以提高识别系统性能;语音合成中,可以提高语音质量以及修改合成语音的特征;角色动画中,可以用来自动化电影或视频游戏中虚拟人物的面部动画。
但是这种系统存在以下问题:
第一、以往的逆求解问题都是预测已知说话人,采集A数据,预测A的发音轨迹。训练集和验证集是同一人。不仅采集耗时,而且不能实践应用。
第二、特征选取效果不够好,均方根误差(Root mean-squared error,RMSE)在2-5mm左右和相关系数r为0.7左右,而且是在预测已知说话人的轨迹,并不是未知说话人的轨迹的预测。并且在预测发音轨迹时仍存在偏差。
第三、网络不具备时序性。以往采用的都是DNN作为网络,不具备时序特性,需要将多帧特征合并作为网络输入。
数据不平滑,轨迹数据采样率一般为100hz,存在锯齿形波形,数据不连续的问题。长时间大规模数据采集也会存在数据波动范围不稳定的情况。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于LSTM的独立说话人语音发音逆求解的方法,通过设置,预测了未在训练集中出现说话人的语音发音轨迹;改变输入特征,选取了效果更好、更合适的的声学特征作为网络输入,提升了RMSE和相关系数r
为解决上述技术问题,本发明采用的技术方案是:
提供一种基于LSTM的独立说话人语音发音逆求解的方法,具体步骤如下:
(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upper lip,UL)、下唇(Lower lip,LL)、下齿龈(Lower incisor,LI)、舌尖(Tonguetip,TP)、舌中(Tongue body,TB),舌根(Tongue dorsum,TD)六个点的数据进行采集;
(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集;
(3)在步骤(2)之后,选定其中三个记为A、B、C作为训练人,D作为测试人;
(4)将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)以及音素后验概率(phoneme posterior probabilities,PPP);并且将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)以及音素后验概率(phoneme posteriorprobabilities,PPP)作为联合输入特征(tandem),输入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中;
(5)选定训练好的模型,将D的联合输入特征(tandem)作为输入,发音轨迹作为输出;对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测,并与参考数据对比。
优选地,在步骤(5)中,推测出的RMSE为1mm-2mm,相关系数r为0.5-0.75。
优选地,所述LSTM为适合于处理和预测时间序列中间隔和延迟相对较长的重要事件的时间递归神经网络。
优选地,在步骤(4)中采用低通滤波器平滑轨迹。
优选地,所述音素后验概率(phoneme posterior probabilities,PPP)为零阶统计量。
优选地,在步骤(4)中,长短期记忆网络(Long Short-Term Memory,LSTM)网络为四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。
优选地,使用ReLU作为activationfunction,采用RMSE作为Loss function,选用Adam作为optimizer,并设置dropout为0.2;语音轨迹选择传感器的x轴、y轴,2*6作为输出。
具体的:
选择A、B、C三人作为训练人,D作为测试人。这就让验证集中的说话人不在训练集中,从而预测一个未知说话人的发音轨迹。这是以往实验没有解决的一个问题,就是去预测未知说话人的发音轨迹。
将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)以及音素后验概率(phoneme posteriorprobabilities,PPP)。PPP特征是将MFCC基于DNN的声学模型得到音素后验概率。我们采用已公开发布的HKUST数据集来训练基于DNN的声学模型,但此时训练得到的音素后验概率维度很高,在5000-6000维。所以使用PCA降维至40维,得到PPP。将PPP(40*1)与MFCC(39*1)作为联合输入特征(tandem)。这里我们使用kaldi进行特征提取。
将tandem作为输入,输入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中。这里我们采用的是四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。使用ReLU作为activationfunction,采用RMSE作为Loss function,选用Adam作为optimizer,并设置dropout为0.2。语音轨迹选择传感器的x轴、y轴,2*6作为输出。从而训练模型。我们选用PyTorch实现神经网络的训练。
通过训练好的模型,将D的tandem特征作为输入,发音轨迹作为输出。预测出的轨迹与采集到的轨迹计算RMSE和相关系数。通过实验可得,我们的RMSE为1mm-2mm左右,相关系数r为0.5-0.75左右,其中舌位轨迹预测的相关系数为0.8左右。优于现阶段使用的DNN网络和只使用MFCC特征作为输入。这里网络选用的是LSTM,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,具有很强的时序特性,也是语音领域常用的模型之一。DNN在处理具有时间特性的问题上能力不如LSTM效果好。
特征选用新的特征,MFCC是一种在自动语音识别和说话人识别应用中广泛使用的特征。由于PPP是音素后验概率,属于零阶统计量,可以弱化单个说话人的特征。将MFCC和PPP作为联合输入特征,既保留了语音的特征又使得输入的特征具有良好的泛化能力。
对于语音轨迹的不平滑。采集到的轨迹往往会存在锯齿形的形状,这并不符合人说话发音轨迹的特点。因此我们使用一个低通滤波器来平滑轨迹,使得轨迹预测更加精准。
实验证明,我们基于LSTM模型解决独立说话人的语音发音逆求解问题是可行的。
与现有技术相比,本发明的有益效果是:
第一:预测了未在训练集中出现说话人的语音发音轨迹;
第二:改变输入特征,选取了效果更好、更合适的的声学特征作为网络输入,提升了RMSE和相关系数;
第三:克服了轨迹采集时不连续、不平滑的特性。
附图说明
图1为本发明实施例的一种基于LSTM的独立说话人语音发音逆求解的方法的独立人语音发音逆求解模型图。
图2为本发明图1的采集点的结构示意图。
图3为本发明图1中的联合输入特征提取的流程图。
图4为本发明图1的预测轨迹部分示意图。
图5为本发明获取MFCC的流程图。
图6为本发明ReLU的数学状态图。
图7为本发明Adam的线性回归图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
如图1至7所示为本发明一种基于LSTM的独立说话人语音发音逆求解的方法的实施例,具体步骤如下:
(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upper lip,UL)、下唇(Lower lip,LL)、下齿龈(Lower incisor,LI)、舌尖(Tonguetip,TP)、舌中(Tongue body,TB),舌根(Tongue dorsum,TD)六个点的数据进行采集;
(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集;
(3)在步骤(2)之后,选定其中三个记为A、B、C作为训练人,D作为测试人;
(4)将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)以及音素后验概率(phoneme posterior probabilities,PPP);并且将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)以及音素后验概率(phoneme posteriorprobabilities,PPP)作为联合输入特征(tandem),输入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中;
MFCC是一种在ASR(自动语音识别)中广泛使用的特征。搞清楚语音如何发音对于我们预测语音发音轨迹有相当大的帮助。人通过声道产生语音,那么声道的形状极大程度上决定了会发出怎样的声音。声道的形状在语音短时功率谱的包络中会显示出来。而MFCC就是能够准确描述这一包络的特征。获取MFCC步骤如图5所示;
(5)选定训练好的模型,将D的联合输入特征(tandem)作为输入,发音轨迹作为输出;对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测,并与参考数据对比;
RMSE和相关系数r是衡量系统的两个指标;RMSE越小,误差越小,r越大,预测的轨迹与真实值的轨迹趋势越接近;公式如下:
其中ei是网络预测的输出,ti是在i时间的真实值;
其中e’是预测值的均值,t’是实际值的均值;
语音音频和语音轨迹同步数据是利用NDI公司的WAVE系统采集。
其中,在步骤(5)中,推测出的RMSE为1mm-2mm,相关系数r为0.5-0.75。
另外,所述LSTM为适合于处理和预测时间序列中间隔和延迟相对较长的重要事件的时间递归神经网络。
其中,在步骤(4)中采用低通滤波器平滑轨迹。
另外,所述音素后验概率(phoneme posteriorprobabilities,PPP)为零阶统计量。
其中,在步骤(4)中,长短期记忆网络(Long Short-Term Memory,LSTM)网络为四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。
另外,使用ReLU作为激活函数(activationfunction),采用RMSE作为损失函数(Loss function),选用Adam作为优化器(optimizer),并设置dropout为0.2;语音轨迹选择传感器的x轴、y轴共六个传感器,2*6维作为输出。
由于本方法是一个有监督的回归问题,选用ReLU作为激活函数的原因是因为sigmoid函数和tanh函数的梯度在饱和区非常平缓,接近于0,非常容易造成梯度消失的问题,减缓收敛速度。而ReLU的导数大多情况下是常数,有助于解决梯度问题。因此这是我们选用ReLU函数作为激活函数的原因。ReLU的数学形式如图6所示。
Adam是目前深度学习领域最常用的算法,能够快速高效的实现模型收敛。在Adam的原论文(https://arxiv.org/abs/1412.6980)中,通过对MNIST手写字符识别和IMDB情感分析上应用优化回归问题都表现出了良好的效果;如图7所示。
通过论文中的实验结果表明,Adam优化算法是收敛速度最快,损失函数最小的优化器。本专利中,我们也实验了多种优化器的结果,证明Adam是效果最优的。
Dropout,选用默认的0.2。Dropout的含义是每一层以P的概率丢弃神经元,Q=1-P的概率被保留,被舍弃的神经元输出设置为零。
具体的:
选择A、B、C三人作为训练人,D作为测试人。这就让验证集中的说话人不在训练集中,从而预测一个未知说话人的发音轨迹。这是以往实验没有解决的一个问题,就是去预测未知说话人的发音轨迹。
将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)以及音素后验概率(phoneme posteriorprobabilities,PPP)。PPP特征是将MFCC基于DNN的声学模型得到音素后验概率。我们采用已公开发布的HKUST数据集来训练基于DNN的声学模型,但此时训练得到的音素后验概率维度很高,在5000-6000维。所以使用PCA降维至40维,得到PPP。将PPP(40*1)与MFCC(39*1)作为联合输入特征(tandem)。这里我们使用kaldi进行特征提取。
将tandem作为输入,输入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中。这里我们采用的是四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。使用ReLU作为activationfunction,采用RMSE作为Loss function,选用Adam作为optimizer,并设置dropout为0.2。语音轨迹选择传感器的x轴、y轴,2*6作为输出。从而训练模型。我们选用PyTorch实现神经网络的训练。
通过训练好的模型,将D的tandem特征作为输入,发音轨迹作为输出。预测出的轨迹与采集到的轨迹计算RMSE和相关系数。通过实验可得,我们的RMSE为1mm-2mm左右,相关系数r为0.5-0.75左右,其中舌位轨迹预测的相关系数为0.8左右。优于现阶段使用的DNN网络和只使用MFCC特征作为输入。
这里网络选用的是LSTM,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,具有很强的时序特性,也是语音领域常用的模型之一。DNN在处理具有时间特性的问题上能力不如LSTM效果好。
特征选用新的特征,MFCC是一种在自动语音识别和说话人识别应用中广泛使用的特征。由于PPP是音素后验概率,属于零阶统计量,可以弱化单个说话人的特征。将MFCC和PPP作为联合输入特征,既保留了语音的特征又使得输入的特征具有良好的泛化能力。
对于语音轨迹的不平滑。采集到的轨迹往往会存在锯齿形的形状,这并不符合人说话发音轨迹的特点。因此我们使用一个低通滤波器来平滑轨迹,使得轨迹预测更加精准。
实验证明,我们基于LSTM模型解决独立说话人的语音发音逆求解问题是可行的。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,具体步骤如下:
(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集,通过安放传感器对上唇(Upper lip,UL)、下唇(Lower lip,LL)、下齿龈(Lower incisor,LI)、舌尖(Tongue tip,TP)、舌中(Tongue body,TB),舌根(Tongue dorsum,TD)六个点的数据进行采集;
(2)在步骤(1)之后,选定鼻梁(RF)为参考点,在参考点处也放置传感器进行数据的采集;
(3)在步骤(2)之后,选定其中三个记为A、B、C作为训练人,D作为测试人;
(4)将训练人的语音信号进行特征提取,提取梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)以及音素后验概率(phoneme posterior probabilities,PPP);并且将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)以及音素后验概率(phoneme posteriorprobabilities,PPP)作为联合输入特征(tandem),输入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中;获取MFCC步骤中Mel滤波的公式为,
其中,Mel(f)是把线性频率转成Mel频率的函数,f为线性频率;
(5)选定训练好的模型,将D的联合输入特征(tandem)作为输入,发音轨迹作为输出;对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测,并与参考数据对比;
RMSE和相关系数r是衡量系统的两个指标;RMSE越小,误差越小,r越大,预测的轨迹与真实值的轨迹趋势越接近;公式如下:
其中ei是网络预测的输出,ti是在i时间的真实值;
其中e’是预测值的均值,t’是实际值的均值;
语音音频和语音轨迹同步数据是利用NDI公司的WAVE系统采集。
2.根据权利要求1所述的基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,在步骤(5)中,推测出的RMSE为1mm-2mm,相关系数r为0.5-0.75。
3.根据权利要求2所述的基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,所述LSTM为适合于处理和预测时间序列中间隔和延迟相对较长的重要事件的时间递归神经网络。
4.根据权利要求3所述的基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,在步骤(4)中采用低通滤波器平滑轨迹。
5.根据权利要求4所述的基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,所述音素后验概率(phoneme posterior probabilities,PPP)为零阶统计量。
6.根据权利要求4所述的基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,在步骤(4)中,长短期记忆网络(Long Short-Term Memory,LSTM)网络为四层网络,前两层LSTM,每层100个节点,后两层采用全连接层,每层300个节点。
7.根据权利要求6所述的基于LSTM的独立说话人语音发音逆求解的方法,其特征在于,使用ReLU作为激活函数(activationfunction),采用RMSE作为损失函数(Loss function),选用Adam作为优化器(optimizer),并设置dropout为0.2;语音轨迹选择传感器的x轴、y轴共六个传感器,2*6维作为输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811179314.7A CN109346107B (zh) | 2018-10-10 | 2018-10-10 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811179314.7A CN109346107B (zh) | 2018-10-10 | 2018-10-10 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109346107A CN109346107A (zh) | 2019-02-15 |
CN109346107B true CN109346107B (zh) | 2022-09-30 |
Family
ID=65308441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811179314.7A Active CN109346107B (zh) | 2018-10-10 | 2018-10-10 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346107B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445925A (zh) * | 2020-03-31 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 用于生成差异信息的方法和装置 |
CN111680591B (zh) * | 2020-05-28 | 2023-01-13 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN113470622B (zh) * | 2021-09-06 | 2021-11-19 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
-
2018
- 2018-10-10 CN CN201811179314.7A patent/CN109346107B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109346107A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching | |
Basu et al. | A review on emotion recognition using speech | |
Gonzalez et al. | Direct speech reconstruction from articulatory sensor data by machine learning | |
Gevaert et al. | Neural networks used for speech recognition | |
Muda et al. | Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques | |
KR101415534B1 (ko) | 다단계 음성인식장치 및 방법 | |
CN108564942A (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN109346107B (zh) | 一种基于lstm的独立说话人语音发音逆求解的方法 | |
JP2008152262A (ja) | 音声特徴ベクトル変換方法及び装置 | |
CN110265063B (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
Srinivasan et al. | Artificial neural network based pathological voice classification using MFCC features | |
Tsenov et al. | Speech recognition using neural networks | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Airaksinen et al. | Data augmentation strategies for neural network F0 estimation | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
JP2003532162A (ja) | 雑音に影響された音声の認識のためのロバストなパラメータ | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Rani et al. | Speech recognition using neural network | |
BR112016027537B1 (pt) | Método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, em um sistema de síntese de discurso, método para criar modelos paramétricos para o uso no treinamento do sistema de síntese de discurso executado por um processador de computador genérico, e método para sintetizar o discurso usando o texto de entrada | |
JP2007101813A (ja) | 認識システム | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Omar et al. | Feature fusion techniques based training MLP for speaker identification system | |
Guðnason et al. | Closed phase estimation for inverse filtering the oral airflow waveform | |
Larsson | Optimizing text-independent speaker recognition using an LSTM neural network | |
Bozorg et al. | Autoregressive articulatory wavenet flow for speaker-independent acoustic-to-articulatory inversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |