CN108847234A - 唇语合成方法、装置、电子设备及存储介质 - Google Patents

唇语合成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN108847234A
CN108847234A CN201810689163.3A CN201810689163A CN108847234A CN 108847234 A CN108847234 A CN 108847234A CN 201810689163 A CN201810689163 A CN 201810689163A CN 108847234 A CN108847234 A CN 108847234A
Authority
CN
China
Prior art keywords
nozzle type
speech signal
feature vector
data
signal frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810689163.3A
Other languages
English (en)
Other versions
CN108847234B (zh
Inventor
吴丹
戴长军
庄晓滨
林绪虹
闫理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN201810689163.3A priority Critical patent/CN108847234B/zh
Publication of CN108847234A publication Critical patent/CN108847234A/zh
Application granted granted Critical
Publication of CN108847234B publication Critical patent/CN108847234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种唇语合成方法、装置、电子设备及存储介质,通过神经网络建立语音信号的梅尔频率倒谱系数特征向量与嘴型之间的对应关系,在将驱动用语音输入上述神经网络后,可以实时获取与驱动用语音对应的嘴型标定点数据。实现了嘴型数据的自动标定,在降低工作量的同时,提高了通用性。

Description

唇语合成方法、装置、电子设备及存储介质
技术领域
本发明涉及语音技术领域,更具体地说,涉及一种唇语合成方法、装置、电子设备及存储介质。
背景技术
唇语合成技术是一种利用语音信息合成出人表达出该语音时嘴唇动作(即嘴型)的技术。根据语音对应的嘴型,可以生成各种唇语动画。
传统的唇语合成方法是通过纯人工标定的方法确定语音对应的嘴型,这需要标定人具有很强的专业知识,不仅工作量大,且通用性低。
发明内容
本发明的目的是提供一种唇语合成方法、装置、电子设备及存储介质,以克服现有唇语合成技术工作量大,通用性低的问题。
为实现上述目的,本发明提供了如下技术方案:
一种唇语合成方法,包括:
将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
利用预先训练好的神经网络将所提取的MFCC特征向量进行处理,得到与每一个MFCC特征向量对应的嘴型标定点数据。
上述方法,优选的,还包括:对与预定语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波处理,所述预定语音信号帧为所述若干语音信号帧中除第一个语音信号帧和最后一个语音信号帧之外的其它语音信号帧;具体包括:
利用与第一语音信号帧的MFCC特征向量对应的嘴型标定点数据,以及与第三语音信号帧的MFCC特征向量对应的嘴型标定点数据,对与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波,以去除所述与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据中的抖动噪声;
所述第二语音信号帧为任意一预定语音信号帧;所述第一语音信号帧为所述第二语音信号帧的前一语音信号帧,所述第三语音信号帧为所述第二语音信号帧的后一语音信号帧。
上述方法,优选的,所述将语音信号分为若干语音信号帧,并提取每一语音信号帧的MFCC特征向量,包括:
对所述语音信号进行预加重;
将预加重后的语音信号分为若干语音信号帧,并对每个所述语音信号帧做短时傅里叶变换,得每个所述语音信号帧的频谱;
在所述语音信号帧的频谱中提取K个MFCC,并根据所述MFCC构建所述语音信号帧对应的M维MFCC特征向量;
对所述M维MFCC特征向量进行归一化,使得所述M维MFCC特征向量在每个维度上均服从相同的分布。
上述方法,优选的,所述神经网络包括:
一层卷积层,与所述一层卷积层连接的长短记忆网络,以及与所述长短记忆网络连接的一层全连接层。
上述方法,优选的,所述神经网络通过如下方法训练得到:
在训练数据集中抽取在第一时间区间内同步采集的语音信号及N帧图像;
提取每一帧图像中的嘴型标定点数据;
将提取的语音信号划分为N个语音信号帧,并分别提取每个语音信号帧的MFCC特征向量;
将得到的N个MFCC特征向量输入待训练的神经网络模型,得到每个MFCC特征向量对应的嘴型标定点数据;
利用预置损失函数对所述待训练的神经网络模型输出的嘴型标定点数据,以及从所述N帧图像中提取的嘴型标定点数据进行计算,以判断是否达到预置的收敛条件;
若未达到收敛条件,获取在第二时间区间内同步采集的语音信号及N帧图像,并执行所述提取每一帧图像中的嘴型标定点数据的步骤及后续步骤;所述第二时间区间与所述第一时间区间起始时刻不同,所述第二时间区间与所述第一时间区间的长度相同。
上述方法,优选的,所述提取每一帧图像中的嘴型标定点数据,包括:
采集每一帧图像中嘴型的初始标定点数据;
对各帧图像中采集的初始标定点数据进行对齐处理,得到每一帧图像中的嘴型标定点数据;其中,所有嘴型标定点数据所表征嘴型的大小和位置相同。
上述方法,优选的,所述对各帧图像中采集的初始标定点数据进行对齐处理,包括:
对所述初始标定点数据进行平移,使得所述初始标定点数据的重心平移到原点坐标位置;
纠正所述初始标定点数据的旋转;
确定与闭合嘴型对应的第一类初始标定点数据,并统计各个第一类初始标定点数据中位于嘴型边缘的两个点的距离;
计算所有统计到的距离的平均值;
对所述初始标定点数据对应的嘴型进行缩放,得到嘴型标定点数据;其中,各个嘴型标定点数据中位于嘴型边缘的两个点的距离均相同。
一种唇语合成装置,包括:
特征提取模块,用于将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
唇语合成模块,用于利用预先训练好的神经网络将所提取的MFCC特征向量进行处理,得到与每一个MFCC特征向量对应的嘴型标定点数据。
一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行如上所述的唇语合成方法。
一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的唇语合成方法。
本申请提供的一种唇语合成方法、装置、电子设备及存储介质,通过神经网络建立语音信号的梅尔频率倒谱系数特征向量与嘴型之间的对应关系,在将驱动用语音输入上述神经网络后,可以实时获取与驱动用语音对应的嘴型数据。实现了嘴型数据的自动标定,在降低工作量的同时,提高了通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施提供的提取语音信号的MFCC特征向量的一种实现流程图;
图2为本申请实施提供的人脸标定点的示意图;
图3为本申请实施提供的神经网络的训练流程图;
图4为本申请实施提供的唇语合成方法的一种实现流程图;
图5为本申请实施提供的唇语合成装置的一种结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的基本思想是,通过神经网络建立语音的梅尔频率倒谱系数特征向量与嘴型标定点数据之间的对应关系,通过该神经网络自动生成与输入该神经网络的语音对应的嘴型标定点数据,即通过该神经网络自动生成嘴型。
首先说明本申请中神经网络的训练过程。
本申请实施例中,作为一示例,训练神经网络使用的数据集(简称训练数据集)是在消声室内录制的数据,采用的是logit C920摄像头,icon 4Nano声卡和ISK BM-800麦克风,录制了大约30个小时的数据,录音内容包括短篇散文、童话故事、短篇小说、政治经济新闻。
本申请实施例中,搭建的神经网络模型包含了:一层卷积层(CONV),一层长短记忆网络(LSTM)以及一层全连接层(Dense)。其中,作为一个示例,CONV中卷积核大小可以为3*1,卷积核个数可以为256个,LSTM层中隐藏层可以为256层。
在训练过程中,为了加速网络模型收敛,使用的损失函数为二范数(L2 Norm),损失函数的计算公式如下:
L(Y,F(X))=(Y-F(X))2
其中,Y是目标嘴型标定点数据(即从图像中提取的嘴型标定点数据),F(X)为神经网络输出的嘴型标定点数据,X为输入的MFCC特征向量,L(Y,F(X))为损失函数。
在训练过程中,神经网络模型使用自适应时刻估计方法(Adaptive MomentEstimation,ADAM)对网络神经模型中的参数进行优化。在自适应时刻估计方法中,动量因子BETA1为0.9,BETA2为0.999,基础学习率(LEARNING_RATE)设为0.0001,并且随着迭代次数的增加逐渐下降,以加快收敛速度。具体的,可以每完成1000次迭代,将基础学习率更新为原来的一半。以初始的基础学习率为0.0001为例,则在完成1000次迭代后,将基础学习率更新为0.00005,在完成2000次迭代后,将基础学习率更新为0.000025,以此类推,直至损失函数达到收敛条件。
由于训练神经网络模型是为了建立语音的梅尔频率倒谱系数特征向量与嘴型标定点数据之间的对应关系,因此,在训练之前,需要对训练数据集中的数据进行预处理(Data PreProcess)。包括提取MFCC特征向量和嘴型标定点特征。其中,
提取MFCC特征向量的方法一般是将语音信号分为若干语音信号帧,并提取每一语音信号帧的MFCC特征向量;本申请实施例中,提取语音信号的MFCC特征向量的一种实现流程图如图1所示,可以包括:
步骤S11:对语音信号进行预加重。
预加重的目的是提升语音信号的高频部分,使语音信号的频谱变得更加平坦,保持了低频到高频的整个频带中能用同样的信噪比求频谱。
预加重过程中用到的预加重系数的取值在0.9~1.0之间,本申请实施例中,预加重系数的取值为0.97。
步骤S12:对预加重后的语音信号进行分帧,得到若干个语音信号帧,并对每个语音信号帧做短时傅里叶变换,得每个所述语音信号帧的频谱。
对语音信号帧做短时傅里叶变换的过程可以为:对语音信号帧做加窗处理,将窗口在语音信号帧上滑动,每滑动至一个位置,对窗内的信号做傅里叶变换。本申请中使用汉宁窗(Hanning Window)进行处理。其中,窗长为1024个采样点,窗口的滑动步长为533个采样点。可以对每个窗内的1024个采样点做512点的短时傅里叶变换。
步骤S13:在语音信号帧的频谱中提取K个MFCC,并根据所述K个MFCC构建语音信号帧对应的M维MFCC特征向量。其中,M和K均为正整数,M大于或等于K。
上述M维MFCC特征向量中的M个元素全部为MFCC,即M=K。或者,
上述M维MFCC特征向量中的M个元素包括上述K个MFCC,以及由上述K个MFCC计算得到的其它参数,例如,该M维MFCC特征向量中,包括K个MFCC,由上述K个MFCC计算得到的K个一阶差分参数,由上述K个一阶差分参数计算得到的K个二阶差分参数,也就是说,M=3K。
其中,一阶差分参数是指相邻两个MFCC的差值;二阶差分参数是指相邻两个一阶差分参数差值。其中,K个MFCC一共可以计算得到K-1个一阶差分参数,可以将预设一阶差分参数值作为一个一阶差分参数补齐K个一阶差分参数;同理,可以将预设二阶差分参数值作为一个二阶差分参数补齐K个二阶差分参数。
在一可选的实施例中,MFCC特征向量可以为64维的MFCC特征向量,也可以为32维的MFCC特征向量,或者,可以为39维的MFCC特征向量。在本申请的一个示例中,MFCC特征向量为64维的MFCC特征向量,该64维的MFCC特征向量中的64个元素全部为MFCC。
步骤S14:对上述M维MFCC特征向量进行归一化,使得该M维MFCC特征向量在每个维度上均服从相同的分布。
在本申请的一个示例中,对MFCC特征向量进行去均值除方差处理,使得M维MFCC特征向量在每个维度上均服从均值为0,方差为1的分布。具体处理过程可以为:
计算所有的M维MFCC特征向量中,同一维度的数据的平均值和方差,对于每一个M维MFCC特征向量,计算该M维MFCC特征向量中的每一维的数据与该维度的平均值的差值,将差值除以该维度的方差,得到该维度的归一化值。
例如,假设有3个5维MFCC特征向量,分别为:
(A11,A12,A13,A14,A15)
(A21,A22,A23,A24,A25)
(A31,A32,A33,A34,A35)
对上述3个5维MFCC特征向量进行归一化的过程为:
计算A11,A21,A31的平均值E1和方差S2 1
计算A12,A22,A32的平均值E2和方差S2 2
计算A13,A23,A33的平均值E3和方差S2 3
计算A14,A22,A34的平均值E4和方差S2 4
计算A15,A25,A35的平均值E5和方差S2 5
对MFCC特征向量(A11,A12,A13,A14,A15)进行归一化的结果为:
对MFCC特征向量(A21,A22,A23,A24,A25)进行归一化的结果为:
对MFCC特征向量(A31,A32,A33,A34,A35)进行归一化的结果为:
与现有技术中不同,现有技术中在得到M维MFCC特征向量后,直接利用该MFCC特征向量进行计算,而本申请实施例中,在得到M维MFCC特征向量后,不是直接计算,而是对其进行归一化,利用归一化后的M维MFCC特征向量进行计算。
通过对MFCC特征向量进行归一化处理,可以保证在优化神经网络模型时,损失函数在每个频率上都有相同的下降速度,有效的加速神经网络模型收敛并提高神经网络模型的精度。
作为一个示例,嘴型标定点特征可以通过如下方法提取:
Step 1:嘴型标定点特征提取。可以采用DLIB开源框架提取训练数据集中视频的每一帧图像中的人脸的若干个(如68个)标定点,如图2所示。在该若干个标定点中,选取嘴唇部分20个标定点的坐标作为初始标定点数据。由于每个坐标点包含X和Y两个维度,因此,初始标定点数据是一个40维的数据。
Step 2:嘴型标定点对齐。因采集的视频源里面头像并不是固定大小和位置,需要对嘴型加以处理。首先,以嘴型为单位,平移该嘴型的20个标定点,使得20个标定点的重心平移到原点坐标位置,接着,以嘴型的边缘的两点(见图2中的49与55两个点)的坐标值(x,y)计算边缘两点的连线与坐标轴(如X轴)的夹角的角度θ,根据该角度θ对嘴型坐标投影(也就是将整个嘴型向X轴方向旋转角度θ),以便纠正头部的旋转带来的嘴型的旋转。然后以嘴型边缘两点的距离作为嘴型大小度量,统计嘴型在闭合的时候的大小。最后将统计到的,嘴型在闭合的时候的大小求均值,再将所有的嘴型缩放到同样的大小(即,所有嘴型的位于嘴型边缘的两个点的距离均相同),得到嘴型标定点数据。也就是说,所有嘴型标定点数据所表征嘴型的大小(位于嘴型边缘的两个点的距离)和位置相同(重心位置都在原点)。通过嘴型标定点对齐,有效移除因为脸部平移、旋转与缩放给算法带来的噪音。
Step 3:对嘴型标定点数据进行主成分分析(Principal Component Analysis,PCA)。由于嘴型的标定点数据之间具有很强相关性,通过PCA处理,可以降低输入的嘴型标定点数据的相关性,去除嘴型标定点数据的噪声,同时可以减少数据维度,降低计算的复杂度,加快计算效率。本发明中利用PCA将40维的嘴型标定点数据降低为20维的嘴型标定点数据。
对于每一个输入的MFCC特征向量,神经网络的Dense层均输出一个20维的向量,对应20维的嘴型标定点数据。
由于语音和视频是同步采集的,本申请实施例中,在提取语音信号的MFCC特征向量时,按照视频的帧率将语音信号划分为若干语音信号帧,则每一个语音信号帧对应一帧图像,也就是对应一个嘴型,从而每一个MFCC特征向量对应一个20维的嘴型标定点数据。
如图3所示,为本申请实施例提供的唇语合成方法的原理示意图。其中,“数据预处理”与“神经网络”部分构成神经网络的训练原理示意图。“数据预处理”中的语音相关部分,“神经网络”中的“卷积层-全连接层”相关部分,以及“数据后处理”部分构成利用神经网络进行唇语合成的原理示意图。
在训练的过程,可以采用批训练的方式进行训练,即每次抽取若干个MFCC特征输入到神经网络模型进行训练。在本申请的一个示例中,每次随机抽取128个MFCC特征向量输入到神经网络模型进行训练。
每训练一次,利用损失函数(如二范数)对神经网络模型输出的嘴型标定点数据,以及训练数据集中对应的嘴型标定点数据进行计算以判断是否达到收敛条件,若损失函数为二范数,则当计算结果收敛到最小值附近时,说明达到收敛条件,否则未达到收敛条件。
当达到收敛条件时,说明神经网络训练好了。基于本申请中的一种示例,最终训练了2000次左右达到收敛条件。
下面说明利用训练好的神经网络进行唇语合成的过程。
请参阅图4,图4为本申请实施例提供的唇语合成方法的一种实现流程图可以包括:
步骤S41:将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征向量。
将语音信号分帧的方法与神经网络训练过程中语音信号的分帧方法相同。例如,假设神经网络训练过程中语音信号的分帧方法是每1秒的语音信号被划分为30帧语音信号帧,则在步骤S41中,也按照每1秒的语音信号被划分为30帧语音信号帧的方式进行分帧。
在一可选的实施例中,MFCC特征向量可以为64维的MFCC特征向量,也可以为32维的MFCC特征向量,或者,可以为39维的MFCC特征向量。
步骤S42:利用预先训练好的神经网络将所提取的MFCC特征向量进行处理,得到与每一个MFCC特征向量对应的嘴型标定点数据。
该预先训练好的神经网络建立了语音的MFCC特征向量与嘴型标定点数据的对应关系。将步骤S41中提取的MFCC特征向量输入训练好的神经网络后,神经网络就会输出与MFCC特征向量对应的嘴型标定点数据。该嘴型标定点数据即是嘴型标定点的坐标数据。
在得到嘴型标定点坐标后,就可以进行唇语动画生成等处理了。具体怎么处理不是本申请的研究重点,这里不再详述。
本申请提供的唇语合成方法,通过神经网络建立语音信号的梅尔频率倒谱系数特征向量与嘴型标定点数据之间的对应关系,在将驱动用语音(即用于驱动唇语合成的语音)输入上述神经网络后,可以实时获取与驱动用语音对应的嘴型标定点数据。实现了嘴型数据的自动标定,在降低工作量的同时,提高了通用性。
在一可选的实施例中,在得到与每一个MFCC特征向量对应的嘴型标定点数据后,还可以对得到的嘴型标定点数据进行滤波,以去除神经网络输出的嘴型标定点数据中的抖动。
本申请实施例中,对上述若干语音信号帧中的中间语音信号帧(即除第一个语音信号帧和最后一个语音信号帧之外的其它语音信号帧,为方便叙述,记为预定语音信号帧)的MFCC特征向量对应的嘴型标定点数据进行滤波。滤波方法为:
利用与第一语音信号帧的MFCC特征向量对应的嘴型标定点数据,以及与第三语音信号帧的MFCC特征向量对应的嘴型标定点数据,对与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波,以去除与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据中的抖动噪声。
其中,第二语音信号帧为任意一预定语音信号帧;第一语音信号帧为第二语音信号帧的前一语音信号帧,第三语音信号帧为第二语音信号帧的后一语音信号帧。
具体可以采用如下计算公式:
其中,α为预置滤波系数;Xn为神经网络对应第n个语音信号帧的MFCC特征向量输出的嘴型标定点数据;Yn-1为神经网络对应第n-1个语音信号帧的MFCC特征向量输出的嘴型标定点数据;Yn+1为神经网络对应第n+1个语音信号帧的MFCC特征向量输出的嘴型标定点数据;Yn为对Xn滤波后的嘴型标定点数据。
需要说明的是,若在训练过程中,嘴型标定点数据通过PCA进行了降维,则在滤波前,需要经过PCA还原成原始嘴型的特征维度。利用还原维度的嘴型标定点数据进行滤波处理。
与方法实施例相对应,本申请还提供一种唇语合成装置,本申请提供的唇语合成装置的一种结构示意图如图5所示,可以包括:
特征提取模块51,用于将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
唇语合成模块52,用于利用预先训练好的神经网络将所提取的MFCC特征向量进行处理,得到与每一个MFCC特征向量对应的嘴型标定点数据。
本申请提供的唇语合成装置,通过神经网络建立语音信号的梅尔频率倒谱系数特征向量与嘴型标定点数据之间的对应关系,在将驱动用语音输入上述神经网络后,可以实时获取与驱动用语音对应的嘴型标定点数据。实现了嘴型数据的自动标定,在降低工作量的同时,提高了通用性。
在一可选的实施例中,本申请提供的唇语合成装置还可以包括:
滤波模块,用于对与预定语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波处理,所述预定语音信号帧为所述若干语音信号帧中除第一个语音信号帧和最后一个语音信号帧之外的其它语音信号帧;具体包括:
利用与第一语音信号帧的MFCC特征向量对应的嘴型标定点数据,以及与第三语音信号帧的MFCC特征向量对应的嘴型标定点数据,对与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波,以去除所述与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据中的抖动噪声;
所述第二语音信号帧为任意一预定语音信号帧;所述第一语音信号帧为所述第二语音信号帧的前一语音信号帧,所述第三语音信号帧为所述第二语音信号帧的后一语音信号帧。
在一可选的实施例中,特征提取模块51具体可以用于:
对所述语音信号进行预加重;
将预加重后的语音信号分为若干语音信号帧,并对每个所述语音信号帧做短时傅里叶变换,得每个所述语音信号帧的频谱;
在所述语音信号帧的频谱中提取K个MFCC,并根据所述K个MFCC构建所述语音信号帧对应的M维MFCC特征向量;
对所述M维MFCC特征向量进行归一化,使得所述M维MFCC特征向量在每个维度上均服从相同的分布。
在一可选的实施例中,所述神经网络包括:
一层卷积层,与所述一层卷积层连接的长短记忆网络,以及与所述长短记忆网络连接的一层全连接层。
在一可选的实施例中,本申请提供的唇语合成装置还可以包括训练模块,用于:
在训练数据集中抽取在第一时间区间内同步采集的语音信号及N帧图像;
提取每一帧图像中的嘴型标定点数据;
将提取的语音信号划分为N个语音信号帧,并分别提取每个语音信号帧的MFCC特征向量;
将得到的N个MFCC特征向量输入待训练的神经网络模型,得到每个MFCC特征向量对应的嘴型标定点数据;
利用预置损失函数对所述待训练的神经网络模型输出的嘴型标定点数据,以及从所述N帧图像中提取的嘴型标定点数据进行计算,以判断是否达到预置的收敛条件;
若未达到收敛条件,获取在第二时间区间内同步采集的语音信号及N帧图像,并执行所述提取每一帧图像中的嘴型标定点数据的步骤及后续步骤;所述第二时间区间与所述第一时间区间起始时刻不同,所述第二时间区间与所述第一时间区间的长度相同。
在一可选的实施例中,训练模块在提取每一帧图像中的嘴型标定点数据时,具体可以用于:
采集每一帧图像中嘴型的初始标定点数据;
对各帧图像中采集的初始标定点数据进行对齐处理,得到每一帧图像中的嘴型标定点数据;其中,所有嘴型标定点数据所表征嘴型的大小和位置相同。
在一可选的实施例中,训练模块在对各帧图像中采集的初始标定点数据进行对齐处理时,具体可以用于:
对所述初始标定点数据进行平移,使得所述初始标定点数据的中心平移到原点坐标位置;
纠正所述初始标定点数据的旋转;
确定与闭合嘴型对应的第一类初始标定点数据,并统计各个第一类初始标定点数据中位于嘴型边缘的两个点的距离;
计算所有统计到的距离的平均值;
对所述初始标定点数据对应的嘴型进行缩放,得到嘴型标定点数据;其中,各个嘴型标定点数据中位于嘴型边缘的两个点的距离均相同。
本申请还提供一种计算机可读存储介质,该机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请公开的唇语合成方法。
本申请还提供一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请公开的唇语合成方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统(若存在)、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种唇语合成方法,其特征在于,包括:
将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
利用预先训练好的神经网络将所提取的MFCC特征向量进行处理,得到与每一个MFCC特征向量对应的嘴型标定点数据。
2.根据权利要求1所述的方法,其特征在于,还包括:对与预定语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波处理,所述预定语音信号帧为所述若干语音信号帧中除第一个语音信号帧和最后一个语音信号帧之外的其它语音信号帧;具体包括:
利用与第一语音信号帧的MFCC特征向量对应的嘴型标定点数据,以及与第三语音信号帧的MFCC特征向量对应的嘴型标定点数据,对与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据进行滤波,以去除所述与第二语音信号帧的MFCC特征向量对应的嘴型标定点数据中的抖动噪声;
所述第二语音信号帧为任意一预定语音信号帧;所述第一语音信号帧为所述第二语音信号帧的前一语音信号帧,所述第三语音信号帧为所述第二语音信号帧的后一语音信号帧。
3.根据权利要求1所述的方法,其特征在于,所述将语音信号分为若干语音信号帧,并提取每一语音信号帧的MFCC特征向量,包括:
对所述语音信号进行预加重;
将预加重后的语音信号分为若干语音信号帧,并对每个所述语音信号帧做短时傅里叶变换,得每个所述语音信号帧的频谱;
在所述语音信号帧的频谱中提取K个MFCC,并根据所述K个MFCC构建所述语音信号帧对应的M维MFCC特征向量;
对所述M维MFCC特征向量进行归一化,使得所述M维MFCC特征向量在每个维度上均服从相同的分布。
4.根据权利要求1所述的方法,其特征在于,所述神经网络包括:
一层卷积层,与所述一层卷积层连接的长短记忆网络,以及与所述长短记忆网络连接的一层全连接层。
5.根据权利要求1所述的方法,其特征在于,所述神经网络通过如下方法训练得到:
在训练数据集中抽取在第一时间区间内同步采集的语音信号及N帧图像;
提取每一帧图像中的嘴型标定点数据;
将提取的语音信号划分为N个语音信号帧,并分别提取每个语音信号帧的MFCC特征向量;
将得到的N个MFCC特征向量输入待训练的神经网络模型,得到每个MFCC特征向量对应的嘴型标定点数据;
利用预置损失函数对所述待训练的神经网络模型输出的嘴型标定点数据,以及从所述N帧图像中提取的嘴型标定点数据进行计算,以判断是否达到预置的收敛条件;
若未达到收敛条件,获取在第二时间区间内同步采集的语音信号及N帧图像,并执行所述提取每一帧图像中的嘴型标定点数据的步骤及后续步骤;所述第二时间区间与所述第一时间区间起始时刻不同,所述第二时间区间与所述第一时间区间的长度相同。
6.根据权利要求5所述的方法,其特征在于,所述提取每一帧图像中的嘴型标定点数据,包括:
采集每一帧图像中嘴型的初始标定点数据;
对各帧图像中采集的初始标定点数据进行对齐处理,得到每一帧图像中的嘴型标定点数据;其中,所有嘴型标定点数据所表征嘴型的大小和位置相同。
7.根据权利要求6所述的方法,其特征在于,所述对各帧图像中采集的初始标定点数据进行对齐处理,包括:
对所述初始标定点数据进行平移,使得所述初始标定点数据的重心平移到原点坐标位置;
纠正所述初始标定点数据的旋转;
确定与闭合嘴型对应的第一类初始标定点数据,并统计各个第一类初始标定点数据中位于嘴型边缘的两个点的距离;
计算所有统计到的距离的平均值;
对所述初始标定点数据对应的嘴型进行缩放,得到嘴型标定点数据;其中,各个嘴型标定点数据中位于嘴型边缘的两个点的距离均相同。
8.一种唇语合成装置,其特征在于,包括:
特征提取模块,用于将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
唇语合成模块,用于利用预先训练好的神经网络将所提取的MFCC特征向量进行处理,得到与每一个MFCC特征向量对应的嘴型标定点数据。
9.一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1-7任一项所述的唇语合成方法。
10.一种电子设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一项所述的唇语合成方法。
CN201810689163.3A 2018-06-28 2018-06-28 唇语合成方法、装置、电子设备及存储介质 Active CN108847234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810689163.3A CN108847234B (zh) 2018-06-28 2018-06-28 唇语合成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810689163.3A CN108847234B (zh) 2018-06-28 2018-06-28 唇语合成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN108847234A true CN108847234A (zh) 2018-11-20
CN108847234B CN108847234B (zh) 2020-10-30

Family

ID=64200633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810689163.3A Active CN108847234B (zh) 2018-06-28 2018-06-28 唇语合成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108847234B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136698A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN110796000A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN111429885A (zh) * 2020-03-02 2020-07-17 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN112580669A (zh) * 2020-12-28 2021-03-30 出门问问(苏州)信息科技有限公司 一种对语音信息的训练方法及装置
CN112752118A (zh) * 2020-12-29 2021-05-04 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质
CN112770062A (zh) * 2020-12-22 2021-05-07 北京奇艺世纪科技有限公司 一种图像生成方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348811A (ja) * 1993-06-07 1994-12-22 Sharp Corp 動画像表示装置
CN1214784A (zh) * 1996-03-26 1999-04-21 英国电讯有限公司 图象合成
CN1702691A (zh) * 2005-07-11 2005-11-30 北京中星微电子有限公司 基于语音的彩色人脸合成方法、系统及其着色方法、装置
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN106297792A (zh) * 2016-09-14 2017-01-04 厦门幻世网络科技有限公司 一种语音口型动画的识别方法及装置
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348811A (ja) * 1993-06-07 1994-12-22 Sharp Corp 動画像表示装置
CN1214784A (zh) * 1996-03-26 1999-04-21 英国电讯有限公司 图象合成
CN1702691A (zh) * 2005-07-11 2005-11-30 北京中星微电子有限公司 基于语音的彩色人脸合成方法、系统及其着色方法、装置
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106297792A (zh) * 2016-09-14 2017-01-04 厦门幻世网络科技有限公司 一种语音口型动画的识别方法及装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙艳丰等: "一种基于双重学习模型的可视语音合成系统", 《北京工业大学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136698B (zh) * 2019-04-11 2021-09-24 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110136698A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN110796000A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN110796000B (zh) * 2019-09-18 2023-12-22 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
WO2021051606A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN111429885B (zh) * 2020-03-02 2022-05-13 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN111429885A (zh) * 2020-03-02 2020-07-17 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN112770062A (zh) * 2020-12-22 2021-05-07 北京奇艺世纪科技有限公司 一种图像生成方法及装置
CN112770062B (zh) * 2020-12-22 2024-03-08 北京奇艺世纪科技有限公司 一种图像生成方法及装置
CN112580669A (zh) * 2020-12-28 2021-03-30 出门问问(苏州)信息科技有限公司 一种对语音信息的训练方法及装置
CN112580669B (zh) * 2020-12-28 2023-08-01 出门问问(武汉)信息科技有限公司 一种对语音信息的训练方法及装置
CN112752118A (zh) * 2020-12-29 2021-05-04 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108847234B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN108847234A (zh) 唇语合成方法、装置、电子设备及存储介质
CN108986835B (zh) 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109377539A (zh) 用于生成动画的方法和装置
US9818431B2 (en) Multi-speaker speech separation
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
CN108899044A (zh) 语音信号处理方法及装置
CN107452389A (zh) 一种通用的单声道实时降噪方法
CN109584896A (zh) 一种语音芯片及电子设备
CN106486131A (zh) 一种语音去噪的方法及装置
WO2019023877A1 (zh) 特定声音识别方法、设备和存储介质
CN103413113A (zh) 一种服务机器人智能情感交互的方法
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN109785852A (zh) 一种增强说话人语音的方法及系统
CN104715753B (zh) 一种数据处理的方法及电子设备
CN110415701A (zh) 唇语的识别方法及其装置
CN109545228A (zh) 一种端到端说话人分割方法及系统
CN110060665A (zh) 语速检测方法及装置、可读存储介质
CN108831463A (zh) 唇语合成方法、装置、电子设备及存储介质
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN109147798A (zh) 语音识别方法、装置、电子设备及可读存储介质
CN110111769A (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN110308795A (zh) 一种动态手势识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210118

Address after: 510000 3108, 79 Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 28th floor, block B1, Wanda Plaza, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181120

Assignee: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

Assignor: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Contract record no.: X2021440000053

Denomination of invention: Lip synthesis method, device, electronic device and storage medium

Granted publication date: 20201030

License type: Common License

Record date: 20210208

EE01 Entry into force of recordation of patent licensing contract