CN106875955A - 一种声音动画的制作方法及电子设备 - Google Patents

一种声音动画的制作方法及电子设备 Download PDF

Info

Publication number
CN106875955A
CN106875955A CN201510916059.XA CN201510916059A CN106875955A CN 106875955 A CN106875955 A CN 106875955A CN 201510916059 A CN201510916059 A CN 201510916059A CN 106875955 A CN106875955 A CN 106875955A
Authority
CN
China
Prior art keywords
mouth
expression
feature
animation
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510916059.XA
Other languages
English (en)
Inventor
武俊敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhang Ying Information Technology (shanghai) Co Ltd
Original Assignee
Zhang Ying Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhang Ying Information Technology (shanghai) Co Ltd filed Critical Zhang Ying Information Technology (shanghai) Co Ltd
Priority to CN201510916059.XA priority Critical patent/CN106875955A/zh
Publication of CN106875955A publication Critical patent/CN106875955A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

本发明公开了一种声音动画的制作方法及电子设备,该方法包括:获取语音信息;将所述语音信息分割为多个语音片段;获取所述语音片段的特征;根据所述特征选取对应的嘴部表情;根据所述嘴部表情生成对应的表情帧;根据所述表情帧生成动画;该方法能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点。

Description

一种声音动画的制作方法及电子设备
技术领域
本发明涉及计算机技术领域,特别涉及一种声音动画的制作方法及电子设备。
背景技术
现有的表情动画的制作方法通常是通过获取面部表情的视频信息来生成对应的表情动画,这种方法需要获取大量的视频信息,效率低下、速度慢、受到视频采集等各方面的限制较多,资源消耗也比较大。
发明内容
为了解决上述问题,本发明提供一种声音动画的制作方法及电子设备。
所述技术方案如下:
第一方面,提供了一种声音动画的制作方法,所述方法包括:
获取语音信息;
将所述语音信息分割为多个语音片段;
获取所述语音片段的特征;
根据所述特征选取对应的嘴部表情;
根据所述嘴部表情生成对应的表情帧;
根据所述表情帧生成动画。
结合第一方面,在第一种可能的实现方式中,所述将所述语音信息分割为多个语音片段包括:
根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
结合第一方面,在第二种可能的实现方式中,所述根据所述特征选取对应的嘴部表情包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
结合第一方面,在第三种可能的实现方式中,所述根据所述特征选取对应的嘴部表情包括:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
结合第一方面至第一方面的第三种任一项可能的实现方式,在第四种可能的实现方式中,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述根据所述嘴部表情生成对应的表情帧包括:
根据嘴部的开闭状态和/或嘴部的形状生成面部表情;
根据所述面部表情生成对应的表情帧。
第二方面,提供了一种电子设备,所述电子设备包括:
语音获取模块,用于获取语音信息;
分割模块,用于将所述语音信息分割为多个语音片段;
特征提取模块,用于获取所述语音片段的特征;
嘴部表情选择模块,用于根据所述特征选取对应的嘴部表情;
表情帧生成模块,用于根据所述嘴部表情生成对应的表情帧;
动画生成模块,用于根据所述表情帧生成动画。
结合第二方面,在第一种可能的实现方式中,所述分割模块具体用于:
根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
结合第二方面,在第二种可能的实现方式中,所述嘴部表情选择模块具体用于:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
结合第二方面,在第三种可能的实现方式中,所述嘴部表情选择模块具体用于:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
结合第二方面至第二方面的第三种任一项可能的实现方式,在第四种可能的实现方式中,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
结合第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述表情帧生成模块具体用于:
根据嘴部的开闭状态和/或嘴部的形状生成面部表情;
根据所述面部表情生成对应的表情帧。
第三方面,提供了一种电子设备,所述设备包括存储器,音频模块,以及与所述存储器,所述音频模块连接的处理器,其中,所述存储器用于存储一组程序代码,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:
获取语音信息;
将所述语音信息分割为多个语音片段;
获取所述语音片段的特征;
根据所述特征选取对应的嘴部表情;
根据所述嘴部表情生成对应的表情帧;
根据所述表情帧生成动画。
结合第三方面,在第一种可能的实现方式中,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:
根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
结合第三方面,在第二种可能的实现方式中,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
结合第三方面,在第三种可能的实现方式中,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
结合第三方面至第三方面的第三种任一项可能的实现方式,在第四种可能的实现方式中,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
结合第三方面的第四种可能的实现方式,在第五种可能的实现方式中,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:
根据嘴部的开闭状态和/或嘴部的形状生成面部表情;
根据所述面部表情生成对应的表情帧。
本发明实施例提供了一种声音动画的制作方法及电子设备,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种声音动画的制作方法的流程图;
图2是本发明实施例提供的一种声音动画的制作方法的流程图;
图3是本发明实施例提供的一种声音动画的制作方法的流程图;
图4是本发明实施例提供的一种声音动画的制作方法的流程图;
图5是本发明实施例提供的一种声音动画的制作方法的流程图;
图6是本发明实施例提供的一种声音动画的制作方法的流程图;
图7是本发明实施例提供的一种电子设备的结构示意图;
图8是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供了一种声音动画的制作方法及电子设备,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点。
实施例一
本发明实施例提供了一种声音动画的制作方法,参照图1所示,方法流程包括:
101、获取语音信息。
具体的,该过程可以包括:
音频模块通过麦克风实时的采集音频信息;
从所述音频信息中分离出语音信息。
通常来说,人的语音的频率范围在300Hz至4000Hz之间,因此可以通过对音频信息进行滤波,分离出频率范围在300Hz至4000Hz之间的信息作为人的语音信息。
可选的,所述音频信息也可以是通过读取以各种形式存储的音频数据来获取的,本发明实施例对具体的获取方式不加以限定。
102、将所述语音信息分割为多个语音片段。
具体的,根据需要生成的动画的帧率来对语音片段进行分割。
示例性的,当生成的动画为30帧/秒时,每个语音片段的长度为1/30秒;当生成的动画为60帧/秒时,每个语音片段的长度为1/60秒。本发明实施例对具体的分割方式不加以限定。
103、获取所述语音片段的特征。
具体的,从步骤102中获取的每个所述语音片段中提取出该语音片段对应的特征,示例性的,该特征可以是MFCC(Mel Frequency Cepstral Coefficents,梅尔频率倒谱系数)特征。本发明实施例对具体的特征不加以限定。
104、根据所述特征选取对应的嘴部表情。
具体的,该过程可以包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
预设的模型是预先设置好的模型,该模型可以是通过有监督学习训练得到的。
训练的具体方法包括:
a、收集训练数据。
收集大量的包含语音和嘴部开闭状态对应关系的数据,例如电影、电视片段。
b、对收集到的数据进行预处理。
将收集到的数据中带有人脸嘴部的视频帧挑选出来。
将这些视频帧中嘴部的开闭状态和对应的语音信息的MFCC特征提取出来。
c、根据这些嘴部的开闭状态和对应的MFCC特征对SVM(Support VectorMachine,支持向量机)进行训练,得到训练后的SVM作为预设模型。
在根据所述特征选取对应的嘴部表情的过程中,将所述特征输入该训练后的SVM,SVM将判断该特征对应的嘴部状态是开还是闭,如果对应的状态是开,则从预设的表情库中选取嘴部状态为开的表情作为所述特征对应的嘴部表情,如果对应的状态是闭,则从预设的表情库中选取嘴部状态为闭的表情作为所述特征对应的嘴部表情。
105、根据所述嘴部表情生成对应的表情帧。
具体的,根据所述嘴部表情,预设的纹理以及预设的背景生成对应的表情帧。
106、根据所述表情帧生成动画。
具体的,按时间顺序排列所述表情帧,生成对应的动画。
本发明实施例提供了一种声音动画的制作方法,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点,通过SVM能够快速的对嘴部的开闭状态进行判断,从而有效地提高识别的速度。
实施例二
本发明实施例提供了一种声音动画的制作方法,参照图2所示,方法流程包括:
201、获取语音信息。
具体的,该过程可以包括:
音频模块通过麦克风实时的采集音频信息;
从所述音频信息中分离出语音信息。
通常来说,人的语音的频率范围在300Hz至4000Hz之间,因此可以通过对音频信息进行滤波,分离出频率范围在300Hz至4000Hz之间的信息作为人的语音信息。
可选的,还可以进一步通过声音的强度来分离语音信息,因为人的语音一般在40dB至60dB之间,因此可以根据声音的dB来对音频信息进行过滤,分离出强度在在40dB至60dB之间的音频信息。
可选的还可以对分离出的语音信息进行降噪等处理,得到更加精确的语音信息。
可选的,所述音频信息也可以是通过读取以各种形式存储的音频数据来获取的,本发明实施例对具体的获取方式不加以限定。
202、将所述语音信息分割为多个语音片段。
该步骤与步骤102相同,此处不再赘述。
203、获取所述语音片段的特征。
该步骤与步骤103相同,此处不再赘述。
204、根据所述特征选取对应的嘴部表情。
具体的,该过程可以包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
预设的模型是预先设置好的模型,该模型可以是通过有监督学习训练得到的。
训练的具体方法包括:
a、收集训练数据。
收集大量的包含语音和嘴部的形状对应关系的数据,例如电影、电视片段。
b、对收集到的数据进行预处理。
将收集到的数据中带有人脸嘴部的视频帧挑选出来。
将这些视频帧中嘴部的形状和对应的语音信息的MFCC特征提取出来。
c、根据这些嘴部的形状和对应的MFCC特征对随机森林(Random Forest)进行训练,得到训练后的随机森林作为预设模型。
在根据所述特征选取对应的嘴部表情的过程中,将所述特征输入该训练后的随机森林,随机森林将判断该特征对应的嘴部的形状,并从预设的表情库中选取该嘴部的形状对应的嘴部表情作为所述特征对应的嘴部表情。
205、根据所述嘴部表情生成对应的表情帧。
该步骤与步骤105相同,此处不再赘述。
206、根据所述表情帧生成动画。
该步骤与步骤106相同,此处不再赘述。
本发明实施例提供了一种声音动画的制作方法,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点,通过随机森林能够快速的识别出嘴部的形状,从而有效地提高识别的速度。
实施例三
本发明实施例提供了一种声音动画的制作方法,参照图3所示,方法流程包括:
301、获取语音信息。
该步骤与步骤101相同,此处不再赘述。
302、将所述语音信息分割为多个语音片段。
该步骤与步骤102相同,此处不再赘述。
303、获取所述语音片段的特征。
该步骤与步骤103相同,此处不再赘述。
304、根据所述特征选取对应的嘴部表情。
具体的,该过程可以包括:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
预设的模型是预先设置好的模型,该模型可以是通过有监督学习训练得到的。
训练的具体方法包括:
a、收集训练数据。
收集大量的包含语音和嘴部开闭状态对应关系的数据,例如电影、电视片段。
b、对收集到的数据进行预处理。
将收集到的数据中带有人脸嘴部的视频帧挑选出来。
将这些视频帧中嘴部的开闭状态和对应的语音信息的MFCC特征提取出来。
c、根据这些嘴部的开闭状态和对应的MFCC特征对SVM(Support VectorMachine,支持向量机)进行训练,得到训练后的SVM作为预设模型。
在根据所述特征选取对应的嘴部表情的过程中,将所述特征输入该训练后的SVM,SVM将判断该特征对应的嘴部状态是开的概率,记为p,则该嘴部状态是闭的概率为1-p。
如果p超过预设的阈值,则判定对应的嘴部状态是开,否则判定对应的嘴部状态是闭。该阈值的初始值为0.5,并根据当所述特征对应的语音片段的上一语音片段对应的表情的嘴部状态来对该阈值进行动态的调整。
示例性的,当所述特征对应的语音片段的上一语音片段对应的表情的嘴部状态是开时,将该阈值调整为0.3,即所述特征对应的p大于0.3即判定其对应的嘴部状态是开。
如果SVM判定该特征对应的状态是开,则从预设的表情库中选取嘴部状态为开的表情作为所述特征对应的表情,如果SVM判定该特征对应的状态是闭,则从预设的表情库中选取嘴部状态为闭的表情作为所述特征对应的表情。
305、根据所述嘴部表情生成对应的表情帧。
该步骤与步骤105相同,此处不再赘述。
306、根据所述表情帧生成动画。
该步骤与步骤106相同,此处不再赘述。
本发明实施例提供了一种声音动画的制作方法,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点,通过SVM能够快速的识别出嘴部的形状,从而有效地提高识别的速度,进一步地根据上一帧的嘴部状态对当前帧的嘴部状态进行判断,有效地提高了识别的准确率。
实施例四
本发明实施例提供了一种声音动画的制作方法,参照图4所示,方法流程包括:
401、获取语音信息。
该步骤与步骤101相同,此处不再赘述。
402、将所述语音信息分割为多个语音片段。
该步骤与步骤102相同,此处不再赘述。
403、获取所述语音片段的特征。
该步骤与步骤103相同,此处不再赘述。
404、根据所述特征选取对应的嘴部表情。
具体的,该过程可以包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
预设的模型是预先设置好的模型,该模型可以是通过有监督学习训练得到的。
训练的具体方法包括:
a、收集训练数据。
收集大量的包含语音和嘴部的形状对应关系的数据,例如电影、电视片段。
b、对收集到的数据进行预处理。
将收集到的数据中带有人脸嘴部的视频帧挑选出来。
将这些视频帧中嘴部的形状对应的人脸的特征点和该嘴部的形状对应的语音信息的MFCC特征提取出来。
c、根据这些人脸的特征点和对应的MFCC特征对GMM(Gaussian MixtureModel)模型进行训练,得到训练后的GMM模型作为预设模型。
在根据所述特征选取对应的嘴部表情的过程中,将所述特征输入该训练后的GMM模型,GMM模型将判断该特征对应的人脸的特征点,并从预设的表情库中选取该人脸的特征点对应的嘴部表情作为所述特征对应的嘴部表情。
405、根据所述嘴部表情生成对应的表情帧。
该步骤与步骤105相同,此处不再赘述。
406、根据所述表情帧生成动画。
该步骤与步骤106相同,此处不再赘述。
本发明实施例提供了一种声音动画的制作方法,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点,通过GMM模型能够快速的识别出嘴部的形状,从而有效地提高识别的速度。
实施例五
本发明实施例提供了一种声音动画的制作方法,参照图5所示,方法流程包括:
501、获取语音信息。
该步骤与步骤101相同,此处不再赘述。
502、将所述语音信息分割为多个语音片段。
该步骤与步骤102相同,此处不再赘述。
503、获取所述语音片段的特征。
该步骤与步骤103相同,此处不再赘述。
504、根据所述特征选取对应的嘴部表情。
具体的,该过程可以包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
预设的模型是预先设置好的模型,该模型可以是通过有监督学习训练得到的。
训练的具体方法包括:
a、收集训练数据。
收集大量的包含语音和嘴部的形状对应关系的数据,例如电影、电视片段。
b、对收集到的数据进行预处理。
将收集到的数据中带有人脸嘴部的视频帧挑选出来。
将这些视频帧中嘴部的形状对应的人脸的特征点和该嘴部的形状对应的语音信息的MFCC特征提取出来。
c、根据这些人脸的特征点和对应的MFCC特征对3层神经网络(NeuralNetworks)进行训练,得到训练后的3层神经网络作为预设模型。
在根据所述特征选取对应的嘴部表情的过程中,将所述特征输入该训练后的3层神经网络,3层神经网络将判断该特征对应的人脸的特征点,并从预设的表情库中选取该人脸的特征点对应的嘴部表情作为所述特征对应的嘴部表情。
505、根据所述嘴部表情生成对应的表情帧。
该步骤与步骤105相同,此处不再赘述。
506、根据所述表情帧生成动画。
该步骤与步骤106相同,此处不再赘述。
本发明实施例提供了一种声音动画的制作方法,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点,通过神经网络能够快速的识别出嘴部的形状,从而有效地提高识别的速度。
实施例六
本发明实施例提供了一种声音动画的制作方法,参照图6所示,方法流程包括:
601、获取语音信息。
该步骤与步骤101相同,此处不再赘述。
602、将所述语音信息分割为多个语音片段。
该步骤与步骤102相同,此处不再赘述。
603、获取所述语音片段的特征。
该步骤与步骤103相同,此处不再赘述。
604、根据所述特征选取对应的嘴部表情。
具体的,该过程可以包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
预设的模型是预先设置好的模型,该模型可以是通过有监督学习训练得到的。
训练的具体方法包括:
a、收集训练数据。
收集大量的包含语音和嘴部的形状对应关系的数据,例如电影、电视片段。
b、对收集到的数据进行预处理。
将收集到的数据中带有人脸嘴部的视频帧挑选出来。
将这些视频帧中嘴部的形状对应的人脸的特征点和该嘴部的形状对应的语音信息的MFCC特征提取出来。
c、根据这些人脸的特征点和对应的MFCC特征对SVR(Support VectorRegression)模型进行训练,得到训练后的SVR模型作为预设模型。
在根据所述特征选取对应的嘴部表情的过程中,将所述特征输入该训练后的SVR模型,SVR模型将判断该特征对应的人脸的特征点,并从预设的表情库中选取该人脸的特征点对应的嘴部表情作为所述特征对应的嘴部表情。
605、根据所述嘴部表情生成对应的表情帧。
该步骤与步骤105相同,此处不再赘述。
606、根据所述表情帧生成动画。
该步骤与步骤106相同,此处不再赘述。
本发明实施例提供了一种声音动画的制作方法,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点,通过SVR模型能够快速的识别出嘴部的形状,从而有效地提高识别的速度。
实施例七
本发明实施例提供了一种电子设备,参照图7所示,该电子设备包括:
语音获取模块701,用于获取语音信息;
分割模块702,用于将所述语音信息分割为多个语音片段;
特征提取模块703,用于获取所述语音片段的特征;
嘴部表情选择模块704,用于根据所述特征选取对应的嘴部表情;
表情帧生成模块705,用于根据所述嘴部表情生成对应的表情帧;
动画生成模块706,用于根据所述表情帧生成动画。
具体的,
分割模块702根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
可选的,
嘴部表情选择模块703根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
可选的,
嘴部表情选择模块703根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
其中,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
具体的,
表情帧生成模块705根据所述嘴部表情,预设的纹理以及预设的背景生成对应的表情帧。
具体的,动画生成模块706按时间顺序排列所述表情帧,生成对应的动画。
本发明实施例提供了一种电子设备,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点。
实施例八
本发明实施例提供了一种电子设备,参照图8所示,所述设备包括存储器801、音频模块802、以及与存储器801、音频模块802连接的处理器803,其中,存储器801用于存储一组程序代码,处理器803调用存储器801所存储的程序代码用于执行以下操作:
获取语音信息;
将所述语音信息分割为多个语音片段;
获取所述语音片段的特征;
根据所述特征选取对应的嘴部表情;
根据所述嘴部表情生成对应的表情帧;
根据所述表情帧生成动画。
具体的,处理器803调用存储器801所存储的程序代码用于执行以下操作:
根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
具体的,处理器803调用存储器801所存储的程序代码用于执行以下操作:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
具体的,处理器803调用存储器801所存储的程序代码用于执行以下操作:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
可选的,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
具体的,处理器803调用存储器801所存储的程序代码用于执行以下操作:
根据嘴部的开闭状态和/或嘴部的形状生成面部表情;
具体的,处理器803调用存储器801所存储的程序代码用于执行以下操作:
按时间顺序排列所述表情帧,生成对应的动画。
本发明实施例提供了一种电子设备,能够实时的通过语音来生成对应的表情动画,无需获取面部的视频信息,具有效率高、速度快、限制少、资源消耗少的优点。
以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,本领域普通技术人员在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种声音动画的制作方法,其特征在于,所述方法包括:
获取语音信息;
将所述语音信息分割为多个语音片段;
获取所述语音片段的特征;
根据所述特征选取对应的嘴部表情;
根据所述嘴部表情生成对应的表情帧;
根据所述表情帧生成动画。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信息分割为多个语音片段包括:
根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
3.根据权利要求1所述方法,其特征在于,所述根据所述特征选取对应的嘴部表情包括:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
4.根据权利要求1所述方法,其特征在于,所述根据所述特征选取对应的嘴部表情包括:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
6.一种电子设备,其特征在于,所述电子设备包括:
语音获取模块,用于获取语音信息;
分割模块,用于将所述语音信息分割为多个语音片段;
特征提取模块,用于获取所述语音片段的特征;
嘴部表情选择模块,用于根据所述特征选取对应的嘴部表情;
表情帧生成模块,用于根据所述嘴部表情生成对应的表情帧;
动画生成模块,用于根据所述表情帧生成动画。
7.根据权利要求6所述的设备,其特征在于,所述分割模块具体用于:
根据所述动画的帧率对所述语音信息进行分割,得到分割后的语音片段;
其中,每个语音片段与动画中的一帧相对应。
8.根据权利要求6所述设备,其特征在于,所述嘴部表情选择模块具体用于:
根据所述特征与预设的模型,在预设的表情库中选择与所述特征对应的嘴部表情。
9.根据权利要求6所述的设备,其特征在于,所述嘴部表情选择模块具体用于:
根据所述特征,预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情,在预设的表情库中选择与所述特征对应的嘴部表情。
10.根据权利要求6至9任意一项所述的设备,其特征在于,所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。
CN201510916059.XA 2015-12-10 2015-12-10 一种声音动画的制作方法及电子设备 Pending CN106875955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510916059.XA CN106875955A (zh) 2015-12-10 2015-12-10 一种声音动画的制作方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510916059.XA CN106875955A (zh) 2015-12-10 2015-12-10 一种声音动画的制作方法及电子设备

Publications (1)

Publication Number Publication Date
CN106875955A true CN106875955A (zh) 2017-06-20

Family

ID=59178713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510916059.XA Pending CN106875955A (zh) 2015-12-10 2015-12-10 一种声音动画的制作方法及电子设备

Country Status (1)

Country Link
CN (1) CN106875955A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847246A (zh) * 2018-06-15 2018-11-20 上海与德科技有限公司 一种动画制作方法、装置、终端及可读介质
CN109801349A (zh) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 一种声音驱动的三维动画角色实时表情生成方法和系统
CN111462736A (zh) * 2019-01-17 2020-07-28 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
CN112750184A (zh) * 2019-10-30 2021-05-04 阿里巴巴集团控股有限公司 数据处理、动作驱动与人机交互方法及设备
CN114945110A (zh) * 2022-05-31 2022-08-26 深圳市优必选科技股份有限公司 说话头视频合成方法、装置、终端设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030040916A1 (en) * 1999-01-27 2003-02-27 Major Ronald Leslie Voice driven mouth animation system
US20050273331A1 (en) * 2004-06-04 2005-12-08 Reallusion Inc. Automatic animation production system and method
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN102446506A (zh) * 2010-10-11 2012-05-09 华为技术有限公司 音频信号的分类识别方法及装置
CN102820030A (zh) * 2012-07-27 2012-12-12 中国科学院自动化研究所 发音器官可视语音合成系统
CN104780459A (zh) * 2015-04-16 2015-07-15 美国掌赢信息科技有限公司 一种即时视频中的特效加载方法和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030040916A1 (en) * 1999-01-27 2003-02-27 Major Ronald Leslie Voice driven mouth animation system
US20050273331A1 (en) * 2004-06-04 2005-12-08 Reallusion Inc. Automatic animation production system and method
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN102446506A (zh) * 2010-10-11 2012-05-09 华为技术有限公司 音频信号的分类识别方法及装置
CN102820030A (zh) * 2012-07-27 2012-12-12 中国科学院自动化研究所 发音器官可视语音合成系统
CN104780459A (zh) * 2015-04-16 2015-07-15 美国掌赢信息科技有限公司 一种即时视频中的特效加载方法和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
乔德明: ""三维人脸唇形动画的语音驱动研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王慧慧: ""语音驱动人脸动画研究综述"", 《研究与开发》 *
高春梅: ""基于HTK的语音驱动唇形动画的实现"", 《研究与开发》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847246A (zh) * 2018-06-15 2018-11-20 上海与德科技有限公司 一种动画制作方法、装置、终端及可读介质
CN109801349A (zh) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 一种声音驱动的三维动画角色实时表情生成方法和系统
CN111462736A (zh) * 2019-01-17 2020-07-28 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
CN111462736B (zh) * 2019-01-17 2023-04-14 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
CN112750184A (zh) * 2019-10-30 2021-05-04 阿里巴巴集团控股有限公司 数据处理、动作驱动与人机交互方法及设备
CN112750184B (zh) * 2019-10-30 2023-11-10 阿里巴巴集团控股有限公司 数据处理、动作驱动与人机交互方法及设备
CN114945110A (zh) * 2022-05-31 2022-08-26 深圳市优必选科技股份有限公司 说话头视频合成方法、装置、终端设备及可读存储介质
CN114945110B (zh) * 2022-05-31 2023-10-24 深圳市优必选科技股份有限公司 说话头视频合成方法、装置、终端设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11393206B2 (en) Image recognition method and apparatus, terminal, and storage medium
CN106875955A (zh) 一种声音动画的制作方法及电子设备
CN108234870B (zh) 图像处理方法、装置、终端及存储介质
CN110176226A (zh) 一种语音识别、及语音识别模型训练方法及装置
CN109448719A (zh) 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN109889920A (zh) 网络课程视频剪辑方法、系统、设备及存储介质
CN108537017B (zh) 一种用于管理游戏用户的方法与设备
CN110443231A (zh) 一种基于人工智能的单手手指点读文字识别方法和系统
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN110532912B (zh) 一种手语翻译实现方法及装置
CN109800744A (zh) 图像聚类方法及装置、电子设备和存储介质
CN107765852A (zh) 基于虚拟人的多模态交互处理方法及系统
CN110503942A (zh) 一种基于人工智能的语音驱动动画方法和装置
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN110309254A (zh) 智能机器人与人机交互方法
CN105469065A (zh) 一种基于递归神经网络的离散情感识别方法
WO2021159987A1 (zh) 交通工具运行状态的预测方法、装置、终端及存储介质
CN107291690A (zh) 标点添加方法和装置、用于标点添加的装置
CN105244042B (zh) 一种基于有限状态自动机的语音情感交互装置与方法
CN105869233A (zh) 实现智能交互的行车记录仪及其控制方法
CN110136714A (zh) 自然交互语音控制方法及装置
CN109117952B (zh) 一种基于深度学习的机器人情感认知的方法
CN107221330A (zh) 标点添加方法和装置、用于标点添加的装置
CN110085218A (zh) 一种基于特征金字塔网络的音频场景识别方法
CN107038154A (zh) 一种文本情感识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170620