CN105957129B

CN105957129B - 一种基于语音驱动及图像识别的影视动画制作方法

Info

Publication number: CN105957129B
Application number: CN201610272098.5A
Authority: CN
Inventors: 徐克�
Original assignee: SHANGHAI HIPPO ANIMATION DESIGN Inc Ltd
Current assignee: Shanghai Hippo culture Polytron Technologies Inc
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2019-08-30
Anticipated expiration: 2036-04-27
Also published as: CN105957129A

Abstract

本发明提供一种基于语音驱动及图像识别的影视动画制作方法，包括以下步骤：步骤a：获取作为源素材序列的图像，以及获取作为源素材的声音；步骤b：根据步骤a中获得的图像计算面部情绪数据；步骤c：将步骤b中获得的面部情绪数据发送至三维软件；步骤d：在所述三维软件中，调取步骤a中获得的原素材声音，与三维角色模型已经定义好的相应口型进行关联，使所述三维角色模型呈现与所述声音对应的口型；将步骤c所述情绪数据与三维角色模型已经定义好的相应表情进行关联，使所述三维角色模型呈现与所述情绪数据对应的表情。本发明将得到的原始静态数据做动态分析和优化，实时传递到三维软件中，为动画软件中的人物表情制作作准备。

Description

一种基于语音驱动及图像识别的影视动画制作方法

技术领域

本发明涉及动作捕捉和三维技术领域，尤其涉及一种基于语音驱动及图像识别的影视动画制作方法和系统。

背景技术

目前，业内现有的表情识别技术中，有微软牛津项目提供的表情云计算，但是它只是单纯的得到一组表情描述的词汇，包括愤怒、轻蔑、厌恶、恐惧、害怕、喜悦、悲伤及中性表情，具体为一组英文描述。该技术存在的问题包括：

1.目前应用面很小，偶尔见于简单的互动小游戏，尚无在工业、商业及影视动画行业应用。

2.应用的技术层次很浅，还是停留在得出简单的表情词语这个层面，数据为静态数据，更没有将这个技术进一步运用到影视动画制作系统的先例。

3.在图像识别的素材格式上，目前它只是简单地从网络地址和本地磁盘中的静态图片来进行计算。

发明内容

本发明针对现有技术的上述缺点，提出了一种基于语音驱动及图像识别的影视动画制作方法。

本发明方法包括如下步骤：步骤a：获取作为源素材序列的图像，以及获取作为源素材的声音数据；步骤b：根据步骤a中获得的图像计算面部情绪数据；步骤c：将步骤b中获得的面部情绪数据发送至三维软件；步骤d：在所述三维软件中，调取步骤a中获得的原素材的声音数据，与三维角色模型已经定义好的相应口型进行关联，使所述三维角色模型呈现与所述声音对应的口型；将步骤c所述情绪数据与三维角色模型已经定义好的相应表情进行关联，使所述三维角色模型呈现与所述情绪数据对应的表情。

优选地，步骤a中，对网络图片、本地图片或视频动态图像三种格式的文件进行截图以获得作为源素材序列的图像。

优选地，步骤a中，通过外部摄像头设备获取所述视频动态图像，从而识别和获取脸部动态图像。

优选地，步骤b中，所述情绪数据包括8组：Anger、Contempt、Disgust、Fear、Happiness、Neutral、Sadness、Surprise，均为双精度数据类型，且数值范围为(0，1)数值越大表示该情绪越饱满；每组情绪数据包括通过一段时间内实时获取的多个图像计算得到的多个数值。

优选地，步骤b中，在计算获取所述情绪数据后还包括动态排序和优化所述情绪数据的步骤：

对每组情绪数据，不断将当前时间的情绪数据与上一时间的情绪数据进行比较，比较完后将其中较大值作为新的上一时间情绪数据；

规定时间间隔后获取最大值的情绪数据，该最大值的情绪数据为将发送给所述三维软件的情绪数据。

优选地，所述三维软件为Motionbuilder三维软件。

优选地，步骤c中，通过socket通讯端口将面部情绪数据发送至所述三维软件。

优选地，步骤d中，将所述情绪数据与所述三维模型进行关联进一步包括：

所述8组情绪数据以8组表情节点的形式排列在三维软件中，每个节点的输出端为动态变化的情绪数据的数值；以及

分别将8个表情节点的输出端通过连线的方式关联到三维角色模型相对应的表情节点输入端上，完成关联

本发明的有益效果包括：

1.首次将基于语音驱动及图像识别的技术应用到影视动画行业。

2.技术层次比原来大大提升，将得到的原始静态数据做动态分析和优化，实时传递到三维软件中，为动画软件中的人物表情制作作准备，方便三维制作人员控制人物模型的情绪。

3.在图像识别的素材格式上，本发明增加了从外部摄像头设备中获取脸部动态图像，从而可以根据真实人脸表情计算面部情绪数据。

附图说明

图1是根据本发明基于语音驱动及图像识别的影视动画制作方法的流程图。

具体实施方式

以下结合附图对本发明进行详细说明。以下实施例并不是对本发明的限制。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中。

图1是根据本发明方法的流程图。如图1所示，本发明方法包括如下步骤：

步骤a：通过本发明软件，调用电脑摄像头，对网络图片、本地图片、或视频动态图像三种格式文件进行截图，保存为源素材序列。以及获取作为源素材的声音。

本发明中，可以对网络图片、本地图片或视频动态图像三种格式的文件进行截图以获得作为源素材序列的图像。通过外部摄像头设备获取所述视频动态图像，从而识别和获取脸部动态图像。

步骤b：根据步骤a所保存的图像计算面部情绪数据，所述情绪数据包括如下8种。

本发明采用的是业界通用的微软的云计算方法，得出8组原始情绪数据Anger(愤怒)、Contempt(轻蔑)、Disgust(厌恶)、Fear(害怕、恐惧)、Happiness(喜悦)、Neutral(中性表情)、Sadness(悲伤)、Surprise(惊讶)。该8组数据均为双精度数据类型，且数值范围为(0，1)数值越大表示该情绪越饱满。每组情绪数据包括通过一段时间内实时获取的多个图像计算得到的多个数值。例如，每隔1ms获取一幅图像，每幅图像计算获得一个情绪数据，则在一段时间内就获得多个情绪数据。

步骤b中，在计算获取所述情绪数据后还包括动态排序和优化所述情绪数据的步骤：

对每组情绪数据，不断将当前时间的情绪数据与上一时间的情绪数据进行比较。例如，每隔1ms将当前时间的情绪数据与上一时间的情绪数据进行比较，比较完后将其中较大值作为新的上一时间情绪数据。依此进行循环比较。

规定时间间隔后获取最大值的情绪数据，该最大值的情绪数据为将发送给所述三维软件的情绪数据。例如，规定时间间隔为10ms，经过10ms后，获得前述多次比较后的最大值的情绪数据。

步骤c：将8组情绪数据发送至三维软件，本实施例中为Motionbuilder三维软件。通过socket通讯端口将面部情绪数据发送至所述三维软件。

步骤d：在Motionbuilder三维软件中，调取步骤a中获得的原素材声音，与三维角色模型已经定义好的相应口型进行关联，使所述三维角色模型呈现与所述声音对应的口型；将步骤c中获得的上述8组数据与三维角色模型已经定义好的8个表情进行关联，使仅停留在单词表示的原始表情数据与三维角色模型的表情产生联系。例如，将Anger数据关联到角色模型的愤怒节点，则角色模型就会呈现愤怒表情。

步骤d中，将所述情绪数据与所述三维模型进行关联进一步包括：

所述8组情绪数据以8组表情节点的形式排列在三维软件中，每个节点的输出端为动态变化的情绪数据的数值；

分别将8个表情节点的输出端通过连线的方式关联到三维角色模型相对应的表情节点输入端上，完成关联。三维软件本身提供一种关系方式，利用该关系方式进行关联。具体地，上述步骤a～c是在服务器端进行的，步骤d是在客户端进行的。服务器端和客户端使用socket tcp通信，地址为127.0.0.1，端口为3001。

在现有技术的前提下，影视动画人物的表情制作方式为：动画师在三维软件中设置关键帧，表情的参照样式和动作节奏均来源于动画师脑海中的想象，而本发明采用真人数据做为表情参照的来源，提高了表情的真实度，从表情动画的节奏上也比传统动画更真实，两者的结合提高了影视动画的制作流程。

显然，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种基于语音驱动及图像识别的影视动画制作方法，其特征在于，包括如下步骤：

步骤a：获取作为源素材序列的图像，以及获取作为源素材的声音数据；

步骤b：根据步骤a中获得的图像计算面部情绪数据；

步骤c：将步骤b中获得的面部情绪数据发送至三维软件；

步骤d：在所述三维软件中，调取步骤a中获得的原素材的声音数据，与三维角色模型已经定义好的相应口型进行关联，使所述三维角色模型呈现与所述声音对应的口型；将步骤c所述情绪数据与三维角色模型已经定义好的相应表情进行关联，使所述三维角色模型呈现与所述情绪数据对应的表情，

步骤b中，所述情绪数据包括8组：Anger、Contempt、Disgust、Fear、Happiness、Neutral、Sadness、Surprise，均为双精度数据类型，且数值范围为(0，1)，数值越大表示该情绪越饱满；每组情绪数据包括通过一段时间内实时获取的多个图像计算得到的多个数值，

在计算获取所述情绪数据后还包括动态排序和优化所述情绪数据的步骤：

2.根据权利要求1所述的方法，其特征在于，步骤a中，对网络图片、本地图片或视频动态图像三种格式的文件进行截图以获得作为源素材序列的图像。

3.根据权利要求2所述的方法，其特征在于，步骤a中，通过外部摄像头设备获取所述视频动态图像，从而识别和获取脸部动态图像。

4.根据权利要求1所述的方法，其特征在于，所述三维软件为Motionbuilder三维软件。

5.根据权利要求1所述的方法，其特征在于，步骤c中，通过socket通讯端口将面部情绪数据发送至所述三维软件。

6.根据权利要求1所述的方法，其特征在于，步骤d中，将所述情绪数据与所述三维模型进行关联进一步包括：

分别将8个表情节点的输出端通过连线的方式关联到三维角色模型相对应的表情节点输入端上，完成关联。