CN116883559A

CN116883559A - 数字人表情制作方法、移动终端及存储介质

Info

Publication number: CN116883559A
Application number: CN202310862896.3A
Authority: CN
Inventors: 彭振昆; 郑航; 费元华; 郭建君
Original assignee: Beijing Weiling Times Technology Co Ltd
Current assignee: Beijing Weiling Times Technology Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-10-13

Abstract

本发明公开了一种数字人表情制作方法、移动终端及存储介质。数字人表情制作方法包括：移动终端通过深度摄像头获取用户的三维表情图像；移动终端根据三维表情图像得到多个脸部动作数据，脸部动作数据包括眉毛动作数据、眼睛动作数据、鼻子动作数据、嘴部动作数据和脸颊动作数据中的至少一种；移动终端将多个脸部动作数据发送至数字人表情驱动端，以使数字人表情驱动端生成三维表情图像对应的数字人表情。通过本发明，用户主要在移动终端上进行操作就能完成数字人表情制作，无需专业的3D建模软件，操作简单方便，所使用设备的价格相对相关技术中的专业设备要低廉很多；样降低了数字人表情制作的技术门槛，有助于数字人技术的广泛应用和普及。

Description

数字人表情制作方法、移动终端及存储介质

技术领域

本发明涉及通信领域，尤其是涉及一种数字人表情制作方法、移动终端及存储介质。

背景技术

数字人(Digital Human)是指利用计算机技术和人工智能技术制作的人类外观或行为的虚拟人物。数字人技术已经在游戏、影音、娱乐、直播等领域有所应用。

相关技术中，数字人表情制作是数字人技术中的重要部分，需要运用专业的3D建模软件和设备，这些3D建模软件和设备在操作使用上比较复杂，且价格比较昂贵。

因此，目前数字人技术正面临着使用难度较大、使用成本较高的问题，这导致数字人技术门槛较高，不利于数字人技术的广泛应用和普及。

发明内容

针对上述技术问题和缺陷，本发明的目的是提供一种数字人表情制作方法、移动终端及存储介质，可以降低数字人表情制作的使用成本和操作难度。

为了实现上述目的，第一方面，本发明实施例提供一种数字人表情制作方法，包括：

移动终端通过深度摄像头获取用户的三维表情图像；

移动终端根据三维表情图像得到多个脸部动作数据，脸部动作数据包括眉毛动作数据、眼睛动作数据、鼻子动作数据、嘴部动作数据和脸颊动作数据中的至少一种；

移动终端将多个脸部动作数据发送至数字人表情驱动端，以使数字人表情驱动端生成三维表情图像对应的数字人表情。

采用上述实施例，用户主要在移动终端上进行操作就能完成数字人表情制作，操作简单方便，无需专业的3D建模软件，所使用设备相对相关技术中的专业设备，硬件要求较低，价格也低廉很多。这样降低了数字人表情制作的技术门槛，有助于数字人技术的广泛应用和普及。

在一实施例中，移动终端根据三维表情图像得到多个脸部动作数据的步骤，包括：

移动终端通过脸部识别模型对三维表情图像进行处理，得到多个脸部动作以及各脸部动作对应的完成度；

移动终端根据多个脸部动作和完成度，得到多个脸部动作数据。

采用上述实施例，通过脸部识别模型可以对三维表情图像进行精准的识别，获得准确的脸部动作。

在一实施例中，脸部识别模型包括眉毛识别模型、眼睛识别模型、鼻子识别模型、嘴部识别模型和脸颊识别模型，脸部动作包括眉毛动作、眼睛动作、鼻子动作、嘴部动作和脸颊动作；移动终端通过脸部识别模型对三维表情图像进行处理，得到多个脸部动作以及各脸部动作对应的完成度的步骤，包括：

移动终端通过眉毛识别模型、眼睛识别模型、鼻子识别模型、嘴部识别模型和脸颊识别模型对三维表情图像进行处理，分别得到眉毛动作及其完成度、眼睛动作及其完成度、鼻子动作及其完成度、嘴部动作及其完成度和脸颊动作及其完成度。

采用上述实施例，通过不同的脸部识别模型，针对每个脸部区域进行特定的识别，可以保证每个脸部区域的动作都能精准的识别到。

在一实施例中，在移动终端根据多个脸部动作和完成度，得到多个脸部动作数据的步骤之后，还包括：

移动终端响应于用户的表情编辑操作指令，从多个脸部动作中确定目标脸部动作，表情编辑操作指令包括目标完成度；

移动终端根据目标脸部动作和目标完成度，对脸部动作数据进行调整，得到调整后的脸部动作数据。

采用上述实施例，可以根据用户的需求，对表情进行个性化的编辑调整，提升用户体验。

在一实施例中，在移动终端根据三维表情图像得到多个脸部动作数据的步骤之后，还包括：

移动终端将三维表情图像和脸部动作数据进行关联绑定，得到数字人表情驱动方案；

移动终端存储数字人表情驱动方案。

采用上述实施例，移动终端可以存储多个数字人表情驱动方案，当以后需要再使用时，可以直接调用存储的数字人表情驱动方案，不用再来采集用户的表情图像，节省操作在步骤，提升效率。同时，用户在移动终端里就可以进行数字人表情驱动方案的管理，操作方便。

在一实施例中，在移动终端存储数字人表情驱动方案的步骤之后，还包括：

响应于发送目标选择操作，移动终端确定表情接收端；

移动终端将数字人表情驱动方案发送至表情接收端。

采用上述实施例，用户通过移动终端就能轻松方便的进行数字人表情驱动方案的分享，提升用户体验。

在一实施例中，移动终端通过深度摄像头获取用户的三维表情图像的步骤，包括：

移动终端通过深度摄像头获取用户的表情视频；

移动终端判断表情视频的帧率是否达到设定帧率；

若否，移动终端则对表情视频进行补帧处理，得到帧率平滑的表情视频；

移动终端根据帧率平滑的表情视频，得到具有时序关系的多帧三维表情图像。

采用上述实施例，可以保证表情视频达到设定帧率，确保表情视频的帧率平滑，有利于后续还原的数字人表情动作流畅自然。

第二方面，本发明提供一种移动终端，包括：

获取模块，用于通过深度摄像头获取用户的三维表情图像；

得到模块，用于根据所述三维表情图像得到多个脸部动作数据，所述脸部动作数据包括眉毛动作数据、眼睛动作数据、鼻子动作数据、嘴部动作数据和脸颊动作数据中的至少一种；

发送模块，用于将多个所述脸部动作数据发送至数字人表情驱动端，以使所述数字人表情驱动端生成所述三维表情图像对应的数字人表情。

本发明实施例的移动终端可以实现上述方法的技术效果，此处不在赘述。

第三方面，本发明提供一种移动终端，包括处理器和存储器，存储器上存储有计算机程序，计算机程序被处理器执行时，实现上述的方法。

第四方面，本发明提供一种计算机可读的存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现上述的方法。

本发明实施例的存储介质可以实现上述方法的技术效果，此处不在赘述。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1.用户主要在移动终端上进行操作就能完成数字人表情制作，操作简单方便，无需专业的3D建模软件，所使用设备相对相关技术中的专业设备，硬件要求较低，价格也低廉很多。这样降低了数字人表情制作的技术门槛，有助于数字人技术的广泛应用和普及。

2.通过不同的脸部识别模型，针对每个脸部区域进行特定的识别，可以保证每个脸部区域的动作都能精准的识别到。

3.移动终端可以存储多个数字人表情驱动方案，当以后需要再使用时，可以直接调用存储的数字人表情驱动方案，不用再来采集用户的表情图像，节省操作在步骤，提升效率。同时，用户在移动终端里就可以进行数字人表情驱动方案的管理，操作方便。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是相关技术的数字人表情制作的场景示意图；

图2是本发明实施例的数字人表情制作的场景示意图；

图3是本发明实施例的数字人表情制作的步骤流程图一；

图4是本发明实施例的三维表情图像的BS点网格化示意图；

图5是本发明实施例的数字人表情制作的步骤流程图二；

图6是本发明实施例的三维表情图像脸部动作识别示意图；

图7是本发明实施例的表情编辑示意图一；

图8是本发明实施例的表情编辑示意图二；

图9a是本发明实施例的数字人表情展示图一；

图9b是本发明实施例的数字人表情展示图二；

图10是本发明实施例的移动终端的框架示意图；

图11是本发明实施例中电子设备的架构示意图。

具体实施方式

本发明以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本发明中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。以下，术语“第一”、“第二”仅用于描述目的，用于区分技术特征，而不能理解为暗示相对重要性或者隐含指明所指示的技术特征的数量。在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。下面对本发明实施例进行具体的说明。

数字人表情制作是数字人技术中的重要部分，需要运用专业的3D建模软件和设备。如图1所示，3D建模软件一般价格比较昂贵，动辄几万、十几万一套，且对运行设备的硬件要求很高，例如需要高性能的CPU（中央处理器）和显卡，较大的运行内存等等。这也导致满足硬件要求的运行设备的价格也水涨船高。带来了较大的使用成本。另一方面专业的3D建模软件操作比较复杂，对于使用人员来说需要经过半年甚至更长时间的培训学习，才能熟练掌握软件的操作使用。

可见，目前数字人技术正面临着使用难度较大、使用成本较高的问题，这导致数字人技术门槛较高，不利于数字人技术的广泛应用和普及。

由此，本发明实施例提供一种数字人表情制作方法，如图2所示，可以通过操作手机、平板电脑登移动终端1来完成脸部动作数据的制作，然后将脸部动作数据发送至数字人表情驱动端2，在数字人表情驱动端2即可生成三维表情图像对应的数字人表情。用户主要在移动终端1上进行操作就能完成数字人表情制作，操作简单方便，无需专业的3D建模软件，所使用设备相对相关技术中的专业设备，硬件要求低，价格也低廉很多。这样降低了数字人表情制作的技术门槛，有助于数字人技术的广泛应用和普及。

为了实现上述效果，本发明实施例提供的数字人表情制作方法，如图3所示，可以包括步骤101，步骤102和步骤103，具体如下：

步骤101，移动终端1通过深度摄像头获取用户的三维表情图像。

其中，移动终端1装载了深度摄像头，深度摄像头与普通摄像头的区别在于，除了能够获取平面图像，还可以获得拍摄对象的深度信息，也就是三维的位置和尺寸信息，于是就获得了环境和对象的三维立体数据，这些信息就可以用在人脸图像和三维表情的制作上。

例如，移动终端1可以为iOS系统的机型，其深度摄像头采用3D结构光（StructuredLight）技术。3D结构光基本原理是通过近红外激光器，将具有一定结构特征的光线投射到被拍摄物体上，再由专门的红外摄像头进行采集。这种具备一定结构的光线，会因被摄物体的不同深度区域，而采集不同的图像相位信息，然后通过运算单元将这种结构的变化换算成深度信息，以此来获得三维结构。当拍摄用户人脸时，即可以得到立体的三维表情图像。

移动终端1也可以是一些安卓系统的机型，其深度摄像头采用TOF（Time ofFlight）技术，TOF字面意思为飞行时间，即激光发射器发出的光从发射出去的瞬间到碰到物体反射回到接收器接收的瞬间，这么一段光的飞行时间，因为已知光速和调制光的波长，通过距离计算公式就可以知道物体表面各个点的深度信息。当拍摄用户人脸时，即可以得到立体的三维表情图像。

三维表情图像可以将用户的人脸表情通过立体的方式呈现出来，可以更精准的展示表情。

步骤102，移动终端1根据三维表情图像得到多个脸部动作数据，脸部动作数据包括眉毛动作数据、眼睛动作数据、鼻子动作数据、嘴部动作数据和脸颊动作数据中的至少一种。

其中，各脸部动作数据可以为BS（BlendShape，融合变形）点数据的形式。三维表情图像中包含有多个BS点，如图4所示，BS点之间组合形成网格，通过网格的形变可以反应出用户的表情动作。例如左眉外侧向上，右眼向下看，左脸颊向上等等。

移动终端1上可以装载相关的应用端，例如软件、小程序或网页，应用端可以从三维表情图像中提取脸部动作数据。

步骤103，移动终端1将多个脸部动作数据发送至数字人表情驱动端2，以使数字人表情驱动端2生成三维表情图像对应的数字人表情。

其中，数字人表情驱动端2可以为PC端，数字人表情驱动端2上装载了与移动终端1相匹配的软件。本实施例中，数字人表情驱动端2不需要较高的硬件配置，只用于将脸部动作数据还原成数字人表情，并显示出来。之后，用户可以通过数字人表情驱动端2查看与自己表情相对应的数字人表情。

在一实施例中，如图5所示，数字人表情制作方法还可以具体包括以下步骤：

步骤201，移动终端通过深度摄像头获取用户的表情视频。

步骤202，移动终端判断表情视频的帧率是否达到设定帧率。若否，则进入步骤203，若是则进入步骤204。

其中，设定帧率可以为60帧/秒，即表情视频中每1秒片段有60帧图像。一般帧率越高，表情视频的视觉表现上越平滑流畅。

步骤203，移动终端则对表情视频进行补帧处理，得到帧率平滑的表情视频。进入步骤204。

例如，表情视频的帧率为50帧/秒，低于60帧/秒，没有达到设定帧率。补针处理的具体方法为：根据相邻的两张视频帧图像，生成一张或若干张中间过渡帧图像，再将中间过渡帧图像插入在该相邻的两张视频帧图像之间。表情视频的原帧率为50帧/秒，那么在没一秒视频片段中，插入10帧中间过渡帧图像即可达到设定帧率的60帧/秒。

保证表情视频达到设定帧率，以确保表情视频的帧率平滑，有利于后续还原的数字人表情动作流畅自然。

步骤204，移动终端根据帧率平滑的表情视频，得到具有时序关系的多帧三维表情图像。

其中，表情视频中的每一帧视频图像即为三维表情图像。三维表情图像按照时间的先后顺序进行排列。每一帧三维表情图像都可以用于数字人表情的制作。

在后续制作连续的数字人表情时，通过帧率平滑的表情视频，可以使数字人的表情动作更加连续、流畅、自然，能更贴近真人的表情动作。

步骤205，移动终端通过脸部识别模型对三维表情图像进行处理，得到多个脸部动作以及各脸部动作对应的完成度。

脸部识别模型可以识别出三维表情图像种的各个人脸部位。可以通过才不同的人脸表情图像作为训练样本，经过多次的迭代更新，优化脸部识别模型中的参数，使识别结果的准确率可以不断提升。本实施例的脸部识别模型经过了多次的训练优化，可以精准的识别三维表情图像中的脸部动作。

脸部动作的完成度用于表征该脸部动作的执行程度或动作幅度大小，例如，参考图6所示，左脸颊向上，对应的完成度为54%（也可表示为0.54），表示左脸颊向上54%，完成度数值越大表示脸颊向上的程度越大，完成度的取值范围为0至1。

其中，脸部识别模型包括眉毛识别模型、眼睛识别模型、鼻子识别模型、嘴部识别模型和脸颊识别模型，脸部动作包括眉毛动作、眼睛动作、鼻子动作、嘴部动作和脸颊动作。眉毛动作可以包括眉毛（包括左眉和右眉）向上、向下等等；眼睛动作可以包括眼睛（左眼和右眼）眨眼、眯眼、向上看、向下看等等；鼻子动作可以包括鼻子向上、向下、向左、向右等等；嘴部动作可以包括张嘴、闭嘴、嘴角向上、嘴角向下、嘟嘴、撅嘴等等；脸颊动作可以包括脸颊鼓起、向上、向下等等。

可以理解的是，眉毛识别模型可以识别眉毛动作以及眉毛动作的完成度；眼睛模型识别模型可以识别眼睛动作以及眼睛动作的完成度；鼻子识别模型可以识别鼻子动作以及鼻子动作的完成度；嘴部识别模型可以识别嘴部动作及嘴部动作的完成度；脸颊识别模型可以识别脸颊动作及脸颊动作的完成度。

在一些实施例中，脸部识别模型还可以包括下巴识别模型，可以识别三维表情图像中的下巴动作。下巴动作可以包括下颚张开、下颚向前、下颚向左、下颚向右等等。

具体地，上述步骤可以具体包括：移动终端通过眉毛识别模型、眼睛识别模型、鼻子识别模型、嘴部识别模型和脸颊识别模型对三维表情图像进行处理，分别得到眉毛动作及其完成度、眼睛动作及其完成度、鼻子动作及其完成度、嘴部动作及其完成度和脸颊动作及其完成度。

通过不同的脸部识别模型，针对每个脸部区域进行特定的识别，可以保证每个脸部区域的动作都能精准的识别到。

步骤206，移动终端根据多个脸部动作和完成度，得到多个脸部动作数据。

具体地，移动终端将眉毛动作及其完成度、眼睛动作及其完成度、鼻子动作及其完成度、嘴部动作及其完成度和脸颊动作及其完成度集合打包，得到该多个脸部动作数据。

步骤207，移动终端响应于用户的表情编辑操作指令，从多个脸部动作中确定目标脸部动作，表情编辑操作指令包括目标完成度。

其中，当觉得某个脸部动作不够理想，需要调整时，用户可以在移动终端的表情编辑界面，对表情进行编辑操作。例如，参考图7所示，在原脸部动作数据中下颚向左的完成度是0.52，用户觉得下颚的动作幅度不够大，于是先点击选择下巴动作数据选项，再对下巴动作的幅度进行调整，那么目标脸部动作则为下巴动作。

步骤208，移动终端根据目标脸部动作和目标完成度，对脸部动作数据进行调整，得到调整后的脸部动作数据。

例如，参考图8所示，撅嘴完成度原来是0.62，现在调整到0.75；嘴角右撇完成度原来是0.36，现在调整到0.14。这样可以根据用户的需求，对表情进行个性化的编辑调整，提升用户体验。

步骤209，移动终端将脸部动作数据发送至数字人表情驱动端。

其中，数字人表情驱动端根据脸部动作数据，生成数字人表情，并显示给用户观看。用户观看数字人表情，判断是否符合预期设计。如果不符合，则可以重复步骤207和步骤208，对脸部动作数据进行编辑调整。如图9a和图9b所示，调整的过程中，数字人表情驱动端可以同步显示数字人表情的变化，这样可以实现数字人表情编辑的可视化，实现对数字人表情的精准调控。

采用本实施例上述的步骤，可以通过操作手机、平板电脑登移动终端来完成脸部动作数据的制作，然后将脸部动作数据发送至数字人表情驱动端，在数字人表情驱动端即可生成三维表情图像对应的数字人表情。用户主要在移动终端上进行操作就能完成数字人表情制作，操作简单方便，所使用设备的价格相对相关技术中的专业设备，要低廉很多。这样降低了数字人表情制作的技术门槛，有助于数字人技术的广泛应用和普及。

步骤301，移动终端将三维表情图像和脸部动作数据进行关联绑定，得到数字人表情驱动方案。

具体地，移动终端对用户的三维表情图像和脸部动作数据进行序列编号，再将三维表情图像的序列编号与脸部动作数据的序列编号进行绑定。这样通过序列编号可以识别确定数字人表情驱动方案。当存储有多个三维表情图像和脸部动作数据时，通过编号可以快速定位查找数字人表情驱动方案。

三维表情图像也可以显示数字人表情的情况，例如三维表情图像中表情是张嘴，对应的数字人表情也是张嘴。

步骤302，移动终端存储数字人表情驱动方案。

其中，移动终端可以存储多个数字人表情驱动方案，当以后需要再使用时，可以直接调用存储的数字人表情驱动方案，不用再来采集用户的表情图像，节省操作在步骤，提升效率。同时，用户在移动终端里就可以进行数字人表情驱动方案的管理，操作方便。

步骤303，响应于发送目标选择操作，移动终端确定表情接收端。

其中，表情接收端可以是其他用户使用的移动终端。例如用户A需要将一个数字人表情驱动方案分享给用户B。那么可以通过用户B的账号或用户B的移动终端b的设备号，确定用户B的移动终端b为表情接收端。

步骤304，移动终端将数字人表情驱动方案发送至表情接收端。

具体地，当用户A需要将其制作的数字人表情驱动方案分享给用户B时, 用户B的移动终端b为表情接收端。可以从移动终端a的存储单元中选择目标数字人表情驱动方案，然后将该目标数字人表情驱动方案通过社交聊天软件，或移动终端自带的通讯功能，将该目标数字人发送给用户B的移动终端b，移动终端b再将目标数字人表情方案中的脸部动作数据发送给对应的数字人表情驱动端，最后通过数字人表情驱动端来观看用户A所制作的数字人表情。

这样方便让用户互相分享数字人表情驱动方案。本实施例基于移动终端的捕捉拍照功能，每一张三维表情图像的照片作为一帧表情数据，保存单帧表情数据存储成单帧表情序列，移动终端可管理照片和对应的表情序列，一键发送本序列数字人驱动表情方案，可以有效地解决数字人表情制作中操作复杂，使用成本高等问题，为用户带来更加高效、便捷、高质量的数字人表情制作体验。

目前，相关技术中，数字人表情制作存在以下问题：

1、技术要求高，数字人制作需要专业的3D建模和动画技术，对于非专业人士来说难度较大，需要一定的培训和学习成本。

2、数据收集难度较大，数字人表情需要大量的训练样本和数据集来支撑，而这些数据的采集和处理需要付出大量的人力和时间成本。

3、表情动作质量不一致，目前的数字人表情技术在表情和动作制作上还存在很多不足，表情和动作的流畅度、真实度等方面还需要进一步改进。

4、适用性限制，数字人表情技术还有一定的适用性限制，目前主要应用于需要虚拟人物和机器人的领域，例如游戏、影音、直播等行业，其他行业和场景的应用还有待进一步探索和研究。

5、成本较高，数字人表情的制作成本并不低，需要购买昂贵的3D建模软件和工具，同时还需要付出大量的人力和时间成本，因此制作费用比较高。

针对上述问题，本实施例中，首先移动终端通过深度摄像头获取用户的三维表情图像；然后移动终端根据三维表情图像得到多个脸部动作数据；最后移动终端将多个脸部动作数据发送至数字人表情驱动端，以使数字人表情驱动端生成三维表情图像对应的数字人表情。本实施例的数字人表情制作方法采用前文记载的方法步骤，可以实现以下有益效果：

1、真实自然的表情和动作。通过在实际生活中捕捉拍照来制作数字人表情，可以保证表情和动作的真实自然，更能反映出用户真实的情感和意图。

2、制作流程简单便捷。本方案制作数字人表情的流程简单便捷，不需要复杂的制作工具和专业技能，熟悉普通手机的用户也可以快速制作数字人表情。

3、适用范围广。本实施例适用于多种场景，例如社交网络、教育、客服、旅游、展览等领域，在这些场景中，用户可以更加灵活自由地表达自己的情感和意图。

4、成本低廉。本实施例制作数字人表情的成本低，不需要付出大量的人力和金钱成本，普通用户也可以享受到数字人表情带来的好处。

5、方便存储和共享。本实施例可以将表情序列和照片关联起来，方便用户保存和管理，也可以通过社交网络等途径方便地与他人共享数字人表情。

本实施例可以为用户带来真实自然的表情和动作，制作流程简单便捷，适用范围广，成本低廉，方便存储和共享，为用户带来高效、便捷和满意的数字人表情制作体验。

本发明实施例提供一种移动终端1，如图10所示，包括获取模块11、得到模块12和发送模块13，其中：

获取模块11用于通过深度摄像头获取用户的三维表情图像；

得到模块12用于根据所述三维表情图像得到多个脸部动作数据，所述脸部动作数据包括眉毛动作数据、眼睛动作数据、鼻子动作数据、嘴部动作数据和脸颊动作数据中的至少一种；

发送模块13用于将多个所述脸部动作数据发送至数字人表情驱动端，以使所述数字人表情驱动端生成所述三维表情图像对应的数字人表情。

本发明实施例的移动终端1采用上述实施例提供的数字人表情制作方法，可以通过操作手机、平板电脑登移动终端来完成脸部动作数据的制作，然后将脸部动作数据发送至数字人表情驱动端，在数字人表情驱动端即可生成三维表情图像对应的数字人表情。用户主要在移动终端上进行操作就能完成数字人表情制作，操作简单方便，所使用设备的价格相对相关技术中的专业设备，要低廉很多。这样降低了数字人表情制作的技术门槛，有助于数字人技术的广泛应用和普及。

本实施例中，移动终端是一种电子设备，下面以电子设备来表称本实施例的移动终端。图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图11示出的电子设备的计算机系统仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统包括中央处理单元（Central Processing Unit，CPU）1801，其可以根据存储在只读存储器（Read-Only Memory，ROM）1802中的程序或者从存储部分1808加载到随机访问存储器（Random Access Memory，RAM）1803中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1803中，还存储有系统操作所需的各种程序和数据。CPU 1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出（Input /Output，I/O）接口1805也连接至总线1804。

以下部件连接至I/O接口1805：包括键盘、鼠标等的输入部分1806；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分1807；包括硬盘等的存储部分1808；以及包括诸如LAN（Local AreaNetwork，局域网）卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1810上，以便于从其上读出的计算机程序根据需要被安装入存储部分1808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1809从网络上被下载和安装，和/或从可拆卸介质1811被安装。在该计算机程序被中央处理单元（CPU）1801执行时，执行本发明的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

具体地，本实施例的电子设备包括处理器和存储器，存储器上存储有计算机程序，计算机程序被处理器执行时，实现上述实施例提供的方法。

作为另一方面，本发明还提供了一种计算机可读的存储介质，该存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述存储介质承载有一个或者多个计算机程序，当上述一个或者多个计算机程序被一个该电子设备的处理器执行时，使得该电子设备实现上述实施例中提供的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、主机服务器、触控终端、或者网络设备等）执行根据本发明实施方式的方法。

本实施例中，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在上面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数字人表情制作方法，其特征在于，包括：

移动终端通过深度摄像头获取用户的三维表情图像；

所述移动终端根据所述三维表情图像得到多个脸部动作数据，所述脸部动作数据包括眉毛动作数据、眼睛动作数据、鼻子动作数据、嘴部动作数据和脸颊动作数据中的至少一种；

所述移动终端将多个所述脸部动作数据发送至数字人表情驱动端，以使所述数字人表情驱动端生成所述三维表情图像对应的数字人表情。

2.根据权利要求1所述的数字人表情制作方法，其特征在于，所述移动终端根据所述三维表情图像得到多个脸部动作数据的步骤，包括：

所述移动终端通过脸部识别模型对所述三维表情图像进行处理，得到多个脸部动作以及各所述脸部动作对应的完成度；

所述移动终端根据多个所述脸部动作和所述完成度，得到多个脸部动作数据。

3.根据权利要求2所述的数字人表情制作方法，其特征在于，所述脸部识别模型包括眉毛识别模型、眼睛识别模型、鼻子识别模型、嘴部识别模型和脸颊识别模型，所述脸部动作包括眉毛动作、眼睛动作、鼻子动作、嘴部动作和脸颊动作；所述移动终端通过脸部识别模型对所述三维表情图像进行处理，得到多个脸部动作以及各所述脸部动作对应的完成度的步骤，包括：

所述移动终端通过所述眉毛识别模型、所述眼睛识别模型、所述鼻子识别模型、所述嘴部识别模型和所述脸颊识别模型对所述三维表情图像进行处理，分别得到所述眉毛动作及其完成度、所述眼睛动作及其完成度、所述鼻子动作及其完成度、所述嘴部动作及其完成度和所述脸颊动作及其完成度。

4.根据权利要求2所述的数字人表情制作方法，其特征在于，在所述移动终端根据所述多个脸部动作和所述完成度，得到多个脸部动作数据的步骤之后，还包括：

所述移动终端响应于所述用户的表情编辑操作指令，从多个所述脸部动作中确定目标脸部动作，所述表情编辑操作指令包括目标完成度；

所述移动终端根据所述目标脸部动作和所述目标完成度，对所述脸部动作数据进行调整，得到调整后的脸部动作数据。

5.根据权利要求1所述的数字人表情制作方法，其特征在于，在所述移动终端根据所述三维表情图像得到多个脸部动作数据的步骤之后，还包括：

所述移动终端将所述三维表情图像和所述脸部动作数据进行关联绑定，得到数字人表情驱动方案；

所述移动终端存储所述数字人表情驱动方案。

6.根据权利要求5所述的数字人表情制作方法，其特征在于，在所述移动终端存储所述数字人表情驱动方案的步骤之后，还包括：

响应于发送目标选择操作，所述移动终端确定表情接收端；

所述移动终端将所述数字人表情驱动方案发送至所述表情接收端。

7.根据权利要求1所述的数字人表情制作方法，其特征在于，所述移动终端通过深度摄像头获取用户的三维表情图像的步骤，包括：

移动终端通过深度摄像头获取用户的表情视频；

所述移动终端判断所述表情视频的帧率是否达到设定帧率；

若否，所述移动终端则对所述表情视频进行补帧处理，得到帧率平滑的表情视频；

所述移动终端根据所述帧率平滑的表情视频，得到具有时序关系的多帧三维表情图像。

8.一种移动终端，其特征在于，包括：

获取模块，用于通过深度摄像头获取用户的三维表情图像；

9.一种移动终端，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1至7中任一项所述的数字人表情制作方法。

10.一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的数字人表情制作方法。