CN117289804B

CN117289804B - 虚拟数字人面部表情管理方法、装置、电子设备及介质

Info

Publication number: CN117289804B
Application number: CN202311566443.2A
Authority: CN
Inventors: 李宇欣
Original assignee: Health Hope (beijing) Technology Co ltd
Current assignee: Health Hope (beijing) Technology Co ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-13
Anticipated expiration: 2043-11-23
Also published as: CN117289804A

Abstract

本发明公开了虚拟数字人面部表情管理方法、装置、电子设备及介质，包括：获取实验对象的多媒体资源，多媒体资源至少包括实验对象在对话过程中的语音信息和面部图像信息；对语音信息和面部图像信息进行处理，得到多组文本以及每组文本对应的面部特征信息；面部特征信息包括面部器官的位置信息和形态信息；按照情绪维度对多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述目标属性标签的关键信息；针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立目标属性标签、关键信息、面部器官的目标位置信息和目标形态信息的关联关系。

Description

虚拟数字人面部表情管理方法、装置、电子设备及介质

技术领域

本发明涉及图像数据的处理和产生，尤其涉及一种虚拟数字人面部表情管理方法、装置、电子设备及介质。

背景技术

人工智能驱动虚拟数字人指通过人工智能技术一站式实现虚拟人的创建、驱动和内容生成，使其具备感知、表达等无需人工干预的自动交互能力。

虚拟数字人能实现与用户的对话沟通，不仅可以帮助用户解答生活、学习、工作中的疑问，还可以进行情感疏解和陪伴。但发明人在实现本发明的过程中发现，在对话的过程中，虚拟数字人的面部表情是一成不变的，缺少互动性和逼真性、以及对话沟通情绪的传递，使得用户无法沉浸式沟通。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种虚拟数字人面部表情管理方法、装置、电子设备和存储介质，通过目标属性标签、关键信息、面部器官的目标位置信息和目标形态信息的关联关系，来判断用户的对话信息与关键信息的匹配程度，能够更好的理解判断用户的对话信息属于哪种情绪维度，便于虚拟数字人做出最合适、最准确的情绪反馈。使得用户在和虚拟数字人进行交流的过程中，虚拟数字人可以根据用户输入的信息、通过面部表情进行对应的情绪反馈和传递，提高了用户与虚拟数字人沟通的互动性和逼真性。

本发明实施例提供了一种虚拟数字人面部表情管理方法，包括：

获取实验对象的多媒体资源，所述多媒体资源至少包括所述实验对象在对话过程中的语音信息和面部图像信息；对所述语音信息和所述面部图像信息进行处理，得到多组文本以及每组所述文本对应的面部特征信息；其中，所述面部特征信息包括面部器官的位置信息和形态信息；按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息；针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系。

本发明实施例还提供了一种虚拟数字人面部表情管理装置，包括：

获取模块，用于获取实验对象的多媒体资源，所述多媒体资源至少包括所述实验对象在对话过程中的语音信息和面部图像信息；处理模块，用于对所述语音信息和所述面部图像信息进行处理，得到多组文本以及每组所述文本对应的面部特征信息；其中，所述面部特征信息包括面部器官的位置信息和形态信息；生成模块，用于按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息；建立模块，用于针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于语义的面部器官特征信息与情绪的关联关系建立方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于语义的面部器官特征信息与情绪的关联关系建立方法。

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的基于语义的面部器官特征信息与情绪的关联关系建立方法。

本发明实施例提供的技术方案与现有技术相比至少具有如下优点：本发明实施例提供的基于语义的面部器官特征信息与情绪的关联关系建立方法、装置、电子设备及存储介质，通过目标属性标签、关键信息、面部器官的目标位置信息和目标形态信息的关联关系，来判断用户的对话信息与关键信息的匹配程度，能够更好的理解判断用户的对话信息属于哪种情绪维度，便于虚拟数字人做出最合适、最准确的情绪反馈。

附图说明

结合附图并参考以下具体实施方式，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本发明实施例中的一种虚拟数字人面部表情管理方法的流程图；

图2为本发明实施例中的人面部特征点示意图；

图3为本发明另一实施例中的一种虚拟数字人面部表情管理方法的流程图；

图4本发明实施例中的一种虚拟数字人面部表情管理装置的结构示意图；

图5本发明实施例中的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

参考图1所示，本发明实施例提供了一种虚拟数字人面部表情管理方法的流程图。

步骤S110，获取实验对象的多媒体资源，所述多媒体资源至少包括所述实验对象在对话过程中的语音信息和面部图像信息。

这里，实验对象至少包括经过授权允许获取其肖像及语音等信息的两个用户，为了保证获取到不同情绪的面部特征，可以预先设定不同情绪关联的一个或多个话题，实验对象的对话需要包括每个情绪关联的话题。在实验对象进行对话的过程中，录制实验对象的语音、面部、身体动作等，生成多媒体资源。其中，多媒体资源可以是视频资源，视频中包括实验对象在对话过程中的语音信息和面部图像信息。

步骤S120，对所述语音信息和所述面部图像信息进行处理，得到多组文本以及每组所述文本对应的面部特征信息；其中，所述面部特征信息包括面部器官的位置信息和形态信息。

具体地，面部器官包括眉毛、眼睛、鼻子、嘴和脸型。这里，如图2所示，将面部特征通过68个特征点进行表征，每个面部器官对应多个特征点，通过这些特征点的位置及勾勒出的形状区域，能够确定各面部器官的位置信息和形态信息。

在本步骤中，可以通过大语言模型、多模态模型、自然语言理解技术等将语音信息转化成文本，并根据文本表达的语义将表达同一语义的文本分成一组，生成多组文本。进一步地，由于文本从语音信息转化而来，且语音信息在视频资源中对应有视频画面，可以据此确定每组文本在视频资源中对应的视频片段。之后，使用脸部特征点识别算法处理视频片段中带有人脸图像信息的视频帧，得到每个视频帧对应的68个特征点，基于上述特征点，得到各面部器官的位置信息和形态信息。根据每个视频帧中面部器官的位置信息和形态信息的对比，可以生成在某个语义下实验对象面部器官的位置变化信息和形态变化信息。

作为本发明实施例的一些可选实施方式，可以通过如下技术方案生成面部特征信息。

基于自然语言理解技术将所述语音信息转化成文本信息，并对所述文本信息进行分句，得到多个文本片段；对相邻的所述文本片段进行语义理解，将表达同一语义的所述文本片段进行合并，得到所述多组文本；确定每组文本对应的语音信息在所述多媒体资源中的开始时间戳和结束时间戳，基于所述开始时间戳和所述结束时间戳截取所述多媒体资源，得到每组所述文本对应的面部图像信息；对所述面部图像信息进行识别，生成每组所述文本对应的面部特征信息。

这里，需要说明的是，基于所述开始时间戳和所述结束时间戳截取所述多媒体资源得到的视频片段后，将视频片段中人脸区域小于预设阈值的视频帧进行删除，删除后的视频片段即为面部图像信息。

其中，所述对所述面部图像信息进行识别，生成每组所述文本对应的面部特征信息，包括：

获取所述实验对象的标准面部图像，以及每个面部器官对应的多个特征点；对所述面部图像信息进行分帧，得到若干帧面部图像；将每帧面部图像的各面部器官形态与所述标准面部图像的各面部器官形态进行比对，得到第一比对结果；将每帧面部图像的各面部器官对应的多个特征点位置与所述标准面部图像的各面部器官对应的多个特征点位置进行比对，得到第二比对结果；结合第一比对结果和第二比对结果，从所述若干帧面部图像中确定目标帧面部图像；根据所述目标帧面部图像的各面部器官对应的多个特征点的位置以及形态信息，生成每组所述文本对应的面部特征信息。

这里，标准面部图像指的是实验对象情绪平静、无表情时拍摄图像。使用了度相机，采集标准面部图像的深度信息和RGB彩色信息，然后使用人脸检测技术，识别脸部的68个特征点，分别得到眉毛、眼睛、鼻子、嘴巴、脸型对应的多个特征点。其中，面部器官形态通过该面部器官对应的多个特征点勾勒出的形状区域确定，针对每帧面部图像，将每个面部器官对应的形状区域的面积与该面部器官在标准面部图像对应的形状区域的面积进行对比（可以是相减），得到第一比对结果。特征点位置通过特征点在面部的坐标确定，可选地，在识别到了脸型对应的特征点后，可以在脸型对应的特征点勾勒出的形状区域中确定中心点，以该中心点作为原点建立坐标系，从而生成各特征点在面部的坐标。针对每帧面部图像，将每个面部器官对应的特征点的位置坐标与该面部器官在标准面部图像对应的特征点的位置坐标分别进行对比（可以是相减后加权求和），得到第二比对结果。

实验对象通过表情来进行对话过程中的情绪反应，而表情通过各面部器官的位置变化和形态变化来传达。因此，可以预先设定与标准面部图像的各面部器官的面积差第一阈值、特征点位置坐标差第二阈值，若某帧面部图像的第一比对结果大于第一阈值、和/或第二比对结果大于第二阈值，则说明该帧面部图像中实验对象出现了表情变化来进行情绪反应，将该帧面部图像确定为目标帧面部图像。需要说明的是，表情可以通过单一面部器官的位置变化和/或形态变化来传达，因此，第一比对结果中包括各面部器官的第一子比对结果，只要任一面部器官的第一子对比结果大于该面部器官的面积差第一阈值，则认为第一比对结果大于第一阈值；第二比对结果中包括各面部器官的第二子比对结果，只要任一面部器官的第二子对比结果大于该面部器官的特征点位置坐标差第二阈值，则认为第二比对结果大于第二阈值。

情绪是通过面部器官的形态、位置变化来传达的，即通过各面部器官对应的特征点位置变化轨迹、以及尺寸和形状变化轨迹来传达。因此，可以根据每个目标帧面部图像在多媒体资源中出现的顺序对其进行排序，基于排好序的目标帧面部图像，生成每个面部器官对应的特征点的位置坐标变化轨迹以及形态信息变化轨迹，记录每个目标帧面部图像中各器官的形态信息、以及各器官每个特征点的位置信息，得到每组所述文本对应的面部特征信息。

进一步地，所述形态信息通过如下方法生成：从每个所述面部器官对应的特征点中确定组合起来能够表征所述面部器官形态变化的若干目标特征点；将每个所述面部器官对应的目标特征点依次进行连线，生成所述目标器官的形态区域；计算所述形态区域的尺寸和形状，将所述尺寸和形状确定为所述形态信息。

具体地，所述目标特征点为面部器官外层轮廓对应的特征点且位置会根据表情变化而变化的特征点。举例来说，如图2所示，鼻子外部轮廓对应的特征点所有特征点，但是鼻梁部分的28、29、30位置一般不会根据表情变化而变化，因此鼻子的目标特征点为31、32、33、34、35、36。形态区域的确定要保证面部器官的核心要素在形态区域的中心。以眼睛为例，眼睛的核心要素是瞳孔，首先用6个特征点做均值得到眼睛瞳孔的目标位置，以单眼的瞳孔目标位置为中心，以最右点与最左点作为两侧边界，完成对目标特征点的连线。

步骤S130，按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息。

具体地，情绪维度的属性标签包括但不限于快乐、愤怒、悲哀、恐惧、疑问等，可以根据对虚拟数字人情绪表达的反馈要求进行增加。在本步骤中，通过自然语言理解技术对每组文本的情绪进行识别，将表达同一情绪的文本组进行聚类，并将该情绪对应的属性标签确定为该类文本对应的目标属性标签。关键信息从文本组中提取，为目标属性标签对应的特征文本，比如目标属性标签“快乐”对应的特征文本包括“心情特别好”、“意想不到的幸运”等。

作为本发明实施例的一些可选实施方式，本步骤可以通过如下方案实现：获取所述情绪维度下的各属性标签，以及与所述属性标签对应的解释文本；针对每个所述属性标签，计算所述属性标签对应的所述解释文本与各所述多组文本的相似度，将所述相似度大于预设阈值的所述文本聚合成一类，并以所述属性标签作为该类文本对应的目标属性标签；基于所述属性标签对应的解释文本以及视频信息，从每类所述文本中筛选出描述所述属性标签的关键信息。

具体地，视频信息中包括表达所述目标属性标签所属情绪的面部表情图像。可以将属性标签以及属性标签对应的近义词作为搜索词，获取对应的搜索结果，将搜索结果的摘要信息作为解释文本，将视频类搜索结果作为视频信息；也可以基于属性标签生成解释文本的引导信息（比如，帮我生成能够表达快乐情绪的多个对话，每个对话对应不同的快乐主题），将引导信息输入至基于大语言模型生成的知识工具，获取知识工具反馈的解释文本；还可以基于属性标签生成视频信息的引导信息（比如，帮我生成各种表达快乐情绪的面部表情视频），将引导信息输入至基于大预言模型生成的多模态工具，获取多模态工具反馈的视频信息。这里，文本相似度可以采用欧氏距离、余弦定理等方式进行计算，本发明在此不做限定。

进一步地，为了能够更好的理解判断用户的对话信息属于哪种情绪维度，便于虚拟数字人做出最合适的情绪反馈，因此需要确定每种属性标签的关键信息，通过建立属性标签与关键信息的关联关系，来判断用户的对话信息与关键信息的匹配程度，更精确的确定用户的情绪维度。因此，我们通过文本维度（解释文本）、图像维度（视频信息）来筛选出描述每种属性标签的关键信息。在筛选的过程中，我们基于多模态相似度算法，对相似度过高的解释文本和视频信息进行去重，保证关键信息既包括各类能表达该属性标签所属情绪的文本和面部表情视频，又不会因为重复而造成信息冗余。

步骤S140，针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系。

由于每类文本包括多组文本，每组文本均对应有面部特征信息，且表达的情绪相同，因此，可以对每个面部器官的面部特征信息进行处理。具体地，针对每个面部器官，获取所有形态信息和每个特征点的所有位置信息，根据形态信息生成目标形态信息变化轨迹，根据每个特征点的所有位置信息生成位置坐标变化轨迹，过滤掉不在目标形态信息变化轨迹上的形态信息，过滤掉不在位置坐标变化轨迹的位置信息，即生成了面部器官的目标位置信息和目标形态信息。

作为本发明实施例的一些可选实施方式，还可以通过如下技术方案生成面部器官的目标位置信息和目标形态信息：针对所述每类文本，确定每个所述面部器官的位置信息和形态信息；根据所述每类文本对应的目标属性标签，生成每个所述面部器官的运动轨迹和形态轨迹；基于所述运动轨迹和所述形态轨迹，从所述面部器官的位置信息和形态信息中筛选出匹配的位置信息和形态信息，生成所述面部器官的目标位置信息和目标形态信息。

具体地，可以根据目标属性标签对应的关键信息生成每个所述面部器官的运动轨迹和形态轨迹；也可以基于多模态大模型和目标属性标签生成每个所述面部器官的运动轨迹和形态轨迹。针对每个面部器官，获取所有形态信息和每个特征点的所有位置信息，过滤掉不在形态轨迹上的形态信息，过滤掉不在运动轨迹上的位置信息，即生成了面部器官的目标位置信息和目标形态信息。

最后，建立目标属性标签、关键信息、面部器官的目标位置信息和目标形态信息的关联关系，基于此，在用户与虚拟数字人对话的过程中，基于关键信息对用户输入的文本和/或用户的面部表情进行判断，确定关联的目标属性标签，在基于关联关系确定面部器官的目标位置信息和目标形态信息，使得虚拟数字人可以按照面部器官的目标位置信息和目标形态信息生成面部表情，给予与用户输入信息匹配的情绪反馈。

本发明实施例提供的技术方案，通过目标属性标签、关键信息、面部器官的目标位置信息和目标形态信息的关联关系，来判断用户的对话信息与关键信息的匹配程度，能够更好的理解判断用户的对话信息属于哪种情绪维度，便于虚拟数字人做出最合适、最准确的情绪反馈。

作为本发明的一些可选实施例，如图3所示，公开了一种虚拟数字人面部表情管理方法，包括如下步骤：

步骤S310，接收输入信息。

步骤S320，基于生成式模型生成针对所述输入信息的反馈信息，并确定所述反馈信息对应的情绪属性标签。

其中，生成式模型基于GPT-3.5、GPT-4、DALLE等多模态大语言模型训练得到，可以实现基于文本生成文本、基于图像生成文本、基于图像生成图像、基于文本生成图像、基于文本生成视频等功能。

在本步骤中，生成式模型通过对用户输入的信息进行理解，生成反馈信息，并根据用户输入的信息和/或反馈信息的情绪属性标签。可选地，用户输入的信息包括文本信息、语音信息和图像信息（例如用户和虚拟数字人视频），可以通过文本信息、图像信息与关键信息的匹配，确定情绪属性标签。

步骤S330，根据所述情绪属性标签，以及所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系，确定所述反馈信息关联的面部器官的目标位置信息和目标形态信息。

步骤S340，基于所述反馈信息、所述面部器官的目标位置信息和目标形态信息生成虚拟数字人的面部表情。

具体地，基于关联关系确定目标属性标签，以及面部器官的目标位置信息和目标形态信息，使得虚拟数字人可以按照面部器官的目标位置信息和目标形态信息生成面部表情。

本发明实施例提供的技术方案，使得用户在和虚拟数字人进行交流的过程中，虚拟数字人可以根据用户输入的信息、通过面部表情进行对应的情绪反馈和传递，提高了用户与虚拟数字人沟通的互动性和逼真性。

在一个实施例中，参考图4所示，提供了一种虚拟数字人面部表情管理装置的结构示意图。该装置可用于执行图1-图3任一所示的虚拟数字人面部表情管理方法，该装置包括：获取模块410、处理模块420、生成模块430和建立模块440；其中，

获取模块410，用于获取实验对象的多媒体资源，所述多媒体资源至少包括所述实验对象在对话过程中的语音信息和面部图像信息；处理模块420，用于对所述语音信息和所述面部图像信息进行处理，得到多组文本以及每组所述文本对应的面部特征信息；其中，所述面部特征信息包括面部器官的位置信息和形态信息；生成模块430，用于按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息；建立模块440，用于针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系。

可选地，处理模块420进一步用于，基于自然语言理解技术将所述语音信息转化成文本信息，并对所述文本信息进行分句，得到多个文本片段；对相邻的所述文本片段进行语义理解，将表达同一语义的所述文本片段进行合并，得到所述多组文本；确定每组文本对应的语音信息在所述多媒体资源中的开始时间戳和结束时间戳，基于所述开始时间戳和所述结束时间戳截取所述多媒体资源，得到每组所述文本对应的面部图像信息；对所述面部图像信息进行识别，生成每组所述文本对应的面部特征信息。

可选地，处理模块420进一步用于，获取所述实验对象的标准面部图像，以及每个面部器官对应的多个特征点；对所述面部图像信息进行分帧，得到若干帧面部图像；将每帧面部图像的各面部器官形态与所述标准面部图像的各面部器官形态进行比对，得到第一比对结果；将每帧面部图像的各面部器官对应的多个特征点位置与所述标准面部图像的各面部器官对应的多个特征点位置进行比对，得到第二比对结果；结合第一比对结果和第二比对结果，从所述若干帧面部图像中确定目标帧面部图像；根据所述目标帧面部图像的各面部器官对应的多个特征点的位置以及形态信息，生成每组所述文本对应的面部特征信息。

可选地，处理模块420进一步用于，从每个所述面部器官对应的特征点中确定组合起来能够表征所述面部器官形态变化的若干目标特征点；将每个所述面部器官对应的目标特征点依次进行连线，生成所述目标器官的形态区域；计算所述形态区域的尺寸和形状，将所述尺寸和形状确定为所述形态信息。

可选地，生成模块430进一步用于，获取所述情绪维度下的各属性标签，以及与所述属性标签对应的解释文本；针对每个所述属性标签，计算所述属性标签对应的所述解释文本与各所述多组文本的相似度，将所述相似度大于预设阈值的所述文本聚合成一类，并以所述属性标签作为该类文本对应的目标属性标签；基于所述属性标签对应的解释文本以及视频信息，从每类所述文本中筛选出描述所述属性标签的关键信息。

可选地，建立模块440进一步用于，针对所述每类文本，确定每个所述面部器官的位置信息和形态信息；根据所述每类文本对应的目标属性标签，生成每个所述面部器官的运动轨迹和形态轨迹；基于所述运动轨迹和所述形态轨迹，从所述面部器官的位置信息和形态信息中筛选出匹配的位置信息和形态信息，生成所述面部器官的目标位置信息和目标形态信息。

可选地，所述装置还包括反馈模块，所述反馈模块用于，接收输入信息；基于生成式模型生成针对所述输入信息的反馈信息，并确定所述反馈信息对应的情绪属性标签；根据所述情绪属性标签，以及所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系，确定所述反馈信息关联的面部器官的目标位置信息和目标形态信息；基于所述反馈信息、所述面部器官的目标位置信息和目标形态信息生成虚拟数字人的语音和面部表情。

需要说明的是，本发明实施例所提供的虚拟数字人面部表情管理装置对应的可用于执行上述各方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明实施例中的一种电子设备的结构示意图，该电子设备用于实现上述方法实施例中的各个步骤。下面具体参考图5，其示出了适于用来实现本发明实施例中的电子设备500的结构示意图。本发明实施例中的电子设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置（例如中央处理器、图形处理器等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储装置508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码，从而实现如上所述的方法。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM502被安装。在该计算机程序被处理装置501执行时，执行本发明实施例的方法中限定的上述功能。

需要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种虚拟数字人面部表情管理方法，其特征在于，包括：

获取实验对象的多媒体资源，所述多媒体资源至少包括所述实验对象在对话过程中的语音信息和面部图像信息；

基于自然语言理解技术将所述语音信息转化成文本信息，并对所述文本信息进行分句，得到多个文本片段；对相邻的所述文本片段进行语义理解，将表达同一语义的所述文本片段进行合并，得到所述多组文本；确定每组文本对应的语音信息在所述多媒体资源中的开始时间戳和结束时间戳，基于所述开始时间戳和所述结束时间戳截取所述多媒体资源，得到每组所述文本对应的面部图像信息；获取所述实验对象的标准面部图像，以及每个面部器官对应的多个特征点；对所述面部图像信息进行分帧，得到若干帧面部图像；将每帧面部图像的各面部器官形态与所述标准面部图像的各面部器官形态进行比对，得到第一比对结果；将每帧面部图像的各面部器官对应的多个特征点位置与所述标准面部图像的各面部器官对应的多个特征点位置进行比对，得到第二比对结果；结合第一比对结果和第二比对结果，从所述若干帧面部图像中确定目标帧面部图像；根据所述目标帧面部图像的各面部器官对应的多个特征点的位置以及形态信息，生成每组所述文本对应的面部特征信息；其中，所述面部特征信息包括面部器官的位置信息和形态信息；

按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息；

针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系；

在用户与虚拟数字人对话的过程中，基于所述关键信息对用户输入的文本和/或用户的面部表情进行判断，确定关联的所述目标属性标签，再基于所述关联关系确定虚拟数字人的面部器官的目标位置信息和目标形态信息，使得虚拟数字人按照面部器官的目标位置信息和目标形态信息生成面部表情，给予与用户输入的文本和/或用户的面部表情匹配的情绪反馈。

2.根据权利要求1所述的方法，其特征在于，所述形态信息通过如下方法生成：

从每个所述面部器官对应的特征点中确定组合起来能够表征所述面部器官形态变化的若干目标特征点；

将每个所述面部器官对应的目标特征点依次进行连线，生成目标器官的形态区域；

计算所述形态区域的尺寸和形状，将所述尺寸和形状确定为所述形态信息。

3.根据权利要求1所述的方法，其特征在于，所述按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息；包括：

获取所述情绪维度下的各属性标签，以及与所述属性标签对应的解释文本；

针对每个所述属性标签，计算所述属性标签对应的所述解释文本与各所述多组文本的相似度，将所述相似度大于预设阈值的所述文本聚合成一类，并以所述属性标签作为该类文本对应的目标属性标签；

基于所述属性标签对应的解释文本以及视频信息，从每类所述文本中筛选出描述所述属性标签的关键信息。

4.根据权利要求1所述的方法，其特征在于，所述针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，包括：

针对所述每类文本，确定每个所述面部器官的位置信息和形态信息；

根据所述每类文本对应的目标属性标签，生成每个所述面部器官的运动轨迹和形态轨迹；

基于所述运动轨迹和所述形态轨迹，从所述面部器官的位置信息和形态信息中筛选出匹配的位置信息和形态信息，生成所述面部器官的目标位置信息和目标形态信息。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

接收输入信息；

基于生成式模型生成针对所述输入信息的反馈信息，并确定所述反馈信息对应的情绪属性标签；

根据所述情绪属性标签，以及所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系，确定所述反馈信息关联的面部器官的目标位置信息和目标形态信息；

基于所述反馈信息、所述面部器官的目标位置信息和目标形态信息生成虚拟数字人的语音和面部表情。

6.一种虚拟数字人面部表情管理装置，其特征在于，包括：

获取模块，用于获取实验对象的多媒体资源，所述多媒体资源至少包括所述实验对象在对话过程中的语音信息和面部图像信息；

处理模块，用于基于自然语言理解技术将所述语音信息转化成文本信息，并对所述文本信息进行分句，得到多个文本片段；对相邻的所述文本片段进行语义理解，将表达同一语义的所述文本片段进行合并，得到所述多组文本；确定每组文本对应的语音信息在所述多媒体资源中的开始时间戳和结束时间戳，基于所述开始时间戳和所述结束时间戳截取所述多媒体资源，得到每组所述文本对应的面部图像信息；获取所述实验对象的标准面部图像，以及每个面部器官对应的多个特征点；对所述面部图像信息进行分帧，得到若干帧面部图像；将每帧面部图像的各面部器官形态与所述标准面部图像的各面部器官形态进行比对，得到第一比对结果；将每帧面部图像的各面部器官对应的多个特征点位置与所述标准面部图像的各面部器官对应的多个特征点位置进行比对，得到第二比对结果；结合第一比对结果和第二比对结果，从所述若干帧面部图像中确定目标帧面部图像；根据所述目标帧面部图像的各面部器官对应的多个特征点的位置以及形态信息，生成每组所述文本对应的面部特征信息；其中，所述面部特征信息包括面部器官的位置信息和形态信息；

生成模块，用于按照情绪维度对所述多组文本进行聚类，并生成每类文本对应的目标属性标签，以及表述所述目标属性标签的多个关键信息；

建立模块，用于针对每类文本对应的面部特征信息，根据所有面部器官的位置信息和形态信息生成面部器官的目标位置信息和目标形态信息，并建立所述目标属性标签、所述关键信息、所述面部器官的目标位置信息和目标形态信息的关联关系；

表情管理模块，用于在用户与虚拟数字人对话的过程中，基于所述关键信息对用户输入的文本和/或用户的面部表情进行判断，确定关联的所述目标属性标签，再基于所述关联关系确定虚拟数字人的面部器官的目标位置信息和目标形态信息，使得虚拟数字人按照面部器官的目标位置信息和目标形态信息生成面部表情，给予与用户输入的文本和/或用户的面部表情匹配的情绪反馈。

7.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任意一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任意一项所述的方法。