CN118015157A

CN118015157A - 用于实时生成3d数字人肢体动作的多模态驱动算法

Info

Publication number: CN118015157A
Application number: CN202410229004.0A
Authority: CN
Inventors: 王晨辉; 王彦鹏
Original assignee: Beijing Second Singularity Technology Co ltd
Current assignee: Beijing Second Singularity Technology Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-10

Abstract

本发明涉及计算机语音及图形学领域，具体为用于实时生成3D数字人肢体动作的多模态驱动算法，其包括以下步骤：S1、收集训练数据并训练出多模态大模型，同时构建3D数字人模型；S2、创建用户界面，通过麦克风输入语音，通过摄像头捕捉表情和姿态；S3、处理和格式化捕捉的音频数据以及视频数据；S4、将用户的语音输入转换为文本数据；S5、处理和理解转换后的文本数据和用户图像，预测相应的表情类型和肢体动作类型；S6、根据模型返回的表情和肢体动作信息生成相应的3D动作，并映射到虚拟角色上，通过加载3D数字人模型并展示。本发明具有更高的互动真实性，具有广泛的应用场景，实时性好，效率高，易于集成和扩展。

Description

用于实时生成3D数字人肢体动作的多模态驱动算法

技术领域

本发明涉及计算机语音及图形学技术领域，尤其涉及用于实时生成3D数字人肢体动作的多模态驱动算法。

背景技术

在数字媒体、虚拟现实、线上社交和电子游戏等领域，对于实时生成三维人体动作的需求日益增加。这些应用需要能够根据用户的输入或指导以及特定情境来生成逼真和多样化的人体动作，以提供更真实的用户体验。

基于运动捕捉的方法虽然能够捕捉真实的动作，但受限于硬件设备和空间需求，不适用于所有情境。此外，这些方法通常不能实现实时的动作生成，因此无法满足实时交互和虚拟环境中的需求。

发明内容

本发明目的是针对背景技术中存在的基于运动捕捉难以实现实时的动作生成的问题，提出用于实时生成3D数字人肢体动作的多模态驱动算法。

一方面，本发明提出用于实时生成3D数字人肢体动作的多模态驱动算法，包括以下步骤：

S1、收集训练数据并训练出多模态大模型，同时构建3D数字人模型；

S2、创建用户界面，允许用户通过麦克风输入语音，并通过摄像头捕捉用户表情和姿态；

S3、处理和格式化从麦克风捕捉的音频数据，处理和格式化从摄像头捕获的视频数据；

S4、将用户的语音输入转换为文本数据，使用Seamless-streaming技术确保实时性和准确性；

S5、处理和理解转换后的文本数据和用户图像，预测相应的表情类型和肢体动作类型；

S6、根据模型返回的表情和肢体动作信息生成相应的3D动作，并映射到虚拟角色上，通过加载3D数字人模型并展示。

优选的，S1中，收集训练数据并训练出多模态大模型的过程包括如下步骤S11-S16：S11、数据采集：收集公开的演讲视频或是公开场合多人对话视频数据，收集与这些动作和姿势相关的自然语言数据，以及与之对应的肢体动作数据，并以视频中人物说话的自然断句为间隔，将视频分成若干段，每个片段默认取中间时间帧，并截取成静态图片；S12、通过语音转文字技术将视频出现的人物对话的语音数据转为文本数据；S13、提前规定好算法所支持的表情种类，为每张在截取的静态图片上附上人物当时说话所露出的表情标签；S14、提前规定好算法所支持的肢体动作种类，为每张在截取的静态图片上附上人物当时说话所展示的表情和手势标签；S15、将文本数据、表情标签数据、肢体动作标签数据和图片数据进行时间对齐，以便训练模型；S16、模型训练：基于BLIP2预训练模型进行微调，创建一个多模态大语言模型，用于处理和理解语音转换的文本数据和用户图像，预测当前语句应对应的表情类型及肢体动作类型，预测结果以JSON格式返回；

构建3D数字人模型时，准备人物动作3D素材，根据总结好的手势动作运用3D建模软件来进行3D模型的形态键搭建，每个预设的肢体动作都要建好对应的形态键动画；

多模态大模型与3D数字人模型联动时，根据虚拟形象中预设的形态键，结合模型返回的表情和肢体动作信息，建立映射，驱动3D形象动作。

优选的，S12中，语音转文字包括以下步骤：S121、对采集到的语音信号进行预处理；S122、使用大量文本数据和带有对应文本的语音数据进行训练，构建Seamless-streaming模型；S123、利用Seamless-streaming模型对预处理后的语音信号进行解码和识别。这一步骤将语音信号转化为对应的文字结果；S124、对识别结果进行错误修正、文本格式化或其他后处理操作，以提高最终转化结果的准确性和可读性。

优选的，为了在实施应用程序中使用生成动作的算法，将训练好的模型嵌入到服务器中。

优选的，应用程序为移动端app，电脑端app，第三方硬件或网页端。

另一方面，本发明提出用于实时生成3D数字人肢体动作的多模态驱动算法的驱动系统，包括3D模型数据库、3D模型展示模块、用户交互模块、音频处理模块、视频数据处理模块、语音识别模块、多模态分析模块和数据交互模块；3D模型数据库用来存储3D数字人模型；3D模型展示模块用来加载3D数字人模型并展示；用户交互模块用来创建用户界面，允许用户通过麦克风输入语音，并通过摄像头捕捉表情和姿态；音频处理模块用来处理和格式化麦克风捕获的音频数据；视频数据处理模块用来处理和格式化从摄像头捕获的视频数据；语音识别模块将用户的语音输入转换为文本数据；多模态分析模块用来处理和理解转换后的文本数据和用户图像，预测相应的表情类型和肢体动作类型；数据交互模块用来预设3D形态键，根据模型返回的表情和肢体动作信息生成相应的3D动作，并映射到虚拟角色上。

与现有技术相比，本发明具有如下有益的技术效果：

具有更高的互动真实性：通过融合语音和图像数据，生成的动作不仅与用户说话内容相关，还与用户的实时表情和姿态相匹配，大大提升了互动的真实性和自然度。

具有广泛的应用场景：适用于各种需要实时人体动作生成的应用场景，如虚拟现实、线上游戏、社交平台等，具有广泛的市场应用潜力。

实时性好和效率高：通过优化的多模态语言模型以及Seamless-streaming模型，本发明能够快速响应用户输入，实现高效、实时的动作生成。

易于集成和扩展：算法的设计使其易于集成到现有的各种平台和应用中，同时具有良好的可扩展性，以适应未来技术的发展。

附图说明

图1为本发明一种实施例的整体架构图；

图2为本发明一种实施例的工作流程图。

具体实施方式

实施例一

如图2所示，本发明提出的用于实时生成3D数字人肢体动作的多模态驱动算法，包括以下步骤：

本实施例中，3D数字人模型通过分析用户麦克风的口头语音输入，实时将语音转为文本，并调用硬件摄像头拍摄用户当前画面，实时判断当前这句话应该对应的手势以及肢体动作，最后驱动虚拟形象中提前绑定好的3D数字人动起来，从而实现整个实时动作的生成。总而言之，本实施例具有更高的互动真实性：通过融合语音和图像数据，生成的动作不仅与用户说话内容相关，还与用户的实时表情和姿态相匹配，大大提升了互动的真实性和自然度。具有广泛的应用场景：适用于各种需要实时人体动作生成的应用场景，如虚拟现实、线上游戏、社交平台等，具有广泛的市场应用潜力。

实施例二

本发明提出的用于实时生成3D数字人肢体动作的多模态驱动算法，相较于实施例一，S1中，收集训练数据并训练出多模态大模型的过程包括如下步骤S11-S16：S11、数据采集：收集公开的演讲视频或是公开场合多人对话视频数据，收集与这些动作和姿势相关的自然语言数据，以及与之对应的肢体动作数据，并以视频中人物说话的自然断句为间隔，将视频分成若干段，每个片段默认取中间时间帧，并截取成静态图片，本实施例中假设人物说出的每句话只会对应一个动作和一个表情；S12、通过语音转文字技术即Seamless-streaming模型，将视频出现的人物对话的语音数据转为文本数据；S13、提前规定好算法所支持的表情种类，为每张在截取的静态图片上附上人物当时说话所露出的表情标签，表情种类可以包括但不限于：生气、愤怒、惊讶、恐惧、厌恶、高兴、忧郁、惊喜、思考、不安、放松、好奇、内疚、无奈、害羞、轻蔑、痛苦、抗议、礼节性的笑容、无表情等等；S14、提前规定好算法所支持的肢体动作种类，为每张在截取的静态图片上附上人物当时说话所展示的表情和手势标签，肢体动作种类可以包括但不限于：打招呼、抱拳、摆手、伸手、摊手、竖大拇指、点头、摇头、歪头、仰头、大笑、哭泣等等；S15、将文本数据、表情标签数据、肢体动作标签数据和图片数据进行时间对齐，以便训练模型；S16、模型训练：基于BLIP2预训练模型进行微调，创建一个多模态大语言模型，用于处理和理解语音转换的文本数据和用户图像，预测当前语句应对应的表情类型及肢体动作类型，预测结果以JSON格式返回。具体的，BLIP2接收的输入是一个prompt和用户图像。所以这里语音转换之后的文本数据需要融合到prompt里面，例如：“根据我下面提供的人物说的文本以及此人物的神情动作图像，来判断此人当前在做什么表情以及什么动作，并以JSON格式返回”。训练后的BLIP2依据对文本prompt和图片的理解，应该要返回的结果是一个JSON格式的字符串，例如：{“expression”：“normal”，“motion”：“None”}或者{“expression”：“laugh”，“motion”：“happy”}等等；

应用程序集成：为了在实施应用程序中使用生成动作的算法，将训练好的模型嵌入到服务器中，然后应用程序通过网络请求服务器的模型预测结果，应用程序为移动端app，电脑端app，第三方硬件或网页端。

Seamless-streaming模型介绍：Seamless-streaming模型是一种能够将语音信号转换为可理解的文字形式的技术。Seamless-streaming技术主要涉及语音信号的分析、特征提取、模型训练和语音识别等过程。

BLIP2预训练模型介绍：BLIP2预训练模型结构基于Transformer，它使用自注意力机制来处理输入序列中的不同元素之间的关系。在BLIP2预训练中，模型同时接受文本、图像和音频输入，并使用多层的自注意力机制来学习不同模态之间的相互依赖关系。通过这种方式，BLIP2预训练模型能够捕捉到不同模态数据之间的语义和语境信息，从而提高多模态任务的性能。BLIP2预训练模型的训练数据通常来自于大规模的多模态数据集，例如图像描述数据集和视频描述数据集。通过大规模训练，BLIP2预训练模型可以学习到不同模态数据之间的对应关系和语义表示。BLIP2预训练模型的多模态大语言模型在多个任务中表现出色，包括文字描述图像生成、图像分类、文本分类、多模态检索等。它为多模态数据的处理提供了一种强大的模型框架，有助于推动多模态人工智能应用的发展。

本实施例中，利用基于BLIP2预训练模型进行微调，实现了更深层次的语义理解和精准的动作预测，这在实时动作生成领域具有重要的技术突破。Seamless-streaming模型能够自动评估语句的信息完整性，更加智能地驱动多模态模型进行动作预测，从而提高整体系统的效率和用户体验。通过优化的多模态语言模型和Seamless-streaming模型，本发明能够快速响应用户输入，实现高效、实时的动作生成。算法的设计使其易于集成到现有的各种平台和应用中，同时具有良好的可扩展性，以适应未来技术的发展。

实施例三

本发明提出的用于实时生成3D数字人肢体动作的多模态驱动算法，相较于实施例一或实施例二，S12中，语音转文字包括以下步骤：S121、对采集到的语音信号进行预处理；S122、使用大量文本数据和带有对应文本的语音数据进行训练，构建Seamless-streaming模型；S123、利用Seamless-streaming模型对预处理后的语音信号进行解码和识别。这一步骤将语音信号转化为对应的文字结果；S124、对识别结果进行错误修正、文本格式化或其他后处理操作，以提高最终转化结果的准确性和可读性。

实施例四

如图1所示，基于上述用于实时生成3D数字人肢体动作的多模态驱动算法实施例的驱动系统，包括3D模型数据库、3D模型展示模块、用户交互模块、音频处理模块、视频数据处理模块、语音识别模块、多模态分析模块和数据交互模块；3D模型数据库用来存储3D数字人模型；3D模型展示模块用来加载3D数字人模型并展示；用户交互模块用来创建用户界面，允许用户通过麦克风输入语音，并通过摄像头捕捉表情和姿态；音频处理模块用来处理和格式化麦克风捕获的音频数据；视频数据处理模块用来处理和格式化从摄像头捕获的视频数据；语音识别模块将用户的语音输入转换为文本数据；多模态分析模块用来处理和理解转换后的文本数据和用户图像，预测相应的表情类型和肢体动作类型；数据交互模块用来预设3D形态键，根据模型返回的表情和肢体动作信息生成相应的3D动作，并映射到虚拟角色上。

本实施例提出的基于语音及图像的实时三维人体动作生成系统，能够有效克服现有技术的限制，提供一种创新的解决方案，以满足数字媒体和虚拟现实中对于实时、高质量人体动作生成的需求。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于此，在所属技术领域的技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下还可以作出各种变化。

Claims

1.用于实时生成3D数字人肢体动作的多模态驱动算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于实时生成3D数字人肢体动作的多模态驱动算法，其特征在于，S1中，收集训练数据并训练出多模态大模型的过程包括如下步骤S11-S16：S11、数据采集：收集公开的演讲视频或是公开场合多人对话视频数据，收集与这些动作和姿势相关的自然语言数据，以及与之对应的肢体动作数据，并以视频中人物说话的自然断句为间隔，将视频分成若干段，每个片段默认取中间时间帧，并截取成静态图片；S12、通过语音转文字技术将视频出现的人物对话的语音数据转为文本数据；S13、提前规定好算法所支持的表情种类，为每张在截取的静态图片上附上人物当时说话所露出的表情标签；S14、提前规定好算法所支持的肢体动作种类，为每张在截取的静态图片上附上人物当时说话所展示的表情和手势标签；S15、将文本数据、表情标签数据、肢体动作标签数据和图片数据进行时间对齐，以便训练模型；S16、模型训练：基于BLIP2预训练模型进行微调，创建一个多模态大语言模型，用于处理和理解语音转换的文本数据和用户图像，预测当前语句应对应的表情类型及肢体动作类型，预测结果以JSON格式返回；

3.根据权利要求2所述的用于实时生成3D数字人肢体动作的多模态驱动算法，其特征在于，S12中，语音转文字包括以下步骤：S121、对采集到的语音信号进行预处理；S122、使用大量文本数据和带有对应文本的语音数据进行训练，构建Seamless-streaming模型；S123、利用Seamless-streaming模型对预处理后的语音信号进行解码和识别，这一步骤将语音信号转化为对应的文字结果；S124、对识别结果进行错误修正、文本格式化或其他后处理操作，以提高最终转化结果的准确性和可读性。

4.根据权利要求2所述的用于实时生成3D数字人肢体动作的多模态驱动算法，其特征在于，为了在实施应用程序中使用生成动作的算法，将训练好的模型嵌入到服务器中。

5.根据权利要求4所述的用于实时生成3D数字人肢体动作的多模态驱动算法，其特征在于，应用程序为移动端app，电脑端app，第三方硬件或网页端。

6.一种根据权利要求1所述的用于实时生成3D数字人肢体动作的多模态驱动算法的驱动系统，其特征在于，包括3D模型数据库、3D模型展示模块、用户交互模块、音频处理模块、视频数据处理模块、语音识别模块、多模态分析模块和数据交互模块；3D模型数据库用来存储3D数字人模型；3D模型展示模块用来加载3D数字人模型并展示；用户交互模块用来创建用户界面，允许用户通过麦克风输入语音，并通过摄像头捕捉表情和姿态；音频处理模块用来处理和格式化麦克风捕获的音频数据；视频数据处理模块用来处理和格式化从摄像头捕获的视频数据；语音识别模块将用户的语音输入转换为文本数据；多模态分析模块用来处理和理解转换后的文本数据和用户图像，预测相应的表情类型和肢体动作类型；数据交互模块用来预设3D形态键，根据模型返回的表情和肢体动作信息生成相应的3D动作，并映射到虚拟角色上。