CN118015157A - 用于实时生成3d数字人肢体动作的多模态驱动算法 - Google Patents
用于实时生成3d数字人肢体动作的多模态驱动算法 Download PDFInfo
- Publication number
- CN118015157A CN118015157A CN202410229004.0A CN202410229004A CN118015157A CN 118015157 A CN118015157 A CN 118015157A CN 202410229004 A CN202410229004 A CN 202410229004A CN 118015157 A CN118015157 A CN 118015157A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- voice
- digital human
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims description 22
- 230000009471 action Effects 0.000 claims abstract description 82
- 230000014509 gene expression Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000003993 interaction Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 abstract description 3
- 210000003414 extremity Anatomy 0.000 description 31
- 238000011161 development Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Biophysics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及计算机语音及图形学领域,具体为用于实时生成3D数字人肢体动作的多模态驱动算法,其包括以下步骤:S1、收集训练数据并训练出多模态大模型,同时构建3D数字人模型;S2、创建用户界面,通过麦克风输入语音,通过摄像头捕捉表情和姿态;S3、处理和格式化捕捉的音频数据以及视频数据;S4、将用户的语音输入转换为文本数据;S5、处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;S6、根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上,通过加载3D数字人模型并展示。本发明具有更高的互动真实性,具有广泛的应用场景,实时性好,效率高,易于集成和扩展。
Description
技术领域
本发明涉及计算机语音及图形学技术领域,尤其涉及用于实时生成3D数字人肢体动作的多模态驱动算法。
背景技术
在数字媒体、虚拟现实、线上社交和电子游戏等领域,对于实时生成三维人体动作的需求日益增加。这些应用需要能够根据用户的输入或指导以及特定情境来生成逼真和多样化的人体动作,以提供更真实的用户体验。
基于运动捕捉的方法虽然能够捕捉真实的动作,但受限于硬件设备和空间需求,不适用于所有情境。此外,这些方法通常不能实现实时的动作生成,因此无法满足实时交互和虚拟环境中的需求。
发明内容
本发明目的是针对背景技术中存在的基于运动捕捉难以实现实时的动作生成的问题,提出用于实时生成3D数字人肢体动作的多模态驱动算法。
一方面,本发明提出用于实时生成3D数字人肢体动作的多模态驱动算法,包括以下步骤:
S1、收集训练数据并训练出多模态大模型,同时构建3D数字人模型;
S2、创建用户界面,允许用户通过麦克风输入语音,并通过摄像头捕捉用户表情和姿态;
S3、处理和格式化从麦克风捕捉的音频数据,处理和格式化从摄像头捕获的视频数据;
S4、将用户的语音输入转换为文本数据,使用Seamless-streaming技术确保实时性和准确性;
S5、处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;
S6、根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上,通过加载3D数字人模型并展示。
优选的,S1中,收集训练数据并训练出多模态大模型的过程包括如下步骤S11-S16:S11、数据采集:收集公开的演讲视频或是公开场合多人对话视频数据,收集与这些动作和姿势相关的自然语言数据,以及与之对应的肢体动作数据,并以视频中人物说话的自然断句为间隔,将视频分成若干段,每个片段默认取中间时间帧,并截取成静态图片;S12、通过语音转文字技术将视频出现的人物对话的语音数据转为文本数据;S13、提前规定好算法所支持的表情种类,为每张在截取的静态图片上附上人物当时说话所露出的表情标签;S14、提前规定好算法所支持的肢体动作种类,为每张在截取的静态图片上附上人物当时说话所展示的表情和手势标签;S15、将文本数据、表情标签数据、肢体动作标签数据和图片数据进行时间对齐,以便训练模型;S16、模型训练:基于BLIP2预训练模型进行微调,创建一个多模态大语言模型,用于处理和理解语音转换的文本数据和用户图像,预测当前语句应对应的表情类型及肢体动作类型,预测结果以JSON格式返回;
构建3D数字人模型时,准备人物动作3D素材,根据总结好的手势动作运用3D建模软件来进行3D模型的形态键搭建,每个预设的肢体动作都要建好对应的形态键动画;
多模态大模型与3D数字人模型联动时,根据虚拟形象中预设的形态键,结合模型返回的表情和肢体动作信息,建立映射,驱动3D形象动作。
优选的,S12中,语音转文字包括以下步骤:S121、对采集到的语音信号进行预处理;S122、使用大量文本数据和带有对应文本的语音数据进行训练,构建Seamless-streaming模型;S123、利用Seamless-streaming模型对预处理后的语音信号进行解码和识别。这一步骤将语音信号转化为对应的文字结果;S124、对识别结果进行错误修正、文本格式化或其他后处理操作,以提高最终转化结果的准确性和可读性。
优选的,为了在实施应用程序中使用生成动作的算法,将训练好的模型嵌入到服务器中。
优选的,应用程序为移动端app,电脑端app,第三方硬件或网页端。
另一方面,本发明提出用于实时生成3D数字人肢体动作的多模态驱动算法的驱动系统,包括3D模型数据库、3D模型展示模块、用户交互模块、音频处理模块、视频数据处理模块、语音识别模块、多模态分析模块和数据交互模块;3D模型数据库用来存储3D数字人模型;3D模型展示模块用来加载3D数字人模型并展示;用户交互模块用来创建用户界面,允许用户通过麦克风输入语音,并通过摄像头捕捉表情和姿态;音频处理模块用来处理和格式化麦克风捕获的音频数据;视频数据处理模块用来处理和格式化从摄像头捕获的视频数据;语音识别模块将用户的语音输入转换为文本数据;多模态分析模块用来处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;数据交互模块用来预设3D形态键,根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上。
与现有技术相比,本发明具有如下有益的技术效果:
具有更高的互动真实性:通过融合语音和图像数据,生成的动作不仅与用户说话内容相关,还与用户的实时表情和姿态相匹配,大大提升了互动的真实性和自然度。
具有广泛的应用场景:适用于各种需要实时人体动作生成的应用场景,如虚拟现实、线上游戏、社交平台等,具有广泛的市场应用潜力。
实时性好和效率高:通过优化的多模态语言模型以及Seamless-streaming模型,本发明能够快速响应用户输入,实现高效、实时的动作生成。
易于集成和扩展:算法的设计使其易于集成到现有的各种平台和应用中,同时具有良好的可扩展性,以适应未来技术的发展。
附图说明
图1为本发明一种实施例的整体架构图;
图2为本发明一种实施例的工作流程图。
具体实施方式
实施例一
如图2所示,本发明提出的用于实时生成3D数字人肢体动作的多模态驱动算法,包括以下步骤:
S1、收集训练数据并训练出多模态大模型,同时构建3D数字人模型;
S2、创建用户界面,允许用户通过麦克风输入语音,并通过摄像头捕捉用户表情和姿态;
S3、处理和格式化从麦克风捕捉的音频数据,处理和格式化从摄像头捕获的视频数据;
S4、将用户的语音输入转换为文本数据,使用Seamless-streaming技术确保实时性和准确性;
S5、处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;
S6、根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上,通过加载3D数字人模型并展示。
本实施例中,3D数字人模型通过分析用户麦克风的口头语音输入,实时将语音转为文本,并调用硬件摄像头拍摄用户当前画面,实时判断当前这句话应该对应的手势以及肢体动作,最后驱动虚拟形象中提前绑定好的3D数字人动起来,从而实现整个实时动作的生成。总而言之,本实施例具有更高的互动真实性:通过融合语音和图像数据,生成的动作不仅与用户说话内容相关,还与用户的实时表情和姿态相匹配,大大提升了互动的真实性和自然度。具有广泛的应用场景:适用于各种需要实时人体动作生成的应用场景,如虚拟现实、线上游戏、社交平台等,具有广泛的市场应用潜力。
实施例二
本发明提出的用于实时生成3D数字人肢体动作的多模态驱动算法,相较于实施例一,S1中,收集训练数据并训练出多模态大模型的过程包括如下步骤S11-S16:S11、数据采集:收集公开的演讲视频或是公开场合多人对话视频数据,收集与这些动作和姿势相关的自然语言数据,以及与之对应的肢体动作数据,并以视频中人物说话的自然断句为间隔,将视频分成若干段,每个片段默认取中间时间帧,并截取成静态图片,本实施例中假设人物说出的每句话只会对应一个动作和一个表情;S12、通过语音转文字技术即Seamless-streaming模型,将视频出现的人物对话的语音数据转为文本数据;S13、提前规定好算法所支持的表情种类,为每张在截取的静态图片上附上人物当时说话所露出的表情标签,表情种类可以包括但不限于:生气、愤怒、惊讶、恐惧、厌恶、高兴、忧郁、惊喜、思考、不安、放松、好奇、内疚、无奈、害羞、轻蔑、痛苦、抗议、礼节性的笑容、无表情等等;S14、提前规定好算法所支持的肢体动作种类,为每张在截取的静态图片上附上人物当时说话所展示的表情和手势标签,肢体动作种类可以包括但不限于:打招呼、抱拳、摆手、伸手、摊手、竖大拇指、点头、摇头、歪头、仰头、大笑、哭泣等等;S15、将文本数据、表情标签数据、肢体动作标签数据和图片数据进行时间对齐,以便训练模型;S16、模型训练:基于BLIP2预训练模型进行微调,创建一个多模态大语言模型,用于处理和理解语音转换的文本数据和用户图像,预测当前语句应对应的表情类型及肢体动作类型,预测结果以JSON格式返回。具体的,BLIP2接收的输入是一个prompt和用户图像。所以这里语音转换之后的文本数据需要融合到prompt里面,例如:“根据我下面提供的人物说的文本以及此人物的神情动作图像,来判断此人当前在做什么表情以及什么动作,并以JSON格式返回”。训练后的BLIP2依据对文本prompt和图片的理解,应该要返回的结果是一个JSON格式的字符串,例如:{“expression”:“normal”,“motion”:“None”}或者{“expression”:“laugh”,“motion”:“happy”}等等;
构建3D数字人模型时,准备人物动作3D素材,根据总结好的手势动作运用3D建模软件来进行3D模型的形态键搭建,每个预设的肢体动作都要建好对应的形态键动画;
多模态大模型与3D数字人模型联动时,根据虚拟形象中预设的形态键,结合模型返回的表情和肢体动作信息,建立映射,驱动3D形象动作。
应用程序集成:为了在实施应用程序中使用生成动作的算法,将训练好的模型嵌入到服务器中,然后应用程序通过网络请求服务器的模型预测结果,应用程序为移动端app,电脑端app,第三方硬件或网页端。
Seamless-streaming模型介绍:Seamless-streaming模型是一种能够将语音信号转换为可理解的文字形式的技术。Seamless-streaming技术主要涉及语音信号的分析、特征提取、模型训练和语音识别等过程。
BLIP2预训练模型介绍:BLIP2预训练模型结构基于Transformer,它使用自注意力机制来处理输入序列中的不同元素之间的关系。在BLIP2预训练中,模型同时接受文本、图像和音频输入,并使用多层的自注意力机制来学习不同模态之间的相互依赖关系。通过这种方式,BLIP2预训练模型能够捕捉到不同模态数据之间的语义和语境信息,从而提高多模态任务的性能。BLIP2预训练模型的训练数据通常来自于大规模的多模态数据集,例如图像描述数据集和视频描述数据集。通过大规模训练,BLIP2预训练模型可以学习到不同模态数据之间的对应关系和语义表示。BLIP2预训练模型的多模态大语言模型在多个任务中表现出色,包括文字描述图像生成、图像分类、文本分类、多模态检索等。它为多模态数据的处理提供了一种强大的模型框架,有助于推动多模态人工智能应用的发展。
本实施例中,利用基于BLIP2预训练模型进行微调,实现了更深层次的语义理解和精准的动作预测,这在实时动作生成领域具有重要的技术突破。Seamless-streaming模型能够自动评估语句的信息完整性,更加智能地驱动多模态模型进行动作预测,从而提高整体系统的效率和用户体验。通过优化的多模态语言模型和Seamless-streaming模型,本发明能够快速响应用户输入,实现高效、实时的动作生成。算法的设计使其易于集成到现有的各种平台和应用中,同时具有良好的可扩展性,以适应未来技术的发展。
实施例三
本发明提出的用于实时生成3D数字人肢体动作的多模态驱动算法,相较于实施例一或实施例二,S12中,语音转文字包括以下步骤:S121、对采集到的语音信号进行预处理;S122、使用大量文本数据和带有对应文本的语音数据进行训练,构建Seamless-streaming模型;S123、利用Seamless-streaming模型对预处理后的语音信号进行解码和识别。这一步骤将语音信号转化为对应的文字结果;S124、对识别结果进行错误修正、文本格式化或其他后处理操作,以提高最终转化结果的准确性和可读性。
实施例四
如图1所示,基于上述用于实时生成3D数字人肢体动作的多模态驱动算法实施例的驱动系统,包括3D模型数据库、3D模型展示模块、用户交互模块、音频处理模块、视频数据处理模块、语音识别模块、多模态分析模块和数据交互模块;3D模型数据库用来存储3D数字人模型;3D模型展示模块用来加载3D数字人模型并展示;用户交互模块用来创建用户界面,允许用户通过麦克风输入语音,并通过摄像头捕捉表情和姿态;音频处理模块用来处理和格式化麦克风捕获的音频数据;视频数据处理模块用来处理和格式化从摄像头捕获的视频数据;语音识别模块将用户的语音输入转换为文本数据;多模态分析模块用来处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;数据交互模块用来预设3D形态键,根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上。
本实施例提出的基于语音及图像的实时三维人体动作生成系统,能够有效克服现有技术的限制,提供一种创新的解决方案,以满足数字媒体和虚拟现实中对于实时、高质量人体动作生成的需求。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于此,在所属技术领域的技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下还可以作出各种变化。
Claims (6)
1.用于实时生成3D数字人肢体动作的多模态驱动算法,其特征在于,包括以下步骤:
S1、收集训练数据并训练出多模态大模型,同时构建3D数字人模型;
S2、创建用户界面,允许用户通过麦克风输入语音,并通过摄像头捕捉用户表情和姿态;
S3、处理和格式化从麦克风捕捉的音频数据,处理和格式化从摄像头捕获的视频数据;
S4、将用户的语音输入转换为文本数据,使用Seamless-streaming技术确保实时性和准确性;
S5、处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;
S6、根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上,通过加载3D数字人模型并展示。
2.根据权利要求1所述的用于实时生成3D数字人肢体动作的多模态驱动算法,其特征在于,S1中,收集训练数据并训练出多模态大模型的过程包括如下步骤S11-S16:S11、数据采集:收集公开的演讲视频或是公开场合多人对话视频数据,收集与这些动作和姿势相关的自然语言数据,以及与之对应的肢体动作数据,并以视频中人物说话的自然断句为间隔,将视频分成若干段,每个片段默认取中间时间帧,并截取成静态图片;S12、通过语音转文字技术将视频出现的人物对话的语音数据转为文本数据;S13、提前规定好算法所支持的表情种类,为每张在截取的静态图片上附上人物当时说话所露出的表情标签;S14、提前规定好算法所支持的肢体动作种类,为每张在截取的静态图片上附上人物当时说话所展示的表情和手势标签;S15、将文本数据、表情标签数据、肢体动作标签数据和图片数据进行时间对齐,以便训练模型;S16、模型训练:基于BLIP2预训练模型进行微调,创建一个多模态大语言模型,用于处理和理解语音转换的文本数据和用户图像,预测当前语句应对应的表情类型及肢体动作类型,预测结果以JSON格式返回;
构建3D数字人模型时,准备人物动作3D素材,根据总结好的手势动作运用3D建模软件来进行3D模型的形态键搭建,每个预设的肢体动作都要建好对应的形态键动画;
多模态大模型与3D数字人模型联动时,根据虚拟形象中预设的形态键,结合模型返回的表情和肢体动作信息,建立映射,驱动3D形象动作。
3.根据权利要求2所述的用于实时生成3D数字人肢体动作的多模态驱动算法,其特征在于,S12中,语音转文字包括以下步骤:S121、对采集到的语音信号进行预处理;S122、使用大量文本数据和带有对应文本的语音数据进行训练,构建Seamless-streaming模型;S123、利用Seamless-streaming模型对预处理后的语音信号进行解码和识别,这一步骤将语音信号转化为对应的文字结果;S124、对识别结果进行错误修正、文本格式化或其他后处理操作,以提高最终转化结果的准确性和可读性。
4.根据权利要求2所述的用于实时生成3D数字人肢体动作的多模态驱动算法,其特征在于,为了在实施应用程序中使用生成动作的算法,将训练好的模型嵌入到服务器中。
5.根据权利要求4所述的用于实时生成3D数字人肢体动作的多模态驱动算法,其特征在于,应用程序为移动端app,电脑端app,第三方硬件或网页端。
6.一种根据权利要求1所述的用于实时生成3D数字人肢体动作的多模态驱动算法的驱动系统,其特征在于,包括3D模型数据库、3D模型展示模块、用户交互模块、音频处理模块、视频数据处理模块、语音识别模块、多模态分析模块和数据交互模块;3D模型数据库用来存储3D数字人模型;3D模型展示模块用来加载3D数字人模型并展示;用户交互模块用来创建用户界面,允许用户通过麦克风输入语音,并通过摄像头捕捉表情和姿态;音频处理模块用来处理和格式化麦克风捕获的音频数据;视频数据处理模块用来处理和格式化从摄像头捕获的视频数据;语音识别模块将用户的语音输入转换为文本数据;多模态分析模块用来处理和理解转换后的文本数据和用户图像,预测相应的表情类型和肢体动作类型;数据交互模块用来预设3D形态键,根据模型返回的表情和肢体动作信息生成相应的3D动作,并映射到虚拟角色上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410229004.0A CN118015157A (zh) | 2024-02-29 | 2024-02-29 | 用于实时生成3d数字人肢体动作的多模态驱动算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410229004.0A CN118015157A (zh) | 2024-02-29 | 2024-02-29 | 用于实时生成3d数字人肢体动作的多模态驱动算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118015157A true CN118015157A (zh) | 2024-05-10 |
Family
ID=90959298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410229004.0A Pending CN118015157A (zh) | 2024-02-29 | 2024-02-29 | 用于实时生成3d数字人肢体动作的多模态驱动算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118015157A (zh) |
-
2024
- 2024-02-29 CN CN202410229004.0A patent/CN118015157A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230042654A1 (en) | Action synchronization for target object | |
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
Papastratis et al. | Artificial intelligence technologies for sign language | |
EP3882860A2 (en) | Method, apparatus, device, storage medium and program for animation interaction | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
CN112162628A (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
CN112541957B (zh) | 动画生成方法、装置、电子设备以及计算机可读介质 | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
CN114144790A (zh) | 具有三维骨架正则化和表示性身体姿势的个性化语音到视频 | |
WO2022170848A1 (zh) | 人机交互方法、装置、系统、电子设备以及计算机介质 | |
CN113835522A (zh) | 手语视频生成、翻译、客服方法、设备和可读介质 | |
US20230082830A1 (en) | Method and apparatus for driving digital human, and electronic device | |
Benoit et al. | Audio-visual and multimodal speech systems | |
CN109166409B (zh) | 一种手语转换方法及装置 | |
Brock et al. | Deep JSLC: A multimodal corpus collection for data-driven generation of Japanese sign language expressions | |
CN114219892A (zh) | 三维模型的智能驱动方法 | |
Dhanjal et al. | An optimized machine translation technique for multi-lingual speech to sign language notation | |
Rastgoo et al. | All you need in sign language production | |
CN118015157A (zh) | 用于实时生成3d数字人肢体动作的多模态驱动算法 | |
Ebling et al. | New Technologies in Second Language Signed Assessment | |
Gamage et al. | Sinhala Sign Language Translation through Immersive 3D Avatars and Adaptive Learning | |
Moemedi | Rendering an avatar from sign writing notation for sign language animation | |
Shovkovyi et al. | Automatic sign language translation system using neural network technologies and 3d animation | |
Garg et al. | Speech to Face Generation using GAN’s | |
Шовковий et al. | Data structures for deductive simulation of HDL conditional operators |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |