CN117519477A - 一种基于显示屏的数字人虚拟交互系统及方法 - Google Patents
一种基于显示屏的数字人虚拟交互系统及方法 Download PDFInfo
- Publication number
- CN117519477A CN117519477A CN202311490829.XA CN202311490829A CN117519477A CN 117519477 A CN117519477 A CN 117519477A CN 202311490829 A CN202311490829 A CN 202311490829A CN 117519477 A CN117519477 A CN 117519477A
- Authority
- CN
- China
- Prior art keywords
- data
- virtual
- virtual character
- interaction
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 152
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 69
- 238000009877 rendering Methods 0.000 claims abstract description 64
- 230000001815 facial effect Effects 0.000 claims abstract description 56
- 238000005516 engineering process Methods 0.000 claims abstract description 37
- 230000002452 interceptive effect Effects 0.000 claims abstract description 23
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000008447 perception Effects 0.000 claims abstract description 10
- 230000033001 locomotion Effects 0.000 claims description 59
- 230000008921 facial expression Effects 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013506 data mapping Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 12
- 239000000306 component Substances 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 7
- 210000000887 face Anatomy 0.000 description 6
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于显示屏的数字人虚拟交互系统及方法,系统中,显示交互模块用于显示交互内容、接收触控指令,还用于采集用户数据;智能感知模块用于生成虚拟数字人模型;交互控制模块用于生成面部动作序列数据和姿态动作序列数据;数据处理模块用于通过图形渲染技术生成虚拟人物渲染数据,并生成虚拟人物交互数据;虚拟人物合成模块用于合成相应的虚拟人物海报或虚拟人物视频,并发送至显示交互模块进行实时动态展示;区块链模块将虚拟人物海报或虚拟人物视频记录于区块链上。通过本发明的技术方案,提升了用户的交互体验,满足了更加个性化和定制化的用户体验,且大大拓展了应用范围,且能够保证数据内容版权以及真实性和完整性。
Description
技术领域
本发明涉及虚拟现实技术领域,尤其涉及一种基于显示屏的数字人虚拟交互系统以及一种基于显示屏的数字人虚拟交互方法。
背景技术
传统的用户界面通常受限于屏幕的尺寸和交互方式,只能将界面中不同的元素,通过最优信息组合与层级堆叠,来承载用户与计算机之间的交流,如同翻译一样让双方彼此理解。但这样固定行为路径的信息结构,对于用户来说需要适应和学习,丧失了一部分自主能动性,同时也限制了用户与系统之间的互动体验。诺曼(Don Norman)曾提出“无界面的界面”,界面设计追求透明性,以将对人机互动的干扰降到最低。所以从本质上来看,界面是以一个“具体对象”的身份出现的,既连接又分隔人与机器,以最自然的方式牵引与反馈信息与服务。而数字人正是界面服务本身的载体,让用户脱离界面本身的屏障,用更原始自然的方式面对界面进而牵引服务。
传统的交互方式中,是通过用户选择点击主界面的功能组件或内容组件,对具体的视频、文本或图片进行逐级数据加工,实现用户与计算机之间的交互,进而可以实现用户与用户之间的交流。
发明内容
针对上述问题,本发明提供了一种基于显示屏的数字人虚拟交互系统及方法,通过摄像头和传感器精准感知、捕捉用户的动作和表情,与虚拟数字人模型相结合,实时生成与用户动作和表情相匹配的虚拟数字人物渲染数据和虚拟人物交互数据,同时将基于预设的海报模板或视频模板生成的虚拟人物海报或虚拟人物视频实时动态展示于显示屏上,为用户提供交互反馈,能够在用户不需穿着特定动作捕捉服装和头盔的情况下生成实时同步的虚拟数字人,提升用户的交互体验,满足更加个性化和定制化的用户体验,且大大拓展了应用范围,同时区块链模块能够保证用户的数据内容版权以及内容的真实性和完整性。
为实现上述目的,本发明提供了一种基于显示屏的数字人虚拟交互系统,包括:显示交互模块、智能感知模块、交互控制模块、数据处理模块、虚拟人物合成模块和区块链模块;
所述显示交互模块为触摸显示屏,用于显示交互内容,同时接收触控指令,还用于采集用户人脸数据、姿态动作数据、手势交互数据和语音交互数据;
所述智能感知模块用于根据数字人极速生成技术生成虚拟数字人模型;
所述交互控制模块用于根据用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据所述姿态动作数据映射生成姿态动作序列数据;
所述数据处理模块用于根据所述面部动作序列数据和所述姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据,并根据所述触控指令、所述手势交互数据和所述语音交互数据,生成虚拟人物交互数据;
所述虚拟人物合成模块用于根据所述虚拟人物渲染数据和所述虚拟人物交互数据,结合所述虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频,并发送至所述显示交互模块进行实时动态展示;
所述区块链模块将所述虚拟人物海报或所述虚拟人物视频生成哈希值并记录于区块链上。
在上述技术方案中,优选地,所述虚拟人物合成模块包括虚拟人物海报合成模块、虚拟人物视频合成模块和AI视频合成模块;
所述虚拟人物海报合成模块根据所述虚拟人物渲染数据,采用Blender技术将虚拟人物画像、所述虚拟数字人模型与所述海报模板通过纹理配置、布局排版、渲染和后期处理流程,生成所述虚拟人物海报;
所述虚拟人物视频合成模块根据所述虚拟人物渲染数据和所述虚拟人物交互数据,采用Blender技术将虚拟人物画像、所述虚拟数字人模型与所述视频模板通过图片合成、渲染、特效动画、视频剪辑和视频导出,生成所述虚拟人物视频;
所述AI视频合成模块用于根据深度学习算法自动生成新的视频内容、对视频进行自动修复和增强、对视频中的人脸进行识别和替换以及对视频进行风格转换。
在上述技术方案中,优选地,所述显示交互模块还包括摄像头和拾音器,所述摄像头用于采集所述用户人脸数据、所述姿态动作数据和所述手势交互数据,所述拾音器用于采集所述语音交互数据。
本发明还提出一种基于显示屏的数字人虚拟交互方法,应用于如上述技术方案中任一项公开的基于显示屏的数字人虚拟交互系统,包括:
利用数字人极速生成技术生成虚拟数字人模型;
采集触摸显示屏的触控指令,采集用户人脸数据、姿态动作数据、手势交互数据和语音交互数据;
根据所述用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据所述姿态动作数据映射生成姿态动作序列数据;
根据所述面部动作序列数据和所述姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据,根据所述触控指令、所述手势交互数据和所述语音交互数据生成虚拟人物交互数据;
根据所述虚拟人物渲染数据和所述虚拟人物交互数据结合所述虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频;
将所述虚拟人物海报或所述虚拟人物视频发送至所述触摸显示屏进行实时动态展示,同时将所述虚拟人物海报或所述虚拟人物视频生成哈希值并记录于区块链上。
在上述技术方案中,优选地,所述利用数字人极速生成技术生成虚拟数字人模型的具体过程包括:
利用数字人极速生成SDK项目插件,生成人物身体骨架、动画控制器以及人物面部和服装,形成所述虚拟数字人模型。
在上述技术方案中,优选地,所述根据所述用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据所述姿态动作数据映射生成姿态动作序列数据的具体过程包括:
利用人脸识别技术,由所述用户人脸数据中提取面部动作特征;
基于深度学习技术学习面部动作特征与用户面部表情之间的潜在映射关系,得到面部动作特征与用户面部表情之间的面部表情驱动模型;
根据所述面部表情驱动模型,由提取到的面部动作特征生成用于表征用户面部表情的面部动作序列数据或面部动画序列数据;
利用模式识别技术,由所述姿态动作数据中提取姿态动作特征;
基于深度学习技术学习姿态动作特征与用户姿态动作之间的潜在映射关系,得到姿态动作特征与用户姿态动作之间的姿态动作驱动模型;
根据所述姿态动作驱动模型,由提取到的姿态动作特征生成用于表征用户姿态动作的姿态动作序列数据或姿态动画序列数据。
在上述技术方案中,优选地,所述根据所述面部动作序列数据和所述姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据的具体过程包括:
利用图形渲染技术,将所述面部动作序列数据或所述面部动画序列数据转换为与所述虚拟数字人模型相适配的面部渲染数据,将所述姿态动作序列数据或所述姿态动画序列数据转换为与所述虚拟数字人模型相适配的肢体渲染数据,以所述面部渲染数据和所述肢体渲染数据作为所述虚拟人物渲染数据。
在上述技术方案中,优选地,所述根据所述触控指令、所述手势交互数据和所述语音交互数据生成虚拟人物交互数据的具体过程包括:
根据所述触控指令所触发的组件生成对应的功能交互数据;
根据所述手势交互数据生成对应的手势交互数据;
根据所述语音交互数据生成对应的语音交互数据;
以所述功能交互数据、所述手势交互数据和所述语音交互数据作为所述虚拟人物交互数据。
在上述技术方案中,优选地,所述根据所述虚拟人物渲染数据和所述虚拟人物交互数据结合所述虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频的具体过程包括:
将所述虚拟人物渲染数据与所述虚拟数字人模型相结合,生成与用户面部表情和姿态动作相适配的虚拟数字人物;
将所述虚拟人物交互数据与所述虚拟数字人物相结合,使得所述虚拟人物完成与用户相同的交互动作;
根据所述触控指令所触发的组件,按照对应的海报模板生成与所述虚拟数字人物相对应的虚拟人物海报,或者按照对应的视频模板生成与所述虚拟数字任务相对应的虚拟人物视频。
在上述技术方案中,优选地,基于显示屏的数字人虚拟交互方法还包括:
对所采集的所述用户人脸数据和所述语音交互数据进行数据加密和匿名化处理。
与现有技术相比,本发明的有益效果为:通过摄像头和传感器精准感知、捕捉用户的动作和表情,与虚拟数字人模型相结合,实时生成与用户动作和表情相匹配的虚拟数字人物渲染数据和虚拟人物交互数据,同时将基于预设的海报模板或视频模板生成的虚拟人物海报或虚拟人物视频实时动态展示于显示屏上,为用户提供交互反馈,能够在用户不需穿着特定动作捕捉服装和头盔的情况下生成实时同步的虚拟数字人,提升了用户的交互体验,满足了更加个性化和定制化的用户体验,且大大拓展了应用范围,同时区块链模块能够保证用户的数据内容版权以及内容的真实性和完整性。
附图说明
图1为本发明一种实施例公开的基于显示屏的数字人虚拟交互系统的模块示意图;
图2为本发明一种实施例公开的触摸显示屏显示虚拟数字人的示意图;
图3为本发明一种实施例公开的基于显示屏的数字人虚拟交互方法的流程示意图。
图中,各组件与附图标记之间的对应关系为:
1.显示交互模块,2.智能感知模块,3.交互控制模块,4.数据处理模块,5.虚拟人物合成模块,6.区块链模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于显示屏的数字人虚拟交互系统,包括:显示交互模块1、智能感知模块2、交互控制模块3、数据处理模块4、虚拟人物合成模块5和区块链模块6;
显示交互模块1为触摸显示屏,用于显示交互内容,同时接收触控指令,还用于采集用户人脸数据、姿态动作数据、手势交互数据和语音交互数据;
智能感知模块2用于根据数字人极速生成技术生成虚拟数字人模型;
交互控制模块3用于根据用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据姿态动作数据映射生成姿态动作序列数据;
数据处理模块4用于根据面部动作序列数据和姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据,并根据触控指令、手势交互数据和语音交互数据,生成虚拟人物交互数据;
虚拟人物合成模块5用于根据虚拟人物渲染数据和虚拟人物交互数据,结合虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频,并发送至显示交互模块1进行实时动态展示;
区块链模块6将虚拟人物海报或虚拟人物视频生成哈希值并记录于区块链上。
在该实施方式中,通过摄像头和传感器精准感知、捕捉用户的动作和表情,与虚拟数字人模型相结合,实时生成与用户动作和表情相匹配的虚拟数字人物渲染数据和虚拟人物交互数据,同时将基于预设的海报模板或视频模板生成的虚拟人物海报或虚拟人物视频实时动态展示于显示屏上,为用户提供交互反馈,能够在用户不需穿着特定动作捕捉服装和头盔的情况下生成实时同步的虚拟数字人,提升了用户的交互体验,满足了更加个性化和定制化的用户体验,且大大拓展了应用范围,同时区块链模块6能够保证用户的数据内容版权以及内容的真实性和完整性。
具体地,用户是基于触摸显示屏的数字人虚拟交互系统的参与者,可以通过触摸显示屏进行互动操作,包括触摸屏幕的触控操作、语音指令、手势等,同时用户可以通过触摸显示屏进行个人信息的管理和设置,如更改个人资料、调整偏好设置、选择喜好的虚拟人物风格等,这样可以提供更加个性化和定制化的用户体验。
触摸显示屏是数字人虚拟交互系统的核心组成部分之一,其负责显示虚拟人物、用户界面和其他交互内容,并提供高质量的视觉体验,提供清晰、细腻的图像和视频显示效果,增强用户的沉浸感和交互体验。同时,触摸显示屏支持多点触控功能,用户能够通过手指或触控笔在屏幕上进行直接操作。用户通过触摸屏幕能够实现与虚拟人物进行互动、手势操作、进行菜单选择等,提供直观、灵活的交互方式。
此外,触摸显示屏上还设置有摄像头和拾音器,摄像头用于采集用户的人脸、姿态动作和手势交互数据,拾音器用于采集用户的语音交互数据。其中,人脸数据包括面部运动、表情变化、眼睛、嘴巴等部位的动作图像,姿态动作数据包括躯干动作、头部动作和四肢动作的图像。摄像头优选采用3DDepth Camera/双目视觉摄像头。
其中,智能感知模块2采用基于数字人极速生成技术的SDK项目插件,生成虚拟人物的身体骨架和动画控制器以及人物面部和服装,形成虚拟数字人模型,在此基础上,再利用采集到的数据对该虚拟数字人模型进行渲染和动画控制,实现实时同步的交互控制。
其中,交互控制模块3是基于采集到的用户人脸数据来识别得到人脸面部各个部位的动作,形成面部动作序列数据,基于采集到的姿态动作数据识别得到肢体各个部位的动作,形成姿态动作序列数据。上述面部动作序列数据和姿态动作序列数据是用户的连续动作按序排列的数据,根据这些数据,将其结合于虚拟数字人模型上,即可形成与用户动作和表情同步且连贯一致的虚拟数字人,在触摸显示屏上显示逼真的虚拟数字人,如图2所示。
在上述实施方式中,优选地,虚拟人物合成模块5包括虚拟人物海报合成模块、虚拟人物视频合成模块和AI视频合成模块;
虚拟人物海报合成模块根据虚拟人物渲染数据,采用Blender技术将虚拟人物画像、虚拟数字人模型与海报模板通过纹理配置、布局排版、渲染和后期处理流程,生成虚拟人物海报;
虚拟人物视频合成模块根据虚拟人物渲染数据和虚拟人物交互数据,采用Blender技术将虚拟人物画像、虚拟数字人模型与视频模板通过图片合成、渲染、特效动画、视频剪辑和视频导出,生成虚拟人物视频;
AI视频合成模块用于根据深度学习算法自动生成新的视频内容、对视频进行自动修复和增强、对视频中的人脸进行识别和替换以及对视频进行风格转换。
在该实施方式中,通过3D创作套件blender应用工具和研发的功能组件,能够将虚拟数字人模型和个性化的背景融合起来,通过具体的图片处理功能或视频处理功能,利用python研发程序实现上述功能,生成所需的虚拟人物海报或虚拟人物视频。
此外,AI视频合成模块通过学习大量的已有视频数据,能够自动生成新的视频内容,比如逼真的虚拟城市、虚拟人物的动作等。利用AI自动修复技术,能够修复视频中的噪音、模糊、抖动等问题,提高视频的质量。利用AI识别视频中的人脸,并将其替换为其他人的脸部,用于视频编辑和创意表达,创造出有趣、有创意的视频内容。利用AI将一个视频的风格转换为另一种风格,将一段现实世界的视频转换为卡通风格的视频,或者将一个视频转换为油画风格的效果。
在上述实施方式中,区块链模块6接收虚拟人物合成模块5所生成的虚拟人物海报和/或虚拟人物视频的数据,使用哈希函数对数字内容进行处理,生成唯一的哈希值。然后将哈希值和其他相关信息记录在区块链上,形成一个存证交易或存证记录。这个过程可以通过智能合约来实现,确保存证的透明性和不可篡改性。存证交易确认后,用户将获得一份包含存证信息的数字证书,其中包括哈希值、创作时间、版权归属等。这个数字证书可以作为证据,证明该内容的版权和存在。
如图3所示,本发明还提出一种基于显示屏的数字人虚拟交互方法,应用于如上述实施方式中任一项公开的基于显示屏的数字人虚拟交互系统,包括:
利用数字人极速生成技术生成虚拟数字人模型;
采集触摸显示屏的触控指令,采集用户人脸数据、姿态动作数据、手势交互数据和语音交互数据;
根据用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据姿态动作数据映射生成姿态动作序列数据;
根据面部动作序列数据和姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据,根据触控指令、手势交互数据和语音交互数据生成虚拟人物交互数据;
根据虚拟人物渲染数据和虚拟人物交互数据结合虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频;
将虚拟人物海报或虚拟人物视频发送至触摸显示屏进行实时动态展示,同时将虚拟人物海报或虚拟人物视频生成哈希值并记录于区块链上。
在该实施方式中,通过摄像头和传感器精准感知、捕捉用户的动作和表情,与虚拟数字人模型相结合,实时生成与用户动作和表情相匹配的虚拟数字人物渲染数据和虚拟人物交互数据,同时将基于预设的海报模板或视频模板生成的虚拟人物海报或虚拟人物视频实时动态展示于显示屏上,为用户提供交互反馈,能够在用户不需穿着特定动作捕捉服装和头盔的情况下生成实时同步的虚拟数字人,提升了用户的交互体验,满足了更加个性化和定制化的用户体验,且大大拓展了应用范围,同时区块链模块6能够保证用户的数据内容版权以及内容的真实性和完整性。
在上述实施方式中,优选地,利用数字人极速生成技术生成虚拟数字人模型的具体过程包括:
利用数字人极速生成SDK项目插件,生成人物身体骨架、动画控制器以及人物面部和服装,形成虚拟数字人模型,在此基础上,再利用采集到的数据对该虚拟数字人模型进行渲染和动画控制,实现实时同步的交互控制。
在上述实施方式中,优选地,根据用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据姿态动作数据映射生成姿态动作序列数据的具体过程包括:
利用人脸识别技术,由用户人脸数据中提取面部动作特征;
基于深度学习技术学习面部动作特征与用户面部表情之间的潜在映射关系,得到面部动作特征与用户面部表情之间的面部表情驱动模型;
根据面部表情驱动模型,由提取到的面部动作特征生成用于表征用户面部表情的面部动作序列数据或面部动画序列数据;
利用模式识别技术,由姿态动作数据中提取姿态动作特征;
基于深度学习技术学习姿态动作特征与用户姿态动作之间的潜在映射关系,得到姿态动作特征与用户姿态动作之间的姿态动作驱动模型;
根据姿态动作驱动模型,由提取到的姿态动作特征生成用于表征用户姿态动作的姿态动作序列数据或姿态动画序列数据。
具体地,交互控制模块3是基于采集到的用户人脸数据来识别得到人脸面部各个部位的动作,形成面部动作序列数据,基于采集到的姿态动作数据识别得到肢体各个部位的动作,形成姿态动作序列数据。上述面部动作序列数据和姿态动作序列数据是用户的连续动作按序排列的数据,根据这些数据,将其结合于虚拟数字人模型上,即可形成与用户动作和表情同步且连贯一致的虚拟数字人,在触摸显示屏上显示逼真的虚拟数字人。
在上述实施方式中,优选地,根据面部动作序列数据和姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据的具体过程包括:
利用图形渲染技术,将面部动作序列数据或面部动画序列数据转换为与虚拟数字人模型相适配的面部渲染数据,将姿态动作序列数据或姿态动画序列数据转换为与虚拟数字人模型相适配的肢体渲染数据,以面部渲染数据和肢体渲染数据作为虚拟人物渲染数据。
在上述实施方式中,优选地,根据触控指令、手势交互数据和语音交互数据生成虚拟人物交互数据的具体过程包括:
根据触控指令所触发的组件生成对应的功能交互数据;
根据手势交互数据生成对应的手势交互数据;
根据语音交互数据生成对应的语音交互数据;
以功能交互数据、手势交互数据和语音交互数据作为虚拟人物交互数据。
在上述实施方式中,优选地,根据虚拟人物渲染数据和虚拟人物交互数据结合虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频的具体过程包括:
将虚拟人物渲染数据与虚拟数字人模型相结合,生成与用户面部表情和姿态动作相适配的虚拟数字人物;
将虚拟人物交互数据与虚拟数字人物相结合,使得虚拟人物完成与用户相同的交互动作;
根据触控指令所触发的组件,按照对应的海报模板生成与虚拟数字人物相对应的虚拟人物海报,或者按照对应的视频模板生成与虚拟数字任务相对应的虚拟人物视频。
在上述实施方式中,优选地,基于显示屏的数字人虚拟交互方法还包括:
对所采集的用户人脸数据和语音交互数据进行数据加密和匿名化处理。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于显示屏的数字人虚拟交互系统,其特征在于,包括:显示交互模块、智能感知模块、交互控制模块、数据处理模块、虚拟人物合成模块和区块链模块;
所述显示交互模块为触摸显示屏,用于显示交互内容,同时接收触控指令,还用于采集用户人脸数据、姿态动作数据、手势交互数据和语音交互数据;
所述智能感知模块用于根据数字人极速生成技术生成虚拟数字人模型;
所述交互控制模块用于根据用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据所述姿态动作数据映射生成姿态动作序列数据;
所述数据处理模块用于根据所述面部动作序列数据和所述姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据,并根据所述触控指令、所述手势交互数据和所述语音交互数据,生成虚拟人物交互数据;
所述虚拟人物合成模块用于根据所述虚拟人物渲染数据和所述虚拟人物交互数据,结合所述虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频,并发送至所述显示交互模块进行实时动态展示;
所述区块链模块将所述虚拟人物海报或所述虚拟人物视频生成哈希值并记录于区块链上。
2.根据权利要求1所述的基于显示屏的数字人虚拟交互系统,其特征在于,所述虚拟人物合成模块包括虚拟人物海报合成模块、虚拟人物视频合成模块和AI视频合成模块;
所述虚拟人物海报合成模块根据所述虚拟人物渲染数据,采用Blender技术将虚拟人物画像、所述虚拟数字人模型与所述海报模板通过纹理配置、布局排版、渲染和后期处理流程,生成所述虚拟人物海报;
所述虚拟人物视频合成模块根据所述虚拟人物渲染数据和所述虚拟人物交互数据,采用Blender技术将虚拟人物画像、所述虚拟数字人模型与所述视频模板通过图片合成、渲染、特效动画、视频剪辑和视频导出,生成所述虚拟人物视频;
所述AI视频合成模块用于根据深度学习算法自动生成新的视频内容、对视频进行自动修复和增强、对视频中的人脸进行识别和替换以及对视频进行风格转换。
3.根据权利要求1所述的基于显示屏的数字人虚拟交互系统,其特征在于,所述显示交互模块还包括摄像头和拾音器,所述摄像头用于采集所述用户人脸数据、所述姿态动作数据和所述手势交互数据,所述拾音器用于采集所述语音交互数据。
4.一种基于显示屏的数字人虚拟交互方法,其特征在于,应用于如权利要求1至3中任一项所述的基于显示屏的数字人虚拟交互系统,包括:
利用数字人极速生成技术生成虚拟数字人模型;
采集触摸显示屏的触控指令,采集用户人脸数据、姿态动作数据、手势交互数据和语音交互数据;
根据所述用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据所述姿态动作数据映射生成姿态动作序列数据;
根据所述面部动作序列数据和所述姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据,根据所述触控指令、所述手势交互数据和所述语音交互数据生成虚拟人物交互数据;
根据所述虚拟人物渲染数据和所述虚拟人物交互数据结合所述虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频;
将所述虚拟人物海报或所述虚拟人物视频发送至所述触摸显示屏进行实时动态展示,同时将所述虚拟人物海报或所述虚拟人物视频生成哈希值并记录于区块链上。
5.根据权利要求4所述的基于显示屏的数字人虚拟交互方法,其特征在于,所述利用数字人极速生成技术生成虚拟数字人模型的具体过程包括:
利用数字人极速生成SDK项目插件,生成人物身体骨架、动画控制器以及人物面部和服装,形成所述虚拟数字人模型。
6.根据权利要求4所述的基于显示屏的数字人虚拟交互方法,其特征在于,所述根据所述用户人脸数据识别得到用户面部表情,并映射生成对应的面部动作序列数据,根据所述姿态动作数据映射生成姿态动作序列数据的具体过程包括:
利用人脸识别技术,由所述用户人脸数据中提取面部动作特征;
基于深度学习技术学习面部动作特征与用户面部表情之间的潜在映射关系,得到面部动作特征与用户面部表情之间的面部表情驱动模型;
根据所述面部表情驱动模型,由提取到的面部动作特征生成用于表征用户面部表情的面部动作序列数据或面部动画序列数据;
利用模式识别技术,由所述姿态动作数据中提取姿态动作特征;
基于深度学习技术学习姿态动作特征与用户姿态动作之间的潜在映射关系,得到姿态动作特征与用户姿态动作之间的姿态动作驱动模型;
根据所述姿态动作驱动模型,由提取到的姿态动作特征生成用于表征用户姿态动作的姿态动作序列数据或姿态动画序列数据。
7.根据权利要求6所述的基于显示屏的数字人虚拟交互方法,其特征在于,所述根据所述面部动作序列数据和所述姿态动作序列数据,通过图形渲染技术生成虚拟人物渲染数据的具体过程包括:
利用图形渲染技术,将所述面部动作序列数据或所述面部动画序列数据转换为与所述虚拟数字人模型相适配的面部渲染数据,将所述姿态动作序列数据或所述姿态动画序列数据转换为与所述虚拟数字人模型相适配的肢体渲染数据,以所述面部渲染数据和所述肢体渲染数据作为所述虚拟人物渲染数据。
8.根据权利要求6所述的基于显示屏的数字人虚拟交互方法,其特征在于,所述根据所述触控指令、所述手势交互数据和所述语音交互数据生成虚拟人物交互数据的具体过程包括:
根据所述触控指令所触发的组件生成对应的功能交互数据;
根据所述手势交互数据生成对应的手势交互数据;
根据所述语音交互数据生成对应的语音交互数据;
以所述功能交互数据、所述手势交互数据和所述语音交互数据作为所述虚拟人物交互数据。
9.根据权利要求8所述的基于显示屏的数字人虚拟交互方法,其特征在于,所述根据所述虚拟人物渲染数据和所述虚拟人物交互数据结合所述虚拟数字人模型,按照预设的海报模板或视频模板合成相应的虚拟人物海报或虚拟人物视频的具体过程包括:
将所述虚拟人物渲染数据与所述虚拟数字人模型相结合,生成与用户面部表情和姿态动作相适配的虚拟数字人物;
将所述虚拟人物交互数据与所述虚拟数字人物相结合,使得所述虚拟人物完成与用户相同的交互动作;
根据所述触控指令所触发的组件,按照对应的海报模板生成与所述虚拟数字人物相对应的虚拟人物海报,或者按照对应的视频模板生成与所述虚拟数字任务相对应的虚拟人物视频。
10.根据权利要求4所述的基于显示屏的数字人虚拟交互方法,其特征在于,还包括:
对所采集的所述用户人脸数据和所述语音交互数据进行数据加密和匿名化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311490829.XA CN117519477A (zh) | 2023-11-09 | 2023-11-09 | 一种基于显示屏的数字人虚拟交互系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311490829.XA CN117519477A (zh) | 2023-11-09 | 2023-11-09 | 一种基于显示屏的数字人虚拟交互系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117519477A true CN117519477A (zh) | 2024-02-06 |
Family
ID=89752484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311490829.XA Pending CN117519477A (zh) | 2023-11-09 | 2023-11-09 | 一种基于显示屏的数字人虚拟交互系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117519477A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727303A (zh) * | 2024-02-08 | 2024-03-19 | 翌东寰球(深圳)数字科技有限公司 | 一种音视频的生成方法、装置、设备及存储介质 |
CN117876550A (zh) * | 2024-03-11 | 2024-04-12 | 国网电商科技有限公司 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
-
2023
- 2023-11-09 CN CN202311490829.XA patent/CN117519477A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727303A (zh) * | 2024-02-08 | 2024-03-19 | 翌东寰球(深圳)数字科技有限公司 | 一种音视频的生成方法、装置、设备及存储介质 |
CN117876550A (zh) * | 2024-03-11 | 2024-04-12 | 国网电商科技有限公司 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
CN117876550B (zh) * | 2024-03-11 | 2024-05-14 | 国网电商科技有限公司 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9626788B2 (en) | Systems and methods for creating animations using human faces | |
KR101306221B1 (ko) | 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법 | |
CN117519477A (zh) | 一种基于显示屏的数字人虚拟交互系统及方法 | |
US8988436B2 (en) | Training system and methods for dynamically injecting expression information into an animated facial mesh | |
KR20210119438A (ko) | 얼굴 재연을 위한 시스템 및 방법 | |
KR101851356B1 (ko) | 3d 디지털액터에 의한 지능형 사용자 인터페이스 제공방법 | |
CN1901665A (zh) | 局部化脸部特征和全程实时视频转变 | |
CN106648098B (zh) | 一种自定义场景的ar投影方法及系统 | |
US20210166461A1 (en) | Avatar animation | |
Buttussi et al. | H-animator: a visual tool for modeling, reuse and sharing of X3D humanoid animations | |
KR20140065762A (ko) | 사용자 맞춤 캐릭터 영상물의 실시간 제공시스템 및 방법 | |
CN117391122A (zh) | 一种基于元宇宙中建立的3d数字人互助式聊天方法 | |
JP2024532244A (ja) | データ処理方法、装置、電子機器、及びコンピュータプログラム | |
Barrientos et al. | Cursive: Controlling expressive avatar gesture using pen gesture | |
CN114898019A (zh) | 一种动画融合方法和装置 | |
KR20010091219A (ko) | 표본화된 얼굴 표정을 새로운 얼굴에 리타켓팅하는 방법 | |
CN111899321A (zh) | 一种虚拟角色表情展现的方法和装置 | |
Sun et al. | Generation of virtual digital human for customer service industry | |
Eisert et al. | Hybrid human modeling: making volumetric video animatable | |
KR100965622B1 (ko) | 감성형 캐릭터 및 애니메이션 생성 방법 및 장치 | |
Lin et al. | Emotional Semantic Neural Radiance Fields for Audio-Driven Talking Head | |
CN117539349A (zh) | 一种基于区块链技术的元宇宙体验交互系统及方法 | |
WO2018018076A1 (en) | Creating videos with facial expressions | |
KR101057581B1 (ko) | 애니메이션 제공 시스템, 서버 및 방법 | |
Noor et al. | Review on 3d facial animation techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |