CN117370605A - 一种虚拟数字人驱动方法、装置、设备和介质 - Google Patents

一种虚拟数字人驱动方法、装置、设备和介质 Download PDF

Info

Publication number
CN117370605A
CN117370605A CN202210751784.6A CN202210751784A CN117370605A CN 117370605 A CN117370605 A CN 117370605A CN 202210751784 A CN202210751784 A CN 202210751784A CN 117370605 A CN117370605 A CN 117370605A
Authority
CN
China
Prior art keywords
information
emotion
user
determining
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210751784.6A
Other languages
English (en)
Inventor
杨善松
成刚
刘韶
李绪送
付爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202210751784.6A priority Critical patent/CN117370605A/zh
Priority to PCT/CN2023/079026 priority patent/WO2023246163A1/zh
Priority to CN202380027498.8A priority patent/CN118891616A/zh
Publication of CN117370605A publication Critical patent/CN117370605A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及一种虚拟数字人驱动方法、装置、设备和介质,包括:获取用户信息,用户信息包括语音信息和图像信息;根据用户信息,确定用户意图和用户情感;根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。

Description

一种虚拟数字人驱动方法、装置、设备和介质
技术领域
本公开涉及虚拟数字人技术领域,尤其涉及一种虚拟数字人驱动方法、装置、设备和介质。
背景技术
随着5G等信息基础设施的完善,社交的视频化,视频会议和直播的普及,游戏的云化,物联网和数字孪生的发展,虚拟现实/增强现实/混合现实的成熟,人机交互的方式加速更迭,变得越来越丰富立体。先是有文本交互,后有语音交互,再到融合视觉、语音及语义技术的多模态数字人交互,用户在虚拟世界中将得到更为真实,更接近现实,更具沉浸感的体验。
数字虚拟人,是一种整合计算机视觉、语音识别、语音合成、自然语言处理、终端显示等多种技术,实现的多模态智能人机交互技术,打造高度拟人化的虚拟形象,像真人般与人互动沟通。
现有技术中,虽然虚拟数字人已经有小部分展示级应用,但是表达能力还是会受一定的限制。首先从感知能力角度,在真实复杂的声学场景下,来自信道、环境、说话人等各个方面的差异性,识别难度明显增加;其次当前智能交互系统难以准确认知不同复杂自然交互场景下的用户真实意图和情感状态,从而难以输出匹配的系统动作;最后,目前受虚拟人视觉形象、形态驱动技术的限制以及语音合成技术的限制,虚拟人的拟真性和表达自然度还比较生硬。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种虚拟数字人驱动方法、装置、设备和介质,提高虚拟数字人的拟真性和表达自然度。
第一方面,本公开实施例提供了一种虚拟数字人驱动方法,包括:
获取用户信息,所述用户信息包括语音信息和图像信息;
根据所述用户信息,确定用户意图和用户情感;
根据所述用户意图确定所述虚拟数字人的回复文本,以及根据所述用户意图和用户情感确定所述虚拟数字人的回复情感;
根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复情感确定所述虚拟数字人情感表达方式。
可选的,所述根据所述用户信息,确定用户意图和用户情感,包括:
对所述语音信息进行处理,确定所述语音信息对应的文本信息和语音情感信息;
对所述图像信息进行处理,确定所述图像信息对应的场景信息和图像情感信息;
根据所述文本信息和所述场景信息,确定所述用户意图;
根据所述文本信息、所述语音情感信息和所述图像情感信息,确定所述用户情感。
可选的,所述对所述语音信息进行处理,确定所述语音信息对应的文本信息和语音情感信息,包括:
对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息;
对所述语音信息进行声纹特征提取,确定所述语音信息对应的语音情感信息。
可选的,所述对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息之前,还包括:
提取所述语音信息的语音特征向量;
在语音识别模型的卷积层中添加所述语音特征向量,其中,所述语音识别模型包括声学模型和语言模型,所述声学模型包括注意力机制的卷积神经网络模型,所述语言模型包括深度神经网络模型;
所述对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息,包括:
基于所述语音识别模型对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息。
可选的,所述对所述图像信息进行处理,确定所述图像信息对应的场景信息和图像情感信息,包括:
对所述图像信息进行预处理,确定所述图像信息包括的场景信息和用户关键点信息;
根据所述用户关键点信息与预设用户情绪关键点的对应关系,确定所述图像情感信息。
可选的,所述根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复文本和回复情感确定所述虚拟数字人情感表达方式,包括:
获取所述回复文本中包括的动作标识;
根据所述动作标识,从所述场景信息对应的预设动作数据库中选择所述虚拟数字人的肢体动作;
根据所述语音情感信息和所述图像情感信息,确定所述虚拟数字人的关键点的情感表达方式。
可选的,所述根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复情感确定所述虚拟数字人情感表达方式之前,还包括:
确定所述虚拟数字人的形象。
第二方面,本公开实施例提供一种虚拟数字人驱动装置,包括:
用户信息获取模块,用于获取用户信息,所述用户信息包括语音信息和图像信息;
确定模块,用于根据所述用户信息,确定用户意图和用户情感;
表达确定模块,用于根据所述用户意图确定所述虚拟数字人的回复文本,以及根据所述用户意图和用户情感确定所述虚拟数字人的回复情感;
驱动模块,用于根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复情感确定所述虚拟数字人情感表达方式。
第三方面,本公开还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一项所述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的虚拟数字人驱动方法、装置、电子设备和存储介质,首先获取用户信息,即语音信息和图像信息,然后根据用户信息,确定用户意图和用户情感,根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感,最后根据回复文本确定虚拟数字人肢体动作,根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A是本公开实施例中一种虚拟数字人驱动过程的应用场景示意图;
图1B是本公开实施例中一种虚拟数字人的结构示意图;
图2A是根据本公开一个或多个实施例的计算机设备的硬件配置框图;
图2B是根据本公开一个或多个实施例的计算机设备的软件配置示意图;
图2C是根据本公开一个或多个实施例的智能设备中包含的应用程序的图标控件界面显示示意图;
图3A是本公开实施例提供的一种虚拟数字人驱动方法的流程示意图;
图3B是本公开实施例提供的一种虚拟数字人驱动方法的原理示意图;
图4A是本公开实施例提供的另一种虚拟数字人驱动方法的流程示意图;
图4B是本公开实施例提供的一种虚拟数字人驱动方法的原理示意图;
图4C是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图;
图4D是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图;
图5是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图;
图6是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图;
图7是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图;
图8是本公开实施例提供的一种虚拟数字人驱动装置的结构示意图;
图9是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
数字虚拟人作为新一代人机交互方式,其系统设计通常由人物形象、语音生成、动态图像生成、音视频合成显示、交互建模5个模块构成,人物形象根据人物图像资源的维度可分为2D和3D两大类,从外观上又可分为卡通、拟人、写实、超写实等风格;语音生成模块可以基于文本生成对应的人物语音;动画生成模块可以根据语音或者文本生成特定人物的动态图像;音视频合成显示模块将语音和动态图像合成视频,最终显示给用户;交互模块使数字人具备交互功能,即通过语音语义识别等智能技术识别用户意图,并根据用户当前意图决定数字人的后续的语音和动作,驱动人物开启下一轮交互。
现有技术中,虽然虚拟数字人已经有小部分展示级应用,但是表达能力还是会受一定的限制。首先从感知能力角度,在真实复杂的声学场景下,来自信道、环境、说话人等各个方面的差异性,识别难度明显增加;其次当前智能交互系统难以准确认知不同复杂自然交互场景下的用户真实意图和情感状态,从而难以输出匹配的系统动作;最后,目前受虚拟人视觉形象、形态驱动技术的限制以及语音合成技术的限制,虚拟人的拟真性和表达自然度还比较生硬。
针对现有技术问题存在的缺点,本公开实施例首先获取用户信息,用户信息包括语音信息和图像信息;然后根据用户信息,确定用户意图和用户情感;最后根据用户意图确定虚拟数字人肢体动作,以及根据用户情感确定虚拟数字人情感表达方式,即基于获取的用户语音信息和用户图像信息的基础上,对用户语音信息和用户图像信息进行处理确定用户意图和用户情感,然后根据用户意图确定虚拟数字人肢体动作,根据用户情感确定虚拟数字人情感表达方式,实现虚拟数字人真实还原用户意图和用户情感,提高虚拟数字人的拟真性和表达自然度。
图1A为本公开实施例中一种虚拟数字人驱动过程的应用场景示意图。如图1A所示,虚拟数字人驱动过程可用于用户与智能终端的交互场景中,假设该场景中的智能终端包括智能黑板、智慧大屏、智能音箱以及智能电话等,智能终端显示虚拟数字人,虚拟数字人示例性包括虚拟教师、虚拟品牌形象、虚拟助手、虚拟导购和虚拟主播等,如图1B所述,用户想要对该场景中的智能终端显示的虚拟数字人进行控制时,需要先发出语音指令,此时智能终端采集用户语音信息并采集用户图像信息,通过对用户语音信息和用户图像信息进行处理,确定用户的意图和用户情感,然后根据解析出的用户指令和用户情感,确定虚拟数字人的肢体动作以及情感表达方式,实现虚拟数字人真实还原用户意图和用户情感,提高虚拟数字人的拟真性和表达自然度。
本公开实施例提供的虚拟数字人驱动方法,可以基于计算机设备,或者计算机设备中的功能模块或者功能实体实现。
其中,计算机设备可以为个人计算机(Personal Computer,PC)、服务器、手机、平板电脑、笔记本电脑、大型计算机等,本公开实施例对此不作具体限定。
示例性的,图2A为根据本公开一个或多个实施例的计算机设备的硬件配置框图。如图2A所示,计算机设备包括:调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。其中,控制器250包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如EPG音视频数据信号。通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。计算机设备可以通过通信器220与服务器或者本地控制设备建立控制信号和数据信号的发送和接收。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制计算机设备的工作和响应用户的操作。控制器250控制计算机设备的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
图2B为根据本公开一个或多个实施例的计算机设备的软件配置示意图,如图2B所示,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。
图2C为根据本公开一个或多个实施例的智能终端(主要为智能播放设备,例如智能电视、数字影院系统或者影音服务器等)中包含的应用程序的图标控件界面显示示意图,如图2C中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播VOD应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序,可以通过不同的信号源提供直播电视。视频点播VOD应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。应用程序中心,可以提供储存各种应用程序。
为了更加详细的说明虚拟数字人驱动方法,以下将以示例性的方式结合图3A进行说明,可以理解的是,图3A中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本申请实施例中提供的虚拟数字人驱动方法为准。
图3A是本公开实施例提供的一种虚拟数字人驱动方法的流程示意图;图3B是本公开实施例提供的一种虚拟数字人驱动方法的原理示意图。本实施例可适用于对虚拟数字人进行驱动的情况。本实施例方法可由智能终端来执行,该智能终端可采用硬件/或软件的方式来实现,并可配置于计算机设备中。
如图3A所示,该方法具体包括如下步骤:
S10、获取用户信息,用户信息包括语音信息和图像信息。
在具体的实施方式中,智能终端包括声音传感器和视觉传感器,其中,声音传感器示例性可以为麦克风阵列等,视觉传感器包括2D视觉传感器和3D视觉传感器,视觉传感器示例性可以为摄像头等。
智能终端通过声音传感器采集语音信息,通过视觉传感器采集图像信息,其中,语音信息包括语义信息和声学信息,图像信息包括场景信息和用户图像信息。
S20、根据用户信息,确定用户意图和用户情感。
终端设备基于声音传感器采集到语音信息后,基于语音信息包括的语义信息,可以确定用户的意图,即用户期望驱动虚拟数字人以何种方式动作,在基于视觉传感器采集到图像信息后,可以基于采集到的图像信息确定发出语音信息的用户的面部表情,根据采集到的图像信息中用户的面部表情,确定用户期望驱动虚拟数字人所表达的情感。
S30、根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感。
当根据用户信息确定用户意图和用户情感后,可基于用户意图确定虚拟数字人的回复文本,例如虚拟数字人回复语音所对应的文本,根据用户意图以及用户情感确定虚拟数字人的回复情感,即根据用户意图确定虚拟数字人回复所需要的情感表达,以及根据用户表达出来的情感确定虚拟数字人回复所需要表达的情感,在具体的实施方式中,当用户表达出来的情感为悲伤的情感,此时虚拟数字人回复所需表达的情感也为悲伤情感。
S40、根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式。
当根据用户信息确定用户意图和用户情感后,基于用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感,然后根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,即首先针对语音识别和图像识别,建立多模态的人机交互信息感知能力,然后通过获取的语音信息和图像信息,确定用户意图的用户情感,根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感,最后基于虚拟数字人进行情感表达方式表达和肢体动作生成,实现虚拟数字人的语音、表情、动作等的合成。
本公开实施例提供的虚拟数字人驱动方法,首先获取用户信息,即语音信息和图像信息,然后根据用户信息,确定用户意图和用户情感,根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感,最后根据回复文本确定虚拟数字人肢体动作,根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。
图4A是本公开实施例提供的另一种虚拟数字人驱动方法的流程示意图,图4B是本公开实施例提供的另一种虚拟数字人驱动方法的原理示意图,本公开实施例是在上述实施例的基础上,如图4A和4B所示,步骤S20的一种具体实施方式包括:
S201、对语音信息进行处理,确定语音信息对应的文本信息和语音情感信息。
作为一种具体的可实施方式,可选的,如图4C所示,步骤S201包括:
S2012、对语音信息进行文本转录处理,确定语音信息对应的文本信息。
在具体的实施方式中,当获取到语音信息后,通过语音识别模块对获取到的语音信息进行文本转录处理,即将语音信息转化为与语音信息对应的文本信息。
具体地,终端设备可以将语音信息输入至离线设置的自动语音识别(AutomaticSpeech Recognition,ASR)引擎中,得到ASR引擎输出的文本信息。
在本公开实施例中,终端设备在完成对语音信息的文本转录处理后,可以继续等待用户输入语音。若基于语音端点检测(Voice Activity Detection,VAD)识别到人声开始时,持续录音。若基于VAD识别到人声结束时,则停止录音。终端设备可以将录音得到的音频作为用户语音信息。终端设备进而可以将用户语音信息输入ASR引擎,得到用户语音信息对应的文本信息。
S2013、对语音信息进行声纹特征提取,确定语音信息对应的语音情感信息。
声纹特征,是用电声学仪器显示的携带言语信息的声波频谱,声纹特征表现了不同声音的不同波长、频率、强度、节奏,即用户发出语音对应的音高、音强、音长和音色,不同用户对应的声纹特征不同。通过对语音信息进行声纹特征提取,可以获取到发出该语音信息对应的用户所表达的情感信息,即语音情感信息。
S202、对图像信息进行处理,确定图像信息对应的场景信息和图像情感信息。
作为一种具体的可实施方式,可选的,如图4D所示,步骤S202包括:
S2021、对图像信息进行预处理,确定图像信息包括的场景关键点信息和用户关键点信息。
场景关键点信息指的是图像信息中除用户信息外包含用户所处场景的关键点,用户关键点信息指的是图像信息中用户各肢体或五官的关键点。例如,终端设备采集的图像信息为教师站立在黑板前,即此时该图像信息包括的场景场景关键点信息为黑板,该图像包括的用户关键点信息为用户的眼睛、嘴巴、胳膊、腿等。
S2022、根据场景关键点信息,确定图像信息对应的场景信息。
通过对图像进行预处理,获取到场景关键点信息后,可以确定终端设备的场景信息,即终端设备应用在哪个场景中。
在具体的实施方式中,在具体的实施方式中,通过构建虚拟数字人不同应用场景的知识库,基于实体识别、实体链接、实体对齐等算法构建场景识别模型,然后对知识库中不同应用场景的图像信息进行预处理后得到不同应用场景的图像信息对应的场景关键点信息后,将不同应用场景的图像信息对应的场景关键点信息输入至场景识别模型对场景识别模型进行训练,直至场景识别模型达到收敛,确定目标场景识别模型。然后采用图映射、信息抽取等方法对获取的图像信息进行预处理得到该图像对应的场景关键点信息,将预处理后得到的场景关键点信息输入至目标场景识别模型,进行场景识别,保证场景识别结果的准确性。
S2023、根据用户关键点信息与预设用户情绪关键点的对应关系,确定图像情感信息。
通过对图像进行预处理,获取到用户关键点信息后,可以确定终端设备采集的用户的情感,即终端设备采集的图像信息中包括的用户所表达的情感。
S203、根据文本信息和场景信息,确定用户意图。
在获取到语音信息对应的文本信息以及图像信息对应的场景信息后,基于文本信息可以确定用户期望驱动虚拟数字人的肢体动作,然后结合确定的场景信息,进一步保证终端设备基于文本信息驱动虚拟数字人肢体动作的协调准确性。
S204、根据文本信息、语音情感信息和图像情感信息,确定用户情感。
在获取到语音信息对应的文本信息后,基于文本信息可以大致确定用户所表达的情感,然后通过融合语音情感信息和图像情感信息,精确驱动虚拟数字人表达用户情感,提高虚拟数字人拟真性。
本公开实施例提供的虚拟数字人确定方法,首先通过对语音信息进行处理,确定语音信息对应的文本信息和语音情感信息,通过对图像信息进行处理,确定图像信息对应的场景信息和图像情感信息,然后基于文本信息和场景信息,确定用户意图,根据文本信息、语音情感信息和图像情感信息,确定用户情感,即基于文本信息可以确定用户期望驱动虚拟数字人的肢体动作,然后结合确定的场景信息,进一步保证终端设备基于文本信息驱动虚拟数字人肢体动作的协调准确性,基于文本信息可以大致确定用户所表达的情感,然后通过融合语音情感信息和图像情感信息,精确驱动虚拟数字人表达用户情感,提高虚拟数字人拟真性。
图5是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图,本公开实施例是在图4C对应的实施例的基础上,如图5所示,步骤S2012之前,还包括:
S2010、提取语音信息的语音特征向量。
本公开实施例中,通过构建高鲁棒的声纹识别和声纹聚类技术,通过语音模态实现多用户的自动登录,同时提取性别、口音等副语言信息建立基础用户信息。针对不确定目标分类数量语音特征聚类的难点,以及语音信道干扰对分类和聚类效果的影响,采用带噪密度空间无监督聚类技术,结合随机线性判别分析技术实现高可靠的声纹分类、聚类,减少信道干扰对声纹识别的影响。即本申请中,构建语音识别模型,该语音识别模型可适配不同副语言信息,语音识别的准确率较高。
在具体的实施方式中,在对语音信息进行文本转录处理,确定语音信息对应的文本信息之前,首先提取语音信息中的语音特征向量,具体的,语音特征向量包括:口音特征向量、性别特征向量、年龄特征向量等。
S2011、在语音识别模型的卷积层中添加语音特征向量。
其中,语音识别模型包括声学模型和语言模型,声学模型包括注意力机制的卷积神经网络模型,语言模型包括深度神经网络模型。
本申请构建的语音识别模型为声学模型和语言模型的联合建模,通过采用深度时间序列卷积和注意力机制来构建声学模型,在卷积神经网络模型的卷积层中加入语音特征向量作为条件来适配不同的语音特征。在语言模型层面,实现可快速干预配置的基于深度神经网络的模型结构,通过过用户专属声纹适配不同副语言信息的语音特征,提升语音识别的准确率。
此时,步骤S2012的具体实施方式包括:
S20120、基于语音识别模型对语音信息进行文本转录处理,确定语音信息对应的文本信息。
当构建好语音识别模型后,可以基于语音识别模型对语音信息进行文本转录处理,提高语音识别结果的准确率。
图6是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图,本公开实施例是在图4A对应的实施例的基础上,如图6所示,步骤40的具体实现方式,包括:
S401、获取回复文本中包括的动作标识。
动作标识示例性包括:抬、伸、眨、张等。
在对虚拟数字人进行驱动的过程中,关键点驱动包括语音内容分离、内容关键点驱动、说话人关键点驱动、基于关键点的图像生成模块、基于关键点的图像拉伸模块等。因此,首先基于对语音信息的转录处的文本信息进行解析,获取文本信息中包括的动作标识以及关键点标识。
S402、根据动作标识,从场景信息对应的预设动作数据库中选择虚拟数字人的肢体动作。
具体的,若动作标识为抬,则从场景信息对应的预设动作数据库中选择虚拟数字人的肢体动作为抬头、抬腿等。
其中,预设动作数据库包含动作类型定义、动作编排、动作衔接等。
S403、根据语音情感信息和图像情感信息,确定虚拟数字人的关键点的情感表达方式。
具体的,若获取的语音情感信息和图像情感信息为开心的情感信息,则确定虚拟数字人的关键点的情感表达方式示例性可以为嘴巴笑,双手鼓掌等。
在具体的实施方式中,通过深度学习的方法学习虚拟人关键点与语音特征信息的映射,以及人脸关键点与语音情感信息和图像情感信息的映射。
本公开实施例提供的虚拟数字人驱动方法,在该方法中通过融合情绪关键点模板方式,实现表情可控的语音驱动虚拟数字人动画生成。
图7是本公开实施例提供的又一种虚拟数字人驱动方法的流程示意图,本公开实施例是在图6对应的实施例的基础上,如图7所示,步骤S401之前还包括:
S301、确定虚拟数字人的形象。
在具体的实施方式中,通过从语音中提取不同的特征,分别驱动头部运动、面部活动、肢体动作,综合形成更加生动的语音驱动方式。
虚拟数字人的形象通过深度神经网络的方法为基础进行驱动,同时应用生成对抗网络进行高保真的实时生成,虚拟数字人的形象生成区分动作驱动、和形象库制作,其中,虚拟数字人的形象的头发库、服饰库、牙齿模型,是离线制作出来,可以根据应用场景的不同,进行形象的针对性制作。虚拟数字人的动作驱动模块在服务端处理,之后进行拓扑顶点数据的封装与传输,在设备端进行纹理贴图、渲染输出等。
作为一种具体的可实施方式,以用户关键点为核心,基于对抗网络的关键点驱动技术、特征点几何拉伸方法以及基于Encoder-Decoder方法的图像变换和生成技术,实现对虚拟数字人的驱动。同时,通过融合情绪关键点模板方式,建立用户关键点和预设用户情绪关键点的对应关系,实现虚拟数字人情感表达方式。
作为另一种具体的可实施方式,基于深层编解码技术实现语音特征与顶点三维运动特征语义映射的3D面部驱动技术,基于深层编解码器嵌套时序网络的韵律头部驱动技术,具备头部运动和面部活动区分控制的能力。
本公开实施例还提供一种虚拟数字人驱动装置,如图8所示,虚拟数字人驱动装置包括:
用户信息获取模块810,用于获取用户信息,用户信息包括语音信息和图像信息;
确定模块820,用于根据用户信息,确定用户意图和用户情感;
表达确定模块830,用于根据用户意图确定所述虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;
驱动模块840,用于根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式。
本公开实施例提供的虚拟数字人驱动装置,首先获取用户信息,即语音信息和图像信息,然后根据用户信息,确定用户意图和用户情感,最后根据用户意图确定虚拟数字人肢体动作,根据用户情感确定虚拟数字人情感表达方式,实现虚拟数字人真实还原用户意图和用户情感,提高虚拟数字人的拟真性和表达自然度。
作为本公开实施例一种可选的实施方式,可选的,确定模块包括:
语音信息处理单元,用于对语音信息进行处理,确定语音信息对应的文本信息和语音情感信息;
图像信息处理单元,用于对图像信息进行处理,确定图像信息对应的场景信息和图像情感信息;
用户意图确定单元,用于根据文本信息和场景信息,确定用户意图;
用户情感确定单元,用于根据文本信息、语音情感信息和图像情感信息,确定用户情感。
作为本公开实施例一种可选的实施方式,可选的,语音信息处理单元具体的:
对语音信息进行文本转录处理,确定语音信息对应的文本信息;
对语音信息进行声纹特征提取,确定语音信息对应的语音情感信息。
作为本公开实施例一种可选的实施方式,可选的,还包括:
语音特征向量提取单元,用于提取语音信息的语音特征向量;
语音识别模型构建单元,用于在语音识别模型的卷积层中添加语音特征向量,其中,语音识别模型包括声学模型和语言模型,声学模型包括注意力机制的卷积神经网络模型,语言模型包括深度神经网络模型;
此时,语音信息处理单元包括:
基于语音识别模型对语音信息进行文本转录处理,确定语音信息对应的文本信息。
作为本公开实施例一种可选的实施方式,可选的,图像信息处理单元具体的:
对图像信息进行预处理,确定图像信息包括的场景关键点信息和用户关键点信息;
根据场景关键点信息,确定图像信息对应的场景信息;
根据用户关键点信息与预设用户情绪关键点的对应关系,确定图像情感信息。
作为本公开实施例一种可选的实施方式,可选的,驱动模块包括:
标识获取单元,用于获取回复文本中包括的动作标识;
肢体动作确定单元,用于根据动作标识,从场景信息对应的预设动作数据库中选择虚拟数字人的肢体动作;
情感表达单元,用于根据语音情感信息和图像情感信息,确定虚拟数字人的关键点的情感表达方式。
作为本公开实施例一种可选的实施方式,可选的,还包括:
虚拟形象生成模块,用于根据场景信息确定虚拟数字人的形象。
本发明实施例所提供的装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本公开实施例提供一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开实施例中的任一种所述的方法。
图9是本公开实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备包括处理器910和存储装置920;计算机设备中处理器910的数量可以是一个或多个,图9中以一个处理器910为例;计算机设备中的处理器910和存储装置920可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储装置920作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的语义理解模型训练方法对应的程序指令/模块;或者本公开实施例中的语义理解方法对应的程序指令/模块。处理器910通过运行存储在存储装置920中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现本公开实施例所提供的语义理解模型训练方法或者短视频召回方法。
存储装置920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置920可进一步包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提供的一种计算机设备可用于执行上述任意实施例提供的方法,具备相应的功能和有益效果。
本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现上述任意实施例提供的方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种虚拟数字人驱动方法,其特征在于,包括:
获取用户信息,所述用户信息包括语音信息和图像信息;
根据所述用户信息,确定用户意图和用户情感;
根据所述用户意图确定所述虚拟数字人的回复文本,以及根据所述用户意图和用户情感确定所述虚拟数字人的回复情感;
根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复情感确定所述虚拟数字人情感表达方式。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户信息,确定用户意图和用户情感,包括:
对所述语音信息进行处理,确定所述语音信息对应的文本信息和语音情感信息;
对所述图像信息进行处理,确定所述图像信息对应的场景信息和图像情感信息;
根据所述文本信息和所述场景信息,确定所述用户意图;
根据所述文本信息、所述语音情感信息和所述图像情感信息,确定所述用户情感。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音信息进行处理,确定所述语音信息对应的文本信息和语音情感信息,包括:
对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息;
对所述语音信息进行声纹特征提取,确定所述语音信息对应的语音情感信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息之前,还包括:
提取所述语音信息的语音特征向量;
在语音识别模型的卷积层中添加所述语音特征向量,其中,所述语音识别模型包括声学模型和语言模型,所述声学模型包括注意力机制的卷积神经网络模型,所述语言模型包括深度神经网络模型;
所述对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息,包括:
基于所述语音识别模型对所述语音信息进行文本转录处理,确定所述语音信息对应的文本信息。
5.根据权利要求2所述的方法,其特征在于,所述对所述图像信息进行处理,确定所述图像信息对应的场景信息和图像情感信息,包括:
对所述图像信息进行预处理,确定所述图像信息包括的场景关键点信息和用户关键点信息;
根据所述场景关键点信息,确定所述图像信息对应的场景信息;
根据所述用户关键点信息与预设用户情绪关键点的对应关系,确定所述图像情感信息。
6.根据权利要求2所述的方法,其特征在于,所述根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复文本和回复情感确定所述虚拟数字人情感表达方式,包括:
获取所述回复文本中包括的动作标识;
根据所述动作标识,从所述场景信息对应的预设动作数据库中选择所述虚拟数字人的肢体动作;
根据所述语音情感信息和所述图像情感信息,确定所述虚拟数字人的关键点的情感表达方式。
7.根据权利要求6所述的方法,其特征在于,所述根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复情感确定所述虚拟数字人情感表达方式之前,还包括:
确定所述虚拟数字人的形象。
8.一种虚拟数字人驱动装置,其特征在于,包括:
用户信息获取模块,用于获取用户信息,所述用户信息包括语音信息和图像信息;
确定模块,用于根据所述用户信息,确定用户意图和用户情感;
表达确定模块,用于根据所述用户意图确定所述虚拟数字人的回复文本,以及根据所述用户意图和用户情感确定所述虚拟数字人的回复情感;
驱动模块,用于根据所述回复文本确定所述虚拟数字人肢体动作,以及根据所述回复情感确定所述虚拟数字人情感表达方式。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202210751784.6A 2022-06-22 2022-06-28 一种虚拟数字人驱动方法、装置、设备和介质 Pending CN117370605A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210751784.6A CN117370605A (zh) 2022-06-28 2022-06-28 一种虚拟数字人驱动方法、装置、设备和介质
PCT/CN2023/079026 WO2023246163A1 (zh) 2022-06-22 2023-03-01 一种虚拟数字人驱动方法、装置、设备和介质
CN202380027498.8A CN118891616A (zh) 2022-06-22 2023-03-01 一种虚拟数字人驱动方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751784.6A CN117370605A (zh) 2022-06-28 2022-06-28 一种虚拟数字人驱动方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN117370605A true CN117370605A (zh) 2024-01-09

Family

ID=89400859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210751784.6A Pending CN117370605A (zh) 2022-06-22 2022-06-28 一种虚拟数字人驱动方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN117370605A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117727303A (zh) * 2024-02-08 2024-03-19 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质
CN118426593A (zh) * 2024-07-04 2024-08-02 深圳市联合信息技术有限公司 一种基于虚拟数字人交互方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117727303A (zh) * 2024-02-08 2024-03-19 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质
CN118426593A (zh) * 2024-07-04 2024-08-02 深圳市联合信息技术有限公司 一种基于虚拟数字人交互方法及系统
CN118426593B (zh) * 2024-07-04 2024-08-30 深圳市联合信息技术有限公司 一种基于虚拟数字人交互方法及系统

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
JP7557055B2 (ja) 目標対象の動作駆動方法、装置、機器及びコンピュータプログラム
CN112379812B (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
CN110286756A (zh) 视频处理方法、装置、系统、终端设备及存储介质
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
CN110400251A (zh) 视频处理方法、装置、终端设备及存储介质
CN110868635B (zh) 视频处理方法、装置、电子设备及存储介质
CN112669417B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN112099628A (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
WO2023246163A9 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
US20240153186A1 (en) Sentiment-based interactive avatar system for sign language
CN109271018A (zh) 基于虚拟人行为标准的交互方法及系统
CN110599359B (zh) 社交方法、装置、系统、终端设备及存储介质
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
CN112652041B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
KR20130032620A (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
CN112668407A (zh) 人脸关键点生成方法、装置、存储介质及电子设备
CN113923462A (zh) 视频生成、直播处理方法、设备和可读介质
KR20220129989A (ko) 아바타에 기초한 인터랙션 서비스 방법 및 장치
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination