CN117011401A - 虚拟人视频生成方法和装置 - Google Patents
虚拟人视频生成方法和装置 Download PDFInfo
- Publication number
- CN117011401A CN117011401A CN202210457342.0A CN202210457342A CN117011401A CN 117011401 A CN117011401 A CN 117011401A CN 202210457342 A CN202210457342 A CN 202210457342A CN 117011401 A CN117011401 A CN 117011401A
- Authority
- CN
- China
- Prior art keywords
- action
- video
- text
- driving
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 230000009471 action Effects 0.000 claims abstract description 404
- 230000033001 locomotion Effects 0.000 claims abstract description 39
- 230000015654 memory Effects 0.000 claims description 47
- 238000013136 deep learning model Methods 0.000 claims description 42
- 238000013507 mapping Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 32
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 145
- 210000003128 head Anatomy 0.000 description 49
- 230000008569 process Effects 0.000 description 40
- 238000012549 training Methods 0.000 description 35
- 210000003414 extremity Anatomy 0.000 description 28
- 238000013528 artificial neural network Methods 0.000 description 23
- 238000013527 convolutional neural network Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000011176 pooling Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 16
- 210000003811 finger Anatomy 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 230000003993 interaction Effects 0.000 description 11
- 238000013500 data storage Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013480 data collection Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 244000060701 Kaempferia pandurata Species 0.000 description 1
- 235000016390 Uvaria chamae Nutrition 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种虚拟人视频生成方法和装置,该方法包括:获取驱动文本;基于驱动文本和第一视频的动作标注,获取与驱动文本对应的动作类型,其中,动作标注中包括第一视频中的人物的多个动作类型;基于动作类型,从第一视频中提取出与驱动文本对应的动作表示;基于动作表示,生成虚拟人视频。通过本申请,可以自动生成人物动作准确、可控并符合预设动作规范的虚拟人视频,且可以通过调整动作规范来实现虚拟人动作的个性化定制。
Description
技术领域
本申请涉及大数据中的人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种虚拟人视频生成方法和装置。
背景技术
人工智能AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着大数据、人工智能、物联网等互联网技术的快速发展,各行各业都在逐渐实现数字化和智能化,以助于提升服务效率和服务质量。其中,在金融、电商、医疗、教育、多媒体等各领域中逐渐出现了数字人、虚拟人等交互方式。
虚拟人(Virtual Human,VH)采用语音交互、虚拟形象模型生成等多项AI技术,实现唇形语音同步和表情动作拟人等效果,广泛应用于虚拟形象播报和实时语音交互两大场景。虚拟形象播报根据文本内容快速合成音视频文件,落地于媒体、教育、会展服务等场景;实时语音交互支持即时在线对话,可赋能智能客服、语音助理等场景。
现有技术在生成虚拟人的过程中通常需要人工插入与驱动文本对应的动作子序列,或者直接通过深度学习模型来预测驱动语音对应的3D虚拟人视频。
然而,利用上述方式生成的虚拟人动作不可控、准确性较差,且生成的虚拟人动作单一。
发明内容
本申请实施例提供了一种虚拟人视频生成方法和装置,可以自动生成人物动作准确、可控并符合预设动作规范的虚拟人视频,且可以通过调整动作规范来实现虚拟人动作的个性化定制。
第一方面,本申请提供了一种虚拟人视频生成方法,其特征在于,所述方法包括:获取驱动文本;基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;基于所述动作表示,生成虚拟人视频。
从技术效果上看,本申请通过对基础视频(即第一视频)添加动作标注,并基于驱动文本与动作标注中动作类型之间对应关系,可以自动提取出对应视频帧中的动作表示,在生成虚拟人视频过程中无需人工参与;同时,基于驱动文本与动作类型这种文本与文本之间的对应关系来提取对应动作表示的过程,相比于现有技术中基于文本与图像对应关系提取动作表示的过程而言,本申请所提取的动作表示会更加准确和可控,进而基于动作表示生成的虚拟人视频中的动作也会更加准确,效果更好。
在一种可行的实施方式中,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
从技术效果上看,本申请可以基于预先建立的映射关系模型快速且自动地识别出驱动文本在动作标注中对应的动作类型,然后基于该动作类型在第一视频中对应的视频帧进行动作表示提取,相比于人工插入驱动文本对应的视频帧而言,可以有效节省人力成本。
在一种可行的实施方式中,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型。
其中,所述深度学习模型的训练数据包括第二视频、第二视频的动作标注和所述第二视频中的人物语音,所述第二视频的动作标注对应的动作规范和所述第一视频的动作标注对应的动作规范相同。
从技术效果上看,本申请还可以通过深度学习模型来学习文本语义信息与动作类型之间这种文本与文本之间的对应关系,进而基于此对应关系来提取驱动文本在第一视频中对应的动作表示。此种基于文本与文本之间对应关系的提取方式,相对于现有技术中直接基于文本与视频帧之间对应关系进行动作表示提取的过程,更加符合客观自然规律,因而准确率更高。同时,通过保持训练过程第二视频的动作标注对应的动作规范和推理时使用的第一视频的动作标注对应的动作规范相同,使得基于深度学习模型推理得到的虚拟人视频中人物动作也符合动作标注所对应的动作规范,即虚拟人视频中的人物动作更加规范可控。
在一种可行的实施方式中,所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
从技术效果上看,在确定了驱动文本在动作标注中对应的动作类型后,便可基于动作标注准确且快速定位到驱动文本在第一视频中对应的视频帧,进而地进行动作表示提取,因而动作表示的提取准确且可控。
在一种可行的实施方式中,所述动作标注中的动作类型是基于动作规范划分得到的;其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
从技术效果上看,可以基于不同的动作规范来划分对应的动作类型,这样便可基于特定场景的需求设计不同的动作规范,进而使得生成的虚拟人视频中的人物动作满足预设的动作规范,即进行人物动作规范的个性化定制,场景兼容性高。
在一种可行的实施方式中,所述基于所述动作表示生成与所述驱动文本对应的所述虚拟人视频,包括:获取与所述驱动文本对应的驱动语音;基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。
其中,上述基于驱动语音和第一视频生成与驱动语音对应的头部表示的过程可以是基于音唇同步算法、说话者头像生成算法或其它深度学习算法得到的,本申请对此不限定。
从技术效果上看,通过将头部表示和动作表示进行合成,便可得到准确,且符合相应动作规范的虚拟人视频。
在一种可行的实施方式中,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
从技术效果上看,动作表示用于表征人物肢体动作,即通过上述实施例可以提取出准确且符合规范的人物肢体动作信息,进而生成符合特定场景需求的虚拟人视频。
在一种可行的实施方式中,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。
从技术效果上看,动作标注用于描述第一视频中每一特定时刻视频帧对应的动作类型,这种对应关系可以使得基于驱动文本快速且准确地确定文本语义对应的动作类型所位于的视频帧,进而基于该视频帧进行动作表示提取。
第二方面,本申请实施例提供了一种虚拟人视频生成装置,所述装置包括:获取单元,用于获取驱动文本;处理单元,用于基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;以及还用于基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;生成单元,用于基于所述动作表示,生成虚拟人视频。
在一种可行的实施方式中,在所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型的方面,所述处理单元具体用于:基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
在一种可行的实施方式中,在所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型的方面,所述处理单元具体用于:基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型。
其中,所述深度学习模型的训练数据包括第二视频、第二视频的动作标注和所述第二视频中的人物语音,所述第二视频的动作标注对应的动作规范和所述第一视频的动作标注对应的动作规范相同。
在一种可行的实施方式中,在所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示的方面,所述处理单元具体用于:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
在一种可行的实施方式中,所述动作标注中的动作类型是基于动作规范划分得到的;其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
在一种可行的实施方式中,所述生成单元具体用于:获取与所述驱动文本对应的驱动语音;基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。
在一种可行的实施方式中,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
在一种可行的实施方式中,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。
第三方面,本申请实施例提供了一种电子设备,所述电子设备包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,上述第一方面中任一所述的方法得以实现。
第四方面,本申请实施例提供了一种芯片系统,所述芯片系统包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,上述第一方面中任一所述的方法得以实现。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被执行时,上述第一方面中任意一项所述的方法得以实现。
第六方面,本申请实施例提供了一种计算机程序,该计算机程序包括指令,当该计算机程序被执行时,上述第一方面中任意一项所述的方法得以实现。
附图说明
以下对本申请实施例用到的附图进行介绍。
图1A-图1C为本申请实施例提供的几种用于自然语言处理的系统架构示意图;
图2为本申请实施例提供的另一种系统架构示意图;
图3为本申请实施例提供的一种卷积神经网络的结构示意图;
图4为本申请实施例提供的另一种卷积神经网络的结构示意图;
图5为本申请实施例提供的一种芯片硬件结构示意图;
图6为本申请实施例提供的一种虚拟人视频生成方法的流程示意图;
图7为本申请实施例提供的一种虚拟人视频的生成过程示意图;
图8为本申请实施例提供的虚拟人视频生成装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面举例介绍本申请中虚拟人视频生成方法所适用的两类应用场景,应当理解,其不构成对本申请中方法所适用场景范围的限定。
(1)虚拟形象播报:输入需要进行播报的驱动文本和/或驱动语音,由虚拟人物形象讲述该驱动语音,在虚拟人物播报过程中,会展示与驱动语音/驱动文本语义内容对应的肢体动作和头部动作,以使得人物形象鲜活和具体。虚拟形象播报可以24小时不间断进行,有效提升利用真实人物进行播报时的时间限制。
(2)实时语音交互:智能终端设备接收到用户输入的语音后,对语音所包含的语义进行识别,并产生对应的回复(即驱动文本和/或驱动语音),然后基于驱动文本/驱动语音生成对应的虚拟人视频,并将此虚拟人视频在智能终端设备上进行展示,以实现和用户的实时交互功能,提升用户体验。
请参见图1A-图1C,图1A-图1C为本申请实施例提供的几种用于自然语言处理的系统架构示意图,其可以用于执行本申请中的虚拟人视频生成方法。
其中,图1A所示的自然语言处理系统包括用户设备110以及数据处理设备120(服务器)。所述用户设备110包括手机、个人电脑、车载终端或者信息处理中心等智能终端。所述用户设备110为自然语言数据处理的发起端,作为语言问答或者查询等请求的发起方,通常用户通过用户设备110发起请求。
所述数据处理设备120可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。所述数据处理设备120通过所述交互接口接收来自用户设备110的查询语句/语音/文本等请求,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习、深度学习、搜索、推理、决策等方式的语言数据处理,来执行本申请中的虚拟人视频生成方法,最后将生成的虚拟人视频通过网络传递到用户设备110上,以实现与用户进行语音交互或者进行实时虚拟形象播报。所述存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,所述数据库可以再数据处理设备上,也可以在其它网络服务器上。
图1B所示的自然语言处理系统中的用户设备110直接作为数据处理设备,直接接收来自用户的输入并直接由用户设备110本身的硬件进行处理,具体过程与图1A相似,可参考上面的描述,在此不再赘述。
图1C所示的自然语言处理系统包括至少一个本地设备(如本地设备301和本地设备302)、执行设备210和数据存储系统250。其中,本地设备相当于图1A和图1B中的用户设备110,执行设备210相当于数据处理设备120,数据存储系统250可以集成在执行设备210上,也可以设置在云上或其它网络服务器上。
请参见图2,图2为本申请实施例提供的另一种系统架构示意图。如图2所示,数据采集设备260用于采集语言数据和视频数据并存入数据库230,训练设备220基于数据库230中维护的视频和文本数据(对应本申请中的第二视频和第二视频的动作标注)生成深度学习模型/预设映射关系模型201。下面在图6所示的方法实施例中将详细地描述训练设备220如何基于训练数据得到深度学习模型/预设映射关系模型201的过程,深度学习模型/预设映射关系模型201能够基于输入的驱动文本生成与驱动文本对应动作表示,进而基于该动作表示合成驱动文本/驱动语音对应的虚拟人视频。驱动文本/驱动语音是基于客户设备240发送的用户请求所成的,其中,用户请求可以是用户语音或者用户输入的文本信息。
图2也是虚拟人视频生成过程中的功能模块图,在其对应图1A-图1C中的自然语言处理系统(即实际应用场景图)时,客户设备240可以是图1A-图1C中的用户设备110或本地设备,执行设备210以及数据存储系统250在用户设备110数据处理能力比较强大时,可以集成在用户设备110或本地设备内。在一些实施例中,也可以将执行设备210以及数据存储系统250集成在图1A中的数据处理设备120上。数据库230、训练设备220以及数据采集设备260可以对应集成在图1A中的数据处理设备120上,或设置在云上或网络上的其它服务器上,本申请对此不限定。
其中,数据采集设备260可以是终端设备,也可以是服务器或者云的输入输出接口,用于获取查询语句以及返回答复语句的交互层(interface)。
下面将简要介绍本申请中深度学习模型的训练和推理原理。
深度学习模型的架构可以是深度神经网络。深度神经网络中的每一层的工作可以用数学表达式来描述:从物理层面深度神经网络中的每一层的工作可以理解为通过五种输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中1、2、3的操作由/>完成,4的操作由+b完成,5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合。其中,W是权重向量,该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换,即每一层的权重W控制着如何变换空间。训练深度神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。
因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objectivefunction),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
在图2中,训练设备220得到的深度学习模型/预设映射关系模型201可以应用不同的系统或设备中。执行设备210配置有I/O接口212,与外部设备进行数据交互,“用户”可以通过客户设备240向I/O接口212输入数据,即用户请求,包括用户语音或者用户输入的文本信息。
执行设备210可以调用数据存储系统250中的数据、代码等,也可以将数据、指令等存入数据存储系统250中。
计算模块211使用深度学习模型/预设映射关系模型201对输入数据(即用户请求)进行识别,从而生成对应的驱动文本和/或驱动语音,然后利用深度学习模型/预设映射关系模型201对驱动语音/驱动文本进行处理,生成与驱动语音/驱动文本对应的虚拟人视频。
最后,I/O接口212将生成的虚拟人视频返回给客户设备240,并在客户设备240上呈现给用户。
更深层地,训练设备220可以针对不同的场景需求,基于不同的数据(即对应本申请中的基于不同场景需求定制的动作规范所得到的训练所用的动作标注)生成相应的深度学习模型/预设映射关系模型201,以给用户提供更佳的结果。
在图2中所示情况下,用户可以手动指定输入执行设备210中的数据,例如,在I/O接口212提供的界面中操作。另一种情况下,客户设备240可以自动地向I/O接口212输入数据并获得结果,如果客户设备240自动输入数据需要获得用户的授权,用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到视频和文本数据存入数据库230中供训练过程使用。
值得注意的,图2仅是本发明实施例提供的一种系统架构的示意图,图2中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图2中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中。
请参见图3,图3为本申请实施例提供的一种卷积神经网络的结构示意图,用于表征本申请中深度学习模型的相关内部结构。
卷积神经网络(Convolutional Neural Network,CNN)是一种带有卷积结构的深度神经网络,是一种深度学习(deep learning)架构。深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。
如图3所示,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。
卷积层:
如图3所示,卷积层/池化层120可以包括如示例121-126层。在一种实现中,121层为卷积层,122层为池化层,123层为卷积层,124层为池化层,125为卷积层,126为池化层;在另一种实现方式中,121、122为卷积层,123为池化层,124、125为卷积层,126为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
以卷积层121为例,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在本申请中的作用相当于一个从输入的语音或语义信息中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入视频图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
当卷积神经网络100有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络100深度的加深,越往后的卷积层(例如125)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,即如图3中120所示例的121-126各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在自然语言数据处理过程中,池化层的唯一目的就是减少数据的空间大小。
神经网络层130:
在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入数据带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图3所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括语音或语义识别、分类或生成等等。
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图3由110至140的传播为前向传播)完成,反向传播(如图3由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图3所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图4所示的多个卷积层/池化层并行,将分别提取的特征均输入给神经网络层130进行处理。
在本方案中,具有图3和图4所示结构的深度学习模型可以基于驱动文本来识别出与驱动文本的语义所对应的动作类型,进而基于动作标注识别出动作类型在基础视频(即第一视频)中对应的视频帧,进而基于识别出的识别帧确定驱动文本在第一视频中对应的动作表示。
举例来说,上述具有图3和图4结构的深度学习模型可以部署在政务服务场景下的智能终端设备中。在智能终端设备接收到用户的语音输入后,通过分析接收语音的语义信息生成对应的回复文本(即本申请中的驱动文本),将该回复文本输入深度学习模型中,便可快速得到相应的虚拟人视频,并将虚拟人视频展示给用户,以实现与用户的实时语音交互。
请参见图5,图5为本申请实施例提供的一种芯片硬件结构示意图。如图5所示,神经网络处理器(Neural-Networks Processing Unit,NPU)50作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路503,控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路503内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路503是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器508accumulator中。
向量计算单元507可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算,如池化(Pooling),批归一化(Batch Normalization),局部响应归一化(Local Response Normalization)等。
在一些实现种,向量计算单元507能将经处理的输出的向量存储到统一存储器506。例如,向量计算单元507可以将非线性函数应用到运算电路503的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元507生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路503的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器506用于存放输入数据以及输出数据。
存储单元访问控制器505(Direct Memory Access Controller,DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502,以及将统一存储器506中的数据存入外部存储器。
总线接口单元(Bus Interface Unit,BIU)510,用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。
与控制器504连接的取指存储器(Instruction Fetch Buffer)509,用于存储控制器504使用的指令。
控制器504,用于调用取指存储器509中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器506,输入存储器501,权重存储器502以及取指存储器509均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory,简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory,HBM)或其他可读可写的存储器。
请参见图6,图6为本申请实施例提供的一种虚拟人视频生成方法的流程示意图,该方法包括步骤S610、S620、S630和S640。此方法可以位于前述实施例中的用户设备110、或数据处理设备120上。
S610:获取驱动文本。
其中,上述驱动文本为直接用于生成虚拟人视频的驱动文本,即最终生成的虚拟人视频与该驱动文本的语义信息是相对应的。
具体地,可以通过两种方式来获取用于直接生成虚拟人视频的驱动文本:(一)直接获取用于生成虚拟人视频的驱动文本;(二)获取用于生成虚拟人视频的驱动语音,然后将驱动语音转化为对应的驱动文本,供后续生成虚拟人视频的过程来使用。
可选地,上述将驱动语音转换为驱动文本的过程可以是由自动语音识别(Automatic Speech Recognition,ASR)或其它相应的方法实现,本申请不做限定。
S620:基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型。
S630:基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示。
可选地,动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。即通过时间段—动作类型这种数据结构来表征第一视频每帧中人物的动作类型。
其中,上述动作类型指第一视频中人物的肢体动作类型,包括手部动作类型和/或腿部动作类型。
例如,动作标注的数据结构可以是:“3-7s:左手在前”;“7-11s:右手在前”;“11-15s:右手OK手势”;“15-20s:双手合并”。
进一步,可选地,在上述“时间段—动作类型”的数据结构中,该时间段内人物的动作过程为:从双手合并(静默状态)开始到做具体动作,再恢复双手合并的状态。
再例如,动作标注的数据结构可以是:“3-7s:左手在前+左脚在前”;“7-11s:右手在前+右脚在前”;“11-15s:右手OK手势+双脚合并”;“15-20s:双手合并+双脚合并”。
应当理解,本领域技术人员也可采用其它数据结构来表示第一视频的动作标注。
其中,上述动作类型通过文本进行表征。
具体地,驱动文本与动作类型之间具有映射关系:即某一特定语义信息对应特定的一个或多个动作类型。例如:某一段文本的语义表示人物在开始介绍某一事物时,此时这段文本对应的动作类型为左手在前和/或右手在前;当某一段文本的语义表示人物在详细介绍某一事物时,这段文本对应的动作类型为双手合并。
可选地,驱动文本与动作类型之间的映射关系可以通过预设的映射关系模型、深度学习模型或其它算法来表征。即本申请可以通过映射关系模型或深度学习来生成驱动文本在第一视频中对应的动作表示。
其中,上述映射关系模型是通过人工建立文本语义与动作类型之间的对应关系得到的,即可以通过映射关系模型中查询到任一段文本语义所对应的动作类型。
(一)通过映射关系模型来生成动作表示的过程如下:
所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
具体地,从映射关系模型中搜索出与驱动文本对应的动作类型;然后基于动作标注中动作类型与第一视频中视频帧的对应关系,确定搜索出的动作类型在第一视频中所对应的视频帧;最后基于该对应的视频帧提取驱动文本在第一视频中的动作表示。
例如,基于映射关系模型搜索出的与驱动文本对应的动作类型包括左手在前、右手在前和右手OK手势。这三种动作类型在第一视频中的动作标注中对应的时间段分别为3-7s、10-15s和15-20s。然后基于此第一视频在这三段时间内的视频帧提取出驱动文本对应的动作表示。
(二)通过深度学习模型来生成动作表示的过程如下:
所述基于所述驱动文本在动作标注中对应的动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型,并基于所述动作类型从所述第一视频中提取出与所述驱动文本对应的动作表示。
所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
其中,所述深度学习模型的训练数据包括第二视频、第二视频的动作标注和所述第二视频中的人物语音,所述第二视频的动作标注对应的动作规范和所述第一视频的动作标注对应的动作规范相同。
具体地,首先对深度学习模型进行训练。
可选地,深度学习模型的训练过程具体如下:选择训练数据,训练数据包括多个视频。以该多个视频中的第二视频为例描述多个视频中每个视频对应的一组具体训练数据。对于第二视频而言,其对应的一组训练数据包含第二视频、第二视频的动作标注、第二视频中人物语音所对应的文本、从第二视频中提取出的动作表示。其中,将第二视频、第二视频的动作标注、第二视频中人物的语音所对应的文本作为训练深度学习模型时的输入数据,将基于第二视频中提取出的动作表示作为对应的标签。利用上述多个视频分别对应的多组训练数据对深度学习模型进行训练,直到满足收敛条件,则深度学习模型的训练过程结束。
其中,上述第二视频中人物语音所对应的文本指通过人物语音转化得到的文本。
在训练过程中,深度学习模型会基于训练数据来学习文本与动作标注中的动作类型之间的对应关系。
应当理解,上述训练过程可以位于数据处理设备120或训练设备220上,此处不再赘述。
在深度学习模型的训练结束后,将第一视频、第一视频的动作标注和驱动文本输入深度学习模型中,深度学习模型会基于在训练过程中学习到的文本与动作类型之间的对应关系,确定驱动文本在动作标注中对应的动作类型;然后深度学习模型基于所确定的动作类型从第一视频中确定驱动文本所对应的视频帧;最后基于该对应的视频帧提取驱动文本在第一视频中的动作表示。
应当理解,上述深度学习模型可以是AlexNet、VGG Net或GoogleNet等可行的网络模型,本申请对此不限定。
可选地,上述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
其中,上述肢体动作视频帧为第一视频中的视频帧,具体地,肢体动作视频帧可以是在上述基于驱动文本确定对应的动作类型后,基于该对应的动作类型在第一视频中确定的对应视频帧。
例如,基于映射关系模型或者深度学习模型搜索出的与驱动文本对应的动作类型包括左手在前、右手在前和右手OK手势。这三种动作类型在第一视频中的动作标注中对应的时间段分别为3-7s、10-15s和15-20s。此时,将这三个时间段内的视频帧作为驱动文本对应的动作表示。
其中,上述肢体关键点信息为从上述肢体动作视频帧中提取出的。肢体关键点信息通过描述人物肢体的关键点在平面或空间中的相对位置来描述人物的肢体动作。其中,人物肢体关键点包括但不限于左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕,以及手掌上的各手指的指尖和各节指骨连接点。
进一步地,以食指为例,食指上的关键点包括食指指尖、食指指根和食指中间关节连接点。
应当理解,动作表示也可以采用其它描述第一视频中人物肢体动作的数据结构,本申请对此不限定。
进一步地,上述第一视频的动作标注中的动作类型、第二视频的动作标注中的动作类型,以及映射关系模型中包含的动作类型是按照预设的动作规范进行划分的。
从技术效果上看,本申请可以基于特定的场景需求来确定该预设的动作规范,然后基于预设的动作规范来划分动作类型(即如何划分人物的动作类型),进而使得搜索出的与驱动文本对应的动作类型满足该预设的动作规范,也即使得生成的虚拟人视频的动作满足预设的动作规范,进而保证生成的虚拟人视频中人物动作的可控性和准确性,以及基于特定场景进行个性变化定制人物动作的需求。
可选地,所述动作标注中的动作类型是基于动作规范划分得到的;其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
其中,动作标注的动作规范指动作标注中的动作类型是基于动作规范进行划分得到的,即动作规范用于表征动作类型的划分方式。
例如,上述动作规范可以是人物的具体动作姿势/手势,此时基于动作规范划分出的动作类型包括:左手在前、右手在前、双手合并、OK手势、竖大拇指手势、挥手等。
在另外的示例中,上述动作规范可以是语音播报场景下的介绍过程,此时基于动作规范划分出的动作类型包括:开始介绍动作和详细介绍动作;其中,开始介绍动作包含左手在前/右手在前,详细介绍动作包含双手合并。
再例如,上述动作规范可以是手部位置和具体手部动作,此时基于动作规范划分出的动作类型包括:右手体侧向上滑动、右手体侧向下滑动、左手体侧向下滑动、左手体侧向上滑动、右手体侧向左滑动、右手体侧向右滑动、右手体侧画圈、左手体侧画圈、右手指向右侧、右手指向左侧、左手指向右侧、左手指向左侧等。
又例如,上述动作规范可以是手势语义,此时基于动作规范划分出的动作类型包括:比心手势、作揖、点赞、作别、数字手势(例如,用手指作出数字2的手势)等。
应当理解,本领域技术人员也可以基于特定的应用场景来定制特定的动作规范,基于该特定动作规范划分出的每个动作类型可以包括上述一个或多个具体的动作姿势/手势。
S640:基于所述动作表示,生成虚拟人视频。
具体地,上述过程包括:获取与所述驱动文本对应的驱动语音;基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。
可选地,上述与驱动文本对应的驱动语音可以是直接获取到的,或者通过驱动文本转换到的。
进一步,可选地,驱动文本转换为驱动语音的过程可以由文本转语音(TextToSpeech,TTS)或其它可行的技术来实现,本申请对此不限定。
具体地,人物在讲述驱动语音时,唇部、脸部会产生相应的动作,即不同内容的驱动语音对应不同的头部动作。上述基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示的过程,具体为:从第一视频中提取出不同内容的驱动语音所对应的头部动作(即头部表示)。
可选地,上述基于驱动语音和第一视频生成头部表示的过程可以由音唇同步算法、说话者头像生成Talking Head Generation算法、说话者脸部生成Talking FaceGeneration算法或其它可行的算法中的一种或多种来实现,本申请对此不限定。
可选地,上述头部表示可以是从第一视频中提取出的人物头部图片,或者人物头部关键点信息。其中,人物头部关键点信息用于描述人物头部关键点在平面或空间中的相对位置。
可选地,人物头部关键点包括唇部、脸部、额头、眉毛等关键点。
上述基于头部表示和所述动作表示合成所述虚拟人视频,包括:将任一时刻驱动语音对应的头部表示和该时刻驱动文本所对应的动作表示进行合成,得到该时刻下虚拟人图片,然后将驱动语音/驱动文本每个时刻所对应的虚拟人图片进行拼接,得到驱动语音/驱动文本对应的虚拟人视频。
例如,基于音唇同步算法或其它可行的算法生成驱动语音中第3-5s的内容在第一视频中对应的人物头部动作,并基于预设映射关系模型或深度学习模型提取驱动语音中第3-5s内容对应的驱动文本在第一视频中对应第8-10s内的人物肢体动作,此时可以将第一视频中第5-7s内的人物头部动作图片作为头部表示,将第一视频中第8-10s内的人物肢体动作图片作为动作表示;然后将第5-7s内的人物头部动作图片和8-10s内的人物肢体动作图片合成,生成驱动语音中第3-5s所对应的虚拟人视频。
请参见图7,图7为本申请实施例提供的一种虚拟人视频的生成过程示意图。其用于描述利用预设映射关系模型和训练好的深度学习模型进行推理,得到虚拟人视频的过程。
如图7所示,在推理过程中,输入数据包括第一视频、第一视频的动作标注、与第一视频独立的驱动文本和/或驱动语音。
输入第一视频、驱动文本和动作标注,基于预设映射关系模型或深度学习模型提取驱动文本对应的动作表示。
输入第一视频和驱动语音,基于音唇同步算法或说话者头像生成算法等生成与驱动语音对应的头部表示。
最后,基于驱动语音和驱动文本在时间上的对应关系,将与驱动文本对应的动作表示和与驱动语音对应的头部表示进行合成,生成驱动语音/驱动文本对应的虚拟人视频。
具体地,上述步骤的具体过程可以参见前述实施例中的相关描述,此处不再赘述。
请参见图8,图8为本申请实施例提供的一种虚拟人视频生成装置。该装置包括获取单元810、处理单元820和生成单元830。其中,
获取单元810用于获取驱动文本。处理单元820用于基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;以及还用于基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示。生成单元830用于基于所述动作表示,生成虚拟人视频。
在一种可行的实施方式中,在所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型的方面,所述处理单元具体用于:基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型,并基于所述动作类型在所述第一视频中对应的视频帧提取所述动作表示;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
在一种可行的实施方式中,在所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型的方面,所述处理单元具体用于:基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型,并基于所述动作类型从所述第一视频中提取出与所述驱动文本对应的动作表示。
在一种可行的实施方式中,在所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示的方面,所述处理单元具体用于:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
在一种可行的实施方式中,所述动作标注中的动作类型是基于动作规范划分得到的;其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
在一种可行的实施方式中,所述生成单元具体用于:获取与所述驱动文本对应的驱动语音;基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。
在一种可行的实施方式中,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
在一种可行的实施方式中,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。
具体地,上述虚拟人视频生成装置的具体过程可以参见前述方法实施例中的对应描述,此处不再赘述。
请参见图9,图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示,该设备包括处理器901、存储器902、接口电路903和总线904。
处理器901,用于通过接口电路903获取驱动文本。处理器901还用于基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;以及基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示。处理器901还用于基于所述动作表示,生成虚拟人视频。
应当理解,本申请实施例中电子设备上处理器和存储器的具体运行过程可以参见前述方法实施例中的对应过程,此处不再赘述。
本申请实施例提供了一种芯片系统,所述芯片系统包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,上述方法实施例中记载的任意一种的部分或全部步骤得以实现。
本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被执行时,使得上述方法实施例中记载的任意一种的部分或全部步骤得以实现。
本申请实施例提供了一种计算机程序,该计算机程序包括指令,当该计算机程序被处理器执行时,使得上述方法实施例中记载的任意一种的部分或全部步骤得以实现。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (19)
1.一种虚拟人视频生成方法,其特征在于,所述方法包括:
获取驱动文本;
基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;
基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;
基于所述动作表示,生成虚拟人视频。
2.根据权利要求1所述的方法,其特征在于,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:
基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
3.根据权利要求1所述的方法,其特征在于,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:
基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:
基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述动作标注中的动作类型是基于动作规范划分得到的;
其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述基于所述动作表示,生成虚拟人视频,包括:
获取与所述驱动文本对应的驱动语音;
基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;
其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。
9.一种虚拟人视频生成装置,其特征在于,所述装置包括:
获取单元,用于获取驱动文本;
处理单元,用于基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;以及还用于基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;
生成单元,用于基于所述动作表示,生成虚拟人视频。
10.根据权利要求9所述的装置,其特征在于,在所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型的方面,所述处理单元具体用于:
基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
11.根据权利要求9所述的装置,其特征在于,在所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型的方面,所述处理单元具体用于:
基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型。
12.根据权利要求9-11中任一项所述的装置,其特征在于,在所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示的方面,所述处理单元具体用于:
基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
13.根据权利要求9-12中任一项所述的装置,其特征在于,所述动作标注中的动作类型是基于动作规范划分得到的;
其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
14.根据权利要求9-13中任一项所述的装置,其特征在于,所述生成单元具体用于:
获取与所述驱动文本对应的驱动语音;
基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;
其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。
15.根据权利要求9-14中任一项所述的装置,其特征在于,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
16.根据权利要求9-15中任一项所述的装置,其特征在于,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。
17.一种电子设备,其特征在于,所述电子设备包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,权利要求1-8中任一所述的方法得以实现。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被执行时,权利要求1-8中任意一项所述的方法得以实现。
19.一种计算机程序,其特征在于,该计算机程序包括指令,当该计算机程序被执行时,权利要求1-8中任意一项所述的方法得以实现。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210457342.0A CN117011401A (zh) | 2022-04-27 | 2022-04-27 | 虚拟人视频生成方法和装置 |
PCT/CN2023/081634 WO2023207391A1 (zh) | 2022-04-27 | 2023-03-15 | 虚拟人视频生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210457342.0A CN117011401A (zh) | 2022-04-27 | 2022-04-27 | 虚拟人视频生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011401A true CN117011401A (zh) | 2023-11-07 |
Family
ID=88517270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210457342.0A Pending CN117011401A (zh) | 2022-04-27 | 2022-04-27 | 虚拟人视频生成方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117011401A (zh) |
WO (1) | WO2023207391A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667068A (zh) * | 2019-09-30 | 2021-04-16 | 北京百度网讯科技有限公司 | 虚拟人物的驱动方法、装置、设备及存储介质 |
JP7066764B2 (ja) * | 2020-01-22 | 2022-05-13 | グリー株式会社 | コンピュータプログラム、方法及びサーバ装置 |
CN113395542B (zh) * | 2020-10-26 | 2022-11-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频生成方法、装置、计算机设备及介质 |
CN113192161B (zh) * | 2021-04-22 | 2022-10-18 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN114401438B (zh) * | 2021-12-31 | 2022-12-09 | 魔珐(上海)信息科技有限公司 | 虚拟数字人的视频生成方法及装置、存储介质、终端 |
-
2022
- 2022-04-27 CN CN202210457342.0A patent/CN117011401A/zh active Pending
-
2023
- 2023-03-15 WO PCT/CN2023/081634 patent/WO2023207391A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023207391A1 (zh) | 2023-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
US20230042654A1 (en) | Action synchronization for target object | |
CN110532996B (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN111837142A (zh) | 用于表征视频内容的深度强化学习框架 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
US11776269B2 (en) | Action classification in video clips using attention-based neural networks | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN111967334A (zh) | 一种人体意图识别方法、系统以及存储介质 | |
CN113656563A (zh) | 一种神经网络搜索方法及相关设备 | |
CN113903067A (zh) | 虚拟对象视频的生成方法、装置、设备及介质 | |
Xu et al. | Text-guided human image manipulation via image-text shared space | |
CN116910201A (zh) | 一种对话数据生成方法及其相关设备 | |
CN111445545A (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN116361512A (zh) | 基于文字的虚拟人模型驱动方法、装置和计算机设备 | |
CN115795025A (zh) | 一种摘要生成方法及其相关设备 | |
CN116312489A (zh) | 一种模型训练方法及其相关设备 | |
CN117011401A (zh) | 虚拟人视频生成方法和装置 | |
CN113420783B (zh) | 一种基于图文匹配的智能人机交互方法及装置 | |
CN113901267A (zh) | 动作视频的生成方法、装置、设备及介质 | |
Raju et al. | Continuous multi-modal emotion prediction in video based on recurrent neural network variants with attention | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 | |
CN116758908B (zh) | 基于人工智能的交互方法、装置、设备及存储介质 | |
CN117455926A (zh) | 图像分割方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |