CN115643467A - 虚拟人物直播方法、装置、电子设备及存储介质 - Google Patents

虚拟人物直播方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115643467A
CN115643467A CN202211587956.7A CN202211587956A CN115643467A CN 115643467 A CN115643467 A CN 115643467A CN 202211587956 A CN202211587956 A CN 202211587956A CN 115643467 A CN115643467 A CN 115643467A
Authority
CN
China
Prior art keywords
behavior
decision result
decision
layer
virtual character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211587956.7A
Other languages
English (en)
Inventor
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongmian Xiaoice Technology Co Ltd
Original Assignee
Beijing Hongmian Xiaoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongmian Xiaoice Technology Co Ltd filed Critical Beijing Hongmian Xiaoice Technology Co Ltd
Priority to CN202211587956.7A priority Critical patent/CN115643467A/zh
Publication of CN115643467A publication Critical patent/CN115643467A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种虚拟人物直播方法、装置、电子设备及存储介质,通过实时获取弹幕信息,基于弹幕信息进行行为决策,得到行为决策结果,其中,行为决策包括语言决策、面部决策、肢体决策中的至少一种,基于行为决策结果,生成行为决策结果对应的行为信号,基于行为信号,生成虚拟人物的直播视频。通过这样的方式,可以基于弹幕信息,获取行为信号,进而生成虚拟人物的直播视频,即直播视频是基于观众发送的弹幕信息生成的,观众可以看到虚拟人物做出与弹幕信息对应的行为和/或说出与弹幕信息对应的语言,实现了在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。

Description

虚拟人物直播方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种虚拟人物直播方法、装置、电子设备及存储介质。
背景技术
目前,随着计算机技术的发展,用户(观众)可以通过观看直播的方式进行学习、购物等活动,极大地丰富了人们的生活。
虚拟人物直播是直播的一种形式,虚拟人物直播的方式包括:第一种方式,虚拟人物按照预先获取的文稿进行广播,观众可以听见虚拟人物广播的文稿,但是虚拟人物与观众之间没有互动。为了提高虚拟人物与观众之间的互动性,可以采用虚拟人物直播的第二种方式,也就是由真人对虚拟人物的表情、动作等行为进行驱动,观众可以看见虚拟人物在直播,但实际上是真人在进行直播,可见第二种方式耗费了大量的人力。
因此,如何在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性的问题是目前业界亟待解决的重要课题。
发明内容
本发明提供一种虚拟人物直播方法、装置、电子设备及存储介质,用以解决现有技术中在虚拟人物直播的过程中,需要依赖真人对虚拟人物进行驱动的缺陷,实现在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。
本发明提供一种虚拟人物直播方法,方法包括:
实时获取弹幕信息;
基于所述弹幕信息进行行为决策,得到行为决策结果,其中,所述行为决策包括语言决策、面部决策、肢体决策中的至少一种;
基于所述行为决策结果,生成所述行为决策结果对应的行为信号;
基于所述行为信号,生成虚拟人物的直播视频。
根据本发明提供的一种虚拟人物直播方法,所述基于所述弹幕信息进行行为决策,得到行为决策结果的步骤,包括:
基于所述弹幕信息进行上层行为决策,得到上层行为决策结果,其中,所述上层行为决策包括上层语言决策、上层面部决策、上层肢体决策中的至少一种;
基于所述上层行为决策结果,进行下层行为决策处理。
根据本发明提供的一种虚拟人物直播方法,所述上层行为决策结果包括多种上层行为决策结果;
所述基于所述上层行为决策结果,进行下层行为决策处理的步骤,包括:
针对每种上层行为决策结果,在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果。
根据本发明提供的一种虚拟人物直播方法,所述上层行为决策结果包括上层语言决策结果;
所述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,包括:
在所述上层语言决策结果指示进行对应的下层语言决策的情况下,基于所述弹幕信息以及预先训练完毕的语言模型,得到下层语言决策结果。
根据本发明提供的一种虚拟人物直播方法,所述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,包括:
基于所述下层语言决策结果以及预先获取的声音模型,得到声音信号。
根据本发明提供的一种虚拟人物直播方法,所述上层行为决策结果包括上层面部决策结果;
所述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,包括:
在所述上层面部决策结果指示进行对应的下层面部决策的情况下,基于所述弹幕信息以及预先训练完毕的面部模型,得到下层面部决策结果。
根据本发明提供的一种虚拟人物直播方法,所述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,包括:
基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号。
根据本发明提供的一种虚拟人物直播方法,所述面部驱动模型包括嘴部驱动模型和表情驱动模型;
所述基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号的步骤,包括:
在获取到声音信号后,基于所述下层面部决策结果、所述声音信号以及所述嘴部驱动模型,生成嘴部驱动信息;
基于所述下层面部决策结果,以及所述表情驱动模型,生成表情驱动信号;
将所述嘴部驱动信息和所述表情驱动信号作为所述面部驱动信号。
根据本发明提供的一种虚拟人物直播方法,所述上层行为决策结果包括上层肢体决策结果;
所述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,包括:
在所述上层肢体决策结果指示进行对应的下层肢体决策的情况下,基于弹幕信息以及预先训练完毕的肢体模型,得到下层肢体决策结果。
根据本发明提供的一种虚拟人物直播方法,所述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,包括:
基于所述下层肢体决策结果,以及预先获取的肢体驱动模型,得到肢体驱动信号。
根据本发明提供的一种虚拟人物直播方法,所述行为信号包括:面部驱动信号、肢体驱动信号和声音信号;
所述基于所述行为信号,生成虚拟人物的直播视频的步骤,包括:
渲染所述面部驱动信号和所述肢体驱动信号,生成待处理图像;
将所述待处理图像,与所述声音信号结合,生成虚拟人物的直播视频。
本发明还提供一种虚拟人物直播装置,装置包括:
获取模块,用于实时获取弹幕信息;
决策模块,用于基于所述弹幕信息进行行为决策,得到行为决策结果,其中,所述行为决策包括语言决策、面部决策、肢体决策中的至少一种;
信号生成模块,用于基于所述行为决策结果,生成所述行为决策结果对应的行为信号;
视频生成模块,用于基于所述行为信号,生成虚拟人物的直播视频。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟人物直播方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚拟人物直播方法的步骤。
本发明提供的虚拟人物直播方法、装置、电子设备及存储介质,通过实时获取弹幕信息,基于弹幕信息进行行为决策,得到行为决策结果,其中,行为决策包括语言决策、面部决策、肢体决策中的至少一种,基于行为决策结果,生成行为决策结果对应的行为信号,基于行为信号,生成虚拟人物的直播视频。通过这样的方式,可以基于弹幕信息,获取行为信号,进而生成虚拟人物的直播视频,即直播视频是基于观众发送的弹幕信息生成的,观众可以看到虚拟人物做出与弹幕信息对应的行为和/或说出与弹幕信息对应的语言,实现了在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚拟人物直播方法的流程示意图之一;
图2是本发明提供的虚拟人物直播装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。本发明实施例提供了一种虚拟人物直播方法、装置、电子设备、非暂态计算机可读存储介质以及计算机程序产品。下面结合图1描述本发明实施例提供的一种虚拟人物直播方法:
如图1所示,本发明实施例公开了一种虚拟人物直播方法,方法包括:
S101,实时获取弹幕信息。
在虚拟人物直播的过程中,可以实时获取弹幕信息,弹幕信息可以包括观看直播的用户(观众)发送的信息,还可以包括观众针对虚拟人物直播间进行的相对应的操作的通知,例如,弹幕信息可以包括观众向虚拟人物送礼物的通知。弹幕信息还可以包括观众在虚拟人物直播间办卡的通知。具体可以根据实际场景获取对应的弹幕信息,这都是合理的,在此不做具体限定。
在一种实施方式中,弹幕信息还可以包括发送弹幕的用户的ID(IdentityDocument,身份标识号),发送弹幕的用户在虚拟人物直播间的等级,发送弹幕的用户在虚拟人物直播间的历史操作信息等,这都是合理的,在此不做具体限定。
S102,基于所述弹幕信息进行行为决策,得到行为决策结果。其中,所述行为决策包括语言决策、面部决策、肢体决策中的至少一种。
在获取到弹幕信息后,可以基于弹幕信息进行行为决策,得到行为决策结果。其中,行为决策结果为指示虚拟人物基于弹幕信息做出的对应的行为的决策结果。
在一种实施方式中,可以对弹幕信息进行解析,得到解析信息,进而可以基于解析信息进行行为决策,得到行为决策结果。针对实际场景的不同,可以基于弹幕信息进行语言决策、面部决策或肢体决策。也可以基于弹幕信息进行语言决策、面部决策、肢体决策中的任意两种决策。还可以基于弹幕信息进行语言决策、面部决策和肢体决策。这都是合理的,在此不做具体限定。
在弹幕信息为表征用户需求的信息的情况下,可以对该弹幕信息进行语言理解,得到语言理解结果,进而,基于语言理解结果进行行为决策,得到行为决策结果。其中,用户需求可以为用户问问题,需要虚拟人物进行回答。用户需求也可以为用户需要虚拟人物推荐歌曲、电影、书籍等。用户需求还可以为用户点歌,需要虚拟人物唱出对应的歌曲。这都是合理的,在此不做具体限定。
作为一种实施方式,在涉及到唱歌场景的情况下,虚拟人物还可以针对用户发送的弹幕信息进行歌曲推荐。例如,可以根据各个用户的点歌对应的弹幕信息、虚拟人物在唱歌之后各个用户发送的歌曲满意度相关的弹幕信息等训练个性化歌曲推荐模型,以便实现虚拟人物能够向用户推荐符合用户个人喜好的歌曲。
语言理解可以包括意图识别、语义识别、用户需求识别、用户性格识别中的一项或多项。当然也可以为自然语言处理中的其他语义理解技术,这都是合理的,在此不做具体限定。
在弹幕信息为用户针对虚拟人物直播间进行的相对应的操作的通知的信息的情况下,可以基于弹幕信息对应的用户的ID、弹幕信息对应的用户在虚拟人物直播间的等级、弹幕信息对应的用户在虚拟人物直播间的历史操作信息的一项或多项进行行为决策,得到行为决策结果。
在一种实施方式中,可以预先设置弹幕信息对应的场景与行为决策结果的对应关系。在实时获取到弹幕信息后,可以对当前弹幕信息对应的场景进行识别,进而基于当前弹幕信息对应的场景进行行为决策,也就是从预先设置的弹幕信息对应的场景与行为决策结果的对应关系中,查找与当前弹幕信息对应的场景相对应的当前行为决策结果。
例如,在直播刚开始的情况下,弹幕信息(当前弹幕信息)可以包括观众发送的“我来了”、“终于等到你”、“好开心”等信息,当前弹幕信息对应的场景为“虚拟人物开播”。在识别到当前弹幕信息对应的场景为“虚拟人物开播”的情况下,可以从预先设置的弹幕信息对应的场景与行为决策结果的对应关系中,查找“虚拟人物开播”相对应的当前行为决策结果,也就是虚拟人物开播行为决策结果。
其中,虚拟人物开播行为决策结果可以为指示虚拟人物做出和用户打招呼的行为的决策结果,举例来说,虚拟人物可以做出欢迎用户进入虚拟人物直播间的动作,虚拟人物还可以说“好久不见”、“今天天气真好”等问候语。
又例如,在虚拟人物完成表演的情况下,弹幕信息(当前弹幕信息)可以包括大量用户赞美的话语,当前弹幕信息对应的场景为“虚拟人物表达感谢”。在识别到当前弹幕信息对应的场景为“虚拟人物表达感谢”的情况下,可以从预先设置的弹幕信息对应的场景与行为决策结果的对应关系中,查找“虚拟人物表达感谢”相对应的当前行为决策结果,也就是虚拟人物表达感谢行为决策结果。
其中,虚拟人物表达感谢行为决策结果可以为指示虚拟人物做出感谢用户的行为的决策结果,举例来说,虚拟人物可以做出感谢用户赞美的动作,虚拟人物还可以说“谢谢夸奖”、“十分感谢”等问候语。
又例如,在弹幕信息(当前弹幕信息)可以包括用户向虚拟人物送礼的通知的信息的情况下,当前弹幕信息对应的场景为“虚拟人物收到礼物”。在识别到当前弹幕信息对应的场景为“虚拟人物收到礼物”的情况下,可以从预先设置的弹幕信息对应的场景与行为决策结果的对应关系中,查找“虚拟人物收到礼物”相对应的当前行为决策结果,也就是虚拟人物表达感谢行为决策结果。
其中,虚拟人物表达感谢行为决策结果可以为指示虚拟人物做出感谢用户送的礼物的行为的决策结果,举例来说,虚拟人物可以做出感谢用户送礼物的动作,当然也可以为其他预设的动作,虚拟人物还可以基于送礼物的用户的ID,以及用户送出的礼物,说对应的感谢语。
作为一种实施方式,行为决策可以包括上层行为决策以及下层行为决策,在获取到弹幕信息后,可以进行上层行为决策以及下层行为决策,从而得到对应的行为决策结果。
S103,基于所述行为决策结果,生成所述行为决策结果对应的行为信号。
在获取到行为决策结果的情况下,可以基于行为决策结果,生成行为决策结果对应的行为信号,其中,行为决策结果可以包括语言决策结果、面部决策结果、肢体决策结果中的至少一种。
在行为决策结果包括语言决策结果的情况下,可以基于语言决策结果,生成语音信号,其中,语言决策结果可以包括能够指示虚拟人物是否说话,以及在说话的情况下,虚拟人物说话的内容的决策结果。相应地,语言信号可以包括控制虚拟人物说话的信号,或语言信号可以包括控制虚拟人物不说话的信号。
语音信号还可以指示虚拟人物的说话的内容的信号,进而在语言信号包括控制虚拟人物说话的信号的情况下,可以基于语音信号生成虚拟人物的声音信号,声音信号为虚拟人物基于弹幕信息进行说话的信号,也就是用户可以听见的声音对应的信号。
在行为决策结果包括面部决策结果的情况下,可以基于面部决策结果,生成面部驱动信号,其中,面部决策结果可以包括能够指示虚拟人物是否改变面部表情,以及在改变面部表情的情况下,虚拟人物改变后的面部表情的决策结果。相应地,面部驱动信号可以包括控制虚拟人物改变面部表情的信号,或面部驱动信号可以包括控制虚拟人物保持面部表情不变的信号。面部驱动信号还可以包括指示虚拟人物的面部表情变化的内容的信号。
在行为决策结果包括肢体决策结果的情况下,可以基于肢体决策结果,生成肢体驱动信号,其中,肢体决策结果可以包括能够指示虚拟人物是否改变肢体动作,以及在改变肢体动作的情况下,虚拟人物改变后的肢体动作的决策结果。相应地,肢体驱动信号可以包括控制虚拟人物改变肢体动作的信号,或肢体驱动信号可以包括控制虚拟人物保持肢体动作不变的信号。肢体驱动信号还可以包括指示虚拟人物的肢体动作变化的内容的信号。
S104,基于所述行为信号,生成虚拟人物的直播视频。
在获取到行为信号后,可以基于行为信号,生成虚拟人物的直播视频。根据实际情况的不同,可以基于声音信号、面部驱动信号、肢体驱动信号中的一项或多项,生成虚拟人物的直播视频。
可见,在本实施例中,直播视频是基于观众发送的弹幕信息生成的。观众可以看到虚拟人物做出与弹幕信息对应的行为和/或说出与弹幕信息对应的语言,实现了在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。
作为本发明实施例的一种实施方式,上述基于所述弹幕信息进行行为决策,得到行为决策结果的步骤,可以包括:
基于所述弹幕信息进行上层行为决策,得到上层行为决策结果。基于所述上层行为决策结果,进行下层行为决策处理。其中,上层行为决策包括上层语言决策、上层面部决策、上层肢体决策中的至少一种。上层行为决策结果用于指示虚拟人物是否进行对应的下层行为决策。
上层行为决策结果可以包括上层语言决策结果、上层面部决策结果、上层肢体动作决策结果。其中,上层语言决策结果用于指示虚拟人物是否说话,在上层语言决策结果指示虚拟人物不说话的情况下,确定上层语言决策结果指示虚拟人物不进行上层语言决策对应的下层行为决策,即上层语言决策结果指示虚拟人物不进行下层语言决策。
在上层语言决策结果指示虚拟人物说话的情况下,确定上层语言决策结果指示虚拟人物进行上层语言决策对应的下层行为决策,即上层语言决策结果指示虚拟人物进行下层语言决策。
上层面部决策结果用于指示虚拟人物是否改变面部表情,在上层面部决策结果指示虚拟人物不改变面部表情的情况下,确定上层面部决策结果指示虚拟人物不进行上层面部决策对应的下层行为决策,即上层面部决策结果指示虚拟人物不进行下层面部决策。
在上层面部决策结果指示虚拟人物改变面部表情的情况下,确定上层面部决策结果指示虚拟人物进行上层面部决策对应的下层行为决策,即上层面部决策结果指示虚拟人物进行下层面部决策。
上层肢体决策结果用于指示虚拟人物是否改变肢体动作,在上层肢体决策结果指示虚拟人物不改变肢体动作的情况下,确定上层肢体决策结果指示虚拟人物不进行上层肢体决策对应的下层行为决策,即上层肢体决策结果指示虚拟人物不进行下层肢体决策。
在上层肢体决策结果指示虚拟人物改变肢体动作的情况下,确定上层肢体决策结果指示虚拟人物进行上层肢体决策对应的下层行为决策,即上层肢体决策结果指示虚拟人物进行下层肢体决策。
可见,在本实施例中,可以基于弹幕信息进行上层行为决策,得到上层行为决策结果,进而基于上层行为决策结果,进行下层行为决策处理。这样可以实现对虚拟人物的行为的决策,以便后续能够生成虚拟人物的直播视频,实现在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。
作为本发明实施例的一种实施方式,上述上层行为决策结果包括多种上层行为决策结果,即可以包括上层语言决策结果、上层面部决策结果、上层肢体动作决策结果。
上述基于所述上层行为决策结果,进行下层行为决策处理的步骤,可以包括:
针对每种上层行为决策结果,在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果。其中,下层行为决策结果可以包括:下层语言决策结果、下层面部决策结果、下层肢体动作决策结果。
在上层语言决策结果指示虚拟人物进行下层语言决策的情况下,可以进行下层语言决策,得到下层语言决策结果,其中,下层语言决策结果用于指示虚拟人物说话的内容。换句话说,下层语言决策结果用于指示虚拟人物说什么话。
在上层面部决策结果指示虚拟人物进行下层面部决策的情况下,可以进行下层面部决策,得到下层面部决策结果,其中,下层面部决策结果用于指示虚拟人物的面部表情变化的内容。换句话说,下层面部决策结果用于指示虚拟人物改变成什么样的面部表情。
在上层肢体决策结果指示虚拟人物进行下层肢体决策的情况下,可以进行下层肢体决策,得到下层肢体决策结果,其中,下层肢体决策结果用于指示虚拟人物的肢体动作变化的内容。换句话说,下层肢体决策结果用于指示虚拟人物改变成什么样的肢体动作。
可见,在本实施例中,可以获取到下层行为决策结果,也就是获取到虚拟人物说话的内容、动作变化的内容、肢体动作变化的内容,这样便可以得到虚拟人物基于弹幕信息做出的行为,以便后续能够生成虚拟人物的直播视频,实现在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。
作为本发明实施例的一种实施方式,上述上层行为决策结果可以包括上层语言决策结果。
上述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,可以包括:
在所述上层语言决策结果指示进行对应的下层语言决策的情况下,基于所述弹幕信息以及预先训练完毕的语言模型,得到下层语言决策结果。
预先训练完毕的语言模型可以为基于真人主播基于弹幕信息进行对话的样本,以及第一初始模型进行训练得到的。其中,真人主播基于弹幕信息进行对话的样本可以包括样本弹幕信息,以及样本语言决策结果,样本语言决策结果即为真人主播针对样本弹幕信息回复的语言。
在一种实施方式中,可以将每个样本弹幕信息分别输入至第一初始模型,得到对应的预测语言决策结果,基于每个样本弹幕信息对应的预测语言决策结果,与样本弹幕信息对应的样本语言决策结果之间的差异,调整第一初始模型的模型参数,直到第一初始模型收敛,得到语言模型。
可见,在本实施例中,可以将弹幕信息输入至预先训练完毕的语言模型,从而更加快速地得到下层语言决策结果。
作为本发明实施例的一种实施方式,上述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,可以包括:
基于所述下层语言决策结果以及预先获取的声音模型,得到声音信号。
其中,预先获取的声音模型可以为基于虚拟人物的形象,预先训练的能够赋予虚拟人物声音特点的声音模型,其中,虚拟人物的声音特点可以包括虚拟人物声音的性别、虚拟人物的声线、虚拟人物说话的语调、虚拟人物说话的断句的方式的等,这都是合理的,在此不作具体限定。
在一种实施方式中,可以将下层语言决策结果输入至预先获取的声音模型,得到赋予虚拟人物声音特点的声音信号。在另一种实施方式中,还可以在基于下层语言决策结果,生成语言信号后,将语言信号输入至预先获取的声音模型,得到赋予虚拟人物声音特点的声音信号。
可见,在本实施例中,可以基于下层语言决策结果以及预先获取的声音模型,得到赋予虚拟人物声音特点的声音信号,可以提高虚拟人物与观众的互动性。
作为本发明实施例的一种实施方式,上述上层行为决策结果包括上层面部决策结果。
上述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,可以包括:
在所述上层面部决策结果指示进行对应的下层面部决策的情况下,基于所述弹幕信息以及预先训练完毕的面部模型,得到下层面部决策结果。
预先训练完毕的面部模型可以为基于真人主播基于弹幕信息所做的面部表情的样本,以及第二初始模型进行训练得到的。其中,真人主播基于弹幕信息所做的面部表情的样本可以包括样本弹幕信息,以及样本面部表情决策结果,样本面部表情决策结果即为真人主播针对样本弹幕信息所做出的面部表情。
在一种实施方式中,可以将每个样本弹幕信息分别输入至第二初始模型,得到对应的预测面部表情决策结果,基于每个样本弹幕信息对应的预测面部表情决策结果,与样本弹幕信息对应的样本面部表情决策结果之间的差异,调整第二初始模型的模型参数,直到第二初始模型收敛,得到面部模型。
可见,在本实施例中,可以基于弹幕信息以及预先训练完毕的面部模型,快速得到下层面部决策结果。
作为本发明实施例的一种实施方式,上述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,可以包括:
基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号。
在一种实施方式中,下层面部决策结果用于指示虚拟人物的面部表情变化的内容,例如,下层面部决策结果可以指示虚拟人物做出看弹幕的面部表情。下层面部决策结果也可以指示虚拟人物做出眨眼睛的面部表情。下层面部决策结果还可以指示虚拟人物做出微笑的面部表情。下层面部决策结果还可以指示虚拟人物在说话的过程中,嘴部对应的动作。这都是合理的,在此不做具体限定。
在获取到下层面部决策结果后,可以将下层面部决策输入至预先获取的面部驱动模型,从而可以得到下层面部决策所指示的虚拟人物的面部表情变化的内容对应的面部驱动信号。
可见,在本实施例中,可以基于下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号,可以提高虚拟人物与观众的互动性。
作为本发明实施例的一种实施方式,上述面部驱动模型可以包括嘴部驱动模型和表情驱动模型。
上述基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号的步骤,可以包括:
在获取到声音信号后,基于所述下层面部决策结果、所述声音信号以及所述嘴部驱动模型,生成嘴部驱动信息。
在获取到声音信号后,可以将声音信号以及下层面部决策结果,均输入至预先获取的嘴部驱动模型,从而可以得到下层面部决策所指示的虚拟人物在说话的过程中嘴部的动作对应的嘴部驱动信号,以及声音信号对应的虚拟人物的嘴部驱动信号。
基于所述下层面部决策结果,以及所述表情驱动模型,生成表情驱动信号。将所述嘴部驱动信息和所述表情驱动信号作为所述面部驱动信号。
例如,表情驱动信号即为控制虚拟人物做出看弹幕的面部表情的信号、控制虚拟人物做出眨眼睛的面部表情的信号和/或控制虚拟人物做出微笑的面部表情的信号。
可见,在本实施例中,可以获取到虚拟人物的嘴部驱动信息和表情驱动信号,可以提高虚拟人物与观众的互动性。
作为本发明实施例的一种实施方式,上述上层行为决策结果可以包括上层肢体决策结果。
上述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,可以包括:
在所述上层肢体决策结果指示进行对应的下层肢体决策的情况下,基于弹幕信息以及预先训练完毕的肢体模型,得到下层肢体决策结果。
预先训练完毕的肢体模型可以为基于真人主播基于弹幕信息所做的肢体动作的样本,以及第三初始模型进行训练得到的。其中,真人主播基于弹幕信息所做的肢体动作的样本可以包括样本弹幕信息,以及样本肢体决策结果,样本肢体决策结果即为真人主播针对样本弹幕信息所做的肢体动作。
在一种实施方式中,可以将每个样本弹幕信息分别输入至第三初始模型,得到对应的预测肢体决策结果,基于每个样本弹幕信息对应的预测肢体决策结果,与样本弹幕信息对应的样本肢体决策结果之间的差异,调整第三初始模型的模型参数,直到第三初始模型收敛,得到肢体模型。
可见,在本实施例中,可以基于弹幕信息以及预先训练完毕的肢体模型,快速得到下层肢体决策结果。
作为本发明实施例的一种实施方式,上述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,可以包括:
基于所述下层肢体决策结果,以及预先获取的肢体驱动模型,得到肢体驱动信号。其中,肢体驱动信号即为控制虚拟人物做出相应肢体动作的信号。
可见,在本实施例中,可以获取到虚拟人物的肢体驱动信号,可以提高虚拟人物与观众的互动性。
作为本发明实施例的一种实施方式,上述基于所述弹幕信息进行行为决策,得到行为决策结果的步骤,可以包括:
将所述弹幕信息输入至预先训练完毕的强化学习模型,得到行为决策结果,其中,强化学习模型可以基于弹幕信息进行上层行为决策以及下层行为决策,从而得到行为决策结果,换句话说,强化学习模型可以用于实现使虚拟人物进行行为决策。
在一种实施方式中,强化学习模型可以同时包括上述语言模型、面部模型以及肢体模型。
在另一种实施方式中,强化学习模型可以为基于真人主播基于弹幕信息所做的行为的样本,以及第四初始模型进行训练得到的。其中,真人主播基于弹幕信息所做的行为的样本可以包括样本行为决策结果以及样本弹幕信息。样本行为决策结果可以包括样本语言决策结果、样本面部表情决策结果和样本肢体决策结果。
将每个样本弹幕信息分别输入至第四初始模型,得到对应的预测行为决策结果,基于每个样本弹幕信息对应的预测行为决策结果,与样本弹幕信息对应的样本行为决策结果之间的差异,调整第四初始模型的模型参数,直到第四初始模型收敛,得到强化学习模型。
强化学习模型可以为基于DNQ(Deep Q-Learning)算法得到模型,强化学习模型还可以为基于Policy gradient(策略梯度)算法得到模型。当然还可以为基于其他算法得到的模型,在此不做具体限定。
可见,在本实施例中,可以将弹幕信息输入至预先训练完毕的强化学习模型,从而可以快速得到行为决策结果。
作为本发明实施例的一种实施方式,上述行为信号可以包括:面部驱动信号、肢体驱动信号和声音信号。
上述基于所述行为信号,生成虚拟人物的直播视频的步骤,可以包括:
渲染所述面部驱动信号和所述肢体驱动信号,生成待处理图像。
为了能够获取虚拟人物的直播视频,可以将面部驱动信号与肢体驱动信号对应的时间轴对齐,对面部驱动信号和肢体驱动信号进行渲染,得到多帧待处理图像。
在一种实施方式中,可以对面部驱动信号、肢体驱动信号以及背景图像进行渲染,从而生成待处理图像。作为一种实施方式,可以将面部驱动信号以及肢体驱动信号输入至Neural Rendering(神经渲染)中,从而得到待处理图像。
将所述待处理图像,与所述声音信号结合,生成虚拟人物的直播视频。
在获取到待处理图像后,可以将多帧待处理图像与声音信号的时间轴对齐,从而便可以生成虚拟人物的直播视频,这样,便可以生成直播视频,直播视频是基于观众发送的弹幕信息生成的。观众可以看到虚拟人物做出与弹幕信息对应的行为和/或说出与弹幕信息对应的语言,实现了在不依赖真人驱动虚拟人物的情况下,提高虚拟人物与观众之间的互动性。
下面对本发明提供的虚拟人物直播装置进行描述,下文描述的虚拟人物直播装置与上文描述的虚拟人物直播方法可相互对应参照。
如图2所示,本发明实施例公开了一种虚拟人物直播装置,装置包括:
获取模块210,用于实时获取弹幕信号。
决策模块220,用于基于所述弹幕信息进行行为决策,得到行为决策结果。
其中,所述行为决策包括语言决策、面部决策、肢体决策中的至少一种。
信号生成模块230,用于基于所述行为决策结果,生成所述行为决策结果对应的行为信号。
视频生成模块240,用于基于所述行为信号,生成虚拟人物的直播视频。
作为本发明实施例的一种实施方式,上述决策模块220可以包括:
上层决策单元,用于基于所述弹幕信息进行上层行为决策,得到上层行为决策结果。
其中,所述上层行为决策包括上层语言决策、上层面部决策、上层肢体决策中的至少一种。
下层决策单元,用于基于所述上层行为决策结果,进行下层行为决策处理。
作为本发明实施例的一种实施方式,上述上层行为决策结果包括多种上层行为决策结果。
上述下层决策单元可以包括:
下层决策子单元,用于针对每种上层行为决策结果,在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果。
作为本发明实施例的一种实施方式,上述上层行为决策结果包括上层语言决策结果。
上述下层决策子单元可以包括:
下层语言决策子单元,用于在所述上层语言决策结果指示进行对应的下层语言决策的情况下,基于所述弹幕信息以及预先训练完毕的语言模型,得到下层语言决策结果。
作为本发明实施例的一种实施方式,上述信号生成模块230可以包括:
声音信号生成单元,用于基于所述下层语言决策结果以及预先获取的声音模型,得到声音信号。
作为本发明实施例的一种实施方式,上述上层行为决策结果包括上层面部决策结果。
上述下层决策子单元可以包括:
下层面部决策子单元,用于在所述上层面部决策结果指示进行对应的下层面部决策的情况下,基于所述弹幕信息以及预先训练完毕的面部模型,得到下层面部决策结果。
作为本发明实施例的一种实施方式,上述信号生成模块230可以包括:
面部信号生成单元,用于基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号。
作为本发明实施例的一种实施方式,上述面部驱动模型可以包括嘴部驱动模型和表情驱动模型。
上述面部信号生成单元可以包括:
嘴部驱动子单元,用于在获取到声音信号后,基于所述下层面部决策结果、所述声音信号以及所述嘴部驱动模型,生成嘴部驱动信息。
表情驱动子单元,用于基于所述下层面部决策结果,以及所述表情驱动模型,生成表情驱动信号。
面部驱动子单元,用于将所述嘴部驱动信息和所述表情驱动信号作为所述面部驱动信号。
作为本发明实施例的一种实施方式,上述上层行为决策结果包括上层肢体决策结果。
上述下层决策子单元可以包括:
下层肢体决策子单元,用于在所述上层肢体决策结果指示进行对应的下层肢体决策的情况下,基于弹幕信息以及预先训练完毕的肢体模型,得到下层肢体决策结果。
作为本发明实施例的一种实施方式,上述信号生成模块230可以包括:
肢体信号生成单元,用于基于所述下层肢体决策结果,以及预先获取的肢体驱动模型,得到肢体驱动信号。
作为本发明实施例的一种实施方式,上述行为信号包括:面部驱动信号、肢体驱动信号和声音信号。
上述视频生成模块240可以包括:
渲染单元,用于渲染所述面部驱动信号和所述肢体驱动信号,生成待处理图像。
结合单元,用于将所述待处理图像,与所述声音信号结合,生成虚拟人物的直播视频。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行虚拟人物直播方法,该方法包括:实时获取弹幕信息,基于弹幕信息进行行为决策,得到行为决策结果,其中,行为决策包括语言决策、面部决策、肢体决策中的至少一种,基于行为决策结果,生成行为决策结果对应的行为信号,基于行为信号,生成虚拟人物的直播视频。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的虚拟人物直播方法,该方法包括:实时获取弹幕信息,基于弹幕信息进行行为决策,得到行为决策结果,其中,行为决策包括语言决策、面部决策、肢体决策中的至少一种,基于行为决策结果,生成行为决策结果对应的行为信号,基于行为信号,生成虚拟人物的直播视频。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟人物直播方法,该方法包括:实时获取弹幕信息,基于弹幕信息进行行为决策,得到行为决策结果,其中,行为决策包括语言决策、面部决策、肢体决策中的至少一种,基于行为决策结果,生成行为决策结果对应的行为信号,基于行为信号,生成虚拟人物的直播视频。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种虚拟人物直播方法,其特征在于,所述方法包括:
实时获取弹幕信息;
基于所述弹幕信息进行行为决策,得到行为决策结果,其中,所述行为决策包括语言决策、面部决策、肢体决策中的至少一种;
基于所述行为决策结果,生成所述行为决策结果对应的行为信号;
基于所述行为信号,生成虚拟人物的直播视频。
2.根据权利要求1所述的一种虚拟人物直播方法,其特征在于,所述基于所述弹幕信息进行行为决策,得到行为决策结果的步骤,包括:
基于所述弹幕信息进行上层行为决策,得到上层行为决策结果,其中,所述上层行为决策包括上层语言决策、上层面部决策、上层肢体决策中的至少一种;
基于所述上层行为决策结果,进行下层行为决策处理。
3.根据权利要求2所述的一种虚拟人物直播方法,其特征在于,所述上层行为决策结果包括多种上层行为决策结果;
所述基于所述上层行为决策结果,进行下层行为决策处理的步骤,包括:
针对每种上层行为决策结果,在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果。
4.根据权利要求3所述的一种虚拟人物直播方法,其特征在于,所述上层行为决策结果包括上层语言决策结果;
所述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,包括:
在所述上层语言决策结果指示进行对应的下层语言决策的情况下,基于所述弹幕信息以及预先训练完毕的语言模型,得到下层语言决策结果。
5.根据权利要求4所述的一种虚拟人物直播方法,其特征在于,所述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,包括:
基于所述下层语言决策结果以及预先获取的声音模型,得到声音信号。
6.根据权利要求3所述的一种虚拟人物直播方法,其特征在于,所述上层行为决策结果包括上层面部决策结果;
所述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,包括:
在所述上层面部决策结果指示进行对应的下层面部决策的情况下,基于所述弹幕信息以及预先训练完毕的面部模型,得到下层面部决策结果。
7.根据权利要求6所述的一种虚拟人物直播方法,其特征在于,所述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,包括:
基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号。
8.根据权利要求7所述的一种虚拟人物直播方法,其特征在于,所述面部驱动模型包括嘴部驱动模型和表情驱动模型;
所述基于所述下层面部决策结果,以及预先获取的面部驱动模型,得到面部驱动信号的步骤,包括:
在获取到声音信号后,基于所述下层面部决策结果、所述声音信号以及所述嘴部驱动模型,生成嘴部驱动信息;
基于所述下层面部决策结果,以及所述表情驱动模型,生成表情驱动信号;
将所述嘴部驱动信息和所述表情驱动信号作为所述面部驱动信号。
9.根据权利要求3所述的一种虚拟人物直播方法,其特征在于,所述上层行为决策结果包括上层肢体决策结果;
所述在该上层行为决策结果指示进行对应的下层行为决策的情况下,进行下层行为决策,得到对应的下层行为决策结果的步骤,包括:
在所述上层肢体决策结果指示进行对应的下层肢体决策的情况下,基于弹幕信息以及预先训练完毕的肢体模型,得到下层肢体决策结果。
10.根据权利要求9所述的一种虚拟人物直播方法,其特征在于,所述基于所述行为决策结果,生成所述行为决策结果对应的行为信号的步骤,包括:
基于所述下层肢体决策结果,以及预先获取的肢体驱动模型,得到肢体驱动信号。
11.根据权利要求1-10任一项所述的一种虚拟人物直播方法,其特征在于,所述行为信号包括:面部驱动信号、肢体驱动信号和声音信号;
所述基于所述行为信号,生成虚拟人物的直播视频的步骤,包括:
渲染所述面部驱动信号和所述肢体驱动信号,生成待处理图像;
将所述待处理图像,与所述声音信号结合,生成虚拟人物的直播视频。
12.一种虚拟人物直播装置,其特征在于,所述装置包括:
获取模块,用于实时获取弹幕信息;
决策模块,用于基于所述弹幕信息进行行为决策,得到行为决策结果,其中,所述行为决策包括语言决策、面部决策、肢体决策中的至少一种;
信号生成模块,用于基于所述行为决策结果,生成所述行为决策结果对应的行为信号;
视频生成模块,用于基于所述行为信号,生成虚拟人物的直播视频。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述虚拟人物直播方法的步骤。
14.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述虚拟人物直播方法的步骤。
CN202211587956.7A 2022-12-12 2022-12-12 虚拟人物直播方法、装置、电子设备及存储介质 Withdrawn CN115643467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211587956.7A CN115643467A (zh) 2022-12-12 2022-12-12 虚拟人物直播方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211587956.7A CN115643467A (zh) 2022-12-12 2022-12-12 虚拟人物直播方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115643467A true CN115643467A (zh) 2023-01-24

Family

ID=84947950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211587956.7A Withdrawn CN115643467A (zh) 2022-12-12 2022-12-12 虚拟人物直播方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115643467A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116996703A (zh) * 2023-08-23 2023-11-03 中科智宏(北京)科技有限公司 一种数字人直播互动方法、系统、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116996703A (zh) * 2023-08-23 2023-11-03 中科智宏(北京)科技有限公司 一种数字人直播互动方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
US9621851B2 (en) Augmenting web conferences via text extracted from audio content
US11282516B2 (en) Human-machine interaction processing method and apparatus thereof
US10586131B2 (en) Multimedia conferencing system for determining participant engagement
WO2021196614A1 (zh) 一种信息的交互方法、交互装置、电子设备及存储介质
CN106796496A (zh) 显示设备及其操作方法
CN113067953A (zh) 客户服务方法、系统、装置、服务器及存储介质
US20240012839A1 (en) Apparatus, systems and methods for providing conversational assistance
CN112423081B (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN110557659A (zh) 视频推荐方法、装置、服务器及存储介质
CN112738557A (zh) 视频处理方法及装置
US11789695B2 (en) Automatic adjustment of muted response setting
KR20220123170A (ko) 인공지능 아바타 튜터를 활용한 회화 학습 시스템 및 그 방법
KR102462219B1 (ko) 화자 분리 기술을 이용한 회의록 자동 생성 방법
CN109377979B (zh) 更新欢迎语的方法和系统
CN115643467A (zh) 虚拟人物直播方法、装置、电子设备及存储介质
US20230410815A1 (en) Transcription generation technique selection
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN113900522B (zh) 一种虚拟形象的互动方法、装置
CN114694651A (zh) 智能终端控制方法、装置、电子设备及存储介质
CN112669416B (zh) 客服服务系统、方法、装置、电子设备及存储介质
KR102413860B1 (ko) 사용자 상태에 기반한 응답 음성을 생성하는 음성 에이전트 시스템 및 방법
CN117292022A (zh) 基于虚拟对象的视频生成方法、装置及电子设备
CN112185383A (zh) 一种用于客服回访的处理方法及系统
CN114461772A (zh) 数字人交互系统及其方法、装置、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230124

WW01 Invention patent application withdrawn after publication