CN117422798A - 虚拟人的交互方法、系统及存储介质 - Google Patents

虚拟人的交互方法、系统及存储介质 Download PDF

Info

Publication number
CN117422798A
CN117422798A CN202210813906.XA CN202210813906A CN117422798A CN 117422798 A CN117422798 A CN 117422798A CN 202210813906 A CN202210813906 A CN 202210813906A CN 117422798 A CN117422798 A CN 117422798A
Authority
CN
China
Prior art keywords
emotion
sequence
interaction
virtual
virtual person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210813906.XA
Other languages
English (en)
Inventor
高静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan United Imaging Healthcare Co Ltd
Original Assignee
Wuhan United Imaging Healthcare Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan United Imaging Healthcare Co Ltd filed Critical Wuhan United Imaging Healthcare Co Ltd
Priority to CN202210813906.XA priority Critical patent/CN117422798A/zh
Priority to PCT/CN2023/106843 priority patent/WO2024012462A1/zh
Publication of CN117422798A publication Critical patent/CN117422798A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种虚拟人的交互方法、系统及存储介质,交互方法包括:获取场景信息;基于场景信息驱动虚拟人的对场景信息进行的反馈交互,其中,包括:基于场景信息确定虚拟人的情感意图;根据情感意图生成虚拟人的运动序列和情感序列;基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。在与虚拟人进行交互时,通过实时获取的场景信息比如环境状态、物理人姿态、对话等信息,虚拟人做出反馈交互,实现真正的物理人与虚拟人的交互沟通,通过虚拟人自身的计算和判断确定交互下的情感意图,并基于情感意图生成运动序列和情感序列,进而基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。

Description

虚拟人的交互方法、系统及存储介质
技术领域
本发明属于智能机器人领域,特别涉及一种虚拟人的交互方法、系统及存储介质。
背景技术
随着元宇宙概念的兴起,虚拟数字人成为了该领域内的浪潮,现有技术中虚拟人主要分为2D虚拟人和3D虚拟人,2D虚拟人主要是视频方式生成并输出,而3D虚拟人是通过三维重建技术生成和渲染技术呈现,3D虚拟人具有更强的拟人性,可以赋予3D虚拟人拟人肢体动作和丰富的情感的脸部表情,能够逼近物理人。
目前3D虚拟人应用场景非常广泛,其基本都是通过真人(物理人)驱动,具体通过物理人实时驱动数字虚拟人进行相关肢体动作和表情变化,并通过语音合成方式设置特定语音。真人驱动需要通过视觉捕捉设备采集当前物理人脸部表情、手势和姿态动作等,来生成一个运动序列数据,再驱动虚拟人做出对应动作,这种物理人做什么动作,虚拟人同时也做相同的动作的方式,统称为真人驱动,真人驱动的计算驱动型技术流程主要为:首先,设计形象,扫描真人形态及表演、采集驱动数据;其次,对于扫描得到的真人形象进行建模并绑定;再次,基于真人获取的语音表达、面部表情、具体动作等进行驱动模型建立;最后对构建好的模型进行动态渲染,生成最终内容。上述的真人驱动实质上是一对一的模仿复制展示,虚拟人的交互反馈都依赖于其背后物理人的真实反馈。其交互的实质还是真人与真人的交互,只是换了一种虚拟人身而已,并不能将对话过程中人的随着语言等变化而变化的情感体现在3D虚拟人的交互反馈中。
发明内容
本发明要解决的技术问题是为了克服现有技术中3D虚拟数字人只能进行单纯技术交互,并没有进行更多的情感上的交互的缺陷,提供一种虚拟人的交互方法、系统及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种虚拟人的交互方法,交互方法包括:
获取场景信息;
基于场景信息驱动虚拟人的对场景信息进行的反馈交互,其中,包括:
基于场景信息确定虚拟人的情感意图;
根据情感意图生成虚拟人的运动序列和情感序列;
基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。
较佳地,场景信息包括环境信息,基于场景信息驱动虚拟人的对场景信息进行的反馈交互的步骤具体包括:
当检测到环境信息发生变化时,根据变化信息驱动虚拟人进行反馈交互。
较佳地,场景信息包括物理人的对话数据和/或物理人的姿态数据,基于场景信息确定虚拟人的情感意图的步骤具体包括:
基于物理人的对话数据和/或物理人的姿态数据确定虚拟人的情感意图。
较佳地,根据情感意图生成虚拟人的运动序列和情感序列的步骤具体包括:
将情感意图输入强化学习模型,输出虚拟人的运动序列和情感序列。
较佳地,交互场景分别与运动序列及情感序列设有对应关系,根据情感意图生成虚拟人的运动序列和情感序列的步骤具体包括:
确定当前交互场景;
根据对应关系确定虚拟人的与当前交互场景对应的初始运动序列和初始情感序列;
根据情感意图、初始运动序列和初始情感序列生成虚拟人的运动序列和情感序列。
较佳地,基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互的步骤具体包括:
若反馈交互包括对话交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的唇动动作;
若反馈交互包括表情交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的表情动作;
若反馈交互包括肢体交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的肢体动作。
较佳地,根据情感意图生成虚拟人的运动序列和情感序列的步骤具体包括:
根据情感意图生成包含时间戳的运动序列和包含时间戳的情感序列。
较佳地,虚拟人为多个,每个虚拟人设有不同的角色,根据情感意图生成虚拟人的运动序列和情感序列的步骤具体包括:
根据角色和情感意图生成与不同虚拟人对应的运动序列和情感序列。
较佳地,不同情感序列对应不同的渲染方案,渲染方案包括虚拟人的虚拟场景的背景渲染;
交互方法还包括:
获取与情感序列对应的目标渲染方案,并基于目标渲染方案对虚拟人的反馈交互进行渲染。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的虚拟人的交互方法。
一种虚拟人的交互系统,交互系统包括视觉捕捉器、运动驱动模块;
视觉捕捉器用于获取场景信息;
运动驱动模块用于基于场景信息驱动虚拟人的对场景信息进行的反馈交互,其中,运动驱动模块具体包括:
内容理解单元,用于基于场景信息确定虚拟人的情感意图;
序列生成单元,用于根据情感意图生成虚拟人的运动序列和情感序列;交互驱动单元,用于基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。
本发明的积极进步效果在于:在与虚拟人进行交互时,通过实时获取的场景信息比如环境状态、物理人姿态、对话等信息,虚拟人做出反馈交互,实现真正的物理人与虚拟人的交互沟通,通过虚拟人自身的计算和判断确定交互下的情感意图,并基于情感意图生成运动序列和情感序列,进而基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。
附图说明
图1为本发明实施例1的虚拟人的交互方法的流程图。
图2为本发明实施例3的虚拟人的交互系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种虚拟人的交互方法,如图1所示,交互方法包括:
步骤10、获取场景信息;
其中,虚拟人包括但不限于虚拟客服、虚拟医生、虚拟导游、虚拟引导员、虚拟管家等,进而场景信息包括但不限于:对话信息,比如基于聊天窗口的文本对话或者是语音对话;应用环境中的环境信息,比如环境温度、湿度等;基于不同位置点是否有人进行对应的内容解说;检测范围内检测对象的状态信息,比如门、灯、窗帘的开闭状态,电脑等设备的开关状态;与虚拟人进行对话的物理人的对话、肢体动作、表情动作信息等。另外,场景信息还可以是上述任意信息的组合。
步骤20、基于场景信息驱动虚拟人的对场景信息进行的反馈交互,其中,具体包括:
步骤201、基于场景信息确定虚拟人的情感意图;
步骤202、根据情感意图生成虚拟人的运动序列和情感序列;
步骤203、基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。
其中,比如针对检测范围内检测对象的状态信息:开门加开灯,可以推断为人进入,那么此时虚拟人生成的情感序列和运动序列应该是欢迎的动作和欢迎语,开门加关灯可以推断为人离开,那么此时虚拟人生成的情感序列和运动序列应该是留恋、再见相关的动作和反馈语言,进而再根据运动序列和情感序列驱动虚拟人进行反馈交互,其中运动序列包括虚拟人的姿态、脸部和手势等的综合运动。上述的状态信息可以通过环境视觉检测确定,对于使用行为的判定可以通过姿态预估等进行确定。
再比如,在与物理人的对话过程中,获取物理人的语音对话、肢体、表情等信息,进而提取分析得到对话人的情感信息,进而虚拟人基于该情感信息做出反馈交互,如物理人说了“今天我心情不好”,结合识别得到的物理人的沮丧的表情等,虚拟人生成的情感序列和运动序列可能会说“怎么了?”或“为什么心情不好”,同时配合安慰的表情和拥抱的动作,进而再根据运动序列和情感序列驱动虚拟人进行反馈交互。
需要说明的是,对于情感意图的分析为综合所有场景信息进行判定,以便于判别当前真实的情感。比如前述的场景下,门和灯开了,但是并未检测到有人出现时,则并不会进行交互反馈的驱动,再比如物理人说了“今天我心情不好”,但是,结合其肢体、表情,比如低头说话代表着语音真实性或者说谎,脸红代表着害羞,那么可能物理人说谎了,其真实情感并不是沮丧等,那么则并不会生成与安慰相关的运动序列和情感序列。另外,需要说明的是,除了通过同一时刻的不同场景信息进行综合判定真实的情感外,还可以通过同一场景信息的连续时间段内的多个不同的历史信息进行真实情感的综合判定。
本实施例中,若场景信息包括环境信息,提供步骤20的一种具体实现方式,包括:
当检测到环境信息发生变化时,根据变化信息驱动虚拟人进行反馈交互。
比如前述提到的门、窗灯状态的检测,其存在门的开闭的信息变化,再比如对于虚拟导游基于不同讲解点是否有人进行对应的内容解说,当检测到讲解点的人发生变化,比如性别、年龄等有所不同,一开始解说的时候是对这一个大人,当换成一个小孩的时候,虚拟人则会生成的新的情感序列和运动序列,再根据新的运动序列和情感序列驱动虚拟人进行反馈交互。其中,对于上述场景下的变化信息的检测,可以根据人脸特征或其变化来进行检测,比如不同的外貌如脸形、肤色等,不同的表情如眼、嘴的开与闭等,也可以依托人脸的遮挡如眼镜、头发和头部饰物以及其他外部物体等,根据检测得到的信息进行前后比较进而判读得到是否发生信息变化,并基于新的人的特征确定新的情感序列和运动序列。
本实施例中,场景信息包括物理人的对话数据和/或物理人的姿态数据,步骤201具体包括:
基于物理人的对话数据和/或物理人的姿态数据确定虚拟人的情感意图。
其中,对于物理人的信息获取,包括但不限于集物理人的唇动动作、语音、表情、头部动作、肢体动作等,对于语音,可以通过多轮对话来判断物理人在对话过程中的情感语义意图,及时更新虚拟人对物理人的反馈的情感意图,另外,不仅仅只通过对话,还可以结合物理人的表情、动作等综合判定得到虚拟人对物理人的反馈的情感意图。
本实施例中,步骤202具体包括:
将情感意图输入强化学习模型,输出虚拟人的运动序列和情感序列。
其中,强化学习模型可以基于真实对话场景数据(包括文本和语音数据)、虚拟人姿态动作数据以及情感表情数据联合训练得到,进而使得在分析得到情感意图后,能够直接输出对应的运动序列和情感序列。对于强化学习模型,可以看成是一个记分的系统,记住及其获得低分和高分的行为,然后不断要求机器能取得高分的同时避免低分。比如针对某一情感意图,不断对正向的运动序列或情感序列进行打高分,反之对于反向的运动序列或情感序列给低分,在多个历史数据的不断训练中,使得模型能够直接根据情感意图的输入,输出精度较高的运动序列和情感序列。
本实施例中,交互场景分别与运动序列及情感序列设有对应关系,根据情感意图生成虚拟人的运动序列和情感序列的步骤具体包括:
确定当前交互场景;
根据对应关系确定虚拟人的与当前交互场景对应的初始运动序列和初始情感序列;
根据情感意图、初始运动序列和初始情感序列生成虚拟人的运动序列和情感序列。
其中,对于一些特定的场景,通过设置不同的交互场景下虚拟人的对应的初始反馈交互,当确定当前交互场景后,能够直接对应确定当前交互场景下虚拟人的初始运动序列及初始情感序列。上述所说的特定场景可以是特定的情感限定或者特定的工作场景,比如当对应的交互场景为欢快场景,欢快场景下虚拟人的表情是笑的,肢体动作是柔和的,语音也是温和的,然后再根据实时确定的情感意图动态的进行交互反馈;再比如,对应的交互场景为服务场景(比如服务人员),虚拟人初始反馈交互设定了对应的作出欢迎动作或者说出欢迎词等等,然后再根据实时确定的情感意图动态的进行交互反馈。也即在实时的交互过程中,会根据不断变化的场景和情感意图作出动态的输出变化。
本实施例中,基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互的步骤具体包括:
若反馈交互包括对话交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的唇动动作;
若反馈交互包括表情交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的表情动作;
若反馈交互包括肢体交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的肢体动作。
其中,综合判别当前场景下虚拟人的情感意图,确定运动控制策略后,基于比如对话管理模块生成对应文本数据,通过语音合成(TTS)合成语音数据,根据语音合成唇动动作,根据语音合成肢体动作和脸部表情,可以根据Wav2lips、Wav2motion和语音共同生成虚拟人的运动控制策略,再由驱动器驱动虚拟人执行对应的动作。虚拟人执行的动作包括唇动动作、表情动作、肢体动作中的任一个或任意组合,比如虚拟人的反馈交互可以只是基于高兴做出的微笑带动唇动,没有语音输出和肢体动作,也可以是基于高兴做出的大笑出声音,再加捧腹的肢体动作。
本实施例中,步骤202具体包括:
根据情感意图生成包含时间戳的运动序列和包含时间戳的情感序列。
其中,由于真人运动的时序不确定性,并不可能得知真人的下一步实际执行动作或表情是什么,因此真人驱动的驱动序列只是按照真人的历史执行动作或表情依次模拟执行,根本无需时间戳进行限定,而本实施例中的虚拟人交互,是在时间戳指导下进行运动序列和情感序列的反馈的交互的。比如情感序列是通过时间戳来指导不同的情感的依时间变化,决定了虚拟人在什么时间做什么样的表情,再比如运动序列是通过时间戳来指导不同的肢体动作等的依时间变化,决定了虚拟人在什么时间做什么样的动作。时间戳的不同限定,对应的情感序列和运动序列的反馈交互也是有所不同的。比如同样对应于捧腹大笑,不同时间戳的限定,进而体现出来每个表情动作和肢体动作的前后顺序和执行时长都是不同的。
本实施例中,虚拟人为多个,每个虚拟人设有不同的角色,根据情感意图生成虚拟人的运动序列和情感序列的步骤具体包括:
根据角色和情感意图生成与不同虚拟人对应的运动序列和情感序列。
其中,可以由多个不同角色虚拟人同时在与物理人交流,角色在同一场景下,不同角色的虚拟人在与物理人交流时就会做出不同决策和反应。比如,包括家庭助手和导游两种角色虚拟人的情况下,当这两个不同角色的虚拟人在听到同一语音,如我明天想去旅游,家庭助手的角色就会根据自己的角色定位提示物理人一些行李准备等内容,而导游的角色则可能会进行一些旅游地点的推荐和讲述。
本实施例中,不同情感序列对应不同的渲染方案,渲染方案包括虚拟人的虚拟场景的背景渲染;
交互方法还包括:
获取与情感序列对应的目标渲染方案,并基于目标渲染方案对虚拟人的反馈交互进行渲染。
其中,背景渲染可以是:背景饱和度、背景亮度和背景色彩等。另外,也可以是从素材库中提取对应的背景素材来进行渲染,也可以是基于选定的背景素材进行背景参数等的调整。比如虚拟人选定的背景素材可以为一个草地且有太阳,再把饱和度调整到一定参数维持色彩鲜艳明亮。同时,为了满足能够输出情感场景的驱动渲染需求,比如高兴时候,脸部动作幅度大,渲染饱和亮度高,背景色彩比较灵动鲜艳;忧郁的时候,渲染表现为暗沉,背景色彩可以灰色调为主。
本实施例中,在与虚拟人进行交互时,通过实时获取的场景信息比如环境状态、物理人姿态、对话等信息,虚拟人做出反馈交互,实现真正的物理人与虚拟人的交互沟通,通过虚拟人自身的计算和判断确定交互下的情感意图,并基于情感意图生成运动序列和情感序列,进而基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。同时根据生成的虚拟人的情感序列,对虚拟人所在场景进行渲染优化,增加虚拟人的情感饱满度,解决了“死板”、无情感表达、呆滞的虚拟人与物理人交流的问题。
实施例2
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1的虚拟人的交互方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1的虚拟人的交互方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行
实施例3
一种虚拟人的交互系统,如图2所示,交互系统包括视觉捕捉器1、运动驱动模块2;
视觉捕捉器1用于获取场景信息;
其中,虚拟人包括但不限于虚拟客服、虚拟医生、虚拟导游、虚拟引导员、虚拟管家等,进而场景信息包括但不限于:对话信息,比如基于聊天窗口的文本对话或者是语音对话;应用环境中的环境信息,比如环境温度、湿度等;基于不同位置点是否有人进行对应的内容解说;检测范围内检测对象的状态信息,比如门、灯、窗帘的开闭状态,电脑等设备的开关状态;与虚拟人进行对话的物理人的对话、肢体动作、表情动作信息等。另外,场景信息还可以是上述任意信息的组合。
运动驱动模块2用于基于场景信息驱动虚拟人的对场景信息进行的反馈交互,其中,运动驱动模块2具体包括:
内容理解单元21,用于基于场景信息确定虚拟人的情感意图;
序列生成单元22,用于根据情感意图生成虚拟人的运动序列和情感序列;
具体的,可以将情感意图输入强化学习模型,输出虚拟人的运动序列和情感序列;
其中,强化学习模型可以基于真实对话场景数据(包括文本和语音数据)、虚拟人姿态动作数据以及情感表情数据联合训练得到,进而使得在分析得到情感意图后,能够直接输出对应的运动序列和情感序列。对于强化学习模型,可以看成是一个记分的系统,记住及其获得低分和高分的行为,然后不断要求机器能取得高分的同时避免低分。比如针对某一情感意图,不断对正向的运动序列或情感序列进行打高分,反之对于反向的运动序列或情感序列给低分,在多个历史数据的不断训练中,使得模型能够直接根据情感意图的输入,输出精度较高的运动序列和情感序列。
或者,设置交互场景与运动序列及情感序列的对应关系,确定当前交互场景后,根据对应关系确定虚拟人的与当前交互场景对应的初始运动序列和初始情感序列,再根据情感意图、初始运动序列和初始情感序列生成虚拟人的运动序列和情感序列。
其中,对于一些特定的场景,通过设置不同的交互场景下虚拟人的对应的初始反馈交互,当确定当前交互场景后,能够直接对应确定当前交互场景下虚拟人的初始运动序列及初始情感序列。上述所说的特定场景可以是特定的情感限定或者特定的工作场景,比如当对应的交互场景为欢快场景,欢快场景下虚拟人的表情是笑的,肢体动作是柔和的,语音也是温和的,然后再根据实时确定的情感意图动态的进行交互反馈;再比如,对应的交互场景为服务场景(比如服务人员),虚拟人初始反馈交互设定了对应的作出欢迎动作或者说出欢迎词等等,然后再根据实时确定的情感意图动态的进行交互反馈。也即在实时的交互过程中,会根据不断变化的场景和情感意图作出动态的输出变化。
交互驱动单元23,用于基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。
其中,若反馈交互包括对话交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的唇动动作;若反馈交互包括表情交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的表情动作;若反馈交互包括肢体交互,则结合运动序列相对应的运动和情感序列相对应的情感进行虚拟人的肢体动作。
比如针对检测范围内检测对象的状态信息:开门加开灯,可以推断为人进入,那么此时虚拟人生成的情感序列和运动序列应该是欢迎的动作和欢迎语,开门加关灯可以推断为人离开,那么此时虚拟人生成的情感序列和运动序列应该是留恋、再见相关的动作和反馈语言,进而再根据运动序列和情感序列驱动虚拟人进行反馈交互,其中运动序列包括虚拟人的姿态、脸部和手势等的综合运动。上述的状态信息可以通过环境视觉检测确定,对于使用行为的判定可以通过姿态预估等进行确定。
再比如,在与物理人的对话过程中,获取物理人的语音对话、肢体、表情等信息,进而提取分析得到对话人的情感信息,进而虚拟人基于该情感信息做出反馈交互,如物理人说了“今天我心情不好”,结合识别得到的物理人的沮丧的表情等,虚拟人生成的情感序列和运动序列可能会说“怎么了?”或“为什么心情不好”,同时配合安慰的表情和拥抱的动作,进而再根据运动序列和情感序列驱动虚拟人进行反馈交互。
需要说明的是,对于情感意图的分析为综合所有场景信息进行判定,以便于判别当前真实的情感。比如前述的场景下,门和灯开了,但是并未检测到有人出现时,则并不会进行交互反馈的驱动,再比如物理人说了“今天我心情不好”,但是,结合其肢体、表情,比如低头说话代表着语音真实性或者说谎,脸红代表着害羞,那么可能物理人说谎了,其真实情感并不是沮丧等,那么则并不会生成与安慰相关的运动序列和情感序列。另外,需要说明的是,除了通过同一时刻的不同场景信息进行综合判定真实的情感外,还可以通过同一场景信息的连续时间段内的多个不同的历史信息进行真实情感的综合判定。
若场景信息包括环境信息,运动驱动模块2还用于当检测到环境信息发生变化时,根据变化信息驱动虚拟人进行反馈交互。
比如前述提到的门、窗灯状态的检测,其存在门的开闭的信息变化,再比如对于虚拟导游基于不同讲解点是否有人进行对应的内容解说,当检测到讲解点的人发生变化,比如性别、年龄等有所不同,一开始解说的时候是对这一个大人,当换成一个小孩的时候,虚拟人则会生成的新的情感序列和运动序列,再根据新的运动序列和情感序列驱动虚拟人进行反馈交互。其中,对于上述场景下的变化信息的检测,可以根据人脸特征或其变化来进行检测,比如不同的外貌如脸形、肤色等,不同的表情如眼、嘴的开与闭等,也可以依托人脸的遮挡如眼镜、头发和头部饰物以及其他外部物体等,根据检测得到的信息进行前后比较进而判读得到是否发生信息变化,并基于新的人的特征确定新的情感序列和运动序列。
场景信息包括物理人的对话数据和/或物理人的姿态数据,内容理解单元21具体用于基于物理人的对话数据和/或物理人的姿态数据确定虚拟人的情感意图。
其中,对于物理人的信息获取,包括但不限于集物理人的唇动动作、语音、表情、头部动作、肢体动作等,对于语音,可以通过多轮对话来判断物理人在对话过程中的情感语义意图,及时更新虚拟人对物理人的反馈的情感意图,另外,不仅仅只通过对话,还可以结合物理人的表情、动作等综合判定得到虚拟人对物理人的反馈的情感意图。
本实施例中,序列生成单元22具体用于根据情感意图生成包含时间戳的运动序列和包含时间戳的情感序列。
其中,由于真人运动的时序不确定性,并不可能得知真人的下一步实际执行动作或表情是什么,因此真人驱动的驱动序列只是按照真人的历史执行动作或表情依次模拟执行,根本无需时间戳进行限定,而本实施例中的虚拟人交互,是在时间戳指导下进行运动序列和情感序列的反馈的交互的。比如情感序列是通过时间戳来指导不同的情感的依时间变化,决定了虚拟人在什么时间做什么样的表情,再比如运动序列是通过时间戳来指导不同的肢体动作等的依时间变化,决定了虚拟人在什么时间做什么样的动作。时间戳的不同限定,对应的情感序列和运动序列的反馈交互也是有所不同的。比如同样对应于捧腹大笑,不同时间戳的限定,进而体现出来每个表情动作和肢体动作的前后顺序和执行时长都是不同的。
本实施例中,虚拟人为多个,每个虚拟人设有不同的角色,序列生成单元22具体用于根据角色和情感意图生成与不同虚拟人对应的运动序列和情感序列。
其中,可以由多个不同角色虚拟人同时在与物理人交流,角色在同一场景下,不同角色的虚拟人在与物理人交流时就会做出不同决策和反应。比如,包括家庭助手和导游两种角色虚拟人的情况下,当这两个不同角色的虚拟人在听到同一语音,如我明天想去旅游,家庭助手的角色就会根据自己的角色定位提示物理人一些行李准备等内容,而导游的角色则可能会进行一些旅游地点的推荐和讲述。
本实施例中,不同情感序列对应不同的渲染方案,渲染方案包括虚拟人的虚拟场景的背景渲染,还设有渲染服务器3,具体用于获取与情感序列对应的目标渲染方案,并基于目标渲染方案对虚拟人的反馈交互进行渲染。
其中,背景渲染可以是:背景饱和度、背景亮度和背景色彩等。另外,也可以是从素材库中提取对应的背景素材来进行渲染,也可以是基于选定的背景素材进行背景参数等的调整。比如虚拟人选定的背景素材可以为一个草地且有太阳,再把饱和度调整到一定参数维持色彩鲜艳明亮。同时,为了满足能够输出情感场景的驱动渲染需求,比如高兴时候,脸部动作幅度大,渲染饱和亮度高,背景色彩比较灵动鲜艳;忧郁的时候,渲染表现为暗沉,背景色彩可以灰色调为主。
在一个具体的应用示例中,虚拟人的交互系统可以具体为虚拟影像技师引导系统,在影像CT室拍片引导工作,解决物理人需要长期待在CT影像受到辐射影响的对话需求和情绪安抚,也能够解决远程/自动CT室服务(主要考虑无接触式方式),也即通过虚拟人反馈交互,一方面实现影像拍摄的引导工作,另一方面通过智能的虚拟人的情感交互,给与用户情绪上的安抚。可以在CT影像扫描设备内设置对应的程序用于实现虚拟人的交互。比如进门处,通过虚拟人结合反馈交互进行注意事项等信息的告知,在检测位置,通过虚拟人结合反馈交互进行拍摄指导、情绪安抚等。其中,可以配置在一个单独的屏幕用于虚拟人的展示引导,或者是通过全息投影相机投影出来一个虚拟人引导医生用于进行CT室拍片引导。
本实施例中,本实施例中,在与虚拟人进行交互时,通过实时获取的场景信息比如环境状态、物理人姿态、对话等信息,虚拟人做出反馈交互,实现真正的物理人与虚拟人的交互沟通,通过虚拟人自身的计算和判断确定交互下的情感意图,并基于情感意图生成运动序列和情感序列,进而基于运动序列和情感序列驱动虚拟人的对场景信息进行的反馈交互。同时根据生成的虚拟人的情感序列,对虚拟人所在场景进行渲染优化,增加虚拟人的情感饱满度,解决了“死板”、无情感表达、呆滞的虚拟人与物理人交流的问题。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (11)

1.一种虚拟人的交互方法,其特征在于,所述交互方法包括:
获取场景信息;
基于所述场景信息驱动所述虚拟人的对所述场景信息进行的反馈交互,其中,包括:
基于所述场景信息确定所述虚拟人的情感意图;
根据所述情感意图生成所述虚拟人的运动序列和情感序列;
基于所述运动序列和所述情感序列驱动所述虚拟人的对所述场景信息进行的反馈交互。
2.如权利要求1所述的虚拟人的交互方法,其特征在于,所述场景信息包括环境信息,所述基于所述场景信息驱动所述虚拟人的对所述场景信息进行的反馈交互的步骤具体包括:
当检测到所述环境信息发生变化时,根据变化信息驱动所述虚拟人进行反馈交互。
3.如权利要求1所述的虚拟人的交互方法,其特征在于,所述场景信息包括物理人的对话数据和/或物理人的姿态数据,所述基于所述场景信息确定所述虚拟人的情感意图的步骤具体包括:
基于物理人的对话数据和/或物理人的姿态数据确定所述虚拟人的情感意图。
4.如权利要求1所述的虚拟人的交互方法,其特征在于,所述根据所述情感意图生成所述虚拟人的运动序列和情感序列的步骤具体包括:
将所述情感意图输入强化学习模型,输出所述虚拟人的运动序列和情感序列。
5.如权利要求1所述的虚拟人的交互方法,其特征在于,交互场景分别与运动序列及情感序列设有对应关系,所述根据所述情感意图生成所述虚拟人的运动序列和情感序列的步骤具体包括:
确定当前交互场景;
根据所述对应关系确定所述虚拟人的与所述当前交互场景对应的初始运动序列和初始情感序列;
根据所述情感意图、所述初始运动序列和所述初始情感序列生成虚拟人的运动序列和情感序列。
6.如权利要求1所述的虚拟人的交互方法,其特征在于,所述基于所述运动序列和所述情感序列驱动所述虚拟人的对所述场景信息进行的反馈交互的步骤具体包括:
若反馈交互包括对话交互,则结合运动序列相对应的运动和情感序列相对应的情感进行所述虚拟人的唇动动作;
若反馈交互包括表情交互,则结合运动序列相对应的运动和情感序列相对应的情感进行所述虚拟人的表情动作;
若反馈交互包括肢体交互,则结合运动序列相对应的运动和情感序列相对应的情感进行所述虚拟人的肢体动作。
7.如权利要求1所述的虚拟人的交互方法,其特征在于,所述根据所述情感意图生成所述虚拟人的运动序列和情感序列的步骤具体包括:
根据所述情感意图生成包含时间戳的运动序列和包含时间戳的情感序列。
8.如权利要求1所述的虚拟人的交互方法,其特征在于,所述虚拟人为多个,每个虚拟人设有不同的角色,所述根据所述情感意图生成所述虚拟人的运动序列和情感序列的步骤具体包括:
根据所述角色和所述情感意图生成与不同虚拟人对应的运动序列和情感序列。
9.如权利要求1所述的虚拟人的交互方法,其特征在于,不同情感序列对应不同的渲染方案,所述渲染方案包括虚拟人的虚拟场景的背景渲染;
所述交互方法还包括:
获取与所述情感序列对应的目标渲染方案,并基于所述目标渲染方案对所述虚拟人的反馈交互进行渲染。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的虚拟人的交互方法。
11.一种虚拟人的交互系统,其特征在于,所述交互系统包括视觉捕捉器、运动驱动模块;
所述视觉捕捉器用于获取场景信息;
所述运动驱动模块用于基于所述场景信息驱动所述虚拟人的对所述场景信息进行的反馈交互,其中,所述运动驱动模块具体包括:
内容理解单元,用于基于所述场景信息确定所述虚拟人的情感意图;
序列生成单元,用于根据所述情感意图生成所述虚拟人的运动序列和情感序列;
交互驱动单元,用于基于所述运动序列和所述情感序列驱动所述虚拟人的对所述场景信息进行的反馈交互。
CN202210813906.XA 2022-07-11 2022-07-11 虚拟人的交互方法、系统及存储介质 Pending CN117422798A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210813906.XA CN117422798A (zh) 2022-07-11 2022-07-11 虚拟人的交互方法、系统及存储介质
PCT/CN2023/106843 WO2024012462A1 (zh) 2022-07-11 2023-07-11 虚拟人的交互方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210813906.XA CN117422798A (zh) 2022-07-11 2022-07-11 虚拟人的交互方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN117422798A true CN117422798A (zh) 2024-01-19

Family

ID=89531289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210813906.XA Pending CN117422798A (zh) 2022-07-11 2022-07-11 虚拟人的交互方法、系统及存储介质

Country Status (2)

Country Link
CN (1) CN117422798A (zh)
WO (1) WO2024012462A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255949B2 (en) * 2017-05-31 2019-04-09 Verizon Patent And Licensing Inc. Methods and systems for customizing virtual reality data
CN107797663A (zh) * 2017-10-26 2018-03-13 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN108470206A (zh) * 2018-02-11 2018-08-31 北京光年无限科技有限公司 基于虚拟人的头部交互方法及系统
CN111027425A (zh) * 2019-11-28 2020-04-17 深圳市木愚科技有限公司 一种智能化表情合成反馈交互系统及方法

Also Published As

Publication number Publication date
WO2024012462A1 (zh) 2024-01-18

Similar Documents

Publication Publication Date Title
US11890748B2 (en) Socially assistive robot
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US8988436B2 (en) Training system and methods for dynamically injecting expression information into an animated facial mesh
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
Mattheyses et al. Audiovisual speech synthesis: An overview of the state-of-the-art
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
CN108942919B (zh) 一种基于虚拟人的交互方法及系统
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
Gibbon et al. Audio-visual and multimodal speech-based systems
Baldassarri et al. Maxine: A platform for embodied animated agents
Pelachaud et al. Multimodal behavior modeling for socially interactive agents
Rebol et al. Passing a non-verbal turing test: Evaluating gesture animations generated from speech
CN117422798A (zh) 虚拟人的交互方法、系统及存储介质
US20230326092A1 (en) Real-time visualization of head mounted display user reactions
Lokesh et al. Computer Interaction to human through photorealistic facial model for inter-process communication
Cerezo et al. Interactive agents for multimodal emotional user interaction
Gonzalez et al. Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals
Luerssen et al. Head x: Customizable audiovisual synthesis for a multi-purpose virtual head
Mukashev et al. Facial expression generation of 3D avatar based on semantic analysis
Babu et al. Marve: a prototype virtual human interface framework for studying human-virtual human interaction
Grzyb et al. Beyond robotic speech: mutual benefits to cognitive psychology and artificial intelligence from the joint study of multimodal communication
Basori et al. Emotion expression of avatar through eye behaviors, lip synchronization and MPEG4 in virtual reality based on Xface toolkit: Present and future
Rothkrantz et al. Facs-coding of facial expressions
Raouzaiou et al. Emotion Synthesis in Virtual Environments
Somasundaram A facial animation model for expressive audio-visual speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination