CN117271809B

CN117271809B - 基于任务场景和上下文感知的虚拟代理交流环境生成方法

Info

Publication number: CN117271809B
Application number: CN202311556337.6A
Authority: CN
Inventors: 吴敬宇; 陈鹏臣; 陈实; 孙凌云
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-09
Anticipated expiration: 2043-11-21
Also published as: CN117271809A

Abstract

本发明公开了基于任务场景和上下文感知的虚拟代理交流环境生成方法，该方法本发明利用大语言模型和构建的提示词分别实时获得与虚拟代理的表述内容信息相匹配的场景信息和关键信息，并将场景信息进行2D图像和3D图像的转换得到背景，将关键信息对应的结构化数据填充至相匹配的UI对象中得到前景，从而实现了交流环境中的前景和背景能够随着表述内容信息的变化进行相应的变换。该方法还利用上下文感知优化算法使得前景能够随着虚拟代理的动作、声音等的变化实现在背景出现时间和出现位置的相应变动，从而实现了提高用户的感知质量和任务性能。

Description

基于任务场景和上下文感知的虚拟代理交流环境生成方法

技术领域

本发明属于虚拟代理交互技术领域，具体涉及一种基于任务场景和上下文感知的虚拟代理交流环境生成方法。

背景技术

虚拟代理（Virtual Agent），又称数字人或虚拟人，是一种能模拟人类交互行为，进行自动化沟通或任务执行的计算机程序。目前的虚拟代理已经广泛应用于多种任务，如用户服务，新闻/天气播报，直播等等。最近的研究旨在使用动作捕捉或深度学习算法生成虚拟代理视频。目前的深度学习算法可以生成外观逼真，动作丰富的虚拟代理并有着不同的人物风格。

现有的数字人视频生成技术主要还是用动作捕捉的方法，即通过特定的设备捕捉真人的动作和表情，并将这些信息转化为数字信号，再实时地映射到虚拟的数字人模型上。这种方法的优点是能够准确地捕捉到细微的动作和表情变化，使数字人在视频中的表现更加真实和生动。然而，这也意味着每次生成视频都需要真人参与，大大增加了生产成本和时间。此外，这种方法也限制了数字人动作的创造性和自由度，因为它们完全依赖于真实的人类动作。这在某种程度上限制了数字人在复杂和非现实场景中的应用和展示，尤其是那些真实复杂场景下的动作或表情。

现有一些方法也对如何用深度学习模型生成数字人视频做出来一些努力：

文献：Yoon Y, Cha B, Lee J H, et al. Speech gesture generation fromthe trimodal context of text, audio, and speaker identity[J]. ACMTransactions on Graphics (TOG), 2020, 39(6): 1-16.公开了一种新的可以同时根据文本、音频和说话者身份进行手势生成的方法，其具体的工作步骤为：（1）获取给定的语音、文本和初始手势；（2）设定对应的说话者身份；（3）分别用声音解码器、文本解码器将语音和文本解耦成对应的声音特征和文本特征；（4）从风格空间中获取说话者身份特征；（5）将三种特征融合后，用编码器生成对应的手势。但该文献报道仅仅关注了数字人的非语言行为。例如，主要研究手势生成。然而，非语言行为不仅仅是关于数字人本身的动作和表情，还包括与之交互的环境因素。这些技术所生成的虚拟代理背景通常是静态的2D图片或GIF动图，这意味着它们不能根据虚拟人的任务或情境进行动态调整。此外，这些技术的前景也缺乏动态消息提醒，容易导致用户在长时间观看后感到视觉疲劳。

现有技术在生成虚拟代理视频时，尚未充分考虑到交流环境的实时生成。这意味着，当给定特定的任务场景或虚拟代理需要表达的内容时，这些技术可能无法即时调整交流环境中的前景和背景。这不仅限制了虚拟代理的普适性，还可能降低用户的感知质量和任务性能。

发明内容

本发明提供了一种基于任务场景和上下文感知的虚拟代理交流环境生成方法，该方法能够根据任务场景和内容实时生成虚拟代理交流环境。

本发明具体实施例提供了一种基于任务场景和上下文感知的虚拟代理交流环境生成方法，包括：

获得虚拟代理的3D信息和基础属性，并实时获得虚拟代理的表述内容信息，同时获得UI对象数据库；

基于表述内容信息构建任务场景提示词，基于任务场景提示词通过大语言模型实时得到与表述内容信息匹配的场景信息，将场景信息依次进行2D图像转换和3D图像转换得到与表述内容信息匹配的背景；

基于表述内容信息构建关键信息提示词，基于关键信息提示词通过大语言模型实时得到与表述内容信息匹配的关键信息，将关键信息转化为结构化数据，将结构化数据填充至相匹配的UI对象中得到与表述内容信息匹配的前景；

基于背景、前景和基础属性通过上下文感知优化算法得到前景在背景出现的时间信息和位置信息，基于前景在背景出现的时间信息和位置信息、背景和前景构建与表述内容信息匹配的实时虚拟代理交流环境。

进一步的，将场景信息依次进行2D图像转换和3D图像转换得到与表述内容信息匹配的背景，包括：

将场景信息输入Stable Diffusion模型得到2D全景图像，通过超分辨率模型将2D全景图像进行细节增强，将细节增强后的2D全景图像进行伪3D转换得到与表述内容信息匹配的背景。

进一步的，将结构化数据填充至相匹配的UI对象中得到与表述内容信息匹配的前景，包括：

从UI对象数据库中筛选出与结构化数据相匹配的UI对象，并将结构化数据填充至筛选出的UI对象中得到与表述内容信息匹配的前景。

进一步的，从UI对象数据库中筛选出与结构化数据相匹配的UI对象，包括：

获得结构化数据的类型、主要标题数量、次要标题数量和文本内容长度；

基于结构化数据的类型从UI对象数据库中筛选出对应类型的UI对象数据集；

将结构化数据分别与对应类型的UI对象数据进行主要标题数量、次要标题数量和文本内容长度相似度比较后加权求和得到对应的相似度分数，将相似度分数最高的UI对象作为与结构化数据相匹配的UI对象。

进一步的，将关键信息转化为结构化数据，包括

将关键信息再次输入大语言模型中，通过使用结构化数据提示词，使得大语言模型能够将关键信息进行结构化处理得到结构化数据；

所述结构化数据的格式为Json格式或XML格式。

进一步的，获得前景在背景出现位置信息，包括：

获得前景的尺寸信息和颜色信息，以及背景的颜色信息，基于虚拟代理的手势姿势信息采用Openpose人体关键点识别技术得到虚拟代理的手部位置信息，所述手势姿势信息来自基础属性；

使用Yolov5模型对所生成的背景进行目标区域检测，将目标少于2个且能够匹配前景尺寸的目标区域作为放置前景的初始区域，将每个初始区域与前景的颜色信息进行颜色相似度比较得到颜色相似度值，并根据颜色相似度值从低到高排列获得前景在背景的初始位置信息集。

从初始位置信息集中筛选出与虚拟代理的手部位置信息位置最接近的位置信息作为前景在背景出现的最终的位置信息；

或者如果背景中未出现虚拟代理，则从初始位置信息集中筛选出颜色相似度最小的位置信息作为前景在背景出现的最终的位置信息。

进一步的，获得前景在背景出现的时间信息，包括：

通过text-to-speech算法标注虚拟代理在表述前景时的时间，将标注的时间作为对应的前景在背景出现的时间信息；

基于前景在背景出现的时间信息当虚拟代理表述前景对应的表述内容信息时在背景中能够实时展示对应的前景。

进一步的，所述获得虚拟代理的3D信息和基础属性，其中：

所述3D信息为虚拟代理的3D外形；

所述基础属性为虚拟代理的声音信息、情感信息和手势动作信息。

进一步的，获得UI对象数据库，包括：

基于设定的UI对象提示词通过大语言模型得到多个UI对象，基于多个UI对象构建UI对象数据库；

所述多个UI对象包括文本对象，图像对象和交互式对象。

进一步的，所述大语言模型包括ChatGPT3.5、ChatGPT4.0、Stable Diffusion、ChatGLM、文心一言模型或Midjourney。

与现有技术相比，本发明的有益效果为：

本发明利用大语言模型和构建的提示词分别实时获得与虚拟代理的表述内容信息相匹配的场景信息和关键信息，并将场景信息进行2D图像和3D图像的转换得到背景，将关键信息对应的结构化数据填充至相匹配的UI对象中得到前景，从而实现了交流环境中的前景和背景能够随着表述内容信息的变化进行相应的变换。

本发明还利用上下文感知优化算法使得前景能够随着虚拟代理的动作、声音等的变化实现在背景出现时间和出现位置的相应变动，从而实现了提高用户的感知质量和任务性能。

附图说明

图1为本发明具体实施例提供的一种基于任务场景和上下文感知的虚拟代理交流环境生成方法的流程图；

图2为本发明具体实施例提供的一种基于任务场景和上下文感知的虚拟代理交流环境生成方法的流程框图；

图3为本发明具体实施例提供的背景、虚拟代理和前景的示意图；

图4为本发明具体实施例提供的前景生成流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

本发明的目的在提出了一种基于任务场景和上下文感知优化的虚拟代理交流环境生成方法，克服了现有虚拟代理生成方法中无法生成相应交流环境的缺点。同时为了增加交流环境对于用户的内容理解能力，我们提出的生成方法以任务场景和上下文感知优化为基础，可以动态调整所生成的交流环境。

本发明具体实施例提供了一种基于任务场景和上下文感知的虚拟代理交流环境生成方法，如图1和图2所示，包括：

S1、获得虚拟代理的3D信息、基础属性和表述内容信息，同时构建UI对象数据库：

本发明具体实施例构建虚拟代理，如图3所示，包括：用户上传虚拟代理的3D外形，或者选择现有的虚拟代理外形，然后用户设定虚拟代理的基础属性，基础属性为虚拟代理的声音信息、情感信息和手势动作信息，在一实施例中，基础属性为虚拟代理声音的音色、演讲速度的快慢、情感（高兴，忧伤或生气等）以及手势动作的幅度和频率等，然后用户需要上传虚拟代理的表达信息的内容。

本发明具体实施例提供的UI对象根据其功能和特征分为三类:文本对象、图像对象和交互式对象。每个类别的UI对象都至少有5种不同的样式，以适应各种不同的结构化数据；文本对象旨在传递全面的信息，根据文本的重要程度，文本对象的结构也各不相同；图像对象提供了生动直观的视觉体验；设计交互对象用于鼓励用户在场景中积极参与。使用大语言模型（Large Language Model, LLM）为每个类别和样式自动生成UI对象，在自动生成之后，每个UI对象都会进行人工筛选以确保正确的显示。

S2、构建虚拟代理交流环境的背景和前景，并获得前景在背景出现的时间信息和位置信息：

本发明具体实施例构建虚拟代理交流环境的背景，如图2和图3所示，包括：基于虚拟代理的表述内容信息构建任务场景提示词，在一实施例中，任务场景提示词为：积极提示词：a 360 equiretangular panorama, masterpiece, best quality, high quality,extremely detailed CG unity 8k wallpaper, ((Weather Forecast Studio)), Simpleand modern, Spacious and bright, Large glass windows, Warm and light colors,Comfortable seats, Dynamic weather backgrounds, (Professional lighting andsound equipment)；消极提示: paintings, sketches, (worst quality:2), (lowquality:2), (normal quality:2), lowres, normal quality, ((monochrome)),((grayscale)), skin spots, acnes, skin blemishes, age spots, (ugly:1.3),(duplicate:1.3), (morbid:1.2), (mutilated:1.2), (tranny:1.3), mutated hands,(poorly drawn hands:1.5), blurry, (bad anatomy:1.2), (bad proportions:1.3),extra limbs, (disfigured:1.3), (more than 2 nipples:1.3), (missing arms:1.3),(extra legs:1.1), (fused fingers:1.6), (too many fingers:1.6), (unclear eyes:1.3), lowers, bad hands, missing fingers, extra digit, (futa:1.1),bad hands,missing fingers, deformed iris, out of frame, signature, watermark, username,blurry, artist name, trademark, watermark, title, ugly face, multiple views,border, bed，基于任务场景提示词通过大语言模型实时得到与表述内容信息匹配的场景信息；将场景信息输入Stable Diffusion模型得到2D全景图像，通过超分辨率模型NGSwin将2D全景图像进行细节增强，通过Unity自带的空间转换功能将细节增强后的2D全景图像进行伪3D转换得到3D空间，将获得的3D空间作为与表述内容信息匹配的背景，从而能够基于虚拟代理的表述内容变化背景。

在一具体实施例中，本实施例通过大语言模型对虚拟代理表述的内容进行分析得到在当前场景下，虚拟代理所要表述的内容与当前与未来的天气相关，将与当前与未来的天气相关这一场景信息输入Stable Diffusion模型得到与天气预报相关的场景的2D全景图，即在本场景中为虚拟天气预报演播厅的2D全景图。

本发明具体实施例构建虚拟代理交流环境的前景，如图4所示，包括：基于虚拟代理的表述内容信息构建关键信息提示词，在一实施例中，该关键信息提示词为：杭州，2023-09-11,多云，温度31℃，最高温度31℃，最低温度24℃，基于关键信息提示词通过大语言模型实时得到与表述内容信息匹配的关键信息，将关键信息转化为结构化数据，将结构化数据填充至相匹配的UI对象中得到与表述内容信息匹配的前景，从而能够基于虚拟代理的表述内容的变化实时调整前景。

在一具体实施例中，将结构化数据填充至相匹配的UI对象中得到与表述内容信息匹配的前景，包括：从UI对象数据库中筛选出与结构化数据相匹配的UI对象，并将结构化数据填充至筛选出的UI对象中得到与表述内容信息匹配的前景。

在一具体实施例中，将关键信息转化为结构化数据，包括

提取关键信息：使用大语言模型（例如 GPT-3）对文本进行处理，以识别和提取关键信息。这可以通过提出相关问题或使用关键词（提示词：请根据当前虚拟代理所说的话提取出关键词汇），这一具体实施例中，关键信息为当前的温度包括了：杭州，2023-09-11,多云，温度31℃，最高温度31℃，最低温度24℃。

分类和结构化：将提取到的信息进行分类和结构化，然后将其组织成JSON格式，创建一个包含各个关键信息字段的JSON对象。

构建JSON对象：根据信息的分类，为每个类别创建一个JSON字段，并填充相应的值。

在一具体实施例中，从UI对象数据库中筛选出与结构化数据相匹配的UI对象，包括：

结构化数据分析：首先对给定的结构化数据进行分类分析，确定数据的类型（纯文本、含图片、含交互），并统计主要标题数量、次要标题数量以及文本内容的长度。

UI对象查询：根据分析得到的结构化数据的类型，算法选择相应的UI对象数据库进行查询。如果数据为纯文本，则查询文本对象数据；若为含图片，则查询图像对象数据；若为含交互，则查询交互式对象数据。

匹配最合适的UI对象：在对应的UI对象数据库中，算法遍历每个UI对象，并与结构化数据的主要标题数量、次要标题数量以及文本长度进行匹配。匹配的依据是 UI 对象的标题数量和文本长度是否与结构化数据匹配。匹配程度的评估采用相似性得分：对于主要标题和次要标题数量，采用一个权重参数来调整它们之间的相对重要性，设定主要标题数量的权重为0.6，次要标题数量的权重为0.4；对于文本内容的长度，直接计算长度的相似程度。总体得分=0.5*主要标题相似度+0.3*次要标题相似度+0.2*文本内容长度相似度。

选择最佳匹配：在匹配过程中记录每个UI对象的相似性得分或其他标准，并选择得分最高的UI对象作为最佳匹配。

本发明具体实施例得到前景在背景出现的时间信息和位置信息，包括：基于背景、前景和虚拟代理的基础属性通过上下文感知优化算法得到前景在背景出现的时间信息和位置信息，基于前景在背景出现的时间信息和位置信息、背景和前景构建与表述内容信息匹配的实时虚拟代理交流环境。

在一具体实施例中，基于背景、前景和基础属性通过上下文感知优化算法得到前景在背景出现的位置信息，包括：

环境感知与分析：首先以之前步骤中选择的最匹配的UI对象作为前景，通过获取UI对象的HSV空间信息（色彩Hue、饱和度Saturation和值Value）以及UI对象本身的大小，得到前景的尺寸信息和颜色信息，之后以所生成的背景图像为背景，通过Yolov5算法得到整张背景图中的布局信息，并选择出目标少于2个且能够匹配前景尺寸的目标区域目标区域作为放置前景信息的初始区域，将每个初始区域与前景的颜色信息进行颜色相似度比较得到颜色相似度值，并根据颜色相似度值从低到高排列获得前景在背景的初始位置信息集。在当前具体实施例中，判断出目前环境的顶部适合放置长条形UI对象，左下角和右下角适合放置方形UI对象，图像中间适合放置虚拟代理。

手势分析：根据用户一开始输入的基础属性中手势姿势部分进行分析，通过使用调用Openpose人体关键点识别技术，识别虚拟代理的手部位置。在本实例中，虚拟代理在输出天气信息的时候无相应动作的手势。

位置和时机决策：结合环境感知分析步骤与手势分析步骤所得的信息，首先判断并查找背景中符合放置当前前景的位置，其次以虚拟代理手势的动作位置为准判断距离最近的位置进行前景的填充，若虚拟代理当前没有互动手势，则以颜色信息判断，以颜色差异较大的醒目为判断依据。在本实例中，由于此时虚拟代理没有对应手势，所以填充的位置以颜色和大小信息判断。

实时更新：持续感知虚拟代理的手势信息、背景信息以及前景信息。根据实时感知的信息，实时更新UI界面的出现的位置和出现的时机，以适应虚拟环境的动态变化。

在一具体实施例中，获得前景在背景出现的时间信息，包括：通过text-to-speech算法标注虚拟代理在表述前景时的时间，将标注的时间作为对应的前景在背景出现的时间信息；基于前景在背景出现的时间信息当虚拟代理表述前景对应的表述内容信息时在背景中能够实时展示对应的前景。

进一步的，在虚拟代理讲话时，系统使用text-to-speech算法将文本转换为语言，并标注在讲每句话时候的时间作为前景的出现时间。当虚拟代理表达出当前前景信息的语言时，系统自动获取当前的出现时间信息，使得对应的前景能够随着虚拟代理的表述实时的在背景中出现。

本发明具体实施例提供的大语言模型包括: ChatGPT3.5, ChatGPT4.0, StableDiffusion，其中可替换的相似大语言模型包括但不限于：ChatGLM，文心一言模型，Midjourney等。

本发明具体实施例提供的基于任务场景和上下文感知的虚拟代理交流环境生成方法在现有任何虚拟代理视频的基础上，以当前任务和上下文感知优化基础，实时的生成对应的交流环境，包括了伪3D背景和可以展示关键信息的前景。良好的虚拟代理交流环境可以是用户更加沉浸式体验虚拟代理的相关内容，增强了用户对于虚拟代理所要表达内容的理解，同时提高了虚拟代理所做任务的性能。对于本发明中的3D背景，我们可以批量生成对应任务场景的伪3D图片，减少了人工制作3D场景的成本；本发明使用的全自动化脚本生成交流空间，在降低了时间成本和人力成本的同时，可以同时面对多种不同的场景以及多种不同的信息结构，无需重新训练模型，降低了模型训练所消耗的时间、物力和精力，节约了任务的成本，具有现实意义和良好的应用前景。

为此，本发明具体实施例提供的一种基于任务场景和上下文感知优化的虚拟代理交流环境生成方法，实现实时的虚拟代理就交流环境的生成，并且该方法可以根据虚拟代理当前的任务场景和所说内容的上下文实时进行调整交流环境中的前景和背景，该方法同时提升了用户对于虚拟代理视频的内容理解并提升了了任务的性能。本项发明设计关键解决了三个方面的问题：第一，这个方法可以生成虚拟代理的交流环境，包括了背景和前景两个方面；第二，该方法所生成的交流环境，可以根据不同的任务场景和上下文进行实时的调整；第三，分别对是否使用本方法的虚拟代理视频进行了性能比较，证明了交流环境对于数字人视频内容理解和性能的重要性。

Claims

1.一种基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，包括：

基于背景、前景和基础属性通过上下文感知优化算法得到前景在背景出现的时间信息和位置信息，基于前景在背景出现的时间信息和位置信息、背景和前景构建与表述内容信息匹配的实时虚拟代理交流环境；

获得前景在背景出现位置信息，包括：

使用Yolov5模型对所生成的背景进行目标区域检测，将目标少于2个且能够匹配前景尺寸的目标区域作为放置前景的初始区域，将每个初始区域与前景的颜色信息进行颜色相似度比较得到颜色相似度值，并根据颜色相似度值从低到高排列获得前景在背景的初始位置信息集；

或者如果背景中未出现虚拟代理，则从初始位置信息集中筛选出颜色相似度最小的位置信息作为前景在背景出现的最终的位置信息；

获得前景在背景出现的时间信息，包括：

2.根据权利要求1所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，将场景信息依次进行2D图像转换和3D图像转换得到与表述内容信息匹配的背景，包括：

3.根据权利要求1所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，将结构化数据填充至相匹配的UI对象中得到与表述内容信息匹配的前景，包括：

4.根据权利要求3所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，从UI对象数据库中筛选出与结构化数据相匹配的UI对象，包括：

5.根据权利要求1所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，将关键信息转化为结构化数据，包括

所述结构化数据的格式为Json格式或XML格式。

6.根据权利要求1所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，所述获得虚拟代理的3D信息和基础属性，其中：

所述3D信息为虚拟代理的3D外形；

7.根据权利要求1所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，获得UI对象数据库，包括：

所述多个UI对象包括文本对象，图像对象和交互式对象。

8.根据权利要求1所述的基于任务场景和上下文感知的虚拟代理交流环境生成方法，其特征在于，所述大语言模型包括ChatGPT3.5、ChatGPT4.0、Stable Diffusion、ChatGLM、文心一言模型或Midjourney。