CN113900522A

CN113900522A - 一种虚拟形象的互动方法、装置

Info

Publication number: CN113900522A
Application number: CN202111166296.0A
Authority: CN
Inventors: 樊明宇; 洪振杰; 聂祥丽; 叶修梓; 李毅
Original assignee: Big Data And Information Technology Research Institute Of Wenzhou University
Current assignee: Big Data And Information Technology Research Institute Of Wenzhou University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本发明提供了一种虚拟形象的互动方法，具体包括：获取目标用户的要素特征信息；将所述要素特征信息输入参数生成模型，通过所述参数生成模型生成虚拟形象的最优控制参数；根据所述虚拟形象的最优控制参数和直播场景信息，生成虚拟形象和直播环境的互动多媒体流；通过服务器将生成的虚拟形象和直播环境的互动多媒体流输到目标用户的用户端进行播放，本发明能够将虚拟形象调整到最适合当前的用户，同时与用户互动的效果提升至最大，从而实现更好的效果。

Description

一种虚拟形象的互动方法、装置

技术领域

本发明涉及虚拟现实技术领域，尤其涉及到一种虚拟形象的互动方法、装置。

背景技术

随着虚拟现、计算机图形学技术的提升，直播行业中采用虚拟形象具有成本低，效果多样化，工作时间不限等优点。但是，常见的虚拟形象直播过程是成千人一面的，对背景不同的用户所产生的效果可能差别很大，也不能与用户进行灵活的互动，实用性有限。

然而，用户希望不仅仅是被动的接受者，还在潜意识中希望与虚拟形象符合自身的审美、喜好、还有能与自己产生充分的互动交流，例如网络课堂。现有的虚拟形象技术无法根据各户的历史信息和实输入时信息做到千人千面的效果，从而无法保证直播效果的最优化。

综上所述，提供一种可对不同用户实现个性化直播，同时与用户互动的效果提升至最大，从而实现更好的效果的虚拟形象的互动方法、装置，是本领域技术人员急需解决的问题。

发明内容

本方案针对上文提到的问题和需求，提出一种虚拟形象的互动方法、装置，其由于采取了如下技术方案而能够解决上述技术问题。

为实现上述目的，本发明提供如下技术方案：一种虚拟形象的互动方法，包括：获取目标用户的要素特征信息；

将所述要素特征信息输入参数生成模型，通过所述参数生成模型生成虚拟形象的最优控制参数；

根据所述虚拟形象的最优控制参数和直播场景信息，生成虚拟形象和直播环境的互动多媒体流；

通过服务器将生成的虚拟形象和直播环境的互动多媒体流输到目标用户的用户端进行播放。

进一步地，所述参数生成模型是以直播平台历史数据作为训练样本训练得到的一种映射关系，所述参数生成模型包括如下的任意一种或者多种：深度学习网络模型、核方法模型、决策树模型和多种机器学习模型的混合模型，根据直播平台历史数据训练得到优化的参数生成模型，对于一用户的要素特征信息U_i，可得到最优直播参数g(U_i)。

进一步地，所述通过所述参数生成模型得到虚拟形象的最优控制参数方法包括：

从直播平台获取用户的要素特征信息U_i；

根据直播的多媒体信息提取直播参数信息V_j，并获取当前直播人物的直播效果信息R_ij，其中，i表示第i个用户或者第i组用户群，j表示第j个直播视频；

根据用户的要素特征信息U_i，由参数生成模型生成直播控制参数g(U_i)；

根据结果，定义所述参数生成模型的训练损失函数： loss(Θ)＝∑_ijα(R_ij)×dissimilarity(g_Θ(U_i),V_j)，当R_ij是积极的， g(U_i)与直播参数信息V_j比较相似，反之则g(U_i)应该与直播参数信息V_j不相似，其中，α(R_ij)是转换函数，当R_ij是积极的时候α(R_ij) 为负值，当R_ij效果不佳时α(R_ij)为正值，dissimilarity(g_Θ(U_i),V_j) 为距离函数或者某种不相似性度量；

根据训练损失函数得到训练好的参数生成模型，通过所述参数生成模型得到最优控制参数。

更进一步地，所述用户的要素特征信息U_i包括用户的年龄、性别、职业、互联网历史记录和用户当前所在的感知环境信息，所述感知环境信息包括声音和视觉语义信息以及用户当前的原始音频/ 视频/图像和其处理后的信息。

更进一步地，所述直播参数信息V_j包括直播环境的视觉语义特征、主播的视觉语义特征、当前主播的声音语义特征、当前主播的性格参数信息和当前直播中的音频/视频/图像的语义属性。

更进一步地，所述直播结果R用有效量化度量指标进行评测，所述有效量化度量指标包括是否发生了购物和刷礼物、是否涨粉及观看时间长短。

更进一步地，定义所述参数生成模型的训练损失函数的定义方式包括欧式距离、余弦距离、KL散度度量定义方式。

进一步地，按照用户设置模式进行虚拟形象切换，所述用户设置模式包括实时模式和固定模式，所述实时模式时，对获取用户的要素特征信息、最优控制参数生成及互动多媒体流生成进行实时运算进而实现实时的风格切换，所述固定模式时仅在开始直播之前运算一次，固定虚拟形象和直播风格直到该次直播结束。

一种虚拟形象的互动直播装置，包括：第一获取模块、模型输入模块、生成模块和输出模块；

所述第一获取模块用于获取目标用户的要素特征信息；

所述模型输入模块用于将所述要素特征信息输入参数生成模型，通过所述参数生成模型生成虚拟形象的最优控制参数；

所述生成模块用于根据所述虚拟形象的最优控制参数和直播场景信息，生成虚拟形象和直播环境的互动多媒体流；

所述输出模块用于通过服务器将生成的虚拟形象和直播环境的互动多媒体流输到目标用户的用户端进行播放。

进一步地，还包括第二获取模块和模型训练模块；

所述第二获取模块用于将视频平台积累采集的数据中用户的要素特征信息、对应直播参数和直播效果信息进行提取，所述的第二获取模块包括对用户文本信息的编码模块，用户和直播音频信息的自然语言理解模块，用户和直播视频的目标检测、图像分割、内容理解、人体姿态、表情识别、情绪、性格的第一分析模块和基于多媒体的语义信息的第二分析模块；

所述模型训练模块用于将提取的用户的要素特征信息、对应直播参数和直播效果对所述参数生成模型进行训练。

本申请提供的方法依据用户个人信息，调整虚拟形象的生成控制参数，以满足不同客户的审美。并根据客户的即时输入进行互动。本发明的训练采用已有的直播数据，以结果为导向，训练模型，从而得到虚拟形象直播的个性化表现。

从上述的技术方案可以看出，本发明的有益效果是：本发明可对不同用户实现个性化直播，同时与用户互动的效果提升至最大，从而实现更好的效果。

除了上面所描述的目的、特征和优点之外，下文中将结合附图对实施本发明的最优实施例进行更详尽的描述，以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，其中，附图仅仅用于展示本发明的一些实施例，而非将本发明的全部实施例限制于此。

图1为本发明一种虚拟形象的互动方法的具体步骤示意图。

图2为本发明中最优控制参数生成过程的具体步骤示意图。

图3为本发明一种虚拟形象的互动直播装置的组成示意图。

具体实施方式

为了使得本发明的技术方案的目的、技术方案和优点更加清楚，下文中将结合本发明具体实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供了一种虚拟形象互动方法，通过环境感知和平台渠道得到目标用户的个人信息，然后根据用户信息即用户的要素特征信息获得目标用户要素特征。再根据虚拟形象的具体设置，确定虚拟形象的可调控制参数特征。以真实的直播数据作为训练数据，通过建立优化模型，训练得到对应于每个用户要素特征，直播效果获得最大化收益所对应的虚拟形象可调控制参数变量值。根据优化得到的可调控制参数生成虚拟形象的互动多媒体流，并通过服务器将虚拟形象的互动多媒体流发送给目标用户的终端进行播放。如此，能够将虚拟形象调整到最适合当前的用户，同时与用户互动的效果提升至最大，从而实现更好的效果。

如图1至图3所示，该方法包括：

步骤1：获取目标用户的要素特征信息；

步骤2：将所述要素特征信息输入参数生成模型，通过所述参数生成模型生成虚拟形象的最优控制参数。

所述参数生成模型是以直播平台历史数据作为训练样本训练得到的一种映射关系，所述参数生成模型包括如下的任意一种或者多种：深度学习网络模型、核方法模型、决策树模型和多种机器学习模型的混合模型，根据直播平台历史数据训练得到优化的参数生成模型，对于一用户的要素特征信息U_i，可得到最优直播参数g(U_i)。根据所述虚拟形象的最优控制参数，结合直播目的，生成虚拟形象和直播环境的多媒体流，通过服务器传输到客户端进行播放。

所述通过所述参数生成模型得到虚拟形象的最优控制参数方法包括：

步骤2.1：从直播平台获取用户的要素特征信息U_i；

步骤2.2：根据直播的多媒体信息提取直播参数信息V_j，并获取当前直播人物的直播效果信息R_ij，其中，i表示第i个用户或者第i组用户群，j表示第j个直播视频；

步骤2.3：根据用户的要素特征信息U_i，由参数生成模型生成直播控制参数g(U_i)；

步骤2.4：根据结果，即直播效果信息R_ij，定义所述参数生成模型的训练损失函数：loss(Θ)＝∑_ijα(R_ij)×dissimilarity(g_Θ(U_i),V_j)，当R_ij是积极的， g(U_i)与直播参数信息V_j比较相似，反之则g(U_i)应该与直播参数信息V_j不相似，其中，α(R_ij)是转换函数，当R_ij是积极的时候α(R_ij) 为负值，当R_ij效果不佳时α(R_ij)为正值，dissimilarity(g_Θ(U_i),V_j)为距离函数或者一种不相似性度量；

步骤2.5：根据训练损失函数得到训练好的参数生成模型，通过所述参数生成模型得到最优控制参数。其中，所述用户的要素特征信息U_i包括用户的年龄、性别、职业、互联网历史记录和用户当前所在的感知环境信息等，所述感知环境信息包括声音和视觉语义信息以及用户当前的原始音频/视频/图像和其处理后的信息。所述直播参数信息V_j包括直播环境的视觉语义特征、主播的视觉语义特征、当前主播的声音语义特征、当前主播的性格参数信息和当前直播中的音频/视频/图像的语义属性。所述直播结果R用有效量化度量指标进行评测，所述有效量化度量指标包括是否发生了购物和刷礼物、是否涨粉及观看时间长短。其中，直播环境的视觉语义特征如背景色调，声音语义特征如音乐风格，主播的视觉语义特征如衣服、肤色、发型、表情、姿势、行为、动作等，当前主播的声音语义特征如音质、频率、风格等，当前主播的性格参数如活泼、高冷、温暖等等各方面语义信息。

在本实施例中，当直播效果非常积极时，要求预测控制参数 g(U)与真实直播参数V在某种度量下尽可能地相似，相似程度可以由直播效果来参与定义，例如效果极好则要求相似度高，效果一般则要求一般相似，如果效果很差则要求g(U)与真实直播参数V相似度小；基于上述相似度的累积可以定义模型训练的损失函数。

在本实施例中，定义所述参数生成模型的训练损失函数的定义方式包括欧式距离、余弦距离、KL散度度量定义方式等。

步骤3：根据所述虚拟形象的最优控制参数和直播场景信息，生成虚拟形象和直播环境的互动多媒体流。

步骤4：通过服务器将生成的虚拟形象和直播环境的互动多媒体流输到目标用户的用户端进行播放。

按照用户设置模式进行虚拟形象切换，所述用户设置模式包括实时模式和固定模式，所述实时模式时，对获取用户的要素特征信息、最优控制参数生成及互动多媒体流生成进行实时运算进而实现实时的风格切换，所述固定模式时仅在开始直播之前运算一次，固定虚拟形象和直播风格直到该次直播结束。

一种虚拟形象的互动直播装置，其特征在于，包括：第一获取模块、模型输入模块、生成模块和输出模块以及第二获取模块和模型训练模块；

所述第一获取模块用于获取目标用户的要素特征信息；

应当说明的是，本发明所述的实施方式仅仅是实现本发明的优选方式，对属于本发明整体构思，而仅仅是显而易见的改动，均应属于本发明的保护范围之内。

Claims

1.一种虚拟形象的互动方法，其特征在于，具体包括：

获取目标用户的要素特征信息；

2.如权利要求1所述的虚拟形象的互动方法，其特征在于，所述参数生成模型是以直播平台历史数据作为训练样本训练得到的一种映射关系，所述参数生成模型包括如下的任意一种或者多种：深度学习网络模型、核方法模型、决策树模型和多种机器学习模型的混合模型，根据直播平台历史数据训练得到优化的参数生成模型，对于一用户的要素特征信息U_i，可得到最优直播参数g(U_i)。

3.如权利要求1所述的虚拟形象的互动方法，其特征在于，所述通过所述参数生成模型得到虚拟形象的最优控制参数方法包括：

从直播平台获取用户的要素特征信息U_i；

根据结果，定义所述参数生成模型的训练损失函数：loss(Θ)＝∑_ijα(R_ij)×dissimilarity(g_Θ(U_i)，V_j)，当R_ij是积极的，g(U_i)与直播参数信息V_j比较相似，反之则g(U_i)应该与直播参数信息V_j不相似，其中，α(R_ij)是转换函数，当R_ij是积极的时候α(R_ij)为负值，当R_ij效果不佳时α(R_ij)为正值，dissimilarity(g_Θ(U_i)，V_j)为距离函数或者一种不相似性度量；

4.如权利要求3所述的虚拟形象的互动方法，其特征在于，所述用户的要素特征信息U_i包括用户的年龄、性别、职业、互联网历史记录和用户当前所在的感知环境信息，所述感知环境信息包括声音和视觉语义信息以及用户当前的原始音频/视频/图像和其处理后的信息。

5.如权利要求4所述的虚拟形象的互动方法，其特征在于，所述直播参数信息V_j包括直播环境的视觉语义特征、主播的视觉语义特征、当前主播的声音语义特征、当前主播的性格参数信息和当前直播中的音频/视频/图像的语义属性。

6.如权利要求5所述的虚拟形象的互动方法，其特征在于，所述直播结果用有效量化度量指标进行评测，所述有效量化度量指标包括是否发生了购物和刷礼物、是否涨粉及观看时间长短。

7.如权利要求6所述的虚拟形象的互动方法，其特征在于，定义所述参数生成模型的训练损失函数的定义方式包括欧式距离、余弦距离、KL散度度量定义方式。

8.如权利要求1所述的虚拟形象的互动方法，其特征在于，按照用户设置模式进行虚拟形象切换，所述用户设置模式包括实时模式和固定模式，所述实时模式时，对获取用户的要素特征信息、最优控制参数生成及互动多媒体流生成进行实时运算进而实现实时的风格切换，所述固定模式时仅在开始直播之前运算一次，固定虚拟形象和直播风格直到该次直播结束。

9.一种虚拟形象的互动直播装置，其特征在于，包括：第一获取模块、模型输入模块、生成模块和输出模块；

所述第一获取模块用于获取目标用户的要素特征信息；

10.如权利要求9所述的虚拟形象的互动直播装置，其特征在于，还包括第二获取模块和模型训练模块；