CN114902258A

CN114902258A - 交流支持系统以及交流支持程序

Info

Publication number: CN114902258A
Application number: CN202080078487.9A
Authority: CN
Inventors: 翁由奈; 戴桂明; 柿井俊昭; 细谷俊史
Original assignee: Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Electric Industries Ltd
Priority date: 2020-01-10
Filing date: 2020-12-04
Publication date: 2022-08-12
Also published as: US20220405994A1; EP4089605A1; WO2021140799A1; JPWO2021140799A1; EP4089605A4

Abstract

一个实施方式的交流支持系统是支持用户使用终端来进行的交流的交流支持系统，该交流支持系统具备控制数据生成部，该控制数据生成部基于包括用户的语音数据和用户的图像数据的影像数据来生成控制数据，该控制数据用于对显示于终端并参加交流的用户的化身的动作进行控制，控制数据生成部在用户的图像数据发生了图像信息的缺失的情况下，使用用户的语音数据和已学习模型来补充缺失部分的图像信息，已学习模型是以当被输入用户的语音数据时输出化身的控制数据的方式使用训练数据来生成的已学习模型。

Description

交流支持系统以及交流支持程序

技术领域

本公开的一个方面涉及交流支持系统以及交流支持程序。

本申请主张基于2020年1月10日提出申请的日本申请2020－003108号的优先权，并援引记载于所述日本申请的全部记载内容。

背景技术

关于使用计算机的交流，例如日本特开2009－077380号公报(专利文献1)公开一种从文化的适当度的观点考虑将与用户动作对应的化身动作中的注视和示意动作这样的非语言行为动作修正为其他动作的会议系统。

现有技术文献

专利文献

专利文献1：日本特开2009－077380号公报

发明内容

本公开的一个方面的交流支持系统是支持用户使用终端来进行的交流的交流支持系统，该交流支持系统具备控制数据生成部，该控制数据生成部基于包括上述用户的语音数据和上述用户的图像数据的影像数据来生成控制数据，该控制数据用于对显示于上述终端并参加上述交流的上述用户的化身的动作进行控制，上述控制数据生成部在上述用户的图像数据发生了图像信息的缺失的情况下，使用上述用户的语音数据和已学习模型来补充缺失部分的图像信息，上述已学习模型是以当被输入上述用户的语音数据时输出上述化身的上述控制数据的方式使用训练数据来生成的已学习模型。

附图说明

图1是表示实施方式的交流支持系统的概略构成的例子的图。

图2是表示由实施方式的交流支持系统提供的交流的例子的图。

图3是表示终端和服务器的功能块的例子的图。

图4A是表示与规定的帧对应的用户的图像全部缺失的状态的图。

图4B是表示在与规定的帧对应的用户的图像中用户的脸部的一部分的图像数据缺失的状态的图。

图4C是表示基于图4A或图4B的图像数据的化身的动作的例子的图。

图5是表示在交流支持系统中执行的处理的例子的时序图。

具体实施方式

[本公开所要解决的问题]

化身动作基于用户的影像数据即用户的语音数据和图像数据被控制为反映用户动作。在该情况下，存在在图像数据发生了掉帧等缺失时化身动作停止这样的问题。在专利文献1中对于这样的问题没有进行任何研究。

[本公开的效果]

根据本公开的一个方面，即使在用户的图像数据发生了缺失的情况下也能使化身的动作继续进行。

[本公开的实施方式的说明]

首先，列举本公开的实施方案来进行说明。也可以将以下记载的实施方式的一部分任意地组合。

本公开的一个方面的交流支持程序使计算机作为上述交流支持系统进行动作。

在这样的方面中，即使在用户的图像数据发生了图像信息的缺失的情况下化身也被控制，因此能使化身的动作继续进行。

也可以是，上述已学习模型是以输出与上述缺失对应的上述图像信息已被补充的上述用户的图像数据的方式使用上述用户的图像数据的至少一部分、上述用户的语音数据以及训练数据来生成的已学习模型。也可以是，上述控制数据生成部在上述用户的图像数据发生了图像信息的缺失的情况下，使用上述用户的图像数据的至少一部分、上述用户的语音数据以及上述已学习模型来生成对上述化身进行控制的上述控制数据。例如，通过这样做，即使在用户的图像数据发生了图像信息的缺失的情况下也能对化身进行控制。

也可以是，上述图像信息的缺失是指至少一个单位帧中不包含图像信息的状态。由此，即使在单位帧中不包含图像信息的情况下，也能对化身进行控制。

也可以是，上述图像信息的缺失是上述用户的脸部的一部分的图像信息的缺失。也可以是，上述控制数据包括用于对上述化身的表情进行控制的控制数据。由此，即使在没有用户的脸部的一部分的图像信息的情况下，也能对化身的表情进行控制。

也可以是，上述控制数据生成部在上述用户的语音数据发生了缺失的情况下，补充缺失的语音数据。由此，即使在语音数据缺失的情况下，也能使化身的动作继续进行。

以下，参照附图对本公开中的实施方式详细地进行说明。在附图的说明中对相同或等同的要素标注相同的附图标记，不反复进行重复的说明。

图1是表示实施方式的交流支持系统(以下，有时也仅称为“系统”。)的概略构成的例子的图。系统100是支持交流的计算机系统。交流的例子是视频会议、聊天、诊察、咨询(counselling)、面试(人物评价)、远程办公等。

系统100包括终端10、终端20以及终端30。在图1所示的例子中，终端10是用户U1所使用的膝上型的个人计算机(PC：Personal Computer)。终端20是用户U2所使用的便携式电话机(智能手机等)。终端30是用户U3所使用的台式的PC。终端10、终端20以及终端30能连接于网络N。在该例子中，终端10经由接入点AP连接于网络N，终端20经由基站BS连接于网络N，终端30通过有线(未图示)连接于网络N。除了上述的PC、便携式电话机以外，平板终端、可穿戴终端、头戴式显示器(HMD：Head Mounted Display)终端、其他各种各样的终端也可以用作终端10、终端20以及终端30。系统100中所包括的终端的数量不限定于图1的例子。

系统100包括服务器40。服务器40连接于网络N。因此，终端10、终端20、终端30以及服务器40能经由网络N相互通信。系统100中所包括的服务器的数量不限定于图1的例子。

网络N的构成不被限定。例如，网络N可以被构成为包括因特网(公用网)、通信载波网络、运营商网络等。

图2是表示由系统100提供的交流的例子的图。交流在通过计算机表现的虚拟空间50进行。虚拟空间50显示于终端10、终端20以及终端30，由此被呈现给用户U1、用户U2以及用户U3。

在本实施方式中，用户U1的化身V1、用户U2的化身V2以及用户U3的化身V3作为交流的参加者出现在虚拟空间50。

化身V1是在虚拟空间50内表现的用户U1的分身，通过独立于用户U1的实际的像(拍摄数据等)的图像素材来生成。化身V1也可以是网络N上的虚拟空间50中的用户U1的分身。图像素材既可以是用于生成动画角色的素材，也可以是用于生成基于用户U1的照片等而预先制作出的、更接近本人的用户图像的素材。化身V1可以通过二维或三维的计算机图形(CG：Computer Graphic)来描绘。化身V1的属性例如包括化身的服装、头发、年龄、性别、美丑(例如，可爱、普通、不可爱等)等。化身V1、包括上述属性在内可以由用户U1自由地选择和设定。对于化身V2和用户U2、化身V3和用户U3也是同样的。

图3是表示终端10、终端20、终端30以及服务器40的功能块的例子的图。终端20和终端30的功能块与终端10的功能块是同样的，因此以下对终端10和服务器40进行说明。首先对终端10进行说明，接着对服务器40进行说明。

终端10包括输入部11。输入部11是被输入用户U1的影像的部分。用户U1的影像包括用户U1的语音和图像。

终端10包括控制部12。控制部12是生成用户U1的影像数据的部分。用户U1的影像数据基于被输入至输入部11的用户U1的影像来生成。影像数据可以由能相互分离的语音数据和图像数据构成。图像数据由连续的多个单位帧构成。单位帧通常包含用户U1的图像信息。例如60帧/秒的图像数据每秒钟包括60个单位帧。控制部12可以对语音数据和帧图像数据进行编码和复用以适合于经由网络N的通信。

控制部12也是对化身V1、化身V2以及化身V3进行控制的部分。化身V1、化身V2以及化身V3的控制包括化身V1、化身V2以及化身V3的动作的控制。此处的动作包括语言行为和非语言行为中的至少非语言行为。语言行为是使用语言的行为，是讲话(话语)等。非语言行为是不使用语言的行为，例如是视线(视线移动)、姿势、示意动作(gesture)、表情等。脸部的姿势或动作的例子是点头、摇头、歪头、点头等。上半身的姿势或动作的例子是躯体的朝向、肩的扭转、肘的折弯、手的举放等。手指的活动的例子是伸展、弯曲、外展、内收等。表情的例子是中立、喜悦、轻蔑、厌恶、恐惧、惊讶、悲伤、愤怒等。化身V1、化身V2以及化身V3的控制基于对应的控制数据来进行。控制数据如后述那样通过服务器40来生成。

控制部12也是生成虚拟空间50的影像数据的部分。虚拟空间50的影像数据包括基于控制数据而被控制的化身V1、化身V2以及化身V3的影像数据。除此之外，虚拟空间50中出现的各种各样的物体(object)也可以包括在虚拟空间50的影像数据中。物体的例子是设于会议室的椅子、桌子、其他装饰品、会议用的资料、放映出该资料的屏幕等。

终端10包括存储部13。存储部13是存储终端10的控制(处理)所需的信息的部分。在图3中，作为存储于存储部13的信息，举例示出了终端程序13P。终端程序13P是用于使终端10进行动作的程序，终端程序13P使计算机进行动作以使由控制部12进行的控制等被执行。系统100是交流支持系统，因此终端程序13P也可以称为交流支持程序。

终端10包括通信部14。通信部14是经由网络N(图1)与终端10的外部装置进行通信的部分。终端10的外部装置的例子是终端20、终端30以及服务器40。通信部14将控制部12所生成的影像数据发送至服务器40，或者从服务器40接收化身V1、化身V2以及化身V3的控制数据。

终端10包括输出部15。输出部15输出虚拟空间50的影像。虚拟空间50的影像是基于由控制部12生成的虚拟空间50的影像数据的影像。

服务器40包括控制部42。控制部42是生成用于对化身V1、化身V2以及化身V3进行控制的控制数据的部分(控制数据生成部)。化身V1的控制数据基于用户U1的影像数据来生成。化身V2的控制数据基于用户U2的影像数据来生成。化身V3的控制数据基于用户U3的影像数据来生成。控制部42可以对从影像数据分离出的图像数据进行解析来决定与用户U1、用户U2以及用户U3的非语言行为对应的模式。图像模式可以从预先存储于存储部43的有限个给定的模式中选择。在该情况下，无限的非语言行为被归纳为(被分类为)有限个模式，因此，化身V1、化身V2以及化身V3的控制数据的量(volume)减少，进而通信负载减少。在控制数据中，例如非语言行为可以以JSON(JavaScript＜注册商标＞Object Notation：JavaScript对象简谱)形式来记述。化身V1、化身V2以及化身V3的语音数据既可以使用从影像数据分离出的语音数据本身，也可以使用被施加了一些变更的语音数据。控制部42将表示决定出的化身V1、化身V2以及化身V3的模式的非语言行为数据和用户U1、用户U2以及用户U3的语音数据进行组合来生成化身V1、化身V2以及化身V3的控制数据。

服务器40包括存储部43。存储部43是存储服务器40的控制所需的信息的部分。在图3中，作为存储于存储部43的信息，举例示出了服务器程序43P、接收数据43S以及已学习模型43L。服务器程序43P是用于使服务器40进行动作的程序，服务器程序43P使计算机进行动作以使由控制部42进行的控制等被执行。系统100是交流支持系统，因此服务器程序43P也可以称为交流支持程序。接收数据43S是从终端10、终端20以及终端30被传送至服务器40的数据，可以包括用户U1、用户U2以及用户U3的影像数据。关于已学习模型43L在后文进行叙述。

在此，在基于用户U1的影像数据来生成化身V1的控制数据的情况下，会产生如下问题。如上所述，用户U1的影像数据包括用户U1的语音数据和图像数据，但其中的图像数据的容量较大，因此，根据终端10、网络N、服务器40间的通信状况等，有时从终端10被传送至服务器40的图像数据会发生图像信息的缺失。例如，如前述那样，构成图像数据的多个单位帧的每一个通常包含图像信息。然而，有时会产生多个单位帧中的至少一个单位帧中不包含图像信息的状态(掉帧)。此外，根据终端10的使用状况等，有时在至少一个单位帧中用户U1的身体的一部分、特别是上半身的一部分(脸部的一部分等)的图像信息会缺失。在发生了这样的图像信息的缺失的情况下，用户U1的非语言行为未充分地表现在图像数据中，难以适当地生成化身V1的控制数据。例如，在发生掉帧时，化身V1的动作会停止。在没有用户U1的脸部的一部分的图像信息时，变得无法适当地控制化身V1的表情。在用户U2的图像数据和用户U3的图像数据发生了图像信息的缺失的情况下也是同样的。以下，有时也将“用户的图像数据发生图像信息的缺失”的状态称为“用户的图像数据发生了缺失”。

在本实施方式中，即使在发生了如上所述的图像数据的缺失的情况下，服务器40的控制部42也适当地生成化身V1、化身V2以及化身V3的控制数据。为此，控制部42使用已学习模型43L来推定用户U1的图像数据发生了缺失时的用户U1的动作，并生成化身V1的控制数据。具体而言，控制部42将用户U1的语音数据输入至已学习模型43L，由此获取化身V1的动作信息(的推定结果)，并基于获取到的动作信息来生成化身V1的控制数据。同样地，控制部42在用户U2的图像数据发生了缺失的情况下，使用用户U2的语音数据和已学习模型43L来生成化身V2的控制数据。控制部42在用户U3的图像数据发生了缺失的情况下，使用用户U3的语音数据和已学习模型43L来生成化身V3的控制数据。

在如上所述地使用已学习模型43L的情况下，已学习模型43L可以以当被输入用户U1的语音数据时输出化身V1的控制数据(动作信息)的方式使用训练数据来生成。训练数据既可以是有监督训练数据，也可以是无监督训练数据。在有监督训练数据的情况下，训练数据可以是将各种各样的人物的图像与语言行为建立了对应的教师数据的组。可以使用与用户U1、用户U2以及用户U3各自对应的教师数据的组来生成为各个用户定制的已学习模型。

在一个实施方式中，控制部42也可以在图像数据发生了图像信息的缺失的情况下，通过将用户U1的图像数据的至少一部分和用户U1的语音数据输入至已学习模型43L来生成化身V1的控制数据。被输入至已学习模型43L的用户U1的图像数据的例子是用户U1的图像数据未发生图像信息的缺失的状态下的数据，例如是构成缺失发生前或缺失发生消除后的用户U1的图像数据的多个单位帧中的至少一个单位帧。

在如上所述地使用已学习模型43L的情况下(在图像数据发生了图像信息的缺失的情况下)，已学习模型43L可以以当被输入用户U1的图像数据(例如，在以前(例如最近)接收到的、未发生图像信息的缺失的图像数据)的至少一部分和用户U1的语音数据时输出包括化身V1的动作信息的控制数据的方式使用训练数据来生成。这样的已学习模型43L的例子是GAN(Generative Adversarial Network：生成对抗网络)模型。如果使用GAN模型，则使用用户U1的图像来表现(推定)与用户U1的语音数据相应的用户U1的动作。由于已知有各种各样的如GAN模型这样的已学习模型的生成方法，因此在此直接对一个例子进行说明。GAN模型包括图像生成器(Generator)和辨别器(Discriminator)。为了训练图像生成器和辨别器，首先准备连续单位帧(以下，称为“训练用连续单位帧”)、与训练用连续单位帧对应的连续语音数据(以下，称为“训练用连续语音数据”)以及训练用连续单位帧中的一个单位帧(以下，称为“训练用单位帧”)。其中，将训练用连续语音数据和训练用单位帧输入至图像生成器。图像生成器根据被输入的数据来生成连续单位帧。由图像生成器生成的连续单位帧和训练用连续单位帧被输入至辨别器。辨别器辨别(判断)由图像生成器生成的连续单位帧是否正确即是否与训练用连续单位帧一致、类似等。通过使用这样训练出的GAN模型，能根据语音数据和至少一个单位帧来推定与连续语音数据对应的连续单位帧(即图像数据)。推定出的图像数据的解析结果被反映至用户U1的控制数据。

通过使用以上这样的已学习模型43L，即使用户U1的图像数据发生缺失，控制部42也生成与发生该缺失时(缺失期间)对应的化身V1的控制数据，从而使化身V1的动作继续进行。例如，即使在如图4A那样与规定的帧对应的用户U1的图像(例如用虚线示出的图像)全部缺失的情况下或如图4B那样在与规定的帧对应的用户U1的图像中用户U1的脸部的一部分的图像数据缺失的情况下，如图4C那样化身V1也会继续进行动作。在图4A中，用虚线示出了应作为图像数据被包含的用户U1的图像。换言之，意味着用虚线示出的图像不包含在图像数据中。

此外，虽然没有图像数据的缺失频度那么高，但有时用户U1的语音数据也会发生丢音等缺失。即使在发生了语音数据的缺失的情况下，控制部42也适当地生成化身V1、化身V2以及化身V3的控制数据。为此，控制部42在用户U1的语音数据发生了缺失的情况下，补充缺失的语音数据。已学习模型43L也可以用于语音数据的补充。若列举补充方法的几个例子，则例如已知以下方法：通过基于“Missing Feature Theory(特征丢失理论)”的语音识别，根据前后的语言信息和声学信息来推定中断区间的音位片段串，并基于推定出的音位片段串来进行语音合成，从而生成中断区间的语音波形并进行插补。还已知着眼于将LSTM(Long Short Term Memory：长短期记忆网络)用作GAN的生成器并经由光滑逼近(smoothapproximation)方法来近似于LSTM的输出的“经由对抗训练生成文本(Generating Textvia Adversarial Training)”。还已知通过GAN的框架来学习强化学习的策略梯度(policygradient)，并生成文本、音乐等的序列的“SeqGAN：Sequence Generative AdversarialNets with Policy Gradient(具有策略梯度的序列生成对抗网络)”。

服务器40包括通信部44。通信部44是经由网络N(图1)与服务器40的外部装置进行通信的部分。服务器40的外部装置的例子是终端10、终端20以及终端30。通信部44从终端10、终端20以及终端30分别接收用户U1的影像数据、用户U2的影像数据以及用户U3的影像数据，或者将控制部42所生成的智能体A的控制数据、化身V1的控制数据、化身V2的控制数据以及化身V3的控制数据分别发送至终端10、终端20以及终端30。

对与终端10和服务器40的各功能部分相关的硬件构成的例子进行说明。服务器40的通信部44可以使用网卡或无线通信设备来构成，以便能访问网络N。服务器40的控制部42可以使用CPU(Central Processing Unit：中央处理器)、GPU(Graphics Processing Unit：图形处理器)等处理器来构成。控制部42也可以在使用处理器的同时还使用时钟和内置存储器来构成。控制部42也可以被构成为集成了处理器、时钟、内置存储器、存储部43以及通信部44的一个硬件(SoC：System On a Chip：单片系统)。控制部42基于服务器程序43P来进行动作，由此使服务器计算机作为服务器40来进行动作。服务器40的存储部43可以使用闪存、硬盘、SSD(Solid State Disk：固态硬盘)等非易失性存储介质来构成。

终端10的输入部11可以使用麦克风、摄像机等来构成。通过麦克风来获取用户U1的语音。通过摄像机来获取用户U1的图像。而且，输入部11也可以使用键盘、鼠标、触摸面板这些操作设备来构成。终端10的控制部12可以与服务器40的控制部42同样地构成。控制部12基于终端程序13P来进行动作，由此使通用计算机作为终端10来进行动作。终端10的存储部13可以与服务器40的存储部43同样地构成。终端10的通信部14可以与服务器40的通信部44同样地构成。终端10的输出部15可以使用液晶面板、有机EL(electroluminescence：电致发光)面板等(可以是触摸面板)等显示装置来构成。而且，输出部15也可以还使用扬声器来构成。

图5是表示在系统100中被执行的处理的例子的时序图。图5所示的处理可以在交流持续的期间被反复执行。

在步骤S1至步骤S3中，将用户的影像数据发送至服务器40。具体而言，在步骤S1中，终端10将用户U1的影像数据发送至服务器40。在步骤S2中，终端20将用户U2的影像数据发送至服务器40。在步骤S3中，终端30将用户U3的影像数据发送至服务器40。这些数据作为接收数据43S存储于服务器40的存储部43。

在步骤S4中，生成化身的控制数据。具体而言，服务器40的控制部42基于在之前的步骤S1中接收到的用户U1的影像数据来生成化身V1的控制数据，基于在之前的步骤S2中接收到的用户U2的影像数据来生成化身V2的控制数据，并基于在之前的步骤S3中接收到的用户U3的影像数据来生成化身V3的控制数据。

在步骤S5至步骤S7中，发送化身的控制数据。具体而言，在步骤S5中，服务器40将在之前的步骤S4中生成的化身V1、化身V2以及化身V3的控制数据发送至终端10。在步骤S6中，服务器40将这些控制数据发送至终端20。在步骤S7中，服务器40将这些控制数据发送至终端30。

在步骤S8至步骤S10中，对化身进行控制。具体而言，在步骤S8中，终端10基于在之前的步骤S5中接收到的化身V1、化身V2以及化身V3的控制数据来对化身V1、化身V2以及化身V3进行控制。由此，显示于终端10的虚拟空间50中的化身V1、化身V2以及化身V3以反映用户U1、用户U2以及用户U3的动作的方式进行动作。在步骤S9中，终端20基于在之前的步骤S6中接收到的化身V1、化身V2以及化身V3的控制数据来对化身V1、化身V2以及化身V3进行控制。由此，显示于终端20的虚拟空间50中的化身V1、化身V2以及化身V3以反映用户U1、用户U2以及用户U3的动作的方式进行动作。在步骤S10中，终端30基于在之前的步骤S7中接收到的化身V1、化身V2以及化身V3的控制数据来对化身V1、化身V2以及化身V3进行控制。由此，显示于终端30的虚拟空间50中的化身V1、化身V2以及化身V3以反映用户U1、用户U2以及用户U3的动作的方式进行动作。

与之前说明过的步骤S1至步骤S3相比较，步骤S11至步骤S13在用户U1的影像数据(图像数据等)中发生了之前说明过的缺失这一点上不同。即，在步骤S11中，终端10将发生了缺失的用户U1的影像数据发送至服务器40。在步骤S12中，终端20将用户U2的影像数据发送至服务器40。在步骤S13中，终端30将用户U3的影像数据发送至服务器40。这些数据作为接收数据43S存储于服务器40的存储部43。

在步骤S14中，推定用户的动作。即，在之前的步骤S11中从终端10被传送至服务器40的用户U1的影像数据发生了缺失。因此，如至此说明过的那样，控制部42使用已学习模型43L来推定未发生缺失时的用户U1的动作。

在步骤S15中，生成化身的控制数据。在此，用户U1的化身V1的控制数据基于在之前的步骤S14中推定出的用户U1的推定结果来生成。化身V2的控制数据的生成和化身V3的控制数据基于用户U2的影像数据和用户U3的影像数据来生成。

步骤S16至步骤S21与之前说明过的步骤S5至步骤S10是同样的，发送化身的控制数据，对化身进行控制。通过这样反复执行处理来对化身V1、化身V2以及化身V3进行控制，推进交流。在上述步骤S11和步骤S14中，对用户U1的图像数据发生了缺失而推定用户U1的动作的例子进行了说明，在用户U2的图像数据和用户U3的图像数据缺失的情况下，则推定用户U2和用户U3的动作。此外，在用户U1的语音数据也发生了缺失的情况下，如之前说明过的那样进行由控制部42进行的语音数据的补充，并推定用户U1的动作，在此基础上生成化身V1的控制数据。在用户U2的语音数据和用户U3的语音数据发生了缺失的情况下也是同样的。

以上说明的系统100例如如以下这样来确定。即，系统100支持用户U1、U2以及U3(以下，称为“用户U1等”。)使用终端10、终端20以及终端30(以下，称为“终端10等”。)来进行的交流。控制部(控制数据生成部)42(可以包括与控制部12的协作)基于包括用户U1等的语音数据和用户U1等的图像数据的影像数据来生成控制数据，该控制数据用于对显示于终端10等并参加交流的用户U1等的化身V1、化身V2以及化身V3(以下，称为“化身V1等”。)的动作进行控制。控制部42在用户U1等的图像数据发生了图像信息的缺失的情况下，使用用户U1等的语音数据和已学习模型43L来补充缺失部分的图像信息。已学习模型43L以当被输入用户U1等的语音数据时输出化身V1等的控制数据的方式使用训练数据来生成。

系统100可以通过由终端程序13P和服务器程序43P(交流支持程序)使计算机作为系统100进行动作来实现。

根据系统100，即使在用户U1等的图像数据中图像信息缺失的情况下也能使化身V1等的动作继续进行。

也可以是，已学习模型43L以输出与上述缺失对应的上述图像信息已被补充的用户U1等的图像数据的方式使用用户U1等的图像数据的至少一部分、用户U1等的语音数据以及训练数据来生成。也可以是，控制部42在用户U1等的图像数据发生了图像信息的缺失的情况下，使用用户U1等的图像数据的至少一部分、用户U1等的语音数据以及已学习模型43L来生成对化身V1等进行控制的控制数据。例如，通过这样做，即使在用户U1等的图像数据发生了图像信息的缺失的情况下也能对化身V1等进行控制。

也可以是，图像信息的缺失是指至少一个单位帧中不包含图像信息的状态。由此，即使在单位帧中没有图像信息的情况下，也能对化身V1等进行控制。

也可以是，图像信息的缺失是用户U1等的脸部的一部分的图像信息的缺失。也可以是，控制数据包括用于对化身V1等的表情进行控制的控制数据。由此，即使在没有用户U1等的脸部的一部分的图像信息的情况下，也能对化身的表情进行控制。

也可以是，控制部42在用户U1等的语音数据发生了缺失的情况下，补充缺失的语音数据。由此，即使在语音数据缺失的情况下，也能使化身V1等的动作继续进行。

本公开不限定于上述实施方式。例如，在上述实施方式中，对化身V1、化身V2以及化身V3出现在虚拟空间50内的例子进行了说明。不过，用户自身的化身也可以不出现在虚拟空间50内。在该情况下，化身V2和化身V3出现在显示于用户U1的终端10的虚拟空间50内，但化身V1不出现。化身V2和化身V3的非语言动作(视线移动等)可以被控制为针对正在看显示于终端10的虚拟空间50的用户U1的动作。化身V1和化身V3出现在显示于用户U2的终端20的虚拟空间50内，但化身V2不出现。化身V1和化身V3的非语言动作可以被控制为针对正在看显示于终端20的虚拟空间50的用户U2的动作。化身V1和化身V2出现在显示于用户U3的终端30的虚拟空间50内，但化身V3不出现。化身V2和化身V3的非语言动作可以被控制为针对正在看显示于终端30的虚拟空间50的用户U3的动作。

附图标记说明

10、20、30……终端，11……输入部，12……控制部，42……控制部(控制数据生成部)，13……存储部，13P……终端程序(交流支持程序)，14……通信部，15……输出部，40……服务器，43……存储部，43L……已学习模型，43P……服务器程序(交流支持程序)，43S……接收数据，50……虚拟空间，100……系统(交流支持系统)，U1、U2、U3……用户，V1、V2、V3……化身。

Claims

1.一种交流支持系统，支持用户使用终端来进行的交流，

该交流支持系统具备控制数据生成部，该控制数据生成部基于包括所述用户的语音数据和所述用户的图像数据的影像数据来生成控制数据，该控制数据用于对显示于所述终端并参加所述交流的所述用户的化身的动作进行控制，

所述控制数据生成部在所述用户的图像数据发生了图像信息的缺失的情况下，使用所述用户的语音数据和已学习模型来补充缺失部分的图像信息，

所述已学习模型是以当被输入所述用户的语音数据时输出所述化身的所述控制数据的方式使用训练数据来生成的已学习模型。

2.根据权利要求1所述的交流支持系统，其中，

所述已学习模型是以输出与所述缺失对应的所述图像信息已被补充的所述用户的图像数据的方式使用所述用户的图像数据的至少一部分、所述用户的语音数据以及训练数据来生成的已学习模型，

所述控制数据生成部在所述用户的图像数据发生了图像信息的缺失的情况下，使用所述用户的图像数据的至少一部分、所述用户的语音数据以及所述已学习模型来生成对所述化身进行控制的所述控制数据。

3.根据权利要求1或2所述的交流支持系统，其中，

所述图像信息的缺失是指至少一个单位帧中不包含图像信息的状态。

4.根据权利要求1或2所述的交流支持系统，其中，

所述图像信息的缺失是所述用户的脸部的一部分的图像信息的缺失，

所述控制数据包括用于对所述化身的表情进行控制的控制数据。

5.根据权利要求1至4中任一项所述的交流支持系统，其中，

所述控制数据生成部在所述用户的语音数据发生了缺失的情况下，补充缺失的语音数据。

6.一种交流支持程序，使计算机作为权利要求1所述的交流支持系统发挥功能。