CN114902258A - 交流支持系统以及交流支持程序 - Google Patents

交流支持系统以及交流支持程序 Download PDF

Info

Publication number
CN114902258A
CN114902258A CN202080078487.9A CN202080078487A CN114902258A CN 114902258 A CN114902258 A CN 114902258A CN 202080078487 A CN202080078487 A CN 202080078487A CN 114902258 A CN114902258 A CN 114902258A
Authority
CN
China
Prior art keywords
user
data
avatar
terminal
control data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080078487.9A
Other languages
English (en)
Inventor
翁由奈
戴桂明
柿井俊昭
细谷俊史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Publication of CN114902258A publication Critical patent/CN114902258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一个实施方式的交流支持系统是支持用户使用终端来进行的交流的交流支持系统,该交流支持系统具备控制数据生成部,该控制数据生成部基于包括用户的语音数据和用户的图像数据的影像数据来生成控制数据,该控制数据用于对显示于终端并参加交流的用户的化身的动作进行控制,控制数据生成部在用户的图像数据发生了图像信息的缺失的情况下,使用用户的语音数据和已学习模型来补充缺失部分的图像信息,已学习模型是以当被输入用户的语音数据时输出化身的控制数据的方式使用训练数据来生成的已学习模型。

Description

交流支持系统以及交流支持程序
技术领域
本公开的一个方面涉及交流支持系统以及交流支持程序。
本申请主张基于2020年1月10日提出申请的日本申请2020-003108号的优先权,并援引记载于所述日本申请的全部记载内容。
背景技术
关于使用计算机的交流,例如日本特开2009-077380号公报(专利文献1)公开一种从文化的适当度的观点考虑将与用户动作对应的化身动作中的注视和示意动作这样的非语言行为动作修正为其他动作的会议系统。
现有技术文献
专利文献
专利文献1:日本特开2009-077380号公报
发明内容
本公开的一个方面的交流支持系统是支持用户使用终端来进行的交流的交流支持系统,该交流支持系统具备控制数据生成部,该控制数据生成部基于包括上述用户的语音数据和上述用户的图像数据的影像数据来生成控制数据,该控制数据用于对显示于上述终端并参加上述交流的上述用户的化身的动作进行控制,上述控制数据生成部在上述用户的图像数据发生了图像信息的缺失的情况下,使用上述用户的语音数据和已学习模型来补充缺失部分的图像信息,上述已学习模型是以当被输入上述用户的语音数据时输出上述化身的上述控制数据的方式使用训练数据来生成的已学习模型。
附图说明
图1是表示实施方式的交流支持系统的概略构成的例子的图。
图2是表示由实施方式的交流支持系统提供的交流的例子的图。
图3是表示终端和服务器的功能块的例子的图。
图4A是表示与规定的帧对应的用户的图像全部缺失的状态的图。
图4B是表示在与规定的帧对应的用户的图像中用户的脸部的一部分的图像数据缺失的状态的图。
图4C是表示基于图4A或图4B的图像数据的化身的动作的例子的图。
图5是表示在交流支持系统中执行的处理的例子的时序图。
具体实施方式
[本公开所要解决的问题]
化身动作基于用户的影像数据即用户的语音数据和图像数据被控制为反映用户动作。在该情况下,存在在图像数据发生了掉帧等缺失时化身动作停止这样的问题。在专利文献1中对于这样的问题没有进行任何研究。
[本公开的效果]
根据本公开的一个方面,即使在用户的图像数据发生了缺失的情况下也能使化身的动作继续进行。
[本公开的实施方式的说明]
首先,列举本公开的实施方案来进行说明。也可以将以下记载的实施方式的一部分任意地组合。
本公开的一个方面的交流支持系统是支持用户使用终端来进行的交流的交流支持系统,该交流支持系统具备控制数据生成部,该控制数据生成部基于包括上述用户的语音数据和上述用户的图像数据的影像数据来生成控制数据,该控制数据用于对显示于上述终端并参加上述交流的上述用户的化身的动作进行控制,上述控制数据生成部在上述用户的图像数据发生了图像信息的缺失的情况下,使用上述用户的语音数据和已学习模型来补充缺失部分的图像信息,上述已学习模型是以当被输入上述用户的语音数据时输出上述化身的上述控制数据的方式使用训练数据来生成的已学习模型。
本公开的一个方面的交流支持程序使计算机作为上述交流支持系统进行动作。
在这样的方面中,即使在用户的图像数据发生了图像信息的缺失的情况下化身也被控制,因此能使化身的动作继续进行。
也可以是,上述已学习模型是以输出与上述缺失对应的上述图像信息已被补充的上述用户的图像数据的方式使用上述用户的图像数据的至少一部分、上述用户的语音数据以及训练数据来生成的已学习模型。也可以是,上述控制数据生成部在上述用户的图像数据发生了图像信息的缺失的情况下,使用上述用户的图像数据的至少一部分、上述用户的语音数据以及上述已学习模型来生成对上述化身进行控制的上述控制数据。例如,通过这样做,即使在用户的图像数据发生了图像信息的缺失的情况下也能对化身进行控制。
也可以是,上述图像信息的缺失是指至少一个单位帧中不包含图像信息的状态。由此,即使在单位帧中不包含图像信息的情况下,也能对化身进行控制。
也可以是,上述图像信息的缺失是上述用户的脸部的一部分的图像信息的缺失。也可以是,上述控制数据包括用于对上述化身的表情进行控制的控制数据。由此,即使在没有用户的脸部的一部分的图像信息的情况下,也能对化身的表情进行控制。
也可以是,上述控制数据生成部在上述用户的语音数据发生了缺失的情况下,补充缺失的语音数据。由此,即使在语音数据缺失的情况下,也能使化身的动作继续进行。
以下,参照附图对本公开中的实施方式详细地进行说明。在附图的说明中对相同或等同的要素标注相同的附图标记,不反复进行重复的说明。
图1是表示实施方式的交流支持系统(以下,有时也仅称为“系统”。)的概略构成的例子的图。系统100是支持交流的计算机系统。交流的例子是视频会议、聊天、诊察、咨询(counselling)、面试(人物评价)、远程办公等。
系统100包括终端10、终端20以及终端30。在图1所示的例子中,终端10是用户U1所使用的膝上型的个人计算机(PC:Personal Computer)。终端20是用户U2所使用的便携式电话机(智能手机等)。终端30是用户U3所使用的台式的PC。终端10、终端20以及终端30能连接于网络N。在该例子中,终端10经由接入点AP连接于网络N,终端20经由基站BS连接于网络N,终端30通过有线(未图示)连接于网络N。除了上述的PC、便携式电话机以外,平板终端、可穿戴终端、头戴式显示器(HMD:Head Mounted Display)终端、其他各种各样的终端也可以用作终端10、终端20以及终端30。系统100中所包括的终端的数量不限定于图1的例子。
系统100包括服务器40。服务器40连接于网络N。因此,终端10、终端20、终端30以及服务器40能经由网络N相互通信。系统100中所包括的服务器的数量不限定于图1的例子。
网络N的构成不被限定。例如,网络N可以被构成为包括因特网(公用网)、通信载波网络、运营商网络等。
图2是表示由系统100提供的交流的例子的图。交流在通过计算机表现的虚拟空间50进行。虚拟空间50显示于终端10、终端20以及终端30,由此被呈现给用户U1、用户U2以及用户U3。
在本实施方式中,用户U1的化身V1、用户U2的化身V2以及用户U3的化身V3作为交流的参加者出现在虚拟空间50。
化身V1是在虚拟空间50内表现的用户U1的分身,通过独立于用户U1的实际的像(拍摄数据等)的图像素材来生成。化身V1也可以是网络N上的虚拟空间50中的用户U1的分身。图像素材既可以是用于生成动画角色的素材,也可以是用于生成基于用户U1的照片等而预先制作出的、更接近本人的用户图像的素材。化身V1可以通过二维或三维的计算机图形(CG:Computer Graphic)来描绘。化身V1的属性例如包括化身的服装、头发、年龄、性别、美丑(例如,可爱、普通、不可爱等)等。化身V1、包括上述属性在内可以由用户U1自由地选择和设定。对于化身V2和用户U2、化身V3和用户U3也是同样的。
图3是表示终端10、终端20、终端30以及服务器40的功能块的例子的图。终端20和终端30的功能块与终端10的功能块是同样的,因此以下对终端10和服务器40进行说明。首先对终端10进行说明,接着对服务器40进行说明。
终端10包括输入部11。输入部11是被输入用户U1的影像的部分。用户U1的影像包括用户U1的语音和图像。
终端10包括控制部12。控制部12是生成用户U1的影像数据的部分。用户U1的影像数据基于被输入至输入部11的用户U1的影像来生成。影像数据可以由能相互分离的语音数据和图像数据构成。图像数据由连续的多个单位帧构成。单位帧通常包含用户U1的图像信息。例如60帧/秒的图像数据每秒钟包括60个单位帧。控制部12可以对语音数据和帧图像数据进行编码和复用以适合于经由网络N的通信。
控制部12也是对化身V1、化身V2以及化身V3进行控制的部分。化身V1、化身V2以及化身V3的控制包括化身V1、化身V2以及化身V3的动作的控制。此处的动作包括语言行为和非语言行为中的至少非语言行为。语言行为是使用语言的行为,是讲话(话语)等。非语言行为是不使用语言的行为,例如是视线(视线移动)、姿势、示意动作(gesture)、表情等。脸部的姿势或动作的例子是点头、摇头、歪头、点头等。上半身的姿势或动作的例子是躯体的朝向、肩的扭转、肘的折弯、手的举放等。手指的活动的例子是伸展、弯曲、外展、内收等。表情的例子是中立、喜悦、轻蔑、厌恶、恐惧、惊讶、悲伤、愤怒等。化身V1、化身V2以及化身V3的控制基于对应的控制数据来进行。控制数据如后述那样通过服务器40来生成。
控制部12也是生成虚拟空间50的影像数据的部分。虚拟空间50的影像数据包括基于控制数据而被控制的化身V1、化身V2以及化身V3的影像数据。除此之外,虚拟空间50中出现的各种各样的物体(object)也可以包括在虚拟空间50的影像数据中。物体的例子是设于会议室的椅子、桌子、其他装饰品、会议用的资料、放映出该资料的屏幕等。
终端10包括存储部13。存储部13是存储终端10的控制(处理)所需的信息的部分。在图3中,作为存储于存储部13的信息,举例示出了终端程序13P。终端程序13P是用于使终端10进行动作的程序,终端程序13P使计算机进行动作以使由控制部12进行的控制等被执行。系统100是交流支持系统,因此终端程序13P也可以称为交流支持程序。
终端10包括通信部14。通信部14是经由网络N(图1)与终端10的外部装置进行通信的部分。终端10的外部装置的例子是终端20、终端30以及服务器40。通信部14将控制部12所生成的影像数据发送至服务器40,或者从服务器40接收化身V1、化身V2以及化身V3的控制数据。
终端10包括输出部15。输出部15输出虚拟空间50的影像。虚拟空间50的影像是基于由控制部12生成的虚拟空间50的影像数据的影像。
服务器40包括控制部42。控制部42是生成用于对化身V1、化身V2以及化身V3进行控制的控制数据的部分(控制数据生成部)。化身V1的控制数据基于用户U1的影像数据来生成。化身V2的控制数据基于用户U2的影像数据来生成。化身V3的控制数据基于用户U3的影像数据来生成。控制部42可以对从影像数据分离出的图像数据进行解析来决定与用户U1、用户U2以及用户U3的非语言行为对应的模式。图像模式可以从预先存储于存储部43的有限个给定的模式中选择。在该情况下,无限的非语言行为被归纳为(被分类为)有限个模式,因此,化身V1、化身V2以及化身V3的控制数据的量(volume)减少,进而通信负载减少。在控制数据中,例如非语言行为可以以JSON(JavaScript<注册商标>Object Notation:JavaScript对象简谱)形式来记述。化身V1、化身V2以及化身V3的语音数据既可以使用从影像数据分离出的语音数据本身,也可以使用被施加了一些变更的语音数据。控制部42将表示决定出的化身V1、化身V2以及化身V3的模式的非语言行为数据和用户U1、用户U2以及用户U3的语音数据进行组合来生成化身V1、化身V2以及化身V3的控制数据。
服务器40包括存储部43。存储部43是存储服务器40的控制所需的信息的部分。在图3中,作为存储于存储部43的信息,举例示出了服务器程序43P、接收数据43S以及已学习模型43L。服务器程序43P是用于使服务器40进行动作的程序,服务器程序43P使计算机进行动作以使由控制部42进行的控制等被执行。系统100是交流支持系统,因此服务器程序43P也可以称为交流支持程序。接收数据43S是从终端10、终端20以及终端30被传送至服务器40的数据,可以包括用户U1、用户U2以及用户U3的影像数据。关于已学习模型43L在后文进行叙述。
在此,在基于用户U1的影像数据来生成化身V1的控制数据的情况下,会产生如下问题。如上所述,用户U1的影像数据包括用户U1的语音数据和图像数据,但其中的图像数据的容量较大,因此,根据终端10、网络N、服务器40间的通信状况等,有时从终端10被传送至服务器40的图像数据会发生图像信息的缺失。例如,如前述那样,构成图像数据的多个单位帧的每一个通常包含图像信息。然而,有时会产生多个单位帧中的至少一个单位帧中不包含图像信息的状态(掉帧)。此外,根据终端10的使用状况等,有时在至少一个单位帧中用户U1的身体的一部分、特别是上半身的一部分(脸部的一部分等)的图像信息会缺失。在发生了这样的图像信息的缺失的情况下,用户U1的非语言行为未充分地表现在图像数据中,难以适当地生成化身V1的控制数据。例如,在发生掉帧时,化身V1的动作会停止。在没有用户U1的脸部的一部分的图像信息时,变得无法适当地控制化身V1的表情。在用户U2的图像数据和用户U3的图像数据发生了图像信息的缺失的情况下也是同样的。以下,有时也将“用户的图像数据发生图像信息的缺失”的状态称为“用户的图像数据发生了缺失”。
在本实施方式中,即使在发生了如上所述的图像数据的缺失的情况下,服务器40的控制部42也适当地生成化身V1、化身V2以及化身V3的控制数据。为此,控制部42使用已学习模型43L来推定用户U1的图像数据发生了缺失时的用户U1的动作,并生成化身V1的控制数据。具体而言,控制部42将用户U1的语音数据输入至已学习模型43L,由此获取化身V1的动作信息(的推定结果),并基于获取到的动作信息来生成化身V1的控制数据。同样地,控制部42在用户U2的图像数据发生了缺失的情况下,使用用户U2的语音数据和已学习模型43L来生成化身V2的控制数据。控制部42在用户U3的图像数据发生了缺失的情况下,使用用户U3的语音数据和已学习模型43L来生成化身V3的控制数据。
在如上所述地使用已学习模型43L的情况下,已学习模型43L可以以当被输入用户U1的语音数据时输出化身V1的控制数据(动作信息)的方式使用训练数据来生成。训练数据既可以是有监督训练数据,也可以是无监督训练数据。在有监督训练数据的情况下,训练数据可以是将各种各样的人物的图像与语言行为建立了对应的教师数据的组。可以使用与用户U1、用户U2以及用户U3各自对应的教师数据的组来生成为各个用户定制的已学习模型。
在一个实施方式中,控制部42也可以在图像数据发生了图像信息的缺失的情况下,通过将用户U1的图像数据的至少一部分和用户U1的语音数据输入至已学习模型43L来生成化身V1的控制数据。被输入至已学习模型43L的用户U1的图像数据的例子是用户U1的图像数据未发生图像信息的缺失的状态下的数据,例如是构成缺失发生前或缺失发生消除后的用户U1的图像数据的多个单位帧中的至少一个单位帧。
在如上所述地使用已学习模型43L的情况下(在图像数据发生了图像信息的缺失的情况下),已学习模型43L可以以当被输入用户U1的图像数据(例如,在以前(例如最近)接收到的、未发生图像信息的缺失的图像数据)的至少一部分和用户U1的语音数据时输出包括化身V1的动作信息的控制数据的方式使用训练数据来生成。这样的已学习模型43L的例子是GAN(Generative Adversarial Network:生成对抗网络)模型。如果使用GAN模型,则使用用户U1的图像来表现(推定)与用户U1的语音数据相应的用户U1的动作。由于已知有各种各样的如GAN模型这样的已学习模型的生成方法,因此在此直接对一个例子进行说明。GAN模型包括图像生成器(Generator)和辨别器(Discriminator)。为了训练图像生成器和辨别器,首先准备连续单位帧(以下,称为“训练用连续单位帧”)、与训练用连续单位帧对应的连续语音数据(以下,称为“训练用连续语音数据”)以及训练用连续单位帧中的一个单位帧(以下,称为“训练用单位帧”)。其中,将训练用连续语音数据和训练用单位帧输入至图像生成器。图像生成器根据被输入的数据来生成连续单位帧。由图像生成器生成的连续单位帧和训练用连续单位帧被输入至辨别器。辨别器辨别(判断)由图像生成器生成的连续单位帧是否正确即是否与训练用连续单位帧一致、类似等。通过使用这样训练出的GAN模型,能根据语音数据和至少一个单位帧来推定与连续语音数据对应的连续单位帧(即图像数据)。推定出的图像数据的解析结果被反映至用户U1的控制数据。
通过使用以上这样的已学习模型43L,即使用户U1的图像数据发生缺失,控制部42也生成与发生该缺失时(缺失期间)对应的化身V1的控制数据,从而使化身V1的动作继续进行。例如,即使在如图4A那样与规定的帧对应的用户U1的图像(例如用虚线示出的图像)全部缺失的情况下或如图4B那样在与规定的帧对应的用户U1的图像中用户U1的脸部的一部分的图像数据缺失的情况下,如图4C那样化身V1也会继续进行动作。在图4A中,用虚线示出了应作为图像数据被包含的用户U1的图像。换言之,意味着用虚线示出的图像不包含在图像数据中。
此外,虽然没有图像数据的缺失频度那么高,但有时用户U1的语音数据也会发生丢音等缺失。即使在发生了语音数据的缺失的情况下,控制部42也适当地生成化身V1、化身V2以及化身V3的控制数据。为此,控制部42在用户U1的语音数据发生了缺失的情况下,补充缺失的语音数据。已学习模型43L也可以用于语音数据的补充。若列举补充方法的几个例子,则例如已知以下方法:通过基于“Missing Feature Theory(特征丢失理论)”的语音识别,根据前后的语言信息和声学信息来推定中断区间的音位片段串,并基于推定出的音位片段串来进行语音合成,从而生成中断区间的语音波形并进行插补。还已知着眼于将LSTM(Long Short Term Memory:长短期记忆网络)用作GAN的生成器并经由光滑逼近(smoothapproximation)方法来近似于LSTM的输出的“经由对抗训练生成文本(Generating Textvia Adversarial Training)”。还已知通过GAN的框架来学习强化学习的策略梯度(policygradient),并生成文本、音乐等的序列的“SeqGAN:Sequence Generative AdversarialNets with Policy Gradient(具有策略梯度的序列生成对抗网络)”。
服务器40包括通信部44。通信部44是经由网络N(图1)与服务器40的外部装置进行通信的部分。服务器40的外部装置的例子是终端10、终端20以及终端30。通信部44从终端10、终端20以及终端30分别接收用户U1的影像数据、用户U2的影像数据以及用户U3的影像数据,或者将控制部42所生成的智能体A的控制数据、化身V1的控制数据、化身V2的控制数据以及化身V3的控制数据分别发送至终端10、终端20以及终端30。
对与终端10和服务器40的各功能部分相关的硬件构成的例子进行说明。服务器40的通信部44可以使用网卡或无线通信设备来构成,以便能访问网络N。服务器40的控制部42可以使用CPU(Central Processing Unit:中央处理器)、GPU(Graphics Processing Unit:图形处理器)等处理器来构成。控制部42也可以在使用处理器的同时还使用时钟和内置存储器来构成。控制部42也可以被构成为集成了处理器、时钟、内置存储器、存储部43以及通信部44的一个硬件(SoC:System On a Chip:单片系统)。控制部42基于服务器程序43P来进行动作,由此使服务器计算机作为服务器40来进行动作。服务器40的存储部43可以使用闪存、硬盘、SSD(Solid State Disk:固态硬盘)等非易失性存储介质来构成。
终端10的输入部11可以使用麦克风、摄像机等来构成。通过麦克风来获取用户U1的语音。通过摄像机来获取用户U1的图像。而且,输入部11也可以使用键盘、鼠标、触摸面板这些操作设备来构成。终端10的控制部12可以与服务器40的控制部42同样地构成。控制部12基于终端程序13P来进行动作,由此使通用计算机作为终端10来进行动作。终端10的存储部13可以与服务器40的存储部43同样地构成。终端10的通信部14可以与服务器40的通信部44同样地构成。终端10的输出部15可以使用液晶面板、有机EL(electroluminescence:电致发光)面板等(可以是触摸面板)等显示装置来构成。而且,输出部15也可以还使用扬声器来构成。
图5是表示在系统100中被执行的处理的例子的时序图。图5所示的处理可以在交流持续的期间被反复执行。
在步骤S1至步骤S3中,将用户的影像数据发送至服务器40。具体而言,在步骤S1中,终端10将用户U1的影像数据发送至服务器40。在步骤S2中,终端20将用户U2的影像数据发送至服务器40。在步骤S3中,终端30将用户U3的影像数据发送至服务器40。这些数据作为接收数据43S存储于服务器40的存储部43。
在步骤S4中,生成化身的控制数据。具体而言,服务器40的控制部42基于在之前的步骤S1中接收到的用户U1的影像数据来生成化身V1的控制数据,基于在之前的步骤S2中接收到的用户U2的影像数据来生成化身V2的控制数据,并基于在之前的步骤S3中接收到的用户U3的影像数据来生成化身V3的控制数据。
在步骤S5至步骤S7中,发送化身的控制数据。具体而言,在步骤S5中,服务器40将在之前的步骤S4中生成的化身V1、化身V2以及化身V3的控制数据发送至终端10。在步骤S6中,服务器40将这些控制数据发送至终端20。在步骤S7中,服务器40将这些控制数据发送至终端30。
在步骤S8至步骤S10中,对化身进行控制。具体而言,在步骤S8中,终端10基于在之前的步骤S5中接收到的化身V1、化身V2以及化身V3的控制数据来对化身V1、化身V2以及化身V3进行控制。由此,显示于终端10的虚拟空间50中的化身V1、化身V2以及化身V3以反映用户U1、用户U2以及用户U3的动作的方式进行动作。在步骤S9中,终端20基于在之前的步骤S6中接收到的化身V1、化身V2以及化身V3的控制数据来对化身V1、化身V2以及化身V3进行控制。由此,显示于终端20的虚拟空间50中的化身V1、化身V2以及化身V3以反映用户U1、用户U2以及用户U3的动作的方式进行动作。在步骤S10中,终端30基于在之前的步骤S7中接收到的化身V1、化身V2以及化身V3的控制数据来对化身V1、化身V2以及化身V3进行控制。由此,显示于终端30的虚拟空间50中的化身V1、化身V2以及化身V3以反映用户U1、用户U2以及用户U3的动作的方式进行动作。
与之前说明过的步骤S1至步骤S3相比较,步骤S11至步骤S13在用户U1的影像数据(图像数据等)中发生了之前说明过的缺失这一点上不同。即,在步骤S11中,终端10将发生了缺失的用户U1的影像数据发送至服务器40。在步骤S12中,终端20将用户U2的影像数据发送至服务器40。在步骤S13中,终端30将用户U3的影像数据发送至服务器40。这些数据作为接收数据43S存储于服务器40的存储部43。
在步骤S14中,推定用户的动作。即,在之前的步骤S11中从终端10被传送至服务器40的用户U1的影像数据发生了缺失。因此,如至此说明过的那样,控制部42使用已学习模型43L来推定未发生缺失时的用户U1的动作。
在步骤S15中,生成化身的控制数据。在此,用户U1的化身V1的控制数据基于在之前的步骤S14中推定出的用户U1的推定结果来生成。化身V2的控制数据的生成和化身V3的控制数据基于用户U2的影像数据和用户U3的影像数据来生成。
步骤S16至步骤S21与之前说明过的步骤S5至步骤S10是同样的,发送化身的控制数据,对化身进行控制。通过这样反复执行处理来对化身V1、化身V2以及化身V3进行控制,推进交流。在上述步骤S11和步骤S14中,对用户U1的图像数据发生了缺失而推定用户U1的动作的例子进行了说明,在用户U2的图像数据和用户U3的图像数据缺失的情况下,则推定用户U2和用户U3的动作。此外,在用户U1的语音数据也发生了缺失的情况下,如之前说明过的那样进行由控制部42进行的语音数据的补充,并推定用户U1的动作,在此基础上生成化身V1的控制数据。在用户U2的语音数据和用户U3的语音数据发生了缺失的情况下也是同样的。
以上说明的系统100例如如以下这样来确定。即,系统100支持用户U1、U2以及U3(以下,称为“用户U1等”。)使用终端10、终端20以及终端30(以下,称为“终端10等”。)来进行的交流。控制部(控制数据生成部)42(可以包括与控制部12的协作)基于包括用户U1等的语音数据和用户U1等的图像数据的影像数据来生成控制数据,该控制数据用于对显示于终端10等并参加交流的用户U1等的化身V1、化身V2以及化身V3(以下,称为“化身V1等”。)的动作进行控制。控制部42在用户U1等的图像数据发生了图像信息的缺失的情况下,使用用户U1等的语音数据和已学习模型43L来补充缺失部分的图像信息。已学习模型43L以当被输入用户U1等的语音数据时输出化身V1等的控制数据的方式使用训练数据来生成。
系统100可以通过由终端程序13P和服务器程序43P(交流支持程序)使计算机作为系统100进行动作来实现。
根据系统100,即使在用户U1等的图像数据中图像信息缺失的情况下也能使化身V1等的动作继续进行。
也可以是,已学习模型43L以输出与上述缺失对应的上述图像信息已被补充的用户U1等的图像数据的方式使用用户U1等的图像数据的至少一部分、用户U1等的语音数据以及训练数据来生成。也可以是,控制部42在用户U1等的图像数据发生了图像信息的缺失的情况下,使用用户U1等的图像数据的至少一部分、用户U1等的语音数据以及已学习模型43L来生成对化身V1等进行控制的控制数据。例如,通过这样做,即使在用户U1等的图像数据发生了图像信息的缺失的情况下也能对化身V1等进行控制。
也可以是,图像信息的缺失是指至少一个单位帧中不包含图像信息的状态。由此,即使在单位帧中没有图像信息的情况下,也能对化身V1等进行控制。
也可以是,图像信息的缺失是用户U1等的脸部的一部分的图像信息的缺失。也可以是,控制数据包括用于对化身V1等的表情进行控制的控制数据。由此,即使在没有用户U1等的脸部的一部分的图像信息的情况下,也能对化身的表情进行控制。
也可以是,控制部42在用户U1等的语音数据发生了缺失的情况下,补充缺失的语音数据。由此,即使在语音数据缺失的情况下,也能使化身V1等的动作继续进行。
本公开不限定于上述实施方式。例如,在上述实施方式中,对化身V1、化身V2以及化身V3出现在虚拟空间50内的例子进行了说明。不过,用户自身的化身也可以不出现在虚拟空间50内。在该情况下,化身V2和化身V3出现在显示于用户U1的终端10的虚拟空间50内,但化身V1不出现。化身V2和化身V3的非语言动作(视线移动等)可以被控制为针对正在看显示于终端10的虚拟空间50的用户U1的动作。化身V1和化身V3出现在显示于用户U2的终端20的虚拟空间50内,但化身V2不出现。化身V1和化身V3的非语言动作可以被控制为针对正在看显示于终端20的虚拟空间50的用户U2的动作。化身V1和化身V2出现在显示于用户U3的终端30的虚拟空间50内,但化身V3不出现。化身V2和化身V3的非语言动作可以被控制为针对正在看显示于终端30的虚拟空间50的用户U3的动作。
附图标记说明
10、20、30……终端,11……输入部,12……控制部,42……控制部(控制数据生成部),13……存储部,13P……终端程序(交流支持程序),14……通信部,15……输出部,40……服务器,43……存储部,43L……已学习模型,43P……服务器程序(交流支持程序),43S……接收数据,50……虚拟空间,100……系统(交流支持系统),U1、U2、U3……用户,V1、V2、V3……化身。

Claims (6)

1.一种交流支持系统,支持用户使用终端来进行的交流,
该交流支持系统具备控制数据生成部,该控制数据生成部基于包括所述用户的语音数据和所述用户的图像数据的影像数据来生成控制数据,该控制数据用于对显示于所述终端并参加所述交流的所述用户的化身的动作进行控制,
所述控制数据生成部在所述用户的图像数据发生了图像信息的缺失的情况下,使用所述用户的语音数据和已学习模型来补充缺失部分的图像信息,
所述已学习模型是以当被输入所述用户的语音数据时输出所述化身的所述控制数据的方式使用训练数据来生成的已学习模型。
2.根据权利要求1所述的交流支持系统,其中,
所述已学习模型是以输出与所述缺失对应的所述图像信息已被补充的所述用户的图像数据的方式使用所述用户的图像数据的至少一部分、所述用户的语音数据以及训练数据来生成的已学习模型,
所述控制数据生成部在所述用户的图像数据发生了图像信息的缺失的情况下,使用所述用户的图像数据的至少一部分、所述用户的语音数据以及所述已学习模型来生成对所述化身进行控制的所述控制数据。
3.根据权利要求1或2所述的交流支持系统,其中,
所述图像信息的缺失是指至少一个单位帧中不包含图像信息的状态。
4.根据权利要求1或2所述的交流支持系统,其中,
所述图像信息的缺失是所述用户的脸部的一部分的图像信息的缺失,
所述控制数据包括用于对所述化身的表情进行控制的控制数据。
5.根据权利要求1至4中任一项所述的交流支持系统,其中,
所述控制数据生成部在所述用户的语音数据发生了缺失的情况下,补充缺失的语音数据。
6.一种交流支持程序,使计算机作为权利要求1所述的交流支持系统发挥功能。
CN202080078487.9A 2020-01-10 2020-12-04 交流支持系统以及交流支持程序 Pending CN114902258A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020003108 2020-01-10
JP2020-003108 2020-01-10
PCT/JP2020/045301 WO2021140799A1 (ja) 2020-01-10 2020-12-04 コミュニケーション支援システムおよびコミュニケーション支援プログラム

Publications (1)

Publication Number Publication Date
CN114902258A true CN114902258A (zh) 2022-08-12

Family

ID=76788588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080078487.9A Pending CN114902258A (zh) 2020-01-10 2020-12-04 交流支持系统以及交流支持程序

Country Status (5)

Country Link
US (1) US20220405994A1 (zh)
EP (1) EP4089605A4 (zh)
JP (1) JPWO2021140799A1 (zh)
CN (1) CN114902258A (zh)
WO (1) WO2021140799A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI778437B (zh) * 2020-10-23 2022-09-21 財團法人資訊工業策進會 用於音頻裝置的瑕疵檢測裝置及瑕疵檢測方法
JP2024030568A (ja) * 2022-08-24 2024-03-07 株式会社Jvcケンウッド アバター制御装置、アバター制御方法、及びアバター制御プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108502A (ja) * 2001-09-28 2003-04-11 Interrobot Inc 身体性メディア通信システム
JP2005202909A (ja) * 2003-12-16 2005-07-28 Kyoto Univ アバター制御システム
US8243116B2 (en) 2007-09-24 2012-08-14 Fuji Xerox Co., Ltd. Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications
JP2011039860A (ja) * 2009-08-13 2011-02-24 Nomura Research Institute Ltd 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
JP2012168862A (ja) * 2011-02-16 2012-09-06 Nomura Research Institute Ltd 行動情報記録装置
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item
US20160134840A1 (en) * 2014-07-28 2016-05-12 Alexa Margaret McCulloch Avatar-Mediated Telepresence Systems with Enhanced Filtering
WO2016154800A1 (en) * 2015-03-27 2016-10-06 Intel Corporation Avatar facial expression and/or speech driven animations
JP2017059193A (ja) * 2015-09-18 2017-03-23 貴博 安野 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
WO2017223530A1 (en) * 2016-06-23 2017-12-28 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
US20190172458A1 (en) * 2017-12-01 2019-06-06 Affectiva, Inc. Speech analysis for cross-language mental state identification
JP2018120583A (ja) * 2017-12-19 2018-08-02 株式会社コロプラ 情報処理方法及び当該情報処理方法をコンピュータに実行させるためのプログラム
US10825227B2 (en) * 2018-04-03 2020-11-03 Sri International Artificial intelligence for generating structured descriptions of scenes
JP7167501B2 (ja) 2018-06-26 2022-11-09 株式会社ノーリツ 熱交換器および温水装置
JP7202087B2 (ja) * 2018-06-29 2023-01-11 日本放送協会 映像処理装置

Also Published As

Publication number Publication date
US20220405994A1 (en) 2022-12-22
EP4089605A1 (en) 2022-11-16
WO2021140799A1 (ja) 2021-07-15
JPWO2021140799A1 (zh) 2021-07-15
EP4089605A4 (en) 2023-07-12

Similar Documents

Publication Publication Date Title
US20220124140A1 (en) Communication assistance system, communication assistance method, and image control program
CN111316203B (zh) 自动生成形象的动作
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
CN111279349B (zh) 解析电子对话用于在替代界面中呈现
KR101306221B1 (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
US11960792B2 (en) Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
CN110349232B (zh) 图像的生成方法、装置、存储介质和电子设备
Ali et al. Design of seamless multi-modal interaction framework for intelligent virtual agents in wearable mixed reality environment
WO2021140799A1 (ja) コミュニケーション支援システムおよびコミュニケーション支援プログラム
WO2018128014A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN114170648A (zh) 视频生成方法、装置、电子设备及存储介质
CN113327311B (zh) 基于虚拟角色的显示方法、装置、设备、存储介质
US20210200500A1 (en) Telepresence device action selection
CN113379879A (zh) 交互方法、装置、设备、存储介质以及计算机程序产品
WO2021140800A1 (ja) コミュニケーション支援システムおよびコミュニケーション支援プログラム
JP7184835B2 (ja) コンピュータプログラム、方法及びサーバ装置
US20240112389A1 (en) Intentional virtual user expressiveness
CN113658213B (zh) 形象呈现方法、相关装置及计算机程序产品
KR20220053863A (ko) 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그를 위한 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법
Mlakar et al. Describing and animating complex communicative verbal and nonverbal behavior using Eva-framework
CN114937104A (zh) 虚拟对象面部信息生成方法、装置和电子设备
CN116048258A (zh) 用于虚拟对象控制的方法、装置、设备和存储介质
KR20230076004A (ko) 메타버스 제공 방법 및 장치
CN117993395A (zh) 人机交互方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination