CN115145434A

CN115145434A - 基于虚拟形象的互动服务方法及装置

Info

Publication number: CN115145434A
Application number: CN202111246812.0A
Authority: CN
Inventors: 高汉锡; 裵正民; 米格尔·阿尔芭; 李锡韩
Original assignee: Dim Laboratories LLC
Current assignee: Dim Laboratories LLC
Priority date: 2021-03-17
Filing date: 2021-10-26
Publication date: 2022-10-04
Also published as: US20220301250A1; WO2022196880A1

Abstract

本发明一实施例的基于虚拟形象的互动服务方法，在包括服务提供方终端、第一用户终端及第二用户终端在内的计算机系统中执行，其包括如下步骤：在上述服务提供方终端中的服务提供方与上述第一用户终端中的第一用户的非会面对话环境中，通过从上述服务提供方终端反映服务提供方的影像及语音的虚拟形象来向上述第一用户终端提供互动服务；基于预存储的学习模型来学习上述服务提供方对于上述第一用户的响应；以及基于已学习的学习模型生成人工智能(AI，artificial intelligence)虚拟形象并向第二用户终端提供互动服务。

Description

基于虚拟形象的互动服务方法及装置

技术领域

本发明涉及基于虚拟形象的互动服务方法及装置。

背景技术

虚拟形象(Avatar)作为代表分身或化身的词，在网络空间中是指代替用户角色的动画卡通形象。

在现有的虚拟形象中，大部分属于二维图片。出现在网络游戏或网络聊天中的二维虚拟形象属于最基本的水平，为此，当前出现有用于解决缺少现实感问题的虚拟形象。这种卡通形象可具有现实感和/或三维立体感。

最近，随着人工智能技术及传感技术的发展，当前，针对与人实际交流沟通的虚拟形象技术的需求也不断增加。

发明内容

技术问题

本发明的目的在于，提供与人实际交流的基于虚拟形象的互动服务方法及装置。

技术方案

为了实现上述目的，本发明一实施例的在计算机系统中执行的基于虚拟形象的互动服务方法的特征在于，包括如下步骤：在服务提供方与第一用户的非会面对话环境中，通过反映上述服务提供方的影像及语音的服务提供方的虚拟形象来向第一用户终端提供互动服务；基于预存储的学习模型来学习上述服务提供方对于上述第一用户的响应；以及基于已学习的学习模型生成人工智能(AI，artificial intelligence)虚拟形象并向第二用户终端提供互动服务。

在一实施例中，本发明的特征在于，基于虚拟形象的互动服务方法还包括如下步骤：在上述第一用户的影像及语音中筛选互动服务领域相关内容并形成数据库。

在一实施例中，本发明的特征在于，上述互动服务领域包括客户接待、咨询、教育、娱乐，上述互动服务通过基于上述虚拟形象的互动来向第一用户终端或第二用户终端提供上述领域相关内容。

在一实施例中，本发明的特征在于，在通过上述服务提供方的虚拟形象向第一用户终端提供互动服务的步骤中，通过分析上述服务提供方的影像来向上述虚拟形象反映服务提供方的动作、姿态、情绪。

在一实施例中，本发明的特征在于，在通过上述服务提供方的虚拟形象向第一用户终端提供互动服务的步骤中，通过分析上述服务提供方的语音来将服务提供方的语音改变成上述卡通虚拟形象的声音并向第一用户终端提供。

在一实施例中，本发明的特征在于，在生成上述人工智能虚拟形象并向第二用户终端提供互动服务的步骤中，从上述第二用户终端接收的第二用户的影像中分析脸部表情、姿态、语气来识别第二用户的情绪状态并对应于所识别到的情绪状态来改变上述人工智能虚拟形象的表情、姿态、语气或添加效果(effect)。

在一实施例中，本发明的特征在于，在生成上述人工智能虚拟形象并向第二用户终端提供互动服务的步骤中，通过语音识别(ASR)、语音转文本(STT，Speech-to-Text)、自然语言理解(NLU)及文本转语音(TTS，Text-to-Speech)中的一种以上来针对从上述第二用户终端接收的第二用户的语音进行识别、理解及反应。

本发明一实施例的基于虚拟形象的互动服务装置的特征在于，包括：通信部，通过通信网与多个用户终端收发信息；实时互动部，在服务提供方与第一用户的非会面对话环境中的反映上述服务提供方的影像及语音的服务提供方的虚拟形象向第一用户终端提供互动服务；学习部，基于预存储的学习模型来学习上述服务提供方对于上述第一用户的响应；以及人工智能虚拟形象互动部，基于上述学习模型生成人工智能虚拟形象，利用上述人工智能虚拟形象来通过上述通信部向第二用户终端提供互动服务。

在一实施例中，基于虚拟形象的互动服务装置还包括内容筛选部，从上述服务提供方的影像及语音中筛选互动服务领域相关内容并形成数据库。

在本发明的另一实施例中，在计算机系统中执行的基于虚拟形象的互动服务方法包括如下步骤：在上述用户终端的用户与上述计算机系统生成的虚拟形象的非会面对话环境中，通过反映上述计算机系统生成的图像及语音的虚拟形象来向上述用户终端提供互动服务；从上述用户终端接收输入；基于从上述用户终端接收的上述输入来生成虚拟形象反应；以及向上述用户终端提供上述虚拟形象反应。

在本发明的另一实施例中，基于虚拟形象的互动服务装置包括：通信部，通过通信网与用户终端收发信息；虚拟形象互动部，通过上述通信部生成用于向上述用户终端提供互动服务的虚拟形象；以及实时互动部，在上述用户终端中的虚拟形象与用户之间的非会面对话环境中，通过虚拟形象向上述用户终端提供互动服务。

发明的效果

本发明一实施例可基于虚拟形象向用户提供具有亲切感的互动服务。

并且，通过训练好的人工智能虚拟形象最大限度地提高与人的交流来在咖啡厅等环境中实现对话点餐、用于儿童的语言教育、康复治疗、娱乐等。

附图说明

图1为示出本发明一实施例的网络环境的结构的图。

图2为示出本发明一实施例的互动服务服务器的结构的框图。

图3为本发明一实施例的终端的框架结构图。

图4为示出本发明一实施例的互动服务服务器的控制部可包括的结构要素的例的框图。

图5为示出本发明一实施例的互动服务服务器的控制部执行的方法的例的流程图。

图6为用于说明本发明一实施例的基于虚拟形象的互动服务方法的教育领域实例的图。

图7为用于说明本发明一实施例的基于虚拟形象的互动服务方法的客户接待领域实例的图。

图8为用于说明本发明一实施例的基于虚拟形象的互动服务方法的康复治疗领域实例的图。

具体实施方式

本发明可产生多种变更并具有多种实施例，因此，将参照附图详细说明特定实施例。在说明各个附图的过程中，将对于相似的结构要素赋予相似的附图标记。

“第一”、“第二”、“A”、“B”等术语仅用于说明多种结构要素，上述结构要素并不限定于上述术语。上述术语仅用于对一个结构要素和其他结构要素进行区分。例如，在不脱离本发明的发明要求保护范围的情况下，第一结构要素可被命名为第二结构要素，与此类似地，第二结构要素也可被命名为第一结构要素。术语“和/或”包含多个相关记载项目的组合或多个相关记载项目中的任一项目。

在整个说明书及发明要求保护范围中，当某部分包括另一结构要素时，除非存在特别相反的记载，否则意味着还可包括其他结构要素，并不排除其他结构要素。

本发明一实施例的互动服务服务器可在人(human)或人工智能系统(artificialintelligent system)之间实现虚拟代理(virtual agents)，即允许在其之间起到相互作用的其他机制。

以下，参照附图说明本发明。

图1为示出本发明一实施例的网络环境的结构的图。

图1的网络环境包括多个用户终端100(101、102、103)及互动服务服务器200。以下，为了便于说明，将用户终端101称为服务提供方终端101。图1作为用于说明本发明的一例，用户终端的数量并不限定于图1所示的数量。在一实施例中，仅利用一个用户终端，在另一实施例中，也可利用三个以上的用户终端。

多个用户终端100(101、102、103)作为通过通信网访问互动服务服务器200的终端，可以为能够实现通信且接收用户的输入并输出画面的电子设备或其他相似的设备，例如，手机、智能手机、个人数据助理(PDA，Personal Digital Assistants)、个人计算机(PC，personal computer)、平板电脑(tablet personal computer)及笔记本电脑(notebook)等其他通信设备。

通信网可通过传输控制协议/网际协议(TCP/IP)、局域网(LAN，Local AreaNetwork)、无线网络通信(WIFI)、长期演进(LTE，Long Term Evolution)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、其他目前已知或未来会出现的有线通信方式、无线通信方式、其他通信方式中的至少一部分来实现。虽然通信大多通过通信网实现，但是，为了说明层面上的便利性，将省略针对通信网的内容。

互动服务服务器200可以为计算机装置或多个计算机装置，通过通信网与多个用户终端100进行通信来提供指令、代码、文件、内容、服务等。例如，互动服务服务器200作为设置在通过通信网访问的多个用户终端100的计算机程序，通过用户终端100驱动，从而可提供相应应用程序所执行的互动服务。其中，互动服务是指将针对任意领域的内容向服务提供方终端101和第一用户终端102之间或通过第二用户终端103与服务服务器200生成的(并不需要其他用户终端)虚拟形象之间提供的服务。上述领域可包括客户接待、咨询、教育、娱乐。例如，当上述领域为教育时，服务提供方可以为教师，而第一用户可以为学生。互动服务服务器200通过服务提供方终端101并通过作为教师的服务提供方和第一用户终端102在作为学生的第一用户之间的非会面对话环境中生成从服务提供方终端101反映教师的影像及语音的虚拟形象，从而可通过第一用户终端102向学生提供所生成的虚拟形象。由此，学生可从虚拟形象中感受到接受教育的经验。因此，教师和学生也可位于相隔较远的位置。并且，互动服务服务器200可在上述非会面对话环境中通过学习作为教师的服务提供方的响应来生成人工智能虚拟形象。通过训练或预编程的人工智能虚拟形象在非会面对话环境中向作为学生的第二用户终端103执行学习指导，而无需作为教师的服务提供方终端101的访问。在一实施例中，若人工智能虚拟形象已实现预训练或预编程，则无需服务提供方终端101或第一用户终端102。使用虚拟形象的另一个优点在于，在部分情况下，儿童相比于人更倾向于向虚拟形象作出反应。尤其，当儿童与教师有过不愉快的经历时，使得儿童与熊猫或考拉等自己最喜欢的动物形态的虚拟形象进行对话，从而帮助儿童感到舒适感。

并且，互动服务服务器200可向多个用户终端100分配用于上述应用程序的设置及驱动的文件。

在以上示例中，虽然以教师和学生为例进行了说明，但是，这可广泛应用于食堂、咖啡厅、快餐店、得来速(drive-through)等多个领域。作为其他可应用的领域有与私人教练、医生、精神科医生、顾问、律师、演艺人等具有相互作用的领域。简而言之，是指服务或医生等用于交流的可相互作用的领域。可以为基于人针对计算机生成虚拟形象或相互作用/通信的实时响应的虚拟形象。

图2为示出本发明一实施例的互动服务服务器的结构的框图。

参照图2，本发明一实施例的互动服务服务器200可包括通信部210、控制部220及存储部230。

通信部210作为设置在互动服务服务器200内部的数据收发装置，可通过通信网收发用于不同用户终端之间的互动服务的信息。

通信部210与用户终端(图1的100)和/或其他外部装置收发数据。通信部210向控制部220传输所接收的数据。并且，通信部210通过控制部220的控制向用户终端100传输数据。通信部210所使用的通信技术可基于通信网的类型或其他设定而变得不同。

例如，作为用于访问的服务提供方的服务提供方终端与第一用户终端之间的实时互动的信息，通信部210可接收服务提供方与第二用户的影像及语音。

并且，作为用于向访问的第一用户终端提供互动服务的信息，通信部210可向上述第一用户终端发送用于表示虚拟形象的信息。

为了控制互动服务服务器200的整体工作和各个结构部，控制部220可通过执行基本算术、逻辑及输入输出运算来处理计算机程序的指令。指令可通过存储部230或通信部210向控制部220提供。例如，控制部220可以为通过存储于存储部230等存储装置的程序代码执行所接收的指令的处理器。

尤其，如下所述，控制部220可通过对从通信部210接收的服务提供方终端101获取的服务提供方的影像及语音进行渲染来渲染三维(3D)动画版本的虚拟形象。虚拟形象的语音可以与渲染引擎的输出同步。在一实施例中，可不使用服务提供方终端101。代替其，控制部220将虚拟形象的图像和语音进行渲染，而无需使用服务提供方终端101。

尤其，如下所述，控制部220可使得预存储的学习模型学习从通信部210接收的服务提供方终端101获取的服务提供方的影像及语音来生成虚拟形象。并且，控制部220从上述服务提供方的影像及语音中筛选互动服务领域相关内容并在下述存储部230形成数据库。

在一实施例中，控制部220可基于形成数据库的内容并通过上述虚拟形象向访问的用户终端提供互动服务。

在对话过程中，一实施例的虚拟形象可以与用户交换眼神并四目相对进行口语对话，从而向用户提供生动感。并且，虚拟形象可利用在与用户的历史对话中获得的记忆来以日常对话、提问及回答的方式进行现实性的普通对话。

并且，虚拟形象系统可进行情绪识别，通过用户的脸部表情、姿态、语气来识别用户的情绪状态，可通过针对所识别的情绪选择适当的相应判断并按照脸部表情相应情绪、声音语气选择适当的单词来实现虚拟形象的情绪表达。以下，针对这种虚拟形象的体现，将参照图4及图5进行说明。

在一实施例中，控制部220可通过网页实时通信(WebRTC，Web Real-TimeCommunication)或能够在网络上的两个以上的实体之间实现实时互动的其他机制以点对点(P2P，Peer-to-Peer)方式实时发送数据、视频及音频。

存储部230用于存储互动服务服务器200的工作所需的程序及数据，可被区分为程序领域和数据领域。

程序领域可存储控制互动服务服务器200的整体工作的程序及用于启动互动服务服务器200的操作系统(OS，Operating System)和至少一个程序代码(作为一例，设置在用户终端100来驱动的浏览器或为了提供特定服务而设置在用户终端100的应用程序等的代码)、用于学习虚拟形象的学习模型、提供互动服务所需的应用程序等。

图3为本发明一实施例的终端的框架结构图。

参照图3，本发明一实施例的用户终端100可包括输入输出接口110、通信部120、存储部130及控制部140。

输入输出接口110可以为用于与输入输出装置的接口的单元。例如，输入装置可包括键盘、鼠标、麦克风阵列、摄像头等装置，输出装置可包括显示器、扬声器等的装置。

其中，麦克风阵列可包括三个至五个麦克风，其中一个用于识别语音，而剩余一个用于允许接收波束成形(Beam forming)或定向信号的其他技术。可应用波束成形从掺杂杂音的信号中有效确保语音识别性能。摄像头可以为包括深度传感器的摄像头、立体声摄像头、包括深度传感器的摄像头中的一个。当利用包括深度传感器的摄像头时，可通过设定前景或背景限制来限制针对处于背景中的人或物体的检测，从而可设定能够集中于接近设备的人的区域。

在另一实施例中，输入输出装置可包括人工触觉神经、嗅觉传感器、人工细胞膜电子舌等，以便实现与人相似的虚拟形象。

作为另一例，输入输出接口110也可以为用于输入功能和输出功能结合为一体的装置的接口的单元，例如，触摸屏等。输入输出装置也可以与用户终端100组成一个装置。

作为更具体的一例，在处理加载于存储部130的计算机程序指令的过程中，服务提供方终端101的控制部140可通过输入输出接口110向显示器显示利用互动服务器200或第一用户终端102提供的数据形成的服务画面或内容。

通信部120与互动服务服务器200收发数据。通信部120向控制部140传输从互动服务服务器200接收的数据。并且，通信部120通过控制部140的控制来向互动服务服务器200传输数据。通信部120所使用的通信技术可基于通信网的类型或其他设定而变得不同。

存储部130通过控制部140的控制来存储数据并向控制部140传输所请求的数据。

控制部140控制终端100的整体工作和各个结构部。尤其，如下所述，控制部140通过通信部120向互动服务服务器200传输从输入输出接口110输入的用户影像及用户语音，并基于从互动服务服务器200接收的信息来控制输入输出装置显示虚拟形象。

图4为示出本发明一实施例的互动服务服务器的控制部可包括的结构要素的例的框图，图5为示出本发明一实施例的互动服务服务器的控制部执行的方法的例的流程图。

本发明一实施例的互动服务服务器200也可起到通过虚拟形象提供多种领域的信息的信息平台作用。换言之，互动服务服务器200起到向用户终端100提供多种领域的信息的平台作用。互动服务服务器200通过联动设置在用户终端100的应用程序来显示虚拟形象，可以与虚拟形象进行互动来提供信息。

如图4所示，互动服务服务器200的控制部220还可包括实时互动部221、学习部222、人工智能虚拟形象互动部223及内容筛选部224，以便执行图5所示的虚拟形象互动服务方法。根据实施例，控制部220也可选择性地包括或排除控制部220的多个结构要素。并且，根据实施例，为了实现控制部200的功能，控制部220的多个结构要素也可分离或合并。

这种控制部220及控制部220的多个结构要素可控制互动服务服务器200，以执行图5的虚拟形象互动服务方法所包括的多个步骤(步骤S110至步骤S140)。例如，控制部220及控制部220的多个结构要素可执行基于存储部230所包括的操作系统的代码和至少一个程序的代码形成的指令(instruction)。

其中，控制部220的多个结构要素可以为基于存储在互动服务服务器200的程序代码提供的指令并通过控制部220执行的控制部220的不同功能(different functions)的表达。例如，作为控制互动服务服务器200的控制部220的功能性表达，可基于上述指令利用实时互动部221，以使互动服务服务器200提供实时互动服务。

在步骤S110中，实时互动部221通过服务提供方与第一用户的非会面对话环境中反映上述服务提供方的影像及语音的服务提供方的虚拟形象来向第一用户终端提供互动服务。

为了进行影像分析，实时互动部221可包括人体分析API(HCAPI，HumanComposition API)组件。人体分析API组件为用于获取服务提供方(行动人员)的特征(features)的结构要素。

在实时互动部221设置有背景分割部(Background segmenter)，从摄像头排除特定距离以上的信息来减少误检率，从而可通过去除背景来改善影像处理速度。

并且，在实时互动部221设置有脸部识别部(Face recognizer)，由此，可识别说话人员，而且，设置有三维姿态估计器(3D pose sequence estimator)，由此，可获取用于识别说话人员的当前姿势及姿态的连续姿势特征。并且，在实时互动部221设置有多目标跟踪器(Multi-object detector)，从而可获取针对某物体位于画面上的图像中的某一位置的信息。

在实时互动部221设置有利用用于语音分析的麦克风阵列的声源定位器(Soundsource localization)，由此，可从多个用户中识别到说话人员，并且，设置有旁瓣相消波束形成器(Sidelobe cancelling beamformer)，由此，可通过减少从侧面的输入来集中于通过麦克风从前方进入的声音，从而可防止产生误检。并且，在实时互动部221设置有背景噪音抑制器(Background noise suppressor)，由此，可消除背景噪音。

在一实施例中，实时互动部221通过分析从服务提供方终端获取的服务提供方的影像来向上述虚拟形象反映服务提供方的动作、姿态、情绪。并且，可通过分析服务提供方的影像来将服务提供方的语音改变成上述卡通虚拟形象的声音并向第一用户终端提供。

通过实时互动部221生成服务提供方的虚拟形象影像的时间和将服务提供方的语音改变成虚拟形象语音的时间可互不相同，因此，在实时互动部221设置有延迟倍增器(Latency Multiplier)，可通过延迟改变的虚拟形象语音来与虚拟形象影像的输出同步。

并且，与渲染引擎(Rendering Engine)的输出同步(at the same time)。

由此，服务提供方和第一用户可分别通过终端进行非会面的实时互动。在第一用户终端显示有实时反映服务提供方的影像的虚拟形象，反映服务提供方的语音的虚拟形象的声音可通过扬声器等输出。

在步骤S115中，内容筛选部224通过从服务提供方的影像及语音中筛选互动服务领域相关内容并存储于数据库来构建信息平台。

作为示例，从基于服务提供方的语音生成的句子中提取内容相关关键词，在提取的关键词中，可基于按照领域预设的加权值进一步提取核心关键词。可通过分别索引多个基准项目中的一个来对核心关键词进行分类和排序。随着构建数据库，可基于数据库构建信息平台。

在步骤S120中，学习部222可在上述非会面对话环境中基于学习模型学习上述服务提供方对于上述第一用户的响应。

在步骤S130中，人工智能虚拟形象互动部223通过训练模型来生成基于人工智能的虚拟形象，利用上述基于人工智能的虚拟形象并通过上述通信部来向第二用户终端提供互动服务。

为此，人工智能虚拟形象互动部223可通过语音识别(ASR)、语音转文本(STT，Speech-to-Text)、自然语言理解(NLU)及文本转语音(TTS，Text-to-Speech)中的一种以上来针对从上述第二用户终端103接收的第二用户的语音进行识别、理解及反应。

在一实施例中，人工智能虚拟形象互动部223通过在从第二用户终端接收的第二用户的影像中识别说话人员并分析说话人员的脸部表情、姿态、语气来识别用户的情绪状态，从而可对应于所识别到的情绪状态来改变虚拟形象的表情、姿态、语气或添加效果(effect)。

人工智能虚拟形象互动部223可基于形成上述数据库的内容并通过人工智能虚拟形象来提供互动服务。作为一例，人工智能虚拟形象互动部223可联动人工智能对话系统来与用户进行通信或提供天气、新闻、音乐、地图、照片等多种信息。人工智能对话系统应用于个人助手系统、聊天机器人平台(chatbot platform)、人工智能扬声器等，可通过理解用户指令的意图来提供与其相对应的信息。

例如，当人工智能虚拟形象互动部223从第二用户终端103接收基于用户发声的语音输入“**舞蹈”时，可通过识别并分析所接收的语音输入来获取针对“**舞蹈”的信息并通过人工智能虚拟形象来输出所获得的上述信息。在此情况下，人工智能虚拟形象互动部223也可在信息提供过程中利用弹出窗口(pop-up)、文字气泡(word bubble)、文字提示条(tooltip)等一并提供视觉(visual)信息。

人工智能虚拟形象互动部223可通过改变人工智能虚拟形象的表情来与用户进行情绪交流并显示。人工智能虚拟形象互动部223可通过三维建模以人工智能虚拟形象的脸部区域为对象进行变形来改变卡通表情，为了最大限度地表达情绪，也可对人工智能虚拟形象添加多种效果(effect)。效果是指由图像对象组成的内容，可包括与基于人工智能虚拟形象的影像相合成的所有滤镜、贴纸及表情符号等，这也可通过固定形态的对象或应用flash动画等进行动作的图像对象来实现。这种效果作为用于表达情绪的信息，可按照情绪预先进行分类，换言之，可预先定义多种情绪(例如，喜悦、悲伤、惊讶、烦恼、痛苦、焦虑、恐惧、厌恶、愤怒等)并将与各个情绪相对应的表达情绪的效果分组进行管理。

人工智能虚拟形象互动部223可从用户接收的语音输入的句子中提取用于表达情绪的情绪信息。在此情况下，情绪信息可包含情绪种类和情绪强度(情绪程度)。表达情绪的术语，即，情绪术语可被预定并基于规定基准分类成多种情绪种类(例如，喜悦、悲伤、惊讶、烦恼、痛苦、焦虑、恐惧、厌恶、愤怒等)，而且，基于情绪术语的强弱分类成多个强度等级(例如，1～10)。情绪术语不仅包含表达情绪的特定单词，而且，可包括含有特定单词的短语或句子等。例如，“喜欢”或“痛苦”等单词或“非常喜欢”等短语或句子等均属于情绪术语的范畴。作为一例，人工智能虚拟形象互动部223基于用户的语音输入的句子中提取词素后，可从提取到的词素中提取预定的情绪术语并将所提取到的情绪术语按照对应的情绪种类和情绪强度进行分类。当在语音输入的句子中包含多个情绪术语时，可基于情绪术语所属的情绪种类和情绪强度来计算加权值，由此，针对句子的情绪信息计算情绪向量，从而可提取代表相应句子的情绪信息。以上，提取上述情绪信息的技术仅为例示，并不限定于此，也可应用已知的其他技术。

在本发明一实施例中，虽然以第二用户通过人工智能虚拟形象互动部223与人工智能虚拟形象进行互动为例进行了说明，但是，这仅为例示，多名用户也可分别通过各自的用户终端连接人工智能虚拟形象进行互动。

参照图6，特别针对在教育领域中应用于儿童的语言教育的例进行说明。

如图6的(a)部分所示，在互动服务服务器200中，作为教师的服务提供方终端101与作为学习方的第一用户终端102相连接。互动服务服务器200基于教师的脸部表情和姿态实时生成虚拟形象。并且，老师的声音可变成虚拟形象的卡通声音并输出到第一用户终端102。

如图6的(b)部分所示，在此过程中，互动服务服务器200通过收集从作为教师的服务提供方终端101接收的影像及语音数据并将其用于人工智能虚拟形象的学习，利用其学习结果可实现一个没有人干涉的纯人工智能虚拟形象。由此，在没有教师的情况下，可使得学习方通过人工智能虚拟形象进行学习。

参照图7，特别针对在客户接待领域中应用于订购咖啡的例进行说明。

可通过互动服务服务器200提供的人工智能虚拟形象来形成与人进行对话并反应的界面。例如，如同咖啡厅，通过互动服务服务器200提供的人工智能虚拟形象可向作为用户的客户提供或推荐菜单并说明结账方式。由此，相比于使用触摸屏自助服务终端，客户(用户)可通过更舒适、更贴心的方式进行订购。

参照图8，针对应用于康复治疗领域的例进行说明。

随着通过互动服务服务器200提供的人工智能虚拟形象向用户展示用于康复的动作，可通过分析用户模仿的动作来以对话方式实时提供针对姿势的反馈。像这样，由于人工智能虚拟形象可观察用户的姿势并以对话方式实时提供反馈，因此，可实际向用户提供接受真人服务水平的治疗。

除康复治疗外，可应用于瑜伽、普拉提、物理疗法(PT，Physical Therapy)等所有运动。

并且，这种互动服务可应用于娱乐领域。通过三维建模生成具有特定歌手模样的虚拟形象，使得所生成的虚拟形象通过动作捕捉模仿特定歌手的舞蹈，由此，可利用文本转语音(TTS)和语音克隆(voice cloning)技术来以特定歌手的声音提供表演及互动内容。

以上说明的装置可通过硬件结构要素、软件结构要素和/或硬件结构要素及软件结构要素的组合实现。例如，在实施例中说明的装置及结构要素可利用如处理器、控制器、算术逻辑单元(ALU，arithmetic logic unit)、数字信号处理器(digital signalprocessor)、微型计算机、现场可编程门阵列(FPGA，field programmable gate array)、可编程逻辑单元(PLU，programmable logic unit)、微型处理器或可执行并响应指令(instruction)的其他装置的一个以上的通用计算机或特殊目的计算机体现。处理装置可执行操作系统(OS)及在上述操作系统上执行的一个以上的软件应用程序。并且，处理装置可响应软件的执行来访问、存储、操作、处理及生成数据。为了便于理解，说明了仅使用一个处理装置的情况，本发明所属技术领域的普通技术人员可以知道处理装置可包括多个处理要素(processing element)和/或多个类型的处理要素。例如，处理装置可包括多个处理器或一个处理器及一个控制器。并且，还可包括如同并联处理器(parallel processor)的其他处理结构(processing configuration)。

软件可包括计算机程序(computer program)、代码(code)、指令(instruction)或它们中的一种以上的组合，能够以按需要进行工作的方式构成处理装置或者独立或结合性(collectively)地对处理装置下达指令。软件和/或数据可具体表现(embody)为任何类型的机械、结构要素(component)、物理装置、计算机存储介质或装置，以通过处理装置解释或者向处理装置提供指令或数据。软件分散在通过网络连接的计算机系统上，从而可通过分散的方法存储或执行。软件及数据可存储于一个以上的计算机可读记录介质。

一实施例的方法体现为可通过多种计算机单元执行的程序指令形态来记录在计算机可读介质。在此情况下，介质可以为用于持续存储、执行或下载计算机可执行程序而临时存储的。并且，介质可以为由单个或多个硬件相结合的多种记录装置或存储装置，并不限定于直接与计算机系统相连接的介质，也可以为分散于网络上的存在。例如，介质包括硬盘、软盘及磁盘的磁介质(magnetic media)、如CD-ROM及DVD的光记录介质、如光磁软盘(floptical disk)的磁光介质(magneto-optical medium)及如只读存储器(ROM)、随机存取存储器(RAM)、闪存等用于存储并执行程序指令语言的装置。并且，作为其他介质的示例，可以为流通应用程序的应用商店或提供并流通其他各种其他软件的网站、服务器等所管理的记录介质或存储介质等。

以上，虽然通过限定的附图说明了实施例，但是，在本发明所属技术领域的普通技术人员可基于以上内容进行多种修改及变形。例如，所说明的技术以与所说明的方法不同的顺序执行和/或所说明的系统、结构、装置、电路等结构要素以与所说明的方法不同的实施方式结合或组合，或者，即使被其他结构要素或等同技术方案所代替或置换也可实现适当结果。

因此，其他实施方式、其他实施例和等同于本发明保护范围的内容也属于本发明的保护范围。

Claims

1.一种基于虚拟形象的互动服务方法，在包括服务提供方终端、第一用户终端及第二用户终端的计算机系统中执行，其特征在于，包括如下步骤：

在上述服务提供方终端中的服务提供方与上述第一用户终端中的第一用户的非会面对话环境中，通过从上述服务提供方终端反映服务提供方的影像及语音的虚拟形象来向上述第一用户终端提供互动服务；

基于预存储的学习模型来学习上述服务提供方对于上述第一用户的响应；以及

基于已学习的学习模型生成人工智能虚拟形象并向第二用户终端提供互动服务。

2.根据权利要求1所述的基于虚拟形象的互动服务方法，其特征在于，还包括如下步骤：在上述服务提供方的影像及语音中筛选互动服务领域相关内容并形成数据库。

3.根据权利要求2所述的基于虚拟形象的互动服务方法，其特征在于，上述互动服务领域包括客户接待、咨询、教育、娱乐，上述互动服务通过基于上述虚拟形象的互动来向第一用户终端或第二用户终端提供上述领域相关内容。

4.根据权利要求1所述的基于虚拟形象的互动服务方法，其特征在于，在通过上述服务提供方的虚拟形象向上述第一用户终端提供互动服务的步骤中，通过分析上述服务提供方的影像来向上述虚拟形象反映上述服务提供方的动作、姿态、情绪。

5.根据权利要求1所述的基于虚拟形象的互动服务方法，其特征在于，在通过上述服务提供方的虚拟形象向第一用户终端提供互动服务的步骤中，将上述服务提供方的语音改变成上述卡通虚拟形象的声音并向第一用户终端提供。

6.根据权利要求1所述的基于虚拟形象的互动服务方法，其特征在于，在生成上述人工智能虚拟形象并向第二用户终端提供互动服务的步骤中，从上述第二用户终端接收的第二用户的影像中分析脸部表情、姿态、语气来识别用户的情绪状态并对应于所识别到的情绪状态来改变人工智能虚拟形象的表情、姿态、语气或添加效果。

7.根据权利要求1所述的基于虚拟形象的互动服务方法，其特征在于，在生成上述人工智能虚拟形象并向第二用户终端提供互动服务的步骤中，通过语音识别、语音转文本、自然语言理解及文本转语音中的一种以上来针对从上述第二用户终端接收的第二用户的语音进行识别、理解及反应。

8.一种基于虚拟形象的互动服务装置，其特征在于，包括：

通信部，通过通信网与服务提供方终端、第一用户终端及第二用户终端收发信息；

实时互动部，在第一用户与第二用户的非会面对话环境中的反映服务提供方的影像及语音的服务提供方终端中，通过服务提供方的虚拟形象向第一用户终端提供互动服务；

学习部，基于预存储的学习模型来学习上述服务提供方对于上述第一用户的响应；以及

人工智能虚拟形象互动部，基于上述学习模型生成人工智能虚拟形象，利用上述人工智能虚拟形象来通过上述通信部向上述第二用户终端提供互动服务。

9.根据权利要求8所述的基于虚拟形象的互动服务装置，其特征在于，还包括内容筛选部，从上述服务提供方的影像及语音中筛选互动服务领域相关内容并形成数据库。

10.根据权利要求9所述的基于虚拟形象的互动服务装置，其特征在于，上述互动服务领域包括客户接待、咨询、教育、娱乐，上述互动服务通过基于上述虚拟形象的互动来向上述第一用户终端或第二用户终端提供上述领域相关内容。

11.根据权利要求8所述的基于虚拟形象的互动服务装置，其特征在于，上述人工智能虚拟形象互动部通过分析上述服务提供方的影像来向上述虚拟形象反映上述服务提供方的动作、姿态、情绪。

12.根据权利要求8所述的基于虚拟形象的互动服务装置，其特征在于，上述实时互动部将从上述服务提供方终端接收的服务提供方的语音改变成上述卡通虚拟形象的声音并向第一用户终端提供。

13.根据权利要求8所述的基于虚拟形象的互动服务装置，其特征在于，在从上述第二用户终端接收的第二用户的影像中，上述人工智能虚拟形象互动部通过分析第二用户的实时影像中的脸部表情、姿态、语气来识别第二用户的情绪状态，并对应于所识别到的情绪状态来改变上述人工智能虚拟形象的表情、姿态、语气或添加效果。

14.根据权利要求8所述的基于虚拟形象的互动服务装置，其特征在于，上述人工智能虚拟形象互动部通过语音识别、语音转文本、自然语言理解及文本转语音中的一种以上来针对从第二用户终端接收的上述第二用户的语音进行识别、理解及反应。

15.一种基于虚拟形象的互动服务方法，在计算机系统中执行，其特征在于，包括如下步骤：

在上述用户终端的用户与上述计算机系统生成的虚拟形象的非会面对话环境中，通过反映上述计算机系统生成的图像及语音的虚拟形象来向上述用户终端提供互动服务；

从上述用户终端接收输入；

基于从上述用户终端接收的上述输入来生成虚拟形象反应；以及

向上述用户终端提供上述虚拟形象反应。

16.根据权利要求15所述的基于虚拟形象的互动服务方法，其特征在于，在服务提供方之间的非会面对话环境中，上述虚拟形象从服务提供方终端反映并生成服务提供方的图像及语音。

17.根据权利要求16所述的基于虚拟形象的互动服务方法，其特征在于，在通过上述虚拟形象向上述用户终端提供互动服务的步骤中，通过分析上述服务提供方的影像来向上述虚拟形象反映上述服务提供方的动作、姿态、情绪。

18.根据权利要求16所述的基于虚拟形象的互动服务方法，其特征在于，还包括如下步骤：基于预存储的学习模型学习上述服务提供方对于第一用户的响应。

19.根据权利要求16所述的基于虚拟形象的互动服务方法，其特征在于，还包括如下步骤：基于已学习的学习模型生成虚拟形象来向其他用户终端提供互动服务。

20.根据权利要求15所述的基于虚拟形象的互动服务方法，其特征在于，在接收上述输入的步骤中，通过从上述用户终端接收用户的脸部表情、姿态、语气来识别用户的情绪状态，并对应于所识别到的情绪状态来改变虚拟形象的表情、姿态、语气或添加效果。

21.根据权利要求15所述的基于虚拟形象的互动服务方法，其特征在于，提供上述虚拟形象反应的步骤还包括如下步骤：基于已学习的学习模型生成虚拟形象。

22.一种基于虚拟形象的互动服务装置，其特征在于，包括：

通信部，通过通信网与用户终端收发信息；

虚拟形象互动部，通过上述通信部生成用于向上述用户终端提供互动服务的虚拟形象；以及

实时互动部，在上述用户终端中的虚拟形象与用户之间的非会面对话环境中，通过虚拟形象向上述用户终端提供互动服务。

23.根据权利要求22所述的基于虚拟形象的互动服务装置，其特征在于，在上述服务提供方终端中的上述服务提供方与在上述用户终端中的用户之间的非会面对话环境中，上述实时互动部提供反映服务提供方终端的服务提供方的图像和语音的服务提供方的虚拟形象。

24.根据权利要求23所述的基于虚拟形象的互动服务装置，其特征在于，上述虚拟形象互动部通过分析上述服务提供方的影像来向上述虚拟形象反映上述服务提供方的动作、姿态、情绪。

25.根据权利要求23所述的基于虚拟形象的互动服务装置，其特征在于，上述实时互动部将从上述服务提供方终端接收的服务提供方的语音改变成上述卡通虚拟形象的声音并向上述用户终端提供。