CN111290682A

CN111290682A - 交互方法、装置及计算机设备

Info

Publication number: CN111290682A
Application number: CN201811488584.6A
Authority: CN
Inventors: 侯飞跃; 刘柳; 刘扬; 傅业焘; 朱建科; 马金; 杨名远; 冒晶
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-16

Abstract

本发明公开了一种交互方法、装置及计算机设备。其中，该方法包括：接收用于指示虚拟人的形象的指令；根据指令，生成指令所指示的形象的虚拟人，其中，虚拟人依据形象的形象特征模拟得到；通过虚拟人进行服务交互。本发明解决了相关技术中的虚拟人物，模拟成本较高，不够流畅细腻的技术问题。

Description

交互方法、装置及计算机设备

技术领域

本发明涉及虚拟仿真领域，具体而言，涉及一种交互方法、装置及计算机设备。

背景技术

相关技术中，通过数字建模的方式，建立虚拟人物的3D数字模型，通过数学模型将虚拟人物数字化，以达到和真人相似度较高的逼真效果。还有的通过3D扫描设备进行3D数字建模，从而实现虚拟人物的数字化。但是，数字化的虚拟人物，虽然逼真，但是由于是3D建模驱动生成的面部表情，肢体动作衔接不够流畅，面部表情也不够细腻自然。而且上述3D数字建模的方式，需要对每个虚拟人物个体，建立单独的3D模型，而且对于同一人物在不同时候的不同体型的情况下，也可能需要分别建立，直接导致较大的资源消耗，造成成本较高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种交互方法、装置及计算机设备，以至少解决相关技术中的虚拟人物，模拟成本较高，不够流畅细腻的技术问题。

根据本发明实施例的一个方面，提供了一种交互方法，包括：接收用于指示虚拟人的形象的指令；根据所述指令，生成所述指令所指示的形象的虚拟人，其中，所述虚拟人依据所述形象的形象特征模拟得到；通过所述虚拟人进行服务交互。

根据本发明实施例的另一方面，还提供了一种交互方法，包括：显示用于展示虚拟人的设备处于待唤醒状态，其中，所述虚拟人为依据预定形象的形象特征模拟得到；在接收到触发服务交互开始的触发信息时，显示所述虚拟人以所述预定形象进入交互状态；显示所述虚拟人与目标对象进行服务交互的交互内容。

根据本发明实施例的另一方面，还提供了一种交互装置，包括：接收模块，用于接收用于指示虚拟人的形象的指令；生成模块，用于根据所述指令，生成所述指令所指示的形象的虚拟人，其中，所述虚拟人依据所述形象的形象特征模拟得到；交互模块，用于通过所述虚拟人进行服务交互。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的交互方法。

根据本发明实施例的另一方面，还提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时执行上述中任意一项所述的交互方法。

在本发明实施例中，采用接收指示虚拟人的形象的指令，根据指令生成该指令所指示的，依据该形象的形象特征模拟得到的虚拟人，达到了通过该形象的虚拟人进行服务交互的目的，从而实现了降低模拟虚拟人的成本，提高模拟虚拟人的灵活性的技术效果，进而解决了相关技术中的虚拟人物，模拟成本较高，不够流畅细腻的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于交互方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例1的一种交互方法的流程图；

图3是根据本发明实施例1的另一种交互方法的流程图；

图4是根据本发明实施例1的另一种交互方法的流程图；

图5是根据本发明实施例1实施方式的一种交互方法的流程图；

图6是根据本发明实施例1实施方式的一种基于虚拟人数据架构的示意图；

图7是根据本发明实施例2的一种交互方法的流程图；

图8是根据本发明实施例3的一种交互装置的示意图；

图9是根据本发明实施例4的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

语音识别ASR：automatic speech recognition，也称自动语音识别，其目标是将人类语言转换为计算机可读的输入，从而实现人机交互中，人对机器的信息输入。例如，人按按键，人通过二进制编码空机器进行操作，人通过计算机语言编码对机器进行控制等。

自然语音处理NLP：natural language processing，是计算机科学领域与人工智能领域中的一个重要方向，主要是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

语音合成TTS：text to speech，是通过机械、电子方法产生人造语音的技术，又称文语转换技术，是将计算机产生的、或者外部输入的文字信息转变为人能够听懂的、流利的语言输出的技术。

3D数字模型，三维数字模型，是使用计算机三维建模软件，将设计方案所表达的形体，构造成可用于设计或后续处理所需的三维数字模型。

数字虚拟人Soul Machines，是指通过计算机技术，将人体结构数字化，在显示设备上显示课件的可调控的虚拟人体形态，可以简称为“数字人”或“虚拟人”。虚拟人包括四个阶段，“虚拟可视人”，“虚拟物理人”，“虚拟生理人”和“虚拟智人”。

实施例1

根据本发明实施例，还提供了一种交互方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现交互方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外，还可以包括：传输模块、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的交互方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的交互方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，上述图1所示的计算机终端10(或移动设备)作为(例如发送端、接收端等)一种实施例。计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器(例如安全服务器、资源服务器、游戏服务器等)。一种可选实施例中，上述计算机终端10(或移动设备)可以是(任意移动计算设备等)。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

在相关技术中，虚拟人的形象可以应用于多种场合，例如，游戏中的虚拟人物，虚拟解说员，虚拟客服等。常见的虚拟人的形象一般是基于虚拟人的设计形象，通过有限数量的设计形象的固定动作组成，在固定动作的同时可以为虚拟人配置与该动作对应的语音，不仅仿真程度低，效果不逼真，而且交互过程也很呆板和固化。为了提高虚拟人的仿真程度，使其模拟效果更加逼真，交互更加智能，相关技术提出了一种数字虚拟人，通过建立3D数字模型的方式将虚拟人数字化，可以通过数字控制该虚拟人的形象进行动作，可以有效提高虚拟人的动作的多样性，表情的丰富程度等。但是，通过3D数字模型的方式，建立的虚拟人，由于是3D建模驱动生成的面部表情，表情没有真人细腻自然，动作之间的衔接也不够流畅，而且由于对每个虚拟人对应的真人的都需要单独建立3D模型，导致成本较高。

交互仿真虚拟人通过整合面部重塑、语音识别(ASR)、语音合成(TTS)、机器问答等多领域的人工智能AI(Artificial Intelligence)技术，从视觉和听觉上，带来宛如和真人对话般的交互体验。通过面部重塑、机器阅读、远场语音识别技术，并率先整合了自然语言理解和图像渲染等多种技术。

在上述运行环境下，本申请提供了如图2所示的交互方法。图2是根据本发明实施例1的一种交互方法的流程图，如图2所示，该方法包括以下步骤。

步骤S202，接收用于指示虚拟人的形象的指令。

作为一种可选的实施例，上述步骤的执行主体可以是一种智能设备，该智能设备可以称之为虚拟人，该虚拟人可以用于智能客服、智能点餐、智能导览/指路、智能问答、智能陪伴、智能政务、智能导医台、智能汽车可视交互、智能新闻/电视播音员、广告/电视/电影短片制作、游戏行业、智能家居电视、其他可视交互场景。上述虚拟人的就诊交互的对象可以为任何人。

作为一种可选的实施例，在上述虚拟人的形象，可以是依据真人进行模拟所得，还可以是根据预设的参数进行模拟所生成的二维图像或者三维图像，例如，卡通动漫形象，明星，自主编辑的形象等，还可以是数字人形象，上述数字人是数字化的虚拟人形象，从而有效满足多样化的需求。上述虚拟人在具有视觉体验的基础上，还可以提供语音对话的听觉体验。也即是上述虚拟人可以与人进行语音交互。该语音交互方法可以是多种，例如，简单应答的语音交互，通过固定的对话模式进行简单应答。或者基于机器学习或者深度学习的语音交互，通过神经网络，进行智能应答和对话。

作为一种可选的实施例，上述指示虚拟人的形象，可以是根据控制指令，生成或者修改虚拟人的形象，例如，根据瘦脸指令，控制将虚拟人的脸型一定程度上变瘦；根据生痣指令，可以控制虚拟人的身上或者脸上等其他位置，生成痣。上述控制指令，可以是接收的语音信息，或文本信息。上述控制指令还可以是控制设备发送的指令信息，例如，遥控器，远程控制装置等发送的控制指令。上述控制指令还可以是交互设备发送的控制信息，例如，用户通过在触控板，电子画板等交互设备上进行编辑，经过上述交互设备发送给虚拟人的控制信息。

步骤S204，根据指令，生成指令所指示的形象的虚拟人，其中，虚拟人依据形象的形象特征模拟得到。

作为一种可选的实施例，上述根据指令，生成指令所指示的形象的虚拟人，可以先根据该指令指示相关的形象特征，以及该形象特征的具体数值，例如，瘦脸指令，指示该虚拟人的脸部颧骨位置，减小2.00mm。然后根据上述指令，明确虚拟人形象，根据用户多种编辑，例如，更换颜色，更换外观，改变尺寸等等之后，保存修改参数，生成该参数对应的形象的虚拟人。

作为一种可选的实施例，上述生成指令所指示的形象的虚拟人，可以是通过编辑装置的相关编辑软件，对虚拟人形象进行编辑、更改以及设置，然后将编辑好的虚拟人形象的信息发送给虚拟人生成装置，由虚拟人生成装置生成虚拟人，并在显示装置上进行显示。上述编辑装置、生成装置和显示装置可以是属于虚拟人设备的硬件装置。

作为一种可选的实施例，上述虚拟人的形象可以是真人形象，也可以是卡通形象、二次元人物形象，数字人形象等“人”的形象，上述人可以理解为广泛意义上的可以实现人的角色，例如，游戏中的虚拟人物，电视剧或电影中的超级英雄等，还可以是按照记载的想象的外星人的形象，妖魔的形象等。

步骤S206，通过虚拟人进行服务交互。

作为一种可选的实施例，上述服务交互场景可以是现实中的人与虚拟人的交互场景。该服务交互场景，可以具有一定的界限，在超出该交互界限的情况下，可以触发相应的操作。例如，服务交互场景可以限于某一领域，某一场景的问答，沟通，或者其他的预设功能与操作等。但是一些超越权限和交互范围的操作可以禁止进行，例如,沟通在该交互场景下禁止的内容，询问无权限的信息等。该交互界限可以根据具有修改权限的人进行修改。

作为一种可选的实施例，上述在服务交互场景下，通过虚拟人与人进行交互至少包括，视觉交互和听觉交互。视觉交互，是指在视觉上的交互，例如，该虚拟人形象的面部表情的变化，身体姿态的变化，身体动作的变化等。听觉交互，是指在听觉上的交互，例如，该虚拟人声音的声调的变化，语气的变化，语速的变化等。

作为一种可选的实施例，上述视觉交互和听觉交互可以是互相结合的，例如，在说话时，上述虚拟人的嘴巴的口型与所说的文字、口音相对应，该虚拟人的面部表情与说话时的不同的语气相对应。在虚拟人与人进行交互的方式还包括其他的交互方式时，可以是上述视觉交互、听觉交互以及其他交互方式结合进行交互，以使虚拟人具有更高的仿真程度，从而提高目标对象的使用体验。

根据上述步骤，采用接收指示虚拟人的形象的指令，根据指令生成该指令所指示的，依据该形象的形象特征模拟得到的虚拟人，达到了通过该形象的虚拟人进行服务交互的目的，从而实现了降低模拟虚拟人的成本，提高模拟虚拟人的灵活性的技术效果，进而解决了相关技术中的虚拟人物，模拟成本较高，不够流畅细腻的技术问题。

作为一种可选的实施例，虚拟人的形象包括以下至少之一：真人形象，卡通形象，二次元形象，数字人形象。

作为一种可选的实施例，上述虚拟人的形象可以是真人形象，也可以是卡通形象、二次元人物形象，数字人形象等。在上述虚拟人为真人形象的情况下，该虚拟人是依据真人的形象特征模拟所得到。该形象特征可以是体型特征，外貌特征，脸型特征，五官特征等图像特征，上述形象特征还可以包括声音特征，音色特征，语气特征，口音特征等声音特征。从而使该虚拟人与真人对人带来的感官体验更相接近。

作为一种可选的实施例，上述虚拟人的形象为卡通形象的情况下，该虚拟人是依据卡通的形象特征模拟所得到的。该形象特征可以是形状特征，颜色特征，尺寸特征等图像特征，上述形象特征还可以包括该卡通形象的声音特征，音色特征，语气特征，口音特征等声音特征。

作为一种可选的实施例，上述虚拟人的形象为二次元人物形象的情况下，该虚拟人是依据二次元人物的形象特征模拟所得到的。该形象特征可以是外形特征，颜色特征，尺寸特征，动作特征，姿态特征等图像特征，上述形象特征还可以包括该二次元人物形象的声音特征，音色特征，语气特征，口音特征等声音特征。

作为一种可选的实施例，上述虚拟人的形象为数字人形象的情况下，该虚拟人是依据数字人的形象特征模拟所得到的。该形象特征可以是体型特征，外貌特征，五官特征，脸型特征，姿态特征，动作特征等图像特征，上述形象特征还可以包括该数字人形象的声音特征，音色特征，语气特征，口音特征等声音特征。上述形象特征还可以包括数字特征，身体参数特征，等隐性特征。

图3是根据本发明实施例1的另一种交互方法的流程图，如图3所示，通过虚拟人进行服务交互包括：

步骤S302，接收到与虚拟人进行交互的语音问题；

步骤S304，将语音问题转换成文本问题；

步骤S306，将文本问题输入至数据库，得到数据库输出的与文本问题对应的文本答案；

步骤S308，将文本答案结合虚拟人的形象特征，生成采用形象展示的视频；

步骤S310，通过播放视频的方式，展示文本答案。

作为一种可选的实施例，上述服务交互可以包括问和答，可以是由人问，虚拟人通过接收装置接收交互中的问题，对该问题进行回答。在回答的过程中，可以先将接收的语音问题转换成文本问题，然后将文本问题输入到数据库中，由数据库输出与该文本问题对应的文本答案，需要说明的是，该数据库可以根据文本问题直接从数据库中搜寻该文本问题的答案，还可以通过机器学习或者深度学习的方式，确定该文本问题的文本答案。

需要说明的是，上述服务交互中的问和答，也可以是虚拟人提问，由人回答，例如，在虚拟人回答人的问题之后，人保持沉默，虚拟人可以根据交互的具体情况进行发问，例如，“你没事吧？”等主动发起提问的场景。

作为一种可选的实施例，在上述数据库输出与该文本问题对应的文本答案之后，将该文本答案传输给虚拟人，由虚拟人展示该文本答案。虚拟人展示上述文本答案的方式可以是很多种，例如，通过播放语音的方式朗读上述文本答案，还可以通过显示装置展示该文本答案，还可以通过虚拟人的动作展示该文本答案，例如采用手语进行表示。

作为一种可选的实施例，通过上述方式虚拟人展示该文本答案，可以将虚拟人的展示过程生成视频，通过播放视频的方式展示文本答案，不仅可以重复播放，还可以用于记录，相对于重复提问，重复处理和重复回答的情况，可以直接调用已生成的食品进行播放，不仅节约了运算资源，而且还可以提高对该问题的回答速度，提高交互效率。

作为一种可选的实施例，通过虚拟人进行服务交互还包括：通过虚拟人将文本答案以文本的方式显示。

作为一种可选的实施例，在上述虚拟人展示上述文本答案的过程中，可以采用将文本答案以文本的方式，显示在显示设备上，上述显示设备可以是虚拟人的硬件设备，也可以是虚拟人之外显示设备终端，还可以是远程控制端的显示设备等。上述通过显示文本的方式展现该文本答案，准确率高，不会产生歧义和误解，有利于促进人的理解，加强交互的关联性。

作为一种可选的实施例，在通过虚拟人进行服务交互之前，还包括：启动虚拟人，控制虚拟人进入空闲状态，并播放空闲状态下对应的预录制音视频；接收到交互开始的触发信息，控制虚拟人进入静置状态，并播放静置状态下对应的预录制音视频；在检测到语音时，控制虚拟人进入倾听状态，开始接收到与虚拟人进行交互的语音问题。

作为一种可选的实施例，上述启动虚拟人之后，虚拟人处于未进入服务交互的空闲状态，类似于家用电器的待机状态，或者电脑显示屏的屏幕保护状态等。在虚拟人处于空闲状态时，可以播放预录制音视频，可以向人展示该虚拟人处于空闲状态。

作为一种可选的实施例，上述静置状态和倾听状态均属于服务交互中的状态，上述静置状态是指在等待人说话的状态，上述倾听状态是指虚拟人倾听人说话的状态。在静置状态下，与上述空闲状态类似，虚拟人一般不会有反应，因此为了将上述空闲状态和静置状态区分开来，通过现实不同的预录制音视频来向用户展示该虚拟人处于不同的状态。

作为一种可选的实施例，上述触发信息可以主动触发信息，或者被动触发信息。上述主动触发信息可以是由该虚拟人检测，在检测到满足服务交互开启的条件时，自动触发开始服务交互。

作为一种可选的实施例，上述被动触发信息可以是由服务交互的对象发起指令，上述服务交互的对象可以是人，由人控制虚拟人开始服务交互。上述发起指令可以是人发出控制语音，做出控制动作，或者通过控制装置发出控制指令等。人可以根据需求，选择是否开启虚拟人，开始服务交互，可以是通过语音作为控制指令，虚拟人接受该控制语音后，根据该控制语音，控制开启服务交互。

作为一种可选的实施例，在上述触发信息为主动触发信息的情况下，上述用于触发服务交互开始的触发信息可以是由检测装置发送的，该检测装置可以是属于该虚拟人的硬件设备，检测装置用于检测触发信息是否满足开启服务交互的触发条件。在上述触发信息为被动触发的情况下，上述触发信息可以是由用于控制虚拟人工作的控制装置，或者用于接收人发送的信息的接收装置。在人发出控制语音，或者做出控制动作的情况下，由上述接收装置接收，并转化为触发信息，触发虚拟人开始服务交互。

作为一种可选的实施例，在通过播放视频的方式，展示文本答案之前，还包括：在确定接收完语音问题后，控制虚拟人进入应答状态，开始通过播放视频的方式，展示文本答案。

作为一种可选的实施例，上述接收语音处于倾听状态，接受完语音问题进入应答状态，包括对该语音问题的处理和回答，以及回答方式的选择，均为应答状态。

作为一种可选的实施例，启动虚拟人包括：通过接收到远程发送的触发消息的方式，启动虚拟人；通过接收按键触发指令的方式，启动虚拟人；通过摄像头拍摄到目标对象的方式，启动虚拟人；通过红外线感应到目标对象的方式，启动虚拟人。

作为一种可选的实施例，上述启动虚拟人与控制虚拟人进入服务交互状态类似，启动虚拟人需要启动指令，该启动指令也可以包括被动指令和主动指令，上述主动指令可以是由该虚拟人检测，在检测到满足服务交互开启的条件时，自动触发开始服务交互。例如，通过摄像头拍摄到目标对象的方式，启动虚拟人；通过红外线感应到目标对象的方式，启动虚拟人。上述被动指令可以是由服务交互的对象发起指令，上述服务交互的对象可以是人，由人控制虚拟人开始服务交互。例如，通过接收到远程发送的触发消息的方式，启动虚拟人；通过接收按键触发指令的方式，启动虚拟人。

作为一种可选的实施例，通过虚拟人进行服务交互包括：获取虚拟人要说的文本；提取虚拟人对应的形象的真人的语音特征；根据语音特征，将文本合成为合成语音，将合成语音作为虚拟人的声音进行播放。

作为一种可选的实施例，上述展示虚拟人的声音可以是多种方式，例如，在固定的服务交互场景的情况下，可以提前录音，录取该服务交互场景下的固定语音，在该固定服务交互场景下，直接播放该固定语音。还可以是根据虚拟人生成的答案或知识点的文本信息，将该文本信息转化为语音信息。还可以是虚拟人针对服务交互场景或者人的问题，根据深度学习或者机器学习确定交互场景中的语音文本，将该语音文本转化为语音。

作为一种可选的实施例，上述通过文本转化为语音的过程中，可以是先提取真人语音的语音特征，例如，音色，音调范围，语速，频率等。然后根据语音特征将文本合成为合成语音，对该合成语音进行播放。上述通过文本转化为语音的方式还可以采用语音合成TTS技术来实现。

图4是根据本发明实施例1的另一种交互方法的流程图，如图4所示，通过虚拟人进行服务交互包括：

步骤S402，获取虚拟人对应的形象对应的底板视频，其中，底板视频中包括虚拟人对应的形象的面部表情；

步骤S404，从底板视频中抽取虚拟人对应的形象的面部表情的表情特征；

步骤S406，根据表情特征重塑虚拟人的面部表情，通过播放视频的方式，展示虚拟人重塑后的面部表情。

作为一种可选的实施例，上述展示虚拟人的面部表情可以是多种方式，例如，在固定服务交互场景的情况下，可以提前录取人的表情视频，录取该服务交互场景下的固定表情视频，在该固定服务交互场景下，播放该表情视频。还可以是根据虚拟人的表情特征重塑虚拟人的面部表情视频。

作为一种可选的实施例，上述根据虚拟人的表情特征重塑虚拟人的面部表情视频的过程中，可以是先获取虚拟人对应的底板视频，其中，底板视频中包括真人的面部表情。然后，从底板视频中抽取真人的面部表情的表情特征。根据视觉交互场景的需求，以及该表情特征，重塑虚拟人的面部表情视频。上述表情特征可以包括该表情下真人的面部特征。

作为一种可选的实施例，上述采用对面部表情进行重塑的方式，由于是根据底板视频中的真人的面部表情的表情特征进行重塑的，因此，重塑后的虚拟人的面部表情视频可以具有真人的体验，另外，由于对面部表情进行重塑时，考虑了与人的服务交互场景的服务交互过程中的交互细节，因此，相对于相关技术中简单的服务交互而言，能够有效体现与真人进行现场服务交互的体验。

需要说明的是，上述获得虚拟人的语音合成以及对虚拟人的面部表情进行重塑时，均可以通过对真人的多个语音，或者多个面部表情进行机器学习，从而模拟出与交互场景对应的语音和面部表情。例如，对于获得虚拟人的合成语音时，可以先对多个真人的在各种服务交互场景下的语音进行训练，从而得到一个语音模型。当虚拟人与人处于一个具体的教学场景下时，依据人给出的交互语音，可以直接输出该场景下与人给出的交互语音对应的虚拟人的反应语音。类似的，对于获得虚拟人的面部表情时，也可以采用先对多个真人在各种服务交互场景下的面部表情进行训练，从而得到一个面部表情模型，当虚拟人与人处于一个具体的教学场景下时，依据人给出的交互内容，可以直接输出该场景下与人给出的交互内容对应的虚拟人的面部表情。

需要说明的是，根据上述多个真人的在各种服务交互场景下的交互语音和/或面部表情，对语音模型和/或面部表情模型进行训练时，可以采用相同或者相似服务交互场景下的语音和/或面部表情进行训练，可以提高语音模型和/或面部表情模型的识别准确率；还可以采用相反的服务交互场景下的语音和/或面部表情，互为对抗进行训练，可以提高语音模型和/或面部表情模型的识别稳定性。

作为一种可选的实施例，通过虚拟人进行服务交互包括：确定通过虚拟人进行服务交互的交互模型，其中，交互模型通过多组数据训练得到，每组数据中均包括：服务要求，以及与该服务要求对应的服务内容；接收到向虚拟人请求的服务要求；将接收的服务要求作为交互模型的输入，得到对应的服务内容；通过虚拟人展示得到的服务内容。

作为一种可选的实施例，上述交互模型用于响应人的服务要求，进行相应的服务内容，可以通过在数据库中查询的方式，查询与服务要求对应的服务内容，但是，在不同的服务场景下，同样的服务要求，可能对应不同的服务内容。因此，可以根据服务行业对交互场景进行分类，例如，智能导游交互，智能点餐服务交互等。对于不同的交互场景，通过确定对应的服务交互的交互模型，通过该交互模型确定虚拟人接收的服务要求对应的服务内容，并展示该服务内容。该交互模型为深度学习或者机器学习的模型。有效提高虚拟人的智能化。

需要说明的是，本实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

图5是根据本发明实施例1实施方式的一种交互方法的流程图，如图5所示，虚拟人可以包括待唤醒状态(空闲态)和交互状态，上述交互状态根据虚拟人的动作可以分为，与人进行对话的对话态，保持沉默的静置态，还可以包括接收人的语音的倾听态，接收人的图像的观察态，对人进行回答的回答态等。

图6是根据本发明实施例1实施方式的一种基于虚拟人数据架构的示意图，如图6所示，该虚拟人按照数据交互端可以包括：

管理端：可以是管控台，主要功能包括ASR、QA、TTS、卡通/二次元/数字人模型和参数的配置，以及账户管理、设备管理、购买服务等功能。

云端：可以包括ASR、QA、TTS、卡通/二次元/数字人生成等的公有云服务。

终端：可以是智能终端，作为人机交互的终端，整个交互过程分为空闲态，唤醒，静置态，倾听态，回答，结束。启动后，服务进入空闲态，播放此状态的预录制音视频，通过远场/近场/多模态(摄像头+/红外)进行唤醒，并播放此状态的预录制音视频，然后进入静置态，并播放此状态的预录制音视频，在检测到有语音输入后，进入倾听态，并播放此状态的预录制音视频，用户通过远程/近场拾音，语音识别SDK进行处理并请求ASR服务将语音转换成文字，并实时显示在交互前端，同时通过QA匹配答案，然后请求卡通/二次元/数字人服务将匹配的答案实时生成音视频展示到交互前端，回答完毕后返回静置状态，若超时或者说出“再见”/“拜拜”等结束词，则播放结束预录制视频，然后返回空闲态，来实现可视化语音交互体验。

实施例2

根据本发明实施例，还提供了另一种人交互方法的实施例，图7是根据本发明实施例2的一种交互方法的流程图，如图7所示，该方法包括以下步骤：

步骤S702，显示用于展示虚拟人的设备处于待唤醒状态，其中，虚拟人为依据预定形象的形象特征模拟得到。

作为一种可选的实施例，上述步骤的执行主体可以是虚拟人的智能设备，该智能设备可以配置有显示装置，该显示装置可以是显示屏，触摸屏，或者投影屏等。上述投影屏可以是二维投影屏，还可以是三维投影设备等。

作为一种可选的实施例，上述待唤醒状态，类似于电器的待机状态，以低功率运行，仅保持用于触发虚拟人开始服务交互的接收装置或检测装置，以及核心装置的运行。当虚拟人接收触发信息，触发该虚拟人开启服务交互，进入交互状态，与人进行交互。

作为一种可选的实施例，上述虚拟人的工作状态包括上述待唤醒状态，和交互状态，还可以包括在紧急情况下触发的紧急状态，在某些情况下触发的用于自我保护的锁定状态，等等。

作为一种可选的实施例，上述虚拟人的状态可以进行显示，或者通过不同的指示装置进行指示，例如，不同位置的指示灯，或者不同颜色的指示灯等。

作为一种可选的实施例，在上述虚拟人为真人的形象的情况下，该虚拟人是依据真人的特征模拟所得到。该特征可以是体型特征，外貌特征，脸型特征，五官特征等图像特征，还可以是声音特征，音色特征，语气特征，口音特征等声音特征。从而使该虚拟人与真人对用户带来的感官体验更相接近。

步骤S704，在接收到触发服务交互开始的触发信息时，显示虚拟人以预定形象进入交互状态。

作为一种可选的实施例，上述接收到触发服务交互开始的触发信息，可以是上述虚拟人的触发条件，上述触发条件还可以是其他的方式。上触发条件是上述虚拟人从待唤醒状态进入交互状态的跳转条件。

作为一种可选的实施例，在接收到触发服务交互开始的触发信息之后，该虚拟人进入服务交互状态，播放虚拟人，使人在视觉上感受到与真人类似或者相同的体验。上述虚拟人可以是依据真人进行模拟所得，还可以是根据预设的参数进行模拟所生成的二维图像或者三维图像，例如，卡通动漫形象，明星，动植物，自主编辑的形象等，从而有效满足多样化的需求。

作为一种可选的实施例，上述虚拟人在具有视觉体验的基础上，还提供语音对话的听觉体验。也即是上述虚拟人可以与该人进行语音交互。该语音交互方法可以是多种，例如，简单应答的语音交互，通过固定的对话模式进行简单应答。再例如，基于机器学习或者深度学习的语音交互，通过神经网络，进行智能应答和对话。

作为一种可选的实施例，如图5所示，上述交互状态根据虚拟人的动作可以分为，与人进行对话的对话态，保持沉默的静置态，还可以包括接收人的语音的倾听态，接收人的图像的观察态，对人进行回答的回答态等。

步骤S706，显示虚拟人与目标对象进行服务交互的交互内容。

作为一种可选的实施例，上述在服务交互场景下，通过虚拟人与人进行交互至少包括，视觉交互和听觉交互。视觉交互，是指在视觉上的交互，例如，该虚拟人形象的面部表情的变化，身体姿态的变化，身体动作的变化等。听觉交互，是指在听觉上的交互，例如，声调的变化，语气的变化，语速的变化等。

作为一种可选的实施例，上述视觉交互和听觉交互可以是互相结合，例如，在说话时，上述虚拟人的嘴巴的口型与所说的文字、口音相对应，该虚拟人的面部表情与说话时的不同的语气相对应。在虚拟人与人进行交互的方式还包括其他的交互方式时，可以是上述视觉交互、听觉交互以及其他交互方式结合进行交互。

作为一种可选的实施例，上述服务交互场景可以在服务行业的角度，包括点餐服务交互场景、导游服务交互场景、游戏服务交互场景等各个服务行业对应的服务交互场景。在人与人的服务交互场景中，显示虚拟人与人进行服务交互的交互内容。例如，点餐交互场景中，虚拟人可以根据服务交互进程，或者人问题，对与人的点餐过程中的问题进行回答。上述服务交互场景还可以包括对点餐交互中相关语音和文本通过声音装置以语音形式展现。

作为一种可选的实施例，交互内容包括以下至少之一：与目标对象聊天的聊天内容；向目标对象播放的歌曲；向目标对象播放的影视作品；向目标对象提供的点餐服务。

作为一种可选的实施例，在不同的交互场景下，交互内容不同，例如，在上述点餐交互场景下，交互内容可以包括与人聊天，向人介绍点餐服务。在点歌交互场景下，交互内容可以是向人播放歌曲。在点播交互场景下，交互内容可以是向人播放影视作品。在陪伴交互场景下，交互内容可以是与人聊天。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述实施例1的交互方法的交互装置，图8是根据本发明实施例3的一种交互装置的示意图，如图8所示，该装置包括：接收模块82，生成模块84和交互模块86，下面对该装置进行详细说明。

接收模块82，用于接收用于指示虚拟人的形象的指令；生成模块84，与上述接收模块82相连，用于根据指令，生成指令所指示的形象的虚拟人，其中，虚拟人依据形象的形象特征模拟得到；交互模块86，与上述生成模块84相连，用于通过虚拟人进行服务交互。

此处需要说明的是，上述接收模块82，生成模块84和交互模块86对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的交互方法中以下步骤的程序代码：接收用于指示虚拟人的形象的指令；根据指令，生成指令所指示的形象的虚拟人，其中，虚拟人依据形象的形象特征模拟得到；通过虚拟人进行服务交互。

可选地，图9是根据本发明实施例4的一种计算机终端的结构框图。如图9所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器92、存储器94、以及外设接口。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的交互方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的交互方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收用于指示虚拟人的形象的指令；根据指令，生成指令所指示的形象的虚拟人，其中，虚拟人依据形象的形象特征模拟得到；通过虚拟人进行服务交互。

可选的，上述处理器还可以执行如下步骤的程序代码：虚拟人的形象包括以下至少之一：真人形象，卡通形象，二次元形象，数字人形象。

可选的，上述处理器还可以执行如下步骤的程序代码：通过虚拟人进行服务交互包括：接收到与虚拟人进行交互的语音问题；将语音问题转换成文本问题；将文本问题输入至数据库，得到数据库输出的与文本问题对应的文本答案；将文本答案结合虚拟人的形象特征，生成采用形象展示的视频；通过播放视频的方式，展示文本答案。

可选的，上述处理器还可以执行如下步骤的程序代码：通过虚拟人进行服务交互还包括：通过虚拟人将文本答案以文本的方式显示。

可选的，上述处理器还可以执行如下步骤的程序代码：在通过虚拟人进行服务交互之前，还包括：启动虚拟人，控制虚拟人进入空闲状态，并播放空闲状态下对应的预录制音视频；接收到交互开始的触发信息，控制虚拟人进入静置状态，并播放静置状态下对应的预录制音视频；在检测到语音时，控制虚拟人进入倾听状态，开始接收到与虚拟人进行交互的语音问题。

可选的，上述处理器还可以执行如下步骤的程序代码：在通过播放视频的方式，展示文本答案之前，还包括：在确定接收完语音问题后，控制虚拟人进入应答状态，开始通过播放视频的方式，展示文本答案。

可选的，上述处理器还可以执行如下步骤的程序代码：启动虚拟人包括：通过接收到远程发送的触发消息的方式，启动虚拟人；通过接收按键触发指令的方式，启动虚拟人；通过摄像头拍摄到目标对象的方式，启动虚拟人；通过红外线感应到目标对象的方式，启动虚拟人。

可选的，上述处理器还可以执行如下步骤的程序代码：通过虚拟人进行服务交互包括：获取虚拟人要说的文本；提取虚拟人对应的形象的真人的语音特征；根据语音特征，将文本合成为合成语音，将合成语音作为虚拟人的声音进行播放。

可选的，上述处理器还可以执行如下步骤的程序代码：通过虚拟人进行服务交互包括：获取虚拟人对应的形象对应的底板视频，其中，底板视频中包括虚拟人对应的形象的面部表情；从底板视频中抽取虚拟人对应的形象的面部表情的表情特征；根据表情特征重塑虚拟人的面部表情，通过播放视频的方式，展示虚拟人重塑后的面部表情。

可选的，上述处理器还可以执行如下步骤的程序代码：通过虚拟人进行服务交互包括：确定通过虚拟人进行服务交互的交互模型，其中，交互模型通过多组数据训练得到，每组数据中均包括：服务要求，以及与该服务要求对应的服务内容；接收到向虚拟人请求的服务要求；将接收的服务要求作为交互模型的输入，得到对应的服务内容；通过虚拟人展示得到的服务内容。

可选的，上述处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：显示用于展示虚拟人的设备处于待唤醒状态，其中，虚拟人为依据预定形象的形象特征模拟得到；在接收到触发服务交互开始的触发信息时，显示虚拟人以预定形象进入交互状态；显示虚拟人与目标对象进行服务交互的交互内容。

可选的，上述处理器还可以执行如下步骤的程序代码：交互内容包括以下至少之一：与目标对象聊天的聊天内容；向目标对象播放的歌曲；向目标对象播放的影视作品；向目标对象提供的点餐服务。

采用本发明实施例，提供了一种交互方法的方案。采用接收指示虚拟人的形象的指令，根据指令生成该指令所指示的，依据该形象的形象特征模拟得到的虚拟人，达到了通过该形象的虚拟人进行服务交互的目的，从而实现了降低模拟虚拟人的成本，提高模拟虚拟人的灵活性的技术效果，进而解决了相关技术中的虚拟人物，模拟成本较高，不够流畅细腻的技术问题。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的交互方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收用于指示虚拟人的形象的指令；根据指令，生成指令所指示的形象的虚拟人，其中，虚拟人依据形象的形象特征模拟得到；通过虚拟人进行服务交互。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：虚拟人的形象包括以下至少之一：真人形象，卡通形象，二次元形象，数字人形象。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过虚拟人进行服务交互包括：接收到与虚拟人进行交互的语音问题；将语音问题转换成文本问题；将文本问题输入至数据库，得到数据库输出的与文本问题对应的文本答案；将文本答案结合虚拟人的形象特征，生成采用形象展示的视频；通过播放视频的方式，展示文本答案。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过虚拟人进行服务交互还包括：通过虚拟人将文本答案以文本的方式显示。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在通过虚拟人进行服务交互之前，还包括：启动虚拟人，控制虚拟人进入空闲状态，并播放空闲状态下对应的预录制音视频；接收到交互开始的触发信息，控制虚拟人进入静置状态，并播放静置状态下对应的预录制音视频；在检测到语音时，控制虚拟人进入倾听状态，开始接收到与虚拟人进行交互的语音问题。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在通过播放视频的方式，展示文本答案之前，还包括：在确定接收完语音问题后，控制虚拟人进入应答状态，开始通过播放视频的方式，展示文本答案。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：启动虚拟人包括：通过接收到远程发送的触发消息的方式，启动虚拟人；通过接收按键触发指令的方式，启动虚拟人；通过摄像头拍摄到目标对象的方式，启动虚拟人；通过红外线感应到目标对象的方式，启动虚拟人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过虚拟人进行服务交互包括：获取虚拟人要说的文本；提取虚拟人对应的形象的真人的语音特征；根据语音特征，将文本合成为合成语音，将合成语音作为虚拟人的声音进行播放。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过虚拟人进行服务交互包括：获取虚拟人对应的形象对应的底板视频，其中，底板视频中包括虚拟人对应的形象的面部表情；从底板视频中抽取虚拟人对应的形象的面部表情的表情特征；根据表情特征重塑虚拟人的面部表情，通过播放视频的方式，展示虚拟人重塑后的面部表情。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过虚拟人进行服务交互包括：确定通过虚拟人进行服务交互的交互模型，其中，交互模型通过多组数据训练得到，每组数据中均包括：服务要求，以及与该服务要求对应的服务内容；接收到向虚拟人请求的服务要求；将接收的服务要求作为交互模型的输入，得到对应的服务内容；通过虚拟人展示得到的服务内容。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：显示用于展示虚拟人的设备处于待唤醒状态，其中，虚拟人为依据预定形象的形象特征模拟得到；在接收到触发服务交互开始的触发信息时，显示虚拟人以预定形象进入交互状态；显示虚拟人与目标对象进行服务交互的交互内容。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：交互内容包括以下至少之一：与目标对象聊天的聊天内容；向目标对象播放的歌曲；向目标对象播放的影视作品；向目标对象提供的点餐服务。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种交互方法，包括：

接收用于指示虚拟人的形象的指令；

根据所述指令，生成所述指令所指示的形象的虚拟人，其中，所述虚拟人依据所述形象的形象特征模拟得到；

通过所述虚拟人进行服务交互。

2.根据权利要求1所述的方法，其中，所述虚拟人的形象包括以下至少之一：真人形象，卡通形象，二次元形象，数字人形象。

3.根据权利要求1所述的方法，其中，通过所述虚拟人进行服务交互包括：

接收到与所述虚拟人进行交互的语音问题；

将所述语音问题转换成文本问题；

将所述文本问题输入至数据库，得到所述数据库输出的与所述文本问题对应的文本答案；

将所述文本答案结合所述虚拟人的形象特征，生成采用所述形象展示的视频；

通过播放所述视频的方式，展示所述文本答案。

4.根据权利要求3所述的方法，其中，通过所述虚拟人进行服务交互还包括：

通过所述虚拟人将所述文本答案以文本的方式显示。

5.根据权利要求3所述的方法，其中，在通过所述虚拟人进行服务交互之前，还包括：

启动所述虚拟人，控制所述虚拟人进入空闲状态，并播放所述空闲状态下对应的预录制音视频；

接收到交互开始的触发信息，控制所述虚拟人进入静置状态，并播放所述静置状态下对应的预录制音视频；

在检测到语音时，控制所述虚拟人进入倾听状态，开始接收到与所述虚拟人进行交互的语音问题。

6.根据权利要求5所述的方法，其中，在通过播放所述视频的方式，展示所述文本答案之前，还包括：

在确定接收完所述语音问题后，控制所述虚拟人进入应答状态，开始通过播放所述视频的方式，展示所述文本答案。

7.根据权利要求5所述的方法，其中，启动所述虚拟人包括：

通过接收到远程发送的触发消息的方式，启动所述虚拟人；

通过接收按键触发指令的方式，启动所述虚拟人；

通过摄像头拍摄到目标对象的方式，启动所述虚拟人；

通过红外线感应到目标对象的方式，启动所述虚拟人。

8.根据权利要求1所述的方法，其中，通过所述虚拟人进行服务交互包括：

获取所述虚拟人要说的文本；

提取所述虚拟人对应的形象的真人的语音特征；

根据所述语音特征，将所述文本合成为合成语音，将所述合成语音作为所述虚拟人的声音进行播放。

9.根据权利要求1所述的方法，其中，通过所述虚拟人进行服务交互包括：

获取所述虚拟人对应的形象对应的底板视频，其中，所述底板视频中包括所述虚拟人对应的形象的面部表情；

从所述底板视频中抽取所述虚拟人对应的形象的面部表情的表情特征；

根据所述表情特征重塑虚拟人的面部表情，通过播放视频的方式，展示所述虚拟人重塑后的面部表情。

10.根据权利要求1所述的方法，其中，通过所述虚拟人进行服务交互包括：

确定通过所述虚拟人进行服务交互的交互模型，其中，所述交互模型通过多组数据训练得到，每组数据中均包括：服务要求，以及与该服务要求对应的服务内容；

接收到向虚拟人请求的服务要求；

将接收的所述服务要求作为所述交互模型的输入，得到对应的服务内容；

通过所述虚拟人展示得到的服务内容。

11.一种交互方法，包括：

显示用于展示虚拟人的设备处于待唤醒状态，其中，所述虚拟人为依据预定形象的形象特征模拟得到；

在接收到触发服务交互开始的触发信息时，显示所述虚拟人以所述预定形象进入交互状态；

显示所述虚拟人与目标对象进行服务交互的交互内容。

12.根据权利要求11所述的方法，其中，所述交互内容包括以下至少之一：

与所述目标对象聊天的聊天内容；

向所述目标对象播放的歌曲；

向所述目标对象播放的影视作品；

向所述目标对象提供的点餐服务。

13.一种交互装置，包括：

接收模块，用于接收用于指示虚拟人的形象的指令；

生成模块，用于根据所述指令，生成所述指令所指示的形象的虚拟人，其中，所述虚拟人依据所述形象的形象特征模拟得到；

交互模块，用于通过所述虚拟人进行服务交互。

14.一种计算机设备，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时执行权利要求1至12中任意一项所述的交互方法。