CN111291151A

CN111291151A - 交互方法、装置及计算机设备

Info

Publication number: CN111291151A
Application number: CN201811488560.0A
Authority: CN
Inventors: 侯飞跃; 傅业焘; 马金; 冒晶; 刘扬; 刘柳; 杨名远
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-16

Abstract

本发明公开了一种交互方法、装置及计算机设备。其中，该方法包括：检测目标对象；播放虚拟前台，其中，虚拟前台为依据真人前台的特征模拟得到；基于前台交互场景，通过虚拟前台与目标对象进行交互。本发明解决了相关技术中的前台交互方式，没有逼真的交互体验，仅仅是简单的人机交互，枯燥乏味，难以满足用户的交互体验需求的技术问题。

Description

交互方法、装置及计算机设备

技术领域

本发明涉及虚拟仿真领域，具体而言，涉及一种交互方法、装置及计算机设备。

背景技术

相关技术中，在前台交互场景中，可以通过语音交互；模拟前台功能，提供咨询、找人、打卡等功能等方式与用户进行交互。但是，上述交互方式的缺点是仅有语音交互，交互界面没有前台的虚拟形象，没有和真人对话般的交互体验。因此。在前台通常仅能实现语音交互，或者是提供简单的咨询、打卡、抽号功能，通常仅仅是根据用户的简单需求做出相应的处理和操作。相关技术中的前台交互方式，没有逼真的交互体验，仅仅是简单的人机交互，枯燥乏味，难以满足用户的交互体验需求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种交互方法、装置及计算机设备，以至少解决相关技术中的前台交互方式，没有逼真的交互体验，仅仅是简单的人机交互，枯燥乏味，难以满足用户的交互体验需求的技术问题。

根据本发明实施例的一个方面，提供了一种交互方法，包括：检测目标对象；播放虚拟前台，其中，所述虚拟前台为依据真人前台的特征模拟得到；基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互。

根据本发明实施例的另一方面，还提供了另一种交互方法，包括：显示用于展示虚拟前台的设备处于待唤醒状态，其中，所述虚拟前台为依据真人前台的特征模拟得到；在预定范围内检测到存在目标对象，触发所述虚拟前台进入交互状态；在所述交互状态下，基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互。

根据本发明实施例的另一方面，还提供了一种交互装置，包括：检测模块，用于检测目标对象；播放模块，用于播放虚拟前台，其中，所述虚拟前台为依据真人前台的特征模拟得到；交互模块，用于基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的交互方法。

根据本发明实施例的另一方面，还提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时执行上述中任意一项所述的交互方法。

在本发明实施例中，采用显示虚拟前台，由真人前台的特征虚拟出虚拟前台，通过虚拟前台与目标对象的交互，达到了满足用户的交互需求的目的，从而实现了有效改善用户交互体验的技术效果，进而解决了相关技术中的前台交互方式，没有逼真的交互体验，仅仅是简单的人机交互，枯燥乏味，难以满足用户的交互体验需求的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现交互方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例1的一种交互方法的流程图；

图3是根据本发明实施例1的另一种交互方法的流程图；

图4是根据本发明实施例1的另一种交互方法的流程图；

图5是根据本发明实施例1实施方式的一种交互方法的流程图；

图6是根据本发明实施例2的一种交互方法的流程图；

图7是根据本发明实施例2的另一种交互方法的流程图；

图8是根据本发明实施例3的一种交互装置的示意图；

图9是根据本发明实施例4的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

语音识别ASR：automatic speech recognition，也称自动语音识别，其目标是将人类语言转换为计算机可读的输入，从而实现人机交互中，人对机器的信息输入。例如，人按按键，人通过二进制编码空机器进行操作，人通过计算机语言编码对机器进行控制等。

自然语音处理NLP：natural language processing，是计算机科学领域与人工智能领域中的一个重要方向，主要是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

语音合成TTS：text to speech，是通过机械、电子方法产生人造语音的技术，又称文语转换技术，是将计算机产生的、或者外部输入的文字信息转变为人能够听懂的、流利的语言输出的技术。

实施例1

根据本发明实施例，还提供了一种交互方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现交互方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外，还可以包括：传输模块、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本发明实施例中的交互方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的交互方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，上述图1所示的计算机终端10(或移动设备)作为(例如发送端、接收端等)一种实施例。计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器(例如安全服务器、资源服务器、游戏服务器等)。一种可选实施例中，上述计算机终端10(或移动设备)可以是(任意移动计算设备等)。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

相关技术中，前台交互的应用场景较为广泛。例如，商家店铺前台，企业招待前台，活动咨询前台，等等。但是常见的前台一般由一个或多个前台人员组成，根据前台用户的具体需求进行相应的处理或协助。还有的前台采用语音交互技术，可以通过用户的说话的语音，进行接收和分析识别，并根据该语音进行响应的处理和操作，包括通过语音交互的方式与用户进行信息交互。另外，还有的前台提供常用的处理功能，例如，银行的前台设置有咨询功能，企业的前台设置有打卡功能，医院的前台设置有挂号功能，等等。但是上述前台都仅仅局限于部分功能的实现，对于用户而言，还是一台用进行某种操作的机器，在进行交互时，体验较差。

交互仿真虚拟人通过整合面部重塑、语音识别(ASR)、语音合成(TTS)、机器问答等多领域的人工智能AI(Artificial Intelligence)技术，从视觉和听觉上，带来宛如和真人对话般的交互体验。通过面部重塑、机器阅读、远场语音识别技术，并率先整合了自然语言理解和图像渲染等多种技术。

在上述运行环境下，本申请提供了如图2所示的交互方法。图2是根据本发明实施例1的一种交互方法的流程图，如图2所示，该方法包括以下步骤：

步骤S202，检测目标对象。

作为一种可选的实施例，上述步骤的执行主体可以是一种智能设备，该智能设备可以称之为虚拟前台，该虚拟前台用于与所检测到的目标对象进行交互。上述目标对象可以是人，还可以是动物，还可以是某一事件等。上述检测目标对象是触发上述虚拟前台与该目标对象进行交互的触发条件。也即是在检测目标对象后，该虚拟前台从待唤醒状态进入交互状态，准备与该目标对象进行交互。

作为一种可选的实施例，上述检测目标对象，可以是通过多种方式。例如，在某个位置设置红外传感器，红外传感器处于常开状态，该红外传感器的发射端向接收端发射红外线，接收端持续接收红外线，并输出高电平。在有物体(即上述所指的目标对象)经过时，红外线被该物体阻挡，在阻挡的时间范围内，接收端无法接收该红外线，该接收端输出低电平。该低电平可以触发该虚拟前台进入交互状态，准备与该物体进行交互。

作为一种可选的实施例，上述红外传感器，可以是其他的触发装置，例如，声音传感器，动作传感器，图像识别装置，语音识别装置等等。一般情况，对目标对象的检测通常采用多种检测装置协同检测的方式进行监测，以减小误检测的概率。例如，对人进行检测的情况下，可以采用图像识别装置识别该对象的外形是否为人，声音识别装置识别该对象的声音是否为人的说话声或者人的脚步声，根据红外测温装置检测该对象的温度是否处于人的温度范围等。满足上述条件的情况下，才可以认定该对象为人。

步骤S204，播放虚拟前台，其中，虚拟前台为依据真人前台的特征模拟得到。

作为一种可选的实施例，在目标对象确认之后，该虚拟前台进入交互状态，播放虚拟前台，使目标对象在视觉上感受到与真人类似或相同的交互体验。该虚拟前台还可以是根据预设的形象，例如，卡通动漫形象，明星形象，自主编辑形象等。所生成的二维图像或者三维图像，可以满足多样化的用户需求。

作为一种可选的实施例，上述虚拟前台在具有视觉体验的基础上，还可以提供语音对话的听觉体验。也即是上述虚拟前台可以与该目标对象进行语音交互。该语音交互方法可以是多种，例如，简单应答的语音交互，通过固定的对话模式进行简单应答。再例如，基于机器学习或者深度学习的语音交互，通过神经网络，进行智能应答和对话。

作为一种可选的实施例，在上述虚拟前台为真人前台的图像的情况下，该虚拟前台是依据真人前台的特征模拟所得到。该特征可以是体型特征，外貌特征，脸型特征，五官特征等图像特征，还可以是声音特征，音色特征，语气特征，口音特征等声音特征。从而使该虚拟前台与真人前台对用户带来的感官体验更相接近。

步骤S206，基于前台交互场景，通过虚拟前台与目标对象进行交互。

作为一种可选的实施例，上述前台交互场景也即是现实中的目标对象与前台的交互场景。该前台交互场景，可以具有一定的界限，在超出该交互界限的情况下，可以触发相应的操作。例如，前台交互场景可以限于咨询，交流，预设功能与操作等。有的情况下，考虑目标对象的体验效果，还可以延伸为对目标对象的安慰，鼓励，劝诫等场景，但是一些超出交互界限的交流可以禁止进行，例如，查询超出权限的机密信息，进行违反犯罪活动等。该交互界限可以根据具有修改权限的人进行修改。

作为一种可选的实施例，上述在前台交互场景下，通过虚拟前台与目标对象进行交互至少包括，视觉交互和听觉交互。视觉交互，是指在视觉上的交互，例如，该虚拟形象的面部表情的变化，身体姿态的变化，身体动作的变化等。听觉交互，是指在听觉上的交互，例如，声调的变化，语气的变化，语速的变化等。

需要说明的是，上述视觉交互和听觉交互可以是互相结合的，例如，在说话时，上述虚拟前台的嘴巴的口型与所说的文字、口音相对应，该虚拟前台的面部表情与说话时的不同的语气相对应。在虚拟前台与目标对象进行交互的方式还包括其他的交互方式时，可以是上述视觉交互、听觉交互以及其他交互方式结合进行交互，以使虚拟前台具有更高的仿真程度，从而提高目标对象的使用体验。

本实施例中，通过上述步骤，采用显示虚拟前台，由真人前台的特征虚拟出虚拟前台，通过虚拟前台与目标对象的交互，达到了满足用户的交互需求的目的，从而实现了有效改善用户交互体验的技术效果，进而解决了相关技术中的前台交互方式，没有逼真的交互体验，仅仅是简单的人机交互，枯燥乏味，难以满足用户的交互体验需求的技术问题。

作为一种可选的实施例，通过以下方式至少之一，检测目标对象：通过红外感应的方式在预定范围内检测目标对象；通过摄像头拍摄的方式在预定范围内检测目标对象。

作为一种可选的实施例，上述检测目标对象可以是通过多种方式进行监测，例如，红外检测，或者图像识别检测等。上述红外检测可以是通过红外传感器在预定位置，对是否有到来的目标对象进行检测。上述预定位置可以确定预定范围，上述红外传感器的设置位置可以为上述预定范围边界。

作为一种可选的实施例，上述图像识别检测，可以将图像采集装置设置在预定位置，对预定位置的图像进行检测和识别。上述图像采集装置包括下列至少之一：照相机，摄像机，录像机，电子摄像头。上述预定位子可以确定预定范围，上述图像采集装置的采集范围，可以为上述预定范围的边界。

作为一种可选的实施例，播放虚拟前台包括：通过播放视频的方式，展示虚拟前台的声音，面部表情。

需要说明的是，本实施例中的视频，可以是二维视频，还可以是三维视频。

作为一种可选的实施例，该视频可以为预设视频，在前台交互场景下，有的交互场景可以是固定的交互模式，例如，在目标对象为非本公司员工的情况下，虚拟形象可以先进性交互，微笑致意并发出语音“你好，请问您需要什么帮助？”。在此种情况下，可以将真实的前台的反应，进行视频拍摄，并在该固定的交互场景下进行播放。

作为一种可选的实施例，上述视频包括展现虚拟前台的声音和面部表情。在虚拟前台的形象为前台的全身形象的情况下，还可以展现虚拟前台的姿态，动作等，例如，鞠躬，顿首，弯腰等。

作为一种可选的实施例，通过播放视频的方式，展示虚拟前台的声音包括：获取虚拟前台要说的文本；提取真人前台语音的语音特征；根据语音特征，将文本合成为合成语音，将合成语音作为虚拟前台的声音进行播放。

作为一种可选的实施例，上述展示虚拟前台的声音可以是多种方式，例如，在固定交互场景的情况下，可以提前录音，录取该交互场景下的固定语音。还可以是根据目标对象的输入文本，将该文本信息转化为语音信息。还可以是根据深度学习或者机器学习确定交互场景中的语音文本，将该语音文本转化为语音。

作为一种可选的实施例，上述通过文本转化为语音的过程中，可以是先提取真人前台语音的语音特征，例如，音色，音调范围，语速，频率等。然后根据语音特征将文本合成为合成语音，对该合成语音进行播放。上述通过文本转化为语音的方式还可以采用语音合成TTS技术来实现。

图3是根据本发明实施例1的另一种交互方法的流程图，如图3所示，通过播放视频的方式，展示虚拟前台的面部表情包括：

步骤S302，获取虚拟前台对应的底板视频，其中，底板视频中包括真人前台的面部表情；

步骤S304，从底板视频中抽取真人前台的面部表情的表情特征；

步骤S306，根据表情特征重塑虚拟前台的面部表情，通过播放视频的方式，展示虚拟前台重塑后的面部表情。

作为一种可选的实施例，上述展示虚拟前台的面部表情可以是多种方式，例如，在固定交互场景的情况下，可以提前录取前台的表情视频，录取该交互场景下的固定视频。还可以是根据虚拟前台的表情特征重塑虚拟前台的面部表情视频。

作为一种可选的实施例，上述根据虚拟前台的表情特征重塑虚拟前台的面部表情视频的过程中，可以是先获取虚拟前台对应的底板视频，其中，底板视频中包括真人前台的面部表情。然后，从底板视频中抽取真人前台的面部表情的表情特征。根据视觉交互场景的需求，以及该表情特征，重塑虚拟前台的面部表情视频。

采用对面部表情进行重塑的方式，由于是根据底板视频中的真人前台的面部表情的表情特征进行重塑的，因此，重塑后的虚拟前台的面部表情视频有真人的体验，另外，由于对面部表情进行重塑时，考虑了与目标对象的交互场景，即具体考虑了交互过程中的交互细节，因此，相对于相关技术中简单的人机交互而言，能够有效体现与真人进行现场交互的体验。

作为一种可选的实施例，基于前台交互场景，通过虚拟前台与目标对象进行交互包括：确定前台交互场景为熟人场景还是陌生人场景；在前台交互场景为熟人场景的情况下，通过虚拟前台与目标对象交互熟人业务；在前台交互场景为陌生人场景的情况下，通过虚拟前台与目标对象交互陌生人业务。

作为一种可选的实施例，上述前台交互场景，还可以分为多种交互场景，在不同的交互场景进行不同的交互操作。例如，根据目标对象的不同，可以分为熟人场景和陌生人场景，在熟人场景下，与该目标对象进行熟人业务的交互，在陌生人场景下，与该目标对象进行陌生人业务的交互。有效细化交互的具体细节，提高用户的使用体验。

图4是根据本发明实施例1的另一种交互方法的流程图；如图4所示，基于前台交互场景，通过虚拟前台与目标对象进行交互包括：

步骤S402，确定与前台交互场景对应的交互模型，其中，交互模型通过多组数据训练得到，每组数据中均包括：前台交互输入，以及与该前台交互输入对应的前台交互输出；

步骤S404，检测目标对象展现的目标对象表现；

步骤S406，将目标对象表现作为前台交互输入，输入至交互模型，得到对应的前台交互输出；

步骤S408，通过虚拟前台展示得到的前台交互输出。

作为一种可选的实施例，上述通过虚拟前台与目标对象进行交互可以是通过机器学习或者深度学习模型进行交互。先确定与前台交互场景对应的交互模型，例如，熟人交互场景下，可以采用熟人交互模型。上述交互模型通过多组数据训练得到，每组数据中均包括：前台交互输入，以及与该前台交互输入对应的前台交互输出。上述前台交互输入可以是目标对象的语音，目标对象的动作等；前台交互输出可以是虚拟前台的动作，虚拟前台的语音等。需要说明的是，上述多组训练数据可以是依据一定的采集源获取的采集样本，例如，可以是从大量真实的监控视频中的前台交互场景中提取出来的交互片段，也可以是从多种真实的前台交互场景中模拟出来的。采集源赿丰富，训练得到的交互模型则会更准确，后续得到的前台交互输出也会更真实。采用上述智能的交互模型的方式来确定交互输出，相对于节省了真人前台的成本，而且能够满足前台的智能需求。

作为一种可选的实施例，对目标对象的动作，和语音进行检测，从而获取前台交互输入，上述检测目标对象的动作、姿态和表情等，可以通过图像采集装置进行采集；上述检测目标对象的声音等，可以通过声音采集装置进行采集。

作为一种可选的实施例，将采集到的目标对象表现作为交互模型的前台交互输入，由该交互模型输出与该前台交互输入对应的前台交互输出。上述目标对象表现可以是目标对象的动作，和/或目标对象的声音。并通过虚拟前台展示该前台交互输出，形成虚拟前台与目标对象之间的一轮交互。

作为一种可选的实施例，基于前台交互场景，通过虚拟前台与目标对象进行交互包括：基于交互过程，确定虚拟前台所处的状态；展示与虚拟前台所处的状态对应的视频。

作为一种可选的实施例，在刚进入交互状态的情况下，虚拟前台对于检测到的目标对象，处于问候状态，在该问候状态，应当由虚拟前台向目标对象发出问候，因此，可以在该问候状态，播放对应的虚拟前台的问候视频，以达到向目标对象发出问候的目的。

作为一种可选的实施例，采用以下方式至少之一，基于前台交互场景，通过虚拟前台与目标对象进行交互：采用虚拟前台与目标对象对话的方式，基于前台交互场景，完成虚拟前台与目标对象之间的交互；采用虚拟前台与目标对象手语的方式，基于前台交互场景，完成虚拟前台与目标对象之间的交互。

作为一种可选的实施例，上述虚拟前台在与目标对象进行交互的过程中，可以通过多种方式进行交互，例如，可以根据目标对象所常用的，所能接受的交互方式进行交互，例如，对于目标对象为正常人的情况下，可以通过语音进行交互，对于目标对象为聋哑人的情况下，可以通过手语动作进行交互。

作为一种可选的实施例，目标对象可以为人。

需要说明的是，本实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

图5是根据本发明实施例1实施方式的一种交互方法的流程图；如图5所示，智能前台，一款智能硬件，安装有红外和摄像头以及屏幕。智能前台处于空闲状态，屏幕暗调或者播放广告等。有人走到智能前台前，红外感知并唤醒摄像头进行人脸识别，检测到人脸后，进行识别，虚拟形象给予响应的回应。例如，若是本公司员工，又是早上，虚拟形象可以主动说：“小哥哥，又见到你了，快乐工作哦”，并完成该员工的打卡。若是陌生人，虚拟前台形象会主动打招呼，“您好，欢迎来访我公司，有什么可以帮您的吗？”。然后进入到对话状态。目标对象和智能前台可以完成多轮对话，比如找人，进行可视对话，咨询企业信息等，也可用于教育机构等前台场景。

本实施方式为用户带来宛如和真实人物隔空对话的全新生动体验，将人机交互方式提升到一个新的高度。另外，本实施方式还具有丰富的应用场景。例如，可以广泛应用在智能客服、智能点餐、智能导览/指路、智能问答、智能陪伴、智能政务、智能导医台、智能汽车可视交互、智能新闻/电视播音员、广告/电视/电影短片制作、游戏行业、智能家居电视、其他可视交互场景。

在本实施例中，上述智能前台的虚拟形象可以是虚拟前台的形象，该虚拟前台可以说任何话语；该虚拟前台可以是真人前台形象或者数字人、卡通、二次元、素描或简笔画人物(例如诗人李白，表情包等的2D或3D虚拟形象)等；与该虚拟前台进行交互具有与真人对话般的全新交互体验。

实施例2

根据本发明实施例，还提供了另一种交互方法的实施例，图6是根据本发明实施例2的一种交互方法的流程图，如图6所示，该方法包括以下步骤：

步骤S602，显示用于展示虚拟前台的设备处于待唤醒状态，其中，虚拟前台为依据真人前台的特征模拟得到。

作为一种可选的实施例，上述步骤的执行主体可以是虚拟前台的智能设备，该智能设备可以配置有显示装置，该显示装置可以是显示屏，触摸屏，或者投影屏等。上述投影屏可以是二维投影屏，还可以是三维投影设备等。

作为一种可选的实施例，上述待唤醒状态，类似于电器的待机状态，以低功率运行，仅保持触发装置和核心装置的运行。当目标对象满足触发条件，触发该虚拟前台，进入交互状态，与目标对象进行交互。

作为一种可选的实施例，上述虚拟前台包括上述待唤醒状态，和交互状态，还可以包括在紧急情况下触发的紧急状态，在某些情况下触发的用于自我保护的锁定状态，等等。

作为一种可选的实施例，上述虚拟前台的状态可以进行显示，或者通过不同的指示装置进行指示，例如，不同位置的指示灯，或者不同颜色的指示灯等。

作为一种可选的实施例，在上述虚拟前台为真人前台的图像的情况下，该虚拟前台是依据真人前台的特征虚拟所得到。该特征可以是体型特征，外貌特征，脸型特征，五官特征等图像特征，还可以是声音特征，音色特征，语气特征，口音特征等声音特征。从而使该虚拟前台与真人前台对用户带来的感官体验更相接近。

步骤S604，在预定范围内检测到存在目标对象，触发虚拟前台进入交互状态。

作为一种可选的实施例，上述预定范围内检测到存在目标对象，可以是上述虚拟前台的触发条件，上述触发条件还可以是其他的方式。上触发条件是上述虚拟前台从待唤醒状态进入交互状态的跳转条件。

作为一种可选的实施例，在目标对象确认之后，该虚拟前台进入交互状态，播放虚拟前台，使用户在视觉上感受到与真人类似或相同的交互体验。该虚拟前台还可以是根据预设的形象所生成的二维图像或三维图像，可以满足多样化的用户需求。

作为一种可选的实施例，上述虚拟前台在具有视觉体验的基础上，还提供语音对话的听觉体验。也即是上述虚拟前台可以与该目标对象进行语音交互。该语音交互方法可以是多种，例如，简单应答的语音交互，通过固定的对话模式进行简单应答。再例如，基于机器学习或者深度学习的语音交互，通过神经网络，进行智能应答和对话。

作为一种可选的实施例，上述交互状态根据虚拟前台的动作可以分为，与目标对象进行对话的对话态，保持沉默的静置态，还可以包括接收目标对象的语音的倾听态，接收目标对象的图像的观察态，对目标对象进行回答的回答态等。

步骤S606，在交互状态下，基于前台交互场景，通过虚拟前台与目标对象进行交互。

需要说明的是，上述视觉交互和听觉交互可以是互相结合，例如，在说话时，上述虚拟前台的嘴巴的口型与所说的文字、口音相对应，该虚拟前台的面部表情与说话时的不同的语气相对应。在虚拟前台与目标对象进行交互的方式还包括其他的交互方式时，可以是上述视觉交互、听觉交互以及其他交互方式结合进行交互。

图7是根据本发明实施例2的另一种交互方法的流程图，如图7所示，在交互状态为对话态的情况下，基于前台交互场景，通过虚拟前台与目标对象进行交互包括：

步骤S702，在播放完招呼语后，控制虚拟前台进入静置态；

步骤S704，在处于静置态下，检测目标对象开始发声，控制虚拟前台进入倾听态，并在倾听态下接收目标对象的声音；

步骤S706，在接收完目标对象的声音后，在将接收的目标对象的声音输入数据库后，控制虚拟前台进入回答态，并接收数据库返回的对话答案；

步骤S708，通过虚拟前台播放视频的方式展示对话答案。

作为一种可选的实施例，在上述交互状态为对话态情况下，对话态可以包括用于倾听目标对象的倾听态和回答目标对象的回答态，以及等待目标对象说话的静置态。

作为一种可选的实施例，在对话态下，虚拟前台与目标对象的对话过程可以先进行招呼语，在该招呼语之后，处于静置态，等待目标对象发问，触发倾听态；在静置态下，检测目标对象发声，则触发倾听态，接收目标对象的声音；在上述目标对象完成发声后，将接收的声音信息进行存储和处理，并触发回答态，在回答态中回答该接收的声音信息对应的回答信息；上述回答信息可以通过视频播放的形式进行展示，还可以通过其他方式进行展示。

作为一种可选的实施例，通过播放对应视频的方式，分别控制虚拟前台进入静置态，控制虚拟前台进入倾听态，控制虚拟前台进入回答态。

作为一种可选的实施例，上述虚拟前台在进入静置态、倾听态和回答态可以具有相应的动作和表情，也即是虚拟前台可以通过播放对应视频的方式进入上述静置态、倾听态和回答态，从而使该虚拟前台具有更高的仿真效果，以提高目标对象的体验。

作为一种可选的实施例，上述进入静置态，可以是微笑着期待的表情；进入倾听态，可以是认真倾听的表情；进入回答态，可以是微笑着回答的表情。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述实施例1的交互方法的交互装置，

图8是根据本发明实施例3的一种交互装置的示意图，如图8所示，该装置包括：检测模块82，播放模块84和交互模块86，下面对该装置进行详细说明。

检测模块82，用于检测目标对象；播放模块84，与上述检测模块82相连，用于播放虚拟前台，其中，虚拟前台为依据真人前台的特征模拟得到；交互模块86，与上述播放模块84相连，用于基于前台交互场景，通过虚拟前台与目标对象进行交互。

此处需要说明的是，上述检测模块82，播放模块84和交互模块86对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的交互方法中以下步骤的程序代码：检测目标对象；播放虚拟前台，其中，虚拟前台为依据真人前台的特征模拟得到；基于前台交互场景，通过虚拟前台与目标对象进行交互。

可选地，图9是根据本发明实施例4的一种计算机终端的结构框图。如图9所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器92、存储器94、以及外设接口。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的交互方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的交互方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：检测目标对象；播放虚拟前台，其中，虚拟前台为依据真人前台的特征模拟得到；基于前台交互场景，通过虚拟前台与目标对象进行交互。

可选的，上述处理器还可以执行如下步骤的程序代码：通过以下方式至少之一，检测目标对象：通过红外感应的方式在预定范围内检测目标对象；通过摄像头拍摄的方式在预定范围内检测目标对象。

可选的，上述处理器还可以执行如下步骤的程序代码：播放虚拟前台包括：通过播放视频的方式，展示虚拟前台的声音，面部表情。

可选的，上述处理器还可以执行如下步骤的程序代码：通过播放视频的方式，展示虚拟前台的声音包括：获取虚拟前台要说的文本；提取真人前台的语音特征；根据语音特征，将文本合成为合成语音，将合成语音作为虚拟前台的声音进行播放。

可选的，上述处理器还可以执行如下步骤的程序代码：通过播放视频的方式，展示虚拟前台的面部表情包括：获取虚拟前台对应的底板视频，其中，底板视频中包括真人前台的面部表情；从底板视频中抽取真人前台的面部表情的表情特征；根据表情特征重塑虚拟前台的面部表情，通过播放视频的方式，展示虚拟前台重塑后的面部表情。

可选的，上述处理器还可以执行如下步骤的程序代码：基于前台交互场景，通过虚拟前台与目标对象进行交互包括：确定前台交互场景为熟人场景还是陌生人场景；在前台交互场景为熟人场景的情况下，通过虚拟前台与目标对象交互熟人业务；在前台交互场景为陌生人场景的情况下，通过虚拟前台与目标对象交互陌生人业务。

可选的，上述处理器还可以执行如下步骤的程序代码：基于前台交互场景，通过虚拟前台与目标对象进行交互包括：确定与前台交互场景对应的交互模型，其中，交互模型通过多组数据训练得到，每组数据中均包括：前台交互输入，以及与该前台交互输入对应的前台交互输出；检测目标对象展现的目标对象表现；将目标对象表现作为前台交互输入，输入至交互模型，得到对应的前台交互输出；通过虚拟前台展示得到的前台交互输出。

可选的，上述处理器还可以执行如下步骤的程序代码：基于前台交互场景，通过虚拟前台与目标对象进行交互包括：基于交互过程，确定虚拟前台所处的状态；展示与虚拟前台所处的状态对应的视频。

可选的，上述处理器还可以执行如下步骤的程序代码：采用以下方式至少之一，基于前台交互场景，通过虚拟前台与目标对象进行交互：采用虚拟前台与目标对象对话的方式，基于前台交互场景，完成虚拟前台与目标对象之间的交互；采用虚拟前台与目标对象手语的方式，基于前台交互场景，完成虚拟前台与目标对象之间的交互。

可选的，上述处理器还可以执行如下步骤的程序代码：目标对象为人。

可选的，上述处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：显示用于展示虚拟前台的设备处于待唤醒状态，其中，虚拟前台为依据真人前台的特征模拟得到；在预定范围内检测到存在目标对象，触发虚拟前台进入交互状态；在交互状态下，基于前台交互场景，通过虚拟前台与目标对象进行交互。

可选的，上述处理器还可以执行如下步骤的程序代码：在交互状态为对话态的情况下，基于前台交互场景，通过虚拟前台与目标对象进行交互包括：在播放完招呼语后，控制虚拟前台进入静置态；在处于静置态下，检测目标对象开始发声，控制虚拟前台进入倾听态，并在倾听态下接收目标对象的声音；在接收完目标对象的声音后，在将接收的目标对象的声音输入数据库后，控制虚拟前台进入回答态，并接收数据库返回的对话答案；通过虚拟前台播放视频的方式展示对话答案。

可选的，上述处理器还可以执行如下步骤的程序代码：通过播放对应视频的方式，分别控制虚拟前台进入静置态，控制虚拟前台进入倾听态，控制虚拟前台进入回答态。

采用本发明实施例，提供了一种交互方法的方案。采用显示虚拟前台，由真人前台的特征虚拟出虚拟前台，通过虚拟前台与目标对象的交互，达到了满足用户的交互需求的目的，从而实现了有效改善用户交互体验的技术效果，进而解决了相关技术中的前台交互方式，没有逼真的交互体验，仅仅是简单的人机交互，枯燥乏味，难以满足用户的交互体验需求的技术问题。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的交互方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：检测目标对象；播放虚拟前台，其中，虚拟前台为依据真人前台的特征模拟得到；基于前台交互场景，通过虚拟前台与目标对象进行交互。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过以下方式至少之一，检测目标对象：通过红外感应的方式在预定范围内检测目标对象；通过摄像头拍摄的方式在预定范围内检测目标对象。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：播放虚拟前台包括：通过播放视频的方式，展示虚拟前台的声音，面部表情。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过播放视频的方式，展示虚拟前台的声音包括：获取虚拟前台要说的文本；提取真人前台的语音特征；根据语音特征，将文本合成为合成语音，将合成语音作为虚拟前台的声音进行播放。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过播放视频的方式，展示虚拟前台的面部表情包括：获取虚拟前台对应的底板视频，其中，底板视频中包括真人前台的面部表情；从底板视频中抽取真人前台的面部表情的表情特征；根据表情特征重塑虚拟前台的面部表情，通过播放视频的方式，展示虚拟前台重塑后的面部表情。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于前台交互场景，通过虚拟前台与目标对象进行交互包括：确定前台交互场景为熟人场景还是陌生人场景；在前台交互场景为熟人场景的情况下，通过虚拟前台与目标对象交互熟人业务；在前台交互场景为陌生人场景的情况下，通过虚拟前台与目标对象交互陌生人业务。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于前台交互场景，通过虚拟前台与目标对象进行交互包括：确定与前台交互场景对应的交互模型，其中，交互模型通过多组数据训练得到，每组数据中均包括：前台交互输入，以及与该前台交互输入对应的前台交互输出；检测目标对象展现的目标对象表现；将目标对象表现作为前台交互输入，输入至交互模型，得到对应的前台交互输出；通过虚拟前台展示得到的前台交互输出。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于前台交互场景，通过虚拟前台与目标对象进行交互包括：基于交互过程，确定虚拟前台所处的状态；展示与虚拟前台所处的状态对应的视频。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用以下方式至少之一，基于前台交互场景，通过虚拟前台与目标对象进行交互：采用虚拟前台与目标对象对话的方式，基于前台交互场景，完成虚拟前台与目标对象之间的交互；采用虚拟前台与目标对象手语的方式，基于前台交互场景，完成虚拟前台与目标对象之间的交互。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：目标对象为人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：显示用于展示虚拟前台的设备处于待唤醒状态，其中，虚拟前台为依据真人前台的特征模拟得到；在预定范围内检测到存在目标对象，触发虚拟前台进入交互状态；在交互状态下，基于前台交互场景，通过虚拟前台与目标对象进行交互。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在交互状态为对话态的情况下，基于前台交互场景，通过虚拟前台与目标对象进行交互包括：在播放完招呼语后，控制虚拟前台进入静置态；在处于静置态下，检测目标对象开始发声，控制虚拟前台进入倾听态，并在倾听态下接收目标对象的声音；在接收完目标对象的声音后，在将接收的目标对象的声音输入数据库后，控制虚拟前台进入回答态，并接收数据库返回的对话答案；通过虚拟前台播放视频的方式展示对话答案。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过播放对应视频的方式，分别控制虚拟前台进入静置态，控制虚拟前台进入倾听态，控制虚拟前台进入回答态。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种交互方法，其特征在于，包括：

检测目标对象；

播放虚拟前台，其中，所述虚拟前台为依据真人前台的特征模拟得到；

基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互。

2.根据权利要求1所述的方法，其特征在于，通过以下方式至少之一，检测目标对象：

通过红外感应的方式在预定范围内检测目标对象；

通过摄像头拍摄的方式在预定范围内检测目标对象。

3.根据权利要求1所述的方法，其特征在于，播放所述虚拟前台包括：

通过播放视频的方式，展示所述虚拟前台的声音，面部表情。

4.根据权利要求3所述的方法，其特征在于，通过播放视频的方式，展示所述虚拟前台的声音包括：

获取所述虚拟前台要说的文本；

提取真人前台的语音特征；

根据所述语音特征，将所述文本合成为合成语音，将所述合成语音作为所述虚拟前台的声音进行播放。

5.根据权利要求3所述的方法，其特征在于，通过播放视频的方式，展示所述虚拟前台的面部表情包括：

获取所述虚拟前台对应的底板视频，其中，所述底板视频中包括真人前台的面部表情；

从所述底板视频中抽取所述真人前台的面部表情的表情特征；

根据所述表情特征重塑虚拟前台的面部表情，通过播放视频的方式，展示所述虚拟前台重塑后的面部表情。

6.根据权利要求1所述的方法，其特征在于，基于所述前台交互场景，通过所述虚拟前台与所述目标对象进行交互包括：

确定所述前台交互场景为熟人场景还是陌生人场景；

在所述前台交互场景为熟人场景的情况下，通过所述虚拟前台与所述目标对象交互熟人业务；在所述前台交互场景为陌生人场景的情况下，通过所述虚拟前台与所述目标对象交互陌生人业务。

7.根据权利要求1所述的方法，其特征在于，基于所述前台交互场景，通过所述虚拟前台与所述目标对象进行交互包括：

确定与所述前台交互场景对应的交互模型，其中，所述交互模型通过多组数据训练得到，每组数据中均包括：前台交互输入，以及与该前台交互输入对应的前台交互输出；

检测到所述目标对象展现的目标对象表现；

将所述目标对象表现作为前台交互输入，输入至所述交互模型，得到对应的前台交互输出；

通过所述虚拟前台展示得到的所述前台交互输出。

8.根据权利要求1所述的方法，其特征在于，基于所述前台交互场景，通过所述虚拟前台与所述目标对象进行交互包括：

基于交互过程，确定所述虚拟前台所处的状态；

展示与所述虚拟前台所处的状态对应的视频。

9.根据权利要求1至8中任一项所述的方法，其特征在于，采用以下方式至少之一，基于所述前台交互场景，通过所述虚拟前台与所述目标对象进行交互：

采用所述虚拟前台与所述目标对象对话的方式，基于所述前台交互场景，完成所述虚拟前台与所述目标对象之间的交互；

采用所述虚拟前台与所述目标对象手语的方式，基于所述前台交互场景，完成所述虚拟前台与所述目标对象之间的交互。

10.根据权利要求9所述的方法，其特征在于，所述目标对象为人。

11.一种交互方法，其特征在于，包括：

显示用于展示虚拟前台的设备处于待唤醒状态，其中，所述虚拟前台为依据真人前台的特征模拟得到；

在预定范围内检测到存在目标对象，触发所述虚拟前台进入交互状态；

在所述交互状态下，基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互。

12.根据权利要求11所述的方法，其特征在于，在所述交互状态为对话态的情况下，基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互包括：

在播放完招呼语后，控制所述虚拟前台进入静置态；

在处于所述静置态下，检测到所述目标对象开始发声，控制所述虚拟前台进入倾听态，并在所述倾听态下接收所述目标对象的声音；

在接收完所述目标对象的声音后，在将接收的所述目标对象的声音输入数据库后，控制所述虚拟前台进入回答态，并接收所述数据库返回的对话答案；

通过所述虚拟前台播放视频的方式展示所述对话答案。

13.根据权利要求12所述的方法，其特征在于，通过播放对应视频的方式，分别控制所述虚拟前台进入静置态，控制所述虚拟前台进入倾听态，控制所述虚拟前台进入回答态。

14.一种交互装置，其特征在于，包括：

检测模块，用于检测目标对象；

播放模块，用于播放虚拟前台，其中，所述虚拟前台为依据真人前台的特征模拟得到；

交互模块，用于基于前台交互场景，通过所述虚拟前台与所述目标对象进行交互。

15.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时执行权利要求1至13中任意一项所述的交互方法。