CN110989900A

CN110989900A - 交互对象的驱动方法、装置、设备以及存储介质

Info

Publication number: CN110989900A
Application number: CN201911195280.5A
Authority: CN
Inventors: 张子隆; 栾青; 孙林
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-10
Anticipated expiration: 2039-11-28
Also published as: TW202121161A; CN110989900B; WO2021103609A1; US20210201908A1; KR20210068474A; SG11202102635TA; JP7267411B2; US11769499B2; JP2022515307A; TWI777229B

Abstract

本公开涉及一种交互对象的驱动方法、装置、设备以及存储介质。所述方法用于与显示设备中显示的交互对象进行交互，包括：获取所述显示设备周围空间中的音频信号；根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据；响应于输出所获得的第一驱动数据，监听所述音频信号中的人声；根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

Description

交互对象的驱动方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种交互对象的驱动方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多基于按键、触摸、语音进行输入，通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，其只是对设备的语音进行输出，用户与虚拟人物之间的对话有延迟，并且虚拟人物无法根据用户的说话状态进行回应，导致交互不自然。

发明内容

本公开实施例提供一种交互对象的驱动方案。

根据本公开的一方面，提供一种交互对象的驱动方法，用于与显示设备中显示的交互对象进行交互，所述方法包括：获取所述显示设备周围空间中的音频信号；根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据；响应于输出所获得的第一驱动数据，监听所述音频信号中的人声；根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

结合本公开提供的任一实施方式，所述根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据，包括：响应于在所述音频信号中检测到目标信息，确定与所述目标信息匹配的第一指定动作；获取驱动所述交互对象执行所述第一指定动作的第一驱动数据。

结合本公开提供的任一实施方式，所述第一驱动数据包括第一音频驱动数据和/或第一动作驱动数据，其中，所述第一音频驱动数据为执行所述第一指定动作时发出的声音的数据；所述响应于输出所获得的第一驱动数据，监听所述音频信号中的人声，包括：响应于输出所述第一动作驱动数据，驱动所述交互对象执行第一指定动作，监听所述音频信号中的人声；或者，响应于根据所述第一音频驱动数据输出声音，监听所述音频信号中的人声。

结合本公开提供的任一实施方式，所述根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应，包括：响应于在第一设定时间内监听到人声，驱动所述交互对象循环执行所述第一指定动作。

结合本公开提供的任一实施方式，所述根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应，包括：响应于在第一设定时间内未监听到人声，驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态。

结合本公开提供的任一实施方式，所述方法还包括：在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态后，根据所述音频信号，获得驱动所述交互对象进行回应的第二驱动数据，所述第二驱动数据包括第二音频驱动数据和/或第二动作驱动数据；根据所述第二驱动数据，驱动所述交互对象进行回应。

结合本公开提供的任一实施方式，所述根据所述音频信号，获得驱动所述交互对象进行语音回应的第二驱动数据，包括：将所述音频信号发送至服务器，以使所述服务器根据所述音频信号生成驱动所述交互对象进行语音回应的第二驱动数据；接收所述服务器发送的第二驱动数据。

结合本公开提供的任一实施方式，所述方法还包括：在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态之后，响应于在第三设定时间内未接收到所述服务器发送的第二驱动数据的情况下，调用预置的第三驱动数据驱动所述交互对象进行回应，所述第三驱动数据包括第三音频驱动数据和/或第三动作驱动数据。

结合本公开提供的任一实施方式，所述方法还包括：根据所述音频信号，检测环境噪音的强度；根据所述环境噪音的强度，调整所述交互对象在回应过程中所述显示设备的输出声音的音量。

结合本公开提供的任一实施方式，所述音频输出信息通过声音检测模块来获取，所述声音检测模块的数量为多个，并分布在所述显示设备的不同方位；所述方法还包括：根据多个声音检测模块的音频信号确定不同方位的环境噪音的强度；根据所述不同方位的环境噪音的强度，驱动所述交互对象引导目标对象改变进行交互的位置。

根据本公开的一方面，提供一种交互对象的驱动装置，用于与显示设备中显示的交互对象进行交互，所述装置包括：第一获取单元，用于获取所述显示设备周围空间中的音频信号；第二获取单元，用于根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据；监听单元，用于响应于输出所获得的第一驱动数据，监听所述音频信号中的人声；第一驱动单元，用于根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

结合本公开提供的任一实施方式，所述第二获取单元具体用于：响应于在所述音频信号中检测到目标信息，确定与所述目标信息匹配的第一指定动作；获取驱动所述交互对象执行所述第一指定动作的第一驱动数据。

结合本公开提供的任一实施方式，所述第一驱动数据包括第一音频驱动数据和/或第一动作驱动数据，其中，所述第一音频驱动数据为执行所述第一指定动作时发出的声音的数据；所述监听单元具体用于：响应于输出所述第一动作驱动数据，驱动所述交互对象执行第一指定动作，监听所述音频信号中的人声；或者，响应于根据所述第一音频驱动数据输出声音，监听所述音频信号中的人声。

结合本公开提供的任一实施方式，所述第一驱动单元具体用于：响应于在第一设定时间内监听到人声，驱动所述交互对象循环执行所述第一指定动作。

结合本公开提供的任一实施方式，所述第一驱动单元具体用于：响应于在第一设定时间内未监听到人声，驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态。

结合本公开提供的任一实施方式，所述装置还包括第二驱动单元，具体用于：在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态后，根据所述音频信号，获得驱动所述交互对象进行回应的第二驱动数据，所述第二驱动数据包括第二音频驱动数据和/或第二动作驱动数据；根据所述第二驱动数据，驱动所述交互对象进行回应。

结合本公开提供的任一实施方式，所述第二驱动单元在用于根据所述音频信号，获得驱动所述交互对象进行回应的第二驱动数据时，具体用于：将所述音频信号发送至服务器，以使所述服务器根据所述音频信号生成驱动所述交互对象进行语音回应的第二驱动数据；接收所述服务器发送的第二驱动数据。

结合本公开提供的任一实施方式，所述装置还包括第三驱动单元，用于在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态之后，响应于在第三设定时间内未接收到所述服务器发送的第二驱动数据的情况下，调用预置的第三驱动数据驱动所述交互对象进行回应，所述第三驱动数据包括第三音频驱动数据和/或第三动作驱动数据。

结合本公开提供的任一实施方式，所述装置还包括调整单元，用于：根据所述音频信号，检测环境噪音的强度；根据所述环境噪音的强度，调整所述交互对象在回应过程中所述显示设备的输出声音的音量。

结合本公开提供的任一实施方式，所述音频输出信息通过声音检测模块来获取，所述声音检测模块的数量为多个，并分布在所述显示设备的不同方位；所述装置还包括第四驱动单元，用于：根据多个声音检测模块的音频信号确定不同方位的环境噪音的强度；根据所述不同方位的环境噪音的强度，驱动所述交互对象引导目标对象改变进行交互的位置。

根据本公开的一方面，提出一种显示设备，所述显示设备配置有透明显示屏，所述透明显示屏用于显示交互对象，所述显示设备执行本公开提供的任一实施方式所述的方法，以驱动所述透明显示屏中显示的交互对象对目标对象进行回应。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

本公开至少一个实施例提出的交互对象的驱动、装置、设备及存储介质，根据显示设备周围环境中的音频信号驱动交互对象对目标对象进行回应，并在对交互对象输出第一驱动数据的同时，开始监听音频信号中的人声，根据人声的存在状态来驱动所述交互对象进行回应，使得在交互对象执行动作的同时，可以根据目标对象的说话状态来调整所执行的动作，使得交互对象与目标对象之间的交互对话过程更加真实自然，满足目标对象更高层级的交流需求。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本公开至少一个实施例的交互对象的驱动方法中显示设备的示意图；

图2示出根据本公开至少一个实施例的交互对象的驱动的流程图；

图3示出根据本公开至少一个实施例的交互对象的驱动装置的结构示意图；

图4示出根据本公开至少一个实施例的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种交互对象的驱动方法，所述驱动方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在本公开实施例中，交互对象可以是任意一种能够与目标对象进行交互的交互对象，其可以是虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象。所述目标对象可以是用户，也可以是机器人，还可以是其他智能设备。所述交互对象和所述目标对象之间的交互方式可以是主动交互方式，也可以是被动交互方式。一示例中，目标对象可以通过做出手势或者肢体动作来发出需求，通过主动交互的方式来触发交互对象与其交互。另一示例中，交互对象可以通过主动打招呼、提示目标对象做出动作等方式，使得目标对象采用被动方式与交互对象进行交互。

所述交互对象可以通过显示设备进行展示，所述显示设备可以是普通的显示屏、一体机、投影仪、虚拟现实(Virtual Reality，VR)设备、增强现实(Augmented Reality，AR)设备，也可以是具有特殊效果的显示设备。

图1示出本公开至少一个实施例提出的显示设备。如图1所示，该显示设备具有透明显示屏的显示设备，其可以在透明显示屏上显示立体画面，以呈现出具有立体效果的虚拟场景以及交互对象。例如图1中透明显示屏显示的交互对象有虚拟卡通人物。在一些实施例中，本公开中所述的终端设备也可以为上述具有透明显示屏的显示设备，显示设备中配置有存储器和处理器，存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的交互对象的驱动方法，以驱动透明显示屏中显示的交互对象对目标对象进行回应。

在一些实施例中，响应于显示设备接收到用于驱动交互对象动作、呈现表情或输出语音的驱动数据，交互对象可以对目标对象做出指定的动作、表情或发出指定的语音。可以根据显示设备周边目标对象的动作、表情、身份、偏好等，生成驱动数据，以驱动交互对象进行回应，以为目标对象提供拟人化的服务。在交互对象与目标对象的交互过程中，存在交互对象无法根据目标对象的行为做出回应，例如目标对象在说话停顿、思索时，交互对象保持静止状态，使得目标对象感觉与交互对象交流存在障碍，影响使用体验。基于此，本公开至少一个实施例提出一种交互对象的驱动方法，以提升目标对象与交互对象进行交互的体验。

图2示出根据本公开至少一个实施例的交互对象的驱动的流程图，所述方法用于与显示设备中显示的交互对象进行交互。如图2所示，所述方法包括步骤201～步骤204。

在步骤201中，获取所述显示设备周围空间中的音频信号。

显示设备周围空间，包括所述显示设备的一定范围内任意方向，例如可以包括所述显示设备的前向、侧向、后方、上方中的一个或多个方向。该范围根据用于检测音频信号的声音检测模块，所能接收到设定强度的音频信号的范围确定。

用于检测显示设备周围空间中的音频信号的声音检测模块可以包括麦克风和处理器，所述处理器用于对麦克风获取的声音信号进行处理，输出音频信号。所述声音检测模块可以设置在显示设备中，为所述显示设备的内置模块，也可以作为外接设备，独立于显示设备之外。

所述声音检测模块的数量可以为多个，其可以设置在所述显示设备的不同方位，以获取所述显示设备周边不同方位的声音信号；也可以设置在所述显示设备周边的其中一个方位，以集中获取该方法的信号。所述声音检测模块的设置位置以及方位可以根据交互需求来确定，本公开实施例对此不进行限制。

在步骤202中，根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据。

对于所述声音检测模块的音频信号进行检测，根据检测结果获取所述第一驱动数据，以驱动所述交至对象对所述目标对象进行回应。

在一些实施例中，在所述音频信号中包含了交互对象执行第一指定动作相符的目标信息时，该目标信息触发所述交互对象执行所述第一指定动作。所述第一指定动作可以是指示交互对象指示某一动作，例如挥手；在执行第一指定动作时，所述显示设备的声音输出模块还可以同时输出执行该第一指定动作时相应的声音。具体地，在检测到音频信号中包含了目标信息时，获得驱动所述交互对象执行第一指定动作的第一驱动数据，以驱动所述交互对象执行所述第一指定动作。

在步骤203中，响应于输出所获得的第一驱动数据，监听所述音频信号中的人声。

在输出所获得的第一驱动数据，以驱动交互对象执行所述第一指定动作的同时，开始监听所述音频信号中的人声。

在步骤204中，根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

在驱动交互对象执行第一指定动作的同时，即开始监听音频信号中的人声，并根据人声的存在状态来驱动所述交互对象进行回应，例如执行设定的动作，输出设定的声音，或者调整所述交互对象的状态等等，可以避免在交互对象在执行第一指定动作期间，无法对于目标对象的说话状态做出回应的问题。

在本公开实施例中，根据显示设备周围环境中的音频信号，驱动交互对象对目标对象进行回应，并在对交互对象输出第一驱动数据的同时，开始监听音频信号中的人声，根据人声的存在状态来驱动所述交互对象进行回应，使得在交互对象执行动作的同时，可以根据目标对象的说话状态来调整所执行的动作，使得交互对象与目标对象之间的交互对话过程更加真实自然，满足目标对象更高层级的交流需求。

在本公开实施例中，所述第一驱动数据包括第一音频驱动数据和/或第一动作驱动数据，其中，所述第一音频驱动数据为执行所述第一指定动作时发出的声音的数据。

交互对象执行第一指定动作时可以是发出声音的，也可以是不发出声音的。响应于交互对象执行第一指定动作时发出声音，在输出第一动作驱动数据以驱动所述交互对象执行第一指定动作的同时，还根据所述第一音频驱动数据输出声音；响应于交互对象执行第一指定动作时不发出声音，输出第一动作驱动数据以驱动所述交互对象执行第一指定动作。

在一些实施例中，响应于检测到输出的第一动作驱动数据，开始监听音频信号中的人声。

在一些实施例中，响应于检测到输出的第一音频驱动数据，也即检测到开始播放执行第一指定动作时的声音，开始监听音频信号中的人声。

在本公开实施例中，在检测到开始输出第一动作驱动数据或者根据第一音频驱动数据输出声音时，即开始监听音频信号中的人声，使得交互对象能够及时对于目标对象在发出执行动作指令后的说话状态做出反应，使得交互对象与目标对象之间的交互对话过程更加真实自然，从而提升目标对象交互体验。

在一些实施例中，响应于在第一设定时间内监听到人声，驱动所述交互对象循环执行所述第一指定动作。

所述第一设定时间可以根据目标对象说话的停顿时间进行设置。例如，在目标对象停止说话的3秒里如果再次监测到人声，表明目标对象说话并未结束，而是中间进行了停顿。而对于目标对象说话停顿过后继续开始说话时，如果在目标对象继续说话的过程中交互对象始终处于初始状态，没有处于交互状态中，会使目标对象感觉与交互对象的交流存在障碍，影响目标对象的交互体验。

因此，在本公开实施例中，在第一设定时间内监听到人声的情况下，则驱动交互对象循环执行所述第一指定动作。例如，在第一指定动作为“挥手”的情况下，在输出了驱动交互对象进行挥手动作的第一动作驱动数据后，则开始监听音频信号中的人声。如果在第一设定时间内，例如3s内，监听到了人声，则表明目标对象在发出挥手的指令后，仍然在继续说话，则驱动所述交互对象继续循环进行挥手的动作。

可以在监听不到人声时，驱动所述交互对象停止执行第一指定动作，返回初始姿态。

如果在监听人声的过程中，检测到所述音频信号中包含其他目标信息时，驱动所述交互对象停止执行第一指定动作，而去执行与所述其他目标信息对应的指定动作。那么在交互对象重新执行指令期间，可以仍然重复上述监听人声的过程，直到监听不到人声，表明目标对象停止说话。

在本公实施例中，在第一设定时间内监听到人声的情况下，驱动所述交互对象循环执行所述第一指定动作，使得目标对象在说话停顿后继续说话时，交互对象持续执行之间的动作，从而使得目标对象与交互对象之间的交流生动自然，提升了目标对象的交互体验。

在一些实施例中，响应于在第一设定时间内监听到人声驱动所述交互对象在结束所述第一指定动作后返回初始姿态。

如果在第一设定时间内始终未监听到人声，也就是目标对象在发出了执行第一指定动作的指令后，在第一设定时间内始终未继续说话，则表明目标对象说话已结束。在交互对象执行完第一指定动作后，可以驱动所述交互对象返回初始姿态，使得目标对象与交互对象之间的交互自然、流畅，提升了目标对象的交互体验。

在目标对象说话结束后，可以对目标对象的这一段说话内容进行分析，以确定交互对象应当回复的内容。

在一些实施例中，在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态后，根据所述音频信号，获得驱动所述交互对象进行语音回应的第二驱动数据，所述第二驱动数据包括第二音频驱动数据和第二动作驱动数据；根据所述第二驱动数据，驱动所述交互对象进行回应。

在一个示例中，由执行所述交互对象的驱动的电子设备，根据所述音频信号，从存储在本地的驱动数据中调用驱动所述交互对象进行回应的第二驱动数据。

在一个示例中，将所述音频信号发送至服务器，以使所述服务器根据所述音频信号生成驱动所述交互对象进行语音回应的第二驱动数据；接收所述服务器发送的第二驱动数据。

在一些实施例中，在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态之后，响应于在第三设定时间内未接收到所述服务器发送的第二驱动数据的情况下，调用预置的第三驱动数据驱动所述交互对象进行回应，所述第三驱动数据包括第三音频驱动数据和/或第三动作驱动数据。

在通过服务器生成第二驱动数据的情况下，由于网络延迟等原因，有可能无法及时接收到驱动所述交互对象进行回应的第二驱动数据。在目标对象说话已结束，而在一定的时间还未收到第二驱动数据的情况下，可以调用预置的第三驱动数据来驱动交互对象进行回应。该预置的第三驱动数据可以是第三音频驱动数据，例如使声音输出模块输出表示交互对象在进行思考的声音，或者例如“请稍等”、“请让我考虑一下”类似的语音；也可以是第三动作驱动数据，例如驱动交互对象做出正在思考的动作，或者做出抒发情绪的姿态等等；也可以既包括第三声音驱动数据也包括第三动作驱动数据，例如在做出正在思考的动作同时，发出“请让我考虑一个”的语音。直到接收到第二驱动数据后，再开始利用第二驱动数据驱动所述交互对象进行回应。

在本公开实施例中，通过在一定时间内未接收到服务器发送的第二驱动数据的情况下，调用预置的第三驱动数据驱动所述交互对象进行回应，避免了因网络原因导致的对话延迟问题，使得目标对象与交互对象之间的交互更加自然、顺畅，提高了目标对象的交互体验。

在一些实施例中，还可以根据所述音频信号检测环境噪音的强度，并根据环境噪音的强度，调整所述交互对象在回应过程中所述显示设备的输出声音的音量。

借助于声音监测模块的输出信号，可以得知显示设备的周围环境，也即当前的交流环境是否嘈杂。在环境噪音的强度超过预定阈值的情况下，则可以确定当前处于嘈杂的环境，则可以调整声音输出模块输出声音的音量，在目标对象的角度，即为交互对象提高了音量，从而使目标对象可以更清晰地听到交互对象的说话内容，提升目标对象的交互感受。

在一些实施例中，所述声音检测模块的数量为多个，并分布在所述显示设备的不同方位。根据多个声音检测模块的音频信号可以确定不同方位的环境噪音的强度；根据不同方位的环境噪音的强度，驱动所述交互对象引导目标对象改变进行交互的位置。

在声音检测模块分布在显示设备的不同方位的情况下，可以根据各个声音检测模块的音频信号确定相对安静的方位，引导目标对象走向该相对安静的位置，能够提升目标对象与交互对象进行交互的质量，提升目标对象的交互感受。

图3示出根据本公开至少一个实施例的交互对象的驱动装置的结构示意图，如图3所示，该装置可以包括：第一获取单元301，用于获取所述显示设备周围空间中的音频信号；第二获取单元302，用于根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据；监听单元303，用于响应于输出所获得的第一驱动数据，监听所述音频信号中的人声；第一驱动单元304，用于根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

在一些实施例中，第二获取单元302具体用于：响应于在所述音频信号中检测到目标信息，确定与所述目标信息匹配的第一指定动作；获取驱动所述交互对象执行所述第一指定动作的第一驱动数据。

在一些实施例中，所述第一驱动数据包括第一音频驱动数据和/或第一动作驱动数据，其中，所述第一音频驱动数据为执行所述第一指定动作时发出的声音的数据；监听单元303具体用于：响应于输出所述第一动作驱动数据，驱动所述交互对象执行第一指定动作，监听所述音频信号中的人声；或者，响应于根据所述第一音频驱动数据输出声音，监听所述音频信号中的人声。

在一些实施例中，第一驱动单元304具体用于：响应于在第一设定时间内监听到人声，驱动所述交互对象循环执行所述第一指定动作。

在一些实施例中，第一驱动单元304具体用于：响应于在第一设定时间内未监听到人声，驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态。

在一些实施例中，所述装置还包括第二驱动单元，具体用于：在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态后，根据所述音频信号，获得驱动所述交互对象进行回应的第二驱动数据，所述第二驱动数据包括第二音频驱动数据和/或第二动作驱动数据；根据所述第二驱动数据，驱动所述交互对象进行回应。

在一些实施例中，所述第二驱动单元在用于根据所述音频信号，获得驱动所述交互对象进行回应的第二驱动数据时，具体用于：将所述音频信号发送至服务器，以使所述服务器根据所述音频信号生成驱动所述交互对象进行语音回应的第二驱动数据；接收所述服务器发送的第二驱动数据。

在一些实施例中，所述装置还包括第三驱动单元，用于在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态之后，响应于在第三设定时间内未接收到所述服务器发送的第二驱动数据的情况下，调用预置的第三驱动数据驱动所述交互对象进行回应，所述第三驱动数据包括第三音频驱动数据和/或第三动作驱动数据。

在一些实施例中，所述装置还包括调整单元，用于：根据所述音频信号，检测环境噪音的强度；根据所述环境噪音的强度，调整所述交互对象在回应过程中所述显示设备的输出声音的音量。

在一些实施例中，所述音频输出信息通过声音检测模块来获取，所述声音检测模块的数量为多个，并分布在所述显示设备的不同方位；所述装置还包括第四驱动单元，用于：根据多个声音检测模块的音频信号确定不同方位的环境噪音的强度；根据所述不同方位的环境噪音的强度，驱动所述交互对象引导目标对象改变进行交互的位置。

本说明书至少一个实施例还提供了一种电子设备，如图4所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的交互对象的驱动方法。

本说明书至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种交互对象的驱动方法，其特征在于，用于与显示设备中显示的交互对象进行交互，所述方法包括：

获取所述显示设备周围空间中的音频信号；

根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据；

响应于输出所获得的第一驱动数据，监听所述音频信号中的人声；

根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据，包括：

响应于在所述音频信号中检测到目标信息，确定与所述目标信息匹配的第一指定动作；

获取驱动所述交互对象执行所述第一指定动作的第一驱动数据。

3.根据权利要求2所述的方法，其特征在于，所述第一驱动数据包括第一音频驱动数据和/或第一动作驱动数据，其中，所述第一音频驱动数据为执行所述第一指定动作时发出的声音的数据；

所述响应于输出所获得的第一驱动数据，监听所述音频信号中的人声，包括：

响应于输出所述第一动作驱动数据，驱动所述交互对象执行第一指定动作，监听所述音频信号中的人声；或者，

响应于根据所述第一音频驱动数据输出声音，监听所述音频信号中的人声。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应，包括：

响应于在第一设定时间内监听到人声，驱动所述交互对象循环执行所述第一指定动作。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应，包括：

响应于在第一设定时间内未监听到人声，驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在驱动所述交互对象在结束执行所述第一指定动作后返回初始姿态后，根据所述音频信号，获得驱动所述交互对象进行回应的第二驱动数据，所述第二驱动数据包括第二音频驱动数据和/或第二动作驱动数据；

根据所述第二驱动数据，驱动所述交互对象进行回应。

7.一种交互对象的驱动装置，其特征在于，用于与显示设备中显示的交互对象进行交互，所述装置包括：

第一获取单元，用于获取所述显示设备周围空间中的音频信号；

第二获取单元，用于根据所述音频信号，获得驱动所述交互对象进行回应的第一驱动数据；

监听单元，用于响应于输出所获得的第一驱动数据，监听所述音频信号中的人声；

第一驱动单元，用于根据所述音频信号中的人声存在状态，驱动所述交互对象进行回应。

8.一种显示设备，其特征在于，所述显示设备配置有透明显示屏，所述透明显示屏用于显示交互对象，所述显示设备执行如权利要求1至6任一项所述的方法，以驱动所述透明显示屏中显示的交互对象对目标对象进行回应。

9.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一所述的方法。