CN110557699B

CN110557699B - 一种智能音箱交互方法、装置、设备及存储介质

Info

Publication number: CN110557699B
Application number: CN201910860249.2A
Authority: CN
Inventors: 戚耀文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2021-09-07
Anticipated expiration: 2039-09-11
Also published as: CN110557699A

Abstract

本申请公开了一种智能音箱交互方法、装置、设备及存储介质，涉及物联网技术领域。具体方式方案为：在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括所述移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。本申请实施例通过用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

Description

一种智能音箱交互方法、装置、设备及存储介质

技术领域

本申请涉及通信技术，尤其涉及物联网技术领域，尤其涉及一种智能音箱交互方法、装置、设备及存储介质。

背景技术

音箱是整个音响系统的终端，用于把音频电能转化成相应的声能，并把所转化的声能辐射至空间中。

随着互联网技术的不断发展，移动终端正从一个简单的通话工具转变为一个综合信息处理平台，用户对移动终端的依赖程度日益增强。

现有技术中，仅能够通过触发音箱中的触控按钮进行音频数据的播放，无法与移动终端有效互动，难以适配不同场景下的应用需求。

发明内容

本申请实施例提供了一种智能音箱交互方法、装置、设备及存储介质，以使音箱能够适配多种场景下的应用需求。

第一方面，本申请实施例提供了一种智能音箱交互方法，包括：

在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括所述移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；

将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将调用结果发送至智能音箱进行语音播报。

上述申请中的一个实施例通过移动终端在满足预设触发条件时进行包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息的获取；并将预设交互信息发送至服务器，以使服务器根据预设交互信息确定需要调用的服务，并在调用服务后，将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

可选的，所述触控操作的信息包括所述触控操作的位置信息和/或方式信息。

上述申请中的各个可选实施方式，通过将触控操作的信息细化为触控操作的位置信息和/或方式信息，丰富了预设交互信息的内容形式，为服务器确定调用的服务，以及在调用服务后产生的服务调用结果的内容多样性奠定了基础。

可选的，所述用户语音信息包括所述触控操作对应的用户语音信息。

上述申请中的一个可选实施例通过将用户语音信息细化为触控操作对应的用户语音信息，为服务器确定调用的服务提供了参照。

可选的，所述触控操作对应的用户语音信息包括：在执行所述触控操作之前的第一设定时间段内所述用户发出的语音信息，和/或在执行所述触控操作之后的第二设定时间段内所述用户发出的语音信息。

上述申请中的各可选实施方式通过对触控操作对应的用户语音信息的限定，完善了用户语音信息的获取方式。

可选的，所述预设触发条件包括检测到用户执行对所述图像的触控操作。

上述申请中的一个可选实施方式，通过细化预设触发条件的内容，对预设交互信息的获取时机加以限定，进一步限定了智能音箱交互方法的应用场景。

可选的，若所述预设交互信息包括所述用户语音信息，则将所述预设交互信息发送至服务器，包括：

通过所述移动终端或所述智能音箱，将所述用户语音信息发送至所述服务器；和/或，

若所述预设交互信息包括所述触控操作的信息和/或所述图像，则将所述预设交互信息发送至服务器，包括：

通过所述移动终端将所预设交互信息中的触控操作的信息和/或所述图像发送至所述服务器。

上述申请中的各个可选实施方式，通过在预设交互信息包括不同内容时，采用不同的执行主体进行预设交互信息的发送，丰富了信息的发送方式。

可选的，在所述获取预设交互信息之前，所述方法还包括：

执行所述移动终端与所述智能音箱之间的配对操作，在配对操作成功并打开所述智能音箱对应的应用后，开启所述移动终端的摄像功能，以对目标对象进行拍摄；

相应的，所述图像为当前屏幕显示的对所述目标对象的拍摄图像。

上述申请中的一个可选实施方式，通过在获取预设交互信息之前，进行目标对象的图像拍摄，限定了移动终端的屏幕显示图像的内容，从而实现了图像的实时获取以及智能音箱的实时播报，提高了移动终端与智能音箱之间交互的实时性和灵活度。

可选的，所述目标对象包括物体、或在信息载体中展示的多媒体信息。

可选的，所述多媒体信息包括文本和/或图片；所述信息载体包括纸质载体和/或电子载体。

上述申请中的各可选实施方式，通过对目标对象对应的限定，丰富了移动终端所拍摄对象的内容和范围，进一步拓宽了智能音箱的应用场景。

可选的，所述触控操作为用户对所述拍摄图像中的目标对象的触控操作。

上述申请中的可选实施方式，通过对触控操作限定为对拍摄图像中目标对象的触控，限定了图像中目标对象的确定方式，从而达到了针对图像中的部分内容进行服务调用的效果，进一步拓宽了智能音箱的应用场景。

第二方面，本申请实施例还提供了一种智能音箱交互方法，包括：

接收预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；

根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

上述申请中的一个实施例通过服务器接收包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息；根据预设交互信息确定需要调用的服务，并在调用服务后将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

可选的，所述触控操作的信息包括触控操作的位置信息和/或方式信息。

上述申请中的各个可选实施方式，通过将触控操作的信息细化为触控操作的位置信息和/或方式信息，丰富了预设交互信息的内容形式，为服务器进行服务调用，以及在调用服务后产生的服务调用结果的内容多样性奠定了基础。

可选的，若所述预设交互信息包括所述图像，则调用所述服务，包括：

若所述预设交互信息还包括所述位置信息，则根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象，并根据所述目标对象的信息产生服务调用指令，以将所述目标对象的信息作为调用参数来调用所述服务；

若所述预设交互信息不包括所述位置信息，则将所述图像作为目标对象，并根据所述目标对象的信息产生服务调用指令，以将所述目标对象的信息作为调用参数来调用所述服务。

上述申请中的各个可选实施方式，针对不同的预设交互信息，采用不同的目标对象确定方法，丰富了目标对象的确定方式，并为服务调用结果的产生提供参数变量。

可选的，若所述预设交互信息包括所述图像，则根据所述预设交互信息确定需要调用的服务，包括：

若所述预设交互信息还包括所述方式信息和/或所述用户语音信息，则根据预先设置的触控方式与服务的映射关系，确定所述触控操作的方式信息对应的服务，将确定的服务作为需要调用的服务；和/或，

将所述用户语音信息转化为文字，根据转化得到的文字确定意图关键字，并根据预先设置的关键字与服务的映射关系，确定所述意图关键字对应的服务，将确定的服务作为需要调用的服务；

若所述预设交互信息不包括所述方式信息和所述用户语音信息，则识别所述图像中的内容，并根据预先设置的内容类别与服务的映射关系，确定所识别内容对应的服务，并将确定的服务作为需要调用的服务；或者，将预先设定的默认服务作为需要调用的服务。

上述申请中的各个可选实施方式，针对不同的预设交互信息，采用不同的服务确定方法，丰富了所调用服务的确定方式，并为服务调用结果的产生提供数据处理方式。

进一步地，若所述目标对象包括物体时，则所述服务包括用于确定所述物体的种类的服务，所述服务调用结果包括所述物体的种类信息和/或描述信息对应的音频数据；

若所述目标对象包括在信息载体中展示的多媒体信息时，则所述服务包括用于确定所述多媒体信息的关联信息的服务，所述服务调用结果包括所述关联信息对应的音频数据；

其中，所述关联信息包括所述多媒体信息自身对应的语音信息、与所述多媒体信息对应的翻译信息和所述多媒体信息的描述信息中的至少一种。

上述申请中的各个可选实施方式，通过对不同目标对象对应的服务以及服务调用结果加以限定，实现了所调用服务以及服务调用结果的多样性，为智能音箱在多种不同场景下的应用提供了保障。

可选的，接收预设交互信息，包括：

接收所述移动终端发送的所述预设交互信息；或者，

接收所述智能音箱发送的用户语音信息，并接收所述移动终端发送的所述预设交互信息中除所述用户语音信息以外的其他信息。

上述申请中的各可选实施方式，通过对接收的预设交互信息的来源加以限定，丰富了预设交互信息的发送方式。

第三方面，本申请实施例还提供了一种智能音箱交互装置，包括：

预设交互信息获取模块，用于在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括所述移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；

预设交互信息发送模块，用于将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

第四方面，本申请实施例还提供了一种智能音箱交互装置，包括：

预设交互信息接收模块，用于接收预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；

服务调用模块，用于根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

第五方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面实施例提供的一种智能音箱交互方法。

第六方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第二方面实施例提供的一种智能音箱交互方法。

第七方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面实施例提供的一种智能音箱交互方法。

第八方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第二方面实施例提供的一种智能音箱交互方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例一中的一种智能音箱交互方法的流程图；

图2是本申请实施例二中的一种智能音箱交互方法的流程图；

图3A是本申请实施例三中的一种智能音箱交互方法的流程图；

图3B是本申请实施例三中的一种交互系统的架构图；

图3C是本申请实施例三中的一种语音翻译应用场景图；

图3D是本申请实施例三中的一种物体识别应用场景图；

图3E是本申请实施例三中的一种绘本播报应用场景图；

图4是本申请实施例四中的一种智能音箱交互装置的结构图；

图5是本申请实施例五中的一种智能音箱交互装置的结构图；

图6是用来实现本申请实施例的智能音箱交互方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1是本申请实施例一中的一种智能音箱交互方法的流程图，本申请实施例适用于在移动终端、智能音箱和服务器三者所形成的交互系统中，通过移动终端控制智能音箱进行不同语音数据播报的情况，该方法由智能音箱交互装置来执行，该装置由软件和/或硬件实现，并具体配置于移动终端等电子设备中。

如图1所示的一种智能音箱交互方法，应用于移动终端，包括：

S101、在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括所述移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种。

其中，屏幕显示图像，可以是预先存储在移动终端中的图像，或者是移动终端从与移动终端相关联的其他存储设备或云端中所获取的图像，或者还可以是移动终端实时拍摄的图像。

其中，用户语音信息，可以是用户预先存储的语音信息、或者在需要执行智能音箱交互方法时，针对该交互操作所录入的语音信息。例如，用户语音信息包括触控操作对应的用户语音信息。

示例性地，触控操作对应的用户语音信息包括在执行所述触控操作之前的第一设定时间段内所述用户发出的语音信息，和/或在执行所述触控操作之后的第二设定时间段内所述用户发出的语音信息。其中，第一设定时间段和第二设定时间段可以相同也可以不同，各时间段对应的数值可以由技术人员根据经验值进行设定，还可以由用户根据需要自行设定。

其中，用户对图像的触控操作的信息，可以是用户对图像进行触控操作的位置信息和/或方式信息。

示例性地，位置信息可以是所触控位置与所显示图像之间的相对位置，和/或，还可以是所触控位置与移动终端显示屏幕的相对位置。示例性地，位置信息还可以是通过调用内容链接程序基于触控位置所确定的内容链接地址。可选的，内容链接程序可以通过识别移动终端中的二维码进行调用。

示例性地，方式信息可以是点击次数、相邻两次点击操作之间的时间间隔、触控时长、触控操作所绘制图案的形状以及触控操作进行图案绘制的绘制路径等中的至少一种。

其中，预设触发条件可以是用户进行的与智能音箱对应的控制应用软件的启动操作，例如通过对智能音箱控制应用软件的点击操作，而实现的对智能音箱控制应用的直接启动，或者通过对移动终端中设定按钮或设定区域通过设定触发，而实现的智能音箱控制应用软件的间接启动。或者，可选的，预设触发条件还可以是检测到用户执行对图像的触控操作。

S102、将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

其中，预设交互信息的发送可以通过移动终端和/或智能音箱执行。

在本申请实施例的一种可选实施方式中，若预设交互信息包括用户语音信息，则将预设交互信息发送至服务器，可以是：通过移动终端或智能音箱，将所述用户语音信息发送至所述服务器。

在本申请实施例的另一可选实施方式中，若所述预设交互信息包括所述触控操作的信息和/或所述图像，则将所述预设交互信息发送至服务器，可以是：通过所述移动终端将所预设交互信息中的触控操作的信息和/或所述图像发送至所述服务器。

示例性地，服务器根据预设交互信息确定调用的服务，并在调用服务后，将服务调用结果发送至智能音箱进行语音播报，可以是：服务器根据预设交互信息中的至少一种信息进行调用服务的确定；服务器根据预设交互信息中的至少一种信息进行所调用服务的调用参数的确定；根据确定的服务和调用参数调用服务，并将服务调用结果发送至智能音箱进行语音播报。

可选的，服务器根据预设交互信息中的至少一种信息进行调用服务的确定，可以是：服务器直接根据图像确定所调用服务，或者根据用户语音信息和/或触控操作的方式信息，确定所调用服务。

可选的，服务器根据预设交互信息中得到至少一种信息进行所调用服务的调用参数的确定，可以是：服务器将图像中的内容作为调用参数，或者，根据图像和用户对图像进行触控操作时对应的位置信息，确定目标对象，并将目标对象作为调用参数。

示例性地，根据图像和用户对图像进行触控操作时对应的位置信息，确定目标对象，可以是：根据用户对图像进行触控操作的起点位置和终点位置，确定触控区域；将触控区域在图像中所覆盖的内容作为目标对象。或者，以用户在图像中进行触控操作时的触控位置为中心，将设定半径范围或前后设定长度范围内所覆盖的图像中的内容，作为目标对象。其中，设定半径和设定长度可以由技术人员根据需要或经验值进行确定，还可以根据图像中所包含内容进行动态调节。例如，当图像中触控位置为一连续的闭合图像，可以识别闭合图像的区域，并将闭合图像作为目标对象。

可以理解的是，当需要智能音箱进行语音交互之前，还可以执行移动终端与智能音箱之间的配对操作，并在配对操作成功并打开智能音箱对应的应用之后，实现移动终端对智能音箱之间的交互控制。

示例性地，为了实现移动终端与智能音箱进行交互的实时性和灵活度，在配对操作成功并打开智能音箱对应的应用后，可以开启移动终端的摄像功能，以对目标对象进行拍摄，并将所拍摄图像作为预设交互信息中所包含的图像。其中，目标对象包括物体或在信息载体中展示的多媒体信息。其中，多媒体信息包括文本和/或图片；信息载体包括纸质载体和/或电子载体。

可以理解的是，在进行目标对象的拍摄时，所拍摄图像中还可能包括其他非目标对象，因此还可以通过用户对拍摄图像中的目标对象的触控操作，进行目标对象的确定，进而将触控操作对应的目标对象作为调用参数。

本申请实施例通过移动终端在满足预设触发条件时，进行包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息的获取；并将预设交互信息发送至服务器，以使服务器根据预设交互信息确定需要调用的服务，并在调用服务后，将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

实施例二

图2是本申请实施例二中的一种智能音箱交互方法的流程图，本申请实施例适用于在移动终端、智能音箱和服务器三者所形成的交互系统中，通过服务器控制智能音箱进行语音数据播报的情况，该方法由智能音箱交互装置来执行，该装置由软件和/或硬件实现，并具体配置于服务器等电子设备中。

如图2所示的一种智能音箱交互方法，应用于服务器，包括：

S201、接收预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种。

示例性地，接收预设交互信息，可以是接收所述移动终端发送的所述预设交互信息；或者，接收所述智能音箱发送的用户语音信息，并接收所述移动终端发送的所述预设交互信息中除所述用户语音信息以外的其他信息。

S202、根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

示例性地，根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报，可以是：根据预设交互信息中的至少一种信息进行调用服务的确定；根据预设交互信息中的至少一种信息进行所调用服务的调用参数的确定；根据确定的服务和调用参数调用服务，并将服务调用结果发送至智能音箱进行语音播报。

在本申请实施例的一种可选实施方式中，若所述预设交互信息包括所述图像，并且所述预设交互信息还包括所述位置信息，则根据预设交互信息中的至少一种信息进行所调用服务的调用参数的确定，可以是：根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象，并根据所述目标对象的信息产生服务调用指令，以将所述目标对象的信息作为调用参数。

例如，当预设交互信息包括图像，以及用户对图像进行触控操作时对应的位置信息，或者当预设交互信息包括图像、位置信息以及用户语音信息时，可以采用上述可选实施方式进行调用参数的确定。

具体的，根据位置信息确定触控操作在图像中对应的目标对象，可以采用下述至少一种形式加以实现：

若位置信息仅包括一个触控点对应的坐标信息，则可以以用户在图像中进行触控操作时的触控位置为中心，将设定半径范围或前后设定长度范围内所覆盖的图像中的内容，作为目标对象。其中，设定半径和设定长度可以由技术人员根据需要或经验值进行确定。或者，还可以以用户在图像中进行触控操作时的触控位置为中心，向触控点四周进行线条连续性识别；将识别出的连续的闭合图像作为目标对象。

若位置信息包括两个触控点对应起点坐标信息和终点坐标信息，则可以根据用户对图像进行触控操作的起点坐标信息和终点坐标信息，确定触控区域；将触控区域在图像中所覆盖的内容作为目标对象。例如根据起点位置和终点位置绘制一矩形区域，将矩形区域在图像中所覆盖的内容作为目标对象。

示例性地，位置信息还可以是经移动终端调用内容链接程序基于触控位置所确定的内容链接地址，相应的，根据位置信息确定触控操作在图像中对应的目标对象，还可以是访问内容链接地址，并下载内容连接地址中所对应的数据作为目标对象。可选的，内容链接程序可以通过识别移动终端中的二维码进行调用。

在本申请实施例的另一可选实施方式中，若所述预设交互信息包括图像，但不包括所述位置信息，根据预设交互信息中的至少一种信息进行所调用服务的调用参数的确定，可以是：将所述图像作为目标对象，并根据所述目标对象的信息产生服务调用指令，以将所述目标对象的信息作为调用参数。

例如，当预设交互信息包括图像，或者当预设交互信息包括图像和用户语音信息，或者当预设交互信息包括图像、用户语音信息和用户触控操作对应的方式信息时，可以采用上述可选实施方式进行调用参数的确定。

需要说明的是，不同目标对象对应的服务不同，相应的服务调用的结果也不同。

示例性地，若所述目标对象包括物体时，则所述服务包括用于确定所述物体的种类的服务，所述服务调用结果包括所述物体的种类信息和/或描述信息对应的音频数据。

例如，物体为一朵花，物体的种类信息可以是花所属的界、门、纲、目、科、属和种中的至少一种。描述信息可以是对物体的形态特征、物种分布、生长习性、或生活习性等的详细描述。

示例性地，若所述目标对象包括在信息载体中展示的多媒体信息时，则所述服务包括用于确定所述多媒体信息的关联信息的服务，所述服务调用结果包括所述关联信息对应的音频数据。

其中，所述多媒体信息包括文本和/或图片；所述信息载体包括纸质载体和/或电子载体。

其中，多媒体信息的描述信息可以是图片所包含的图片元素解读、绘本图片对应的绘本数据、新闻时事等文本数据。

在本申请实施例的一种可选实施方式中，若所述预设交互信息包括所述图像，且所述预设交互信息还包括所述方式信息，则根据预设交互信息中的至少一种信息进行调用服务的确定，可以是：根据预先设置的触控方式与服务的映射关系，确定所述触控操作的方式信息对应的服务，将确定的服务作为需要调用的服务。

在本申请实施例的另一可选实施方式中，若所述预设交互信息包括所述图像，且所述预设交互信息还包括所述用户语音信息，则根据预设交互信息中的至少一种信息进行调用服务的确定，可以是：将所述用户语音信息转化为文字，根据转化得到的文字确定意图关键字，并根据预先设置的关键字与服务的映射关系，确定所述意图关键字对应的服务，将确定的服务作为需要调用的服务。

可以理解的是，当预设交互信息中既包括用户语音信息又包括触控操作的方式信息时，可以根据用户语音信息或方式信息进行所调用服务的确定；还可以分别根据用户语音信息和方式信息进行所调用服务的确定，并在确定的服务相同时，进行该服务的调用；在确定的服务不同时，进行两种服务的分别调用。

在本申请实施例的再一可选实施方式中，若所述预设交互信息包括所述图像，但不包括所述方式信息和所述用户语音信息，则根据预设交互信息中的至少一种信息进行调用服务的确定，可以是：识别所述图像中的内容，并根据预先设置的内容类别与服务的映射关系，确定所识别内容对应的服务，并将确定的服务作为需要调用的服务；或者，将预先设定的默认服务作为需要调用的服务。

本申请实施例通过服务器接收包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息；根据预设交互信息确定需要调用的服务，并在调用服务后将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

实施例三

图3A是本申请实施例三中的一种智能音箱交互方法的流程图，本申请实施例在上述各实施例的技术方案的基础上提供了一种优选实施方式，并结合图3B所示的交互系统架构图进行说明。

如图3A所述的一种智能音箱交互方法，包括：

S301、执行移动终端与智能音箱之间的配对操作。

S302、在配对操作成功并打开智能音箱对应的应用后，开启移动终端的摄像功能，以拍摄目标对象得到图像。

S303、移动终端检测到用户对图像的触控操作，获取触控操作的信息。

S304A、移动终端接收用户针对触控操作所录入的语音信息。

S304B、智能音箱接收用户针对触控操作所录入的语音信息。

需要说明的是，S304A和S304B可以择一执行，S302-S303可以在S304A或S304B之前或之后执行，也可以与S304A或S304B同时执行。

S305、移动终端将预设交互信息中的图像发送至服务器。

需要说明的是，S305可以在S304A或S304B之前或之后执行，还可以与S304A或S304B同时执行。

S306A、移动终端将预设交互信息中的语音信息发送至服务器。

S306B、智能音箱将预设交互信息中的语音信息发送至服务器。

需要说明的是，S306A和S306B择一执行，S305和S306A或S305和S306B可以先后执行也可以同时执行，本申请对两者的执行顺序不做任何限定。

S307、服务器接收预设交互信息。

其中，预设交互信息包括图像、语音信息和触控操作的信息中的至少一个。

S308A、若预设交互信息包括图像，则将图像的信息作为调用参数。继续执行S309A。

S308B、若预设交互信息包括图像和触控操作的位置信息，则根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象作为调用参数。继续执行S309A。

S308C、若预设交互信息包括图像和触控操作的方式信息，则将图像的信息作为调用参数。继续执行S309B。

S308D、若预设交互信息包括图像和语音信息，则将图像的信息作为调用参数。继续执行S309C。

S308E、若预设交互信息包括图像、触控操作的位置信息和方式信息，则根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象作为调用参数。继续执行S309B。

S308F、若预设交互信息包括图像、触控操作的位置信息和语音信息，则根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象作为调用参数。继续执行S309C。

S308G、若预设交互信息包括图像、触控操作的方式信息和语音信息，则将图像的信息作为调用参数。继续执行S309B和/或S309C。

S308H、若预设交互信息包括图像、触控操作的位置信息和方式信息、和语音信息，则根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象作为调用参数。继续执行S309B。

S309A、将图像中的内容类别对应的服务，或预先设定的默认服务，作为需要调用的服务。

S309B、将触控操作的方式信息对应的服务作为需要调用的服务。

S309C、将语音信息转化为文字，并将文字所包含的关键字对应的服务作为需要调用的服务。

S310、根据确定的调用参数和需要调用的服务，调用服务并生成服务调用结果。

S311、将服务调用结果发送至智能音箱。

S312、智能音箱对服务调用结果进行语音播报。

示例性地，参见图3C对语音翻译这一应用场景进行说明：

用户点击移动终端显示图片中的单词“black”，向移动终端下发编辑操作的位置，并通过移动终端将图像和点击操作的位置上传至云端服务器；用户通过智能音箱录入语音信息“这是什么单词”，并通过智能音箱将语音信息上传至云端服务器；云端服务器解析“这是什么单词”，确定意图关键字为“是”和“单词”，并根据“是”和“单词”对应的“翻译服务”确定需调用的服务功能；云端服务器根据图像和点击位置识别目标对象为“black”，并将“black”作为“翻译服务”的调用参数，调用翻译服务，得到翻译结果“black是黑色的意思”，并将翻译结果的音频数据发送至智能音箱进行语音播报。

示例性地，参见图3D对物体识别这一应用场景进行示例性说明：

用户点击移动终端显示图片中的某一物体，向移动终端下发点击操作的位置，并通过移动终端将图像和点击操作的位置上传至云端服务器；用户通过智能音箱录入语音信息“这是什么东西”，并通过智能音箱将语音信息上传至云端服务器；云端服务器解析“这是什么东西”，确定意图关键字为“是”和“东西”，并根据“是”和“东西”对应的“识别服务”确定需调用的服务功能；云端服务器根据图像和点击位置识别目标对象为“物体1”，并将“物体1”对应的图片内容作为调用参数，调用识别服务，得到识别结果为“这是桌子”，并将识别结果的音频数据发送至智能音箱进行语音播报。

示例性地，参见图3E对绘本播报这一应用场景进行示例性说明：

用户点击移动终端显示图片中的某一绘本图片，通过识别移动终端中的二维码调用内容识别程序，以根据点击位置识别绘本图片对应的下载地址，并将下载地址上传至云端服务器；用户通过智能音箱录入语音信息“读一下这个章节”，并通过智能音箱将语音信息上传至云端服务器；云端服务器解析“读一下这个章节”，确定意图关键字为“读”和“章节”，并根据“读”和“章节”对应的“阅读服务”确定需调用的服务功能；云端服务器根据下载地址进行章节内容的下载，并将所下载的章节内容作为调用参数，调用阅读服务，得到音频数据，并将音频数据发送至智能音箱进行语音播报。

实施例四

图4是本申请实施例四中的一种智能音箱交互装置的结构图，本申请实施例适用于在移动终端、智能音箱和服务器三者所形成的交互系统中，通过移动终端控制智能音箱进行不同语音数据播报的情况，该装置由软件和/或硬件实现，并具体配置于移动终端等电子设备中。

如图4所示的一种智能音箱交互装置400，包括：预设交互信息获取模块401和预设交互信息发送模块402。

预设交互信息获取模块401，用于在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括所述移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；

预设交互信息发送模块402，用于将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

本申请实施例通过预设交互信息获取模块在满足预设触发条件时，进行包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息的获取；通过预设交互信息发送模块将预设交互信息发送至服务器，以使服务器根据预设交互信息确定需要调用的服务，并在调用服务后，将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

进一步地，所述触控操作的信息包括所述触控操作的位置信息和/或方式信息。

进一步地所述用户语音信息包括所述触控操作对应的用户语音信息。

进一步地，所述触控操作对应的用户语音信息包括：在执行所述触控操作之前的第一设定时间段内所述用户发出的语音信息，和/或在执行所述触控操作之后的第二设定时间段内所述用户发出的语音信息。

进一步地，所述预设触发条件包括检测到用户执行对所述图像的触控操作。

进一步地，预设交互信息获取模块401，可以部分或全部设置于移动终端中，用于：

在所述预设交互信息包括所述用户语音信息时，将所述用户语音信息发送至所述服务器；

在预设交互信息包括所述触控操作的信息和/或所述图像时，将触控操作的信息和/或所述图像发送至所述服务器。

进一步地，预设交互信息获取模块401，可以部分设置于智能音箱中，用于：

在所述预设交互信息包括所述用户语音信息时，将所述用户语音信息发送至所述服务器。

进一步地，该装置还包括，图像拍摄模块，用于：

在所述获取预设交互信息之前，执行所述移动终端与所述智能音箱之间的配对操作，在配对操作成功并打开所述智能音箱对应的应用后，开启所述移动终端的摄像功能，以对目标对象进行拍摄；

进一步地，所述目标对象包括物体、或在信息载体中展示的多媒体信息。

进一步地，所述多媒体信息包括文本和/或图片；所述信息载体包括纸质载体和/或电子载体。

进一步地，所述触控操作为用户对所述拍摄图像中的目标对象的触控操作。

上述智能音箱交互装置可执行本申请任意实施例所提供的智能音箱交互方法，具备执行智能音箱交互方法相应的功能模块和有益效果。

实施例五

图5是本申请实施例五中的一种智能音箱交互装置的结构图，本申请实施例适用于在移动终端、智能音箱和服务器三者所形成的交互系统中，通过服务器控制智能音箱进行语音数据播报的情况，该装置由软件和/或硬件实现，并具体配置于服务器等电子设备中。

如图5所示的一种智能音箱交互装置500，包括：预设交互信息接收模块501和服务调用模块502。

预设交互信息接收模块501，用于接收预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息中的至少一种；

服务调用模块502，用于根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报。

本申请实施例通过预设交互信息接收模块接收包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息；通过服务调用模块根据预设交互信息确定需要调用的服务，并在调用服务后将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

进一步地，所述触控操作的信息包括触控操作的位置信息和/或方式信息。

进一步地，服务调用模块502，在执行调用服务时，具体用于：

若所述预设交互信息包括所述图像，且所述预设交互信息还包括所述位置信息，则根据所述位置信息确定所述触控操作在所述图像中所对应的目标对象，并根据所述目标对象的信息产生服务调用指令，以将所述目标对象的信息作为调用参数来调用所述服务；

若所述预设交互信息包括所述图像，且所述预设交互信息不包括所述位置信息，则将所述图像作为目标对象，并根据所述目标对象的信息产生服务调用指令，以将所述目标对象的信息作为调用参数来调用所述服务。

进一步地，服务调用模块502，在执行根据所述预设交互信息确定需要调用的服务时，具体用于：

若所述预设交互信息包括所述图像，且所述预设交互信息还包括所述方式信息和/或所述用户语音信息，则根据预先设置的触控方式与服务的映射关系，确定所述触控操作的方式信息对应的服务，将确定的服务作为需要调用的服务；和/或，

若所述预设交互信息包括所述图像，且所述预设交互信息不包括所述方式信息和所述用户语音信息，则识别所述图像中的内容，并根据预先设置的内容类别与服务的映射关系，确定所识别内容对应的服务，并将确定的服务作为需要调用的服务；或者，将预先设定的默认服务作为需要调用的服务。

进一步地，预设交互信息接收模块501，具体用于：

接收所述移动终端发送的所述预设交互信息；或者，

实施例六

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是实现本申请实施例的智能音箱交互方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的智能音箱交互方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的智能音箱交互方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的智能音箱交互方法对应的程序指令/模块(例如，附图4所示的包括预设交互信息获取模块401和预设交互信息发送模块402的智能音箱交互装置400，或者附图5所示的包括预设交互信息接收模块501和服务调用模块502的智能音箱交互装置500)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的智能音箱交互方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行智能音箱交互方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至执行智能音箱交互方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行智能音箱交互方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与执行智能音箱交互方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，在满足预设触发条件时，进行包括移动终端的屏幕显示图像、用户语音信息以及用户对图像的触控操作的信息中的至少一种的预设交互信息的获取；并将预设交互信息发送至服务器，以使服务器根据预设交互信息确定需要调用的服务，并在调用服务后，将服务调用结果发送至智能音箱进行语音播报。上述技术方案通过移动终端进行用户需求的发送，通过服务器进行用户需求对应的服务的调用及服务调用结果的生成，通过智能音箱进行服务调用结果语音播报，使得用户通过移动终端即可控制智能音箱进行服务调用结果的播放，通过移动终端与智能音箱之间的交互，拓宽了智能音箱的应用场景，使智能音箱能够适配多种场景下的应用需求，从而提高了用户的使用体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种智能音箱交互方法，其特征在于，包括：

在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息，所述用户语音信息包括所述触控操作对应的用户语音信息；

将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报；

其中，所述将所述预设交互信息发送至服务器，包括：通过智能音箱将所述用户语音信息发送至所述服务器，并通过所述移动终端将所预设交互信息中的所述触控操作的信息和/或所述图像发送至所述服务器。

2.根据权利要求1所述的方法，其特征在于，所述触控操作的信息包括所述触控操作的位置信息和/或方式信息。

3.根据权利要求1所述的方法，其特征在于，所述触控操作对应的用户语音信息包括：在执行所述触控操作之前的第一设定时间段内所述用户发出的语音信息，和/或在执行所述触控操作之后的第二设定时间段内所述用户发出的语音信息。

4.根据权利要求1所述的方法，其特征在于，所述预设触发条件包括检测到用户执行对所述图像的触控操作。

5.根据权利要求1所述的方法，其特征在于：

若所述预设交互信息包括所述用户语音信息，则将所述预设交互信息发送至服务器，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述获取预设交互信息之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述目标对象包括物体、或在信息载体中展示的多媒体信息。

8.根据权利要求7所述的方法，其特征在于，所述多媒体信息包括文本和/或图片；所述信息载体包括纸质载体和/或电子载体。

9.根据权利要求6所述的方法，其特征在于，所述触控操作为用户对所述拍摄图像中的目标对象的触控操作。

10.一种智能音箱交互方法，其特征在于，包括：

接收预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息，所述用户语音信息包括所述触控操作对应的用户语音信息；

根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报；

其中，所述接收预设交互信息，包括：接收所述智能音箱发送的所述用户语音信息，并接收所述移动终端发送的所述预设交互信息中除所述用户语音信息以外的其他信息。

11.根据权利要求10所述的方法，其特征在于，所述触控操作的信息包括触控操作的位置信息和/或方式信息。

12.根据权利要求11所述的方法，其特征在于，若所述预设交互信息包括所述图像，则调用所述服务，包括：

13.根据权利要求12所述的方法，其特征在于，若所述预设交互信息包括所述图像，则根据所述预设交互信息确定需要调用的服务，包括：

14.根据权利要求12所述的方法，其特征在于，若所述目标对象包括物体时，则所述服务包括用于确定所述物体的种类的服务，所述服务调用结果包括所述物体的种类信息和/或描述信息对应的音频数据；

15.根据权利要求10-14任一项所述的方法，其特征在于，接收预设交互信息，包括：

接收所述移动终端发送的所述预设交互信息；或者，

16.一种智能音箱交互装置，其特征在于，包括：

预设交互信息获取模块，用于在满足预设触发条件时，获取预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息，所述用户语音信息包括所述触控操作对应的用户语音信息；

预设交互信息发送模块，用于将所述预设交互信息发送至服务器，以使所述服务器根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报；

17.一种智能音箱交互装置，其特征在于，包括：

预设交互信息接收模块，用于接收预设交互信息；其中，所述预设交互信息包括移动终端的屏幕显示图像、用户语音信息以及用户对所述图像的触控操作的信息，所述用户语音信息包括所述触控操作对应的用户语音信息；

服务调用模块，用于根据所述预设交互信息确定需要调用的服务，并在调用所述服务后，将服务调用结果发送至智能音箱进行语音播报；

18.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种智能音箱交互方法。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求10-15中任一项所述的一种智能音箱交互方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的一种智能音箱交互方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求10-15中任一项所述的一种智能音箱交互方法。