CN112908321A

CN112908321A - 设备控制方法、装置、存储介质及电子装置

Info

Publication number: CN112908321A
Application number: CN202011391044.3A
Authority: CN
Inventors: 赵培
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-06-04

Abstract

本发明实施例提供了一种设备控制方法、装置、存储介质及电子装置，其中，该方法包括：确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，目标区域为发出第一语音的区域；基于第一语音指令和第一图像确定待响应第一语音指令的目标设备；控制目标设备执行第一语音指令所指示的操作。通过本发明，解决了相关技术中存在的设备控制不准确的问题，达到了准确控制设备的效果。

Description

设备控制方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种设备控制方法、装置、存储介质及电子装置。

背景技术

随着智能家电行业的发展，越来越多的家电设备具有智能语音交互功能。在同一家居生活场景中，当用户想对某一家电设备进行控制时，一句唤醒语音会被多台智能设备检测到，现已有分布式语音交互系统，则是根据某种语音判断策略，选取一台设备与用户进行交互。在相关技术中，智能家电设备在一次交互过程中，普遍采取单一的控制方式，如按键\遥控器控制，语音控制等。但是仅仅通过声音进行判断，会受到外界噪声等干扰的影响，而影响判断。

由此可知，相关技术中存在设备控制不准确的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种设备控制方法、装置、存储介质及电子装置，以至少解决相关技术中存在的设备控制不准确的问题。

根据本发明的一个实施例，提供了一种设备控制方法，包括：确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，所述目标区域为发出所述第一语音的区域；基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备；控制所述目标设备执行所述第一语音指令所指示的操作。

根据本发明的另一个实施例，提供了一种设备控制装置，包括：第一确定模块，用于确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，所述目标区域为发出所述第一语音的区域；第二确定模块，用于基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备；控制模块，用于控制所述目标设备执行所述第一语音指令所指示的操作。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，确定声音采集设备采集到的第一语音指令，并确定图像采集设备采集到的目标区域的第一图像，根据第一语音指令和第一图像确定待响应第一语音指令的目标设备，控制目标设备执行第一语音指令所指示的操作。综合声音采集设备采集到信息和图像采集设备采集到的信息可以准确确定待响应第一语音指令的目标设备，控制目标设备执行第一指令所指示的操作，因此，可以解决相关技术中存在的设备控制不准确的问题，达到准确控制设备的效果。

附图说明

图1是本发明实施例的一种设备控制方法的移动终端的硬件结构框图；

图2是根据本发明实施例的设备控制方法的流程图；

图3是根据本发明具体实施例的设备控制方法的结构示意图；

图4是根据本发明实施例的设备控制装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种设备控制方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的设备控制方法对应的计算机程序，处理器102 通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种设备控制方法，图2是根据本发明实施例的设备控制方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，所述目标区域为发出所述第一语音的区域；

步骤S204，基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备；

步骤S206，控制所述目标设备执行所述第一语音指令所指示的操作。

在上述实施例中，设备控制方法可以应用在智能家居系统中，当应用在智能家居系统中时，声音采集设备可以为智能家居系统中包括的能够采集声音信息的设备，如音箱、智能空调等设备，图像采集设备可以为智能家居中包括的能够采集图像的设备，如，监控设备等。当用户发出语音指令时，声音采集设备采集到用户发出的指令，同时，图像采集设备采集发出声音指令的区域(即目标区域)的第一图像，根据语音指令和第一图像确定待响应第一语音指令的目标设备。例如，当目标设备为灯具时，用户发出“开灯”的第一指令，可以采集声音的音箱或空调接收到语音时，可以将语音发送给服务器，由服务器确定声音中包括的第一语音指令。同时，图像采集设备也会将其采集到的第一图像信息发送给服务器，由服务器确定用户所在的位置，若用户在客厅中，则服务器可以确定目标设备为客厅中的灯具，并控制客厅中的灯具打开。

示例性的，上述步骤的执行主体可以为服务器，还可以为后台处理器，或者具有类似处理能力的其他设备，也可以是至少集成有图像获取设备、声音获取设备以及数据处理设备的机器，其中，图像获取设备可以包括摄像头等图形采集模块，声音获取设备可以包括麦克风等声音采集模块，数据处理设备可以包括计算机、手机等终端，但不限于此。

在一个示例性实施例中，确定声音采集设备采集到的第一语音指令包括：接收所述声音采集设备采集到的第一语音；判断所述第一语音中是否包含目标关键词；在确定所述第一语音中包含所述目标关键词的情况下，从所述第一语音中提取所述第一语音指令。在本实施例中，可以接收声音采集设备采集到的第一语音，判断第一语音中是否包括目标关键词，在确定第一语音中包括目标关键词的情况下，从第一语音中提取第一语音指令。即，声音采集设备采集的声音中可以不包括语音指令，例如，用户在聊天时，没有发出语音指令，因此，声音采集设备采集到的声音中没有语音指令，此时，可以通过判断采集到的声音中是否包含目标关键词来确定声音中是否包括语音指令，当确定声音中包括目标关键词时，获取声音中的语义指令。

在一个示例性实施例中，确定图像采集设备采集到的目标区域的第一图像包括：在确定所述第一语音中包含所述目标关键词的情况下，获取所述图像采集设备采集到的图像信息；从所述图像信息中提取所述目标区域的所述第一图像。在本实施例中，在确定声音中包括目标关键词时，触发图像采集设备采集图像，以达到节约资源的目的。

在一个示例性实施例中，控制所述目标设备执行所述第一语音指令所指示的操作包括：控制语音播报设备播报目标语音，其中，所述目标语音用于提醒是否执行所述第一语音指令；接收所述图像采集设备在预定时间内采集到的所述目标区域的第二图像；在确定所述第二图像中包括第一动作信息的情况下，控制所述目标设备执行所述第一语音指令所指示的操作。在本实施例中，在控制目标设备执行第一语音指令所指示的操作后，可以控制语音播报设备播报目标语音，其中，语音播报设备可以包括音箱或其他能够发出语音的设备。用户可以发出指令“洗衣服”，声音采集设备(如智能空调)采集到语音指令，将语音指令发送给服务器，服务器确定目标设备为洗衣机，则可以向音箱发送目标语音，如“是要打开洗衣机吗”。图像采集设备可以在预定时间内采集第二图像，并将第二图像发送给服务器。其中，第二图像中可以包括多张图像，第一动作信息可以包括动作信息，还可以包括姿势信息。即，服务器可以根据多张图像确定出第一动作信息中包括的动作信息，还可以根据某张图像或某几张图像确定出第一动作信息中包括的姿势信息。动作信息可以包括点头、摇头等动作，姿势信息可以包括手势信息，如“OK”的手势。服务器确定第二图像中包括第一动作信息时，控制目标设备执行第一语音指令所指示的操作。例如，用户做出“OK”的手势，或者点头时，控制洗衣机执行洗衣服的动作。需要说明的是，目标语音可以是用户自定义的语音，第一动作信息也可以是用户预先录入的动作，用户也可以自定义设置第一动作信息。预定时间可以为1s，该取值仅是一种示例性说明，本发明对预定时间不做限制，例如，还可以取0.5s，2s等。

在上述实施例中，当目标设备为能够发出语音的设备时，也可以由目标设备发出目标语音，当目标设备为不能发出语音的设备时，可以由其他能够发出语音的设备播报目标语音。

在一个示例性实施例中，控制所述目标设备执行所述第一语音指令所指示的操作包括：控制语音播报设备播报目标语音，其中，所述目标语音用于提醒是否执行所述第一语音指令；接收所述声音采集设备采集到的第二语音；在确定所述第二语音中包括第二语音指令的情况下，控制所述目标设备执行所述第一语音指令所指示的操作。在本实施例中，在控制目标设备执行第一语音指令所指示的操作后，可以控制语音播报设备播报目标语音，其中，语音播报设备可以包括音箱或其他能够发出语音的设备。用户可以发出指令“洗衣服”，声音采集设备(如智能空调)采集到语音指令，将语音指令发送给服务器，服务器确定目标设备为洗衣机，则可以向音箱发送目标语音，如“是要打开洗衣机吗”，用户可以根据语音提示发出第二语音，例如“是的”，则控制洗衣机执行洗衣服的操作。当第二语音为不是的情况下，可以控制语音播报设备继续发出询问，例如，“那是要做什么”，再根据用户发出的语音确定目标设备。

在一个示例性实施例中，在确定具备执行所述第一语音指令所指示的操作能力的第一设备为多个的情况下，基于所述第一图像确定发出所述第一语音指令的目标对象；将距离所述目标对象最近的第一设备确定为所述目标设备。在本实施例中，在确定具备执行第一语音指令所指示的操作能力的第一设备为多个的情况下，可以根据第一图像确定发出第一语音指令的对象，将距离目标对象最近的第一设备确定为目标设备。例如，第一设备为多个灯具时，可以根据目标对象的位置，确定目标灯具，即，将距离目标对象最近的灯具作为目标灯具。

在一个示例性实施例中，基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备还包括：在确定具备执行所述第一语音指令所指示的操作能力的第一设备为多个的情况下，基于所述第一图像确定发出所述第一语音指令的目标对象所指定的目标设备；将所述目标对象所指定的目标设备确定为所述第一设备。在本实施例中，在确定具备执行第一语音指令所指示的操作能力的第一设备为多个的情况下，可以根据第一图像中发出第一语音指令的目标对象所指定的设备为目标设备。例如，目标对象用手指指定某个设备，则将该设备确定为目标设备，或者目标对象面对某个设备时，将目标对象面对的设备确定为目标设备。

下面结合具体实施方式对设备控制方法进行说明：

图3是根据本发明具体实施例的设备控制方法的结构示意图，如图3 所示：分布式多模态智能家居系统包括分布式多模态响应，分布式多模态交互和设备控制三个功能。通过语音唤醒和人脸检测结合的多模态识别检测技术，解决同一家居生活空间中多台智能家电设备对用户唤醒的响应唯一性问题，以避免多台设备同时对用户进行语音响应造成的相互干扰。分布式多模态交互和设备控制则是通过对用户语音指令进行语音识别成文本的同时，带摄像头的智能设备对图像进行采集；然后利用自然语言处理技术和图像人脸检测和手势识别等技术对声音和图像的多模态信息进行分析，综合判断用户的意图；最终根据该意图完成对家居中智能设备的控制，以完成智能家居场景中，用户通过语音和手势对多个智能家电设备进行方便快捷的交互和控制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种设备控制装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的设备控制装置的结构框图，如图4所示，该装置包括：

第一确定模块42，用于确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，所述目标区域为发出所述第一语音的区域；

第二确定模块44，用于基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备；

控制模块46，用于控制所述目标设备执行所述第一语音指令所指示的操作。

在一个示例性实施例中，所述第一确定模块42可以通过如下方式实现确定声音采集设备采集到的第一语音指令：接收所述声音采集设备采集到的第一语音；判断所述第一语音中是否包含目标关键词；在确定所述第一语音中包含所述目标关键词的情况下，从所述第一语音中提取所述第一语音指令。在本实施例中，可以接收声音采集设备采集到的第一语音，判断第一语音中是否包括目标关键词，在确定第一语音中包括目标关键词的情况下，从第一语音中提取第一语音指令。即，声音采集设备采集的声音中可以不包括语音指令，例如，用户在聊天时，没有发出语音指令，因此，声音采集设备采集到的声音中没有语音指令，此时，可以通过判断采集到的声音中是否包含目标关键词来确定声音中是否包括语音指令，当确定声音中包括目标关键词时，获取声音中的语义指令。

在一个示例性实施例中，所述第一确定模块42可以通过如下方式实现确定图像采集设备采集到的目标区域的第一图像：在确定所述第一语音中包含所述目标关键词的情况下，获取所述图像采集设备采集到的图像信息；从所述图像信息中提取所述目标区域的所述第一图像。在本实施例中，在确定声音中包括目标关键词时，触发图像采集设备采集图像，以达到节约资源的目的。

在一个示例性实施例中，所述控制模块46可以通过如下方式实现控制所述目标设备执行所述第一语音指令所指示的操作：控制语音播报设备播报目标语音，其中，所述目标语音用于提醒是否执行所述第一语音指令；接收所述图像采集设备在预定时间内采集到的所述目标区域的第二图像；在确定所述第二图像中包括第一动作信息的情况下，控制所述目标设备执行所述第一语音指令所指示的操作。在本实施例中，在控制目标设备执行第一语音指令所指示的操作后，可以控制语音播报设备播报目标语音，其中，语音播报设备可以包括音箱或其他能够发出语音的设备。用户可以发出指令“洗衣服”，声音采集设备(如智能空调)采集到语音指令，将语音指令发送给服务器，服务器确定目标设备为洗衣机，则可以向音箱发送目标语音，如“是要打开洗衣机吗”。图像采集设备可以在预定时间内采集第二图像，并将第二图像发送给服务器。其中，第二图像中可以包括多张图像，第一动作信息可以包括动作信息，还可以包括姿势信息。即，服务器可以根据多张图像确定出第一动作信息中包括的动作信息，还可以根据某张图像或某几张图像确定出第一动作信息中包括的姿势信息。动作信息可以包括点头、摇头等动作，姿势信息可以包括手势信息，如“OK”的手势。服务器确定第二图像中包括第一动作信息时，控制目标设备执行第一语音指令所指示的操作。例如，用户做出“OK”的手势或者点头时，控制洗衣机执行洗衣服的动作。需要说明的是，目标语音可以是用户自定义的语音，第一动作信息也可以是用户预先录入的动作，用户也可以自定义设置第一动作信息。

在一个示例性实施例中，所述控制模块46可以通过如下方式实现控制所述目标设备执行所述第一语音指令所指示的操作：控制语音播报设备播报目标语音，其中，所述目标语音用于提醒是否执行所述第一语音指令；接收所述声音采集设备采集到的第二语音；在确定所述第二语音中包括第二语音指令的情况下，控制所述目标设备执行所述第一语音指令所指示的操作。在本实施例中，在控制目标设备执行第一语音指令所指示的操作后，可以控制语音播报设备播报目标语音，其中，语音播报设备可以包括音箱或其他能够发出语音的设备。用户可以发出指令“洗衣服”，声音采集设备(如智能空调)采集到语音指令，将语音指令发送给服务器，服务器确定目标设备为洗衣机，则可以向音箱发送目标语音，如“是要打开洗衣机吗”，用户可以根据语音提示发出第二语音，例如“是的”，则控制洗衣机执行洗衣服的操作。当第二语音为不是的情况下，可以控制语音播报设备继续发出询问，例如，“那是要做什么”，再根据用户发出的语音确定目标设备。

在一个示例性实施例中，所述第二确定模块44可以通过如下方式实现基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备：在确定具备执行所述第一语音指令所指示的操作能力的第一设备为多个的情况下，基于所述第一图像确定发出所述第一语音指令的目标对象；将距离所述目标对象最近的第一设备确定为所述目标设备。在本实施例中，在确定具备执行第一语音指令所指示的操作能力的第一设备为多个的情况下，可以根据第一图像确定发出第一语音指令的对象，将距离目标对象最近的第一设备确定为目标设备。例如，第一设备为多个灯具时，可以根据目标对象的位置，确定目标灯具，即，将距离目标对象最近的灯具作为目标灯具。

在一个示例性实施例中，所述第二确定模块44还可以通过如下方式实现基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备：在确定具备执行所述第一语音指令所指示的操作能力的第一设备为多个的情况下，基于所述第一图像确定发出所述第一语音指令的目标对象所指定的目标设备；将所述目标对象所指定的目标设备确定为所述第一设备。在本实施例中，在确定具备执行第一语音指令所指示的操作能力的第一设备为多个的情况下，可以根据第一图像中发出第一语音指令的目标对象所指定的设备为目标设备。例如，目标对象用手指指定某个设备，则将该设备确定为目标设备，或者目标对象面对某个设备时，将目标对象面对的设备确定为目标设备。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于： U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器 (Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种设备控制方法，其特征在于，包括:

确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，所述目标区域为发出所述第一语音的区域；

基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备；

控制所述目标设备执行所述第一语音指令所指示的操作。

2.根据权利要求1所述的方法，其特征在于，确定声音采集设备采集到的第一语音指令包括：

接收所述声音采集设备采集到的第一语音；

判断所述第一语音中是否包含目标关键词；

在确定所述第一语音中包含所述目标关键词的情况下，从所述第一语音中提取所述第一语音指令。

3.根据权利要求2所述的方法，其特征在于，确定图像采集设备采集到的目标区域的第一图像包括：

在确定所述第一语音中包含所述目标关键词的情况下，获取所述图像采集设备采集到的图像信息；

从所述图像信息中提取所述目标区域的所述第一图像。

4.根据权利要求1所述的方法，其特征在于，控制所述目标设备执行所述第一语音指令所指示的操作包括：

控制语音播报设备播报目标语音，其中，所述目标语音用于提醒是否执行所述第一语音指令；

接收所述图像采集设备在预定时间内采集到的所述目标区域的第二图像；

在确定所述第二图像中包括第一动作信息的情况下，控制所述目标设备执行所述第一语音指令所指示的操作。

5.根据权利要求1所述的方法，其特征在于，控制所述目标设备执行所述第一语音指令所指示的操作包括：

接收所述声音采集设备采集到的第二语音；

在确定所述第二语音中包括第二语音指令的情况下，控制所述目标设备执行所述第一语音指令所指示的操作。

6.根据权利要求1所述的方法，其特征在于，基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备包括：

在确定具备执行所述第一语音指令所指示的操作能力的第一设备为多个的情况下，基于所述第一图像确定发出所述第一语音指令的目标对象；

将距离所述目标对象最近的第一设备确定为所述目标设备。

7.根据权利要求1所述的方法，其特征在于，基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备还包括：

在确定具备执行所述第一语音指令所指示的操作能力的第一设备为多个的情况下，基于所述第一图像确定发出所述第一语音指令的目标对象所指定的目标设备；

将所述目标对象所指定的目标设备确定为所述第一设备。

8.一种设备控制装置，其特征在于，包括：

第一确定模块，用于确定声音采集设备采集到的第一语音指令，以及确定图像采集设备采集到的目标区域的第一图像，其中，所述目标区域为发出所述第一语音的区域；

第二确定模块，用于基于所述第一语音指令和所述第一图像确定待响应所述第一语音指令的目标设备；

控制模块，用于控制所述目标设备执行所述第一语音指令所指示的操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。