CN116403575A

CN116403575A - 免唤醒语音交互方法、装置、存储介质及电子装置

Info

Publication number: CN116403575A
Application number: CN202310186786.XA
Authority: CN
Inventors: 许林林; 王迪; 邓邱伟
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-07-07

Abstract

本申请公开了一种免唤醒语音交互方法、装置、存储介质及电子装置，涉及智能家居技术领域，该免唤醒语音交互方法包括：实时通过摄像头采集目标图像；在目标图像中包括目标第二设备的情况下，向目标第二设备发送目标控制指令。本申请提供的免唤醒语音交互方法、装置、存储介质及电子装置，能够在语音交互设备处于穿戴设备的摄像头拍摄画面中的情况下，通过穿戴设备向语音交互设备发送的控制指令，使得语音交互设备能够直接响应用户的语音指令，而无需先将语音交互设备唤醒，简化了人机交互流程，提高了人机交互效率。

Description

免唤醒语音交互方法、装置、存储介质及电子装置

技术领域

本申请涉及智能家居技术领域，尤其涉及一种免唤醒语音交互方法、装置、存储介质及电子装置。

背景技术

随着智能语音应用技术的不断成熟，越来越多的智能终端应用了智能语音技术，语音交互的需求与使用场景不断增多。

在日常使用过程中，通常需要用户对目标设备说出唤醒词来唤醒设备，待设备应答之后，用户再对设备下达语音指令，设备经过语义理解服务推测出用户意图，答复并播报文字内容。

然而，这样的语音交互方式在用户真正指令下达之前往往需要进行设备唤醒、设备应答等多个交互步骤，尤其是针对多设备的分布式唤醒，流程较为繁琐。

发明内容

本申请的目的是提供一种免唤醒语音交互方法、装置、存储介质及电子装置，能够在语音交互设备处于穿戴设备的摄像头拍摄画面中的情况下，通过穿戴设备向语音交互设备发送的控制指令，使得语音交互设备能够直接响应用户的语音指令，而无需先将语音交互设备唤醒，简化了人机交互流程，提高了人机交互效率。

第一方面，本申请提供一种免唤醒语音交互方法，应用于第一设备，包括：

实时通过摄像头采集目标图像；在所述目标图像中包括目标第二设备的情况下，向所述目标第二设备发送目标控制指令；其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。

可选地，所述目标第二设备上设置有身份标识码；所述在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令之前，所述方法还包括：对所述目标图像进行图像识别，判断所述目标图像中是否包含有身份标识码；在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备。

可选地，所述在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备，包括：在所述目标图像中包含有所述多个第二设备中至少两个第二设备的身份标识码的情况下，判断每个第二设备的身份标识码与预设识别区域的距离；将所述至少两个第二设备中身份标识码与所述预设识别区域的距离最近的第二设备确定为所述目标第二设备。

可选地，所述在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令，包括：在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，基于所述目标第二设备的身份标识码确定所述目标第二设备在所述目标网络中的目标网络地址；基于所述目标网络地址向所述目标第二设备发送所述目标控制指令。

第二方面，本申请提供一种免唤醒语音交互方法，应用于第二设备，包括：

在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态；获取用户发出的目标语音指令，执行所述目标语音指令指示的目标操作；其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

可选地，所述目标第二设备为多个第二设备中的任一个；所述多个第二设备为接入目标网络中的、且能够响应语音指令的多个语音交互设备；所述在所述第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态之后，所述方法还包括：在所述多个第二设备中存在处于唤醒状态的第三设备的情况下，向所述第三设备发送休眠指令；其中，所述休眠指令用于控制所述第三设备进入待唤醒状态。

第三方面，本申请还提供一种免唤醒语音交互装置，包括：

第一获取模块，用于实时通过摄像头采集目标图像；第一发送模块，用于在所述目标图像中包括目标第二设备的情况下，向所述目标第二设备发送目标控制指令；其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。

可选地，所述目标第二设备上设置有身份标识码；所述装置还包括：图像识别模块和确定模块；所述图像识别模块，用于对所述目标图像进行图像识别，判断所述目标图像中是否包含有身份标识码；所述确定模块，用于在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备。

可选地，所述确定模块，具体用于在所述目标图像中包含有所述多个第二设备中至少两个第二设备的身份标识码的情况下，判断每个第二设备的身份标识码与预设识别区域的距离；所述确定模块，具体还用于将所述至少两个第二设备中身份标识码与所述预设识别区域的距离最近的第二设备确定为所述目标第二设备。

可选地，所述确定模块，还用于在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，基于所述目标第二设备的身份标识码确定所述目标第二设备在所述目标网络中的目标网络地址；所述第一发送模块，具体用于基于所述目标网络地址向所述目标第二设备发送所述目标控制指令。

第四方面，本申请还提供一种免唤醒语音交互装置，包括：

接收模块，用于在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令；执行模块，用于响应于所述目标控制指令进入语音交互唤醒状态；第二获取模块，用于获取用户发出的目标语音指令；所述执行模块，还用于执行所述目标语音指令指示的目标操作；其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

可选地，所述目标第二设备为多个第二设备中的任一个；所述多个第二设备为接入目标网络中的、且能够响应语音指令的多个语音交互设备；所述装置还包括：第二发送模块；所述第二发送模块，用于在所述多个第二设备中存在处于唤醒状态的第三设备的情况下，向所述第三设备发送休眠指令；其中，所述休眠指令用于控制所述第三设备进入待唤醒状态。

本申请还提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行实现如上述第一方面或者第二方面中任一种所述免唤醒语音交互方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行时实现如上述第一方面或者第二方面中任一种所述免唤醒语音交互方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或者第二方面中任一种所述免唤醒语音交互方法的步骤。

本申请提供的免唤醒语音交互方法、装置、存储介质及电子装置，在所述第一设备处于预设工作模式的情况下，实时获取摄像头采集的目标图像；并在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令，控制目标第二设备进入唤醒状态。如此，能够在目标第二设备处于第一设备的摄像头拍摄画面中的情况下，通过第一设备向目标第二设备发送的目标控制指令，使得目标第二设备能够直接响应用户的语音指令，而无需先将目标第二设备唤醒，不仅简化了人机交互流程，还很大程度上提高了人机交互效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种智能设备的交互方法的硬件环境示意图；

图2是本申请提供的免唤醒语音交互方法的流程示意图之一；

图3是本申请提供的免唤醒语音交互方法的应用界面示意图；

图4是本申请提供的免唤醒语音交互方法的流程示意图之二；

图5是本申请提供的免唤醒语音交互装置的结构示意图之一；

图6是本申请提供的免唤醒语音交互装置的结构示意图之二；

图7是本申请提供的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种免唤醒语音交互方法。该免唤醒语音交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述免唤醒语音交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

针对多设备的分布式语音唤醒技术，在相关技术中，首先采集不同设备拾音，然后对音频质量进行分析，包括对原始音频进行降噪、对声音能量计算、mic增益调整、说话人方位朝向考量等综合决策选择出最终需要交互的目标设备。这一普遍方案有个前提是需要说话人对着设备说出唤醒词，然后分布式唤醒系统通过采集、计算多个拾音设备的音频特征，然后下发唤醒信号给到目标设备，终端设备收到唤醒信号做出应答提示，然后用户才根据应答音判别出唤醒设备进行指令交互。

根据上述内容可知，相关技术中针对多设备的分布式唤醒技术，存在人机交互流程复杂、人机交互效率较低的技术问题，基于此，本申请实施例提供了一种免唤醒语音交互方法，该方法能够在语音交互设备处于穿戴设备的摄像头拍摄画面中的情况下，通过穿戴设备向语音交互设备发送的控制指令，使得语音交互设备能够直接响应用户的语音指令，而无需先将语音交互设备唤醒，不仅简化了人机交互流程，还很大程度上提高了人机交互效率。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的免唤醒语音交互方法进行详细地说明。

如图2所示，本申请实施例提供的一种免唤醒语音交互方法，应用于第一设备，该方法可以包括下述步骤201和步骤202：

步骤201、实时通过摄像头采集目标图像。

示例性地，上述第一设备可以为穿戴设备，该穿戴设备可以随着用户头部的转动而转动。该穿戴设备上还设置有摄像头，能够实时采集用户前方区域的图像，即上述目标图像。

示例性地，上述第一设备还可以为其他电子设备，例如，手机、平板等能够实时采集特定方向的图像的终端设备。

示例性地，为了避免第二设备将用户发出的声音都作为语音指令来执行，可以为第一设备设置特定的工作模式，如预设工作模式。当第一设备处于预设工作模式时，可以按照本申请中的技术方案实现语音交互设备的免唤醒语音交互。

步骤202、在所述目标图像中包括目标第二设备的情况下，向所述目标第二设备发送目标控制指令。

其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。

示例性地，上述目标第二设备可以为多个第二设备中的任一个；所述多个第二设备为接入目标网络中的、且能够响应语音指令的多个语音交互设备。

示例性地，上述多个第二设备可以为室内环境中设置的多个智能音响，也可以为包括智能音响、智能空调、智能冰箱在内的一种或者多种语音交互设备。

示例性地，当用户需要与某个第二设备进行语音交互时，可以通过转动头部，使得该第二设备进入第一设备的拍摄画面中，此时，第一设备可以向拍摄画面中的第二设备(即上述目标第二设备)发送控制指令，控制该第二设备进入唤醒状态。

示例性地，当上述目标第二设备进入唤醒状态后，用户可以直接向该目标第二设备下发语音控制指令，而无需先下发唤醒指令。

如此，可以简化用户与语音交互设备之间的语音交互流程，提高语音交互效率。

可选地，在本申请实施例中，第一设备可以通过第二设备上设置的身份识别码确定目标第二设备，并进一步基于该身份识别码向目标第二设备发送控制指令。

具体地，上述多个第二设备中的每个第二设备上均设置有身份标识码，上述步骤202之前，本申请实施例提供的免唤醒语音交互方法，还可以包括以下步骤203和步骤204：

步骤203、对所述目标图像进行图像识别，判断所述目标图像中是否包含有身份标识码。

步骤204、在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备。

示例性地，上述目标第二设备的明显位置设置有身份识别码，当该目标第二设备处于第一设备的拍摄画面中(即上述目标图像中)时，第一设备也能够获取到该目标第二设备的身份识别码。

示例性地，上述身份识别码可以包括二维码、条形码等多种形式，第一设备可以通过图像识别技术识别出目标第二设备的身份识别码所包含的身份信息，并基于识别出的身份信息确定该目标第二设备。

在一种可能的实现方式中，若第一设备的拍摄画面中出现了多个第二设备，则需要根据以下流程从中筛选出唯一的目标第二设备，并对其进行唤醒。

具体地，上述步骤201，可以包括以下步骤204a1和步骤204a2：

步骤204a1、在所述目标图像中包含有所述多个第二设备中至少两个第二设备的身份标识码的情况下，判断每个第二设备的身份标识码与预设识别区域的距离。

步骤204a2、将所述至少两个第二设备中身份标识码与所述预设识别区域的距离最近的第二设备确定为所述目标第二设备。

示例性地，当第一设备的拍摄画面中出现了多个第二设备时，可以根据每个第二设备与拍摄画面中的预设识别区域之间的距离，来确定需要唤醒的第二设备。

举例说明，如图3所示，以上述第一设备为穿戴设备，上述第二设备为智能音响为例，用户佩戴的穿戴设备的拍摄画面300中包括一个圆形的识别区域301。在拍摄画面300中包括多个智能音响(包括：音响a、音响吧b、音响c)时，可以将距离识别区域301最近的音响c作为目标音响进行唤醒。即，用户可以通过转动头部来移动摄像头的拍摄画面，并将识别区域301对准需要进行语音交互的智能音响后，直接向该智能音响下发语音指令。

可选择，在本申请实施例中，第一设备可以根据目标第二设备上设置的身份识别码确定目标第二设备的网络地址，并基于该网络地址向目标第二设备发送控制指令。

具体地，上述步骤202，可以包括以下步骤202a1和步骤202a2：

步骤202a1、在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，基于所述目标第二设备的身份标识码确定所述目标第二设备在所述目标网络中的目标网络地址。

步骤202a2、基于所述目标网络地址向所述目标第二设备发送所述目标控制指令。

示例性地，以上述身份识别码为二维码为例，第一设备通过对该二维码的识别结果，得到目标第二设备在目标网络中的目标网络地址，并向该目标网络地址发送控制指令。

示例性地，上述目标网络可以为上述多个第二设备接入的局域网，上述目标网络地址可以包括：网际互连协议(Internet Protocol，IP)地址，媒体存取控制位址(MediaAccess Control Address，MAC)地址等。基于目标网络地址，第一设备便可以建立与目标第二设备之间的通信。

如图4所示，本申请实施例提供的一种免唤醒语音交互方法，应用于目标第二设备，该方法可以包括下述步骤401和步骤402：

步骤401、在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态。

步骤402、获取用户发出的目标语音指令，执行所述目标语音指令指示的目标操作。

其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

示例性地，上述目标第二设备在接收到第一设备发送的目标控制指令后，可以直接进入唤醒状态，在唤醒状态下，目标第二设备可以跳过唤醒步骤，直接响应用户下达的语音指令，即上述目标语音指令。

在一种可能的实现方式中，通常情况下，上述多个第二设备中仅允许一个第二设备响应用户的语音指令，即上述第二设备中，在同一时间有且仅有一个第二设备能够处于唤醒状态。

示例性地，目标第二设备为多个第二设备中的任一个；所述多个第二设备为接入目标网络中的、且能够响应语音指令的多个语音交互设备。

示例性地，上述步骤401之后，本申请实施例提供的免唤醒语音交互方法，还可以包括以下步骤403：

步骤403、在所述多个第二设备中存在处于唤醒状态的第三设备的情况下，向所述第三设备发送休眠指令。

其中，所述休眠指令用于控制所述第三设备进入待唤醒状态。

示例性地，当上述目标第二设备进入唤醒状态后，还可以向其他处于唤醒状态的第三设备发送休眠指令，使其进入待唤醒状态，以避免多个设备同时执行用户的语音指令。

本申请实施例提供的免唤醒语音交互方法，在所述第一设备处于预设工作模式的情况下，实时获取摄像头采集的目标图像；并在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令，控制目标第二设备进入唤醒状态。如此，能够在目标第二设备处于第一设备的摄像头拍摄画面中的情况下，通过第一设备向目标第二设备发送的目标控制指令，使得目标第二设备能够直接响应用户的语音指令，而无需先将目标第二设备唤醒，不仅简化了人机交互流程，还很大程度上提高了人机交互效率。

需要说明的是，本申请实施例提供的免唤醒语音交互方法，执行主体可以为免唤醒语音交互装置，或者该免唤醒语音交互装置中的用于执行免唤醒语音交互方法的控制模块。本申请实施例中以免唤醒语音交互装置执行免唤醒语音交互方法为例，说明本申请实施例提供的免唤醒语音交互装置。

需要说明的是，本申请实施例中，上述各个方法附图所示的。免唤醒语音交互方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时，上述各个方法附图所示的免唤醒语音交互方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

下面对本申请提供的免唤醒语音交互装置进行描述，下文描述的与上文描述的免唤醒语音交互方法可相互对应参照。

图5为本申请一实施例提供的免唤醒语音交互装置的结构示意图，如图5所示，具体包括：

第一获取模块501，用于实时通过摄像头采集目标图像；第一发送模块502，用于在所述目标图像中包括目标第二设备的情况下，向目标第二设备发送目标控制指令；其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。

可选地，所述目标第二设备中上设置有身份标识码；所述装置还包括：图像识别模块和确定模块；所述图像识别模块，用于对所述目标图像进行图像识别，判断所述目标图像中是否包含有身份标识码；所述确定模块，用于在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备。

可选地，所述确定模块，还用于在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，基于所述目标第二设备的身份标识码确定所述目标第二设备在所述目标网络中的目标网络地址；所述第一发送模块502，具体用于基于所述目标网络地址向所述目标第二设备发送所述目标控制指令。

图6为本申请一实施例提供的免唤醒语音交互装置的结构示意图，如图6所示，具体包括：

接收模块601，用于在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令；执行模块602，用于响应于所述目标控制指令进入语音交互唤醒状态；第二获取模块603，用于获取用户发出的目标语音指令；所述执行模块602，还用于执行所述目标语音指令指示的目标操作；其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

本申请提供的免唤醒语音交互装置，在所述第一设备处于预设工作模式的情况下，实时获取摄像头采集的目标图像；并在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令，控制目标第二设备进入唤醒状态。如此，能够在目标第二设备处于第一设备的摄像头拍摄画面中的情况下，通过第一设备向目标第二设备发送的目标控制指令，使得目标第二设备能够直接响应用户的语音指令，而无需先将目标第二设备唤醒，不仅简化了人机交互流程，还很大程度上提高了人机交互效率。

图7示例了一种电子装置的实体结构示意图，如图7所示，该电子装置可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行免唤醒语音交互方法，该方法包括：实时通过摄像头采集目标图像；在所述目标图像中包括目标第二设备的情况下，向目标第二设备发送目标控制指令；其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。或者，在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态；获取用户发出的目标语音指令，执行所述目标语音指令指示的目标操作；其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的免唤醒语音交互方法，该方法包括：实时通过摄像头采集目标图像；在所述目标图像中包括目标第二设备的情况下，向目标第二设备发送目标控制指令；其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。或者，在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态；获取用户发出的目标语音指令，执行所述目标语音指令指示的目标操作；其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

又一方面，本申请还提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述各方法提供的免唤醒语音交互方法，该方法包括：实时通过摄像头采集目标图像；在所述目标图像中包括目标第二设备的情况下，向目标第二设备发送目标控制指令；其中，所述目标第二设备为接入目标网络中的、且能够响应语音指令的语音交互设备；所述目标控制指令用于控制所述目标第二设备进入唤醒状态；在所述目标第二设备处于唤醒状态的情况下，所述目标第二设备能够直接对语音指令做出响应。或者，在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态；获取用户发出的目标语音指令，执行所述目标语音指令指示的目标操作；其中，所述目标控制指令为所述第一设备在满足预设条件的情况下发送的；所述预设条件包括：在所述第一设备处于预设工作模式的情况下，所述第一设备的摄像头采集的目标图像中包括所述目标第二设备。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种免唤醒语音交互方法，其特征在于，应用于第一设备，包括：

实时通过摄像头采集目标图像；

在所述目标图像中包括目标第二设备的情况下，向所述目标第二设备发送目标控制指令；

2.根据权利要求1所述的免唤醒语音交互方法，其特征在于，所述目标第二设备上设置有身份标识码；

所述在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令之前，所述方法还包括：

对所述目标图像进行图像识别，判断所述目标图像中是否包含有身份标识码；

在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备。

3.根据权利要求2所述的免唤醒语音交互方法，其特征在于，所述在所述目标图像中包含有身份标识码的情况下，基于所述目标图像中所包含的身份标识码确定所述身份标识码对应的目标第二设备，包括：

在所述目标图像中包含有多个第二设备中至少两个第二设备的身份标识码的情况下，判断每个第二设备的身份标识码与预设识别区域的距离；

将所述至少两个第二设备中身份标识码与所述预设识别区域的距离最近的第二设备确定为所述目标第二设备。

4.根据权利要求2或3所述的免唤醒语音交互方法，其特征在于，所述在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，向目标第二设备发送目标控制指令，包括：

在所述目标图像中包括多个第二设备中的任一目标第二设备的情况下，基于所述目标第二设备的身份标识码确定所述目标第二设备在所述目标网络中的目标网络地址；

基于所述目标网络地址向所述目标第二设备发送所述目标控制指令。

5.一种免唤醒语音交互方法，其特征在于，应用于目标第二设备，包括：

在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态；

获取用户发出的目标语音指令，执行所述目标语音指令指示的目标操作；

6.根据权利要求5所述的免唤醒语音交互方法，其特征在于，所述目标第二设备为多个第二设备中的任一个；所述多个第二设备为接入目标网络中的、且能够响应语音指令的多个语音交互设备；

所述在所述第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令，并响应于所述目标控制指令进入语音交互唤醒状态之后，所述方法还包括：

在所述多个第二设备中存在处于唤醒状态的第三设备的情况下，向所述第三设备发送休眠指令；

7.一种免唤醒语音交互装置，其特征在于，所述装置包括：

第一获取模块，用于实时通过摄像头采集目标图像；

第一发送模块，用于在所述目标图像中包括目标第二设备的情况下，向所述目标第二设备发送目标控制指令；

8.一种免唤醒语音交互装置，其特征在于，所述装置包括：

接收模块，用于在所述目标第二设备处于待唤醒状态的情况下，接收第一设备发送的目标控制指令；

执行模块，用于响应于所述目标控制指令进入语音交互唤醒状态；

第二获取模块，用于获取用户发出的目标语音指令；

所述执行模块，还用于执行所述目标语音指令指示的目标操作；

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至4，或者5和6中任一项所述的免唤醒语音交互方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至4，或者5和6中任一项所述的免唤醒语音交互方法。