CN110364159B

CN110364159B - 一种语音指令的执行方法、装置及电子设备

Info

Publication number: CN110364159B
Application number: CN201910766029.3A
Authority: CN
Inventors: 杜国威
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-04-29
Anticipated expiration: 2039-08-19
Also published as: CN110364159A

Abstract

本发明公开了一种语音指令的执行方法，包括：在同时接收到至少两个声源对象发出的语音指令时，确定至少两个声源对象的位置；根据至少两个声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图；根据拓扑结构图，分别获取至少两个声源对象发出的语音指令的权重值；执行权重值最大的语音指令。同时，本发明还公开了一种语音指令的执行装置和电子设备。

Description

一种语音指令的执行方法、装置及电子设备

技术领域

本发明涉及智能电子设备技术领域，尤其涉及一种语音指令的执行方法、装置及电子设备。

背景技术

随着人工智能的快速发展，智能音箱、智能语音识别机器人等语音智能设备不断涌现，并且由于语音智能设备能够智能识别用户的语音指令，无需手动操作，极大的方便了用户对只能设备的控制，智能语音识别技术得到极大的发展。

相关技术中，智能语音识别主要依赖于语音前端处理模块，通过前端处理模块在特征提取之前，对原始语音进行处理，部分消除噪声和不同说话人带来的音箱，抑制各种噪声干扰，使待识别语音更干净，从而更能反映语音的本质特征。

但是，相关技术中的智能语音设备在多人同时发出语音指令时，无法准确确定需要执行的待执行语音指令。

发明内容

有鉴于此，本发明提供了一种语音指令的执行方法、装置及电子设备，以解决相关技术中的智能语音设备在多人同时发出语音指令时，无法准确确定需要执行的待执行语音指令的问题。

为实现上述发明目的，根据本发明的一个方面，提供一种语音指令的执行方法，应用于电子设备，包括：

在同时接收到至少两个声源对象发出的语音指令时，确定所述至少两个声源对象的位置；

根据所述至少两个声源对象的位置以及所述电子设备的位置，建立所述电子设备和所述至少两个声源对象的拓扑结构图；

根据所述拓扑结构图，分别获取所述至少两个声源对象发出的所述语音指令的权重值；

执行所述权重值最大的所述语音指令。

在一种可选方式中，在所述根据所述至少两个声源对象的位置以及所述电子设备的位置，建立所述电子设备和所述至少两个声源对象的拓扑结构图之前，所述方法还包括：

根据所述至少两个声源对象的位置对所述至少两个声源对象进行图像采集，获取至少一帧声源图像；

分别获取所述至少一帧声源图像中每一个所述声源对象的面部朝向；

所述建立所述电子设备和所述至少两个声源对象的拓扑结构图，包括：

根据所述声源对象的面部朝向、所述声源对象的位置以及所述电子设备的位置，建立所述电子设备和所述至少两个声源对象的拓扑结构图。

在一种可选方式中，所述拓扑结构图包括：所述电子设备与所述声源对象之间的距离和所述电子设备与所述声源对象的面部朝向之间的第一夹角；

所述根据所述拓扑结构图，分别获取所述至少两个声源对象发出的所述语音指令的权重值，包括：

根据所述距离和所述第一夹角，分别获取所述语音指令的权重值。

在一种可选方式中，所述根据所述距离和所述夹角，分别获取所述语音指令的权重值，包括：

根据公式(1)计算每一个所述声源对象发出的所述语音指令的权重值；

其中，S_i为所述语音指令的权重值，α和β为常数，X_i为所述电子设备与所述声源对象的位置之间的距离，Y_i为所述电子设备与所述声源对象的面部朝向之间的第一夹角。

在一种可选方式中，在多帧所述声源图像中，至少一个所述声源对象的面部朝向发生变化的情况下；所述根据所述距离和所述第一夹角，分别获取所述语音指令的权重值，包括：

根据公式(2)计算每一个所述声源对象发出的所述语音指令的权重值；

其中，S_i为所述语音指令的权重值，α和β为常数，X_i为所述电子设备与所述声源对象的位置之间的距离，Y₀为T₀时刻所述电子设备与所述声源对象的面部朝向之间的第一夹角，Y₁为T₁时刻所述电子设备与所述声源对象的面部朝向之间的第一夹角，T为T₀时刻至T₁时刻的时间长度。

在一种可选方式中，在多帧所述声源图像中，至少一个所述声源对象的位置发生变化的情况下；所述根据所述距离和所述第一夹角，分别获取所述语音指令的权重值，包括：

根据公式(3)计算每一个所述声源对象发出的所述语音指令的权重值；

其中，S_i为所述语音指令的权重值，α和β为常数，X₀为T₀时刻所述电子设备与所述声源对象的位置之间的距离，X₁为T₁时刻所述电子设备与所述声源对象的位置之间的距离，Y_i为所述电子设备与所述声源对象的面部朝向之间的第一夹角，T为T₀时刻至T₁时刻之间的时间长度。

在一种可选方式中，每两个所述声源对象的面部朝向之间具有第二夹角，在所述第一夹角小于所述第二夹角的情况下；所述方法还包括：

获取所述至少两个声源对象发出语音指令的时间长度；

所述分别获取所述至少两个声源对象发出的所述语音指令的权重值，包括：

根据所述语音指令的时间长度，获取所述语音指令的权重值。

在一种可选方式中，所述根据所述语音指令的时间长度，获取所述语音指令的权重值，包括：

根据公式(4)计算每一个所述声源对象发出的所述语音指令的权重值；

其中，S_i为所述语音指令的权重值，α和β为常数，X_i为所述电子设备与所述声源对象的位置之间的距离，Y_i为所述电子设备与所述声源对象的面部朝向之间的第一夹角，t_i为所述声源对象发出语音指令的时间长度。

根据本发明第二个方面，提供一种语音指令的执行装置，包括：

确定模块，用于在同时接收到至少两个声源对象发出的语音指令时，确定所述至少两个声源对象的位置；

建立模块，用于根据所述至少两个声源对象的位置以及所述电子设备的位置，建立所述电子设备和所述至少两个声源对象的拓扑结构图；

获取模块，用于根据所述拓扑结构图，分别获取所述至少两个声源对象发出的所述语音指令的权重值；

执行模块，用于执行所述权重值最大的所述语音指令。

在一种可选方式中，所述装置还包括：

图像采集模块，用于在所述根据所述至少两个声源对象的位置以及所述电子设备的位置，建立所述电子设备和所述至少两个声源对象的拓扑结构图之前，根据所述至少两个声源对象的位置对所述至少两个声源对象进行图像采集，获取至少一帧声源图像；

所述获取模块，还用于分别获取所述至少一帧声源图像中每一个所述声源对象的面部朝向；

所述建立模块，还用于根据所述声源对象的面部朝向、所述声源对象的位置以及所述电子设备的位置，建立所述电子设备和所述至少两个声源对象的拓扑结构图。

所述获取模块，还用于根据所述距离和所述第一夹角，分别获取所述语音指令的权重值。

在一种可选方式中，所述获取模块，具体用于根据公式(1)计算每一个所述声源对象发出的所述语音指令的权重值；

在一种可选方式中，在多帧所述声源图像中，至少一个所述声源对象的面部朝向发生变化的情况下；

所述获取模块，具体用于根据公式(2)计算每一个所述声源对象发出的所述语音指令的权重值；

在一种可选方式中，在多帧所述声源图像中，至少一个所述声源对象的位置发生变化的情况下；

所述获取模块，具体用于根据公式(3)计算每一个所述声源对象发出的所述语音指令的权重值；

在一种可选方式中，每两个所述声源对象的面部朝向之间具有第二夹角，在所述第一夹角小于所述第二夹角的情况下；

所述获取模块，还用于获取所述至少两个声源对象发出语音指令的时间长度；

所述获取模块，还用于根据所述语音指令的时间长度，获取所述语音指令的权重值。

在一种可选方式中，所述获取模块，具体用于根据公式(4)计算每一个所述声源对象发出的所述语音指令的权重值；

根据本发明第三个方面，提供一种电子设备，包括：

存储器、处理器和通讯总线，所述存储器通过所述通讯总线与所述处理器通信连接；

所述存储器中存储有计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现本发明第一个方面任一可选方式提供的方法。

根据本发明第四个方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被执行时，用于实现本发明第一个方面任一可选方式提供的方法。

本发明提供的一种语音指令的执行方法、装置及电子设备；其中，语音指令执行方法，包括：在同时接收到至少两个声源对象发出的语音指令时，确定至少两个声源对象的位置；根据至少两个声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图；根据拓扑结构图，分别获取至少两个声源对象发出的语音指令的权重值；执行权重值最大的语音指令。如此，通过确定至少两个声源对象的位置后，根据至少两个声源对象的位置和电子设备的位置关系，建立电子设备和至少两个声源对象的拓扑结构图，从拓扑结构图中获取两个声源对象发出的语音指令的权重值，根据权重值确定目标声源对象，从而执行目标声源对象的语音指令；解决了在多个声源对象同时发出语音指令时，电子设备无法准确确定需要执行的待执行语音指令的问题，提高了电子设备对语音指令识别和执行的准确性；同时，提高了电子设备对语音指令的执行效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

图1是根据本申请一实施例提供的语音指令的执行方法的应用场景示意图；

图2是根据本申请一实施例提供的语音指令的执行方法的实现流程图；

图3是根据本申请另一实施例提供的语音指令的执行方法的实现流程图；

图4A是根据本申请实施例提供的语音指令的执行方法的一种应用场景图；

图4B是根据本申请实施例提供的语音指令的执行方法的另一种应用场景图；

图4C是根据本申请实施例提供的语音指令的执行方法的另一种应用场景图；

图4D是根据本申请实施例提供的语音指令的执行方法的另一种应用场景图；

图5是根据本申请实施例提供的语音指令的执行装置的结构示意图；

图6是根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明实施例的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

图1是根据本申请一实施例提供的语音指令的执行方法的应用场景示意图。

参照图1所示，图1中以智能音箱11作为示例示出，需要说明的是，本申请实施例提供的语音指令的执行方法，并不仅限于在智能音箱上的使用，还可以再诸如智能手机、智能空调、智能电视机或者平板电脑、个人数字电脑等电子设备上使用，图1中的智能音箱11仅是一种举例说明，并非对本申请实施例中的电子设备的具体限定。

参照图1所示，在智能音箱11的使用过程中，可能存在多个声源对象，例如第一声源对象12和第二声源对象13同时对智能音箱11发出语音指令的情况；或者，第一声源对象12和第二声源对象13一前一后发出语音指令的情况。相关技术中，对原始语音进行处理，部分消除噪声和不同说话人带来的影响，抑制各种干扰；由于对其他声音采用抑制策略，在多人说话(例如图1中示出的两人)时，当第一声源对象12在第二声源对象13之前进行说话时，智能音箱11只能对第一声源对象12发出的语音指令进行响应并执行，不论第二声源对象13发出了何种语音指令或者重复多次语音指令，智能音箱11都不能对第二声源对象13发出的语音指令进行响应并执行，第二声源对象13只能等待智能音箱11执行完第一声源对象12的语音指令之后，重新对智能音箱11进行唤醒，并重新发出语音指令。在另一种可能的场景中，第一声源对象12和第二声源对象13同时发出语音指令，此时，智能音箱11难以确定需要执行哪一个声源对象发出的语音指令。需要说明的是，图1示出的多人场景仅是作为一种示例性说明本申请实施例提供的语音指令执行方法的其中一种应用场景，可以理解的是，本申请实施例提供的语音指令执行方法同样可以适用于单人场景。

图2是根据本申请一实施例提供的语音指令的执行方法的实现流程图。

参照图2所示，本申请一实施例提供的语音指令的执行方法，应用于电子设备，其中，电子设备可以是智能音箱、智能手机、智能空调、智能冰箱、笔记本电脑、个人数字电脑或平板电脑等电子设备，当然，本申请实施例提供的语音指令执行方法还可以用于其他具有语音控制功能的电子设备，本实施例中不再一一列举；包括以下步骤：

步骤201，在同时接收到至少两个声源对象发出的语音指令时，确定至少两个声源对象的位置。

具体的，本实施方式中，同时接受到至少两个声源对象发出的语音指令可以是：至少两个声源对象，例如图1示出的第一声源对象12和第二声源对象13同时发出的语音指令；也可以是：至少两个声源对象中的一些声源对象的语音指令尚未完成时，又接收到另一些声源对象发出语音指令；例如图1示出的第一声源对象12正在对智能音箱11发出语音指令，此时，第二声源对象13又向智能音箱11发出语音指令；例如，在一些具体场景中，第一声源对象12发出语音指令“帮我打开周杰伦的音乐”；同时，第二声源对象13发出语音指令“帮我打开王菲的音乐”。

具体的，本实施方式中，确定至少两个声源对象的位置，可以是通过声源定位原理对发出语音指令的声源对象进行定位。具体的，如图1示出的智能音箱11在同时接收到第一声源对象12和第二声源对象13发出的语音指令时，通过麦克风阵列对声源的位置进行探测，确定在空间中第一声源对象12和第二声源对象13的位置，然后，智能音箱11根据第一声源对象12和第二声源对象13的位置形成两个不同的波束分别获取第一声源对象12和第二声源对象13发出的声音。

步骤202，根据至少两个声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图。

具体的，当智能音箱11被唤醒，当然，在一些可选的实施方式中，智能音箱11也可以是一直处于拾音状态，智能音箱11的系统检测到多人发出的语音指令，例如图1中的第一声源对象12和第二声源对象13发出的语音指令，智能音箱11会根据第一声源对象12和第二声源对象13发出的声音，根据声源定位原理，基于智能音箱11的麦克风阵列对声源信号的位置进行探测，确定在特定空间中声源对象与智能音箱11之间的位置关系；从而对第一声源对象12和第二声源对象13与智能音箱11之间的位置关系进行确定；根据确定出的第一声源对象12和第二声源对象13与智能音箱11之间的位置关系，建立智能音箱11、第一声源对象12和第二声源对象13的拓扑结构图，如图1所示。

步骤203，根据拓扑结构图，分别获取至少两个声源对象发出的语音指令的权重值。

具体的，参照图1所示，本实施例中，建立的智能音箱11、第一声源对象12和第二声源对象13的拓扑结构图，拓扑结构图能够反映出第一声源对象12和第二声源对象13与智能音箱11之间的位置关系，例如第一声源对象12与智能音箱11之间的距离小于第二声源对象13与智能音箱11之间的距离；第一声源对象12和第二声源对象13与智能音箱11之间的位置关系会影响智能音箱11对声源对象发出的语音指令的拾音效果；即第一声源对象12和第二声源对象13与智能音箱11之间的位置关系会影响声源对象发出的语音指令的权重值。

步骤204，执行权重值最大的语音指令。

具体的，参照图1，假设第一声源对象12与智能音箱11之间的距离小于第二声源对象13与智能音箱11之间的距离，此时，第一声源对象12发出的语音指令的权重值大于第二声源对象13发出的语音指令的权重值，则智能音箱11执行第一声源对象11发出的语音指令。

本实施例提供的语音指令的执行方法通过确定至少两个声源对象的位置后，根据至少两个声源对象的位置和电子设备的位置关系，建立电子设备和至少两个声源对象的拓扑结构图，从拓扑结构图中获取两个声源对象发出的语音指令的权重值，根据权重值确定目标声源对象，从而执行目标声源对象的语音指令；解决了在多个声源对象同时发出语音指令时，电子设备无法准确确定需要执行的待执行语音指令的问题，提高了电子设备对语音指令识别和执行的准确性；同时，提高了电子设备对语音指令的执行效率。

图3是根据本申请另一实施例提供的语音指令的执行方法的实现流程图；图4A是根据本申请实施例提供的语音指令的执行方法的一种应用场景图；图4B是根据本申请实施例提供的语音指令的执行方法的另一种应用场景图；图4C是根据本申请实施例提供的语音指令的执行方法的另一种应用场景图；图4D是根据本申请实施例提供的语音指令的执行方法的另一种应用场景图。

参照图3至图4D所示，本申请另一实施例提供的语音指令的执行方法，包括以下步骤：

步骤301，在同时接收到至少两个声源对象发出的语音指令时，确定至少两个声源对象的位置。

具体的，本实施方式中，同时接受到至少两个声源对象发出的语音指令可以是：至少两个声源对象，例如图4A示出的第一声源对象12和第二声源对象13同时发出的语音指令；也可以是：至少两个声源对象中的一些声源对象的语音指令尚未完成时，又接收到另一些声源对象发出语音指令；例如图4A示出的第一声源对象12正在对智能音箱11发出语音指令，此时，第二声源对象13又向智能音箱11发出语音指令；例如，在一些具体场景中，第一声源对象12发出语音指令“帮我打开周杰伦的音乐”；同时，第二声源对象13发出语音指令“帮我打开王菲的音乐”。

具体的，本实施方式中，确定至少两个声源对象的位置，可以是通过声源定位原理对发出语音指令的声源对象进行定位。具体的，如图4A示出的智能音箱11在同时接收到第一声源对象12和第二声源对象13发出的语音指令时，通过麦克风阵列对声源的位置进行探测，确定在空间中第一声源对象12和第二声源对象13的位置，然后，智能音箱11根据第一声源对象12和第二声源对象13的位置形成两个不同的波束分别获取第一声源对象12和第二声源对象13发出的声音。

步骤302，根据至少两个声源对象的位置对至少两个声源对象进行图像采集，获取至少一帧声源图像。

具体的，具体的，本实施方式中，智能音箱11为具有摄像功能的音箱，在智能音箱11根据声源定位原理确定第一声源对象12和第二声源对象13的位置后，智能音箱11的摄像头分别对第一声源对象12和第二声源对象13进行图像采集。在一些可选实施方式中，智能音箱11的摄像功能可以是处于一直启动的状态，在智能音箱11确定第一声源对象12和第二声源对象13的位置后，直接进入图像采集步骤；在另一些可选实施方式中，智能音箱11的摄像功能可以是处于休眠状态，在智能音箱11确定第一声源对象12和第二声源对象13的位置后，唤醒智能音箱11的摄像功能，并进入图像采集步骤。具体的，本实施方式中，智能音箱11对第一声源对象12和第二声源对象13的图像采集可以是连续进行的，在连续采集中，至少采集一帧声源图像；具体的，声源图像可以包括第一声源对象12和第二声源对象13的图像，还可以包括周围环境的图像。

步骤303，分别获取至少一帧声源图像中每一个声源对象的面部朝向。

具体的，参照图4A所示，本实施方式中，声源对象的面部朝向可以是图4A中箭头示出的方向，例如第一声源对象12的面部朝向智能音箱11；第二声源对象13的面部朝向其他方向。由于声源对象的面部朝向会影响声源对象发出的语音指令的声波传导，从而会影响智能音箱11的拾音效果，本实施方式中，通过确定每一个声源对象的面部朝向，能够更加准确的确定每一个声源对象发出的语音指令的权重值，提高了执行语音指令的准确性。

步骤304，根据声源对象的面部朝向、声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图。

具体的，当智能音箱11被唤醒，当然，在一些可选的实施方式中，智能音箱11也可以是一直处于拾音状态，智能音箱11的系统检测到多人发出的语音指令，例如图4A中的第一声源对象12和第二声源对象13发出的语音指令，智能音箱11会根据第一声源对象12和第二声源对象13发出的声音，根据声源定位原理，基于智能音箱11的麦克风阵列对声源信号的位置进行探测，确定在特定空间中声源对象与智能音箱11之间的位置关系；从而对第一声源对象12和第二声源对象13与智能音箱11之间的位置关系进行确定；根据确定出的第一声源对象12和第二声源对象13与智能音箱11之间的位置关系，建立智能音箱11、第一声源对象12和第二声源对象13的拓扑结构图，如图4A所示。

步骤305，根据拓扑结构图，分别获取至少两个声源对象发出的语音指令的权重值。

具体的，参照图4A所示，本实施例中，建立的智能音箱11、第一声源对象12和第二声源对象13的拓扑结构图，拓扑结构图能够反映出第一声源对象12和第二声源对象13与智能音箱11之间的位置关系，例如第一声源对象12与智能音箱11之间的距离小于第二声源对象13与智能音箱11之间的距离；第一声源对象12和第二声源对象13与智能音箱11之间的位置关系会影响智能音箱11对声源对象发出的语音指令的拾音效果；即第一声源对象12和第二声源对象13与智能音箱11之间的位置关系会影响声源对象发出的语音指令的权重值。

步骤306，执行权重值最大的语音指令。

具体的，参照图4A，假设第一声源对象12与智能音箱11之间的距离小于第二声源对象13与智能音箱11之间的距离；并且，第一声源对象12的面部朝向为朝向智能音箱11，第二声源对象12的面部朝向为朝向其他非智能音箱11的方向，此时，第一声源对象12发出的语音指令的权重值大于第二声源对象13发出的语音指令的权重值，则智能音箱11执行第一声源对象11发出的语音指令。

在一些具体方式中，参照图4A所示，拓扑结构图包括：电子设备与声源对象之间的距离和电子设备与声源对象的面部朝向之间的第一夹角。

具体的，以图4A中示出的为例，需要说明的是，图4A中以声源对象为两个的情况作为示例示出，在一些可能的实施方式中，声源对象也可能是三个或者三个以上；本实施例中对此不作具体限定。建立的图谱结构图中，第一声源对象12与智能音箱11之间的距离为图4A中示出的X₁₂，第一声源对象12的面部朝向与智能音箱11之间的第一夹角为Y₁₂；第二声源对象13与智能音箱11之间的距离为X₁₃，第二声源对象13的面部朝向与智能音箱11之间的第一夹角为Y₁₃。

在一些可选实施方式中，步骤305，根据拓扑结构图，分别获取至少两个声源对象发出的语音指令的权重值，包括：

根据距离和第一夹角，分别获取语音指令的权重值。

具体的，参照图4A所示，根据第一声源对象12与智能音箱11之间的距离X₁₂，第一声源对象12的面部朝向与智能音箱11之间的第一夹角Y₁₂，获取第一声源对象12发出的语音指令的权重值；根据第二声源对象13与智能音箱11之间的距离X₁₃，第二声源对象13的面部朝向与智能音箱11之间的第一夹角Y₁₃，获取第二声源对象13发出的语音指令的权重值。

具体的，在一些可选实施方式中，根据如下公式(1)计算每一个声源对象发出的语音指令的权重值；

其中，S_i为语音指令的权重值，α和β为常数，X_i为电子设备与声源对象的位置之间的距离，Y_i为电子设备与声源对象的面部朝向之间的第一夹角。

例如，以图4A中的两个声源对象为例进行说明。第一声源对象12的语音指令权重值S₁₂为按照公式(1)计算得到的权重值；第二声源对象13的语音指令的权重值S₁₃为按照公式(1)计算得到的权重值；如此分别计算得到第一声源对象12的语音指令的权重值和第二声源对象13的语音指令的权重值。需要说明的是，公式(1)中α和β为常数，根据不同厂家生产的智能音箱11的不同有所不同，或者根据不同智能电子设备也有所不同，可以在设备出厂时具体设定。本实施方式中对常数α和β的具体数值不作限定。在一些具体场景中，如图4A所示，假设第一声源对象12与智能音箱11之间的距离X₁₂等于第二声源对象13与智能音箱11之间的距离X₁₃；从图4A示出的示例，可以看出，第一声源对象12的面部朝向与智能音箱11之间的第一夹角Y₁₂小于第二声源对象13的面部朝向与智能音箱11之间的第一夹角Y₁₃；根据公式(1)可以看出，第一声源对象12发出的语音指令的权重值S₁₂大于第二声源对象13发出的语音指令的权重值S₁₃；此时，执行第一声源对象12发出的语音指令。

在另一些可选实施方式中，参照图4B所示，在多帧声源图像中，至少一个声源对象的面部朝向发生变化的情况下；根据如下公式(2)计算每一个声源对象发出的语音指令的权重值；

其中，S_i为语音指令的权重值，α和β为常数，X_i为电子设备与声源对象的位置之间的距离，Y₀为T₀时刻电子设备与声源对象的面部朝向之间的第一夹角，Y₁为T₁时刻电子设备与声源对象的面部朝向之间的第一夹角，T为T₀时刻至T₁时刻的时间长度。

例如，图4B中示出的，在第一帧图像中，第二声源对象13的面部朝向为图中虚线箭头所指的方向，在其后几帧图像中，第二声源对象13的面部朝向发生变化，转向至图中面向智能音箱11所示的方向；此时，按照公式(2)计算第一声源对象12和第二声源对象13的权重值。根据公式(2)，假设第一声源对象12与智能音箱11之间的距离X₁₂等于第二声源对象13与智能音箱11之间的距离X₁₃；可以看出，第一声源对象12发出的语音指令的权重值S₁₂小于第二声源对象13发出的语音指令的权重值S₁₃；此时，则执行第二声源对象13发出的语音指令。本实施方式中，通过确定声源对象面部朝向与智能音箱之间的夹角的变化，来确定声源对象发出的语音指令的权重值，在声源对象转头对智能音箱发出语音指令时，能够准确确定转头发出语音指令的声源对象发出的语音指令需要优先执行，提高了语音指令执行的效率。

当然，在一些可能的实施方式中，第一声源对象12的面部朝向也可能发生变化，例如第一声源对象12的面部转向至与智能音箱11之间的第一夹角为0°的情况；此时，按照公式(2)可以看出，由于第一声源对象12面部朝向转动的角度小于第二声源对象13面部朝向转动的角度，因此，在第一声源对象12智能音箱11之间的距离X₁₂等于第二声源对象13与智能音箱11之间的距离X₁₃时，第一声源对象12发出的语音指令的权重值S₁₂小于第二声源对象13发出的语音指令的权重值S₁₃，此时，执行第二声源对象13发出的语音指令。

在另一些可能的实时场景中，参照图4B所示，第二声源对象13的面部朝向也可能从图4B中实线示出的方向转向虚线示出的方向，此时，根据公式(2)可以看出第二声源对象13与智能音箱11之间的第一夹角Y₀小于Y₁；因此，第二声源对象13发出的语音指令的权重值S₁₃会减小；从而，确定第一声源对象12发出的语音指令的权重值S₁₂大于第二声源对象13发出的语音指令的权重值S₁₃；因此，智能音箱11执行第一声源对象12发出的语音指令。

在一些可选的实施方式中，参照图4C所示，在多帧声源图像中，至少一个声源对象的位置发生变化的情况下；根据如下公式(3)计算每一个声源对象发出的语音指令的权重值；

其中，S_i为语音指令的权重值，α和β为常数，X₀为T₀时刻电子设备与声源对象的位置之间的距离，X₁为T₁时刻电子设备与声源对象的位置之间的距离，Y_i为电子设备与声源对象的面部朝向之间的第一夹角，T为T₀时刻至T₁时刻之间的时间长度。

参照图4C所示，在一些具体实施方式中，第一声源对象12在发出语音指令的同时，可能向智能音箱11移动，例如，第一声源对象12从图4C中虚线示出的位置移动到实线示出的位置；此时，按照公式(3)计算第一声源对象12发出的语音指令的权重值S₁₂；并且，按照公式(3计算)第二声源对象13发出的语音指令的权重值S₁₃，可以看出，第一声源对象12发出的语音指令的权重值S₁₂大于第二声源对象13发出的语音指令的权重值S₁₃，此时，智能音箱11执行第一声源对象12发出的语音指令。本实施方式中，通过确定声源对象与智能音箱之间的位置的变化，来确定声源对象发出的语音指令的权重值，在声源对象靠近智能音箱并对智能音箱发出语音指令时，能够准确确定靠近智能音箱的声源对象发出语音指令需要优先执行，提高了语音指令执行的效率。

当然，在一些可能的应用场景中，第一声源对象12也可以是从图4C中的实线示出的位置移动到虚线示出的位置，此时，根据公式(3)计算第一声源对象12发出的语音指令的权重值S₁₂小于第二声源对象13发出的语音指令的权重值S₁₃，此时，智能音箱11执行第二声源对象13发出的语音指令。

在一些可选的实施方式中，参照图4D所示，每两个声源对象的面部朝向之间具有第二夹角，在第一夹角小于第二夹角的情况下。

具体的，参照图4D示出的，以两个声源对象为例作为说明，第一声源对象12的面部朝向和第二声源对象13的面部朝向之间具有第二夹角，如图4D中示出的Y_12-13；第一声源对象12的面部朝向与智能音箱11之间的第一夹角Y₁₂小于第二夹角Y_12-13，并且，第二声源对象13的面部朝向与智能音箱11之间的第一夹角Y₁₃也小于第二夹角Y_12-13；此时，本申请实施例提供的语音指令的执行方法，还包括：

获取至少两个声源对象发出语音指令的时间长度。

具体的，可以在第一声源对象12和第二声源对象13发出语音指令时，进行计时，分别记录第一声源对象12发出的语音指令的时间长度，以及第二声源对象13发出的语音指令的时间长度。

此时，本申请实施例提供的语音指令的执行方法，步骤305，分别获取至少两个声源对象发出的语音指令的权重值，包括：

根据语音指令的时间长度，获取语音指令的权重值。

具体的，在一些可选实施方式中，按照公式(4)计算每一个声源对象发出的语音指令的权重值；

其中，S_i为语音指令的权重值，α和β为常数，X_i为电子设备与声源对象的位置之间的距离，Y_i为电子设备与声源对象的面部朝向之间的第一夹角，t_i为声源对象发出语音指令的时间长度。

需要说明的是，本实施例与本申请其他实施例具有相同或类似的有益效果，本实施例中不再赘述。

图5是根据本申请实施例提供的语音指令的执行装置的结构示意图。

参照图5所示，本申请实施例提供的语音指令的执行装置50，包括：

确定模块51，用于在同时接收到至少两个声源对象发出的语音指令时，确定至少两个声源对象的位置；

建立模块52，用于根据至少两个声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图；

获取模块53，用于根据拓扑结构图，分别获取至少两个声源对象发出的语音指令的权重值；

执行模块54，用于执行权重值最大的语音指令。

在一些可选的实施方式中，语音指令的执行装置50还包括：

图像采集模块55，用于在根据至少两个声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图之前，根据至少两个声源对象的位置对至少两个声源对象进行图像采集，获取至少一帧声源图像；

获取模块53，还用于分别获取至少一帧声源图像中每一个声源对象的面部朝向；

建立模块52，还用于根据声源对象的面部朝向、声源对象的位置以及电子设备的位置，建立电子设备和至少两个声源对象的拓扑结构图。

在一些可选的实施方式中，拓扑结构图包括：电子设备与声源对象之间的距离和电子设备与声源对象的面部朝向之间的第一夹角；

获取模块53，还用于根据距离和第一夹角，分别获取语音指令的权重值。

在一些可选的实施方式中，获取模块53，具体用于根据公式(1)计算每一个声源对象发出的语音指令的权重值；

在一些可选的实施方式中，在多帧声源图像中，至少一个声源对象的面部朝向发生变化的情况下；

获取模块53，具体用于根据公式(2)计算每一个声源对象发出的语音指令的权重值；

在一些可选的实施方式中，在多帧声源图像中，至少一个声源对象的位置发生变化的情况下；

获取模块53，具体用于根据公式(3)计算每一个声源对象发出的语音指令的权重值；

在一些可选的实施方式中，每两个声源对象的面部朝向之间具有第二夹角，在第一夹角小于第二夹角的情况下；

获取模块53，还用于获取至少两个声源对象发出语音指令的时间长度；

获取模块53，还用于根据语音指令的时间长度，获取语音指令的权重值。

在一些可选的实施方式中，获取模块53，具体用于根据公式(4)计算每一个声源对象发出的语音指令的权重值；

需要说明的是，本申请装置实施例与方法实施例具有相同或类似的有益效果，本实施例中不再赘述。

图6是根据本申请实施例提供的电子设备的结构示意图。

参照图6所示，本申请实施例提供的电子设备60，包括：

存储器61、处理器62和通讯总线63，存储器61通过通讯总线63与处理器62通信连接；

存储器61中存储有计算机可执行指令，处理器62用于执行计算机可执行指令，以实现本申请实施例任一可选实施方式提供的语音指令的执行方法。

需要说明的是，本申请设备实施例与方法实施例具有相同或类似的有益效果，本实施例中不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种语音指令的执行方法、装置及电子设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者设备程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干设备的单元权利要求中，这些设备中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。