CN115171692A

CN115171692A - 一种语音交互方法和装置

Info

Publication number: CN115171692A
Application number: CN202210837475.0A
Authority: CN
Inventors: 朱长宝
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-11
Also published as: US20240021194A1

Abstract

本公开提供一种语音交互方法和装置，通过接收各电子设备中至少一个唤醒设备响应于用户的语音指令发送的唤醒信号，从各电子设备中确定至少一个目标设备，并指示各目标设备识别语音指令的语义得到语义信息，以根据语义信息，确定各目标设备中的第一应答设备，以使第一应答设备对语音指令做出响应。解决了多个设备难以与用户进行准确的交互的问题，有利于用户体验。

Description

一种语音交互方法和装置

技术领域

本公开涉及多设备交互技术领域，尤其涉及一种语音交互方法和装置。

背景技术

随着人工智能领域的技术突破，诸如智能音箱、智能手机、智能车载显示器等能够与用户进行语音交互的语音设备极大地方便了人们的日常生活。用户可以利用预先设置的唤醒词唤醒对应的语音设备，以实现与唤醒的语音设备之间的交互。

然而，当使用环境中存在多个语音设备且多个语音设备的唤醒词也一致时，多个语音设备将同时与用户交互，从而使得语音设备之间相互干扰，产生大量噪音，进而影响正常语音交互，甚至可能导致语音设备做出错误响应。有鉴于此，如何在多个语音设备的使用场景下，准确地进行语音交互成为亟待解决的问题。

发明内容

本公开的实施例提供了一种语音交互方法和装置，以解决现有技术中多个语音设备无法与用户进行准确的交互，不利于用户体验的问题。具体地，本公开实施例提供如下技术方案：

根据本公开的第一方面，提供了一种语音交互方法，包括：

接收各电子设备中至少一个唤醒设备发送的唤醒信号，所述唤醒信号是所述唤醒设备采集到用户的语音指令后发送的；

响应于所述唤醒信号，从各所述电子设备中确定至少一个目标设备；

获取各所述目标设备解析的语义信息；

根据所述语义信息，确定各所述目标设备中的第一应答设备；

向所述第一应答设备发送第一应答指令，所述第一应答指令用于指示所述第一应答设备对所述语音指令做出响应。

根据本公开的第二方面，提供了一种语音交互装置，包括：

接收模块，用于接收各电子设备中至少一个唤醒设备发送的唤醒信号，所述唤醒信号是所述唤醒设备采集到用户的语音指令后发送的；

目标设备确定模块，用于响应于接收模块接收的所述唤醒信号，从各所述电子设备中确定至少一个目标设备；

第一处理模块，获取各所述目标设备解析的语义信息；

第二处理模块，用于根据从所述第一处理模块获取的所述语义信息，确定各所述目标设备中的第一应答设备；

第三处理模块，用于向所述第二处理模块确定的所述第一应答设备发送第一应答指令，所述第一应答指令用于指示所述第一应答设备对所述语音指令做出响应。

根据本公开的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的语音交互方法。

根据本公开的第四方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的语音交互方法。

本公开提供的一种语音交互方法、装置、计算机可读存储介质及电子设备，通过接收各电子设备中至少一个唤醒设备响应于用户的语音指令发送的唤醒信号，从各电子设备中确定至少一个目标设备，并指示各目标设备识别语音指令的语义得到语义信息，以根据语义信息，确定各目标设备中的第一应答设备，以使第一应答设备对语音指令做出响应。解决了多个电子设备处于同一预设空间时难以与用户进行准确的交互的问题，有利于用户体验。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的语音交互系统的结构示意图。

图2是本公开一示例性实施例提供的确定目标设备的流程示意图。

图3是本公开一示例性实施例提供的确定目标设备的流程示意图。

图4是本公开一示例性实施例提供的确定目标设备的流程示意图。

图5是本公开一示例性实施例提供的确定目标设备的流程示意图。

图6是本公开一示例性实施例提供的决策中心响应于唤醒信号的流程示意图。

图7是本公开一示例性实施例提供的确定第一解析设备和第二解析设备的流程示意图。

图8是本公开一示例性实施例提供的一种语音交互装置的结构示意图。

图9是本公开一示例性实施例提供的目标设备确定模块的结构示意图。

图10是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

语音设备是能够与用户进行语音交互的电子设备，如智能音箱、智能手机、智能车载设备等。用户可以利用预先设置的唤醒词唤醒对应的语音设备，以实现与唤醒的语音设备之间的交互。但是，当使用环境中存在多个语音设备且多个语音设备的唤醒词一致时，可能会出现用户说出唤醒词时多个设备同时与用户进行交互或者先后与用户进行交互。

以辅助驾驶或自动驾驶场景为例，车内空间可以包括多个电子设备，如手机、智能手表、平板电脑、车载设备(如车载显示器)等。当用户发出语音指令(例如：“你好，小A”/“小A，现在几点了”)后，车内的各电子设备可以通过内置的麦克风或麦克风阵列采集用户的语音指令，并在检测到用户的语音指令与其绑定的唤醒词一致时对用户进行应答(例如：“我在”/“当前的时间为10时45分”)，但是，若车内存在至少两个电子设备的唤醒词均与用户的语音指令一致时，这些唤醒词与用户的语音指令一致的电子设备均会对用户进行应答，不但会使各语音设备之间相互干扰，影响与用户的语音交互，还会产生大量噪音，影响驾驶员的驾驶安全。

基于上述技术问题，本公开提供了一种语音交互系统、方法及装置，可以对用户的语音指令进行语义分析，并根据语义分析的结果控制对应的语音设备与用户进行语音交互，即使在多个语音设备处于同一空间时，也可以使用户与语音设备进行精准的语音交互，有利于用户体验。

这里需要说明的是，本公开提供的技术方案可以应用于各种多设备交互的场景中，包括但不限于辅助驾驶或自动驾驶领域的车内交互场景，智能家居领域的语音交互场景等。

示例性系统

参见图1，为本公开实施例提供的语音交互系统的结构示意图。本申请提供的语音交互系统可以适用于用户在车辆内部驾驶或乘坐的场景，该车辆例如可以是汽车，除此之外还可以适用于其他类型的机动车或非机动车，应当理解的是，本申请提供的语音交互系统还可以适用于如智能家居语音交互等多模语音交互场景，本申请不做限制。

本申请提供的语音交互系统包括决策中心100和检测器200，其中，决策中心100和检测器200可以通过无线网络连接，无线网络可以是任意无线通信系统，比如，长期演进(Long Term Evolution，LTE)系统，或第五代移动通信系统(The 5th generation，5G)，此外还可以应用于以后的通信系统，比如第六代、第七代移动通信系统等；决策中心100和检测器200也可以通过有线网络连接，比如通过网线直接进行连接。

以本申请提供的语音交互系统应用在车辆内部的场景中为例，决策中心100可以是车内任意电子设备上的一个插件、一段特定的程序，也可以是车内任意电子设备本身，本申请不做限制，决策中心100可以与车内的其他电子设备通过有线/无线网络连接，以实现与车内的各电子设备之间的通信。

当决策中心100是电子设备本身时，决策中心100可以依照具体车型和硬件搭载环境定制实现不同功能，同时还能实现较为复杂的软件功能逻辑，支持并执行多数的开发平台的应用程序，例如，“语音协同”应用程序，在决策中心100控制运行“语音协同”应用程序时，通过对与其建立通信连接的其他电子设备(如300～a、300～b、300～c以及300～d)传入的信号进行处理，可以协调用户与各电子设备之间的语音交互。决策中心100还可以包括处理器，存储器，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。处理器可以包括一个或多个处理单元，例如：微处理器，微控制器，中央处理器(CentralProcessing Unit，CPU)，数字信号处理器，系统芯片，应用处理器，图形处理器(GraphicsProcessing Unit，GPU)，调制解调处理器，视频编解码器，基带处理器，神经网络处理器中的一个或者多个。存储器可以包括易失性存储器和/或非易失性存储器，其中，易失性存储器例如可以包括随机读取存储器(Random Access Memory，RAM)，非易失性存储器例如可以包括只读存储器(Read-Only Memory，ROM)。

检测器200用于采集外部环境或与外部交互的信号。例如，检测器200可以包括图像采集器，如摄像头，可以用于采集车内环境场景或用户交互行为，或者，检测器可以包括声音采集器，如麦克风或麦克风阵列，用于采集车内的声音，再或者，检测器可以包括温度传感器，用于采集车内各位置的环境温度。

检测器200可以辅助决策中心100协调用户与各电子设备之间的语音交互，例如，用户在发出语音指令时，检测器200采集到的图像帧序列中包括用户的视线朝向目标电子设备的画面，检测器200可以将采集到的图像帧序列发送至决策中心100，决策中心100对接收到的图像帧序列进行解析后，可以控制仅使目标电子设备对用户的语音指令做出响应。

在一种示例性实施例中，检测器200还可以包括处理器。处理器可以包括一个或多个处理单元，例如：微处理器、微控制器、中央处理器、数字信号处理器、系统芯片、应用处理器、图形处理器、调制解调处理器、视频编解码器、基带处理器、神经网络处理器中的一个或者多个。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。检测器200中的处理器可以运行预设的算法程序，例如唤醒算法，以实现在接收到至少一个电子设备的环形信号之后，对采集到的声音、图像等信息进行解析，从而确定目标设备等功能。

在一种示例性实施例中，检测器200还可以包括存储器，存储器可以包括易失性存储器和/或非易失性存储器，其中，易失性存储器例如可以包括随机读取存储器等，非易失性存储器例如可以包括只读存储器、闪存存储器等。存储器中可以存储处理器可执行的算法程序，例如唤醒算法，还可以存储检测器200采集到的声音，图像等信息，以及处理器在执行算法程序过程中产生的中间信息、结果等。

在一种示例性实施例中，决策中心通过接收任意电子设备响应于用户的语音指令发送的唤醒信号，可以从与之连接的各电子设备中确定至少一个目标设备，并指示各目标设备识别语音指令的语义得到语义信息，以根据语义信息，确定各目标设备中的第一应答设备，使第一应答设备对语音指令做出响应。解决了多个设备难以与用户进行准确的交互的问题，有利于用户体验。

本实施例提供的技术方案可通过软件、硬件、软硬件结合的任意方式实现。其中，硬件可提供声音和图像的输入，软件则可通过C++程序设计语言、Java等实现，语音交互功能则可通过基于Python程序设计语音的进行开发、实现，或者还可以通过其他软硬件来实现，本公开对具体实现的硬件、软件结构、功能不做限制。

示例性方法

图2是本公开一示例性实施例提供的语音交互方法的流程示意图，本实施例可通过决策中心实现，如图2所示，本公开一示例性实施例提供的语音交互方法至少包括如下步骤：

步骤201：接收各电子设备中至少一个唤醒设备发送的唤醒信号。

其中，电子设备包括语音设备和非语音设备，语音设备是可以与用户进行语音交互的设备，如具有语音交互功能的智能手机、智能手表、平板电脑、车载设备等，语音设备通常内置有麦克风或麦克风阵列，语音设备中的麦克风或麦克风阵列可以用于采集用户的声音和/或基于采集到的声音进行应答。非语音设备是无法与用户进行语音交互的设备，如不具备语音交互功能的电子/机械手表、手环等设备，需要说明的是，非语音设备也可以内置有麦克风或麦克风阵列，非语音设备中的麦克风或麦克风阵列可以用于采集用户的声音和/或播放特定的音频，但是无法基于采集到的声音进行应答。

当用户发出语音指令后，至少一个电子设备可以通过内置的麦克风或麦克风阵列采集用户的语音指令生成唤醒信号，并将唤醒信号发送至决策中心100，其中，生成唤醒信号并将唤醒信号发送至决策中心100的语音设备即为唤醒设备，唤醒信号可以是预先设置的第一数字信号，唤醒设备采集到用户的语音指令后，可以自动生成第一数字信号，唤醒设备将第一数字信号和采集的语音指令一同发送至决策中心100，唤醒信号也可以是根据采集到的用户的语音指令生成的对应于该语音指令的第二数字信号，唤醒设备将第二数字信号发送至决策中心100。

步骤202：响应于唤醒信号，从各电子设备中确定至少一个目标设备。

其中，决策中心100接收到唤醒设备发送的唤醒信号后，可以将与决策中心100进行通信连接的语音设备和非语音设备均确定为目标设备，也可以仅将与决策中心100进行通信连接的语音设备均确定为目标设备。

步骤203：获取各目标设备解析的语义信息。

其中，决策中心100可以向各目标设备发送语音识别指令，语音识别指令用于指示各目标设备启动语音识别。各目标设备接收到语音识别指令后，则可以启动其语音识别功能，获取用户的语音指令，并对用户的语音指令进行语义识别，得到语音指令对应的语义信息，并将语义信息发送至决策中心。

具体实现中，各目标设备获取用户的语音指令，至少可以包括两种不同的实现方式：

在第一种实现方式中，在决策中心确定各目标设备之后，各目标设备中的至少一个目标设备可以播放应答信息，该应答信息例如可以是语音信息，例如播放“您好”“我在”等语音，以实现与用户的语音交互，提醒用户继续发出语音指令。另外，应答信息也可以是形式的信息，例如在任意目标设备的显示屏上播放的动效等，本申请实施例对此不做限定。决策中心100可以在目标设备播放应答信息之后，向各目标设备发送语音识别指令，使各目标设备启动语音识别。这样，如果用户此后发出的语音指令就可以被各个目标设备获取并识别，得到对应的语义信息。

在第二种实现方式中，在决策中心确定各目标设备之后，目标设备不需要播放应答信息。决策中心在与用户免交互的情况下，向各目标设备发送语音识别指令，使各目标设备启动语音识别。其中，语音识别指令中还可以包括用户在先发出的语音指令，例如在步骤S201中发出的语音指令。这样，目标设备可以对用户在先发出的语音指令进行语义识别。

在第二种实现方式中，如果用户已经通过在先发出的语音指令表达了其真实意图，例如“给A打电话”“去XX饭店”“播放下一首”等，那么用户不需要再重复相同的语音指令。如果用户还没有通过在先发出的语音指令表达其真实意图或者完整的指令，例如仅表达了“你好，小A”、“我要调整座椅”等内容，或者还有其他意图，那么，用户可以在此后继续发出语音指令，各目标设备会对用户继续发出的语音指令进行语音识别，得到对应的语义信息。

其中，各目标设备的语音识别功能可以在设备本地实现，也可以在云端实现，本申请实施例对此不做限定。例如，当各目标设备的语音识别功能在云端实现时，各目标设备可以与服务器建立通信连接，服务器中可以存储大量标注有语义信息的标准语音指令，各目标设备接收到决策中心100发送的语音识别指令后，可以将其接收到的语音指令发送至服务器。服务器接收到各目标设备发送的语音指令后，可以将语音指令与存储的标准语音指令进行匹配，获取存储的与目标语音指令相似度最高的标准语音指令，并将该标准语音指令对应的语义信息返回至各目标设备中，各目标设备接收到服务器返回的语义信息后，可以将语义信息发送至决策中心100。

步骤204：根据语义信息，确定各目标设备中的第一应答设备。

其中，第一应答设备是根据语义信息对用户的语音指令进行响应的目标设备，例如，若用户的语音指令为“给A打电话”，各目标设备识别用户的语音指令后，将“给A打电话”对应的语义信息发送至决策中心100，决策中心100根据接收的语义信息，可以将位于车内的手机确定为第一应答设备。又例如，若用户的语音指令为“去XX饭店”，各目标设备识别用户的语音指令后，将“去XX饭店”对应的语义信息发送至决策中心100，决策中心100根据接收的语义信息，可以将具有导航功能的车载设备确定为第一应答设备。

步骤205：向第一应答设备发送第一应答指令。

其中，第一应答指令可以包括用户的语音指令对应的语义信息，第一应答指令用于指示第一应答设备根据语义信息对用户的语音指令做出响应。例如，若用户的语音指令为“给A打电话”，决策中心100确定手机是第一应答设备后，向手机发送第一应答指令，第一应答指令可以包括与语音指令“给A打电话”对应的语义信息，手机响应于接收的第一应答指令，可以做出对应的响应(向A发出通话邀请)。又例如，若用户的语音指令为“去XX饭店”，决策中心100确定具有导航功能的车载设备是第一应答设备后，向车载设备发送第一应答指令，第一应答指令可以包括与语音指令“去XX饭店”对应的语义信息，手机响应于接收的第一应答指令，可以做出对应的响应(开启“去XX饭店”的导航语音和/或导航画面)。

在一种实现方式中，如果决策中心确定第一应答设备已经对用户的语音指令进行了语音识别，并且已经得到了语义信息(例如：决策中心在先接收到了第一应答设备识别出的语义信息)，那么决策中心向第一应答设备发送的第一应答指令中可以不包括语义信息，以减少信令开销。

本实施例中，决策中心100通过接收各电子设备中至少一个唤醒设备响应于用户的语音指令发送的唤醒信号，从各电子设备中确定至少一个目标设备，并指示各目标设备识别语音指令的语义得到语义信息，以根据语义信息，确定各目标设备中的第一应答设备，以使第一应答设备对语音指令做出响应。解决了多个设备难以与用户进行准确的交互的问题，有利于用户体验。

图3示出了如图2所示的实施例中确定至少一个目标设备步骤的流程示意图。

如图3所示，在上述图2所示实施例的基础上，本公开一个示例性实施例中，步骤202所示确定至少一个目标设备步骤具体可以包括如下步骤：

步骤301：确定各电子设备与决策中心的通信方式。

其中，预设通信方式是预先设置的与决策中心100之间的通信范围位于预设空间内的通信方式，预设空间可以是车内空间，预设通信方式包括但不限于如蓝牙协议通信和有线网络通信等短距离通信方式，以及如局域网(LAN)、无线局域网(WLAN)和其他无线网络的通信方式。通信方式可以根据车内的空间大小进行设置，本申请不做限制。

步骤302：确定各电子设备中与决策中心通过预设通信方式连接的至少一个电子设备为目标设备。

在一些实施例中，可以将每一个与决策中心100通过预设通信方式连接的电子设备均确定为目标设备，例如，车内的电子设备包括智能手机、智能手表、平板电脑以及车载设备，其中，车载设备与决策中心100通过蓝牙连接，智能手机、智能手表以及平板电脑分别与决策中心100通过无线网络连接，当用户发出的语音指令后，智能手机、智能手表、平板电脑以及车载设备均可采集用户的语音指令，并生成唤醒信号发送至决策中心100，决策中心100响应于接收到的唤醒信号，检测到智能手机、智能手表、平板电脑以及车载设备均通过预设通信方式(通信范围位于车内空间的通信方式)与决策中心100连接，则将智能手机、智能手表、平板电脑以及车载设备均确定为目标设备。

在一些实施例中，各电子设备中还可以包括至少一个候选设备，候选设备是与决策中心100通过预设通信方式连接的语音设备，可以根据用于唤醒至少一个候选设备的唤醒语音，从至少一个候选设备中确定至少一个目标设备，例如，车内的电子设备包括智能手机、智能手表、平板电脑以及车载设备，其中，智能手机和车载设备对应的唤醒语音均为“你好，小A”，当用户发出“你好，小A”的语音指令后，智能手机、智能手表、平板电脑以及车载设备均可采集用户的语音指令，并生成唤醒信号发送至决策中心100，决策中心100响应于接收到的唤醒信号，检测到智能手机、智能手表、平板电脑以及车载设备均通过预设通信方式(通信范围位于车内空间的通信方式)与决策中心100连接，则将智能手机、智能手表、平板电脑以及车载设备均确定为候选设备，并检测智能手机、智能手表、平板电脑以及车载设备的唤醒词，检测后得到智能手机和车载设备对应的唤醒语音与用户的语音指令相匹配，即均为“你好，小A”，则将智能手机和车载设备确定为目标设备。

图4示出了如图2所示的实施例中确定至少一个目标设备步骤的流程示意图。

如图4所示，在上述图2所示实施例的基础上，本公开一个示例性实施例中，步骤202所示确定至少一个目标设备步骤具体可以包括如下步骤：

步骤401：获取目标用户帐号关联的至少一个电子设备的位置信息和设备标识。

在一些实施例中，可以预先将预设空间内(如车内空间)的电子设备与决策中心100登入同一个用户账号，即目标用户账号，当决策中心100接收任意电子设备发送的唤醒信号后，可以获取目标用户账号关联的各电子设备的位置信息和设备标识，其中，位置信息可以是各电子设备在以决策中心100为原点的参考坐标系中的坐标，也可以是各电子设备的经纬度信息等，本申请不做限制。设备标识可以是各电子设备的设备信息，如设备ID(每台电子设备都对应一个设备ID)，也可以是预先对各电子设备进行编码处理的编码信息，例如，可以根据各电子设备与决策中心建立通信连接的时间先后，对各电子设备进行编码，以生成编码信息。

在一些实施例中，可以预先将预设空间内(如车内空间)的电子设备登入同一个用户账号，即目标用户账号，各电子设备向决策中心100发送唤醒信号时，会将目标用户账号一同发送至决策中心100，决策中心100接收到目标用户账号后，可以获取目标用户账号关联的各电子设备的位置信息和设备标识。

在一些实施例中，决策中心100和各电子设备可以分别与服务器建立通信连接，决策中心100和预设空间内(如车内空间)的各电子设备可以登入同一个用户账号(目标用户账号)，决策中心100接收任意电子设备发送的唤醒信号后，可以向服务器发送获取请求，获取请求包括目标用户账号，以请求服务器获取与目标用户账号关联的各电子设备的位置信息和设备标识。

在一些实施例中，决策中心100和各电子设备可以分别与服务器建立通信连接，预设空间内(如车内空间)的各电子设备可以登入同一个用户账号(目标用户账号)，当各电子设备向决策中心100发送唤醒信号时，会将目标用户账号一同发送至决策中心100，决策中心100接收任意电子设备发送的唤醒信号后，可以向服务器发送获取请求，获取请求包括目标用户账号，以请求服务器获取与目标用户账号关联的各电子设备的位置信息和设备标识。

步骤402：根据电子设备的位置信息和设备标识，确定至少一个目标设备。

决策中心100接收到各电子设备的位置信息和设备标识后，可以检测处于预设空间内(如车内空间)的位置信息，并获取处于预设空间内(如车内空间)的位置信息对应的设备标识，以将设备标识对应的电子设备确定为目标设备。

在一些实施例中，还可以将前述设备标识对应的电子设备确定为候选设备，可以根据用于唤醒候选设备的唤醒语音，从候选设备中确定至少一个目标设备，例如，电子设备包括智能手机、智能手表、平板电脑以及车载设备，其中，智能手机和车载设备对应的唤醒语音均为“你好，小A”，当用户发出“你好，小A”的语音指令后，智能手机、智能手表、平板电脑以及车载设备均可采集用户的语音指令，并生成唤醒信号发送至决策中心100，决策中心100响应于接收到的唤醒信号，根据检测得到的智能手机、智能手表、平板电脑以及车载设备的位置信息，确定智能手机、平板电脑以及车载设备均位于车内空间，智能手表位于车外空间，则将智能手机、平板电脑以及车载设备确定为候选设备，并检测智能手机、平板电脑以及车载设备的唤醒词，检测后得到智能手机和车载设备对应的唤醒语音与用户的语音指令相匹配，即均为“你好，小A”，则将智能手机和车载设备确定为目标设备。

图5示出了如图2所示的实施例中确定至少一个目标设备步骤的流程示意图。

如图5所示，在上述图2所示实施例的基础上，本公开一个示例性实施例中，步骤202所示确定至少一个目标设备步骤具体可以包括如下步骤：

步骤501：获取包括预设空间内的至少一个电子设备的图像帧序列。

在一些实施例中，预设空间可以是车内空间，车内可以设置有摄像头，摄像头可以安装在车内的后视镜周围，也可以设置在车内的任意位置，摄像头的数量可以为1个也可以为多个，本申请不做限制。摄像头对车内的图像进行采集时，会实时对车内的环境进行录像，得到视频图像，并将得到的视频图像按照拍摄的时间顺序分帧存储，以生成按照拍摄的时间顺序排列的图像帧序列，图像帧序列中的每一个图像帧均包括有至少一个电子设备的图像。

步骤502：根据图像帧序列，确定至少一个电子设备中的至少一个目标设备。

在一些实施例中，可以利用分类模型对图像帧序列进行检测，确定至少一个电子设备中的至少一个目标设备。其中，分类模型可以是通过对具有分类功能的初始模型训练得到，在对初始模型进行训练时，可以将包括有多种类别的电子设备图像集作为训练数据，电子设备图像集包括多个电子设备图像，每一个电子设备图像预先标注有对应的类别标签，利用初始模型对各电子设备图像的类别进行预测，可以得到对应于各电子设备的预测标签，根据每一个电子设备对应的预测标签和类别标签，可以计算损失值，基于损失值调整初始模型的模型参数，当达到预设训练条件时，得到分类模型。

利用训练得到的分类模型对图像帧序列进行检测，可以得到图像帧序列中的电子设备图像对应的电子设备类别，进而确定位于预设空间内(如车内空间)的电子设备，并将预设空间内(如车内空间)的电子设备确定为目标设备。

在一些实施例中，可以利用光学字符识别技术(Optical CharacterRecognition，简称OCR)识别图像帧序列中的设备信息，设备信息包括但不限于设备ID、设备序列号、设备图标。根据识别到的设备信息，可以确定位于预设空间内(如车内空间)的电子设备，并将预设空间内(如车内空间)的电子设备确定为目标设备。

在一些实施例中，可以将根据图像帧序列检测得到的位于预设空间内(如车内空间)的电子设备确定为候选设备，并根据用于唤醒候选设备的唤醒语音，从候选设备中确定至少一个目标设备，例如，电子设备包括智能手机、智能手表、平板电脑以及车载设备，其中，智能手机和车载设备对应的唤醒语音均为“你好，小A”，当用户发出“你好，小A”的语音指令后，根据摄像头采集的图像帧序列确定智能手机、平板电脑以及车载设备均位于车内空间，则将智能手机、平板电脑以及车载设备确定为候选设备，并检测智能手机、平板电脑以及车载设备的唤醒词，检测后得到智能手机和车载设备对应的唤醒语音与用户的语音指令相匹配，即均为“你好，小A”，则将智能手机和车载设备确定为目标设备。

图6示出了如图2所示的实施例中决策中心100响应于唤醒信号的流程示意图。

如图6所示，在上述图2所示实施例的基础上，本公开一个示例性实施例中，步骤202所示响应于唤醒信号步骤具体可以包括如下步骤：

步骤601：响应于唤醒信号，确定第二应答设备。

其中，第二应答设备是用于播放提示音的目标设备，提示音可以是预先设置的，例如，可以预先设置提示音为“我在”、“我正在处理，请稍后”、“您好”等，以通知用户决策中心100正在根据用户的语音指令协调各目标设备，无需用户再次重复语音指令。

在一些实施例中，每一个预设空间内的具备播放音频功能的电子设备均可被确定为第二应答设备，第二应答设备的数量可以根据需求自行设置，为了减轻第二应答设备在播放提示音时对用户的干扰，减少噪音，可以将第二应答设备的数量设置为一个，即用户每次发出语音指令，决策中心100仅将目标设备中的一个确定为第二应答设备。

在一些实施例中，可以预先设置将预设空间内的某一具备播放音频功能的电子设备确定为第二应答设备，即无论用户发出何种语音指令，均由预先设置的具备播放音频功能的电子设备做出响应。

在一些实施例中，各目标设备中的唤醒设备向决策中心100发送唤醒信号，唤醒信号可以包括对应于各唤醒设备的设备标识，决策中心100可以将最先接收到的设备标识对应的唤醒设备确定为第二应答设备。

在一些实施例中，决策中心100响应于接收到的各唤醒设备发送的唤醒信号，可以控制启动预设空间内(如车内空间)的摄像头，以使摄像头采集预设空间内的视频图像，并将得到的视频图像按照拍摄的时间顺序分帧存储，以生成按照拍摄的时间顺序排列的图像帧序列，所述图像帧序列中的每一个图像帧均包括有发出语音指令的用户的人物图像。其中，由于图像帧序列是由按照拍摄的时间顺序排列的连续的图像帧组成，且相邻的两个图像帧之间的时间间隔很小，可以忽略不记，因此，可以根据各图像帧中的人物图像，分析用户的姿态，以确定用户的行为信息，并根据用户的行为信息确定第二应答设备。

其中，可以将得到的图像帧序列输入至预先训练好的姿态检测模型中，例如，将图像帧序列输入至预先训练好的faster RCNN模型中，faster RCNN模型可以对图像帧序列中的图像帧轮次处理，对每一个图像帧进行人物图像的分割，并对分割后得到的各人物图像进行识别，以获取每个人物图像的关键点信息，其中，人物图像的关键点信息可以包括人物图像的脸部关键点(五官的关键点)、手部关键点、臂部关键点以及躯干关键点等，根据检测到的每个人物图像的关键点信息，可以获取用户在各图像帧中的姿态信息，并将用户在各图像帧中的姿态信息进行融合处理，以获取用户的姿态，从而确定用户的行为信息。

行为信息可以包括但不限于用户的视线朝向信息、用户的手势信息等，根据用户的行为信息，可以确定第二应答设备。例如，若检测到一段时间内图像帧中的用户视线朝向某一目标设备，则可以将用户的视线朝向的目标设备确定为第二应答设备，用户视线朝向某一目标设备即为用户的视线朝向信息。又例如，若检测到一段时间内图像帧中的用户手指指向某一目标设备，则可以将用户手指指向的目标设备确定为第二应答设备，用户手指指向某一目标设备即为用户的手势信息。又例如，可以预先将车内各目标设备与特定的手势绑定，例如，车内的目标设备包括智能手机以及车载设备，可以预先将智能手机与用户握拳的手势绑定，将车载设备与用户挥手的手势绑定，当用户发出语音指令，并做出握拳的手势时，决策中心100可以将预设空间内的智能手机确定为第二应答设备。

步骤602：向第二应答设备发送第二应答指令。

其中，第二应答指令用于指示第二应答设备播放预先设置的提示音。当决策中心100确认第二应答设备后，可以向第二应答设备发送第二应答指令，第二应答设备接收到决策中心100发送的第二应答设备后，可以播放预先设置的提示音。

图7示出了确定第一解析设备和第二解析设备的流程示意图。

如图7所示，在上述图2所示实施例的基础上，本公开一个示例性实施例中，语义信息包括设备标识，步骤204所示根据语义信息，确定各目标设备中的第一应答设备步骤之前，还可以包括如下步骤：

步骤701：将最先接收到的设备标识对应的目标设备确定为第一解析设备，将除所述第一解析设备以外的目标设备确定为第二解析设备。

其中，各目标设备对用户的语音指令进行识别得到语义信息后，可以将语义信息发送至决策中心100，由于各目标设备对语音指令进行识别所需的时间不同，各目标设备尽管在同一时间点对语音指令进行识别，完成识别时的时间点也可能不同，由于各目标设备与决策中心之间的通信连接方式不同，通信距离也不同，尽管各目标设备完成识别语音指令得到语义信息的时间相同，决策中心100接收到各目标设备发送的语义信息时的时间也可能不同。为了节约决策中心100的内存资源，决策中心100可以将最先接收到的设备标识对应的目标设备确定为第一解析设备，将除所述第一解析设备以外的目标设备确定为第二解析设备，且在接收到第一解析设备发送的语义信息后，将不再接收各第二解析设备发送的语义信息。

步骤702：向第二解析设备发送用于指示终止对所述语音指令进行语义识别的控制指令，以使接收到控制指令的第二解析设备终止对语音指令进行语义识别。

在一些实施例中，各第二解析设备在对语音指令进行语义识别时会占用内存资源，为了节约各第二解析设备的内存资源，在决策中心100确定第一解析设备和第二解析设备后，可以向各第二解析设备发送用于指示终止对所述语音指令进行语义识别的控制指令，各第二解析设备接收到该控制指令后，停止对语音指令进行语义识别，以节约各第二解析设备的内存资源。

综上所述，本公开公开了一种语音交互方法，通过接收各电子设备中至少一个唤醒设备响应于用户的语音指令发送的唤醒信号，从各电子设备中确定至少一个目标设备，并指示各目标设备识别语音指令的语义得到语义信息，以根据语义信息，确定各目标设备中的第一应答设备，以使第一应答设备对语音指令做出响应。解决了多个设备难以与用户进行准确的交互的问题，有利于用户体验。

示例性装置

参见图8，为本公开实施例提供的一种语音交互装置的结构示意图，该装置用于实现前述方法实施例的全部或部分功能。具体地，所述语音交互装置包括接收模块、目标设备确定模块、第一处理模块、第二处理模块以及第三处理模块。此外，该装置还可以包括其他更多模块，比如存储模块、发送模块等，本实施例对此不予限制。

在一些实施例中，接收模块用于接收各电子设备中至少一个唤醒设备发送的唤醒信号。其中，唤醒信号是唤醒设备采集到用户的语音指令后发送的。目标设备确定模块用于响应于接收模块接收的唤醒信号，从各电子设备中确定至少一个目标设备。第一处理模块用于获取各所述目标设备解析的语义信息。第二处理模块用于根据从第一处理模块获取的语义信息，确定各目标设备中的第一应答设备。第三处理模块用于向第二处理模块确定的第一应答设备发送第一应答指令，第一应答指令用于指示第一应答设备对语音指令做出响应。

可选的，在本实施例的一种实现方式中，响应于唤醒信号，从各电子设备中确定至少一个目标设备，包括：确定各电子设备中与决策中心通过预设通信方式连接的至少一个电子设备为目标设备，预设通信方式的通信范围位于预设空间内。

可选的，在本实施例的一种实现方式中，响应于唤醒信号，从各电子设备中确定至少一个目标设备，包括：获取目标用户帐号关联的至少一个电子设备的位置信息和设备标识；根据电子设备的位置信息和设备标识，确定至少一个目标设备，至少一个目标设备位于预设空间内。

图9为本公开一示例性实施例提供的目标设备确定模块的结构示意图，如图9所示，目标设备确定模块还包括图像检测单元和图像分析单元，图像检测单元用于获取包括有预设空间内的画面的图像帧序列，图像分析单元用于根据图像检测模块获取的图像帧序列，检测图像帧序列中的电子设备，并将根据检测到的图像帧序列中的电子设备确定至少一个目标设备。

进一步如图9所示目标设备确定模块还可以包括子应答设备确定单元和发送单元，其中，子应答设备确定单元用于响应于唤醒信号，确定第二应答设备(例如，利用图像检测单元检测到的图像帧序列确定第二应答设备)，第二应答设备是用于播放预先设置的提示音的目标设备。发送单元用于向第二应答设备发送第二应答指令，以指示第二应答设备播放预先设置的提示音。

可选的，在本实施例的一种实现方式中，唤醒信号包括设备标识，响应于所述唤醒信号，确定第二应答设备，包括：将最先接收到的设备标识对应的唤醒设备确定为第二应答设备。

可选的，在本实施例的一种实现方式中，响应于唤醒信号，确定第二应答设备，包括：获取包括用户的图像帧序列；基于图像帧序列，确定用户的行为信息；根据用户的行为信息，确定第二应答设备。

可选的，在本实施例的一种实现方式中，语义信息包括设备标识，根据所述信息，确定各目标设备中的第一应答设备之前，包括：

将最先接收到的设备标识对应的目标设备确定为第一解析设备，将除第一解析设备以外的目标设备确定为第二解析设备；

向第二解析设备发送用于指示终止对所述语音指令进行语义识别的控制指令，以使接收到控制指令的第二解析设备终止对语音指令进行语义识别。

另外，本装置实施例中，如图8所示的各个模块的功能与前述如图2所示的方法实施例对应，比如，接收模块用于执行前述方法步骤201，或者目标设备确定模块用于执行前述方法步骤202、第一处理模块用于执行前述方法步骤203、第二处理模块用于执行前述方法步骤204、第三处理模块用于执行前述方法步骤205等。

示例性电子设备

下面，参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图10图示了根据本公开实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的语音交互方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音交互方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音交互方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音交互方法，所述方法包括：

获取各所述目标设备解析的语义信息；

2.根据权利要求1所述的方法，其中，所述响应于所述唤醒信号，从各所述电子设备中确定至少一个目标设备，包括：

确定各所述电子设备中与所述决策中心通过预设通信方式连接的至少一个电子设备为目标设备，所述预设通信方式的通信范围位于预设空间内。

3.根据权利要求1所述的方法，其中，所述响应于所述唤醒信号，从多个电子设备中确定至少一个目标设备，包括：

获取目标用户帐号关联的至少一个所述电子设备的位置信息和设备标识；

根据所述电子设备的位置信息和设备标识，确定至少一个目标设备，所述至少一个目标设备位于预设空间内。

4.根据权利要求1所述的方法，其中，所述响应于所述唤醒信号，从多个电子设备中确定至少一个目标设备，包括：

响应于所述唤醒信号，确定第二应答设备，所述第二应答设备是用于播放预先设置的提示音的所述目标设备；

向所述第二应答设备发送第二应答指令，以指示所述第二应答设备播放预先设置的提示音。

5.根据权利要求4所述的方法，其中，所述唤醒信号包括设备标识，所述响应于所述唤醒信号，确定第二应答设备，包括：

将最先接收到的所述设备标识对应的所述唤醒设备确定为所述第二应答设备。

6.根据权利要求4所述的方法，其中，所述响应于所述唤醒信号，确定第二应答设备，包括：

获取包括所述用户的图像帧序列；

基于所述图像帧序列，确定所述用户的行为信息；

根据所述用户的行为信息，确定所述第二应答设备。

7.根据权利要求1所述的方法，其中，所述语义信息包括设备标识，所述根据所述语义信息，确定各所述目标设备中的第一应答设备之前，包括：

将最先接收到的所述设备标识对应的所述目标设备确定为第一解析设备，将除所述第一解析设备以外的所述目标设备确定为第二解析设备；

向所述第二解析设备发送用于指示终止对所述语音指令进行语义识别的控制指令，以使接收到所述控制指令的所述第二解析设备终止对所述语音指令进行语义识别。

8.一种语音交互装置，包括：

第一处理模块，用于获取各所述目标设备解析的语义信息；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的语音交互方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的语音交互方法。