CN111063343A

CN111063343A - 语音交互方法、装置、电子设备及介质

Info

Publication number: CN111063343A
Application number: CN201911268840.5A
Authority: CN
Inventors: 杜海波
Original assignee: Midea Group Co Ltd; Guangdong Midea Kitchen Appliances Manufacturing Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea Kitchen Appliances Manufacturing Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-24
Anticipated expiration: 2039-12-11
Also published as: CN111063343B

Abstract

本申请提供一种语音交互方法及装置、一种电子设备及一种计算机可读介质。其中，所述方法包括：接收至少两个语音交互设备分别发送的交互请求，其中，每个所述语音交互设备发送的所述交互请求均包含针对同一用户语音信号的检测时间信息；根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令，所述第一响应指令用于指示所述第一语音交互设备响应所述用户语音信号，其中，所述第一语音交互设备对应的检测时间信息最早。本申请可以使距离用户最近的语音交互设备响应用户，从而可以有效避免多个语音交互设备都响应用户给用户带来困惑的问题，提升用户体验。

Description

语音交互方法、装置、电子设备及介质

技术领域

本申请涉及智能家居技术领域，具体涉及一种语音交互方法及装置、一种电子设备及一种计算机可读介质。

背景技术

随着人们生活水平的提高和科技的发展进步，智能家居设备已逐渐得到广泛使用，越来越多的智能家居设备已开始支持语音交互功能，从而根据用户的语音指令执行相应的事务，可以将支持语音交互功能的设备统称为语音交互设备。

目前，用户主要通过说语音交互设备的唤醒词来唤醒设备，以免用户在正常讲话时被设备误识别，从而实现较低的误识别概率。随着这种智能语音交互的设备越来越多，同一个使用场景下已经不止一个语音交互设备。比如在厨房中，有智能微波炉、智能抽油烟机、语音冰箱，每个设备都是一个独立的语音识别入口。如果这些设备的唤醒词相同，当用户想要唤醒设备时，所有相同唤醒词的设备都会响应说话人的请求，都会与用户进行交互，容易给用户造成困惑，影响用户体验。

发明内容

本申请的目的是提供一种语音交互方法及装置、一种电子设备及一种计算机可读介质。

本申请第一方面提供一种语音交互方法，用于控制设备，所述方法包括：

接收至少两个语音交互设备分别发送的交互请求，其中，每个所述语音交互设备发送的所述交互请求均包含针对同一用户语音信号的检测时间信息；

根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令，所述第一响应指令用于指示所述第一语音交互设备响应所述用户语音信号，其中，所述第一语音交互设备对应的检测时间信息最早。

在本申请第一方面的一些实施方式中，所述方法还包括：

向所述至少两个语音交互设备中除所述第一语音交互设备之外的其他语音交互设备发送禁止响应指令；或者，

停止响应所述至少两个语音交互设备中除所述第一语音交互设备之外的其他语音交互设备发送的交互请求。

在本申请第一方面的一些实施方式中，所述交互请求包括：唤醒请求，所述唤醒请求由所述语音交互设备在检测到唤醒词后发送。

在本申请第一方面的一些实施方式中，所述根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令之前，还包括：

根据所述交互请求，确定用户交互意图信息；

根据所述用户交互意图信息，确定用于执行所述用户交互意图信息对应事务的目标控制设备；

向所述目标控制设备发送控制指令，所述控制指令用于指示所述目标控制设备执行与所述用户交互意图信息对应的事务。

在本申请第一方面的一些实施方式中，所述交互请求还包括：用户音频数据，所述用户音频数据由所述语音交互设备根据采集到的所述用户语音信号生成；

所述根据所述交互请求，确定用户交互意图信息，包括：

通过对所述用户音频数据进行语音识别，确定用户交互意图信息。

在本申请第一方面的一些实施方式中，所述交互请求还包括：用户交互意图信息，所述用户交互意图信息由所述语音交互设备对所述用户语音信号进行语音识别后生成；

所述根据所述交互请求，确定用户交互意图信息，包括：

对所述交互请求进行解析，得到用户交互意图信息。

在本申请第一方面的一些实施方式中，所述根据所述用户交互意图信息，确定用于执行所述用户交互意图信息对应事务的目标控制设备之后，还包括：

检测所述目标控制设备是否支持语音交互功能；

根据所述目标控制设备支持语音交互功能，向所述目标控制设备发送第二响应指令，所述第二响应指令用于指示所述目标控制设备响应所述用户语音信号；

所述根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令，包括：

根据所述目标控制设备不支持语音交互功能，根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令。

在本申请第一方面的一些实施方式中，所述方法还包括：

向所述至少两个语音交互设备发送时钟同步信息，以使所述至少两个语音交互设备保持时钟同步。

本申请第二方面提供一种语音交互装置，用于控制设备，包括：

交互请求接收模块，用于接收至少两个语音交互设备分别发送的交互请求，其中，每个所述语音交互设备发送的所述交互请求均包含针对同一用户语音信号的检测时间信息；

第一响应指令发送模块，用于根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令，所述第一响应指令用于指示所述第一语音交互设备响应所述用户语音信号，其中，所述第一语音交互设备对应的检测时间信息最早。

在本申请第二方面的一些实施方式中，所述装置还包括：

禁止指令发送模块，用于向所述至少两个语音交互设备中除所述第一语音交互设备之外的其他语音交互设备发送禁止响应指令；或者，

停止响应模块，用于停止响应所述至少两个语音交互设备中除所述第一语音交互设备之外的其他语音交互设备发送的交互请求。

在本申请第二方面的一些实施方式中，所述交互请求包括：唤醒请求，所述唤醒请求由所述语音交互设备在检测到唤醒词后发送。

在本申请第二方面的一些实施方式中，所述装置还包括：

用户意图确定模块，用于根据所述交互请求，确定用户交互意图信息；

目标控制设备确定模块，用于根据所述用户交互意图信息，确定用于执行所述用户交互意图信息对应事务的目标控制设备；

控制指令发送模块，用于向所述目标控制设备发送控制指令，所述控制指令用于指示所述目标控制设备执行与所述用户交互意图信息对应的事务。

在本申请第二方面的一些实施方式中，所述交互请求还包括：用户音频数据，所述用户音频数据由所述语音交互设备根据采集到的所述用户语音信号生成；

所述用户意图确定模块，包括：

用户意图识别单元，用于通过对所述用户音频数据进行语音识别，确定用户交互意图信息。

在本申请第二方面的一些实施方式中，所述交互请求还包括：用户交互意图信息，所述用户交互意图信息由所述语音交互设备对所述用户语音信号进行语音识别后生成；

所述用户意图确定模块，包括：

用户意图确定单元，用于对所述交互请求进行解析，得到用户交互意图信息。

在本申请第二方面的一些实施方式中，所述装置还包括：

语音功能检测模块，用于检测所述目标控制设备是否支持语音交互功能；

第二响应指令发送模块，用于根据所述目标控制设备支持语音交互功能，向所述目标控制设备发送第二响应指令，所述第二响应指令用于指示所述目标控制设备响应所述用户语音信号；

所述第一响应指令发送模块，包括：

第一响应指令发送单元，用于根据所述目标控制设备不支持语音交互功能，根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令。

在本申请第二方面的一些实施方式中，所述装置还包括：

时钟同步信息发送模块，用于向所述至少两个语音交互设备发送时钟同步信息，以使所述至少两个语音交互设备保持时钟同步。

本申请第三方面提供一种语音交互方法，用于语音交互设备，所述方法包括：

采集环境声音信息，并对所述环境声音信息进行语音检测；

在根据所述环境声音信息检测到用户语音信号后，生成交互请求，其中，所述交互请求包含针对所述用户语音信号的检测时间信息；

向控制设备发送所述交互请求；

在接收到所述控制设备针对所述交互请求发送的第一响应指令后，响应所述用户语音信号。

在本申请第三方面的一些实施方式中，所述方法还包括：

在接收到所述控制设备针对所述交互请求发送的禁止响应指令后，停止响应所述用户语音信号；或者，

根据未接收到所述控制设备针对所述交互请求发送的第一响应指令，拒绝响应所述用户语音信号。

在本申请第三方面的一些实施方式中，所述交互请求包括唤醒请求；

所述在根据所述环境声音信息检测到用户语音信号后，生成交互请求，包括：

在根据所述环境声音信息检测到用户语音信号后，检测所述语音信号中是否含有唤醒词；

根据检测到的唤醒词，生成唤醒请求。

在本申请第三方面的一些实施方式中，所述方法还包括：

本地响应后续检测到的用户语音信号，直至再次检测到唤醒词。

在本申请第三方面的一些实施方式中，所述在根据所述环境声音信息检测到用户语音信号后，生成交互请求，包括：

在根据所述环境声音信息检测到用户语音信号后，将检测到的用户语音信号转换为用户音频数据；

根据所述用户音频数据，生成交互请求。

对所述用户音频数据进行语音识别，确定用户交互意图信息；

根据所述用户交互意图信息，生成交互请求。

在本申请第三方面的一些实施方式中，所述方法还包括：

接收所述控制设备发送的控制指令；

根据所述控制指令，执行与用户交互意图信息对应的事务。

在本申请第三方面的一些实施方式中，所述方法还包括：

接收所述控制设备发送的时钟同步信息；

根据所述时钟同步信息更新本地时钟。

本申请第四方面提供一种语音交互装置，用于语音交互设备，包括：

环境声音采集模块，用于采集环境声音信息，并对所述环境声音信息进行语音检测；

交互请求生成模块，用于在根据所述环境声音信息检测到用户语音信号后，生成交互请求，其中，所述交互请求包含针对所述用户语音信号的检测时间信息；

交互请求发送模块，用于向控制设备发送所述交互请求；

用户语音信号响应模块，用于在接收到所述控制设备针对所述交互请求发送的第一响应指令后，响应所述用户语音信号。

在本申请第四方面的一些实施方式中，所述装置还包括：

禁止指令接收模块，用于在接收到所述控制设备针对所述交互请求发送的禁止响应指令后，停止响应所述用户语音信号；或者，

拒绝响应模块，用于根据未接收到所述控制设备针对所述交互请求发送的第一响应指令，拒绝响应所述用户语音信号。

在本申请第四方面的一些实施方式中，所述交互请求包括唤醒请求；

所述交互请求生成模块，包括：

唤醒词检测单元，用于在根据所述环境声音信息检测到用户语音信号后，检测所述语音信号中是否含有唤醒词；

唤醒请求生成单元，用于根据检测到的唤醒词，生成唤醒请求。

在本申请第四方面的一些实施方式中，所述装置还包括：

本地响应模块，用于本地响应后续检测到的用户语音信号，直至再次检测到唤醒词。

在本申请第四方面的一些实施方式中，所述交互请求生成模块，包括：

音频数据转换单元，用于在根据所述环境声音信息检测到用户语音信号后，将检测到的用户语音信号转换为用户音频数据；

第一交互请求生成单元，用于根据所述用户音频数据，生成交互请求。

音频转换单元，在根据所述环境声音信息检测到用户语音信号后，将检测到的用户语音信号转换为用户音频数据；

语音识别单元，用于对所述用户音频数据进行语音识别，确定用户交互意图信息；

第二交互请求生成单元，用于根据所述用户交互意图信息，生成交互请求。

在本申请第四方面的一些实施方式中，所述装置还包括：

控制指令接收模块，用于接收所述控制设备发送的控制指令；

控制指令执行模块，用于根据所述控制指令，执行与用户交互意图信息对应的事务。

在本申请第四方面的一些实施方式中，所述装置还包括：

时钟同步信息接收模块，用于接收所述控制设备发送的时钟同步信息；

时钟同步模块，用于根据所述时钟同步信息更新本地时钟。

本申请第五方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

在本申请第五方面的一些实施方式中，所述电子设备包括智能微波炉、智能抽油烟机、智能电饭煲、智能烤箱、智能冰箱、智能洗碗机、智能消毒柜、智能音箱或智能家居控制终端。

本申请第六方面提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请提供的语音交互方法，控制设备接收的至少两个语音交互设备分别发送的交互请求中，均含有针对同一用户语音信号的检测时间信息，由于声音的传播需要一定时长，因此，距离用户不同的语音交互设备，针对同一用户语音信号的检测时间信息并不相同，且距离越近，检测时间信息越早，所述控制设备即可根据所述检测时间信息，向检测时间信息最早的语音交互设备发送响应指令，以使距离用户最近的语音交互设备响应用户，从而可以有效避免多个语音交互设备都响应用户给用户带来困惑的问题，提升用户体验。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种语音交互方法的流程图；

图2示出了本申请的一些实施方式所提供的一种语音交互系统的示意图；

图3示出了本申请的一些具体实施方式所提供的一种语音交互方法的流程图；

图4示出了本申请的一些实施方式所提供的一种语音交互装置的示意图；

图5示出了本申请的一些实施方式所提供的另一种语音交互方法的流程图；

图6示出了本申请的一些实施方式所提供的一种语音交互设备的示意图；

图7示出了本申请的一些实施方式所提供的一种语音交互装置的示意图；

图8示出了本申请的一些实施方式所提供的一种电子设备的示意图；

图9示出了本申请的一些实施方式所提供的一种计算机介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种语音交互方法及装置、一种电子设备及一种计算机可读介质，下面结合实施例及附图进行示例性说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种语音交互方法的流程图，如图1所示，所述语音交互方法，用于控制设备，可以包括以下步骤：

步骤S101：接收至少两个语音交互设备分别发送的交互请求，其中，每个所述语音交互设备发送的所述交互请求均包含针对同一用户语音信号的检测时间信息。

步骤S102：根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令，所述第一响应指令用于指示所述第一语音交互设备响应所述用户语音信号，其中，所述第一语音交互设备对应的检测时间信息最早。

相较于现有技术，本申请实施例提供的语音交互方法，控制设备接收的至少两个语音交互设备分别发送的交互请求中，均含有针对同一用户语音信号的检测时间信息，由于声音的传播需要一定时长，因此，距离用户不同的语音交互设备，针对同一用户语音信号的检测时间信息并不相同，且距离越近，检测时间信息越早，所述控制设备即可根据所述检测时间信息，向检测时间信息最早的语音交互设备发送响应指令，以使距离用户最近的语音交互设备响应用户，从而可以有效避免多个语音交互设备都响应用户给用户带来困惑的问题，提升用户体验。

其中，所述控制设备，可以是指与多个语音交互设备通信连接的控制终端，包括但不限于智能家居控制终端、或服务器(包括但不限于独立服务器、服务器集群等)，并通过与所述语音交互设备配合，执行上述语音交互方法。

所述语音交互设备可以是任意具有语音交互功能的设备，例如智能家居设备，包括但不限于智能微波炉、智能抽油烟机、智能电饭煲、智能烤箱、智能冰箱、智能洗碗机、智能消毒柜或智能音箱等，本申请实施例不做限定。

所述检测时间信息，可以是指语音交互设备开始接收到用户语音信号的时间，也可以是接收用户语音信号完成的时间，还可以是唤醒词检测完成的时间，本申请实施例不做限定，其均可以实现本申请实施例的目的。

在本申请实施例的一些变更实施方式中，在本申请实施例的一些变更实施方式中，所述方法还包括：

通过本实施方式，可以使距离用户并非最近的语音交互设备不必响应用户，从而进一步避免多个语音交互设备都响应用户给用户带来困惑的问题，提升用户体验。

在本申请实施例的一些变更实施方式中，所述交互请求包括：唤醒请求，所述唤醒请求由所述语音交互设备在检测到唤醒词后发送。

本实施方式，语音交互设备可以仅仅在检测到唤醒词后，向所述控制设备发送唤醒请求，由所述控制设备根据所述检测时间信息确定第一语音交互设备响应用户。

所述第一语音交互设备唤醒后，后续检测到的用户语音信号可以在本地独立处理而不必上传至所述控制设备，也可以上传至所述控制设备进行处理，本申请实施例不做限定。

通过本实施方式，可以针对用户说出的唤醒词，指定多个语音交互设备中距离用户最近的第一语音交互设备唤醒，从而避免多个语音交互设备都响应用户给用户带来困惑的问题，提升用户体验。

在本申请实施例的一些变更实施方式中，所述根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令之前，还包括：

根据所述交互请求，确定用户交互意图信息；

容易理解的是，在具有多个语音交互设备的场景，用户可能需要其中的一个目标控制设备实现其交互意图，因此，通过本实施方式，控制设备还可以根据所述交互请求，确定用户交互意图信息，并根据所述用户交互意图信息，向所述目标控制设备发送控制指令，以控制所述目标控制设备执行与所述用户交互意图信息对应的事务。

其中，所述目标控制设备与所述第一语音交互设备可以是同一个设备，也可以是不同的设备，所述目标控制设备可以是具备语音交互功能的设备，也可以是不具备语音交互功能、但已连接所述控制设备且能够被所述控制设备控制的设备，本申请实施例对此不做限定。

需要说明的是，基于本实施方式，所述第一响应指令，可以是用于指示所述第一语音交互设备通过语音、显示屏、指示灯等方式响应用户，以告知用户已收到所述用户语音信号、已执行用户交代的任务(即交互意图)、或者对用户交代任务的执行状态等信息。

通过本实施方式，可以实现对智能家居设备的交互控制，使用户可以随时随地地指示任一智能家居设备完成其交互意图，且保证其中唯一的一台语音交互设备响应用户。

在本申请实施例的一些变更实施方式中，所述交互请求还包括：用户音频数据，所述用户音频数据由所述语音交互设备根据采集到的所述用户语音信号生成；

所述根据所述交互请求，确定用户交互意图信息，包括：

本实施方式，语音交互设备可以直接将采集的用户语音信号转换为用户音频数据后上传给所述控制终端，控制终端通过对所述用户音频数据进行语音识别，确定用户交互意图信息，并根据所述用户交互意图信息，向目标控制设备发送控制指令，以控制所述目标控制设备执行与所述用户交互意图信息对应的事务。

例如，请参考图2，其示出了本申请的一些实施方式所提供的一种语音交互系统的示意图，所述控制终端可以包括云端服务器，云端服务器可以连接多个语音交互设备，并与语音处理服务器连接，语音交互设备可以直接将采集的用户语音信号转换为用户音频数据后上传给所述云端服务器，云端服务器再调用所述语音处理服务器对所述用户音频数据进行识别，以确定用户交互意图信息。

本实施方式，可以由控制设备或语音处理服务器实现对用户交互意图的识别，由于控制设备或语音处理服务器具有较强的运算能力，因此也具有更高的识别效率和准确率，可以更加高效、准确地识别用户意图并控制目标控制设备执行与所述用户交互意图信息对应的事务。

在本申请实施例的一些变更实施方式中，所述交互请求还包括：用户交互意图信息，所述用户交互意图信息由所述语音交互设备对所述用户语音信号进行语音识别后生成；

所述根据所述交互请求，确定用户交互意图信息，包括：

对所述交互请求进行解析，得到用户交互意图信息。

本实施方式，可以由语音交互设备本地实现对用户交互意图的识别，这样，不需将用户音频数据上传给控制设备进行处理，由于将用户交互意图识别的任务分散给了各个语音交互设备进行处理，因此，可以降低控制设备的系统负荷，有助于整体上提高语音交互效率。

在本申请实施例的一些变更实施方式中，所述根据所述用户交互意图信息，确定用于执行所述用户交互意图信息对应事务的目标控制设备之后，还包括：

检测所述目标控制设备是否支持语音交互功能；

在所述目标控制设备支持语音交互功能的情况下，向所述目标控制设备发送第二响应指令，所述第二响应指令用于指示所述目标控制设备响应所述用户语音信号；

在所述目标控制设备不支持语音交互功能的情况下，根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令。

本实施方式，所述目标控制设备可以是具备语音交互功能的设备，也可以是不具备语音交互功能、但已连接所述控制设备且能够被所述控制设备控制的设备，所以，通过本实施方式，对于具备语音交互功能的目标控制设备，可以控制所述目标控制设备响应用户，而若目标控制设备不具备语音交互功能，还可以控制所述第一语音交互设备响应用户，确保只有唯一一台设备响应用户。

在本申请实施例的一些变更实施方式中，所述方法还包括：

通过本实施方式，可以确保所有语音交互设备之间保持时钟同步，从而确保所述检测时间信息最早的语音交互设备距离用户最近，提高所述语音交互方法的准确性。

为了更好地对本申请实施例进行说明，下面结合具体的实施例进行说明如下：

请参考图3，其示出了本申请的一些具体实施方式所提供的一种语音交互方法的流程图，图3所示的语音交互方法可以参照图1对应的上述实施例说明进行理解，部分内容不再赘述，上述图1对应的实施例的说明也可以参照图3进行理解。

所述语音交互方法可以用于对多个语音交互设备中的一者进行唤醒，其基本原理为：通过对比唤醒词到达语音交互设备的时间差来判断距离用户最近的语音交互设备，作为唯一响应用户请求的设备。不同语音交互设备，通过高精度网络授时同步本地时间和网络时间，通过设备的振荡电路保持时间。在检测到用户的唤醒词后，语音交互设备向控制设备发送交互请求，该交互请求包含针对所述唤醒词的检测时间信息。控制设备将接收到的不同语音交互设备的检测时间信息做对比，允许时间最早的语音交互设备响应，拒绝其他语音交互设备的交互请求。

需要说明的是，现有技术提供的一种实施方式，是通过对比不同语音交互设备接收到唤醒词的能量大小、区分各个语音交互设备距离说话人的远近，距离说话人最近的语音交互设备能量最高，只对距离说话人最近的语音交互设备对说话人的请求进行响应。这种实施方式，能量容易受到麦克风朝向、麦克风等前端电路的灵敏度、能量分辨率等因素的影响，因此，对语音交互设备远近的判断准确率较低，容易发生误判。

本申请相较于现有技术提供的上述实施方式，通过计算时间差的方式，由于不受麦克风前端、方向等环境影响，还具有较高的准确性。

具体的，如图3所示，所述语音交互方法说明如下：

由于声音在某一确定环境条件下在空气中的传播速度为一固定速度v，不同语音交互设备与用户的距离不同，那么根据公式T＝L/v，用户声源传播到语音交互设备的时间也不一致。利用语音交互设备的联网功能，在时间模块中定时的做语音交互设备的高精度时间同步，并用语音交互设备中的时钟模块(例如时钟振荡电路)来保持这一高精度的时间。不同语音交互设备之间的时间统一后，同一个用户的声源信号传播到不同语音交互设备的时间是不一样的，在语音交互设备端接收到语音信号或者检测唤醒词检验匹配后，标注时间信息(即检测时间信息)。不同语音交互设备由于与用户声源的距离不一样，语音交互设备接收到语音信号的时间也不一样，将这一接收或者唤醒词检测匹配完成后的标记的时间信息进行对比，时间信息最早的语音交互设备作为唯一响应用户请求的设备。

当用户距离语音交互设备A比较近，而目标控制设备为语音交互设备B时，响应用户的语音交互设备还是语音交互设备A，语音交互设备A响应用户后，采集用户音频数据上传到云端服务器，在服务器上通过自然语音处理NLP单元，识别用户的语音和意图，通过识别结果和用户家庭中已有的设备决定哪台设备响应用户的控制指令。

用户距离语音交互设备A的距离是L1，距离语音交互设备B的距离是L2，空气中声音传播速度固定为v，则从语音交互设备接收到声音的时间会与距离成正比。在处理模块接收到唤醒词后，判断唤醒词的正确性，语音信号与唤醒词匹配，则标记检测时间信息。以上检测时间信息也可以是在语音采集模块采集到用户的唤醒词之后就标记。

语音交互设备A的检测时间信息为T1，语音交互设备B的检测时间信息为T2，T2-T1＝(L2-L1)/v。在得到检测时间信息之后，处理模块将这一标记的标记时间与语音交互设备的设备信息(设备信息包括设备类型、设备编码等)，与语音交互设备的交互请求通过联网模块一起发送给云端服务器，云端服务器收到各语音交互设备语音交互设备的交互请求信息后，通过语音交互设备上传的检测时间信息和设备信息，对比接收到的数据中的检测时间信息，将最早的检测时间信息的设备作为唯一响应用户语音请求的语音交互设备。假设L1<L2，则T1<T2，即检测时间信息T1最早，云端通过T1对应的语音交互设备A来响应用户语音请求，云端拒绝其他设备来响应用户语音请求。云端服务器将交互请求回复信号通过联网模块发送给语音交互设备，语音交互设备控制喇叭播放响应声音，或者执行其他控制指令。从而实现唯一响应。语音交互设备响应用户的请求包括通过语音方式响应、通过显示方式响应、通过执行控制指令方式响应。

空气中的音速在1个标准大气压和15℃的条件下约为340m/s，根据公式距离L＝vT，理论上当时间精度达到1ms时，L＝340m/s*1*1ms＝0.34m，即分辨精度可以达到0.34米；当时间精度达到1us时，L＝340m/s*1us＝0.34mm，即分辨精度可以达到0.34毫米。

通过本实施方式，至少还可以取得以下有益效果：。

可以为多语音入口(同一场景环境下有多个相同唤醒词的语音交互设备)场景提供距离用户最近的语音交互设备作为唯一响应入口，具有较高的分辨精度，且受设备和环境影响小，可提高用户的使用体验。

在一些具体的示例中，本申请实施例中的所述响应用户，可以是指通过设备唤醒、语音答复、设备亮灯等可以达到提示用户已经接收信息并做出回应。比如用户说关键词“小美小美”后，微波炉设备上会播放“在呢”来提示用户已经收到语音信息，这个提示还可以是通过蜂鸣器等声音提示单元或者通过显示屏、LED等显示提示方式。这种响应还包括用户控制指令的响应，比如用户说“打开油烟机”，这一响应可以在服务器端判断油烟机是否有播放设备，如果有可以在油烟机上播报“已为您打开油烟机”并下发开始工作指令给油烟机；如果烟机设备端不具有播放能力，这一响应可以是在微波炉端播报“已为您打开油烟机”，并下发开始工作指令给油烟机。

在另一些具体的示例中，以厨房中的语音交互设备如智能微波炉、智能抽油烟机(唤醒词都为“小美小美”)为例，语音交互方法的具体实施步骤可以包括：

第一步：智能微波炉和智能抽油烟机均配置连接互联网；

第二步：各语音交互设备定时通过网络做高精度时钟同步；

第三步：用户讲唤醒词“小美小美”；

第四步：厨房场景中的智能微波炉和智能抽油烟机在不同时间接收到用户的唤醒语音信息，语音处理单元标记不同的检测时间信息，并发到云端服务器做时间比较；

第五步：云端服务器在接收到语音交互设备上传的信息后，对比检测时间信息的差异，检测时间信息最早的语音交互设备语音应答用户，这里假设是微波炉更近，则微波炉接收到语音唤醒词的时间更早。云端服务器根据自然语音处理结果，分析用户的意图和需求。比如用户说“打开微波炉门”，云服务器直接下发响应指令和控制指令给微波炉，微波炉控制电路控制打开炉门，微波炉上语音回应用户“已经打开炉门”。如果用户说“打开烟机”，云端服务器判断用户是否有激活的烟机设备、烟机设备是否带有语音功能，如果有就将响应指令和控制指令下发给烟机设备，并在在烟机设备响应用户“已为您打开烟机”；如果烟机设备不带语音功能，用服务器端将响应指令发回给微波炉，将控制指令发给油烟机。

其中，云端服务器可以根据用户已有设备判断用户语音意图，判断用户想要控制什么设备(不带语音功能但是能够联网控制的设备也可以通过语音入口设备来控制工作)，在判断完成用户想要控制什么设备后，还能够结合设备特性判断能否响应用户需求。比如上诉烟机如果带有语音功能，则可以可将烟机作为一个语音响应用户需求的可选项。

在上述实施例中，提供了一种语音交互方法，与之相对应的，本申请还提供一种语音交互装置。本申请实施例提供的语音交互装置可以实施上述语音交互方法，该语音交互装置可以通过软件、硬件或软硬结合的方式来实现。例如，该语音交互装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图4，其示出了本申请的一些实施方式所提供的一种语音交互装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图4所示，所述语音交互装置10，用于控制设备，可以包括：

交互请求接收模块101，用于接收至少两个语音交互设备分别发送的交互请求，其中，每个所述语音交互设备发送的所述交互请求均包含针对同一用户语音信号的检测时间信息；

第一响应指令发送模块102，用于根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令，所述第一响应指令用于指示所述第一语音交互设备响应所述用户语音信号，其中，所述第一语音交互设备对应的检测时间信息最早。

在本申请实施例的一些变更实施方式中，所述装置10还可以包括：

在本申请实施例的一些变更实施方式中，所述交互请求可以包括：唤醒请求，所述唤醒请求由所述语音交互设备在检测到唤醒词后发送。

在本申请实施例的一些变更实施方式中，所述交互请求还可以包括：用户音频数据，所述用户音频数据由所述语音交互设备根据采集到的所述用户语音信号生成；

所述用户意图确定模块，可以包括：

在本申请实施例的一些变更实施方式中，所述交互请求还可以包括：用户交互意图信息，所述用户交互意图信息由所述语音交互设备对所述用户语音信号进行语音识别后生成；

所述用户意图确定模块，可以包括：

第二响应指令发送模块，用于在所述目标控制设备支持语音交互功能的情况下，向所述目标控制设备发送第二响应指令，所述第二响应指令用于指示所述目标控制设备响应所述用户语音信号；

所述第一响应指令发送模块102，可以包括：

第一响应指令发送单元，用于在所述目标控制设备不支持语音交互功能的情况下，根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令。

本申请实施例提供的语音交互装置10，与本申请前述实施例提供的语音交互方法出于相同的发明构思，具有相同的有益效果。

请参考图5，其示出了本申请的一些实施方式所提供的另一种语音交互方法的流程图，所述语音交互方法可以用于语音交互设备，并与图1所示的用于控制设备的语音交互方法配合实施，下述实施例说明可参照图1对应的上述实施例说明进行理解，部分内容不再赘述。

如图5所示，所述语音交互方法，用于语音交互设备，可以包括以下步骤：

步骤S201：采集环境声音信息，并对所述环境声音信息进行语音检测。

步骤S202：在根据所述环境声音信息检测到用户语音信号后，生成交互请求，其中，所述交互请求包含针对所述用户语音信号的检测时间信息。

步骤S203：向控制设备发送所述交互请求。

步骤S204：在接收到所述控制设备针对所述交互请求发送的第一响应指令后，响应所述用户语音信号。

本申请实施例提供的语音交互方法，至少具有以下有益效果：语音交互设备在检测到用户语音信号后，根据针对所述用户语音信号的检测时间信息生成交互请求，并向控制设备发送所述交互请求，由于声音的传播需要一定时长，因此，距离用户不同的语音交互设备，针对同一用户语音信号的检测时间信息并不相同，且距离越近，检测时间信息越早，所以，通过将上述检测时间信息发送给控制设备，即可帮助所述控制设备根据所述检测时间信息选出检测时间信息最早、即距离用户最近的语音交互设备响应用户，从而可以有效避免多个语音交互设备都响应用户给用户带来困惑的问题，提升用户体验。

在本申请实施例的一些变更实施方式中，所述交互请求包括唤醒请求；

根据检测到的唤醒词，生成唤醒请求。

在本申请实施例的一些变更实施方式中，所述方法还包括：

在本申请实施例的一些变更实施方式中，所述在根据所述环境声音信息检测到用户语音信号后，生成交互请求，包括：

根据所述用户音频数据，生成交互请求。

根据所述用户交互意图信息，生成交互请求。

在本申请实施例的一些变更实施方式中，所述方法还包括：

接收所述控制设备发送的控制指令；

根据所述控制指令，执行与用户交互意图信息对应的事务。

在本申请实施例的一些变更实施方式中，所述方法还包括：

接收所述控制设备发送的时钟同步信息；

根据所述时钟同步信息更新本地时钟。

请参考图6，其示出了本申请的一些实施方式所提供的一种语音交互设备的示意图，本申请实施例提供的语音交互方法可以基于所述语音交互设备实现，例如，所述语音采集模块可以是麦克风等，用于执行步骤S201；所述处理模块可以是处理器等，用于执行步骤S202；所述网络通信模块可以WiFi模块等，用于执行步骤S203；所述响应模块可以是音箱等，用于执行步骤S204；所述时钟模块可以包括时钟振荡电路等，用于实现与控制设备的时钟同步。

在上述图5对应的实施例中，提供了一种用于语音交互设备的语音交互方法，与之相对应的，本申请还提供一种语音交互装置。本申请实施例提供的语音交互装置可以实施上述语音交互方法，该语音交互装置可以通过软件、硬件或软硬结合的方式来实现。例如，该语音交互装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图7，其示出了本申请的一些实施方式所提供的一种语音交互装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图7所示，所述语音交互装置20，用于语音交互设备，可以包括：

环境声音采集模块201，用于采集环境声音信息，并对所述环境声音信息进行语音检测；

交互请求生成模块202，用于在根据所述环境声音信息检测到用户语音信号后，生成交互请求，其中，所述交互请求包含针对所述用户语音信号的检测时间信息；

交互请求发送模块203，用于向控制设备发送所述交互请求；

用户语音信号响应模块204，用于在接收到所述控制设备针对所述交互请求发送的第一响应指令后，响应所述用户语音信号。

在本申请实施例的一些变更实施方式中，所述装置20还可以包括：

拒绝响应模块，用于在未接收到所述控制设备针对所述交互请求发送的第一响应指令的情况下，拒绝响应所述用户语音信号。

在本申请实施例的一些变更实施方式中，所述交互请求可以包括唤醒请求；

所述交互请求生成模块202，可以包括：

在本申请实施例的一些变更实施方式中，所述交互请求生成模块202，可以包括：

时钟同步模块，用于根据所述时钟同步信息更新本地时钟。

本申请实施例提供的语音交互装置20，与本申请前述实施例提供的语音交互方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的语音交互方法对应的电子设备，所述电子设备可以是任意具有语音交互功能的设备，即语音交互设备，例如智能家居设备，包括但不限于智能微波炉、智能抽油烟机、智能电饭煲、智能烤箱、智能冰箱、智能洗碗机、智能消毒柜或智能音箱等，以执行上述用于语音交互设备的语音交互方法；所述电子设备也可以是与多个语音交互设备通信连接的控制终端，包括但不限于智能家居控制终端、或服务器(包括但不限于独立服务器、服务器集群等)，以执行上述用于控制设备的语音交互方法。

请参考图8，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图8所示，所述电子设备30包括：处理器300，存储器301，总线302和通信接口303，所述处理器300、通信接口303和存储器301通过总线302连接；所述存储器301中存储有可在所述处理器300上运行的计算机程序，所述处理器300运行所述计算机程序时执行本申请前述任一实施方式所提供的语音交互方法。

其中，存储器301可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口303(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器301用于存储程序，所述处理器300在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述语音交互方法可以应用于处理器300中，或者由处理器300实现。

处理器300可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301，处理器300读取存储器301中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的语音交互方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的语音交互方法对应的计算机可读介质，请参考图9，其示出的计算机可读存储介质为光盘40，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的语音交互方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的语音交互方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种语音交互方法，用于控制设备，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述交互请求包括：唤醒请求，所述唤醒请求由所述语音交互设备在检测到唤醒词后发送。

4.根据权利要求1所述的方法，其特征在于，所述根据所述检测时间信息，向所述至少两个语音交互设备中的第一语音交互设备发送第一响应指令之前，还包括：

根据所述交互请求，确定用户交互意图信息；

5.根据权利要求4所述的方法，其特征在于，所述交互请求还包括：用户音频数据，所述用户音频数据由所述语音交互设备根据采集到的所述用户语音信号生成；

所述根据所述交互请求，确定用户交互意图信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述交互请求还包括：用户交互意图信息，所述用户交互意图信息由所述语音交互设备对所述用户语音信号进行语音识别后生成；

所述根据所述交互请求，确定用户交互意图信息，包括：

对所述交互请求进行解析，得到用户交互意图信息。

7.根据权利要求4所述的方法，其特征在于，所述根据所述用户交互意图信息，确定用于执行所述用户交互意图信息对应事务的目标控制设备之后，还包括：

检测所述目标控制设备是否支持语音交互功能；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种语音交互装置，用于控制设备，其特征在于，包括：

10.一种语音交互方法，用于语音交互设备，其特征在于，所述方法包括：

采集环境声音信息，并对所述环境声音信息进行语音检测；

向控制设备发送所述交互请求；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求10所述的方法，其特征在于，所述交互请求包括唤醒请求；

根据检测到的唤醒词，生成唤醒请求。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

14.根据权利要求10所述的方法，其特征在于，所述在根据所述环境声音信息检测到用户语音信号后，生成交互请求，包括：

根据所述用户音频数据，生成交互请求。

15.根据权利要求10所述的方法，其特征在于，所述在根据所述环境声音信息检测到用户语音信号后，生成交互请求，包括：

根据所述用户交互意图信息，生成交互请求。

16.根据权利要求10所述的方法，其特征在于，所述方法还包括：

接收所述控制设备发送的控制指令；

根据所述控制指令，执行与用户交互意图信息对应的事务。

17.根据权利要求10所述的方法，其特征在于，所述方法还包括：

接收所述控制设备发送的时钟同步信息；

根据所述时钟同步信息更新本地时钟。

18.一种语音交互装置，用于语音交互设备，其特征在于，包括：

交互请求发送模块，用于向控制设备发送所述交互请求；

19.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1至8、10至17任一项所述的方法。

20.根据权利要求19所述的电子设备，其特征在于，所述电子设备包括智能微波炉、智能抽油烟机、智能电饭煲、智能烤箱、智能冰箱、智能洗碗机、智能消毒柜、智能音箱或智能家居控制终端。

21.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至8、10至17任一项所述的方法。