CN116386623A

CN116386623A - 一种智能设备的语音交互方法、存储介质及电子装置

Info

Publication number: CN116386623A
Application number: CN202310184780.9A
Authority: CN
Inventors: 崔鉴
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-07-04

Abstract

本申请公开了一种智能设备的语音交互方法、存储介质及电子装置，涉及智能家居技术领域。该智能设备的语音交互方法包括：响应于针对智能设备的唤醒指令进入唤醒状态；在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；根据所述语音识别结果生成应答语音，返回给用户。本申请提供的实施例提升了语音交互的成功率，并提高了用户的使用体验感。

Description

一种智能设备的语音交互方法、存储介质及电子装置

技术领域

本申请涉及智能家居技术领域，尤其涉及一种智能设备的语音交互方法、存储介质及电子装置。

背景技术

目前，随着人工智能与物联网相关技术的蓬勃发展，语音交互技术在信息获取、业务办理、娱乐等场景中得到了广泛的应用，方便了人们的生活。例如，业务办理场景下，用户可通过语音交互在智能设备上进行业务信息的填写，智能设备可通过语音播放功能播放业务办理的相关流程，降低了业务办理的难度。

然而，尽管目前的语音识别技术很成熟，在安静环境的场景下语音识别技术的准确率比较高，但是在一些嘈杂的场景中语音识别的准确率就较低了。比如在嘈杂的环境中，有多个人声存在(家庭其他成员同时讲话、电视中播放的人声，以及在业务办理场景中，其他的业务办理人员的声音等)，亦或是环境存在较大混响等因素，都会导致语语音识别的准确性大大降低，从而降低用户与智能设备的语音交互成功率，这严重影响了用户的使用体验感。

发明内容

有鉴于此，本申请提供一种智能设备的语音交互方法、存储介质及电子装置，提升了语音交互的成功率，并提高了用户的使用体验感。第一方面，本申请提供一种智能设备的语音交互方法，包括：

响应于针对智能设备的唤醒指令进入唤醒状态；

在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；

对所述人像信息和预设的人像库进行匹配处理，在所述人像信息和所述人像库匹配成功的情况下，根据所述人像信息确定目标用户；

在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；

将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；

根据所述语音识别结果生成应答语音，返回给用户，其中所述用户至少包括：所述目标用户、所有用户。

优选地，根据本申请提供的一种智能设备的语音交互方法，在所述根据所述人像信息确定目标用户步骤之后，所述方法包括：

在所述智能设备进入所述唤醒状态的情况下，生成启动麦克风的第一指令，并将所述第一指令下发至所述麦克风，以使所述麦克风根据所述第一指令启动，并生成麦克风启动的第一启动状态；

在所述麦克风处于所述第一启动状态的情况下，利用所述麦克风的声源定位策略采集所述目标用户的方位信息；

将所述目标用户的所述方位信息存储至信息数据库，得到第一存储标识。

优选地，根据本申请提供的一种智能设备的语音交互方法，

在所述将所述目标用户的所述方位信息存储至数据库，得到第一存储标识的步骤之后，所述方法包括：

根据所述第一存储标识在所述信息数据库中查询所述方位信息，在查询到所述方位信息的情况下，生成启动摄像头的第二指令；

将所述第二指令下发至所述摄像头，以使所述摄像头根据所述第二指令启动，并生成所述摄像头启动的第二启动状态；

在所述摄像头处于所述第二启动状态的情况下，利用所述摄像头的人脸识别策略采集所述目标用户的所述人脸信息。

优选地，根据本申请提供的一种智能设备的语音交互方法，

所述在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音，包括：

根据所述目标用户的所述方位信息和所述目标用户的所述人脸信息中的至少一个，获取所述目标用户预存于语音数据库中的声纹信息；

将所述环境声音、所述方位信息、所述人脸信息和所述声纹信息输入所述语音分离模型中进行语音分离处理，根据所述方位信息、所述人脸信息、所述声纹信息中的至少一个和所述环境声音的组合，从所述环境声音中分离出所述目标用户的所述目标语音。

优选地，根据本申请提供的一种智能设备的语音交互方法，

所述根据所述语音识别结果生成应答语音，包括：

对所述语音识别结果进行文本解析，生成与所述语音识别结果对应的语音文本信息；

对所述语音文本信息进行语义理解，生成对应的语义信息；

根据所述语义信息生成所述应答语音。

优选地，根据本申请提供的一种智能设备的语音交互方法，

所述根据所述语义信息生成所述应答语音，包括：

根据所述语义信息，从应答文本库中获取与所述语义信息对应的应答文本信息；

根据所述应答文本信息生成所述应答语音。

优选地，根据本申请提供的一种智能设备的语音交互方法，

所述根据所述应答文本信息生成所述应答语音，包括：

将所述应答文本信息输入文本语音转换模型进行语音转换处理，输出所述应答语音，其中所述文本语音转换模型为通过对应答文本样本和应答语音样本进行训练得到的。

第二方面，本申请还提供一种智能设备的语音交互装置，包括：

唤醒模块，用于响应于针对智能设备的唤醒指令进入唤醒状态；

采集模块，用于在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；

确定模块，用于对所述人像信息和预设的人像库进行匹配处理，在所述人像信息和所述人像库匹配成功的情况下，根据所述人像信息确定目标用户；

分离模块，用于在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；

识别模块，用于将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；

返回模块，用于根据所述语音识别结果生成应答语音，返回给用户。

第三方面，本申请还提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行实现如上述任一种所述智能设备的语音交互方法。

第四方面，本申请还提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行实现如上述任一种所述智能设备的语音交互方法。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述智能设备的语音交互方法。

本申请提供的一种智能设备的语音交互方法、存储介质及电子装置，通过响应于针对智能设备的唤醒指令进入唤醒状态；在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；根据所述语音识别结果生成应答语音，返回给用户。提升了语音交互的成功率，并提高了用户的使用体验感。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种智能设备的语音交互方法的硬件环境示意图；

图2是本申请提供的一种智能设备的语音交互方法的流程示意图之一；

图3是本申请提供的一种智能设备的语音交互方法的流程示意图之二；

图4是本申请提供的一种智能设备的语音交互装置的结构示意图；

图5是本申请提供的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本申请实施例中涉及的专业词汇进行解释：

语音可包括语音识别、语音交互等技术领域，是人工智能领域中的一个重要方向。

语音识别(Voice Recognition)是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语音交互(Voice Interaction)是一种机器与用户以语音为信息载体进行互动、沟通、信息交换等交互行为的技术，相较于传统的人机交互，具有方便快捷、用户舒适性高的优点。

自然语言处理(Natural Language Processing，NLP)是研究能有效地实现自然语言通信的计算机系统，特别是其中的软件系统的一门科学，是计算机科学领域与人工智能领域中的一个重要方向。

深度学习(Deep Learning，DL)是机器学习(Machine Learning，ML)领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，使得机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据的一门科学，广泛应用于语音和图像识别。

TTS是Text To Speech的缩写，即“从文本到语音”，是人机对话的一部分，让机器能够说话。

下面结合图1-图5描述本申请的一种智能设备的语音交互方法、存储介质及电子装置，本申请提供的实施例提升了语音交互的成功率，并提高了用户的使用体验感。

根据本申请实施例的一个方面，提供了一种智能设备的语音交互方法。该智能设备的语音交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述智能设备的语音交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

如图2所示，其为本申请实施例提供的一种智能设备的语音交互方法的实施流程示意图之一，一种智能设备的语音交互方法可以包括但不限于步骤S100至S600。

S100，响应于针对智能设备的唤醒指令进入唤醒状态；

S200，在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；

S300，对所述人像信息和预设的人像库进行匹配处理，在所述人像信息和所述人像库匹配成功的情况下，根据所述人像信息确定目标用户；

S400，在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；

S500，将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；

S600，根据所述语音识别结果生成应答语音，返回给用户。

在一些实施例的步骤S100中，响应于针对智能设备的唤醒指令进入唤醒状态。

需要说明的是，本申请实施例的智能设备的语音交互方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。

可选地，执行主体可以包括但不限于工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

本申请的实施例中，可为智能设备预先设置唤醒指令，唤醒指令用于唤醒智能设备。相应的，智能设备可响应于针对智能设备的唤醒指令，并进入唤醒状态。其中，唤醒指令可根据实际情况进行设置，包括但不限于唤醒词、手势、触摸感应等。

可选地，智能设备可处于唤醒状态、休眠状态和关机处于唤醒状态时，智能设备的所有功能都可使用，智能设备处于休眠状态时，智能设备的部分功能可使用，例如，可响应于针对智能设备的唤醒指令进入唤醒状态，智能设备处于关机状态时，智能设备的所有功能都不可使用。

在一些实施例的步骤S200中，在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息。

本申请的实施例中，智能设备可采集语音信息。可选地，智能设备上具有语音采集装置和人像采集装置，语音采集装置可为麦克风(Microphone)、麦克风阵列(MicrophoneArray)等，人像采集装置可为摄像头等。

环境信息至少包括：环境声音和人像信息，环境声音包括人声声音、智能家居播放声音以及环境噪音等，人像信息为单人人像信息、多人人像信息。

其具体执行步骤可以为：在所述智能设备进入所述唤醒状态的情况下，可以利用语音采集装置采集环境声音，在采集到环境声音之后，再利用人像采集装置采集环境中的人像信息，以根据人像信息确定目标用户。

在一些实施例的步骤S300中，对所述人像信息和预设的人像库进行匹配处理，在所述人像信息和所述人像库匹配成功的情况下，根据所述人像信息确定目标用户。

对采集到的人像信息和预设的人像库进行匹配处理，若是人像信息和人像库中的多个人像信息匹配成功，这确定其为目标用户。

比如在银行大厅中，一些智能终端通常只被获得授权权限的银行工作人员使用，当银行大厅中通过人像采集装置采集了很多人像信息，将采集的人像信息与银行的人像库进行匹配处理，匹配成功的人像信息，证明其为银行的工作人员，给与其授权，确定其为目标用户，因此目标用户可能为一个人，也可能为多个人。

在一些实施例的步骤S400中，在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音。

可以理解的是，在执行完步骤S300在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息的步骤之后，其具体执行步骤可以为：首先根据所述目标用户的所述方位信息和所述目标用户的所述人脸信息中的至少一个，获取所述目标用户预存于语音数据库中的声纹信息，再将所述环境声音、所述方位信息、所述人脸信息和所述声纹信息输入所述语音分离模型中进行语音分离处理，根据所述方位信息、所述人脸信息、所述声纹信息中的至少一个和所述环境声音的组合，从所述环境声音中分离出所述目标用户的所述目标语音。

在一些实施例的步骤S500中，将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果。

可以理解的是，在执行完步骤S400在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音的步骤之后，其具体执行步骤可以为：

将分离出的目标用户的目标语音输入语音识别器中进行语音识别，以获取语音识别结果。其中，语音识别器可根据实际情况进行设置，例如，可基于深度学习算法构建语音识别器。

可选地，智能设备具有语音识别器，或者语音识别器可配置在服务器中，智能设备可通过服务器与语音识别器进行数据传输。

需要说明的是，根据语音识别结果判断目标用户与智能设备是否有交互意图。

比如，假设用户所处的环境下存在键盘声、雷声等背景噪声，智能设备可能会将背景噪声作为语音信息并采集，并将采集的背景噪声输入语音识别器中进行语音识别，以获取语音识别结果，此时没有采集到目标用户与智能设备进行交互的语音信息，语音识别结果表征用户与智能设备无交互意图。

根据语音识别结果表征目标用户与智能设备是有交互意图时，才根据所述语音识别结果生成应答语音，返回给用户。

在一些实施例的步骤S600中，根据所述语音识别结果生成应答语音，返回给用户。

可以理解的是，在执行完步骤S500将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果的步骤之后，其具体执行步骤可以为：首先对所述语音识别结果进行文本解析，生成与所述语音识别结果对应的语音文本信息，再对所述语音文本信息进行语义理解，生成对应的语义信息。

再根据所述语义信息，从应答文本库中获取与所述语义信息对应的应答文本信息，最后将所述应答文本信息输入文本语音转换模型进行语音转换处理，输出所述应答语音。

需要说明的是，所述文本语音转换模型为通过对应答文本样本和应答语音样本进行训练得到的。

在本申请的一些实施例中，在所述根据所述人像信息确定目标用户步骤之后，所述方法包括：

可以理解的是，在智能设备进入唤醒状态的情况下，服务器首先生成启动麦克风的第一指令，将第一指令下发至麦克风，以使得麦克风根据第一指令启动，并生成麦克风启动的第一启动状态。在麦克风处于第一启动状态的情况下，利用麦克风内置的声源定位模块的声源定位策略，采集目标用户的方位信息。

将采集的方位信息存储至数据库，得到第一存储标识。

根据第一存储标识在数据库中查询方位信息，在查询到所述方位信息的情况下，服务器生成启动摄像头的第二指令，将第二指令下发至摄像头，以使得摄像头根据第二指令启动，并生成摄像头启动的第二启动状态。

在摄像头处于第二启动状态的情况下，利用摄像头内置的人脸识别模块的人脸识别策略采集所述目标用户的所述人脸信息。

将人脸信息存储至数据库，得到第二存储标识，根据第二存储标识可在数据库中查询人脸信息。

上述方法是为了首先启动麦克风，在麦克风启动之后，再启动摄像头，如此能够很好的保护用户的人脸信息。避免在未进行采集用户语音，未采集环境声音的情况下，就已经开启摄像头收集人脸信息。

可以理解的是，基于麦克风启动的第一启动状态，利用与所述第一启动状态对应的所述声源定位策略，采集所述目标用户的所述方位信息。

比如，在智能设备所处的环境中，以智能设备所处的位置为原点建立直角坐标系，通过对收集的目标用户的用户声音，确定目标用户在直角坐标系中的位置，此位置信息即目标用户的方位信息。

基于所述第二启动状态，利用与所述第二启动状态对应的所述人脸识别策略，采集所述目标用户的所述人脸信息。

利用摄像头收集目标用户的视频信息，并利用摄像头内置的人脸识别策略对视频信息进行目标用户的人脸截取、人脸抠图等处理，从而生成对应的人脸信息。

需要说明的是，将目标用户的方位信息和人脸信息存储于预设的信息数据库，并在存储时间超过预设时间阈值时，删除对应的方位信息和人脸信息，以此更好的保护用户信息隐私。

在本申请的一些实施例中，所述在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音，包括：

可以理解的是，根据所述目标用户的所述方位信息和所述目标用户的所述人脸信息中的至少一个，从信息数据库中去根据确定目标用户的主键，目标用户的主键可以为目标用户的用户标识，根据目标用户的用户标识再从语音数据库中获取目标用户的声纹信息。

需要说明的是，此声纹信息即可以从众多用户的声音中确定出目标用户对应的用户声音。

即根据方位信息和环境声音可以从环境声音中确定目标用户的目标语音，也可以通过人脸信息和环境声音，从环境声音中确定目标用户的目标语音，还可以通过声纹信息和环境声音从环境声音中确定目标用户的目标语音。

也可以通过方位信息、人脸信息和环境声音，确定目标用户的目标语音，也可以通过方位信息、声纹信息和环境声音，确定目标用户的目标语音，也可以通过声纹信息、人脸信息和环境声音，确定目标用户的目标语音。

也可以通过方位信息、人脸信息、声纹信息和环境声音，确定目标用户的目标语音。

因此，哪怕方位信息、人脸信息、声纹信息中的任何一个若是未采集到，无法获取到，则都可以确定目标用户的目标语音，在方位信息、人脸信息、声纹信息中的至少一个和环境声音组合，这个组合的条件越多，则可使得目标用户的目标语音更加纯粹，准确度更高。

语音分离模型是利用一种随机丢弃策略对环境声音、所述方位信息、所述人脸信息和所述声纹信息进行训练得到的，以使语音分离模型具有鲁棒性。

本申请中的多模态语音分离模型是参照生物学的听觉认知次序进行调制得到的。其中空间线索是基于双耳的时间差进行处理的高分辨率信号，视觉线索是低频特征。声纹线索则是基于人脑进行加工处理的高维声学特征。而本申请的语音分离模型采取的一种随机丢弃策略正是随机丢弃如上三种线索至少之一的策略，使得语音分离模型更具备鲁棒性，在真实场景使用中即使缺少部分模态该模型也可以正常工作。

语音分离模型和语音识别器可以同时位于智能设备中，即语音分离模型位于智能设备的控制器模块，语音识别器位于智能设备的识别处理模块。比如智能设备为智能音箱。

语音分离模型和语音识别器也可以都不位于智能设备中，即位于第三方设备中，即语音分离模型可以位云服务器中，语音识别模块为其他智能终端进行识别，比如智能设备为智能电视，其他智能终端为智能音箱。

因此，语音分离模型和语音识别器位于哪里在本申请中并不作具体限定。

在本申请的一些实施例中，所述根据所述语音识别结果生成应答语音，包括：

对所述语音文本信息进行语义理解，生成对应的语义信息；

根据所述语义信息生成所述应答语音。

可以理解的是，利用自然语言处理技术对语音识别结果进行文本解析，生成与所述语音识别结果对应的语音文本信息。

需要说明的是，自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。

语音识别结果是指表征目标用户与智能设备具有交互意图的结果信息，其包含语音识别结果指向的目标语音。

因此对语音识别结果进行文本解析，实际上是在语音识别结果表征目标用户与智能设备具有交互意图的结果信息的情况下，对对应的目标语音进行文本解析。

再利用预设的语义分析策略，对语音文本信息进行语义理解，生成对应的语义信息。

在本申请的一些实施例中，所述根据所述语义信息生成所述应答语音，包括：

根据所述应答文本信息生成所述应答语音。

可以理解的是，根据语义信息，从应答文本库中获取与所述语义信息对应的应答文本信息，以用于根据所述应答文本信息生成所述应答语音。

比如，语义信息为“现在外边天气如何？”从应答文本库中寻找出针对“外边天气”的应答文本信息，应答文本信息为“现在外边天气晴”。

需要说明的是，在根据语义信息从应答文本库中寻找对应的应答文本信息时，若是未查找到对应的应答文本信息，则从网络中获取或根据预设的算法生成对应的应答文本信息，并将应答文本信息存储于应答文本库中，进而避免应答文本库中没有对应的应答文本信息。

在本申请的一些实施例中，所述根据所述应答文本信息生成所述应答语音，包括：

将所述应答文本信息输入文本语音转换模型进行语音转换处理，输出所述应答语音。

首先需要说明的是，所述文本语音转换模型为通过对应答文本样本和应答语音样本进行训练得到的。

将应答文本样本和应答语音样本输入神经网络中进行多次训练，从而得到文本语音转换模型。

在得到文本语音转换模型之后，将应答文本信息输入文本语音转换模型进行语音转换处理，输出所述应答语音，并将应答语音返回至用户。需要说明的是，此时的用户至少包括：目标用户和所有用户。

可以只将应答语音返回至对应的目标用户，比如应答语音为“好的，已打开智能空调”。

也可以将应答语音通过语音播报的方式播报给所有的用户，比如应答语音为“今日北京天气为晴，温度1摄氏度-18摄氏度，请注意大风防护”。

另外，需要说明的是，当应答语音仅返回至对应的目标用户时，则仅向目标用户所在的方位进行播放应答语音内容，而播放的音调也控制在确保目标用户能够听到的音量，即根据智能设备和目标用户之间的距离，确定播报音量。

而当环境中有多个用户时，应答语音通过播报的方式播报给所有用户时，则智能设备以360度向外广播，确保环境中的所有用户都能够听到应答语音。

需要说明的是，本申请的文本语音转换模型是基于TTS技术进行训练得到的。

图3是本申请提供的一种智能设备的语音交互方法的流程示意图之二，首先服务器响应于针对智能设备的唤醒指令进入唤醒状态，基于所述智能设备的所述唤醒状态。

在所述智能设备进入所述唤醒状态的情况下，在所述智能设备进入所述唤醒状态的情况下，生成启动麦克风的第一指令，并将所述第一指令下发至所述麦克风，以使所述麦克风根据所述第一指令启动，并生成麦克风启动的第一启动状态，在所述麦克风处于所述第一启动状态的情况下，利用所述麦克风的声源定位策略采集所述目标用户的方位信息。将所述目标用户的所述方位信息存储至信息数据库，得到第一存储标识。

根据所述第一存储标识在所述信息数据库中查询所述方位信息，在查询到所述方位信息的情况下，生成启动摄像头的第二指令，将所述第二指令下发至所述摄像头，以使所述摄像头根据所述第二指令启动，并生成所述摄像头启动的第二启动状态，在所述摄像头处于所述第二启动状态的情况下，利用所述摄像头的人脸识别策略采集所述目标用户的所述人脸信息。

将采集得到的环境声音、方位信息、人脸信息和声纹信息输入语音分离模型中进行语音分离处理，得到目标用户的目标语音，再将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果。

对所述语音识别结果进行文本解析，生成与所述语音识别结果对应的语音文本信息，再对所述语音文本信息进行语义理解，生成对应的语义信息，再根据所述语义信息，从应答文本库中获取与所述语义信息对应的应答文本信息，最后将所述应答文本信息输入文本语音转换模型进行语音转换处理，输出所述应答语音，将输出的应答语音返回给用户。

下面对本申请提供的一种智能设备的语音交互装置进行描述，下文描述的一种智能设备的语音交互装置与上文描述的一种智能设备的语音交互方法可相互对应参照。

如图4所示是本申请提供的一种智能设备的语音交互装置的结构示意图，一种智能设备的语音交互装置，包括：

唤醒模块410，用于响应于针对智能设备的唤醒指令进入唤醒状态；

采集模块420，用于在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；

用于确定模块430，用于对所述人像信息和预设的人像库进行匹配处理，在所述人像信息和所述人像库匹配成功的情况下，根据所述人像信息确定目标用户；

分离模块440，用于在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；

识别模块450，用于将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；

返回模块460，用于根据所述语音识别结果生成应答语音，返回给用户，其中所述用户至少包括：所述目标用户、所有用户。

可选地，根据本申请提供的一种智能设备的语音交互装置，在确定模块430之后，所述装置还用于在所述智能设备进入所述唤醒状态的情况下，生成启动麦克风的第一指令，并将所述第一指令下发至所述麦克风，以使所述麦克风根据所述第一指令启动，并生成麦克风启动的第一启动状态；

可选地，根据本申请提供的一种智能设备的语音交互装置在所述将所述目标用户的所述方位信息存储至数据库，得到第一存储标识的步骤之后，所述方法包括：

可选地，根据本申请提供的一种智能设备的语音交互装置，分离模块440，用于根据所述目标用户的所述方位信息和所述目标用户的所述人脸信息中的至少一个，获取所述目标用户预存于语音数据库中的声纹信息；

可选地，根据本申请提供的一种智能设备的语音交互装置，返回模块460，用于对所述语音识别结果进行文本解析，生成与所述语音识别结果对应的语音文本信息；

对所述语音文本信息进行语义理解，生成对应的语义信息；

根据所述语义信息生成所述应答语音。

可选地，根据本申请提供的一种智能设备的语音交互装置，返回模块460，用于根据所述语义信息，从应答文本库中获取与所述语义信息对应的应答文本信息；

根据所述应答文本信息生成所述应答语音。

可选地，根据本申请提供的一种智能设备的语音交互装置，返回模块460，用于将所述应答文本信息输入文本语音转换模型进行语音转换处理，输出所述应答语音，其中所述文本语音转换模型为通过对应答文本样本和应答语音样本进行训练得到的。

图5示例了一种电子装置的实体结构示意图，如图5所示，该电子装置可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行一种智能设备的语音交互方法，该方法包括：响应于针对智能设备的唤醒指令进入唤醒状态；在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；根据所述语音识别结果生成应答语音，返回给用户。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在计算机可读的存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种智能设备的语音交互方法，该方法包括：响应于针对智能设备的唤醒指令进入唤醒状态；在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；根据所述语音识别结果生成应答语音，返回给用户。

又一方面，本申请还提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述各方法提供的一种智能设备的语音交互方法，该方法包括：响应于针对智能设备的唤醒指令进入唤醒状态；在所述智能设备处于所述唤醒状态的情况下，采集所述智能设备所处环境的环境信息，其中所述环境信息至少包括：环境声音和人像信息；在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音；将所述目标语音输入语音识别器中进行语音识别，生成语音识别结果；根据所述语音识别结果生成应答语音，返回给用户。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种智能设备的语音交互方法，其特征在于，包括：

响应于针对智能设备的唤醒指令进入唤醒状态；

2.根据权利要求1所述的一种智能设备的语音交互方法，其特征在于，在所述根据所述人像信息确定目标用户步骤之后，所述方法包括：

3.根据权利要求2所述的一种智能设备的语音交互方法，其特征在于，在所述将所述目标用户的所述方位信息存储至数据库，得到第一存储标识的步骤之后，所述方法包括：

4.根据权利要求3所述的一种智能设备的语音交互方法，其特征在于，所述在确定所述目标用户的情况下，将所述环境声音输入语音分离模型中进行处理，得到所述目标用户的目标语音，包括：

5.根据权利要求1所述的一种智能设备的语音交互方法，其特征在于，所述根据所述语音识别结果生成应答语音，包括：

对所述语音文本信息进行语义理解，生成对应的语义信息；

根据所述语义信息生成所述应答语音。

6.根据权利要求5所述的一种智能设备的语音交互方法，其特征在于，所述根据所述语义信息生成所述应答语音，包括：

根据所述应答文本信息生成所述应答语音。

7.根据权利要求6所述的一种智能设备的语音交互方法，其特征在于，所述根据所述应答文本信息生成所述应答语音，包括：

8.一种智能设备的语音交互装置，其特征在于，包括：

返回模块，用于根据所述语音识别结果生成应答语音，返回给用户，其中所述用户至少包括：所述目标用户、所有用户。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。