CN112652304A

CN112652304A - 智能设备的语音交互方法、装置和电子设备

Info

Publication number: CN112652304A
Application number: CN202011403538.9A
Authority: CN
Inventors: 王知践; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-04-13
Anticipated expiration: 2040-12-02
Also published as: CN112652304B

Abstract

本申请公开了智能设备的语音交互方法、装置和电子设备，涉及语音、自然语言处理、深度学习技术领域。具体实现方案为：响应于针对智能设备的唤醒指令进入唤醒状态；采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果；若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在所述唤醒等待时长内重新采集语音。该方法通过延长唤醒等待时长，以在延长后的唤醒等待时长内重新采集语音，大大提高了语音交互的成功率，有效减少了用户唤醒智能设备的次数，改善了用户的使用感受。

Description

智能设备的语音交互方法、装置和电子设备

技术领域

本申请涉及计算机技术领域中的语音、自然语言处理、深度学习技术领域，尤其涉及一种智能设备的语音交互方法、装置、电子设备和存储介质。

背景技术

目前，随着人工智能、自然语言处理等技术的发展，语音交互技术在信息获取、业务办理、娱乐等场景中得到了广泛的应用，方便了人们的生活。例如，业务办理场景下，用户可通过语音交互在智能设备上进行业务信息的填写，智能设备可通过语音播放功能播放业务办理的相关流程，降低了业务办理的难度。然而，相关技术中的语音交互方法，需要多次唤醒智能设备，影响了用户的使用感受。

发明内容

提供了一种智能设备的语音交互方法、装置、电子设备和存储介质。

根据第一方面，提供了一种智能设备的语音交互方法，包括：响应于针对智能设备的唤醒指令进入唤醒状态；采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果；若所述语音识别结果表征用户与所述智能设备无交互意图，则延长所述智能设备的唤醒等待时长，并对所述语音识别器进行重置以在所述唤醒等待时长内重新采集语音。

根据第二方面，提供了一种智能设备的语音交互装置，包括：指令响应模块，用于响应于针对智能设备的唤醒指令进入唤醒状态；语音识别模块，用于采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果；重置模块，用于若所述语音识别结果表征用户与所述智能设备无交互意图，则延长所述智能设备的唤醒等待时长，并对所述语音识别器进行重置以在所述唤醒等待时长内重新采集语音。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面所述的智能设备的语音交互方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的智能设备的语音交互方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本申请第一方面所述的智能设备的语音交互方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的智能设备的语音交互方法的流程示意图；

图2是根据本申请第二实施例的智能设备的语音交互方法中对语音识别器进行重置的流程示意图；

图3是根据本申请第三实施例的智能设备的语音交互方法中根据噪声类型，获取目标语音识别模型的流程示意图；

图4是根据本申请第四实施例的智能设备的语音交互方法中根据噪声类型，获取目标语音识别模型的示意图；

图5是根据本申请第五实施例的智能设备的语音交互方法的流程示意图；

图6是根据本申请第一实施例的智能设备的语音交互装置的框图；

图7是根据本申请第二实施例的智能设备的语音交互装置的框图；

图8是用来实现本申请实施例的智能设备的语音交互方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语音可包括语音识别、语音交互等技术领域，是人工智能领域中的一个重要方向。

语音识别(Voice Recognition)是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语音交互(Voice Interaction)是一种机器与用户以语音为信息载体进行互动、沟通、信息交换等交互行为的技术，相较于传统的人机交互，具有方便快捷、用户舒适性高的优点。

自然语言处理(Natural Language Processing，NLU)是研究能有效地实现自然语言通信的计算机系统，特别是其中的软件系统的一门科学，是计算机科学领域与人工智能领域中的一个重要方向。

深度学习(Deep Learning，DL)是机器学习(Machine Learning，ML)领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，使得机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据的一门科学，广泛应用于语音和图像识别。

图1是根据本申请第一实施例的智能设备的语音交互方法的流程示意图。

如图1所示，本申请第一实施例的智能设备的语音交互方法包括：

S101，响应于针对智能设备的唤醒指令进入唤醒状态。

需要说明的是，本申请实施例的智能设备的语音交互方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

本申请的实施例中，可为智能设备预先设置唤醒指令，唤醒指令用于唤醒智能设备。相应的，智能设备可响应于针对智能设备的唤醒指令，并进入唤醒状态。其中，唤醒指令可根据实际情况进行设置，包括但不限于唤醒词、手势、触摸感应等。

可选地，智能设备可处于唤醒状态、休眠状态和关机状态等状态，其中，智能设备处于唤醒状态时，智能设备的所有功能都可使用，智能设备处于休眠状态时，智能设备的部分功能可使用，例如，可响应于针对智能设备的唤醒指令进入唤醒状态，智能设备处于关机状态时，智能设备的所有功能都不可使用。

S102，采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果。

本申请的实施例中，智能设备可采集语音信息。可选地，智能设备上具有语音采集装置，语音采集装置可为麦克风(Microphone)、麦克风阵列(Microphone Array)等。

进一步地，智能设备可将采集的语音信息输入语音识别器中进行语音识别，以获取语音识别结果。其中，语音识别器可根据实际情况进行设置，例如，可基于深度学习算法构建语音识别器。

可选地，智能设备具有语音识别器，或者语音识别器可配置在服务器中，智能设备可通过服务器与语音识别器进行数据传输。

S103，若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音。

可以理解的是，语音识别结果可表征用户与智能设备无交互意图。

比如，假设用户所处的环境下存在键盘声、雷声等背景噪声，智能设备可能会将背景噪声作为语音信息并采集，并将采集的背景噪声输入语音识别器中进行语音识别，以获取语音识别结果。可以理解的是，此时没有采集到用户与智能设备进行交互的语音信息，语音识别结果表征用户与智能设备无交互意图。

比如，假设用户所处的环境下存在其他说话者的声音、用户与其他说话者交谈的声音等人声噪声，智能设备可能会将人声噪声作为语音信息并采集，并将采集的人声噪声输入语音识别器中进行语音识别，以获取语音识别结果。可以理解的是，此时没有采集到用户与智能设备进行交互的语音信息，语音识别结果表征用户与智能设备无交互意图。

相关技术中，用户与智能设备进行语音交互的过程中，若语音识别结果表征用户与智能设备无交互意图，则智能设备大多直接结束语音识别，进入休眠状态。若用户想要再次与智能设备进行语音交互，则需要重新唤醒智能设备，影响了用户的使用感受。

为了解决上述问题，本申请中，若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音。

可以理解的是，本申请中，可预先为智能设备设置一个唤醒等待时长，通常情况下，按照唤醒等待时长唤醒智能设备，且在唤醒等待时长内不重新采集语音。若语音识别结果表征用户与智能设备无交互意图，则可延长智能设备的唤醒等待时长，且对语音识别器进行重置以在唤醒等待时长内重新采集语音。

其中，唤醒等待时长、延长后的唤醒等待时长均可根据实际情况进行设置。例如，唤醒等待时长可设置为5秒，延长后的唤醒等待时长可设置为15秒。

可选地，对语音识别器进行重置，可包括清空语音识别器中存储的语音识别数据，从而可保证之前的识别数据不会对后续的语音识别产生影响。

综上，根据本申请实施例的智能设备的语音交互方法，若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音，该方法通过延长唤醒等待时长，以在延长后的唤醒等待时长内重新采集语音，大大提高了语音交互的成功率，有效减少了用户唤醒智能设备的次数，改善了用户的使用感受。

在上述任一实施例的基础上，如图2所示，S103中对语音识别器进行重置，可包括：

S201，获取语音识别结果的噪声类型。

本申请的实施例中，语音识别结果的噪声类型包括但不限于背景噪声、人声噪声等。其中，背景噪声包括但不限于键盘声、雷声、敲桌子声、脚步声、汽笛声等，人声噪声包括但不限于其他说话者的声音、用户与其他说话者交谈的声音等。

可选地，语音识别器获取语音识别结果时，可对语音识别结果的噪声类型进行标注，并将语音识别结果以及标注信息反馈给智能设备。进一步地，智能设备可获取语音识别结果以及标注信息，根据标注信息获取语音识别结果的噪声类型。

或者，智能设备可根据语音识别结果，获取语音识别结果对应的噪声类型。

S202，根据噪声类型，获取用于对语音识别器进行重置的目标语音识别模型。

本申请的实施例中，可为语音识别器预先设置多个语音识别模型，可从多个语音识别模型中获取一个目标语音识别模型，用于对语音识别器进行重置。

可以理解的是，不同的噪声类型可对应不同的目标语音识别模型。本申请的实施例中，可根据噪声类型，获取用于对语音识别器进行重置的目标语音识别模型，不同的噪声类型可获取不同的目标语音识别模型，可考虑到噪声类型对语音识别器重置的影响，较为灵活。

可选地，可预先建立噪声类型与目标语音识别模型之间的映射关系或者映射表，在获取到噪声类型之后，查询映射关系或者映射表，能够获取到噪声类型对应的目标语音识别模型。应说明的是，上述映射关系或者映射表可根据实际情况进行设置。

S203，利用目标语音识别模型，对语音识别器进行重置。

本申请的实施例中，语音识别器可根据当前存储的语音识别模型对采集的语音信息进行语音识别，以获取语音识别结果。

可选地，利用目标语音识别模型，对语音识别器进行重置，可包括将语音识别器当前存储的语音识别模型替换为目标语音识别模型，从而在唤醒等待时长内，语音识别器可根据目标语音识别模型对重新采集的语音信息进行语音识别，并获取语音识别结果。

可选地，利用目标语音识别模型，对语音识别器进行重置之前，还包括生成语音识别模型的清空指令，并根据清空指令，将语音识别器中当前存储的语音识别模型清除。之后可将目标语音识别模型存储到语音识别器中，以实现语音识别器的重置。

由此，该方法可根据语音识别结果的噪声类型，获取用于对语音识别器进行重置的目标语音识别模型，并利用目标语音识别模型，对语音识别器进行重置，可考虑到噪声类型对语音识别器重置的影响，较为灵活。

在上述任一实施例的基础上，若噪声类型指示噪声为人声噪声，如图3所示，步骤S202中根据噪声类型，获取用于对语音识别器进行重置的目标语音识别模型，可包括：

S301，获取人声噪声对应的第一声音特征。

可选地，第一声音特征包括但不限于Mel(梅尔)特征、MFCC(Mel-scale FrequencyCepstral Coefficients，梅尔倒谱系数)特征、PLP(Perceptual Linear Predict，感知线性预测)特征等，这里不做过多限定。

S302，将第一声音特征与声音特征库中的参考声音特征进行匹配，以确定人声噪声对应的第一用户所属的第一目标用户类型。

本申请的实施例中，可预先建立声音特征库，声音特征库中包括大量的参考声音特征，每个参考声音特征可对应一个用户类型，用户类型包括但不限于老人、儿童、成年人等，这里不做过多限定。

则在获取到第一声音特征之后，可将第一声音特征与声音特征库中的参考声音特征进行匹配，以确定人声噪声对应的第一用户所属的第一目标用户类型。

例如，若将第一声音特征与声音特征库中的参考声音特征进行匹配，与第一声音特征匹配的参考声音特征对应的用户类型为老人，则可确定人声噪声对应的第一用户所属的第一目标用户类型为老人。

S303，根据第一目标用户类型，从语音识别模型库中获取与第一目标用户类型匹配的第一语音识别模型，作为目标语音识别模型。

本申请的实施例中，可为语音识别器预先设置一个语音识别模型库，语音识别模型库中包括大量的语音识别模型，可从语音识别模型库中获取与第一目标用户类型匹配的第一语音识别模型，作为目标语音识别模型，用于对语音识别器进行重置。

可以理解的是，不同的用户类型可对应不同的第一语音识别模型。本申请的实施例中，可根据第一目标用户类型，从语音识别模型库中获取与第一目标用户类型匹配的第一语音识别模型，作为目标语音识别模型，可考虑到用户类型对语音识别器重置的影响，较为灵活。

例如，若人声噪声对应的第一用户A所属的第一目标用户类型为老人，则可从语音识别模型库中获取与“老人”匹配的第一语音识别模型，作为目标语音识别模型；或者，若人声噪声对应的第一用户B所属的第一目标用户类型为成年人，则可从语音识别模型库中获取与“成年人”匹配的第一语音识别模型，作为目标语音识别模型。

由此，该方法在噪声类型指示噪声为人声噪声时，可根据人声噪声对应的第一声音特征，确定人声噪声对应的第一用户所属的第一目标用户类型，并根据第一目标用户类型，从语音识别模型库中获取与第一目标用户类型匹配的第一语音识别模型，作为目标语音识别模型。可考虑到用户类型对语音识别器重置的影响，较为灵活。

在上述任一实施例的基础上，若噪声类型指示噪声为背景噪声，如图4所示，步骤S202中根据噪声类型，获取用于对语音识别器进行重置的目标语音识别模型，可包括：

S401，获取智能设备的绑定用户以及每个绑定用户对应的设备使用次数。

本申请的实施例中，用户可与智能设备进行绑定，且智能设备可存储每个绑定用户对应的设备使用次数。从而在噪声类型指示噪声为背景噪声时，可获取智能设备的绑定用户以及每个绑定用户对应的设备使用次数。

例如，可在智能设备的存储空间中建立绑定用户列表，当用户与智能设备绑定成功后，可将用户添加至绑定用户列表中，智能设备可记录绑定用户使用智能设备的设备使用次数，并建立绑定用户与设备使用次数之间的对应关系。从而智能设备可从绑定用户列表中获取绑定用户，并根据获取的绑定用户、绑定用户与设备使用次数之间的对应关系，获取每个绑定用户对应的设备使用次数。

S402，选取设备使用次数最高的绑定用户作为目标用户。

可以理解的是，在噪声为背景噪声时，此时无法根据语音识别结果获取用户声音特征，进而也无法确定用户类型，考虑到设备使用次数最高的绑定用户，使用智能设备的概率较高，则可选取设备使用次数最高的绑定用户作为目标用户。

S403，获取目标用户绑定智能设备时所存储的声音特征，并将目标用户的声音特征与声音特征库中的参考声音特征进行匹配，以确定目标用户所属的第二目标用户类型。

本申请的实施例中，用户在绑定智能设备时，智能设备可存储用户的声音特征。例如，智能设备可存储用户绑定智能设备时进行语音交互时的声音特征。

可以理解的是，智能设备还可建立绑定用户与声音特征之间的对应关系。确定目标用户之后，可根据目标用户、绑定用户与声音特征之间的对应关系，获取目标用户绑定智能设备时所存储的声音特征。

需要说明的是，将目标用户的声音特征与声音特征库中的参考声音特征进行匹配，以确定目标用户所属的第二目标用户类型的相关内容可参见上述实施例，这里不再赘述。

S404，根据第二目标用户类型，从语音识别模型库中获取与第二目标用户类型匹配的第二语音识别模型，作为目标语音识别模型。

需要说明的是，步骤S404的相关内容可参见上述实施例，这里不再赘述。

由此，该方法可在噪声类型指示噪声为背景噪声时，可选取智能设备对应的设备使用次数最高的绑定用户作为目标用户，并根据目标用户绑定智能设备时所存储的声音特征，确定目标用户所属的第二目标用户类型，并根据第二目标用户类型，从语音识别模型库中获取与第二目标用户类型匹配的第二语音识别模型，作为目标语音识别模型。可考虑到用户类型对语音识别器重置的影响，较为灵活。

作为另一种可能的实施方式，若噪声类型指示噪声为背景噪声，步骤S202中根据噪声类型，获取用于对语音识别器进行重置的目标语音识别模型，还可包括从语音识别模型库中选取基础语音识别模型，作为目标语音识别模型。

可以理解的是，在噪声为背景噪声时，此时无法根据语音识别结果获取用户声音特征，进而也无法确定用户类型，此时可直接从语音识别模型库中选取基础语音识别模型，作为目标语音识别模型。

需要说明的是，上述实施例中的声音特征库、语音识别模型库可预先设置在智能设备的存储空间中，或者声音特征库、语音识别模型库可预先设置在服务器的存储空间中，智能设备可通过服务器与声音特征库、语音识别模型库进行数据传输。

图5是根据本申请第五实施例的智能设备的语音交互方法的流程示意图。

如图5所示，本申请第五实施例的智能设备的语音交互方法包括：

S501，响应于针对智能设备的唤醒指令进入唤醒状态。

S502，采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果。

S503，判断语音识别结果是否表征用户与智能语音交互设备有交互意图；

如果语音识别结果表征用户与智能语音交互设备有交互意图，则执行步骤S504；

如果语音识别结果表征用户与智能语音交互设备无交互意图，则执行步骤S505；

步骤S501-S503的相关内容可参见上述实施例，这里不再赘述。

S504，根据语音识别结果与用户进行交互。

本申请的实施例中，若语音识别结果表征用户与智能语音交互设备有交互意图，则可根据语音识别结果与用户进行交互。例如，若语音识别结果为“今天的天气怎么样”，智能设备可获取天气信息，并将天气信息的文本展示在显示屏幕上，或者语音播放天气信息。

S505，延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音。

本申请的实施例中，对语音识别器进行重置以在唤醒等待时长内重新采集语音之后，可将重新采集的语音信息输入语音识别器中进行语音识别，以获取语音识别结果，并判断语音识别结果是否表征用户与智能语音交互设备有交互意图。如果语音识别结果表征用户与智能语音交互设备有交互意图，则可根据语音识别结果与用户进行交互。

如果语音识别结果表征用户与智能语音交互设备无交互意图，且此时仍处于唤醒等待时长内，则可生成用于提醒用户重新输入语音信息的提醒消息，以在唤醒等待时长内重新采集语音。

如果语音识别结果表征用户与智能语音交互设备无交互意图，还可生成针对智能设备的休眠指令，响应于针对智能设备的休眠指令休眠指令进入休眠状态。

综上，根据本申请实施例的智能设备的语音交互方法，若语音识别结果表征用户与智能设备有交互意图，可根据语音识别结果与用户进行交互。或者，若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音，该方法通过延长唤醒等待时长，以在延长后的唤醒等待时长内重新采集语音，大大提高了语音交互的成功率，有效减少了用户唤醒智能设备的次数，改善了用户的使用感受。

图6是根据本申请第一实施例的智能设备的语音交互装置的框图。

如图6所示，本申请实施例的智能设备的语音交互装置600，包括：指令响应模块601、语音识别模块602和重置模块603。

指令响应模块601，用于响应于针对智能设备的唤醒指令进入唤醒状态；

语音识别模块602，用于采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果；

重置模块603，用于若所述语音识别结果表征用户与所述智能设备无交互意图，则延长所述智能设备的唤醒等待时长，并对所述语音识别器进行重置以在所述唤醒等待时长内重新采集语音。

在本申请的一个实施例中，所述重置模块603，还用于：生成语音识别模型的清空指令，并根据所述清空指令，将所述语音识别器中当前存储的语音识别模型清除。

综上，本申请实施例的智能设备的语音交互装置，若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音，该方法通过延长唤醒等待时长，以在延长后的唤醒等待时长内重新采集语音，大大提高了语音交互的成功率，有效减少了用户唤醒智能设备的次数，改善了用户的使用感受。

图7是根据本申请第二实施例的智能设备的语音交互装置的框图。

如图7所示，本申请实施例的智能设备的语音交互装置700，包括：指令响应模块701、语音识别模块702和重置模块703。

其中，指令响应模块701与指令响应模块601具有相同功能和结构、语音识别模块702与语音识别模块602具有相同功能和结构。

在本申请的一个实施例中，所述重置模块703，包括：第一获取单元7031，用于获取所述语音识别结果的噪声类型；第二获取单元7032，用于根据所述噪声类型，获取用于对所述语音识别器进行重置的目标语音识别模型；重置单元7033，用于利用所述目标语音识别模型，对所述语音识别器进行重置。

在本申请的一个实施例中，若所述噪声类型指示噪声为人声噪声，则所述第二获取单元7032，具体用于：获取所述人声噪声对应的第一声音特征；将所述第一声音特征与声音特征库中的参考声音特征进行匹配，以确定所述人声噪声对应的第一用户所属的第一目标用户类型；根据所述第一目标用户类型，从语音识别模型库中获取与所述第一目标用户类型匹配的第一语音识别模型，作为所述目标语音识别模型。

在本申请的一个实施例中，若所述噪声类型指示噪声为背景噪声，则所述第二获取单元7032，具体用于：获取所述智能设备的绑定用户以及每个所述绑定用户对应的设备使用次数；选取所述设备使用次数最高的所述绑定用户作为目标用户；获取所述目标用户绑定所述智能设备时所存储的声音特征，并将所述目标用户的声音特征与声音特征库中的参考声音特征进行匹配，以确定所述目标用户所属的第二目标用户类型；根据所述第二目标用户类型，从语音识别模型库中获取与所述第二目标用户类型匹配的第二语音识别模型，作为所述目标语音识别模型。

在本申请的一个实施例中，若所述噪声类型指示噪声为背景噪声，则所述第二获取单元7032，具体用于：从语音识别模型库中选取基础语音识别模型，作为目标语音识别模型。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的智能设备的语音交互方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，智能语音交互设备、个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器801可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的智能设备的语音交互方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的智能设备的语音交互方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的智能设备的语音交互方法对应的程序指令/模块(例如，附图6所示的指令响应模块601、语音识别模块602和重置模块603)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的智能设备的语音交互方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据智能设备的语音交互方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至智能设备的语音交互方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

智能设备的语音交互方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与智能设备的语音交互方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请的实施例，本申请还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本申请上述实施例所述的智能设备的语音交互方法。

根据本申请实施例的技术方案，若语音识别结果表征用户与智能设备无交互意图，则延长智能设备的唤醒等待时长，并对语音识别器进行重置以在唤醒等待时长内重新采集语音，该方法通过延长唤醒等待时长，以在延长后的唤醒等待时长内重新采集语音，大大提高了语音交互的成功率，有效减少了用户唤醒智能设备的次数，改善了用户的使用感受。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种智能设备的语音交互方法，包括：

响应于针对智能设备的唤醒指令进入唤醒状态；

采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果；

若所述语音识别结果表征用户与所述智能设备无交互意图，则延长所述智能设备的唤醒等待时长，并对所述语音识别器进行重置以在所述唤醒等待时长内重新采集语音。

2.根据权利要求1所述的智能设备的语音交互方法，其中，所述对所述语音识别器进行重置，包括：

获取所述语音识别结果的噪声类型；

根据所述噪声类型，获取用于对所述语音识别器进行重置的目标语音识别模型；

利用所述目标语音识别模型，对所述语音识别器进行重置。

3.根据权利要求2所述的智能设备的语音交互方法，其中，若所述噪声类型指示噪声为人声噪声，则所述根据所述噪声类型，获取用于对所述语音识别器进行重置的目标语音识别模型，包括：

获取所述人声噪声对应的第一声音特征；

将所述第一声音特征与声音特征库中的参考声音特征进行匹配，以确定所述人声噪声对应的第一用户所属的第一目标用户类型；

根据所述第一目标用户类型，从语音识别模型库中获取与所述第一目标用户类型匹配的第一语音识别模型，作为所述目标语音识别模型。

4.根据权利要求2所述的智能设备的语音交互方法，其中，若所述噪声类型指示噪声为背景噪声，则所述根据所述噪声类型，获取用于对所述语音识别器进行重置的目标语音识别模型，包括：

获取所述智能设备的绑定用户以及每个所述绑定用户对应的设备使用次数；

选取所述设备使用次数最高的所述绑定用户作为目标用户；

获取所述目标用户绑定所述智能设备时所存储的声音特征，并将所述目标用户的声音特征与声音特征库中的参考声音特征进行匹配，以确定所述目标用户所属的第二目标用户类型；

根据所述第二目标用户类型，从语音识别模型库中获取与所述第二目标用户类型匹配的第二语音识别模型，作为所述目标语音识别模型。

5.根据权利要求2所述的智能设备的语音交互方法，其中，若所述噪声类型指示噪声为背景噪声，则所述根据所述噪声类型，获取用于对所述语音识别器进行重置的目标语音识别模型，包括：

从语音识别模型库中选取基础语音识别模型，作为目标语音识别模型。

6.根据权利要求2-5任一项所述的智能设备的语音交互方法，其中，所述利用所述目标语音识别模型，对所述语音识别器进行重置之前，还包括：

生成语音识别模型的清空指令，并根据所述清空指令，将所述语音识别器中当前存储的语音识别模型清除。

7.一种智能设备的语音交互装置，包括：

指令响应模块，用于响应于针对智能设备的唤醒指令进入唤醒状态；

语音识别模块，用于采集语音信息并输入语音识别器中进行语音识别，以获取语音识别结果；

重置模块，用于若所述语音识别结果表征用户与所述智能设备无交互意图，则延长所述智能设备的唤醒等待时长，并对所述语音识别器进行重置以在所述唤醒等待时长内重新采集语音。

8.根据权利要求7所述的智能设备的语音交互装置，其中，所述重置模块，包括：

第一获取单元，用于获取所述语音识别结果的噪声类型；

第二获取单元，用于根据所述噪声类型，获取用于对所述语音识别器进行重置的目标语音识别模型；

重置单元，用于利用所述目标语音识别模型，对所述语音识别器进行重置。

9.根据权利要求8所述的智能设备的语音交互装置，其中，若所述噪声类型指示噪声为人声噪声，则所述第二获取单元，具体用于：

获取所述人声噪声对应的第一声音特征；

10.根据权利要求8所述的智能设备的语音交互装置，其中，若所述噪声类型指示噪声为背景噪声，则所述第二获取单元，具体用于：

选取所述设备使用次数最高的所述绑定用户作为目标用户；

11.根据权利要求8所述的智能设备的语音交互装置，其中，若所述噪声类型指示噪声为背景噪声，则所述第二获取单元，具体用于：

12.根据权利要求8-11任一项所述的智能设备的语音交互装置，其中，所述重置模块，还用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的智能设备的语音交互方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的智能设备的语音交互方法。

15.一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的智能设备的语音交互方法。