CN117746849A

CN117746849A - 一种语音交互方法、装置及终端

Info

Publication number: CN117746849A
Application number: CN202211113419.9A
Authority: CN
Inventors: 王石磊
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2024-03-22
Also published as: WO2024055831A1

Abstract

本申请公开一种语音交互方法、装置及终端，所述方法包括：检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；确定所述终端是否靠近用户的嘴部；如果确定所述终端靠近所述用户的嘴部，则将所述语音交互的工作状态延长所述预设时长；如果在预设时长内检测到第二语音信息，则检测用户气息；如果检测到用户气息，则输出针对所述第二语音信息的反馈结果。这样，本申请提供的语音交互方法，能够大概率识别到是用户本人有继续语音交互的意图，有效降低终端对于其他人或者周围其他噪声的错误响应，提升语音交互的准确性和用户体验。

Description

一种语音交互方法、装置及终端

技术领域

本申请属于人机交互技术领域，尤其涉及一种语音交互方法、装置及终端。

背景技术

语音交互是基于语音输入的新一代交互模式，基于用户向终端输入的语音信息，就可以得到与输入的语音信息对应的反馈结果。

在与终端进行语音交互之前，首先要唤醒终端上的语音交互系统(例如语音助手)，例如，可以通过特定的唤醒词唤醒语音助手。语音助手被唤醒后，用户可以与终端进行语音交互。在用户与终端语音交互的过程中，一般用户说完一条语音后，终端输出与这条语音对应的反馈结果，接着，用户可以说下一条语音，这样就实现了与终端的连续对话。

但是，目前终端的连续对话功能，是通过延长终端的收音时间来实现的。例如，终端输出与第一条语音对应的反馈结果后，终端继续收音一段时间，比如10s。如果10s内没有收到任何语音信号，此时终端再结束收音；如果10s内有收到语音信号，则终端会继续输出针对收到的语音信息的反馈结果。这样，在终端延长收音的这段时间内，如果用户没有发出任何声音，但是，周围有其他人在说话，终端也会继续针对其他人说的话进行反馈，这样会给用户带来困扰和反感，影响用户体验。

发明内容

本申请提供一种语音交互方法、装置及终端，能够解决在终端延长收音的这段时间内，如果用户没有发出任何声音，但是，周围有其他人在说话，终端也会继续针对其他人说的话进行反馈，这样会给用户带来困扰和反感，影响用户体验的问题。

第一方面，本申请提供一种语音交互方法，所述方法包括：检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则检测用户气息；如果检测到用户气息，则输出针对所述第二语音信息的反馈结果。

这样，能够通过用户气息检测，大概率识别到是用户本人有继续语音交互的意图，有效降低终端对于其他人或者周围其他噪声的错误响应，提升语音交互的准确性和用户体验。

在一种可实现方式中，在输出针对所述第一语音信息的反馈结果之后，还包括：确定所述终端是否靠近用户的嘴部；如果确定所述终端靠近所述用户的嘴部，则将所述语音交互的工作状态延长所述预设时长；如果确定所述终端不靠近所述用户的嘴部，则结束语音交互的工作状态。

这样，在进行用户气息检测之前，先确定所述终端是否靠近用户的嘴部，如果确定所述终端靠近所述用户的嘴部，再延长收音时间，如果确定所述终端不靠近所述用户的嘴部，则直接结束收音。这样可以很大程度上降低收音带来的能耗问题。

在一种可实现方式中，所述如果在预设时长内检测到第二语音信息，还包括：确定终端是否靠近用户的嘴部；如果确定所述终端靠近所述用户的嘴部，则检测用户气息；如果确定所述终端不靠近用户的嘴部，则结束语音交互的工作状态。

这样，在检测到第二语音信息的情况下，先判断终端是否靠近用户的嘴部，再确定要不要检测用户气息。如果终端不靠近用户的嘴部，则认为第二语音信息不会是用户发出的声音，也就无需检测用户气息了。

在一种可实现方式中，如果所述唤醒指示为用户气息，则所述确定所述终端是否靠近用户的嘴部，包括：识别在所述语音交互的工作状态下，所述用户的手势；如果所述用户的手势为第一手势，则确定所述终端靠近用户的嘴部，所述第一手势用于表征所述用户手持所述终端处于静止状态；如果所述用户的手势为第二手势，则确定所述终端不靠近用户的嘴部，所述第二手势用于表征所述用户手持所述终端向所述用户的嘴部方向远离。

这样，如果语音交互的工作状态是通过气息唤醒的方式唤醒的，说明在唤醒终端时，终端是在用户嘴边的。因此，在输出针对第一语音信息的反馈结果之后，可以通过判断用户是否手持终端100向用户的嘴部方向远离，确定终端100是否依然在用户嘴边。

在一种可实现方式中，如果所述唤醒指示为除用户气息以外的其他方式，则在确定所述终端是否靠近用户的嘴部之前，包括：确定在输出针对所述第一语音信息的反馈结果之前，是否识别到第三手势，所述第三手势用于表征所述用户手持所述终端向所述用户的嘴部方向靠近；如果识别到所述第三手势，则确定在输出针对所述第一语音信息的反馈结果之后，所述终端是否仍然靠近用户的嘴部；如果没有识别到所述第三手势，则结束语音交互的工作状态。

这样，如果语音交互的工作状态不是通过气息唤醒的方式唤醒的，说明在唤醒终端时，终端不在用户嘴边。这种情况下，本申请可以在进入语音交互的工作状态之后，先确定在输出针对所述第一语音信息的反馈结果之前，用户是否手持终端向用户的嘴部方向靠近。如果确定在输出针对所述第一语音信息的反馈结果之前，用户手持终端向用户的嘴部方向靠近，则再确定在输出针对第一语音信息的反馈结果之后，终端是否仍然在用户嘴边。

在一种可实现方式中，所述识别在所述语音交互的工作状态下，所述用户的手势，包括：获取在所述语音交互的工作状态下，不同时刻的角速度和加速度；利用所述不同时刻的角速度、加速度、以及手势识别模块，确定用户的手势；其中，所述手势识别模块用于识别用户手持终端向用户的嘴部方向靠近、用户手持终端向用户的嘴部方向远离、或者用户手持所述终端处于静止状态。

这样，可以利用手势识别模块，基于不同时刻的角速度和加速度数据，确定用户的手势。

在一种可实现方式中，所述检测用户气息，包括：将所述第二语音信息输入气息识别模块，所述气息识别模块用于识别所述第二语音信息是否为所述用户的嘴部距离所述终端预设距离内发出的声音；如果所述气息识别模块识别到所述第二语音信息为所述用户的嘴部距离所述终端预设距离内发出的声音，则确定检测到用户气息；如果所述气息识别模块识别到所述第二语音信息不是所述用户的嘴部距离所述终端预设距离内发出的声音，则确定没有检测到用户气息。

这样，可以利用气息识别模块，对第二语音信息进行特征识别，以确定第二语音信息是否为用户的嘴部靠近终端发出的声音。

在一种可实现方式中，所述终端包括压力传感器，所述检测用户气息，包括：获取采集到所述第二语音信息时，所述压力传感器对应的压力值；如果所述压力值大于预设压力阈值，则确定检测到用户气息；如果所述压力值小于或等于预设压力阈值，则确定没有检测到用户气息；

在一种可实现方式中，所述终端包括温度传感器，所述检测用户气息，包括：获取第一温度和第二温度，其中，所述第一温度为采集到所述第二语音信息之前，所述温度传感器对应的温度，所述第二温度为采集到所述第二语音信息时，所述温度传感器对应的温度；如果所述第二温度大于所述第一温度，则确定检测到用户气息；如果所述第二温度小于或等于所述第一温度，则确定没有检测到用户气息。

在一种可实现方式中，所述终端包括湿度传感器，所述检测用户气息，包括：获取采集到所述第二语音信息时，所述湿度传感器对应的湿度；如果所述湿度大于预设湿度阈值，则确定检测到用户气息；如果所述湿度小于或等于预设湿度阈值，则确定没有检测到用户气息；

在一种可实现方式中，所述终端包括二氧化碳传感器，所述检测用户气息，包括：获取采集到所述第二语音信息时，所述二氧化碳传感器对应的二氧化碳浓度；如果所述二氧化碳浓度大于预设二氧化碳浓度阈值，则确定检测到用户气息；如果所述二氧化碳浓度小于或等于预设二氧化碳浓度阈值，则确定没有检测到用户气息。

这样，如果用户的嘴部靠近终端说话，则说话产生的气流对对终端产生一定的压力，以及在终端附近的温度、湿度、二氧化碳浓度也会有一定的变化，这样本申请可以利用压力传感器、温度传感器、湿度传感器或二氧化碳传感器，检测用户气息。

第二方面，本申请提供一种语音交互方法，所述方法包括：检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则将语音交互的工作状态延长预设时长；如果在预设时长内检测到第二语音信息，则输出针对所述第二语音信息的反馈结果。

第三方面，本申请提供一种语音交互方法，所述方法包括：检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则输出针对所述第二语音信息的反馈结果。

第四方面，本申请提供一种语音交互装置，所述装置包括处理器；所述处理器，用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则检测用户气息；如果检测到用户气息，则输出针对所述第二语音信息的反馈结果。

在一种可实现方式中，所述处理器，还用于在输出针对所述第一语音信息的反馈结果之后，确定所述终端是否靠近用户的嘴部；如果确定所述终端靠近所述用户的嘴部，则将所述语音交互的工作状态延长所述预设时长；如果确定所述终端不靠近所述用户的嘴部，则结束语音交互的工作状态。

在一种可实现方式中，所述处理器，还用于确定终端是否靠近用户的嘴部；如果确定所述终端靠近所述用户的嘴部，则检测用户气息；如果确定所述终端不靠近用户的嘴部，则结束语音交互的工作状态。

在一种可实现方式中，所述处理器，还用于识别在所述语音交互的工作状态下，所述用户的手势；如果所述用户的手势为第一手势，则确定所述终端靠近用户的嘴部，所述第一手势用于表征所述用户手持所述终端处于静止状态；如果所述用户的手势为第二手势，则确定所述终端不靠近用户的嘴部，所述第二手势用于表征所述用户手持所述终端向所述用户的嘴部方向远离。

在一种可实现方式中，如果所述唤醒指示为除用户气息以外的其他方式，则在确定所述终端是否靠近用户的嘴部之前，所述处理器，还用于确定在输出针对所述第一语音信息的反馈结果之前，是否识别到第三手势，所述第三手势用于表征所述用户手持所述终端向所述用户的嘴部方向靠近；如果识别到所述第三手势，则确定在输出针对所述第一语音信息的反馈结果之后，所述终端是否仍然靠近用户的嘴部；如果没有识别到所述第三手势，则结束语音交互的工作状态。

在一种可实现方式中，所述处理器，还用于获取在所述语音交互的工作状态下，不同时刻的角速度和加速度；利用所述不同时刻的角速度、加速度、以及手势识别模块，确定用户的手势；其中，所述手势识别模块用于识别用户手持终端向用户的嘴部方向靠近、用户手持终端向用户的嘴部方向远离、或者用户手持所述终端处于静止状态。

在一种可实现方式中，所述处理器，还用于将所述第二语音信息输入气息识别模块，所述气息识别模块用于识别所述第二语音信息是否为所述用户的嘴部距离所述终端预设距离内发出的声音；如果所述气息识别模块识别到所述第二语音信息为所述用户的嘴部距离所述终端预设距离内发出的声音，则确定检测到用户气息；如果所述气息识别模块识别到所述第二语音信息不是所述用户的嘴部距离所述终端预设距离内发出的声音，则确定没有检测到用户气息。

在一种可实现方式中，所述终端包括压力传感器，所述处理器，还用于获取采集到所述第二语音信息时，所述压力传感器对应的压力值；如果所述压力值大于预设压力阈值，则确定检测到用户气息；如果所述压力值小于或等于预设压力阈值，则确定没有检测到用户气息。

在一种可实现方式中，所述终端包括温度传感器，所述处理器，还用于获取第一温度和第二温度，其中，所述第一温度为采集到所述第二语音信息之前，所述温度传感器对应的温度，所述第二温度为采集到所述第二语音信息时，所述温度传感器对应的温度；如果所述第二温度大于所述第一温度，则确定检测到用户气息；如果所述第二温度小于或等于所述第一温度，则确定没有检测到用户气息。

在一种可实现方式中，所述终端包括湿度传感器，所述处理器，还用于获取采集到所述第二语音信息时，所述湿度传感器对应的湿度；如果所述湿度大于预设湿度阈值，则确定检测到用户气息；如果所述湿度小于或等于预设湿度阈值，则确定没有检测到用户气息。

在一种可实现方式中，所述终端包括二氧化碳传感器，所述处理器，还用于获取采集到所述第二语音信息时，所述二氧化碳传感器对应的二氧化碳浓度；如果所述二氧化碳浓度大于预设二氧化碳浓度阈值，则确定检测到用户气息；如果所述二氧化碳浓度小于或等于预设二氧化碳浓度阈值，则确定没有检测到用户气息。

第五方面，本申请提供一种语音交互装置，所述装置包括处理器；所述处理器，用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则将语音交互的工作状态延长预设时长；如果确定所述终端不靠近用户的嘴部，则结束语音交互的工作状态。

第六方面，本申请提供一种语音交互装置，所述装置包括处理器；所述处理器，用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则输出针对所述第二语音信息的反馈结果。

第七方面，本申请提供一种终端，所述终端包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，使所述电子设备执行如第一方面至第三方面中任一所述的方法。

第八方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序或指令，当所述计算机程序或指令被执行时，如第一方面至第三方面中任一所述的方法被执行。

第九方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得计算机执行如第一方面至第三方面中任一所述的方法。

综上，本申请提供的语音交互方法、装置及终端，能够通过检测用户气息和/或确定终端是否靠近用户的嘴部，大概率识别到是用户本人有继续语音交互的意图，有效降低终端对于其他人或者周围其他噪声的错误响应，提升语音交互的准确性和用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音交互的应用场景图；

图2为本申请实施例提供的终端100的硬件结构框图；

图3为本申请实施例提供的一种语音交互方法的流程图；

图4为本申请实施例提供的确定用户是否有继续语音交互的意图的第一种实现方式的流程图；

图5为本申请实施例提供的确定用户是否有继续语音交互的意图的第二种实现方式的流程图；

图6为本申请实施例提供的确定用户是否有继续语音交互的意图的第三种实现方式的流程图；

图7为本申请实施例提供的确定用户是否有继续语音交互的意图的第四种实现方式的流程图；

图8为本申请实施例提供的确定用户是否有继续语音交互的意图的第五种实现方式的流程图；

图9为本申请实施例提供的一种语音交互装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本申请的技术方案进行说明之前，先对本申请的应用场景进行说明。

图1为本申请实施例提供的一种语音交互的应用场景图。如图1所示，该应用场景图中包括终端100和用户200。终端100具有语音交互功能，用户200可以与终端100进行语音交互。目前，需要一个特定事件触发终端的语音交互功能，终端100才能进入语音交互的工作状态。通常，我们将触发终端的语音交互功能称为唤醒语音交互。唤醒语音交互的方式可以为唤醒词唤醒、长按电源键唤醒、点击桌面语音助手应用程序等方式，本申请对此不进行限定。

语音交互功能被唤醒后，用户200可以与终端100进行语音交互。在用户200与终端100语音交互的过程中，一般用户200说完一条语音后，终端100输出与这条语音对应的反馈结果。例如：语音交互功能被唤醒后，用户200说“今天天气如何？”，终端100接收到用户200说的“今天天气如何？”这条语音后，会对这条语音信息识别，并输出与这条语音信息对应的反馈，如终端100通过扬声器输出“今天天气为晴”。

接着，如果用户200想继续与终端100进行语音交互，用户200可以在终端100反馈完上一条语音信息后，直接说下一条语音，这样就实现了与终端100的连续对话。

一种可实现方式中，终端100在与用户200每完成一轮语音交互后，通过延长收音时间来实现上述连续对话功能。例如，在终端100输出与第一条语音对应的反馈结果后，终端100并没有退出收音，而是继续监听声音一段时间，比如10s。如果10s内没有收到任何语音信号，此时终端100再退出收音；如果10s内有收到语音信号，则终端100会继续执行针对收到的语音信息的反馈。

但是，在终端100延长收音的这段时间内，如果用户200没有发出任何声音，即用户200没有继续对话的意图，而周围有其他人在说话或者周围有其他噪声，终端100也会继续针对其他人说的话或者周围其的他噪声进行反馈，这样就会给用户200带来困扰和反感，影响用户体验。

为了解决上述技术问题，本申请提供一种语音交互方法，该方法能够有效降低终端100对于其他人或者周围其他噪声的错误响应，提升语音交互的准确性。本申请提供的一种语音交互方法，可以应用于终端100。本申请实施例中，终端100可以是手机、遥控器或手表、手环等智能穿戴设备。

下面以终端100是手机为例，对终端100的硬件结构进行介绍。

图2为本申请实施例提供的终端100的硬件结构框图。如图2所示，终端100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中，上述传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L、骨传导传感器180M、湿度传感器180N和二氧化碳传感器180P等传感器。

可以理解的是，本实施例示意的结构并不构成对终端100的具体限定。在另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。在一些实施例中，处理器110可以包括一个或多个接口。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块360，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(blue tooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。该显示屏194包括显示面板。例如，显示屏194可以是触摸屏。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端100的各种功能应用以及数据处理。例如，在本申请实施例中，处理器110可以通过执行存储在内部存储器121中的指令，内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。

终端100可以通过音频模块370，扬声器370A，受话器370B，麦克风370C，耳机接口370D，以及应用处理器等实现音频功能。例如，可以通过麦克风370C采集用户的语音信息，通过扬声器370A播放针对用户的语音信息的反馈结果。

触摸传感器，也称“触控面板”。触摸传感器可以设置于显示屏194，由触摸传感器与显示屏194组成触摸屏，也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器也可以设置于终端100的表面，与显示屏194所处的位置不同。

本申请实施例中，终端100可以通过触摸传感器检测到用户在触摸屏输入的触摸操作，并采集该触摸操作在触摸屏上的触控位置，以及触控时间等中的一项或多项。在一些实施例中，终端100可以通过触摸传感器180K和压力传感器180A结合起来，确定触摸操作在触摸屏的触控位置。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。例如，可以通过长按电源键唤醒语音交互功能。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。

陀螺仪传感器180B可以是三轴陀螺仪，用于追踪终端100在6个方向的状态变化。加速度传感器180E用于检测终端100的运动速度、方向以及位移。本申请实施例中，终端100可以通过陀螺仪传感器180B和加速度传感器180E检测终端100的状态和位置，并可以基于终端100在不同时刻的状态和位置，确定用户手持终端100的手势。如，用户手持终端100向用户的嘴部方向靠近，或者，用户手持终端100向用户的嘴部方向远离。

以下实施例中的方法均可以在具有上述硬件结构的终端100中实现。

下面对本申请实施例提供的语音交互方法进行示例性说明。

图3为本申请实施例提供的一种语音交互方法的流程图。如图3所示，该方法可以包括以下步骤：

步骤S1，检测到发起语音交互的唤醒指示。

唤醒指示用于唤醒终端100进入语音交互的工作状态。其中，唤醒指示可以是用户向终端100说的特定的唤醒词，可以是用户长按电源键的操作，或者，可以是用户点击桌面语音助手应用程序的操作等。

本申请实施例还提供一种气息唤醒的唤醒方式。气息唤醒是指用户通过嘴部对着终端100、且在距离终端100预设距离范围内生成气息(如，说话或吹气)的方式，唤醒终端100进入语音交互的工作状态。这样，用户可以将终端100放在嘴边，并直接对着终端100说话或吹气，即可唤醒终端100进入语音交互的工作状态，而无需使用特定的唤醒词或按下按键。对应的，当终端100检测到用户气息，则进入语音交互的工作状态。

一种可实现方式中，用户气息的检测方法，可以采用以下实现方式：利用麦克风170C采集语音信息，如果采集到语音信息，则可以利用气息识别模块，确定采集到的语音信息是否为用户通过嘴部对着终端100、且在距离终端100预设距离范围内说的话或吹的气。气息识别模块可以是一种训练好的用于识别气息的神经网络。

示例性的，用户与麦克风170C在不同距离条件下说话时，在麦克风170C上会形成不同的气流。例如当用户靠近麦克风170C说话时，如说话内容中包括“b，c，d，f，j，k，l，p，q，r，s，t，v，w，x，y，z”等辅音，会在麦克风170C上引起的爆音。这样，可以通过训练学习用户对着麦克风170C说话时，产生的爆音的特征，得到气息识别模块。气息识别模块为训练好的神经网络，能够针对输入的语音信息，识别出该语音信息是否为靠近麦克风170C输入的声音，如训练好的神经网络能够准确检测接近麦克风5厘米以内的人声，这样，当气息识别模块识别到输入的语音信息为接近麦克风5厘米以内的人声，则确定检测到用户气息，从而唤醒终端100进入语音交互的工作状态。

需要说明的是，用户向终端100吹气，麦克风170C也能够采集到声音，本申请将吹气产生的声音也称为语音信息。

一种可实现方式中，用户气息的检测方法，还可以采用以下实现方式：如果麦克风170C采集到语音信息，则获取采集到该语音信息时，压力传感器180A采集到的压力值。如果压力值大于预设压力阈值，则确定检测到用户气息。

当用户嘴部对着终端、且在距离终端100预设距离范围内说话或吹气时产生的气流，会对终端100产生一定的压力。这样，本申请实施例可以利用压力传感器180A，检测用户说话时对终端100产生的压力，如果压力值大于预设压力阈值，表示用户嘴部对着终端100、且在距离终端100预设距离范围内说话或吹气，这样可以确定检测到用户气息。相反，如果压力值小于或等于预设压力阈值，表示用户没有在距离终端100预设距离范围内说话或吹气，这样可以确定没有检测到用户气息。

需要说明的是，本申请实施例中，压力传感器180A的参数要能够满足气息检测的精度需求。例如，用户嘴部对着终端100、且在距离终端100预设距离范围内说话或吹气时产生的气流，对终端100产生压力为0.07Mpa，压力传感器180A的量程为0～0.3Mpa，测量精度为0.001Mpa。

还需要说明的是，为了提高压力传感器180A检测的准确度，可以将压力传感器180A设置在麦克风170C附近。这样，在用户靠近麦克风170C说话时，麦克风170C附近的压力传感器180A能够检测到说话产生的气流对压力传感器180A产生的压力。

一种可实现方式中，用户气息的检测方法，还可以采用以下实现方式：如果麦克风170C采集到语音信息，则获取第一温度和第二温度，其中，第一温度为在麦克风170C采集到该语音信息之前，温度传感器180J采集到的温度，第二温度为在麦克风170C采集到该语音信息时，温度传感器180J采集到的温度。如果第二温度大于第一温度，则确定检测到用户气息；如果第二温度小于或等于第一温度，则确定没有检测到用户气息。

一种可实现方式中，用户气息的检测方法，还可以采用以下实现方式：如果麦克风170C采集到语音信息，则获取采集到该语音信息时，湿度传感器180N采集到的湿度。如果湿度大于预设湿度阈值，则确定检测到用户气息；如果湿度小于或等于预设湿度阈值，则确定没有检测到用户气息。

一种可实现方式中，用户气息的检测方法，还可以采用以下实现方式：如果麦克风170C采集到语音信息，则获取采集到该语音信息时，二氧化碳传感器180P采集到的二氧化碳浓度。如果二氧化碳浓度大于预设二氧化碳浓度阈值，则确定检测到用户气息；如果二氧化碳浓度小于或等于预设二氧化碳浓度阈值，则确定没有检测到用户气息。

当用户嘴部对着终端100、且在距离终端100预设距离范围内说话或吹气时，在终端100附近的温度、湿度、二氧化碳浓度会产生一定的变化。因此，本申请实施例可以基于温度传感器180J、湿度传感器180N或二氧化碳传感器180P采集的数据，确定是否检测到用户气息。

需要说明的是，以上实施例仅对检测用户气息的实现方式进行示例性说明，并不表示对检测用户气息的具体实现方式的限定。例如，还可以组合采用以上实施例中列举的多种实现方式，例如，可以组合采用“气息识别模块”和“压力传感器”的方案，又例如，可以组合采用“气息识别模块”和“温度传感器”的方案，又例如，可以组合采用“气息识别模块”和“湿度传感器”的方案，再例如，可以组合采用“气息识别模块”和“二氧化碳传感器”的方案。还需要说明的是，在其他应用程序占用麦克风时，本申请实施例提供的语音交互方法不可用。例如，当用户使用终端100打电话时，即使用户嘴部对着终端100、且在距离终端100预设距离范围内生成气息，也不会唤醒终端100进入语音交互工作状态。

步骤S2，响应于唤醒指示，进入语音交互工作状态。

进入语音交互工作状态后，终端100会继续收音，以获取到用户的语音信息。

步骤S3，检测到第一语音信息。

步骤S4，输出针对第一语音信息的反馈结果。

本申请实施例中针对第一语音信息的反馈结果，可以是语音、文字、图像或者是进入某个应用程序等，本申请对此不进行限定。

示例性的，进入语音交互工作状态后，用户说一句话，如“今天天气怎么样”，接着，“今天天气怎么样”作为第一语音信息，被终端100检测到。然后，终端100输出针对第一语音信息的反馈结果，如终端100通过扬声器170A输出语音“今天天气为晴”，又例如，终端100可以通过显示屏194显示文字“今天天气为晴”。

示例性的，进入语音交互工作状态后，用户说一句话，如“拨打张三电话”，接着，“拨打张三电话”作为第一语音信息，被终端100检测到。然后，终端100输出针对第一语音信息的反馈结果，如终端100进入语音通话应用程序，并拨打张三的电话号码。

步骤S5，确定用户是否有继续语音交互的意图。

如果用户有继续语音交互的意图，则保持语音交互工作状态，如果用户没有继续语音交互的意图，则结束语音交互工作状态。

需要说明的是，在语音交互的工作状态下，终端100可以持续收音；结束语音交互工作状态后，终端结束收音。

本申请实施例提供如下几种确定用户是否有继续语音交互的意图的实现方式。

图4为本申请实施例提供的确定用户是否有继续语音交互的意图的第一种实现方式的流程图。

如图4所示，确定用户是否有继续语音交互的意图的第一种实现方式，可以包括以下步骤：

步骤S51，确定终端100是否靠近用户的嘴部。

本申请实施例中确定终端100是否靠近用户的嘴部，是指确定终端100是否在用户嘴边。

如果语音交互的工作状态是通过气息唤醒的方式唤醒的，说明在唤醒终端100时，终端100是在用户嘴边的。因此，在输出针对第一语音信息的反馈结果之后，可以通过判断步骤S1至步骤S4这段时间，用户是否手持终端100向用户的嘴部方向远离，确定终端100是否依然在用户嘴边。如果是，则认为终端100已不在用户嘴边，这种情况可以认为用户没有继续语音交互的意图，可以结束语音交互工作状态；如果否，则认为终端100仍然在用户嘴边，这种情况认为用户可能有继续语音交互的意图，可以继续执行后续步骤。

如果语音交互的工作状态不是通过气息唤醒的方式唤醒的，说明在唤醒终端100时，终端100不在用户嘴边。这种情况下，本申请可以在进入语音交互的工作状态之后，先确定在输出针对所述第一语音信息的反馈结果之前，用户是否手持终端100向用户的嘴部方向靠近。如果确定在输出针对所述第一语音信息的反馈结果之前，用户手持终端100向用户的嘴部方向靠近，则再确定在输出针对第一语音信息的反馈结果之后，终端100是否仍然在用户嘴边(具体的，确定在输出针对第一语音信息的反馈结果之后，用户是否手持终端100向用户的嘴部方向远离)。如果确定在输出针对所述第一语音信息的反馈结果之前，用户没有手持终端100向用户的嘴部方向靠近，这种情况可以认为用户没有继续语音交互的意图，可以结束语音交互的工作状态。

一种可实现方式中，可以利用终端100上的陀螺仪传感器180C和加速度传感器180E，采集终端100的角速度和加速度；然后，利用采集的角速度和加速度，确定用户的手势。其中，用户的手势可以包括第一手势、第二手势和第三手势，第一手势用于表征用户手持终端100处于静止状态，第二手势用于表征用户手持终端100向用户的嘴部方向远离，第三手势用于表征用户手持终端100向用户的嘴部方向靠近。

示例性的，可以利用陀螺仪传感器180C和加速度传感器180E，采集步骤S1至步骤S4这段时间的角速度和加速度，然后，将采集的角速度和加速度输入手势识别模块，手势识别模块可以是训练好的用于手势识别的神经网络，经过手势识别模块处理后，输出用户的手势。其中，手势识别模块，能够基于终端100在不同时刻的角速度和加速度，确定用户的手持。

需要说明的是，本申请实施例中，如果用户手势变化较小，在预设变化范围内，则认为用户的手势为静止。例如，如果由用户手持终端100距离嘴部5cm，变化为用户手持终端100距离嘴部4cm，则认为用户的手势为第一手势。

步骤S52，如果确定终端100靠近用户的嘴部，则将语音交互工作状态延长预设时长。

如果在输出针对第一语音信息的反馈结果之后，终端100仍然在用户嘴边，则认为用户可能有继续语音交互的意图，这种情况下，本申请将语音交互工作状态延长预设时长。在延长的预设时长内，终端100持续收音。

本申请对预设时长不进行限定，例如可以是5s，10s，20s等。

步骤S53，确定预设时长内是否检测到第二语音信息。

步骤S54，如果在预设时长内检测到第二语音信息，则确定是否检测到用户气息。

如果在预设时长内没有检测到第二语音信息，则结束语音交互的工作状态。如果在预设时长内检测到第二语音信息，终端100检测到的第二语音信息可能是用户说的话，也可能是周围有其他人在说话。因此，本申请进一步检测用户气息，以确定第二语音信息是否为用户对终端100说的话。

此处需要说明的是，本申请实施例中，在语音交互的工作状态下，需要用户的嘴部靠近终端100，与终端100进行语音交互。因此，如果第二语音信息为用户说的话，则用户在说话时产生的气息可以被终端检测到，也就是说，本申请可以基于是否能够检测到用户气息，确定第二语音信息为用户说的话，还是周围有其他人说的话。

其中，用户气息的检测方式可以参见上述步骤S1的描述，此处不再赘述。例如，可以利用气息识别模块、压力传感器180A、温度传感器180J、湿度传感器180N或二氧化碳传感器180P，检测用户气息。

步骤S55，如果检测到用户气息，则输出针对第二语音信息的反馈结果。

如果检测到用户气息，则说明第二语音信息为用户的嘴部对着终端100、且在距离终端100预设距离范围内说的话，这种情况认为用户有继续语音交互的意图，则输出针对第二语音信息的反馈结果。如果没有检测到用户气息，则说明第二语音信息为周围其他人说的话，不是用户说的话，这种情况认为用户没有继续语音交互的意图，则可以结束语音交互的工作状态。

综上，本申请实施例提供的确定用户是否有继续语音交互的意图的第一种实现方式中，在输出针对第一语音信息的反馈结果之后，先确定终端100是否在用户嘴边，如果终端100不在用户嘴边，则结束语音交互工作状态；如果确定终端100在用户嘴边，则将语音交互工作状态延长预设时长。接着，如果在预设时长内没有检测到第二语音信息，则结束语音交互工作状态；如果在预设时长内检测到第二语音信息，则检测用户气息。如果没有检测到用户气息，则结束语音交互的工作状态；如果检测到用户气息，则输出针对第二语音信息的反馈结果。也就是说，第一种实现方式中，如果终端100在用户嘴边、且能够检测到用户气息，则确定用户有继续语音交互的意图。这样，本申请实施例提供的语音交互方法，能够大概率识别到是用户本人有继续语音交互的意图，有效降低终端100对于其他人或者周围其他噪声的错误响应，提升语音交互的准确性和用户体验。

图5为本申请实施例提供的确定用户是否有继续语音交互的意图的第二种实现方式的流程图。

如图5所示，确定用户是否有继续语音交互的意图的第二种实现方式，可以包括以下步骤：

步骤S61，输出针对第一语音信息的反馈结果之后，将语音交互工作状态延长预设时长。

步骤S62，确定预设时长内是否检测到第二语音信息；

步骤S63，如果在预设时长内检测到第二语音信息，则确定终端100是否靠近用户的嘴部。

步骤S64，如果确定终端100靠近用户的嘴部，则确定是否检测到用户气息。

步骤S65，如果检测到用户气息，则输出针对第二语音信息的反馈结果。

综上，第二种实现方式中，在输出针对第一语音信息的反馈结果之后，直接将语音交互工作状态延长预设时长。如果在预设时长内没有检测到第二语音信息，则结束语音交互工作状态；如果在预设时长内检测到第二语音信息，则先确定终端100是否在用户嘴边，如果终端100不在用户嘴边，则结束语音交互工作状态；如果确定终端100在用户嘴边，则再检测用户气息。如果没有检测到用户气息，则结束语音交互的工作状态；如果检测到用户气息，则输出针对第二语音信息的反馈结果。

需要说明的是，上述步骤S63中确定终端100是否在用户嘴边的具体实现方式可以参见步骤S51的描述，步骤S64中检测用户气息的具体实现方式可以参见步骤S54的描述，步骤S65的具体实现方式可以参见步骤S55的描述，此处不再赘述。

图6为本申请实施例提供的确定用户是否有继续语音交互的意图的第三种实现方式的流程图。

如图6所示，确定用户是否有继续语音交互的意图的第三种实现方式，可以包括以下步骤：

步骤S71，输出针对第一语音信息的反馈结果之后，将语音交互工作状态延长预设时长。

步骤S72，确定预设时长内是否检测到第二语音信息；

步骤S73，如果在预设时长内检测到第二语音信息，则确定是否检测到用户气息。

步骤S74，如果检测到用户气息，则输出针对第二语音信息的反馈结果。

综上，第三种实现方式中，在输出针对第一语音信息的反馈结果之后，直接将语音交互工作状态延长预设时长。如果在预设时长内没有检测到第二语音信息，则结束语音交互工作状态；如果在预设时长内检测到第二语音信息，则检测用户气息。如果没有检测到用户气息，则结束语音交互的工作状态；如果检测到用户气息，则输出针对第二语音信息的反馈结果。

需要说明的是，上述步骤S73中检测用户气息的具体实现方式可以参见步骤S54的描述，步骤S74的具体实现方式可以参见步骤S55的描述，此处不再赘述。

图7为本申请实施例提供的确定用户是否有继续语音交互的意图的第四种实现方式的流程图。

如图7所示，确定用户是否有继续语音交互的意图的第四种实现方式，可以包括以下步骤：

步骤S81，输出针对第一语音信息的反馈结果之后，将语音交互工作状态延长预设时长。

步骤S82，确定预设时长内是否检测到第二语音信息；

步骤S83，如果在预设时长内检测到第二语音信息，则确定终端100是否靠近用户的嘴部。

步骤S84，如果确定终端100靠近用户的嘴部，则输出针对第二语音信息的反馈结果。

综上，第四种实现方式中，在输出针对第一语音信息的反馈结果之后，直接将语音交互工作状态延长预设时长。如果在预设时长内没有检测到第二语音信息，则结束语音交互工作状态；如果在预设时长内检测到第二语音信息，则确定终端100是否在用户嘴边，如果终端100不在用户嘴边，则结束语音交互工作状态；如果确定终端100在用户嘴边，则输出针对第二语音信息的反馈结果。

需要说明的是，上述步骤S83中确定终端100是否在用户嘴边的具体实现方式可以参见步骤S51的描述，步骤S84的具体实现方式可以参见步骤S55的描述，此处不再赘述。

图8为本申请实施例提供的确定用户是否有继续语音交互的意图的第五种实现方式的流程图。

如图8所示，确定用户是否有继续语音交互的意图的第五种实现方式，可以包括以下步骤：

步骤S91，确定终端100是否靠近用户的嘴部。

步骤S92，如果确定终端100靠近用户的嘴部，则将语音交互的工作状态延长预设时长。

步骤S93，确定预设时长内是否检测到第二语音信息。

步骤S94，如果在预设时长内检测到第二语音信息，则输出针对第二语音信息的反馈结果。

综上，第五种实现方式中，先确定终端100是否在用户嘴边，如果确定终端100在用户嘴边，则将语音交互的工作状态延长预设时长；如果确定终端100不在用户嘴边，则结束语音交互的工作状态。这样，可以减少终端100的能耗。进一步的，如果在预设时长内检测到第二语音信息，则输出针对第二语音信息的反馈结果；如果在预设时长内没有检测到第二语音信息，则结束语音交互工作状态。第五种实现方式中，在输出针对所述第一语音信息的反馈结果之后，如果终端100依然在用户嘴边，则认为用户有继续语音交互的意图，这样，可以延长收音时间。

进一步的，为了提高识别用户有继续语音交互的意图，可以在预设时长内检测到第二语音信息之后，先检测用户气息，如果检测到用户气息，再输出针对第二语音信息的反馈结果。具体的可以参见上述第一种实现方式，此处不再赘述。

综上，本申请实施例提供的语音交互方法，能够大概率识别到是用户本人有继续语音交互的意图，有效降低终端100对于其他人或者周围其他噪声的错误响应，提升语音交互的准确性和用户体验。

本文中描述的各个方法实施例可以为独立的方案，也可以根据内在逻辑进行组合，这些方案都落入本申请的保护范围中。

可以理解的是，上述各个方法实施例中，由电子设备实现的方法和操作，也可以由可用于电子设备的部件(例如芯片或者电路)实现。

上述实施例对本申请提供的语音交互方法进行了介绍。可以理解的是，终端为了实现上述功能，其包含了执行每一个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上详细说明了本申请实施例提供的方法。以下，结合图9详细说明本申请实施例提供的装置。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见上文方法实施例，为了简洁，这里不再赘述。

图9是本申请实施例提供的一种语音交互装置的结构示意图。在一个实施例中，终端可以通过图9所示的硬件装置实现相应的功能。如图9所示，该装置1000可以包括：处理器1001和存储器1002。其中，处理器1001可以包括一个或多个处理单元，例如：处理器1001可以包括应用处理器，调制解调处理器，图形处理器，图像信号处理器，控制器，视频编解码器，数字信号处理器，基带处理器，和/或神经网络处理器等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。存储器1002与处理器1001耦合，用于存储各种软件程序和/或多组指令，存储器1002可包括易失性存储器和/或非易失性存储器。

该装置1000可以执行上述方法实施例中执行的操作。

例如，在本申请一种可选的实施例中，所述处理器1001，可以用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则检测用户气息；如果检测到用户气息，则输出针对所述第二语音信息的反馈结果。

又例如，在本申请一种可选的实施例中，所述处理器1001，可以用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则将语音交互的工作状态延长预设时长；如果确定所述终端不靠近用户的嘴部，则结束语音交互的工作状态。

再例如，在本申请一种可选的实施例中，所述处理器1001，可以用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则输出针对所述第二语音信息的反馈结果。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

根据本申请实施例提供的方法，本申请实施例还提供一种计算机程序产品，该计算机程序产品包括：计算机程序或指令，当该计算机程序或指令在计算机上运行时，使得该计算机执行方法实施例中任意一个实施例的方法。

根据本申请实施例提供的方法，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序或指令，当该计算机程序或指令在计算机上运行时，使得该计算机执行方法实施例中任意一个实施例的方法。

根据本申请实施例提供的方法，本申请实施例还提供一种终端，包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，使所述电子设备执行方法实施例中任意一个实施例的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step)，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例提供的语音交互装置、芯片、计算机存储介质、计算机程序产品、终端均用于执行上文所提供的方法，因此，其所能达到的有益效果可参考上文所提供的方法对应的有益效果，在此不再赘述。

应理解，在本申请的各个实施例中，各步骤的执行顺序应以其功能和内在逻辑确定，各步骤序号的大小并不意味着执行顺序的先后，不对实施例的实施过程构成限定。

本说明书的各个部分均采用递进的方式进行描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点介绍的都是与其他实施例不同之处。尤其，对于语音交互装置、芯片、计算机存储介质、计算机程序产品、终端的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

检测到发起语音交互的唤醒指示；

响应于所述唤醒指示，进入语音交互的工作状态；

检测到第一语音信息；

输出针对所述第一语音信息的反馈结果；

如果在预设时长内检测到第二语音信息，则检测用户气息；

如果检测到用户气息，则输出针对所述第二语音信息的反馈结果。

2.根据权利要求1所述的方法，其特征在于，在输出针对所述第一语音信息的反馈结果之后，还包括：

确定终端是否靠近用户的嘴部；

如果确定所述终端靠近所述用户的嘴部，则将所述语音交互的工作状态延长所述预设时长；

如果确定所述终端不靠近所述用户的嘴部，则结束语音交互的工作状态。

3.根据权利要求1所述的方法，其特征在于，所述如果在预设时长内检测到第二语音信息，还包括：

确定终端是否靠近用户的嘴部；

如果确定所述终端靠近所述用户的嘴部，则检测用户气息；

4.根据权利要求2或3所述的方法，其特征在于，如果所述唤醒指示为用户气息，则所述确定所述终端是否靠近用户的嘴部，包括：

识别在所述语音交互的工作状态下，所述用户的手势；

如果所述用户的手势为第一手势，则确定所述终端靠近用户的嘴部，所述第一手势用于表征所述用户手持所述终端处于静止状态；

如果所述用户的手势为第二手势，则确定所述终端不靠近用户的嘴部，所述第二手势用于表征所述用户手持所述终端向所述用户的嘴部方向远离。

5.根据权利要求2或3所述的方法，其特征在于，如果所述唤醒指示为除用户气息以外的其他方式，则在确定所述终端是否靠近用户的嘴部之前，包括：

确定在输出针对所述第一语音信息的反馈结果之前，是否识别到第三手势，所述第三手势用于表征所述用户手持所述终端向所述用户的嘴部方向靠近；

如果识别到所述第三手势，则确定在输出针对所述第一语音信息的反馈结果之后，所述终端是否仍然靠近用户的嘴部；

如果没有识别到所述第三手势，则结束语音交互的工作状态。

6.根据权利要求4所述的方法，其特征在于，所述识别在所述语音交互的工作状态下，所述用户的手势，包括：

获取在所述语音交互的工作状态下，不同时刻的角速度和加速度；

利用所述不同时刻的角速度、加速度、以及手势识别模块，确定用户的手势；其中，所述手势识别模块用于识别用户手持终端向用户的嘴部方向靠近、用户手持终端向用户的嘴部方向远离、或者用户手持所述终端处于静止状态。

7.根据权利要求1所述的方法，其特征在于，所述检测用户气息，包括：

将所述第二语音信息输入气息识别模块，所述气息识别模块用于识别所述第二语音信息是否为所述用户的嘴部距离终端预设距离内发出的声音；

如果所述气息识别模块识别到所述第二语音信息为所述用户的嘴部距离所述终端预设距离内发出的声音，则确定检测到用户气息；

如果所述气息识别模块识别到所述第二语音信息不是所述用户的嘴部距离所述终端预设距离内发出的声音，则确定没有检测到用户气息。

8.根据权利要求1所述的方法，其特征在于，终端包括压力传感器，所述检测用户气息，包括：

获取采集到所述第二语音信息时，所述压力传感器对应的压力值；

如果所述压力值大于预设压力阈值，则确定检测到用户气息；

如果所述压力值小于或等于预设压力阈值，则确定没有检测到用户气息。

9.根据权利要求1所述的方法，其特征在于，终端包括温度传感器，所述检测用户气息，包括：

获取第一温度和第二温度，其中，所述第一温度为采集到所述第二语音信息之前，所述温度传感器对应的温度，所述第二温度为采集到所述第二语音信息时，所述温度传感器对应的温度；

如果所述第二温度大于所述第一温度，则确定检测到用户气息；

如果所述第二温度小于或等于所述第一温度，则确定没有检测到用户气息。

10.根据权利要求1所述的方法，其特征在于，终端包括湿度传感器，所述检测用户气息，包括：

获取采集到所述第二语音信息时，所述湿度传感器对应的湿度；

如果所述湿度大于预设湿度阈值，则确定检测到用户气息；

如果所述湿度小于或等于预设湿度阈值，则确定没有检测到用户气息。

11.根据权利要求1所述的方法，其特征在于，终端包括二氧化碳传感器，所述检测用户气息，包括：

获取采集到所述第二语音信息时，所述二氧化碳传感器对应的二氧化碳浓度；

如果所述二氧化碳浓度大于预设二氧化碳浓度阈值，则确定检测到用户气息；

如果所述二氧化碳浓度小于或等于预设二氧化碳浓度阈值，则确定没有检测到用户气息。

12.一种语音交互方法，其特征在于，所述方法包括：

检测到发起语音交互的唤醒指示；

响应于所述唤醒指示，进入语音交互的工作状态；

检测到第一语音信息；

输出针对所述第一语音信息的反馈结果；

确定终端是否靠近用户的嘴部；

如果确定所述终端靠近用户的嘴部，则将语音交互的工作状态延长预设时长；

如果在预设时长内检测到第二语音信息，则输出针对所述第二语音信息的反馈结果。

13.一种语音交互方法，其特征在于，所述方法包括：

检测到发起语音交互的唤醒指示；

响应于所述唤醒指示，进入语音交互的工作状态；

检测到第一语音信息；

输出针对所述第一语音信息的反馈结果；

如果在预设时长内检测到第二语音信息，则确定终端是否靠近用户的嘴部；

如果确定所述终端靠近用户的嘴部，则输出针对所述第二语音信息的反馈结果。

14.一种语音交互装置，其特征在于，所述装置包括处理器；

所述处理器，用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则检测用户气息；如果检测到用户气息，则输出针对所述第二语音信息的反馈结果。

15.一种语音交互装置，其特征在于，所述装置包括处理器；

所述处理器，用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则将语音交互的工作状态延长预设时长；如果确定所述终端不靠近用户的嘴部，则结束语音交互的工作状态。

16.一种语音交互装置，其特征在于，所述装置包括处理器；

所述处理器，用于检测到发起语音交互的唤醒指示；响应于所述唤醒指示，进入语音交互的工作状态；检测到第一语音信息；输出针对所述第一语音信息的反馈结果；如果在预设时长内检测到第二语音信息，则确定终端是否靠近用户的嘴部；如果确定所述终端靠近用户的嘴部，则输出针对所述第二语音信息的反馈结果。

17.一种终端，其特征在于，所述终端包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，使所述终端执行如权利要求1-13中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或指令，当所述计算机程序或指令被执行时，如权利要求1-13中任一项所述的方法被执行。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得计算机执行如权利要求1-13中任一项所述的方法。