CN111933149A

CN111933149A - 语音交互方法、穿戴式设备、终端及语音交互系统

Info

Publication number: CN111933149A
Application number: CN202010799698.3A
Authority: CN
Inventors: 史佳瑶; 陈孝良; 李智勇
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-13

Abstract

本发明提供一种语音交互方法、穿戴式设备、终端及语音交互系统，所述方法包括：基于接收的声音信号实时获取目标语音；获取所述目标语音的声纹信息；若所述目标语音的声纹信息与预设声纹信息匹配，则将所述目标语音转换为文本信息；向终端发送所述文本信息。本发明实施例能够提高语音交互的效果。

Description

语音交互方法、穿戴式设备、终端及语音交互系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音交互方法、穿戴式设备、终端及语音交互系统。

背景技术

随着真正无线立体声(True Wireless Stereo，TWS)技术的发展，耳机摆脱了传统有线耳机中耳机线的控制。TWS耳机支持左右声道分离，使TWS耳机在地铁、公交及骑车等多种公共环境下使用更加便捷及安全。

TWS耳机作为语音的输入源，将语音传输到手机等终端，终端判断输入的语音是否包括唤醒词，在判断输入的语音包括唤醒词的情况下，由终端基于输入的语音获取语音识别结果，并执行语音识别结果对应的指令。目前，在地铁、公交及骑车等多种公共环境下，易出现判断唤醒词有误，导致不能及时响应用户，从而语音交互的效果较差。

发明内容

本发明实施例提供一种语音交互方法、穿戴式设备、终端及语音交互系统，以解决现有技术中语音交互的效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音交互方法，应用于穿戴式设备，所述方法包括：

基于接收的声音信号实时获取目标语音；

获取所述目标语音的声纹信息；

若所述目标语音的声纹信息与预设声纹信息匹配，则将所述目标语音转换为文本信息；

向终端发送所述文本信息。

第二方面，本发明实施例提供了一种语音交互方法，应用于终端，所述方法包括：

实时接收穿戴式设备发送的文本信息；

基于所述文本信息获取用户意图信息；

执行所述用户意图信息对应的操作。

第三方面，本发明实施例提供了一种穿戴式设备，所述穿戴式设备包括：

第一获取模块，用于基于接收的声音信号实时获取目标语音；

第二获取模块，用于获取所述目标语音的声纹信息；

第一转换模块，用于若所述目标语音的声纹信息与预设声纹信息匹配，则将所述目标语音转换为文本信息；

第一发送模块，用于向终端发送所述文本信息。

第四方面，本发明实施例提供了一种终端，所述终端包括：

接收模块，用于实时接收穿戴式设备发送的文本信息；

获取模块，用于基于所述文本信息获取用户意图信息；

执行模块，用于执行所述用户意图信息对应的操作。

第五方面，本发明实施例提供了一种穿戴式设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的语音交互方法中的步骤。

第六方面，本发明实施例提供了一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第二方面所述的语音交互方法中的步骤。

第七方面，本发明实施例提供了一种语音交互系统，所述语音交互系统包括穿戴式设备和终端，所述穿戴式设备为第三方面所述的穿戴式设备，所述终端为第四方面所述的终端。

第八方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音交互方法中的步骤；或者，所述计算机程序被处理器执行时实现如第二方面所述的语音交互方法中的步骤。

在本发明实施例中，基于接收的声音信号实时获取目标语音；获取所述目标语音的声纹信息；若所述目标语音的声纹信息与预设声纹信息匹配，则将所述目标语音转换为文本信息；向终端发送所述文本信息。这样，在穿戴式设备上进行声纹识别，实现免唤醒，避免由于判断唤醒词有误导致不能及时响应用户，从而可以提高语音交互效果；并且，在穿戴式设备上进行文本转换，避免向终端或服务器发送用户的语音，能够避免网络环境较差的情况下出现丢包导致语音识别出错，从而可以进一步提高语音交互效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音交互方法的流程图之一；

图2是本发明实施例提供的一种语音交互方法的流程图之二；

图3是本发明实施例提供的一种穿戴式设备的结构示意图之一；

图4是本发明实施例提供的一种穿戴式设备的结构示意图之二；

图5是本发明实施例提供的一种穿戴式设备的结构示意图之三；

图6是本发明实施例提供的一种终端的结构示意图之一；

图7是本发明实施例提供的一种终端的结构示意图之二；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音交互方法的流程图之一，所述方法应用于穿戴式设备，如图1所示，包括以下步骤：

步骤101、基于接收的声音信号实时获取目标语音。

其中，所述穿戴式设备可以为蓝牙耳机、智能手表、智能眼镜及智能手套等设备。穿戴式设备可以实时接收声音信号。所述目标语音可以包括人声语音信号，可以采用语音活动检测(Voice Activity Detection，VAD)或者其它方式获取目标语音。例如，可以是，对接收的声音信号进行语音活动检测，以检测所述声音信号中的语音开始信号与语音结束信号；根据语音活动检测结果实时获取目标语音，所述目标语音包括所述语音开始信号与所述语音结束信号之间的语音。

步骤102、获取所述目标语音的声纹信息。

其中，可以将实现声纹识别的算法库集成在穿戴式设备中。可以在穿戴式设备中存储预设声纹信息，所述预设声纹信息可以为用户的声纹信息，以穿戴式设备为TWS耳机为例，可以将用户的声纹信息录入到绑定用户账号的TWS耳机中，从而可以对用户的声纹进行检测。

步骤103、若所述目标语音的声纹信息与预设声纹信息匹配，则将所述目标语音转换为文本信息。

其中，可以通过声纹识别确定所述目标语音的声纹信息与预设声纹信息是否匹配。可以基于离线语音识别模型对所述目标语音进行语音识别，将所述目标语音转换为文本信息。所述穿戴式设备可以集成离线语音识别模型。以穿戴式设备为TWS耳机为例，可以在TWS耳机内置的芯片中集成带有端到端的移动端全神经语音识别器技术的离线语音识别模型，该离线语音识别模型可以用于在TWS耳机中将用户的语音转换为文本信息。例如，可以在TWS耳机中的用于声纹识别的算法库检测到与用户的声纹信息相匹配的语音后，将语音传输至TWS耳机中的用于语音识别的离线语音识别模型进行识别。

步骤104、向终端发送所述文本信息。

其中，穿戴式设备可以向终端发送所述文本信息。终端可以实时接收穿戴式设备发送的文本信息；基于所述文本信息获取用户意图信息；执行所述用户意图信息对应的操作。所述基于所述文本信息获取用户意图信息，可以包括：向服务器发送所述文本信息，以使所述服务器基于所述文本信息进行用户意图识别；接收所述服务器发送的用户意图信息。服务器上可以存储有解析组件，可以采用解析组件对文本信息进行解析，得到用户意图信息。具体的，服务器上可以存储有多个解析组件，可以确定对文本信息进行解析的解析组件，可以采用确定的解析组件对文本信息进行解析，得到用户意图信息。

另外，服务器可以对文本信息进行语义理解，确定对文本信息进行解析的解析组件。作为一种实施方式，可以识别所述文本信息中的关键词，例如，若识别到文本信息中包括“天气”，可以确定解析查询天气相关信息的解析组件为对文本信息进行解析的解析组件，若识别到文本信息中包括“观看”，可以确定解析视频播放类信息的解析组件为对文本信息进行解析的解析组件。所述用户意图信息为采用解析组件对文本信息进行解析的解析结果。例如，用户向穿戴式设备语音输入“我要观看XX电影”，服务器可以采用解析组件对文本信息进行解析，将XX电影的资源名称返回给手机，由手机搜索XX电影的资源呈现给用户观看。

在实际应用中，以穿戴式设备为TWS耳机为例，TWS耳机可以对采集的声音信号实时进行语音活动检测，若检测到的声音信号不是人声语音信号，则可以丢弃该声音信号；若检测到的声音信号是人声语音信号，则可以对该声音信号进行声纹检测。若检测到该声音信号的声纹信息与用户的声纹信息不匹配，则可以丢弃该声音信号；若检测到该声音信号的声纹信息与用户的声纹信息匹配，则可以将该声音信号输入离线语音识别模型进行识别，得到文本信息，并可以实时检测语音活动检测的检测结果。若语音活动检测检测到所述声音信号中的语音结束信号，则可以停止将声音信号输入离线语音识别模型进行识别；若语音活动检测未检测到所述声音信号中的语音结束信号，则可以实时将识别得到的文本信息上报至手机。手机可以实时将接收到的文本信息上报至服务器。

进一步的，服务器可以实时接收手机发送的文本信息，服务器可以实时对文本信息进行语义理解。若语义理解到用户意图，则可以认为能够结束语义理解过程。若语义理解过程未结束，则可以继续接收文本信息并继续进行语义理解。若语义理解过程已结束，则可以通知TWS耳机停止文本信息的上传以及停止将目标语音转换为文本信息。服务器可以根据语义理解结果确定对文本信息进行解析的解析组件，若确定的解析组件在预先存储的与手机对应的解析组件的范围内，则可以采用确定的解析组件对文本信息进行解析，并可以将解析的用户命令发送至手机，手机接收到解析的用户命令后，执行所述用户命令对应的操作。例如，用户命令为“播放xx电影”，则手机可以执行“播放xx电影”的响应。若确定的解析组件不在预先存储的与手机对应的解析组件的范围内，则可以控制手机执行预设的响应操作，例如，控制手机语音回复“未安装播放器”。

另外，可以在穿戴式设备或手机上将文本信息输入采用大量命令词进行训练得到的离线识别模型，确定对文本信息进行解析的解析组件，从而可以不必在服务器上对文本信息进行语义理解。该离线识别模型可以采用大量指定词汇进行训练，该离线识别模型的输出可以为解析组件。每个不同的解析组件均可以单独进行训练。

相关技术中，穿戴式设备将音频传输至终端，由终端判断音频中是否包括唤醒词，因此，需要终端长时间进行运算处理，导致终端电量消耗较高，且容易造成终端操作卡顿。终端在识别到唤醒词后，将音频发送至服务器，由服务器进行语音识别，终端需要不断向服务器发送音频，进一步消耗终端的电量；且音频的数据量较大，在网络状况较差的情况下，数据传输较慢，会导致响应速度较慢，用户体验较差；并且，用户的语音信息不必再上传服务器，可以降低用户隐私泄露的概率；进一步的，穿戴式设备通常在用户通勤过程中使用，依赖唤醒词唤醒的识别模式不便于用户使用。

可选的，所述基于接收的声音信号实时获取目标语音，包括：

对接收的声音信号进行语音活动检测，以检测所述声音信号中的语音开始信号与语音结束信号；

根据语音活动检测结果实时获取目标语音，所述目标语音包括所述语音开始信号与所述语音结束信号之间的语音。

其中，语音活动检测可以用于检测所述声音信号中的语音开始信号与语音结束信号。所述对接收的声音信号进行语音活动检测，可以是，依次将接收的每帧声音信号输入用于语音活动检测的卷积神经网络模型，以确定所述每帧声音信号是否为人声语音帧；或者，可以是依次将接收的每帧声音信号输入用于语音活动检测的其他神经网络模型，以确定所述每帧声音信号是否为人声语音帧；或者，还可以是通过每帧声音信号的短时能量和短时过零率确定每帧声音信号是否为人声语音帧，等等，本发明实施例对此不进行限定。可以将实现语音活动检测功能的算法库集成在穿戴式设备中。

该实施方式中，通过语音活动检测获取目标语音，避免将非人声进行文本转换，能够减少穿戴式设备的工作量。

可选的，所述方法还包括如下至少一项：

在检测到所述声音信号中的语音开始信号的情况下，向所述终端发送所述语音开始信号；

在检测到所述声音信号中的语音结束信号的情况下，向所述终端发送所述语音结束信号。

其中，所述接收的声音信号可以包括用户的一个或多个指令，对于多个指令，若多个指令之间间隔的时间较短，则语音活动检测对于该多个指令可能仅检测到一个语音结束信号；若该多个指令中每两个指令间隔的时间较长，则语音活动检测对于每个指令均可以检测到语音结束信号。穿戴式设备在实时接收声音信号的过程中，可以实时将每个语音结束信号发送至终端，从而终端可以知晓当前已获取至少一个指令对应的文本，从而可以执行该指令，不必再等待该指令的结束。以穿戴式设备为TWS耳机，终端为手机为例，在离线语音识别模型识别所述目标语音的过程中，可以将实时识别的文本信息发送至手机，在检测到所述声音信号中的语音结束信号的情况下，可以向手机发送所述语音结束信号，通知手机用户指令已结束。

该实施方式中，在分别检测到所述声音信号中的语音开始信号和语音结束信号的情况下，分别向所述终端发送所述语音开始信号和语音结束信号，能够通知终端语音开始和语音结束，避免终端等待处理，能够降低终端的电量消耗。

可选的，所述方法还包括：

接收所述终端发送的停止将所述目标语音转换为文本信息的指令；

响应于所述指令，停止将所述目标语音转换为文本信息。

其中，终端或服务器在基于所述用户意图信息识别到用户意图的情况下，若未接收到所述穿戴式设备发送的语音结束信号，则可以向所述穿戴式设备发送停止将所述目标语音转换为文本信息的指令；所述穿戴式设备接收所述终端发送的停止将所述目标语音转换为文本信息的指令，可以停止将所述目标语音转换为文本信息。可以是服务器在基于所述用户意图信息识别到用户意图的情况下，将所述停止将所述目标语音转换为文本信息的指令发送至终端，终端将该指令发送至穿戴式设备；或者，还可以是终端在基于所述用户意图信息识别到用户意图的情况下，直接将停止将所述目标语音转换为文本信息的指令发送至穿戴式设备。以穿戴式设备为TWS耳机，终端为手机为例，手机在开始接收到TWS耳机发送的文本信息后，可以实时将文本信息上报至服务器，服务器可以实时对文本信息进行语义理解，并根据语义理解结果确定对文本信息进行解析的解析组件，可以采用解析组件对文本信息进行解析。在手机未接收到TWS耳机发送的语音结束信号的情况下，若语义理解过程已结束，则可以通知TWS耳机停止文本信息的上传以及停止将目标语音转换为文本信息。

需要说明的是，在实际应用中，因为公共环境嘈杂等原因可能导致语音活动检测长时间未能检测到语音结束信号，为避免终端始终处于等待语音结束状态，终端可以在基于用户意图信息识别到用户意图的情况下，执行所述用户意图信息对应的操作，并向所述穿戴式设备发送停止将目标语音转换为文本信息的指令，从而穿戴式设备接收所述终端发送的停止将所述目标语音转换为文本信息的指令，响应于所述指令，停止将所述目标语音转换为文本信息。

另外，为避免遗漏用户的指令，若在停止将所述目标语音转换为文本信息的时刻之后检测到所述声音信号中的语音开始信号，则恢复将所述目标语音转换为文本信息。

该实施方式中，接收所述终端发送的停止将所述目标语音转换为文本信息的指令，停止将所述目标语音转换为文本信息，这样，在终端已识别到用户意图的情况下，不必等待所述穿戴式设备发送所述语音结束信号，能够避免因公共环境嘈杂导致语音活动检测长时间未能检测到语音结束信号，使得终端始终处于等待语音结束状态，能够降低终端的功耗，并且提高穿戴式设备的响应速度；并且，也能够减少所述穿戴式设备的工作量，从而可以降低穿戴式设备的耗电量。

可选的，所述停止将所述目标语音转换为文本信息之后，所述方法还包括：

若在停止将所述目标语音转换为文本信息的时刻之后检测到所述声音信号中的语音开始信号，则恢复将所述目标语音转换为文本信息。

其中，以目标语音包括至少两个指令为例，所述至少两个指令包括第一指令和第二指令，用户在下发第一指令之后，再下发第二指令。穿戴式设备在将第一指令转换为文本信息的过程中，接收到所述终端发送的停止将所述目标语音转换为文本信息的指令，则停止将第一指令转换为文本信息。在穿戴式设备检测到第二指令对应的语音开始信号时，则恢复将所述目标语音转换为文本信息，从而可以将第二指令转换为文本信息。

该实施方式中，在停止转换目标语音之后，若再次检测到语音开始信号，则恢复将所述目标语音转换为文本信息，从而可以避免遗漏用户的指令。

参见图2，图2是本发明实施例提供的一种语音交互方法的流程图之二，所述方法应用于终端，如图2所示，包括以下步骤：

步骤201、实时接收穿戴式设备发送的文本信息；

步骤202、基于所述文本信息获取用户意图信息；

步骤203、执行所述用户意图信息对应的操作。

本发明实施例中，实时接收穿戴式设备发送的文本信息；基于所述文本信息获取用户意图信息；执行所述用户意图信息对应的操作。这样，在穿戴式设备上进行声纹识别，实现免唤醒，避免由于判断唤醒词有误导致不能及时响应用户，从而可以提高语音交互效果；并且，在穿戴式设备上进行文本转换，避免向终端发送用户的语音，能够避免网络环境较差的情况下出现丢包导致语音识别出错，从而可以进一步提高语音交互效果。

可选的，所述基于所述文本信息获取用户意图信息，包括：

向服务器发送所述文本信息，以使所述服务器基于所述文本信息进行用户意图识别；

接收所述服务器发送的用户意图信息。

该实施方式中，向服务器发送所述文本信息，以使所述服务器基于所述文本信息进行用户意图识别，接收所述服务器发送的用户意图信息，这样，通过服务器统一进行用户意图识别，避免在终端上进行用户意图识别，服务器的运算能力和存储能力强于终端，能够提高用户意图识别的准确性，且能够减少终端的工作量。

可选的，所述执行所述用户意图信息对应的操作之前，所述方法还包括：

在基于所述用户意图信息识别到用户意图的情况下，若未接收到所述穿戴式设备发送的语音结束信号，则向所述穿戴式设备发送停止将目标语音转换为文本信息的指令。

该实施方式中，基于所述用户意图信息识别到用户意图的情况下，若未接收到所述穿戴式设备发送的语音结束信号，则向所述穿戴式设备发送停止将目标语音转换为文本信息的指令，并执行所述用户意图信息对应的操作，这样，在终端已识别到用户意图的情况下，不必等待所述穿戴式设备发送所述语音结束信号，能够避免因公共环境嘈杂导致语音活动检测长时间未能检测到语音结束信号，使得终端始终处于等待语音结束状态，能够降低终端的功耗；并且，也能够减少所述穿戴式设备的工作量，从而可以降低穿戴式设备的耗电量。

需要说明的是，本实施例作为与图1所示的实施例中对应的终端的实施方式，其具体的实施方式可以参见图1所示的实施例的相关说明，为了避免重复说明，本实施例不再赘述，且还可以达到相同有益效果。

参见图3，图3是本发明实施例提供的一种穿戴式设备的结构示意图之一，如图3所示，穿戴式设备300包括：

第一获取模块301，用于基于接收的声音信号实时获取目标语音；

第二获取模块302，用于获取所述目标语音的声纹信息；

第一转换模块303，用于若所述目标语音的声纹信息与预设声纹信息匹配，则将所述目标语音转换为文本信息；

第一发送模块304，用于向终端发送所述文本信息。

可选的，所述获取模块301具体用于：

可选的，如图4所示，所述穿戴式设备300还包括如下至少一项：

第二发送模块305，用于在检测到所述声音信号中的语音开始信号的情况下，向所述终端发送所述语音开始信号；

第三发送模块306，用于在检测到所述声音信号中的语音结束信号的情况下，向所述终端发送所述语音结束信号。

可选的，如图5所示，所述穿戴式设备300还包括：

接收模块307，用于接收所述终端发送的停止将所述目标语音转换为文本信息的指令；

第二转换模块308，用于响应于所述指令，停止将所述目标语音转换为文本信息。

可选的，所述第二转换模块308具体还用于：

穿戴式设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

参见图6，图6是本发明实施例提供的一种终端的结构示意图之一，如图6所示，终端400包括：

接收模块401，用于实时接收穿戴式设备发送的文本信息；

获取模块402，用于基于所述文本信息获取用户意图信息；

执行模块403，用于执行所述用户意图信息对应的操作。

可选的，所述获取模块402具体用于：

接收所述服务器发送的用户意图信息。

可选的，如图7所示，所述终端400还包括：

发送模块404，用于在基于所述用户意图信息识别到用户意图的情况下，若未接收到所述穿戴式设备发送的语音结束信号，则向所述穿戴式设备发送停止将目标语音转换为文本信息的指令。

终端能够实现图2的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本发明实施例还提供一种语音交互系统，所述语音交互系统包括穿戴式设备和终端，所述穿戴式设备为本发明上述实施例所述的穿戴式设备，所述终端为本发明上述实施例所述的终端。

请参见图8，图8是本发明实施例提供的一种电子设备的结构示意图，如图8所示，电子设备500包括：存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的程序，其中：

在所述电子设备为穿戴式设备的情况下，所述处理器501读取存储器502中的程序，用于执行：

基于接收的声音信号实时获取目标语音；

获取所述目标语音的声纹信息；

向终端发送所述文本信息。

可选的，所述处理器501用于执行的所述基于接收的声音信号实时获取目标语音，包括：

可选的，所述处理器501还用于执行如下至少一项：

可选的，所述处理器501还用于执行：

响应于所述指令，停止将所述目标语音转换为文本信息。

可选的，所述处理器501还用于执行：

在所述电子设备为终端的情况下，所述处理器501读取存储器502中的程序，用于执行：

实时接收穿戴式设备发送的文本信息；

基于所述文本信息获取用户意图信息；

执行所述用户意图信息对应的操作。

可选的，所述处理器501用于执行的所述基于所述文本信息获取用户意图信息，包括：

接收所述服务器发送的用户意图信息。

可选的，所述处理器501还用于执行：

在图8中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器501代表的一个或多个处理器和存储器502代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器501负责管理总线架构和通常的处理，存储器502可以存储处理器501在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音交互方法，其特征在于，应用于穿戴式设备，所述方法包括：

基于接收的声音信号实时获取目标语音；

获取所述目标语音的声纹信息；

向终端发送所述文本信息。

2.根据权利要求1所述的方法，其特征在于，所述基于接收的声音信号实时获取目标语音，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括如下至少一项：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

响应于所述指令，停止将所述目标语音转换为文本信息。

5.根据权利要求4所述的方法，其特征在于，所述停止将所述目标语音转换为文本信息之后，所述方法还包括：

6.一种语音交互方法，应用于终端，其特征在于，所述方法包括：

实时接收穿戴式设备发送的文本信息；

基于所述文本信息获取用户意图信息；

执行所述用户意图信息对应的操作。

7.根据权利要求6所述的方法，其特征在于，所述基于所述文本信息获取用户意图信息，包括：

接收所述服务器发送的用户意图信息。

8.根据权利要求6所述的方法，其特征在于，所述执行所述用户意图信息对应的操作之前，所述方法还包括：

9.一种穿戴式设备，其特征在于，所述穿戴式设备包括：

第二获取模块，用于获取所述目标语音的声纹信息；

第一发送模块，用于向终端发送所述文本信息。

10.一种终端，其特征在于，所述终端包括：

接收模块，用于实时接收穿戴式设备发送的文本信息；

获取模块，用于基于所述文本信息获取用户意图信息；

执行模块，用于执行所述用户意图信息对应的操作。

11.一种穿戴式设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音交互方法中的步骤。

12.一种终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求6至8中任一项所述的语音交互方法中的步骤。

13.一种语音交互系统，其特征在于，所述语音交互系统包括穿戴式设备和终端，所述穿戴式设备为权利要求9所述的穿戴式设备，所述终端为权利要求10所述的终端。