CN112767936A

CN112767936A - 语音对话方法、装置、存储介质及电子设备

Info

Publication number: CN112767936A
Application number: CN202110012604.8A
Authority: CN
Inventors: 葛斯函; 马天泽; 林锋; 庄莉
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-07

Abstract

本公开公开了一种语音对话方法、装置、存储介质及电子设备，涉及语音对话领域，该方法通过在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向该目标服务器发送心跳信号，以使该目标服务器响应于接收到该心跳信号，向该目标终端发送心跳反馈信号；在接收到该心跳反馈信号的情况下，若接收到该用户的语音请求指令，则根据该语音请求指令获取该用户输入的音频数据，并通过该音频数据与该目标服务器进行语音对话。这样，通过心跳机制使目标终端与目标服务器维持一个长久的通信连接，能够有效降低对话处理的延时，也能够降低对硬件资源的消耗，从而提升资源利用率。

Description

语音对话方法、装置、存储介质及电子设备

技术领域

本公开涉及人机对话领域，具体地，涉及一种语音对话方法、装置、存储介质及电子设备。

背景技术

随着语音技术的发展，语音对话系统已经应用在了很多领域。利用语音对话系统通过语音对话实现人机交互，可以有效解放人的双手，在某些场景下能为我们带来极大的便利。

目前的语音对话系统通常由本地处理模块和云端处理模块构成，本地处理模块负责收集音频数据，将音频数据发送到云端以及接收云端的返回结果。云端处理模块，负责根据音频数据进行语音识别，根据识别结果进行语义理解，并返回相应的对话处理结果。目前的对话系统通常需要在用户发起语音对话之前，先使本地处理模块与云端处理模块建立socket(套接字)连接，并在完成一次对话之后，关闭socket连接，再进行下一次语音对话时，重新建立socket连接，这样，用户每次进行语音对话，本地处理模块都需要与云端处理模块创建socket连接，并在完成当前对话后关闭socket连接，而通常创建socket连接需要一定的时间，如此无疑会增加对话处理的延时，并且频繁的创建和关闭socket连接，也会增加硬件资源的消耗。

发明内容

本公开的目的是提供一种语音对话方法、装置、存储介质及电子设备。

为了实现上述目的，本公开的第一方面提供一种语音对话方法，应用于目标终端，所述方法包括：

在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向所述目标服务器发送心跳信号，以使所述目标服务器响应于接收到所述心跳信号，向所述目标终端发送心跳反馈信号；

在接收到所述心跳反馈信号的情况下，若接收到所述用户的语音请求指令，则根据所述语音请求指令获取所述用户输入的音频数据，并通过所述音频数据与所述目标服务器进行语音对话。

可选地，所述通过所述音频数据与所述目标服务器进行语音对话，包括：

向所述目标服务器发送请求标识信息，以使所述目标服务器根据所述请求标识信息向所述目标终端发送标识反馈信号；

在接收到所述标识反馈信号的情况下，将所述音频数据发送至所述目标服务器，以使所述目标服务器根据所述音频数据生成对话处理结果数据，并将所述对话处理结果数据发送至所述目标终端。

可选地，所述方法还包括：

在第二预设时间段内未接收到所述心跳反馈信号或者在第三预设时间段内未接收到所述标识反馈信号的情况下，确定所述通信连接异常，并向所述目标服务器发送连接重建请求，以使所述目标服务器根据所述连接重建请求重新与所述目标终端建立通信连接。

可选地，所述方法还包括：

获取第四预设时间段内向所述目标服务器发送所述通信连接请求的目标次数；

在确定所述目标次数大于或者等于预设次数阈值的情况下，输出预设语音请求失败信息。

可选地，所述目标终端包括状态机，所述状态机用于表征所述目标终端当前的工作状态，所述方法还包括：

在确定没有接收到用户的语音请求指令的情况下，将所述状态机的当前状态设置为空闲状态；

在确定接收到用户的语音请求指令的情况下，若接收到所述目标服务器发送的所述标识反馈信号，则将状态机的当前状态设置为非空闲状态，若未接收到所述目标服务器发送的所述标识反馈信号，则将状态机的当前状态设置为空闲状态。

可选地，所述方法还包括：

在确定所述状态机的当前状态为非空闲状态的情况下，停止发送心跳信号。

本公开的第二方面提供一种语音对话方法，应用于目标服务器，所述方法包括：

在与目标终端建立通信连接之后，若接收到目标终端发送的心跳信号，则根据所述心跳信号向所述目标终端发送心跳反馈信号，以使所述目标终端在接收到所述心跳反馈信号的情况下，若接收到所述用户的语音请求指令，则根据所述语音请求指令获取所述用户输入的音频数据；

接收所述目标终端发送的音频数据，并根据所述音频数据与所述目标终端进行语音对话。

本公开的第三方面提供一种语音对话装置，应用于目标终端，所述装置包括：

第一发送模块，被配置为在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向所述目标服务器发送心跳信号，以使所述目标服务器响应于接收到所述心跳信号，向所述目标终端发送心跳反馈信号；

第一获取模块，被配置为在接收到所述心跳反馈信号的情况下，若接收到所述用户的语音请求指令，则根据所述语音请求指令获取所述用户输入的音频数据，并通过所述音频数据与所述目标服务器进行语音对话。

可选地，所述第一获取模块，被配置为：

可选地，所述装置还包括：

第二发送模块，被配置为在第二预设时间段内未接收到所述心跳反馈信号或者在第三预设时间段内未接收到所述标识反馈信号的情况下，确定所述通信连接异常，并向所述目标服务器发送连接重建请求，以使所述目标服务器根据所述连接重建请求重新与所述目标终端建立通信连接。

可选地，所述装置还包括：

第二获取模块，被配置为获取第四预设时间段内向所述目标服务器发送所述通信连接请求的目标次数；

输出模块，被配置为在确定所述目标次数大于或者等于预设次数阈值的情况下，输出预设语音请求失败信息。

可选地，所述目标终端包括状态机，所述状态机用于表征所述目标终端当前的工作状态，所述装置还包括：

状态调整模块，被配置为在确定没有接收到用户的语音请求指令的情况下，将所述状态机的当前状态设置为空闲状态；

所述状态调整模块，还被配置为在确定接收到用户的语音请求指令的情况下，若接收到所述目标服务器发送的所述标识反馈信号，则将状态机的当前状态设置为非空闲状态，若未接收到所述目标服务器发送的所述标识反馈信号，则将状态机的当前状态设置为空闲状态。

可选地，所述第一发送模块还被配置为：

本公开的第四方面提供一种语音对话装置，应用于目标服务器，所述装置包括：

第三发送模块，被配置为在与目标终端建立通信连接之后，若接收到目标终端发送的心跳信号，则根据所述心跳信号向所述目标终端发送心跳反馈信号，以使所述目标终端在接收到所述心跳反馈信号的情况下，若接收到所述用户的语音请求指令，则根据所述语音请求指令获取所述用户输入的音频数据；

接收模块，被配置为接收所述目标终端发送的音频数据，并根据所述音频数据与所述目标终端进行语音对话。

本公开的第五方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上第一方面所述方法的步骤；

或者，该程序被处理器执行时实现以上第二方面所述方法的步骤。

本公开的第六方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现以上第一方面所述方法的步骤；

或者，所述处理器，用于执行所述存储器中的所述计算机程序，以实现以上第二方面所述方法的步骤。

上述技术方案，通过在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向所述目标服务器发送心跳信号，以使所述目标服务器响应于接收到所述心跳信号，向所述目标终端发送心跳反馈信号；在接收到所述心跳反馈信号的情况下，若接收到所述用户的语音请求指令，则根据所述语音请求指令获取所述用户输入的音频数据，并通过所述音频数据与所述目标服务器进行语音对话。这样，通过心跳机制使目标终端与目标服务器维持一个长久的通信连接，避免了相关技术中每次进行语音对话之前都需要重新创建通信连接，从而能够有效降低对话处理的延时，也能够降低对硬件资源的消耗，从而提升资源利用率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一示例实施例示出的一种语音对话方法的流程图；

图2是根据图1所示实施例示出的一种语音对话方法的流程图；

图3是本公开另一示例性实施例中示出的一种语音对话方法的流程图；

图4是本公开又一示例性实施例中示出的一种语音对话方法的流程图；

图5是本公开又一示例性实施例示出的一种语音对话装置的框图；

图6是本公开又一示例性实施例示出的一种语音对话装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图；

图8是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在详细介绍本公开的具体实施方式之前，首先对本公开的应用场景进行以下说明，本公开可以应用于人机交互场景，尤其是语音对话场景，即用户通过向目标终端输入一段语音，目标终端向用户反馈一个对话处理结果的过程。通常在语音对话的场景中，用户随时可能会跟目标终端进行对话，语音对话随机发生在各个时间点，且大部分情况用户发起语音交互后都会进行多次语音对话。语音对话系统的响应速度过慢，延时过高会极大的影响用户体验。

目前相关技术中的语音对话系统，通常是由目标终端中的本地处理模块与云端处理模块构成，在进行语音对话之前，本地处理模块通过与云端处理模块建立socket(可翻译为套接字)连接，在建立socket连接之后，由本地处理模块收集音频数据，并将音频数据发送到云端，由云端进行语音识别，根据识别结果执行相应的对话逻辑，并将对话处理结果返回给目标终端的本地处理模块，在本地处理模块接收到对话处理结果之后，会关闭socket连接，而在进行下一次语音对话之前，需要重新建立socket连接，也就是说，相关技术中的对话系统，用户每次进行语音对话，目标终端中的本地处理模块都需要与云端处理模块创建socket连接，并在完成当前语音对话之后与该云端处理模块断开该socket连接，而创建socket连接通常需要一定时间，这样无疑会增加对话处理的延时，并且频繁的创建和关闭socket连接，势必会增加硬件资源的消耗，从而不利于提升用户体验。

为了克服上述技术问题，提供一种语音对话方法、装置、存储介质及电子设备，该方法通过在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向该目标服务器发送心跳信号，以使该目标服务器响应于接收到该心跳信号，向该目标终端发送心跳反馈信号；在接收到该心跳反馈信号的情况下，若接收到该用户的语音请求指令，则根据该语音请求指令获取该用户输入的音频数据，并通过该音频数据与该目标服务器进行语音对话。这样，通过心跳机制使目标终端与目标服务器维持一个长久的通信连接，避免了相关技术中每次进行语音对话之前都需要重新创建通信连接，从而能够有效降低对话处理的延时，也能够降低对硬件资源的消耗，从而提升资源利用率。

图1是本公开一示例实施例示出的一种语音对话方法的流程图；参见图1，该方法应用于目标终端，可以包括以下步骤：

步骤101，在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向该目标服务器发送心跳信号，以使该目标服务器响应于接收到该心跳信号，向该目标终端发送心跳反馈信号。

其中，该目标终端可以是手机，电脑，Ipad，车辆，手表等终端设备，该目标服务器可以云服务器，该语音请求指令可以由预设内容的语音触发，也可以由设置在目标终端上的预设按键触发。该通信连接可以是socket连接，该心跳信号可以是如以下表1中所示格式的分片数据。

协议版本

序列号

数据类型

数据长度

数据内容

表1

需要说明的是，以上表1中的协议版本，用来记录语音对话使用协议的版本标识，该目标终端本可以根据不同版本的协议向目标服务器发起请求，该目标服务器可以根据不同的协议版本进行不同的响应，这里在交互数据中增加协议版本字段，能够让该对话系统具有更好的扩展性。该序列号用于表征当前交互数据的顺序。该数据类型在本公开所示的语音对话过程中可以包括心跳信号，心跳反馈信号，请求标识信号，请求标识反馈信号，请求异常反馈信号，语音数据，语音识别结果，以及对话处理结果，该数据长度为该交互数据对应的字长。

示例地，如表2所示，该心跳信号对应的数据类型可以由0标识，由于心跳信号可以不包含数据内容，因此该心跳信号的数据内容长度字段值可以为0。该心跳反馈信号对应的数据类型可以由1标识，该数据分片的数据长度字段值为2，数据内容字段值为对应心跳信号的序列号。该请求标识信息的数据类型可以由200标识，数据内容字段值可以包括一次请求的基本信息，如请求ID，用户token以及设备ID等。该标识反馈信号的数据类型可以由2标识，数据长度字段值可以为2，数据内容字段值为对应语音识别请求标识信息的序列号。该语音数据的数据类型可以由201标识，该语音数据的数据内容字段值为对应的语音数据，数据长度字段值可以为音频数据的字长。该语音识别结果对应的数据类型可以由400标识，该语音识别结果对应的数据内容字段值可以为当前语音数据对应的语音识别的结果，数据长度字段值可以为语音识别结果的字长。该对话处理结果的数据类型可以由401标识，其中该数据内容字段值可以为对当前语音识别结果进行对话处理的结果，数据长度字段值可以为对话处理结果的字长。

表2

步骤102，在接收到该心跳反馈信号的情况下，若接收到该用户的语音请求指令，则根据该语音请求指令获取该用户输入的音频数据，并通过该音频数据与该目标服务器进行语音对话。

本步骤中，该通过该音频数据与该目标服务器进行语音对话的实施方式可以包括：向该目标服务器发送请求标识信息，以使该目标服务器根据该请求标识信息向该目标终端发送标识反馈信号；在接收到该标识反馈信号的情况下，将该音频数据发送至该目标服务器，以使该目标服务器根据该音频数据生成对话处理结果，并将该对话处理结果发送至该目标终端。

其中，该请求标识信息可以是表1中所示的分片数据，可以包括协议版本，序列号，数据类型，数据长度的语音识别请求头数据，该标识反馈信号可以是数据类型为语音识别请求头的ack(Acknowledge character，确认字符)的分片数据，该音频数据由目标终端收集，发送至目标服务器，该目标服务器先对该音频数据进行语音识别，以得到语音识别结果，并根据该语音识别结果生成对话处理结果。

示例地，若该目标终端收集到用户的音频数据为“明天的天气怎么样？”，则该目标服务器首先对该音频数据进行语音识别确定该语义为查询天气，然后，根据该语义获取明天的天气数据作为对话处理结果，例如获取到明天的天气为晴天，15-25℃，则该目标服务器返回给该目标终端的对话处理结果可以为“晴，15-25℃”。

以上技术方案，通过心跳机制使目标终端与目标服务器维持一个长久的通信连接，避免了相关技术中每次进行语音对话之前都需要重新创建通信连接，从而能够有效降低对话处理的延时，也能够降低对硬件资源的消耗，从而提升资源利用率。

可选地，在该步骤101之后，该方法还可以包括：

在第二预设时间段内未接收到该心跳反馈信号或者在第三预设时间段内未接收到该标识反馈信号的情况下，确定该通信连接异常，并向该目标服务器发送连接重建请求，以使该目标服务器根据该连接重建请求重新与该目标终端建立通信连接。

其中，在进行发送链接重建请求之前，该方法还可以包括：

获取第四预设时间段内向该目标服务器发送该通信连接请求的目标次数；在确定该目标次数大于或者等于预设次数阈值的情况下，输出预设语音请求失败信息。

需要说明的是，该语音请求失败信息可以是如表1中所示格式的分片数据，该语音请求失败信息对应的数据类型可以是如表2中所示的100。该第一预设时间段，该第二预设时间段，以及该第三预设时间段可以相同，也可以不同，该第四预设时间段大于该第一预设时间段，第二预设时间段，以及第三预设时间段中的任意一个，示例地，在该第一预设时间段为2秒，第二预设时间段5秒，第三预设时间段为7秒的情况下，该第四预设时间段可以是3分钟，3.5分钟，5分钟，10分钟等相对较长的一段时间。

以上技术方案，在确定通信连接异常的情况下，重新建立该目标终端与该目标服务器之间的通信连接，能够维持一个长久的通信连接，并且在确定第四预设时间段内重新建立通信连接的目标次数大于或者等于预设次数阈值的情况下，输出预设语音请求失败信息，能够及时向用户反馈当前的通信连接状态，有助于提升用户体验。

图2是根据图1所示实施例示出的一种语音对话方法的流程图；参见图2，该目标终端包括状态机，该状态机用于表征该目标终端当前的工作状态，该方法还可以包括以下步骤：

步骤103，在确定没有接收到用户的语音请求指令的情况下，将该状态机的当前状态设置为空闲状态；

步骤104，在确定接收到用户的语音请求指令的情况下，若接收到该目标服务器发送的该标识反馈信号，则将状态机的当前状态设置为非空闲状态，若未接收到该目标服务器发送的该标识反馈信号，则将状态机的当前状态设置为空闲状态。

其中，在确定该状态机的当前状态为非空闲状态的情况下，停止发送心跳信号。

示例地，该语音请求指令可以由预设内容的语音触发，也可以由设置在目标终端上的预设按键触发，该预设内容可以是呼叫目标终端的名称，即在用户输入的语音内容包括该目标终端的名称的情况下，触发该语音请求指令，例如用户预先设置该目标终端的名称为小A，则在该用户呼叫“小A，小A”的情况下，该目标终端发出预设信号以进入语音对话模式。该预设按键可以是设置在目标终端中的语音对话开启按键，点击该语音对话开启按键，则该目标终端进入语音对话模式。以上示例仅用于示例性说明如何触发语音请求指令，并不用于限定具体的保护范围。

以上技术方案，通过心状态机转换该目标终端的状态，并在确定该状态机的当前状态为非空闲状态的情况下，停止发送心跳信号，能够有效避免一直处于心跳机制造成的能源浪费的问题，从而能够有效节约资源，即保证空闲状态下的心跳机制使目标终端与目标服务器维持一个长久的通信连接，又能够在非空闲状态下，及时地停止触发心跳信号，达到节约能源的效果。

图3是本公开另一示例性实施例中示出的一种语音对话方法的流程图；参见图3，应用于目标服务器，该方法可以包括以下步骤：

步骤301，在与目标终端建立通信连接之后，若接收到目标终端发送的心跳信号，则根据该心跳信号向该目标终端发送心跳反馈信号，以使该目标终端在接收到该心跳反馈信号的情况下，若接收到该用户的语音请求指令，则根据该语音请求指令获取该用户输入的音频数据。

其中，该目标服务器可以是云服务器，该目标终端可以是手机，电脑，Ipad，车辆，手表等终端设备，该心跳信号和该心跳反馈信号均可以是如表1所示的分片数据，该心跳信号对应的数据类型可以由0标识，由于心跳信号可以不包含数据内容，因此该心跳信号的数据内容长度字段值可以为0。该心跳反馈信号对应的数据类型可以由1标识，该数据分片的数据长度字段值可以为2，数据内容字段值为对应心跳信号的序列号。该语音请求指令可以由预设内容的语音触发，也可以由设置在目标终端上的预设按键触发，该预设内容可以是呼叫目标终端的名称，该预设按键可以是设置在目标终端中的语音对话开启按键，点击该语音对话开启按键或者呼叫该目标终端的名称，则该目标终端进入语音对话模式。

步骤302，接收该目标终端发送的音频数据，并根据该音频数据与该目标终端进行语音对话。

其中，在接收到目标终端发送的该音频数据之后，可以先对该音频数据进行语义识别，以得到相应的语音识别结果，再根据该语音识别结果进行对话处理，以得到相应的对话处理结果，并将该对话处理结果发送至该目标终端，以通过该目标终端将该对话处理结果呈现给用户。

示例地，若接收到该目标终端发送的音频数据为“明天的天气怎么样？”，则该目标服务器首先对该音频数据进行语音识别确定该语义为查询天气，然后，根据该语义获取明天的天气数据作为对话处理结果，例如获取到明天的天气为晴天，15-25℃，则该目标服务器通过该目标终端向用户展示的对话处理结果可以为“晴，15-25℃”。

图4是本公开又一示例性实施例中示出的一种语音对话方法的流程图；参见图4，该方法可以包括以下步骤：

步骤401，目标终端向目标服务器发送通信连接请求。

其中，该通信连接请求可以是socket连接请求，该目标终端可以是手机，电脑，Ipad，车辆，手表等终端设备，该目标服务器可以是云服务器。

步骤402，目标服务器建立与该目标终端之间的通信连接，并向该目标终端发送连接完成反馈信号。

步骤403，该目标终端在接收到该连接完成反馈信号之后，确定在第一预设时间段内是否接收到语音请求指令。

其中，该语音请求指令可以由预设内容的语音触发，也可以由设置在目标终端上的预设按键触发，该预设内容可以是呼叫目标终端的名称，该预设按键可以是设置在目标终端中的语音对话开启按键，点击该语音对话开启按键或者呼叫该目标终端的名称，则该目标终端进入语音对话模式。

本步骤中，若确定在第一预设时间段内未接收到语音请求指令，则执行步骤404，若确定在第一预设时间段内接收到语音请求指令，则执行步骤408。

步骤404，该目标终端向该目标服务器发送心跳信号。

步骤405，该目标服务器确定是否接收到该心跳信号。

本步骤中，若确定该目标服务器接收到该心跳信号，则执行步骤406，若确定该目标服务器未接收到该心跳信号，则继续执行403。

步骤406，该目标服务器向该目标终端发送该心跳反馈信号。

其中，该心跳信号和该心跳反馈信号均可以是如表1所示的分片数据，该心跳信号对应的数据类型可以由0标识，由于心跳信号可以不包含数据内容，因此该心跳信号的数据内容长度字段值可以为0。该心跳反馈信号对应的数据类型可以由1标识，该数据分片的数据长度字段值可以为2，数据内容字段值为对应心跳信号的序列号。

步骤407，确定该目标终端是否接收到该心跳反馈信号。

本步骤中，在确定该目标终端接收到该心跳反馈信号的情况下，继续执行步骤403；在确定该目标终端未接收到该心跳反馈信号的情况下，则再次执行步骤401。

需要说明的是，该目标终端可以设有状态机，在步骤403中确定在第一预设时间段内未接收到语音请求指令，以及本步骤中确定未接收到该目标服务器发送的该标识反馈信号，则将状态机的当前状态设置为空闲状态；在确定接收到用户的语音请求指令的情况下，若本步骤中确定接收到该目标服务器发送的该标识反馈信号，则将状态机的当前状态设置为非空闲状态，例如，该非空闲状态可以是处理语音请求状态。

步骤408，该目标终端向该目标服务器发送请求标识信息。

其中，该请求标识信息可以包括一次请求的基本信息，如请求ID，用户token以及设备ID等，该标识反馈信息可以是语音识别请求头的ack。

步骤409，该目标服务器响应于接收到该请求标识信息向该目标终端发送标识反馈信号。

其中，在该请求标识信息为数据请求头的情况下，该标识反馈信号可以是该数据请求头ack，用于表征该目标服务器接收到该数据请求头。

步骤410，该目标终端响应于接收到该标识反馈信息，向该目标服务器发送音频数据。

示例地，该请求标识信息可以是表1中所示的分片数据，可以包括协议版本，序列号，数据类型，数据长度的语音识别请求头数据，该标识反馈信号可以是数据类型为语音识别请求头的ack的分片数据，该音频数据可以是用户向该目标终端发出的语音信息。

步骤411，该目标服务器根据该音频数据得到对话处理结果，并将该对话处理结果发送至该目标终端。

其中，在该目标服务器接收到该音频数据之后，可以先对该音频数据进行语音识别，得到语音本文信息，并对该语音文本信息进行语义理解，以得到语义理解结果，并根据该语义理解结果生成对话处理结果。

需要说明的是，本步骤之后，若确定该目标终端接收到该对话处理结果，则继续执行步骤403至步骤411所示的过程，直至接收到用户的停止语音对话指令，该停止语音对话指令也可以由目标终端中的预设停止按钮触发，在该预设停止按钮被点击之后，该目标终端将不再进行语音对话，例如，该预设停止按钮可以是该目标终端的关机按键。

图5是本公开又一示例性实施例示出的一种语音对话装置的框图；参见图5，该装置应用于目标终端，可以包括：

第一发送模块501，被配置为在与目标服务器建立通信连接之后，若确定在第一预设时间段内没有接收到用户的语音请求指令，则周期性地向该目标服务器发送心跳信号，以使该目标服务器响应于接收到该心跳信号，向该目标终端发送心跳反馈信号；

第一获取模块502，被配置为在接收到该心跳反馈信号的情况下，若接收到该用户的语音请求指令，则根据该语音请求指令获取该用户输入的音频数据，并通过该音频数据与该目标服务器进行语音对话。

可选地，该第一获取模块502，被配置为：

向该目标服务器发送请求标识信息，以使该目标服务器根据该请求标识信息向该目标终端发送标识反馈信号；

在接收到该标识反馈信号的情况下，将该音频数据发送至该目标服务器，以使该目标服务器根据该音频数据生成对话处理结果数据，并将该对话处理结果数据发送至该目标终端。

可选地，该装置还包括：

第二发送模块503，被配置为在第二预设时间段内未接收到该心跳反馈信号或者在第三预设时间段内未接收到该标识反馈信号的情况下，确定该通信连接异常，并向该目标服务器发送连接重建请求，以使该目标服务器根据该连接重建请求重新与该目标终端建立通信连接。

可选地，该装置还包括：

第二获取模块504，被配置为获取第四预设时间段内向该目标服务器发送该通信连接请求的目标次数；

输出模块505，被配置为在确定该目标次数大于或者等于预设次数阈值的情况下，输出预设语音请求失败信息。

可选地，该目标终端包括状态机，该状态机用于表征该目标终端当前的工作状态，该装置还包括：

状态调整模块506，被配置为在确定没有接收到用户的语音请求指令的情况下，将该状态机的当前状态设置为空闲状态；

该状态调整模块，还被配置为在确定接收到用户的语音请求指令的情况下，若接收到该目标服务器发送的该标识反馈信号，则将状态机的当前状态设置为非空闲状态，若未接收到该目标服务器发送的该标识反馈信号，则将状态机的当前状态设置为空闲状态。

可选地，该第一发送模块501还被配置为：

在确定该状态机的当前状态为非空闲状态的情况下，停止发送心跳信号。

图6是本公开又一示例性实施例示出的一种语音对话装置的框图；参见图6，该装置应用于目标服务器，可以包括：

第三发送模块601，被配置为在与目标终端建立通信连接之后，若接收到目标终端发送的心跳信号，则根据该心跳信号向该目标终端发送心跳反馈信号，以使该目标终端在接收到该心跳反馈信号的情况下，若接收到该用户的语音请求指令，则根据该语音请求指令获取该用户输入的音频数据；

接收模块602，被配置为接收该目标终端发送的音频数据，并根据该音频数据与该目标终端进行语音对话。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的语音对话方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearFieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable GateArray，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音对话方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音对话方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的语音对话方法。

图8是根据一示例性实施例示出的另一种电子设备的框图。例如，电子设备800可以被提供为一服务器。参照图8，电子设备800包括处理器822，其数量可以为一个或多个，以及存储器832，用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器822可以被配置为执行该计算机程序，以执行上述的语音对话方法。

另外，电子设备800还可以包括电源组件826和通信组件850，该电源组件826可以被配置为执行电子设备800的电源管理，该通信组件850可以被配置为实现电子设备800的通信，例如，有线或无线通信。此外，该电子设备800还可以包括输入/输出(I/O)接口858。电子设备800可以操作基于存储在存储器832的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM,Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音对话方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器832，上述程序指令可由电子设备800的处理器822执行以完成上述的语音对话方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音对话方法，其特征在于，应用于目标终端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述音频数据与所述目标服务器进行语音对话，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述目标终端包括状态机，所述状态机用于表征所述目标终端当前的工作状态，所述方法还包括：

6.根据权利5所述的方法，其特征在于，所述方法还包括：

7.一种语音对话方法，其特征在于，应用于目标服务器，所述方法包括：

8.一种语音对话装置，其特征在于，应用于目标终端，所述装置包括：

9.一种语音对话装置，其特征在于，应用于目标服务器，所述装置包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤；

或者，该程序被处理器执行时实现权利要求7中所述方法的步骤。

11.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤；

或者，所述处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求7中所述方法的步骤。