CN111312254A

CN111312254A - 语音对话方法和装置

Info

Publication number: CN111312254A
Application number: CN202010224770.XA
Authority: CN
Inventors: 尹路通; 马天泽; 赵浩天; 葛斯函
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-06-19

Abstract

本公开涉及一种语音对话方法和装置，该方法通过获取目标终端发送的语音文本信息，该语音文本信息为对该目标终端接收到的语音对话消息进行语音识别得到的；根据该语音文本信息生成事件执行消息，该事件执行消息包括用于响应该语音对话消息的执行逻辑信息；将该事件执行消息发送至该目标终端，以使该目标终端按照该事件执行消息执行该语音对话消息对应的待执行事件。这样，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

Description

语音对话方法和装置

技术领域

本公开涉及车辆技术领域，具体地，涉及一种语音对话方法和装置。

背景技术

随着车辆智能化运动的兴起，车载对话系统在车辆上得到广泛应用，车载对话系统不仅可以在行车期间实现车辆的智能驾驶，还可以实现车内媒体设备的语音控制，为车内人员营造一个舒适愉悦的乘车环境，可以有效提升用户乘坐体验。由于云端对话系统功能强大，配置灵活，更新迭代快，因此目前的车载对话系统大多采用云端对话系统。

然而，由于云端对话系统通常要在云服务器上完成整个语义理解至生成用户意图执行结果的过程，且该过程只能在云服务器上执行，该云端对话系统不支持车机本地执行对话流程，这样，对于某些只能借助本地车机上的资源才能完成对话流程，则无法通过云端对话系统实现，只能由本地对话系统执行，而通常本地对话系统由于受限于内存资源，其对应的语义理解模块往往是功能大大阉割之后的版本，因此对于较为的偏僻表述，通常理解不够准确，容易导致用户意图理解错误的问题。也就是说，当前的车载对话系统存在云端对话系统应用范围较小，本地对话系统容易出现用户意图理解错误的问题。

发明内容

本公开的目的是提供一种语音对话方法和装置，用于解决目前车载对话系统存在云端对话系统应用范围较小，本地对话系统容易出现用户意图理解错误的问题。

为了实现上述目的，本公开第一方面提供一种语音对话方法，应用于云服务器，所述方法包括：

获取目标终端发送的语音文本信息，所述语音文本信息为对所述目标终端接收到的语音对话消息进行语音识别得到的；

根据所述语音文本信息生成事件执行消息，所述事件执行消息包括用于响应所述语音对话消息的执行逻辑信息；

将所述事件执行消息发送至所述目标终端，以使所述目标终端按照所述事件执行消息执行所述语音对话消息对应的待执行事件。

可选地，所述根据所述语音文本信息生成事件执行消息包括：

根据所述语音文本信息确定事件类型、事件个性化参数以及语音对话类型；

根据所述事件类型与预设执行逻辑的对应关系确定所述事件类型对应的目标执行逻辑；

根据所述事件个性化参数、所述目标执行逻辑和所述语音对话类型生成所述事件执行消息。

可选地，所述根据所述语音文本信息确定事件类型、事件个性化参数以及语音对话类型包括：

将所述语音文本信息作为预先训练的语义理解模型的输入，得到所述语音文本信息对应的所述事件类型、所述事件个性化参数以及所述语音对话类型。

可选地，所述根据所述事件个性化参数、所述目标执行逻辑和所述语音对话类型生成所述事件执行消息，包括：

根据所述事件个性化参数和所述目标执行逻辑生成所述执行逻辑信息；

在确定所述语音对话类型为多轮对话时，获取所述语音对话消息之前的上文对话信息，根据所述上文对话信息生成包括所述执行逻辑信息的事件执行消息；

在确定所述语音对话类型为非多轮对话时，生成包括所述执行逻辑信息的所述事件执行消息。

在本公开的第二方面提供一种语音对话方法，应用于目标终端，所述方法包括：

接收云服务器发送的事件执行消息，所述事件执行消息包括用于响应目标终端接收到的语音对话消息的执行逻辑信息；

按照所述事件执行消息执行所述语音对话消息对应的待执行事件。

可选地，所述方法还包括：

接收对接组件发送的所述语音对话消息；

向所述云服务器转发所述语音对话消息，以使所述云服务器对所述语音对话消息进行语音识别以得到所述语音对话消息对应的语音文本信息，根据所述语音文本信息生成事件执行消息，并将所述事件执行消息发送至所述目标终端。

可选地，所述方法还包括：

接收对接组件发送的所述语音对话消息；

对所述语音对话消息进行语音识别，以得到所述语音对话消息的语音文本信息；

向所述云服务器发送所述语音文本信息，以使所述云服务器根据所述语音文本信息生成所述事件执行消息，并将所述事件执行消息发送至所述目标终端。

可选地，所述事件执行消息中除包括所述执行逻辑信息外还包括语音对话类型，在所述语音对话类型为多轮对话时，所述事件执行消息还包括当前的所述语音对话消息之前的上文对话信息，所述按照所述事件执行消息执行所述语音对话消息对应的待执行事件，包括：

从所述事件执行消息中获取所述语音对话类型；

在确定所述语音对话类型属于多轮对话时，从所述事件执行消息中获取所述上文对话信息，根据所述上文对话信息按照所述执行逻辑信息执行所述待执行事件。

在本公开的第三方面提供一种语音对话装置，应用于云服务器，所述装置包括：

获取模块，用于获取目标终端发送的语音文本信息，所述语音文本信息为对所述目标终端接收到的语音对话消息进行语音识别得到的；

生成模块，用于根据所述语音文本信息生成事件执行消息，所述事件执行消息包括用于响应所述语音对话消息的执行逻辑信息；

第一发送模块，用于将所述事件执行消息发送至所述目标终端，以使所述目标终端按照所述事件执行消息执行所述语音对话消息对应的待执行事件。

可选地，所述生成模块包括：

第一确定子模块，用于根据所述语音文本信息确定事件类型、事件个性化参数以及语音对话类型；

第二确定子模块，用于根据所述事件类型与预设执行逻辑的对应关系确定所述事件类型对应的目标执行逻辑；

生成子模块，用于根据所述事件个性化参数、所述目标执行逻辑和所述语音对话类型生成所述事件执行消息。

可选地，所述第一确定子模块用于：

可选地，所述生成子模块用于：

在本公开的第四方面提供一种语音对话装置，应用于目标终端，所述装置包括：

第一接收模块，用于接收云服务器发送的事件执行消息，所述事件执行消息包括用于响应目标终端接收到的语音对话消息的执行逻辑信息；

执行模块，用于按照所述事件执行消息执行所述语音对话消息对应的待执行事件。

可选地，所述装置还包括：

第二接收模块，用于接收对接组件发送的所述语音对话消息；

第二发送模块，用于向所述云服务器转发所述语音对话消息，以使所述云服务器对所述语音对话消息进行语音识别以得到所述语音对话消息对应的语音文本信息，根据所述语音文本信息生成事件执行消息，并将所述事件执行消息发送至所述目标终端。

可选地，所述装置还包括：

第三接收模块，用于接收对接组件发送的所述语音对话消息；

语音识别模块，用于对所述语音对话消息进行语音识别，以得到所述语音对话消息的语音文本信息；

第三发送模块，用于向所述云服务器发送所述语音文本信息，以使所述云服务器根据所述语音文本信息生成所述事件执行消息，并将所述事件执行消息发送至所述目标终端。

可选地，所述事件执行消息中除包括所述执行逻辑信息外还包括语音对话类型，在所述语音对话类型为多轮对话时，所述事件执行消息还包括当前的所述语音对话消息之前的上文对话信息，所述执行模块，包括：

获取子模块，用于从所述事件执行消息中获取所述语音对话类型；

执行子模块，用于在确定所述语音对话类型属于多轮对话时，从所述事件执行消息中获取所述上文对话信息，根据所述上文对话信息按照所述执行逻辑信息执行所述待执行事件。

在本公开的第五方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上第一方面或者第二方面所述方法的步骤。

在本公开的第六方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现以上第一方面或者第二方面所述方法的步骤。

上述技术方案，通过获取目标终端发送的语音文本信息，所述语音文本信息为对所述目标终端接收到的语音对话消息进行语音识别得到的；根据所述语音文本信息生成事件执行消息，所述事件执行消息包括用于响应所述语音对话消息的执行逻辑信息；将所述事件执行消息发送至所述目标终端，以使所述目标终端按照所述事件执行消息执行所述语音对话消息对应的待执行事件。这样，通过生成事件执行消息，并将所述事件执行消息发送至所述目标终端，以使所述目标终端按照所述事件执行消息执行所述语音对话消息对应的待执行事件，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一示例性实施例示出的一种语音对话方法的流程图；

图2是本公开另一示例性实施例示出的一种语音对话方法的流程图；

图3是本公开又一示例性实施例示出的一种语音对话方法的流程图；

图4是本公开又一示例性实施例示出的一种语音对话装置的框图；

图5是本公开又一示例性实施例示出的一种语音对话装置的框图；

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在详细介绍本公开的具体实施方式之前，首先对本公开的应用场景进行简单说明，本公开可以应用于语音对话系统，该语音对话系统可以应用于车辆，无人机，轮船等智能驾驶设备，也可以应用于电脑，电视，空调以及厨房电器等家电设备中。这里我们以车辆为例进行说明，车辆上的语音对话系统也称车载对话系统，其不仅可以在行车期间实现车辆的智能驾驶，还可以实现车内媒体设备的语音控制，为车内人员营造一个舒适愉悦的乘车环境，可以有效提升用户乘坐体验。目前的车载对话系统，要么采用车辆本地的语音对话系统(即本地对话系统)，要么采用在云服务器上运行的语音对话系统(即云端对话系统)，由于云端对话系统功能强大，配置灵活，更新迭代快，因此当前的车载对话系统多采用云端对话系统。然而，由于云端对话系统通常要在云服务器上完成整个语义理解至生成用户意图执行结果的过程，且该过程只能在云服务器上执行，也就是说，该云端对话系统不支持车辆本地执行对话流程，不能在执行对话流程的过程中调用车辆本地的接口，这样，对于某些只能借助车辆本地接口资源才能完成的对话流程，则无法通过云端对话系统实现，只能由本地对话系统执行。例如：在利用语音对话系统执行音乐点播功能时，车辆出厂时一般都随车安装音乐App，并开放相关接口供其他外部开发者调用，车载对话系统在接到用户播放音乐的意图如“播放周杰伦的七里香专辑”后，可以调用该音乐App的专辑搜索接口获取搜索结果，并向用户播报搜索结果，执行播放操作等。由于云端对话系统无法调用车机上音乐App的相关接口，因此该功能只能由本地对话系统实现。而通常本地对话系统由于受限于内存资源，其对应的语义理解模块往往是功能大大阉割之后的版本，因此对于较为的偏僻表述，通常理解不够准确，容易导致用户意图理解错误的问题。也就是说，当前的车载对话系统存在云端对话系统应用范围较小，本地对话系统容易出现用户意图理解错误的问题。

为了解决上述技术问题，本公开提供一种语音对话方法和装置，该方法通过获取目标终端发送的语音文本信息，该语音文本信息为对该目标终端接收到的语音对话消息进行语音识别得到的；根据该语音文本信息生成事件执行消息，该事件执行消息包括用于响应该语音对话消息的执行逻辑信息；将该事件执行消息发送至该目标终端，以使该目标终端按照该事件执行消息执行该语音对话消息对应的待执行事件。这样，通过生成事件执行消息，并将该事件执行消息发送至该目标终端，以使该目标终端按照该事件执行消息执行该语音对话消息对应的待执行事件，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在本地车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

图1是本公开一示例性实施例示出的一种语音对话方法的流程图；参见图1，该方法应用于云服务器，可以包括以下步骤：

步骤101，获取目标终端发送的语音文本信息。

其中，该语音文本信息为对该目标终端接收到的语音对话消息进行语音识别得到的。

本步骤可以包括以下两种实施方式：

方式一，该目标终端在接收到该语音对话消息后，对该语音对话消息进行语音识别，以得到该语音文本信息，并将该语音文本信息发送至该云服务器上，从而使该云服务器获取到该语音文本信息。

方式二，该目标终端接收到该语音对话消息后，将该语音对话消息转发至该云服务器，该云服务器接收到该语音对话消息后对该语音对话消息进行语音识别，以得到该语音文本信息。

需要说明的是，当用户需要通过语音对话方式控制设备运行，或者控制设备上的对接应用程序执行目标任务时，可以开启车机上的目标终端，通过该对接应用程序或者直接接收用户的语音对话消息，以完成该语音对话消息中的待执行事件。例如，通常车辆上的音乐播放APP接收语音对话消息，以执行播放目标歌曲的任务。该语音识别的具体方式在现有技术中较为常见，本公开可以参考现有技术中的任一种语音识别的实施方式，本公开对此不做限定。

步骤102，根据该语音文本信息生成事件执行消息。

其中，该事件执行消息包括用于响应该语音对话消息的执行逻辑信息。

在本步骤中一种可能的实施方式为：根据该语音文本信息确定事件类型、事件个性化参数以及语音对话类型；根据该事件类型与预设执行逻辑的对应关系确定该事件类型对应的目标执行逻辑；根据该事件个性化参数、该目标执行逻辑和该语音对话类型生成该事件执行消息。可选地，上述根据该语音文本信息确定事件类型、事件个性化参数以及语音对话类型的具体实施方式可以是，将该语音文本信息作为预先训练的语义理解模型的输入，得到该语音文本信息对应的该事件类型、该事件个性化参数以及该语音对话类型。另外，上述根据该事件个性化参数、该目标执行逻辑和该语音对话类型生成该事件执行消息，可以通过以下方法实现：根据该事件个性化参数和该目标执行逻辑生成该执行逻辑信息；在确定该语音对话类型为多轮对话时，获取该语音对话消息之前的上文对话信息，根据该上文对话信息生成包括该执行逻辑信息的事件执行消息；在确定该语音对话类型为非多轮对话时，生成包括该执行逻辑信息的该事件执行消息。

需要说明的是，该执行逻辑信息可以包括目标执行逻辑及目标执行逻辑中涉及到的事件个性化参数，该目标执行逻辑包括执行该待执行事件时所采用的目标动作，以及该目标动作之间的逻辑关系，例如，该目标执行逻辑可以是在调用车辆上某接口执行播放任务的同时在显示装置上输出预设的展示信息，该展示信息可以是用于回复该语音对话消息的语音和/或待显示的文字，其作用为使该目标终端根据该语音和/或该待显示的文字响应该语音对话消息。该事件个性化参数为该语音文本信息中与该待执行事件相关的执行参数信息，例如，若该语音文本信息为“播放周杰伦的稻香”，则该事件个性化参数包括“周杰伦”和“稻香”。该事件类型为对通过预设策略将大的用户意图进行详细分类后得到的更为具体的用户意图类别，例如用户意图“播放”对应的事件类别可以有“播放专辑”、“播放歌名对应歌曲”、“播放艺人对应歌曲”等，该语音对话类型可以包括：单轮对话，多轮对话以及对话跳转等。

另外，该事件执行消息除包括该执行逻辑信息外，还可以包括语音对话类型，在该语音对话类型为多轮对话时，该事件执行消息中除包括该执行逻辑信息和该语音对话类型外还可以包括当前的所述语音对话消息之前的上文对话信息，该上文对话信息可以是对当前语音对话消息之前的语音消息进行语音识别后的文本信息。可选地，该事件执行消息中除包括该执行逻辑信息，该语音对话类型，该上文对话信息外，还可以包括用户标识信息以及对接应用程序的状态信息。例如音乐播放APP，导航APP，天气APP，控制车辆窗户的应用程序等，该用户标识可以是用户登录该对接应用程序的身份账号。该对接组件的状态信息可以是该对接组件当前所处的状态，例如，若该对接组件为导航APP，则该对接组件的状态信息可以是在准备导航中，当前导航目的地为A地，导航未开启等。

步骤103，将该事件执行消息发送至该目标终端，以使该目标终端按照该事件执行消息执行该语音对话消息对应的待执行事件。

示例地，这里以语音文本信息为“播放周杰伦的七里香专辑”为例进行说明，云服务器获取到该语音文本信息之后，将该语音文本信息作为预先训练的语义理解模型的输入，使该语义理解模型输出该语音文本信息对应的语义理解结果，该语义理解结果包括：该事件类型为：“播放专辑”，该事件个性化参数包括：“周杰伦”，“七里香”以及“专辑”，该语音对话类型为单轮对话；在得到该语义理解后，首先由于语音对话类型为单轮对话，所以确定不需要获取上文对话信息，可以直接根据当前的对话信息生成执行逻辑信息，在生成执行逻辑信息时，根据该事件类型(“播放专辑”)调取相应的目标执行逻辑(先通过车辆上的A接口获取XX的所有专辑名称，再从所有专辑名称中查找XX专辑，然后通过B设备进行播放)，并在执行该目标执行逻辑时调用该事件的个性化参数(“周杰伦”，“七里香”以及“专辑”)，从而得到该执行逻辑信息(先通过车辆上的A接口获取“周杰伦”的所有专辑名称，再从所有专辑名称中查找“七里香”专辑，然后通过B设备进行播放)，在生成该执行逻辑信息后，生成包括该执行逻辑信息，用户标识信息(A用户)以及当前对接音乐播放APP的状态信息(处于播放准备状态)的事件执行消息，并将该事件执行消息发送至该目标终端，以使该目标终端根据该执行逻辑信息，向该对接音乐播放APP中的A用户播放“播放周杰伦的七里香专辑”。

这样，通过生成事件执行消息，并将该事件执行消息发送至该目标终端，以使该目标终端按照该事件执行消息执行该语音对话消息对应的待执行事件，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在本地车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

图2是本公开另一示例性实施例示出的一种语音对话方法的流程图；参见图2，该方法应用于目标终端，可以包括以下步骤：

步骤201，接收云服务器发送的事件执行消息。

其中，该事件执行消息包括用于响应目标终端接收到的语音对话消息的执行逻辑信息。

需要说明的是，在本步骤之前该方法还包括：接收对接组件发送的该语音对话消息；向该云服务器转发该语音对话消息，以使该云服务器对该语音对话消息进行语音识别以得到该语音对话消息对应的语音文本信息，根据该语音文本信息生成事件执行消息，并将该事件执行消息发送至该目标终端。

或者，在本步骤之前，该方法还可以包括：接收对接组件发送的该语音对话消息；对该语音对话消息进行语音识别，以得到该语音对话消息的语音文本信息；向该云服务器发送该语音文本信息，以使该云服务器根据该语音文本信息生成该事件执行消息，并将该事件执行消息发送至该目标终端。

另外还需说明的是，该云服务器根据该语音文本信息生成该事件执行消息的具体实施方式可以参考图1中步骤102的具体实施方式，此处不再赘述。

步骤202，按照该事件执行消息执行该语音对话消息对应的待执行事件。

其中，该事件执行消息中除包括该执行逻辑信息外还包括语音对话类型，在该语音对话类型为多轮对话时，该事件执行消息中除包括该执行逻辑信息和该语音对话类型外还可以包括当前的该语音对话消息之前的上文对话信息。

本步骤中一种可能的实施方式为：从该事件执行消息中获取该语音对话类型；在确定该语音对话类型属于多轮对话时，从该事件执行消息中获取该上文对话信息，根据该上文对话信息按照该执行逻辑信息执行该待执行事件。

示例的，这里以拨打电话为例进行说明，若当前的语音文本信息为“小明”，云服务器发送给目标终端的事件执行消息包括：执行逻辑信息(搜索小明，其中，目标执行逻辑为：搜索XX；事件个性化参数为：小明)，语音对话类型(多轮对话)，及上文对话信息(“我要打电话”)。该目标终端根据该事件执行消息中的目标逻辑信息(搜索小明)，在确定该语音对话类型我多轮对话时，获取当前语音对话消息之前的上文对话信息(“我要打电话”)，从而执行“我要打电话”给“小明”的事件。

需要说明的是，若为单轮对话，则该事件执行消息中不包括该上文对话信息。该云服务器生成该事件执行消息时，若确定当前的语音对话消息为多轮对话，则会生成包括该上文对话信息的事件执行消息。

这样，通过接收云服务器发送的事件执行消息，按照该事件执行消息执行该语音对话消息对应的待执行事件，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在本地车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

图3是本公开又一示例性实施例示出的一种语音对话方法的流程图；参见图3，该方法可以包括以下步骤：

步骤301，目标终端接收对接组件发送的该语音对话消息，并向该云服务器转发该语音对话消息。

其中，该对接组件可以是与该目标终端连接的对接应用程序，例如音乐播放APP，导航APP，天气APP等，也可以是车辆控制程序，例如控制车辆窗户的程序。该语音对话消息中还可以包括用户标识信息和对接组件的状态信息，该用户标识可以是用户登录该对接应用程序的身份账号。该对接组件的状态信息可以是该对接组件当前所处的状态，例如，若该对接组件为导航APP，则该对接组件的状态信息可以是在准备导航中，当前导航目的地为A地，导航未开启等。

步骤302，该云服务器接收该语音对话消息后，对该语音对话消息进行语音识别，得到该语音文本信息。

其中，该语音文本信息可以是该语音对话消息对应的query(query，询问)文本。

步骤303，该云服务器将该语音文本信息作为预先训练的语义理解模型的输入，得到该语音文本信息对应的该事件类型、该事件个性化参数以及该语音对话类型。

其中，该事件类型为对通过预设策略将大的用户意图进行详细分类后得到的更为具体的用户意图类别，例如用户意图“播放”对应的事件类别可以有“播放专辑”、“播放歌名对应歌曲”、“播放艺人对应歌曲”等，该事件个性化参数为每个待执行事件对应的执行参数信息；该语音对话类型可以包括：单轮对话，多轮对话以及对话跳转等。

示例地，这里以语音文本信息为“播放周杰伦的七里香专辑”为例进行说明，云服务器获取到该语音文本信息之后，将该语音文本信息作为预先训练的语义理解模型的输入，使该语义理解模型输出该语音文本信息对应的语义理解结果，该语义理解结果包括：该事件类型为：“播放专辑”，该事件个性化参数包括：“周杰伦”，“七里香”以及“专辑”，该语音对话类型为单轮对话。

需要说明的是，该语义理解模型可以是预先训练得到的神经网络模型，该神经网络模型的训练过程可以参考现有技术中基于神经网络的语义理解模型的训练过程，此处不再赘述。

步骤304，该云服务器根据该事件类型与预设执行逻辑的对应关系确定该事件类型对应的目标执行逻辑。

其中，该目标执行逻辑包括执行该待执行事件时所采用的目标动作，以及该目标动作之间的逻辑关系，例如，该目标执行逻辑可以是在调用车辆上某接口执行播放任务的同时在显示装置上输出预设的展示信息，该展示信息可以是用于回复该语音对话消息的语音和/或待显示的文字，其作用为使该目标终端根据该语音和/或该待显示的文字响应该语音对话消息。

需要说明的是，在云服务器上存储有多个事件类型，多种预设执行逻辑，以及事件类型与预设执行逻辑之间的对应关系，在实施过程中，可以根据事件类型获取到与该事件类型对应的目标执行逻辑，该目标执行逻辑属于多种预设执行逻辑中的一种。

步骤305，该云服务器根据该事件个性化参数和该目标执行逻辑生成该执行逻辑信息。

本步骤中一种可能的实施方式为：将该事件个性化参数中按照具体类别代入该目标执行逻辑中以得到带有执行参数的目标执行逻辑，即执行逻辑信息，其中，每个该执行参数为该事件个性化参数中的一个。

示例地，仍以上述语音文本信息为“播放周杰伦的七里香专辑”为例进行说明，该目标执行逻辑为：先通过车辆上的A接口获取XX的所有专辑名称，再从所有专辑名称中查找XX专辑，然后通过B设备进行播放；该事件的个性化参数包括：“周杰伦”，“七里香”以及“专辑”；在获取该执行逻辑信息时，将该个性化参数按照类别套入该目标执行逻辑中，以得到该执行逻辑信息：先通过车辆上的A接口获取“周杰伦”的所有专辑名称，再从所有专辑名称中查找“七里香”专辑，然后通过B设备进行播放。

步骤306，该云服务器确定该语音对话类型是否为多轮对话。

在本步骤中，在确定该语音对话类型为多轮对话时，执行步骤307；在确定该语音对话类型为非多轮对话时，执行步骤308。

步骤307，获取该语音对话消息之前的上文对话信息，并根据该上文对话信息生成包括该执行逻辑信息的事件执行消息。

本步骤中，一种可能的实施方式为：生成包括该上文对话信息和该执行逻辑信息的事件执行消息。

另一种可能的实施方式为：根据该上文对话信息中的用户意图与当前对话的用户意图生成复合消息对应的事件执行消息，该生成事件执行消息的实施过程中，可以将该上文对话信息与该当前对话信息当作一句复合的语音文本信息，即将两句语音对话消息，拼接为一句语音对话消息，再执行步骤302至306，直至确定该语音对话类型为非多轮对话，生成包括该执行逻辑信息的该事件执行消息。

步骤308，生成包括该执行逻辑信息的该事件执行消息。

步骤309，该云服务器向该目标终端发送该事件执行消息。

其中，在该语音对话类型为多轮对话时，该事件执行消息可以包括语音对话类型，上文对话信息以及该执行逻辑信息；在该语音对话类型为非多轮对话时，该事件执行消息包括语音对话类型和该执行逻辑信息。

步骤310，该目标终端接收该云服务器发送的事件执行消息。

其中，该事件执行消息包括执用于响应目标终端接收到的语音对话消息的执行逻辑信息。

步骤311，该目标终端从该事件执行消息中获取该语音对话类型。

步骤312，该目标终端确定该语音对话类型是否为多轮对话。

在本步骤中，在确定该语音对话类型属于多轮对话时，执行步骤313；在确定该语音对话类型属于非多轮对话时，执行步骤314。

步骤313，该目标终端从该事件执行消息中获取当前语音对话消息之前的上文对话信息，根据该上文对话信息按照该执行逻辑信息执行该待执行事件。

步骤314，该目标终端按照该逻辑信息执行该待执行事件。

上述技术方案，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在本地车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

图4是本公开又一示例性实施例示出的一种语音对话装置的框图；参见图4，该装置包括：

获取模块401，用于获取目标终端发送的语音文本信息，该语音文本信息为对该目标终端接收到的语音对话消息进行语音识别得到的；

生成模块402，用于根据该语音文本信息生成事件执行消息，该事件执行消息包括用于响应该语音对话消息的执行逻辑信息；

第一发送模块403，用于将该事件执行消息发送至该目标终端，以使该目标终端按照该事件执行消息执行该语音对话消息对应的待执行事件。

可选地，该生成模块402包括：

第一确定子模块4021，用于根据该语音文本信息确定事件类型、事件个性化参数以及语音对话类型；

第二确定子模块4022，用于根据该事件类型与预设执行逻辑的对应关系确定该事件类型对应的目标执行逻辑；

生成子模块4023，用于根据该事件个性化参数、该目标执行逻辑和该语音对话类型生成该事件执行消息。

可选地，该第一确定子模块4021用于：

将该语音文本信息作为预先训练的语义理解模型的输入，得到该语音文本信息对应的该事件类型、该事件个性化参数以及该语音对话类型。

可选地，该生成子模块4023用于：

根据该事件个性化参数和该目标执行逻辑生成该执行逻辑信息；

在确定该语音对话类型为多轮对话时，获取该语音对话消息之前的上文对话信息，根据该上文对话信息生成包括该执行逻辑信息的事件执行消息；

在确定该语音对话类型为非多轮对话时，生成包括该执行逻辑信息的该事件执行消息。

图5是本公开又一示例性实施例示出的一种语音对话装置的框图；参见图5，该装置包括：

第一接收模块501，用于接收云服务器发送的事件执行消息，该事件执行消息包括用于响应目标终端接收到的语音对话消息的执行逻辑信息；

执行模块502，用于按照该事件执行消息执行该语音对话消息对应的待执行事件。

可选地，该装置还包括：

第二接收模块503，用于接收对接组件发送的该语音对话消息；

第二发送模块504，用于向该云服务器转发该语音对话消息，以使该云服务器对该语音对话消息进行语音识别以得到该语音对话消息对应的语音文本信息，根据该语音文本信息生成事件执行消息，并将该事件执行消息发送至该目标终端。

可选地，该装置还包括：

第三接收模块505，用于接收对接组件发送的该语音对话消息；

语音识别模块506，用于对该语音对话消息进行语音识别，以得到该语音对话消息的语音文本信息；

第三发送模块507，用于向该云服务器发送该语音文本信息，以使该云服务器根据该语音文本信息生成该事件执行消息，并将该事件执行消息发送至该目标终端。

可选地，该事件执行消息中除包括该执行逻辑信息外还包括语音对话类型，在该语音对话类型为多轮对话时，该事件执行消息中除包括该执行逻辑信息和该语音对话类型外还包括当前的该语音对话消息之前的上文对话信息，该执行模块502，包括：

获取子模块5021，用于从该事件执行消息中获取该语音对话类型；

执行子模块5022，用于在确定该语音对话类型属于多轮对话时，从该事件执行消息中获取该上文对话信息，根据该上文对话信息按照该执行逻辑信息执行该待执行事件。

上述技术方案，通过接收云服务器发送的事件执行消息，按照该事件执行消息执行该语音对话消息对应的待执行事件，能够通过该事件执行消息实现云服务器与目标终端的耦合，将车载对话流程中的语义理解部分放在云服务器上执行，而将用户意图的执行过程在本地车辆的目标终端上进行，能够提升用户意图理解的准确性，也能够扩大云端对话系统的使用范围，从而能够有效提升用户体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备的框图。如图6所示，该电子设备600可以包括：处理器601，存储器602。该电子设备600还可以包括多媒体组件603，输入/输出(I/O)接口604，以及通信组件605中的一者或多者。

其中，处理器601用于控制该电子设备600的整体操作，以完成上述的语音对话方法中的全部或部分步骤。存储器602用于存储各种类型的数据以支持在该电子设备600的操作，这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件603可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器602或通过通信组件605发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口604为处理器601和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件605用于该电子设备600与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearFieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件605可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable GateArray，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音对话方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音对话方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器602，上述程序指令可由电子设备600的处理器601执行以完成上述的语音对话方法。

图7是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备700可以被提供为一服务器。参照图7，电子设备700包括处理器722，其数量可以为一个或多个，以及存储器732，用于存储可由处理器722执行的计算机程序。存储器732中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器722可以被配置为执行该计算机程序，以执行上述的语音对话方法。

另外，电子设备700还可以包括电源组件726和通信组件750，该电源组件726可以被配置为执行电子设备700的电源管理，该通信组件750可以被配置为实现电子设备700的通信，例如，有线或无线通信。此外，该电子设备700还可以包括输入/输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音对话方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器732，上述程序指令可由电子设备700的处理器722执行以完成上述的语音对话方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音对话方法，其特征在于，应用于云服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音文本信息生成事件执行消息包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音文本信息确定事件类型、事件个性化参数以及语音对话类型包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述事件个性化参数、所述目标执行逻辑和所述语音对话类型生成所述事件执行消息，包括：

5.一种语音对话方法，其特征在于，应用于目标终端，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

接收对接组件发送的所述语音对话消息；

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

接收对接组件发送的所述语音对话消息；

8.根据权利要求5至7任一项所述的方法，其特征在于，所述事件执行消息中除包括所述执行逻辑信息外还包括语音对话类型，在所述语音对话类型为多轮对话时，所述事件执行消息中除包括所述执行逻辑信息和所述语音对话类型外还包括当前的所述语音对话消息之前的上文对话信息，所述按照所述事件执行消息执行所述语音对话消息对应的待执行事件，包括：

从所述事件执行消息中获取所述语音对话类型；

9.一种语音对话装置，其特征在于，应用于云服务器，所述装置包括：

10.一种语音对话装置，其特征在于，应用于目标终端，所述装置包括：