CN115083413B

CN115083413B - 语音交互方法、服务器和存储介质

Info

Publication number: CN115083413B
Application number: CN202210985570.5A
Authority: CN
Inventors: 丁鹏傑; 赵群; 郭梦雪
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-12-13
Anticipated expiration: 2042-08-17
Also published as: CN115083413A

Abstract

本发明公开了一种语音交互方法、服务器和存储介质。该语音交互方法包括：接收车辆转发的用户当前轮语音请求；获取当前轮语音请求的前一轮语音请求和前一轮语音请求对应的前一应用程序接口；对当前轮语音请求和前一轮语音请求进行槽位识别；根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测；根据槽位识别的结果和预测到的应用程序接口，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。本发明根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测，直接根据预测的应用程序接口完成语音交互，保证语音请求的时效性。

Description

语音交互方法、服务器和存储介质

技术领域

本发明涉及语音交互技术领域，特别涉及一种语音交互方法、服务器和存储介质。

背景技术

目前的对话系统利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签，并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示，根据此状态使用对话策略模块选择合适的对话动作，最后通过自然语言生成模块将对话动作转成自然语言回复。由于车载场景下车辆控制的需求具有很强的时效性，同时，车辆所用硬件自身的算力与开发人员离线训练模型所使用的硬件算力存在差异，导致车载环境下的语音交互对于时延有很高的要求，采用对话系统难以满足车载场景下的车辆控制需求。

发明内容

本发明实施方式提供一种语音交互方法、服务器和存储介质。

本发明实施方式提供一种语音交互方法。所述语音交互方法包括：接收车辆转发的用户当前轮语音请求；获取所述当前轮语音请求的前一轮语音请求和所述前一轮语音请求对应的前一应用程序接口；对所述当前轮语音请求和所述前一轮语音请求进行槽位识别；根据所述前一轮语音请求、所述前一应用程序接口和所述槽位识别的结果对所述当前轮语音请求进行应用程序接口预测；根据所述槽位识别的结果和预测到的应用程序接口，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

如此，本发明的语音交互方法根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测，直接根据预测的应用程序接口完成语音交互，该方法简单、成本低，数据回流周期快，支持模型的快速迭代，能够保证用户语音请求的时效性，解决了目前的对话系统架构在车载语音系统上设计复杂、成本昂贵、迭代困难、延时高的问题。

所述根据所述前一轮语音请求、所述前一应用程序接口和所述槽位识别的结果对所述当前轮语音请求进行应用程序接口预测，包括：将所述当前轮语音请求、所述前一轮语音请求和所述前一应用程序接口进行拼接得到输入字符序列；根据所述输入字符序列确定对应的词嵌入向量、语句分割向量和位置向量；根据所述槽位识别的结果确定所述输入字符序列的槽位向量；利用预设模型对所述词嵌入向量、所述语句分割向量、所述位置向量和所述槽位向量进行处理以对所述当前轮语音请求进行应用程序接口预测。

如此，本发明的语言交互方法将当前轮语音请求、前一轮语音请求、前一应用程序接口进行拼接得到输入字符序列确定对应的词嵌入向量、语句分割向量和位置向量和槽位识别的结果确定输入字符序列的槽位向量，利用预设模型对当前轮语音请求进行预测得到应用程序接口，实现本发明的融入对话历史和槽位信息的端到端架构的应用程序接口预测方案。

所述将所述当前轮语音请求、所述前一轮语音请求和所述前一应用程序接口进行拼接得到输入字符序列，包括：利用预设字符将所述当前轮语音请求和所述前一轮语音请求进行拼接得到文本序列；将所述前一应用程序接口映射到所述预设模型的词典位置并与所述文本序列拼接得到所述输入字符序列。

如此，可以根据当前轮语音请求和前一轮语音请求进行拼接得到文本序列，将前一应用程序接口映射到预设模型的词典位置并与文本序列拼接得到输入字符序列，即，本发明的语音交互方法融入了对话历史进行应用程序接口预测，可以有效地提升应用程序接口预测模型的应用程序接口预测的精度。

所述根据所述槽位识别的结果确定所述输入字符序列的槽位向量，包括：根据槽位列表将所述输入字符序列中所述槽位识别的结果中槽位值对应的字符映射为身份标识；通过嵌入矩阵将所述身份标识转换为所述槽位向量。

如此，本发明的语音交互方法可以根据槽位列表将输入字符序列中槽位识别的结果中槽位值对应的字符映射为身份标识，通过嵌入矩阵将身份标识转换为槽位向量，为后续预测得到应用程序接口奠定了基础。

所述利用预设模型对所述词嵌入向量、所述语句分割向量、所述位置向量和所述槽位向量进行处理以对所述当前轮语音请求进行应用程序接口预测，包括：通过预设编码器对所述词嵌入向量、所述语句分割向量、所述位置向量和所述槽位向量进行处理得到预测字符序列；根据所述预测字符序列的第一个字符对应的向量进行交叉熵损失处理对所述当前轮语音请求进行应用程序接口预测。

如此，本发明的语音交互方法可以通过语言表示模型编码器得到预测字符序列，并对预测字符序列的第一个字符对应的向量进行交叉熵损失处理以对当前轮语音请求进行应用程序接口预测，使得预测得到的应用程序接口更准确。

所述对所述当前轮语音请求和所述前一轮语音请求进行槽位识别，包括：通过命名实体识别技术对所述当前轮语音请求和所述前一轮语音请求进行槽位识别。

本发明的语音交互方法可以通过命名实体识别技术对当前轮语音请求和前一轮语音请求进行槽位识别，得到对应的槽位识别的结果，保证当前轮语音请求对应预测的应用程序接口中调用的槽位取值的正确性。

所述根据所述槽位识别的结果和预测到的应用程序接口，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互，包括：根据所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数；根据所述槽位识别的结果和所述目标参数，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

如此，本发明根据槽位识别结果和应用程序接口类型等特征确定槽位填充的目标参数，可以提升槽位填充任务的准确度，提升应用程序接口参数填充任务的精度。

所述根据所述槽位识别的结果和所述目标参数，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互，包括：执行将所述槽位识别的结果的槽位取值填充到所述预测到的应用程序接口对应的所述目标参数的操作，输出执行结果下发至车辆完成语音交互。

如此，本发明的语音交互方法可以将槽位识别的结果的槽位取值填充到预测到的应用程序接口对应的目标参数，从而输出执行结果下发至车辆完成语音交互。

本发明还提供一种服务器。所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述实施方式任一项所述的语音交互方法。

如此，本发明的服务器应用上述语音交互方法根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测，直接根据预测的应用程序接口完成语音交互，该方法简单、成本低，数据回流周期快，支持模型的快速迭代，能够保证用户语音请求的时效性，解决了目前的对话系统架构在车载语音系统上设计复杂、成本昂贵、迭代困难、延时高的问题。

本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，实现上述实施方式任一项所述的语音交互方法。

如此，本发明的存储介质应用上述语音交互方法根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测，直接根据预测的应用程序接口完成语音交互，该方法简单、成本低，数据回流周期快，支持模型的快速迭代，能够保证用户语音请求的时效性，解决了目前的对话系统架构在车载语音系统上设计复杂、成本昂贵、迭代困难、延时高的问题。

本发明实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是目前的对话系统的结构示意图；

图2是本发明的端到端架构的对话系统的结构示意图；

图3是本发明的语音交互方法的流程示意图之一；

图4是本发明的语音交互方法的流程示意图之二；

图5是本发明的语音交互方法的应用程序接口预测模型的整体结构示意图；

图6是本发明的语音交互方法的流程示意图之三；

图7是本发明的语音交互方法的流程示意图之四；

图8是本发明的语音交互方法的流程示意图之五；

图9是本发明的语音交互方法的流程示意图之六。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1，传统的车载语音架构基于传统的模块化策略，在组件之间采用分工实现整个对话流程，例如自然语言理解、状态跟踪、对话策略和自然语言生成等。这些组件要么主要是人工按照规则制作的，要么是在有监督数据集上通过训练模型产生的。每个组件的训练都需要大量的标注数据，然而标注数据往往是很昂贵的，这也限制了系统的拓展性。同时，传统车载语音系统依赖于大量的规则和业务逻辑来保证系统的准确和稳定，也进一步限制了其规模和功能。

从对话的整体处理链路来说，传统的车载语音架构接收到用户输入后，需要先对其进行自然语言理解，即进行领域分类、意图识别和槽位识别，然后在对话管理模块中结合对话的状态和对话策略选择执行满足用户输入要求的应用程序接口（ApplicationProgramming Interface，API），并通过自然语言生成模块返回和用户交互的系统输出。

有鉴于此，请参阅图2，本发明的基于端到端的对话系统包含三个核心的算法模块：命名实体识别（Named Entity Recognition，NER）模块用于识别出用户输入的语音请求中的实体；行动预测（Action Prediction，AP）模块部分用来预测用户输入所对应的实现用户当前目标的应用程序接口；参数填充（Argument Filling，AF）模块部分用来识别用户输入中的实体对应上一步中得到的应用程序接口中的参数。

命名实体识别部分用于获取需要在应用程序接口中调用的实体，行动预测部分决定了后续实现用户语音输入所调用的应用程序接口是否是正确的，参数填充部分则进行选择哪些实体用来作为应用程序接口的参数进行执行。

具体地，请参阅图3，本发明提供了一种语音交互方法。该语音交互方法包括：

01：接收车辆转发的用户当前轮语音请求；

03：获取当前轮语音请求的前一轮语音请求和前一轮语音请求对应的前一应用程序接口；

05：对当前轮语音请求和前一轮语音请求进行槽位识别；

07：根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测；

09：根据槽位识别的结果和预测到的应用程序接口，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

本发明还提供一种服务器。服务器包括处理器和存储器，存储器上存储有计算机程序。处理器用于接收车辆转发的用户当前轮语音请求；获取当前轮语音请求的前一轮语音请求和前一轮语音请求对应的前一应用程序接口；对当前轮语音请求和前一轮语音请求进行槽位识别；根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测；根据槽位识别的结果和预测到的应用程序接口，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

以车辆转发的用户当前轮语音请求为“再来一首”，获取当前轮语音请求的前一轮语音请求为“播放周杰伦的歌”为例进行说明。

首先，先接收车辆转发的用户当前轮语音请求“再来一首”。

然后，获取当前轮语音请求的前一轮语音请求和对应的前一应用程序接口。也即是，获取前一轮语音请求“播放周杰伦的歌”和“播放周杰伦的歌”对应的前一应用程序接口（Application Programming Interface，API）。

接着，可以对当前轮的用户当前输入的当前轮语音请求和前一轮的用户历史输入的前一轮语音请求进行槽位识别得到槽位的结果。

以当前用户输入的语音请求为“明天温度多少”为例，服务器端可以接收到车辆转发的用户语音请求为“明天温度多少”。

然后，对该用户语音请求“明天温度多少”进行槽位识别可以得到槽位识别的结果。槽位识别的结果包括用户语音请求中覆盖所有垂域的天气、地点等实体的信息。

以槽位识别的结果为天气实体的信息为例，例如，对用户语音请求“明天温度多少”进行识别可以得到的槽位信息包括[“明天”——日期（Date）]，即槽位信息包括槽位取值和槽位类型，其中“明天”为槽位取值，日期（Date）为槽位类型。可以理解地，用户语音请求往往蕴含了大量信息，可以作为应用程序接口类型和槽位信息的补充。而槽位类型对于参数的填充也是至关重要的信息，因为槽位类型和应用程序接口参数常常是固定的映射关系，比如“Date”槽位类型，大概率可以填充到某些应用程序接口的时间或日期参数上，而对于其他类型的参数，如“温度”，槽位填充到这个参数的概率很小。因此槽位类型往往作为一个强特征存在，会大大影响应用程序接口参数填充的任务的精度。也即是，本发明的车辆语音交互方法融入了当前用户输入的用户语音请求、槽位识别的槽位类型的额外特征可以有效地提升应用程序接口参数填充任务的精度。

以槽位识别的结果为地点实体的信息为例，对用户语音请求“导航到中关村”进行识别可以得到的槽位信息为[“中关村”——地名（Place）]，其中“中关村”为槽位取值，地名（Place）为槽位类型。

也即是，本发明采用的架构为端到端架构，不区分垂域，不需要垂域内部训练模型，降低了各个垂域需要单独设计而所需投入的大量人力成本和数据成本。

之后，利用行动预测模块根据前一轮语音请求、前一应用程序接口和槽位识别的结果对当前轮语音请求进行应用程序接口预测。行动预测模块决定了后续实现用户目标所调用的应用程序接口是否是正确的。

最后，根据槽位识别的结果和预测到的应用程序接口，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

需要说明的是，本发明的语音交互方法为端到端架构，端到端架构不受具体垂域的限制，可覆盖所有垂域信息，本发明此处仅以音乐播放进行举例。

可以理解地，目前的对话系统架构各个模块中融合了垂域不同的模型和处理逻辑，需要训练各自的模型并实现各自的处理逻辑。而本发明的端到端架构的应用程序接口预测方案不受具体垂域的限制，可覆盖所有垂域信息，降低了由于各个垂域需要单独设计而投入的大量人力和数据而带来的成本，同时降低了对于规则系统的依赖。

相比于目前的对话系统架构，本发明的端到端架构可以精简模块，并减少模型的调用，降低了车载系统的延时性，提升了对于用户指令的响应速度。

请参阅图4，步骤07包括：

071：将当前轮语音请求、前一轮语音请求和前一应用程序接口进行拼接得到输入字符序列；

072：根据输入字符序列确定对应的词嵌入向量、语句分割向量和位置向量；

073：根据槽位识别的结果确定输入字符序列的槽位向量；

074：利用预设模型对词嵌入向量、语句分割向量、位置向量和槽位向量进行处理以对当前轮语音请求进行应用程序接口预测。

处理器用于将当前轮语音请求、前一轮语音请求和前一应用程序接口进行拼接得到输入字符序列；根据输入字符序列确定对应的词嵌入向量、语句分割向量和位置向量；根据槽位识别的结果确定输入字符序列的槽位向量；利用预设模型对词嵌入向量、语句分割向量、位置向量和槽位向量进行处理以对当前轮语音请求进行应用程序接口预测。

具体地，例如，以用户输入的当前轮语音请求为“再来一首”，用户输入的前一轮语音请求为“播放周杰伦的歌”为例进行说明。

预设模型包括应用程序接口预测模型，该应用程序接口预测模型整体架构基于语言表示模型（Bidirectional Encoder Representations from Transformers，BERT），本发明的端到端架构的应用程序接口预测模型的整体结构如图5所示。

该模型输入为用户当前输入信息和对话历史信息，即包括当前轮语音请求和前一轮语音请求。此外，模型输入增加了对话历史的应用程序接口信息，即，前一应用程序接口，同时融入了当前输入和对话历史的槽位信息，即融入了当前轮语音请求和前一轮语音请求处理得到的槽位信息。

融入了对话历史信息和槽位信息的方法可以有效地提升应用程序接口预测模型的应用程序接口预测的精度。可以理解地，对话历史信息往往蕴含了用户已有的行为和要求，舍弃历史信息只对当前轮用户输入进行编码会损失掉部分语义。以车辆控制意图为例，如当前用户输入的语音请求为“调高点”，前一轮用户输入的语音请求为“打开空调”，若舍弃前一轮的语音请求的信息，只看当前轮语音请求的信息，则模型很难判断要“调高”的对象，也就是说无法准确预测本轮输入所对应的应用程序接口。同时，槽位结果作为应用程序接口执行时所需的参数，也蕴含了一定的用户信息，对于应用程序接口本身的预测也有很大的作用，舍弃槽位结果会造成信息的损失，影响模型效果。

该模型输出为预测的当前用户输入所对应的应用程序接口。

如此，本发明的语音交互方法仅需要通过调用应用程序接口预测模型对当前轮语音请求进行预测得到对应的应用程序接口，减少了模型的调用，数据回流周期快，支持模型的快速迭代，降低了车载系统的延时性，提升了对于用户指令的响应速度。另外，由于融入了当前轮语音请求和前一轮语音请求处理得到的槽位信息，可以有效地提升应用程序接口预测模型的应用程序接口预测的精度。

具体的利用应用程序接口预测模型进行应用程序接口预测的过程如下：

1）将当前轮语音请求、前一轮语音请求和前一应用程序接口进行拼接得到输入字符序列。也即是，可以将当前用户输入和历史输入通过拼接的方式作为文本序列进行编码。即，当前轮语音请求为“再来一首”和前一轮语音请求为“播放周杰伦的歌”进行拼接得到输入字符序列可以为“[CLS][last api] [SEP]再来一首 [SEP]播放周杰伦的歌 [SEP]”的形式。

2）根据输入字符序列确定对应的词嵌入向量、语句分割向量和位置向量。如图5所示，输入字符序列“[CLS]再来一首[SEP]播放周杰伦的歌[SEP]”确定对应的图5中的词嵌入向量（Tokenembeddings）、语句分割向量（Segmentembeddings）和位置向量（Positionembeddings）。其中，图5中“[CLS]再来一首[SEP]播放周杰伦的歌[SEP]”对应的词嵌入向量为“（[CLS]，last-api，[SEP]，再，来，一，首，[SEP]，播，放，周，杰，伦，的，歌，[SEP]）”，词嵌入向量中的lastapi表示的是前一轮预测出的应用程序接口。图5中“[CLS]再来一首[SEP]播放周杰伦的歌[SEP]”对应语句分割向量为“（0，0，0，0，0，0，0，1，1，1，1，1，1，1，1，1）”。图5中“[CLS]再来一首[SEP]播放周杰伦的歌[SEP]”对应的位置向量为“（0，0，0，1，2，3，4，5，6，7，8，9，10，11，12，13）”。

3）根据槽位识别的结果确定输入字符序列的槽位向量。由于槽位信息包括槽位类型和槽位结果，可以根据槽位识别的结果确定输入字符序列的槽位向量。图5中槽位向量（Slot embeddings）为“（0，0，0，0，0，0，0，0，2，2，1，1，1，0，0，0）”。

4）将词嵌入向量、语句分割向量、位置向量和槽位向量通过应用程序接口预测模型对当前轮语音请求进行应用程序接口预测，模型输出预测得到的应用程序接口。

更具体地，请参阅图6，步骤071包括：

0711：利用预设字符将当前轮语音请求和前一轮语音请求进行拼接得到文本序列；

0712：将前一应用程序接口映射到预设模型的词典位置并与文本序列拼接得到输入字符序列。

处理器用于利用预设字符将当前轮语音请求和前一轮语音请求进行拼接得到文本序列；将前一应用程序接口映射到预设模型的词典位置并与文本序列拼接得到输入字符序列。

具体地，预设字符包括“[CLS]”字符和“[SEP]”字符。“[CLS]”字符用于文本分类，为文本分类的标志字符。“[SEP]”字符用于分割两个不同的文本向量，为文本分割字符。

利用预设字符将当前轮语音请求和前一轮语音请求进行拼接得到文本序列可以为“[CLS]再来一首[SEP]播放周杰伦的歌[SEP]”。

然后，将前一应用程序接口映射到预设模型的词典位置并与文本序列拼接得到输入字符序列为“[CLS][last api] [SEP]再来一首 [SEP]播放周杰伦的歌 [SEP]”，如图5所示。其中，需要先得到前一轮用户输入所对应的前一应用程序接口（lastapi），并将该前一应用程序接口映射到应用程序接口预测模型中BERT词典中的位置，然后与文本序列“[CLS]再来一首[SEP]播放周杰伦的歌[SEP]”拼接得到上述输入字符序列“[CLS][last api][SEP]再来一首 [SEP]播放周杰伦的歌 [SEP]”。

请参阅图7，步骤073包括：

0731：根据槽位列表将输入字符序列中槽位识别的结果中槽位值对应的字符映射为身份标识；

0732：通过嵌入矩阵将身份标识转换为槽位向量。

处理器用于根据槽位列表将输入字符序列中槽位识别的结果中槽位值对应的字符映射为身份标识；通过嵌入矩阵将身份标识转换为槽位向量。

具体地，当前轮语音请求和前一轮语音请求的槽位信息通过命名实体识别技术获得后，可以构建一个槽位列表将槽位识别的结果中槽位值对应的字符映射为身份标识，该身份标识可以称为槽位ID。

例如，用户输入的语音请求为“播放周杰伦的歌”，则其中槽位识别的结果为“播放”和“周杰伦”，槽位识别的结果“播放”映射的槽位ID为music_play，表示音乐播放的意思；槽位识别的结果“周杰伦”映射的槽位ID为music_singer，表示音乐歌手的意思，从而得到槽位列表为[“播放”——music_play，“周杰伦”——music_singer]。

然后，在语言表示模型的嵌入层增加一个新的嵌入矩阵来将槽位识别的结果对应的身份标识转换为槽位向量，槽位向量可以与词嵌入向量相加后进行编码。

例如，图5中前一轮输入的语音请求识别后的槽位列表为[“播放”——music_play，“周杰伦”——music_singer]，前一轮输入的语音请求中“播放”两个字符对应的槽位ID为music_play，在槽位标签中对应的序号2，“周杰伦”三个字符对应的槽位ID为music_singer，在槽位标签中对应的序号1，其他字符的槽位ID也全部为0，详见图5的槽位向量（Slot embeddings），也可以称之为槽位嵌入序列。图5的槽位向量为“（0，0，0，0，0，0，0，0，2，2，1，1，1，0，0，0）”。

需要说明的是，图5中的当前轮用户输入经过命名实体识别技术识别后没有得到槽位识别的结果，由于当前轮输入没有槽位识别的结果，因此当前轮输入的槽位ID全部为0。

请参阅图8，步骤074包括：

0741：通过预设编码器对词嵌入向量、语句分割向量、位置向量和槽位向量进行处理得到预测字符序列；

0742：根据预测字符序列的第一个字符对应的向量进行交叉熵损失处理对当前轮语音请求进行应用程序接口预测。

处理器用于通过预设编码器对词嵌入向量、语句分割向量、位置向量和槽位向量进行处理得到预测字符序列；根据预测字符序列的第一个字符对应的向量进行交叉熵损失处理对当前轮语音请求进行应用程序接口预测。

具体地，预设编码器即为语言表示模型编码器。

以下为预测得到当前轮语音请求对应的应用程序接口的过程：

首先，通过预设编码器对词嵌入向量、语句分割向量、位置向量和槽位向量进行处理得到预测字符序列。例如，如图5所示，可以在语言表示模型编码器后增加一个全连接层，为API prediction层，因此，可以通过API prediction层对输入字符序列确定的词嵌入向量、语句分割向量、位置向量和槽位向量进行处理得到预测字符序列，预测字符序列为“cislogit，logit1，logit2，logit3…logit n-1，logit n”。其中，n≥0。

然后，根据预测字符序列的第一个字符对应的向量进行交叉熵损失处理对当前轮语音请求进行应用程序接口预测。其中，交叉熵（Cross-entropy）是用来评估对当前应用程序接口预测模型当前训练得到的应用程序接口概率分布与预测得到的应用程序接口的真实分布的差异情况，从而可以根据预测字符序列预测得到当前轮语音请求对应的应用程序接口。

更具体地，步骤05包括：

051：通过命名实体识别技术对当前轮语音请求和前一轮语音请求进行槽位识别。

处理器用于通过命名实体识别技术对当前轮语音请求和前一轮语音请求进行槽位识别。

通过命名实体识别技术对当前轮语音请求和前一轮语音请求进行处理得到的槽位识别的结果决定了用于在预测的应用程序接口中调用的实体是否正确。

槽位识别的结果包括槽位类型和槽位取值。

例如，通过命名实体识别技术对用户输入的前一轮语音请求“导航到中关村”和当前轮语音请求“加速去目的地”进行槽位识别，其中，对前一轮语音请求进行槽位识别得到槽位取值“中关村”，且“中关村”的槽位类型为导航地点类型，当前轮语音请求进行槽位识别得到槽位取值“目的地”，且“目的地”的槽位类型为导航地点类型，则对当前轮语音请求进行预测的应用程序接口中调用的槽位取值可以为“中关村”。

请参阅图9，步骤09包括：

091：根据槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数；

092：根据槽位识别的结果和目标参数，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

处理器用于根据槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数；根据槽位识别的结果和目标参数，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

例如，若当前轮语音请求“加速去目的地”进行预测到的应用程序接口为接口1，该接口1对应的接口类型为导航地点类型，则对前一轮语音请求进行槽位识别得到槽位识别的结果为：槽位取值“中关村”，且“中关村”的槽位类型为导航地点类型，则可以根据上述槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型可以确定槽位填充的目标参数。

然后，根据槽位识别的结果和目标参数，选择预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

更具体地，步骤092包括：

0921：执行将槽位识别的结果的槽位取值填充到预测到的应用程序接口对应的目标参数的操作，输出执行结果下发至车辆完成语音交互。

处理器用于执行将槽位识别的结果的槽位取值填充到预测到的应用程序接口对应的目标参数的操作，输出执行结果下发至车辆完成语音交互。

例如，若当前轮语音请求“加速去目的地”进行预测到的应用程序接口为接口1，该接口1对应的接口类型为导航地点类型，则对前一轮语音请求进行槽位识别得到槽位识别的结果为：槽位取值“中关村”，且“中关村”的槽位类型为导航地点类型，则可以根据上述槽位识别的结果中的槽位取值“中关村”填充到预测到的应用程序接口对应的目标参数，从而输出执行结果为“加速去中关村”，从而下发该执行结果至车辆完成语音交互。

本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当计算机程序被一个或多个处理器执行时，实现上述任意实施例的语音交互方法。

例如，计算机程序被处理器执行时实现以下语音交互方法的步骤：

01：接收车辆转发的用户当前轮语音请求；

05：对当前轮语音请求和前一轮语音请求进行槽位识别；

可以理解，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory)、随机存取存储器（RAM，Random Access Memory)、以及软件分发介质等。

本发明的计算机可读存储介质应用上述语音交互方法根据当前轮语音请求、前一轮语音请求、前一应用程序接口和槽位信息预测得到目标应用程序接口，直接根据预测的目标应用程序接口完成语音交互，该方法简单、成本低，数据回流周期快，支持模型的快速迭代，能够保证用户语音请求的时效性，解决了目前的对话系统架构在车载语音系统上设计复杂、成本昂贵、迭代困难、延时高的问题。

Claims

1.一种语音交互方法，其特征在于，包括：

接收车辆转发的用户当前轮语音请求；

获取所述当前轮语音请求的前一轮语音请求和所述前一轮语音请求对应的前一应用程序接口；

对所述当前轮语音请求和所述前一轮语音请求进行槽位识别；

根据所述前一轮语音请求、所述前一应用程序接口和所述槽位识别的结果对所述当前轮语音请求进行应用程序接口预测；

根据所述槽位识别的结果和预测到的应用程序接口，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

2.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述前一轮语音请求、所述前一应用程序接口和所述槽位识别的结果对所述当前轮语音请求进行应用程序接口预测，包括：

将所述当前轮语音请求、所述前一轮语音请求和所述前一应用程序接口进行拼接得到输入字符序列；

根据所述输入字符序列确定对应的词嵌入向量、语句分割向量和位置向量；

根据所述槽位识别的结果确定所述输入字符序列的槽位向量；

利用预设模型对所述词嵌入向量、所述语句分割向量、所述位置向量和所述槽位向量进行处理以对所述当前轮语音请求进行应用程序接口预测。

3.根据权利要求2所述的语音交互方法，其特征在于，所述将所述当前轮语音请求、所述前一轮语音请求和所述前一应用程序接口进行拼接得到输入字符序列，包括：

利用预设字符将所述当前轮语音请求和所述前一轮语音请求进行拼接得到文本序列；

将所述前一应用程序接口映射到所述预设模型的词典位置并与所述文本序列拼接得到所述输入字符序列。

4.根据权利要求2所述的语音交互方法，其特征在于，所述根据所述槽位识别的结果确定所述输入字符序列的槽位向量，包括：

根据槽位列表将所述输入字符序列中所述槽位识别的结果中槽位值对应的字符映射为身份标识；

通过嵌入矩阵将所述身份标识转换为所述槽位向量。

5.根据权利要求2所述的语音交互方法，其特征在于，所述利用预设模型对所述词嵌入向量、所述语句分割向量、所述位置向量和所述槽位向量进行处理以对所述当前轮语音请求进行应用程序接口预测，包括：

通过预设编码器对所述词嵌入向量、所述语句分割向量、所述位置向量和所述槽位向量进行处理得到预测字符序列；

根据所述预测字符序列的第一个字符对应的向量进行交叉熵损失处理对所述当前轮语音请求进行应用程序接口预测。

6.根据权利要求1所述的语音交互方法，其特征在于，所述对所述当前轮语音请求和所述前一轮语音请求进行槽位识别，包括：

通过命名实体识别技术对所述当前轮语音请求和所述前一轮语音请求进行槽位识别。

7.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述槽位识别的结果和预测到的应用程序接口，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互，包括：

根据所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数；

根据所述槽位识别的结果和所述目标参数，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互。

8.根据权利要求7所述的语音交互方法，其特征在于，所述根据所述槽位识别的结果和所述目标参数，选择所述预测到的应用程序接口执行应用程序接口参数填充，输出执行结果下发至车辆完成语音交互，包括：

执行将所述槽位识别的结果的槽位取值填充到所述预测到的应用程序接口对应的所述目标参数的操作，输出执行结果下发至车辆完成语音交互。

9.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-8任一项所述的语音交互方法。

10.一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-8任一项所述的语音交互方法。