CN116110396A

CN116110396A - 语音交互方法、服务器和计算机可读存储介质

Info

Publication number: CN116110396A
Application number: CN202310372919.2A
Authority: CN
Inventors: 宁洪珂; 赵群; 丁鹏傑; 朱麒宇; 樊骏锋
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-05-12
Anticipated expiration: 2043-04-07
Also published as: CN116110396B

Abstract

本申请公开了一种语音交互方法，包括：根据车辆实时转发的当前语音请求片段进行槽位识别；根据当前语音请求片段进行应用程序接口预测；根据对槽位识别的识别结果和对应用程序接口预测的预测结果，进行应用程序接口参数填充；根据对应用程序接口进行参数填充的填充结果生成待执行结果；在确认语音请求接收完毕的情况下，根据待执行结果确定执行指令，并下发执行指令至车辆完成语音交互。本申请的语音交互方法中不增加传统槽位识别模型等语音交互过程中各模型的复杂程度，合理利用了语音活动检测时长，缩短了自然语言理解的时间，使语音交互方法能够适应车载系统较短响应时间的要求，提高车载系统用户的语音交互体验。

Description

语音交互方法、服务器和计算机可读存储介质

技术领域

本发明涉及车载语音技术领域，特别涉及一种语音交互方法、服务器和计算机可读存储介质。

背景技术

目前的对话系统利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签，并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示，根据此状态使用对话策略模块选择合适的对话动作，最后通过自然语言生成模块将对话动作转成自然语言回复。然而，车载场景下车辆控制的需求具有很强的时效性，相关技术中，对于语音请求的识别处理通常在接收到全部的语音信号后再进行自然语音理解，因而存在一定的时延，实效性较差，而这在一定程度上会影响用户的使用体验，甚至可能威胁到用户的驾驶安全。

发明内容

本申请提供了一种语音交互方法、服务器及计算机可读存储介质。

本申请的语音交互方法，包括：

根据车辆实时转发的当前语音请求片段进行槽位识别，所述当前语音请求片段包括与当前帧对应的第一语音请求子片段和与在所述当前帧之前所累计的各帧相对应的第二语音请求子片段；

根据所述当前语音请求片段进行应用程序接口预测；

根据对所述槽位识别的识别结果和对所述应用程序接口预测的预测结果，进行应用程序接口参数填充；

根据对所述应用程序接口进行参数填充的填充结果生成待执行结果；

在确认语音请求接收完毕的情况下，根据所述待执行结果确定执行指令，并下发所述执行指令至所述车辆完成语音交互。

如此，本申请可根据车辆转发的当前语音片段进行槽位识别和应用程序接口预测，并对预测得到的应用程序接口进行参数填充，生成待执行结果，最终在确认语音请求接收完毕后，确定执行指令并下发至车辆，完成语音交互。本申请的语音交互方法中不增加传统槽位识别模型等语音交互过程中各模型的复杂程度，合理利用了语音活动检测时长，缩短了自然语言理解的时间，使语音交互方法能够适应车载系统较短响应时间的要求，提高车载系统用户的语音交互体验。

所述根据对所述槽位识别的识别结果和对所述应用程序接口预测的预测结果，进行应用程序接口参数填充，包括：

根据所述当前语音请求片段、所述识别结果及所述预测结果确定槽位填充的目标参数；

根据所述识别结果和所述目标参数，选择预测到的应用程序接口进行应用程序接口参数填充。

如此，可根据当前语音请求片段、识别结果以及预测结果确定槽位填充的目标参数，并完成目标参数的填充，得到预测结果和填充结果，以便后续对语音请求相应动作的执行过程。

所述根据对所述应用程序接口进行参数填充的填充结果生成待执行结果，包括：

在所述预测结果和所述填充结果满足预设条件的情况下，生成待执行指令并进行缓存，所述待执行指令包括指令脚本和相对应的语音播报文本。

如此，可在预测结果和填充结果满足预设条件的情况下，生成待执行指令，以便确认语音请求接收完毕后直接将待执行结果信息下发至车辆，节省语音交互过程的时长，提升用户的交互体验。

所述在所述预测结果和所述填充结果满足预设条件的情况下，生成待执行指令并进行缓存，包括：

根据与所述当前语音请求片段对应的对应用程序接口的第一预测结果、对应用程序接口参数填充的第一填充结果、与所述第二语音请求子片段对应的对应用程序接口的第二预测结果、对应用程序接口参数填充的第二填充结果，对缓存的待执行指令进行更新处理。

如此，可根据当前语音请求片段对应的预测结果和参数填充结果，对缓存的待执行指令进行更新处理，提高语音交互过程准确性，提升用户的交互体验。

所述根据与所述当前语音请求片段对应的对应用程序接口的第一预测结果、对应用程序接口参数填充的第一填充结果、与所述第二语音请求子片段对应的对应用程序接口的第二预测结果、对应用程序接口参数填充的第二填充结果，对缓存的待执行指令进行更新处理，包括：

在所述第一预测结果与所述第二预测结果一致，且所述第一填充结果与所述第二填充结果一致的情况下，保持所述待执行结果。

如此，可根据当前语音请求片段与历史语音请求片段对应的预测结果和参数填充之间的对比，若得到相同结果，则不对缓存的待执行指令进行更新处理，减少存储器缓存的负荷。

在所述第一预测结果与所述第二预测结果相异，或所述第一填充结果与所述第二填充结果相异的情况下，根据所示第一预测结果和所述第一填充结果更新缓存的待执行结果。

如此，可根据当前语音请求片段与历史语音请求片段对应的预测结果和参数填充之间的不同结果，对缓存的待执行指令进行更新处理，以便确认语音请求接收完毕后直接将待执行结果信息下发至车辆，节省语音交互过程的时长，提升用户的交互体验。

在确认语音请求接收完毕的情况下，根据所述待执行结果确定执行指令，并下发所述执行指令至所述车辆完成语音交互，包括：

在确认语音请求接收完毕的情况下，将缓存的待执行结果确定为所述执行指令；

下发所述缓存的待执行结果的指令脚本和相对应的语音播报文本至所述车辆。

如此，在确认语音请求接收完毕后，可将缓存的待执行结果确定为执行指令，并下发指令脚本和相对应的语音播报文本至车辆，最终完成语音交互过程。

所述根据对所述应用程序接口进行参数填充的填充结果生成待执行结果，还包括：

在根据所述预测结果确定预测到的应用程序接口为第三方应用程序接口的情况下，对所述预测结果和所述填充结果进行缓存。

如此，可在预测到应用程序接口为第三方应用程序接口的情况下，对预测结果和填充结果进行缓存，以便生成待执行指令。

所述在根据所述预测结果确定预测到的应用程序接口为第三方应用程序接口的情况下，对所述预测结果和所述填充结果进行缓存，包括：

根据与所述当前语音请求片段对应的对应用程序接口的第三预测结果、对应用程序接口参数填充的第三填充结果、与所述第二语音请求子片段对应的对应用程序接口的第四预测结果、对应用程序接口参数填充的第四填充结果，对缓存的预测结果和填充结果进行更新处理。

如此，当预测到应用程序接口为第三方应用程序接口的情况下，可根据当前语音请求片段的预测结果和参数填充结果，对缓存的预测结果和参数填充进行更新处理，以便确认语音请求接收完毕后生成执行指令，减少第三方应用程序接口的压力。

所述在确认语音请求接收完毕的情况下，根据所述待执行结果确定执行指令，并下发所述执行指令至所述车辆完成语音交互，包括：

在确认语音请求接收完毕的情况下，根据缓存的预测结果和填充结果生成所述执行指令，所述执行指令包括指令脚本和相对应的语音播报文本。

如此，当预测到应用程序接口为第三方应用程序接口的情况下，在确认语音请求接收完毕后可根据缓存的预测结果和填充结果生成执行指令，减少了第三方应用程序接口的压力，最终完成语音交互过程。

本申请的服务器，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的方法。

本申请的计算机可读存储介质，存储由计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述实施方式任一项所述的语音交互方法。

本发明实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是相关技术中对话系统的结构示意图之一；

图2是相关技术中对话系统的结构示意图之二；

图3是本申请的端到端架构的对话系统的结构示意图；

图4是本申请对话系统的结构示意图；

图5是本申请的语音交互方法的流程示意图之一；

图6是本申请对话系统的结构化运行流程示意图；

图7是本申请的语音交互方法的流程示意图之二；

图8是本申请的语音交互方法的流程示意图之三；

图9是本申请与相关技术执行流程对比示意图；

图10是本申请的语音交互方法的流程示意图之四；

图11是本申请的语音交互方法的流程示意图之五；

图12是本申请的语音交互方法的流程示意图之六；

图13是本申请的语音交互方法的流程示意图之七；

图14是本申请的语音交互方法的流程示意图之八。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1，传统的车载语音架构基于传统的模块化策略，在组件之间采用分工实现整个对话流程，例如自然语言理解、状态跟踪、对话策略和自然语言生成等。这些组件要么主要是人工按照规则制作的，要么是在有监督数据集上通过训练模型产生的。每个组件的训练都需要大量的标注数据，然而标注数据往往是很昂贵的，这也限制了系统的拓展性。同时，传统车载语音系统依赖于大量的规则和业务逻辑来保证系统的准确和稳定，也进一步限制了其规模和功能。最后这种串行的结构所花费的时间是所有模块响应时间的总和，很大程度上削弱了用户的体验。

请参阅图2，基于流式对话的车载语音架构主要表现为语音输入和系统回复之间的映射关系，旨在通过用户输入和对话历史直接生成领域信息、意图信息、槽位信息，其合并了传统架构的部分模块，减少了模块数目，减少了系统对用户的响应时间。由于精简了架构，降低了后续的模块维护成本并节省了机器和人力开销。但是车载场景下，获取语音到领域信息、意图信息、槽位信息之间的标注数据极难，而且数据质检、数据迭代起来都比传统的文本到领域信息、意图信息、槽位信息之间的标注、质检、迭代要耗时耗力。另外这种多任务的模型在迭代过程中，数据之间很容易互相影响，比如想要提升语音识别的效果，但是对应的领域分类的结果都可能会存在相互影响，不容易把控质量。

从对话的整体处理链路来说，传统的车载语音架构拿到用户输入后，需要先对其进行自然语言理解，即进行领域分类、意图识别和槽位识别，然后在对话管理模块中结合对话的状态和对话策略选择执行满足用户输入要求的应用程序接口（ApplicationProgramming Interface，API），并通过自然语言生成模块返回和用户交互的系统输出。

有鉴于此，请参阅图3和4，基于端到端架构的对话系统包含三个核心的算法模块：槽位识别模块用于提取出用户输入的语音请求中的槽位信息；行动预测（ActionPrediction，AP）模块用来预测用户输入所对应的实现用户当前目标的应用程序接口；参数填充（Argument Filling，AF）模块用来识别用户输入中的槽位信息对应上一步中得到的应用程序接口中的参数。

槽位识别模块用于获取需要在应用程序接口中调用的动作执行主体的槽位信息，行动预测模块决定了后续实现用户语音输入所调用的应用程序接口是否是正确的，参数填充模块则进行选择哪些车辆零部件用来作为应用程序接口的参数进行执行。

基于端到端的车载语音对话系统架构主要体现学习对话历史信息和系统回复之间的映射关系，旨在通过用户输入和对话历史直接生成系统指令或回复，其融合了传统架构的部分模块，减少了各个模块相对独立的数据需求和人工参与的规则制定。由于精简了架构，并且不区分垂域的特点，降低了后续的模块维护成本并节省了机器和人力开销。同时，车载场景下车辆控制的需求具有很强的时效性，而车辆所用硬件自身的算力与开发人员离线训练模型所使用的硬件算力存在差异，导致车载环境下的语音交互对于时延有很高的要求。而端到端架构精简了中间模块，相比图1传统的架构可以有效降低车载系统的时延，但是相比图2的流式架构的时延还是更长。

基于上述可能遇到的问题，请参阅图5，本发明提供了一种语音交互方法。该语音交互方法包括：

01：根据车辆实时转发的当前语音请求片段进行槽位识别；

02：根据当前语音请求片段进行应用程序接口预测；

03：根据对槽位识别的识别结果和对应用程序接口预测的预测结果，进行应用程序接口参数填充；

04：根据对应用程序接口进行参数填充的填充结果生成待执行结果；

05：在确认语音请求接收完毕的情况下，根据待执行结果确定执行指令，并下发执行指令至车辆完成语音交互。

本发明还提供一种服务器。服务器包括处理器和存储器，存储器上存储有计算机程序。处理器用于根据车辆实时转发的当前语音请求片段进行槽位识别，以及根据当前语音请求片段进行应用程序接口预测；根据对槽位识别的识别结果和对应用程序接口预测的预测结果，进行应用程序接口参数填充，以及根据对应用程序接口进行参数填充的填充结果生成待执行结果，以及在确认语音请求接收完毕的情况下，根据待执行结果确定执行指令，并下发执行指令至车辆完成语音交互。

如图6所示，本申请针对图3及4中的车载语音对话系统架构，提出了一种工程纬度的优化参考。车辆转发的用户当前语音请求片段，当前语音请求片段包括与当前帧对应的第一语音请求子片段，以及与在当前帧之前所累计的各帧相对应的第二语音请求子片段。其中，第二语音请求子片段为数据库中的缓存文本。例如，对于语音请求“打开车窗”来说，每一帧对应一个字符，若当前帧对应“车”，那么第一语音请求子片段为“车”，当前帧之前所累计的各帧相对应的第二语音请求子片段为语音请求“车”字前所有字符的组合“打开”，当前语音请求片段为“打开车”。

在对当前语音请求片段进行槽位识别前，通过自动语音识别技术(ASR,Automatic Speech Recognition)将获取到的语音请求的帧信号转换为文本，从而得到第一语音请求子片段以及第二语音请求子片段，而后，可通过端到端的对话系统对当前语音请求片段进行槽位识别。例如，对于语音请求“打开车窗”来说，当第一语音请求子片段为“窗”，第二语音请求子片段为“打开车”，根据当前语音请求片段“打开车窗”进行槽位识别，可得到槽位值“车窗”。

进一步地，根据当前语音请求片段进行应用程序接口预测。通过ActionPrediction(AP)模块预测该语音请求所需要的应用程序接口（API）。例如，对用户语音请求“播放歌曲A”进行应用程序接口预测得到的应用程序接口为播放音乐的应用程序接口1。对用户语音请求“导航去目的地A”进行应用程序接口预测得到的应用程序接口为导航的应用程序接口2。再如，对于上例，根据当前语音请求片段“打开车窗”预测所需要的应用程序接口为WindowsOpen。

Argument Filling(AF)模块可通过选择槽位识别结果和对应用程序接口预测的预测结果来填充应用程序接口中的参数。例如，在上述语音请求“播放歌曲A”对应的播放音乐的应用程序接口1中，填充参数“song = 歌曲A”。对于语音请求“导航去目的地A”对应的导航的应用程序接口2中，需填充地理信息点(POI,Polnt of Information)参数“poi_name= 目的地A”。参数填充完成后，可根据填充结果生成待执行结果。再如，对于上例“打开车窗”，进行参数填充，需要将槽位识别到的槽位信息“车窗”，填入到预测到的应用程序接口WindowsOpen的参数中，即device=车窗。

待执行结果根据参数填充的结果生成，也即是根据参数填充的结果生成对应的可在车载系统执行的执行指令的脚本和/或对于用户进行的该执行指令的语音播报反馈。例如，对于上例，根据参数填充的结果生成“打开车窗”的执行指令的指令脚本和相应的语音播报反馈。

需要说明的是，本申请实施方式中，对每一帧对应的当前语音请求片段分别进行槽位识别和程序接口预测，以便在识别到槽位信息后，立即进行应用程序接口预测以及参数填充过程，而不是在等待语音活动检测时间结束后再进行自然语言理解，合理利用了语音活动检测时长，使语音交互方法能够适应车载系统较短响应时间的要求。

在确认语音请求接收完毕的情况下，可根据待执行结果确定执行指令，最终输出执行结果下发至车辆完成语音交互。

本申请实施方式的基于端到端的流式对话系统架构中，结合了端到端架构和流式对话系统的优势，包括，端到端架构可以精简传统对话系统架构的中间模块如自然语言理解模块、对话管理模块、车机指令生成模块、自然语言生成模块等，减少对于不同垂域的多个模型的调用，降低车载系统的时延，提升对于用户指令的响应速度。此外，流式对话系统架构可以针对每一帧对应的当前语音请求片段分别进行槽位识别和程序接口预测的特性，通过用户输入和对话历史直接生成领域信息、意图信息、槽位信息，减少了模型模块数目，减少了系统对用户的响应时间。较于传统的车载语音架构而言，基于端到端的流式对话系统架构降低语音交互过程的时延，提升了驾驶安全。

综上，本申请可根据车辆转发的当前语音片段进行槽位识别和应用程序接口预测，并对预测得到的应用程序接口进行参数填充，生成待执行结果，最终在确认语音请求接收完毕后，确定执行指令并下发至车辆，完成语音交互。本申请的语音交互方法中不增加传统槽位识别模型等语音交互过程中各模型的复杂程度，合理利用了语音活动检测时长，缩短了自然语言理解的时间，使语音交互方法能够适应车载系统较短响应时间的要求，提高车载系统用户的语音交互体验。

请参阅图7，步骤03包括：

031：根据当前语音请求片段、识别结果及预测结果确定槽位填充的目标参数；

032：根据识别结果和目标参数，选择预测到的应用程序接口进行应用程序接口参数填充。

处理器用于根据当前语音请求片段、识别结果及预测结果确定槽位填充的目标参数，以及根据识别结果和目标参数，选择预测到的应用程序接口进行应用程序接口参数填充。

具体地，语音助手在对接收到车辆转发的当前语音请求片段进行槽位识别和应用程序接口预测后，可根据当前语音请求片段内容，包括第一语音请求子片段和第二语音请求子片段，以及对当前语音请求片段的槽位识别结果和应用程序接口的预测结果，确定槽位填充的目标参数。目标参数根据槽位识别结果确定，能够作为参数填充至动作服务器(Action Server)中。

在一个示例中，用户语音请求为“打开车窗”，则在识别出“打”、“开”和“车”时，并未识别到槽位信息。当识别到“窗”时，可根据自然语言理解结果得到槽位信息为“device=车窗”，应用程序接口的预测结果为" WindowsOpen "，对应的目标参数为“device=车窗，position=音区位置”，以便将发出语音请求的音区对应位置的车窗打开。

得到目标参数后，可根据识别结果和目标参数，选择预测到的应用程序接口进行应用程序接口参数填充。在上述举例的语音交互过程中，可将参数“device=车窗，position=音区位置”填入车辆控制对应的应用程序接口中。

后续过程中，动作服务器可以根据识别结果和填充结果确定是否执行相应动作，自然语言生成服务器(NLG Server)可判断识别结果、填充结果，以及需要执行的相应动作是否发生改变。

请参阅图8，步骤04包括：

041：在预测结果和填充结果满足预设条件的情况下，生成待执行指令并进行缓存。

处理器用于在预测结果和填充结果满足预设条件的情况下，生成待执行指令并进行缓存。

具体地，在进行应用程序接口预测和参数填充过程后，需判断相应的预测结果和填充结果是否满足预设条件。预设条件可设置为预测结果和填充结果均存在一定取值等。当判断预测结果和填充结果满足预设条件时，即生成待执行指令，并将待执行指令进行缓存。其中，待执行指令包括指令脚本(TPL)和相对应的语音播报文本(TTS)。

在一个示例中，用户语音请求为“打开车窗”，当识别到“窗”时，可根据自然语言理解结果得到槽位信息为“device=车窗”，应用程序接口的预测结果为" WindowsOpen "，对应的目标参数为“device=车窗，position=音区位置”。此时，预测结果和填充结果均存在一定取值，满足预设条件，则可通过预测结果和填充结果生成待执行指令。待执行指令可包括与车辆控制接口对应的“打开车窗”的指令脚本，以及语音播报文本，例如“车窗已打开”等。后续过程中，若车辆接收到上述待执行指令，可将发出语音请求的音区对应位置的车窗打开，并且通过TTS过程同步播报“车窗已打开”等语音内容，完成语音交互过程。

特别地，对于某些特定的词汇，如图9所示，用户发出的语音请求为“打开空调”，其中包含“空调”一词。在识别“打”和“开”后，未识别出槽位信息，其中“打”字识别为噪声，行动预测结果为"NoiseAction "，识别“开”字后，行动预测结果为"Unclear "。由于车辆中以“空”开头的实体具有强指向性，本申请可在识别出“空”字时，得到应用程序接口的预测结果为" AcOpen "，参数填充的填充结果为“device=空调”。无需识别后续“调”字，即可生成待执行指令。接收到流式信号"VadEnd"，表示语音活动过程结束，即可生成待执行动作。流式信号"VadEnd"然而传统端到端识别过程，需要等到语音活动结束后，才能进行行动预测和参数填充，得到应用程序接口的预测结果和参数填充结果。图9中展示了本申请语音交互过程相较于传统端到端识别过程节省的时长。

请参阅图10，步骤041包括：

0411：根据与当前语音请求片段对应的对应用程序接口的第一预测结果、对应用程序接口参数填充的第一填充结果、与第二语音请求子片段对应的对应用程序接口的第二预测结果、对应用程序接口参数填充的第二填充结果，对缓存的待执行指令进行更新处理。

处理器用于根据与当前语音请求片段对应的对应用程序接口的第一预测结果、对应用程序接口参数填充的第一填充结果、与第二语音请求子片段对应的对应用程序接口的第二预测结果、对应用程序接口参数填充的第二填充结果，对缓存的待执行指令进行更新处理。

具体地，在通过自动语音识别(ASR)对当前语音请求片段进行槽位识别后，对当前帧对应的第一语音请求子片段进行行动预测（Action Prediction，AP），得到对应的应用程序接口预测结果，称为第一预测结果。此外，还需对第一预测结果对应的应用程序接口进行参数填充（Argument Filling，AF），得到第一填充结果。

相类似的，还需对在当前帧之前所累计的各帧相对应的第二语音请求子片段进行行动预测，得到对应的应用程序接口预测，称为第二预测结果。对第二预测结果对应的应用程序接口进行参数填充，得到第二填充结果。

当上述通过当前帧对应的第一语音请求子片段得到第一预测结果、第一填充结果满足预设条件，如取值完整时，可根据预测结果和填充结果生成包括指令脚本和相对应的语音播报文本等待执行指令。待执行指令在缓存中打包存储，等待下发至车辆执行。

在一个示例中，用户语音请求为“打开车窗到一半”，当识别到“窗”时，可根据自然语言理解结果得到槽位信息为“device=车窗”，应用程序接口的预测结果为" WindowsOpen"，对应的目标参数为“device=车窗，position=音区位置”。此时，预测结果和填充结果均存在一定取值，满足预设条件，则可随即生成待执行指令。待执行指令可包括与车辆控制接口对应的“打开车窗”的指令脚本，以及语音播报文本，例如“车窗已打开”等。

随着时间推移，在对下一帧语音请求进行分析时，此前作为“当前帧”的语音请求音频则变为“历史帧”。也即是，前一帧语音请求加入之前所累计的各帧语音请求中，对应得到相对于下一帧而言的第二预测结果和第二填充结果。例如，上述语音交互过程中，由于“窗”后还存在语音内容，则需要对当前的“下一帧”语音请求，如“到”、“一”等文字进行分析，得到对应的第一预测结果和第一填充结果。

最终，需将第一预测结果、第一填充结果与第二预测结果、第二填充结果进行对比，根据对比结果对缓存的待执行指令进行更新处理。

步骤0411包括：

在第一预测结果与第二预测结果一致，且第一填充结果与第二填充结果一致的情况下，保持待执行结果。

处理器用于在第一预测结果与第二预测结果一致，且第一填充结果与第二填充结果一致的情况下，保持待执行结果。

具体地，对在当前帧之前所累计的各帧相对应的第二语音请求子片段进行行动预测和参数填充，得到第二预测结果和第二填充结果。若当前帧对应的第一语音请求子片段得到第一预测结果、第一填充结果分别与第二预测结果、第二填充结果均一致的情况下，保持原有待执行结果不改变。

在一个示例中，用户语音请求为“打开车窗到一半”，当识别到“窗”时，得到槽位信息为“device=车窗”，应用程序接口的预测结果为" WindowsOpen "，对应的目标参数为“device=车窗，position=音区位置”，并生成了相应的待执行指令。

上述示例中，当识别到“到”时，当前帧之前所累计的各帧相对应的第二语音请求子片段为“打开车窗”，槽位 “车窗”对应的预测结果为第二预测结果，对应的填充结果第二填充结果。当前帧“到”对应的第一预测结果和第一填充结果与第二预测结果和第二填充结果相比，不发生改变。则在当前帧为 “到”时，得到的待执行指令仍为 “打开车窗”的指令脚本和“车窗已打开”等语音播报文本。也即是，保持原有待执行结果不改变。

步骤0411包括：

在第一预测结果与第二预测结果相异，或第一填充结果与第二填充结果相异的情况下，根据所示第一预测结果和第一填充结果更新缓存的待执行结果。

处理器用于在第一预测结果与第二预测结果相异，或第一填充结果与第二填充结果相异的情况下，根据所示第一预测结果和第一填充结果更新缓存的待执行结果。

具体地，在当前帧之前所累计的各帧相对应的第二语音请求子片段进行行动预测和参数填充，得到第二预测结果和第二填充结果。若当前帧对应的第一语音请求子片段对应的第一预测结果与第二预测结果不同，或相应的第一填充结果与第二填充结果不同时，则需重新根据当前帧对应的第一语音请求子片段进行槽位识别、应用程序接口预测以及参数填充的所有流程，并根据更新后的第一预测结果和第一填充结果，将待执行结果进行更新，再次进行缓存。

上述示例中，当识别到“一”时，当前帧之前所累计的各帧相对应的第二语音请求子片段为“打开车窗到”，槽位“车窗”对应的预测结果为第二预测结果，对应的填充结果第二填充结果。当前帧“一”对应的第一预测结果与第二预测结果相同，仍为" WindowsOpen"，但“一”可作为参数填充至应用程序接口中，第一填充结果可改变为“device=车窗，value=1%”。则在当前帧为“一”时，需重新进行槽位识别、应用程序接口预测以及参数填充的所有流程，得到的待执行指令变更为“打开车窗到1%”的指令脚本和“车窗已打开到1%”等语音播报文本。

随着时间推移，当识别到“半”时，当前帧之前所累计的各帧相对应的第二语音请求子片段为“打开车窗到一”，槽位“车窗”对应的预测结果为第二预测结果，对应的填充结果第二填充结果。当前帧“半”对应的第一预测结果与第二预测结果相同，仍为"WindowsOpen "，但“半”可与“一”组成词汇“一半”，作为新的参数填充至应用程序接口中，第一填充结果此时需更改为“device=车窗，value=50%”。则在当前帧为“半”时，需重新进行槽位识别、应用程序接口预测以及参数填充的所有流程，得到的待执行指令变更为“打开车窗到50%”的指令脚本和“车窗已打开到一半”等语音播报文本。

在对预测结果和填充结果进行更新的过程中，仅增加模型训练次数而不会增加语音交互过程中各模型的复杂程度，可节省语音交互过程的时长。

请参阅图11，步骤05包括：

051：在确认语音请求接收完毕的情况下，将缓存的待执行结果确定为执行指令；

052：下发缓存的待执行结果的指令脚本和相对应的语音播报文本至车辆。

处理器用于在确认语音请求接收完毕的情况下，将缓存的待执行结果确定为执行指令，以及下发缓存的待执行结果的指令脚本和相对应的语音播报文本至车辆。

具体地，当语音交互过程中，识别到流式信号"VadEnd"后，确认语音请求接收完毕，即将缓存的待执行结果确定为执行指令。待执行结果包括应用程序接口预测结果和参数填充结果。如语音请求“打开车窗”所对应的待执行指令可包括与车辆控制接口对应的“打开车窗”的指令脚本，以及语音播报文本，例如“车窗已打开”等。对应的执行指令可以为“打开车窗，并语音播报‘车窗已打开’”。

最终，将待执行结果对应的指令脚本（TPL）和相对应的语音播报文本（TTS）等，打包至车辆，以便执行指令的实施，完成语音交互过程。

请参阅图12，步骤04包括：

042：在根据预测结果确定预测到的应用程序接口为第三方应用程序接口的情况下，对预测结果和填充结果进行缓存。

处理器用于在根据预测结果确定预测到的应用程序接口为第三方应用程序接口的情况下，对预测结果和填充结果进行缓存。

具体地，根据预测结果，判断车载系统中没有与预测结果对应的应用程序接口时，需要调用第三方应用程序接口。此时需要将预测到的第三方应用程序接口信息以及对应的填充结果进行缓存，以便生成待执行指令。

在一个示例中，用户语音请求为“导航去北京大学”，则在识别出“导”、“航”和“去”时，并未识别到槽位信息。当识别到“北”时，可根据自然语言理解结果得到地理信息点目标参数“poi_name = 北”，需要使用第三方应用程序接口的预测结果为"NavigationSearchPoi"，填充结果为“poi_name=北”，并将上述预测到的第三方应用程序接口信息以及对应的填充结果进行缓存，以便识别到“北”字后续文字时更新缓存内容，最终生成待执行指令。

可以理解地，与调用第一方应用程序接口的预测结果和填充结果不同，当预测到的应用程序接口为第三方应用程序接口时，仅对预测结果进行缓存，而并不生成相应的待执行指令。这是由于第三方系统接受所有车辆调用，若流式识别过程的每一个节点都生成待执行指令会给第三方应用程序接口造成过大的处理压力。

请参阅图13，步骤042包括：

0421：根据与当前语音请求片段对应的对应用程序接口的第三预测结果、对应用程序接口参数填充的第三填充结果、与第二语音请求子片段对应的对应用程序接口的第四预测结果、对应用程序接口参数填充的第四填充结果，对缓存的预测结果和填充结果进行更新处理。

处理器用于根据与当前语音请求片段对应的对应用程序接口的第三预测结果、对应用程序接口参数填充的第三填充结果、与第二语音请求子片段对应的对应用程序接口的第四预测结果、对应用程序接口参数填充的第四填充结果，对缓存的预测结果和填充结果进行更新处理。

具体地，在对当前语音请求片段中当前帧语音请求的片段进行行动预测，得到对应的应用程序接口为第三方应用程序接口的预测结果，称为第三预测结果。此外，对第三预测结果对应的应用程序接口进行参数填充，得到第三填充结果。

相类似的，针对上述对应第三方应用程序接口的语音请求，需要对当前帧之前所累计的各帧相对应的第二语音请求子片段进行行动预测，得到对应的应用程序接口预测，称为第四预测结果。对第四预测结果对应的应用程序接口进行参数填充，得到第四填充结果。

完成上述应用程序接口预测以及行动预测过程后，将得到的第三预测结果、第三填充结果和第四预测结果、第四填充结果进行储存。

在一个示例中，用户语音请求为“导航去北京大学”，则在识别出“导”、“航”和“去”时，并未识别到槽位信息。当识别到“北”时，可根据自然语言理解结果得到地理信息点目标参数“poi_name = 北”，需要使用第三预测结果为"NavigationSearchPoi"，第三填充结果为“poi_name=北”，并将上述预测到的第三方应用程序接口信息以及对应的填充结果进行缓存。

随着时间推移，在对下一帧语音请求进行分析时，此前作为“当前帧”的语音请求音频则变为“历史帧”。也即是，前一帧语音请求加入之前所累计的各帧语音请求中，对应得到相对于下一帧而言的第四预测结果和第四填充结果。例如，上述语音交互过程中，由于“北”后还存在语音内容，则需要对当前的“下一帧”语音请求，如“京”、“大”、“学”等文字进行分析，得到对应的第三预测结果和第三填充结果。在对“学”的识别完成后，需将此时第三预测结果、第三填充结果，与识别完成“导航去北京大”后得到的第四预测结果、第四填充结果进行对比，根据对比结果对缓存的预测结果和填充结果进行更新处理，得到第三预测结果为"NavigationSearchPoi"，第三填充结果为“poi_name=北京大学”。

当得到第三预测结果、第三填充结果与第四预测结果、第四填充结果后，随即进行缓存，但并不生成相应的待执行指令。直到确认语音请求接收完毕后，方才生成执行指令，防止给第三方应用程序接口造成过大的处理压力。

请参阅图14，步骤05包括：

053：在确认语音请求接收完毕的情况下，根据缓存的预测结果和填充结果生成执行指令；

处理器用于在确认语音请求接收完毕的情况下，根据缓存的预测结果和填充结果生成执行指令。

具体地，当预测到应用程序接口为第三方应用程序接口的情况下，对识别到的第三预测结果、第三填充结果与第四预测结果、第四填充结果进行缓存。为了减小第三方应用程序接口的压力，将预测结果和填充结果进行缓存后并不生成相应的待执行指令。

识别到流式信号"VadEnd"后，表示语音请求接收完毕，即可根据缓存中存储的预测结果，即AP output的值，以及填充结果，即AF output的值，生成执行指令。如语音请求“导航去北京大学”结束后，缓存中存储的预测结果为为"NavigationSearchPoi"，填充结果为“poi_name=北京大学”。生成执行指令可以是“导航去北京大学，并语音播报‘已为您在导航中输入目的地北京大学’”等。

下面通过三个示例，对本申请语音交互方法的执行过程进行辅助说明：

示例一，如表1所示，用户语音请求为“打开空调”：

表1

当识别至“空”时，就可以判断要说的词是“空调”了。因此，此时的参数填充结果"argument"存在取值，"api/argument"是完整的。

示例二，如表2所示，用户语音请求为“打开车窗到一半”：

表2

示例三，如表3所示，用户语音请求为“导航去北京大学”：

表3

示例三相对于上述两个示例的区别是，需要去调用第三方应用程序接口。如果在流式信号传输的途中，每个当前语音请求片段都去检索所有第三方应用程序接口，则会给第三方应用程序接口造成极大的压力。因此，可等待"VadEnd"结束时再请求调用第三方应用程序接口，以便降低系统运行压力。

本申请的计算机可读存储介质，存储有计算机程序，当计算机程序被一个或多个处理器执行时，实现上述的方法。

在本说明书的描述中，参考术语“上述”、“具体地”、“特别地”、“进一步地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

根据所述当前语音请求片段进行应用程序接口预测；

2.根据权利要求1所述的语音交互方法，其特征在于，所述根据对所述槽位识别的识别结果和对所述应用程序接口预测的预测结果，进行应用程序接口参数填充，包括：

3.根据权利要求1所述的语音交互方法，其特征在于，所述根据对所述应用程序接口进行参数填充的填充结果生成待执行结果，包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述在所述预测结果和所述填充结果满足预设条件的情况下，生成待执行指令并进行缓存，包括：

5.根据权利要求4所述的语音交互方法，其特征在于，所述根据与所述当前语音请求片段对应的对应用程序接口的第一预测结果、对应用程序接口参数填充的第一填充结果、与所述第二语音请求子片段对应的对应用程序接口的第二预测结果、对应用程序接口参数填充的第二填充结果，对缓存的待执行指令进行更新处理，包括：

6.根据权利要求4所述的语音交互方法，其特征在于，所述根据与所述当前语音请求片段对应的对应用程序接口的第一预测结果、对应用程序接口参数填充的第一填充结果、与所述第二语音请求子片段对应的对应用程序接口的第二预测结果、对应用程序接口参数填充的第二填充结果，对缓存的待执行指令进行更新处理，包括：

7.根据权利要求3-6任一项所述的语音交互方法，其特征在于，所述在确认语音请求接收完毕的情况下，根据所述待执行结果确定执行指令，并下发所述执行指令至所述车辆完成语音交互，包括：

8.根据权利要求3所述的语音交互方法，其特征在于，所述根据对所述应用程序接口进行参数填充的填充结果生成待执行结果，还包括：

9.根据权利要求8所述的语音交互方法，其特征在于，所述在根据所述预测结果确定预测到的应用程序接口为第三方应用程序接口的情况下，对所述预测结果和所述填充结果进行缓存，包括：

10.根据权利要求8或9任一项所述的语音交互方法，其特征在于，所述在确认语音请求接收完毕的情况下，根据所述待执行结果确定执行指令，并下发所述执行指令至所述车辆完成语音交互，包括：

11.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-10任一项所述的语音交互方法。

12.一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-10任一项所述的语音交互方法。