CN113421561A

CN113421561A - 语音控制方法、语音控制装置、服务器和存储介质

Info

Publication number: CN113421561A
Application number: CN202110619459.XA
Authority: CN
Inventors: 赵耀; 易晖; 翁志伟
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-21
Anticipated expiration: 2041-06-03
Also published as: WO2022252946A1; CN113421561B

Abstract

本申请公开了一种语音控制方法、语音控制装置、服务器和存储介质。语音控制方法包括：接收当前轮次语音指令，接收图形用户界面信息，融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景；根据动态场景生成场景语义文档；根据场景语义文档确定当前轮次语音指令对应的语义理解；根据当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；根据语义理解结果控制车辆执行相应操作。如此能够融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景，根据动态场景生成场景语义文档，根据场景语义文档能够限制任务内的语义理解过程，对多轮状态的语音对话进行管理，从而提高这个垂域上多轮对话语义理解的精度。

Description

语音控制方法、语音控制装置、服务器和存储介质

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音控制方法、语音控制装置、服务器和存储介质。

背景技术

在相关技术中，语音控制装置在处理复杂任务的情况下，会尽可能多的向用户询问任务细节，语音控制装置与用户进行多轮语音对话，才能够了解到用户的具体意愿。然而，这种多轮语音对话需要通过融合单轮的语义理解结果和多轮信息，以完成对用户意愿的描述。但是语音控制装置在多垂域(如多轮语音对话)的场景下，不易拓展到各个垂域。并且随着垂域的增加，语义理解精度下降，最终导致用户体验不佳。

发明内容

本申请的实施方式提供一种语音控制方法、语音控制装置、服务器和存储介质。

本申请实施方式的语音控制方法包括：接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景；根据所述动态场景生成场景语义文档；根据所述场景语义文档确定所述当前轮次语音指令对应的语义理解；根据所述当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；根据所述语义理解结果控制车辆执行相应操作。

在某些实施方式中，所述接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景，包括：在接收到所述当前轮次语音指令的情况下，根据历史轮次的语音对话信息确定语义空间，所述语义空间用于表征当前轮次语音指令的语义理解指向；根据所述语义空间和图形用户界面信息确定动态场景。

在某些实施方式中，所述接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景，包括：在接收到所述当前轮次语音指令的情况下，载入并解析所述历史轮次的语音对话信息中包括的动态场景元素；根据所述动态场景元素、历史轮次的语音对话信息生成动态场景。

在某些实施方式中，所述场景语义文档的文档数据与所述动态场景元素的相似度大于相似度阈值。

在某些实施方式中，所述根据所述当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果，包括：利用所述当前轮次语音指令对应的语义理解搜索数据库；在搜索结果存在与所述当前轮次语音指令对应的语义理解相匹配的结果时，将所述当前轮次语音指令对应的语义理解作为所述语义理解结果；在搜索结果不存在与所述当前轮次语音指令对应的语义理解相匹配的结果时，将所述全局语义理解作为所述语义理解结果。

在某些实施方式中，所述根据所述语义理解结果控制车辆执行相应操作，包括：在所述当前轮次语音指令对应的语义理解作为所述语义理解结果时，对所述历史轮次的语音对话信息进行更新，并发送操作指令以使车辆执行相应操作；在所述全局语义理解作为所述语义理解结果时，控制所述车辆发起新一轮对话任务。

在某些实施方式中，所述对所述历史轮次的语音对话信息进行更新，包括：根据所述历史轮次的语音对话信息，查询用户输出的对话动作信息和系统输出的对话动作信息，以获取用户槽位参数和系统槽位参数；利用所述用户槽位参数和所述系统槽位参数执行槽位动作，更新可信槽位参数，以更新对话状态信息。

在某些实施方式中，所述执行槽位动作包括延续动作、删除动作、更新动作和失效动作中的至少一种。

在某些实施方式中，所述对所述历史轮次的语音对话信息进行更新，包括：判断所述动态场景中多个场景页面的优先级顺序；根据所述多个场景页面的优先级顺序将高优先级的所述场景页面节点压入低优先级场景页面栈；控制所述车辆执行高优先级的所述场景页面对应的相应操作。

本申请实施方式的语音控制装置包括：第一生成模块、第二生成模块、第一确定模块、第二确定模块和控制模块。所述第一生成模块用于接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景；所述第二生成模块用于根据所述动态场景生成场景语义文档；所述第一确定模块用于根据所述场景语义文档确定所述当前轮次语音指令对应的语义理解；所述第二确定模块用于根据所述当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；所述控制模块用于根据所述语义理解结果控制车辆执行相应操作。

本申请实施方式的服务器包括存储器和处理器。所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述任一实施方式的语音控制方法。

本申请实施方式的计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，实现上述任一实施方式的语音控制方法。

本申请实施方式的语音控制方法、语音控制装置、服务器和存储介质，能够融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景，根据动态场景生成场景语义文档，根据场景语义文档能够限制任务内的语义理解过程，对多轮状态的语音进行管理，从而提高这个垂域上多轮对话语义理解的精度。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请实施方式的语音控制方法的流程示意图；

图2是本申请实施方式的语音控制装置的模块示意图；

图3是本申请实施方式的服务器的模块示意图；

图4是本申请实施方式的车辆的示意图；

图5是本申请实施方式的语音控制方法的交互示意图；

图6是本申请实施方式的语音控制方法的流程示意图；

图7至图9是本申请实施方式的语音控制方法的场景示意图；

图10是本申请实施方式的语音控制方法的流程示意图；

图11和图12是本申请实施方式的语音控制方法的场景示意图；

图13至图15是本申请实施方式的语音控制方法的流程示意图；

图16是本申请实施方式的语音控制方法的场景示意图；

图17是本申请实施方式的语音控制方法的流程示意图；

图18是本申请实施方式的语音控制方法的场景示意图；

图19是本申请实施方式的处理器和计算机可读存储介质的连接示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在本申请的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本申请提供了一种语音控制方法。包括：

步骤01：接收当前轮次语音指令，接收图形用户界面信息，融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景；

步骤02：根据动态场景生成场景语义文档；

步骤03：根据场景语义文档确定当前轮次语音指令对应的语义理解；

步骤04：根据当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；

步骤05：根据语义理解结果控制车辆1000执行相应操作。

请参阅图2，本申请实施方式的语音控制装置100包括第一生成模块10、第二生成模块20、第一确定模块30、第二确定模块40和控制模块50。本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中，步骤01可以由第一生成模块10实现，步骤02可以由第二生成模块20实现，步骤03可以由第一确定模块30实现，步骤04可以由第二确定模块40实现，步骤05可以由控制模块50实现，也即是说，第一生成模块10用于接收当前轮次语音指令，接收图形用户界面信息，融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景。第二生成模块20用于根据动态场景生成场景语义文档。第一确定模块30用于根据场景语义文档确定当前轮次语音指令对应的语义理解。第二确定模块40用于根据当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果。控制模块50用于根据语义理解结果控制车辆1000执行相应操作。

请一并参阅图3和图4，本申请实施方式的服务器500包括存储器200和处理器300。服务器500用于控制车辆1000。本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现。服务器500可以包括系统端，存储器200中存储有计算机程序，计算机程序被处理器300执行时，实现上述语音控制方法。其中，步骤01、步骤02、步骤03、步骤04和步骤05均可以由处理器300实现，也即是说，处理器300可用于：接收当前轮次语音指令，接收图形用户界面信息，融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景；根据动态场景生成场景语义文档；根据场景语义文档确定当前轮次语音指令对应的语义理解；根据当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；根据语义理解结果控制车辆1000执行相应操作。

处理器300可以包括驱动板。驱动板可以是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

具体地，历史轮次的语音对话信息包括用户与系统的历史对话信息，当前轮次语音指令可以是用户的一个动作，图形用户界面信息(Graphical User Interface，GUI)包括车辆1000上运行的车载系统使用图形用户界面，用于为用户呈现展示的内容。

在一个实施例中，接收当前轮次语音指令，前轮次语音指令可以是：用户发出的指令“确定关闭”。在接收到“确定关闭”这一语音指令的情况下，同时接收图形用户界面信息，历史轮次的语音对话信息，包括：用户发出的指令“关闭低速模拟音”和系统进行确认“低速模拟音能提示行人，降低安全风险，确定关闭吗？”这两句历史轮次的语音对话信息。融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景。

值得一提的是，在某些实施方式中，语音控制装置100可以用于控制车辆1000，车辆1000包括显示区域、电声元件、通信元件和处理器等。车辆1000的显示区域可以包括仪表屏、车端大屏以及车辆1000挡风玻璃上可以实现的抬头显示等，本申请中的车辆1000的显示区域以车载大屏为例进行解释说明，此处不作限定。具体地，请参阅图5，车辆1000包括动态场景生成器和车端大屏。车端大屏能够接收用户请求，也能够将系统生成的回复展示给用户。展示的方式包括显示展示和语音展示，此处不作限定。车端大屏可以将接收到的用户请求进行自然语言理解，同时将车端大屏上的图形用户界面信息传递至动态场景生成器，动态场景生成器能够结合图形用户界面信息和历史轮次的语音对话信息以生成动态场景。

动态场景能够生成场景语义文档，场景语义文档可以理解成一个可以搜索的空间，场景语义文档包括多个语义理解，如此可以根据场景语义文档查询当前轮次语音指令对应的语义理解。值得一提的是，在某些实施方式中，动态场景生成的场景语义文档中，在查询不到当前轮次语音指令对应的语义理解的情况下，可以结合全局的信息生成全局语义理解，也即是说，当前轮次语音指令对应的语义理解和全局语义理解都能够得到语义理解结果。不同地是，当前轮次语音指令对应的语义理解是根据场景语义文档搜索或其他方式确定得到的，而全局语义理解是在场景语义文档中搜索不到的。当前轮次语音指令对应的语义理解和全局语义理解都是语义理解结果，如此可以根据语义理解结果控制车辆1000执行相应操作。

具体地，在前轮次语音指令对应的语义理解确定的语义理解结果情况下，可以对历史轮次的语音对话信息进行更新，然后控制车辆1000执行相应操作，操作可以是“打开车窗”、“关闭导航”和“开启音乐界面”等动作，此处不作限定。在全局语义理解确定的语义理解结果情况下，不对历史轮次的语音对话信息进行更新，若接收全局语义理解确定的语义理解结果，则可以发起新一轮的对话任务。

本申请实施方式的语音控制方法、语音控制装置100和服务器500，能够融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景，根据动态场景生成场景语义文档，根据场景语义文档能够限制任务内的语义理解过程，对多轮状态的语音进行管理，从而提高这个垂域上多轮对话语义理解的精度。

请参阅图6，在某些实施方式中，步骤01包括步骤：

步骤012：在接收到当前轮次语音指令的情况下，根据历史轮次的语音对话信息确定语义空间，语义空间用于表征当前轮次语音指令的语义理解指向；

步骤014：根据语义空间和图形用户界面信息确定动态场景。

在某些实施方式中语音控制装置100包括第三确定模块，第三确定模块包括第一确定子单元和第二确定子单元。本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中步骤012可以由第一确定子单元实现，步骤014可以由第二确定子单元实现，也即是说，第一确定子单元用于在接收到当前轮次语音指令的情况下，根据历史轮次的语音对话信息确定语义空间，语义空间用于表征当前轮次语音指令的语义理解指向。第二确定子单元用于根据语义空间和图形用户界面信息确定动态场景。

在某些实施方式中，本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现，其中，步骤012和步骤014均可以由处理器300实现，也即是说，处理器300可用于：在接收到当前轮次语音指令的情况下，根据历史轮次的语音对话信息确定语义空间，语义空间用于表征当前轮次语音指令的语义理解指向；根据语义空间和图形用户界面信息确定动态场景。

具体地，语义空间是历史轮次的语音对话信息确定的，语义空间用于表征当前轮次语音指令的语义理解指向。语义空间可以理解为一定的语义范围。语义空间可以包括静态语义空间和动态语义空间。

请参阅图7，图7中包括一个对话系统轮(即一个垂域上的多轮对话)，也就是对话一。图7中的对话系统轮在向用户询问是否了解操作带来的安全风险。若用户确认则执行相应操作。下一轮的潜在语义空间为图7。请参阅图8，图8中也包括一个对话系统轮(即一个垂域上的多轮对话)，也就是对话二。图8中的对话系统轮在向用户询问是否了解操作带来的后果。若用户确认则执行相应操作。下一轮的潜在语义空间为图8。如此，根据理解可知，两段对话在确认轮(下一轮)的潜在对话动作信息相同，但潜在语义空间不同。并且两者的潜在的语义空间在系统确认轮(下一轮)就已经可以确定，即为静态语义空间。

请参阅图9，图9中包括一个对话系统轮(即一个垂域上的多轮对话)，也就是对话三。图9中的对话系统轮在向用户询问选择结果。在用户回复轮(下一轮)的潜在语义空间不能在系统询问轮确定，潜在的语义空间为图9，因此是动态语义空间。

静态语义空间可以理解为：语义空间内的回复不依赖于于时间、场景、空间和用户等多种因素，而动态语义空间则具有很多变量。在一个实施例中，当前用户的所在地点不同，会导致语义空间内的内容不同。例如：用户在中关村说导航去北京大学，与用户在深圳说导航去北京大学，形成的可选路线的列表是不同的，如此动态语义空间是根据用户所在的地域的不同而会发生变化的。

在某些实施方式中，动态场景可以理解为：将语义空间转为一种可读的树状结构，保留所有语义空间中的信息。如此，可以根据语义空间和图形用户界面信息确定动态场景。

请参阅图10，在某些实施方式中，步骤01包括步骤：

步骤016：在接收到当前轮次语音指令的情况下，载入并解析历史轮次的语音对话信息中包括的动态场景元素；

步骤018：根据动态场景元素、历史轮次的语音对话信息生成动态场景。

在某些实施方式中语音控制装置100包括第一处理模块和第二生成模块，本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中步骤016可以由第一处理模块实现，步骤018可以由第二生成模块实现，也即是说，第一处理模块用于在接收到当前轮次语音指令的情况下，载入并解析历史轮次的语音对话信息中包括的动态场景元素。第二生成模块用于根据动态场景元素、历史轮次的语音对话信息生成动态场景。

在某些实施方式中，本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现，其中，步骤016和步骤018均可以由处理器300实现，也即是说，处理器300可用于：在接收到当前轮次语音指令的情况下，载入并解析历史轮次的语音对话信息中包括的动态场景元素；根据动态场景元素、历史轮次的语音对话信息生成动态场景。

具体地，动态场景元素具有不同的呈现类型，例如按钮、滑块、状态按钮、文本输入框、复选框、单选按钮、群组按钮、开关按钮、视图、组、对话框以及用于进行交互可操作的控件等。在某些实施方式中，还可以获得标签，标签包括对话动作信息和/或槽位参数。如此可以载入并解析历史轮次的语音对话信息中包括的动态场景元素，根据动态场景元素、历史轮次的语音对话信息生成动态场景。

在某些实施方式中，场景语义文档的文档数据与动态场景元素的相似度大于相似度阈值。

具体地，场景语义文档包括多个文档数据，多个文档数据与动态场景元素的相似度均大于相似度阈值。如此，可以根据动态场景元素的相似度阈值来确定某个文档数据是否为场景语义文档的文档数据。若相似度小于相似度阈值，则认为此文档数据不属于场景语义文档的文档数据；若相似度大于或等于相似度阈值，则认为此文档数据属于场景语义文档的文档数据。值得一提的是，还可以通过其他的方式确定场景语义文档的文档数据，例如：模板匹配、句子相似度计算、模型阅读理解等方式，此处不作限定。

在一个实施例中，动态场景的生成过程包括：加载历史轮次的语音对话信息的对话状态信息，也包括槽位参数、系统对话动作信息等信息；再根据系统对话动作信息，推理潜在的用户对话动作信息；最后通过近义词泛化，泛化槽位参数、对话动作信息的标签等。

请参阅图11，图11中包括用户动作和系统动作。用户动作包括：通知、取消、确定、否认和询问更多等动作；系统动作包括：询问、选择、确认、引导、否认、成功和失败等动作。图11中的列表可以根据对话状态信息进行更新。图11中包括多个1和0，1可以可以认为系统与用户之间的对话是相关联的。例如：上一轮为系统的一个询问动作，下一轮为用户的一个回复动作，若系统的询问动作与用户的回复动作相关联则认为是1；若系统的询问动作与用户的回复动作无关联则认为是0。在一个例子中，系统询问用户：“是否关闭车窗”，用户回答：“确定关闭车窗”，可以判定这两句对话相关联，具有上下文关系，在表格中记录为1。在另一个例子中，系统询问用户：“是否关闭车窗”，用户回答：“天气真好啊”，可以判定这两句对话无关联，不具有上下文关系，在表格中记录为0。当记录为0的情况下，系统可以认为用户的回复为错误回复，可以当成噪音进行处理，也可以再次询问用户，例如：“您说什么呢？我再给您描述一下问题，是否关闭车窗”，如此可以证明对话的连续性以便于生成动态场景。

请参阅图12，在一个实施例中，用户可以说出指令：“导航去星巴克”，其中槽位参数包括目的地和星巴克，对话动作信息包括用户和通知。系统可以回复：“为您找到多个星巴克，要去哪个？”，其中槽位参数包括目的地搜索结果(即为北大北门星巴克、星巴克中关村店、星巴克星享店)，对话动作信息包括系统和选择。用户回复系统：“北大北边那个”，车载大屏可以显示目的地搜索结果(即为北大北门星巴克、星巴克中关村店、星巴克星享店)，槽位参数包括目的地和北大北门星巴克，对话动作信息包括用户和通知，值得一提的是，车载大屏还可以显示多种其他操作，例如：退出、重新导航等。

请参阅图13，在某些实施方式中，步骤04包括步骤：

步骤041：利用当前轮次语音指令对应的语义理解搜索数据库；

步骤042：在搜索结果存在与当前轮次语音指令对应的语义理解相匹配的结果时，将当前轮次语音指令对应的语义理解作为语义理解结果；

步骤043：在搜索结果不存在与当前轮次语音指令对应的语义理解相匹配的结果时，将全局语义理解作为语义理解结果。

在某些实施方式中语音控制装置100包括第二处理模块、第三处理模块和第四处理模块，本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中步骤041可以由第二处理模块实现，步骤042可以由第三处理模块实现，步骤043可以由第四处理模块实现，也即是说，第二处理模块用于利用当前轮次语音指令对应的语义理解搜索数据库。第三处理模块用于在搜索结果存在与当前轮次语音指令对应的语义理解相匹配的结果时，将当前轮次语音指令对应的语义理解作为语义理解结果。第四处理模块用于在搜索结果不存在与当前轮次语音指令对应的语义理解相匹配的结果时，将全局语义理解作为语义理解结果。

在某些实施方式中，本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现，其中，步骤041、步骤042和步骤043均可以由处理器300实现，也即是说，处理器300可用于：利用当前轮次语音指令对应的语义理解搜索数据库；在搜索结果存在与当前轮次语音指令对应的语义理解相匹配的结果时，将当前轮次语音指令对应的语义理解作为语义理解结果；在搜索结果不存在与当前轮次语音指令对应的语义理解相匹配的结果时，将全局语义理解作为语义理解结果。

具体地，数据库中记录有多轮对话的历史数据，例如：包括历史对话的上下文内容、对话轮数、任务树形图等信息。在一个实施方式中，如图5所示，数据库包括上下文存储器，当前轮次语音指令上传的同时，实时上传图形用户界面信息至上下文存储器中。在某些实施方式中，可以在进行语义理解时，可以根据数据库中的相关进行自然语言理解。

在数据库进行搜索后，若存在与当前轮次语音指令对应的语义理解相匹配的结果时，将当前轮次语音指令对应的语义理解作为语义理解结果。

在数据库进行搜索后，若不存在与当前轮次语音指令对应的语义理解相匹配的结果时，将全局语义理解作为语义理解结果。

也就是说，语义理解结果包括两种：一种是将当前轮次语音指令对应的语义理解作为语义理解结果，另一种是将全局语义理解作为语义理解结果。

值得一提的是，数据库中的数据会在每一轮对话的过程中进行更新。其中，更新的依据可包括但不限于语义理解结果、历史对话状态信息等，此处不作限定。

请参阅图14，在某些实施方式中，步骤05包括步骤：

步骤051：在当前轮次语音指令对应的语义理解作为语义理解结果时，对历史轮次的语音对话信息进行更新，并发送操作指令以使车辆1000执行相应操作；

步骤052：在全局语义理解作为语义理解结果时，控制车辆1000发起新一轮对话任务。

在某些实施方式中语音控制装置100包括第五处理模块和第六处理模块，本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中步骤051可以由第五处理模块实现，步骤052可以由第六处理模块实现，也即是说，第五处理模块用于在当前轮次语音指令对应的语义理解作为语义理解结果时，对历史轮次的语音对话信息进行更新，并发送操作指令以使车辆1000执行相应操作。第六处理模块用于在全局语义理解作为语义理解结果时，控制车辆1000发起新一轮对话任务。

在某些实施方式中，本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现，其中，步骤051和步骤052均可以由处理器300实现，也即是说，处理器300可用于：在当前轮次语音指令对应的语义理解作为语义理解结果时，对历史轮次的语音对话信息进行更新，并发送操作指令以使车辆1000执行相应操作；在全局语义理解作为语义理解结果时，控制车辆1000发起新一轮对话任务。

具体地，在当前轮次语音指令对应的语义理解作为语义理解结果时，可以对历史轮次的语音对话信息进行更新，更新过程可以通过对话状态信息更新模块和对话策略优化模块实现。在某些实施方式中，对话状态信息更新模块和对话策略优化模块可以合并在一起，即为对话管理模块。更新对话信息包括更新对话动作信息与对话状态信息。更新优化后以生成回复信息(操作指令)，如此可以发送操作指令以使车辆1000执行相应操作。

请参阅图15，在某些实施方式中，步骤051包括步骤：

步骤0511：根据历史轮次的语音对话信息，查询用户输出的对话动作信息和系统输出的对话动作信息，以获取用户槽位参数和系统槽位参数；

步骤0512：利用用户槽位参数和系统槽位参数执行槽位动作，更新可信槽位参数，以更新对话状态信息。

在某些实施方式中语音控制装置100包括第七处理模块和第八处理模块，本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中步骤0511可以由第七处理模块实现，步骤0512可以由第八处理模块实现，也即是说，第七处理模块用于根据历史轮次的语音对话信息，查询用户输出的对话动作信息和系统输出的对话动作信息，以获取用户槽位参数和系统槽位参数。第八处理模块用于利用用户槽位参数和系统槽位参数执行槽位动作，更新可信槽位参数，以更新对话状态信息。

在某些实施方式中，本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现，其中，步骤0511和步骤0512均可以由处理器300实现，也即是说，处理器300可用于：根据历史轮次的语音对话信息，查询用户输出的对话动作信息和系统输出的对话动作信息，以获取用户槽位参数和系统槽位参数；利用用户槽位参数和系统槽位参数执行槽位动作，更新可信槽位参数，以更新对话状态信息。

具体地，请参阅图16，图16中包括一组多轮对话，可以根据用户的对话动作信息和系统的对话动作信息，获取用户槽位参数和系统槽位参数，同时也可以获取任务参数。用户槽位参数和系统槽位参数行槽位动作以更新可信槽位参数，从而更新每个任务中的对话状态信息。在某些实施方式中，用户槽位参数是指用户每一轮请求的槽位参数，系统询问槽位是指系统需询问、选择、确认的槽位参数或候选的槽位参数，可信槽位是指最终输出的槽位参数。在某些实施方式中，执行槽位动作包括延续动作、删除动作、更新动作和失效动作中的至少一种。

具体地，执行槽位动作包括但不仅限于延续动作、删除动作、更新动作和失效动作。延续动作即为槽位参数与上一轮的槽位参数相同，在当前轮次中不对槽位参数进行更新。删除动作即为删除已有的槽位参数。更新动作即为更新已有的槽位参数。失效动作即为任务相关的部分槽位参数在后续的对话中不再关心。

请参阅图17，在某些实施方式中，步骤051包括步骤：

步骤0513：判断动态场景中多个场景页面的优先级顺序；

步骤0514：根据多个场景页面的优先级顺序将高优先级的场景页面节点压入低优先级场景页面栈；

步骤0515：控制车辆1000执行高优先级的场景页面对应的相应操作。

在某些实施方式中语音控制装置100包括判断模块、第九处理模块和第十处理模块，本申请的语音控制方法可以由本申请实施方式的语音控制装置100实现，其中步骤0513可以由判断模块实现，步骤0514可以由第九处理模块实现，步骤0515可以由第十处理模块实现，也即是说，判断模块用于判断动态场景中多个场景页面的优先级顺序。第九处理模块用于根据多个场景页面的优先级顺序将高优先级的场景页面节点压入低优先级场景页面栈。第十处理模块用于控制车辆1000执行高优先级的场景页面对应的相应操作。

在某些实施方式中，本申请实施方式的语音控制方法可以由本申请实施方式的服务器500实现，其中，步骤0513、步骤0514和步骤0515均可以由处理器300实现，也即是说，处理器300可用于：判断动态场景中多个场景页面的优先级顺序；根据多个场景页面的优先级顺序将高优先级的场景页面节点压入低优先级场景页面栈；控制车辆1000执行高优先级的场景页面对应的相应操作。

具体地，动态场景可以包括多个场景页面，多个场景页面可以进行优先级排序，高优先级的场景页面节点可以压入低优先级场景页面栈。请参阅图18，在图18中包括3个场景页面，3个场景页面分别为第一场景页面A1、第二场景页面A2和第三场景页面A3。3个场景页面可以看成一个类堆栈，每个场景页面都对应一个对话任务，也即是说，每个栈都可以看成一个对话任务。在某些实施方式中，优先级包括页面深度和任务内每个元素的优先级。其中，页面深度为X，任务内每个元素的优先级为Y，优先级Y越高，页面深度越高。如此，在处理较为复杂的多轮对话的情况下，能够利用场景页面的逻辑关系以更新动态场景。在图18中，在第一场景页面A1上命中“详情”按钮，则会弹出第三场景页面A3；若在当前第二场景页面A2去命中第一场景页面A1上的“详情”按钮，则会弹出第三场景页面A3覆盖在第二场景页面A2上。如此，可以理解为多个场景页面中，先入的场景页面后弹出，后入的场景页面先弹出。

请参阅图19，本申请实施方式还提供一种计算机程序的非易失性计算机可读存储介质800，其上存储有计算机程序，当计算机程序被一个或多个处理器300执行时，使得处理器300执行上述任一实施方式的控制方法的步骤。

例如，程序被处理器20执行的情况下，实现以下语音控制方法的步骤：

步骤02：根据动态场景生成场景语义文档；

步骤05：根据语义理解结果控制车辆1000执行相应操作。

如此，本申请实施方式的计算机程序的非易失性计算机可读存储介质800，能够融合图形用户界面信息和历史轮次的语音对话信息以生成动态场景，根据动态场景生成场景语义文档，根据场景语义文档能够限制任务内的语义理解过程，对多轮状态的语音进行管理，从而提高这个垂域上多轮对话语义理解的精度。

可以理解，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请的各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种语音控制方法，其特征在于，包括：

接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景；

根据所述动态场景生成场景语义文档；

根据所述场景语义文档确定所述当前轮次语音指令对应的语义理解；

根据所述当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；

根据所述语义理解结果控制车辆执行相应操作。

2.根据权利要求1所述的语音控制方法，其特征在于，所述接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景，包括：

在接收到所述当前轮次语音指令的情况下，根据历史轮次的语音对话信息确定语义空间，所述语义空间用于表征当前轮次语音指令的语义理解指向；

根据所述语义空间和图形用户界面信息确定动态场景。

3.根据权利要求1所述的语音控制方法，其特征在于，所述接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景，包括：

在接收到所述当前轮次语音指令的情况下，载入并解析所述历史轮次的语音对话信息中包括的动态场景元素；

根据所述动态场景元素、历史轮次的语音对话信息生成动态场景。

4.根据权利要求3所述的语音控制方法，其特征在于，所述场景语义文档的文档数据与所述动态场景元素的相似度大于相似度阈值。

5.根据权利要求1所述的语音控制方法，其特征在于，所述根据所述当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果，包括：

利用所述当前轮次语音指令对应的语义理解搜索数据库；

在搜索结果存在与所述当前轮次语音指令对应的语义理解相匹配的结果时，将所述当前轮次语音指令对应的语义理解作为所述语义理解结果；

在搜索结果不存在与所述当前轮次语音指令对应的语义理解相匹配的结果时，将所述全局语义理解作为所述语义理解结果。

6.根据权利要求5所述的语音控制方法，其特征在于，所述根据所述语义理解结果控制车辆执行相应操作，包括：

在所述当前轮次语音指令对应的语义理解作为所述语义理解结果时，对所述历史轮次的语音对话信息进行更新，并发送操作指令以使车辆执行相应操作；

在所述全局语义理解作为所述语义理解结果时，控制所述车辆发起新一轮对话任务。

7.根据权利要求6所述的语音控制方法，其特征在于，所述对所述历史轮次的语音对话信息进行更新，包括：

根据所述历史轮次的语音对话信息，查询用户输出的对话动作信息和系统输出的对话动作信息，以获取用户槽位参数和系统槽位参数；

利用所述用户槽位参数和所述系统槽位参数执行槽位动作，更新可信槽位参数，以更新对话状态信息。

8.根据权利要求7所述的语音控制方法，其特征在于，所述执行槽位动作包括延续动作、删除动作、更新动作和失效动作中的至少一种。

9.根据权利要求6所述的语音控制方法，其特征在于，所述对所述历史轮次的语音对话信息进行更新，包括：

判断所述动态场景中多个场景页面的优先级顺序；

根据所述多个场景页面的优先级顺序将高优先级的所述场景页面节点压入低优先级场景页面栈；

控制所述车辆执行高优先级的所述场景页面对应的相应操作。

10.一种语音控制装置，其特征在于，包括：

第一生成模块，所述第一生成模块用于接收当前轮次语音指令，接收图形用户界面信息，融合所述图形用户界面信息和历史轮次的语音对话信息以生成动态场景；

第二生成模块，所述第二生成模块用于根据所述动态场景生成场景语义文档；

第一确定模块，所述第一确定模块用于根据所述场景语义文档确定所述当前轮次语音指令对应的语义理解；

第二确定模块，所述第二确定模块用于根据所述当前轮次语音指令对应的语义理解或全局语义理解确定语义理解结果；

控制模块，所述控制模块用于根据所述语义理解结果控制车辆执行相应操作。

11.一种服务器，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-9任一项所述的语音控制方法。

12.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-9中任一项所述的语音控制方法。