CN111722826A

CN111722826A - 语音交互信息的构造方法、车辆和存储介质

Info

Publication number: CN111722826A
Application number: CN202010599634.9A
Authority: CN
Inventors: 易晖; 鲍鹏丽; 孙仿逊; 翁志伟; 马洪波
Original assignee: Guangzhou Xiaopeng Internet of Vehicle Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-09-29
Anticipated expiration: 2040-06-28
Also published as: CN111722826B; WO2022000863A1; EP3955098A4; EP3955098A1; EP3955098B1; EP3955098C0

Abstract

本申请公开了一种语音交互信息的构造方法。语音控制方法包括：定义语音交互元素；建立语音交互元素与构成图形用户界面的控件的映射关系；根据映射关系构建对应图形用户界面的语音交互信息。本申请实施方式的车辆的语音交互信息的构造方法、车辆及计算机可读存储介质中，通过定义与图形用户界面中的控件形成映射关系的语音交互元素，使得图形用户界面与语音交互信息具有一致性，图形用户界面中能够通过触控进行操作的显示元素都能够通过语音进行操作，为用户提供更方便的交互方式，语音交互的智能性和用户体验更佳。本申请还公开了一种车辆及存储介质。

Description

语音交互信息的构造方法、车辆和存储介质

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音交互信息的构造方法、车辆和计算机可读存储介质。

背景技术

随着人工智能技术的发展，语音智能平台或者说语音助手因为能够在一定条件下识别用户的语音输入并生成相应的操作指令，为用户操作车辆设备，例如车辆的中控显示屏，提供了极大的便利，而被广泛应用。然而，相关技术中，语音助手对于能够识别的语音指令所对应的用户的语音输入要求比较严苛，智能性较差。

发明内容

有鉴于此，本申请的实施例提供了一种语音交互信息的构造方法、车辆和计算机可读存储介质。

本申请提供了一种语音交互信息的构造方法，所述语音交互信息用于描述相对应的图形用户界面，所述构造方法包括：

定义语音交互元素；

建立所述语音交互元素与构成所述图形用户界面的控件的映射关系；

根据所述映射关系构建对应所述图形用户界面的语音交互信息。

在某些实施方式中，所述定义语音交互元素包括：

根据所述控件的信息定义所述语音交互元素，构成所述语音交互元素的信息与所述控件的信息逐一对应。

在某些实施方式中，所述控件的信息包括控件标识、控件属性和控件可支持事件，所述语音交互元素的信息包括元素标识、元素属性和元素可支持操作，所述建立所述语音交互元素与构成所述图形用户界面的控件的映射关系包括：

分别建立所述控件的信息与对应的所述语音交互元素的信息的映射。

在某些实施方式中，所述图形用户界面包括多个控件，所述根据所述映射关系构建对应所述图形用户界面的语音交互信息包括：

根据所述控件的界面局部关系构建所述语音交互元素的关系以形成对应所述图形用户界面的语音交互信息。

在某些实施方式中，所述构造方法还包括：

泛化所述元素属性和所述元素可支持操作的表达方式。

在某些实施方式中，所述图形用户界面包括多个控件，所述语音交互元素包括多个，每个控件对应一个所述语音交互元素，所述控件属性包括所述多个控件的布局关系，所述元素属性包括对应的多个语音交互元素的包含关系，所述构造方法还包括：

根据所述包含关系建立所述多个语音交互元素的有向图。

在某些实施方式中，所述构造方法包括：

获取应用程序的多个图形用户界面；

根据所述多个图形用户界面的堆叠关系，构建与所述图形用户界面对应的语音交互场景栈。

在某些实施方式中，所述构造方法包括：

获取当前图形用户界面包括的多个图形用户子界面所分别对应的应用程序；

获取对应每个所述应用程序的所述语音交互场景栈；

根据多个所述语音交互场景栈，构建与所述当前图形用户界面对应的语音交互场景栈组群。

本申请提供了一种车辆，包括：

处理模块，用于定义语音交互元素；

构建模块，用于建立所述语音交互元素与构成所述图形用户界面的控件的映射关系；

所述构建模块还用于根据所述映射关系构建对应所述图形用户界面的语音交互信息。

本申请提供了一种包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行所述的语音交互信息的构造方法。

本申请实施方式的车辆的语音交互信息的构造方法、车辆及计算机可读存储介质中，通过定义与图形用户界面中的控件形成映射关系的语音交互元素，使得图形用户界面与语音交互信息具有一致性，图形用户界面中能够通过触控进行操作的显示元素都能够通过语音进行操作，为用户提供更方便的交互方式，语音交互的智能性和用户体验更佳。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的语音交互信息的构造方法的流程示意图。

图2是本申请某些实施方式的车辆的模块示意图。

图3是本申请某些实施方式的构造方法的流程示意图。

图4是本申请某些实施方式的构造方法的流程示意图。

图5是本申请某些实施方式的语音交互元素结构示意图。

图6是本申请某些实施方式的语音交互元素和图形用户界面控件映射关系示意图。

图7是本申请某些实施方式的语音交互元素和图形用户界面控件映射关系示意图。

图8是本申请某些实施方式的构造方法的流程示意图。

图9是本申请某些实施方式的语音交互元素和图形用户界面控件映射关系示意图。

图10是本申请某些实施方式的语音交互元素的有向图示意图。

图11是本申请某些实施方式的图形用户界面和语音交互场景栈的示意图。

图12是本申请某些实施方式的图形用户界面和语音交互场景栈组群的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

请参阅图1，本申请提供了一种车辆的语音控制方法。包括：

S11：定义语音交互元素；

S12：建立语音交互元素与构成图形用户界面的控件的映射关系；

S13：根据映射关系构建对应图形用户界面的语音交互信息。

本申请实施方式提供了一种车辆。车辆包括显示区域和处理器。车辆的显示区域可以包括仪表屏、车载显示区域屏幕以及车辆挡风玻璃上可以实现的抬头显示等。车辆上运行的车载系统使用图形用户界面(Graphical User Interface，GUI)为用户呈现展示的内容。显示区域包括诸多UI元素，不同的显示区域可以展示相同或不同的UI元素。其中，UI元素可以包括卡片对象、应用程序图标或界面、文件夹图标、多媒体文件图标以及用于进行交互可操作的控件等。处理器用于定义语音交互元素，及用于建立语音交互元素与构成所述图形用户界面的控件的映射关系，以及用于根据映射关系构建对应图形用户界面的语音交互信息。

请参阅图2，本申请实施方式还提供了一种车辆100，本申请实施方式的语音控制方法可以由本申请实施方式的车辆100实现。

具体地，车辆100包括处理模块102和构建模块104。S11可以由处理模块102实现，S12、S13可以由构建模块104实现。或者说，处理模块102用于定义语音交互元素。构建模块104用于建立语音交互元素与构成图形用户界面的控件的映射关系、以及用于根据映射关系构建对应图形用户界面的语音交互信息。

本申请实施方式的语音交互信息的构造方法及车辆100中，通过定义与图形用户界面中的控件形成映射关系的语音交互元素，使得图形用户界面与语音交互信息具有一致性，图形用户界面中能够通过触控进行操作的显示元素都能够通过语音进行操作，为用户提供更方便的交互方式，语音交互的智能性和用户体验更佳。

具体地，车辆的智能显示区域可以为用户提供控制车辆以及与车辆进行交互的便捷入口，在车载操作系统中添加语音助手，能够在一定条件下通过识别语音便捷地生成相应的控制指令，进一步地为用户与车辆的交互提供便利。然而，语音助手能够进行的语音交互有限，通常只能与预设定的操作目标进行交互，而对于非预定的操作目标无法理解用户的真实目的，用户仅能通过在图形用户界面中对操作目标进行输入，与操作目标进行交互，而无法通过语音实现交互。对于当前正处于行车模式的情况，用户一边驾车一边通过图形用户界面进行交互，存在一定的安全风险。

在本实施方式中，定义语音交互元素，使得其与图形用户界面中的控件对应，从而构建用于描述图形用户界面的语音交互信息，语音交互信息由语音交互元素构成，其中，语音交互元素可进行语音操作，也即是用户可以通过语音的方式实现与图形用户界面中的目标控件进行交互。

在定义语音交互元素时，可参照图形用户界面中的控件的信息，设置语音交互元素的信息，如元素标识、元素类型、元素可支持操作等信息，从而使得语音交互元素能够唯一地与控件进行对应。进一步地，通过语音交互方面的设定，使得语音指令能够定位到指令所包含的目标控件。

请参阅图3，在某些实施方式中，S11包括：

S111：根据控件的信息定义语音交互元素，构成语音交互元素的信息与控件的信息逐一对应。

在某些实施方式中，S111可以由处理模块102实现，也即是说，处理模块102用于根据控件属性信息构建语音交互元素。

在某些实施方式中，处理器用于根据控件属性信息构建语音交互元素。

具体地，图形用户界面的控件的信息包括控件的控件标识、控件类型、文本描述、控制支持的操作方式、操作参数、多个控件在界面中的位置、布局关系等。

其中，控件标识可用于标识当前图形用户界面中的每个控件，每个控件具有唯一的标识。当前图形用户界面中呈现的内容由控件构成，以信息点卡片界面为例，其中的控件包括信息点名称、地址、收藏、搜周边、导航路线等。

文本描述，也即是对该控件在图形用户界面中的表达方式，例如，对于收藏控件，其文本描述为“收藏”。

控件类型也即是该控件在图形用户界面中的控件呈现类型，例如文本、按钮、单选按钮、复选框、滑动条、选项卡、列表等。

控件支持的操作方式，即对应类型的控件可以进行的操作，例如文本不支持相关操作，按钮可支持的操作为点击，单选按钮可支持的操作为开、关，复选框可支持的操作为点击，滑动条可支持的操作为赋值，选项卡可支持的操作选择，列表可支持的操作为滚动等。

操作参数对应操作方式的程度，例如，点击对应的操作参数为短按、长按，滑动条对应的操作参数为大中小等。

多个控件在界面中的位置以及布局关系反映了相关关键在同一图形用户界面中的分布以及布局。

为了能将语音交互元素与控件相关联，语音交互元素也应当包括对应控件信息的语音交互元素信息，并使得语音交互元素信息的内容与其关联的控件的信息逐一对应。

例如，语音交互元素信息包括元素标识、元素类型、文本描述、元素支持的操作方式、操作参数、多个元素在界面中的位置、布局关系等。

如此，通过语音交互元素的信息与控件的信息逐一对应，实现语音交互元素与控件的映射，使得语音交互中，通过语义理解得到的语音交互元素可以定位到与该语音交互元素相关联的控件，实现对图形用户界面中的控件的语音操作。

请参阅图4，在某些实施方式中，控件的信息包括控件标识、控件属性和控件可支持事件，所述语音交互元素的信息包括元素标识、元素属性和元素可支持操作，S12包括：

S121：分别建立控件的信息与对应的语音交互元素的信息的映射。

在某些实施方式中，S121可以由构建模块104实现，或者说，构建模块104用于分别建立控件的信息与对应的语音交互元素的信息的映射。

在某些实施方式中，处理器用于分别建立控件的信息与对应的语音交互元素的信息的映射。

请参阅图5，具体地，根据信息的用途可以将控件的信息分为控件标识、控件属性和控件可支持事件等多个方面，其中控件标识可具体包括控件编码和控件名称。控件属性可包括描述文本和控件类型。控件可支持事件可包括可支持操作与操作参数。相应地，语音交互元素的信息也对应包括元素标识、元素属性和元素可支持操作多个方面。

其中，元素标识包括元素编码与元素名称，元素编码与控件编码对应，元素名称与控件名称对应。如此，元素标识与图形用户界面中控件的控件标识相对应，从而将图形用户界面中的控件与语音交互元素形成映射。

语音交互元素的元素属性可包括元素类型，文本描述，元素类型用于记录与该语音交互元素对应的图形用户界面中的控件的控件类型，例如文本、按钮、单选按钮、复选框、滑动条、选项卡、列表等。文本描述用于记录与该语音交互元素对应的图形用户界面中的控件的表达方式，例如“收藏”、“收周边”、“车辆提示音”等。

元素可支持操作包括操作方式与操作参数，操作方式用于记录与该语音交互元素对应的图形用户界面中的控件支持的操作方式，例如点击、选择、赋值等操作方式。操作参数用于记录与该语音交互元素对应的图形用户界面中的控件支持操作方式的操作程度，例如长按、短按等。

如此，请参阅图6和图7，根据控件的信息建立与之对应的语音交互元素映射，从而建立图形用户界面的控件与语音交互元素的映射关系。例如，在车辆的系统菜单图形用户界面中，“蓝牙开关”控件映射为语音交互元素中的单选按钮元素，“导航音量播报”控件映射为语音交互元素中的滑动条元素，“车辆提示音”控件映射为语音交互元素中的选项卡元素。

如图7中的示例，“导航音量播报”控件映射为语音交互元素，其元素id为2131362541，元素类型为滑动条元素，文本描述为“导航音量播报”，可支持操作为赋值，操作参数为音量15。

请参阅图8，在某些实施方式中，图形用户界面包括多个控件，S13包括：

S131：根据控件的界面局部关系构建语音交互元素的关系以形成对应图形用户界面的语音交互信息。

在某些实施方式中，S131可以由构建模块104实现。也即是说，构建模块104用于根据控件的界面局部关系构建语音交互元素的关系以形成对应图形用户界面的语音交互信息。

在某些实施方式中，处理器用于根据控件的界面局部关系构建语音交互元素的关系以形成对应图形用户界面的语音交互信息。

请参阅图9，具体地，在一个图形用户界面中，可能同时包括多个控件，多个控件之间具有一定的局部关系，例如包含关系，如一个父级控件包括多个并列的子级控件。语音交互元素也应当反映这种包含关系，对于这种情况，可以定义一个父级语音交互元素，该父级语音交互元素包含多个子级语音交互元素。

例如，对于系统菜单图像用户界面中的“声音”父级控件，其包括“语音播报音量”、“导航播报音量”以及“车辆提示音”等多个子级控件，在定义“声音”父级语音交互元素时，其信息包括“语音播报音量”、“导航播报音量”以及“车辆提示音”等多个子级语音交互元素。其中，每个子级语音交互元素均包括如上述的语音交互元素的信息。如此，可以通过父级-子级的结构将多个简单的语音交互元素组合形成一个复杂的语音交互元素，从而构建对应图形用户界面的语音交互信息。

在某些实施方式中，构造方法还包括：

S14：泛化元素属性和元素可支持操作的表达方式。

在某些实施方式中，S14可以由构建模块104实现，或者说，构建模块104用于泛化元素属性和元素可支持操作的表达方式。

在某些实施方式中，处理器用于泛化元素属性和元素可支持操作的表达方式。

可以理解地，元素属性中文本描述、可支持的操作以及操作参数基于相关标准生成，解释性较差，而不同用户对于同一意图的表达或者相同用户对于同一意图前后多次的表达都可能不同。因而，在定义语音交互元素初期，可以根据一些常规表述对语音交互元素的文本描述方式以及可支持的操作以及操作参数的表达方式进行人工的标注和泛化，泛化后的语音交互元素关联更多的表述方式，从而可以更好地辅助语音输入信息的理解。

例如，对于按钮可支持的操作指令，可以泛化为如点击、按等。对单选按钮可支持的操作指令，可以泛化为如打开、关闭等。对于“车辆提示音”的文本描述可以泛化为“提示音”、“车辆提示音量”等。

在某些实施方式中，图形用户界面包括多个控件，语音交互元素包括多个，每个控件对应一个语音交互元素，控件属性包括多个控件的布局关系，元素属性包括对应的多个语音交互元素的包含关系，构造方法包括：

S15：根据包含关系建立多个语音交互元素的有向图。

在某些实施方式中，S15可以由构建模块104实现。也即是说，构建模块104用于根据包含关系建立多个语音交互元素的有向图。

在某些实施方式中，处理器用于根据包含关系建立多个语音交互元素的有向图。

请参阅图10，具体地，在一个图形用户界面中，可能同时包括多个控件，并且多个控件之间具有一定的布局关系。有向图可以用于描述元素之间的结构关系，通过语音交互元素的有向图可以表征同一图形用户界面中的多个控件之间的布局关系。本实施方式中，语音交互元素的有向图中的节点表示图形用户界面中的控件，有向图中的边表示各个控件在布局上的布局关系。如此，将图形用户界面构建为语音交互元素的有向图，可以完整保留图形用户界面的布局信息以及控件的操作信息。

在实际操作过程中，当图形用户界面渲染完成后，系统遍历控件的分级视图，构建与当前图形用户界面对应的语音交互元素的有向图。当图形用户界面更新，或者说，新的图形用户界面完成渲染后，系统再次遍历控件的分级视图，获取发生变化的控件，然后对有向图对应的部分进行更新。

当前图形用户界面中不同控件映射的语音交互元素共同构成描述该图形用户界面的语音交互信息。

具体地，以语音交互元素为节点，根据图形用户界面中各个控件的布局关系，得到语音交互元素的包含关系，以包含关系作为边，从而形成语音交互元素的有向图，例如，对于系统菜单而言，上方的关闭控件对应一个节点，菜单内容选项对应一个节点，正在显示的声音选项界面对应一个节点。进一步地菜单内容选项节点包括蓝牙、WLAN、声音、显示、实验室、用户反馈、关于本机等子节点，声音节点包括语音播报音量、导航播报音量以及车辆提示音等子节点。

在某些实施方式中，构造方法包括：

S16：获取应用程序的多个图形用户界面；

S17：根据多个图形用户界面的堆叠关系，构建与图形用户界面对应的语音交互场景栈。

在某些实施方式中，S16和S17可以由构建模块104实现。或者说，构建模块104用于获取应用程序的多个图形用户界面以及用于根据多个图形用户界面的堆叠关系，以及用于构建与图形用户界面对应的语音交互场景栈。

在某些实施方式中，处理器用于获取应用程序的多个图形用户界面以及用于根据多个图形用户界面的堆叠关系，以及用于构建与图形用户界面对应的语音交互场景栈。

请参阅图11，具体地，在实际操作中，当运行某些应用程序时，可能会出现多个图形用户界面堆叠的情况，例如某控件链接的控件以浮动窗口的形式显示相关内容。在这种情况下，用户视觉中会存在多个图形用户界面，这些图形用户界面存在一定的逻辑关系，例如打开、切换、返回、关闭等出入关系。相对应地，需要构建对应该场景的语音交互场景栈，栈中的每一个语音交互信息与一个图形用户界面对应。语音交互场景栈中各个语音交互信息的堆叠次序与多个图形用户界面的堆叠次序一致，从而有效支持多个图形用户界面打开、切换、返回、关闭的语音控制。

在某些实施方式中，构造方法包括：

S18：获取当前图形用户界面包括的多个图形用户子界面所分别对应的应用程序；

S19：获取对应每个应用程序的语音交互场景栈；

S20：根据多个语音交互场景栈，构建与当前图形用户界面对应的语音交互场景栈组群。

在某些实施方式中，S18至S20可以由构建模块104实现。或者说，构建模块104用于获取当前图形用户界面包括的多个图形用户子界面所分别对应的应用程序，及用于获取对应每个应用程序的语音交互场景栈，以及用于根据多个语音交互场景栈，构建与当前图形用户界面对应的语音交互场景栈组群。

在某些实施方式中，处理器用于获取当前图形用户界面包括的多个图形用户子界面所分别对应的应用程序，及用于获取对应每个应用程序的语音交互场景栈，以及用于根据多个语音交互场景栈，构建与当前图形用户界面对应的语音交互场景栈组群。

具体地，在实际操作的某些场景中，同一图形用户界面可能会同时存在正在运行的多个应用程序的图形用户子界面，每个应用程序在各自运行的过程中又可能会出现多个图形子界面堆叠的情况。例如，某应用程序的当前图形用户界面中，同时存在系统框架、智能助手应用程序的图形用户界面，以及其他应用程序如导航应用程序的图形用户界面。在这种情况下，用户视觉中会存在多个图形用户子界面，这些图形用户子界面又分别可能包括多个图形用户子界面堆叠的情况。相对应地，将这些应用程序各自对应的语音交互场景栈构建为对应该场景的语音交互场景栈组群，组群中的每一个栈与一个应用程序对应。每个栈中的各个语音交互信息的堆叠次序与该应用程序的多个图形用户子界面的堆叠次序一致，从而有效支持同一图形用户界面中同时运行的多个应用程序的图形用户子界面打开、切换、返回、关闭的语音控制。

如此，通过上述各个实施方式，可分别实现对于语音交互元素的定义、语音交互信息的构建，语音交互场景栈的构建以及语音交互场景栈组群的构建，从而将图形用户界面中可能存在的多种不同情况均建立图形用户界面与语音交互信息的映射，图形用户界面与语音交互信息保持高度的一致性，为图形用户界面的语音交互提供可能。

本申请实施方式还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当计算机可执行指令被一个或多个处理器执行时，使得处理器执行上述任一实施方式的语音交互信息的构造方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音交互信息的构造方法，其特征在于，所述语音交互信息用于描述相对应的图形用户界面，所述构造方法包括：

定义语音交互元素；

2.根据权利要求1所述的构造方法，其特征在于，所述定义语音交互元素包括：

3.根据权利要求2所述的构造方法，其特征在于，所述控件的信息包括控件标识、控件属性和控件可支持事件，所述语音交互元素的信息包括元素标识、元素属性和元素可支持操作，所述建立所述语音交互元素与构成所述图形用户界面的控件的映射关系包括：

4.根据权利要求3所述的构造方法，其特征在于，所述图形用户界面包括多个控件，所述根据所述映射关系构建对应所述图形用户界面的语音交互信息包括：

5.根据权利要求3所述的构造方法，其特征在于，所述构造方法还包括：

泛化所述元素属性和所述元素可支持操作的表达方式。

6.根据权利要求3所述的构造方法，其特征在于，所述图形用户界面包括多个控件，所述语音交互元素包括多个，每个控件对应一个所述语音交互元素，所述控件属性包括所述多个控件的布局关系，所述元素属性包括对应的多个语音交互元素的包含关系，所述构造方法还包括：

根据所述包含关系建立所述多个语音交互元素的有向图。

7.根据权利要求1所述的构造方法，其特征在于，所述构造方法包括：

获取应用程序的多个图形用户界面；

8.根据权利要求7所述的构造方法，其特征在于，所述构造方法包括：

获取对应每个所述应用程序的所述语音交互场景栈；

9.一种车辆，其特征在于，包括：

处理模块，用于定义语音交互元素；

10.一种计算机可执行指令的非易失性计算机可读存储介质，其特征在于，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行权利要求1-8中任一项所述的语音交互信息的构造方法。