CN114895999B

CN114895999B - 基于交互界面的对话方法及系统

Info

Publication number: CN114895999B
Application number: CN202210342525.8A
Authority: CN
Inventors: 俞凯; 陈露; 孙良泰; 陈星宇; 戴天乐
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-09-19
Anticipated expiration: 2042-03-31
Also published as: CN114895999A

Abstract

本发明实施例提供一种基于交互界面的对话方法。该方法包括：将用户的对话指令输入至动作执行器；由动作执行器基于对话历史以及图形交互界面判断对话指令的操作步骤；基于动作执行器对各操作步骤的执行，控制图形交互界面基于执行的各步骤变化；直至各操作步骤完成时，对话生成模块基于完成各操作步骤的图形交互界面生成对话指令的回复。本发明实施例还提供一种基于交互界面的对话模型。本发明实施例提出了基于GUI的面向任务的对话模型，对GUI界面进行通用的语义建模，不依赖于特定的操作步骤，即便GUI界面发生变化，也可以自动化地在GUI界面中执行各种用户指令。

Description

基于交互界面的对话方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于交互界面的对话方法及系统。

背景技术

随着任务导向对话系统的快速发展。它们在客户服务，预订系统，尤其是智能个人助理中得到了广泛的应用。这些以任务为导向的对话系统：首先识别用户的意图，然后通过填充槽的过程提取必要的信息。完成任务后，代理会调用后端 api，例如查询数据库，并根据查询结果生成答案。

具体的，解析用户的语音输入，并自动化地执行购票、预订等任务。PIXELHELP系统可以在手机上自动执行系统设置相关的任务，如打开网络设置。SUGILITE系统通过记录用户在手机上的操作来自动化地复现某一个动作序列。VASTA系统利用OCR和目标检测技术来识别手机屏幕上的组件，并执行预先录制的用户脚本。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

上述举例的技术针对特定的应用编写执行规则，依赖于记录用户的操作序列生成操作脚本。在执行自动化任务时，没有去建模通用的GUI语义理解，而是依赖记录特定的操作序列，这就导致GUI发生变化或者使用新的应用时，之前记录的操作序列不能使用。

发明内容

为了至少解决现有技术中缺少对图形交互界面的语义理解，在图形交互界面发送变化时，之前记录的操作序列的步骤不能继续使用的问题。第一方面，本发明实施例提供一种基于交互界面的对话模型，包括：

动作执行器，用于对输入的对话指令以及图形交互界面语义理解，基于对话历史至少预测所述对话指令在所述图形交互界面中操作的目标项目和/或滑动方向，得到所述对话指令在所述图形交互界面中预测操作轨迹，作为所述对话指令的操作步骤进行执行；

对话生成模块，用于利用完成所述操作步骤的图形交互界面生成所述对话指令的回复。

第二方面，本发明实施例提供一种基于交互界面的对话方法，包括：

将用户的对话指令输入至动作执行器；

由所述动作执行器基于对话历史以及图形交互界面判断所述对话指令的操作步骤；

基于所述动作执行器对各操作步骤的执行，控制所述图形交互界面基于执行的各步骤变化；

直至所述各操作步骤完成时，对话生成模块基于完成所述各操作步骤的图形交互界面生成所述对话指令的回复。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于交互界面的对话方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于交互界面的对话方法的步骤。

本发明实施例的有益效果在于：基于GUI的面向任务的对话模型，在真实应用程序上用GUI操作取代了传统的API调用。其优点是，当后端API不可用时，智能代理仍然可以执行任务。此外，它不依赖于特定域的模式，这意味着它可以轻松地转移到新的域，即便GUI界面发生变化，也可以自动化的在GUI界面中执行各种用户指令。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于交互界面的对话模型的传统的面向任务的对话系统（传统TOD）和基于GUI的面向任务的对话系统（GUI-TOD）的对比结构图；

图2是本发明一实施例提供的一种基于交互界面的对话模型的对话系统架构图；

图3是本发明一实施例提供的一种基于交互界面的对话模型的数据集中的操作参数示意图；

图4是本发明一实施例提供的一种基于交互界面的对话模型的每个项目类型的项目总数与点击数量的分布示意图；

图5是本发明一实施例提供的一种基于交互界面的对话模型的行动的分配示意图；

图6是本发明一实施例提供的一种基于交互界面的对话模型的数据集统计示意图；

图7是本发明一实施例提供的一种基于交互界面的对话模型的动作执行器在开发集上的实验结果示意图；

图8是本发明一实施例提供的一种基于交互界面的对话模型在开发集上测试了反映BLEU分数的实验结果；

图9是本发明一实施例提供的一种基于交互界面的对话模型的完成示意图，其中，(a)动作类型的预期完成。WA：错误的动作类型，RA：正确的动作类型，WP：错误的动作参数，RP：正确的动作参数。(b)不同轮次长度的预计完成率。(c)不同领域的回合完成率；

图10是本发明一实施例提供的一种基于交互界面的对话方法的流程图；

图11为本发明一实施例提供的一种基于交互界面的对话的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于交互界面的对话模型的结构图，本实施例提供的一种基于交互界面的对话模型10包括：动作执行器11和对话生成模块12。

其中，动作执行器11用于对输入的对话指令以及图形交互界面语义理解，基于对话历史至少预测所述对话指令在所述图形交互界面中操作的目标项目和/或滑动方向，得到所述对话指令在所述图形交互界面中预测操作轨迹，作为所述对话指令的操作步骤进行执行；对话生成模块12用于利用完成所述操作步骤的图形交互界面生成所述对话指令的回复。

在本实施方式中，本申请的对话模型也称为GUI-TOD（GUI-based task-orienteddialogue，基于GUI的面向任务的对话）的对话系统，可以安装在各种带有屏幕的智能设备中使用。图中展示了本申请的对话系统与传统（现有技术）的对话系统的区别。传统的面向任务的对话系统将任务划分为NLU (Natural Language Understanding，自然语言理解)、DST (dialogue state tracking，对话状态跟踪)、决策制定(decision making)和NLG(natural language generation，自然语言生成)。与本申请的对话系统相比，GUI-TOD的一个主要改进是它不依赖于预定义的领域本体。按照常规思路，DST模块将从用户话语中识别一组槽值，作为后端api的参数。然而，GUI-TOD在任务执行期间处理特定任务的槽值。例如，以控制手机界面中的APP为例，当APP需要输入某一信息(例如输入时间和目的地)时，系统可以通过理解当前用户的话语或者生成一个回答来进一步询问，从而获得信息。只有当系统遇到来自APP的输入请求时，这个类似于槽填充的过程才会发生。本申请的GUI-TOD中的动作是与GUI（Graphical User Interface，图形用户界面）相关的操作，而不是传统的面向任务的对话系统是基于用户和系统之间的交互动作。

具体的，动作执行器对用户输入的对话指令和图像交互界面中的文本进行语义理解，由于本申请的GUI-TOD中的动作是与GUI相关的操作，不但要对对话指令语义理解，同时还要对图像交互界面中的各种文本进行语义理解，例如图像交互界面中会有带有文字的按钮、带有文字的图片、带有文字的对话框等。

由于用户在使用智能设备时，操作是具有重复性的。因此，利用对话历史可以预测对话指令在图形交互界面中操作项目以及操作开始位置、结束位置以及滑动方向，这样就得到预测操作轨迹，然后对预测操作轨迹执行。

执行对话指令相对应的步骤后，图形交互界面也会相应改变，通过图形交互界面中的文本内容生成对话指令的回复。

作为一种实施方式，所述动作执行器的训练过程包括：

将对话历史和与所述对话历史相关联的带有基准操作轨迹的图形交互界面中的多个项目作为动作执行器的输入，其中，所述项目包括：文本内容、项目类别；

对所述对话历史和所述文本内容语义理解，基于多个不同的分类器判断在所述图形交互界面中操作的项目类别、目标项目、滑动方向，得到预测操作轨迹；

基于所述基准操作轨迹和所述预测操作轨迹对所述多模态对话模型进行训练，直至所述预测操作轨迹趋近于所述基准操作轨迹。

在本实施方式中，由于本申请的对话模型与现有技术中的对话系统操作不同，因此对于执行器的训练也是不同的。如图2所示。

为了简化模型，不再把截图历史和动作历史作为输入。输入是由两部分组成：对话历史记录和项目。

使用两个相似的预训练语言模型（PLM）作为编码器：BERT（BidirectionalEncoder Representation from Transformers，双向编码Transformers）和LayoutLM。这两个PLM都将对话历史作为输入。对于BERT模型，用/>的文本来表示项目，其中k是项目的数量，l _i是第i个项目的文本长度。对于LayoutLM模型，还将项目的边界框作为输入。对于对话历史，将其边界框视为全零四元数。

其中，编码器模型可表述为：

其中表示对话历史的编码器输出，表示项目的编码器输出。

对于动作模型（动作执行器），需要预测动作类型及其对应的参数。如图3所示，有7种动作类型，带有3个不同的参数。

对于动作类型预测，使用[CLS]令牌的编码器输出进行动作预测。应用一个前馈网络和一个Softmax层来预测动作类型：

式中，Pa表示作用的概率分布，FFN表示前馈网络。

动作参数预测对于动作参数，使用了三种不同的分类器，作为一种实施方式，所述多个不同的分类器包括：预测任务、预测目标项目、预测方向分类器。

1、输入的文本预测，将输入文本的预测表述为跨度预测任务。预测对话的开始和结束位置：

其中Pds和Pde分别为起始位置和结束位置的概率。

2、目标项目预测，目标项目分类器是基于项目的编码输出。首先，通过对编码输出的应用平均池来计算项目表示：

然后使用一个前向层来计算选择一个项目的概率，后面跟着一个Softmax层：

式中，pm是项目的概率分布。

3、方向预测，方向分类器是上下方向的两类分类层：

其中pd是滑动方向的概率分布。

作为一种实施方式，除了训练动作执行器外，还需要对对话生成模块进行适当调整。所述对话生成模块的编码器与所述动作执行器共享相同的编码器，所述对话生成模块的解码器为多层的transformer解码器。

在本实施方式中，回答模型的目的是生成对用户的回答。它与动作执行器共享相同的底部编码器。对于解码器部分，使用一个有N层的Transformer 解码器：

其中R表示预测回答文本。

通过该实施方式可以看出，本申请提出了基于GUI的面向任务的对话模型，它在真实应用程序上用GUI操作取代了传统的API调用。其优点是，当后端API不可用时，智能代理仍然可以执行任务。此外，它不依赖于特定域的模式，这意味着它可以轻松地转移到新的域，即便GUI界面发生变化，也可以自动化的在GUI界面中执行各种用户指令。

作为一种实施方式，训练需要一定量的数据，对于数据的收集还包括收集所述对话历史和与所述对话历史相关联的基准操作轨迹，具体包括：

生成第一对话领域的第一对话指令，以供注释者在所述对话在图形交互界面中完成所述第一对话指令的操作步骤，并记录注释者完成所述第一对话指令每次操作的第一轨迹标注，以及每次操作后的图形交互界面；

接收由对话编写者编写的限制对话回合数、对话行为的第二对话领域的对话指令，以供注释者在所述对话在图形交互界面中完成所述第二对话指令，并记录注释者完成所述第二对话指令每次操作的第二轨迹标注，以及每次操作后的图形交互界面；

将所述第一轨迹标注、所述第二轨迹标注作为基准操作轨迹。

在本实施方式中，在两个阶段中收集数据：首先收集现有对话的GUI轨迹，然后同时收集对话和GUI轨迹。

在第一阶段中，需要让注释者进行标记，并为注释者提供对话，并指导注释者在真正的应用程序上执行任务。可以从SMCalFlow数据集中提取对话开始。SMCalFlow包含多轮任务导向对话，这是一种复杂的参照现象，需要全面理解语境。从第一对话领域（日历、天气和搜索域）中提取对话，这类型的数据通常收集简单。

为了让注释员标记GUI轨迹更加便捷。还构建了一个基于网络的注释系统，该系统连接到真正的智能设备（例如智能手机）。注释员可以在注释系统中查看智能手机的当前屏幕，并通过单击按钮来控制智能手机。注释系统中将显示一个对话（第一对话指令）。注释者应该先阅读对话，然后才可以探索如何在智能手机上完成任务。如果对话中的任务要求与现实场景相冲突（例如，在过去创建一个事件），注释者可以更改对话的内容，使任务可以实现。准备好后，需要使用注释系统来记录执行任务的实际过程。每次操作都会被记录下来，每次操作后的屏幕截图也会与视图层次一起保存。视图层次结构类似于网页的HTML代码。

在第二阶段中，收集了第二对话领域（酒店、餐厅和出租车领域）的对话和GUI轨迹。由于在以前的数据集中没有这些域的可用对话，要求编写新的对话。挑选了经验丰富的人作为编写者，在人数不足时，也可以让注释者进行编写。与上一阶段不同，注释系统显示了一个任务目标，该目标是从应用程序中的所有可用条件中随机生成的。注释者根据任务目标交替编写对话。为了避免注释者编写简短的对话，增加了关于回合数和对话中行为的限制，例如添加条件或更改条件。在编写对话后，注释员还应记录每个回合的相应GUI操作轨迹，具体步骤与第一阶段相同，在此不再赘述。

在注释之后，还需要手动检查数据。检查项包括：记录的GUI轨迹是否与对话匹配，是否存在由于系统错误或误操作导致的无效操作，以及GUI轨迹中是否存在冗余操作。手工修复了只有小错误的注释，并放弃了需要进行重大修改的任务。对话水平通过率约为63.6%，最终共得到1125个对话。

由于第二阶段的对话是人工生成的，可能存在表达上缺乏多样性。因此，使用一个对话重写任务来优化对话。例如，可以只选择超过15个单词的话语。

在GUI轨迹标注过程中，例如以安卓手机为例，部分app无法获取有效的Android层次结构。为了解决这个问题，可以使用光学字符识别(Optical character recognition,OCR)技术，由光学字符识别来确定所述轨迹标注，检测出图像上的所有文本及其对应的位置，并生成一个虚假的布局文件。

并进一步使用相应的布局文件从屏幕中提取项目。项目这一词语在本申请出现多次，本申请所指的项目是一个可点击的叶节点。类似地，如果一个项的可点击属性为true或者它的父节点是可点击的，就可以认为该项是可点击的。项目由文本内容、项类型和边界框组成。首先通过查看项目的文本属性来提取项目的文本内容。如果为空，则使用它的content-desc（内容描述）属性，否则使用resource-id（资源号码）属性。根据提取的项目，可以通过比较点击位置和项目的包围框来定位点击动作的目标项目。

具体的，所述项目类型包括：文本视图、图像视图、线性布局、图像按钮、按钮、编辑文本、切换视图、视图组、选中文本视图、相对布局、网络视图、图像、切换按钮、列表视图、框架布局、单选按钮、复选框。

通过收集，数据集中的对话总数是1125个，包括4684个回合。每个回合的平均图像数为5.30，每个话语的平均单词数为8。平均而言，每张图片有23.80个项目，项目文本长度为2.48个单词。项目类型的分布如图4所示。很明显，文本视图和图像视图是两种最常见的类型，这表明本方法的数据集具有信息性。

动作的分布如图5所示。单击是最频繁的操作，而清除是最少的操作，因为只有少量任务需要清除当前输入框。对于点击动作，进一步计算目标项的类型分布，如图4所示。文本视图和按钮类型主要被点击，而有8种项目类型从未被操作过。这意味着项目类型可能会为预测目标项目提供一些提示。此外，反应和输入动作的平均字数分别为9和3。

对本申请进行试验，以操作的粒度来处理数据集。每个数据点包含截图历史、动作历史、对话历史、当前屏幕上出现的项目和要执行的动作。由于视图层次结构的复杂性和OCR结果的不准确性，一些单击操作可能缺少目标项，将丢弃这些数据点。对于输入动作，声明所有输入的文本都是当前回合用户话语的子串，所以使用话语的开始和结束位置来表示输入文本。

最终我们总共获得了18337个数据，将数据按8:1:1的比例随机分成训练集、开发集和测试集。数据统计如图6所示。

对于动作执行器的评估，使用了四种指标：

首先定义两个完成率指标：动作完成率和回合完成率。只有当动作类型及其参数被正确预测时，一个动作才被视为已完成。如果同一回合的所有动作都完成了，那么相应的回合就被认为完成了。

准确性(Acc)。这个度量用于评估是否成功预测了结果。应用于动作类型、目标项目和方向的预测。

精确匹配(EM)这个度量用于评估输入动作的文本参数是否与基准事实完全相同。

F1得分这个指标衡量的是预测结果和基准结果之间的重叠。还可用于预测输入动作的文本参数。

使用一个指标来评估对话生成模块：

BLEU分数，BLEU（bilingual evaluation understudy，双语评估替补）是衡量候选文本与参考文献相似性的分数。使用它来评估生成的回答文本的质量。

本申请在训练集上训练基线，并根据动作完成率在开发集上选择最佳模型。使用BERT base和LayoutLM base作为主干的PLM模型。使用4的批处理大小和8个 epochs的微调，使用Adam优化器，学习率为1e-5。对于对话生成模块，变压器解码器块的数量为4。并且在培训过程中应用了教师强制算法。在评估时，使用集束搜索方法生成回答文本。

此外，还在实验中使用了三种启发式方法：

随机（Random），随机预测动作类型及其相应的参数。

频率（Frequency），我们首先计算每个动作类型的频率及其相应的参数。然后，将结果应用于开发集。

最频繁（Most Frequent），与频率模型类似，使用最频繁的结果生成预测。

动作执行器的实验结果如图7所示。可以发现深度学习方法优于启发式方法。比较BERT模型和LayoutLM模型的结果，发现BERT模型具有更好的性能。这是因为LayoutLM模型是在扫描的文档图像数据集上预训练的，Android GUI和扫描的文档图像之间存在很大的差距。

对话生成模块的结果如图8所示。BERT的性能明显优于LayoutLM，这与动作执行器的结果是一致的。

然后，进一步分析基于BERT模型预测的结果。图9中的(a)显示了动作类型的预期完成率。可以发现一些动作类型的完成率，如进入和清除，是比较高的。而带有参数的动作类型，如点击，是很难预测的。另外，可以注意到返回动作的完成率相当低。这是因为没有使用图像历史和动作历史。

还展示了不同长度对话轮的完成率，如图9中的(b)所示。可以看出，长度较短完成率较高。当对话轮长度开始增加时，完成率相应下降。

此外，在图9中的(c)显示了不同领域的回合完成率。可以发现不同领域的完成率都接近50%。

总的来说，本申请提出了基于GUI的面向任务的对话系统的任务，它在真实应用程序上用GUI操作取代了传统的API调用。当后端API不可用时，智能代理仍然可以执行任务。此外，它不依赖于特定于域的模式，这意味着它可以轻松地转移到新的域。并且收集META-GUI（Towards Multi-modal Conversational Agents on Mobile GUI，移动图形用户界面上的多模式会话代理）包含对话和GUI轨迹的数据集，作为基准。

如图10所示为本发明一实施例提供的一种基于交互界面的对话方法的流程图，包括如下步骤：

S11：将用户的对话指令输入至动作执行器；

S12：由所述动作执行器基于对话历史以及图形交互界面判断所述对话指令的操作步骤；

S13：基于所述动作执行器对各操作步骤的执行，控制所述图形交互界面基于执行的各步骤变化；

S14：直至所述各操作步骤完成时，对话生成模块基于完成所述各操作步骤的图形交互界面生成所述对话指令的回复。

在本实施方式中，基于交互界面的对话模型训练后，可以为用户提供服务，如图1右侧为本方法所使用的对话模型。

对于步骤S11，在接收到用户的对话指令后，输入至动作执行器；

对于步骤S12，此时动作执行器会根据对话历史以及当前交互界面判断下一步的操作，例如点击某个组件、输入某些信息或者返回上一界面，这个过程会重复进行。

对于步骤S13，在步骤S12步骤不断的执行过程中，交互界面也会基于操作步骤相应改变。

对于步骤S14，直到完成用户的对话指令或者进行下一步的操作需要用户提供某些信息，此时会进入到对话生成模块，在对话生成模块中，会聚合动作执行过程中从界面获得的信息以此对用户的命令生成回复。

通过该实施方式可以看出，在对话中使用基于交互界面的对话模型，可以服务于手机助手（例如小爱同学、Siri等），可以让手机助手更加智能，使人们的生活变得更加便捷；其次，也可以服务于视障人士、老年人等不便于直接使用手机的人；最后，本方法不仅可以应用于手机界面，在所有支持UI操作的设备上均可以使用本方法，这可以让所有的设备通过一个应用助手进行控制，做到“万物互联”。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于交互界面的对话方法。

图11是本申请另一实施例提供的基于交互界面的对话方法的电子设备的硬件结构示意图，如图11所示，该设备包括：

一个或多个处理器1110以及存储器1120，图11中以一个处理器1110为例。基于交互界面的对话方法的设备还可以包括：输入装置1130和输出装置1140。

处理器1110、存储器1120、输入装置1130和输出装置1140可以通过总线或者其他方式连接，图11中以通过总线连接为例。

存储器1120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于交互界面的对话方法对应的程序指令/模块。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于交互界面的对话方法。

存储器1120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1120可选包括相对于处理器1110远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1130可接收输入的数字或字符信息。输出装置1140可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1120中，当被所述一个或者多个处理器1110执行时，执行上述任意方法实施例中的基于交互界面的对话方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于交互界面的对话方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术作出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于交互界面的对话系统，包括：

动作执行器，用于对输入的对话指令以及图形交互界面语义理解，基于对话历史预测所述对话指令在所述图形交互界面中操作的目标项目和/或滑动方向，得到所述对话指令在所述图形交互界面中预测操作轨迹，作为所述对话指令的操作步骤进行执行，其中，所述动作执行器的训练过程包括：

将对话历史和与所述对话历史相关联的带有基准操作轨迹的图形交互界面中的多个项目作为动作执行器的输入，其中，所述项目包括：文本内容、项目类别，

对所述对话历史和所述文本内容语义理解，基于多个不同的分类器判断在所述图形交互界面中操作的项目类别、目标项目、滑动方向，得到预测操作轨迹，

基于所述基准操作轨迹和所述预测操作轨迹对所述对话系统进行训练，直至所述预测操作轨迹趋近于所述基准操作轨迹；

2.根据权利要求1所述的对话系统，其中，所述多个不同的分类器包括：预测任务、预测目标项目、预测方向分类器。

3.根据权利要求1所述的对话系统，其中，在所述将对话历史和与所述对话历史相关联的带有基准操作轨迹的图形交互界面中的多个项目作为动作执行器的输入之前，所述动作执行器的训练过程还包括：收集所述对话历史和与所述对话历史相关联的基准操作轨迹，包括：

4.根据权利要求3所述的对话系统，其中，所述轨迹标注由光学字符识别确定。

5.根据权利要求1所述的对话系统，其中，所述项目类型包括：文本视图、图像视图、线性布局、图像按钮、按钮、编辑文本、切换视图、视图组、选中文本视图、相对布局、网络视图、图像、切换按钮、列表视图、框架布局、单选按钮、复选框。

6.根据权利要求1所述的对话系统，其中，所述对话生成模块的编码器与所述动作执行器共享相同的编码器，所述对话生成模块的解码器为多层的transformer解码器。

7.一种基于交互界面的对话方法，应用于包含根据权利要求1-6中任一项所述的对话系统的电子设备，包括：

将用户的对话指令输入至动作执行器，其中，所述动作执行器的训练过程包括：

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求7所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求7所述方法的步骤。