CN117725975A

CN117725975A - 一种决策模型的训练方法、小程序巡检方法及装置

Info

Publication number: CN117725975A
Application number: CN202410177223.9A
Authority: CN
Inventors: 王可; 孟昌华
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-02-08
Filing date: 2024-02-08
Publication date: 2024-03-19

Abstract

本说明书一个或多个实施例公开了一种决策模型的训练方法，包括：获取用户的意图标签，以及用户基于所述意图标签所描述的意图与网页进行交互的交互动作序列；获取用户在执行所述交互动作序列的过程中所交互的网页图像样本；将所述网页图像样本和所述意图标签输入生成模型，得到决策结果；基于所述决策结果和决策标签确定损失函数，来更新所述生成模型的参数，以得到目标决策模型。该方法提供的决策模型能够针对不同的小程序进行自动化决策，以快速生成巡检路径。相应地，本说明书还公开了决策模型的训练装置、小程序巡检方法及装置。

Description

一种决策模型的训练方法、小程序巡检方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种决策模型的训练方法、小程序巡检方法及装置。

背景技术

小程序巡检是指从进入小程序开始到找到目标页面的中间过程，通过小程序巡检，可以发现小程序中存在的风险。目前对于小程序的巡检需要根据不同的业务需求，对不同的小程序做定制化巡检脚本，实现起来时间成本非常高。

发明内容

本说明书一个或多个实施例描述了一种决策模型的训练方法、小程序巡检方法及装置，该方法提供的决策模型能够针对不同的小程序进行自动化决策，以快速生成巡检路径。

第一方面，提供了一种决策模型的训练方法，包括：

获取用户的意图标签，以及用户基于所述意图标签所描述的意图与网页进行交互的交互动作序列；

获取用户在执行所述交互动作序列的过程中所交互的网页图像样本；

将所述网页图像样本和所述意图标签输入生成模型，得到决策结果；

基于所述决策结果和决策标签确定损失函数，来更新所述生成模型的参数，以得到目标决策模型；所述决策标签是根据所述交互动作序列中的每一个交互动作及该交互动作在所述网页图像样本中的操作对象来确定的。

作为第一方面所述方法的一种可选方式，该训练方法还包括：

将用户的意图指令和真实小程序的页面图像输入所述决策模型；

基于所述决策模型针对所述页面图像的决策结果，执行与所述小程序的交互操作，并获取交互数据；

从所述交互数据中选择成功到达所述意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新所述目标决策模型的参数。

作为第一方面所述方法的一种可选方式，所述生成模型包括编码器和生成器；将所述网页图像样本和所述意图标签输入生成模型，得到决策结果，具体包括：

将所述网页图像样本输入所述编码器，得到环境表征；

将所述环境表征和所述意图标签输入生成器，得到所述决策结果。

具体来说，所述编码器为多模态大模型，所述生成器为大语言模型；将所述环境表征和所述意图标签输入生成器，得到所述决策结果，具体包括：

将所述环境表征转换为自然语言形式的文本特征；

将所述文本特征与所述意图标签输入所述生成器，得到文本形式的决策结果；所述文本形式的决策结果用于表征在所述网页图像样本中的操作对象和对所述操作对象执行的交互动作。

第二方面，提供了一种小程序巡检方法，包括：

将目标小程序的页面图像和用户设置的意图指令输入决策模型；所述决策模型是采用上述的决策模型的训练方法训练得到的；

基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，直至到达所述意图指令指定的目标页面。

作为第二方面所述方法的一种可选实施方式，基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，具体包括：

对于所述决策模型输出的每一个决策结果，将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当所述决策结果与所述业务逻辑规则冲突时，执行所述业务逻辑规则规定的操作。

作为第二方面所述方法的一种可选实施方式，该巡检方法还包括：

保存巡检过程中基于所述决策模型输出的决策结果所确定的每一条巡检路径；

对于具有相同的起始页面和目标页面的巡检路径，通过剪枝操作去除冗余步骤，以得到至少一个最短巡检路径。

具体来说，上述巡检方法还可以包括：

根据所述最短巡检路径，生成巡检脚本。

第三方面，提供了一种决策模型的训练装置，该训练装置包括：

第一数据获取模块，配置为获取用户的意图标签、用户基于所述意图标签所描述的意图与网页进行交互的交互动作序列，以及用户在执行所述交互动作序列的过程中所交互的网页图像样本；

处理模块，配置为将所述网页图像样本和所述意图标签输入生成模型，得到决策结果；基于所述决策结果和决策标签确定损失函数，来更新所述生成模型的参数，以得到目标决策模型；所述决策标签是根据所述交互动作序列中的每一个交互动作及该交互动作在所述网页图像样本中的操作对象来确定的。

作为第三方面所述装置的一种可选实施方式，该训练装置还可以包括：

第二数据获取模块，配置为获取用户的意图指令和真实小程序的页面图像；

优化模块，配置为将所述第二数据获取模块获取的所述意图指令和所述页面图像输入所述决策模型；基于所述决策模型针对所述页面图像的决策结果，执行与所述小程序的交互操作，并获取交互数据；从所述交互数据中选择成功到达所述意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新所述目标决策模型的参数。

第四方面，提供了一种小程序巡检装置，该巡检装置包括：

第三数据获取模块，配置为获取目标小程序的页面图像和用户设置的意图指令；

决策生成模块，配置为将所述目标小程序的页面图像和所述意图指令输入决策模型，得到决策结果；所述决策模型是采用上述的决策模型的训练方法训练得到的；

交互模块，配置为基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，直至到达所述意图指令指定的目标页面。

作为第四方面所述装置的一种可选实施方式，所述交互模块具体还用于对于所述决策模型输出的每一个决策结果，将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当所述决策结果与所述业务逻辑规则冲突时，执行所述业务逻辑规则规定的操作。

作为第四方面所述装置的一种可选实施方式，该巡检装置还可以包括：

巡检路径生成模块，配置为保存巡检过程中基于所述决策模型输出的决策结果所确定的每一条巡检路径；对于具有相同的起始页面和目标页面的巡检路径，通过剪枝操作去除冗余步骤，以得到至少一个最短巡检路径。

具体来说，该巡检装置还可以包括：

巡检脚本生成模块，配置为根据所述最短巡检路径，生成巡检脚本。

第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的决策模型的训练方法，或者，实现上述的小程序巡检方法。

第六方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述的决策模型的训练方法，或者，执行上述的小程序巡检方法。

本说明书的一个或多个实施例所提供的一种决策模型的训练方法，该方法通过收集大量具有意图标签的用户与小程序交互的行为数据，训练了一个生成大模型，并将其作为巡检过程中的决策模型，从而实现自动化巡检。该决策模型能够针对不同的巡检意图和不同的小程序自动化地快速生成巡检决策，能够节省大量时间成本。

本说明书的一个或多个实施例所提供的决策模型的训练装置、小程序巡检方法及装置同样具有上述有益效果。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性地显示了本说明书一个或多个实施例提供的一种决策模型的训练方法的流程示意图。

图2示例性地显示了本说明书一个或多个实施例提供的一种决策模型的网络结构示意图。

图3示例性地显示了本说明书一个或多个实施例提供的一种小程序巡检方法的流程示意图。

图4示例性地显示了本说明书一个或多个实施例提供的一种决策模型的训练装置的结构示意图。

图5示例性地显示了本说明书一个或多个实施例提供的一种决策模型的训练装置中的决策模型优化模块的结构示意图。

图6示例性地显示了本说明书一个或多个实施例提供的一种小程序巡检装置的结构示意图。

图7示例性地显示了本说明书一个或多个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

小程序巡检是指从进入小程序开始到找到目标页面的中间过程，通过小程序巡检，可以发现小程序中存在的风险。目前对于小程序的巡检需要根据不同的业务需求，对不同的小程序做定制化巡检脚本，获取业务指定的小程序页面以满足业务目的（比如查看支付流程是否正常、页面是否完整等）。但是，这种通过对不同小程序编写不同的巡检流程以实现对指定的小程序进行定向巡检的方案，实现起来时间成本非常高。

因此亟需一种新的巡检脚本构造方案，能够自动化地根据不同的业务需求快速生成巡检脚本。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

下面将结合说明书附图和具体的实施例来对本说明书实施例所述的一种决策模型的训练方法、小程序巡检方法及装置进行进一步地详细说明，但是该详细说明不构成对本说明书实施例的限制。

在一些实施例中，提供一种决策模型的训练方法，请参考图1，该训练方法包括步骤S100-S104。

S100：获取用户的意图标签，以及用户基于该意图标签所描述的意图与网页进行交互的交互动作序列和用户在执行上述交互动作序列的过程中所交互的网页图像样本。

上述的意图标签是指用户与网页进行的交互的目的，例如完成支付操作的一组交互动作序列，则支付操作是该组交互动作序列的意图标签，又例如在店铺中选择一件目标商品并加入购物车，则添加商品进购物车是该组交互动作序列的意图标签。

上述的交互动作是指用户对网页页面中操作对象的操作动作，例如，在地址栏填写用户地址，则地址栏是操作对象，而填写/输入用户地址操作是对该操作对象的操作动作。又例如，在商品页面中打开某个目标商品的详细介绍，则该目标商品的图标（点击该图标可以跳转至该目标商品的详情信息页面）或者详情信息页跳转按钮是操作对象，点击操作是对该操作对象的操作动作。

上述的网页图像样本是指在执行上述交互动作序列的过程中，从开始页面到结束页面的所有网页图像。

在本步骤中，可以将每一组交互动作序列对应的网页图像样本作为训练样本输入生成模型，将意图标签作为提示信息输入生成模型，将该组交互动作序列中每一个交互动作对应的操作对象和操作动作作为对应的网页图像样本的决策标签。

S102：将网页图像样本和意图标签输入生成模型，得到决策结果。

在将每一组交互动作序列对应的网页图像样本和相应的意图标签输入生成模型后，生成模型会对每一个网页图像样本输出至少一个决策结果，该决策结果用于表征对于该网页图像样本，生成模型预测的操作对象和操作动作。

S104：基于决策结果和决策标签确定损失函数，来更新生成模型的参数，以得到目标决策模型。

上述的决策标签是根据交互动作序列中的每一个交互动作及该交互动作在相应的网页图像样本中的操作对象来确定的。具体来说，对于一组交互动作，若该组交互动作具有n个交互动作，且每个交互动作都会产生一次网页页面跳转，则包括起始页面在内，该组交互动作共计会产生n+1个网页页面，对于前n个网页页面，每个网页页面都具有一个决策标签，该决策标签用于表征该网页页面上的操作对象（例如按钮、地址栏等）和操作动作（例如点击、滑动、输入/填写等）。

因此，当生成模型输出决策结果后，每个决策结果都会有对应的决策标签，通过对决策标签和决策结果之间的差距进行回归，即可更新上述生成模型的参数，以得到满足预设条件的决策模型。

可以用损失函数描述对决策标签和决策结果之间的差距，损失函数的选取可以根据需求进行自适应选择，本实施例对此不作限制。

此外，上述的满足预设条件具体可以指对上述生成模型的更新次数达到预设的迭代次数阈值，也可以指损失函数的值小于预设的阈值。

由上述模型训练方法可知，本说明书实施例所述的决策模型的训练方法通过收集大量具有意图标签的用户与小程序交互的行为数据，训练了一个生成大模型，并将其作为巡检过程中的决策模型，从而实现自动化巡检。该决策模型能够针对不同的巡检意图和不同的小程序自动化地快速生成巡检决策，能够节省大量时间成本。

为更好的阐述上述决策模型的训练方法，下面将结合具体实施场景来进行阐述。

请参考图2，图2示意性地给出了一种决策模型的结构示意图，该决策模型包括编码器201和生成器202。编码器201用于将输入的网页图像样本编码为环境表征。生成器202则用于基于环境表征和意图标签生成决策结果。

在一些可能的实施方式中，上述的编码器201可以采用预训练的多模态大模型（MLLM）实现，上述的生成器202可以采用大语言模型（LLM）实现。

具体来说，可以通过预先收集的海量网页数据，例如网页截图、dom结构等，对多模态大模型进行预训练。

在对上述的多模态大模型进行预训练时，可以在多模态大模型的输出端接入一个生成网络模型，训练过程可以采用以下方式：

将原始网页图像输入多模态大模型，得到预测出的环境表征；

将多模态大模型预测出的环境表征输入生成网络模型，得到生成图像；

基于生成图像和原始网页图像的差距构建生成损失函数，通过生成损失函数对多模态大模型的参数进行更新，从而使得多模态大模型对于原始网页图像的特征编码更接近该原始网页图像的实际环境表征。

在完成对上述多模态大模型的预训练之后，得到一个环境表征模型，这个环境表征模型可以分析网页截图数据，将非结构化的网页截图数据转化为环境表征。

由于大语言模型（LLM）的输入需要是文本数据，因此，还需要将多模态大模型输出的环境表征转换为自然语言形式的文本特征，同样的，也需要将意图标签转换为自然语言形式的意图描述文本。例如，意图描述文本可以是：本次操作的目的是随意购买一件商品，并到达最终的支付页面。由环境表征转换得到的自然语言形式的文本可以是：当前页面为商品页，页面上有商品按钮1，商品按钮2，商品按钮3和确认按钮；历史已点击过登陆页面的登陆按钮、商品页面的咖啡按钮。所以本步骤应该__”。大语言模型（LLM）的决策结果则是点击提示语中给定的某个按钮。

则对于图2所示的决策模型，可以采用以下方法进行训练：

将网页图像样本输入多模态大模型，得到环境表征；

将环境表征转换为自然语言形式的描述文本；

将自然语言形式的意图标签和描述文本输入大语言模型，得到文本形式的决策结果；

将文本形式的决策结果映射到决策标签的特征空间中，以得到该文本形式的决策结果与相应的决策标签之间的差距，基于该差距构建的损失函数，微调大语言模型的参数，直至得到目标决策模型。

由上述内容可知，在图2所示的决策模型的训练过程中，通过预训练的多模态大模型（MLLM）将图像模态用语言精准描述给大语言模型（例如LLaMA、chatGLM等)，再用对应的意图标签和训练样本数据对其进行微调，可以用较少的成本实现一个有决策能力的决策模型。

在一些更具体的实施方式中，还可以通过决策模型与真实环境交互的结果，来优化决策模型的参数，提升模型表现。

以图2所示的决策模型的结构为例，在具体实施时，可以通过构建一个接口或者处理模块作为智能体，来执行决策模型输出的决策结果。在交互过程中，可以将用户的意图指令和真实小程序的页面图像输入微调后的决策模型，然后将决策模型输出的文本形式的决策结果转换为能够被上述处理模块或者接口理解并执行的交互指令，再将交互指令传输给上述的处理模块或者接口，以使处理模块或者接口执行该交互指令，与真实的小程序进行交互。

具体来说，可以用过训练一个文本翻译模型将决策模型输出的文本形式的决策结果转换为能够被上述处理模块或者接口理解并执行的交互指令，这个文本翻译模型可以采用但不限于正则匹配规则模型、大预言模型LLM等。

在智能体与真实小程序的交互过程中，有可能会存在一些错误的、重复的、冗余的决策，导致无法到达用户的意图指令所指定的目标页面。因此，可以从交互数据中选择成功到达该意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新上述决策模型的参数，以完成决策模型的参数优化。

在一些实施例中，还提供了一种小程序巡检方法，请参考图3，该训练方法包括步骤S300-S302：

S300：将目标小程序的页面图像和用户设置的意图指令输入决策模型。

S302：基于决策模型针对该目标小程序的页面图像的每一个决策结果，执行与该目标小程序的交互操作，直至到达意图指令指定的目标页面。

在上述小程序巡检方法中，所述的决策模型是采用上述的决策模型训练方法得到的。

在一些场景中，当决策模型完成用户的意图指令所指定的巡检过程后，还可能会存在以下问题：

问题1：巡检过程中，基于决策模型的决策结果走过的路径并不是最优路径，从而存在资源的浪费。

问题2：巡检过程如果完全交给决策模型，则整个流程有可能不可控，一旦决策模型决策失误，无法纠正。

问题3：探索结果无法稳定复现。

针对上述问题1，可以采用剪枝操作来优化巡检路径，具体可以采用以下方式：

保存巡检过程中基于决策模型输出的决策结果所确定的每一条巡检路径；

对于具有相同的起始页面和目标页面的巡检路径，通过剪枝操作去除冗余、错误、或者重复的步骤，以得到至少一个最短巡检路径。

针对上述问题2，可以采用设置高优先级的业务逻辑规则的方式，例如：

对于决策模型输出的每一个决策结果，可以将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当决策结果与业务逻辑规则发生冲突时，执行业务逻辑规则规定的操作。这些业务逻辑规则可以根据需求进行自适应设置，本实施例对此不作限制。例如，可以将业务逻辑规则设置为：当界面报错时，停止执行；当需要输入敏感信息（用户名）时，上报该行为，停止执行；如果小程序需要授权才可运行，则需要优先满足授权条件，等等。

针对上述问题3，可以采用以下方式：

将经过剪枝操作的最短巡检路径生成为巡检脚本并保存，以便复用。

在一些实施例中，还提供了一种决策模型的训练装置。请参考图4，图4示例性的显示了一种决策模型的训练装置，可以用于实现该决策模型的训练方法。需要说明的是，本申请的一个或多个实施例所述的决策模型的训练方法，可以依赖图4所示的决策模型的训练装置实现，但不限于该决策模型的训练装置。

如图4所示，该决策模型的训练装置包括：

第一数据获取模块401，配置为获取用户的意图标签、用户基于意图标签所描述的意图与网页进行交互的交互动作序列，以及用户在执行交互动作序列的过程中所交互的网页图像样本。

处理模块402，配置为将网页图像样本和意图标签输入生成模型，得到决策结果；基于决策结果和决策标签确定损失函数，来更新生成模型的参数，以得到目标决策模型。

对于第一数据获取模块401，其获取的意图标签用于表征用户与网页进行的交互的目的，例如完成支付操作的一组交互动作序列，则支付操作是该组交互动作序列的意图标签，又例如在店铺中选择一件目标商品并加入购物车，则添加商品进购物车是该组交互动作序列的意图标签。

其获取的交互动作序列是指用户为了完成某个意图而与小程序进行的一系列交互动作，具体来说，上述的交互动作是指用户对网页页面中操作对象的操作动。例如，在地址栏填写用户地址，则地址栏是操作对象，而填写/输入用户地址操作是对该操作对象的操作动作。又例如，在商品页面中打开某个目标商品的详细介绍，则该目标商品的图标（点击该图标可以跳转至该目标商品的详情信息页面）或者详情信息页跳转按钮是操作对象，点击操作是对该操作对象的操作动作。

对于处理模块402，其主要用于完成对生成模型的训练，以得到决策模型。具体来说，在将每一组交互动作序列对应的网页图像样本和相应的意图标签输入生成模型后，生成模型会对每一个网页图像样本输出至少一个决策结果，该决策结果用于表征对于该网页图像样本，生成模型预测的操作对象和操作动作。

在训练过程中采用的决策标签是根据交互动作序列中的每一个交互动作及该交互动作在相应的网页图像样本中的操作对象来确定的。具体来说，对于一组交互动作，若该组交互动作具有n个交互动作，且每个交互动作都会产生一次网页页面跳转，则包括起始页面在内，该组交互动作共计会产生n+1个网页页面，对于前n个网页页面，每个网页页面都具有一个决策标签，该决策标签用于表征该网页页面上的操作对象（例如按钮、地址栏等）和操作动作（例如点击、滑动、输入/填写等）。

当生成模型输出决策结果后，每个决策结果都会有对应的决策标签，通过对决策标签和决策结果之间的差距进行回归，处理模块402即可更新上述生成模型的参数，以得到满足预设条件的决策模型。

在一些实施方式中，上述决策模型的训练装置还可以包括决策模型优化模块，请参考图5，该决策模型优化模块可以包括：

第二数据获取模块501，配置为获取用户的意图指令和真实小程序的页面图像。

优化模块502，配置为将第二数据获取模块501获取的意图指令和页面图像输入决策模型；基于决策模型针对页面图像的决策结果，执行与真实小程序的交互操作，并获取交互数据；从交互数据中选择成功到达意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新目标决策模型的参数。

上述的优化模块502可以理解为一个智能体，其具体可以通过构建一个接口或者处理模块来实现，来执行决策模型输出的决策结果。以图2所示的决策模型为例，在优化模块502与真实小程序的交互过程中，可以将用户的意图指令和真实小程序的页面图像输入决策模型，然后将决策模型输出的文本形式的决策结果转换为能够被优化模块502理解并执行的交互指令，再将交互指令传输给优化模块502，以使优化模块502执行该交互指令，与真实的小程序进行交互。

更具体的，可以用过训练一个文本翻译模型将决策模型输出的文本形式的决策结果转换为能够被优化模块502理解并执行的交互指令，这个文本翻译模型可以采用但不限于正则匹配规则模型、大预言模型LLM等。

在优化模块502与真实小程序的交互过程中，有可能会存在一些错误的、重复的、冗余的决策，导致无法到达用户的意图指令所指定的目标页面。因此，可以从交互数据中选择成功到达该意图指令所指定的目标页面的路径作为正反馈，将其余路径作为负反馈，基于强化学习的策略，更新上述决策模型的参数，以完成决策模型的参数优化。

下面以上述的训练装置包括第一数据获取模块401和处理模块402为例，阐述该训练装置的可实现方式。在实际操作中，第一数据获取模块401和处理模块402均可以通过软件实现，或者可以通过硬件实现。示例性的，接下来以第一数据获取模块401为例，介绍第一数据获取模块401的实现方法。类似的，处理模块402的实现方式可以参考第一数据获取模块401的实现方式。

模块作为软件功能单元的一种举例，第一数据获取模块401可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，第一数据获取模块401可以包括运行在多个主机/虚拟机/容器上的代码。用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

同样，用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个region内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

模块作为硬件功能单元的一种举例，第一数据获取模块401可以包括至少一个计算设备，如服务器等。或者，第一数据获取模块401也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

第一数据获取模块401包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。第一数据获取模块401包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，第一数据获取模块401包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

在其他实施例中，第一数据获取模块401可以用于执行上述决策模型的训练方法中的任意步骤，处理模块402可以用于执行上述决策模型的训练方法中的任意步骤。

第一数据获取模块401和处理模块402负责实现的步骤可根据需要指定，通过第一数据获取模块401和处理模块402分别实现上述决策模型的训练方法中不同的步骤来实现该决策模型的训练装置的全部功能。

本实现方式中，该决策模型的训练装置也可以应用于电脑、服务器等计算设备中，或者应用于包括至少一个计算设备的计算设备集群中，以实现决策模型的训练功能。

在一些实施例中，还提供了一种小程序巡检装置。请参考图6，图6示例性的显示了一种小程序巡检装置的结构示意图，可以用于实现该上述的小程序巡检方法。需要说明的是，本申请的一个或多个实施例所述的小程序巡检方法，可以依赖图6所示的小程序巡检装置实现，但不限于该小程序巡检装置。

如图6所示，该小程序巡检装置包括：

第三数据获取模块601，配置为获取目标小程序的页面图像和用户设置的意图指令。

决策生成模块602，配置为将目标小程序的页面图像和意图指令输入决策模型，得到决策结果；此处的决策模型是上述的决策模型的训练方法训练得到的。

交互模块603，配置为基于决策模型针对目标小程序的页面图像的每一个决策结果，执行与目标小程序的交互操作，直至到达意图指令指定的目标页面。

问题3：探索结果无法稳定复现。

针对上述问题1，在一些实施方式中，上述的小程序巡检装置还可以包括巡检路径生成模块，配置为保存巡检过程中基于决策模型输出的决策结果所确定的每一条巡检路径；对于具有相同的起始页面和目标页面的巡检路径，通过剪枝操作去除冗余步骤，以得到至少一个最短巡检路径。

针对上述问题2，在一些实施方式中，上述的交互模块603具体还用于对于决策模型输出的每一个决策结果，将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当决策结果与业务逻辑规则冲突时，执行业务逻辑规则规定的操作。这些业务逻辑规则可以根据需求进行自适应设置，本实施例对此不作限制。例如，可以将业务逻辑规则设置为：当界面报错时，停止执行；当需要输入敏感信息（用户名）时，上报该行为，停止执行；如果小程序需要授权才可运行，则需要优先满足授权条件。

针对上述问题3，在一些实施方式中，上述的巡检装置还可以包括：

巡检脚本生成模块，配置为根据最短巡检路径，生成巡检脚本并保存，以便复用。

模块作为软件功能单元的一种举例，第三数据获取模块601可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，第三数据获取模块601可以包括运行在多个主机/虚拟机/容器上的代码。用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

模块作为硬件功能单元的一种举例，第三数据获取模块601可以包括至少一个计算设备，如服务器等。或者，第三数据获取模块601也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

第三数据获取模块601包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。第三数据获取模块601包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，第三数据获取模块601包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

在其他实施例中，第三数据获取模块601可以用于执行上述小程序巡检方法中的任意步骤，决策生成模块602可以用于执行上述小程序巡检方法中的任意步骤，交互模块603可以用于执行上述小程序巡检方法中的任意步骤。

第三数据获取模块601、决策生成模块602和交互模块603负责实现的步骤可根据需要指定，通过第三数据获取模块601、决策生成模块602和交互模块603分别实现上述小程序巡检方法中不同的步骤来实现该小程序巡检装置的全部功能。

本实现方式中，该小程序巡检装置也可以应用于电脑、服务器等计算设备中，或者应用于包括至少一个计算设备的计算设备集群中，以实现小程序巡检功能。

在一些实施例中，还提供了一种电子设备。请参考图7，该电子设备包括：总线701、处理器702、存储器703和通信接口704。处理器702、存储器703和通信接口704之间通过总线701通信。该电子设备可以是服务器或终端设备。应理解，本申请不限定电子设备中的处理器、存储器的个数。

总线701可以是外设部件互连标准(peripheral component interconnect，PCI)总线，或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线701可包括在电子设备各个部件(例如，处理器702、存储器703和通信接口704)之间传送信息的通路。

处理器702可以包括处理器CPU、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器703可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器703还可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard diskdrive，HDD)或固态硬盘(solid state drive，SSD)。

存储器703中存储有可执行的程序代码，处理器702执行该可执行的程序代码以分别实现前述第一数据获取模块401和处理模块402的功能，即实现前述的决策模型的训练装置的功能，从而实现前述的决策模型的训练方法。或者，存储器703中存储有可执行的程序代码，处理器702执行该可执行的程序代码以分别实现前述第三数据获取模块601、决策生成模块602和交互模块603的功能，即实现前述的小程序巡检装置的功能，从而实现前述的小程序巡检方法。

也即，存储器703上存有用于执行决策模型的训练方法或者小程序巡检方法的指令。

通信接口704使用例如但不限于网络接口卡、收发器一类的收发模块，来实现电子设备与其他设备或通信网络之间的通信。

在一些实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行上述的决策模型的训练方法，或者，实现上述的小程序巡检方法。

计算机可读存储介质可以是电子设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，指令指示电子设备执行模型训练方法。

可以理解的是，本说明书实施例示意的结构并不构成对本说明书实施例的系统的具体限定。在说明书的另一些实施例中，上述系统可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

需要注意的是，以上列举的仅为本发明的具体实施例，显然本发明不限于以上实施例，随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形，均应属于本发明的保护范围。

Claims

1.一种决策模型的训练方法，包括：

2.如权利要求1所述的方法，还包括：

3.如权利要求1所述的方法，所述生成模型包括编码器和生成器；将所述网页图像样本和所述意图标签输入生成模型，得到决策结果，具体包括：

将所述网页图像样本输入所述编码器，得到环境表征；

4.如权利要求3所述的方法，所述编码器为多模态大模型，所述生成器为大语言模型；将所述环境表征和所述意图标签输入生成器，得到所述决策结果，具体包括：

将所述环境表征转换为自然语言形式的描述文本；

将所述描述文本与所述意图标签输入所述生成器，得到文本形式的决策结果；所述文本形式的决策结果用于表征在所述网页图像样本中的操作对象和对所述操作对象执行的交互动作。

5.一种小程序巡检方法，包括：

将目标小程序的页面图像和用户设置的意图指令输入决策模型；所述决策模型是采用权利要求1至4任一项所述的方法训练得到的；

6.如权利要求5所述的方法，基于所述决策模型针对所述目标小程序的页面图像的每一个决策结果，执行与所述目标小程序的交互操作，具体包括：

7.如权利要求5所述的方法，还包括：

8.如权利要求7所述的方法，还包括：

根据所述最短巡检路径，生成巡检脚本。

9.一种决策模型的训练装置，包括：

10.如权利要求9所述的装置，还包括：

11.一种小程序巡检装置，包括：

决策生成模块，配置为将所述目标小程序的页面图像和所述意图指令输入决策模型，得到决策结果；所述决策模型是采用权利要求1至4任一项所述的方法训练得到的；

12.如权利要求11所述的装置，所述交互模块具体还用于对于所述决策模型输出的每一个决策结果，将该决策结果与预先设置的具有更高优先级的业务逻辑规则进行匹配，当所述决策结果与所述业务逻辑规则冲突时，执行所述业务逻辑规则规定的操作。

13.如权利要求11所述的装置，还包括：

14.如权利要求13所述的装置，还包括：

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法，或者，实现如权利要求5至8任一项所述的方法。

16.一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求1至4中任一项所述的方法，或者，执行如权利要求5至8任一项所述的方法。