CN111124916B

CN111124916B - 一种基于动作语义向量的模型训练方法和电子设备

Info

Publication number: CN111124916B
Application number: CN201911337802.0A
Authority: CN
Inventors: 许立鹏; 王晨
Original assignee: Beijing Yunju Intelligent Technology Co ltd
Current assignee: Beijing Testin Information Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-04-07
Anticipated expiration: 2039-12-23
Also published as: CN111124916A

Abstract

本发明公开了一种基于动作语义向量的模型训练方法和电子设备，用以解决预测的动作与应用界面中可执行的动作无法匹配的问题。本申请提供的方案基于测试界面的动作语义向量量化测试界面上可执行的动作，即以动作语义向量表达动作，实现操作界面中可执行的操作与动作语义向量的对应。随后，从多个上述动作语义向量中确定出与第一动作语义向量相对应的目标动作语义向量，能实现预测的测试动作与界面中可执行操作的对应。通过本方案训练得到的模型能从测试界面中可执行的操作中确定出用于触发测试界面跳转至接近于目标状态的操作，能实现预测的动作与应用界面中可执行的动作相匹配。

Description

一种基于动作语义向量的模型训练方法和电子设备

技术领域

本发明涉及机器学习领域，尤其涉及一种基于动作语义向量的模型训练方法。

背景技术

在应用测试领域，为了对待测试应用执行自动化测试，往往需要利用预设的测试脚本按照测试路径执行测试步骤。测试过程中通常需要在应用程序中的不同页面之间执行跳转动作。若要合理地对应用程序进行测试，则需要合理规划基于页面状态的跳转动作。但应用程序的页面中结构复杂，难以由脚本根据页面中的内容自动确定要执行的测试操作，预测的动作难以与应用界面中可执行的动作相对应，这就使得自动测试效率低，难以合理地执行跳转。

如何在应用测试中合理地执行跳转动作，是本申请所要解决的技术问题。

发明内容

本申请实施例的目的是提供一种基于动作语义向量的模型训练方法和电子设备，用以解决预测的动作与应用界面中可执行的动作无法匹配的问题。

第一方面，提供了一种基于动作语义向量的模型训练方法，包括：

获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作，所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量；

确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量；

对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作，并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池；

基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数。

第二方面，提供了一种电子设备，包括：

获取模块，获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作，所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量；

确定模块，确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量；

执行模块，对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作，并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池；

训练模块，基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数。

第三方面，提供了一种电子设备，该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面该的方法的步骤。

在本申请实施例中，首先获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，然后确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量，接着对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作，并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池，最后基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数。通过本方案，能基于测试界面的动作语义向量量化测试界面上的语义动作，实现操作界面与动作语义向量的对应。确定出与第一动作语义向量相对应的目标动作语义向量，能实现测试动作与界面中可执行操作的对应。通过训练得到的模型能识别测试界面中可执行的操作并从中确定出用于触发测试界面跳转至目标状态的操作，以进行合理的跳转动作。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1a是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之一；

图1b是说明书实施例提供的Actor-Critic架构示意图；

图2是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之二；

图3是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之三；

图4是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之四；

图5是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之五；

图6是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之六；

图7是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之七；

图8是说明书实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤，不用于限定各个步骤的执行顺序，具体执行顺序以说明书中描述为准。

本实施例提供的方案涉及软件测试、自然语义理解、强化学习、深度学习等领域。其中，软件测试领域对应于本实施例中的移动App测试路径自动发现；自然语言理解领域对应于本实施例中的移动App页面状态语义向量、动作语义向量；强化学习领域对应于本实施例中的确定性策略梯度算法；深度学习领域对应于本实施例中的基于多层感知机的深度循环神经网络及参数优化。

在本实施例中，将移动应用程序(Application，App)测试路径规划问题构造为马尔可夫随机过程。它由一系列时间维度上的离散状态组成，即S₀,S₁,...,S_t，其中下标t表示状态时间片标识，它是随时间连续递增的。每一个马尔可夫状态表达了一个时间片内App页面所处的位置或状态等信息，而马尔可夫状态转移则可以代表App页面之间跳转迁移关系。

移动App测试路径规划任务就是自动探索或寻找最优的基于页面状态和马尔可夫状态转移的跳转动作序列，即a₀,a₁,...,a_t，其中a_t代表在t时间片S_t状态下的执行操作决策。于是，在App页面上逐一执行该序列动作，即可实现完整的智能化测试流程。

另外，本实施例提供的方案涉及强化学习领域，强化学习是人工智能领域用于解决惯序决策问题的方法论，它用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程，它主要包含四个元素：智能体、环境、行动、奖励。

为了解决现有技术中存在的问题，本实施例提供一种基于动作语义向量的模型训练方法，如图1a所示，包括以下步骤：

S11：获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作，所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量；

S12：确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量；

S13：对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作，并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池；

S14：基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数。

本申请提供的方案基于测试界面的动作语义向量量化测试界面上可执行的动作，即以动作语义向量表达动作，实现操作界面中可执行的操作与动作语义向量的对应。随后，从多个上述动作语义向量中确定出与第一动作语义向量相对应的目标动作语义向量，能实现预测的测试动作与界面中可执行操作的对应。通过本方案训练得到的模型能从测试界面中可执行的操作中确定出用于触发测试界面跳转至接近于目标状态的操作，能实现预测的动作与应用界面中可执行的动作相匹配。

本实施例使用了基于值函数和基于策略的Actor-Critic框架，如图1b所示，本实施例采用了确定性策略梯度算法。Actor用于在指定状态下的动作决策，Critic用于评估指定状态下指定动作的价值。Actor和Critic之间具有联动作用，在对Actor最大似然估计时，Critic给出的价值评估将影响Actor参数更新。确定性策略梯度算法为Actor提供了假设基础，即Actor输出动作决策采用确定性策略，而非随机性策略。Actor和Critic都采用基于多层感知机的深度循环神经网络近似，输入为离散时间片上的状态语义向量，Actor输出为指定状态下的动作语义向量，Critic输出为指定状态或动作的Q值。在某状态下做动作决策时，依据Actor输出的动作语义向量，计算与当前状态下可选动作语义向量之间的语义距离，并选择距离最近动作作为最终动作输出。

其中，本实施例步骤S11-S13可以用于采样，而步骤S14可以用于训练Actor-Critic模型以更新网络参数。其中，移动App测试时间步采样可集成利用强化学习工具包，如OpenAI Gym、DeepMind ALE等，本实施例采用了OpenAI Gym。在采样之前，可以首先确定采样策略，具体可以根据Actor网络和噪音确定，随后启动仿真测试环境，然后获取处于第一状态的测试界面S₀，该测试界面可以是被测应用中的某一个界面。

在步骤S11中，具体可以划分为获取处于第一状态的测试界面的第一动作语义向量以及获取第一状态的测试界面的可操作动作表达集合这两个子步骤。其中，在获取处于第一状态的测试界面的第一动作语义向量的步骤中，可以采用预设生成算法表达处于第一状态的App测试界面状态，得到第一动作语义向量，该第一动作语义向量可以表示为a_i。较优的，如图2所示，上述步骤S11，获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，包括以下步骤：

S21：根据预设采样策略确定用于触发所述测试界面从第一状态跳转至目标状态的操作相对应的第一动作语义向量。

通过上述步骤S21能获取处于第一状态的测试界面的第一动作语义向量，上述预设采样策略可以根据测试界面或被测App的实际情况预先设定。举例来说，可以基于第一状态的测试界面中的文字、图片等信息生成第一动作语义向量。第一动作语义向量对应于一个操作，该操作能使测试界面从第一状态跳转至目标状态。

另外，本实施例获取第一状态的测试界面的可操作动作表达集合的步骤，可以用于确定处于第一状态的测试界面中可操作的动作，以便随后将这些动作与第一动作语义向量所对应的动作进行比较和筛选。较优的，如图3所示，上述步骤S11，获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，包括以下步骤：

S31：获取测试界面中的UI控件树信息；

S32：根据所述UI控件树信息确定所述测试界面中可执行的操作；

S33：基于所述测试界面中可执行的操作，通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量；

S34：根据所述可操作动作语义向量确定可操作动作表达集合。

其中，UI可以指用户界面(User Interface)，通过UI控件树信息可以快速准确地获取到测试界面中的层次关系。基于测试界面中的UI控件树信息即可确定测试界面中可执行的操作。对于确定的这些操作，可以通过预设自然语言理解模型确定相对应的动作语义向量。在后文将提供一种具体的确定可操作动作语义向量的方法，但本步骤并不限于此种方法，也可以利用其他自然语言理解模型确定测试界面中可执行的操作相对应的可操作动作语义向量。在确定可操作动作语义向量之后，根据这些可操作动作语义向量确定可操作动作表达集合，其中，可操作动作表达集合中包括至少一个上述可操作动作语义向量，该可操作动作表达集合可以用于表征测试界面中可执行的各种操作。

基于上述实施例提供的方法，较优的，如图4所示，上述步骤S33，基于所述测试界面中可执行的操作，通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量，包括：

S41：通过预训练语言模型构建与测试界面中可执行操作相对应的词向量；

S42：根据各所述词向量和相对应的特征权重值加权确定所述可执行操作相对应的可操作动作语义向量。

在步骤S41中，预训练语言模型可以根据实际情况预先设定，在本实施例中，较优的，如图5所示，上述步骤S41，通过预训练语言模型构建与测试界面中可执行操作相对应的词向量，包括以下步骤：

S51：通过BERT语言模型构建与测试界面中可执行操作相对应的词向量。

在本实施例中，采用BERT语言模型构建上述词向量，具体的，可以使用Bert预训练模型直接生成动作表达特征，并利用该特征空间计算动作语义距离指导动作选择。Bert(Bidirectional Encoder Representations from Transformers)是2018年由谷歌提出的用于自然语言理解的预训练模型。它已经基于海量、泛领域文本语料库预训练出的网络模型参数，可帮助简化专有领域语言模型构建工作。本专利使用Bert模型生成动作文本中各个词向量，它由768维特征组成。本实施例构建的词向量能够用于表达测试界面，对这些用于表达测试界面的词向量，在步骤S42中可以结合各词向量对应的特征权重值加权确定可执行操作相对应的可操作动作语义向量，以对可执行操作实现准确的表达。

在本步骤中，以BERT模型为工具，获取目标状态的测试界面s_i的动作空间下所有动作语义向量表示a＝{a_i1,a_i2,…,a_in}，其中集合中的每一项用于表征可操作动作语义向量。

基于上述实施例提供的方法，较优的，如图6所示，上述步骤S12，确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量，包括以下步骤：

S61：基于预设距离度量标准确定所述第一动作语义向量与所述可操作动作表达集合中的至少一项可操作动作语义向量的距离；

S62：将距离所述第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。

在步骤S61中，预设距离度量标准可以根据实际情况预先设定，举例来说，可以利用余弦距离公式确定第一动作语义向量与可操作动作表达集合中的至少一项可操作动作语义向量的距离，当然，也可以采用其他适用于实际情况的距离度量标准来确定上述距离。其中，确定的距离可以表征可操作动作表达集合中的各个可操作动作语义向量与第一动作语义向量的匹配程度，距离越短匹配程度越高。在本步骤S62中，将可操作动作表达集合中距离第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。该目标动作语义向量可以用于表征第一动作语义向量。

具体来说，对处于第一状态的测试界面执行目标动作语义向量相对应的操作，则可以使测试界面从第一状态跳转至接近于目标状态。如果第一动作语义向量与目标动作语义向量距离为0，则对处于第一状态的测试界面执行目标动作语义向量相对应的操作能使测试界面跳转至目标状态。通过本实施例提供的上述方案，能从可操作动作表达集合中确定与第一动作语义向量最接近的可操作动作语义向量作为目标动作语义向量。

在确定目标动作语义向量之后，在步骤S13中，对处于第一状态的测试界面执行与目标动作语义向量相对应的目标操作，通常情况下，测试界面将从第一状态跳转至与目标状态相接近的状态。在执行上述操作之后，将第一状态的测试界面s_i、被执行目标操作后的测试界面s_i+1、目标动作语义向量a_i及奖励值r_i作为一条短轨迹(s_i,a_i,r_i,s_i+1)存储在经验池中，以供Actor-Critic模型随后更新网络参数。其中，目标动作语义向量是所述可操作动作表达集合中与所述第一动作语义向量相对应的动作语义向量。在存储一条短轨迹之后，可以将测试界面S_i+1作为新的测试界面继续执行上述步骤，以在经验池中存储更多的短轨迹。

基于上述实施例提供的方法，较优的，如图7所示，上述步骤S14，基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数，包括：

S71：基于所述短轨迹训练模型的Critic网络通过梯度下降法更新Critic网络参数；

S72：训练模型的Actor网络根据Critic网络的梯度以及策略梯度更新Actor网络参数。

通过上述实施例提供的方案，经验池中能存储至少一条短轨迹，在本步骤中，可以在经验池中的数据达到一定数量时，进行随机选取经验样本开始训练模型。在步骤S71中，基于选取的每一条短轨迹，Critic网络可以通过小批量或随机梯度下降方法更新网络参数。随后，Actor网络通过Critic网络中计算出的梯度以及策略梯度更新策略网络的参数。较优的，目标策略网络与目标Q网络实行软更新，即以较小的幅度更新网络参数。随后，可以根据更新后的Actor网络更新采样策略，继续进行新一轮的采样。

本实施例提供的方案利用动作语义向量的方式将动作空间扩展到连续空间中，不再局限于离散的动作空间，且通过语义向量距离度量的方式将深度神经网络学习到的动作语义向量与App页面中的动作进行了映射，实现了强化学习中的深度确定性策略梯度方法在App测试领域的应用。

为了解决现有技术中的问题，如图8所示，本实施例还提供一种电子设备80，包括：

获取模块81，获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作，所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量；

确定模块82，确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量；

执行模块83，对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作，并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池；

训练模块84，基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数。

基于上述实施例提供的电子设备，较优的，所述获取模块81用于：

根据预设采样策略确定用于触发所述测试界面从第一状态跳转至目标状态的操作相对应的第一动作语义向量。

基于上述实施例提供的电子设备，较优的，所述获取模块81，用于：

获取测试界面中的UI控件树信息；

根据所述UI控件树信息确定所述测试界面中可执行的操作；

基于所述测试界面中可执行的操作，通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量；

根据所述可操作动作语义向量确定可操作动作表达集合。

通过预训练语言模型构建与测试界面中可执行操作相对应的词向量；

根据各所述词向量和相对应的特征权重值加权确定所述可执行操作相对应的可操作动作语义向量。

通过BERT语言模型构建与测试界面中可执行操作相对应的词向量。

基于上述实施例提供的电子设备，较优的，所述确定模块82，用于：

基于预设距离度量标准确定所述第一动作语义向量与所述可操作动作表达集合中的至少一项可操作动作语义向量的距离；

将距离所述第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。

基于上述实施例提供的电子设备，较优的，所述训练模块84，用于：

基于所述短轨迹训练模型的Critic网络通过梯度下降法更新Critic网络参数；

训练模型的Actor网络根据Critic网络的梯度以及策略梯度更新Actor网络参数。

通过本实施例提供的电子设备，能首先获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，然后确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量，接着对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作，并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池，最后基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数。本申请提供的方案基于测试界面的动作语义向量量化测试界面上可执行的动作，即以动作语义向量表达动作，实现操作界面中可执行的操作与动作语义向量的对应。随后，从多个上述动作语义向量中确定出与第一动作语义向量相对应的目标动作语义向量，能实现预测的测试动作与界面中可执行操作的对应。通过本方案训练得到的模型能从测试界面中可执行的操作中确定出用于触发测试界面跳转至接近于目标状态的操作，能实现预测的动作与应用界面中可执行的动作相匹配。

优选的，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述一种基于动作语义向量的模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述一种基于动作语义向量的模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于动作语义向量的模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，包括：

3.如权利要求1所述的方法，其特征在于，所述获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合，包括：

获取测试界面中的UI控件树信息；

根据所述UI控件树信息确定所述测试界面中可执行的操作；

根据所述可操作动作语义向量确定可操作动作表达集合。

4.如权利要求3所述的方法，其特征在于，所述基于所述测试界面中可执行的操作，通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量，包括：

5.如权利要求4所述的方法，其特征在于，通过预训练语言模型构建与测试界面中可执行操作相对应的词向量，包括：

6.如权利要求1～5任一项所述的方法，其特征在于，所述确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量，包括：

7.如权利要求1～5任一项所述的方法，其特征在于，基于经验池中的至少一条短轨迹，训练Actor-Critic模型的Actor网络和Critic网络的网络参数，包括：

8.一种电子设备，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。