CN111124916B - 一种基于动作语义向量的模型训练方法和电子设备 - Google Patents

一种基于动作语义向量的模型训练方法和电子设备 Download PDF

Info

Publication number
CN111124916B
CN111124916B CN201911337802.0A CN201911337802A CN111124916B CN 111124916 B CN111124916 B CN 111124916B CN 201911337802 A CN201911337802 A CN 201911337802A CN 111124916 B CN111124916 B CN 111124916B
Authority
CN
China
Prior art keywords
action
semantic vector
test interface
state
operable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911337802.0A
Other languages
English (en)
Other versions
CN111124916A (zh
Inventor
许立鹏
王晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Testin Information Technology Co Ltd
Original Assignee
Beijing Yunju Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunju Intelligent Technology Co ltd filed Critical Beijing Yunju Intelligent Technology Co ltd
Priority to CN201911337802.0A priority Critical patent/CN111124916B/zh
Publication of CN111124916A publication Critical patent/CN111124916A/zh
Application granted granted Critical
Publication of CN111124916B publication Critical patent/CN111124916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于动作语义向量的模型训练方法和电子设备,用以解决预测的动作与应用界面中可执行的动作无法匹配的问题。本申请提供的方案基于测试界面的动作语义向量量化测试界面上可执行的动作,即以动作语义向量表达动作,实现操作界面中可执行的操作与动作语义向量的对应。随后,从多个上述动作语义向量中确定出与第一动作语义向量相对应的目标动作语义向量,能实现预测的测试动作与界面中可执行操作的对应。通过本方案训练得到的模型能从测试界面中可执行的操作中确定出用于触发测试界面跳转至接近于目标状态的操作,能实现预测的动作与应用界面中可执行的动作相匹配。

Description

一种基于动作语义向量的模型训练方法和电子设备
技术领域
本发明涉及机器学习领域,尤其涉及一种基于动作语义向量的模型训练方法。
背景技术
在应用测试领域,为了对待测试应用执行自动化测试,往往需要利用预设的测试脚本按照测试路径执行测试步骤。测试过程中通常需要在应用程序中的不同页面之间执行跳转动作。若要合理地对应用程序进行测试,则需要合理规划基于页面状态的跳转动作。但应用程序的页面中结构复杂,难以由脚本根据页面中的内容自动确定要执行的测试操作,预测的动作难以与应用界面中可执行的动作相对应,这就使得自动测试效率低,难以合理地执行跳转。
如何在应用测试中合理地执行跳转动作,是本申请所要解决的技术问题。
发明内容
本申请实施例的目的是提供一种基于动作语义向量的模型训练方法和电子设备,用以解决预测的动作与应用界面中可执行的动作无法匹配的问题。
第一方面,提供了一种基于动作语义向量的模型训练方法,包括:
获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作,所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量;
确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量;
对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池;
基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。
第二方面,提供了一种电子设备,包括:
获取模块,获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作,所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量;
确定模块,确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量;
执行模块,对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池;
训练模块,基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。
第三方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面该的方法的步骤。
在本申请实施例中,首先获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,然后确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量,接着对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池,最后基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。通过本方案,能基于测试界面的动作语义向量量化测试界面上的语义动作,实现操作界面与动作语义向量的对应。确定出与第一动作语义向量相对应的目标动作语义向量,能实现测试动作与界面中可执行操作的对应。通过训练得到的模型能识别测试界面中可执行的操作并从中确定出用于触发测试界面跳转至目标状态的操作,以进行合理的跳转动作。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1a是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之一;
图1b是说明书实施例提供的Actor-Critic架构示意图;
图2是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之二;
图3是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之三;
图4是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之四;
图5是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之五;
图6是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之六;
图7是说明书实施例提供的基于动作语义向量的模型训练方法流程示意图之七;
图8是说明书实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
本实施例提供的方案涉及软件测试、自然语义理解、强化学习、深度学习等领域。其中,软件测试领域对应于本实施例中的移动App测试路径自动发现;自然语言理解领域对应于本实施例中的移动App页面状态语义向量、动作语义向量;强化学习领域对应于本实施例中的确定性策略梯度算法;深度学习领域对应于本实施例中的基于多层感知机的深度循环神经网络及参数优化。
在本实施例中,将移动应用程序(Application,App)测试路径规划问题构造为马尔可夫随机过程。它由一系列时间维度上的离散状态组成,即S0,S1,...,St,其中下标t表示状态时间片标识,它是随时间连续递增的。每一个马尔可夫状态表达了一个时间片内App页面所处的位置或状态等信息,而马尔可夫状态转移则可以代表App页面之间跳转迁移关系。
移动App测试路径规划任务就是自动探索或寻找最优的基于页面状态和马尔可夫状态转移的跳转动作序列,即a0,a1,...,at,其中at代表在t时间片St状态下的执行操作决策。于是,在App页面上逐一执行该序列动作,即可实现完整的智能化测试流程。
另外,本实施例提供的方案涉及强化学习领域,强化学习是人工智能领域用于解决惯序决策问题的方法论,它用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程,它主要包含四个元素:智能体、环境、行动、奖励。
为了解决现有技术中存在的问题,本实施例提供一种基于动作语义向量的模型训练方法,如图1a所示,包括以下步骤:
S11:获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作,所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量;
S12:确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量;
S13:对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池;
S14:基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。
本申请提供的方案基于测试界面的动作语义向量量化测试界面上可执行的动作,即以动作语义向量表达动作,实现操作界面中可执行的操作与动作语义向量的对应。随后,从多个上述动作语义向量中确定出与第一动作语义向量相对应的目标动作语义向量,能实现预测的测试动作与界面中可执行操作的对应。通过本方案训练得到的模型能从测试界面中可执行的操作中确定出用于触发测试界面跳转至接近于目标状态的操作,能实现预测的动作与应用界面中可执行的动作相匹配。
本实施例使用了基于值函数和基于策略的Actor-Critic框架,如图1b所示,本实施例采用了确定性策略梯度算法。Actor用于在指定状态下的动作决策,Critic用于评估指定状态下指定动作的价值。Actor和Critic之间具有联动作用,在对Actor最大似然估计时,Critic给出的价值评估将影响Actor参数更新。确定性策略梯度算法为Actor提供了假设基础,即Actor输出动作决策采用确定性策略,而非随机性策略。Actor和Critic都采用基于多层感知机的深度循环神经网络近似,输入为离散时间片上的状态语义向量,Actor输出为指定状态下的动作语义向量,Critic输出为指定状态或动作的Q值。在某状态下做动作决策时,依据Actor输出的动作语义向量,计算与当前状态下可选动作语义向量之间的语义距离,并选择距离最近动作作为最终动作输出。
其中,本实施例步骤S11-S13可以用于采样,而步骤S14可以用于训练Actor-Critic模型以更新网络参数。其中,移动App测试时间步采样可集成利用强化学习工具包,如OpenAI Gym、DeepMind ALE等,本实施例采用了OpenAI Gym。在采样之前,可以首先确定采样策略,具体可以根据Actor网络和噪音确定,随后启动仿真测试环境,然后获取处于第一状态的测试界面S0,该测试界面可以是被测应用中的某一个界面。
在步骤S11中,具体可以划分为获取处于第一状态的测试界面的第一动作语义向量以及获取第一状态的测试界面的可操作动作表达集合这两个子步骤。其中,在获取处于第一状态的测试界面的第一动作语义向量的步骤中,可以采用预设生成算法表达处于第一状态的App测试界面状态,得到第一动作语义向量,该第一动作语义向量可以表示为ai。较优的,如图2所示,上述步骤S11,获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,包括以下步骤:
S21:根据预设采样策略确定用于触发所述测试界面从第一状态跳转至目标状态的操作相对应的第一动作语义向量。
通过上述步骤S21能获取处于第一状态的测试界面的第一动作语义向量,上述预设采样策略可以根据测试界面或被测App的实际情况预先设定。举例来说,可以基于第一状态的测试界面中的文字、图片等信息生成第一动作语义向量。第一动作语义向量对应于一个操作,该操作能使测试界面从第一状态跳转至目标状态。
另外,本实施例获取第一状态的测试界面的可操作动作表达集合的步骤,可以用于确定处于第一状态的测试界面中可操作的动作,以便随后将这些动作与第一动作语义向量所对应的动作进行比较和筛选。较优的,如图3所示,上述步骤S11,获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,包括以下步骤:
S31:获取测试界面中的UI控件树信息;
S32:根据所述UI控件树信息确定所述测试界面中可执行的操作;
S33:基于所述测试界面中可执行的操作,通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量;
S34:根据所述可操作动作语义向量确定可操作动作表达集合。
其中,UI可以指用户界面(User Interface),通过UI控件树信息可以快速准确地获取到测试界面中的层次关系。基于测试界面中的UI控件树信息即可确定测试界面中可执行的操作。对于确定的这些操作,可以通过预设自然语言理解模型确定相对应的动作语义向量。在后文将提供一种具体的确定可操作动作语义向量的方法,但本步骤并不限于此种方法,也可以利用其他自然语言理解模型确定测试界面中可执行的操作相对应的可操作动作语义向量。在确定可操作动作语义向量之后,根据这些可操作动作语义向量确定可操作动作表达集合,其中,可操作动作表达集合中包括至少一个上述可操作动作语义向量,该可操作动作表达集合可以用于表征测试界面中可执行的各种操作。
基于上述实施例提供的方法,较优的,如图4所示,上述步骤S33,基于所述测试界面中可执行的操作,通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量,包括:
S41:通过预训练语言模型构建与测试界面中可执行操作相对应的词向量;
S42:根据各所述词向量和相对应的特征权重值加权确定所述可执行操作相对应的可操作动作语义向量。
在步骤S41中,预训练语言模型可以根据实际情况预先设定,在本实施例中,较优的,如图5所示,上述步骤S41,通过预训练语言模型构建与测试界面中可执行操作相对应的词向量,包括以下步骤:
S51:通过BERT语言模型构建与测试界面中可执行操作相对应的词向量。
在本实施例中,采用BERT语言模型构建上述词向量,具体的,可以使用Bert预训练模型直接生成动作表达特征,并利用该特征空间计算动作语义距离指导动作选择。Bert(Bidirectional Encoder Representations from Transformers)是2018年由谷歌提出的用于自然语言理解的预训练模型。它已经基于海量、泛领域文本语料库预训练出的网络模型参数,可帮助简化专有领域语言模型构建工作。本专利使用Bert模型生成动作文本中各个词向量,它由768维特征组成。本实施例构建的词向量能够用于表达测试界面,对这些用于表达测试界面的词向量,在步骤S42中可以结合各词向量对应的特征权重值加权确定可执行操作相对应的可操作动作语义向量,以对可执行操作实现准确的表达。
在本步骤中,以BERT模型为工具,获取目标状态的测试界面si的动作空间下所有动作语义向量表示a={ai1,ai2,…,ain},其中集合中的每一项用于表征可操作动作语义向量。
基于上述实施例提供的方法,较优的,如图6所示,上述步骤S12,确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量,包括以下步骤:
S61:基于预设距离度量标准确定所述第一动作语义向量与所述可操作动作表达集合中的至少一项可操作动作语义向量的距离;
S62:将距离所述第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。
在步骤S61中,预设距离度量标准可以根据实际情况预先设定,举例来说,可以利用余弦距离公式确定第一动作语义向量与可操作动作表达集合中的至少一项可操作动作语义向量的距离,当然,也可以采用其他适用于实际情况的距离度量标准来确定上述距离。其中,确定的距离可以表征可操作动作表达集合中的各个可操作动作语义向量与第一动作语义向量的匹配程度,距离越短匹配程度越高。在本步骤S62中,将可操作动作表达集合中距离第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。该目标动作语义向量可以用于表征第一动作语义向量。
具体来说,对处于第一状态的测试界面执行目标动作语义向量相对应的操作,则可以使测试界面从第一状态跳转至接近于目标状态。如果第一动作语义向量与目标动作语义向量距离为0,则对处于第一状态的测试界面执行目标动作语义向量相对应的操作能使测试界面跳转至目标状态。通过本实施例提供的上述方案,能从可操作动作表达集合中确定与第一动作语义向量最接近的可操作动作语义向量作为目标动作语义向量。
在确定目标动作语义向量之后,在步骤S13中,对处于第一状态的测试界面执行与目标动作语义向量相对应的目标操作,通常情况下,测试界面将从第一状态跳转至与目标状态相接近的状态。在执行上述操作之后,将第一状态的测试界面si、被执行目标操作后的测试界面si+1、目标动作语义向量ai及奖励值ri作为一条短轨迹(si,ai,ri,si+1)存储在经验池中,以供Actor-Critic模型随后更新网络参数。其中,目标动作语义向量是所述可操作动作表达集合中与所述第一动作语义向量相对应的动作语义向量。在存储一条短轨迹之后,可以将测试界面Si+1作为新的测试界面继续执行上述步骤,以在经验池中存储更多的短轨迹。
基于上述实施例提供的方法,较优的,如图7所示,上述步骤S14,基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数,包括:
S71:基于所述短轨迹训练模型的Critic网络通过梯度下降法更新Critic网络参数;
S72:训练模型的Actor网络根据Critic网络的梯度以及策略梯度更新Actor网络参数。
通过上述实施例提供的方案,经验池中能存储至少一条短轨迹,在本步骤中,可以在经验池中的数据达到一定数量时,进行随机选取经验样本开始训练模型。在步骤S71中,基于选取的每一条短轨迹,Critic网络可以通过小批量或随机梯度下降方法更新网络参数。随后,Actor网络通过Critic网络中计算出的梯度以及策略梯度更新策略网络的参数。较优的,目标策略网络与目标Q网络实行软更新,即以较小的幅度更新网络参数。随后,可以根据更新后的Actor网络更新采样策略,继续进行新一轮的采样。
本实施例提供的方案利用动作语义向量的方式将动作空间扩展到连续空间中,不再局限于离散的动作空间,且通过语义向量距离度量的方式将深度神经网络学习到的动作语义向量与App页面中的动作进行了映射,实现了强化学习中的深度确定性策略梯度方法在App测试领域的应用。
为了解决现有技术中的问题,如图8所示,本实施例还提供一种电子设备80,包括:
获取模块81,获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作,所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量;
确定模块82,确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量;
执行模块83,对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池;
训练模块84,基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。
基于上述实施例提供的电子设备,较优的,所述获取模块81用于:
根据预设采样策略确定用于触发所述测试界面从第一状态跳转至目标状态的操作相对应的第一动作语义向量。
基于上述实施例提供的电子设备,较优的,所述获取模块81,用于:
获取测试界面中的UI控件树信息;
根据所述UI控件树信息确定所述测试界面中可执行的操作;
基于所述测试界面中可执行的操作,通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量;
根据所述可操作动作语义向量确定可操作动作表达集合。
基于上述实施例提供的电子设备,较优的,所述获取模块81,用于:
通过预训练语言模型构建与测试界面中可执行操作相对应的词向量;
根据各所述词向量和相对应的特征权重值加权确定所述可执行操作相对应的可操作动作语义向量。
基于上述实施例提供的电子设备,较优的,所述获取模块81,用于:
通过BERT语言模型构建与测试界面中可执行操作相对应的词向量。
基于上述实施例提供的电子设备,较优的,所述确定模块82,用于:
基于预设距离度量标准确定所述第一动作语义向量与所述可操作动作表达集合中的至少一项可操作动作语义向量的距离;
将距离所述第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。
基于上述实施例提供的电子设备,较优的,所述训练模块84,用于:
基于所述短轨迹训练模型的Critic网络通过梯度下降法更新Critic网络参数;
训练模型的Actor网络根据Critic网络的梯度以及策略梯度更新Actor网络参数。
通过本实施例提供的电子设备,能首先获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,然后确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量,接着对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池,最后基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。本申请提供的方案基于测试界面的动作语义向量量化测试界面上可执行的动作,即以动作语义向量表达动作,实现操作界面中可执行的操作与动作语义向量的对应。随后,从多个上述动作语义向量中确定出与第一动作语义向量相对应的目标动作语义向量,能实现预测的测试动作与界面中可执行操作的对应。通过本方案训练得到的模型能从测试界面中可执行的操作中确定出用于触发测试界面跳转至接近于目标状态的操作,能实现预测的动作与应用界面中可执行的动作相匹配。
优选的,本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种基于动作语义向量的模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种基于动作语义向量的模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种基于动作语义向量的模型训练方法,其特征在于,包括:
获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作,所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量;
确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量;
对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池;
基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。
2.如权利要求1所述的方法,其特征在于,所述获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,包括:
根据预设采样策略确定用于触发所述测试界面从第一状态跳转至目标状态的操作相对应的第一动作语义向量。
3.如权利要求1所述的方法,其特征在于,所述获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,包括:
获取测试界面中的UI控件树信息;
根据所述UI控件树信息确定所述测试界面中可执行的操作;
基于所述测试界面中可执行的操作,通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量;
根据所述可操作动作语义向量确定可操作动作表达集合。
4.如权利要求3所述的方法,其特征在于,所述基于所述测试界面中可执行的操作,通过预设自然语言理解模型确定与所述测试界面中可执行的操作相对应的可操作动作语义向量,包括:
通过预训练语言模型构建与测试界面中可执行操作相对应的词向量;
根据各所述词向量和相对应的特征权重值加权确定所述可执行操作相对应的可操作动作语义向量。
5.如权利要求4所述的方法,其特征在于,通过预训练语言模型构建与测试界面中可执行操作相对应的词向量,包括:
通过BERT语言模型构建与测试界面中可执行操作相对应的词向量。
6.如权利要求1~5任一项所述的方法,其特征在于,所述确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量,包括:
基于预设距离度量标准确定所述第一动作语义向量与所述可操作动作表达集合中的至少一项可操作动作语义向量的距离;
将距离所述第一动作语义向量最短的可操作动作语义向量确定为目标动作语义向量。
7.如权利要求1~5任一项所述的方法,其特征在于,基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数,包括:
基于所述短轨迹训练模型的Critic网络通过梯度下降法更新Critic网络参数;
训练模型的Actor网络根据Critic网络的梯度以及策略梯度更新Actor网络参数。
8.一种电子设备,其特征在于,包括:
获取模块,获取处于第一状态的测试界面的第一动作语义向量和可操作动作表达集合,所述第一动作语义向量表征用于触发所述测试界面从第一状态跳转至目标状态的操作,所述可操作动作表达集合中包括至少一项用于表征处于第一状态的测试界面中可执行操作的可操作动作语义向量;
确定模块,确定所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量;
执行模块,对处于第一状态的测试界面执行与所述目标动作语义向量相对应的目标操作,并将处于第一状态的所述测试界面、被执行所述目标操作后的测试界面、奖励值以及所述可操作动作表达集合中与所述第一动作语义向量相对应的目标动作语义向量作为一条短轨迹存储至经验池;
训练模块,基于经验池中的至少一条短轨迹,训练Actor-Critic模型的Actor网络和Critic网络的网络参数。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN201911337802.0A 2019-12-23 2019-12-23 一种基于动作语义向量的模型训练方法和电子设备 Active CN111124916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911337802.0A CN111124916B (zh) 2019-12-23 2019-12-23 一种基于动作语义向量的模型训练方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911337802.0A CN111124916B (zh) 2019-12-23 2019-12-23 一种基于动作语义向量的模型训练方法和电子设备

Publications (2)

Publication Number Publication Date
CN111124916A CN111124916A (zh) 2020-05-08
CN111124916B true CN111124916B (zh) 2023-04-07

Family

ID=70501252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911337802.0A Active CN111124916B (zh) 2019-12-23 2019-12-23 一种基于动作语义向量的模型训练方法和电子设备

Country Status (1)

Country Link
CN (1) CN111124916B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112460741B (zh) * 2020-11-23 2021-11-26 香港中文大学(深圳) 一种楼宇暖通空调系统控制方法
CN112699046B (zh) * 2021-01-12 2024-03-29 抖音视界有限公司 应用程序测试方法及装置、电子设备和存储介质
CN113532457B (zh) * 2021-06-07 2024-02-02 山东师范大学 机器人路径导航方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
WO2019218514A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019218514A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘建伟 等."基于值函数和策略梯度的深度强化学习综述".《计算机学报》.2019,第42卷第1406-1438页. *

Also Published As

Publication number Publication date
CN111124916A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
US10748065B2 (en) Multi-task neural networks with task-specific paths
CN111124916B (zh) 一种基于动作语义向量的模型训练方法和电子设备
US11521056B2 (en) System and methods for intrinsic reward reinforcement learning
US11227581B2 (en) Systems and methods for generating a response based on task-independent conversational responses or task-specific responses
CN111144580B (zh) 一种基于模仿学习的层级强化学习训练方法和装置
JP2019537132A (ja) アクション選択ニューラルネットワークをトレーニングすること
KR20190028531A (ko) 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련
Knox et al. Augmenting reinforcement learning with human feedback
CN107544960B (zh) 一种基于变量绑定和关系激活的自动问答方法
EP3443450A1 (en) Two-stage training of a spoken dialogue system
JP2019192246A (ja) 自然言語質問回答システム用のトレーニングデータを提供する方法および装置
US12005580B2 (en) Method and device for controlling a robot
CN112720453A (zh) 用于训练机器人系统的操纵技能的方法和设备
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
CN117112742A (zh) 一种对话模型优化方法、装置、计算机设备和存储介质
KR20240034804A (ko) 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가
CN116361138A (zh) 测试方法及设备
CN114328821A (zh) 基于控制槽位和业务数据槽位的多轮对话控制方法及装置
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN110334244A (zh) 一种数据处理的方法、装置及电子设备
Sener et al. Partitioning sensorimotor space by predictability principle in intrinsic motivation systems
CN114996622B (zh) 信息获取方法、值网络模型的训练方法及电子设备
CN111160415B (zh) 逐层逆化识别模型的生成模型训练方法
US11983240B2 (en) Meta few-shot class incremental learning
CN113793604B (zh) 语音识别系统优化方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240412

Address after: 100016 building 4, Dongfang Science Park, 52 Jiuxianqiao Road, Chaoyang District, Beijing

Patentee after: BEIJING TESTIN INFORMATION TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 102425 building 31, 69 Yanfu Road, Fangshan District, Beijing

Patentee before: Beijing Yunju Intelligent Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right