CN111538668A

CN111538668A - 基于强化学习的移动端应用测试方法、装置、设备及介质

Info

Publication number: CN111538668A
Application number: CN202010349630.5A
Authority: CN
Inventors: 孙善宝; 罗清彩; 金长新; 谭强; 徐驰; 于�玲; 于晓艳
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-14
Anticipated expiration: 2040-04-28
Also published as: CN111538668B

Abstract

本申请公开了一种基于强化学习的移动端应用测试方法、装置、设备及介质，该方法包括：创建云数据中心的移动端应用模拟环境；采集用户行为数据，对其特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；将智能体与创建的模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；通过训练好的模型，对待测移动端应用进行DevOps自动化测试。这样在云端模拟环境中，利用采集的用户行为数据及设计的测试用例，通过强化学习训练，形成用于云端模拟测试的用户行为的模型，保证测试覆盖率，并且可以更好的模拟实际用户的行为，重现用户操作场景，形成准确的测试评价，提升测试效率。

Description

基于强化学习的移动端应用测试方法、装置、设备及介质

技术领域

本发明涉及移动互联网技术领域，特别是涉及一种基于强化学习的移动端应用测试方法、装置、设备及介质。

背景技术

随着社会的发展，移动互联网呈现出一轮加速增长态势，日趋成熟的移动互联网技术不仅改变了无数用户的生活方式，也为各行各业的变革与繁荣提供了先决条件。作为网络主要入口的移动APP为了快速响应用户需求，正在不断缩短应用更新周期、加速应用迭代，以适应市场变化。

DevOps是Development和Operations的组合，是一组过程、方法与系统的统称，特别适合移动端应用，实现边开发边运维，从而加快移动端软件的应用开发、测试及交付。在云上一体化开发和快速交付的场景下，移动端应用测试成为重要的一环。而目前DevOps流水线的自动化测试流程固化，不够智能，不全面，效果不佳。

因此，如何提升移动端应用自动化测试的测试效率，保证测试覆盖率，是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于强化学习的移动端应用测试方法、装置、设备及介质，可以模拟真实用户操作场景及操作行为，形成准确的测试评价，提升测试效率，并保证测试覆盖率。其具体方案如下：

一种基于强化学习的移动端应用测试方法，包括：

创建云数据中心的移动端应用模拟环境；

采集用户行为数据，对采集的所述用户行为数据的特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；

将所述智能体与创建的所述模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；

通过训练好的所述策略模型和所述评价模型，对待测移动端应用进行DevOps自动化测试，并将测试结果反馈至开发者。

优选地，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，所述测试用例中的测试目标为形成待测试移动端应用的基础数据和用户操作行为。

优选地，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，所述用户行为数据包括使用待测移动端应用产生的日志数据以及用户对于使用过程的视频录制数据。

优选地，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，对采集的所述用户行为数据的特征进行提取，产生用户操作行为的样本，具体包括：

根据所述用户行为数据中的日志数据，设计模拟场景的图像，生成与模拟场景匹配的用户操作行为；

采用CNN神经网络对所述用户行为数据中的视频录制数据进行分析处理，通过卷积操作提取特征，形成用户操作行为数据集。

优选地，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，在得到训练好的策略模型和评价模型之前，还包括：

根据设计的不同模拟场景，设定反馈奖励标准和奖励函数；

对策略模型和评价模型进行初始化，定义目标策略模型和目标评价模型，并设定包括执行模拟次数、经验缓冲区大小、每次从所述经验缓冲区读取批处理大小的训练参数。

优选地，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，通过强化学习训练，得到训练好的策略模型和评价模型，具体包括：

根据当前场景状态，通过所述策略模型生成所述智能体的当前动作，形成状态-操作元组；

在创建的所述模拟环境中执行所述当前动作操作，获取所述模拟环境反馈的下一个场景状态和生成的奖励值；

将所述当前场景状态、所述当前动作、所述下一个场景状态、所述奖励值组成四元组存入到所述经验缓冲区中；

从所述经验缓冲区中读取所述四元组，利用梯度下降法，更新所述评价模型的参数；

同时更新所述策略模型的参数，使得所述评价模型的评价值最大；

循环执行下一个动作操作，直到达到设定的所述执行模拟次数，得到训练好的策略模型和评价模型。

优选地，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，还包括：

根据不同的业务场景、测试目的及用户操作行为的分类，设计多种模拟用户类型，并在模拟用户操作行为的过程中增加随机性探索，以覆盖不同的用户群体。

本发明实施例还提供了一种基于强化学习的移动端应用测试装置，包括：

模拟环境创建模块，用于创建云数据中心的移动端应用模拟环境；

智能体生成模块，用于采集用户行为数据，对采集的所述用户行为数据的特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；

模型训练模块，用于将所述智能体与创建的所述模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；

自动化测试模块，用于通过训练好的所述策略模型和所述评价模型，对待测移动端应用进行DevOps自动化测试，并将测试结果反馈至开发者。

本发明实施例还提供了一种基于强化学习的移动端应用测试设备，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述基于强化学习的移动端应用测试方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述基于强化学习的移动端应用测试方法。

从上述技术方案可以看出，本发明所提供的一种基于强化学习的移动端应用测试方法、装置、设备及介质，包括：创建云数据中心的移动端应用模拟环境；采集用户行为数据，对采集的用户行为数据的特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；将智能体与创建的模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；通过训练好的策略模型和评价模型，对待测移动端应用进行DevOps自动化测试，并将测试结果反馈至开发者。

本发明在云数据中心的移动端应用模拟环境中，利用采集的用户行为数据及设计的测试用例，有效利用强化学习技术来训练形成用于云端模拟测试的用户行为的模型，其中通过提取用户行为数据的特征，产生用户行为样本，更加符合实际用户的操作行为，结合测试人员设计的测试用例，保证了测试覆盖率；并且通过云端增强学习生成的模拟测试用户，可以更好的模拟实际用户的行为，重现用户操作场景，形成更加准确的测试评价，提升测试效率。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的基于强化学习的移动端应用测试方法的流程图；

图2为本发明实施例提供的移动端应用测试系统组成示意图；

图3为本发明实施例提供的策略模型和评价模型的结构示意图；

图4为本发明实施例提供的策略模型和评价模型训练过程的流程图；

图5为本发明实施例提供的移动端应用自动化测试方法流程图；

图6为本发明实施例提供的基于强化学习的移动端应用测试装置的结构示意图。

具体实施方式

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，是重要的深度学习方法，智能体(Agent/Actor)以“试错”的方式进行学习，通过与环境进行交互获得的奖励(Reward)指导行为(Action)，目标是使智能体获得最大的奖励，强化学习不同于监督学习，不需要大量的标记数据，主要表现在强化信号上，通过环境提供的反馈奖励，依靠自身的经历进行学习，在Action-Reward的机制下获得知识，改进行动方案以满足适应环境要求。

本发明正是利用强化学习来模拟真实用户操作场景，实现移动端应用自动化测试。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于强化学习的移动端应用测试方法，如图1所示，包括以下步骤：

S101、创建云数据中心的移动端应用模拟环境；

需要说明的是，如图2所示，云数据中心聚集大量的计算存储资源，对外提供IaaS、PaaS、SaaS等云服务，本发明利用云数据中心的基础设施及服务，针对移动端应用开发提供DevOps相关服务、模拟仿真服务及相关深度学习服务，完成移动端应用的交付运维；并结合云数据中心的移动端应用模拟服务创建云数据中心的移动端应用模拟环境，该移动端应用模拟服务是模拟手机、平板、智能屏等移动应用的运行环境；

S102、采集用户行为数据，对采集的用户行为数据的特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；

S103、将智能体与创建的模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；

需要说明的是，如图3所示，策略模型P是由CNN和RNN构成的神经网络，根据当前模拟环境提供的屏幕图像，进行卷积操作提取特征，同时考虑历史信息，并加入随机信息，确定下一个动作；评价模型Q主要有一个CNN神经网络构成，对当前的屏幕图像内容及执行的动作通过模型计算，得到评价值；

S104、通过训练好的策略模型和评价模型，对待测移动端应用进行DevOps自动化测试，并将测试结果反馈至开发者。

在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，在云数据中心的移动端应用模拟环境中，利用采集的用户行为数据及设计的测试用例，通过强化学习训练，形成用于云端模拟测试的用户行为的模型，其中通过提取用户行为数据的特征，产生用户行为样本，更加符合实际用户的操作行为，结合测试人员设计的测试用例，保证了测试覆盖率；并且通过云端增强学习生成的模拟测试用户，可以更好的模拟实际用户的行为，重现用户操作场景，形成更加准确的测试评价，提升测试效率。

在具体实施时，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，测试用例中的测试目标可以为形成待测试移动端应用的基础数据和用户操作行为。在实际应用中，测试人员设计测试用例，基于云数据中心模拟器，根据待测试移动端应用的特点，形成待测试移动端应用的基础数据(如应用图标、应用名称、主页面、布局风格等)和用户操作行为(如点击，移动、长按、填写等)。

在具体实施时，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，用户行为数据可以包括使用待测移动端应用产生的日志数据以及用户对于使用过程的视频录制数据。也就是说，上述步骤S102采集用户行为数据，可以包括采集使用待测移动端应用产生的日志数据以及用户对于使用过程的视频录制数据。

进一步地，在具体实施时，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，对采集的用户行为数据的特征进行提取，产生用户操作行为的样本，具体可以包括：根据用户行为数据中的日志数据，设计模拟场景的图像，生成与模拟场景匹配的用户操作行为；采用CNN神经网络对用户行为数据中的视频录制数据进行分析处理，通过卷积操作提取特征，形成用户操作行为数据集。

在具体实施时，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，在执行步骤S103得到训练好的策略模型和评价模型之前，还可以包括：根据设计的不同模拟场景，设定反馈奖励标准和奖励函数；对策略模型和评价模型进行初始化，定义目标策略模型和目标评价模型，并设定包括执行模拟(Episode)次数、经验缓冲区(ReplayExperience Buffer，Buf)大小、每次从经验缓冲区读取批处理大小的训练参数。

具体地，在具体实施时，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，步骤S103通过强化学习训练，得到训练好的策略模型和评价模型，具体可以包括：首先，根据当前场景状态，通过策略模型生成智能体的当前动作，形成状态-操作元组；在创建的模拟环境中执行当前动作操作，获取模拟环境反馈的下一个场景状态和生成的奖励值；然后，将当前场景状态、当前动作、下一个场景状态、奖励值组成四元组存入到经验缓冲区中；从经验缓冲区中读取四元组，利用梯度下降法，更新评价模型的参数；同时更新策略模型的参数，使得评价模型的评价值最大；最后，循环执行下一个动作操作，直到达到设定的执行模拟次数，得到训练好的策略模型和评价模型。

在具体实施时，在本发明实施例提供的上述基于强化学习的移动端应用测试方法中，还可以包括：根据不同的业务场景、测试目的及用户操作行为的分类，设计多种模拟用户类型，并在模拟用户操作行为的过程中增加随机性探索，以覆盖不同的用户群体。这样增加了操作多样性，因此可覆盖更多类用户群体。

如图4所示，下面以一个具体实例来描述策略模型和评价模型训练过程的具体步骤：

步骤一、测试人员设计测试用例，基于云数据中心模拟器，根据待测试移动端应用的特点，形成应用的基础数据(应用图标、应用名称、主页面、布局风格等)和用户的操作行为(点击，移动、长按、填写等)；

步骤二、收集用户行为数据，包括使用移动端应用产生的日志数据以及用户对于使用过程的屏幕录制；

步骤三、测试人员结合日志内容设计场景图像，生成其操作行为(状态s，动作a)标注数据对，其中状态s将根据日志文字描述，生成模拟场景的图像；

步骤四、对于视频录制数据，采用CNN神经网络分析处理，结合步骤101中的基础数据和操作行为，提取特征，形成(状态s，动作a)用户操作行为数据集；

步骤五、根据不同的场景设计设定模拟器反馈奖励标准，设定奖励函数；

步骤六、在云数据中心申请资源，并对策略模型P和评价模型Q进行初始化，定义目标策略模型P’＝P和评价模型Q’＝Q，并设定训练相关参数，包括执行模拟次数以及经验缓冲区Buf大小、一次从经验缓冲区读取batch的大小等参数；

步骤七、根据当前的状态si，通过策略模型P生成动作ai，形成状态-操作元组(si,ai)；

步骤八、在模拟环境中执行ai操作，模拟环境反馈下一个场景状态si+1，获取奖励ri+1；

步骤九、将(si,ai,si+1,ri+1)四元组存入到经验缓冲Buf中；

步骤十、从Buf中读取一组(si,ai,si+1,ri+1)，利用梯度下降法，更新Q的参数，使得Q(si,ai)的值和ri+1+Q’(si+1,P’(si+1))之间的距离最小；

步骤十一、更新P的参数，使得Q(si,P(si))计算结果最大；

步骤十二、P’＝P和评价模型Q’＝Q；

步骤十三、循环执行，跳转到步骤107，直到达到执行模拟次数；

步骤十四、得到最终的策略模型P和评价模型Q，将策略模型P形成模拟用户操作服务。

如图5所示，下面以一个具体实例来描述移动端应用自动化测试的具体步骤：

第一步、设定测试评价标准，例如日志中是否存在异常；

第二步、执行云数据中心的DevOps流水线的自动化测试服务；

第三步、创建模拟环境，加载多个场景下的用户行为模型，进行测试；

第四步、生成测试结果，反馈给开发者。

基于同一发明构思，本发明实施例还提供了一种基于强化学习的移动端应用测试装置，由于该基于强化学习的移动端应用测试装置解决问题的原理与前述一种基于强化学习的移动端应用测试方法相似，因此该基于强化学习的移动端应用测试装置的实施可以参见基于强化学习的移动端应用测试方法的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的基于强化学习的移动端应用测试装置，如图6所示，具体可以包括：

模拟环境创建模块11，用于创建云数据中心的移动端应用模拟环境；

智能体生成模块12，用于采集用户行为数据，对采集的用户行为数据的特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；

模型训练模块13，用于将智能体与创建的模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；

自动化测试模块14，用于通过训练好的策略模型和评价模型，对待测移动端应用进行DevOps自动化测试，并将测试结果反馈至开发者。

在本发明实施例提供的上述基于强化学习的移动端应用测试装置中，可以通过上述四个模块的相互作用，利用强化学习来模拟真实用户操作场景，实现移动端应用自动化测试，保证测试覆盖率，并且可以更好的模拟实际用户的行为，重现用户操作场景，形成准确的测试评价，提升测试效率。

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应的，本发明实施例还公开了一种基于强化学习的移动端应用测试设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现前述实施例公开的基于强化学习的移动端应用测试方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的基于强化学习的移动端应用测试方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明实施例提供的一种基于强化学习的移动端应用测试方法、装置、设备及介质，包括：创建云数据中心的移动端应用模拟环境；采集用户行为数据，对采集的用户行为数据的特征进行提取，产生用户操作行为的样本，并结合设计的测试用例，生成模拟用户操作行为的智能体；将智能体与创建的模拟环境进行交互，通过强化学习训练，得到训练好的策略模型和评价模型；通过训练好的策略模型和评价模型，对待测移动端应用进行DevOps自动化测试，并将测试结果反馈至开发者。这样在云数据中心的移动端应用模拟环境中，利用采集的用户行为数据及设计的测试用例，通过强化学习训练，形成用于云端模拟测试的用户行为的模型；通过对用户日志数据、历史录屏数据的特征提取，产生用户行为样本，更加符合实际用户的操作行为，结合测试人员设计的测试用例，保证了测试覆盖率；与传统的测试方式相比，通过云端增强学习生成的模拟测试用户，可以更好的模拟实际用户的行为，重现用户操作场景，形成更加准确的测试评价，提升测试效率。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的基于强化学习的移动端应用测试方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的移动端应用测试方法，其特征在于，包括：

创建云数据中心的移动端应用模拟环境；

2.根据权利要求1所述的基于强化学习的移动端应用测试方法，其特征在于，所述测试用例中的测试目标为形成待测试移动端应用的基础数据和用户操作行为。

3.根据权利要求1所述的基于强化学习的移动端应用测试方法，其特征在于，所述用户行为数据包括使用待测移动端应用产生的日志数据以及用户对于使用过程的视频录制数据。

4.根据权利要求3所述的基于强化学习的移动端应用测试方法，其特征在于，对采集的所述用户行为数据的特征进行提取，产生用户操作行为的样本，具体包括：

5.根据权利要求1所述的基于强化学习的移动端应用测试方法，其特征在于，在得到训练好的策略模型和评价模型之前，还包括：

根据设计的不同模拟场景，设定反馈奖励标准和奖励函数；

6.根据权利要求5所述的基于强化学习的移动端应用测试方法，其特征在于，通过强化学习训练，得到训练好的策略模型和评价模型，具体包括：

7.根据权利要求6所述的基于强化学习的移动端应用测试方法，其特征在于，还包括：

8.一种基于强化学习的移动端应用测试装置，其特征在于，包括：

9.一种基于强化学习的移动端应用测试设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的基于强化学习的移动端应用测试方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于强化学习的移动端应用测试方法。