CN118012552A - 界面信息处理方法、装置、设备、介质和计算机程序产品 - Google Patents
界面信息处理方法、装置、设备、介质和计算机程序产品 Download PDFInfo
- Publication number
- CN118012552A CN118012552A CN202410023052.4A CN202410023052A CN118012552A CN 118012552 A CN118012552 A CN 118012552A CN 202410023052 A CN202410023052 A CN 202410023052A CN 118012552 A CN118012552 A CN 118012552A
- Authority
- CN
- China
- Prior art keywords
- target
- interface
- interaction
- interface type
- target element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004590 computer program Methods 0.000 title claims abstract description 28
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 212
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 46
- 238000003860 storage Methods 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims description 58
- 238000003062 neural network model Methods 0.000 claims description 44
- 238000013515 script Methods 0.000 abstract description 42
- 230000008569 process Effects 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 11
- 238000012795 verification Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 8
- 238000004801 process automation Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000001960 triggered effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种界面信息处理方法、装置、计算机设备、存储介质和计算机程序产品,涉及机器视觉以及流程自动化领域。方法包括:获取多个界面类型标识中每个界面类型标识对应的训练样本,针对每个界面类型标识,使用对应的训练样本训练得到该界面类型标识对应的元素识别模型;获取目标界面的图像信息,将其输入界面分类模型,得到由界面分类模型输出的界面类型标识;然后根据界面类型标识确定对应的元素识别模型,将图像信息输入该元素识别模型,得到由元素识别模型输出的目标元素在目标界面中的位置信息,然后可以根据该位置信息触发对目标界面中的目标元素的元素交互操作。本申请能够有效降低对机器人流程自动化应用的脚本进行开发和运维的成本。
Description
技术领域
本申请涉及机器视觉以及流程自动化技术领域,特别是涉及一种界面信息处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着流程自动化技术的发展,出现了机器人流程自动化(Robotic ProcessAutomation,RPA)等自动化工具,其能够按照设定的规则,模拟人类在计算机界面上进行操作,从而节省人力成本,提高生产效率。
其中,为了实现对计算机界面的操控,在机器人流程自动化的应用中,通常需要针对每个界面,分别开发对应的脚本,在脚本中预先设定界面上的各种输入框、按钮等界面元素的位置以及对每个元素的交互操作,然后机器人流程自动化应用可以根据脚本内容,在界面的对应位置上进行相应的交互操作。而当界面中元素的所在位置、排列顺序等发生变化时,原有的脚本将不再适用于在该界面中进行自动化处理,从而需要由运维人员对界面的元素变化进行分析并修改对应的脚本代码,才能使机器人流程自动化应用能够继续在该界面上进行操作。
然而,上述方法中脚本代码的开发和运维成本较高,而当界面频繁变动时,对其对应的脚本代码进行修改维护的成本更随之急剧升高,甚至超过机器人流程自动化应用的开发投入。
发明内容
基于此,有必要针对上述技术问题,提供一种界面信息处理方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种界面信息处理方法。所述方法包括:
获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;
针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;
获取目标界面的图像信息;
将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;
根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;
将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;
根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
在其中一个实施例中,所述获取多个界面类型标识中每个界面类型标识对应的训练样本,包括:获取多个界面类型标识中每个界面类型标识对应的多个样本界面的图像信息样本;根据所述界面类型标识,确定所述多个样本界面对应的目标元素信息;根据所述目标元素信息,确定各项目标元素在每个所述样本界面中的位置信息;根据所述目标元素信息和所述位置信息,得到每个所述样本界面的目标元素位置样本;根据每个界面类型对应的多个样本界面的图像信息样本和目标元素位置样本,得到所述界面类型标识对应的训练样本。
在其中一个实施例中,所述根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作之后,所述方法还包括:获取所述元素交互操作的操作结果;对指示所述元素交互操作失败的操作结果的数量进行统计,当所述数量符合预设条件时,调整所述元素识别模型的模型参数。
在其中一个实施例中,所述方法还包括:根据所述目标界面的界面类型标识,获取所述目标界面中各项目标元素对应的目标交互次序和目标交互动作;所述根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作,包括:根据所述目标界面中各项目标元素对应的位置信息,触发按照所述目标交互次序,在所述目标界面的对应位置上执行所述目标交互动作。
在其中一个实施例中,所述方法还包括:确定所述目标界面的界面类型标识是否与潜在目标元素之间存在关联关系;若存在,则检查对所述图像信息进行目标元素识别得到的识别结果是否包含所述潜在目标元素的位置信息;若包含,则根据所述界面类型标识,获取所述潜在目标元素对应的潜在交互次序和潜在交互动作;根据所述潜在交互次序,调整所述各项目标元素对应的目标交互次序;所述根据所述目标界面中各项目标元素对应的位置信息,触发按照所述目标交互次序,在所述目标界面的对应位置上执行所述目标交互动作,包括:根据所述目标界面中各项目标元素和潜在目标元素对应的位置信息,触发按照调整后的目标交互次序和潜在交互次序,在所述目标界面的对应位置上执行所述目标交互动作或所述潜在交互动作。
第二方面,本申请还提供了一种界面信息处理装置。所述装置包括:
样本获取模块,用于获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;
训练模块,用于针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;
界面获取模块,用于获取目标界面的图像信息,将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;
识别模块,用于根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;
交互模块,用于根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;获取目标界面的图像信息;将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;获取目标界面的图像信息;将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;获取目标界面的图像信息;将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
上述界面信息处理方法、装置、计算机设备、存储介质和计算机程序产品,
获取多个界面类型标识中每个界面类型标识对应的训练样本,每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本,该目标元素位置样本用于指示目标元素在样本界面中的位置;然后针对每个界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据待训练的神经网络模型输出的目标元素的位置信息识别结果与多个样本界面的目标元素位置样本的相似度,对待训练的神经网络模型进行训练,得到界面类型标识对应的元素识别模型;获取目标界面的图像信息,将该图像信息输入界面分类模型,得到由界面分类模型输出的界面类型标识,该界面分类模型用于从输入的图像信息中提取元素显示特征及根据该元素显示特征对图像信息进行界面类型分类得到界面类型标识;然后根据界面类型标识确定界面类型标识对应的元素识别模型,将图像信息输入该元素识别模型,得到由元素识别模型输出的目标元素在目标界面中的位置信息,然后可以根据该位置信息触发对目标界面中的目标元素的元素交互操作。
技术效果包括:该方案能够针对多个界面类型标识,分别使用每个界面类型标识对应的训练样本对神经网络模型进行训练,能够得到分别对应于不同界面类型的元素识别模型。其中,通过将界面类型标识对应的训练样本中多个样本界面的图像信息样本输入神经网络模型,并根据其输出的目标元素的位置信息识别结果与多个样本界面的目标元素位置样本的相似度对模型进行训练,能够使模型广泛学习属于同一界面类型的多个界面中目标元素的视觉特征,从而可以得到具有更高可用性和准确度的元素识别模型。基于训练得到的对应于不同界面类型的元素识别模型,该方案还通过界面分类模型根据目标界面的图像信息的元素显示特征获得其在界面类型上分类得到的界面类型标识,从而识别出同一类界面,进而根据界面类型标识运用该类界面对应的元素识别模型识别并输出目标元素在该目标界面中的位置信息,由此可根据该位置信息触发机器人对目标界面中的目标元素的元素交互操作,从而能够使机器人流程自动化应用的脚本只需包含对目标元素的交互操作的规则而不必关注目标元素在界面中的位置,通过元素识别模型在同类型的多个界面的复用可以将机器人流程自动化应用的同一个脚本应用于同类型的多个界面中,并且无论目标元素在界面中的分布如何变化都无需修改脚本,能够大幅降低对机器人流程自动化应用的脚本进行开发和运维的成本。
附图说明
图1为一个实施例中界面信息处理方法的流程示意图;
图2为一个实施例中获取训练样本步骤的流程示意图;
图3为一个实施例中在目标界面进行元素交互操作的流程示意图;
图4为一个实施例中界面信息处理方法的流程示意图;
图5为一个实施例中界面信息处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例涉及的部分术语:
机器人流程自动化(Robotic Process Automation,RPA):一款系统互联、流程再造的敏捷产品,通过模拟增强人与计算机的交互过程,能够在不影响现有IT系统的前提下,快速实现内外部系统、异构系统间的互联,完成业务流程再造。
在一个实施例中,如图1所示,提供了一种界面信息处理方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,获取多个界面类型标识中每个界面类型标识对应的训练样本。
其中,界面类型标识用于指示一个界面所属的界面类型,如指示某个界面属于登录界面、订单确认界面等,每种界面类型标识可以分别对应于一种类型的界面,其中同一种类型的界面可以包含相同的目标元素以及一致的视觉特征。示例性的,对于界面类型为登录界面的不同界面,其包含的元素通常可以包括用户名输入框、密码输入框、登录按钮等等,这些元素的形状、提示信息等外观显示特征也具有较强的共通性。
基于此,本步骤中可以针对多种常见的界面类型,分别获取每个界面类型标识对应的训练样本。其中,该训练样本包括对应于该界面类型标识的多个样本界面的图像信息样本和目标元素位置样本。其中,目标元素位置样本用于指示目标元素在样本界面中的位置。
在一个实施例中,如图2所示,获取多个界面类型标识中每个界面类型标识对应的训练样本,可以包括:
步骤S201,获取多个界面类型标识中每个界面类型标识对应的多个样本界面的图像信息样本。
本步骤中,针对每个界面类型标识,可以先收集其对应的多个样本界面,然后可以通过屏幕截图等方式获取每个样本界面的图像信息样本。
步骤S202,根据界面类型标识,确定多个样本界面对应的目标元素信息。
由于每种界面类型分别对应于不同的目标元素,因此在本步骤中可以根据界面类型标识,查询确定样本界面对应的目标元素信息。其中,目标元素信息可以指示样本界面所包含的目标元素的数量,以及每项目标元素的类型等。
步骤S203,根据目标元素信息,确定各项目标元素在样本界面中的位置信息。
步骤S204,根据目标元素信息和位置信息,得到每个样本界面的目标元素位置样本。
步骤S205,根据每个界面类型标识对应的多个样本界面的图像信息样本和目标元素位置样本,得到界面类型标识对应的训练样本。
具体地,根据步骤S202中得到的目标元素信息,可以确定样本界面所包含的目标元素。进而,在步骤S203中,可以在样本界面中确定哪些元素对应于目标元素,并分别确定各项目标元素所处的位置,从而得到其位置信息。然后,在步骤S204中,可以结合目标元素信息和位置信息,将目标元素信息中包含的每个目标元素的标识与该目标元素在样本界面中的位置信息相关联,得到样本界面的目标元素位置样本。示例性地,目标元素位置样本可以使用可扩展标记语言路径语言(Extensible Markup Language Path Language,XMLPath Language)的形式对样本界面中的目标元素进行标识,其可以唯一标识一个目标元素在界面中的位置信息,从而可以得到准确的目标元素位置样本。进而,在步骤S205中,可以结合每个界面类型标识对应的多个样本界面各自的图像信息样本和目标元素位置样本,得到该界面类型标识对应的训练样本。上述过程先根据界面类型标识确定目标元素信息,然后再对目标元素在样本界面中的位置信息进行标记,能够全面地确定样本界面中各项目标元素的位置信息,得到更准确的目标元素位置样本,进而提高界面类型标识对应的训练样本的准确性。
步骤S102,针对每个界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据待训练的神经网络模型输出的目标元素的位置信息识别结果与多个样本界面的目标元素位置样本的相似度,对待训练的神经网络模型进行训练,得到界面类型标识对应的元素识别模型。
本步骤中,可以分别使用每个界面类型标识对应的训练样本对待训练的神经网络模型进行训练,得到每个界面类型标识各自对应的元素识别模型。其中,属于同一界面类型的界面通常包含相同的目标元素,并且这些目标元素在这些界面上的视觉特征都具有共通性,由此可以使用同一个元素识别模型对属于同一界面类型的界面进行目标元素识别;属于不同界面类型的界面通常一般会包含不同的目标元素,并且具有不同的视觉特征,由此针对属于不同界面类型的界面,可以分别使用不同的元素识别模型进行目标元素识别。
基于此,针对每个界面类型标识,可以先将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,获取神经网络模型输出的每个样本界面中目标元素的位置信息识别结果。然后,可以将模型输出各样本界面的目标元素的位置信息识别结果与训练样本中各样本界面对应的目标元素位置样本进行比对,确定两者之间的相似度。然后根据该相似度,可以对模型的参数进行调整以实现对模型的训练。
示例性地,模型输出的目标元素的位置信息识别结果可以包括目标元素的名称以及其在样本界面中的坐标位置,例如可以是“元素A(x1,y1)”,则可以通过与样本界面对应的目标元素位置样本的比对,确定模型是否输出了所有目标元素的位置信息,并且可以确定模型输出的信息中,各项目标元素的坐标位置与该元素在目标元素位置样本中的坐标位置之间的距离。其中,当模型输出的目标元素越完整,且各项目标元素的坐标位置与目标元素位置样本中的坐标位置之间的距离越小,则相似度越高,否则相似度越低。而在其他一些实施方式中,也可以通过设计目标函数的方式,对相似度值进行计算。基于各样本界面的目标元素的位置信息识别结果与各样本界面对应的目标元素位置样本之间的相似度,可以对元素识别模型的参数进行调整,以提高两者之间的相似度。
其中,为了在训练出能够对界面中的目标元素进行更准确识别的元素识别模型以及避免训练成本过高之间取得平衡,在本步骤中可以为模型的训练设置预设条件,预设条件可以包括相似度的阈值以及模型参数的最大调整次数。基于此,当模型输出的位置信息识别结果与目标元素位置样本之间的相似度低于阈值,并且模型参数的调整次数小于最大调整次数时,可以对神经网络模型的参数进行调整,以提高位置信息识别结果与目标元素位置样本之间的相似度。
示例性地,本步骤中可以使用Keras和TensorFlow等深度学习框架构建神经网络模型和设置模型参数,导入对应于同一界面类型标识的多个样本界面的图像信息样本和目标元素位置样本形成训练集,然后利用训练集的数据对神经网络模型进行训练,最后得到能够对该界面类型标识对应的界面的图像信息进行目标元素识别的元素识别模型。
本步骤通过使用对应于同一界面类型标识的多个样本界面的图像信息样本和目标元素位置样本对神经网络模型进行训练,并根据模型输出的位置信息识别结果与目标元素位置样本之间的相似度对模型参数进行调整,能够使模型广泛学习属于同一界面类型的多个界面中目标元素的视觉特征,从而得到具有更高可用性和准确度的元素识别模型。
步骤S103,获取目标界面的图像信息。
其中,目标界面可以是需要使用机器人流程自动化应用进行处理的计算机界面,目标界面可以包括但不限于是登录界面、订单确认界面。目标界面的图像信息可以通过屏幕截图等方式获取。
步骤S104,将目标界面的图像信息输入界面分类模型,得到由界面分类模型输出的界面类型标识。
本步骤主要是通过界面分类模型获取目标界面的界面类型标识。由于同一种类型的界面可以包含相同的目标元素以及一致的视觉特征,本步骤可以将目标界面的图像信息输入界面分类模型,获得由界面分类模型输出的界面类型标识,该界面分类模型可以用于从输入的图像信息中提取元素显示特征及根据元素显示特征对图像信息进行界面类型分类得到界面类型标识。
其中,属于同一种界面类型的界面通常具有相同/近似的元素显示特征,本步骤可以通过图像识别分类的方式确定目标界面的界面类型标识。其中,可以预先收集属于不同界面类型的多个界面的图像信息并分别标注每个图像信息对应的界面类型标识,然后使用这些数据对分类模型进行训练,得到能够根据输入的图像信息对目标界面所属的界面类型进行分类的界面分类模型。由此,本步骤可以通过将目标界面的图像信息输入该界面分类模型,由界面分类模型根据输入的图像信息直接得到目标界面对应的界面类型标识。其中,界面分类模型可以根据从输入的图像信息中提取的元素显示特征对图像信息进行界面类型分类得到界面类型标识。其中,界面分类模型可以包括特征提取部分以及分类部分,特征提取部分可以用于对输入的图像信息进行处理,提取图像信息中的元素显示特征,而分类部分可以根据特征提取部分得到的元素显示特征,计算图像信息属于各种界面类型的概率,并将其中概率值最大的界面类型作为输入的图像信息的界面类型,输出对应的界面类型标识。本步骤通过利用每种类型的界面通常具有相似的显示特征(视觉显示特征)的特点,将目标界面的图像信息输入界面分类模型获取其对应的界面类型标识,能够自动化地确定目标界面的界面类型标识,而无需由使用者人工设置,能够进一步提高机器人流程自动化应用的工作效率,降低人力成本。
步骤S105,根据界面类型标识,确定界面类型标识对应的元素识别模型。
步骤S106,将目标界面的图像信息输入元素识别模型,得到由元素识别模型输出的目标元素在目标界面中的位置信息。
步骤S105和S106主要是根据界面类型标识选择对应的元素识别模型来识别目标元素的目标界面中的位置信息。
其中,基于在上述过程中构建的对应于不同界面类型标识的多个元素识别模型,当需要对目标界面的图像信息进行目标元素识别时,在步骤S105中,可以根据目标界面的界面类型标识查询适用于对该界面类型进行目标元素识别的元素识别模型,然后在步骤S106中将该目标界面的图像信息输入该元素识别模型,由元素识别模型根据图像信息识别出其中的目标元素,并输出目标元素在目标界面中的位置信息。
步骤S105和S106通过目标界面的界面类型标识选择对应的元素识别模型进行目标元素识别,并获得由元素识别模型输出的目标元素在目标界面中的位置信息,能够运用属于同一界面类型的界面之间,目标元素的显示具有共通性的特点,使用界面类型对应的元素识别模型对界面的目标元素进行识别得到其在目标界面中的位置信息。由此能够在属于同一界面类型的界面中复用该元素识别模型,有效减少对目标元素进行识别的开发成本。而且,由于元素识别模型针对特定的界面类型设置,因此能够针对不同类型的界面进行针对性的目标元素识别,实现对目标界面中目标元素的精准快速定位。
步骤S107,根据位置信息,触发对目标界面中的目标元素的元素交互操作。
本步骤中,根据获得的目标元素在目标界面中的位置信息,可以触发机器人流程自动化应用根据预设的脚本,在目标界面的对应位置上对目标元素进行元素交互操作(如点击、输入信息等)。其中,机器人流程自动化应用的脚本可以是预先针对属于同一种界面类型的界面而开发,可以包括需要对界面中各目标元素执行的元素交互操作的内容。其中,针对界面中不同类型的目标元素,可以预设不同的元素交互操作。以目标界面是测试的登录界面为例,当目标元素是用户名输入框时,其对应的元素交互操作可以是输入测试的用户名,当目标元素是密码输入框时,其对应的元素交互操作可以是输入测试的密码,当目标元素是登录按钮时,其对应的元素交互操作可以是点击操作。
在机器人流程自动化应用的脚本的开发过程中,可以预先针对各种界面类型所对应的目标元素以及交互操作逻辑,分别开发对应的脚本,然后在本步骤中,机器人流程自动化应用可以根据目标界面的界面标识,查询得到对应的脚本,并按照脚本内容执行在目标界面中的元素交互操作。
上述界面信息处理方法,获取目标界面的图像信息,将该图像信息输入界面分类模型,得到由界面分类模型输出的界面类型标识,该界面分类模型用于从输入的图像信息中提取元素显示特征及根据该元素显示特征对图像信息进行界面类型分类得到界面类型标识;然后根据界面类型标识确定界面类型标识对应的元素识别模型,将图像信息输入该元素识别模型,得到由元素识别模型输出的目标元素在目标界面中的位置信息,然后可以根据该位置信息触发对目标界面中的目标元素的元素交互操作。该方案能够针对多个界面类型标识,分别使用每个界面类型标识对应的训练样本对神经网络模型进行训练,能够得到分别对应于不同界面类型的元素识别模型。其中,通过将界面类型标识对应的训练样本中多个样本界面的图像信息样本输入神经网络模型,并根据其输出的目标元素的位置信息识别结果与多个样本界面的目标元素位置样本的相似度对模型进行训练,能够使模型广泛学习属于同一界面类型的多个界面中目标元素的视觉特征,从而可以得到具有更高可用性和准确度的元素识别模型。基于训练得到的对应于不同界面类型的元素识别模型,该方案还通过界面分类模型根据目标界面的图像信息的元素显示特征获得其在界面类型上分类得到的界面类型标识,从而识别出同一类界面,进而根据界面类型标识运用该类界面对应的元素识别模型识别并输出目标元素在该目标界面中的位置信息,由此可根据该位置信息触发机器人对目标界面中的目标元素的元素交互操作,从而能够使机器人流程自动化应用的脚本只需包含对目标元素的交互操作的规则而不必关注目标元素在界面中的位置,通过元素识别模型在同类型的多个界面的复用可以将机器人流程自动化应用的同一个脚本应用于同类型的多个界面中,并且无论目标元素在界面中的分布如何变化都无需修改脚本,能够大幅降低对机器人流程自动化应用的脚本进行开发和运维的成本。
在一个实施例中,上述步骤S107中的根据位置信息,触发对目标界面中的目标元素的元素交互操作之后,还可以包括:获取元素交互操作的操作结果;对指示元素交互操作失败的操作结果的数量进行统计,当数量符合预设条件时,调整元素识别模型的模型参数。
具体地,在对目标界面进行目标元素识别,并根据目标元素的位置信息触发对目标元素的元素交互操作后,还可以收集每次进行元素交互操作后的操作结果。
其中,操作结果可以是目标界面在元素交互操作后的变化情况。根据目标界面在元素交互操作后是否发生变化,可以确定对目标元素的元素交互操作是否成功执行。以目标界面是登录界面为例,对界面中的用户名输入框执行输入用户名的操作后,目标界面中应当出现输入的内容,而对界面中的登录按钮执行点击操作后,目标界面应当跳转至新界面或者是显示用于指示成功登录的信息。因此,若进行元素交互操作后,目标界面并未发生变化,则可认为该操作结果指示元素交互操作失败。
在收集对应于同一界面类型标识的目标界面的多个操作结果后,可以统计其中指示元素交互操作失败的操作结果的数量,然后将该数量与预设条件进行比对。示例性地,预设条件可以是数量阈值,当指示元素交互操作失败的操作结果的数量大于数量阈值时,可认为其符合预设条件。而在其他一些实施方式中,预设条件还可以是数量占比值,当指示元素交互操作失败的操作结果的数量占所有操作结果的数量大于数量占比值时,可以认为其符合预设条件。
然后,当指示元素交互操作失败的操作结果的数量符合预设条件时,可以判断该界面类型标识对应的元素识别模型的识别精度较低,因此可以对其进行模型参数的调整,以提高模型的识别准确率。
本实施例中,在应用元素识别模型进行目标元素识别后,还对其后续执行的元素交互操作的操作结果进行收集和统计,并根据指示失败的结果的数量,对元素识别模型的参数进行调整,从而能够获取模型在实际应用中的表现反馈,并不断完善元素识别模型,提高模型的识别准确率。
在一个实施例中,上述方法还包括:根据目标界面的界面类型标识,获取目标界面中各项目标元素对应的目标交互次序和目标交互动作;上述步骤S107中的根据位置信息,触发对目标界面中的目标元素的元素交互操作,可以包括:根据目标界面中各项目标元素对应的位置信息,触发按照目标交互次序,在目标界面的对应位置上执行目标交互动作。
具体地,由于属于同一种界面类型的界面包含相同的目标元素,并且通常都需要按照同样的交互次序对界面中的各项目标元素进行交互操作,因此可以根据目标界面的界面类型标识,获取该界面中各项目标元素对应的目标交互次序和目标交互动作,然后可以根据各项目标元素的位置信息,在目标界面上对各项目标元素进行定位,然后再按照目标交互次序,逐个对相应的目标元素执行对应的目标交互动作。而在其他一些实施方式中,也可以是根据各项目标元素的目标交互次序,依次从目标界面中定位对应的目标元素,并执行相应的目标交互动作。
示例性地,在一些实施方式中,各项目标元素对应的目标交互次序和目标交互动作可以在机器人流程自动化应用的脚本中设定。根据目标界面的界面类型标识,可以查询确定对应的脚本文件,然后由机器人流程自动化应用根据脚本文件,对目标界面中的目标元素进行目标交互操作。
本实施例中,结合实际场景中属于同一界面类型的不同界面都需要按照同样的次序对相同的目标元素执行交互动作的情况,针对不同的界面类型预先设置各项目标元素的交互次序和交互动作,从而能够在对目标界面进行交互操作的过程中,直接根据界面类型标识获取设置好的交互次序和交互动作,并使机器人流程自动化应用结合各项目标元素的位置信息,依次执行对应的交互动作。该方案能够使机器人流程自动化应用根据同一套目标交互次序和目标交互动作,顺利对属于同一界面类型的多个界面进行交互处理,而无需针对每个界面调整具体的交互方式,可以有效降低机器人流程自动化应用的脚本开发和运维成本。
在一个实施例中,如图3所示,本申请的方法还可以包括:
步骤S301,确定目标界面的界面类型标识是否与潜在目标元素之间存在关联关系。
具体地,在属于同一界面类型的不同界面中,除了可以包含相同的目标元素外,部分界面还可以包含需要进行交互操作的潜在目标元素。示例性的,对于界面类型为登录界面的界面,除了用户名输入框、密码输入框、登录按钮等目标元素外,还可以包含验证码输入框等潜在目标元素。
其中,针对每种界面类型,可以根据属于该类型的界面可能包含的潜在目标元素,设定界面类型标识与潜在目标元素之间的关联关系。从而,根据目标界面的界面类型标识,可以查询得到该标识是否与潜在目标元素之间存在关联关系
步骤S302,若存在,则检查对图像信息进行目标元素识别得到的识别结果是否包含潜在目标元素的位置信息。
具体地,当目标界面的界面类型标识与潜在目标元素之间存在关联关系时,可以进一步检查对目标界面的图像信息进行目标元素识别后所得到的识别结果是否包含潜在目标元素的位置信息。可以理解的是,对于界面类型标识与潜在目标元素之间存在关联关系的界面类型,其对应的目标元素识别过程中除了对目标元素进行识别外,还可以对可能存在于目标界面中的潜在目标元素进行识别,当目标界面包含潜在目标元素时,其图像信息对应的识别结果将包含潜在目标元素的位置信息,而当目标界面未包含潜在目标元素时,识别结果将不包含潜在目标元素的位置信息。
步骤S303,若包含,则根据界面类型标识,获取潜在目标元素对应的潜在交互次序和潜在交互动作;根据潜在交互次序,调整各项目标元素对应的目标交互次序。
具体地,在识别结果中包含潜在目标元素的位置信息时,可认为目标界面中包含潜在目标元素。基于此,可以根据目标界面的界面类型标识,查询确定该潜在目标元素对应的潜在交互次序和潜在交互动作。其中,潜在交互次序可以是在对目标界面中的各项目标元素以及潜在目标元素进行交互操作时,该项潜在交互元素所对应的操作次序。进而,根据潜在目标元素对应的潜在交互次序,可以对目标界面中各项目标元素对应的目标交互次序进行适应性调整,得到调整后的目标交互次序。
进一步地,上述根据目标界面中各项目标元素对应的位置信息,触发按照目标交互次序,在目标界面的对应位置上执行目标交互动作的步骤,包括:
步骤S304,根据目标界面中各项目标元素和潜在目标元素对应的位置信息,触发按照调整后的目标交互次序和潜在交互次序,在目标界面的对应位置上执行目标交互动作或潜在交互动作。
具体地,根据此前确定的目标界面中各项目标元素以及潜在目标元素的位置信息,本步骤中可以触发机器人流程自动化应用,按照位置信息在目标界面中对各项元素进行定位,然后根据各项目标元素对应的目标交互次序以及潜在目标元素对应的潜在交互次序,对目标界面中对应于各项元素的位置上执行相应的目标交互动作或者是潜在交互动作。
示例性地,在一些实施方式中,对机器人流程自动化应用的脚本进行开发时,可以预先将可能出现的潜在目标元素对应的潜在交互次序和潜在交互动作,以及在存在该潜在目标元素的情况下,界面中各项目标元素的调整后的目标交互次序记载于脚本文件中,从而在上述步骤S303中,可以直接在脚本中获取潜在目标元素的潜在交互次序和潜在交互动作,以及各项目标元素对应的调整后的目标交互次序。而在步骤S304中,则可以触发机器人流程自动化应用,按照相应的脚本内容,依次在目标界面中各项目标元素和潜在目标元素对应的位置上执行对应的交互动作。
本实施例考虑了某些类型的界面可能在目标元素之外还存在潜在目标元素的情况,预先将界面类型标识与界面可能包含的潜在目标元素之间建立关联,然后在目标元素识别的结果指示目标界面中确实包含潜在目标元素时,进一步获取潜在目标元素对应的交互次序和交互动作,并适应性地调整目标元素对应的目标交互次序,从而能够整合对目标元素以及潜在目标元素的交互操作,使机器人流程自动化应用能够在后续处理中顺利完成对目标界面的交互操作。
为了进一步阐述本申请的界面信息处理方法,以下通过详细的实施例对其进行说明。
如图4所示,以界面类型标识为登录界面的目标界面为例,本实施例提供了一种对目标界面进行界面信息处理的方法,该方法可以由机器人流程自动化应用执行。
具体地,本实施例中的目标界面可以是金融机构的网站登录页面。当界面类型标识为登录界面时,该界面类型标识对应的目标元素可以包括用户名输入框、密码输入框、登录按钮,其对应的潜在目标元素可以包括验证码输入框。其中,针对不同的界面类型标识,可以预先设置不同的脚本内容,以及训练不同的元素识别模型。
其中,每种界面类型标识对应的脚本内容可以包含对该类型的界面中各项目标元素的目标交互次序和目标交互动作,并且当界面类型标识与潜在目标元素之间存在关联关系时,还可以包含潜在目标元素对应的潜在交互次序和潜在交互动作,以及根据潜在交互次序对各项目标元素的目标交互次序进行调整得到的调整后的目标交互次序。机器人流程自动化应用可以根据该脚本内容,在属于同一界面类型的界面上进行交互操作。
而每种界面类型标识对应的元素识别模型则可以对该类型的界面的图像信息进行图像识别,并输出目标元素在界面中的位置信息。而当界面类型标识与潜在目标元素之间存在关联关系时,还可以对图像中的潜在目标元素进行识别,当该界面包含潜在目标元素时,可以一并输出潜在目标元素在界面中的位置信息。其中,每种界面类型标识对应的元素识别模型可以使用该界面类型标识对应的训练样本对神经网络模型进行训练后得到。其中,该训练样本可以包括对应于该界面类型标识的多个样本界面的图像信息样本和目标元素位置样本。在训练过程中,可以将多个样本界面的图像信息样本输入待训练的神经网络模型,获取模输出的位置信息识别结果,然后根据位置信息识别结果与多个样本界面的目标元素位置样本的相似度,调整神经网络模型的模型参数,直至相似度达到预设阈值或者是参数的调整次数大于预设的最大调整次数,得到对应于该界面类型标识的元素识别模型。而在模型的实际应用过程中,还可以收集其得到的识别结果或者是后续进行交互操作后得到的操作结果,根据结果的反馈不断完善元素识别模型。
具体地,机器人流程自动化应用可以通过打开目标界面的链接而打开目标界面,并通过屏幕截图的方式获取目标界面的图像信息。然后,机器人流程自动化应用可以通过获取目标界面的标题、对目标界面的文字内容进行分析或者是将目标界面的图像信息输入分类模型等方式,确定目标界面对应的界面类型标识。在本实施例中,目标界面的界面类型标识为登录界面。
进一步地,机器人流程自动化应用可以根据登录界面的界面类型标识,查询并调用能够用于对目标界面进行图像识别的元素识别模型。通过将目标界面的图像信息输入元素识别模型,可以得到由元素识别模型输出的目标元素的位置信息。其中,由于本实施例中的目标界面包含潜在目标元素验证码输入框,因此元素识别模型还会输出潜在目标元素的位置信息。
与此同时,机器人流程自动化应用可以根据界面类型标识,查询确定对应的脚本内容,并且可以确定其与潜在目标元素之间存在关联关系。然后,基于元素识别模型输出的识别结果,机器人流程自动化应用可以确定目标界面中包含潜在目标元素,进而可以在脚本中确定潜在目标元素对应的潜在交互次序和潜在交互动作,以及各项目标元素对应的目标交互次序和目标交互动作。其中,各项目标元素对应的目标交互次序为根据潜在交互次序调整后得到的次序。
示例性地,在本实施例中,作为目标元素的用户名输入框、密码输入框、登录按钮的目标交互次序分别为1、2、4,而作为潜在目标元素的验证码输入框的潜在交互次序为3。基于此,机器人流程自动化应用可以先根据用户名输入框的位置信息,在目标界面中定位用户名输入框,并对其执行输入用户名的交互动作,然后可以根据密码输入框的位置信息,在目标界面中定位密码输入框,并对其执行输入密码的交互动作,然后再根据验证码输入框的位置信息,在目标界面中定位验证码输入框,并对其执行识别验证码和输入验证码的交互动作,最后,可以根据登录按钮的位置信息,在目标界面中定位登录按钮,并对其执行点击按钮的交互动作。由此,机器人流程自动化应用可以完成对目标界面的界面信息处理过程。可以理解的是,如图4所示,当目标界面中不包含潜在目标元素时,例如登录界面中不包含验证码输出框,则上述过程中,机器人流程自动化应用可以根据元素识别模型输出的未包含潜在目标元素的位置信息的识别结果,确定目标界面中不包含潜在目标元素,进而可以直接从脚本内容中确定各项目标元素的目标交互次序和目标交互动作,并依次在目标界面的相应位置上执行目标元素的目标交互动作。
本实施例中,可以使用机器人流程自动化应用,根据目标界面的界面类型标识确定用于对目标界面的图像信息进行识别的元素识别模型,并通过调用该模型实现对目标界面中的目标元素以及潜在目标元素进行定位。其中,元素识别模型是利用对应于同一界面类型标识的训练样本进行训练得到,因此其可以广泛学习属于同一界面类型的不同界面中目标元素的视觉特征,从而具有能够对同一类型界面进行准确的目标元素识别的能力。基于此,机器人流程自动化应用可以基于同一界面类型的不同界面之间视觉特征的一致性,对目标元素识别的逻辑进行统一识别处理,只要是符合该逻辑的界面,都可以通过套用同样的模型进行目标元素识别,而无需针对每个界面分别开发不同的元素定位脚本。而且,由于本方案中是通过图像识别的方式进行目标元素识别,因此其识别逻辑具有更强的版本适应性,即使界面上发生元素的位置、大小、字体等改动,只要界面仍然属于该界面类型,都不会影响元素识别模型对界面中的目标元素以及潜在目标元素的识别效果,也无需为界面发生的变化而对脚本进行频繁调整。其次,本实施例中机器人流程自动化应用还能够根据目标界面的界面类型标识确定对界面中的各项目标元素以及潜在目标元素的交互次序和交互动作,并结合其位置信息,完成在目标界面上的交互操作,其能够对同一类型的界面的交互操作逻辑进行收束,使其更符合开发人员的思维逻辑,开发人员在脚本的开发过程中只需关注针对各目标元素以及潜在目标元素的交互次序以及交互动作,而不必解释如何在每个界面中如何对不同的目标元素进行定位和交互,可以在保证交互操作顺利进行的同时,大幅降低对机器人流程自动化应用的脚本的开发和维护的复杂程度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的界面信息处理方法的界面信息处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个界面信息处理装置实施例中的具体限定可以参见上文中对于界面信息处理方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种界面信息处理装置500,包括:
样本获取模块501,用于获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;
训练模块502,用于针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;
界面获取模块503,用于获取目标界面的图像信息,将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;
识别模块504,用于根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;
交互模块505,用于根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
在一个实施例中,所述样本获取模块501,还用于:获取多个界面类型标识中每个界面类型标识对应的多个样本界面的图像信息样本;根据所述界面类型标识,确定所述多个样本界面对应的目标元素信息;根据所述目标元素信息,确定各项目标元素在每个所述样本界面中的位置信息;根据所述目标元素信息和所述位置信息,得到每个所述样本界面的目标元素位置样本;根据每个界面类型对应的多个样本界面的图像信息样本和目标元素位置样本,得到所述界面类型标识对应的训练样本。
在一个实施例中,所述装置500还包括:结果获取模块,用于获取所述元素交互操作的操作结果;调整模块,用于对指示所述元素交互操作失败的操作结果的数量进行统计,当所述数量大于预设阈值时,调整所述元素识别模型的模型参数。
在一个实施例中,所述装置500还包括:目标交互获取模块,用于根据所述目标界面的界面类型标识,获取所述目标界面中各项目标元素对应的目标交互次序和目标交互动作;所述交互模块505,还用于:根据所述目标界面中各项目标元素对应的位置信息,触发按照所述目标交互次序,在所述目标界面的对应位置上执行所述目标交互动作。
在一个实施例中,所述装置500还包括:潜在关系确定模块,用于确定所述目标界面的界面类型标识是否与潜在目标元素之间存在关联关系;潜在位置确定模块,用于若存在,则检查对所述图像信息进行目标元素识别得到的识别结果是否包含所述潜在目标元素的位置信息;潜在交互获取模块,用于若包含,则根据所述界面类型标识,获取所述潜在目标元素对应的潜在交互次序和潜在交互动作;根据所述潜在交互次序,调整所述各项目标元素对应的目标交互次序;所述交互模块505,还用于:根据所述目标界面中各项目标元素和潜在目标元素对应的位置信息,触发按照调整后的目标交互次序和潜在交互次序,在所述目标界面的对应位置上执行所述目标交互动作或所述潜在交互动作。
上述界面信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种界面信息处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (13)
1.一种界面信息处理方法,其特征在于,所述方法包括:
获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;
针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;
获取目标界面的图像信息;
将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;
根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;
将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;
根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
2.根据权利要求1所述的方法,其特征在于,所述获取多个界面类型标识中每个界面类型标识对应的训练样本,包括:
获取多个界面类型标识中每个界面类型标识对应的多个样本界面的图像信息样本;
根据所述界面类型标识,确定所述多个样本界面对应的目标元素信息;
根据所述目标元素信息,确定各项目标元素在每个所述样本界面中的位置信息;
根据所述目标元素信息和所述位置信息,得到每个所述样本界面的目标元素位置样本;
根据每个界面类型对应的多个样本界面的图像信息样本和目标元素位置样本,得到所述界面类型标识对应的训练样本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作之后,所述方法还包括:
获取所述元素交互操作的操作结果;
对指示所述元素交互操作失败的操作结果的数量进行统计,当所述数量符合预设条件时,调整所述元素识别模型的模型参数。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
根据所述目标界面的界面类型标识,获取所述目标界面中各项目标元素对应的目标交互次序和目标交互动作;
所述根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作,包括:
根据所述目标界面中各项目标元素对应的位置信息,触发按照所述目标交互次序,在所述目标界面的对应位置上执行所述目标交互动作。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定所述目标界面的界面类型标识是否与潜在目标元素之间存在关联关系;
若存在,则检查对所述图像信息进行目标元素识别得到的识别结果是否包含所述潜在目标元素的位置信息;
若包含,则根据所述界面类型标识,获取所述潜在目标元素对应的潜在交互次序和潜在交互动作;根据所述潜在交互次序,调整所述各项目标元素对应的目标交互次序;
所述根据所述目标界面中各项目标元素对应的位置信息,触发按照所述目标交互次序,在所述目标界面的对应位置上执行所述目标交互动作,包括:
根据所述目标界面中各项目标元素和潜在目标元素对应的位置信息,触发按照调整后的目标交互次序和潜在交互次序,在所述目标界面的对应位置上执行所述目标交互动作或所述潜在交互动作。
6.一种界面信息处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取多个界面类型标识中每个界面类型标识对应的训练样本;所述每个界面类型标识对应的训练样本,包括多个样本界面的图像信息样本和目标元素位置样本;所述目标元素位置样本用于指示目标元素在所述样本界面中的位置;
训练模块,用于针对每个所述界面类型标识,将对应的训练样本中多个样本界面的图像信息样本输入待训练的神经网络模型,根据所述待训练的神经网络模型输出的目标元素的位置信息识别结果与所述多个样本界面的目标元素位置样本的相似度,对所述待训练的神经网络模型进行训练,得到所述界面类型标识对应的元素识别模型;
界面获取模块,用于获取目标界面的图像信息,将所述目标界面的图像信息输入界面分类模型,得到由所述界面分类模型输出的界面类型标识;其中,所述界面分类模型用于从输入的图像信息中提取元素显示特征及根据所述元素显示特征对所述图像信息进行界面类型分类得到界面类型标识;
识别模块,用于根据所述界面类型标识,确定所述界面类型标识对应的元素识别模型;将所述目标界面的图像信息输入所述元素识别模型,得到由所述元素识别模型输出的目标元素在所述目标界面中的位置信息;
交互模块,用于根据所述位置信息,触发对所述目标界面中的目标元素的元素交互操作。
7.根据权利要求6所述的装置,其特征在于,所述样本获取模块,还用于:
获取多个界面类型标识中每个界面类型标识对应的多个样本界面的图像信息样本;根据所述界面类型标识,确定所述多个样本界面对应的目标元素信息;根据所述目标元素信息,确定各项目标元素在每个所述样本界面中的位置信息;根据所述目标元素信息和所述位置信息,得到每个所述样本界面的目标元素位置样本;根据每个界面类型对应的多个样本界面的图像信息样本和目标元素位置样本,得到所述界面类型标识对应的训练样本。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
结果获取模块,用于获取所述元素交互操作的操作结果;
调整模块,用于对指示所述元素交互操作失败的操作结果的数量进行统计,当所述数量大于预设阈值时,调整所述元素识别模型的模型参数。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述装置还包括:
目标交互获取模块,用于根据所述目标界面的界面类型标识,获取所述目标界面中各项目标元素对应的目标交互次序和目标交互动作;
所述交互模块,还用于:根据所述目标界面中各项目标元素对应的位置信息,触发按照所述目标交互次序,在所述目标界面的对应位置上执行所述目标交互动作。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
潜在关系确定模块,用于确定所述目标界面的界面类型标识是否与潜在目标元素之间存在关联关系;
潜在位置确定模块,用于若存在,则检查对所述图像信息进行目标元素识别得到的识别结果是否包含所述潜在目标元素的位置信息;
潜在交互获取模块,用于若包含,则根据所述界面类型标识,获取所述潜在目标元素对应的潜在交互次序和潜在交互动作;根据所述潜在交互次序,调整所述各项目标元素对应的目标交互次序;
所述交互模块,还用于:根据所述目标界面中各项目标元素和潜在目标元素对应的位置信息,触发按照调整后的目标交互次序和潜在交互次序,在所述目标界面的对应位置上执行所述目标交互动作或所述潜在交互动作。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410023052.4A CN118012552A (zh) | 2024-01-08 | 2024-01-08 | 界面信息处理方法、装置、设备、介质和计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410023052.4A CN118012552A (zh) | 2024-01-08 | 2024-01-08 | 界面信息处理方法、装置、设备、介质和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118012552A true CN118012552A (zh) | 2024-05-10 |
Family
ID=90945445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410023052.4A Pending CN118012552A (zh) | 2024-01-08 | 2024-01-08 | 界面信息处理方法、装置、设备、介质和计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118012552A (zh) |
-
2024
- 2024-01-08 CN CN202410023052.4A patent/CN118012552A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844217B (zh) | 对应用的控件进行埋点的方法及装置、可读存储介质 | |
CN109408384B (zh) | 软件应用的测试方法、装置、处理器及电子装置 | |
CN108416198B (zh) | 人机识别模型的建立装置、方法及计算机可读存储介质 | |
CN111767228B (zh) | 基于人工智能的界面测试方法、装置、设备和介质 | |
CN109298840A (zh) | 基于数据湖的数据集成方法、服务器及存储介质 | |
CN110110726A (zh) | 电力设备铭牌识别方法、装置、计算机设备和存储介质 | |
CN110222336A (zh) | 财务报告分析方法、装置、计算机设备和存储介质 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN111124863B (zh) | 智能设备性能测试方法、装置及智能设备 | |
CN114219971A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN112527676A (zh) | 模型自动化测试方法、装置及存储介质 | |
CN115658523A (zh) | 一种人机交互界面的自动控制及测试方法和计算机设备 | |
CN117036843A (zh) | 目标检测模型训练方法、目标检测方法和装置 | |
CN112395182A (zh) | 自动化测试方法、装置、设备及计算机可读存储介质 | |
CN116611449A (zh) | 异常日志解析方法、装置、设备及介质 | |
CN116451175A (zh) | 一种多模态数据处理方法、装置、电子设备及存储介质 | |
CN118012552A (zh) | 界面信息处理方法、装置、设备、介质和计算机程序产品 | |
CN116932360A (zh) | 一种页面测试方法、装置、计算机设备和存储介质 | |
CN113468076A (zh) | 应用程序的异常测试方法、装置、设备及存储介质 | |
CN116860952B (zh) | 基于人工智能的rpa智能应答处理方法及系统 | |
CN117555955B (zh) | 数据转换方法、数据转换装置、计算机设备、存储介质 | |
CN111598159B (zh) | 机器学习模型的训练方法、装置、设备及存储介质 | |
CN117808816B (zh) | 图像异常检测方法、装置及电子设备 | |
Edwards | Digital Twin Framework and Auto-Linking for Management of Legacy Assets | |
Watanabe et al. | Layout Cross-Browser Failure Classification for Mobile Responsive Design Web Applications: Combining Classification Models Using Feature Selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |