CN111078546B - 一种表达页面特征的方法和电子设备 - Google Patents
一种表达页面特征的方法和电子设备 Download PDFInfo
- Publication number
- CN111078546B CN111078546B CN201911234580.XA CN201911234580A CN111078546B CN 111078546 B CN111078546 B CN 111078546B CN 201911234580 A CN201911234580 A CN 201911234580A CN 111078546 B CN111078546 B CN 111078546B
- Authority
- CN
- China
- Prior art keywords
- page
- text
- word
- target
- target state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 158
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 38
- 238000000605 extraction Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种表达页面特征的方法和电子设备,用以解决表达页面特征的向量的维度高,计算量大的问题。本方案首先获取目标状态页面中的至少一个文本词汇,然后通过预训练语言模型构建与至少一个文本词汇相对应的词向量,并确定各词向量在目标应用程序中的特征权重值,最后根据各词向量和相对应的特征权重值加权确定目标状态页面的状态语义向量,以表达目标状态页面的页面特征。通过上述方案能基于页面中的文本词汇低维度表达页面特征,便于后续在自动测试中动态规划路径等问题中进行学习。另外,本方案表达的页面特征贴近于目标状态页面的特征,状态语义向量可以切实有效地应用于测试动作的动态规划中。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种表达页面特征的方法和电子设备。
背景技术
在应用测试领域,为了对待测试应用执行自动化测试,往往需要利用预设的测试脚本按照测试路径执行测试步骤。测试过程中通常需要在应用程序中的不同页面之间执行跳转动作。若要合理地对应用程序进行测试,则需要合理规划基于页面状态的跳转动作。但应用程序的页面中显示的内容复杂,表达页面特征十分困难,部分表达方式采用高维度向量,计算量大,这就使得自动测试效率低,难以合理地执行跳转。
如何降低表达页面的特征的向量维度,是本申请所要解决的技术问题。
发明内容
本申请实施例的目的是提供一种表达页面特征的方法和电子设备,用以解决表达页面特征的向量的维度高,计算量大的问题。
第一方面,提供了一种表达页面特征的方法,包括:
获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
确定各所述词向量在所述目标应用程序中的特征权重值;
根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征。
第二方面,提供了一种测试应用程序的方法,包括:
获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
确定各所述词向量在所述目标应用程序中的特征权重值;
根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征;
在所述目标状态页面的状态语义向量所表达的页面特征与测试内容相对应时,对所述目标状态页面执行与所述测试内容相对应的测试操作。
第三方面,提供了一种电子设备,包括:
第一获取模块,获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
第一构建模块,通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
第一确定模块,确定各所述词向量在所述目标应用程序中的特征权重值;
第二确定模块,根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征。
第四方面,提供了一种电子设备,包括:
第二获取模块,获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
第二构建模块,通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
确定各所述词向量在所述目标应用程序中的特征权重值;
第三确定模块,根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征;
第四确定模块,在所述目标状态页面的状态语义向量所表达的页面特征与测试内容相对应时,对所述目标状态页面执行与所述测试内容相对应的测试操作。
第五方面,提供了一种电子设备,该移动终端包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。
第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面该的方法的步骤。
在本申请实施例中,首先获取目标状态页面中的至少一个文本词汇,然后通过预训练语言模型构建与至少一个文本词汇相对应的词向量,并确定各词向量在目标应用程序中的特征权重值,最后根据各词向量和相对应的特征权重值加权确定目标状态页面的状态语义向量,以表达目标状态页面的页面特征。通过上述方案能低维度表达页面特征,便于后续在自动测试中动态规划路径等问题中进行学习。另外,通过本方案得到的状态语义向量能贴近被测应用不同功能页面的分类定义,表达的页面特征贴近于目标状态页面的特征,状态语义向量可以切实有效地应用于测试动作的动态规划中。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本说明书实施例提供的一种表达页面特征的方法的流程示意图之一;
图2a是本说明书实施例提供的一种表达页面特征的方法的流程示意图之二;
图2b是本说明书实施例提供的一种表达页面特征的方法的流程示意图之三;
图3是本说明书实施例提供的一种表达页面特征的方法的流程示意图之四;
图4是本说明书实施例提供的一种表达页面特征的方法的流程示意图之五;
图5a是本说明书实施例提供的一种表达页面特征的方法的流程示意图之六;
图5b是本说明书实施例提供的一种表达页面特征的方法的流程示意图之七;
图6是本说明书实施例提供的一种表达页面特征的方法的流程示意图之八;
图7a是本说明书实施例提供的一种表达页面特征的方法的流程示意图之九;
图7b是本说明书实施例提供的一种表达页面特征的方法的流程示意图之十;
图8是本说明书实施例提供的一种表达页面特征的方法的流程示意图之十一;
图9是本说明书实施例提供的一种电子设备的结构示意图;
图10是本说明书实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
在应用测试领域,往往需要针对页面的当前状态规划测试路径,这种路径规划问题可以构造为马尔可夫随机过程。马尔可夫随机过程由一系列时间维度上的离散状态组成,即S0,S1,...St,其中下标t可以表示状态时间片标识,它可以是随时间连续递增的。每一个马尔可夫状态表达了一个时间片内被测应用的页面所处的位置或状态等信息,而马尔可夫状态转移可以代表应用中不同页面之间跳转迁移关系。所以,测试路径规划问题可以视为自动探索或寻找最优的基于页面状态的跳转动作策略,以实现智能化测试用例轨迹生成工作。
在强化学习中,应用程序(Application,APP)页面的马尔可夫状态表达方式例如可以包括像素图原始特征表达或者由特征工程生成的特征表达。其中,像素图原始特征表达可以简化前期特征工程带来的工作复杂性,但同样也引入了如下新问题:
1)有处理价值的应用原始像素图数据量较大,即便进行图像压缩,压缩后分辨率也在[200X 300X 3]的像素规模,这是典型的高维数据,需要较大规模深度卷积神经网络处理,并且还需在马尔可夫随机过程中进行连续识别,计算效率较低。
2)不同应用程序的应用界面往往不同,界面设计没有固定的规则,由不同的设计师提供,这就使得通过图像来表征页面的特征十分困难,很难学习到对应用测试路径规划决策有帮助的图像特征,并且对于一种应用程序进行训练得到的模型很难适用于另一种应用程序,即很难进行跨应用的迁移学习。
为了解决现有技术中存在的问题,本实施例提供一种表达页面特征的方法,虽然移动应用界面设计五花八门,但页面上的文本却能提供有价值的语义信息,这些语义信息可以用来识别页面状态和构建跳转逻辑。本实施例中将应用程序界面简化页面文本。这就使得一个应用程序简化为了一个小型的“网站”,它由一系列的“网页”组成,每个“网页”由其代表的应用页面文本构成,而“网页”之间的单向链接则由应用界面上可触发跳转的链接构成。那么,应用程序测试路径规划问题就可以在简化的“网站”内进行。
如图1所示,本实施例提供的表达页面特征的方法包括以下步骤:
S11:获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
S12:通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
S13:确定各所述词向量在所述目标应用程序中的特征权重值;
S14:根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征。
在步骤S11中,可以通过UI控件树获取目标状态页面中的文本词汇,也可以对目标状态页面执行截图,通过光学字符识别(Optical Character Recognition,OCR)等图像识别方式识别截图中的文本词汇。
在步骤S12中,预训练语言模型例如可以为BERT、Word2vec、GloVe等语言模型,在本实施例中以BERT模型为例进行说明。BERT(Bidirectional Encoder Representationsfrom Transformers)是2018年由谷歌提出的用于自然语言理解的预训练模型。它已经基于海量、泛领域文本语料库预训练出的网络模型参数,可帮助简化专有领域语言模型构建工作。本专利使用BERT模型生成页面文本中各个词向量,它由768维特征组成。通过本实施例提供的方案,采用语言模型进行APP的状态表达,向量维度压缩至[1X 768],有效的避免了图像像素表示的高维数据特征情况。
如果采用像素图进行状态特征表示,则向量维度高,包含样式信息较多,同类应用程序界面间的规律性较低,训练效果不好,训练得到的模型难以广泛应用。本实施例提取语义信息进行页面状态表达,将向量维度降低至[1X 768],较低的向量维度便于后续动态规划问题进行学习。另外,语义信息更贴近应用程序不同功能页面的分类定义,同类应用程序的设定大致相同,因此用于动态规划更切实有效。
在步骤S13中,可采用TF-IDF(term frequency–inverse document frequency)方法确定各所述词向量在所述目标应用程序的特征权重值。其中,TF-IDF是一种信息检索领域的统计方法,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其中,TF代表词频(Term Frequency),IDF代表逆文本频率指数(Inverse Document Frequency)。
在步骤S14中,当词向量的数量为多个时,对每个词向量和相对应的特征权重值进行加权计算,得到目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征。在本实施例中,可以使用TF-IDF值作为应用界面文本中每个BERT词向量的权重,并最终将所有的BERT向量加权求和生成可以代表应用程序界面的语义向量。
与通过像素位图表达应用程序页面的方法相比,本实施例提供的方案基于页面中文字内容构建相应语言模型,作为状态表达,可以用于解决应用程序测试的路径规划等问题。本实施例方案基于应用程序各页面文字信息进行数据收集,构建TF-IDF模型,针对采集到的词汇可以根据需求采用语言模型构建词向量,最后采用词向量及其特征权重值加权确定该页面状态信息的表示。本实施例能低维度表达页面特征,便于后续在自动测试中动态规划路径等问题中进行学习。另外,通过本方案得到的状态语义向量能贴近被测应用不同功能页面的分类定义,表达的页面特征贴近于目标状态页面的特征,状态语义向量可以切实有效地应用于测试动作的动态规划中。除此之外,本实施例采用语言模型对状态空间进行建模,可避免不同应用程序UI界面样式不同所带来的状态噪声,能广泛适用于各种不同的应用程序。
基于上述实施例提供的方案,较优的,在获取目标状态页面中的至少一个文本词汇之前,如图2a所示,还包括以下步骤:
S21:收集所述目标应用程序包含的至少一个状态页面的页面信息;
S22:从所述至少一个状态页面的页面信息中提取应用程序文本;
S23:根据所述应用程序文本,通过语言模型生成与所述目标应用程序相对应的领域词库和逆文本频率词库,其中,所述领域词库用于表征所述目标应用程序中的文本分词特征,所述逆文本频率词库用于表征文本在所述目标应用程序中的相关性特征。
在本实施例中,目标状态页面可以是一个APP展示的页面,在步骤S21中收集的页面信息可以为目标应用程序中包含的多个状态页面的页面信息。参见图2b,首先可以遍历APP页面信息进行收集,收集到的页面信息可以包括目标状态页面的截图和目标状态页面的UI控件树信息。然后针对收集到的页面信息进行文本抽取,例如可以通过OCR识别、控件树文本信息抽取等方式进行文本抽取。由于抽取得到的文本中往往包含一些无用信息,较优的,可以对抽取得到的文本进行数据清洗,以优化随后生成的词库,具体可以包括去除标点符号、去除数字信息等。执行数据清洗后可以进行数据处理,具体可以包括根据N-Gram方法提取领域词库,以及计算逆文本频率IDF构建逆文本频率IDF词库,当然,也可以根据实际需求选用其他的方式生成领域词库和逆文本频率词库。
通过本实施例提供的方案,能通过收集目标应用程序的页面信息,并基于提取的应用程序文本生成领域词库和逆文本频率词库。其中,生成的领域词库和逆文本频率词库与目标应用程序相对应。其中,领域词库可以用于表征目标应用程序中的文本分词特征,可以通过领域词库对目标应用程序中的任一个界面中提取的文本进行合理分词。而逆文本频率IDF词库可以用于确定词汇与目标应用程序的相关性,以确定词汇对目标应用程序的特征权重值。
基于上述实施例提供的方案,较优的,如图3所示,上述步骤S11,获取目标状态页面中的至少一个文本词汇,包括:
S31:获取所述目标状态页面中的文本,其中,所述目标状态页面中的文本包括从所述目标状态页面的图像中识别得到的第一文本,和/或,从所述目标状态页面包含的控件中抽取得到的第二文本;
S32:根据所述领域词库对目标状态页面中的文本进行分词,得到至少一个文本词汇。
在本实施例步骤S31中,获取目标状态页面中的文本。具体可以从目标状态页面的截图中通过文字识别方法识别得到第一文本,其中的文字识别方法例如可以是OCR识别方法,也可以根据实际情况先对截图进行图像预处理,然后对预处理的图片通过合适的文字识别技术进行识别。获取目标状态页面中的文本也可以首先获取该页面的UI控件树,然后对其中的控件进行文字信息抽取,以得到第二文本。
在获取目标状态页面中的文本之后,可以根据预先生成的目标应用程序的领域词库对目标状态页面中的文本进行分词,得到至少一个文本词汇。其中,由于领域词库是预先根据目标应用程序中的各个页面生成的,因此,在本步骤中分词所使用的领域词库适应于目标应用程序,通过领域词库能对获取的文本进行合理分词。
通过本实施例提供的方案,能获取目标状态页面中的文本,并对获取到的文本进行合理分词,以得到目标状态页面中的至少一个文本词汇。进而使随后构建的词向量能准确表征目标状态页面,随后基于词向量生成的状态语义向量能准确表征目标状态页面的页面特征。
基于上述实施例提供的方案,较优的,如图4所示,上述步骤S32,根据所述领域词库对目标状态页面中的文本进行分词,得到至少一个文本词汇,包括:
S41:对所述目标状态页面中的文本进行数据清洗;
S42:根据所述领域词库对经过数据清洗的目标状态页面中的文本进行分词,得到至少一个文本词汇。
通过上述实施例步骤S31,能获取到目标状态页面中的文本,但是通过步骤S31获取到的文本往往包含有无用信息,较优的,通过本实施例步骤S41对上述文本进行数据清洗,经过清洗的文本能更准确地表征目标状态页面的页面特征。具体来说,数据清洗可以包括去除文本中的标点符号,去除文本中的数字信息等。
随后,在步骤S42中,根据领域词库对经过数据清洗的目标状态页面中的文本进行分词,得到至少一个文本词汇。其中,对文本进行分词可以包括去停用词。得到的至少一个文本词汇能够准确地表征目标状态页面的页面特征。
本实施例提供的方案,通过数据清洗能保留文本信息中有用的部分并去除无用的部分,使数据清洗后的文本能准确地表征目标状态页面的页面特征。进而使随后根据文本信息生成的词向量能准确地表征目标状态页面,随后根据词向量生成的状态语义向量能准确地表征目标状态页面的页面特征。
基于上述实施例提供的方案,较优的,如图5a所示,所述预训练语言模型包括BERT模型,上述步骤S12,通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量,包括:
S51:对目标状态页面中的目标文本词汇执行字嵌入,得到字嵌入结果;
S52:对所述字嵌入结果执行编码,得到字向量;
S53:对所述字向量加权确定与所述目标文本词汇相对应的词向量。
在本实施例中,预训练语言模型例如可以是BERT模型。在步骤S51中,对目标状态页面中的目标文本词汇执行字嵌入,具体来说,可以是针对目标文本词汇中的每个字执行Embedding字嵌入。然后在步骤S52中,可以将字嵌入的结果送至Transfomer层执行编码,经过多层Transfomer后生成字向量,最后对上述字向量进行加权求和生成与目标文本词汇相对应的词向量。如图5b所示,获取的文本信息经过分词得到N个词汇,其中,XN代表第N个词汇,每个词汇经过Bert后转换为词向量。具体Bert算法如图5b右侧方框所示,针对词汇中的每个字经过Embedding后,送至Transfomer层,经过多层Transfomer后生成字向量T,最后进行加权求和生成词向量。
通过本实施例提供的方案,能通过预训练语言模型构建与至少一个文本词汇相对应的词向量,构建的词向量能准确表述文本词汇,进而随后根据词向量生成的状态语义向量能准确表述目标状态页面。
基于上述实施例提供的方案,较优的,如图6所示,上述步骤S13,确定各所述词向量在所述目标应用程序中的特征权重值,包括:
S61:根据目标状态页面中包含的文本词汇确定所述目标文本词汇在所述目标状态页面中的词频值,其中,所述目标文本词汇为所述词向量对应的文本词汇,所述词频值用于表征所述目标文本词汇在所述目标状态页面中出现的频次;
S62:根据所述逆文本频率词库确定所述词向量的逆文本频率指数值;
S63:根据所述词向量的词频值和逆文本频率指数值,确定各所述词向量在所述目标应用程序中的特征权重值。
在本实施例中,词频值可以是指TF值,逆文本频率指数值可以是指IDF值,而特征权重值可以是指TF-IDF值。通过上述实施例提供的步骤,可以在步骤S12中得到与文本词汇相对应的词向量。在步骤S61中,根据目标状态页面中包含的文本词汇确定目标文本词汇在所述目标状态页面中的词频值,其中,目标文本词汇为词向量对应的文本词汇,所述词频值用于表征所述目标文本词汇在所述目标状态页面中出现的频次。
随后,在步骤S62中,根据预先生成的逆文本频率词库确定词向量的逆文本频率指数IDF值。举例来说,可以在逆文本频率词库中检索词向量对应的文本,以确定词向量的IDF值。
最后,在步骤S63中,根据上述步骤S61确定的词向量的词频值和步骤S62确定的词向量的逆文本频率指数值,确定各词向量在目标应用程序中的特征权重值。
通过本实施例提供的方案,能根据词向量的词频值和逆文本频率指数值确定词向量在目标应用程序中的特征权重值。其中,逆文本频率指数值可以根据预先生成的与目标应用程序对应的IDF词库确定,通过本方案生成的特征权重值能准确表征词向量在目标应用程序中的特征,进而随后基于词向量生成的状态语义向量能准确表征目标状态页面。
基于上述实施例提供的方案,较优的,如图7a所示,上述步骤S61,根据目标状态页面中包含的文本词汇确定目标文本词汇在所述目标状态页面中的词频值,包括:
S71:将目标文本词汇在所述目标状态页面中出现的次数与所述目标状态页面包含的文本词汇的比值确定为目标文本词汇在所述目标状态页面中的词频值。
其中,上述步骤S62,根据所述逆文本频率词库确定所述词向量的逆文本频率指数值,包括:
S72:将所述预训练模型的语料库包含的文档总数与包含所述目标文本词汇的文档数量相除的二进对数确定为所述词向量的逆文本频率指数值。
在步骤S71中,具体可以通过以下公式1-1计算词频值:
其中i代表词汇索引(次数),j代表文档索引,即词频值为某个词在文章中出现的次数/该文章所包含的总词数。
在步骤S72中,可以通过以下公式1-2计算IDF值:
根据公式1-2可知,IDF值为log(语料库中文档总数/包含该词的文档数),较优的,计算时可以加入平滑处理,以优化计算结果。
在得到词向量的词频值和逆文本频率指数值之后,可以通过以下公式1-3对词向量进行加权求和,以得到目标状态页面的状态语义向量:
tf-idf=tfi,j*idfi (1-3)
其中,根据TF-IDF权值对Bert Vector进行加权求和,最终得到目标状态页面的状态语义向量V,该向量的维度可以为[1X 768]。
参见图7b,图中示出了生成目标状态页面的状态语义向量V的流程示意图。首先,针对状态页面进行文本抽取,状态页面可以为APP不同页面的截图和UI控件树信息,针对截图信息的文本抽取可以采用OCR识别方法,针对UI控件树信息的文本抽取可以采用XML解析过程。之后针对文本信息进行数据清洗,数据清洗包括去除标点符号,去除异常文本,去除数字信息等;之后结合领域词库对数据进行文本信息进行分词,去停用词;针对每个词汇引入词向量Bert vector,分别计算器各个词汇的TF-IDF值。其中IDF值可根据IDF词库进行提取。最后根据TF-IDF权值对Bert Vector进行加权求和以得到状态向量。
其中,APP各页面中各个状态栏均为词汇特征,因此无法使用Bert直接构建句子向量进行状态表达。本实施例提供的方案中采用Bert和TFIDF词频信息构建状态向量,融合了语义向量及词频分布的信息内容,能够准确表达APP页面状态。在表达目标状态页面时,如果采用图像进行表达,则存在向量维度高,包含样式信息较多,同类APP页面间的规律性较低的特点。本实施例提供的方案与采用页面像素图进行状态特征表示的方法相比,提取语义信息进行页面状态表达,将向量维度降低至[1X 768],向量降低,便于后续动态规划问题进行学习,同时语义信息更贴近APP不同功能页面的分类定义,同类APP的设定大致相同,因此本实施例提供的方案用于动态规划更切实有效。
为了解决现有技术中存在的问题,本实施例提供一种测试应用程序的方法,如图8所示,包括以下步骤:
S81:获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
S82:通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
S83:确定各所述词向量在所述目标应用程序中的特征权重值;
S84:根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征;
S85:在所述目标状态页面的状态语义向量所表达的页面特征与测试内容相对应时,对所述目标状态页面执行与所述测试内容相对应的测试操作。
在本申请实施例中,首先获取目标状态页面中的至少一个文本词汇,然后通过预训练语言模型构建与至少一个文本词汇相对应的词向量,并确定各词向量在目标应用程序中的特征权重值,最后根据各词向量和相对应的特征权重值加权确定目标状态页面的状态语义向量,以表达目标状态页面的页面特征。通过上述方案能低维度表达页面特征,便于后续在自动测试中动态规划路径等问题中进行学习。另外,通过本方案得到的状态语义向量能贴近被测应用不同功能页面的分类定义,表达的页面特征贴近于目标状态页面的特征,状态语义向量可以切实有效地应用于测试动作的动态规划中。
为了解决现有技术中存在的问题,本实施例提供一种电子设备90,如图9所示,包括:
第一获取模块91,获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
第一构建模块92,通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
第一确定模块93,确定各所述词向量在所述目标应用程序中的特征权重值;
第二确定模块94,根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征。
本实施例提供的电子设备能实现上述一种表达页面特征的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
基于上述实施例提供的电子设备,较优的,还包括预处理模块,用于:
收集所述目标应用程序包含的至少一个状态页面的页面信息;
从所述至少一个状态页面的页面信息中提取应用程序文本;
根据所述应用程序文本,通过语言模型生成与所述目标应用程序相对应的领域词库和逆文本频率词库,其中,所述领域词库用于表征所述目标应用程序中的文本分词特征,所述逆文本频率词库用于表征文本在所述目标应用程序中的相关性特征。
基于上述实施例提供的电子设备,较优的,第一获取模块91用于:
获取所述目标状态页面中的文本,其中,所述目标状态页面中的文本包括从所述目标状态页面的图像中识别得到的第一文本,和/或,从所述目标状态页面包含的控件中抽取得到的第二文本;
根据所述领域词库对目标状态页面中的文本进行分词,得到至少一个文本词汇。
基于上述实施例提供的电子设备,较优的,预处理模块用于:
对所述目标状态页面中的文本进行数据清洗;
根据所述领域词库对经过数据清洗的目标状态页面中的文本进行分词,得到至少一个文本词汇。
基于上述实施例提供的电子设备,较优的,所述预训练语言模型包括BERT模型,第一构建模块92用于:
对目标状态页面中的目标文本词汇执行字嵌入,得到字嵌入结果;
对所述字嵌入结果执行编码,得到字向量;
对所述字向量加权确定与所述目标文本词汇相对应的词向量。
基于上述实施例提供的电子设备,较优的,第一确定模块93用于:
根据目标状态页面中包含的文本词汇确定所述目标文本词汇在所述目标状态页面中的词频值,其中,所述目标文本词汇为所述词向量对应的文本词汇,所述词频值用于表征所述目标文本词汇在所述目标状态页面中出现的频次;
根据所述逆文本频率词库确定所述词向量的逆文本频率指数值;
根据所述词向量的词频值和逆文本频率指数值,确定各所述词向量在所述目标应用程序中的特征权重值。
基于上述实施例提供的电子设备,较优的,第一确定模块93用于:
将目标文本词汇在所述目标状态页面中出现的次数与所述目标状态页面包含的文本词汇的比值确定为目标文本词汇在所述目标状态页面中的词频值。
其中,所述根据所述逆文本频率词库确定所述词向量的逆文本频率指数值,包括:
将所述预训练模型的语料库包含的文档总数与包含所述目标文本词汇的文档数量相除的二进对数确定为所述词向量的逆文本频率指数值。
为了解决现有技术中存在的问题,本实施例还提供一种电子设备100,如图10所示,包括:
第二获取模块101,获取目标状态页面中的至少一个文本词汇,所述目标页面为目标应用程序展现的页面;
第二构建模块102,通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
第三确定模块103,确定各所述词向量在所述目标应用程序中的特征权重值;
第四确定模块104,根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征;
测试模块105,在所述目标状态页面的状态语义向量所表达的页面特征与测试内容相对应时,对所述目标状态页面执行与所述测试内容相对应的测试操作。
本实施例提供的电子设备能实现上述一种测试应用程序的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
优选的,本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种表达页面特征的方法和/或一种测试应用程序的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种表达页面特征的方法和/或一种测试应用程序的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (7)
1.一种表达页面特征的方法,其特征在于,包括:
获取目标状态页面中的至少一个文本词汇,所述目标状态页面为目标应用程序展现的页面;
通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
确定各所述词向量在所述目标应用程序中的特征权重值;
根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征;
其中,在获取目标状态页面中的至少一个文本词汇之前,还包括:
收集所述目标应用程序包含的至少一个状态页面的页面信息;
从所述至少一个状态页面的页面信息中提取应用程序文本;
根据所述应用程序文本,通过语言模型生成与所述目标应用程序相对应的领域词库和逆文本频率词库,其中,所述领域词库用于表征所述目标应用程序中的文本分词特征,所述逆文本频率词库用于表征文本在所述目标应用程序中的相关性特征。
2.如权利要求1所述的方法,其特征在于,获取目标状态页面中的至少一个文本词汇,包括:
获取所述目标状态页面中的文本,其中,所述目标状态页面中的文本包括从所述目标状态页面的图像中识别得到的第一文本,和/或,从所述目标状态页面包含的控件中抽取得到的第二文本;
根据所述领域词库对目标状态页面中的文本进行分词,得到至少一个文本词汇。
3.如权利要求2所述的方法,其特征在于,根据所述领域词库对目标状态页面中的文本进行分词,得到至少一个文本词汇,包括:
对所述目标状态页面中的文本进行数据清洗;
根据所述领域词库对经过数据清洗的目标状态页面中的文本进行分词,得到至少一个文本词汇。
4.如权利要求1~3任一项所述的方法,其特征在于,所述预训练语言模型包括BERT模型,所述通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量,包括:
对目标状态页面中的目标文本词汇执行字嵌入,得到字嵌入结果;
对所述字嵌入结果执行编码,得到字向量;
对所述字向量加权确定与所述目标文本词汇相对应的词向量。
5.如权利要求4所述的方法,其特征在于,确定各所述词向量在所述目标应用程序中的特征权重值,包括:
根据目标状态页面中包含的文本词汇确定所述目标文本词汇在所述目标状态页面中的词频值,其中,所述目标文本词汇为所述词向量对应的文本词汇,所述词频值用于表征所述目标文本词汇在所述目标状态页面中出现的频次;
根据所述逆文本频率词库确定所述词向量的逆文本频率指数值;
根据所述词向量的词频值和逆文本频率指数值,确定各所述词向量在所述目标应用程序中的特征权重值。
6.如权利要求5所述的方法,其特征在于,根据目标状态页面中包含的文本词汇确定目标文本词汇在所述目标状态页面中的词频值,包括:
将目标文本词汇在所述目标状态页面中出现的次数与所述目标状态页面包含的文本词汇的比值确定为目标文本词汇在所述目标状态页面中的词频值;
其中,所述根据所述逆文本频率词库确定所述词向量的逆文本频率指数值,包括:
将预训练模型的语料库包含的文档总数与包含所述目标文本词汇的文档数量相除的二进对数确定为所述词向量的逆文本频率指数值。
7.一种电子设备,其特征在于,包括:
第一获取模块,获取目标状态页面中的至少一个文本词汇,所述目标状态页面为目标应用程序展现的页面;
第一构建模块,通过预训练语言模型构建与所述至少一个文本词汇相对应的词向量;
第一确定模块,确定各所述词向量在所述目标应用程序中的特征权重值;
第二确定模块,根据各所述词向量和相对应的特征权重值加权确定所述目标状态页面的状态语义向量,以表达所述目标状态页面的页面特征;
预处理模块,用于:
收集所述目标应用程序包含的至少一个状态页面的页面信息;
从所述至少一个状态页面的页面信息中提取应用程序文本;
根据所述应用程序文本,通过语言模型生成与所述目标应用程序相对应的领域词库和逆文本频率词库,其中,所述领域词库用于表征所述目标应用程序中的文本分词特征,所述逆文本频率词库用于表征文本在所述目标应用程序中的相关性特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911234580.XA CN111078546B (zh) | 2019-12-05 | 2019-12-05 | 一种表达页面特征的方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911234580.XA CN111078546B (zh) | 2019-12-05 | 2019-12-05 | 一种表达页面特征的方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078546A CN111078546A (zh) | 2020-04-28 |
CN111078546B true CN111078546B (zh) | 2023-06-16 |
Family
ID=70313007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911234580.XA Active CN111078546B (zh) | 2019-12-05 | 2019-12-05 | 一种表达页面特征的方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078546B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459842A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于nlp和kg的手机app自动测试方法 |
CN112565250B (zh) * | 2020-12-04 | 2022-12-06 | 中国移动通信集团内蒙古有限公司 | 一种网站识别方法、装置、设备及存储介质 |
CN113569044B (zh) * | 2021-06-28 | 2023-07-18 | 南京大学 | 一种基于自然语言处理技术的网页文本内容的分类方法 |
CN114821616A (zh) * | 2022-04-24 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 页面表征模型训练的方法、装置及计算设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999001831A1 (en) * | 1997-07-03 | 1999-01-14 | Activeword Systems, Inc. | A semantic user interface |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7979793B2 (en) * | 2007-09-28 | 2011-07-12 | Microsoft Corporation | Graphical creation of a document conversion template |
CN109948036B (zh) * | 2017-11-15 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 一种分词词项权重的计算方法和装置 |
CN108090178B (zh) * | 2017-12-15 | 2020-08-25 | 北京锐安科技有限公司 | 一种文本数据分析方法、装置、服务器和存储介质 |
US11126789B2 (en) * | 2017-12-21 | 2021-09-21 | Battelle Energy Alliance, Llc | Method to convert a written procedure to structured data, and related systems and methods |
CN108415953B (zh) * | 2018-02-05 | 2021-08-13 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
CN108804512B (zh) * | 2018-04-20 | 2020-11-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109086265B (zh) * | 2018-06-29 | 2022-10-25 | 厦门快商通信息技术有限公司 | 一种语义训练方法、短文本中多语义词消歧方法 |
CN109214417A (zh) * | 2018-07-25 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 用户意图的挖掘方法及装置、计算机设备及可读介质 |
CN109977327A (zh) * | 2019-03-20 | 2019-07-05 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
CN111476026A (zh) * | 2020-03-24 | 2020-07-31 | 珠海格力电器股份有限公司 | 语句向量的确定方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-05 CN CN201911234580.XA patent/CN111078546B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999001831A1 (en) * | 1997-07-03 | 1999-01-14 | Activeword Systems, Inc. | A semantic user interface |
Also Published As
Publication number | Publication date |
---|---|
CN111078546A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078546B (zh) | 一种表达页面特征的方法和电子设备 | |
CN110309305B (zh) | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 | |
CN110516055A (zh) | 一种结合bert的用于教学任务的跨平台智能问答实现方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN110796160A (zh) | 一种文本分类方法、装置和存储介质 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
US11551114B2 (en) | Method and apparatus for recommending test question, and intelligent device | |
CN106934055B (zh) | 一种基于不充分模态信息的半监督网页自动分类方法 | |
DE102021202469A1 (de) | System und verfahren zur generativen textzusammenfassung | |
CN115860002B (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
CN117520561A (zh) | 直升机装配领域知识图谱构建的实体关系抽取方法及系统 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN114580397A (zh) | 一种谩骂评论的检测方法及系统 | |
CN110442759B (zh) | 一种知识检索方法及其系统、计算机设备和可读存储介质 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
CN114358579A (zh) | 评阅方法、评阅装置、电子设备以及计算机可读存储介质 | |
CN114153951A (zh) | 用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质 | |
CN115017886A (zh) | 文本匹配方法、文本匹配装置、电子设备及存储介质 | |
CN116127981A (zh) | 语义向量表示方法、装置、计算机设备和存储介质 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
CN116910377B (zh) | 一种网格事件分类搜索推荐方法及系统 | |
CN114942980B (zh) | 一种确定文本匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240412 Address after: 100016 building 4, Dongfang Science Park, 52 Jiuxianqiao Road, Chaoyang District, Beijing Patentee after: BEIJING TESTIN INFORMATION TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 102425 building 31, 69 Yanfu Road, Fangshan District, Beijing Patentee before: Beijing Yunju Intelligent Technology Co.,Ltd. Country or region before: China |