CN113495839A - 测试页面的生成方法、装置、电子设备和存储介质 - Google Patents

测试页面的生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113495839A
CN113495839A CN202010268342.7A CN202010268342A CN113495839A CN 113495839 A CN113495839 A CN 113495839A CN 202010268342 A CN202010268342 A CN 202010268342A CN 113495839 A CN113495839 A CN 113495839A
Authority
CN
China
Prior art keywords
page
pages
pixels
level
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010268342.7A
Other languages
English (en)
Inventor
葛鹏
尹飞
顾友达
王亚楠
郭冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202010268342.7A priority Critical patent/CN113495839A/zh
Publication of CN113495839A publication Critical patent/CN113495839A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了测试页面的生成方法、装置、电子设备和存储介质,涉及页面测试技术领域。具体实现方案为:获取多个页面;分别从每个页面之中提取每个页面的骨架结构图;根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合;以及从聚类集合之中选择至少一个页面作为测试页面。该方法通过根据页面的骨架结构图进行对页面进行聚类,从每个聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。

Description

测试页面的生成方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及页面测试技术领域,尤其涉及一种测试页面的生成方法、装置、电子设备和存储介质。
背景技术
在大型商业平台中,用户会生成数量庞大的前端页面,其包含的模板和用户数据可能会导致前端页面渲染异常给平台用户体验带来损害,同时如此庞大的前端页面无法通过遍历的方式进行测试保证其质量。因此,通常从大量的页面中筛选待测试页面,然后对筛选出的待测试页面进行测试。
目前,在筛选页面时,主要使用随机策略从所有页面中选取部分作为测试集合。但是,这种方式模板的覆盖率较低。
发明内容
本申请提出一种测试页面的生成方法、装置、电子设备和存储介质,用于解决相关技术中,生成测试页面的方法存在模板的覆盖率较低的问题。
本申请一方面实施例提出了一种测试页面的生成方法,包括:
获取多个页面;
分别从每个页面之中提取每个页面的骨架结构图;
根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合;以及
从聚类集合之中选择至少一个页面作为测试页面。
本申请实施例的测试页面的生成方法,通过首先获取多个页面,分别从每个页面之中提取每个页面的骨架结构图,然后根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合,之后从聚类集合之中选择至少一个页面作为测试页面。由此,通过根据页面的骨架结构图进行对页面进行聚类,从每个聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。
本申请另一方面实施例提出了一种测试页面的生成装置,包括:
获取模块,用于获取多个页面;
提取模块,用于分别从每个页面之中提取每个页面的骨架结构图;
聚类模块,用于根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合;以及
选择模块,用于从聚类集合之中选择至少一个页面作为测试页面。
本申请实施例的测试页面的生成装置,通过获取多个页面,分别从每个页面之中提取每个页面的骨架结构图,根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合,从聚类集合之中选择至少一个页面作为测试页面。由此,通过根据页面的骨架结构图进行对页面进行聚类,从每个聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。
本申请另一方面实施例提出了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的测试页面的生成方法。
本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的测试页面的生成方法。
上述申请中的实施例具有如下有益效果:上述通过获取多个页面,分别从每个页面之中提取每个页面的骨架结构图,根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合,从聚类集合之中选择至少一个页面作为测试页面。因为采用根据多个页面的骨架结构图对页面进行聚类,并从聚类形成的聚类集合中选择页面作为测试页面的技术手段,所以克服了相关技术中,获取测试页面的方法存在模板覆盖率低的问题,进而达到提高测试页面对模板的覆盖率的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种测试页面的生成方法的流程示意图;
图2为本申请实施例提供的另一种测试页面的生成方法的流程示意图;
图3为一个网页页面图;
图4为图3所示页面的骨架结构图;
图5为本申请实施例提供的另一种测试页面的生成方法的流程示意图;
图6为本申请实施例提供的一种页面元素切分示意图;
图7为本申请实施例提供的另一种测试页面的生成方法的流程示意图;
图8为本申请实施例提供的另一种测试页面的生成方法的流程示意图;
图9为本申请实施例提供的另一种测试页面的生成方法的流程示意图;
图10为本申请实施例提供的一种3层卷积网络的示意图;
图11为本申请实施例提供的另一种测试页面的生成方法的流程示意图;
图12为本申请实施例提供的一种测试页面的生成装置的结构示意图;
图13为根据本申请实施例的测试页面的生成方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的测试页面的生成方法、装置、电子设备和存储介质。
本申请实施例,针对相关技术中,获取测试页面的方法存在模板覆盖率低的问题,提出一种测试页面的生成方法。
本申请实施例的测试页面的生成方法,通过提取每个页面的骨架结构图,根据页面的骨架结构图进行对页面进行聚类,从每个聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。
图1为本申请实施例提供的一种测试页面的生成方法的流程示意图。
本申请实施例的测试页面的生成方法,可由本申请实施例提供的测试页面的生成装置执行,该装置可配置于电子设备中,以实现根据页面的骨架结构图进行对页面进行聚类,从聚类集合中选择页面作为测试页面。
如图1所示,该测试页面的生成方法包括:
步骤101,获取多个页面。
由于模板和数据共同决定了页面的渲染展现,但是通过模板和数据无法完全推断出页面的最终展现结果,因此,本实施例中,直接获取模板和数据渲染展现后的页面。比如,大型商业平台中,可以获取数量庞大的页面。
可以理解的是,这里获取的多个页面为待测试页面。
步骤102,分别从每个页面之中提取每个页面的骨架结构图。
页面是由大量的文字、图片等组成的,而文字和图片的具体内容对于页面分类是没有价值的,相反这类冗余信息会干扰聚类结果。因此,本实施例中,从每个页面中提取每个页面的骨架结构图。
其中,骨架结构图是指页面中的文字、图片等内容所在区域形成的结构图。也就是说,页面中哪些区域是由文字构成的,哪些区域是由图片构成的以及它们的排列组合方式。
可以理解的是,页面的骨架结构图体现了页面所用模板情况。
在提取骨架结构图时,可以先确定页面的展示内容,然后确定展示内容的外观特征比如大小、位置等,之后在预设的图形库中搜索与展示内容的外观特征匹配的图形信息,将图形信息对应的图像作为页面的骨架结构图。
步骤103,根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合。
由于页面的骨架结构图可以体现页面所用模板的情况。那么,根据页面的骨架结构图对多个页面进行聚类,可以将具有相似或相同骨架结构图的页面聚集为一类,形成多个聚类集合,从而将页面分为多个类别。
在具体进行聚类时,可以采用现有的K-means聚类、最大最小距离聚类算法等,对页面的骨架结构图进行聚类。
步骤104,从聚类集合之中选择至少一个页面作为测试页面。
本实施例中,具有相似或相同骨架结构图的页面会聚集为一类,那么从每个聚类集合中选择至少一个页面作为测试页面,从而可以使得获得的测试页面覆盖大量的页面模板。
本申请实施例中,通过提取每个页面的骨架结构图,根据页面的骨架结构图进行对页面进行聚类,从每个聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。
在本申请的一个实施例中,可通过图2所示的方式,提取页面的骨架结构图。图2为本申请实施例提供的另一种测试页面的生成方法的流程示意图。
如图2所示,上述分别从每个页面之中提取每个页面的骨架结构图,包括:
步骤201,从页面之中提取页面之中的多个元素。
本实施例中,页面中的元素可以是文字、图形等。在提取页面中的元素时,可以先获取页面的截图,然后对页面的截图进行OCR识别、噪点检测等,从而提取页面中的元素。
步骤202,分别获取页面之中多个元素的元素类型和元素轮廓。
由于不同页面同一位置,元素的类型不同或者元素轮廓不同,那么这两个页面的模板可能不同。因此,本实施例中,针对每个页面中的元素,获取每个元素的元素类型和元素轮廓。
其中,元素类型包括:文字、图片等;元素轮廓可以指元素的尺寸,比如元素的长和宽。
步骤203,根据元素类型和元素轮廓对多个元素进行聚合。
在页面中,相邻元素之间可能类型相同,为了获取页面的骨架结构图,可以对相邻的元素类型相同的元素进行聚合。
具体地,将相邻的、元素类型相同的元素聚合为一个整体,那么将参与聚合的元素的元素轮廓合并,得到聚合后元素的元素轮廓。
步骤204,根据聚合之后的多个元素生成页面的骨架结构图。
本实施例中,可分别用不同的元素代表不同的元素类型的区域,根据聚合后各个元素的元素类型和元素轮廓,可以绘制页面的骨架结果图。
比如,用红色代表图片轮廓,用蓝色代表文字轮廓,根据聚合后元素类型和轮廓,可以生成页面的骨架结构图。
举例而言,图3为一个网页页面图,图4为图3所示页面的骨架结构图。其中,图4中竖线区域表示文字区域,斜线区域表示图片区域。
本申请实施例中,在分别从每个页面之中提取每个页面的骨架结构图时,从页面之中提取所述页面之中的多个元素,分别获取页面之中多个元素的元素类型和元素轮廓,根据元素类型和元素轮廓对多个元素进行聚合,根据聚合之后的多个元素生成页面的骨架结构图。由此,通过提取页面中的元素,根据元素类型和元素轮廓,得到网页的骨架结构图更加精准,从而提高了聚类的准确性。
在本申请的一个实施例中,可以通过图5的方式,提取页面中的元素。图5为本申请实施例提供的另一种测试页面的生成方法的流程示意图。
如图所示,上述从页面之中提取页面之中的多个元素,包括:
步骤301,获取页面的页面图像,并获取页面图像之中每个像素的像素值。
本实施例中,可以对所有渲染展现的页面进行截图,以获取页面的页面图像,在具体实现时,可以采用Selenium Grid集群进行截图。
由于页面图像中,同一元素的像素相同或比较接近,基于此,在获取页面图像后,获取页面图像中每个像素的像素值。
步骤302,根据每个像素的像素值对页面图像进行第一轮切割,以生成多个第一级元素。
由于页面图像中,同一元素的像素相同或比较接近,基于此,可以利用页面中每个像素的像素值提取页面中的元素。
具体地,根据每个像素的像素值对页面图像进行第一轮切割,生成多个第一级元素。由于页面中元素通常具有一定长度和宽度,为了完整、精准的提取页面元素,那么可以对页面图像进行横向切割和纵向切割。
更具体地,可以对页面图像逐行像素扫描,基于整行像素的像素值是否发生变化确定纵向的尺寸,然后进行逐列像素扫描,基于整列像素的像素值是否发生变化确定横向的尺寸。由此,可以得到多个第一级元素。
步骤303,分别依次对多个第一级元素进行N轮切割以生成多个第N级元素。
由于第一级元素的粒度比较大,可以依次对每个第一级元素继续进行切割N轮切割,生成多个第N级元素。其中,N为正整数。
比如N为1,那么依次对每个第一级元素继续进行切割,生成第二级元素。若N为2,那么依次对每个第一级元素继续进行切割,生成第二级元素,然后再依次对每个第二元素进行切割,生成多个第三级元素。
需要说明的是,N的取值可以根据需要进行设置,本实施例对此不作限定。
步骤304,判断多个第N级元素是否还能进行进一步切割。
由于页面中的元素不能无限进行切割,因此,在经过N轮切割生成多个第N级元素后,可判断多个第N级元素是否还能进一步切割。具体地,可以根据第N级元素的像素值在横向和纵横的变化确定。
步骤305,如果不能进行进一步切割,则将多个第N级元素作为多个元素。
如果第N级元素不能进行进一步切割,则将多个第N级元素作为从页面中提取的多个元素。如果第N级元素能进一步进行切割,则继续对第N级元素进行切割,生成第N+1级元素。
需要说明的是,本申请中可以每进行一轮切割后,判断生成的元素是否能进一步进行切割,也可在开始切割时,进行多轮切割后进行判断,之后每进行一轮切割后进行判断,具体的可以根据实际需要确定。
本申请实施例中,在从所述页面之中提取所述页面之中的多个元素时,通过获取页面图像中的每个像素的像素值,根据每个像素的像素值对页面图像进行第一轮切割,以生成多个第一级元素,然后分别依次对多个第一级元素进行N轮切割以生成多个第N级元素,判断多个第N级元素是否还能进行进一步切割,如果不能进行进一步切割,则将多个第N级元素作为多个元素。由此,可以获取细粒度的元素和元素轮廓。
为了提高元素的提取的准确性,对于上述根据所述每个像素的像素值对页面图像进行第一轮切割,以生成多个第一级元素,在本申请的一个实施例中,可根据页面图像中行像素的像素值进行切割。
具体地,获取页面图像之中第i行像素的像素值,其中i为正整数,判断第i行像素的像素值是否一致。如果第i行像素的像素值一致,则进一步判断第i行下面的第i+1行像素的像素值是否一致。如果第i+1行像素的像素值不一致,说明第i+1行像素可能为元素的部分像素,则将第i行像素作为第一级元素的上边界。如果第i+1行像素的像素值,则继续判断第i+2行像素的像素值是否一致。
若第i+1行像素作为第一级元素的上边界,则继续判断第i+2行像素的像素值是否一致,如果不一致,则继续判断第i+3行像素的像素值是否一致,直到第i+m行像素的像素值一致,则将第i+m行像素作为第一级元素的下边界,其中,m为正整数。
在具体实现时,对于一张页面图像,可以从上至下逐行判断,判断第1行像素的像素值是否一致,若第1行像素的像素值一致,则判断第2行像素的像素值是否一致,如果一致,则继续判断,若出现某行像素的像素值不一致,则将该行的上一行作为第一级元素的上边界,则继续判断下一行像素的像素值是否一致,当出现某行像素的像素值一致时,将其作为该第一级元素的下边界。然后继续判断下一行像素的像素值是否一致。由此,可以确定各元素的上边界和下边界,即确定各元素在纵向上的尺寸。
本申请实施例中,在根据每个像素的像素值对页面图像进行第一轮切割,以生成多个第一级元素时,可获取页面图像之中第i行像素的像素值,判断第i行像素的像素值是否一致,如果第i行像素的像素值一致,则进一步判断第i+1行像素的像素值是否一致,如果第i+1行像素的像素值不一致,则将第i行像素作为第一级元素的上边界,进一步判断第i+m行像素的像素值是否一致,如果第i+m行像素的像素值一致,则将第i+m行像素作为第一级元素的下边界。由此,根据页面图像中行像素的像素值,可以确定各第一级元素的上边界和下边界,提高了对页面图像中元素切割的准确性。
基于上述根据行像素的像素值,确定第一级元素的上边界和下边界的实施例,为了进一步提高元素提取的准确性,在本申请的一个实施例中,还可根据列像素的像素值,确定第一级元素的左边界和右边界。
具体地,获取页面图像之中第j列像素的像素值,其中j为正整数,判断第j列像素的像素值是否一致。如果第j列像素的像素值一致,则进一步判断第j+1列像素的像素值是否一致。如果第j+1列像素的像素值不一致,说明第j+1列像素可能为元素的部分像素,则将第j列像素作为第一级元素的左边界。如果第j+1列像素的像素值,则继续判断第j+2列像素的像素值是否一致。
若第j+1列像素作为第一级元素的左边界,则继续判断第j+2列行像素的像素值是否一致,如果不一致,则继续判断第j+3列像素的像素值是否一致,直到第j+n列像素的像素值一致,则将第j+n列像素作为第一级元素的右边界,其中,n为正整数。
在具体实现时,对于一张页面图像,可以从页面图像左侧第1列像素开始逐列向右判断,判断第1行像素的像素值是否一致,若第1列像素的像素值一致,则判断第2列像素的像素值是否一致,如果一致,则继续判断,若出现某列像素的像素值不一致,则将该列的前一列作为第一级元素的左边界,则继续判断下一列像素的像素值是否一致,当出现某列像素的像素值一致时,将其作为该第一级元素的右边界。然后继续判断下一列像素的像素值是否一致。由此,可以确定各元素的左边界和右边界,即确定各元素在横向上的尺寸。
本申请实施例中,在根据每个像素的像素值对页面图像进行第一轮切割,以生成多个第一级元素时,根据页面图像中各行像素的像素值是否一致,确定第一级元素的上边界和下边界,还获取页面图像之中第j列像素的像素值,判断第j列像素的像素值是否一致,如果第j列像素的像素值一致,则进一步判断第j+1列像素的像素值是否一致,如果第j+1列像素的像素值不一致,则将第j列像素作为第一级元素的左边界,进一步判断第j+n列像素的像素值是否一致,如果第j+n列像素的像素值一致,则将第j+n列像素作为第一级元素的右边界。由此,根据页面图像中行像素的像素值,可以确定各第一级元素的上边界和下边界,以及左边界和右边,从而可以确定各第一级元素的轮廓,生成各第一级元素,大大提高了对页面图像元素的提取的准确性。
下面以图6为例进行说明,图6为本申请实施例提供的一种页面元素切分示意图。图6中,对“你好_百度百科”的图像第一轮切割,其中,第一轮切割包含横向和纵向,先对图像逐行像素扫描,当扫描到“你好_百度百科”文字的上方一行(假设纵坐标为y1)时,整行像素的HSV值都是一致的,当扫描到该行文字的第一行(纵坐标为y2)时,整行像素的HSV值出现不一致的情况,因此将y1这一行作为文字的上边界,如果纵坐标为yn的行像素的像素值一致,则将yn这一行作为该元素的下边界类似,可以理解的是纵坐标为y2、y3到yn的行对应的行像素的像素值均不一致。在第一轮切割的逐行像素判断完后,再进行列扫描,可以得到各元素的左边界和右边界出。如此往复多轮切割后得到最细粒度的元素轮廓。
可见,本申请中根据像素的像素值逐行和逐列进行扫描,可以精确切分出页面图像中的文字、标点符号等,准确性较高。
在实际应用中,页面中同一位置元素类型不同,那么页面的骨架结构图也不相同。为了提高确定元素类型的准确性,在本申请的一个实施例中,可以根据图7所示的方式,获取页面中各元素的元素类型。图7为本申请实施例提供的另一种测试页面的生成方法的流程示意图。
如图7所示,上述分别获取页面之中多个元素的元素类型,包括:
步骤401,判断元素之中是否包括文字。
本实施例中,针对从页面中提取的每个元素,可以通过光学字符识别(OpticalCharacter Recognition,简称OCR)识别元素中是否包括文字。
步骤402,如果包括文字,则进一步获取元素之中像素的像素值的变化度。
在实际应用中,页面中的图片也可能包括文字,因此,在确定元素包括文字之后,进一步获取元素之中像素的像素值的变化度。比如,元素中像素的像素值的变化范围。
步骤403,如果变化度在预设范围之内,则判断元素为文字类型。
如果元素之中像素的像素值的变化度在预设的范围之内,可以认为文字不是图片中的文字,而是页面中包含的文字,则确定元素的类型为文字类型。
比如,通过OCR识别出某元素中包含文字、并且元素的HSV值单一,可以认为该元素为文字,即元素的元素类型为文字类型。
步骤404,如果变化度不在预设范围之内,则判断元素为图片类型。
如果元素中包括文字,但像素的像素值的变化度不在预设范围内,说明像素值比较丰富,可以认为该元素为图片,即该元素的元素类型为图片类型。
步骤405,如果元素之中不包括文字,则判断元素为图片类型。
如果元素中不包括文字,可以认为该元素为图片,该元素的元素类型为图片类型。
在实际应用中,也可利用噪点检测和像素值确定元素类型。具体地,如果元素的像素值的变化度不在预设范围内即像素值丰富、或者噪点数较多,可以认为该元素为图片类型。如果通过OCR识别出文字,但是像素值丰富、或者噪点数较多,也认为是图片,此时OCR识别出的文字是图片中的文案内容。
本申请实施例中,在分别获取页面之中多个元素的元素类型时,通过判断元素之中是否包括文字,如果包括文字,则进一步获取元素之中像素的像素值的变化度,如果变化度在预设范围之内,则判断元素为文字类型,如果所度不在预设范围之内,则判断所述元素为图片类型,如果元素之中不包括文字,则判断元素为图片类型。由此,根据元素中是否包括文字以及元素中像素的像素值的变化度,确定元素的元素类型,提高了元素类型的确定准确性。
为了进一步提高页面分类准确性,在本申请的一个实施例中,在根据页面的骨架结构图对页面进行聚类后,还可再对每个类别中的页面进行聚类,即对页面进行两级聚类。下面结合图8进行说明,图8为本申请实施例提供的另一种测试页面的生成方法的流程示意图。
如图8所示,上述根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合,包括:
步骤501,根据多个页面的骨架结构图对多个页面进行第一级聚类,以生成多个第一级聚类集合。
本实施例中,可根据页面的骨架结构图,对获取的页面进行第一级聚类,生成多个第一级聚类集合。由此,可以将骨架结构图类似或者相同的页面聚为一类,从而可以将页面分为骨架结构不同的多个第一级聚类集合。也就是说,每个第一级聚类集合具有不同类型的骨架结构图。
步骤502,对第一级聚类集合之中的页面进行第二级聚类,以生成多个聚类集合。
对于每个第一级聚类集合,虽然同一个第一级聚类集合中各页面的骨架结构图存在相同的情况,但也有可能存在类似的情况。基于此,为了进一步提高页面分类的精准性,可以对每个第一级聚集集合中的页面进行第二级聚类,从而将每个第一级聚集集合分为多个聚类集合。由此,对页面的每个第一级聚类集合进行聚类,可以生成多个聚类集合。
在进行第二级聚类时,可根据页面的骨架结构图,对第一级聚类集合中的页面继续进行聚类。也就是说,第一级聚类目的是将获取的页面成几个大类,第二级聚类是将每一个大类中的页面再细分为若干小类。
本申请实施例中,在根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合时,通过根据多个页面的骨架结构图对多个页面进行第一级聚类,以生成多个第一级聚类集合,对第一级聚类集合之中的页面进行第二级聚类,以生成多个聚类集合。由此,对页面进行两级聚类,提高了页面分类的准确性,从而进一步提高了测试页面的覆盖率。
虽然页面的骨架结构图已经抹去了文字、图片具体内容信息,但对于聚类来说数据维度仍然过高。为了提高聚类的效率,在本申请的一个实施例中,可以对骨架结构图进行编码以进行降维。下面结合图9进行说明,图9为本申请实施例提供的另一种测试页面的生成方法的流程示意图。
如图9所示,上述根据多个页面的骨架结构图对多个页面进行第一级聚类,以生成多个第一级聚类集合,包括:
步骤601,对多个页面的骨架结构图进行编码,获取多个页面的骨架结构图对应的编码特征。
为了提高聚类效率,在根据骨架结构图对页面进行聚类时,可先对每个页面的骨架结构图进行编码,生获取每个页面的骨架结构图对应的编码特征,其中,编码特征的维数小于骨架结构图的维数,从而达到降维的目的。
在具体实现时,可以采用自动编码器对多个页面的骨架结构图进行编码,这是一种无监督学习的数据压缩算法,其训练只需要图像本身而不需要标注标签,人工成本。
在自动编码器主要包含编码器和解码器两个部分,其中,编码器将输入数据压缩为较低维度的特征,解码器则压缩后的特征作为输入重建与原始图像尽可能相似的图像。
每一层编码器都具有卷积、激活、池化三个步骤,将输入数据通过采样压缩为维度更小的数据;每一层解码器都会有卷积、激活、上采样三个步骤,将输入数据还原成原始数据,但这里还原是有损的。
图10为本申请实施例提供的一种3层卷积网络的示意图。卷积网络的训练一般要经过多轮迭代,图10中,每一轮迭代将一个160*80的原始图像输入,通过第一层编码器1压缩为80*40的数据,第二层编码器2压缩为40*20的数据,第三层编码器压缩为20*10的数据,也就是最终的输出结果编码特征。
然后,将20*10的编码特征,经过解码器3上采样得到40*20的数据,经过解码器2上采样得到80*40的数据,经过解码器1上采样得到160*80的数据,也就是最终的解码数据。通过对比解码数据与输入的原始图像之间的差异得出损失,将这个损耗值作为反馈输入到优化器中去优化编码器、解码器参数。经过多轮迭代后将损失降低到一定范围内,卷积网络训练完成。
在实际使用中,可根据需要确定网络层数,本实施例中,输入数据可以是聚类的页面的骨架结构图,最后一层编码器输出的编码特征用于后续的聚类。
步骤602,对多个页面的骨架结构图对应的编码特征进行聚类,生成多个第一级聚类集合。
在对每个页面的骨架结构图进行编码,得到对应的编码特征后,根据每个页面对应的编码特征对页面进行聚类,生成多个第一级聚类集合。
具体地,可以采用手肘法则确定聚类簇数,并使用K-Means聚类对骨架结构图编码后得到编码特征进行聚类,生成多个第一级聚类集合。
其中,K-Means聚类是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度。那么,对于一个簇,它的畸变程度越低,代表簇内结构越紧密,畸变程度越高,代表簇内结构越松散,畸变程度会随着类别的增加而降低。但是,对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,可以考虑这个临界点为聚类性能较好的点。
在实际应用中,可遍历计算K值从1到N时的平均畸变程度,其中,N为大于1的整数,得到一个畸变曲线,这个曲线的特点是当K等于某个值时曲线会有一个明显的拐点,类似于人的手肘,这个拐点对应的K值为目标聚类簇数,即称为手肘法则。比如,K=4,那么对骨架结构图对应的编码特征进行聚类,生成4个第一级聚类集合。
需要说明的是,每个页面具有对应的页面标识,可用于标识页面的唯一性,其中,页面标识可以是页面的编号,也可以是其他标识信息。那么,在对页面的骨架结构图对应的编码特征进行聚类后,根据页面标识可以确定每个页面所在聚类集合。
本申请实施例中,在根据多个页面的骨架结构图对多个页面进行第一级聚类,以生成多个第一级聚类集合时,通过对多个页面的骨架结构图进行编码,获取多个页面的骨架结构图对应的编码特征,对多个页面的骨架结构图对应的编码特征进行聚类,生成多个第一级聚类集合。由此,通过对页面的骨架结构图进行编码降维后再进行聚类,提高了聚类效率。
实际应用中,模板和数据共同决定了页面的渲染展现,上述实施例保证了测试页面对模板的覆盖率,为了进一步提高对用户数据类型的覆盖率,在本申请的一个实施例中,在进行第二级聚类时,可根据页面中的元素进行聚类。下面结合图11进行说明,图11为本申请实施例提供的另一种测试页面的生成方法的流程示意图。
如图11所示,上述对第一级聚类集合之中的页面进行第二级聚类,以生成多个聚类集合,包括:
步骤701,从第一级聚类集合之中的每个页面中提取多个元素。
本实施例中,对每个第一级聚类集合,从第一级聚类集合之中的每个页面中提取多个元素,提取元素的具体方法,可参见上述实施例,故在此不再赘述。
步骤702,获取每个页面中多个元素的元素特征。
本实施例中,对每个页面中的元素,获取每个元素的元素特征,可将元素的元素特征描述为向量。其中,元素特征包括:元素类型、元素轮廓、元素位置等等。
其中,元素类型可以根据上述确定元素类型的方法获取;元素轮廓可在根据像素的像素值确定元素的边界时,获取元素轮廓;元素位置可以根据像素位置确定。
步骤703,根据每个页面中多个元素的元素特征对第一级聚类集合之中的页面进行第二级聚类,生成多个聚类集合。
针对每个第一级聚类集合,根据第一级聚类集合中每个页面中多个元素的元素特征,对页面进行聚类,即第二级聚类,生成多个聚类集合。由此,可以根据每个第一级聚类集合中页面包括的元素的元素特征,将每个第一级聚类集合分为多个聚类集合。
在获取多个聚类集合后,从每个聚类集合至少选择一个页面作为测试页面,由此,获取的测试页面不仅保证了模板的覆盖率,也保证了对用户数据类型的覆盖率。相比,现有技术中,通过随机选择获取测试页面的方法,提高了模板覆盖率和用户数据类型覆盖率。
比如有5000个待测页面,进行全量测试工作量太大。基于本申请实施例的测试页面生成方法,可以根据页面的骨架结构图,通过第一级聚类把5000个页面分成10个大类,得到10个第一级聚类集合,若要进行日常的全面回归测试时,可以从这10个大类中分别随机选择若干页面(比如10个)进行测试。
但是,在实际应用中可能存在一些情况,比如对其中某个大类A的页面进行了功能迭代,需要详细测试这个大类的页面,如果仍然随机从大类A中选取页面进行测试就无法满足数据类型覆盖率要求,此时可根据页面的元素特征对大类中的页面进行第二级聚类,通过第二级聚类将大类A分成5个小类A1-A5,从这5个小类中随机选取若干页面,可以在不增加测试量的情况下大大增加覆盖率。
本申请实施例中,在对第一级聚类集合之中的页面进行第二级聚类,以生成多个聚类集合时,通过从第一级聚类集合之中的每个页面中提取多个元素,获取每个页面中多个元素的元素特征,根据每个页面中所述多个元素的元素特征对第一级聚类集合之中的页面进行第二级聚类,生成多个聚类集合。由此,通过根据页面骨架图将页面进行第一级聚类,之后再根据页面的元素特征对第一级聚类集合进行第二级聚类,从两级聚类后生成的每个聚类集合中选择至少一个页面作为测试页面,不仅提高了模板覆盖率,也提高了用户数据类型覆盖率。
为了实现上述实施例,本申请实施例还提出一种测试页面的生成装置。图12为本申请实施例提供的一种测试页面的生成装置的结构示意图。
如图12所示,该测试页面的生成装置800包括:获取模块810、提取模块820、聚类模块830、选择模块840。
获取模块810,用于获取多个页面;
提取模块820,用于分别从每个页面之中提取每个页面的骨架结构图;
聚类模块830,用于根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合;以及
选择模块840,用于从聚类集合之中选择至少一个页面作为测试页面。
在本申请实施例一种可能的实现方式中,上述提取模块820,包括:
提取单元,用于从页面之中提取页面之中的多个元素;
获取单元,用于分别获取页面之中多个元素的元素类型和元素轮廓;
聚合单元,用于根据元素类型和元素轮廓对多个元素进行聚合;以及
生成单元,用于根据聚合之后的多个元素生成页面的骨架结构图。
在本申请实施例一种可能的实现方式中,上述提取单元,具体用于:
获取页面的页面图像,并获取页面图像之中每个像素的像素值;
根据每个像素的像素值对页面图像进行第一轮切割,以生成多个第一级元素;
分别依次对多个第一级元素进行N轮切割以生成多个第N级元素,其中,N为正整数;
判断多个第N级元素是否还能进行进一步切割;以及
如果不能进行进一步切割,则将多个第N级元素作为多个元素。
在本申请实施例一种可能的实现方式中,上述提取单元,具体用于:
获取页面图像之中第i行像素的像素值;
判断第i行像素的像素值是否一致,其中,i为正整数;
如果第i行像素的像素值一致,则进一步判断第i+1行像素的像素值是否一致;
如果第i+1行像素的像素值不一致,则将第i行像素作为第一级元素的上边界;
进一步判断第i+m行像素的像素值是否一致,其中,m为正整数;以及
如果第i+m行像素的像素值一致,则将第i+m行像素作为第一级元素的下边界。
在本申请实施例一种可能的实现方式中,上述提取单元,还用于:
获取页面图像之中第j列像素的像素值;
判断第j列像素的像素值是否一致,其中,j为正整数;
如果第j列像素的像素值一致,则进一步判断第j+1列像素的像素值是否一致;
如果第j+1列像素的像素值不一致,则将第j列像素作为第一级元素的左边界;
进一步判断第j+n列像素的像素值是否一致,其中,n为正整数;以及
如果第j+n列像素的像素值一致,则将第j+n列像素作为第一级元素的右边界。
在本申请实施例一种可能的实现方式中,上述获取单元,具体用于:
判断元素之中是否包括文字;
如果包括文字,则进一步获取元素之中像素的像素值的变化度;
如果变化度在预设范围之内,则判断元素为文字类型;
如果变化度不在预设范围之内,则判断元素为图片类型;以及
如果元素之中不包括文字,则判断元素为图片类型。
在本申请实施例一种可能的实现方式中,上述聚类模块830,包括:
第一聚类单元,用于根据多个页面的骨架结构图对多个页面进行第一级聚类,以生成多个第一级聚类集合;
第二聚类单元,用于对第一级聚类集合之中的页面进行第二级聚类,以生成多个聚类集合。
在本申请实施例一种可能的实现方式中,上述第一聚类单元,具体用于:
对多个页面的骨架结构图进行编码,获取多个页面的骨架结构图对应的编码特征;
对多个页面的骨架结构图对应的编码特征进行聚类,生成多个第一级聚类集合。
在本申请实施例一种可能的实现方式中,上述第一聚类单元,具体用于:
利用自动编码器对多个页面的骨架结构图进行编码。
在本申请实施例一种可能的实现方式中,上述第二聚类单元,具体用于:
从第一级聚类集合之中的每个页面中提取多个元素;
获取每个页面中多个元素的元素特征,元素特征包括:元素类型、元素尺寸和元素位置;
根据每个页面中多个元素的元素特征对第一级聚类集合之中的页面进行第二级聚类,生成多个聚类集合。
需要说明的是,前述测试页面的生成方法实施例的解释说明,也适用于该实施例的测试页面的生成装置,故在此不再赘述。
本申请实施例的测试页面的生成装置,通过获取多个页面,分别从每个页面之中提取每个页面的骨架结构图,根据多个页面的骨架结构图对多个页面进行聚类,以形成多个聚类集合,从聚类集合之中选择至少一个页面作为测试页面。由此,通过根据页面的骨架结构图进行对页面进行聚类,从每个聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图13所示,是根据本申请实施例的测试页面的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图13所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GU I的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的测试页面的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的测试页面的生成方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的测试页面的生成方法对应的程序指令/模块(例如,附图12所示的测试页面的生成装置800包括:获取模块810、提取模块820、聚类模块830、选择模块840)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的测试页面的生成方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试页面的生成电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至测试页面的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
测试页面的生成方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图13中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与测试页面的生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用AS I C(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过根据页面的骨架结构图进行对页面进行聚类,从聚类集合中选择页面作为测试页面,提高了测试页面对模板的覆盖率。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (22)

1.一种测试页面的生成方法,其特征在于,包括:
获取多个页面;
分别从每个页面之中提取所述每个页面的骨架结构图;
根据所述多个页面的骨架结构图对所述多个页面进行聚类,以形成多个聚类集合;以及
从所述聚类集合之中选择至少一个页面作为测试页面。
2.如权利要求1所述的测试页面的生成方法,其特征在于,所述分别从每个页面之中提取所述每个页面的骨架结构图,包括:
从所述页面之中提取所述页面之中的多个元素;
分别获取所述页面之中多个元素的元素类型和元素轮廓;
根据所述元素类型和元素轮廓对所述多个元素进行聚合;以及
根据聚合之后的多个元素生成所述页面的骨架结构图。
3.如权利要求2所述的测试页面的生成方法,其特征在于,所述从所述页面之中提取所述页面之中的多个元素,包括:
获取所述页面的页面图像,并获取所述页面图像之中每个像素的像素值;
根据所述每个像素的像素值对所述页面图像进行第一轮切割,以生成多个第一级元素;
分别依次对所述多个第一级元素进行N轮切割以生成多个第N级元素,其中,N为正整数;
判断所述多个第N级元素是否还能进行进一步切割;以及
如果不能进行进一步切割,则将所述多个第N级元素作为所述多个元素。
4.如权利要求3所述的测试页面的生成方法,其特征在于,所述根据所述每个像素的像素值对所述页面图像进行第一轮切割,以生成多个第一级元素,包括:
获取所述页面图像之中第i行像素的像素值;
判断所述第i行像素的像素值是否一致,其中,i为正整数;
如果所述第i行像素的像素值一致,则进一步判断所述第i+1行像素的像素值是否一致;
如果所述第i+1行像素的像素值不一致,则将所述第i行像素作为第一级元素的上边界;
进一步判断第i+m行像素的像素值是否一致,其中,m为正整数;以及
如果所述第i+m行像素的像素值一致,则将所述第i+m行像素作为第一级元素的下边界。
5.如权利要求4所述的测试页面的生成方法,其特征在于,还包括:
获取所述页面图像之中第j列像素的像素值;
判断所述第j列像素的像素值是否一致,其中,j为正整数;
如果所述第j列像素的像素值一致,则进一步判断所述第j+1列像素的像素值是否一致;
如果所述第j+1列像素的像素值不一致,则将所述第j列像素作为第一级元素的左边界;
进一步判断第j+n列像素的像素值是否一致,其中,n为正整数;以及
如果所述第j+n列像素的像素值一致,则将所述第j+n列像素作为第一级元素的右边界。
6.如权利要求2所述的测试页面的生成方法,其特征在于,所述分别获取所述页面之中多个元素的元素类型,包括:
判断所述元素之中是否包括文字;
如果包括所述文字,则进一步获取所述元素之中像素的像素值的变化度;
如果所述变化度在预设范围之内,则判断所述元素为文字类型;
如果所述变化度不在预设范围之内,则判断所述元素为图片类型;以及
如果所述元素之中不包括所述文字,则判断所述元素为图片类型。
7.如权利要求1所述的测试页面的生成方法,其特征在于,所述根据所述多个页面的骨架结构图对所述多个页面进行聚类,以形成多个聚类集合,包括:
根据所述多个页面的骨架结构图对所述多个页面进行第一级聚类,以生成多个第一级聚类集合;
对所述第一级聚类集合之中的页面进行第二级聚类,以生成所述多个聚类集合。
8.如权利要求7所述的测试页面的生成方法,其特征在于,所述根据所述多个页面的骨架结构图对所述多个页面进行第一级聚类,以生成多个第一级聚类集合,包括:
对所述多个页面的骨架结构图进行编码,获取所述多个页面的骨架结构图对应的编码特征;
对所述多个页面的骨架结构图对应的编码特征进行聚类,生成所述多个第一级聚类集合。
9.如权利要求8所述的测试页面的生成方法,其特征在于,所述对所述多个页面的骨架结构图进行编码,包括:
利用自动编码器对所述多个页面的骨架结构图进行编码。
10.如权利要求7所述的测试页面的生成方法,其特征在于,所述对所述第一级聚类集合之中的页面进行第二级聚类,以生成所述多个聚类集合,包括:
从所述第一级聚类集合之中的每个页面中提取多个元素;
获取每个页面中所述多个元素的元素特征,所述元素特征包括:元素类型、元素尺寸和元素位置;
根据每个页面中所述多个元素的元素特征对所述第一级聚类集合之中的页面进行第二级聚类,生成多个聚类集合。
11.一种测试页面的生成装置,其特征在于,包括:
获取模块,用于获取多个页面;
提取模块,用于分别从每个页面之中提取所述每个页面的骨架结构图;
聚类模块,用于根据所述多个页面的骨架结构图对所述多个页面进行聚类,以形成多个聚类集合;以及
选择模块,用于从所述聚类集合之中选择至少一个页面作为测试页面。
12.如权利要求11所述的测试页面的生成装置,其特征在于,所述提取模块,包括:
提取单元,用于从所述页面之中提取所述页面之中的多个元素;
获取单元,用于分别获取所述页面之中多个元素的元素类型和元素轮廓;
聚合单元,用于根据所述元素类型和元素轮廓对所述多个元素进行聚合;以及
生成单元,用于根据聚合之后的多个元素生成所述页面的骨架结构图。
13.如权利要求12所述的测试页面的生成装置,其特征在于,所述提取单元,具体用于:
获取所述页面的页面图像,并获取所述页面图像之中每个像素的像素值;
根据所述每个像素的像素值对所述页面图像进行第一轮切割,以生成多个第一级元素;
分别依次对所述多个第一级元素进行N轮切割以生成多个第N级元素,其中,N为正整数;
判断所述多个第N级元素是否还能进行进一步切割;以及
如果不能进行进一步切割,则将所述多个第N级元素作为所述多个元素。
14.如权利要求13所述的测试页面的生成装置,其特征在于,所述提取单元,具体用于:
获取所述页面图像之中第i行像素的像素值;
判断所述第i行像素的像素值是否一致,其中,i为正整数;
如果所述第i行像素的像素值一致,则进一步判断所述第i+1行像素的像素值是否一致;
如果所述第i+1行像素的像素值不一致,则将所述第i行像素作为第一级元素的上边界;
进一步判断第i+m行像素的像素值是否一致,其中,m为正整数;以及
如果所述第i+m行像素的像素值一致,则将所述第i+m行像素作为第一级元素的下边界。
15.如权利要求14所述的测试页面的生成装置,其特征在于,所述提取单元,还用于:
获取所述页面图像之中第j列像素的像素值;
判断所述第j列像素的像素值是否一致,其中,j为正整数;
如果所述第j列像素的像素值一致,则进一步判断所述第j+1列像素的像素值是否一致;
如果所述第j+1列像素的像素值不一致,则将所述第j列像素作为第一级元素的左边界;
进一步判断第j+n列像素的像素值是否一致,其中,n为正整数;以及
如果所述第j+n列像素的像素值一致,则将所述第j+n列像素作为第一级元素的右边界。
16.如权利要求12所述的测试页面的生成装置,其特征在于,所述获取单元,具体用于:
判断所述元素之中是否包括文字;
如果包括所述文字,则进一步获取所述元素之中像素的像素值的变化度;
如果所述变化度在预设范围之内,则判断所述元素为文字类型;
如果所述变化度不在预设范围之内,则判断所述元素为图片类型;以及
如果所述元素之中不包括所述文字,则判断所述元素为图片类型。
17.如权利要求11所述的测试页面的生成装置,其特征在于,所述聚类模块,包括:
第一聚类单元,用于根据所述多个页面的骨架结构图对所述多个页面进行第一级聚类,以生成多个第一级聚类集合;
第二聚类单元,用于对所述第一级聚类集合之中的页面进行第二级聚类,以生成所述多个聚类集合。
18.如权利要求17所述的测试页面的生成装置,其特征在于,所述第一聚类单元,具体用于:
对所述多个页面的骨架结构图进行编码,获取所述多个页面的骨架结构图对应的编码特征;
对所述多个页面的骨架结构图对应的编码特征进行聚类,生成所述多个第一级聚类集合。
19.如权利要求18所述的测试页面的生成装置,其特征在于,所述第一聚类单元,具体用于:
利用自动编码器对所述多个页面的骨架结构图进行编码。
20.如权利要求17所述的测试页面的生成装置,其特征在于,所述第二聚类单元,具体用于:
从所述第一级聚类集合之中的每个页面中提取多个元素;
获取每个页面中所述多个元素的元素特征,所述元素特征包括:元素类型、元素尺寸和元素位置;
根据每个页面中所述多个元素的元素特征对所述第一级聚类集合之中的页面进行第二级聚类,生成多个聚类集合。
21.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的测试页面的生成方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的测试页面的生成方法。
CN202010268342.7A 2020-04-08 2020-04-08 测试页面的生成方法、装置、电子设备和存储介质 Pending CN113495839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268342.7A CN113495839A (zh) 2020-04-08 2020-04-08 测试页面的生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268342.7A CN113495839A (zh) 2020-04-08 2020-04-08 测试页面的生成方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113495839A true CN113495839A (zh) 2021-10-12

Family

ID=77995614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268342.7A Pending CN113495839A (zh) 2020-04-08 2020-04-08 测试页面的生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113495839A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086774A (ja) * 2002-08-28 2004-03-18 Toshiba Corp 画面構造図モデリング装置、プログラム、画面構造図モデリング方法
US20090327237A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Web forum crawling using skeletal links
JP2012064136A (ja) * 2010-09-17 2012-03-29 Nippon Telegr & Teleph Corp <Ntt> テストデータ生成方法、テストデータ生成装置及びテストデータ生成プログラム
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置
US20120324341A1 (en) * 2011-06-17 2012-12-20 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
CN108563431A (zh) * 2018-04-20 2018-09-21 云宏信息科技股份有限公司 软件开发方法、装置、计算机可读存储介质以及电子设备
CN108629032A (zh) * 2018-05-09 2018-10-09 厦门南讯软件科技有限公司 一种基于延时加载的页面快速响应方法及装置
CN110781925A (zh) * 2019-09-29 2020-02-11 支付宝(杭州)信息技术有限公司 软件页面的分类方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086774A (ja) * 2002-08-28 2004-03-18 Toshiba Corp 画面構造図モデリング装置、プログラム、画面構造図モデリング方法
US20090327237A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Web forum crawling using skeletal links
JP2012064136A (ja) * 2010-09-17 2012-03-29 Nippon Telegr & Teleph Corp <Ntt> テストデータ生成方法、テストデータ生成装置及びテストデータ生成プログラム
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置
US20120324341A1 (en) * 2011-06-17 2012-12-20 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
CN108563431A (zh) * 2018-04-20 2018-09-21 云宏信息科技股份有限公司 软件开发方法、装置、计算机可读存储介质以及电子设备
CN108629032A (zh) * 2018-05-09 2018-10-09 厦门南讯软件科技有限公司 一种基于延时加载的页面快速响应方法及装置
CN110781925A (zh) * 2019-09-29 2020-02-11 支付宝(杭州)信息技术有限公司 软件页面的分类方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈毅: "基于DOM结构图的页面对象生成方法", 万方, 26 September 2019 (2019-09-26), pages 25 - 31 *

Similar Documents

Publication Publication Date Title
CN111753727B (zh) 用于提取结构化信息的方法、装置、设备及可读存储介质
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
US11875510B2 (en) Generating refined segmentations masks via meticulous object segmentation
CN113657390A (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN113221743B (zh) 表格解析方法、装置、电子设备和存储介质
CN110807139B (zh) 图片识别方法、装置、计算机可读存储介质和计算机设备
EP3852007A2 (en) Method, apparatus, electronic device, readable storage medium and program for classifying video
CN113343958B (zh) 一种文本识别方法、装置、设备及介质
CN111709428B (zh) 图像中关键点位置的识别方法、装置、电子设备及介质
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
CN111626027A (zh) 表格结构还原方法、装置、设备、系统和可读存储介质
US20140325405A1 (en) Auto-completion of partial line pattern
CN114863437A (zh) 文本识别方法、装置、电子设备和存储介质
CN111709338B (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN112465050A (zh) 一种图像模板选择方法、装置、设备及存储介质
CN113495839A (zh) 测试页面的生成方法、装置、电子设备和存储介质
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
Chi et al. Handwriting Recognition Based on Resnet-18
CN113947195A (zh) 模型确定方法、装置、电子设备和存储器
CN113204665A (zh) 图像检索方法、装置、电子设备及计算机可读存储介质
Obaidullah et al. Gabor filter based technique for offline Indic script identification from handwritten document images
CN112651484A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN111507267B (zh) 文档朝向检测方法、装置、设备以及存储介质
CN117474070B (zh) 模型剪枝方法、人脸识别模型训练方法及人脸识别方法
US20220222941A1 (en) Method for recognizing action, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination