CN112434238A - 网页质量检测方法、装置、电子设备及存储介质 - Google Patents

网页质量检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112434238A
CN112434238A CN202011346144.4A CN202011346144A CN112434238A CN 112434238 A CN112434238 A CN 112434238A CN 202011346144 A CN202011346144 A CN 202011346144A CN 112434238 A CN112434238 A CN 112434238A
Authority
CN
China
Prior art keywords
webpage
detection item
web page
network resource
webpage detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011346144.4A
Other languages
English (en)
Inventor
庞敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202011346144.4A priority Critical patent/CN112434238A/zh
Publication of CN112434238A publication Critical patent/CN112434238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本方案涉及网页质量测试领域,提供一种网页质量检测方法及相关设备,所述方法包括:获取网页的网页地址,并根据第一指令爬取网页地址的网络资源,根据第二指令获取网页检测项和阈值;根据网页检测项分析网络资源,得到网页检测项的分类统计结果,输出网页检测项及网页检测项的分类统计结果,比较网页检测项的分类统计结果和阈值,并当网页检测项的分类统计结果超出阈值时,输出阈值,根据网页检测项的分类统计结果和阈值,使用预设的评分方法得到评分,并输出评分,根据网页检测项的分类统计结果与网页检测项的评分生成评估报告。本发明可以对请求异常请求超时这类情况进行预警,对于未发生异常但仍有优化空间的网页有很好的检测效果。

Description

网页质量检测方法、装置、电子设备及存储介质
技术领域
本发明涉及自动化测试领域,具体涉及一种网页质量检测方法、装置、电子设备及存储介质。
背景技术
现有技术中,网页检测方法通常是基于网络请求,检测请求状态,对请求异常请求超时这类情况进行预警,对于未发生异常但仍有优化空间的网页,不能很好的进行检测。
发明内容
鉴于以上内容,有必要提出一种网页质量检测方法、装置、电子设备及存储介质以实现对测试用例的快速排序。
本申请的第一方面提供一种网页质量检测方法,所述网页质量检测方法包括:
获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件;
根据第二指令获取网页检测项和所述网页检测项的阈值,所述网页检测项至少包括DOM元素数量、JS文件数量、CSS文件数量、图片数量;
根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果,输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果;
根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分,并输出所述评分;
根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告。
优选地,所述根据第一指令爬取所述网页地址的网络资源包括:
当检测到所述网页存在前端渲染时,根据第一指令,启动爬虫程序,使用所述爬虫程序对所述网页进行模拟渲染,并爬取所述网页地址的网络资源。
优选地,根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果包括:
获取所述网络资源中每一个对象的下载时间,所述对象包括头信息、主体、返回文件,所述对象占用容量;
获取所述网络资源中每一个对象的所述头信息;
获取所述网络资源中每一个对象的所述主体;
获取所述网络资源中每一个对象的所述容量;
获取所述网络资源中每一个对象的所述返回文件;
根据所述网页检测项对所述网络资源的每一个对象的下载时间、头信息、主体、容量及返回文件进行分类统计,得到每个所述网页检测项的分类统计结果。
优选地,对所述网络资源的返回文件进行分类统计包括:
根据所述网络资源中每一个对象的返回文件的文件名后缀,对所述返回文件进行分类,得到至少一个分类类型,对所述至少一个分类类型对应的所述返回文件进行统计,得到所述至少一个分类类型对应的所述返回文件的文件数量,将所述文件数量作为分类统计结果。
优选地,对所述网络资源的返回文件进行分类统计还包括:
使用文本分析方法分析所述网络资源中每一个对象的返回文件,得到所述返回文件的压缩判断结果,及获得所述返回文件的元素数量,将所述压缩判断结果和所述元素数量作为分类统计结果。
优选地,所述根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分包括:
设置所述网页检测项的满分;
比较所述网络资源中对应每个所述网页检测项的分类统计结果和每个所述网页检测项的阈值;
当所述网络资源中所述网页检测项的分类统计结果小于或等于所述网页检测项的阈值时,确定所述网页检测项的评分为所述网页检测项的满分;
当所述网络资源中所述网页检测项的分类统计结果大于所述网页检测项的阈值时,计算所述网络资源中所述网页检测项的分类统计结果与所述网页检测项的阈值之间的差值,计算所述差值占所述网页检测项的阈值的第一比例,使用所述网页检测项的满分乘所述第一比例得到第一分数,在所述网页检测项的满分中减去所述第一分数,得到所述网页检测项的评分,当所述网页检测项的评分小于预设阈值,确定所述网页检测项的所述评分为所述预设阈值。
优选地,所述根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告包括:
将所述网页检测项、所述网络资源中所述网页检测项的分类统计结果、所述网页检测项的阈值、所述网页检测项的评分及所述网页检测项的建议生成评估报告。
本发明的第二方面提供一种网页质量检测装置,所述网页质量检测装置包括:
网络资源获取模块,用于获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件;
检测项获取模块,用于根据第二指令获取网页检测项和所述网页检测项的阈值,所述网页检测项至少包括DOM元素数量、JS文件数量、CSS文件数量、图片数量;
分类统计模块,根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果,输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果;
评分模块,用于根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分,并输出所述评分;
报告生成模块,用于根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告。
本发明的第三方面提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现所述网页质量检测方法。
本发明的第四方面提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的网页质量检测方法。
本发明通过获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,根据第二指令获取网页检测项和所述网页检测项的阈值;根据所述网页检测项分析所述网络资源,得到所述网页检测项的分类统计结果,输出所述网页检测项及所述网页检测项的分类统计结果,比较所述网页检测项的分类统计结果和所述网页检测项的阈值,并当所述网页检测项的分类统计结果超出所述网页检测项的阈值时,输出所述网页检测项的阈值,根据所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到所述网页检测项的评分,并输出所述评分,根据所述网页检测项的分类统计结果与所述网页检测项的评分生成评估报告,可以对请求异常请求超时这类情况进行预警,对于未发生异常但仍有优化空间的网页有很好的检测效果。
附图说明
图1为本发明一实施方式中网页质量检测方法的流程图。
图2为本发明一实施方式中网页质量检测装置的结构图。
图3为本发明一实施方式中电子设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明网页质量检测方法应用在一个或者多个电子设备中。所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(DigitalSignal Processor,DSP)、嵌入式设备等。
所述电子设备可以是桌上型计算机、笔记本电脑、平板电脑及云端服务器等计算设备。所述设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例1
图1是本发明一实施方式中网页质量检测方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
参阅图1所示,所述网页质量检测方法具体包括以下步骤:
步骤S11,获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件。
在本发明的至少一个实施例中,所述获取网页地址还包括:
检测所述网页地址是否符合格式要求。
具体地,获取用户输入的网页地址,使用正则表达式检测所述网页地址是否符合格式要求。
例如,用来检测网页地址是否符合格式要的所述正则表达式可以是“^(?=^.{3,255}$)(http(s)?:\/\/)?(www\.)?[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-z A-Z0-9]{0,62})+(:\d+)*(\/\w+\.\w+)*$”,当用户输入的网页地址为“12345678”时,使用所述正则表达式检测出所述网页地址不符合格式要求。
在本发明的至少一个实施例中,所述根据第一指令爬取所述网页地址的网络资源包括:
根据所述第一指令,启动爬虫程序,使用所述爬虫程序爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件。
在本发明的其他实施方式中,所述根据第一指令爬取所述网页地址的网络资源包括:
当检测到所述网页存在前端渲染时,根据第一指令,启动爬虫程序,使用所述爬虫程序对所述网页进行模拟渲染,并爬取所述网页地址的网络资源。
例如,当所述网页使用JavaScript进行前端渲染时,启动基于request-html库的爬虫程序,使用所述基于request-html库的爬虫程序进行模拟渲染,并爬取所述网页地址的网络资源。
在本发明的其他实施方式中,所述爬取所述网页地址的网络资源还包括:
根据用户配置的所述检测时间和/或所述检测频率,爬取所述网页地址的网络资源。
例如,当用户配置的所述检测频率为一天三次时,按照一天三次的频率,每隔8小时爬取所述网页地址的网络资源。
步骤S12,根据第二指令获取网页检测项和所述网页检测项的阈值,所述网页检测项至少包括DOM元素数量、JS文件数量、CSS文件数量、图片数量。
在本发明的至少一个实施例中,获取所述网页检测项的阈值包括:
获取DOM元素数量的第一阈值、JS文件数量的第二阈值、CSS文件数量的第三阈值、图片数量的第四阈值。
在本发明的其他实施方式中,所述网页检测项还包括:
缺失资源、图片体积和尺寸的比例、资源是否经过gzip压缩、JS文件未做压缩、CSS文件未做压缩、在头部引用的JS文件数量。
在本发明的其他实施方式中,获取所述网页检测项的阈值还包括:
获取图片体积和尺寸的比例的第五阈值、在头部引用的JS文件数量的第六阈值。
在本发明的至少一个实施例中,所述网页检测项的内容可以预先进行配置。
例如,网页检测项可以是CSS文件数量,第三阈值可以是5。
在本发明的至少一个实施例中,每个所述网页检测项的阈值可以是不固定的,可以根据需要检测的网页的复杂程度设置阈值。
在本发明的至少一个实施例中,获取所述网页检测项的阈值之后还包括:
检测每个所述网页检测项的阈值是否属于预设数值范围。
例如,当网页检测项是CSS文件数量时,预设的数值范围可以是大于等于零的整数,当获取的所述第三阈值的数值为-1,判定所述第三四阈值不属于预设的数值范围。
在本发明的其他实施方式中,根据第二指令获取网页检测项和所述网页检测项的阈值之后还包括:
获取检测时间和/或检测频率和/或信息接收地址,所述信息接收地址可以是邮箱地址、手机号码或微信号码。
步骤S13,根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果,输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果。
在本发明的至少一个实施例中,根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果包括:
获取所述网络资源中每一个对象的下载时间,所述对象包括头信息、主体、返回文件,所述对象占用容量;
获取所述网络资源中每一个对象的所述头信息;
获取所述网络资源中每一个对象的所述主体;
获取所述网络资源中每一个对象的所述容量;
获取所述网络资源中每一个对象的所述返回文件;
根据所述网页检测项对所述网络资源的每一个对象的下载时间、头信息、主体、容量及返回文件进行分类统计,得到每个所述网页检测项的分类统计结果。
具体地,所述网络资源中一个对象的容量为所述内容占用的计算资源的容量,例如,加载网络资源中一个对象使用了10kb的计算资源,那么所述内容的容量为10kb。当所述内容为图片时,所述内容的容量为所述图片的体积,例如,当网络资源中一个对象为图片,且所述图片的体积为10kb时,所述内容的容量为10kb。
在本发明的至少一个实施例中,对所述网络资源的返回文件进行分类统计包括:
根据所述网络资源中每一个对象的返回文件的文件名后缀,对所述返回文件进行分类,得到至少一个分类类型,对所述至少一个分类类型对应的所述返回文件进行统计,得到所述至少一个分类类型对应的所述返回文件的文件数量,将所述文件数量作为分类统计结果。
例如,当一个对象对应的返回文件的文件名后缀为“.js”时,将所述文件分类为js文件。对所述网络资源中的js文件进行统计,得到js文件的数量。
又例如,当一个对象对应的返回文件的文件名后缀为“.css”时,将所述文件分类为css文件。对所述网络资源中的css文件进行统计,得到css文件的数量。
在本发明的至少一个实施例中,对所述网络资源的返回文件进行分类统计还包括:
使用文本分析方法分析所述网络资源中每一个对象的返回文件,得到所述返回文件的压缩判断结果,及获得所述返回文件的元素数量,将所述压缩判断结果和所述元素数量作为分类统计结果。
例如,当所述网络资源中一个对象对应的返回文件是js文件时,使用文本分析方法根据js文件中空格和换行符的数量判断所述js文件是否被压缩,将所述判断作为所述返回文件的分类统计结果。
又例如,使用文本分析方法获得html文件中DOM元素的数量,将所述DOM元素的数量作为所述返回文件的分类统计结果。
在本发明的一个实施例中,所述输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果还包括:
所述网页检测项的分类统计结果超出所述阈值时,输出所述阈值,并生成提示改进所述网页检测项的第一提示信息。
例如,当网页检测项为CSS文件数量,对应的第三阈值设置为5,网络资源中CSS文件数量的分类统计结果为4时,CSS文件数量的分类统计结果不超过第三阈值,则输出网页检测项(即CSS文件数量)与分类统计结果4。
又例如,当网页检测项为CSS文件数量,对应的第三阈值设置为5,网络资源中CSS文件数量的分类统计结果为6时,CSS文件数量的分类统计结果超过第三阈值,则输出网页检测项(即CSS文件数量)、分类统计结果6及第三阈值5,并输出建议合并CSS文件的第一提示信息。
在本发明的其他实施方式中,生成提示改进所述网页检测项的第一提示信息还包括:
根据所述网页地址、所述网页检测项、所述分类统计结果及所述阈值生成第二提示信息,并将所述第二提示信息发送至所述信息接收地址。
例如,当所述信息接收地址为邮箱地址时,将所述第二提示信息发送至用户配置的邮箱地址。又例如,当所述信息接收地址为手机号码时,将所述第二提示信息发送至用户配置的手机号码。
步骤S14,根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分,并输出所述评分。
在本发明的至少一个实施例中,所述根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分包括:
设置所述网页检测项的满分;
比较所述网络资源中对应每个所述网页检测项的分类统计结果和每个所述网页检测项的阈值;
当所述网络资源中所述网页检测项的分类统计结果小于或等于所述网页检测项的阈值时,确定所述网页检测项的评分为所述网页检测项的满分;
当所述网络资源中所述网页检测项的分类统计结果大于所述网页检测项的阈值时,计算所述网络资源中所述网页检测项的分类统计结果与所述网页检测项的阈值之间的差值,计算所述差值占所述网页检测项的阈值的第一比例,使用所述网页检测项的满分乘所述第一比例得到第一分数,在所述网页检测项的满分中减去所述第一分数,得到所述网页检测项的评分,当所述网页检测项的评分小于预设阈值,确定所述网页检测项的所述评分为所述预设阈值。
在本发明的至少一个实施例中,所述预设阈值可以是0,当所述网页检测项的评分小于0时,确定所述网页检测项的所述评分为0。
例如,当网页检测项为CSS文件数量,第三阈值设置为5,CSS文件数量的分类统计结果为6,满分设置为10分,所述预设阈值为0时,减去(6-5)/5*10=2分,得到网页检测项CSS文件数量的得分8分。
又例如,当用户配置的网页检测项为CSS文件数量,第三阈值设置为5,CSS文件数量的分类统计结果为11,满分设置为10分,所述预设阈值为0时,减去(11-5)/5*10=12分,得到-2分,将网页检测项CSS文件数量的得分设置为0分。
步骤S15,根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告。
在本发明的至少一个实施例中,所述根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告包括:
将所述网页检测项、所述网络资源中所述网页检测项的分类统计结果、所述网页检测项的阈值、所述网页检测项的评分及所述网页检测项的建议生成评估报告。
需要说明的是,为保证上述处理过程中的数据和输出结果的私密性和安全性,所述处理过程中的数据和输出结果可存储于区块链中,比如所述网页检测项、所述网页检测项的阈值、所述网络资源等。
本发明通过获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,根据第二指令获取网页检测项和所述网页检测项的阈值;根据所述网页检测项分析所述网络资源,得到所述网页检测项的分类统计结果,输出所述网页检测项及所述网页检测项的分类统计结果,比较所述网页检测项的分类统计结果和所述网页检测项的阈值,并当所述网页检测项的分类统计结果超出所述网页检测项的阈值时,输出所述网页检测项的阈值,根据所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到所述网页检测项的评分,并输出所述评分,根据所述网页检测项的分类统计结果与所述网页检测项的评分生成评估报告,可以对请求异常请求超时这类情况进行预警,对于未发生异常但仍有优化空间的网页有很好的检测效果。
实施例2
图2为本发明一实施方式中网页质量检测装置30的结构图。
在一些实施例中,所述网页质量检测装置30运行于电子设备中。所述网页质量检测装置30可以包括多个由程序代码段所组成的功能模块。所述网页质量检测装置30中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行网页质量检测功能。
本实施例中,所述网页质量检测装置30根据其所执行的功能,可以被划分为多个功能模块。参阅图2所示,所述网页质量检测装置30可以包括网络资源获取模块301、检测项获取模块302、分类统计模块303、评分模块304及报告生成模块305。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。所述在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述网络资源获取模块301获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件。
在本发明的至少一个实施例中,所述网络资源获取模块301获取网页地址还包括:
检测所述网页地址是否符合格式要求。
具体地,所述网络资源获取模块301获取用户输入的网页地址,使用正则表达式检测所述网页地址是否符合格式要求。
在本发明的至少一个实施例中,所述网络资源获取模块301根据第一指令爬取所述网页地址的网络资源包括:
根据所述第一指令,启动爬虫程序,使用所述爬虫程序爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件。
在本发明的其他实施方式中,所述根据第一指令爬取所述网页地址的网络资源包括:
当检测到所述网页存在前端渲染时,根据第一指令,启动爬虫程序,使用所述爬虫程序对所述网页进行模拟渲染,并爬取所述网页地址的网络资源。
在本发明的其他实施方式中,所述爬取所述网页地址的网络资源还包括:
所述网络资源获取模块301根据用户配置的所述检测时间和/或所述检测频率,爬取所述网页地址的网络资源。
所述检测项获取模块302根据第二指令获取网页检测项和所述网页检测项的阈值,所述网页检测项至少包括DOM元素数量、JS文件数量、CSS文件数量、图片数量。
在本发明的至少一个实施例中,所述检测项获取模块302获取所述网页检测项的阈值包括:
获取DOM元素数量的第一阈值、JS文件数量的第二阈值、CSS文件数量的第三阈值、图片数量的第四阈值。
在本发明的其他实施方式中,所述网页检测项还包括:
缺失资源、图片体积和尺寸的比例、资源是否经过gzip压缩、JS文件未做压缩、CSS文件未做压缩、在头部引用的JS文件数量。
在本发明的其他实施方式中,所述检测项获取模块302获取所述网页检测项的阈值还包括:
获取图片体积和尺寸的比例的第五阈值、在头部引用的JS文件数量的第六阈值。
在本发明的至少一个实施例中,所述网页检测项的内容可以预先进行配置。
在本发明的至少一个实施例中,每个所述网页检测项的阈值可以是不固定的,可以根据需要检测的网页的复杂程度设置阈值。
在本发明的至少一个实施例中,所述检测项获取模块302获取所述网页检测项的阈值之后还包括:
检测每个所述网页检测项的阈值是否属于预设数值范围。
在本发明的其他实施方式中,根据第二指令获取网页检测项和所述网页检测项的阈值之后还包括:
获取检测时间和/或检测频率和/或信息接收地址,所述信息接收地址可以是邮箱地址、手机号码或微信号码。
所述分类统计模块303根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果,输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果。
在本发明的至少一个实施例中,所述分类统计模块303根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果包括:
获取所述网络资源中每一个对象的下载时间,所述对象包括头信息、主体、返回文件,所述对象占用容量;
获取所述网络资源中每一个对象的所述头信息;
获取所述网络资源中每一个对象的所述主体;
获取所述网络资源中每一个对象的所述容量;
获取所述网络资源中每一个对象的所述返回文件;
根据所述网页检测项对所述网络资源的每一个对象的下载时间、头信息、主体、容量及返回文件进行分类统计,得到每个所述网页检测项的分类统计结果。
具体地,所述网络资源中一个对象的容量为所述内容占用的计算资源的容量。
在本发明的至少一个实施例中,所述分类统计模块303对所述网络资源的返回文件进行分类统计包括:
根据所述网络资源中每一个对象的返回文件的文件名后缀,对所述返回文件进行分类,得到至少一个分类类型,对所述至少一个分类类型对应的所述返回文件进行统计,得到所述至少一个分类类型对应的所述返回文件的文件数量,将所述文件数量作为分类统计结果。
在本发明的至少一个实施例中,所述分类统计模块303对所述网络资源的返回文件进行分类统计还包括:
使用文本分析方法分析所述网络资源中每一个对象的返回文件,得到所述返回文件的压缩判断结果,及获得所述返回文件的元素数量,将所述压缩判断结果和所述元素数量作为分类统计结果。
在本发明的一个实施例中,所述分类统计模块303输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果还包括:
所述网页检测项的分类统计结果超出所述阈值时,输出所述阈值,并生成提示改进所述网页检测项的第一提示信息。
在本发明的其他实施方式中,所述分类统计模块303生成提示改进所述网页检测项的第一提示信息还包括:
根据所述网页地址、所述网页检测项、所述分类统计结果及所述阈值生成第二提示信息,并将所述第二提示信息发送至所述信息接收地址。
所述评分模块304根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分,并输出所述评分。
在本发明的至少一个实施例中,所述评分模块304根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分包括:
设置所述网页检测项的满分;
比较所述网络资源中对应每个所述网页检测项的分类统计结果和每个所述网页检测项的阈值;
当所述网络资源中所述网页检测项的分类统计结果小于或等于所述网页检测项的阈值时,确定所述网页检测项的评分为所述网页检测项的满分;
当所述网络资源中所述网页检测项的分类统计结果大于所述网页检测项的阈值时,计算所述网络资源中所述网页检测项的分类统计结果与所述网页检测项的阈值之间的差值,计算所述差值占所述网页检测项的阈值的第一比例,使用所述网页检测项的满分乘所述第一比例得到第一分数,在所述网页检测项的满分中减去所述第一分数,得到所述网页检测项的评分,当所述网页检测项的评分小于预设阈值,确定所述网页检测项的所述评分为所述预设阈值。
在本发明的至少一个实施例中,所述预设阈值可以是0,当所述网页检测项的评分小于0时,确定所述网页检测项的所述评分为0。
所述报告生成模块305根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告。
在本发明的至少一个实施例中,所述报告生成模块305根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告包括:
将所述网页检测项、所述网络资源中所述网页检测项的分类统计结果、所述网页检测项的阈值、所述网页检测项的评分及所述网页检测项的建议生成评估报告。
需要说明的是,为保证上述处理过程中的数据和输出结果的私密性和安全性,所述处理过程中的数据和输出结果可存储于区块链中,比如所述网页检测项、所述网页检测项的阈值、所述网络资源等。
本发明通过获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,根据第二指令获取网页检测项和所述网页检测项的阈值;根据所述网页检测项分析所述网络资源,得到所述网页检测项的分类统计结果,输出所述网页检测项及所述网页检测项的分类统计结果,比较所述网页检测项的分类统计结果和所述网页检测项的阈值,并当所述网页检测项的分类统计结果超出所述网页检测项的阈值时,输出所述网页检测项的阈值,根据所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到所述网页检测项的评分,并输出所述评分,根据所述网页检测项的分类统计结果与所述网页检测项的评分生成评估报告,可以对请求异常请求超时这类情况进行预警,对于未发生异常但仍有优化空间的网页有很好的检测效果。
实施例3
图3为本发明一实施方式中电子设备6的示意图。
所述电子设备6包括存储器61、处理器62以及存储在所述存储器61中并可在所述处理器62上运行的计算机可读指令。所述处理器62执行所述计算机可读指令时实现上述网页质量检测方法实施例中的步骤,例如图1所示的步骤S11~S15。或者,所述处理器62执行所述计算机可读指令时实现上述网页质量检测装置实施例中各模块/单元的功能,例如图2中的模块301~305。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器62执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,所述指令段用于描述所述计算机可读指令在所述电子设备6中的执行过程。例如,所述计算机可读指令可以被分割成图2中的网络资源获取模块301、检测项获取模块302、分类统计模块303、评分模块304及报告生成模块305,各模块具体功能参见实施例2。
本实施方式中,所述电子设备6可以是桌上型计算机、笔记本、掌上电脑、服务器及云端终端装置等计算设备。本领域技术人员可以理解,所述示意图仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备6还可以包括输入输出设备、网络接入设备、总线等。
所称处理器62可以是中央处理模块(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器62也可以是任何常规的处理器等,所述处理器62是所述电子设备6的控制中心,利用各种接口和线路连接整个电子设备6的各个部分。
所述存储器61可用于存储所述计算机可读指令和/或模块/单元,所述处理器62通过运行或执行存储在所述存储器61内的计算机可读指令和/或模块/单元,以及调用存储在存储器61内的数据,实现所述电子设备6的各种功能。所述存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备6的使用所创建的数据等。此外,存储器61可以包括易失性存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述电子设备6集成的模块/单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,所述计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在相同处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在相同模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。电子设备权利要求中陈述的多个模块或电子设备也可以由同一个模块或电子设备通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种网页质量检测方法,其特征在于,所述网页质量检测方法包括:
获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件;
根据第二指令获取网页检测项和所述网页检测项的阈值,所述网页检测项至少包括DOM元素数量、JS文件数量、CSS文件数量、图片数量;
根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果,输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果;
根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分,并输出所述评分;
根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告。
2.如权利要求1所述的网页质量检测方法,其特征在于,所述根据第一指令爬取所述网页地址的网络资源包括:
当检测到所述网页存在前端渲染时,根据第一指令,启动爬虫程序,使用所述爬虫程序对所述网页进行模拟渲染,并爬取所述网页地址的网络资源。
3.如权利要求1所述的网页质量检测方法,其特征在于,根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果包括:
获取所述网络资源中每一个对象的下载时间,所述对象包括头信息、主体、返回文件,所述对象占用容量;
获取所述网络资源中每一个对象的所述头信息;
获取所述网络资源中每一个对象的所述主体;
获取所述网络资源中每一个对象的所述容量;
获取所述网络资源中每一个对象的所述返回文件;
根据所述网页检测项对所述网络资源的每一个对象的下载时间、头信息、主体、容量及返回文件进行分类统计,得到每个所述网页检测项的分类统计结果。
4.如权利要求3所述的网页质量检测方法,其特征在于,对所述网络资源的返回文件进行分类统计包括:
根据所述网络资源中每一个对象的返回文件的文件名后缀,对所述返回文件进行分类,得到至少一个分类类型,对所述至少一个分类类型对应的所述返回文件进行统计,得到所述至少一个分类类型对应的所述返回文件的文件数量,将所述文件数量作为分类统计结果。
5.如权利要求4所述的网页质量检测方法,其特征在于,对所述网络资源的返回文件进行分类统计还包括:
使用文本分析方法分析所述网络资源中每一个对象的返回文件,得到所述返回文件的压缩判断结果,及获得所述返回文件的元素数量,将所述压缩判断结果和所述元素数量作为分类统计结果。
6.如权利要求1所述的网页质量检测方法,其特征在于,所述根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分包括:
设置所述网页检测项的满分;
比较所述网络资源中对应每个所述网页检测项的分类统计结果和每个所述网页检测项的阈值;
当所述网络资源中所述网页检测项的分类统计结果小于或等于所述网页检测项的阈值时,确定所述网页检测项的评分为所述网页检测项的满分;
当所述网络资源中所述网页检测项的分类统计结果大于所述网页检测项的阈值时,计算所述网络资源中所述网页检测项的分类统计结果与所述网页检测项的阈值之间的差值,计算所述差值占所述网页检测项的阈值的第一比例,使用所述网页检测项的满分乘所述第一比例得到第一分数,在所述网页检测项的满分中减去所述第一分数,得到所述网页检测项的评分,当所述网页检测项的评分小于预设阈值,确定所述网页检测项的所述评分为所述预设阈值。
7.如权利要求1所述的网页质量检测方法,其特征在于,所述根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告包括:
将所述网页检测项、所述网络资源中所述网页检测项的分类统计结果、所述网页检测项的阈值、所述网页检测项的评分及所述网页检测项的建议生成评估报告。
8.一种网页质量检测装置,其特征在于,所述网页质量检测装置包括:
网络资源获取模块,用于获取网页的网页地址,并根据第一指令爬取所述网页地址的网络资源,所述网络资源包括至少一个对象,所述对象为图片或DOM元素或JS文件或CSS文件;
检测项获取模块,用于根据第二指令获取网页检测项和所述网页检测项的阈值,所述网页检测项至少包括DOM元素数量、JS文件数量、CSS文件数量、图片数量;
分类统计模块,根据所述网页检测项分析所述网络资源,得到所述网络资源中对应每个所述网页检测项的分类统计结果,输出每个所述网页检测项、所述网络资源中对应每个所述网页检测项的分类统计结果;
评分模块,用于根据所述网络资源中对应每个所述网页检测项的分类统计结果和所述网页检测项的阈值,使用预设的评分方法得到每个所述网页检测项的评分,并输出所述评分;
报告生成模块,用于根据所述网络资源对应每个所述网页检测项的分类统计结果与每个所述网页检测项的评分生成评估报告。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任一项所述的网页质量检测方法。
10.一种计算机存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的网页质量检测方法。
CN202011346144.4A 2020-11-25 2020-11-25 网页质量检测方法、装置、电子设备及存储介质 Pending CN112434238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011346144.4A CN112434238A (zh) 2020-11-25 2020-11-25 网页质量检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011346144.4A CN112434238A (zh) 2020-11-25 2020-11-25 网页质量检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112434238A true CN112434238A (zh) 2021-03-02

Family

ID=74697754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011346144.4A Pending CN112434238A (zh) 2020-11-25 2020-11-25 网页质量检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112434238A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127365A (zh) * 2021-04-28 2021-07-16 百度在线网络技术(北京)有限公司 确定网页质量的方法、装置、电子设备和计算机可读存储介质
CN113190779A (zh) * 2021-05-08 2021-07-30 北京百度网讯科技有限公司 网页评估方法和装置
CN113918439A (zh) * 2021-12-15 2022-01-11 云账户技术(天津)有限公司 一种网页页面性能的检测方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127365A (zh) * 2021-04-28 2021-07-16 百度在线网络技术(北京)有限公司 确定网页质量的方法、装置、电子设备和计算机可读存储介质
CN113190779A (zh) * 2021-05-08 2021-07-30 北京百度网讯科技有限公司 网页评估方法和装置
CN113190779B (zh) * 2021-05-08 2023-07-28 北京百度网讯科技有限公司 网页评估方法和装置
CN113918439A (zh) * 2021-12-15 2022-01-11 云账户技术(天津)有限公司 一种网页页面性能的检测方法及装置

Similar Documents

Publication Publication Date Title
CN109634801B (zh) 数据趋势分析方法、系统、计算机装置及可读存储介质
CN112434238A (zh) 网页质量检测方法、装置、电子设备及存储介质
CN109684162B (zh) 设备状态预测方法、系统、终端及计算机可读存储介质
CN111190689B (zh) 数字孪生系统仿真方法及装置
CN113704243A (zh) 数据分析方法、装置、计算机装置及存储介质
CN109684008B (zh) 卡片渲染方法、装置、终端及计算机可读存储介质
CN113626766A (zh) 一种处理地理区域中碳排放数据的方法、装置、设备及存储介质
CN109558384B (zh) 日志分类方法、装置、电子设备和存储介质
CN110619530A (zh) 农产品溯源方法、电子设备及计算机可读存储介质
CN112733023A (zh) 资讯推送方法、装置、电子设备及计算机可读存储介质
CN112257578A (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN106227483B (zh) 一种显示控制方法及移动终端
CN112416714A (zh) 日志处理方法、装置、电子设备及可读存储介质
CN112115145A (zh) 数据采集方法、装置、电子设备及存储介质
CN112163412A (zh) 数据校验方法、装置、电子设备及存储介质
CN112711398A (zh) 埋点文件生成方法、装置、设备及存储介质
CN109634986B (zh) 系统监测方法、装置、计算机及计算机可读存储介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN112199483B (zh) 信息录入辅助方法、装置、电子设备及存储介质
CN111858604B (zh) 数据存储方法、装置、电子设备及存储介质
CN112819305A (zh) 业务指标分析方法、装置、设备及存储介质
CN112839047A (zh) 一种云平台上的资产漏洞扫描方法、装置、设备及介质
CN112085611A (zh) 数据异步核验方法、装置、电子设备及存储介质
CN110970100A (zh) 检测项目编码方法、装置、设备和计算机可读存储介质
CN112487771B (zh) 报表生成方法、报表生成装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination