CN116541120B - 一种网页渲染方式的识别方法、系统及计算机设备 - Google Patents

一种网页渲染方式的识别方法、系统及计算机设备 Download PDF

Info

Publication number
CN116541120B
CN116541120B CN202310816636.2A CN202310816636A CN116541120B CN 116541120 B CN116541120 B CN 116541120B CN 202310816636 A CN202310816636 A CN 202310816636A CN 116541120 B CN116541120 B CN 116541120B
Authority
CN
China
Prior art keywords
field
webpage
page data
key
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310816636.2A
Other languages
English (en)
Other versions
CN116541120A (zh
Inventor
荣佳乐
赵武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huashunxinan Technology Co ltd
Beijing Huashun Xin'an Information Technology Co ltd
Original Assignee
Beijing Huashunxinan Technology Co ltd
Beijing Huashun Xin'an Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huashunxinan Technology Co ltd, Beijing Huashun Xin'an Information Technology Co ltd filed Critical Beijing Huashunxinan Technology Co ltd
Priority to CN202310816636.2A priority Critical patent/CN116541120B/zh
Publication of CN116541120A publication Critical patent/CN116541120A/zh
Application granted granted Critical
Publication of CN116541120B publication Critical patent/CN116541120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种网页渲染方式的识别方法、系统及计算机设备,属于通信技术领域,识别方法包括获取网页的页面数据;获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;获取页面数据中HTML代码字段占页面数据总字符的代码比例;根据页面数据中存在的关键字段和代码比例,生成网页渲染方式;若页面数据中存在的关键字段越多,则网页越可能是采用客户端渲染的方式进行渲染的,若页面数据中HTML代码字段的比例越小,则网页越可能是采用客户端渲染的方式进行渲染的,本申请具有便于对网页的渲染方式进行识别的效果。

Description

一种网页渲染方式的识别方法、系统及计算机设备
技术领域
本发明涉及通信技术领域,尤其是涉及一种网页渲染方式的识别方法、系统及计算机设备。
背景技术
网页渲染是用于展现网页页面的控件,网页经过渲染后才会展示给客户端。常见的网页渲染方式有客户端渲染以及服务端渲染,服务端渲染是指在服务器上将客户端或通用应用程序渲染成HTML,客户端渲染是指直接在浏览器中渲染应用程序,通常使用文档对象模型。
目前,在需要提取网页中的信息时,服务端渲染的网页通常采用curl请求的方式进行提取,提取速度较快;对于客户端渲染方式渲染的网页,由于网页中的信息分散在各个框架模型中,采用curl请求的方式提取信息可能会出现网页中信息提取遗漏或提取不完整的情况出现,所以对于不同渲染方式的网页需要采用不同的提取方式,如何准确识别出网页的渲染方法,是目前亟待解决的问题。
发明内容
为了便于识别网页的渲染方式,本申请提供了一种网页渲染方式的识别方法、系统及计算机设备。
第一方面,本申请提供的一种网页渲染方式的识别方法,采用如下的技术方案:
一种网页渲染方式的识别方法,包括:
获取网页的页面数据;
获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;
获取页面数据中HTML代码字段占页面数据总字符的代码比例;
根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。
通过采用上述技术方案,获取网页的页面数据以及页面数据中存在的关键字段,获取页面数据中HTML代码占页面数据总字符的代码比例,若页面数据中存在的关键字段越多,则网页越可能是采用客户端渲染的方式进行渲染的,若页面数据中HTML代码字段的比例越小,则网页越可能是采用客户端渲染的方式进行渲染的,从而根据页面数据存在关键字段的情况和HTML代码字段占页面数据总字符的代码比例,能够得出网页的渲染方式,进而实现了便于对网页的渲染方式进行识别的效果。
可选的,所述关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;所述获取页面数据中存在的关键字段,具体包括:
分别创建第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段的正则表达式;
利用正则表达式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配;
根据第三方框架字段的匹配结果、功能样式框架字段的匹配结果、框架类型标识字段的匹配结果以及自定义修改字段的匹配结果,得到页面数据中存在的关键字段。
通过采用上述技术方案,利用创建正则表达式的方式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配,当正则表达式匹配到页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段中的一项或多项时,则说明页面数据中存在对应的关键字段,从而实现了对页面数据中存在的关键字段进行获取的效果。
可选的,所述根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,具体包括:
计算页面数据中存在的每个关键字段的字段分值;
根据预设代码比例,计算代码比例的比例分值;
预设比例分值和每个关键字段的字段分值的权重;
根据权重,对比例分值和所有的字段分值进行累加,得到客户端渲染匹配分值;
根据匹配分值,得到网页的渲染方式。
通过采用上述技术方案,计算每个关键字段的字段分值以及比例分值,便于将页面数据中存在的关键字段以及代码比例进行量化,再对比例分值和每个关键字段的字段分值赋予权重,从而根据比例分值和每个关键字段的字段分值的权重,计算出客户端渲染匹配分值,根据匹配分值,即能够得到网页的渲染方式,匹配分值越高,则渲染方式为客户端渲染的可能性越大。
可选的,所述计算页面数据中存在的每个关键字段的字段分值,具体包括:
判断页面数据中存在的每个关键字段中是否存在对应的代码;若存在,对应关键字段的字段分值为第一分值,若不存在,则对应关键字段的字段分值为第二分值。
通过采用上述技术方案,判断关键字段中是否存在对应的代码,便于得知关键字段是否具备实现对应功能的条件,将字段分值根据是否有对应的代码分为第一分值和第二分值,便于根据不同的情况计算关键字段的字段分值。
可选的,所述根据匹配分值,得到网页的渲染方式之后,还包括:根据匹配分值,得到网页渲染方式对应的可信度。
通过采用上述技术方案,便于在得到网页渲染方式后,对网页渲染方式的准确性进行了解。
可选的,还包括:
预设网页提取关键信息的预期准确度;
根据预期准确度以及每个网页对应的渲染方式的可信度,生成每个网页的关键信息提取流程。
通过采用上述技术方案,预设预期准确度,即设定对网页提取关键信息的准确度的要求,根据预期准确度以及每个网页对应的渲染方式的可信度,生成每个网页的关键信息提取流程,预期准确度越高,则采用客户端渲染的提取方法的网页增多,以便提取出更加准确的关键信息。
可选的,所述网页的关键信息至少包括网页的图标、网页的标题以及网页的IPC备案信息。
通过采用上述技术方案,将网页的图标、网页的标题以及网页的IPC备案信息作为网页的关键信息进行提取,便于通过关键信息对网页进行管理。
第二方面,本申请提供一种网页渲染方式的识别系统,采用如下技术方案:
一种网页渲染方式的识别系统,包括:
页面数据获取单元,用于获取网页的页面数据;
关键字段获取单元,用于获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;
代码比例生成单元,用于获取页面数据中HTML代码占页面数据总字符的代码比例;
渲染方式生成单元,用于根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。
通过采用上述技术方案,利用页面数据获取单元获取网页的页面数据,利用关键字段获取单元获取页面数据中存在的关键字段,利用代码比例生成单元获取页面数据中HTML代码占页面数据总字符的代码比例,利用渲染方式生成单元根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,从而便于识别网页的渲染方式。
第三方面,本申请提供一种计算机设备,采用如下技术方案:
一种计算机设备,包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行如第一方面中任一所述的一种网页渲染方式的识别方法。
附图说明
图1是本申请其中一实施例识别方法的流程图。
图2是本申请其中一实施例匹配关键字段的方法流程图。
图3是本申请其中一实施例生成渲染方式的方法流程图。
图4是本申请其中一实施例提取关键信息的方法流程图。
图5是本申请其中一实施例识别系统的框图。
实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-5及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例公开一种网页渲染方式的识别方法。参照图1,一种网页渲染方式的识别方法,包括:
步骤S101:获取网页的页面数据;
其中,网页的页面数据可以采用curl请求的方式获取,即页面数据是是网页对应的代码。
步骤S102:获取页面数据中存在的关键字段;
其中,关键字段是客户端渲染方式中包含的字段,关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;第三方框架字段是指来自第三方库的代码,第三方库即开源库/代码或其他途径获取的他人的库/代码;功能样式框架字段即实现网页样式和功能对应的代码,框架类型标识字段是指用于区分所使用的框架是完整版或非完整版的标识字段,自定义修改字段是指用于实现自定义修复或更改内容对应的代码。
例如,在利用vue框架搭建的网页中,第三方框架字段可以是vue框架中的chunk-vendors.js文件和chunk-vendors.css文件,即在vue框架中来自第三方库的代码通常打包储存为chunk-vendors.js文件和chunk-vendors.css文件。功能样式框架字段可以是vue框架中的app.js文件和app.css文件,其中,app.js文件主要用于创建应用程序对象,即决定网页所实现的功能,app.css文件通过设置对应的样式属性可以修改各元素的显示、位置等样式。框架类型标识字段可以是vue框架中的runtime.js文件,若包含有runtime.js文件则说明所使用的vue框架为非完整版,若不包含runtime.js文件则说明所使用的vue框架为完整版。自定义修改字段可以是vue框架中的about.css文件。
应当理解,完整版的vue框架有编译器,视图模板可以直接写在HTML或template里,非完整版的vue框架没有编译器,所以只能写在render函数,而render函数的功能较为丰富,与在HTML或template模板内编写代码相比要更加简洁高效,甚至还能在函数体里面进行一些额外的代码逻辑,所以在客户端渲染的网页中常采用非完整版的vue框架。
步骤S103:获取页面数据中HTML代码字段占页面数据总字符的代码比例;
应当理解,网页是由HTML代码、CSS代码以及JS代码共同构建了网页展示内容和人机交互,HTML代码即超文本标记语言,用于布局网页中的每一个元素(网页结构及内容的显示),CSS代码即层叠样式表单,用于设置网页上HTML元素属性的语言,JS代码以HTML代码为基础实现在一个网页中链接多个对象,以实现与客户交互作用。综上可知,CSS代码以及JS代码所占的比例越大,网页所呈现出的内容和交互越丰富,所以在客户端渲染的网页中HTML代码所占比例较小。
步骤S104:根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。
应当理解,页面数据中存在的关键字段越多、代码比例越小,则网页是采用客户端渲染的可能性越大,反之,则网页是采用服务器渲染的可能性越大。
上述实施方式中,获取网页的页面数据以及页面数据中存在的关键字段,获取页面数据中HTML代码占页面数据总字符的代码比例,若页面数据中存在的关键字段越多,则网页越可能是采用客户端渲染的方式进行渲染的,若页面数据中HTML代码字段的比例越小,则网页越可能是采用客户端渲染的方式进行渲染的,从而根据页面数据存在关键字段的情况和HTML代码字段占页面数据总字符的代码比例,能够得出网页的渲染方式,进而实现了便于对网页的渲染方式进行识别的效果。
参照图2,作为步骤S102的一种实施方式,步骤S102具体包括:
步骤S1021:分别创建第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段的正则表达式;
应当理解,第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段的正则表达式均可以创建多个,即根据网页所使用的框架的不同,创建不同的正则表达式;例如,在vue框架中,第三方框架字段的正则表达式,基于chunk-vendors.js文件和chunk-vendors.css文件的命名进行创建。
步骤S1022:利用正则表达式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配;
应当理解,正则表达式是指用来搜索一个字符串是否含有某种子串或者从一个字符串中筛选出符合预设条件的子串。利用第三方框架字段对应的正则表达式,则可以对页面数据进行搜索,以判断页面数据中是否存在第三方框架字段,若存在则第三方框架字段匹配成功;同理,若页面数据中存在功能样式框架字段,则功能样式框架字段匹配成功;若页面数据中存在框架类型标识字段,则框架类型标识字段匹配成功;若页面数据中存在自定义修改字段,则自定义修改字段匹配成功。
步骤S1023:根据第三方框架字段的匹配结果、功能样式框架字段的匹配结果、框架类型标识字段的匹配结果以及自定义修改字段的匹配结果,得到页面数据中存在的关键字段。
具体地,获取匹配结果为匹配成功的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段,作为页面数据中存在的关键字段。
需要说明的是,页面数据中存在的关键字段可以为零种,即页面数据中不存在任何关键字段,页面数据中存在的关键字段最多为四种,即页面数据中同时存在第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段。例如,若页面数据中只有第三方框架字段以及框架类型标识字段的匹配结果为匹配成功,则页面数据中存在的关键数据即为第三方框架字段以及框架类型标识字段,此时页面数据中存在两种关键数据。
上述实施方式中,利用创建正则表达式的方式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配,当正则表达式匹配到页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段中的一项或多项时,则说明页面数据中存在对应的关键字段,从而实现了对页面数据中存在的关键字段进行获取的效果。
参照图3,作为步骤S104的一种实施方式,步骤S104具体包括:
步骤S1041:计算页面数据中存在的每个关键字段的字段分值;
应当理解,计算页面数据中存在的每个关键字段的字段分值,仅对页面中存在的关键字段进行字段分值的计算,例如,页面数据中存在的关键字段包括第三方框架字段以及功能样式框架字段,不存在框架类型标识字段以及自定义修改字段,在计算字段分值时,仅计算第三方框架字段以及功能样式框架字段的字段分值,而不计算框架类型标识字段以及自定义修改字段的字段分值,即框架类型标识字段以及自定义修改字段的字段分值为零分。
作为步骤S1041的一种实施方式,步骤S1041具体包括:
判断页面数据中存在的每个关键字段中是否存在对应的代码;若存在,对应关键字段的字段分值为第一分值,若不存在,则对应关键字段的字段分值为第二分值。
应当理解,每个关键字段中均需要通过对应的代码才能实现相应的功能,通过判断每个关键字段中是否存在对应的代码,能够判断出页面数据中的关键字段是否能够实现相应的功能。
其中,第一分值和第二分值均可根据实际情况和网页所使用的框架的类型而设置,且第一分值大于第二分值,在本实施例中,第一分值可设置为10分,第二分值可设置为5分。
例如,页面数据中存在的关键字段包括第三方框架字段以及功能样式框架字段,则分别判断第三方框架字段以及功能样式框架字段是否存在对应的代码,若第三方框架字段存在对应的代码,则第三方框架字段的字段分值为10分,若功能样式框架字段不存在对应的代码,则功能样式框架字段的字段分值为5分。由于在该页面数据中,不存在框架类型标识字段以及自定义修改字段,所以框架类型标识字段以及自定义修改字段的字段分值为零分。
步骤S1042:根据预设代码比例,计算代码比例的比例分值;
具体地,预设代码比例可以设置为20%、25%或30%,具体分数可根据实际情况进行设置,在本实施例中,当代码比例小于预设代码比例时,代码比例的比例分值为10分;当代码比例大于预设代码比例时,代码比例的比例分值为零分。
步骤S1043:预设比例分值和每个关键字段的字段分值的权重;
具体地,获取网页所使用的框架类型,根据框架类型预设比例分值的权重和每个关键字段的字段分值的权重。
应当理解,关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段,比例分值和每个关键字段的字段分值的权重可根据实际情况和网页所使用的框架的不同而进行预设,例如,在vue框架中,第三方框架字段、功能样式框架字段、框架类型标识字段的字段分值的权重可设置为2.5,自定义修改字段的字段分值的权重可设置为1,代码比例的比例分值的权重可设置为1.5。
步骤S1044:根据权重,对比例分值和所有的字段分值进行累加,得到客户端渲染匹配分值;
例如,第三方框架字段的字段分值为10分,功能样式框架字段的字段分值为5分,比例分值为10分,第三方框架字段以及功能样式框架字段的字段分值的权重为2.5,比例分值的权重为1.5,则匹配分值为10*2.5+5*2.5+10*1.5=52.5分。其中,框架类型标识字段和自定义修改字段的字段分值为0分。
步骤S1045:根据匹配分值,得到网页的渲染方式。
具体地,当匹配分值大于预设分值时,网页的渲染方式为客户端渲染;当匹配分值小于预设分值时,网页的渲染方式为服务端渲染。在本实施例中,预设分值可设置为60分,匹配分值大于60分为客户端渲染,反之为服务端渲染。
作为步骤S1045的进一步实施方式,步骤S1045之后,还包括:根据匹配分值,得到网页渲染方式对应的可信度。
具体地,网页是客户端渲染的可信度=匹配分值*100%,网页是服务端渲染的可信度=(100-匹配分值)*100%。其中,100为预设满分分值。
参照图4,作为渲染方式的识别方法的进一步实施方式,渲染方式的识别方法还包括:
步骤S201:预设网页提取关键信息的预期准确度;
其中,网页的关键信息至少包括网页的图标、网页的标题以及网页的IPC备案信息。
需要说明的是,提取关键性的方法通常有两种,一种是采用模拟浏览器进行xpath定位提取关键信息,对关键信息的提取更加全面、完整,但所需的时间较长。另一种是直接采用curl请求的方式进行关键信息的提取,所需的时间较短,但对于采用客户端渲染的网页,采用curl请求提取关键信息会出现关键信息的遗漏、提取不完整。
应当理解,若所有网页均采用模拟浏览器的方式进行提取,则所花费的时间较长,所以通过预设预期准确度,将判断为服务端渲染的网页采用curl请求的方式进行关键信息的提取。
具体地,预期准确度可根据实际情况进行预设,可设置为80%或90%。
步骤S202:根据预期准确度以及每个网页对应的渲染方式的可信度,生成每个网页的关键信息提取流程。
其中,关键信息提取流程包括模拟浏览器提取流程以及curl请求提取流程。
应当理解,预期准确度设置的越高,则需要进行模拟浏览器方式提取关键信息的网页越多,所花费的时间也就越长。
本申请实施例公开一种网页渲染方式的识别系统。参照图5,一种网页渲染方式的识别系统,包括:
页面数据获取单元,用于获取网页的页面数据;
关键字段获取单元,用于获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;
代码比例生成单元,用于获取页面数据中HTML代码占页面数据总字符的代码比例;
渲染方式生成单元,用于根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。
上述实施方式中,利用页面数据获取单元获取网页的页面数据,利用关键字段获取单元获取页面数据中存在的关键字段,利用代码比例生成单元获取页面数据中HTML代码占页面数据总字符的代码比例,利用渲染方式生成单元根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,从而便于识别网页的渲染方式。
本申请提供的一种网页渲染方式的识别系统能够实现上述一种网页渲染方式的识别方法,且一种网页渲染方式的识别系统的具体工作过程可参考上述方法实施例中的对应过程。
需要说明的是,在上述实施例中,对各个实施例的描述各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
基于同一技术构思,本发明还公开一种计算机设备,一种计算机设备包括存储器、处理器以及储存在存储器上并可在处理器上运行的计算机程序,处理器执行如上述任一种网页渲染方式的识别方法。
本发明还公开一种计算机可读储存介质,一种计算机可读存储介质,其特征在于,包括存储有能够被处理器加载并执行如上述任一种网页渲染方式的识别方法的计算机程序。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (6)

1.一种网页渲染方式的识别方法,其特征在于,包括:
获取网页的页面数据;
获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;所述关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;第三方框架字段包括chunk vendors.js文件和chunkvendors.css文件,功能样式框架字段包括app.js文件和app.css文件,框架类型标识字段包括runtime.js文件,自定义修改字段包括about.css文件;
获取页面数据中HTML代码字段占页面数据总字符的代码比例;
根据页面数据中存在的关键字段和代码比例,生成网页渲染方式;所述根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,具体包括:计算页面数据中存在的每个关键字段的字段分值;根据预设代码比例,计算代码比例的比例分值;预设比例分值和每个关键字段的字段分值的权重;根据权重,对比例分值和所有的字段分值进行累加,得到客户端渲染匹配分值;根据匹配分值,得到网页的渲染方式;
根据匹配分值,得到网页渲染方式对应的可信度,预设网页提取关键信息的预期准确度,并根据预期准确度以及每个网页渲染方式的可信度,生成每个网页的关键信息提取流程;其中,关键信息提取流程包括模拟浏览器提取流程以及curl请求提取流程。
2.根据权利要求1所述的识别方法,其特征在于:所述获取页面数据中存在的关键字段,具体包括:
分别创建第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段的正则表达式;
利用正则表达式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配;
根据第三方框架字段的匹配结果、功能样式框架字段的匹配结果、框架类型标识字段的匹配结果以及自定义修改字段的匹配结果,得到页面数据中存在的关键字段。
3.根据权利要求1所述的识别方法,其特征在于:所述计算页面数据中存在的每个关键字段的字段分值,具体包括:
判断页面数据中存在的每个关键字段中是否存在对应的代码;若存在,对应关键字段的字段分值为第一分值,若不存在,则对应关键字段的字段分值为第二分值。
4.根据权利要求1所述的识别方法,其特征在于:所述网页的关键信息至少包括网页的图标、网页的标题以及网页的IPC备案信息。
5.一种网页渲染方式的识别系统,其特征在于,包括:
页面数据获取单元,用于获取网页的页面数据;
关键字段获取单元,用于获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;所述关键字段是客户端渲染方式中包含的字段;所述关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;第三方框架字段包括chunk vendors.js文件和chunkvendors.css文件,功能样式框架字段包括app.js文件和app.css文件,框架类型标识字段包括runtime.js文件,自定义修改字段包括about.css文件;
代码比例生成单元,用于获取页面数据中HTML代码占页面数据总字符的代码比例;
渲染方式生成单元,用于根据页面数据中存在的关键字段和代码比例,生成网页渲染方式;所述根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,具体包括:计算页面数据中存在的每个关键字段的字段分值;根据预设代码比例,计算代码比例的比例分值;预设比例分值和每个关键字段的字段分值的权重;根据权重,对比例分值和所有的字段分值进行累加,得到客户端渲染匹配分值;根据匹配分值,得到网页的渲染方式;
根据匹配分值,得到网页渲染方式对应的可信度,预设网页提取关键信息的预期准确度,并根据预期准确度以及每个网页渲染方式的可信度,生成每个网页的关键信息提取流程;其中,关键信息提取流程包括模拟浏览器提取流程以及curl请求提取流程。
6.一种计算机设备,其特征在于:包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行如权利要求1-4中任一种方法。
CN202310816636.2A 2023-07-05 2023-07-05 一种网页渲染方式的识别方法、系统及计算机设备 Active CN116541120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310816636.2A CN116541120B (zh) 2023-07-05 2023-07-05 一种网页渲染方式的识别方法、系统及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310816636.2A CN116541120B (zh) 2023-07-05 2023-07-05 一种网页渲染方式的识别方法、系统及计算机设备

Publications (2)

Publication Number Publication Date
CN116541120A CN116541120A (zh) 2023-08-04
CN116541120B true CN116541120B (zh) 2023-11-14

Family

ID=87447446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310816636.2A Active CN116541120B (zh) 2023-07-05 2023-07-05 一种网页渲染方式的识别方法、系统及计算机设备

Country Status (1)

Country Link
CN (1) CN116541120B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942211A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN105159677A (zh) * 2015-09-09 2015-12-16 深圳Tcl数字技术有限公司 终端用户界面的受控显示方法及装置
CN107924400A (zh) * 2015-04-21 2018-04-17 谷歌有限责任公司 为资源生成移动友好性分值
CN111352682A (zh) * 2018-12-24 2020-06-30 北京嘀嘀无限科技发展有限公司 页面渲染方法、装置、服务器及可读存储介质
CN113326043A (zh) * 2021-05-26 2021-08-31 上海哔哩哔哩科技有限公司 网页渲染方法、网页制作方法及网页渲染系统
CN114816391A (zh) * 2022-04-12 2022-07-29 百果园技术(新加坡)有限公司 一种组件渲染方法及装置
CN115757991A (zh) * 2021-09-02 2023-03-07 广州腾讯科技有限公司 一种网页识别方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2704037A3 (en) * 2012-08-31 2014-07-09 Sitecore A/S A method for generating or updating an interactive webpage
EP3005086A4 (en) * 2013-05-29 2017-01-04 Hewlett-Packard Development Company, L.P. Web page output selection
CN105589913A (zh) * 2015-06-15 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942211A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN107924400A (zh) * 2015-04-21 2018-04-17 谷歌有限责任公司 为资源生成移动友好性分值
CN105159677A (zh) * 2015-09-09 2015-12-16 深圳Tcl数字技术有限公司 终端用户界面的受控显示方法及装置
CN111352682A (zh) * 2018-12-24 2020-06-30 北京嘀嘀无限科技发展有限公司 页面渲染方法、装置、服务器及可读存储介质
CN113326043A (zh) * 2021-05-26 2021-08-31 上海哔哩哔哩科技有限公司 网页渲染方法、网页制作方法及网页渲染系统
CN115757991A (zh) * 2021-09-02 2023-03-07 广州腾讯科技有限公司 一种网页识别方法、装置、电子设备和存储介质
CN114816391A (zh) * 2022-04-12 2022-07-29 百果园技术(新加坡)有限公司 一种组件渲染方法及装置

Also Published As

Publication number Publication date
CN116541120A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US8065667B2 (en) Injecting content into third party documents for document processing
US8856647B2 (en) Font handling for viewing documents on the web
US9753699B2 (en) Live browser tooling in an integrated development environment
JP5756386B2 (ja) 動的なウェブ・アプリケーションの問題を修正するメタデータの生成・管理の支援方法、装置、およびプログラム
US9904936B2 (en) Method and apparatus for identifying elements of a webpage in different viewports of sizes
EP2721520B1 (en) Selection mapping between fetched files and source files
CN112416363B (zh) 一种前后端crud代码的生成方法及装置
US10049095B2 (en) In-context editing of output presentations via automatic pattern detection
US20110191381A1 (en) Interactive System for Extracting Data from a Website
CN107590288B (zh) 用于抽取网页图文块的方法和装置
WO2016095502A1 (zh) 数学公式处理方法、装置、设备和计算机存储介质
CN110347390B (zh) 一种快速生成web页面的方法、存储介质、设备及系统
CN114201615B (zh) 基于数据快照的科研数据变动回顾方法及服务器
CN114398138B (zh) 界面生成方法、装置、计算机设备和存储介质
CN110162301B (zh) 一种表单渲染方法、装置和存储介质
CN114443928A (zh) 一种网络文本数据爬虫方法与系统
CN113656000A (zh) 网页的处理方法和装置
CN113033177B (zh) 一种电子病历数据的解析方法及装置
US9940320B2 (en) Plugin tool for collecting user generated document segmentation feedback
CN116541120B (zh) 一种网页渲染方式的识别方法、系统及计算机设备
CN115061688B (zh) 一种页面效果展示方法、计算设备及存储介质
US20190303452A1 (en) Deep search embedding of inferred document characteristics
CN114579461A (zh) 浏览器兼容性检测方法及相关设备
CN114637505A (zh) 一种页面内容提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant