CN113343066A - 页面处理方法、装置、电子设备和存储介质 - Google Patents

页面处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113343066A
CN113343066A CN202110496256.6A CN202110496256A CN113343066A CN 113343066 A CN113343066 A CN 113343066A CN 202110496256 A CN202110496256 A CN 202110496256A CN 113343066 A CN113343066 A CN 113343066A
Authority
CN
China
Prior art keywords
page
processed
elements
target
style information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110496256.6A
Other languages
English (en)
Inventor
刘伟
张博
林赛群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110496256.6A priority Critical patent/CN113343066A/zh
Publication of CN113343066A publication Critical patent/CN113343066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本申请公开了页面处理方法、装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及智能推荐领域。具体实现方案为:对第一待处理页面进行解析,以获取第一待处理页面对应的页面元素和页面样式信息;对页面元素进行筛选处理,以获取目标页面元素;基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面。由此,通过基于待处理页面的页面样式信息,对筛选后得到的页面元素进行重新布局,不仅实现了页面优化,而且使得处理的页面保留了页面样式,提高了优化效果,且该方法适用范围广。

Description

页面处理方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及智能推荐领域,具体涉及一种页面处理方法、装置、电子设备和存储介质。
背景技术
互联网海量数据中存在大量低质量的数据,为了保障用户体验,可以对页面进行优化。相关技术中存在多种页面优化方式,这些页面优化方法,主要应用于客户端内页面优化。
因此,提供一种适用范围广、优化效果好的页面优化方法是亟待解决的问题。
发明内容
本申请提供了一种页面处理方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种页面处理方法,包括:
对第一待处理页面进行解析,以获取所述第一待处理页面对应的页面元素和页面样式信息;
对所述页面元素进行筛选处理,以获取目标页面元素;
基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面。
根据本申请的另一方面,提供了一种页面处理装置,包括:
解析模块,用于对第一待处理页面进行解析,以获取所述第一待处理页面对应的页面元素和页面样式信息;
筛选模块,用于对所述页面元素进行筛选处理,以获取目标页面元素;
布局模块,用于基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种页面处理方法的流程示意图;
图2为本申请实施例提供的另一种页面处理方法的流程示意图;
图3为本申请实施例提供的另一种页面处理方法的流程示意图;
图4为本申请实施例提供的另一种页面处理方法的流程示意图;
图5为本申请实施例提供的一个待处理页面示意图;
图6为本申请实施例提供的一种页面处理过程示意图;
图7为图5所示的页面对应的处理后的页面示意图;
图8为本申请实施例提供的一种页面处理装置的结构示意图;
图9是用来实现本申请实施例的页面处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的页面处理方法、装置、电子设备和存储介质。
图1为本申请实施例提供的一种页面处理方法的流程示意图。
本申请实施例的页面处理方法,可应用于本申请实施例的提供的页面处置装置,该装置可配置于电子设备,比如计算机等中,通过基于待处理页面的样式信息,对筛选后的页面元素进行重新布局,以实现页面优化和保留页面样式。
如图1所示,该页面处理方法包括:
步骤101,对第一待处理页面进行解析,以获取第一待处理页面对应的页面元素和页面样式信息。
本申请中,当用户在客户端内搜索,并触发某一搜索结果页面时,该客户端对应的服务器可获取待处理页面,为便于区分,称为第一待处理页面。或者,当用户通过其他浏览器调用某客户端的页面时,那么该客户端对应的服务器可获取第一待处理页面。
其中,第一待处理页面可以为外链页面,即第一待处理页面可以是其他站点的页面。
在获取第一待处理页面后,可对第一待处理页面进行解析,以获取待处理页面对应的页面元素和页面样式信息。其中,页面样式信息与页面布局相关,页面样式信息可以是CSS(Cascading Style Sheets,层叠样式表)信息。
步骤102,对页面元素进行筛选处理,以获取目标页面元素。
在实际应用中,第一待处理页面中可能包含低质页面元素,比如与广告有关的文字、图片等。对于用户搜索的场景,用户在打开搜索结果页面时,第一待处理页面中可能包含与搜索关键词相关度较低的内容。
为了提高页面质量,保证用户快速查看到其需要的内容,本申请中,可对页面元素进行筛选处理,筛选出低质的页面元素,将低质页面元素删除,以获取高质量的页面元素,为了便于描述,这里称为目标页面元素。
在对页面元素进行筛选时,可以利用预先训练的识别模型对每个页面元素进行识别,以确定页面元素是否为低质页面元素。
步骤103,基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面。
在获取目标页面元素后,可基于页面样式信息,对筛选得到的目标页面元素进行布局,生成处理后的页面。比如,可在低质页面元素所在位置,布局目标页面元素,举例来讲,如在待处理页面中,目标页面元素上方为广告,在将广告删除后,可将目标页面元素上移。
为了提高安全性,在利用页面样式信息进行重新布局之前,可对页面样式信息对应的样式文件进行安全检测。在安全检测通过后,再利用页面样式信息进行重新布局,从而可以避免利用携带有病毒的样式文件对待处理页面进行优化。
本申请实施例的页面处理方法适用范围广,不仅可以应用于端内的页面优化,还可以适用于端外页面优化,即在端外其他浏览器调用页面时,可以利用该方法对页面进行处理,将优化的页面发送给其他浏览器,供其他浏览器进行展示。
本申请实施例中,通过对第一待处理页面进行解析,以获取第一待处理页面对应的页面元素和页面样式信息;对页面元素进行筛选处理,以获取目标页面元素;基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面。由此,通过待处理页面的页面样式信息,对筛选后得到的页面元素进行重新布局,不仅实现了页面优化,而且使得处理的页面保留了页面样式,提高了优化效果,且该方法适用范围广。
在实际应用中,当对外链页面进行处理时,可直接采用外链页面的页面样式信息,但是若外链页面的CSS信息出现问题时,会影响页面展示。另外,CSS信息也可能会被恶意插入病毒。基于此,在本申请的一个实施例中,可将页面样式信息进行保存,当后续处理到同站点的页面时,可利用保存的页面样式信息进行页面优化。下面结合图2进行说明,图2为本申请实施例提供的另一种页面处理方法的流程示意图。
如图2所示,该页面处理方法包括:
步骤201,对第一待处理页面进行解析,以获取第一待处理页面对应的页面元素和页面样式信息。
步骤202,对页面元素进行筛选处理,以获取目标页面元素。
步骤203,基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面。
本申请中,步骤101-步骤103与上述步骤201-步骤203类似,故在此不再赘述。
步骤204,保存页面样式信息。
本申请中,可将页面样式信息,比如CSS信息,保存在本地存储器中。
步骤205,在获取到与第一待处理页面属于同一站点的第二待处理页面的情况下,利用页面样式信息,对第二待处理页面对应的目标页面元素进行布局,以生成第二待处理页面对应的处理后的页面。
本申请中,在保存第一待处理页面对应的页面样式信息后,当用户在客户端内搜索,并触发某一搜索结果页面时,该客户端对应的服务器可获取第二待处理页面。或者,当用户通过其他浏览器调用某客户端的页面时,那么该客户端对应的服务器可获取第二待处理页面。
在实际应用中,同一站点的页面通常会采用相同的页面样式。本申请中,可将第二待处理页面对应的链接,与第一待处理页面对应的链接进行比较。若第二待处理页面对应的链接中的关键字段,与第一待处理页面对应的链接中的关键字段匹配,可确定第二待处理页面与第一待处理页面属于同一站点。其中,关键字段可以是链接中预设位置的字段,也可以用于表示域名信息的字段等。
在确定第二处理页面与第一待处理页面属于同一站点时,可利用保存的第一待处理页面的页面样式信息,对第二待处理页面对应的目标页面元素进行布局,生成第二待处理页面对应的处理后的页面,不仅实现对第二处理页面的优化,而且可以避免通过外链注入病毒等破坏信息,安全性高。
本申请实施例中,在基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面之后,还可保存页面样式信息,在获取到与第一待处理页面属于同一站点的第二待处理页面的情况下,利用页面样式信息,对第二待处理页面对应的目标页面元素进行布局,以生成第二待处理页面对应的处理后的页面。由此,通过可对第一待处理页面对应的页面样式信息进行转存,当后续待处理页面与第一待处理页面属于同一站点时,可利用保存的页面样式信息,对后续待处理页面进行优化,从而在外链页面的页面样式信息出现问题时,不会影响页面优化,也可以避免通过外链注入病毒等破坏信息,提高了安全性。
为了提高安全性,在本申请的一个实施例中,在基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面时,可基于预设的编码标准、页面样式信息和目标页面元素,生成处理后的页面对应的源码。也就是说,可以采用预设的编码标准生成优化后的页面的源码。
比如,预设的源码标准可以是W3C(World Wide Web Consortium,万维网联盟)标准,处理后的页面可支持HTTPS(Hypertext Transfer Protocol Secure,超文本传输协议),提高了数据传输的安全性。
本申请实施例中,在基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面时,可以基于页面样式信息、目标页面元素及预设的源码标准,生成处理后的页面对应的源码。由此,通过采用预设的源码标准,比如W3C标准,生成处理后的页面的源码,可以提高数据传输的安全性。
在实际应用中,为了便于计算机理解人类语言,需要对字符进行编码。互联网原始数据编码多样化,为了提高兼容性,在本申请的一个实施例中,对于目标页面元素可以采用统一的编码方式。下面结合图3进行说明,图3为本申请实施例提供的另一种页面处理方法的流程示意图。
如图3所示,该页面处理方法还可包括:
步骤301,根据目标页面元素对应的编码,确定目标页面元素对应的编码方式。
由于不同的编码方式对应的编码规则不同,在本申请中,可根据每种编码方式对应的编码规则,和目标页面元素对应的编码,确定目标页面元素当前采用的编码方式。
步骤302,在目标页面元素对应的编码方式与预设编码方式不匹配的情况下,按照预设编码方式对目标页面元素的编码进行更新。
本申请中,可将目标页面元素对应的编码方式与预设编码方式进行比较。在目标页面元素对应的编码方式与预设编码方式不匹配的情况下,即当前未采用预设编码方式对目标页面元素进行编码,可按照预设编码方式对目标页面元素的编码进行更新。
比如,预设编码方式可以为GB18030(信息技术中文编码字符集)或者UTF-8(8-bitUnicode Transformation Format,8位统一码转换格式)等。
需要说明的是,预设编码方式可根据需要设定,本申请对此不作限定。
本申请实施例中,可根据目标页面元素对应的编码,确定目标页面元素对应的编码方式,在目标页面元素对应的编码方式与预设编码方式不匹配的情况下,按照预设编码方式对目标页面元素的编码进行更新。由此,可以将筛选后的目标页面元素统一为预设编码方式,提高了兼容性。
在本申请的一个实施例中,可根据页面元素的展现形态,获取目标页面元素。下面结合图4进行说明,图4为本申请实施例提供的另一种页面处理方法的流程示意图。
如图4所示,该页面处理方法包括:
步骤401,对第一待处理页面进行解析,以获取第一待处理页面对应的页面元素和页面样式信息。
本申请中,步骤401与上述步骤101类似,故在此不再赘述。
步骤402,在页面元素的展现形态为悬浮、嵌入、抖动中的一种的情况下,确定页面元素为待筛除元素。
在实际应用中,通常采用多种形态展示页面中的低质页面元素,比如广告、红包等页面元素。本申请中,由于已知待处理页面中各页面元素的展现形态,那么可确定待处理页面中各个页面元素的展现形态。在页面元素的展现形态为悬浮、嵌入、抖动中的一种的情况下,可确定该页面元素为待筛除元素。那么,通过这种方式,可以确定出页面元素中的所有待筛除元素,即所有低质页面元素。
步骤403,将待筛除元素删除,以获取目标页面元素。
在确定出待筛除元素后,可将页面元素中的待筛除元素删除,剩余的页面元素即为目标页面元素。也就是说,可将页面元素中的低质页面元素删除,以获取目标页面元素。
步骤404,基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面。
本申请中,步骤404可以采用上述基于页面样式信息,对目标页面元素进行布的方法,故在此不再赘述。
本申请实施例中,在对页面元素进行筛选处理,以获取目标页面元素时,可在页面元素的展现形态为悬浮、嵌入、抖动中的一种的情况下,确定页面元素为待筛除元素,并将待筛除元素删除,以获取目标页面元素。由此,可以通过页面元素的展现形态,确定出页面元素中的低质页面元素,以筛选出目标页面元素。
在实际应用中,如果将低质页面元素删除,页面中对应位置会有留白。基于此,在本申请的一个实施例中,在基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面时,可通过对象树处理留白问题。
在实际应用中,通常低质页面元素在页面中整行展现,也就是说多个低质页面元素整块展现。本申请中,可通过对第一待处理页面进行解析,获取第一待处理页面对应的对象树,比如DOM(Document Object Model,文档对象化模型)对象树(或称为DOM树)。
在获取第一待处理页面对应的对象树后,针对每个待筛除元素,可遍历对象树,获取待筛除元素对应的节点,以及该节点的父节点。在确定待筛除元素对应的节点及节点的父节点后,可将父节点及父节点的所有子节点删除或隐藏,从而可以使其余页面元素自动对齐。之后,针对未被删除的待筛除元素,继续遍历对象树,直至所有的待筛除元素被删除。
本申请中,若某个节点的子节点中有待筛除元素对应的节点,可以认为该节点的所有子节点对应的页面元素均为待筛除元素。对于展现形态为悬浮的待筛除元素,可直接将该待筛除元素对应的节点删除。
图5为本申请实施例提供的一个待处理页面示意图。以图5中页面的最上方的4个低质页面元素为例,4个低质页面元素分别对应的节点具有相同的父节点,这时可将父节点及父节点包含的4个子节点删除,那么其余的页面元素上移。
本申请实施例中,在基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面时,可获取第一待处理页面对应的对象树,通过遍历对象树,确定待筛除元素对应的节点及该节点的父节点,可将父节点及父节点下的所有子节点删除或隐藏。由此,可以将所有待筛除页面元素对应的节点及其父节点删除,以使相应的目标页面元素自动对齐,从而可以避免处理后的页面中包含留白。
在本申请的一个实施例中,在对第一待处理页面进行解析之前,还可在接收到针对任一链接的访问请求的情况下,获取任一链接关联的第一待处理页面。
其中,第一待处理页面可以是用户直接触发搜索结果打开的页面。第一待处理页面也可以是通过上述页面处理方法,得到的处理后的页面中包含的链接对应的页面。也就是说,处理后的页面中可包含链接,当链接被触发时,可利用上述页面处理方法继续对跳转后的页面进行处理,实现对多跳链接的页面进行优化。
本申请实施例中,在对第一待处理页面进行解析之前,在接收到针对任一链接的访问请求的情况下,获取任一链接关联的第一待处理页面,在获取第一待处理页面后,通过第一待处理页面对应的页面样式信息,对筛选出的目标页面元素进行布局。由此,可以对任一链接关联的处理页面进行页面优化,适用范围广。
为了提高页面处理的个性化需求,作为一个示例,在页面展示界面中可提供页面优化控件,若页面优化控件被触发,可获取到针对待处理页面的优化请求,这时可采用上述页面处理方法进行页面优化,以将待处理页面中低质元素删除并保留页面样式。由此,可以根据用户需求进行页面优化,从而提高了页面优化的个性化需求,实现了智能推荐。
图6为本申请实施例提供的一种页面处理过程示意图。
图6中,可先对待处理页面进行低质处理,以对低质页面元素进行识别和数据清理,获取目标页面元素,可支持DOM树静态数据、动态加载数据,以及悬浮、嵌入、抖动和各种粒度大小的低质页面元素识别清理。其中,低质处理可包括DOM元素/JS(JavaScript)元素筛选、低质节点过滤、动态资源筛选、信息容错。
其中,DOM元素/JS元素筛选:可以筛选出DOM元素/JS元素生成的广告(比如文字、图片等)。
低质节点过滤:可对低质页面元素对应的节点进行过滤。其中,低质页面元素对应的节点,可能是多个小节点合并成的一个大节点。
动态资源筛选:可筛选出针对JS/CCS动态加载的信息,并进行删除。
信息容错:针对多种字符编码、多种页面结构的兼容。
在低质处理后,可基于待处理页面对应的页面样式信息,对得到目标页面元素重新布局。其中,重新布局时,可进行外链处理、https支持、假图处理、留白处理、自适应处理、编码归一等。
其中,外链处理:可对CSS信息和JS信息进行转存,用于保留页面样式信息,转存处理也可以避免通过外链注入病毒等破坏信息。
https支持:可按照W3C标准,生成处理后的页面对应的源码,以实现https支持,保证数据传输的安全性。
假图处理:利用DOM树加载的图片链接部分为假图,即没有给出图片链接的绝对路径,那么可将图片链接的相对路径转换为绝对路径。
留白处理:在删除或屏蔽低质页面元素后,页面通常出现留白,可通过将低质页面元素对应的节点的父节点,及父节点的所有子节点进行隐藏或删除,实现页面元素的自动对齐。
自适应处理:支持在用户不同终端下,可自适应调整页面尺寸适应用户设备。在实现时,基于获取的用户终端的尺寸,对处理后的页面的尺寸自适应调整。
编码归一:互联网原始数据编码多样,为了提升兼容性,可对各页面元素的编码方式进行归一,比如,可统一采用GB18030、或者UTF-8等。
在生成处理后的页面后,可对处理后的页面进行展现,还可进行多跳链接发现,之后进行多跳展现。若处理后的页面中可包含链接,当处理后的页面中包含的链接被触发时,可对跳转后的页面进行页面优化,实现多跳链接循环处理,之后展现跳转后的页面对应的处理后的页面。
以图5和图7为例,图5为处理前的页面,图5中,除目标页面元素对应的矩形框外,其他矩形框内的页面元素均为低质页面元素。图7为利用本申请实施例的页面处理方法,对图5所示的页面进行处理后,生成的页面。可见,图7中所示的页面保留了页面样式,且保证了新闻的完整信息。当图7中的“上一篇”或者“下一篇”被触发时,可利用本申请的页面处理方法,对跳转后的页面进行处理。
为了实现上述实施例,本申请实施例还提出一种页面处理装置。图8为本申请实施例提供的一种页面处理装置的结构示意图。
如图8所示,该页面处理装置800可包括:
解析模块810,用于对第一待处理页面进行解析,以获取所述第一待处理页面对应的页面元素和页面样式信息;
筛选模块820,用于对所述页面元素进行筛选处理,以获取目标页面元素;
布局模块830,用于基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面。
在本申请实施例一种可能的实现方式中,该装置还可包括:
保存模块,用于保存所述页面样式信息;
布局模块830,还用于在获取到与所述第一待处理页面属于同一站点的第二待处理页面的情况下,利用所述页面样式信息,对所述第二待处理页面对应的目标页面元素进行布局,以生成所述第二待处理页面对应的处理后的页面。
在本申请实施例一种可能的实现方式中,所述布局模块830,用于:
基于所述页面样式信息、所述目标页面元素及预设的源码标准,生成所述处理后的页面对应的源码。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第二确定模块,用于根据所述目标页面元素对应的编码,确定所述目标页面元素对应的编码方式;
更新模块,用于在所述目标页面元素对应的编码方式与预设编码方式不匹配的情况下,按照所述预设编码方式对所述目标页面元素的编码进行更新。
在本申请实施例一种可能的实现方式中,所述筛选模块820,用于:
在所述页面元素的展现形态为悬浮、嵌入、抖动中的一种的情况下,确定所述页面元素为待筛除元素;
将所述待筛除元素删除,以获取所述目标页面元素。
在本申请实施例一种可能的实现方式中,所述布局模块830,用于:
获取所述第一待处理页面对应的对象树;
遍历所述对象树,确定所述待筛除元素对应的节点及所述节点的父节点;
将所述父节点及所述父节点的所有子节点删除或隐藏。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第二获取模块,用于在接收到针对任一链接的访问请求的情况下,获取所述任一链接关联的所述第一待处理页面。
需要说明的是,前述页面处理方法实施例的解释说明,也适用于该实施例的页面处理装置,故在此不再赘述。
本申请实施例中,通过对第一待处理页面进行解析,以获取第一待处理页面对应的页面元素和页面样式信息;对页面元素进行筛选处理,以获取目标页面元素;基于页面样式信息,对目标页面元素进行布局,以生成处理后的页面。由此,通过待处理页面的页面样式信息,对筛选后得到的页面元素进行重新布局,不仅实现了页面优化,而且使得处理的页面保留了页面样式,提高了优化效果,且该方法适用范围广。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本申请的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory,随机访问/存取存储器)903中的计算机程序,来执行各种适当的动作和处理。在RAM903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。I/O(Input/Output,输入/输出)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如对话识别方法。例如,在一些实施例中,页面处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的页面处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行页面处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请的实施例,本申请还提供了一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行本申请上述实施例提出的页面处理方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (17)

1.一种页面处理方法,包括:
对第一待处理页面进行解析,以获取所述第一待处理页面对应的页面元素和页面样式信息;
对所述页面元素进行筛选处理,以获取目标页面元素;
基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面。
2.如权利要求1所述的方法,其中,在所述基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面之后,还包括:
保存所述页面样式信息;
在获取到与所述第一待处理页面属于同一站点的第二待处理页面的情况下,利用所述页面样式信息,对所述第二待处理页面对应的目标页面元素进行布局,以生成所述第二待处理页面对应的处理后的页面。
3.如权利要求1所述的方法,其中,所述基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面,包括:
基于所述页面样式信息、所述目标页面元素及预设的源码标准,生成所述处理后的页面对应的源码。
4.如权利要求1所述的方法,其中,所述方法还包括:
根据所述目标页面元素对应的编码,确定所述目标页面元素对应的编码方式;
在所述目标页面元素对应的编码方式与预设编码方式不匹配的情况下,按照所述预设编码方式对所述目标页面元素的编码进行更新。
5.如权利要求1所述的方法,其中,所述对所述页面元素进行筛选处理,以获取目标页面元素,包括:
在所述页面元素的展现形态为悬浮、嵌入、抖动中的一种的情况下,确定所述页面元素为待筛除元素;
将所述待筛除元素删除,以获取所述目标页面元素。
6.如权利要求5所述的方法,其中,所述基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面,包括:
获取所述第一待处理页面对应的对象树;
遍历所述对象树,确定所述待筛除元素对应的节点及所述节点的父节点;
将所述父节点及所述父节点的所有子节点删除或隐藏。
7.如权利要求1-6任一所述的方法,其中,在所述对第一待处理页面进行解析之前,还包括:
在接收到针对任一链接的访问请求的情况下,获取所述任一链接关联的所述第一待处理页面。
8.一种页面处理方法,包括:
解析模块,用于对第一待处理页面进行解析,以获取所述第一待处理页面对应的页面元素和页面样式信息;
筛选模块,用于对所述页面元素进行筛选处理,以获取目标页面元素;
布局模块,用于基于所述页面样式信息,对所述目标页面元素进行布局,以生成处理后的页面。
9.如权利要求8所述的装置,其中,所述装置还包括:
保存模块,用于保存所述页面样式信息;
所述布局模块,还用于在获取到与所述第一待处理页面属于同一站点的第二待处理页面的情况下,利用所述页面样式信息,对所述第二待处理页面对应的目标页面元素进行布局,以生成所述第二待处理页面对应的处理后的页面。
10.如权利要求8所述的装置,其中,所述布局模块,用于:
基于所述页面样式信息、所述目标页面元素及预设的源码标准,生成所述处理后的页面对应的源码。
11.如权利要求8所述的装置,其中,所述装置还包括:
确定模块,用于根据所述目标页面元素对应的编码,确定所述目标页面元素对应的编码方式;
更新模块,用于在所述目标页面元素对应的编码方式与预设编码方式不匹配的情况下,按照所述预设编码方式对所述目标页面元素的编码进行更新。
12.如权利要求8所述的装置,其中,所述筛选模块,用于:
在所述页面元素的展现形态为悬浮、嵌入、抖动中的一种的情况下,确定所述页面元素为待筛除元素;
将所述待筛除元素删除,以获取所述目标页面元素。
13.如权利要求12所述的装置,其中,所述布局模块,用于:
获取所述第一待处理页面对应的对象树;
遍历所述对象树,确定所述待筛除元素对应的节点及所述节点的父节点;
将所述父节点及所述父节点的所有子节点删除或隐藏。
14.如权利要求8-13任一所述的装置,其中,所述装置还包括:
第二获取模块,用于在接收到针对任一链接的访问请求的情况下,获取所述任一链接关联的所述第一待处理页面。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
CN202110496256.6A 2021-05-07 2021-05-07 页面处理方法、装置、电子设备和存储介质 Pending CN113343066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496256.6A CN113343066A (zh) 2021-05-07 2021-05-07 页面处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496256.6A CN113343066A (zh) 2021-05-07 2021-05-07 页面处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113343066A true CN113343066A (zh) 2021-09-03

Family

ID=77469823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496256.6A Pending CN113343066A (zh) 2021-05-07 2021-05-07 页面处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113343066A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519157A (zh) * 2022-01-07 2022-05-20 北京金堤科技有限公司 目标详情页的展示方法及装置
WO2024051439A1 (zh) * 2022-09-08 2024-03-14 北京有竹居网络技术有限公司 网页生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506479A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 页面编辑的方法、装置、设备以及存储介质
CN112685671A (zh) * 2021-01-21 2021-04-20 百度在线网络技术(北京)有限公司 页面显示方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506479A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 页面编辑的方法、装置、设备以及存储介质
CN112685671A (zh) * 2021-01-21 2021-04-20 百度在线网络技术(北京)有限公司 页面显示方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519157A (zh) * 2022-01-07 2022-05-20 北京金堤科技有限公司 目标详情页的展示方法及装置
WO2024051439A1 (zh) * 2022-09-08 2024-03-14 北京有竹居网络技术有限公司 网页生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10552508B2 (en) Method and apparatus for processing a webpage
US20150058407A1 (en) Systems, methods, and apparatuses for implementing the simultaneous display of multiple browser client cursors at each browser client common to a shared browsing session
US10515142B2 (en) Method and apparatus for extracting webpage information
CN113343066A (zh) 页面处理方法、装置、电子设备和存储介质
EP4053802A1 (en) Video classification method and apparatus, device and storage medium
CN113382083B (zh) 一种网页截图方法和装置
CN112685671A (zh) 页面显示方法、装置、设备及存储介质
US10755091B2 (en) Method and apparatus for retrieving image-text block from web page
CN109325197B (zh) 用于提取信息的方法和装置
CN111294395A (zh) 一种终端页面传输方法、装置、介质和电子设备
CN111314388B (zh) 用于检测sql注入的方法和装置
CN115268904A (zh) 一种用户界面设计文件生成方法、装置、设备及介质
CN113342450B (zh) 页面处理的方法、装置、电子设备及计算机可读介质
CN112487765B (zh) 一种生成通知文本的方法和装置
CN114297544A (zh) 一种远程浏览方法、装置、设备及存储介质
CN114489639A (zh) 文件生成方法、装置、设备及存储介质
CN112579080A (zh) 一种生成用户界面代码的方法和装置
CN110858240A (zh) 一种前端模块加载方法和装置
CN111736805B (zh) 一种处理Excel表格的方法和装置
CN110365633B (zh) 通信流量控制方法、装置、计算机设备及存储介质
CN114417396B (zh) 隐私政策文本数据提取方法、装置、电子设备及存储介质
CN113282274B (zh) 一种数据处理方法和装置
CN113553489B (zh) 内容抓取的方法、装置、设备、介质及程序产品
CN109218270B (zh) 一种处理被劫持请求的方法和装置
CN114500505A (zh) 文本处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination