CN113283216A - 网页内容显示方法、装置、设备及存储介质 - Google Patents
网页内容显示方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113283216A CN113283216A CN202110605585.XA CN202110605585A CN113283216A CN 113283216 A CN113283216 A CN 113283216A CN 202110605585 A CN202110605585 A CN 202110605585A CN 113283216 A CN113283216 A CN 113283216A
- Authority
- CN
- China
- Prior art keywords
- data
- page
- node
- tree structure
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000012634 fragment Substances 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000008520 organization Effects 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及页面开发技术领域,并公开了一种页面内容显示方法、装置、设备及存储介质,通过将待提取网页对应的文档对象模型DOM文档进行解析,得到的页面树结构转换为数据树结构;并对所述数据树结构基于标题节点进行划分,得到若干数据片段之后,将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,可以得到定制化的网页内容。实现了通过对网页局部区域的DOM解析,将网页的数据片段进行个性化编辑,形成定制化页面,提高用户的体验效果。
Description
技术领域
本申请涉及页面开发技术领域,尤其涉及一种网页内容显示方法、装置、设备及存储介质。
背景技术
目前,可以通过PC浏览器将丰富的业务数据展示在网页上,供用户获取数据信息。而由于用户对可见数据的关注点可能不同,导致部分用户对网页展示的内容可能不满意。现有技术中为了满足用户的不同需求,各网页系统需要根据产品经理对用户需求的分析结果,进行页面开发。但是此方式还是无法灵活解决个性化的用户需求,且如果针对不同需求进行页面开发,则会造成开发成本过高的问题。
发明内容
本申请提供了一种网页内容显示方法、装置、设备及存储介质,能够通过对网页局部区域的DOM解析,将网页的数据片段进行个性化编辑,形成定制化页面,提高用户的体验效果。
第一方面,本申请提供了一种网页内容显示方法,所述方法包括:
获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构;
将所述页面树结构转换为数据树结构;
对所述数据树结构基于标题节点进行划分,得到若干数据片段;
将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
第二方面,本申请还提供了一种网页内容显示装置,包括:
解析模块,用于获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构;
转换模块,用于将所述页面树结构转换为数据树结构;
第一得到模块,用于对所述数据树结构基于标题节点进行划分,得到若干数据片段;
第二得到模块,用于将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
第三方面,本申请还提供了一种网页内容显示设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的网页内容显示方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的网页内容显示方法的步骤。
本申请公开了一种网页内容显示方法、装置、设备及存储介质,通过将待提取网页对应的文档对象模型DOM文档进行解析,得到的页面树结构转换为数据树结构;并对所述数据树结构基于标题节点进行划分,得到若干数据片段之后,将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,可以得到定制化的网页内容。实现了通过对网页局部区域的DOM解析,将网页的数据片段进行个性化编辑,形成定制化页面,提高用户的体验效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的网页内容显示方法的示意流程图;
图2是图1中S102的具体实现流程图;
图3是图1中S103的具体实现流程图;
图4是本申请实施例提供的网页内容显示装置的结构示意图;
图5是本申请实施例提供的网页内容显示设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种网页内容显示方法、装置、设备及存储介质。本申请实施例提供的网页内容显示方法,通过将待提取网页对应的文档对象模型DOM文档进行解析,得到的页面树结构转换为数据树结构;并对所述数据树结构基于标题节点进行划分,得到若干数据片段之后,将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,可以得到定制化的网页内容。实现了通过对网页局部区域的DOM解析,将网页的数据片段进行个性化编辑,形成定制化页面,提高用户的体验效果。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请一实施例提供的网页内容显示方法的示意流程图。该网页内容显示方法可以由服务器或者终端实现,所述服务器可以是单个服务器或者服务器集群。所述终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图1所示,图1是本申请一实施例提供的网页内容显示方法的实现流程图。具体包括:步骤S101至步骤S104。详述如下:
S101,获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构。
其中,所述待提取网页对应的文档对象模型DOM文档为采用可扩展置标语言编写的,可以动态地访问待提取网页内容的程序接口。在本实施例中,通过文档对象模型DOM文档可以动态地访问待提取网页内容,从待提取网页内容中提取DOM文档元素,并基于所述DOM文档元素得到页面树结构。其中,所述DOM文档元素是解析得到的网页内容在存储器中的存储单元。
示例性地,所述解析所述DOM文档,得到页面树结构,可以包括:获取预设的所述DOM文档对应的解析模板,所述解析模板中包括需要提取的DOM文档元素、所述DOM文档元素在待提取页面中的布局标签、所述DOM文档元素在所述DOM文档中的位置以及所述DOM文档元素的页面树结构;针对所述解析模板中包括的任一需要提取的DOM文档元素,根据所述解析模板中包括的该DOM文档元素在待提取页面中的布局标签,确定该DOM文档元素的解析器;根据确定的解析器从该DOM文档元素在所述DOM文档中的位置中提取该DOM文档元素;将提取的DOM元素,以该DOM文档元素对应的页面树结构输出。
需要说明的是,预设的所述DOM文档对应的解析模板可以为json格式的模板文件,所述DOM文档元素的类型包括以下之一:字符串、整形、日期、列表。
具体地,DOM即文档对象模型,提供了对整个DOM文档的访问模型,将DOM文档作为一个树形结构,树的每个节点表示了待提取页面中的标签或标签内的文本项,也可以称为DOM文档元素在待提取页面中的布局标签。DOM文档作为一个树形结构,精确地描述了各个DOM文档元素在待提取页面中的布局标签间的相互关联性。将各个DOM文档元素转化为DOM树的过程称为解析DOM文档的过程。DOM文档被解析后,转化为DOM树,在本实施例中,将DOM树称为页面树,DOM树的结构称为页面树结构。
S102,将所述页面树结构转换为数据树结构。
其中,所述页面树结构是所述待提取页面的布局标签的嵌套组织结构,所述数据树结构是非网页标签的组织数据结构;在本申请的实施例中,将页面树结构转换为数据树结构,可以实现网页标签数据至非网页标签数据(文本、数字、图片等)的自动转换,实现可直观高效的进行网页内容的二次应用。
示例性地,如图2所示,图2是图1中S102的具体实现流程图。由图2可知,S102包括S1021至S1022。详述如下:
S1021,从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构。
在一实施例中,所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构,包括:所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,若该节点包括兄弟节点且各个兄弟节点均无数据内容,或者该节点不包括兄弟节点,则确定该节点为所述布局标签的嵌套组织结构的父节点;若该节点包括兄弟节点且有兄弟节点包括数据内容,则确定该节点为所述布局标签的嵌套组织结构的子节点;从该节点开始遍历与该节点相关联的所有节点,获取所述布局标签的嵌套组织结构中与该节点相关联的各个节点的内容数据;根据获取的与该节点相关联的各个节点的内容数据,分别为获取的各个节点赋予非网页数据标签;
根据确定的所述布局标签的嵌套组织结构的父节点和所述布局标签的嵌套组织结构的子节点,以及分别为获取的各个节点赋予的所述非网页数据标签,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构。
S1022,将所述布局标签的嵌套组织结构,转换为所述非网页标签的组织数据结构。
可选地,将所述页面树结构转换为数据树结构的过程示例性地,还可以表示为:从所述页面树结构的任意叶子节点开始,若该叶子节点无兄弟节点,或者该叶子节点有兄弟节点,但是各个兄弟节点均无内容数据,则将该叶子节点数据赋值为数据树结构的父节点,并删除该父节点下的所有叶子节点。重复此步骤,直至所述页面树结构的叶子节点有兄弟节点,且该兄弟节点有内容数据,则从该叶子节点开始遍历所述页面树结构的各个节点,若当前叶子节点的子节点无兄弟节点,且此子节点为非叶子节点,则确定当前叶子节点的子节点的数据赋值为零;若当前叶子节点的所有子节点的数据赋值均为零,则删除当前叶子节点;进一步,从该叶子节点的根节点开始,计算每个根节点下各叶子节点组成的子树是否为相同格式树,并将相同格式树进行标记转换为数据树结构。
具体地,将相同格式树进行标记转换为数据树结构的过程,包括:按照最小叶子深度对其他叶子节点进行深度对齐,通过将高深度叶子节点以及兄弟节点内容合并赋值父节点,并删除父节点下的所有子节点,父节点转换为叶子节点,直至子树所有叶子节点深度对齐;对子树节点层级顺序编号,深度遍历子树节点,形成编号序列,对比所有子树的序列,基于所述子树的序列将相同格式树进行标记转换为数据树结构。
S103,对所述数据树结构基于标题节点进行划分,得到若干数据片段。
其中,所述标题节点为所述数据树结构中的标题分支;对应地,标题分支为在将相同格式树进行标记转换为数据树结构的过程中,对应每个格式树的父节点。
示例性地,如图3所示,图3是图1中S103的具体实现流程图。由图3可知,S103包括S1031至S1033。详述如下:
S1031,将所述数据树结构通过预设界面进行显示。
S1032,响应于用户基于所述预设界面对所述数据树结构中的数据进行的选择操作,确定用户选择的数据中是否存在标题节点。
S1033,若用户选择的数据中存在标题节点,则基于各个所述标题节点对用户选择的数据进行划分,得到若干数据片段。
其中,若干个数据片段还可以构成数据片段集合,并可将数据片段集合中的数据生成列表,通过列表的形式查看数据详情。其中,数据片段中最小叶子深度层级节点可以是列表中的列表项,父节点可以是列表中的行,高深度叶子节点可以是列表中的子项。
示例性地,在本申请的其它实施例中,在所述响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容之前,还可以包括:响应于用户基于页面编辑控件选择的数据编辑指令,从所述用户页面浏览器存储区域中获取所有所述数据片段;基于获取的所有所述数据片段生成数据列表。
S104,将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
对应地,所述响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容,可以包括:响应于用户基于页面编辑控件选择的数据编辑指令,在所述数据列表中,对用户页面浏览器存储区域中的数据片段进行编辑处理,得到定制化的网页内容。
其中,用户可以点击多个页面编辑控件,生成多个数据编辑指令;响应于用户基于页面编辑控件选择的数据编辑指令后,通过多个数据编辑指令,在所述数据列表中,对用户页面浏览器存储区域中的数据片段进行编辑处理,得到定制化的网页内容。其中,编辑控件可对已存在标题行进行名称编辑,也可添加标题行。筛选控件可对不需要的列进行隐藏,或者筛选列各项中符合要求的数据。组合控件可以合并列数据,形成新列数据。运算控件可以对某一列单独进行数值运算,也可以根据另一列进行此列的复合运算等。
通过上述分析可知,本实施例提供的网页内容显示方法,通过将待提取网页对应的文档对象模型DOM文档进行解析,得到的页面树结构转换为数据树结构;并对所述数据树结构基于标题节点进行划分,得到若干数据片段之后,将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,可以得到定制化的网页内容。实现了通过对网页局部区域的DOM解析,将网页的数据片段进行个性化编辑,形成定制化页面,提高用户的体验效果。
请参阅图4,图4是本申请实施例提供的网页内容显示装置的结构示意图。该网页内容显示装置用于执行图1实施例所示的网页内容显示方法的步骤。该网页内容显示装置可以是单个服务器或服务器集群,或者该网页内容显示装置可以是终端,该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图4所示,网页内容显示装置400包括:
解析模块401,用于获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构;
转换模块402,用于将所述页面树结构转换为数据树结构;
第一得到模块403,用于对所述数据树结构基于标题节点进行划分,得到若干数据片段;
第二得到模块404,用于将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
在一实施例中,所述页面树结构是所述待提取页面的布局标签的嵌套组织结构,所述数据树结构是非网页标签的组织数据结构;
转换模块402,包括:
第一确定单元,用于从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构;
转换单元,用于将所述布局标签的嵌套组织结构,转换为所述非网页标签的组织数据结构。
在一实施例中,所述第一确定单元,具体用于:
所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,若该节点包括兄弟节点且各个兄弟节点均无数据内容,或者该节点不包括兄弟节点,则确定该节点为所述布局标签的嵌套组织结构的父节点;
若该节点包括兄弟节点且有兄弟节点包括数据内容,则确定该节点为所述布局标签的嵌套组织结构的子节点;
从该节点开始遍历与该节点相关联的所有节点,获取所述布局标签的嵌套组织结构中与该节点相关联的各个节点的内容数据;
根据获取的与该节点相关联的各个节点的内容数据,分别为获取的各个节点赋予非网页数据标签;
根据确定的所述布局标签的嵌套组织结构的父节点和所述布局标签的嵌套组织结构的子节点,以及分别为获取的各个节点赋予的所述非网页数据标签,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构。
在一实施例中,所述第一得到模块403,包括:
显示单元,用于将所述数据树结构通过预设界面进行显示;
第二确定单元,用于响应于用户基于所述预设界面对所述数据树结构中的数据进行的选择操作,确定用户选择的数据中是否存在标题节点;
得到单元,用于在若用户选择的数据中存在标题节点,则基于各个所述标题节点对用户选择的数据进行划分,得到若干数据片段。
在一实施例中,所述解析模块401,包括:
获取单元,用于获取预设的所述DOM文档对应的解析模板,所述解析模板中包括需要提取的DOM文档元素、所述DOM文档元素在待提取页面中的布局标签、所述DOM文档元素在所述DOM文档中的位置以及所述DOM文档元素的页面树结构;
第三确定单元,用于针对所述解析模板中包括的任一需要提取的DOM文档元素,根据所述解析模板中包括的该DOM文档元素在待提取页面中的布局标签,确定该DOM文档元素的解析器;
提取单元,用于根据确定的解析器从该DOM文档元素在所述DOM文档中的位置中提取该DOM文档元素;
输出单元,用于将提取的DOM元素,以该DOM文档元素对应的页面树结构输出。
在一实施例中,还包括:
获取模块,用于响应于用户基于页面编辑控件选择的数据编辑指令,从所述用户页面浏览器存储区域中获取所有所述数据片段;
生成模块,用于基于获取的所有所述数据片段生成数据列表;
所述第二得到模块,具体用于:
响应于用户基于页面编辑控件选择的数据编辑指令,在所述数据列表中,对用户页面浏览器存储区域中的数据片段进行编辑处理,得到定制化的网页内容。
在一实施例中,所述页面编辑控件包括编辑控件、筛选控件、组合控件、运算控件和导出控件中的至少之一。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的语音合成装置和各模块的具体工作过程,可以参考图1实施例所述的页面内容显示方法实施例中的对应过程,在此不再赘述。
上述的语音合成方法可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的装置上运行。
请参阅图5,图5是本申请实施例提供的网页内容显示设备的结构示意性框图。该网页内容显示设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种网页内容显示方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种网页内容显示方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的网页内容显示设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构;
将所述页面树结构转换为数据树结构;
对所述数据树结构基于标题节点进行划分,得到若干数据片段;
将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
在一实施例中,所述页面树结构是所述待提取页面的布局标签的嵌套组织结构,所述数据树结构是非网页标签的组织数据结构;
所述将所述页面树结构转换为数据树结构,包括:
从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构;
将所述布局标签的嵌套组织结构,转换为所述非网页标签的组织数据结构。
在一实施例中,所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构,包括:
所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,若该节点包括兄弟节点且各个兄弟节点均无数据内容,或者该节点不包括兄弟节点,则确定该节点为所述布局标签的嵌套组织结构的父节点;
若该节点包括兄弟节点且有兄弟节点包括数据内容,则确定该节点为所述布局标签的嵌套组织结构的子节点;
从该节点开始遍历与该节点相关联的所有节点,获取所述布局标签的嵌套组织结构中与该节点相关联的各个节点的内容数据;
根据获取的与该节点相关联的各个节点的内容数据,分别为获取的各个节点赋予非网页数据标签;
根据确定的所述布局标签的嵌套组织结构的父节点和所述布局标签的嵌套组织结构的子节点,以及分别为获取的各个节点赋予的所述非网页数据标签,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构。
在一实施例中,所述对所述数据树结构基于标题节点进行划分,得到若干数据片段,包括:
将所述数据树结构通过预设界面进行显示;
响应于用户基于所述预设界面对所述数据树结构中的数据进行的选择操作,确定用户选择的数据中是否存在标题节点;
若用户选择的数据中存在标题节点,则基于各个所述标题节点对用户选择的数据进行划分,得到若干数据片段。
在一实施例中,所述解析所述DOM文档,得到页面树结构,包括:
获取预设的所述DOM文档对应的解析模板,所述解析模板中包括需要提取的DOM文档元素、所述DOM文档元素在待提取页面中的布局标签、所述DOM文档元素在所述DOM文档中的位置以及所述DOM文档元素的页面树结构;
针对所述解析模板中包括的任一需要提取的DOM文档元素,根据所述解析模板中包括的该DOM文档元素在待提取页面中的布局标签,确定该DOM文档元素的解析器;
根据确定的解析器从该DOM文档元素在所述DOM文档中的位置中提取该DOM文档元素;
将提取的DOM元素,以该DOM文档元素对应的页面树结构输出。
在一实施例中,在所述响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容之前,还包括:
响应于用户基于页面编辑控件选择的数据编辑指令,从所述用户页面浏览器存储区域中获取所有所述数据片段;
基于获取的所有所述数据片段生成数据列表;
所述响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容,包括:
响应于用户基于页面编辑控件选择的数据编辑指令,在所述数据列表中,对用户页面浏览器存储区域中的数据片段进行编辑处理,得到定制化的网页内容。
在一实施例中,所述页面编辑控件包括编辑控件、筛选控件、组合控件、运算控件和导出控件中的至少之一。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请图1实施例提供的网页内容显示方法的步骤。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种网页内容显示方法,其特征在于,所述方法包括:
获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构;
将所述页面树结构转换为数据树结构;
对所述数据树结构基于标题节点进行划分,得到若干数据片段;
将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
2.根据权利要求1所述的网页内容显示方法,其特征在于,所述页面树结构是所述待提取页面的布局标签的嵌套组织结构,所述数据树结构是非网页标签的组织数据结构;
所述将所述页面树结构转换为数据树结构,包括:
从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构;
将所述布局标签的嵌套组织结构,转换为所述非网页标签的组织数据结构。
3.根据权利要求2所述的网页内容显示方法,其特征在于,所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,根据该节点是否具有兄弟节点以及具有的兄弟节点包含的内容数据,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构,包括:
所述从所述待提取页面的布局标签的嵌套组织结构的任意节点开始,若该节点包括兄弟节点且各个兄弟节点均无数据内容,或者该节点不包括兄弟节点,则确定该节点为所述布局标签的嵌套组织结构的父节点;
若该节点包括兄弟节点且有兄弟节点包括数据内容,则确定该节点为所述布局标签的嵌套组织结构的子节点;
从该节点开始遍历与该节点相关联的所有节点,获取所述布局标签的嵌套组织结构中与该节点相关联的各个节点的内容数据;
根据获取的与该节点相关联的各个节点的内容数据,分别为获取的各个节点赋予非网页数据标签;
根据确定的所述布局标签的嵌套组织结构的父节点和所述布局标签的嵌套组织结构的子节点,以及分别为获取的各个节点赋予的所述非网页数据标签,确定与所述布局标签的嵌套组织结构相对应的非网页标签的组织数据结构。
4.根据权利要求1至3任一项所述的网页内容显示方法,其特征在于,所述对所述数据树结构基于标题节点进行划分,得到若干数据片段,包括:
将所述数据树结构通过预设界面进行显示;
响应于用户基于所述预设界面对所述数据树结构中的数据进行的选择操作,确定用户选择的数据中是否存在标题节点;
若用户选择的数据中存在标题节点,则基于各个所述标题节点对用户选择的数据进行划分,得到若干数据片段。
5.根据权利要求4所述的网页内容显示方法,其特征在于,所述解析所述DOM文档,得到页面树结构,包括:
获取预设的所述DOM文档对应的解析模板,所述解析模板中包括需要提取的DOM文档元素、所述DOM文档元素在待提取页面中的布局标签、所述DOM文档元素在所述DOM文档中的位置以及所述DOM文档元素的页面树结构;
针对所述解析模板中包括的任一需要提取的DOM文档元素,根据所述解析模板中包括的该DOM文档元素在待提取页面中的布局标签,确定该DOM文档元素的解析器;
根据确定的解析器从该DOM文档元素在所述DOM文档中的位置中提取该DOM文档元素;
将提取的DOM元素,以该DOM文档元素对应的页面树结构输出。
6.根据权利要求1或5所述的网页内容显示方法,其特征在于,在所述响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容之前,还包括:
响应于用户基于页面编辑控件选择的数据编辑指令,从所述用户页面浏览器存储区域中获取所有所述数据片段;
基于获取的所有所述数据片段生成数据列表;
所述响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容,包括:
响应于用户基于页面编辑控件选择的数据编辑指令,在所述数据列表中,对用户页面浏览器存储区域中的数据片段进行编辑处理,得到定制化的网页内容。
7.根据权利要求6所述的网页内容显示方法,其特征在于,所述页面编辑控件包括编辑控件、筛选控件、组合控件、运算控件和导出控件中的至少之一。
8.一种网页内容显示装置,其特征在于,包括:
解析模块,用于获取待提取网页对应的文档对象模型DOM文档,解析所述DOM文档,得到页面树结构;
转换模块,用于将所述页面树结构转换为数据树结构;
第一得到模块,用于对所述数据树结构基于标题节点进行划分,得到若干数据片段;
第二得到模块,用于将所述若干数据片段存储至用户页面浏览器存储区域中,响应于用户基于页面编辑控件选择的数据编辑指令,对用户页面浏览器存储区域中的数据片段进行处理,得到定制化的网页内容。
9.一种网页内容显示设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的网页内容显示方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的网页内容显示方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605585.XA CN113283216A (zh) | 2021-05-31 | 2021-05-31 | 网页内容显示方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605585.XA CN113283216A (zh) | 2021-05-31 | 2021-05-31 | 网页内容显示方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113283216A true CN113283216A (zh) | 2021-08-20 |
Family
ID=77282891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605585.XA Pending CN113283216A (zh) | 2021-05-31 | 2021-05-31 | 网页内容显示方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283216A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154092A (zh) * | 2021-11-18 | 2022-03-08 | 网易有道信息技术(江苏)有限公司 | 用于对网页进行翻译的方法及其相关产品 |
CN114564274A (zh) * | 2022-03-07 | 2022-05-31 | 北京高途云集教育科技有限公司 | 一种页面展示方法、装置、设备及存储介质 |
CN116976286A (zh) * | 2023-09-22 | 2023-10-31 | 北京紫光芯能科技有限公司 | 用于进行文本布局的方法及装置、电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101203848A (zh) * | 2005-06-24 | 2008-06-18 | 佳思腾软件公司 | 文档处理装置和文档处理方法 |
CN102027472A (zh) * | 2008-05-21 | 2011-04-20 | 国际商业机器公司 | 选择性地保护网络浏览器上广告显示的方法与系统 |
CN102841901A (zh) * | 2011-06-23 | 2012-12-26 | 腾讯科技(深圳)有限公司 | 一种网页显示的方法和装置 |
WO2015127882A1 (en) * | 2014-02-26 | 2015-09-03 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus and system for extracting webpage content |
TW201535295A (zh) * | 2014-03-13 | 2015-09-16 | Chunghwa Telecom Co Ltd | 個人化新聞剪輯系統與方法 |
CN106446072A (zh) * | 2016-09-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
-
2021
- 2021-05-31 CN CN202110605585.XA patent/CN113283216A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101203848A (zh) * | 2005-06-24 | 2008-06-18 | 佳思腾软件公司 | 文档处理装置和文档处理方法 |
CN102027472A (zh) * | 2008-05-21 | 2011-04-20 | 国际商业机器公司 | 选择性地保护网络浏览器上广告显示的方法与系统 |
CN102841901A (zh) * | 2011-06-23 | 2012-12-26 | 腾讯科技(深圳)有限公司 | 一种网页显示的方法和装置 |
WO2015127882A1 (en) * | 2014-02-26 | 2015-09-03 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus and system for extracting webpage content |
TW201535295A (zh) * | 2014-03-13 | 2015-09-16 | Chunghwa Telecom Co Ltd | 個人化新聞剪輯系統與方法 |
CN106446072A (zh) * | 2016-09-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154092A (zh) * | 2021-11-18 | 2022-03-08 | 网易有道信息技术(江苏)有限公司 | 用于对网页进行翻译的方法及其相关产品 |
CN114564274A (zh) * | 2022-03-07 | 2022-05-31 | 北京高途云集教育科技有限公司 | 一种页面展示方法、装置、设备及存储介质 |
CN114564274B (zh) * | 2022-03-07 | 2024-08-16 | 北京高途云集教育科技有限公司 | 一种页面展示方法、装置、设备及存储介质 |
CN116976286A (zh) * | 2023-09-22 | 2023-10-31 | 北京紫光芯能科技有限公司 | 用于进行文本布局的方法及装置、电子设备、存储介质 |
CN116976286B (zh) * | 2023-09-22 | 2024-02-27 | 北京紫光芯能科技有限公司 | 用于进行文本布局的方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106598574B (zh) | 页面渲染的方法和装置 | |
US10929449B2 (en) | Generating a structured document guiding view | |
CN113283216A (zh) | 网页内容显示方法、装置、设备及存储介质 | |
CN110333863B (zh) | 一种生成、显示小程序页面的方法及装置 | |
CN111813963A (zh) | 知识图谱构建方法、装置、电子设备及存储介质 | |
CN109710250B (zh) | 一种用于构建用户界面的可视化引擎系统及方法 | |
CN113609820A (zh) | 基于可扩展标记语言文件生成word文件的方法、装置及设备 | |
US20180321805A1 (en) | Method for automatically applying page labels using extracted label contents from selected pages | |
CN101957749A (zh) | 一种生成widget的方法及装置 | |
EP1821219A1 (en) | Document processing device and document processing method | |
CN102915228A (zh) | 菜单工具条整合系统及方法 | |
CN110851136A (zh) | 数据获取方法、装置、电子设备及存储介质 | |
CN114020256A (zh) | 前端页面生成方法、装置、设备及可读存储介质 | |
CN110347390B (zh) | 一种快速生成web页面的方法、存储介质、设备及系统 | |
CN112328246A (zh) | 页面组件生成方法、装置、计算机设备及存储介质 | |
CN111752565A (zh) | 一种界面生成方法、装置、计算机设备及可读存储介质 | |
CN109325217B (zh) | 一种文件转换方法、系统、装置及计算机可读存储介质 | |
CN115712422A (zh) | 表单页面的生成方法、装置、计算机设备及存储介质 | |
EP1830274A1 (en) | Server device and name space issuing method | |
CN113779235A (zh) | 一种Word文档大纲识别处理方法及装置 | |
CN117873486A (zh) | 一种前后端代码自动生成方法、装置、设备及存储介质 | |
CN117389538A (zh) | 页面组件内容开发方法、装置、设备以及存储介质 | |
CN111639504A (zh) | 网页的多语言翻译方法和装置及设备 | |
US20080005085A1 (en) | Server Device and Search Method | |
CN111046636A (zh) | 筛选pdf文件信息的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |