CN111966930B

CN111966930B - 基于XPath序列的网页列表解析方法及系统

Info

Publication number: CN111966930B
Application number: CN202010825868.0A
Authority: CN
Inventors: 李钊; 王瑞霜; 陈通; 卢凤; 胡传会; 魏静
Original assignee: Shandong Ecloud Information Technology Co ltd
Current assignee: Shandong Ecloud Information Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-05-04
Anticipated expiration: 2040-08-17
Also published as: CN111966930A

Abstract

本发明公开了基于XPath序列的网页列表解析方法及系统，包括：根据URL获取网页的HTML源代码；根据网页的HTML源代码，生成DOM Tree；根据DOM Tree，获取网页中列表项的候选路径；从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；根据简化XPath路径与标签label的字典，获取网页列表项的结果。

Description

基于XPath序列的网页列表解析方法及系统

技术领域

本申请涉及网页列表解析技术领域，特别是涉及基于XPath序列的网页列表解析方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

随着信息技术的飞速发展，互联网已经成为信息共享的巨大载体。随着网络上信息资源的不断增加，越来越多的公司从网络上获取数据资源来满足自己的需求。因此，网页数据的提取将变得越来越重要而且具有巨大的应用价值和发展前景。列表是网页中一项很重要的数据结构，通过获取列表的信息，进而进行网页内容的提取。由于不同网页中的列表项其HTML编写的样式不同，这将导致很难从不规则的网页中提取出列表信息。

发明人发现，目前，已有一些方法对网页列表进行提取，包括手动和自动提取方法。手动提取需要人根据网页源代码获取其规则，然后再进行提取，这将耗费大量的人力，效率低。自动抽取技术包括根据节点的css样式相似性进行抽取等，这些方式的准确率还有待提高。因此本专利提出一种基于规则的网页列表解析方法，并取得较高的准确率。

发明内容

为了解决现有技术的不足，本申请提供了基于XPath序列的网页列表解析方法及系统；

第一方面，本申请提供了基于XPath序列的网页列表解析方法；

基于XPath序列的网页列表解析方法，包括：

根据URL获取网页的HTML源代码；

根据网页的HTML源代码，生成DOM Tree；

根据DOM Tree，获取网页中列表项的候选路径；

从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；

根据简化XPath路径与标签label的字典，获取网页列表项的结果。

第二方面，本申请提供了基于XPath序列的网页列表解析系统；

基于XPath序列的网页列表解析系统，包括：

第一获取模块，其被配置为：根据URL获取网页的HTML源代码；

生成模块，其被配置为：根据网页的HTML源代码，生成DOM Tree；

第二获取模块，其被配置为：根据DOM Tree，获取网页中列表项的候选路径；

建立模块，其被配置为：从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；

输出模块，其被配置为：根据简化XPath路径与标签label的字典，获取网页列表项的结果。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

在实际工作中，之前是由人工提取网页中列表项的规则，耗费了不少人力，且效率低。本发明的实施中先获取列表项的候选路径而不是获取所有节点，可提升程序的性能。另外，实施过程中，建立简化路径_xpath路径字典的数据结构方便后续步骤直接根据简化路径获取其对应的xpath路径。本发明目前已经应用到生产环境中，该发明的实施使得网页列表的提取快速、高效，大大提高了工作效率，节省了公司的人力成本。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

专业术语解释：

统一资源定位符(Uniform Resource Locator，URL)；

XPath即为XML路径语言，它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构，有不同类型的节点，包括元素节点，属性节点和文本节点，提供在数据结构树中找寻节点的能力。

DOM是文档对象化模型(Document Object Model)的简称。DOM Tree是指通过DOM将HTML页面进行解析，并生成的HTML tree树状结构和对应访问方法。

实施例一

本实施例提供了基于XPath序列的网页列表解析方法；

如图1所示，基于XPath序列的网页列表解析方法，包括：

S101：根据URL获取网页的HTML源代码；

S102：根据网页的HTML源代码，生成DOM Tree；

S103：根据DOM Tree，获取网页中列表项的候选路径；

S104：从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；

S105：根据简化XPath路径与标签label的字典，获取网页列表项的结果。

应理解的，所述网页中列表项，是指：网页中一串连续排列的、带链接的若干个题目，这些链接的指向，在网站结构上，具有相似的位置。

作为一个或多个实施例，所述S103：根据DOM Tree，获取网页中列表项的候选路径；具体步骤包括：

S1031：获取DOM Tree中所有<a>下文本内容不为空的超链接<a>节点；

S1032：获取超链接<a>节点的实际XPath路径，对实际XPath路径进行简化，得到简化XPath路径；将简化XPath路径作为key，将实际XPath路径作为value，建立简化XPath路径与实际XPath路径的字典；

S1033：从简化XPath路径与实际XPath路径的字典中，判断简化XPath路径对应的实际XPath路径的数量是否大于等于设定阈值，如果是，则将当前简化XPath路径作为候选简化XPath路径；如果否，则将当前简化XPath路径删除；最后得到候选简化XPath路径与实际XPath路径的字典。

应理解的，所述列表项的标题都是超链接<a>标签。

进一步地，所述S1032中，对实际XPath路径进行简化，得到简化XPath路径；具体步骤包括：

将XPath路径中的标签元素位置索引替换为空串。

示例性的，所述S1032中，XPath及简化XPath示例如下：

XPath路径：/html/body/div[2]/div[3]/div/div[2]/div[1]/div[3]/a

简化XPath路径：/html/body/div/div/div/div/div/div/a

应理解的，之所以S1033需要设定阈值，是因为网页中的列表项的简化XPath相同，并且列表中的列表项数比较多。如果不设置阈值，则步骤S1031中获取到的<a>标签的简化路径均为候选XPath路径，会降低程序的效率。如果网页中有较多的列表项中的记录条数为1，可将阈值设置为1。

作为一个或多个实施例，所述S104：从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；具体步骤包括：

S1041：遍历候选简化XPath路径与实际XPath路径的字典，遍历候选简化路径对应的实际XPath路径，获取实际XPath路径对应的<a>节点；判断<a>节点下的文本是否包含日期项，如果不包含日期项，则进入S1042，如果包含日期项，则将当前候选简化路径作为key，标签“c”作为value，建立候选简化XPath路径与标签label的字典项；结束本次循环，继续对下一个候选简化路径进行判断；

S1042：根据超链接节点<a>获取其父节点记为node_p，在父节点node_p不为空的情况下，如果父节点node_p的tag为div或者父节点node_p节点下的超链接节点<a>个数大于等于2，认为节点<a>不是列表项中的<a>标签；

如果父节点node_p的Html标签不为div或者父节点node_p节点下的超链接节点<a>个数小于2，则判断node_p节点下的文本中是否包含日期项，如果不包含，则执行步骤S1043；如果包含，则将当前候选简化路径作为key,标识“p”作为value，建立候选简化XPath路径与标签label的字典项，并结束本次循环，继续对下一个候选简化路径进行判断；

S1043：记父节点node_p的父节点为node_pp,在node_pp不为空的情况下，

如果node_pp节点的tag为div或者node_pp节点下的<a>节点个数大于等于2，此时认为该<a>节点不是列表项中的<a>标签；

如果node_pp节点的tag不为div或者node_pp节点下的<a>节点个数小于2，则判断node_pp节点下的文本中是否包含日期项，如果不包含，则执行S1044；如果包含，则将该简化路径作为key，标识“pp”作为value，建立候选简化XPath路径与标签label的字典项，并结束本次循环，继续对下一个候选简化路径进行判断；

S1044：判断node_pp的父节点是否为空并且该节点下的<a>节点的个数是否小于2，如果是，则判断该节点下是否包含日期项，如果是，则将该简化路径作为key，标识“ppp”作为value，建立候选简化XPath路径与标签label的字典项，并结束本次循环，继续对下一个候选简化路径进行判断；

直至所有候选简化路径被判断完毕，得到了候选简化XPath路径与标签label的字典。

作为一个或多个实施例，所述S105：根据简化XPath路径与标签label的字典，获取网页列表项的结果；具体步骤包括：

根据候选简化XPath路径与标签label的字典，获取网页中列表项结果，包括标题、url、时间。

遍历候选简化XPath路径与标签label的字典，根据候选简化XPath路径获取对应的<a>节点和实际XPath路径，然后根据列表项标题为<a>标签中的文本或其子节点中的文本，和/或url为<a>标签的href属性值的规则，获取节点下的列表标题、标题的相对和绝对url，根据标签label及日期规则获取列表项中的时间。

实施例二

本实施例提供了基于XPath序列的网页列表解析系统；

基于XPath序列的网页列表解析系统，包括：

第一获取模块，其被配置为：根据URL获取网页的HTML源代码；

此处需要说明的是，上述第一获取模块、生成模块、第二获取模块、建立模块和输出模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于XPath序列的网页列表解析方法，包括：

根据URL获取网页的HTML源代码；

根据网页的HTML源代码，生成DOM Tree；

根据DOM Tree，获取网页中列表项的候选路径；

根据简化XPath路径与标签label的字典，获取网页列表项的结果；

根据DOM Tree，获取网页中列表项的候选路径；具体步骤包括：

获取DOM Tree中所有<a>下文本内容不为空的超链接<a>节点；

获取超链接<a>节点的实际XPath路径，对实际XPath路径进行简化，得到简化XPath路径；将简化XPath路径作为key，将实际XPath路径作为value，建立简化XPath路径与实际XPath路径的字典；

从简化XPath路径与实际XPath路径的字典中，判断简化XPath路径对应的实际XPath路径的数量是否大于等于设定阈值，如果是，则将当前简化XPath路径作为候选简化XPath路径；如果否，则将当前简化XPath路径删除；最后得到候选简化XPath路径与实际XPath路径的字典。

2.如权利要求1所述的方法，其特征是，对实际XPath路径进行简化，得到简化XPath路径；具体步骤包括：

将XPath路径中的标签元素位置索引替换为空串。

3.如权利要求1所述的方法，其特征是，设定阈值，是因为网页中的列表项的简化XPath相同，并且列表中的列表项数多；如果不设置阈值，则获取到的<a>标签的简化路径均为候选XPath路径，会降低程序的效率。

4.如权利要求1所述的方法，其特征是，从候选路径中筛选出列表项的简化XPath路径，建立候选简化XPath路径与标签label的字典；具体步骤包括：

(1)：遍历候选简化XPath路径与实际XPath路径的字典，遍历候选简化路径对应的实际XPath路径，获取实际XPath路径对应的<a>节点；判断<a>节点下的文本是否包含日期项，如果不包含日期项，则进入(2)，如果包含日期项，则将当前候选简化路径作为key，标签“c”作为value，建立候选简化XPath路径与标签label的字典项；结束本次循环，继续对下一个候选简化路径进行判断；

(2)：根据超链接节点<a>获取其父节点记为node_p，在父节点node_p不为空的情况下，如果父节点node_p的tag为div或者父节点node_p节点下的超链接节点<a>个数大于等于2，认为节点<a>不是列表项中的<a>标签；如果父节点node_p的Html标签不为div或者父节点node_p节点下的超链接节点<a>个数小于2，则判断node_p节点下的文本中是否包含日期项，如果不包含，则执行(3)；如果包含，则将当前候选简化路径作为key,标识“p”作为value，建立候选简化XPath路径与标签label的字典项，并结束本次循环，继续对下一个候选简化路径进行判断；

(3)：记父节点node_p的父节点为node_pp,在node_pp不为空的情况下，如果node_pp节点的tag为div或者node_pp节点下的<a>节点个数大于等于2，此时认为该<a>节点不是列表项中的<a>标签；如果node_pp节点的tag不为div或者node_pp节点下的<a>节点个数小于2，则判断node_pp节点下的文本中是否包含日期项，如果不包含，则执行(4)；如果包含，则将该简化路径作为key,标识“pp”作为value，建立候选简化XPath路径与标签label的字典项，并结束本次循环，继续对下一个候选简化路径进行判断；

(4)：判断node_pp的父节点是否为空并且该节点下的<a>节点的个数是否小于2，如果是，则判断该节点下是否包含日期项，如果是，则将该简化路径作为key，标识“ppp”作为value，建立候选简化XPath路径与标签label的字典项，并结束本次循环，继续对下一个候选简化路径进行判断；直至所有候选简化路径被判断完毕，得到了候选简化XPath路径与标签label的字典。

5.如权利要求1所述的方法，其特征是，根据简化XPath路径与标签label的字典，获取网页列表项的结果；具体步骤包括：

6.如权利要求1所述的方法，其特征是，根据简化XPath路径与标签label的字典，获取网页列表项的结果；具体步骤包括：

7.基于XPath序列的网页列表解析系统，其特征是，包括：

第一获取模块，其被配置为：根据URL获取网页的HTML源代码；

输出模块，其被配置为：根据简化XPath路径与标签label的字典，获取网页列表项的结果；

获取DOM Tree中所有<a>下文本内容不为空的超链接<a>节点；

8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。