CN111966901B

CN111966901B - 政策类网页正文提取方法、系统、设备及存储介质

Info

Publication number: CN111966901B
Application number: CN202010825873.1A
Authority: CN
Inventors: 李钊; 卢凤; 陈通; 王瑞霜; 胡传会; 魏静
Original assignee: Shandong Ecloud Information Technology Co ltd
Current assignee: Shandong Ecloud Information Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-04-20
Anticipated expiration: 2040-08-17
Also published as: CN111966901A

Abstract

本发明公开了政策类网页正文提取方法、系统、设备及存储介质，包括：获取政策网页HTML源代码；根据政策网页HTML源代码，获取网页正文所在的位置；根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码。过分析政策网页的页面组织结构规则，构建网页组织结构和网页正文位置的关系，获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。本发明的实施使得政策类网页正文的提取实现了快速、高效获取，大大提高了工作效率，节省公司的人力成本，同时经验证，该发明也取得较高的准确率。

Description

政策类网页正文提取方法、系统、设备及存储介质

技术领域

本申请涉及网页正文提取技术领域，特别是涉及政策类网页正文提取方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

如今有大量的通知、公告、政策都通过网页形式进行公布，现有网页内容解析系统主要关注新闻等文章类网页，大多通过HTML源码结构定位主体内容的方法。但是，政策网页具有不同的网页源码结构，且网页内容布局也和普通新闻类网页有较大差异。因此，现有网页内容解析方法无法准确定位政策网页正文位置，提取效果较差。

发明内容

为了解决现有技术的不足，本申请提供了政策类网页正文提取方法、系统、设备及存储介质；

第一方面，本申请提供了政策类网页正文提取方法；

政策类网页正文提取方法，包括：

获取政策网页HTML源代码；

根据政策网页HTML源代码，获取网页正文所在的位置；

根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码。

第二方面，本申请提供了政策类网页正文提取系统；

政策类网页正文提取系统，包括：

源代码获取模块，其被配置为：获取政策网页HTML源代码；

网页正文位置获取模块，其被配置为：根据政策网页HTML源代码，获取网页正文所在的位置；

输出模块，其被配置为：根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

通过分析政策网页的页面组织结构规则，构建网页组织结构和网页正文位置的关系，获取网页正文内容。从而实现对政策类网页正文的快速、有效提取。

本发明的实施使得政策类网页正文的提取实现了快速、高效获取，大大提高了工作效率，节省公司的人力成本，同时经验证，该发明也取得较高的准确率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请本实施例中，“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请的描述中，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了政策类网页正文提取方法；

如图1所示，政策类网页正文提取方法，包括：

S101：获取政策网页HTML源代码；

S102：根据政策网页HTML源代码，获取网页正文所在的位置；

S103：根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码。

作为一个或多个实施例，所述S101：获取政策网页HTML源代码；所述政策网页HTML源代码，包括但不限于：正文、图片、附件下载链接等。

通过访问URL获取网页HTML源码，包含对网页URL进行转义，访问转义后的URL。

作为一个或多个实施例，所述S101的获取政策网页HTML源代码步骤之后，所述S102的根据政策网页HTML源代码，获取网页正文所在的位置步骤之前还包括：S101-2：政策网页HTML源代码清洗步骤。

进一步地，所述政策网页HTML源代码清洗步骤，包括：

S101-21：判断政策网页HTML源代码编码类型，并根据网页编码类型对获取到的HTML源码进行编码；

S101-22：通过调用lxml包的Cleaner类，构建HTML网页清洗规则类；

S101-23：定义Cleaner.clean_html()清洗方法，对包含在SCRIPT、JAVASCRIPT、STYLE标签内的代码进行删除；

S101-24：获取清洗后的完整正文HTML代码。

示例性的，所述政策网页HTML源代码编码类型，包括：UTF-8、GB2312、GBK等。HTML网页清洗规则，包括：SCRIPT清洗规则、样式清洗规则等。

作为一个或多个实施例，所述S102：根据政策网页HTML源代码，获取网页正文所在的位置；具体步骤包括：

根据政策网页HTML源码并自动构建页面组织结构；

根据页面组织结构匹配该结构各部分对应的正文内容，通过对各部分正文内容基于文本分布密度和文本长度，获取最长正文内容所在位置，即为网页正文所在的位置。

作为一个或多个实施例，所述S102：根据政策网页HTML源代码，获取网页正文所在的位置；详细步骤包括：

S1021：采用etree.ElementTree()分析政策类网页的页面组织结构，并将政策类网页的DOM TREE结构中<div>或节点下的<a>、或标签合并到<a>、或的父节点，保持正文的完整性；

S1022：根据政策类网页的页面组织结构逐层获取各节点对应的正文内容；根据网页无效字符及有效正文长度，对正文内容进行过滤；将正文里非文字内容替换为空串，得到只包含文字的正文内容；

S1023：定义节点正文内容存储变量；

S1024：根据各节点对应的正文内容，获取正文长度，通过append方法对存储变量逐一追加获取到的正文长度；并根据追加的最大正文长度，获取网页组织结构中相同索引的DOMTREE元素信息，输出最大正文长度节点；

S1025：分别获取存储变量中的每个长度值和最大正文长度的差值，构建网页正文文本密度列表；根据网页正文文本密度列表，获取value大于设定阈值的索引index，取最小新索引值和最大索引值输出网页正文区间；

S1026：判断最大正文长度节点是否在网页正文所在区间内；

如果最大正文长度节点在网页正文区间内，则获取最大正文长度节点的父节点，判断父节点的位置信息与网页正文区间是否相同；如果最大正文长度节点不在网页正文区间内，则输出正文区间的节点；

如果父节点的位置信息与正文区间相同，输出最大正文长度节点的父节点；

如果父节点的位置信息与正文区间不同，获取最大正文长度节点的父节点的父节点；

判断正文区间的所有正文长度与最大正文长度节点的父节点的父节点的文本长度是否相同，如果相同输出最大正文长度节点的父节点的父节点，如果不同，则输出正文区间的节点；

S1027：根据得到的符合步骤S1026的节点的XPATH输出，获取网页正文所在位置。

示例性的，定义网页无效字符，包括网页页脚字符如：“网站标识码”、“公网安备”等字符。

应理解的，有效正文长度是指对当前节点下的text文本去除空格、tab、换行后的文本长度。

示例性的，将正文里非文字内容如空格、tab、换行等字符替换为空，得到只包含文字的正文内容。

作为一个或多个实施例，所述S103：根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码；具体步骤包括：

S1031：根据S101获取的HTML代码和S102获取的网页正文所在位置，获取正文对应的HTML代码；

S1032：对获取的网页正文HTML代码进行UTF-8编码；

S1033：将编码后的网页正文HTML代码输出并保存。

实施例二

本实施例提供了政策类网页正文提取系统；

政策类网页正文提取系统，包括：

源代码获取模块，其被配置为：获取政策网页HTML源代码；

此处需要说明的是，上述源代码获取模块、网页正文位置获取模块和输出模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.政策类网页正文提取方法，其特征是，包括：

获取政策网页HTML源代码；

根据政策网页HTML源代码，获取网页正文所在的位置；

根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码；

根据政策网页HTML源代码，获取网页正文所在的位置；详细步骤包括：

(1)：采用etree.ElementTree()分析政策类网页的页面组织结构，并将政策类网页的DOM TREE结构中<div>或节点下的<a>、或标签合并到<a>、或的父节点，保持正文的完整性；

(2)：根据政策类网页的页面组织结构逐层获取各节点对应的正文内容；根据网页无效字符及有效正文长度，对正文内容进行过滤；将正文里非文字内容替换为空串，得到只包含文字的正文内容；

(3)：定义节点正文内容存储变量；

(4)：根据各节点对应的正文内容，获取正文长度，通过append方法对存储变量逐一追加获取到的正文长度；并根据追加的最大正文长度，获取网页组织结构中相同索引的DOMTREE元素信息，输出最大正文长度节点；

(5)：分别获取存储变量中的每个长度值和最大正文长度的差值，构建网页正文文本密度列表；根据网页正文文本密度列表，获取value大于设定阈值的索引index，取最小新索引值和最大索引值输出网页正文区间；

(6)：判断最大正文长度节点是否在网页正文所在区间内；

(7)：根据得到的符合步骤(6)的节点的XPATH输出，获取网页正文所在位置。

2.如权利要求1所述的方法，其特征是，获取政策网页HTML源代码；所述政策网页HTML源代码，包括但不限于：正文、图片、附件下载链接。

3.如权利要求1所述的方法，其特征是，所述获取政策网页HTML源代码步骤之后，所述根据政策网页HTML源代码，获取网页正文所在的位置步骤之前还包括：政策网页HTML源代码清洗步骤。

4.如权利要求3所述的方法，其特征是，所述政策网页HTML源代码清洗步骤，包括：

判断政策网页HTML源代码编码类型，并根据网页编码类型对获取到的HTML源码进行编码；

通过调用lxml包的Cleaner类，构建HTML网页清洗规则类；

定义Cleaner.clean_html()清洗方法，对包含在SCRIPT、JAVASCRIPT、STYLE标签内的代码进行删除；

获取清洗后的完整正文HTML代码。

5.如权利要求1所述的方法，其特征是，根据政策网页HTML源代码，获取网页正文所在的位置；具体步骤包括：

根据政策网页HTML源码并自动构建页面组织结构；

6.如权利要求1所述的方法，其特征是，根据网页正文所在的位置，获取正文所对应的HTML源代码，输出正文所对应的HTML源代码；具体步骤包括：

(a)：根据获取的HTML代码和获取的网页正文所在位置，获取正文对应的HTML代码；

(b)：对获取的网页正文HTML代码进行UTF-8编码；

(c)：将编码后的网页正文HTML代码输出并保存。

7.政策类网页正文提取系统，其特征是，包括：

源代码获取模块，其被配置为：获取政策网页HTML源代码；

(3)：定义节点正文内容存储变量；

(6)：判断最大正文长度节点是否在网页正文所在区间内；

(7)：根据得到的符合步骤(6)的节点的XPATH输出，获取网页正文所在位置；

8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。