CN112559929B

CN112559929B - 提取网页页面目标信息的方法、电子设备和介质

Info

Publication number: CN112559929B
Application number: CN202110207419.4A
Authority: CN
Inventors: 张景龙; 王殿胜; 张乃钊; 薄满辉; 翟性国; 唐红武; 卞磊; 刘宇; 姚远
Original assignee: China Travelsky Mobile Technology Co Ltd
Current assignee: China Travelsky Mobile Technology Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-07
Anticipated expiration: 2041-02-25
Also published as: CN112559929A

Abstract

本发明涉及一种提取网页页面目标信息的方法、电子设备和介质，方法包括步骤S1、获取待提取网页页面的HTML代码，并构建树形结构；步骤S2、遍历所述树形结构，获取标题节点文本数据，并获取每一内容节点的特征信息；步骤S3、基于所有内容节点的路径信息将所有内容节点分组；步骤S4、根据标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组；步骤S5、将目标分组的内容节点作为待分析节点，判断待分析节点中是否包括目标信息，若是，则从待分析节点中获取目标信息，否则，将待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点，直至获取到目标信息。本发明提高了网页页面目标信息提取的准确度和效率。

Description

提取网页页面目标信息的方法、电子设备和介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种提取网页页面目标信息的方法、电子设备和介质。

背景技术

在互联网中，每天都会产生海量的网页数据，在对网页数据分析过程中，需要提取目标信息，例如标题、网页文本信息和日期等，现有的网页页面的正文信息大部分的展示形式是html，如果是网络爬虫采集的信息，也有部分是以序列化（json）的结构展示。现有正文提取的方式通过分析各页面块中的文本密度，将文本密度最大的页面块作为正文处理，使用文本密度进行正文提取的方法，但是，这种识别率较低，通常情况下，这些网页页面中经常夹杂着大量无用的内容或这缺失部分正文，例如一些媒体平台支持样式编辑器，让页面结构更加复杂，如推荐链接和宣传视图等噪音信息，会导致文本密度下降，容易造成提取错误，信息准确度低。此外，现有的提取方式是要遍历整个网页页面源码进行提取目标信息的，因此，信息提取效率低。由此可知，如何提高网页页面目标信息提取的准确度和效率成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种提取网页页面目标信息的方法、电子设备和介质，提高了网页页面目标信息提取的准确度和效率。

根据本发明第一方面，提供了一种提取网页页面目标信息的方法，包括：

步骤S1、获取待提取网页页面的HTML代码，并基于所述HTML代码构建对应的树形结构；

步骤S2、遍历所述树形结构，根据所述树形结构head部分的标题信息获取标题节点文本数据，并从所述树形结构获取每一内容节点的特征信息，内容节点特征信息包括路径信息、内容节点文本数据和文本密度，所述内容节点为所述树形结构中除标题节点外的其他节点；

步骤S3、基于所有内容节点的路径信息将所有内容节点分组；

步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组；

步骤S5、将所述目标分组的内容节点作为待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点，直至获取到所述目标信息。

根据本发明第二方面，提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行本发明第一方面所述的方法。

根据本发明第三方面，提供一种计算机可读存储介质，所述计算机指令用于执行本发明第一方面所述的方法。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种提取网页页面目标信息的方法、电子设备和介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明基于待提取网页页面的HTML代码构建树形结构，并将树形结构的内容节点进行分组，再从分组中确定最优组，基于最优组获取目标信息，提高了网页页面目标信息提取的准确度和效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的提取网页页面目标信息的方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种提取网页页面目标信息的方法、电子设备和介质的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种提取网页页面目标信息的方法，如图1所示，包括：

步骤S1、获取待提取网页页面的超文本标记语言（HTML）代码，并基于所述HTML代码构建对应的树形结构；

其中，标题节点对应在树形结构head部分，内容节点对应在树形结构的body部分。

其中，所述目标分组为预测的最可能包含目标信息的分组，即最优组。

其中，具体可采用lxml库中的iterchildren()方法对子节点进行升格操作。目标信息具体可包括标题、正文、日期、点赞数、关注数、评论数等信息。

本发明实施例基于待提取网页页面的HTML代码构建树形结构，并将树形结构的内容节点进行分组，再从分组中确定最优组，基于最优组获取目标信息，提高了网页页面目标信息提取的准确度和效率。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

由于路径信息通常比长，直接获取并存储会占用大量内存，因此，作为一种实施例，所述步骤S2中，从所述树形结构获取每一内容节点的路径信息时，还包括：步骤S21、将每一内容节点的路径信息进行压缩编码处理，具体可采用md5进行压缩编码，通过对路径信息进行压缩编码处理可以调整分组粒度，减少分组路径的长度，且能节省内存。

作为一种实施例，所述路径信息为网页页面中主体内容的xpath路径信息，所述步骤S3包括：

步骤S31、将每一内容节点的路径信息的下标信息进行模糊处理；

可以理解的是，对下标进行模糊处理指的是将全部替换为同一的预设字符，或者删除。

步骤S32、将模糊处理后的路径信息一致的内容节点划分至同一分组中。

以下以一具体示例进行说明：

第一内容节点对应的xpath路径信息为：

“//*[@id="root"]/div/div[3]/div[1]/div[1]/div[3]/div/div[1]/p[1]”；

将第一内容节点对应的xpath路径信息进行模糊处理后得到：

“//*[@id="root"]/div/div$/div$/div$/div$/div/div$/p$”。

第二内容节点对应的xpath路径信息为：

“//*[@id="root"]/div/div[3]/div[1]/div[1]/div[3]/div/div[1]/p[2]”；

将第二内容节点对应的xpath路径信息进行模糊处理后得到：

“//*[@id="root"]/div/div$/div$/div$/div$/div/div$/p$”。

由此可知，对下标进行模糊处理后的第一内容节点和第二内容节点的路径信息相同，因此第一内容节点和第二内容节点属于同一分组。

文本密度指的是文本长度，是有效字符统计，具体可以是排除编码、大于一定数量的字符。需要说明的是，文本密度大的元素不一定是正文，有些文本如来源、时间、作者等元素有可能被错误的提取为正文；文本密度小的元素也不一定不是正文，比如在贴吧网页和论坛网页中，有可能一个用户分享的一句话或链接，这些内容都会导致文本密度下降，所以在此本发明实施例中，目标信息的提取可依靠多维度的特征指标进行处理，具体的，作为一种实施例，所述步骤S4包括：

步骤S41、根据每一分组中的内容节点文本数据获取每一分组对应的文本密度，并按从大到小的顺序排序P1，P2，…PN，其中，N表示分组总数；

其中，文本密度是有效字符统计

步骤S42、获取排在前预设n个的文本密度P1，P2，…Pn，其中，n为大于等于2的正整数,n小于N；

步骤S43、获取P1与P2，…Pn的数值均差，并与预设的均差阈值比较，若数值均差大于等于所述均差阈值，则将P1对应的分组确定为目标分组。

其中，n可以取值为3，即求P1与P2和P3的数值均差，并与均差阈值比较。

进一步的，若所述数值均差小于所述均差阈值，则所述步骤S4还包括：

步骤S44、判断所述标题节点文本是否为空，若为空，则直接将P1对应的分组确定为目标分组，否则，执行步骤S45，所述标题节点文本为空表示无法确定标题节点；

需要说明的是，有些网页的标题节点是不太确定的，这种情况下，就可直接采用文本密度来选择目标分组。

步骤S45、第x组对应的文本密度为Px，获取第x组的文本数据与所述标题节点文本数据的相似度Qx，x的取值为1到N，或者为1到n；

步骤S46、获取第x组对应的第一参考值Yx=Px*Qx，将第一参考值最大的分组确定为所述目标分组。

作为一种实施例，所述步骤S45具体可包括：

步骤S451、将第x组的文本数据与所述所述标题节点文本数据进行相似度计算，得到初始相似值a；

其中，具体可将标题节点和分组中各节点的文本使用difflib.SequenceMatcher函数计算出初始相似值。或者可以对分组后的数据进行扫描，采用相似度算法欧式距离计算分组中的文本数据到标题节点文本数据之间的距离，欧氏距离是一个通常采用的距离定义，在多维空间中两个点之间的真实距离，或者向量的自然长度。

步骤S452、将第x组的各内容节点的文本数据进行切分，双重循环遍历内容节点文本和所述标题节点文本，计算内容节点文本数据命中标题文本数据的命中比值b;

步骤S453、基于初始相似值a、命中比值b和预设的第一权重k确定第x组的文本数据与所述标题节点文本数据的相似度Qx：Qx=a+k*b。

其中，第一权重的值与命中比值对分组的影响成正相关，第一权重设置越高，分组结果受命中比值的影响越大。

在一些实施例中，网页页面链接数过多可能是文章的推荐链接或宣传广告等噪音信息，因此可以需要将基于链接数先进行过滤操作，从而减少计算量，具体的，所述内容节点特征信息还包括节点所包含的链接数，所述步骤S4中，在执行步骤S41之前，还可包括：

步骤S40、遍历每一分组的节点，获取每一分组的链接数，并与预设的链接数阈值比较，若超过所述链接数阈值，则将该分组滤除，从而实现对网页页面中噪音数据的滤除。

作为一种实施例，步骤S5具体可包括：

步骤S51、将所述目标分组的内容节点作为待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，执行步骤S52；

步骤S52、将所述目标分组连接的父节点作为第一父节点、将所述第一父节点以及所述第一父节点连接的各分组的节点加入所述待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，执行步骤S53；

步骤S53、将所述第一父节点的父节点作为第二父节点、将所述第二父节点以及所述第二父节点连接的各分组的节点加入所述待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，执行步骤S8；

…（“…”表示依照上述描述的规律执行）

步骤S5m+2、将所述第m父节点的父节点作为第m+1父节点,所述第m+1父节点为目标分组节点和标题节点共同的父节点、将所述第m+1父节点以及所述第m+1父节点连接的各分组的节点加入所述待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，结束流程。

所述步骤S5中，所述判断所述待分析节点中是否包括目标信息，具体可包括：

步骤S50、从所述待分析节点中获取正文节点数、小标题数和日期数，并判断三者是否相等，若相等，则确定所述待分析节点中包括目标信息。

需要说明的是，对最优块的每个内容节点检索标题、日期、正文等信息，通过标题、日期、正文的存在与否，以及标题节点还可作为特征对网页页面分类，基于分类也可确定目标信息所在的节点，以下通过几个具体示例进行说明：

作为一种示例，标题节点文本不为空，则表示网页源码中有确定的标题节点，目标分组中检索出的正文节点数和小标题数、日期数不对应，则判断网页页面类型属于文章类，主要信息就需要基于目标以及升格点来获取。

作为一种示例，网页源码中标题节点文本为空，标题节点不确定，但是目标组中的正文节点数和小标题、日期数对应，根据分类结果，这种网页源码类型确定为快讯简报类，网页源码的主要信息就直接从目标分组中获取。

作为一种示例，网页源码中有确定的标题节点，日期数对应，但是在目标分组中没有与之对应的小标题,根据分类结果，可以确定此类型为有社交属性的类型，目标信息也可直接在目标分组中进行整理。

作为一种示例，网页源码中有确定的标题节点，升格后元素中有多个超链接，超链接数量和内容节点中元素标签数量对应，内容节点中各文本大小的离散程度低于预设离散阈值，日期不对应，可以确定此类型为文章列表或导航类型，目标信息需基于目标分组和升格节点获取。

本发明实施例还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行本发明实施例所述的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机指令用于执行本发明实施例所述的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种提取网页页面目标信息的方法，其特征在于，包括：

所述步骤S4包括：

步骤S43、获取P1与P2，…Pn的数值均差，并与预设的均差阈值比较，若数值均差大于等于所述均差阈值，则将P1对应的分组确定为目标分组；

2.根据权利要求1所述的方法，其特征在于，

所述路径信息为网页页面中主体内容的xpath路径信息，所述步骤S3包括：

3.根据权利要求1所述的方法，其特征在于，

若所述数值均差小于所述均差阈值，则所述步骤S4还包括：

4.根据权利要求3所述的方法，其特征在于，

所述步骤S45包括：

步骤S451、将第x组的文本数据与所述标题节点文本数据进行相似度计算，得到初始相似值a；

5.根据权利要求1所述的方法，其特征在于，

所述内容节点特征信息还包括节点所包含的链接数，所述步骤S4中，在执行步骤S41之前，还包括：

步骤S40、遍历每一分组的节点，获取每一分组的链接数，并与预设的链接数阈值比较，若超过所述链接数阈值，则将该分组滤除。

6.根据权利要求1所述的方法，其特征在于，

步骤S5包括：

步骤S53、将所述第一父节点的父节点作为第二父节点、将所述第二父节点以及所述第二父节点连接的各分组的节点加入所述待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，执行步骤S54；

…

步骤S5m+2、将第m父节点的父节点作为第m+1父节点,所述第m+1父节点为目标分组节点和标题节点共同的父节点、将所述第m+1父节点以及所述第m+1父节点连接的各分组的节点加入所述待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，结束流程。

7.根据权利要求6所述的方法，其特征在于，

所述步骤S5中，所述判断所述待分析节点中是否包括目标信息，包括：

8.一种电子设备，其特征在于，包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行前述权利要求1-7任一项所述的方法。

9.种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行前述权利要求1-7中任一项所述的方法。