CN115203604A

CN115203604A - 一种网页正文提取方法及系统及装置及介质

Info

Publication number: CN115203604A
Application number: CN202211122871.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-10-18

Abstract

本发明公开了一种网页正文提取方法及系统及装置及介质，涉及网页后端技术领域，本发明提供的一种网页正文提取方法及系统及装置及介质，通过下载网页信息，获得网页源代码，对上述网页源代码进行预处理，获得网页主体区域对应的第二网页源代码；首先将所述第二网页源代码转换为对应的网页结构树，然后分别计算所述网页结构树中若干结点的属性值，根据计算结果即可找到网页正文所在的位置，实现自动化对于不同的网页进行正文提取的任务。

Description

一种网页正文提取方法及系统及装置及介质

技术领域

本发明涉及网页后端技术领域，具体地，涉及一种网页正文提取方法及系统及装置及介质。

背景技术

随着互联网技术的发展，人们开始习惯于通过互联网进行信息的检索以及获取，因此，人们对有效的网页信息的需求也随之提高。在WEB（WorldWideWeb，全球广域网）海量信息处理的背景下，WEB智能信息检索、文档自动摘要、舆情分析等等需求应运而生。这些需求都是对互联网中海量的WEB页面的采集及分析的过程。现有的网页页面结构复杂，通常包括正文信息以及广告信息、推送信息、导航栏和评论信息等干扰信息，为了准确提取网页中有价值的内容，我们需要准确的提取出网页中正文信息。现有技术中通常通过人工编写XPATH（XML Path Language，XML路径语言）以及正则规则的方式提取网页正文信息，这种方法比较有效，且获得的结果较为稳定，但在面对大量网站时，需要根据不同的网页种类配置相应的XPATH以及正则规则，所述配置过程将会耗费大量的时间成本和人力成本，导致网页正文提取效率低下。

发明内容

为了解决现有网页正文提取效率低下，耗费人力成本以及时间成本过高的问题，本发明提供了一种网页正文提取方法，所述网页正文提取方法包括以下步骤：

步骤1：下载网页信息，获得网页源代码；

步骤2：根据所述网页源代码对网页进行预处理，获得第二网页源代码，提取所述第二网页源代码中若干标签块，获得所述若干标签块对应的网页结构树；

步骤3：分别计算所述网页结构树中各个结点的第一属性值，获得目标结点，其中，所述第一属性值最大的结点为目标结点；

步骤4：获得所述目标结点对应的标签块并提取对应的标签文本内容，获得网页正文。

其中，本方法原理为：首先下载网页信息，获得源代码，通过对所述源代码进行预处理删除其中注释信息、脚本信息以及格式信息等与正文无关的信息，然后提取所述源代码中网页主体信息，对于任意的网页，其网页源代码均由若干标签块组成，因此可以根据所述主体信息将网页转化为网页结构树，所述网页结构树中的结点分别对应网页源代码中的若干标签块，最后通过分别计算所述网页结构树中若干结点的属性，根据计算结果即可找到网页正文所在的结点及对应的代码块，从而实现自动提取不同种类的网页的正文信息。本方法避免了传统通过人工编写XPATH以及正则规则提取网页正文信息的方法在对于不同的网页进行处理时，由于需要反复编写与网页对应的提取规则而存在的人工成本和时间成本高的问题，能够对任意结构的网页页面进行适应性的处理。

其中，由于所述网页结构树的每一个结点均对应源代码中的一个标签，为了网页中广告信息、推送信息、导航栏等干扰信息对正文提取的影响，可以通过计算所述网页结构树中若干结点的属性值对所述网页结构树进行剪枝，即删除所述网页源代码中广告信息、推送信息、导航栏等干扰信息对应的的标签块，因此，所述步骤3包括以下步骤：

步骤3.1：分别计算所述网页结构树根结点对应的若干子结点的第一属性值；

步骤3.2：获得步骤3.1中第一属性值中最大的第一子结点，删除其他子结点，获得第二网页结构树；

步骤3.3：判断所述第一子结点中是否存在文字段落，若不存在则将所述第一子结点作为新的根结点并返回执行步骤3.1，若存在则将所述第二网页结构树中第一属性值最大的结点作为目标结点，并执行步骤4。由此，基于广度遍历的顺序计算所述网页结构树中若干结点的第一属性值，找到所述网页结构树中同一层中第一属性值最大的结点，保留该结点而删除其他的结点及对应的子结点，实现了对所述网页结构树的剪枝，当遍历到某一结点的子结点存在文字段落时，则认为完成了树的遍历，由此，剔除了网页中广告信息、推送信息以及导航栏等干扰信息。

进一步的，由于网页结构复杂，为了在对网页结构树进行剪枝后进一步准确获得正文所在的结点，所述步骤3.3中首先计算所述第二网页结构树中各个结点对应的第二属性值，然后执行步骤4，其中，所述第二属性值最大的结点为目标结点。

进一步的，所述第一属性值和所述第二属性值可以是所述网页结构树中若干结点的符号密度值或文本密度值，所述第一属性值和所述第二属性值不同，为了更加准确的提取网页中关键的正文信息，所述第一属性值为结点符号密度值，所述第二属性值为结点文本密度值，这样可以有效避免先计算结点文本密度值，再计算结点符号密度值所导致第二次识别时无法辨别没有符号的新闻推荐或广告信息的问题，使结果更准确。

其中，所述结点符号密度值通过以下方法计算：

式中，

为结点i的符号密度，

为结点i中的标签数，

为结点i的带链接标签数，

为结点i的符号数量。

其中，所述结点文本密度通过以下方法计算：

式中，

为结点i的文本密度，

为结点i的字符串字数，

为结点i的带链接字符串字数，

为结点i中的标签数。

进一步的，由于网页结构的复杂多变，可能导致各结点文本密度差异不够明显，针对这一问题，本发明提出了新建的数学模型计算结点得分，通过结点得分判断正文所在位置能够有效提高识别准确度，因此，计算所述第二网页结构树中各个结点对应的第二属性值后，根据所述第二网页结构树中各个结点对应的第一属性值和第二属性值计算结点得分，其中，所述结点得分最大的结点为所述目标结点。

其中，所述结点得分通过以下方法计算：

式中，

为结点i的结点得分，

为结点i的文本密度，

为结点i的符号密度，

为结点i的p标签数。

其中，为了剔除网页源代码中与网页内容无关的脚本信息以及注释信息等，所述步骤2中根据所述网页源代码对网页进行预处理，获得第二源代码包括以下步骤：

识别所述网页源代码中主体区域；

删除所述网页源代码中主体区域外的内容；

对所述主体区域中内容进行清洗，获得第二网页源代码。

进一步的，为了避免由于网页编码格式不同而导致出现乱码，从而影响对网页源代码的处理，所述预处理步骤中，首先将所述网页源代码进行统一编码，然后识别统一编码后的所述网页源代码中主体区域。

进一步的，为了避免网页源代码中特殊符号影响结点符号密度的计算结果，需要将特殊符号处理为兼容且可识别的符号，因此，所述预处理步骤中，获得第二网页源代码后，对所述第二网页源代码进行归一化处理。

为实现上述目的，本发明提供了一种网页正文提取系统，所述网页正文提取系统包括：

网页获取单元，用于：下载网页信息，获得网页源代码；

预处理单元，用于：根据所述网页源代码对网页进行预处理，获得第二网页源代码，提取所述第二网页源代码中若干标签块，获得所述若干标签块对应的网页结构树；

网页分析单元，用于：分别计算所述网页结构树中各个结点的属性，获得目标结点；

正文提取单元，用于：获得所述目标结点对应的网页标签块并提取对应的标签文本内容，获得网页正文。

其中，本系统原理为：所述网页获取单元下载网页信息，获得网页源代码后，所述预处理单元对上述网页源代码进行预处理，包括删除其中注释信息、脚本信息等，获得第二网页源代码，随后提取所述第二网页源代码中若干标签块，获得所述若干标签块对应的网页结构树；所述网页分析单元分别计算所述网页结构树中各个结点的属性，找到网页正文所在的目标结点，最后由所述正文提取单元提取所述目标结点对应的网页标签块中标签文本内容即可获得网页正文。

为实现上述目的，本发明提供了一种网页正文提取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述网页正文提取方法的步骤。

为实现上述目的，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述网页正文提取方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提供的一种网页正文提取方法及系统及装置及介质，通过下载网页信息，获得网页源代码，对上述网页源代码进行预处理，获得网页主体区域对应的第二网页源代码；首先将所述第二网页源代码转换为对应的网页结构树，然后分别计算所述网页结构树中若干结点的属性值，根据计算结果即可找到网页正文所在的位置，实现自动化对于不同的网页进行正文提取的任务，有效降低了时间成本与人工成本。此外，本发明提供的一种网页正文提取方法计算了两次网页结构树的结点属性值，首先通过第一次计算实现对所述网页结构树的剪枝，随后通过第二次计算确定正文所在的结点位置，最后再结合两次属性值的结果计算结点得分，通过对比结点得分准确的获得网页正文所在的结点，保证了网页正文提取的准确性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中网页正文提取方法流程示意图；

图2是本发明中网页正文提取系统结构示意图；

图3是本发明中某网页的网页结构树示意图；

图4是本发明中某网页的第二网页结构树示意图；

图5是本发明中某网页的第一属性值计算结果柱状图；

图6是本发明中某网页的结点得分计算结果柱状图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

请参考图1，本发明实施例一提供了一种网页正文提取方法，所述网页正文提取方法包括以下步骤：

步骤1：下载网页信息，获得网页源代码；

其中，在本实施例中，所述根据所述源代码对网页进行预处理，获得第二源代码包括以下步骤：

识别所述网页源代码中主体区域；

删除所述网页源代码中主体区域外的内容；

对所述主体区域中内容进行清洗，获得第二网页源代码。

具体的，所述网页源代码为HTML（超文本标记语言，Hyper Text MarkupLanguage），HTML通过标签符号来标记要显示的网页中的各个部分，因此，所述网页源代码中主体区域即为网页源代码中<body>标签中的内容。

具体的，HTML的标签符号是相互嵌套的，即一个标签中可能还包括一个或多个子标签，所述对所述主体区域中内容进行清洗，获得第二网页源代码即为删除所述<body>标签中定义注释、定义文档类型和定义文档格式等标签。

其中，在更为优选的实施例中，为了避免由于网页编码格式不同而导致出现乱码，所述预处理步骤中，首先将所述网页源代码进行统一编码，然后识别统一编码后的所述网页源代码中主体区域。

具体的，所述将所述网页源代码进行统一编码中统一编码格式有ASCII、ANSI、GB2312、UTF-8、GB18030和UNICODE等，具体编码格式根据具体需要确定，本实施例在此不做具体限定。

其中，在更为优选的实施例中，为了避免网页源代码中特殊符号影响计算，所述预处理步骤中，获得第二网页源代码后，对所述第二网页源代码进行归一化处理。

具体的，所述对所述第二网页源代码进行归一化处理可以采用NFC标准等价组合、NFD标准等价分解、NFKC兼容等价组合和NFKD兼容等价分解的方式，由于NFKC兼容等价组合对网页源代码进行处理能够将全角字体变为半角，带圈带框的字体变为标准字体的同时不改变文本的长度，本实施例优选NFKC对所述第二网页源代码进行归一化处理。

其中，在本实施例中，所述第一属性值可以为结点符号密度值或结点文本密度值，根据实际使用时网页特征确定，本实施例在此不做具体限定。

其中，由于所述网页源代码为HTML，而HTML通过标签符号来标记要显示的网页中的各个部分，其标签符号是相互嵌套的，因此所述网页源代码可以看作是由若干标签块组成的，因此提取所述第二网页源代码中若干标签块，即可获得所述若干标签块对应的网页结构树。

实施例二

请参考图1，本发明实施例二提供了一种网页正文提取方法，所述网页正文提取方法包括以下步骤：

步骤1：下载网页信息，获得网页源代码；

步骤3：分别计算所述网页结构树根结点对应的若干子结点的第一属性值，并执行步骤4；

步骤4：获得步骤3中第一属性值中最大的第一子结点，删除其他子结点，获得第二网页结构树

步骤5：判断所述第一子结点中是否存在文字段落，若不存在则将所述第一子结点作为新的根结点并返回执行步骤3，若存在则执行步骤6；

步骤6：计算所述第二网页结构树中各个结点对应的第二属性值，所述第二属性值最大的结点为目标结点，并执行步骤7；

步骤7：获得所述目标结点对应的标签块并提取对应的标签文本内容，获得网页正文。

具体的，所述网页源代码为HTML（超文本标记语言，Hyper Text MarkupLanguage），HTML通过标签符号来标记要显示的网页中的各个部分，因此，所述网页源代码中主体区域即为网页源代码中<body>标签中的内容，所述步骤5中判断所述第一子结点中是否存在文字段落即为判断所述第一子结点对应的标签块中是否存在<p>标签。

具体的，HTML的标记符号是相互嵌套的，即一个标签中可能还包括一个或多个子标签，所述对所述主体区域中内容进行清洗，获得第二网页源代码即为删除所述<body>标签中定义注释、定义文档类型和定义文档格式等标签。

其中，由于所述网页源代码为HTML ，而HTML通过标签符号来标记要显示的网页中的各个部分，其标签符号是相互嵌套的，因此所述网页源代码可以看作是由若干标签块组成的，因此提取所述第二网页源代码中若干标签块，即可获得所述若干标签块对应的网页结构树。

其中，在本实施例中，所述第一属性值和第二属性值可以为结点符号密度值或结点文本密度值，由于首先计算结点符号密度值实现对所述网页结构树的剪枝，然后计算所述第二网页结构树结点的文本密度值计算结果更准确，能够避免首先计算结点文本密度再计算结点文本密度可能导致的无法排除网页中广告、推荐等信息的情况，本实施例优选所述第一属性值为结点符号密度值，所述第二属性值为结点文本密度值。

其中，所述结点符号密度值通过以下方法计算：

式中，

为结点i的符号密度，

为结点i中的标签数，

为结点i的带链接标签数，

为结点i的符号数量。

其中，所述结点文本密度通过以下方法计算：

式中，

为结点i的文本密度，

为结点i的字符串字数，

为结点i的带链接字符串字数，

为结点i中的标签数。

其中，在更为优选的实施例中，计算所述第二网页结构树中各个结点对应的第二属性值后，根据所述第二网页结构树中各个结点对应的第一属性值和第二属性值计算结点得分，其中，所述结点得分最大的结点为所述目标结点。

其中，所述结点得分通过以下方法计算：

式中，

为结点i的结点得分，

为结点i的文本密度，

为结点i的符号密度，

为结点i的p标签数。

具体的，对于某网页采用本实施例所提供的网页正文提取方法进行处理，所述步骤2中获得网页结构树如图3所示，图3中推荐栏代码块、导航栏代码块和评论区代码块仅用于表示该结点为干扰信息，不表示对所述干扰信息种类的具体限定；所述步骤3中网页结构树的第一属性值计算结果如图5所示，其中，纵坐标表示结点对应的符号密度值，横坐标表示不同的结点；所述步骤4中获得的第二网页结构树如图4所示；所述结点得分计算结果如图6所示，其中，纵坐标表示结点结点对应的结点得分，横坐标表示不同的结点，根据图6所示的结点得分计算结果可以得知，结点6为目标结点，对结点6对应的标签块进行提取即可获得该网页正文内容。

实施例三

请参考图2，本发明实施例二提供了一种网页正文提取系统，所述网页正文提取系统包括：

网页获取单元，用于：下载网页信息，获得网页源代码；

实施例四

本发明实施例四提供了一种网页正文获得装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述网页正文提取方法的步骤。

实施例五

本发明实施例五提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述网页正文提取方法的步骤。

其中，所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（Application Specific Integrated Circuit）、现成可编程门阵列（Field programmablegate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器也可以是任何常规的处理器。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中网页正文提取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述网页正文提取装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序存储于一个计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

本发明已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。