CN110377796A

CN110377796A - 基于dom树的正文抽取方法、装置、设备及存储介质

Info

Publication number: CN110377796A
Application number: CN201910680827.4A
Authority: CN
Inventors: 李子茂; 江如茜; 莫海芳; 帖军; 毛腾跃; 夏梦; 刘恋冬
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-25
Anticipated expiration: 2039-07-25
Also published as: CN110377796B

Abstract

本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质，通过获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息，提高了网页正文信息抽取的准确率，提高了网页正文信息抽取的速度和效率，节省了信息抽取的时间，提升了用户体验。

Description

基于DOM树的正文抽取方法、装置、设备及存储介质

技术领域

本发明涉及网页信息处理领域，尤其涉及一种基于DOM树的正文抽取方法、装置、设备及存储介质。

背景技术

随着计算机在世界范围内的爆发式增长和普及，网络上产生了大量的数据信息，但是由于网络信息来源的异构性，想要浏览和搜索这些庞大的数据集就变得很困难；例如通过现有的搜索引擎存在以下问题：使用关键词检索出来的结果庞杂，包含关键词的网页的链接，需要单独浏览才能判断其是否满足需求；搜索时，只要包含关键词的都会检索出来，降低了信息的有效率，影响用户的获取；在检索关键词的同时，网页上伴随着大量的无用信息，如无关新闻、广告，影响用户的观感体验。

现有的解决方法是通过web信息抽取从大量的大型半结构化网页信息中抽取用户所需的信息，并将其转换为结构化形式以存储在硬盘或数据库中；但是在实际操作中，有些网页中正文部分下会有图片和其图注，或者正文前有一些说明的文本，这些图注或者说明的文本长度与正文部分类似，也含有一定的标点符号，就很容易和正文信息块混淆从而导致抽取错误，而且对于阈值设定的不标准也会导致网页正文信息的抽取出现误差，从而导致正文信息抽取的准确度不高的情况，无法准确抽取用户所需的信息。

发明内容

本发明的主要目的在于提供一种基于DOM树的正文抽取方法、装置、设备及存储介质，旨在解决现有技术中网页正文信息抽取容易有噪声信息与正文信息混淆，导致正文信息抽取不够精确，无法准确抽取用户所需的信息的技术问题。

为实现上述目的，本发明提供一种基于DOM树的正文抽取方法，所述基于DOM树的正文抽取方法包括以下步骤：

获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；

根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；

遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；

将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息。

优选地，所述获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间，具体包括：

获取待抽取网页中正文信息块对应的DOM树的各节点路径；

根据各节点路径获得所述正文信息块对应的正文节点子区间；

根据预设加权值表获取各正文节点子区间对应的文本加权值；

根据所述文本加权值确定中心文本区间。

优选地，所述根据各节点路径获得所述正文信息块对应的正文节点子区间，具体包括：

根据预设编号集获取各节点路径对应的路径编号值；

将连续的路径编号值对应的节点路径划分为同一正文节点子区间，遍历各节点路径，直至各节点路径全部划分完毕。

优选地，所述根据预设加权值表获取各正文节点子区间对应的文本加权值，具体包括：

获取各正文节点子区间的文本密度；

根据预设加权值表查找到与各文本密度对应的文本加权值，所述预设加权值表反映各文本密度与各文本加权值的映射关系。

优选地，所述获取各正文节点子区间的文本密度，具体包括：

对各正文节点子区间进行分析，根据分析结果获得各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量；

根据所述文本长度和所述文本节点数量通过下式计算获得各正文节点子区间的文本密度：

其中，TextDensity为所述文本密度，Text_i为n个节点中第i个节点的文本长度，n为节点路径上的文本节点数量。

优选地，所述根据所述文本加权值确定中心文本区间，具体包括：

根据所述文本加权值的大小对所述正文节点子区间进行排序，并获得排序结果；

根据所述排序结果将最大的文本加权值对应的正文节点子区间作为中心文本区间。

优选地，所述根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间，具体包括：

获取所述中心文本区间内多个中心文本之间的空白块对应的文本位置；

根据预设编号集获取所述文本位置对应的缺失编号，将所述缺失编号添加至所述中心文本区域的中心文件中，将添加后的中心文本区间作为连续中心文本区间。

此外，为实现上述目的，本发明还提出一种基于DOM树的正文抽取设备，所述基于DOM树的正文抽取设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的正文抽取程序，所述基于DOM树的正文抽取程序配置为实现如上文所述的基于DOM树的正文抽取方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于DOM树的正文抽取程序，所述基于DOM树的正文抽取程序被处理器执行时实现如上文所述的基于DOM树的正文抽取方法的步骤。

此外，为实现上述目的，本发明还提供一种基于DOM树的正文抽取装置，所述基于DOM树的正文抽取装置包括：

文本确定模块，用于获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；

区间确定模块，用于根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；

信息抽取模块，用于遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；

正文获取模块，用于将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息。

本发明提出的基于DOM树的正文抽取方法，通过获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息，提高了网页正文信息抽取的准确率，提高了网页正文信息抽取的速度和效率，节省了信息抽取的时间，提升了用户体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的基于DOM树的正文抽取设备结构示意图；

图2为本发明基于DOM树的正文抽取方法第一实施例的流程示意图；

图3为本发明基于DOM树的正文抽取方法第二实施例的流程示意图；

图4为本发明基于DOM树的正文抽取装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的解决方案主要是：本发明通过获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息，提高了网页正文信息抽取的准确率，提高了网页正文信息抽取的速度和效率，节省了信息抽取的时间，提升了用户体验，解决了现有技术中网页正文信息抽取容易有噪声信息与正文信息混淆，导致正文信息抽取不够精确，无法准确抽取用户所需的信息的技术问题。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于DOM树的正文抽取设备结构示意图。

如图1所示，该基于DOM树的正文抽取设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(Wireless-Fidelity，Wi-Fi)。存储器1005可以是高速的随机存取存储器(Random AccessMemory，RAM)存储器，也可以是稳定的存储器(Non-volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于DOM树的正文抽取设备结构并不构成对该基于DOM树的正文抽取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户端接口模块以及基于DOM树的正文抽取程序。

本发明基于DOM树的正文抽取设备通过处理器1001调用存储器1005中存储的基于DOM树的正文抽取程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的基于DOM树的正文抽取程序，还执行以下操作：

获取待抽取网页中正文信息块对应的DOM树的各节点路径；

根据所述文本加权值确定中心文本区间。

根据预设编号集获取各节点路径对应的路径编号值；

获取各正文节点子区间的文本密度；

本实施例通过上述方案，通过获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息，提高了网页正文信息抽取的准确率，提高了网页正文信息抽取的速度和效率，节省了信息抽取的时间，提升了用户体验。

基于上述硬件结构，提出本发明基于DOM树的正文抽取方法实施例。

参照图2，图2为本发明基于DOM树的正文抽取方法第一实施例的流程示意图。

在第一实施例中，所述基于DOM树的正文抽取方法包括以下步骤：

步骤S10、获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间。

需要说明的是，所述待抽取网页为需要进行网页正文抽取和分析操作的网页，网页分析的目的是方便提取用户所需的信息，所述待抽取网页中会存在不重要的信息，例如导航栏、广告以及版权信息等，这些信息即为噪音信息，这些噪音信息会给基于网页内容的研究工作带来困难，一般是通过对所述待分块网页进行去噪处理，可以将这些噪音信息进行去除，根据去噪后的网页生成DOM树，文档对象模型(Document Object Model，DOM)，是W3C组织推荐的处理可扩展标志语言的标准编程接口；在网页上，组织页面(或文档)的对象被组织在一个树形结构中，用来表示文档中对象的标准模型就称为DOM；通过DOM树能够了解各个节点之间的层级关系，节点的类型包括文档节点、元素节点、文本节点和属性节点等，当然还可以包括其他类型的节点，本实施例对此不加以限制，由于网页中的正文信息都是聚集在一起的，所述正文信息所在的节点路径有连续化的特定，因此获取待抽取网页中正文信息块对应的DOM树的各节点路径，可以根据各节点路径确定对应的中心文本区间。

步骤S20、根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间。

可以理解的是，所述预设编号集为预先设置的用于反映各文本信息与对应编号的映射关系的集合，通过所述预设编号集可以查找到所述中心文本区间内的缺失编号，而将所述缺失编号添加至所述中心文本区间的中心文本中，可以获得连续中心文本区间。

进一步地，所述步骤S20具体包括以下步骤：

应当理解的是，所述中心文本区间由多个中心文本组成，而多个中心文本之间并非连续的，通过所述预设编号集获取将多个中心文本之间的空白块对应的文本位置的缺失编号，将所述缺失编号添加至所述中心文本区域的中心文件中，能够使所述中心文本区间中的中心文本具有连续性，实现了节点路径的拓展，减少了正文信息块中混有的少量噪声节点路径的出现，实现了结构性去噪。

步骤S30、遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息。

应当理解的是，所述连续中心文本区间内包含多个对应DOM树的节点路径，所述节点路径对应有除根节点之外的多个叶子节点，通过遍历所述连续中心文本区间，可以获得各叶子节点，进而可以对各叶子节点进行抽取，获得对应的文本信息。

步骤S40、将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息。

可以理解的是，通过将各文本信息进行连接组合，可以获得完整的所述待抽取网页的正文文本信息，通过上述抽取方法，可以很好的过滤掉噪音信息，提升了网页正文信息抽取正确率。

进一步地，图3为本发明基于DOM树的正文抽取方法第二实施例的流程示意图，如图3所示，基于第一实施例提出本发明基于DOM树的正文抽取方法第二实施例，在本实施例中，所述步骤S10，具体包括以下步骤：

步骤S11、获取待抽取网页中正文信息块对应的DOM树的各节点路径。

可以理解的是，节点路径为某一节点到根节点的路径，根据所述DOM树可以确定所述待抽取网页中正文信息块对应的多条节点路径，即所述待抽取网页中正文信息块在所述DOM树上有对应的节点路径。

步骤S12、根据各节点路径获得所述正文信息块对应的正文节点子区间。

需要说明的是，不同的节点路径可以形成不同的节点路径连续的区域，通过各节点路径可以确定所述正文信息块中对应的不同的节点路径连续区域，即正文节点子区间。

进一步地，所述步骤S12具体包括以下步骤：

根据预设编号集获取各节点路径对应的路径编号值；

可以理解的是，由于正文信息所在的节点路径有连续化的特点，通过所述预设编号集可以查询到各节点路径对应的路径编号值，进而可以将连续的路径编号值对应的节点路径进行归类，即将连续的路径编号值对应的节点路径划分为同一正文节点子区间，遍历各节点路径，直至各节点路径全部划分完毕。

步骤S13、根据预设加权值表获取各正文节点子区间对应的文本加权值。

可以理解的是，所述预设加权值表为预先设置的用于反映各正文节点子区间与不同的文本加权值的映射关系表，通过所述预设加权值表可以查询到各正文节点子区间对应的文本加权值。

进一步地，所述步骤S13具体包括以下步骤：

获取各正文节点子区间的文本密度；

可以理解的是，不同的正文节点子区间对应有不同的文本密度，根据所述文本密度可以确定对应的文本加权值。

进一步地，所述步骤获取各正文节点子区间的文本密度，具体包括以下步骤：

需要说明的是，所述文本密度是指一条节点路径上文本节点所对应的文本长度之和的平均数，较高的文本密度意味着这条节点路径上的节点的文本更可能是正文文本，相反则代表着更可能是噪音信息；通过所述文本长度和所述文本节点数量可以获得各正文节点子区间的文本密度，进而可以确定各正文节点子区间对应的文本加权值。

步骤S14、根据所述文本加权值确定中心文本区间。

应当理解的是，通过所述文本加权值可以确定各正文节点子区间中的一个或多个子区间为中心文本区间。

进一步地，所述步骤S14具体包括以下步骤：

应当理解的是，通过将最大文本加权值对应的正文节点子区间作为中心文本区间，可以剔除文本加权值并不高的正文节点子区间，实现了正文信息块的节点路径提纯，进一步减少了正文信息块中混有少量噪声节点路径的子区间，提高了网页正文信息抽取的准确率。

本实施例通过上述方案，通过获取待抽取网页中正文信息块对应的DOM树的各节点路径；根据各节点路径获得所述正文信息块对应的正文节点子区间；根据预设加权值表获取各正文节点子区间对应的文本加权值；根据所述文本加权值确定中心文本区间，减少了正文信息块中混有少量噪声节点路径的子区间，提高了网页正文信息抽取的准确率，提高了网页正文信息抽取的速度和效率，节省了信息抽取的时间，提升了用户体验。

基于上述基于DOM树的正文抽取方法的实施例，本发明进一步提供一种基于DOM树的正文抽取装置。

参照图4，图4为本发明基于DOM树的正文抽取装置第一实施例的功能模块图。

本发明基于DOM树的正文抽取装置第一实施例中，该基于DOM树的正文抽取装置包括：

文本确定模块10，用于获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间。

区间确定模块20，用于根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间。

信息抽取模块30，用于遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息。

正文获取模块40，用于将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息。

其中，基于DOM树的正文抽取装置的各个功能模块实现的步骤可参照本发明基于DOM树的正文抽取方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于DOM树的正文抽取程序，所述基于DOM树的正文抽取程序被处理器执行时实现如下操作：

进一步地，所述基于DOM树的正文抽取程序被处理器执行时还实现如下操作：

获取待抽取网页中正文信息块对应的DOM树的各节点路径；

根据所述文本加权值确定中心文本区间。

根据预设编号集获取各节点路径对应的路径编号值；

获取各正文节点子区间的文本密度；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于DOM树的正文抽取方法，其特征在于，所述基于DOM树的正文抽取方法包括：

2.如权利要求1所述的基于DOM树的正文抽取方法，其特征在于，所述获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间，具体包括：

获取待抽取网页中正文信息块对应的DOM树的各节点路径；

根据所述文本加权值确定中心文本区间。

3.如权利要求2所述的基于DOM树的正文抽取方法，其特征在于，所述根据各节点路径获得所述正文信息块对应的正文节点子区间，具体包括：

根据预设编号集获取各节点路径对应的路径编号值；

4.如权利要求3所述的基于DOM树的正文抽取方法，其特征在于，所述根据预设加权值表获取各正文节点子区间对应的文本加权值，具体包括：

获取各正文节点子区间的文本密度；

5.如权利要求4所述的基于DOM树的正文抽取方法，其特征在于，所述获取各正文节点子区间的文本密度，具体包括：

6.如权利要求5所述的基于DOM树的正文抽取方法，其特征在于，所述根据所述文本加权值确定中心文本区间，具体包括：

7.如权利要求1-6中任一项所述的基于DOM树的正文抽取方法，其特征在于，所述根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间，具体包括：

8.一种基于DOM树的正文抽取装置，其特征在于，所述装置包括：

9.一种基于DOM树的正文抽取设备，其特征在于，所述基于DOM树的正文抽取设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的正文抽取程序，所述基于DOM树的正文抽取程序配置为实现如权利要求1至7中任一项所述的基于DOM树的正文抽取方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于DOM树的正文抽取程序，所述基于DOM树的正文抽取程序被处理器执行时实现如权利要求1至7中任一项所述的基于DOM树的正文抽取方法的步骤。