CN112887381B

CN112887381B - 用于面向特定网络入口的新内容检测和汇聚方法及装置

Info

Publication number: CN112887381B
Application number: CN202110057704.2A
Authority: CN
Inventors: 陈秋实; 朱俊杰; 王瑜; 杨妮; 王坤鹏; 胡茂胜
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-07-19
Anticipated expiration: 2041-01-15
Also published as: CN112887381A

Abstract

本发明涉及网页内容处理领域，提供一种用于面向特定网络入口的新内容检测和汇聚方法，包括步骤：S1：获取特定网络入口的网络连接；S2：通过所述网络连接加载网页内容，对所述网页内容进行DOM解析获得结构树；对所述结构树中的无效节点进行无关标记，获得处理后的结构树；S3：将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，将所述更新后的网页内容发送至用户进行反馈操作；S4：经过预设时间T后返回步骤S2，通过所述网络连接加载更新后的网页内容。本发明中用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容，并能够持续的获取新的网页内容。

Description

用于面向特定网络入口的新内容检测和汇聚方法及装置

技术领域

本发明涉及网页内容处理领域，尤其涉及一种用于面向特定网络入口的新内容检测和汇聚方法及装置。

背景技术

随着互联网信息的日益增长，不同的信息充斥着人们的生活。人们越来越需要对所关注信息的新内容进行检测、分类和管理。由于互联网信息充斥着大量无关信息，如何准确、自动的获取特定网络入口的信息以及分类汇聚，以及变得更为重要。如今很多互联网公司都对自己的搜索引擎进行了改进，使其能够支持更多种的信息收集和检索，但是面对庞大的信息源，搜索引擎选取的内容很难满足用户的需求。尤其是对于特定网络入口的信息变化，现有技术中的搜索引擎很难全面、准确的进行处理。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于，解决现有技术中对于特定网络入口的信息变化很难全面、准确的进行处理的技术问题。

为实现上述目的，本发明提供一种用于面向特定网络入口的新内容检测和汇聚方法，包括步骤：

S1：获取特定网络入口的网络连接；

S2：通过所述网络连接加载网页内容，对所述网页内容进行DOM解析获得结构树；对所述结构树中的无效节点进行无关标记，获得处理后的结构树；

S3：将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，将所述更新后的网页内容发送至用户进行反馈操作；

S4：经过预设时间T后返回步骤S2，通过所述网络连接加载更新后的网页内容。

优选地，步骤S2具体为：

S21：通过所述网络连接加载网页内容，对所述网页内容中HTML文件的DOM进行解析，获得DOM层级的树结构；剔除所述树结构中的无关信息；

S22：判断所述树结构中各节点的内容；若所述节点的内容为广告或无效内容，则对该节点进行无关标记，并且删除该节点的子节点；若所述节点的内容为有效节点，则保留该节点，并且增加该节点的相关度；获得处理后的结构树。

优选地，步骤S3中，所述将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，具体为：

通过比照算法选取新的网页内容进行缓存，同步更新到数据库，并标记新的时间信息；

所述比照算法具体为：将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较，hash值产生变化的节点的子节点为存在新内容的子节点。

优选地，步骤S3中，所述反馈操作具体为：

S31：对所述更新后的网页内容中各信息进行相关度顺序；

S32：判断所述更新后的网页内容中各信息的相关度；若信息被标记为不相关，则降低该信息对应结构树中节点的相关度；若信息被标记为相关，则增加该信息对应结构树中节点的相关度；

S33：更新所述更新后的网页内容对应的结构树，进入步骤S4。

优选地，步骤S3中，所述将所述更新后的网页内容发送至用户包括：

通过客户端结果窗口显示所述更新后的网页内容；

将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。

一种用于面向特定网络入口的新内容检测和汇聚装置，包括：

网络连接模块，用于获取特定网络入口的网络连接；

结构树生成模块，用于通过所述网络连接加载网页内容，对所述网页内容进行DOM解析获得结构树；对所述结构树中的无效节点进行无关标记，获得处理后的结构树；

更新模块，用于将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，将所述更新后的网页内容发送至用户进行反馈操作；

加载模块，用于经过预设时间T后返回步骤S2，通过所述网络连接加载更新后的网页内容。

优选地，所述结构树生成模块包括以下子模块：

预处理子模块，用于通过所述网络连接加载网页内容，对所述网页内容中HTML文件的DOM进行解析，获得DOM层级的树结构；剔除所述树结构中的无关信息；

无关标记判断模块，用于判断所述树结构中各节点的内容；若所述节点的内容为广告或无效内容，则对该节点进行无关标记，并且删除该节点的子节点；若所述节点的内容为有效节点，则保留该节点，并且增加该节点的相关度；获得处理后的结构树。

优选地，所述更新模块中，所述将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，具体为：

所述比照算法具体为：将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较，hash值产生变化的节点的子节点为。

优选地，所述更新模块包括以下子模块：

相关度排序模块，用于对所述更新后的网页内容中各信息进行相关度顺序；

相关度反馈模块，用于判断所述更新后的网页内容中各信息的相关度；若信息被标记为不相关，则降低该信息对应结构树中节点的相关度；若信息被标记为相关，则增加该信息对应结构树中节点的相关度；

结构树更新模块，用于更新所述更新后的网页内容对应的结构树，进入加载模块。

优选地，所述更新模块中，所述将所述更新后的网页内容发送至用户包括：

通过客户端结果窗口显示所述更新后的网页内容；

本发明具有以下有益效果：

用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容，并能够持续的获取新的网页内容。

附图说明

图1为本发明用于面向特定网络入口的新内容检测和汇聚方法的流程示意图；

图2为本发明比照算法的过程示意图；

图3为本发明用于面向特定网络入口的新内容检测和汇聚装置的结构图

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，一种用于面向特定网络入口的新内容检测和汇聚方法，包括步骤：

S1：获取特定网络入口的网络连接；

具体实现中，客户端获取用户输入的特定网络入口的网络连接，通过网络请求可获取网络连接的链接源代码。

进一步地，步骤S2具体为：

具体实现中，通过网络连接加载网页内容，获得HTML网页；通过DOM解析对HTML网页的DOM结构生成数据结构树，并递归层级访问生成DOM层级的结构树。

进一步地，步骤S3中，所述将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，具体为：

所述比照算法具体为：将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较，hash值产生变化的节点的子节点为存在新内容的子节点；

参考图2，例如更新前的结构树的右方二级节点的hash值为hashA，结构树更新后的右方二级节点的hash值变为hashB，此时右方二级节点的三级节点中的内容为新内容。

进一步地，步骤S3中，所述反馈操作具体为：

S31：对所述更新后的网页内容中各信息进行相关度顺序；

进一步地，步骤S3中，所述将所述更新后的网页内容发送至用户包括：

通过客户端结果窗口显示所述更新后的网页内容；

参考图3，一种用于面向特定网络入口的新内容检测和汇聚装置，,包括：

网络连接模块10，用于获取特定网络入口的网络连接；

结构树生成模块20，用于通过所述网络连接加载网页内容，对所述网页内容进行DOM解析获得结构树；对所述结构树中的无效节点进行无关标记，获得处理后的结构树；

更新模块30，用于将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，将所述更新后的网页内容发送至用户进行反馈操作；

加载模块40，用于经过预设时间T后返回步骤S2，通过所述网络连接加载更新后的网页内容。

进一步地，所述结构树生成模块包括以下子模块：

进一步地，所述更新模块中，所述将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，具体为：

进一步地，所述更新模块包括以下子模块：

进一步地，所述更新模块中，所述将所述更新后的网页内容发送至用户包括：

通过客户端结果窗口显示所述更新后的网页内容；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用于面向特定网络入口的新内容检测和汇聚方法，其特征在于，包括步骤：

S1：获取特定网络入口的网络连接；

步骤S3中，所述将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，具体为：

所述反馈操作具体为：

S31：对所述更新后的网页内容中各信息进行相关度顺序；

S33：更新所述更新后的网页内容对应的结构树，进入步骤S4；

2.根据权利要求1所述的用于面向特定网络入口的新内容检测和汇聚方法，其特征在于，步骤S2具体为：

3.根据权利要求1所述的用于面向特定网络入口的新内容检测和汇聚方法，其特征在于，步骤S3中，所述将所述更新后的网页内容发送至用户包括：

通过客户端结果窗口显示所述更新后的网页内容；

4.一种用于面向特定网络入口的新内容检测和汇聚装置，其特征在于，包括：

网络连接模块，用于获取特定网络入口的网络连接；

所述更新模块中，所述将所述处理后的结构树通过映射算法存入数据库，获得更新后的网页内容，具体为：

所述更新模块包括以下子模块：

结构树更新模块，用于更新所述更新后的网页内容对应的结构树，进入加载模块；

5.根据权利要求4所述的用于面向特定网络入口的新内容检测和汇聚装置，其特征在于，所述结构树生成模块包括以下子模块：

6.根据权利要求4所述的用于面向特定网络入口的新内容检测和汇聚装置，其特征在于，所述更新模块中，所述将所述更新后的网页内容发送至用户包括：

通过客户端结果窗口显示所述更新后的网页内容；