CN114519163A

CN114519163A - 基于正则匹配和Bloom filter的增量新闻URL提取方法

Info

Publication number: CN114519163A
Application number: CN202210158871.0A
Authority: CN
Inventors: 周龙安
Original assignee: Jiangxi Shuyi Technology Co ltd
Current assignee: Jiangxi Shuyi Technology Co ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-20
Anticipated expiration: 2042-02-21
Also published as: CN114519163B

Abstract

本发明公开了基于正则匹配和Bloom filter的增量新闻URL提取方法，包括以下步骤：步骤一，搭建IP代理服务；步骤二，录入网站特征数据；步骤三，生成request并发送；步骤四，response预处理；步骤五，提取URL；步骤六，URL拼接域名；步骤七，URL过滤及过滤器更新；步骤八，步骤重复；步骤九，url标准化处理；步骤十，得到增量原始新闻URL；步骤十一，得到增量标准URL；步骤十二，储存；该发明，根据新闻网站首页或子板块首页新增URL较大概率是新闻URL的特点，发明设计了通过正则提取所有URL，进行处理后，用Bloom filter快速过滤，筛选出新增的URL作为新闻URL的方法，从而能够有效的解决目前web新闻采集方法中存在的因为不能兼顾准确性和开发维护成本而带来的信息处理效率低、成本高的缺陷。

Description

基于正则匹配和Bloom filter的增量新闻URL提取方法

技术领域

本发明涉及URL提取技术领域，具体为基于正则匹配和Bloom filter的增量新闻URL提取方法。

背景技术

Web自20世纪90年代初诞生以来便以爆炸式的速度发展，当前Web已成为世界最大的信息资源库，涵盖现实社会的各个领域，是很多人生活工作获取信息的重要途径。Web信息的展现形式主要是网页，据统计，Web中网页的数量达到550billion(10亿)。为了更有效地利用Web中的海量信息，自20世纪90年代中期开始Web信息搜索领域得到了广泛的研究，产生了大量Web信息搜索相关应用，例如新闻搜索引擎、舆情分析等应用都是为了效地访问和利用web新闻网站中海量的信息。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成，布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率(假正例False positives，即Bloom Filter报告某一元素存在于某集合中，但是实际上该元素并不在集合中)和删除困难，但是没有识别错误的情形(即假反例Falsenegatives，如果某个元素确实没有在该集合中，那么Bloom Filter是不会报告该元素存在于集合中的，所以不会漏报)。

在大数据产业迅速发展的背景之下，新闻数据中可以挖掘出大量有效的信息，可用于舆情监测、内容分发、垂直内容聚合或政策风向标研究。但无论基于哪种用途，均需要高效的采集海量的数据，这些数据具有数据源众多、数据体量大、实时性强的特点。

目前网页新闻数据采集方面有丰富的软件和框架提供，例如八爪鱼和火车头等软件可以提供给没有开发能力的用户。而具有开发能力的个人或公司可以使用各种语言开源的爬虫框架，例如Python模块Scrapy和PySpider等。此类软件和框架面对不同的网站，一般需要设定不同的抓取规则。如果需要采集成千上万的新闻网站，使用、开发和维护成本会正比例上升，进而影响信息处理的效率和应用开发的成本。

现有的技术无论是网页采集框架还是新闻采集软件，实现网页数据采集的一个必要步骤就是网站提取目标网页唯一的网络地址URL(Uniform Resource Locator,统一资源定位器)。现有新闻URL获取的原理目前主要分为两种：

1，根据不同网站结构特点为每个网站定制一个或多个能匹配新闻URL的选择器(正则表达式、BS4、Xpath、CSS等),这可以精准获取新闻URL，采集到新闻URL后再进行去重后传入数据库或redis列队待用；

2，采集大量各种类型URL并人工标注是否是新闻URL，通过机器学习算法训练获得新闻URL分类器，再次采集新闻URL时通过分类器判断是否是新闻URL,如果是新闻URL再进行去重后传入数据库或redis列队待用。

但现有的技术中具有以下两种缺点，其一，根据不同网站结构特点定制新闻URL选择器(正则表达式、BS4、Xpath、CSS等)需要人工参与选择器的开发，不同网站需要研究开发不同的选择器，人工需求量随需采集网站成正比例增加，存在开发质量参差不齐、沟通成本高等问题。如果需采集的新闻网站数量达到数万个，开发和维护成本极高；其二，由于新闻网站的开发人员来自于世界各地，不同web开发人员对url的设计风格迥异。如果不区分网站开发URL分类器，则开发出来的分类器可能对部分网站效果较好，而对部分网站可能效果很差。如果每个网站都定制分类器，那么每个网站都需要采集较多的样本数据，这会导致训练集和测试集制作的工作量巨大。如果采集数据不足，又会影响分类器的准确性。所以通过机器学习算法训练URL分类器适合需采集网站数量较少的情景。如果需采集的新闻网站较多、范围较广，则不能兼顾准确性和开发维护成本。

发明内容

本发明的目的在于提供基于正则匹配和Bloom filter的增量新闻URL提取方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于正则匹配和Bloom filter的增量新闻URL提取方法，包括以下步骤：步骤一，搭建IP代理服务；步骤二，录入网站特征数据；步骤三，生成request并发送；步骤四，response预处理；步骤五，提取URL；步骤六，URL拼接域名；步骤七，URL过滤及过滤器更新；步骤八，步骤重复；步骤九，url标准化处理；步骤十，得到增量原始新闻URL；步骤十一，得到增量标准URL；步骤十二，储存；

其中上述步骤一中，根据目标网站是否需要动态IP即可访问IP的特性，准备好代理服务器，搭建IP代理服务，以增强访问的成功率和稳定性；

其中上述步骤二中，打开目标网站根据其特点，在数据库中录入网站站点等特征数据；

其中上述步骤三中，根据数据库中的新闻网站站点url及特征数据生成request并发送请求，返回的数据计为response；

其中上述步骤四中，response预处理:将response转为合适的编码,对全文字符串进行替换，同时删除字符串“u002F”和“amp；”等干扰URL提取的字符串；

其中上述步骤五中，用正则提取response中的所有URL，提取所使用的正则表达式为'((http[s]？:|www\.|["\'>]\.？[\w]*/[.\w-]+/)\S*？)[\'"\s><)]\W'；

其中上述步骤六中，判断URL第一个字符串是否是/，如果是/则拼接上域名，这是因为大部分网站html中提取的url是以/开头的不完整URL，可能出现不同网站采集到相同的URL，但拼接上不同的域名是不同的网页的情况，如果不拼接域名直接过滤则会漏掉部分URL；

其中上述步骤七中，将拼接处理后的URL全部通过Bloom filter，生成的.blm文件作为新的Bloom filter的过滤文件；

其中上述步骤八中，根据需求和网站更新频率再次重复步骤三至步骤七，将新出现的URL作为新增新闻原始URL；

其中上述步骤九中，将新增新闻原始URL进行URL标准化处理，得到新增新闻原始URL对应的标准URL；

其中上述步骤十中，将标准URL通过Bloom filter，将第一次通过Bloom filter的预处理URL对应的原始URL作为增量原始新闻URL；

其中上述步骤十一中，将增量原始新闻URL按照URL标准进行处理，得到标准URL；

其中上述步骤十二中，将标准URL作为新闻页URL储存至redis列队备用。

优选的，所述步骤二中，网站特征数据包括：域名、网站新闻站点URL、是否需要代理、是否AJAX加载。

优选的，所述步骤二中，无论网站特征是否需要代理，步骤三读取数据库中的新闻网站均可利用分布式多线程爬虫技术快速请求新闻网新闻站点。

优选的，所述步骤二中，网站数据选择是AJAX加载，则读取数据库中的新闻网站特征数据利用Headless Chrome采集渲染后的新闻网页。

优选的，所述步骤四中，全文字符串进行替换的具体方法为：“\\/”替换为“/”，“\/”替换为“/”，“％3A”替换为“：”，“％2F”替换为“/”。

与现有技术相比，本发明的有益效果是：本发明根据新闻网站首页或者各板块首页新增新闻URL一定包含在新增URL之中的特点，开发了一种新型的新闻增量URL提取的方法，本方法相比于传统新闻采集技术在海量新闻数据采集的过程中的表现，具有提取速度快、准确率高、人工介入少、开发周期短、维护成本低、带宽和CPU资源占用少的特点。

附图说明

图1本发明的方法原理图；

图2为本发明的URL标准化处理示意图；

图3为本发明中正则表达式的常用的元字符含义图；

图4为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供的一种实施例：基于正则匹配和Bloom filter的增量新闻URL提取方法，包括以下步骤：步骤一，搭建IP代理服务；步骤二，录入网站特征数据；步骤三，生成request并发送；步骤四，response预处理；步骤五，提取URL；步骤六，URL拼接域名；步骤七，URL过滤及过滤器更新；步骤八，步骤重复；步骤九，url标准化处理；步骤十，得到增量原始新闻URL；步骤十一，得到增量标准URL；步骤十二，储存；

其中上述步骤二中，打开目标网站根据其特点，在数据库中录入网站站点等特征数据，其中网站特征数据包括：域名、网站新闻站点URL、是否需要代理、是否AJAX加载；无论网站特征是否需要代理，步骤三读取数据库中的新闻网站均可利用分布式多线程爬虫技术快速请求新闻网新闻站点；网站数据选择是AJAX加载，则读取数据库中的新闻网站特征数据利用Headless Chrome采集渲染后的新闻网页；

其中上述步骤四中，response预处理:将response转为合适的编码,对全文字符串进行替换，同时删除字符串“u002F”和“amp；”等干扰URL提取的字符串，其中，全文字符串进行替换的具体方法为：“\\/”替换为“/”，“\/”替换为“/”，“％3A”替换为“：”，“％2F”替换为“/”；

基于上述，本发明的优点在于，该发明，根据新闻网站首页或者各板块首页新增新闻URL一定包含在URL之中的特点，开发了一种新型的新闻增量URL提取的方法，即根据新闻网站首页或子板块首页新增URL较大概率是新闻URL的特点，发明设计了通过正则提取所有URL，进行处理后，用Bloom filter快速过滤，筛选出新增的URL作为新闻的方法，本方法，相比于传统新闻采集技术在海量新闻数据采集的过程中的表现，具有提取速度快、准确率高、人工介入少、开发周期短、维护成本低、带宽和CPU资源占用少的特点。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于正则匹配和Bloom filter的增量新闻URL提取方法，包括以下步骤：步骤一，搭建IP代理服务；步骤二，录入网站特征数据；步骤三，生成request并发送；步骤四，response预处理；步骤五，提取URL；步骤六，URL拼接域名；步骤七，URL过滤及过滤器更新；步骤八，步骤重复；步骤九，url标准化处理；步骤十，得到增量原始新闻URL；步骤十一，得到增量标准URL；步骤十二，储存；其特征在于：

2.根据权利要求1所述的基于正则匹配和Bloom filter的增量新闻URL提取方法，其特征在于：所述步骤二中，网站特征数据包括：域名、网站新闻站点URL、是否需要代理、是否AJAX加载。

3.根据权利要求2所述的基于正则匹配和Bloom filter的增量新闻URL提取方法，其特征在于：所述步骤二中，无论网站特征是否需要代理，步骤三读取数据库中的新闻网站均可利用分布式多线程爬虫技术快速请求新闻网新闻站点。

4.根据权利要求2所述的基于正则匹配和Bloom filter的增量新闻URL提取方法，其特征在于：所述步骤二中，网站数据选择是AJAX加载，则读取数据库中的新闻网站特征数据利用Headless Chrome采集渲染后的新闻网页。

5.根据权利要求1所述的基于正则匹配和Bloom filter的增量新闻URL提取方法，其特征在于：所述步骤四中，全文字符串进行替换的具体方法为：“\\/”替换为“/”，“\/”替换为“/”，“％3A”替换为“：”，“％2F”替换为“/”。