CN105302876A

CN105302876A - 基于正则表达式的url过滤方法

Info

Publication number: CN105302876A
Application number: CN201510650016.1A
Authority: CN
Inventors: 孙燕群
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2016-02-03

Abstract

公开了基于正则表达式的URL过滤方法。该方法包括：步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；步骤4，将所述一个或多个第三URL加入抓取队列。

Description

基于正则表达式的URL过滤方法

技术领域：

本发明涉及网络信息处理技术领域，具体地说是一种利用爬虫程序通过用户自定义网络爬虫抓取获得网络抓取方案的方法。

背景技术：

随着互联网技术的发展，搜索引擎已经成为人们获取信息的重要方式。现有的搜索引擎都是基于通称为网络爬虫(Crawler)的技术实现。网络爬虫抓取时，难以删选自己想要的有价值的信息，抓取的网页内有镀铬URL链接，如果通过网页源代码来判断该链接是否是目录页或详细页比较困难。爬虫工作原理是搜索引擎定期执行网络爬虫程序，从作为搜索树根的指定初始URL列表开始访问这些URL定位的网页资源，获取网页信息，包括标题、描述HTML网页文档属性的Meta标签等，并从这些信息中提取关键词，添加到搜索时用的数据库中，以及从这些信息中提取指向网页资源的URL并将这些新提取的URL作为起点开始新一轮的访问处理，通过这种访问处理的循环得到一个定期更新的综合性的搜索数据库，当用户向搜索引擎提供关键字后，搜索引擎通过检索搜索数据库，按排名规则向用户返回搜索成果，完成一次搜索过程。

目前网络爬虫程序大都基于页面结构实现数据的获取，通过获取网页文档，将网页文档解析成DOM树形式，根据DOM树的规则，HTML文档中的所有元素都用节点来表示，根据DOM树构建抽取规则，进行数据抽取，在数据抽取过程中，由于网页信息源的异构性，为了不损失抽取精度，需要针对每个网站都构造相应的抽取规则，这样爬虫程序的覆盖率很低，极大的限制了网络资源获取的可能性；基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率，但是在数据抽取过程中会依赖该页面具体的标签节点，一旦对应的页面结构发生变化或者出现新的标签节点命名规则，不但会使爬虫获取不到正确的数据，还会进一步导致爬虫程序停止数据获取工作。

发明内容：

本发明针对现有技术中存在的缺点和不足，提出了一种能够不依赖具体标签节点进行的数据抽取，并能够有效的处理实际爬行节点动态加入与退出造成的重复爬行问题，极大的提高了系统的调度效率，降低系统调度的性能损失的通过用户自定义网络爬虫抓取获得网络抓取方案的方法。

用户可通过判断特定网页的目录页或详细页的组成规则，自定义正则表达式，使用正则表达是来过滤众多的URL，获取需要的目录页或详细页或特定页。

对于固定的网站，其目录页或详细页的URL链接地址是相对固定不变的，通过上层网页转至下层网页时，获得了上一层网页的全部页内链接，通过设置规则，例如正则表达式，来只提取目录页或只提取详细页。

根据本发明，提供了一种URL过滤方法，包括：步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；步骤4，将所述一个或多个第三URL加入抓取队列。

根据本发明，还提供了一种URL过滤方法，包括：步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；步骤2，删除第一URL所对应的页面中的纯超链接节点；步骤3，提取第一URL所对应的页面中的指定节点；步骤4，展示所述指定节点所包含的文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；步骤5，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；步骤6，将所述一个或多个第三URL加入抓取队列。

根据本发明提供的URL过滤方法，还包括：步骤7，将所述抓取队列中的每个URL设为新的第一URL；获取抓取深度n，重复n次步骤1至步骤7。

根据本发明提供的URL过滤方法，其中所述步骤5还包括，获取所述一个或多个第三URL的每一个URL所对应的第二页面，应用所述文本过滤规则过滤所述第二页面；以及在步骤6中，将过滤得到的第二页面所对应的URL加入所述抓取队列。

根据本发明提供的URL过滤方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点是依据用户指定的页面元素选择所述指定的节点。

根据本发明提供的URL过滤方法，其中所述URL过滤规则为在URL中包括“page”字符串、日期信息或时间信息。

根据本发明提供的URL过滤方法，其中步骤2，删除第一URL所对应的页面中的纯超链接节点，具体包括：提取出第一URL所对应的页面中的一个或多个超链接节点，对每个超链接节点通过公式(1)进行计算：(1)，其中LinkContent(i)表示当前超链接节点下超链接文本的字符数，Content(i)则表示当前超链接节点下所有的字符数；如果E(i)＝1，则删除当前超链接节点。

根据本发明提供的URL过滤方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点，包括：从第一URL所对应的页面中抽取”title”节点的内容，计算该内容的各个词的信息指纹，并基于所述各个词的信息指纹计算该“title”节点的相似哈希值T，对第一URL所对应的页面中的节点i进行处理，获得与节点i对应的相似哈希值Ni，选择T与Ni差值小于阈值的节点；作为第一URL所对应的页面中的指定节点。

根据本发明提供的URL过滤方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点，包括：

从第一URL所对应的页面中抽取”title”节点为起始节点，自底向上迭代计算各节点的上下文主体相关度值TTR，找到TTR值最大的节点，作为所述指定节点，

相关度值TTR的计算公式为：其中TTR(ni)表示当前节点的上下文主题相关度，ContentCount(ni)表示当前节点下的字符数，CountentCount(Pni)则表示当前节点的父节点下的字符数。

本发明的有益效果在于，用户通过设置抓取范围，基于关键字或正则表达式搜索，来区分目录页或详细页，从而更加精确搜索结果。对于非专业用户，编写正则表达式有困难，通过制定URL中包含或者不包含某个(或几个)关键字来指定URL链接。

附图说明

图1是根据本发明实施例的URL过滤方法流程图。

具体实施方式：

下面对本发明作进一步的说明。

图1展示了根据本发明实施例的URL过滤方法的流程图。参看图1，根据本发明的URL过滤方法，包括：步骤110，获取要抓取的URL以及要抓取的URL所对应的页面。可由用户指定要抓取的URL，或通过配置文件或脚本得到要抓取的URL。步骤120，向用户展示与要抓取的URL对应的web页面，并提示用户，要求用户提供URL过滤规则和/或与文本过滤规则，用于进行URL的过滤，并用过滤后的URL进行网页抓取。响应于用户提供URL过滤规则，基于用户提供的URL过滤规则，对页面中的URL进行过滤(步骤130)。作为举例，在步骤110中获得的页面中，可包含多个URL，在步骤130，依据用户提供的URL过滤规则对这多个URL进行过滤。在步骤140，基于过滤后的URL进行网页抓取，从而提高网络爬虫的准确性。

作为举例，用户设置的URL过滤规则可以是正则表达式、关键词或特定字符串。例如，通过匹配”page”关键词，将以大概率找到指示详细内容页的URL；而通过匹配日期或时间，将以大概率找到指示目录页的URL。

依然作为举例，用户还可设置抓取深度n。依据抓取深度n，从用户指定的顶层URL，向下抓取n层页面。并对第1层页面至第n-1层页面中包含的URL，进行过滤和抓取。

依然作为举例，用户还设置用于提取URL或抓取信息的目标节点。

在根据本发明的第二实施例中，过滤URL的方法包括，步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面。步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则。步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL。步骤4，将所述一个或多个第三URL加入抓取队列。

在步骤1中，还对第一URL所对应的页面进行预处理，以去除无关内容。在一个例子中，根据用户自定义数据抽取入口地址URL，获取对应的HTML页面，并调用HTML解析器将HTML页面解析成DOM树后，通过下述公式对超链接节点进行过滤处理，过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点：

其中LinkContent(i)表示当前节点下超链接文本的字符数，Content(i)则表示当前节点下所有的字符数，如果E(i)＝1，则表示该节点是与文本无关的纯超链接节点，在数据抽取时直接过滤掉，对该节点的URL不进行抓取。

在根据本发明的第二实施例中，为提高爬虫抓取效率，还基于语义对要抓取的web页面进行处理，过滤掉与当前页面的主题无关的内容。选择HTML页面特定节点<title|TITLE>下的内容，作为当前页面的主题特征。计算该“tilte”节点内容部分的所有词的特征值，并映射为16位的信息指纹，根据相似哈希的计算方法计算其相似哈希值T。然后自上而下对其他节点进行相同处理，获得对应的相似哈希值Ni，对比T与Ni差值小于阈值的节点与title节点的内容相似，因而选择T与Ni差值小于阈值的节点为目标抽取文本的节点。在根据本发明实施例筛选URL时，优选地，仅从目标抽取文本的节点中提取URL。

从当前页面的诸多节点中找到正文节点。正文节点是html页面的主体部分，包含了HTML页面的主要内容。作为举例，用户还设置用于提取URL或抓取信息的目标抽取节点。

在另一实施例中，提供了不同的目标抽取节点的确定方式。设置标题节点为起始节点，自底向上迭代计算各节点的上下文主体相关度值TTR，找到TTR值最大的节点，该节点即为目标抽取节点，相关度值TTR的计算公式为：其中TTR(ni)表示当前节点的上下文主题相关度，ContentCount(ni)表示当前节点下的字符数，CountentCount(Pni)则表示当前节点的父节点下的字符数。在根据本发明实施例筛选URL时，优选地，仅从目标抽取文本的节点中提取URL。

在根据本发明的实施例中，还对目标抽取文本的节点的内容进行过滤。用户设置文本过滤规则。文本过滤规则可以是正则表达式、关键词表、特定字符串、时间和/或日期。根据确定的目标抽取节点实施文本过滤，得到包含用户感兴趣的内容的目标抽取文本的节点。

在优选的实施例中，还对获取的URL进行去重复处理。抓取重复的URL是没有意义的，并且占用抓取处理的时间和处理资源。

在依然优选的实施例中，将抓取的URL分配到多个爬行节点。爬行节点可以是服务器、虚拟机，也可以是一台电脑上的线程或进程。在URL分配过程中，先设定系统的虚拟爬行节点数N以及初始URL任务集，每个虚拟爬行节点对应一个布隆过滤器去重结构，布隆过滤器在内存中申请有一个位数组，位数组的大小为n。将虚拟爬行节点平均分配给实际爬行节点，建立虚拟爬行节点与实际爬行节点的映射关系，采用基于模的哈希运算方法将初始URL任务集映射到各个虚拟爬行节点，并根据虚拟爬行节点与实际爬行节点的映射关系将初始URL任务集映射到对应的实际爬行节点。

当前爬行节点根据初始URL任务集进入网络爬行状态并获取待处理URL任务集，判断待处理URL任务集是否为空，若为空则结束过程，否则从待处理URL任务集中获取URL任务，对获取的URL任务进行哈希运算得到其对应的虚拟爬行节点号，根据该虚拟爬行节点号，根据该虚拟爬行节点号查找虚拟爬行节点与实际爬行节点的映射关系表，从而得到对应的实际爬行节点。

判断获取的URL任务是否属于当前爬行节点，如果否，则将获取的URL任务转发给实际爬行节点并对于待处理URL任务集中的所有URL任务进行上述处理，直到所有URL任务处理完毕；如果是，则对该URL任务进行哈希计算，以找到该URL任务所述的虚拟爬行节点，并找到对应的布隆过滤器去重结构。

本发明针对网页结构变化，在数据抽取过程中不依赖于具体的标签节点，而是通过锁定标题节点，迭代计算相关节点的上下文主题相关度值TTR，得到目标抽取模块的节点，获得URL信息，降低重复率，并能够有效的处理实际爬行节点动态加入与退出造成的重复爬行问题，极大的提高了系统的调度效率，降低系统调度的性能损失。

Claims

1.一种URL过滤方法，包括：

步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；

步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；

步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；

步骤4，将所述一个或多个第三URL加入抓取队列。

2.一种URL过滤方法，包括：

步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；

步骤2，删除第一URL所对应的页面中的纯超链接节点；

步骤3，提取第一URL所对应的页面中的指定节点；

步骤4，展示所述指定节点所包含的文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；

步骤5，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；

步骤6，将所述一个或多个第三URL加入抓取队列。

3.根据权利要求2所述的方法，还包括：

步骤7，将所述抓取队列中的每个URL设为新的第一URL；

获取抓取深度n，重复n次步骤1至步骤7。

4.根据权利要求2-3所述的方法，其中所述步骤5还包括，获取所述一个或多个第三URL的每一个URL所对应的第二页面，应用所述文本过滤规则过滤所述第二页面；以及在步骤6中，将过滤得到的第二页面所对应的URL加入所述抓取队列。

5.根据权利要求2-4所述的方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点是依据用户指定的页面元素选择所述指定的节点。

6.根据权利要求2-5所述的方法，其中所述URL过滤规则为在URL中包括“page”字符串、日期信息或时间信息。

7.根据权利要求2-6所述的方法，其中步骤2，删除第一URL所对应的页面中的纯超链接节点，具体包括：

提取出第一URL所对应的页面中的一个或多个超链接节点，对每个超链接节点通过公式(1)进行计算：

E (i) = \frac{L i n k C o n t e n t (i)}{C o n t e n t (i)} - - - (1),

其中LinkContent(i)表示当前超链接节点下超链接文本的字符数，Content(i)则表示当前超链接节点下所有的字符数；如果E(i)＝1，则删除当前超链接节点。

8.根据权利要求2-7所述的方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点，包括：

从第一URL所对应的页面中抽取”title”节点的内容，计算该内容的各个词的信息指纹，并基于所述各个词的信息指纹计算该“title”节点的相似哈希值T，对第一URL所对应的页面中的节点i进行处理，获得与节点i对应的相似哈希值Ni，选择T与Ni差值小于阈值的节点；作为第一URL所对应的页面中的指定节点；

根据权利要求2-7所述的方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点，包括：