CN103020043A

CN103020043A - 一种面向web双语平行语料资源的分布式采集系统

Info

Publication number: CN103020043A
Application number: CN2012104647134A
Authority: CN
Inventors: 徐志明; 张志超; 韩啸天
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2013-04-03

Abstract

一种面向web双语平行语料资源的分布式采集系统，它涉及语料获取技术领域。本发明克服了现有系统爬取规模较小，获得语料渠道较少，爬取效率较低的问题。本发明所述的系统包括链接存储库模块、筛选过滤器模块、网页爬行器模块、原始网页库模块、双语探测模块、黑名单模块、双语网页库模块和链接抽取器模块。本发明克服了现有技术领域的技术偏见，将互联网作为语料获取对象，通过应用本发明所描述的系统，可以有效地解决分布式系统资源的占有矛盾问题；可以为双语平行语料采集系统，提供一个通用的设计架构；可以不断动态的将非双语站点加入黑名单，能够高效的抓取互联网中双语平行语料；可以极大幅度的提高双语语料抓取的效率。

Description

一种面向web双语平行语料资源的分布式采集系统

技术领域

本发明涉及语料获取技术领域，具体涉及双语平行语料的分布式采集系统。

背景技术

统计机器翻译是机器翻译的方法之一，基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。

在统计机器翻译技术中，平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料，是建立高性能统计机器翻译系统的必要条件。

双语平行语料库的建设与获取存在着很大的困难，各国都投入了大量的人力、物力和财力。但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域，不适合真实文本应用。同时，互联网上的大规模双语文本具有很好的时效性和覆盖性，这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题，推动相关技术发展和实用化具有重要的意义。

目前，双语平行语料采集系统大都存在爬取规模较小，获得语料渠道较少，爬取效率较低的问题。

发明内容

本发明提供了一种面向web双语平行语料资源的分布式采集系统，解决了现有系统爬取规模较小，获得语料渠道较少，爬取效率较低的问题。

本发明所述的面向web双语平行语料资源的分布式采集系统包括：

链接存储库模块，用于存储抓取任务中所包含的超链接；

筛选过滤器模块，从链接存储库模块中输入链接流，判断链接是否满足爬行条件；符合爬行条件的再判断是否包含非双语站点，根据规则判断是否抓取；

网页爬行器模块，由筛选过滤器模块中获得下载列表，然后对下载列表中的url链接对应的网页，从互联网上下载下来；

原始网页库模块，经网页爬行器模块下载来的网页保存到原始网页库模块中，用于存储网页爬行器模块抓取的原始网页；

双语探测模块，从原始网页库模块中读取数据，对某个站点下载下来的网页进行判别，判断含中英句对网页的比例，是否含有双语平行网页，得到该站点是否为双语站点；

黑名单模块，从双语探测模块中判断为非双语站点的则加入到黑名单模块中，用于存储禁止抓取的非双语站点主域名；

双语网页库模块，用于存储双语探测器模块获得的双语网页资源；

链接抽取器模块，从双语网页库模块中读取数据，去除网页中的冗余数据，从网页中抽取超链接。

本发明中面向web双语平行语料资源的分布式采集系统，能够将已经判别的非双语的网站站点，在翻译语料采集过程中动态的加入黑名单，下次采集过程直接忽略，节省计算资源，提高双语资源抓取效率；一个待抓取的url链接，按照该链接所在的主机地址生成的哈希值进行散列，分配给不同的网页爬行器模块，达到分布式并行处理的效果。

本发明克服了现有技术领域的技术偏见，将互联网作为语料获取对象，通过应用本发明所描述的系统，可以有效地解决分布式系统资源的占有矛盾问题；可以为双语平行语料采集系统，提供一个通用的设计架构；可以不断动态的将非双语站点加入黑名单，能够高效的抓取互联网中双语平行语料；可以极大幅度的提高双语语料抓取的效率。

附图说明

图1为本发明所述的面向双语平行语料的分布式采集系统的工作原理示意图；

图2为本发明所述的面向双语平行语料的分布式采集系统中筛选过滤器模块和网页爬行器模块的工作原理示意图。

具体实施方式

具体实施方式一：本实施方式所述的面向web双语平行语料资源的分布式采集系统：

链接存储库模块，用于存储抓取任务中所包含的超链接；

筛选过滤器模块1，从链接存储库模块中输入链接流，判断链接是否满足爬行条件；符合爬行条件的再判断是否包含非双语站点，根据规则判断是否抓取；

网页爬行器模块2，由筛选过滤器模块1中获得下载列表，然后对下载列表中的url链接对应的网页，从互联网上下载下来；

原始网页库模块，经网页爬行器模块2下载来的网页保存到原始网页库模块中，用于存储网页爬行器模块2抓取的原始网页；

如图1所示，本实施方式中链接存储库模块的信息来源于初始种子URL，初始种子UR用于激发原始信息。

本实施方式中筛选过滤器模块1(如图2所示)，包括正则过滤器、域名提取器、黑名单过滤器和哈希分配器；

其中正则过滤器过滤规则包括通用的正则表达式，这些正则表达式由配置文件添加，在互联网上存在且明显不是双语站点的链接，经过本模块，所有不符合正则表达式的链接将被剔除，不再流入网页爬行器；

域名提取器提取url链接中的主域名；

黑名单过滤器判断域名提取器提取的主域名是否在黑名单中，如果存在，则将此链接丢弃。

哈希分配器对经由以上步骤处理得到的连接分配给某个网页爬行器，首先对链接提取主机名，然后进行哈希得到哈希值对爬行器数目进行取余来决定该任务分配给哪个网页爬行器。

本实施方式中网页爬行器模块2(如图2所示)，其处理流程包含以下步骤：

1、输入为待抓取的一个链接任务列表；

2、对该任务列表进行排序，将具有相同主机的url链接尽量分散开来，对主机进行礼貌性访问；

3、访问dns缓存，获得主机所对应ip地址，若缓存不存在，访问dns服务器，并加入到缓存中；

4、多线程通过HTTP协议给服务器发送获取当前超链接所指定的网页实体的请求，将数据存储到原始网页数据库。

具体实施方式二：本实施方式是对具体实施方式一所述的链接存储库模块的进一步说明：用于存储维护一个大规模爬取的链接库，它包括网页的URL地址、抓取状态和爬取的时间。

本实施方式存储抓取的任务列表中的这些元信息来决定是否对一个链接进行抓取或增量式更新。

具体实施方式三：本实施方式是对具体实施方式一所述的筛选过滤器模块1的进一步说明：筛选过滤器模块1通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表；所述筛选的策略由自定义的过滤规则和黑名单规则构成；过滤规则包括通用的正则表达式，以及由黑名单提供的非双语的站点；从链接存储库模块中读出一条记录后，对其进行规则判断是否将其加入抓取列表，作为网页爬行器模块2的输入；另外一个功能，定期的对链接存储库模块进行更新，根据筛选过滤规则，剔除冗余无价值的链接，提高链接存储库质量。

本实施方式中已经判别的非双语的网站站点，在翻译语料采集过程中动态的加入黑名单，下次采集过程直接忽略，节省计算资源，提高双语资源抓取效率。

本实施方式中一个待抓取的url链接，按照该链接所在的主机地址生成的哈希值进行散列，分配给不同的网页爬行器模块2，达到分布式并行处理的效果。

具体实施方式四：本实施方式是对具体实施方式一所述的网页爬行器模块2的进一步说明：用于下载网页；各个网页爬行器模块2之间相互独立，多个网页爬行器模块2在同一时刻并行工作；所述网页爬行器模块2的个数由硬件所能承受的能力和网络环境条件所决定。

本实施方式中利用多个网页爬行器模块2在同一时刻并行工作，这样就极大的提高了采集效率，因为在同一时刻，若只有一个爬行器在下载网页，显然效率低下且不能达到实时性的要求。

具体实施方式五：本实施方式是对具体实施方式一所述的原始网页库模块的进一步说明：用于存储网页爬行器模块2下载的原始html网页，并记录原始网页的元信息，包括抓取时间、网页编码、网页类型，并且按照站点分类存储；网页爬行器模块2的输出都将下载的原始网页进行元信息抽取，然后存储到原始网页数据库模块中，并且作为双语探测器模块的输入。

具体实施方式六：本实施方式是对具体实施方式一所述的双语探测模块的进一步说明：通过对每个站点的网页进行正文提取，根据正文的编码值来判断正文是中文还是英文，根据字符数量计算正文长度，同时将正文所在的标签进行记录，若正文信息中同时包含相当规模的双语文本，则认为该网页为双语混合网页，并进行文本互译判断，判断是否为双语互译的混合网页，经过这些步骤，获得该站点是否为双语站点，对于不包含任何双语网页的站点，将其加入到黑名单模块中。

具体实施方式七：本实施方式是对具体实施方式一所述的黑名单模块的进一步说明：维护一个非双语站点的域名列表，如果域名不是一个双语的站点，则提取域名作为黑名单的一项；黑名单的内容供链接筛选过滤模块使用。

具体实施方式八：本实施方式是对具体实施方式一所述的双语网页库模块的进一步说明：用于存储从原始网页库模块中经双语探测器模块判别出来的双语网页信息，包含抓取时间和网页编码信息。

具体实施方式九：本实施方式是对具体实施方式一所述的链接抽取器模块的进一步说明：以双语网页库模块作为输入，从包含双语互译资源的网页中提取出超链。

本实施方式中链接到双语网页的几率远大于普通网页；而且抽取双语网页库模块而非抽取原始网页库模块，可以极大减轻系统的负载，节省大量计算资源和带宽，极大提高双语平行语料采集系统的效率。

本发明上述各实施方式所述的具体技术方案是对本发明所述技术方案的详细说明，不应理解为对本发明的限制。

Claims

1.一种面向web双语平行语料资源的分布式采集系统，其特征在于，该系统包括：

链接存储库模块，用于存储抓取任务中所包含的超链接；

筛选过滤器模块(1)，从链接存储库模块中输入链接流，判断链接是否满足爬行条件；符合爬行条件的再判断是否包含非双语站点，根据规则判断是否抓取；

网页爬行器模块(2)，由筛选过滤器模块(1)中获得下载列表，然后对下载列表中的url链接对应的网页，从互联网上下载下来；

原始网页库模块，经网页爬行器模块(2)下载来的网页保存到原始网页库模块中，用于存储网页爬行器模块(2)抓取的原始网页；

2.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的链接存储库模块的进一步限定：用于存储维护一个大规模爬取的链接库，它包括网页的URL地址、抓取状态和爬取的时间。

3.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的筛选过滤器模块(1)的进一步限定：筛选过滤器模块(1)通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表；所述筛选的策略由自定义的过滤规则和黑名单规则构成；过滤规则包括通用的正则表达式，以及由黑名单提供的非双语的站点；从链接存储库模块中读出一条记录后，对其进行规则判断是否将其加入抓取列表，作为网页爬行器模块(2)的输入；另外一个功能，定期的对链接存储库模块进行更新，根据筛选过滤规则，剔除冗余无价值的链接，提高链接存储库质量。

4.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的网页爬行器模块(2)的进一步限定：用于下载网页；各个网页爬行器模块(2)之间相互独立，多个网页爬行器模块(2)在同一时刻并行工作；所述网页爬行器模块(2)的个数由硬件所能承受的能力和网络环境条件所决定。

5.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的原始网页库模块的进一步限定：用于存储网页爬行器模块(2)下载的原始html网页，并记录原始网页的元信息，包括抓取时间、网页编码、网页类型，并且按照站点分类存储；网页爬行器模块(2)的输出都将下载的原始网页进行元信息抽取，然后存储到原始网页数据库模块中，并且作为双语探测器模块的输入。

6.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的双语探测模块的进一步限定：通过对每个站点的网页进行正文提取，根据正文的编码值来判断正文是中文还是英文，根据字符数量计算正文长度，同时将正文所在的标签进行记录，若正文信息中同时包含相当规模的双语文本，则认为该网页为双语混合网页，并进行文本互译判断，判断是否为双语互译的混合网页，经过这些步骤，获得该站点是否为双语站点，对于不包含任何双语网页的站点，将其加入到黑名单模块中。

7.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的黑名单模块的进一步限定：维护一个非双语站点的域名列表，如果域名不是一个双语的站点，则提取域名作为黑名单的一项；黑名单的内容供链接筛选过滤模块使用。

8.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的双语网页库模块的进一步限定：用于存储从原始网页库模块中经双语探测器模块判别出来的双语网页信息，包含抓取时间和网页编码信息。

9.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的链接抽取器模块的进一步限定：以双语网页库模块作为输入，从包含双语互译资源的网页中提取出超链。