CN103020043A - 一种面向web双语平行语料资源的分布式采集系统 - Google Patents

一种面向web双语平行语料资源的分布式采集系统 Download PDF

Info

Publication number
CN103020043A
CN103020043A CN2012104647134A CN201210464713A CN103020043A CN 103020043 A CN103020043 A CN 103020043A CN 2012104647134 A CN2012104647134 A CN 2012104647134A CN 201210464713 A CN201210464713 A CN 201210464713A CN 103020043 A CN103020043 A CN 103020043A
Authority
CN
China
Prior art keywords
bilingual
module
web
web page
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104647134A
Other languages
English (en)
Inventor
徐志明
张志超
韩啸天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2012104647134A priority Critical patent/CN103020043A/zh
Publication of CN103020043A publication Critical patent/CN103020043A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种面向web双语平行语料资源的分布式采集系统,它涉及语料获取技术领域。本发明克服了现有系统爬取规模较小,获得语料渠道较少,爬取效率较低的问题。本发明所述的系统包括链接存储库模块、筛选过滤器模块、网页爬行器模块、原始网页库模块、双语探测模块、黑名单模块、双语网页库模块和链接抽取器模块。本发明克服了现有技术领域的技术偏见,将互联网作为语料获取对象,通过应用本发明所描述的系统,可以有效地解决分布式系统资源的占有矛盾问题;可以为双语平行语料采集系统,提供一个通用的设计架构;可以不断动态的将非双语站点加入黑名单,能够高效的抓取互联网中双语平行语料;可以极大幅度的提高双语语料抓取的效率。

Description

一种面向web双语平行语料资源的分布式采集系统
技术领域
本发明涉及语料获取技术领域,具体涉及双语平行语料的分布式采集系统。
背景技术
统计机器翻译是机器翻译的方法之一,基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。
在统计机器翻译技术中,平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料,是建立高性能统计机器翻译系统的必要条件。
双语平行语料库的建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力。但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。
目前,双语平行语料采集系统大都存在爬取规模较小,获得语料渠道较少,爬取效率较低的问题。
发明内容
本发明提供了一种面向web双语平行语料资源的分布式采集系统,解决了现有系统爬取规模较小,获得语料渠道较少,爬取效率较低的问题。
本发明所述的面向web双语平行语料资源的分布式采集系统包括:
链接存储库模块,用于存储抓取任务中所包含的超链接;
筛选过滤器模块,从链接存储库模块中输入链接流,判断链接是否满足爬行条件;符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;
网页爬行器模块,由筛选过滤器模块中获得下载列表,然后对下载列表中的url链接对应的网页,从互联网上下载下来;
原始网页库模块,经网页爬行器模块下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块抓取的原始网页;
双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别,判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;
黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;
双语网页库模块,用于存储双语探测器模块获得的双语网页资源;
链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。
本发明中面向web双语平行语料资源的分布式采集系统,能够将已经判别的非双语的网站站点,在翻译语料采集过程中动态的加入黑名单,下次采集过程直接忽略,节省计算资源,提高双语资源抓取效率;一个待抓取的url链接,按照该链接所在的主机地址生成的哈希值进行散列,分配给不同的网页爬行器模块,达到分布式并行处理的效果。
本发明克服了现有技术领域的技术偏见,将互联网作为语料获取对象,通过应用本发明所描述的系统,可以有效地解决分布式系统资源的占有矛盾问题;可以为双语平行语料采集系统,提供一个通用的设计架构;可以不断动态的将非双语站点加入黑名单,能够高效的抓取互联网中双语平行语料;可以极大幅度的提高双语语料抓取的效率。
附图说明
图1为本发明所述的面向双语平行语料的分布式采集系统的工作原理示意图;
图2为本发明所述的面向双语平行语料的分布式采集系统中筛选过滤器模块和网页爬行器模块的工作原理示意图。
具体实施方式
具体实施方式一:本实施方式所述的面向web双语平行语料资源的分布式采集系统:
链接存储库模块,用于存储抓取任务中所包含的超链接;
筛选过滤器模块1,从链接存储库模块中输入链接流,判断链接是否满足爬行条件;符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;
网页爬行器模块2,由筛选过滤器模块1中获得下载列表,然后对下载列表中的url链接对应的网页,从互联网上下载下来;
原始网页库模块,经网页爬行器模块2下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块2抓取的原始网页;
双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别,判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;
黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;
双语网页库模块,用于存储双语探测器模块获得的双语网页资源;
链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。
如图1所示,本实施方式中链接存储库模块的信息来源于初始种子URL,初始种子UR用于激发原始信息。
本实施方式中筛选过滤器模块1(如图2所示),包括正则过滤器、域名提取器、黑名单过滤器和哈希分配器;
其中正则过滤器过滤规则包括通用的正则表达式,这些正则表达式由配置文件添加,在互联网上存在且明显不是双语站点的链接,经过本模块,所有不符合正则表达式的链接将被剔除,不再流入网页爬行器;
域名提取器提取url链接中的主域名;
黑名单过滤器判断域名提取器提取的主域名是否在黑名单中,如果存在,则将此链接丢弃。
哈希分配器对经由以上步骤处理得到的连接分配给某个网页爬行器,首先对链接提取主机名,然后进行哈希得到哈希值对爬行器数目进行取余来决定该任务分配给哪个网页爬行器。
本实施方式中网页爬行器模块2(如图2所示),其处理流程包含以下步骤:
1、输入为待抓取的一个链接任务列表;
2、对该任务列表进行排序,将具有相同主机的url链接尽量分散开来,对主机进行礼貌性访问;
3、访问dns缓存,获得主机所对应ip地址,若缓存不存在,访问dns服务器,并加入到缓存中;
4、多线程通过HTTP协议给服务器发送获取当前超链接所指定的网页实体的请求,将数据存储到原始网页数据库。
具体实施方式二:本实施方式是对具体实施方式一所述的链接存储库模块的进一步说明:用于存储维护一个大规模爬取的链接库,它包括网页的URL地址、抓取状态和爬取的时间。
本实施方式存储抓取的任务列表中的这些元信息来决定是否对一个链接进行抓取或增量式更新。
具体实施方式三:本实施方式是对具体实施方式一所述的筛选过滤器模块1的进一步说明:筛选过滤器模块1通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表;所述筛选的策略由自定义的过滤规则和黑名单规则构成;过滤规则包括通用的正则表达式,以及由黑名单提供的非双语的站点;从链接存储库模块中读出一条记录后,对其进行规则判断是否将其加入抓取列表,作为网页爬行器模块2的输入;另外一个功能,定期的对链接存储库模块进行更新,根据筛选过滤规则,剔除冗余无价值的链接,提高链接存储库质量。
本实施方式中已经判别的非双语的网站站点,在翻译语料采集过程中动态的加入黑名单,下次采集过程直接忽略,节省计算资源,提高双语资源抓取效率。
本实施方式中一个待抓取的url链接,按照该链接所在的主机地址生成的哈希值进行散列,分配给不同的网页爬行器模块2,达到分布式并行处理的效果。
具体实施方式四:本实施方式是对具体实施方式一所述的网页爬行器模块2的进一步说明:用于下载网页;各个网页爬行器模块2之间相互独立,多个网页爬行器模块2在同一时刻并行工作;所述网页爬行器模块2的个数由硬件所能承受的能力和网络环境条件所决定。
本实施方式中利用多个网页爬行器模块2在同一时刻并行工作,这样就极大的提高了采集效率,因为在同一时刻,若只有一个爬行器在下载网页,显然效率低下且不能达到实时性的要求。
具体实施方式五:本实施方式是对具体实施方式一所述的原始网页库模块的进一步说明:用于存储网页爬行器模块2下载的原始html网页,并记录原始网页的元信息,包括抓取时间、网页编码、网页类型,并且按照站点分类存储;网页爬行器模块2的输出都将下载的原始网页进行元信息抽取,然后存储到原始网页数据库模块中,并且作为双语探测器模块的输入。
具体实施方式六:本实施方式是对具体实施方式一所述的双语探测模块的进一步说明:通过对每个站点的网页进行正文提取,根据正文的编码值来判断正文是中文还是英文,根据字符数量计算正文长度,同时将正文所在的标签进行记录,若正文信息中同时包含相当规模的双语文本,则认为该网页为双语混合网页,并进行文本互译判断,判断是否为双语互译的混合网页,经过这些步骤,获得该站点是否为双语站点,对于不包含任何双语网页的站点,将其加入到黑名单模块中。
具体实施方式七:本实施方式是对具体实施方式一所述的黑名单模块的进一步说明:维护一个非双语站点的域名列表,如果域名不是一个双语的站点,则提取域名作为黑名单的一项;黑名单的内容供链接筛选过滤模块使用。
具体实施方式八:本实施方式是对具体实施方式一所述的双语网页库模块的进一步说明:用于存储从原始网页库模块中经双语探测器模块判别出来的双语网页信息,包含抓取时间和网页编码信息。
具体实施方式九:本实施方式是对具体实施方式一所述的链接抽取器模块的进一步说明:以双语网页库模块作为输入,从包含双语互译资源的网页中提取出超链。
本实施方式中链接到双语网页的几率远大于普通网页;而且抽取双语网页库模块而非抽取原始网页库模块,可以极大减轻系统的负载,节省大量计算资源和带宽,极大提高双语平行语料采集系统的效率。
本发明上述各实施方式所述的具体技术方案是对本发明所述技术方案的详细说明,不应理解为对本发明的限制。

Claims (9)

1.一种面向web双语平行语料资源的分布式采集系统,其特征在于,该系统包括:
链接存储库模块,用于存储抓取任务中所包含的超链接;
筛选过滤器模块(1),从链接存储库模块中输入链接流,判断链接是否满足爬行条件;符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;
网页爬行器模块(2),由筛选过滤器模块(1)中获得下载列表,然后对下载列表中的url链接对应的网页,从互联网上下载下来;
原始网页库模块,经网页爬行器模块(2)下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块(2)抓取的原始网页;
双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别,判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;
黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;
双语网页库模块,用于存储双语探测器模块获得的双语网页资源;
链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。
2.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的链接存储库模块的进一步限定:用于存储维护一个大规模爬取的链接库,它包括网页的URL地址、抓取状态和爬取的时间。
3.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的筛选过滤器模块(1)的进一步限定:筛选过滤器模块(1)通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表;所述筛选的策略由自定义的过滤规则和黑名单规则构成;过滤规则包括通用的正则表达式,以及由黑名单提供的非双语的站点;从链接存储库模块中读出一条记录后,对其进行规则判断是否将其加入抓取列表,作为网页爬行器模块(2)的输入;另外一个功能,定期的对链接存储库模块进行更新,根据筛选过滤规则,剔除冗余无价值的链接,提高链接存储库质量。
4.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的网页爬行器模块(2)的进一步限定:用于下载网页;各个网页爬行器模块(2)之间相互独立,多个网页爬行器模块(2)在同一时刻并行工作;所述网页爬行器模块(2)的个数由硬件所能承受的能力和网络环境条件所决定。
5.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的原始网页库模块的进一步限定:用于存储网页爬行器模块(2)下载的原始html网页,并记录原始网页的元信息,包括抓取时间、网页编码、网页类型,并且按照站点分类存储;网页爬行器模块(2)的输出都将下载的原始网页进行元信息抽取,然后存储到原始网页数据库模块中,并且作为双语探测器模块的输入。
6.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的双语探测模块的进一步限定:通过对每个站点的网页进行正文提取,根据正文的编码值来判断正文是中文还是英文,根据字符数量计算正文长度,同时将正文所在的标签进行记录,若正文信息中同时包含相当规模的双语文本,则认为该网页为双语混合网页,并进行文本互译判断,判断是否为双语互译的混合网页,经过这些步骤,获得该站点是否为双语站点,对于不包含任何双语网页的站点,将其加入到黑名单模块中。
7.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的黑名单模块的进一步限定:维护一个非双语站点的域名列表,如果域名不是一个双语的站点,则提取域名作为黑名单的一项;黑名单的内容供链接筛选过滤模块使用。
8.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的双语网页库模块的进一步限定:用于存储从原始网页库模块中经双语探测器模块判别出来的双语网页信息,包含抓取时间和网页编码信息。
9.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的链接抽取器模块的进一步限定:以双语网页库模块作为输入,从包含双语互译资源的网页中提取出超链。
CN2012104647134A 2012-11-16 2012-11-16 一种面向web双语平行语料资源的分布式采集系统 Pending CN103020043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104647134A CN103020043A (zh) 2012-11-16 2012-11-16 一种面向web双语平行语料资源的分布式采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104647134A CN103020043A (zh) 2012-11-16 2012-11-16 一种面向web双语平行语料资源的分布式采集系统

Publications (1)

Publication Number Publication Date
CN103020043A true CN103020043A (zh) 2013-04-03

Family

ID=47968660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104647134A Pending CN103020043A (zh) 2012-11-16 2012-11-16 一种面向web双语平行语料资源的分布式采集系统

Country Status (1)

Country Link
CN (1) CN103020043A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258032A (zh) * 2013-05-10 2013-08-21 清华大学 平行网页获取方法及装置
CN103646117A (zh) * 2013-12-27 2014-03-19 苏州大学 一种基于链接的双语平行网页识别方法及系统
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104933193A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉马双语平行语料自动采集的系统及实现方法
CN104933195A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉缅双语平行语料自动采集的系统及实现方法
CN104933194A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉越双语平行语料自动采集的系统及实现方法
CN104933192A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉菲双语平行语料自动采集的系统及实现方法
CN104965925A (zh) * 2015-07-13 2015-10-07 广西达译商务服务有限责任公司 汉高双语平行语料自动采集的系统及实现方法
CN105045862A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉外双语平行语料自动采集的系统及实现方法
CN105045861A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉印双语平行语料自动采集的系统及实现方法
CN105138548A (zh) * 2015-07-13 2015-12-09 广西达译商务服务有限责任公司 汉泰双语平行语料自动采集的系统及实现方法
CN105574066A (zh) * 2015-10-23 2016-05-11 青岛恒波仪器有限公司 网页正文提取比对方法及其系统
WO2020024403A1 (zh) * 2018-08-03 2020-02-06 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN111368561A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 平行语料获取方法、装置、电子设备、及存储介质
CN112818212A (zh) * 2020-04-23 2021-05-18 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN113536086A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 模型训练方法、账号评分方法、装置、设备、介质和产品
CN113810414A (zh) * 2021-09-17 2021-12-17 平安普惠企业管理有限公司 移动客户端域名过滤方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236725A1 (en) * 2003-05-19 2004-11-25 Einat Amitay Disambiguation of term occurrences
US20060195435A1 (en) * 2005-02-28 2006-08-31 Microsoft Corporation System and method for providing query assistance
CN101216836A (zh) * 2007-12-29 2008-07-09 腾讯科技(深圳)有限公司 一种网页锚文本去噪系统及方法
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236725A1 (en) * 2003-05-19 2004-11-25 Einat Amitay Disambiguation of term occurrences
US20060195435A1 (en) * 2005-02-28 2006-08-31 Microsoft Corporation System and method for providing query assistance
CN101216836A (zh) * 2007-12-29 2008-07-09 腾讯科技(深圳)有限公司 一种网页锚文本去噪系统及方法
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林业: "基于WEB的汉英双语语料获取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 8, 15 August 2012 (2012-08-15) *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258032A (zh) * 2013-05-10 2013-08-21 清华大学 平行网页获取方法及装置
CN103646117A (zh) * 2013-12-27 2014-03-19 苏州大学 一种基于链接的双语平行网页识别方法及系统
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104408078B (zh) * 2014-11-07 2019-02-12 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN105138548A (zh) * 2015-07-13 2015-12-09 广西达译商务服务有限责任公司 汉泰双语平行语料自动采集的系统及实现方法
CN104933194A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉越双语平行语料自动采集的系统及实现方法
CN104933192A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉菲双语平行语料自动采集的系统及实现方法
CN104965925A (zh) * 2015-07-13 2015-10-07 广西达译商务服务有限责任公司 汉高双语平行语料自动采集的系统及实现方法
CN105045862A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉外双语平行语料自动采集的系统及实现方法
CN105045861A (zh) * 2015-07-13 2015-11-11 广西达译商务服务有限责任公司 汉印双语平行语料自动采集的系统及实现方法
CN104933195A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉缅双语平行语料自动采集的系统及实现方法
CN104933193A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉马双语平行语料自动采集的系统及实现方法
CN105574066A (zh) * 2015-10-23 2016-05-11 青岛恒波仪器有限公司 网页正文提取比对方法及其系统
WO2020024403A1 (zh) * 2018-08-03 2020-02-06 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN111368561A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 平行语料获取方法、装置、电子设备、及存储介质
US11379664B2 (en) 2020-02-28 2022-07-05 Beijing Bytedance Network Technology Co., Ltd. Method for acquiring a parallel corpus, electronic device, and storage medium
CN112818212A (zh) * 2020-04-23 2021-05-18 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN112818212B (zh) * 2020-04-23 2023-10-13 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN113536086A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 模型训练方法、账号评分方法、装置、设备、介质和产品
CN113536086B (zh) * 2021-06-30 2023-07-14 北京百度网讯科技有限公司 模型训练方法、账号评分方法、装置、设备、介质和产品
CN113810414A (zh) * 2021-09-17 2021-12-17 平安普惠企业管理有限公司 移动客户端域名过滤方法、装置、电子设备及存储介质
CN113810414B (zh) * 2021-09-17 2022-10-11 平安普惠企业管理有限公司 移动客户端域名过滤方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103020043A (zh) 一种面向web双语平行语料资源的分布式采集系统
CN107025296B (zh) 基于科技服务信息智能抓取系统数据收集方法
CN109033115B (zh) 一种动态网页爬虫系统
CN100559374C (zh) 网页信息单元截取、合并的方法
CN103927370B (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN104077402B (zh) 数据处理方法和数据处理系统
CN101650715B (zh) 一种筛选网页上链接的方法和装置
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN105447081A (zh) 面向云平台的一种政务舆情监控方法
CN104516982A (zh) 一种基于Nutch的Web信息提取方法和系统
CN104077377A (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN103279476B (zh) 一种web应用系统敏感文字的检测方法及系统
Gunawan et al. Improving data collection on article clustering by using distributed focused crawler
CN103530336A (zh) 统一资源定位符url中无效参数的识别设备及方法
CN105808722A (zh) 一种信息判别方法和系统
Di Giovanni et al. VaccinEU: COVID-19 vaccine conversations on Twitter in French, German and Italian
CN102073678B (zh) 一种网站信息分析系统及其方法
CN102004805B (zh) 基于最大相似性匹配的网页去噪系统及其去噪方法
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN103927367A (zh) 基于事件的微博采集系统及方法
CN103354546A (zh) 报文过滤方法与装置
CN105975599A (zh) 一种监测网站的页面埋点的方法和装置
CN105426407A (zh) 一种基于内容分析的web数据采集方法
CN102929948B (zh) 列表页识别系统及方法
CN102819613B (zh) Rss信息分页抓取系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130403