CN112231320B - 基于MapReduce算法的web数据采集方法、系统和存储介质 - Google Patents

基于MapReduce算法的web数据采集方法、系统和存储介质 Download PDF

Info

Publication number
CN112231320B
CN112231320B CN202011107082.1A CN202011107082A CN112231320B CN 112231320 B CN112231320 B CN 112231320B CN 202011107082 A CN202011107082 A CN 202011107082A CN 112231320 B CN112231320 B CN 112231320B
Authority
CN
China
Prior art keywords
data
item
task
hash table
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011107082.1A
Other languages
English (en)
Other versions
CN112231320A (zh
Inventor
董志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing College of Information Technology
Original Assignee
Nanjing College of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing College of Information Technology filed Critical Nanjing College of Information Technology
Priority to CN202011107082.1A priority Critical patent/CN112231320B/zh
Publication of CN112231320A publication Critical patent/CN112231320A/zh
Application granted granted Critical
Publication of CN112231320B publication Critical patent/CN112231320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于MapReduce算法的web数据采集方法、系统和存储介质,属于互联网数据处理技术领域,该web数据采集方法包括接收爬虫采集节点传送的网页数据经协议封装而成的数据包;解析所述数据包,对解析后的数据包进行Map操作构建哈希表;向文件导出节点发送所述哈希表,以便于文件导出节点对所述哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中。本发明能够借助分布式架构的微服务技术,对数据处理由不同的节点承担,并通过MapReduce算法的Map操作和Reduce操作对采集的数据进行处理,其数据结构灵活性强,数据采集效率高,采集方法部署简单和扩展性强。

Description

基于MapReduce算法的web数据采集方法、系统和存储介质
技术领域
本发明涉及互联网数据处理技术领域,尤其涉及一种基于MapReduce算法的web数据采集方法、系统和存储介质。
背景技术
随着5G技术的普及与应用,各行业产生的海量数据将成为智能计算、智慧应用的产业基础,大数据技术可以海量数据进行采集、清洗、存储、数据标注和建模,并通过人工智能技术及软件技术进行设计开发,形成智能化应用系统,从而构建出各种智慧应用场景。在此过程中,对海量数据进行采集已成为大数据产业发展的一个基础性工作,其中,如何构建扩展性强、采集效率高且部署简单的web数据采集方法和系统等成为上述基础性工作中非常重要的一环。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于MapReduce算法的web数据采集方法、系统和存储介质,能够使数据采集部署简单、扩展性强,获得稳定、准确的数据采集结果。
为达到上述目的,本发明是采用下述技术方案实现的:
一方面,本发明提供了一种基于MapReduce算法的web数据采集方法,该方法包括如下步骤:
接收爬虫采集节点传送的网页数据经协议封装而成的数据包;
解析所述数据包,对解析后的数据包进行Map操作构建哈希表;
向文件导出节点发送所述哈希表,以便于文件导出节点对所述哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中。
进一步的,所述数据包包括数据头和数据体;
所述数据头包括魔数区,任务编号,网站类型,子网站类型和数据包长度;
所述数据体包括若干Item数据,所述Item数据由所述网页数据按字段名称,字段长度和字段数据的格式封装而成。
进一步的,对解析后的数据包进行Map操作构建哈希表的方法包括如下步骤:
解析数据头获得任务编号、网站类型、子网站类型、数据包长度;
解析数据体中的Item数据,并将Item数据转变为key-value数据结构;
将所有的Item数据对应的key-value数据结构组装成Item哈希表;
根据获取的网站类型、子网站类型和Item哈希表构建Task哈希表;
根据获取的任务编号和Task哈希表创建Event消息体。
进一步的,所述Item数据结构表示为:
<字段名称,字段长度,字段数据>;
所述Item哈希表结构表示为:
<<<Item_key1,Item_value1>,<Item_key2,Item_value2>,……>>,其中,Item_key1、Item_key2表示字段名称,Item_value1、Item_value2表示字段数据;
所述Task哈希表结构表示为:
<Task_key,Task_value>,
其中,Task_key为网站类型和子网站类型的组合,Task_value为Item哈希表;
所述Event消息体结构为:
<Event_key,Event_value>,
其中,Event_key为任务编号,Event_value为Task哈希表。
进一步的,对所述哈希表进行Reduce操作获得同一网站的汇总数据集合的方法包括如下步骤:
文件导出节点解析Event消息体获取所对应的Task哈希表,并判断不同Event消息体所对应的Task哈希表的主键信息是否一致:
若一致,则合并主键信息相一致的Task哈希表并删除Task哈希表中重复的Item数据,形成相同主键信息的汇总数据集合;
若不一致,则不进行合并处理。
第二方面,本发明提供了一种web数据采集系统,所述采集系统包括多个爬虫采集节点,每个所述爬虫采集节点信号连接多个数据解码节点,每个所述数据解码节点信号连接多个文件导出节点;
所述爬虫采集节点,用于对获取的网页数据进行协议封装形成数据包,并将所述数据包传送给所述数据解码节点;
所述数据解码节点,用于解析数据包并对解析后的数据包进行Map操作构建哈希表,并将所述哈希表传送给文件导出节点;
所述文件导出节点,用于对所述哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中。
进一步的,所述爬虫采集节点包括Spider子模块和Pipeline子模块;
所述Spider子模块,用于读取指定配置文件,获得指定网站的目标网站列表信息,并根据所述目标站列表信息创建相对应的任务编号,所述目标网站列表信息包括网站url地址、网站类型和子网站类型;以及向指定网站发起HTTP请求,获得并解析HTML网页获得指定网页数据;
所述Pipeline子模块,用于根据所述目标网站列表信息和所述指定网页数据构建包括数据体和数据头的数据包。
进一步的,所述数据解码节点包括Decoder解码器子模块和Handler数据处理子模块;
所述Decoder解码器子模块,用于解析所述数据包,并将获得的数据体和数据头保存至缓冲区;
所述Handler数据处理子模块,用于解析缓冲区的数据体和数据头,并根据解析结果依次构建包含Item哈希表和Task哈希表的Event消息体。
进一步的,所述文件导出节点包括shuffle子模块和文件管理子模块;
所述shuffle子模块,用于解析Event消息体获取所对应的Task哈希表,并判断不同Event消息体所对应的Task哈希表的主键信息是否一致:
若一致,则合并主键信息相一致的Task哈希表并删除Task哈希表中重复的Item数据,形成相同主键信息的汇总数据集合;若不一致,则不进行合并处理;
所述文件管理子模块,用于将汇总数据集合中每一个Item数据转换为“key:value”格式的字符串,并保存到文件中。
进一步的,所述Handler数据处理子模块将所述Event消息体发送至EventBus队列中,所述shuffle子模块监听所述EventBus队列并获得Event消息体。
第三方面,本发明提供了一种web数据采集系统,包括处理器及存储介质;所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面中任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
(1)借助分布式架构的微服务技术,对数据采集、数据结构化、数据汇总等由不同的节点承担,并通过MapReduce算法的Map操作和Reduce操作对采集的网页数据进行解析、结构化、汇总和保存处理,方法简单、扩展性强,且能对同一网站的数据进行汇总;
(2)通过封装协议构建包含数据头和数据体的数据包,使数据组织结构化,便于Map操作和Reduce操作,形成哈希表以获得汇总数据集合,满足大规模Web数据采集的需要。
附图说明
图1是本发明实施例提供的一种web数据采集系统的结构示意图;
图2是本发明实施例提供的一种web数据采集系统各节点的结构框图;
图3是本发明实施例提供的一种经协议封装的数据包数据结构示意图;
图4是本发明实施例提供的一种基于MapReduce算法的web数据采集方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
实施例一:
如图1所示,本发明提供了一种Web数据采集系统,该系统包括爬虫采集节点、数据解码节点和文件导出节点。
爬虫采集节点负责向指定网站发起HTTP请求,模拟浏览器对网站的访问,获取HTML网页,对网页内容进行解析,提取指定的网页数据,并将网页数据按指定数据格式协议进行封装,并将封装后的数据包发送到数据解码节点;
数据解码节点对数据包进行解码和组装,形成完整的数据集合;
文件导出节点将数据集合进行汇总处理,并导出到指定文件中。
如图1所示,Web数据采集系统包括多个爬虫采集节点,每一个爬虫采集节点可信号连接多个数据解码节点,每一个数据解码节点可信号连接多个文件导出节点。
其中,爬虫采集节点使用scrapy框架实现,数据解码节点使用netty框架实现,数据导出模块和EventBus队列使用guava框架实现。
如图2所示,爬虫采集节点包括Spider子模块和Pipeline子模块,在数据采集过程中Spider子模块和Pipeline子模块的功能如下:
爬虫采集节点启动Spider子模块,重写start_requests方法,在该方法中读取csv配置文件,获得目标网站列表website_list,其中,目标网站列表website_list中的每一个元素包括目标网站url、网站类型website_type和子网站类型subwebsite_type等信息。
根据目标网站列表信息利用start_requests方法为每一个目标网站url分配一个全局唯一的任务编号Task_id。
目标网站列表website_list信息直接从配置文件中获得,这个配置文件已预先配置好目标网站url、网站类型website_type、子网站类型subwebsite_type信息。
比如,配置文件可以是一个csv的文件,该csv文件的内容举例如下:
url,website_type,subwebsite_type;
www.58.com,本地生活类,信息分类;
www.guazi.com,本地生活类,二手车交易。
任务编号Task_id是spider子模块读取以上csv配置文件后,为csv的每一条数据动态创建一个任务编号Task_id;比如以上csv文件有2条数据,spider子模块获得第一条数据后,知道要爬取目标网站url:www.58.com,则给这个爬取任务动态生成一个任务编号Task_id,例如0x45254。
爬虫采集节点重写scrapy.Spider对象的parse方法,创建DetailItem对象,首先将网站类型website_type、子网站类型subwebsite_type和任务编号Task_id保存到DetailItem中,然后通过XPath和正则表达式解析网页中的数据,并将解析到的网页数据也保存在DetailItem对象中。
爬虫采集节点在scrapy中注册Pipeline子模块,并在process_Item方法中获得DetailItem对象,然后将DetailItem对象中的网页数据按照字段名称Item_name、字段长度Item_len、字段数据Item_data的方式封装为Item数据,Item数据的格式如图3所示。
其中,字段名称Item_name的长度是固定值,当Item_name存储的数据超过固定值,则超出的部分将被截取,当Item_name存储的数据未超过固定值时,系统在数据的末尾自动添加若干空格,使数据的长度刚好等于固定值。
利用process_Item方法创建缓冲区,首先创建数据头,根据DetailItem对象中的数据,分别填写数据头的网站类型website_type、子网站类型subwebsite_type、任务编号Task_id字段和魔数区magic_num字段,数据头的结构格式如图3所示。
然后,将每个Item数据拼接为数据体,并计算数据体的长度len,最后将数据体的长度len填写到数据头的数据包长度content_len字段,形成完整的数据包,如图2所示。其中,魔数区magic_num字段为固定值0xEFEADBAB,其作用是方便数据解码节点定位到数据包的起始位置。
最后,利用process_Item方法向指定的数据解码节点的指定端口发送TCP请求,将数据包发送给数据解码节点。
作为本发明的一种实施例,如图3所示,本发明提供了一种数据包,其数据格式具体如下所述。
数据头按照格式[魔数区magic_num,任务编号Task_id,网站类型website_type,子网站类型subwebsite_type,数据包长度content_len]构成。
其中,魔数区magic_num为固定值0xEFEADBAB,用于确定数据包的起始位置,任务编号Task_id为通用唯一识别码(Universally Unique Identifier),由系统随机生成,用于标识不同的爬虫任务。
网站类型website_type表示爬取的web网站的类型,比如新闻类、电商类、社交类等。
网站名称website_name表示爬取的web网站名称,比如新浪、58等。
数据包长度content_len表示数据体的长度。
数据体由若干Item数据组成,每个Item数据按照格式[字段名称Item_name,字段长度Item_len,字段数据Item_data]构成。
其中,每个Item数据表示一条提取的指定网页数据,比如爬虫采集节点爬取到某网站上大华公司发布的一条招聘信息,则字段名称Item_name为“招聘公司”,字段数据Item_data为“大华公司”,字段长度Item_len为“大华公司”字符串的长度。
每一个Item数据都可以转换为key-value的结构,比如将上述招聘信息的Item数据转换为:<“招聘公司”,“大华公司”>。
字段名称Item_name的长度是固定值,当字段名称Item_name存储的数据超过固定值,则超出的部分将被截取,当字段名称Item_name存储的数据未超过固定值时,系统在数据的末尾自动添加若干空格,使数据的长度刚好等于固定值。
如图2所示,数据解码节点包括Decoder解码器子模块和Handler数据处理子模块,在数据采集过程中Decoder解码器子模块和Handler数据处理子模块的功能如下:
首先,数据解码节点启动TCP服务器,在指定的端口监听TCP连接请求,获取发自爬虫采集节点的数据包,由于每一个数据解码节点同若干个爬虫采集节点信号连接,因此,数据解码节点可接收来自不同爬虫采集节点的多个数据包。
然后,数据解码节点注册Decoder解码器子模块,该解码器读取ByteBuf中的数据,读取到0xEFEADBAB值后,认为已定位到数据包的起始位置,则进一步读取任务编号Task_id,网站类型website_type,子网站类型subwebsite_type,数据包长度content_len等字段。
Decoder解码器子模块根据数据包长度content_len创建临时缓冲区,将数据体的数据读取到临时缓冲区中;并在临时缓冲区接收到了完整的数据体后,将数据头和数据体发送给Handler数据处理子模块。
Handler数据处理子模块接收Decoder解码器子模块发送的数据头和数据体后,分别解析数据头和数据体。
首先,从数据头中解析任务编号Task_id、网站类型website_type和子网站类型subwebsite_type等数据。
再将数据体中的Item数据解析出来,然后对Item数据执行map操作,将其转变为key-value结构,并将所有的Item数据对应的key-value结构组装成Item哈希表,其中,Item哈希表由<<Item_key1,Item_value1>,<Item_key2,Item_value2>,……>构成,Item_key1、Item_key2表示字段名称,Item_value1、Item_value2表示字段数据。
然后,Handler数据处理子模块创建Task哈希表,其中,Task哈希表的主键key由网站类型website_type+子网站类型subwebsite_type组合构成,Task哈希表的value为Item哈希表,其数据格式可表示为:<Task_key,Task_value>,其中,Task_key为网站类型和子网站类型的组合,Task_value为上述Item哈希表,本发明实施例中一个Task哈希表代表一个特定网站所有指定数据的集合。
Handler数据处理子模块根据Task哈希表创建包含同一任务下所有数据的Event消息体,该Event消息体为哈希表,由<任务编号Task_id,Task哈希表>构成,数据格式表示为:<Event_key,Event_value>,其中,Event_key为任务编号Task_id,Event_value为Task哈希表。
最后,数据解析模块将上述Event消息体发送到EventBus队列中,等待文件导出节点的监听接收。
如图2所示,文件导出节点包括shuffle子模块和文件管理子模块,在数据采集过程中shuffle子模块和文件管理子模块的功能如下:
首先,shuffle子模块监听EventBus队列并接收Event消息体,由于每一个文件导出节点和若干个数据解码节点信号连接,因此,shuffle子模块可以监听接收发自若干个数据解码节点的多个Event消息体。
例如,接收Event消息体1,解析Event消息体中1的任务编号Task_id1和Task哈希表1,并将Task哈希表1保存到临时缓冲区中;
接收Event消息体2,解析Event消息体中2的任务编号Task_id2和Task哈希表2。
然后,shuffle子模块分别对Task哈希表1和Task哈希表2执行Redcue操作,分别获得Task哈希表1和Task哈希表2的主键key,并比较主键key是否一致。
如果一致,则表示这两个Task哈希表保存的是同一个网站的Item数据。此时分别将Task哈希表1和Task哈希表2中主键key对应的Item哈希表取出,再将Task哈希表1和Task哈希表2的Item哈希表分别转换为对应的集合,并对这两个集合进行合并操作,删除重复的Item数据,形成相同主键key所对应的完整的汇总数据集合。
如果不一致,则不进行合并处理。
最后,文件管理子模块将汇总数据集合中每一个Item数据都转换为“key:value”字符串,在指定的目录下创建文件,将所有的“key:value”字符串保存到文件中。
实施例二:
本发明实施例提供了一种基于MapReduce算法的web数据采集方法,该web数据采集方法基于微服务技术、网络爬虫技术以及MapReduce算法。
微服务技术是一种分布式架构,数据处理如采集、MapReduce的Map(映射)操作和Reduce(归约)操作等由不同的节点承担。其中,爬虫采集节点用于采集网页数据并将网页数据协议封装为数据包,数据解码节点用于解析数据包,并构建哈希表,文件导出节点用于对哈希表进行汇总处理;
具体地,一个爬虫采集节点可以信号连接多个数据解码节点,一个数据解码节点可以信号连接多个文件导出节点,从而实现数据的多元化处理。
如图3所示,该web数据采集方法包括如下步骤:
步骤一:接收爬虫采集节点传送的网页数据经协议封装而成的数据包;
步骤二:解析获取的数据包,对解析后的数据包进行Map操作构建哈希表;
步骤三:向文件导出节点发送构建好的哈希表,以便于文件导出节点对哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中。
在步骤一中,爬虫采集节点获取网页数据的方法包括读取指定配置文件,获得指定网站的目标网站列表信息和任务编号,根据获取的上述目标网站列表信息向指定网站发起HTTP请求,获得并解析HTML网页获得指定网页数据,具体操作如下:
首先,爬虫采集节点读取指定配置文件,获得指定网站的URL地址列表和任务编号Task_id;
再向指定网站发起HTTP请求,获得HTML网页,使用xpath、正则表达式等技术解析网页内容,获得指定的网页数据;
然后,将采集到的网页数据封装到若干Item数据中,并将这些Item数据拼接为数据体,并计算出数据体的长度;填写网站类型website_type、子网站类型subwebsite_type字段和数据包长度content_len字段,生成相应的数据头。
如图3所示,将生成的数据头和数据体拼接成完整的数据包,数据包包括数据头和数据体;数据头包括魔数区,任务编号,网站类型,子网站类型和数据包长度;数据体包括若干Item数据,Item数据由所述网页数据按字段名称,字段长度和字段数据的格式封装而成。具体的,Item数据结构表示为:<字段名称,字段长度,字段数据>。
最后,向数据解码节点发起TCP连接,将数据包发送给数据解码节点。
在步骤二中,解析获取的数据包,对解析后的数据包进行Map操作构建哈希表的具体操作如下。
首先,数据解码节点收到若干数据包,并解析出对应的数据头和数据体的相关信息。
其中,解析数据头获得任务编号Task_id、网站类型website_type、子网站类型subwebsite_type、数据包长度content_len等字段。
对数据体执行map操作,将数据体中的Item数据解析出来,转变为key-value结构,将所有的Item数据对应的key-value结构组装成Item哈希表,其中,Item哈希表结构表示为:
<<<Item_key1,Item_value1>,<Item_key2,Item_value2>,……>>,其中,Item_key1、Item_key2表示字段名称,Item_value1、Item_value2表示字段数据。
数据解析节点根据创建的Item哈希表创建Task哈希表,该Task哈希表的主键key由网站类型website_type+子网站类型subwebsite_type组合构成,Task哈希表的value为Item哈希表。具体的,Task哈希表结构表示为:
<Task_key,Task_value>,
其中,Task_key为网站类型和子网站类型的组合,Task_value为Item哈希表,本发明实施例中一个Task哈希表代表一个特定网站所有指定数据的集合。
数据解析节点根据Task哈希表创建Event消息体,Event消息体为哈希表,包含了同一个任务下的所有网页数据,具体的,Event消息体结构为:
<Event_key,Event_value>,
其中,Event_key为任务编号,Event_value为Task哈希表。
最后,数据解析节点将Event消息体发送到EventBus队列中,EventBus队列是一个基于观察者模式实现的消息中间件,用于线程间的通讯。
在步骤三中,对所述哈希表进行Reduce操作获得同一网站的汇总数据集合的方法包括如下步骤:
文件导出节点监听EventBus队列获得Event消息体;
文件导出节点解析Event消息体获取所对应的Task哈希表和对应的Item数据,并判断不同Event消息体所对应的Task哈希表的主键信息是否一致:
若一致,则合并主键信息相一致的Task哈希表并删除Task哈希表中重复的Item数据,形成相同主键信息的汇总数据集合;
若不一致,则不进行合并处理。
最后,文件导出节点将形成的汇总数据集合导出到指定的文件中。
需要说明的是,本发明的web数据采集方法中多个爬虫采集节点可以采集不同任务下的不同网站的各类信息,构成海量数据的数据来源;多个爬虫采集节点分别同多个数据解码节点信号连接,可理解为每个爬虫采集节点可以传送数据包至多个数据解码节点,每个数据解码节点可以接收来自多个不同爬虫采集节点传送的数据包;同理,每个数据解码节点可以向多个不同的文件导出节点传送哈希表,而每个文件导出节点同样可以接收来自多个不同数据解码节点的哈希表,并进行汇总导出。
实施例三:
本发明提供了一种web数据采集系统,包括处理器及存储介质;其中,存储介质用于存储指令;处理器用于根据存储指令进行操作以执行实施例二中所述方法的步骤。
实施例四:
本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例二中所述方法的步骤。
综上可知,本发明提供的基于MapReduce算法的web数据采集方法、系统和存储介质能够借助分布式架构的微服务技术,并且对于互联网海量数据的数据采集、数据结构化、数据筛选汇总等处理过程由不同的模块或节点承担,通过MapReduce算法的Map操作和Reduce操作对采集到的网页数据进行数据解析、哈希表结构化、特定数据的筛选汇总和保存处理,实现对同一网站的数据的汇总导出,方法简单、扩展性强,适应多种应用场景;
通过封装协议构建包含数据头和数据体的数据包,数据包结构简单,使数据组织结构化,便于Map操作和Reduce操作,形成综合网页各类数据的哈希表以获得不同任务下同一网站的汇总数据集合,能够满足大规模Web数据采集的需要。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.基于MapReduce算法的web数据采集方法,其特征在于,该方法包括如下步骤:
接收爬虫采集节点传送的网页数据经协议封装而成的数据包;
解析所述数据包,对解析后的数据包进行Map操作构建哈希表;
向文件导出节点发送所述哈希表,以便于文件导出节点对所述哈希表进行Reduce操作获得同一网站的汇总数据集合并将获得的汇总数据集合导出到文件中;
所述数据包包括数据头和数据体;
所述数据头包括魔数区,任务编号,网站类型,子网站类型和数据包长度;
所述数据体包括若干Item数据,所述Item数据由所述网页数据按字段名称,字段长度和字段数据的格式封装而成;
对解析后的数据包进行Map操作构建哈希表的方法包括如下步骤:
解析数据头获得任务编号、网站类型、子网站类型、数据包长度;
解析数据体中的Item数据,并将Item数据转变为key-value数据结构;
将所有的Item数据对应的key-value数据结构组装成Item哈希表;
根据获取的网站类型、子网站类型和Item哈希表构建Task哈希表;
根据获取的任务编号和Task哈希表创建Event消息体。
2.根据权利要求1所述的基于MapReduce算法的web数据采集方法,其特征在于,
所述Item数据结构表示为:
<字段名称,字段长度,字段数据>;
所述Item哈希表结构表示为:
<<<Item_key1,Item_value1>,<Item_key2,Item_value2>,……>>,其中,Item_key1、Item_key2表示字段名称,Item_value1、Item_value2表示字段数据;
所述Task哈希表结构表示为:
<Task_key,Task_value>,
其中,Task_key为网站类型和子网站类型的组合,Task_value为Item哈希表;
所述Event消息体结构为:
<Event_key,Event_value>,
其中,Event_key为任务编号,Event_value为Task哈希表。
3.根据权利要求2所述的基于MapReduce算法的web数据采集方法,其特征在于,对所述哈希表进行Reduce操作获得同一网站的汇总数据集合的方法包括如下步骤:
文件导出节点解析Event消息体获取所对应的Task哈希表,并判断不同Event消息体所对应的Task哈希表的主键信息是否一致:
若一致,则合并主键信息相一致的Task哈希表并删除Task哈希表中重复的Item数据,形成相同主键信息的汇总数据集合;
若不一致,则不进行合并处理。
4.一种web数据采集系统,其特征在于,所述采集系统包括多个爬虫采集节点,每个所述爬虫采集节点信号连接多个数据解码节点,每个所述数据解码节点信号连接多个文件导出节点;
所述爬虫采集节点,用于对获取的网页数据进行协议封装形成数据包,并将所述数据包传送给所述数据解码节点;
所述数据解码节点,用于解析数据包并对解析后的数据包进行Map操作构建哈希表,并将所述哈希表传送给文件导出节点;
所述文件导出节点,用于对所述哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中;
所述数据包包括数据头和数据体;
所述数据头包括魔数区,任务编号,网站类型,子网站类型和数据包长度;
所述数据体包括若干Item数据,所述Item数据由所述网页数据按字段名称,字段长度和字段数据的格式封装而成;
对解析后的数据包进行Map操作构建哈希表的方法包括如下步骤:
解析数据头获得任务编号、网站类型、子网站类型、数据包长度;
解析数据体中的Item数据,并将Item数据转变为key-value数据结构;
将所有的Item数据对应的key-value数据结构组装成Item哈希表;
根据获取的网站类型、子网站类型和Item哈希表构建Task哈希表;
根据获取的任务编号和Task哈希表创建Event消息体。
5.根据权利要求4所述的web数据采集系统,其特征在于,所述爬虫采集节点包括Spider子模块和Pipeline子模块;
所述Spider子模块,用于读取指定配置文件,获得指定网站的目标网站列表信息,并根据所述目标站列表信息创建相对应的任务编号,所述目标网站列表信息包括网站URL地址、网站类型和子网站类型;以及向指定网站发起HTTP请求,获得并解析HTML网页获得指定网页数据;
所述Pipeline子模块,用于根据所述目标网站列表信息和所述指定网页数据构建包括数据体和数据头的数据包。
6.根据权利要求5所述的web数据采集系统,其特征在于,所述数据解码节点包括Decoder解码器子模块和Handler数据处理子模块;
所述Decoder解码器子模块,用于解析所述数据包,并将获得的数据体和数据头保存至缓冲区;
所述Handler数据处理子模块,用于解析缓冲区的数据体和数据头,并根据解析结果依次构建包含Item哈希表和Task哈希表的Event消息体。
7.根据权利要求6所述的web数据采集系统,其特征在于,所述文件导出节点包括shuffle子模块和文件管理子模块;
所述shuffle子模块,用于接收和解析Event消息体获取所对应的Task哈希表,并判断不同Event消息体所对应的Task哈希表的主键信息是否一致:
若一致,则合并主键信息相一致的Task哈希表并删除Task哈希表中重复的Item数据,形成相同主键信息的汇总数据集合;若不一致,则不进行合并处理;
所述文件管理子模块,用于将汇总数据集合中每一个Item数据转换为“key:value”格式的字符串,并保存到文件中。
8.根据权利要求7所述的web数据采集系统,其特征在于,所述Handler数据处理子模块将所述Event消息体发送至EventBus队列中,所述shuffle子模块监听所述EventBus队列并获得Event消息体。
9.一种web数据采集系统,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~3任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~3任一项所述方法的步骤。
CN202011107082.1A 2020-10-16 2020-10-16 基于MapReduce算法的web数据采集方法、系统和存储介质 Active CN112231320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011107082.1A CN112231320B (zh) 2020-10-16 2020-10-16 基于MapReduce算法的web数据采集方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011107082.1A CN112231320B (zh) 2020-10-16 2020-10-16 基于MapReduce算法的web数据采集方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN112231320A CN112231320A (zh) 2021-01-15
CN112231320B true CN112231320B (zh) 2024-02-20

Family

ID=74118740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011107082.1A Active CN112231320B (zh) 2020-10-16 2020-10-16 基于MapReduce算法的web数据采集方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN112231320B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011143B (zh) * 2021-03-11 2023-06-27 南京信息职业技术学院 一种基于RPA的Word文档智能填报系统及其方法
CN113011142B (zh) * 2021-03-11 2023-06-27 南京信息职业技术学院 一种基于RPA的Excel文档智能填报系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629219A (zh) * 2012-02-27 2012-08-08 北京大学 并行计算框架中的Reduce端自适应负载均衡方法
CN109284430A (zh) * 2018-09-07 2019-01-29 杭州艾塔科技有限公司 基于分布式架构的可视化主题网页内容爬取系统及方法
CN109740037A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 多源、异构流态大数据分布式在线实时处理方法及系统
CN109829094A (zh) * 2019-01-23 2019-05-31 钟祥博谦信息科技有限公司 分布式爬虫系统
CN111460255A (zh) * 2020-03-26 2020-07-28 第一曲库(北京)科技有限公司 一种音乐作品信息数据采集及存储方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629219A (zh) * 2012-02-27 2012-08-08 北京大学 并行计算框架中的Reduce端自适应负载均衡方法
CN109284430A (zh) * 2018-09-07 2019-01-29 杭州艾塔科技有限公司 基于分布式架构的可视化主题网页内容爬取系统及方法
CN109740037A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 多源、异构流态大数据分布式在线实时处理方法及系统
CN109829094A (zh) * 2019-01-23 2019-05-31 钟祥博谦信息科技有限公司 分布式爬虫系统
CN111460255A (zh) * 2020-03-26 2020-07-28 第一曲库(北京)科技有限公司 一种音乐作品信息数据采集及存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用分布式哈希表构建带副本的检查点;李学峰;;小型微型计算机系统(第08期);全文 *
基于Scrapy的赌博网站数据采集与分析;付顺顺;;网络安全技术与应用(第06期);全文 *

Also Published As

Publication number Publication date
CN112231320A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112231320B (zh) 基于MapReduce算法的web数据采集方法、系统和存储介质
US6757678B2 (en) Generalized method and system of merging and pruning of data trees
CN102361484B (zh) 被动网络性能测量系统及其页面识别方法
CN106982150B (zh) 一种基于Hadoop的移动互联网用户行为分析方法
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
TWI592807B (zh) Method and device for web style address merge
CN112383533B (zh) 报文格式转换方法及装置
CN106209431A (zh) 一种告警关联方法及网管系统
CN110912782B (zh) 一种数据采集方法、装置及存储介质
CN109766352A (zh) 一种对异构数据源统一处理的方法及系统
CN103488696B (zh) Cpe的业务查询方法、装置及系统、acs和cpe
CN111400378A (zh) 基于ElasticSearch的日志实时显示方法、装置、计算机设备和介质
CN114817968B (zh) 无特征数据的路径追溯方法、装置、设备及存储介质
CN113259467A (zh) 一种基于大数据的网页资产指纹标签识别与发现方法
CN110830466B (zh) 一种基于xml的dl/t645规约报文的组帧方法及装置
CN116634046A (zh) 报文处理方法、装置、电子设备及存储介质
CN107800552B (zh) 一种数据交互方法及装置
CN109783330B (zh) 日志处理方法、显示方法和相关装置、系统
CN107894973A (zh) 一种基于xml的数据交换方法和系统
CN112417016A (zh) 一种数据交换方法、系统、设备及存储介质
CN104331512A (zh) 一种bbs页面自动采集方法
CN114390033A (zh) 基于可扩展通信协议的回路状态巡检仪采集系统及方法
CN114546825A (zh) 故障追踪系统、方法、电子设备及可读介质
CN112000728B (zh) 一种业务数据处理方法、可读存储介质及计算机设备
CN108763583A (zh) 一种基于关键字搜索的微博热门话题提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant