CN104077402B - 数据处理方法和数据处理系统 - Google Patents

数据处理方法和数据处理系统 Download PDF

Info

Publication number
CN104077402B
CN104077402B CN201410318757.5A CN201410318757A CN104077402B CN 104077402 B CN104077402 B CN 104077402B CN 201410318757 A CN201410318757 A CN 201410318757A CN 104077402 B CN104077402 B CN 104077402B
Authority
CN
China
Prior art keywords
data
semi
screening
unstructured
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410318757.5A
Other languages
English (en)
Other versions
CN104077402A (zh
Inventor
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yonyou Network Technology Co Ltd
Original Assignee
Yonyou Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yonyou Network Technology Co Ltd filed Critical Yonyou Network Technology Co Ltd
Priority to CN201410318757.5A priority Critical patent/CN104077402B/zh
Publication of CN104077402A publication Critical patent/CN104077402A/zh
Application granted granted Critical
Publication of CN104077402B publication Critical patent/CN104077402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种数据处理方法和一种数据处理系统,包括:设置网络爬虫的特征参数和目标网站;所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;为所述筛选后的非结构化数据和/或半结构化数据创建索引。通过本发明的技术方案,能对网络爬虫的参数进行设置,并根据目标网站的结构和层级完善任务计划,同时还可以对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析,以保证系统的可用性和高效性。

Description

数据处理方法和数据处理系统
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法和一种数据处理系统。
背景技术
目前,随着互联网在社会上的普及,每天在互联网中传播的信息量都呈爆炸式增长,统计发现,每天有约200万篇博客文章在网上被发布,每天在社交网站被发布的状态更新有约5亿3200万条,面对互联网中浩如烟海的信息,随时了解互联网的所有动态变得愈加艰难。
在现有技术中,一般只能将使用爬虫抓取到的海量数据存储在关系型数据库中,关系型数据库的存储容量会受到单台服务器硬件配置的极大制约,很难或根本无法对系统进行横向扩展,并且,只能存储经过处理后的结构化数据,无法对互联网中大量的非结构化数据进行存储和分析,这导致了部分有价值的数据只能被舍弃,要及时汇总关注的某个领域的信息只能通过耗费大量的人力和时间来实现。另外,现有技术还遭遇了数据量积累到一定程度后出现的查询、分析、知识转移等方面的困难。
因此,提出一种高效且灵活的数据处理方法显得十分必要。
发明内容
本发明正是基于上述技术问题,提出了一种新的技术方案,能对网络爬虫的参数进行设置,根据目标网站的结构和层级完善任务计划,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性。
有鉴于此,本发明提出了一种数据处理方法,包括:根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;为所述筛选后的非结构化数据和/或半结构化数据创建索引。
在该技术方案中,通过Web界面可以对网络爬虫进行多种参数的设置,可以分类大量收集对应每种特征参数的数据信息,通过智能检索目标网站的URL(Uniform ResourceLocator,统一资源定位器)及网站结构和层级来创建完善的执行计划,并依此可以做到对收集到的海量信息进行过滤,还可同时存储采集到的结构化或非结构化数据,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析。这样,利用大数据技术搭建的分布式存储系统来存储和处理采集到的数据,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,这些都是传统的数据库所无法比拟的,可以应用到舆情监控、商业信息收集、市场行情分析、电子商务推广等领域中去。
在上述技术方案中,优选地,存储所述筛选后的非结构化数据和/或半结构化数据,具体包括:将所述非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。
在该技术方案中,非结构化数据包括图片、视频等,半结构化数据包括html、xml等类型的文件,非结构化数据将会以文件形式存储在分布式文件系统(HDFS)中,利用分布式计算框架(MapReduce)对半结构化数据进行分析,并转换为结构化数据存储在分布式列式存储数据库(HBase)中。这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据。
在上述技术方案中,优选地,还包括:根据所述索引查询所述存储后的数据;以及对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。
在该技术方案中,使用分布式文件系统和分布式列式存储数据库作为搜索引擎技术的底层支撑,利用搜索引擎技术为收集的所有数据建立索引,便于对已有的数据进行快速检索和查询,实现了搜索引擎的分布式索引,用户可以通过Web用户界面对所有采集到的数据进行查询,搜索引擎会快速返回查询结果,还可以对图片、视频等内容进行在线展示,在保证搜索引擎系统高效响应的同时也兼顾了系统整体的易扩容和高可用。另外,数据汇总后会形成有价值的信息,如统计结果和/或分析图表,以供用户读取。
在上述技术方案中,优选地,还包括:根据用户设置的关键词,自动筛选出与所述关键词相关的数据,并为所述筛选后的与所述关键词相关的数据生成统计结果和/或分析图表。
在该技术方案中,用户还可以使用关键词设置功能对自己感兴趣的内容进行定义,系统会利用分词技术自动匹配与用户设置的关键词相关的内容,用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。
在上述技术方案中,优选地,还包括:将所述统计结果和/或所述分析图表在指定时间发送给指定用户。
在该技术方案中,系统可以根据用户的设置命令,自动将统计结果和/或所述分析图表通过邮件等方式定时发送给指定用户,提高了用户使用的便利性。
根据本发明的另一方面,还提供了一种数据处理系统,包括:设置单元,根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;任务建立单元,所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;执行单元,所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;索引创建单元,用于为所述筛选后的非结构化数据和/或半结构化数据创建索引。
在该技术方案中,通过Web界面可以对网络爬虫进行多种参数的设置,可以分类大量收集对应每种特征参数的数据信息,通过智能检索目标网站的URL(Uniform ResourceLocator,统一资源定位器)及网站结构和层级来创建完善的执行计划,并依此可以做到对收集到的海量信息进行过滤,还可同时存储采集到的结构化或非结构化数据,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析。这样,利用大数据技术搭建的分布式存储系统来存储和处理采集到的数据,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,这些都是传统的数据库所无法比拟的,可以应用到舆情监控、商业信息收集、市场行情分析、电子商务推广等领域中去。
在上述技术方案中,优选地,所述执行单元包括:将所述非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。
在该技术方案中,非结构化数据包括图片、视频等,半结构化数据包括html、xml等类型的文件,非结构化数据将会以文件形式存储在分布式文件系统(HDFS)中,利用分布式计算框架(MapReduce)对半结构化数据进行分析,并转换为结构化数据存储在分布式列式存储数据库(HBase)中。这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据。
在上述技术方案中,优选地,还包括:查询单元,用于根据所述索引查询所述存储后的数据;以及分析单元,用于对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。
在该技术方案中,使用分布式文件系统和分布式列式存储数据库作为搜索引擎技术的底层支撑,利用搜索引擎技术为收集的所有数据建立索引,便于对已有的数据进行快速检索和查询,实现了搜索引擎的分布式索引,用户可以通过Web用户界面对所有采集到的数据进行查询,搜索引擎会快速返回查询结果,还可以对图片、视频等内容进行在线展示,在保证搜索引擎系统高效响应的同时也兼顾了系统整体的易扩容和高可用。另外,数据汇总后会形成有价值的信息,如统计结果和/或分析图表,以供用户读取。
在上述技术方案中,优选地,所述执行单元还包括:根据用户设置的关键词,自动筛选出与所述关键词相关的数据;以及所述分析单元还包括:为所述筛选后的与所述关键词相关的数据生成统计结果和/或分析图表。
在该技术方案中,用户还可以使用关键词设置功能对自己感兴趣的内容进行定义,系统会利用分词技术自动匹配与用户设置的关键词相关的内容,用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。
在上述技术方案中,优选地,还包括:发送单元,用于将所述统计结果和/或所述分析图表在指定时间发送给指定用户。
在该技术方案中,系统可以根据用户的设置命令,自动将统计结果和/或所述分析图表通过邮件等方式定时发送给指定用户,提高了用户使用的便利性。
通过本发明的技术方案,能对网络爬虫的参数进行设置,根据目标网站的结构和层级完善任务计划,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,用户还可以根据系统可定时给出的分析结果对商业和市场行为进行更准确的决策,提高了用户使用的便利性。
附图说明
图1示出了根据本发明的实施例的数据处理方法的流程图;
图2示出了根据本发明的实施例的数据处理系统的框图;
图3示出了根据本发明的一个实施例的数据处理系统的结构示意图;
图4示出了根据本发明的另一个实施例的数据处理方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的数据处理方法的流程图。
如图1所示,根据本发明的实施例的数据处理方法,包括:
步骤102,根据接收到的设置命令,设置网络爬虫的特征参数和目标网站。
步骤104,网络爬虫根据特征参数,对目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列。
步骤106,网络爬虫根据爬虫任务队列中的任务计划对目标网站的数据进行筛选,并存储筛选后的非结构化数据和/或半结构化数据。
步骤108,为筛选后的非结构化数据和/或半结构化数据创建索引。
在该技术方案中,通过Web界面可以对网络爬虫进行多种参数的设置,可以分类大量收集对应每种特征参数的数据信息,通过智能检索目标网站的URL(Uniform ResourceLocator,统一资源定位器)及网站结构和层级来创建完善的执行计划,并依此可以做到对收集到的海量信息进行过滤,还可同时存储采集到的结构化或非结构化数据,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析。这样,利用大数据技术搭建的分布式存储系统来存储和处理采集到的数据,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,这些都是传统的数据库所无法比拟的,可以应用到舆情监控、商业信息收集、市场行情分析、电子商务推广等领域中去。
在上述技术方案中,优选地,步骤106中,存储筛选后的非结构化数据和/或半结构化数据,具体包括:将非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将半结构化数据进行分析后转换为结构化数据,并将结构化数据存储在分布式列式存储数据库中。
在该技术方案中,非结构化数据包括图片、视频等,半结构化数据包括html、xml等类型的文件,非结构化数据将会以文件形式存储在分布式文件系统(HDFS)中,利用分布式计算框架(MapReduce)对半结构化数据进行分析,并转换为结构化数据存储在分布式列式存储数据库(HBase)中。这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据。
在上述技术方案中,优选地,在步骤108之后还包括:根据索引查询存储后的数据;以及对存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。
在该技术方案中,使用分布式文件系统和分布式列式存储数据库作为搜索引擎技术的底层支撑,利用搜索引擎技术为收集的所有数据建立索引,便于对已有的数据进行快速检索和查询,实现了搜索引擎的分布式索引,用户可以通过Web用户界面对所有采集到的数据进行查询,搜索引擎会快速返回查询结果,还可以对图片、视频等内容进行在线展示,在保证搜索引擎系统高效响应的同时也兼顾了系统整体的易扩容和高可用。另外,数据汇总后会形成有价值的信息,如统计结果和/或分析图表,以供用户读取。
在上述技术方案中,优选地,还包括:根据用户设置的关键词,自动筛选出与关键词相关的数据,并为筛选后的与关键词相关的数据生成统计结果和/或分析图表。
在该技术方案中,用户还可以使用关键词设置功能对自己感兴趣的内容进行定义,系统会利用分词技术自动匹配与用户设置的关键词相关的内容,用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。
在上述技术方案中,优选地,还包括:将统计结果和/或分析图表在指定时间发送给指定用户。
在该技术方案中,系统可以根据用户的设置命令,自动将统计结果和/或分析图表通过邮件等方式定时发送给指定用户,提高了用户使用的便利性。
图2示出了根据本发明的实施例的数据处理系统的框图。
如图2所示,根据本发明的实施例的数据处理系统200,包括:设置单元202,根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;任务建立单元204,网络爬虫根据特征参数,对目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;执行单元206,网络爬虫根据爬虫任务队列中的任务计划对目标网站的数据进行筛选,并存储筛选后的非结构化数据和/或半结构化数据;索引创建单元208,用于为筛选后的非结构化数据和/或半结构化数据创建索引。
在该技术方案中,通过Web界面可以对网络爬虫进行多种参数的设置,可以分类大量收集对应每种特征参数的数据信息,通过智能检索目标网站的URL(Uniform ResourceLocator,统一资源定位器)及网站结构和层级来创建完善的执行计划,并依此可以做到对收集到的海量信息进行过滤,还可同时存储采集到的结构化或非结构化数据,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析。这样,利用大数据技术搭建的分布式存储系统来存储和处理采集到的数据,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,这些都是传统的数据库所无法比拟的,可以应用到舆情监控、商业信息收集、市场行情分析、电子商务推广等领域中去。
在上述技术方案中,优选地,执行单元206包括:将非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将半结构化数据进行分析后转换为结构化数据,并将结构化数据存储在分布式列式存储数据库中。
在该技术方案中,非结构化数据包括图片、视频等,半结构化数据包括html、xml等类型的文件,非结构化数据将会以文件形式存储在分布式文件系统(HDFS)中,利用分布式计算框架(MapReduce)对半结构化数据进行分析,并转换为结构化数据存储在分布式列式存储数据库(HBase)中。这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据。
在上述技术方案中,优选地,还包括:查询单元210,用于根据索引查询存储后的数据;以及分析单元212,用于对存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。
在该技术方案中,使用分布式文件系统和分布式列式存储数据库作为搜索引擎技术的底层支撑,利用搜索引擎技术为收集的所有数据建立索引,便于对已有的数据进行快速检索和查询,实现了搜索引擎的分布式索引,用户可以通过Web用户界面对所有采集到的数据进行查询,搜索引擎会快速返回查询结果,还可以对图片、视频等内容进行在线展示,在保证搜索引擎系统高效响应的同时也兼顾了系统整体的易扩容和高可用。另外,数据汇总后会形成有价值的信息,如统计结果和/或分析图表,以供用户读取。
在上述技术方案中,优选地,执行单元206还包括:根据用户设置的关键词,自动筛选出与关键词相关的数据;以及分析单元212还包括:为筛选后的与关键词相关的数据生成统计结果和/或分析图表。
在该技术方案中,用户还可以使用关键词设置功能对自己感兴趣的内容进行定义,系统会利用分词技术自动匹配与用户设置的关键词相关的内容,用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。
在上述技术方案中,优选地,还包括:发送单元214,用于将统计结果和/或分析图表在指定时间发送给指定用户。
在该技术方案中,系统可以根据用户的设置命令,自动将统计结果和/或分析图表通过邮件等方式定时发送给指定用户,提高了用户使用的便利性。
图3示出了根据本发明的一个实施例的数据处理系统的结构示意图。
如图3所示,根据本发明的实施例的数据处理系统300,包括:自动化内容采集平台302,可以设置多个目标网站供爬虫爬取大量来自互联网的数据信息,比如,新浪微博、腾讯微博、Twitter和各种资讯网站;大数据处理平台304,可以将非结构化数据将会以文件形式存储在分布式文件系统HDFS中,并利用MapReduce对半结构化数据进行分析,并转换为结构化数据存储在HBase中,这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据;数据统计分析平台306,可以设置网络爬虫的参数,以抓取所需的信息,也可以对采集的数据进行统计分析,使用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。
大数据处理平台304上具有YARN(Yet Another Resource Negotiator),YARN是一种Hadoop(分布式系统基础架构)的编程模型框架;大数据处理平台304上还具有Solr(搜索应用服务器),用户通过Solr可以对已存储的海量数据进行检索。
数据统计分析平台306还具备关键词设置功能,用户还可以使用关键词设置功能对自己感兴趣的内容进行定义,系统会利用分词技术自动匹配与用户设置的关键词相关的内容,用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。除此之外,数据统计分析平台306还可以向用户定时发送邮件,该邮件可以包括系统给出的统计结果和/或分析图表。
图4示出了根据本发明的另一个实施例的数据处理方法的示意流程图。
如图4所示,首先,通过数据统计分析平台406的自定义爬虫功能对智能爬虫的目标网站及参数信息进行设置,智能爬虫会对目标网站的结构和层级进行分析,生成智能爬虫的任务队列;自动化内容采集平台402设置多个目标网站比如,新浪微博、腾讯微博和各种资讯网站,并依照任务队列中的任务计划启动并发任务,驱动智能爬虫对目标网站的内容进行抓取,并对无效数据进行过滤。
过滤后的得到的有效数据被传送至大数据处理平台404,过滤后的有效数据可分为两种格式:非结构化数据,如图片、视频等,和半结构化数据,如html、xml等格式的文件。非结构化数据将会以文件形式存储在HDFS中,半结构化数据会由MapReduce进行分析,并被转换为结构化数据存储在HBase中。同时,所有数据都会通过搜索引擎技术创建索引,大数据处理平台404上具有Solr(搜索应用服务器),用户通过Solr可以对已存储的海量数据进行索引创建和数据检索与查询。
用户可以在数据统计分析平台406中通过Web UI(网页用户界面)对所有采集到的数据进行数据统计和采集内容查询,搜索引擎会快速返回查询的结果,并可以对图片、视频等内容进行在线展示。用户还可以在数据统计分析平台406上对统计后的数据的状态进行监控,并查看统计后的数据结果和各种分析图表。
用户还可以在数据统计分析平台406实现关键词设置功能,用户对自己感兴趣的内容进行定义,系统就会利用分词技术自动匹配与用户设置的关键词相关的内容,并自动将统计和分析结果通过邮件定时发送的方式或着其他方式定时发送给指定用户,用户可根据邮件中的统计结果或分析图表作为参考,对商业和市场行为进行更准确的决策。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,能对网络爬虫的参数进行设置,根据目标网站的结构和层级完善任务计划,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,用户还可以根据系统可定时给出的分析结果对商业和市场行为进行更准确的决策,提高了用户使用的便利性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;
所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;
所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;
为所述筛选后的非结构化数据和/或半结构化数据创建索引;
存储所述筛选后的非结构化数据和/或半结构化数据,具体包括:
将所述非结构化数据以文件形式存储在分布式文件系统中;以及
通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。
2.根据权利要求1所述的数据处理方法,其特征在于,还包括:
根据所述索引查询所述存储后的数据;以及
对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。
3.根据权利要求1所述的数据处理方法,其特征在于,还包括:
根据用户设置的关键词,自动筛选出与所述关键词相关的数据,并为所述筛选后的与所述关键词相关的数据生成统计结果和/或分析图表。
4.根据权利要求2或3所述的数据处理方法,其特征在于,还包括:
将所述统计结果和/或所述分析图表在指定时间发送给指定用户。
5.一种数据处理系统,其特征在于,包括:
设置单元,根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;
任务建立单元,所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;
执行单元,所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;
索引创建单元,用于为所述筛选后的非结构化数据和/或半结构化数据创建索引;
所述执行单元包括:
将所述非结构化数据以文件形式存储在分布式文件系统中;以及
通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。
6.根据权利要求5所述的数据处理系统,其特征在于,还包括:
查询单元,用于根据所述索引查询所述存储后的数据;以及
分析单元,用于对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。
7.根据权利要求5所述的数据处理系统,其特征在于,所述执行单元还包括:
根据用户设置的关键词,自动筛选出与所述关键词相关的数据;以及
所述分析单元还包括:
为所述筛选后的与所述关键词相关的数据生成统计结果和/或分析图表。
8.根据权利要求6或7所述的数据处理系统,其特征在于,还包括:
发送单元,用于将所述统计结果和/或所述分析图表在指定时间发送给指定用户。
CN201410318757.5A 2014-07-04 2014-07-04 数据处理方法和数据处理系统 Active CN104077402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410318757.5A CN104077402B (zh) 2014-07-04 2014-07-04 数据处理方法和数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410318757.5A CN104077402B (zh) 2014-07-04 2014-07-04 数据处理方法和数据处理系统

Publications (2)

Publication Number Publication Date
CN104077402A CN104077402A (zh) 2014-10-01
CN104077402B true CN104077402B (zh) 2018-01-19

Family

ID=51598656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410318757.5A Active CN104077402B (zh) 2014-07-04 2014-07-04 数据处理方法和数据处理系统

Country Status (1)

Country Link
CN (1) CN104077402B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989151B (zh) * 2015-03-02 2019-09-06 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN105138561B (zh) * 2015-07-23 2018-11-27 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN106649362B (zh) * 2015-10-30 2020-02-07 北京国双科技有限公司 网页爬取方法和装置
CN106776645B (zh) * 2015-11-24 2020-08-21 北京国双科技有限公司 数据处理方法及装置
WO2017176944A1 (en) * 2016-04-05 2017-10-12 Fractal Industries, Inc. System for fully integrated capture, and analysis of business information resulting in predictive decision making and simulation
CN106055618B (zh) * 2016-05-26 2020-02-07 优品财富管理有限公司 一种基于网络爬虫与结构化存储的数据处理方法
CN106547914B (zh) * 2016-11-25 2020-08-18 国信优易数据有限公司 一种数据采集管理系统及其方法
CN107018042B (zh) * 2017-04-13 2020-03-20 广东神马搜索科技有限公司 用于在线服务系统的追踪方法及追踪系统
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
CN109657462B (zh) * 2018-12-06 2021-05-11 贵阳货车帮科技有限公司 数据检测方法、系统、电子设备和存储介质
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN111241177B (zh) * 2019-12-31 2023-07-04 中国联合网络通信集团有限公司 数据采集方法、系统及网络设备
CN113094517A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种产品知识单元的构建方法和系统
CN113343108B (zh) * 2021-06-30 2023-05-26 中国平安人寿保险股份有限公司 推荐信息处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334784A (zh) * 2008-07-30 2008-12-31 施章祖 计算机辅助报告与知识库产生的方法
CN102799686A (zh) * 2012-07-30 2012-11-28 河海大学 基于云平台的水利信息垂直搜索方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148278A1 (en) * 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334784A (zh) * 2008-07-30 2008-12-31 施章祖 计算机辅助报告与知识库产生的方法
CN102799686A (zh) * 2012-07-30 2012-11-28 河海大学 基于云平台的水利信息垂直搜索方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统

Also Published As

Publication number Publication date
CN104077402A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104077402B (zh) 数据处理方法和数据处理系统
CN107025296B (zh) 基于科技服务信息智能抓取系统数据收集方法
Inel et al. Crowdtruth: Machine-human computation framework for harnessing disagreement in gathering annotated data
CN111435344B (zh) 一种基于大数据的钻井提速影响因素分析模型
CN107895009A (zh) 一种基于分布式的互联网数据采集方法及系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN105677842A (zh) 基于Hadoop大数据处理技术的日志分析系统
CN105447081A (zh) 面向云平台的一种政务舆情监控方法
CN105117484A (zh) 一种互联网舆情监测方法和系统
CN106294588A (zh) 快速搜索所要查询内容的方法及装置
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
CN105718590A (zh) 面向多租户的SaaS舆情监控系统及方法
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
Boranbayev et al. The method of data analysis from social networks using apache hadoop
CN104077293A (zh) 网页获取方法和装置
Tian et al. An exploratory study on software microblogger behaviors
Arshad et al. A multilayered semantic framework for integrated forensic acquisition on social media
Nigam et al. Web scraping: from tools to related legislation and implementation using python
Izal et al. Computation of traffic time series for large populations of IoT devices
Zhang et al. Application of workflow technology for big data analysis service
US20170331909A1 (en) System and method of monitoring and tracking online source content and/or determining content influencers
CN103647774A (zh) 基于云计算的web内容信息过滤方法
CN103354546A (zh) 报文过滤方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100094 Haidian District North Road, Beijing, No. 68

Applicant after: Yonyou Network Technology Co., Ltd.

Address before: 100094 Beijing city Haidian District North Road No. 68, UFIDA Software Park

Applicant before: UFIDA Software Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant