CN105677858A - 一种基于大数据技术框架的数据采集方法及装置 - Google Patents

一种基于大数据技术框架的数据采集方法及装置 Download PDF

Info

Publication number
CN105677858A
CN105677858A CN201610009427.7A CN201610009427A CN105677858A CN 105677858 A CN105677858 A CN 105677858A CN 201610009427 A CN201610009427 A CN 201610009427A CN 105677858 A CN105677858 A CN 105677858A
Authority
CN
China
Prior art keywords
data
file
type
server
relational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610009427.7A
Other languages
English (en)
Inventor
吴尚远
刘鹏
郭阳
倪书伟
邓康华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Original Assignee
SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd, Beijing Guodiantong Network Technology Co Ltd filed Critical SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Priority to CN201610009427.7A priority Critical patent/CN105677858A/zh
Publication of CN105677858A publication Critical patent/CN105677858A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据技术框架的数据采集方法及装置,包括以下步骤:监听数据流;判断数据流当前数据类型;根据数据类型的不同采用不同的数据采集策略;其中所述数据采集策略包括:数据库采集策略,用于采集关系型数据,将数据备份至备份库后,生成数据文件,从备份库采集关系型数据文件;文件采集策略,用于采集文件型数据,监听服务器的文件目录,定时从所述文件目录采集文件型数据文件;系统数据采集策略,用于采集系统产生的实时数据,监听数据流,从所述数据流中直接采集系统数据文件;本发明提供的一种基于大数据技术框架的数据采集方法及装置适配多种数据源及多种数据采集方式,可以满足大数据技术框架下的数据采集需求。

Description

一种基于大数据技术框架的数据采集方法及装置
技术领域
本发明涉及数据处理技术,特别是指一种基于大数据技术框架的数据采集方法及装置。
背景技术
大数据,或称巨量数据、海量数据,是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力;从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
传统的数据采集技术,因为数据来源比较单一,主要是数据库和文件方式进行存储,且数据量较小,大多采用比较单一的工具甚至程序脚本就可以完成数据采集工作,而大数据不仅数据量巨大,而且数据来源丰富,包括批量日志数据、实时数据、流式数据等,同时数据类型多样,包括结构化数据、半结构化数据和非结构化数据等。传统的并行数据库追求高度一致性和容错性,根据CAP理论,难以同时保证其可用性、扩展性和高性能,并不能够直接应用于大数据处理中。因此,需求一种数据采集方法,以适应大数据时代的需求。
发明内容
有鉴于此,本发明的目的在于提出一种基于大数据技术框架的数据采集方法及装置。
基于上述目的本发明提供的一种基于大数据技术框架的数据采集方法,包括以下步骤:
监听数据流;
判断数据流当前数据类型;
根据数据类型的不同采用不同的数据采集策略;
其中所述数据采集策略包括:
数据库采集策略,用于采集关系型数据,将数据备份至备份库后,生成数据文件,从备份库采集关系型数据文件;
文件采集策略,用于采集文件型数据,监听服务器的文件目录,定时从所述文件目录采集文件型数据文件;
系统数据采集策略,用于采集系统产生的实时数据,监听数据流,从所述数据流中直接采集系统数据文件。
进一步,所述数据库采集策略包括以下步骤:
监听数据流,获取关系型数据文件;
将关系型数据文件保存至服务器;
将关系型数据文件备份至备份库;
从备份库采集关系型数据文件。
进一步,所述文件采集策略包括以下步骤:
监听数据流,获取文件型数据文件;
将文件型数据文件保存至服务器;
制定监听服务器列表;
监听所述监听服务器列表的服务器中的文件目录;
定时从所述文件目录采集文件型数据文件。
进一步,还包括以下步骤:
检测服务器负载,当服务器整体负载低时,线性减少启用的服务器数量,当服务器整体负载高时,线性增加启用的服务器数量。
本发明还提供一种基于大数据技术框架的数据采集装置,包括依次连接的业务模块、数据接口、服务器和备份库;所述业务模块用于获取数据流,并通过所述数据接口将数据流发送至所述服务器;所述服务器用于将所述数据流保存为数据文件;所述备份库用于备份所述数据文件;
所述数据接口接收数据流时,对数据流的当前数据类型进行判断,若当前数据类型为关系型数据,则将当前数据备份至备份库后,生成关系型数据文件,从备份库采集关系型数据文件;若当前数据类型为文件型数据,则监听服务器的文件目录,定时从所述文件目录采集文件型数据文件;若当前数据类型为系统产生的实时数据流,则监听数据流,从所述数据流中实时采集系统数据文件。
进一步,所述数据接口包括关系型数据处理单元、文件型数据处理单元和系统数据处理单元;
数据接口对数据流的当前数据类型进行判断,所述关系型数据处理单元用于监听数据流,获取关系型数据文件,将关系型数据文件保存至服务器;所述文件型数据处理单元用于监听数据流,获取文件型数据文件,将文件型数据文件保存至服务器;所述系统数据处理单元用于监听数据流,直接获取并采集系统数据文件。
进一步,所述关系型数据处理单元将关系型数据文件保存至服务器后,将所述关系型数据文件备份至备份库,从备份库采集关系型数据文件。
进一步,所述文件型数据处理单元将文件型数据文件保存至服务器后,建立监听服务器列表,监听所述监听服务器列表的服务器中的文件目录;文件型数据处理单元定时从所述文件目录采集文件型数据文件。
从上面所述可以看出,本发明提供的一种基于大数据技术框架的数据采集方法及装置,适配多种数据源(关系型数据、文件型数据、系统数据),适配多种数据采集方式(实时或离线、主动或被动),可根据实际情况配置采集策略,可以满足大数据技术框架下的数据采集需求。
附图说明
图1为本发明提供的一种基于大数据技术框架的数据采集装置的实施例的模块图;
图2为本发明提供的一种基于大数据技术框架的数据采集方法的流程图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明提供的一种基于大数据技术框架的数据采集装置的实施例的模块图。如图所示,本实施例包括依次连接的业务模块1、数据接口2、服务器3和备份库4,下面对各部分分别进行介绍。
服务器3和备份库4均用于数据文件的存储,服务器3用于直接各类存储数据文件,备份库4用于存储文件型数据文件的副本。
业务模块1包括用户接口、网络接口等交互接口,用于获取数据并将数据上传至数据接口2,业务模块1获取的数据包括但不限于:用户的操作记录及操作过程中产生的数据,广域网、局域网和/或其他网络产生的业务数据,本数据采集装置自身运行产生的系统数据。业务模块1将获取的全部数据以数据流发送至数据接口2。
数据接口2对数据流进行初步分析和分类,分类标准包括但不限于:关系型数据、文件型数据、系统数据。系统数据指本数据采集装置在运行时产生的数据,具有高时效性,需要及时进行分析、存储;文件型数据指本数据采集装置定时对获取到的数据流进行处理生成的数据文件,多为音视频文件、文本文件等常见格式的文件;关系型数据多为大容量的结构化数据,数据类型复杂,需要耗费大量系统资源进行采集。
数据接口2包括关系型数据处理单元21、文件型数据处理单元22、系统数据处理单元23,分别用于处理上述三类数据。数据接口2接收数据流时,对数据流的当前数据类型进行判断,若当前数据类型为关系型数据,则启用关系型数据处理单元21,关系型数据处理单元21监听数据流,获取关系型数据文件,将关系型数据文件保存至服务器;若当前数据类型为文件型数据,则启用文件型数据处理单元22,文件型数据处理单元22监听数据流,获取文件型数据文件,将文件型数据文件保存至服务器;若当前数据类型为系统数据,则启用系统数据处理单元23,系统数据处理单元23监听数据流,直接获取并采集系统数据文件。
图2为本发明提供的一种基于大数据技术框架的数据采集方法的流程图。如图所示,对于上述三种类型的数据,本实施例采用分类的方式进行采集,具体流程如下:
S1,业务模块1将数据流发送至数据接口2。
S2,数据接口2对数据流进行分析、分类。
S3,若数据流当前数据类型为系统数据,执行系统数据采集策略,系统数据处理单元23监听数据流,从数据流中实时采集系统数据文件。
S4,若数据流当前数据类型为文件型数据,执行文件采集策略,文件型数据处理单元22定时将生成的文件型数据文件发送至服务器3,并定时从服务器3对文件型数据文件进行采集。
S5,若数据流当前数据类型为关系型数据,执行数据库采集策略,关系型数据处理单元21首先将生成的数据文件发送至服务器3,之后关系型数据处理单元21将数据文件备份至备份库4,最后从备份库4采集数据文件。
系统数据指本数据采集装置在运行时产生的数据,具有高时效性,需要及时进行分析、存储,因此需求在第一时间采集,故由数据接口2中的系统数据处理单元23直接采集。根据本发明的其他可选实施例,采集系统数据得到的系统数据文件存储至服务器3和/或备份库4。
文件型数据在被采集前,通常需要进行其他分析处理,获取有效数据,因此首先将文件型数据存储至服务器3,以供分析处理,待处理完成后再进行采集。
根据本发明的一些可选实施例,业务模块1会定时生成一定量的文件型数据,服务器3定时存储一定量由文件型数据生成的数据文件,以供定时进行采集。可选的,在采集文件型数据时,首先制定监听服务器列表,监听所述监听服务器列表中的服务器中的文件目录,根据预设时间间隔,定时从所述文件目录采集数据文件。
关系型数据多为大容量的结构化数据,在进行采集时需要耗费服务器3大量的系统资源,由于服务器3同时还要进行其他数据文件的保存等工作,会严重影响整体工作效率,还会影响到业务模块1的运行和稳定。本实施例给出了一种解决方案,即将关系型数据保存至服务器3后,再将其备份至备份库4,并从备份库4进行采集,这样既可以节省服务器3的系统资源,保证其性能和稳定性,又可以令备份库4以全部性能支撑数据采集工作,提高了采集效率。
上述三种采集方式并非绝对独立,而是各有侧重,互为补充,以满足不同类型数据的高效采集。例如,当文件型数据以较高的频率生成时,也可以对其进行实时采集,当文件型数据的数量较大时,也可先将其备份至备份库再进行采集。数据采集方式灵活,可根据实际情况进行选择和设定。
从时效性来划分上述三种数据采集方式,可以分为以下两类:
实时采集,对需要实时处理的数据7*24小时不间断采集,数据处理延迟低,一般控制在秒级。实时采集通常对应于上述系统数据的采集,但是一些特殊情况,例如文件型数据以较高的频率生成时,也可以对其进行实施采集。
离线采集,也叫批量采集,定期将批量数据从外部系统导入,采集频率低,数据量大,通常对应上述关系型数据的采集方法。
从数据提供方式来划分上述三种数据采集方式,可以分为以下两类:
主动采集,及本装置按一定频率从外部系统抽取数据,对应上述关系型数据和文件型数据的采集方法。
被动采集,通过开启数据接口2,被动接收从外部发送过来的数据,可以保证良好的实时性,对应上述系统数据的采集方法。
本实施例在使用时,根据数据采集的时效性要求及数据来源,对三种所述采集方式进行系统性能资源的分配,灵活高效。
根据本发明的一些可选实施例,本发明的服务器实时监测自身负载,当服务器整体负载低时,线性减少启用的服务器数量,当服务器整体负载高时,线性增加启用的服务器数量;对于备份库,采用类似的方式增加或减少数量。通过设置可线性扩展的服务器集群,动态适应负载压力,使服务器资源得到最大利用。
从上面所述可以看出,本发明提供的一种基于大数据技术框架的数据采集方法及装置,适配多种数据源(关系型数据、文件型数据、系统数据),适配多种数据采集方式(实时或离线、主动或被动),可根据实际情况配置采集策略,可以满足大数据技术框架下的数据采集需求。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于大数据技术框架的数据采集方法,其特征在于,包括以下步骤:
监听数据流;
判断数据流当前数据类型;
根据数据类型的不同采用不同的数据采集策略;
其中所述数据采集策略包括:
数据库采集策略,用于采集关系型数据,将数据备份至备份库后,生成数据文件,从备份库采集关系型数据文件;
文件采集策略,用于采集文件型数据,监听服务器的文件目录,定时从所述文件目录采集文件型数据文件;
系统数据采集策略,用于采集系统产生的实时数据,监听数据流,从所述数据流中直接采集系统数据文件。
2.根据权利要求1所述的一种基于大数据技术框架的数据采集方法,其特征在于,所述数据库采集策略包括以下步骤:
监听数据流,获取关系型数据文件;
将关系型数据文件保存至服务器;
将关系型数据文件备份至备份库;
从备份库采集关系型数据文件。
3.根据权利要求1所述的一种基于大数据技术框架的数据采集方法,其特征在于,所述文件采集策略包括以下步骤:
监听数据流,获取文件型数据文件;
将文件型数据文件保存至服务器;
制定监听服务器列表;
监听所述监听服务器列表的服务器中的文件目录;
定时从所述文件目录采集文件型数据文件。
4.根据权利要求1所述的一种基于大数据技术框架的数据采集方法,其特征在于,还包括以下步骤:
检测服务器负载,当服务器整体负载低时,线性减少启用的服务器数量,当服务器整体负载高时,线性增加启用的服务器数量。
5.一种基于大数据技术框架的数据采集装置,其特征在于,包括依次连接的业务模块、数据接口、服务器和备份库;所述业务模块用于获取数据流,并通过所述数据接口将数据流发送至所述服务器;所述服务器用于将所述数据流保存为数据文件;所述备份库用于备份所述数据文件;
所述数据接口接收数据流时,对数据流的当前数据类型进行判断,若当前数据类型为关系型数据,则将当前数据备份至备份库后,生成关系型数据文件,从备份库采集关系型数据文件;若当前数据类型为文件型数据,则监听服务器的文件目录,定时从所述文件目录采集文件型数据文件;若当前数据类型为系统产生的实时数据流,则监听数据流,从所述数据流中实时采集系统数据文件。
6.根据权利要求5所述的一种基于大数据技术框架的数据采集装置,其特征在于,所述数据接口包括关系型数据处理单元、文件型数据处理单元和系统数据处理单元;
数据接口对数据流的当前数据类型进行判断,所述关系型数据处理单元用于监听数据流,获取关系型数据文件,将关系型数据文件保存至服务器;所述文件型数据处理单元用于监听数据流,获取文件型数据文件,将文件型数据文件保存至服务器;所述系统数据处理单元用于监听数据流,直接获取并采集系统数据文件。
7.根据权利要求6所述的一种基于大数据技术框架的数据采集装置,其特征在于,所述关系型数据处理单元将关系型数据文件保存至服务器后,将所述关系型数据文件备份至备份库,从备份库采集关系型数据文件。
8.根据权利要求6所述的一种基于大数据技术框架的数据采集装置,其特征在于,所述文件型数据处理单元将文件型数据文件保存至服务器后,建立监听服务器列表,监听所述监听服务器列表的服务器中的文件目录;文件型数据处理单元定时从所述文件目录采集文件型数据文件。
CN201610009427.7A 2016-01-06 2016-01-06 一种基于大数据技术框架的数据采集方法及装置 Pending CN105677858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610009427.7A CN105677858A (zh) 2016-01-06 2016-01-06 一种基于大数据技术框架的数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610009427.7A CN105677858A (zh) 2016-01-06 2016-01-06 一种基于大数据技术框架的数据采集方法及装置

Publications (1)

Publication Number Publication Date
CN105677858A true CN105677858A (zh) 2016-06-15

Family

ID=56299303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610009427.7A Pending CN105677858A (zh) 2016-01-06 2016-01-06 一种基于大数据技术框架的数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN105677858A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547834A (zh) * 2016-10-11 2017-03-29 曙光信息产业(北京)有限公司 归档映射系统
CN111061807A (zh) * 2019-11-23 2020-04-24 方正株式(武汉)科技开发有限公司 分布式数据采集分析系统及方法、服务器及介质
CN111104441A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种数据采集方法及系统
CN111309986A (zh) * 2020-03-17 2020-06-19 广州佳航信息技术有限公司 大数据采集与共享系统
CN112487090A (zh) * 2020-11-30 2021-03-12 乐刷科技有限公司 数据同步方法、数据展示平台及计算机可读存储介质
CN113064777A (zh) * 2021-04-02 2021-07-02 中国建设银行股份有限公司 数据采集服务的测试方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111983A (zh) * 2014-06-30 2014-10-22 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111983A (zh) * 2014-06-30 2014-10-22 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547834A (zh) * 2016-10-11 2017-03-29 曙光信息产业(北京)有限公司 归档映射系统
CN111104441A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种数据采集方法及系统
CN111061807A (zh) * 2019-11-23 2020-04-24 方正株式(武汉)科技开发有限公司 分布式数据采集分析系统及方法、服务器及介质
CN111309986A (zh) * 2020-03-17 2020-06-19 广州佳航信息技术有限公司 大数据采集与共享系统
CN112487090A (zh) * 2020-11-30 2021-03-12 乐刷科技有限公司 数据同步方法、数据展示平台及计算机可读存储介质
CN113064777A (zh) * 2021-04-02 2021-07-02 中国建设银行股份有限公司 数据采集服务的测试方法和装置

Similar Documents

Publication Publication Date Title
CN105677858A (zh) 一种基于大数据技术框架的数据采集方法及装置
CN108073625B (zh) 用于元数据信息管理的系统及方法
CN108920153B (zh) 一种基于负载预测的Docker容器动态调度方法
WO2021169268A1 (zh) 数据处理方法、装置、设备和存储介质
CN103617287A (zh) 一种分布式环境下的日志管理方法和装置
CN102375837B (zh) 数据采集系统和方法
CN107317838B (zh) 一种基于流式数据处理架构的天文元数据归档方法及系统
CN102750326A (zh) 一种基于精简策略的集群系统的日志管理优化方法
CN103838867A (zh) 日志处理方法和装置
CN105512336A (zh) 一种基于Hadoop的海量数据处理方法和装置
CN103618644A (zh) 一种基于hadoop集群的分布式监控系统及其方法
CN104778225A (zh) 一种非结构化数据多存储系统中同步数据的方法
Wang et al. Iominer: Large-scale analytics framework for gaining knowledge from i/o logs
Gu et al. Chronos: An elastic parallel framework for stream benchmark generation and simulation
CN104361031A (zh) 一种政务大数据预处理系统及处理方法
CN102779138A (zh) 实时数据的硬盘存取方法
CN114647716A (zh) 一种泛化数据仓库
CN105069029B (zh) 一种实时etl系统及方法
CN104765823A (zh) 一种网站数据采集的方法及装置
CN116166191A (zh) 湖仓一体系统
CN101751297A (zh) 一种可承受大量用户登录的信息系统及实现方法
Dai et al. Research and implementation of big data preprocessing system based on Hadoop
CN111343269B (zh) 一种数据下载方法、装置、计算机设备和存储介质
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN114443940A (zh) 一种消息订阅方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615