CN112765439A - 一种基于大数据平台的数据处理方法及装置 - Google Patents
一种基于大数据平台的数据处理方法及装置 Download PDFInfo
- Publication number
- CN112765439A CN112765439A CN202110212130.1A CN202110212130A CN112765439A CN 112765439 A CN112765439 A CN 112765439A CN 202110212130 A CN202110212130 A CN 202110212130A CN 112765439 A CN112765439 A CN 112765439A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- data analysis
- analysis
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000007405 data analysis Methods 0.000 claims abstract description 88
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000009193 crawling Effects 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000007958 sleep Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims 1
- 230000005059 dormancy Effects 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据平台的数据处理方法及装置,该数据处理方法包括如下步骤:根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;基于完成串联的数据分类模型及各数据分析模型实现数据的处理。本发明可以实现各数据分析模型的全程自动唤醒和休眠,从而实现各种目标数据的主动获取,大大提高数据分析效率和分析结果的准确率。
Description
技术领域
本发明涉及大数据分析领域,具体涉及一种基于大数据平台的数据处理方法及装置。
背景技术
在大数据时代,网络中的信息量呈现爆炸式增长,如何实现这些数据的利用,从而是发挥其价值,是当前研究的热点。目前,传统的大数据处理系统对数据处理时,各数据分析模型均处于一种独立状态,需人为进行当前数据量的监测,以及当前数据的录入,数据分析效率低下的同时,容易出错,同时,数据分析模型构建的过程大多以人为经验为主,未充分利用现有大数据内载的研究成果,数据分析结果片面的同时,精确度较低。
发明内容
为解决上述问题,本发明提供了一种基于大数据平台的数据处理方法及装置,可以实现各数据分析模型的全程自动唤醒和休眠,从而实现各种目标数据的主动获取,大大提高数据分析效率和分析结果的准确率。
为实现上述目的,本发明采取的技术方案为:
一种基于大数据平台的数据处理方法,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
进一步地,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
进一步地,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
进一步地,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
进一步地,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
进一步地, 还包括基于深度学习的不完整数据填充算法实现数据填充的步骤。
进一步地,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
本发明还提供了一种基于大数据平台的数据处理装置,采用上述的方法实现数据的处理。
本发明具有以下有益效果:
1)基于大数据内载的研究成果实现数据分析模型的构建,大大提高数据分析结果的精确度。
2)可以实现各数据分析模型的全程自动唤醒和休眠,从而实现各种目标数据的主动获取,大大提高数据分析效率和分析结果的准确率。
3)以报表的形式实现数据分类模型分类结果以及各数据分析模型分析结果的汇总,分析结果一目了然,大大方便了用户后续对数据的调用。
附图说明
图1为本发明实施例1一种基于大数据平台的数据处理方法的流程图。
图2为本发明实施例2一种基于大数据平台的数据处理方法的流程图。。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,一种基于大数据平台的数据处理方法,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
本实施例中,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
本实施例中,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
本实施例中,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
本实施例中,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
本实施例中,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
实施例2
如图2所示,一种基于大数据平台的数据处理方法,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于深度学习的不完整数据填充算法实现数据填充;
S6、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
本实施例中,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
本实施例中,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
本实施例中,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
本实施例中,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
本实施例中,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于大数据平台的数据处理方法,其特征在于,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
2.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
3.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
4.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
5.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
6.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于, 还包括基于深度学习的不完整数据填充算法实现数据填充的步骤。
7.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
8.一种基于大数据平台的数据处理装置,其特征在于,采用如权利要求1-7任一项所述的方法实现数据的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110212130.1A CN112765439A (zh) | 2021-02-25 | 2021-02-25 | 一种基于大数据平台的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110212130.1A CN112765439A (zh) | 2021-02-25 | 2021-02-25 | 一种基于大数据平台的数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765439A true CN112765439A (zh) | 2021-05-07 |
Family
ID=75704156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110212130.1A Pending CN112765439A (zh) | 2021-02-25 | 2021-02-25 | 一种基于大数据平台的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765439A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086925A (zh) * | 2017-03-07 | 2017-08-22 | 珠海城市职业技术学院 | 一种基于深度学习的互联网流量大数据分析方法 |
CN109189801A (zh) * | 2018-08-27 | 2019-01-11 | 广州佰聆数据股份有限公司 | 一种用于多视图联动分析的分析思路可视化方法 |
CN109543093A (zh) * | 2018-09-29 | 2019-03-29 | 中国电子科技集团公司电子科学研究院 | 一种一体化智能情报助手平台 |
CN111369133A (zh) * | 2020-03-02 | 2020-07-03 | 四川轻化工大学 | 一种大数据风险监测系统 |
CN111949852A (zh) * | 2020-08-31 | 2020-11-17 | 东华理工大学 | 一种基于互联网大数据的宏观经济分析方法及系统 |
CN112256937A (zh) * | 2020-11-28 | 2021-01-22 | 河南工业职业技术学院 | 一种基于计算机的信息分析系统 |
-
2021
- 2021-02-25 CN CN202110212130.1A patent/CN112765439A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086925A (zh) * | 2017-03-07 | 2017-08-22 | 珠海城市职业技术学院 | 一种基于深度学习的互联网流量大数据分析方法 |
CN109189801A (zh) * | 2018-08-27 | 2019-01-11 | 广州佰聆数据股份有限公司 | 一种用于多视图联动分析的分析思路可视化方法 |
CN109543093A (zh) * | 2018-09-29 | 2019-03-29 | 中国电子科技集团公司电子科学研究院 | 一种一体化智能情报助手平台 |
CN111369133A (zh) * | 2020-03-02 | 2020-07-03 | 四川轻化工大学 | 一种大数据风险监测系统 |
CN111949852A (zh) * | 2020-08-31 | 2020-11-17 | 东华理工大学 | 一种基于互联网大数据的宏观经济分析方法及系统 |
CN112256937A (zh) * | 2020-11-28 | 2021-01-22 | 河南工业职业技术学院 | 一种基于计算机的信息分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103619056A (zh) | 一种上报传感器数据的方法和终端 | |
CN102769672B (zh) | 微电网云监控方法及系统 | |
CN113362575A (zh) | 一种基于人工智能的矿山环境智能监测系统 | |
CN106294738A (zh) | 一种智能家居场景配置方法 | |
CN106908101A (zh) | 一种土木工程健康监测系统及方法 | |
CN102801548A (zh) | 一种智能预警的方法、装置及信息系统 | |
CN105227399A (zh) | 基于用户态的网络设备调试信息获取方法及系统 | |
CN112765439A (zh) | 一种基于大数据平台的数据处理方法及装置 | |
CN114689129A (zh) | 一种地下空间环境监控系统和方法 | |
CN208010403U (zh) | 煤矿井下环境安全监测及人员定位系统 | |
CN112104326A (zh) | 光伏发电的电力监控方法和装置 | |
CN112730877A (zh) | 一种风电机组偏航频繁检测预警算法 | |
CN205049554U (zh) | 一种矿业安全监控系统 | |
CN103472192B (zh) | 一种气体传感器智能定位方法 | |
CN204375125U (zh) | 工作异常告警装置 | |
CN102128049A (zh) | 生命信息钻孔探测系统 | |
CN210297761U (zh) | 一种基于动作识别的绵羊行为监测系统 | |
CN111209158B (zh) | 服务器集群的挖矿监控方法及集群监控系统 | |
CN203443912U (zh) | 一种温室气体排放源实时检测装置 | |
CN201915995U (zh) | 生命信息钻孔探测系统 | |
CN113852792A (zh) | 一种基于人工智能的监控系统及监控方法 | |
CN111581301A (zh) | 基于分布式数据流的大数据分类系统及其算法 | |
CN107590976A (zh) | 用于大数据采集的无线传感器终端设备 | |
CN110855797A (zh) | 一种基于动作识别的绵羊行为监测系统及方法 | |
CN205719063U (zh) | 一种基于物联网的隧道环境实时监测和预警系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |