CN112765439A - 一种基于大数据平台的数据处理方法及装置 - Google Patents

一种基于大数据平台的数据处理方法及装置 Download PDF

Info

Publication number
CN112765439A
CN112765439A CN202110212130.1A CN202110212130A CN112765439A CN 112765439 A CN112765439 A CN 112765439A CN 202110212130 A CN202110212130 A CN 202110212130A CN 112765439 A CN112765439 A CN 112765439A
Authority
CN
China
Prior art keywords
data
model
data analysis
analysis
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110212130.1A
Other languages
English (en)
Inventor
贾松芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Three Gorges University
Original Assignee
Chongqing Three Gorges University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Three Gorges University filed Critical Chongqing Three Gorges University
Priority to CN202110212130.1A priority Critical patent/CN112765439A/zh
Publication of CN112765439A publication Critical patent/CN112765439A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据平台的数据处理方法及装置,该数据处理方法包括如下步骤:根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;基于完成串联的数据分类模型及各数据分析模型实现数据的处理。本发明可以实现各数据分析模型的全程自动唤醒和休眠,从而实现各种目标数据的主动获取,大大提高数据分析效率和分析结果的准确率。

Description

一种基于大数据平台的数据处理方法及装置
技术领域
本发明涉及大数据分析领域,具体涉及一种基于大数据平台的数据处理方法及装置。
背景技术
在大数据时代,网络中的信息量呈现爆炸式增长,如何实现这些数据的利用,从而是发挥其价值,是当前研究的热点。目前,传统的大数据处理系统对数据处理时,各数据分析模型均处于一种独立状态,需人为进行当前数据量的监测,以及当前数据的录入,数据分析效率低下的同时,容易出错,同时,数据分析模型构建的过程大多以人为经验为主,未充分利用现有大数据内载的研究成果,数据分析结果片面的同时,精确度较低。
发明内容
为解决上述问题,本发明提供了一种基于大数据平台的数据处理方法及装置,可以实现各数据分析模型的全程自动唤醒和休眠,从而实现各种目标数据的主动获取,大大提高数据分析效率和分析结果的准确率。
为实现上述目的,本发明采取的技术方案为:
一种基于大数据平台的数据处理方法,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
进一步地,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
进一步地,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
进一步地,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
进一步地,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
进一步地, 还包括基于深度学习的不完整数据填充算法实现数据填充的步骤。
进一步地,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
本发明还提供了一种基于大数据平台的数据处理装置,采用上述的方法实现数据的处理。
本发明具有以下有益效果:
1)基于大数据内载的研究成果实现数据分析模型的构建,大大提高数据分析结果的精确度。
2)可以实现各数据分析模型的全程自动唤醒和休眠,从而实现各种目标数据的主动获取,大大提高数据分析效率和分析结果的准确率。
3)以报表的形式实现数据分类模型分类结果以及各数据分析模型分析结果的汇总,分析结果一目了然,大大方便了用户后续对数据的调用。
附图说明
图1为本发明实施例1一种基于大数据平台的数据处理方法的流程图。
图2为本发明实施例2一种基于大数据平台的数据处理方法的流程图。。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,一种基于大数据平台的数据处理方法,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
本实施例中,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
本实施例中,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
本实施例中,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
本实施例中,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
本实施例中,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
实施例2
如图2所示,一种基于大数据平台的数据处理方法,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于深度学习的不完整数据填充算法实现数据填充;
S6、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
本实施例中,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
本实施例中,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
本实施例中,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
本实施例中,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
本实施例中,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于大数据平台的数据处理方法,其特征在于,包括如下步骤:
S1、根据数据分析目标生成数据采集规则集,并生成对应的数据分类模型;
S2、基于网络爬虫模块根据数据采集规则集在预设的网络基站上爬取对应的目标参数,生成目标参数集;
S3、基于目标参数集及对应的数据分析目标构建数据分析模型集,并构建各数据分析模型之间的关联关系;
S4、基于所述关联关系构建用于驱动各数据分析模型的运行脚本,实现数据分类模型及各数据分析模型的串联;
S5、基于完成串联的数据分类模型及各数据分析模型实现数据的处理。
2.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S1中,基于数据挖掘模块根据数据分析目标在大数据平台挖掘与其存在关联关系的数据,然后基于人工和机器学习相结合的方式生成数据采集规则集,最后基于各数据采集规则集对应的特征数据生成对应的数据分类模型。
3.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S1中,所述数据分类模型采用Bi-LSTM+Attention模型。
4.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S4中,通过运行脚本的运行实现数据分类模型以及各数据分析模型的唤醒,未唤醒的数据分类模型和数据分析模型处于休眠状态。
5.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,所述步骤S5中,数据经数据分类模型分类后自动输入对应的数据分析模型串,生成数据分析报表,数据分类模型的分类结果及每一个数据分析模型所得的数据分析结果均自动登记在分析报表内。
6.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于, 还包括基于深度学习的不完整数据填充算法实现数据填充的步骤。
7.如权利要求1所述的一种基于大数据平台的数据处理方法,其特征在于,每一个数据分析模型均配置一数据量监测模型,即用于实现当前待输入数据量的监测,当监测到的数据量达到预设的区间时,运行脚本运行驱动数据分析模型实现数据的自动输入和分析。
8.一种基于大数据平台的数据处理装置,其特征在于,采用如权利要求1-7任一项所述的方法实现数据的处理。
CN202110212130.1A 2021-02-25 2021-02-25 一种基于大数据平台的数据处理方法及装置 Pending CN112765439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110212130.1A CN112765439A (zh) 2021-02-25 2021-02-25 一种基于大数据平台的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110212130.1A CN112765439A (zh) 2021-02-25 2021-02-25 一种基于大数据平台的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112765439A true CN112765439A (zh) 2021-05-07

Family

ID=75704156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110212130.1A Pending CN112765439A (zh) 2021-02-25 2021-02-25 一种基于大数据平台的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112765439A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086925A (zh) * 2017-03-07 2017-08-22 珠海城市职业技术学院 一种基于深度学习的互联网流量大数据分析方法
CN109189801A (zh) * 2018-08-27 2019-01-11 广州佰聆数据股份有限公司 一种用于多视图联动分析的分析思路可视化方法
CN109543093A (zh) * 2018-09-29 2019-03-29 中国电子科技集团公司电子科学研究院 一种一体化智能情报助手平台
CN111369133A (zh) * 2020-03-02 2020-07-03 四川轻化工大学 一种大数据风险监测系统
CN111949852A (zh) * 2020-08-31 2020-11-17 东华理工大学 一种基于互联网大数据的宏观经济分析方法及系统
CN112256937A (zh) * 2020-11-28 2021-01-22 河南工业职业技术学院 一种基于计算机的信息分析系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086925A (zh) * 2017-03-07 2017-08-22 珠海城市职业技术学院 一种基于深度学习的互联网流量大数据分析方法
CN109189801A (zh) * 2018-08-27 2019-01-11 广州佰聆数据股份有限公司 一种用于多视图联动分析的分析思路可视化方法
CN109543093A (zh) * 2018-09-29 2019-03-29 中国电子科技集团公司电子科学研究院 一种一体化智能情报助手平台
CN111369133A (zh) * 2020-03-02 2020-07-03 四川轻化工大学 一种大数据风险监测系统
CN111949852A (zh) * 2020-08-31 2020-11-17 东华理工大学 一种基于互联网大数据的宏观经济分析方法及系统
CN112256937A (zh) * 2020-11-28 2021-01-22 河南工业职业技术学院 一种基于计算机的信息分析系统

Similar Documents

Publication Publication Date Title
CN103619056A (zh) 一种上报传感器数据的方法和终端
CN102769672B (zh) 微电网云监控方法及系统
CN113362575A (zh) 一种基于人工智能的矿山环境智能监测系统
CN106294738A (zh) 一种智能家居场景配置方法
CN106908101A (zh) 一种土木工程健康监测系统及方法
CN102801548A (zh) 一种智能预警的方法、装置及信息系统
CN105227399A (zh) 基于用户态的网络设备调试信息获取方法及系统
CN112765439A (zh) 一种基于大数据平台的数据处理方法及装置
CN114689129A (zh) 一种地下空间环境监控系统和方法
CN208010403U (zh) 煤矿井下环境安全监测及人员定位系统
CN112104326A (zh) 光伏发电的电力监控方法和装置
CN112730877A (zh) 一种风电机组偏航频繁检测预警算法
CN205049554U (zh) 一种矿业安全监控系统
CN103472192B (zh) 一种气体传感器智能定位方法
CN204375125U (zh) 工作异常告警装置
CN102128049A (zh) 生命信息钻孔探测系统
CN210297761U (zh) 一种基于动作识别的绵羊行为监测系统
CN111209158B (zh) 服务器集群的挖矿监控方法及集群监控系统
CN203443912U (zh) 一种温室气体排放源实时检测装置
CN201915995U (zh) 生命信息钻孔探测系统
CN113852792A (zh) 一种基于人工智能的监控系统及监控方法
CN111581301A (zh) 基于分布式数据流的大数据分类系统及其算法
CN107590976A (zh) 用于大数据采集的无线传感器终端设备
CN110855797A (zh) 一种基于动作识别的绵羊行为监测系统及方法
CN205719063U (zh) 一种基于物联网的隧道环境实时监测和预警系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507