CN116719806A - 大数据计算分析系统 - Google Patents
大数据计算分析系统 Download PDFInfo
- Publication number
- CN116719806A CN116719806A CN202311010078.7A CN202311010078A CN116719806A CN 116719806 A CN116719806 A CN 116719806A CN 202311010078 A CN202311010078 A CN 202311010078A CN 116719806 A CN116719806 A CN 116719806A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- analysis
- cleaning
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 68
- 238000004364 calculation method Methods 0.000 title claims abstract description 20
- 238000004140 cleaning Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000007405 data analysis Methods 0.000 claims abstract description 32
- 238000013500 data storage Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000003860 storage Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 32
- 238000013145 classification model Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000010205 computational analysis Methods 0.000 claims 6
- 238000013480 data collection Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000002790 cross-validation Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据计算分析系统,包括:数据采集模块、存储清洗模块、数据分析模块和资源调度模块;数据采集模块用于将原始数据实时采集至预设关系型数据库中,并将预设关系型数据库中的新增数据发送至存储清洗模块;存储清洗模块,包括数据存储子模块和数据清洗子模块;数据分析模块,用于采用计算引擎Spark,根据目标业务需求对数据存储子模块中存储的清洗后的数据进行分析处理,输出分析处理结果;资源调度模块,用于分别为数据采集模块、存储清洗模块、数据分析模块分配工作时所需的资源。本发明实施例的大数据计算分析系统,能够为光伏电站的日常运行提供高效且稳定的服务,同时降低了人工成本。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种大数据计算分析系统。
背景技术
传统光伏电站大部分采用的是单场站部署服务和一对一数据服务,相关技术中的光伏数据分析系统,也均是基于单场站光伏数据进行相关数据分析。单场站数据量均可使用非集群式规模架构处理,如:红外灰尘告警、发电功率预测和离散率分析等,针对自身场站情况可满足基本需求。由于光伏产业的快速发展,需要实现多场站联合集控中心架构形式的统一管理模式,在数据量级的处理及服务器资源使用上,若依旧使用单机服务形式部署数据分析服务,会使得数据的处理分析存在一定处理瓶颈,使得分析报告的出具具有滞后性或不准确性,进而导致该系统无法为实际生产的使用者提供有效决策,从而影响收益。同时,利用现有的单机部署的方式无法满足集控中心架构下汇总的日增数据分析处理需求,对于庞大的数据集,某些数据分析所需要的数据量能达到TB级别。从传统数据库读取数据,然后加载,转换和分析必然会存在效率低下,资源不足等问题。且对量级达到TB级别的数据进行存储和即席查询时,也会面临严重性能不足等问题,从而给使用者带来较差的体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的在于提出一种大数据计算分析系统,以为光伏电站的日常运行提供高效且稳定的服务。
为达到上述目的,本发明实施例提出了一种大数据计算分析系统,所述系统包括:数据采集模块、存储清洗模块、数据分析模块和资源调度模块;所述数据采集模块,用于将原始数据实时采集至预设关系型数据库中,并将所述预设关系型数据库中的新增数据发送至所述存储清洗模块;所述存储清洗模块,包括数据存储子模块和数据清洗子模块,所述数据存储子模块用于对所述数据采集模块传输的新增数据和所述数据清洗子模块清洗后的数据进行存储,所述数据清洗子模块用于对所述新增数据清洗;所述数据分析模块,用于采用计算引擎Spark,根据目标业务需求对所述数据存储子模块中存储的清洗后的数据进行分析处理,输出分析处理结果,其中,所述分析处理结果包括训练好的数据分析模型和利用所述训练好的数据分析模型得到的预测结果;所述资源调度模块,用于分别为所述数据采集模块、所述存储清洗模块、所述数据分析模块分配工作时所需的资源。
另外,本发明实施例的大数据计算分析系统还可以具有如下附加技术特征:
根据本发明的一个实施例,所述预设关系型数据库为MySQL关系型数据库,所述数据采集模块还包括:Flink CDC子模块和Kafka消息队列,所述数据采集模块在将原始数据实时采集至预设关系型数据库中,并将所述预设关系型数据库中的新增数据发送至所述存储清洗模块时,具体用于:将所述原始数据采集至所述MySQL关系型数据库,并开启MySQLBinlog;当所述Flink CDC子模块监控到MySQL binlog的变更日志时,将捕获到的Binlog解析成可处理的数据流;将所述数据流传输至所述Kafka消息队列;在所述Kafka消息队列中的数据量达到预设阈值时,将所述Kafka消息队列中的数据发送至所述存储清洗模块。
根据本发明的一个实施例,所述Kafka消息队列以n天为一个周期对队列中的数据进行清除。
根据本发明的一个实施例,所述数据存储子模块包括:数仓和多个HDFS;所述数据存储子模块在对所述数据采集模块传输的新增数据和所述数据清洗子模块清洗后的数据进行存储时,具体用于:将所述数据采集模块传输的所述新增数据,输入到所述HDFS;将所述HDFS中的数据同步至所述数仓;将所述数据清洗子模块清洗后的数据存储至所述数仓;所述数据清洗子模块在对所述新增数据清洗时,具体用于:对所述数仓中的数据进行清洗,并将清洗后的数据发送至所述数据存储子模块。
根据本发明的一个实施例,所述数仓包括:原始数据层、数据服务层和数据应用层;所述数据存储子模块在将所述HDFS中的数据同步至所述数仓时,具体用于:将所述HDFS中的数据同步至所述原始数据层;所述数据清洗子模块在对所述数仓中的数据进行清洗,并将清洗后的数据发送至所述数据存储子模块时,具体用于:对所述原始数据层中的数据进行清洗,并将清洗后的数据发送至所述数据服务层。
根据本发明的一个实施例,所述Spark,用于对所述数据服务层中的数据进行分析处理。
根据本发明的一个实施例,所述Spark在对所述数据服务层中的数据进行分析处理时,具体用于:创建SparkSession;通过Hive接口,调取所述数据服务层中的数据,并以dataFrame的形式保存为df数据;对所述df数据进行分析处理,得到分析数据;将所述分析数据输入至预先训练好的分类模型,得到所述分析处理结果。
根据本发明的一个实施例,所述Spark对所述分类模型进行训练时,具体用于:构建训练样本集,其中,所述训练样本集包括待训练的分析数据;对所述待训练的分析数据进行特征处理,得到特征数据;根据所述特征数据,选择训练算法和构建训练模型;将所述特征数据输入到模型中进行训练;根据所述训练算法和损失函数,不断更新模型的参数,直至所述损失函数满足训练结束条件,将当前模型作为所述训练好的分类模型;通过任务类型对所述训练好的分类模型进行评估,根据评估结果,调整模型参数;通过模型优化方法,对所述训练好的分类模型进行优化,确定模型的最优参数,并根据所述最优参数更新所述训练好的分类模型。
根据本发明的一个实施例,所述Spark对所述待训练的分析数据进行特征处理,得到特征数据时,具体用于:对所述待训练的分析数据进行预处理,得到预处理数据;对所述预处理数据进行特征选择,得到预特征数据;通过压缩降维对所述预特征数据进行处理,得到所述特征数据。
根据本发明的一个实施例,所述系统还包括:可视化查询模块,用于对所述分析数据进行可视化;其中,所述可视化查询模块包括分析型数据库,所述分析处理结果以文件形式写入所述分析型数据库。
本发明实施例的大数据计算分析系统,通过采用数据采集模块、存储清洗模块、数据分析模块和资源调度模块对海量的数据进行高效地处理,确保了分析处理结果的精准性和及时性,能够为光伏电站的日常运行提供高效且稳定的服务,同时降低了人工成本。
附图说明
图1是本发明一实施例的大数据计算分析系统的结构示意图;
图2是本发明另一实施例的大数据计算分析系统的结构示意图;
图3是本发明一实施例的大数据计算分析系统的工作过程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的大数据计算分析系统。
图1是本发明一实施例的大数据计算分析系统的结构示意图。
如图1所示,大数据计算分析系统1包括:数据采集模块10、存储清洗模块20、数据分析模块30和资源调度模块40;数据采集模块10用于将原始数据实时采集至预设关系型数据库中,并将预设关系型数据库中的新增数据发送至存储清洗模块20;存储清洗模块20包括数据存储子模块和数据清洗子模块,数据存储子模块用于对数据采集模块10传输的新增数据和数据清洗子模块清洗后的数据进行存储,数据清洗子模块用于对新增数据清洗;数据分析模块30用于采用计算引擎Spark,根据目标业务需求对数据存储子模块中存储的清洗后的数据进行分析处理,输出分析处理结果,其中,分析处理结果包括训练好的数据分析模型和利用训练好的数据分析模型得到的预测结果;资源调度模块40用于分别为数据采集模块10、存储清洗模块20、数据分析模块30分配工作时所需的资源。
其中,Spark是基于内存进行计算,速度要比磁盘计算快得多。Spark程序运行是基于线程模型,以线程的方式运行作业的资源开销要远比进程模式运行作业的资源开销小。Spark框架内部有优化器,可以优化作业的执行,提高作业的执行效率。Spark还支持复杂查询。除了Map(映射)及Reduce(归约)操作之外,Spark支持SQL查询、流式计算、机器学习和图计算。同时,用户可以在同一个工作流中无缝搭配这些计算范式。如果对象集合本身是弹性的,Spark则可以根据父级关系对它们进行计算,在节点失败后不需要从头开始计算,能够减少资源开销。另外在对数据集进行转换计算时,可以通过CheckPoint(检查点)方法将数据持久化,从而提高容错率。
具体地,数据采集模块10、存储清洗模块20和数据分析模块30在使用过程中,均需向资源调度模块40申请资源以执行对应的任务。
作为一个示例,资源调度模块40包括YARN(Yet Another Resource Negotiator,另一种资源协商者)资源管理子系统,大数据计算分析系统1内的所有数据作业统一受YARN资源管理子系统分配资源,使得数据作业在资源上有了相互隔离,便于统一调度。其中,YARN资源管理子系统通过yarn-cluster(YARN集群)模式来给每个任务分配独立的资源。
本发明实施例的大数据计算分析系统1,通过采用数据采集模块10、存储清洗模块20、数据分析模块30和资源调度模块40对海量的数据进行高效地处理,确保了分析处理结果的精准性和及时性,能够为光伏电站的日常运行提供高效且稳定的服务,同时降低了人工成本。本发明的大数据计算分析系统1能够部署在廉价的机器上,节省高性能机器的成本。
在本发明的一些实施例中,预设关系型数据库为MySQL关系型数据库,数据采集模块10还包括:Flink CDC(Change Data Capture,变更数据捕获)子模块和Kafka消息队列,数据采集模块10在将原始数据实时采集至预设关系型数据库中,并将预设关系型数据库中的新增数据发送至存储清洗模块20时,具体用于:
S11,将原始数据采集至MySQL关系型数据库,并开启MySQL Binlog(二进制日志)。
S12,当Flink CDC子模块监控到MySQL binlog的变更日志时,将捕获到的Binlog解析成可处理的数据流。
S13,将数据流传输至Kafka消息队列。
S14,在Kafka消息队列中的数据量达到预设阈值时,将Kafka消息队列中的数据发送至存储清洗模块20。
在该实施例中,通过在Kafka消息队列中的数据量达到预设阈值时,再进行数据发送,能够减少分布式文件系统中的小文件数量,且具有消息缓冲的作用。
在本发明的一些实施例中,Kafka消息队列以n天为一个周期对队列中的数据进行清除。
作为一个示例,Kafka消息队列以7天为一个周期。
在该实施例中,Kafka消息队列通过使用7天为一个周期策略对数据进行清除,保障了短期内的数据安全。
在本发明的一些实施例中,数据存储子模块包括:数仓和多个HDFS。
数据存储子模块在对数据采集模块10传输的新增数据和数据清洗子模块清洗后的数据进行存储时,具体用于:
S211,将数据采集模块10传输的新增数据,输入到HDFS。
S212,将HDFS中的数据同步至数仓。
S213,将数据清洗子模块清洗后的数据存储至数仓。
作为一个示例,数仓可使用ORC(Optimized Row Columnar,优化的行列式)格式对数据进行压缩存储,可以减少磁盘的占用,提高存储效率。
需要说明的是,多样化的数据存储在高容错、高可靠和高吞吐的HDFS中,反映出大数据计算分析系统1具有可扩展性和安全性强的特点。
数据清洗子模块在对新增数据清洗时,具体用于:
对数仓中的数据进行清洗,并将清洗后的数据发送至数据存储子模块。
在该实施例中,Spark、数仓和多个HDFS组成了分布式的处理框架,分布式的处理框架解决了因单机环境所面临的计算瓶颈,并且在数据加载时可直接访问数仓,从而减少与应用数据库之间的IO(Input/Output,输入输出)交互,起到简化流程和提高效率的作用。
在本发明的一些实施例中,数仓包括:原始数据层、数据服务层和数据应用层;
数据存储子模块在将HDFS中的数据同步至数仓时,具体用于:将HDFS中的数据同步至原始数据层。
数据清洗子模块在对数仓中的数据进行清洗,并将清洗后的数据发送至数据存储子模块时,具体用于:对原始数据层中的数据进行清洗,并将清洗后的数据发送至数据服务层。
作为一个示例,数据清洗子模块对原始数据层中的数据进行数据清洗处理。其中,数据清洗处理包括:空值校验、重复值校验和异常值检验。
可选地,数据清洗子模块在对原始数据层中的数据进行清洗后,使用Spark对清洗后的数据进行加载、转换和保存。
具体地,加载表示读取文件,转换表示利用Spark包含的Transformation(转换)算子来对数据进行特定的处理,例如Filter(过滤)算子、FlatMap(扁平化)算子、Union(合并)算子等,保存表示利用Action(动作)算子将数据持久化到内存或数据表或文件中。例如Collect(返回收集的数据)、Count(统计数据)和SaveAsTextFile(保存为文件)等等。经过保存后的数据(数据准备就绪)就可以使用Spark进行数据分析和建模。
在本发明的一些实施例中,Spark用于对数据服务层中的数据进行分析处理。
具体地,Spark可直接读取数据服务层中的数据,该方式能够避免因Python等读取传统关系型数据库出现连接超时、读取时间过长和其他一系列问题,从而提高了工作效率。
需要说明的是,Spark可提供一系列机器学习库,支持交互式计算和复杂算法,包括MLlib和GraphX等,可以用于建立模型、预测和分类。
优选地,在数据分析模块30中,可利用Spark提供的Python版本接口PySpark进行相应的数据分析、应用和开发。PySpark是支持大规模集群运行,拥有强大的分布式数据处理能力和机器学习的组件,在海量数据下处理作业效率理论比传统Python速度快100倍以上,且灵活性更强。
在该实施例中,Spark能够充分利用集群的能力对数据进行处理,数据分析的结果可以保持在分布式框架的内存中,从而使得下一步的计算不再频繁地读写操作,使得数据分析更加快速和方便。
在本发明的一些实施例中,Spark在对数据服务层中的数据进行分析处理时,具体用于:
S31,创建SparkSession。
作为一个示例,可利用PySpark里的SparkSession包创建SparkSession。SparkSession包封装了SparkConf、SparkContext和SQLContext,用于配置程序名称、运行环境以及自定义函数,创建好后能向YARN资源管理子系统发送一系列任务请求。
S32,通过Hive接口,调取数据服务层中的数据,并以DataFrame(数据框)的形式保存为df数据。
具体地,通过PySpark的Hive接口,编写HQL(Hive Query Language,Hive查询语言)能直接获取数据服务层中想要的数据,得到的数据便以DataFrame的形式保存在内存中。
S33,对df数据进行分析处理,得到分析数据。
具体地,分析处理包括:分组求和、函数统计、改变数据结构中的至少一者。
需要说明的是,该分析数据能够满足大部分常规统计分析的要求,若要进行后续的步骤,需要调用Spark ML模块的包。
S34,将分析数据输入至预先训练好的分类模型,得到分析处理结果。
在本发明的一些实施例中,Spark对分类模型进行训练时,具体用于:
S341,构建训练样本集,其中,训练样本集包括待训练的分析数据。
S342,对待训练的分析数据进行特征处理,得到特征数据。
S343,根据特征数据,选择训练算法和构建训练模型。
具体地,模型的训练可分为4个模块:分类子模块(线性分类、支持向量机、逻辑回归、决策树分类、朴素贝叶斯等)、聚类子模块(KMeans(K均值聚类)、高斯混合模型、LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题聚类等)、回归子模块(线性模型、回归模型)和推荐子模块(交替最小二乘法)。
S344,将特征数据输入到模型中进行训练。
S345,根据训练算法和损失函数,不断更新模型的参数,直至损失函数满足训练结束条件,将当前模型作为训练好的分类模型。
S346,通过任务类型对训练好的分类模型进行评估,根据评估结果,调整模型参数。
具体地,可通过二分类、回归、多分类和聚类几种方法来对模型进行评估。
S347,通过模型优化方法,对训练好的分类模型进行优化,确定模型的最优参数,并根据最优参数更新训练好的分类模型。
具体地,在Spark ML中,CrossValidation(交叉验证)和ParamMap(参数映射)是两个常用的模型优化方法,因此,可通过CrossValidation或ParamMap对训练好的分类模型进行优化。
相应地,CrossValidation首先将数据集分成一组单独的集合,分为训练数据集和测试数据集。例如,k=3时,CrossValidation将生成3个(训练,测试)数据集对,每个数据集使用2/3的数据进行训练,1/3进行测试。最后,选择在验证集上表现最好的模型作为最终模型。ParamMap是一个键值对的集合,其中键表示参数的名称,值表示参数的取值。通过为每个参数设置不同的取值,可以创建一个参数网格,并在每次训练中使用不同的参数组合。这样,就可以通过比较不同参数设置下模型的性能,找到最佳的参数组合来优化模型。
作为一个示例,Spark ML的模型可使用CrossValidation和ParamMap方法来交叉验证。为了评估一个特定的ParamMap,CrossValidation通过在3个不同的(训练,测试)数据集对上拟合Estimator(评估器),计算3个模型的平均评估度量。在确定最佳ParamMap之后,CrossValidation最终使用最好的ParamMap和整个数据集重新拟合Estimator,并确定最优参数。除此之外,也可以使用TrainValidationSplit方法里包含的TrainRatio参数,将一个数据集对划分为测试数据集和训练数据集,75%用来训练,25%用来验证,最终也会是用最好的ParamMap和Estimator来确定最优参数。
在本发明的一些实施例中,Spark对待训练的分析数据进行特征处理,得到特征数据时,具体用于:
S3421,对待训练的分析数据进行预处理,得到预处理数据。
具体地,pySpark.ml.feature提供的特征处理功能,很大程度上满足了机器学习的需求。对数据进行预处理,包括:对缺失数据的中位数插补和列值分布不均的类别插补,对基于标准差和基于百分位的异常值检测,对模型防止过拟合和降低性能的分箱操作,对使其更接近正态分布的对数变换,对不满足数据整齐规则的列串进行特征再提取的拆分操作等。
S3422,对预处理数据进行特征选择,得到预特征数据。
具体地,可通过方差选择法、相关系数法和卡方检验等方法、包装方式的递归特征消除方法和嵌入方式的基于惩罚项方法进行特征选择,以得到满足机器学习算法要求的预特征数据。
S3423,通过压缩降维对预特征数据进行处理,得到特征数据。
在该实施例中,虽然通过特征选择后的预特征数据可直接进行模型训练,但可能由于矩阵过大,出现计算量大,训练时间长的问题。通过对预特征数据进行压缩降维,能够降低计算量和减少模型的训练时间。
在本发明的一些实施例中,如图2所示,大数据计算分析系统1还包括:可视化查询模块50,用于对分析数据进行可视化;其中,可视化查询模块50包括分析型数据库,分析处理结果以文件形式写入分析型数据库。
在该实施例中,分析型数据库可提供海量历史数据即席查询,解决了因数据量过多导致的查询页面加载过慢等问题。同时,提供的后端接口与关系型数据库类似对后端开发具备友好性。
作为一个示例,分析流程完成后,出具数据分析报告,确定好业务背景,业务目的,利用相关BI软件进行数据展示,最后得出指导性意见和结论。
接下来,以光伏大数据为例,如图3所示,说明本发明的大数据计算分析系统1的工作过程:
A1,业务分析:输入系统数据和人工数据,出具可行性方案。
A2,数据准备:输入原始数据(逆变器数据、气象站数据和手工数据),进行前期的数据准备,将准备好的数据发送至原始数据层。
A3,数据处理:获取原始数据层中的数据,并进行数据格式检查和清洗操作,剔除异常数据,并将满足要求的数据输入至数据服务层。
A4,分析与展示:对数据服务层中的数据进行处理与分析,并将处理后的数据发送至可视化查询模块50。
A5,报告与验证:根据数据分析结果,生成分析报告。
应当理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
同时,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种大数据计算分析系统,其特征在于,所述系统包括:数据采集模块、存储清洗模块、数据分析模块和资源调度模块;
所述数据采集模块,用于将原始数据实时采集至预设关系型数据库中,并将所述预设关系型数据库中的新增数据发送至所述存储清洗模块;
所述存储清洗模块,包括数据存储子模块和数据清洗子模块,所述数据存储子模块用于对所述数据采集模块传输的新增数据和所述数据清洗子模块清洗后的数据进行存储,所述数据清洗子模块用于对所述新增数据清洗;
所述数据分析模块,采用计算引擎Spark,根据目标业务需求对所述数据存储子模块中存储的清洗后的数据进行分析处理,输出分析处理结果,其中,所述分析处理结果包括训练好的数据分析模型和利用所述训练好的数据分析模型得到的预测结果;
所述资源调度模块,用于分别为所述数据采集模块、所述存储清洗模块、所述数据分析模块分配工作时所需的资源。
2.根据权利要求1所述的大数据计算分析系统,其特征在于,所述预设关系型数据库为MySQL关系型数据库,所述数据采集模块还包括:Flink CDC子模块和Kafka消息队列,所述数据采集模块在将原始数据实时采集至预设关系型数据库中,并将所述预设关系型数据库中的新增数据发送至所述存储清洗模块时,用于:
将所述原始数据采集至所述MySQL关系型数据库,并开启MySQL Binlog;
当所述Flink CDC子模块监控到MySQL binlog的变更日志时,将捕获到的Binlog解析成可处理的数据流;
将所述数据流传输至所述Kafka消息队列;
在所述Kafka消息队列中的数据量达到预设阈值时,将所述Kafka消息队列中的数据发送至所述存储清洗模块。
3.根据权利要求2所述的大数据计算分析系统,其特征在于,所述Kafka消息队列以n天为一个周期对队列中的数据进行清除。
4.根据权利要求1所述的大数据计算分析系统,其特征在于,所述数据存储子模块包括:数仓和多个HDFS;
所述数据存储子模块在对所述数据采集模块传输的新增数据和所述数据清洗子模块清洗后的数据进行存储时,用于:
将所述数据采集模块传输的所述新增数据,输入到所述HDFS;
将所述HDFS中的数据同步至所述数仓;
将所述数据清洗子模块清洗后的数据存储至所述数仓;
所述数据清洗子模块在对所述新增数据清洗时,用于:
对所述数仓中的数据进行清洗,并将清洗后的数据发送至所述数据存储子模块。
5.根据权利要求4所述的大数据计算分析系统,其特征在于,所述数仓包括:原始数据层、数据服务层和数据应用层;
所述数据存储子模块在将所述HDFS中的数据同步至所述数仓时,用于:将所述HDFS中的数据同步至所述原始数据层;
所述数据清洗子模块在对所述数仓中的数据进行清洗,并将清洗后的数据发送至所述数据存储子模块时,用于:对所述原始数据层中的数据进行清洗,并将清洗后的数据发送至所述数据服务层。
6.根据权利要求5所述的大数据计算分析系统,其特征在于,所述Spark,用于对所述数据服务层中的数据进行分析处理。
7.根据权利要求6所述的大数据计算分析系统,其特征在于,所述Spark在对所述数据服务层中的数据进行分析处理时,用于:
创建SparkSession;
通过Hive接口,调取所述数据服务层中的数据,并以dataFrame的形式保存为df数据;
对所述df数据进行分析处理,得到分析数据;
将所述分析数据输入至预先训练好的分类模型,得到所述分析处理结果。
8.根据权利要求7所述的大数据计算分析系统,其特征在于,所述Spark对所述分类模型进行训练时,用于:
构建训练样本集,其中,所述训练样本集包括待训练的分析数据;
对所述待训练的分析数据进行特征处理,得到特征数据;
根据所述特征数据,选择训练算法和构建训练模型;
将所述特征数据输入到模型中进行训练;
根据所述训练算法和损失函数,不断更新模型的参数,直至所述损失函数满足训练结束条件,将当前模型作为所述训练好的分类模型;
通过任务类型对所述训练好的分类模型进行评估,根据评估结果,调整模型参数;
通过模型优化方法,对所述训练好的分类模型进行优化,确定模型的最优参数,并根据所述最优参数更新所述训练好的分类模型。
9.根据权利要求8所述的大数据计算分析系统,其特征在于,所述Spark对所述待训练的分析数据进行特征处理,得到特征数据时,用于:
对所述待训练的分析数据进行预处理,得到预处理数据;
对所述预处理数据进行特征选择,得到预特征数据;
通过压缩降维对所述预特征数据进行处理,得到所述特征数据。
10.根据权利要求1所述的大数据计算分析系统,其特征在于,所述系统还包括:可视化查询模块,用于对所述分析数据进行可视化;
其中,所述可视化查询模块包括分析型数据库,所述分析处理结果以文件形式写入所述分析型数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311010078.7A CN116719806A (zh) | 2023-08-11 | 2023-08-11 | 大数据计算分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311010078.7A CN116719806A (zh) | 2023-08-11 | 2023-08-11 | 大数据计算分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116719806A true CN116719806A (zh) | 2023-09-08 |
Family
ID=87866557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311010078.7A Pending CN116719806A (zh) | 2023-08-11 | 2023-08-11 | 大数据计算分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719806A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107124394A (zh) * | 2017-03-10 | 2017-09-01 | 北京国电通网络技术有限公司 | 一种电力通信网络安全态势预测方法和系统 |
WO2018215651A1 (en) * | 2017-05-26 | 2018-11-29 | Siemens Aktiengesellschaft | A big data processing method, device, and system, and a machine readable medium |
US20190087383A1 (en) * | 2017-09-19 | 2019-03-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Intelligent big data system, and method and apparatus for providing intelligent big data service |
CN109873904A (zh) * | 2019-03-05 | 2019-06-11 | 平安科技(深圳)有限公司 | 消息推送的用户消息状态上报处理方法、装置及存储介质 |
US20190361999A1 (en) * | 2018-05-23 | 2019-11-28 | Microsoft Technology Licensing, Llc | Data analysis over the combination of relational and big data |
CN111078781A (zh) * | 2019-12-30 | 2020-04-28 | 电信科学技术第五研究所有限公司 | 一种多源流式大数据融合汇聚处理框架模型实现方法 |
CN111611589A (zh) * | 2020-05-19 | 2020-09-01 | 浙江华途信息安全技术股份有限公司 | 一种数据安全平台、计算机设备及可读存储介质 |
CN112862321A (zh) * | 2021-02-08 | 2021-05-28 | 国家海洋信息中心 | 一种基于ais大数据的海运统计系统及其统计方法 |
CN113420009A (zh) * | 2021-06-02 | 2021-09-21 | 军事科学院系统工程研究院网络信息研究所 | 一种基于大数据的电磁数据分析装置、系统及方法 |
CN114066507A (zh) * | 2021-11-01 | 2022-02-18 | 挂号网(杭州)科技有限公司 | 推广信息的分析方法、装置、电子设备及存储介质 |
CN115982133A (zh) * | 2023-02-01 | 2023-04-18 | 花瓣云科技有限公司 | 数据处理方法及装置 |
CN116069791A (zh) * | 2022-12-04 | 2023-05-05 | 江苏研码科技有限公司 | 一种数据的处理方法和装置、计算机设备 |
-
2023
- 2023-08-11 CN CN202311010078.7A patent/CN116719806A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107124394A (zh) * | 2017-03-10 | 2017-09-01 | 北京国电通网络技术有限公司 | 一种电力通信网络安全态势预测方法和系统 |
WO2018215651A1 (en) * | 2017-05-26 | 2018-11-29 | Siemens Aktiengesellschaft | A big data processing method, device, and system, and a machine readable medium |
US20190087383A1 (en) * | 2017-09-19 | 2019-03-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Intelligent big data system, and method and apparatus for providing intelligent big data service |
US20190361999A1 (en) * | 2018-05-23 | 2019-11-28 | Microsoft Technology Licensing, Llc | Data analysis over the combination of relational and big data |
CN109873904A (zh) * | 2019-03-05 | 2019-06-11 | 平安科技(深圳)有限公司 | 消息推送的用户消息状态上报处理方法、装置及存储介质 |
CN111078781A (zh) * | 2019-12-30 | 2020-04-28 | 电信科学技术第五研究所有限公司 | 一种多源流式大数据融合汇聚处理框架模型实现方法 |
CN111611589A (zh) * | 2020-05-19 | 2020-09-01 | 浙江华途信息安全技术股份有限公司 | 一种数据安全平台、计算机设备及可读存储介质 |
CN112862321A (zh) * | 2021-02-08 | 2021-05-28 | 国家海洋信息中心 | 一种基于ais大数据的海运统计系统及其统计方法 |
CN113420009A (zh) * | 2021-06-02 | 2021-09-21 | 军事科学院系统工程研究院网络信息研究所 | 一种基于大数据的电磁数据分析装置、系统及方法 |
CN114066507A (zh) * | 2021-11-01 | 2022-02-18 | 挂号网(杭州)科技有限公司 | 推广信息的分析方法、装置、电子设备及存储介质 |
CN116069791A (zh) * | 2022-12-04 | 2023-05-05 | 江苏研码科技有限公司 | 一种数据的处理方法和装置、计算机设备 |
CN115982133A (zh) * | 2023-02-01 | 2023-04-18 | 花瓣云科技有限公司 | 数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8880446B2 (en) | Predictive analytics factory | |
CN103513983B (zh) | 用于预测性警报阈值确定工具的方法和系统 | |
Johanson et al. | Big automotive data: Leveraging large volumes of data for knowledge-driven product development | |
US20130254196A1 (en) | Cost-based optimization of configuration parameters and cluster sizing for hadoop | |
WO2020010251A1 (en) | Automated machine learning system | |
CN110377595A (zh) | 一种车辆数据管理系统 | |
CN113360554B (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
CN105122212A (zh) | 自动化跟踪系统中的周期性优化 | |
CN110825522A (zh) | Spark参数自适应优化方法及系统 | |
US20210303532A1 (en) | Streamlined transaction and dimension data collection | |
CN108108445A (zh) | 一种智能数据处理方法和系统 | |
CN110895506A (zh) | 测试数据的构造方法和构造系统 | |
CN112148578A (zh) | 基于机器学习的it故障缺陷预测方法 | |
CN110825526B (zh) | 基于er关系的分布式调度方法及装置、设备以及存储介质 | |
CN116244367A (zh) | 一种基于多模型的自定义算法的可视化大数据分析平台 | |
CN111339052A (zh) | 一种非结构化日志数据处理方法及装置 | |
WO2020205150A1 (en) | Validation of operating plans and schedules using machine learning | |
CN116048817B (zh) | 数据处理控制方法、装置、计算机设备和存储介质 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN117076077A (zh) | 基于大数据分析的计划调度优化方法 | |
CN110750582B (zh) | 数据处理方法、装置和系统 | |
CN116719806A (zh) | 大数据计算分析系统 | |
CN109033196A (zh) | 一种分布式数据调度系统及方法 | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
Balbach | A framework for optimizing spark configurations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |