CN110825744A - 一种基于集群环境的空气质量监测大数据分区存储方法 - Google Patents

一种基于集群环境的空气质量监测大数据分区存储方法 Download PDF

Info

Publication number
CN110825744A
CN110825744A CN201911053354.1A CN201911053354A CN110825744A CN 110825744 A CN110825744 A CN 110825744A CN 201911053354 A CN201911053354 A CN 201911053354A CN 110825744 A CN110825744 A CN 110825744A
Authority
CN
China
Prior art keywords
data
partition
environment
air quality
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911053354.1A
Other languages
English (en)
Other versions
CN110825744B (zh
Inventor
刘黎志
彭贝
杨敏
张晨跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN201911053354.1A priority Critical patent/CN110825744B/zh
Publication of CN110825744A publication Critical patent/CN110825744A/zh
Application granted granted Critical
Publication of CN110825744B publication Critical patent/CN110825744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于集群环境的空气质量监测大数据分区存储方法,该方法包括以下步骤:S1设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表;S2为每个自动化监测站数据表添加CHECK约束;S3根据多维度的统计需求,提取数据表的相应字段分量作为新的分区维度,然后使用UNION ALL操作符,将所有的监测站点数据表构建v_All_Samples分区视图;S4配置能用于Hadoop、Spark集群的Eclipse开发环境,生成SparkSesion对话实例sparkHBAir,以jdbc的方式连接SQL Server数据库服务器,将v_All_Samples读取到Spark集群中的hbairData数据集中;S5对hbairData数据集进行分区,获得对hbairData数据集进行多维度、分层次的分区存储。本发明方法对比传统的关系数据库分区视图技术,在大规模数据的操作方面有明显的效率优势。

Description

一种基于集群环境的空气质量监测大数据分区存储方法
技术领域
本发明涉及大数据存储技术,尤其涉及一种基于集群环境的空气质量监测大数据分区存储方法。
背景技术
环境空气质量监测数据由分布在城市中的自动化监测站产生,经过日积月累,会形成符合4V特征,即规模大、类别多、处理速度快、价值密度低的大数据。根据《环境空气质量指数AQI技术规定》(HJ633-2012),各个自动化监测站需要记录:SO2(二氧化硫),NO2(二氧化氮),PM10(颗粒物粒径小于等于10um),CO(一氧化碳),O3(臭氧),PM2.5(颗粒物粒径小于等于2.5um)这六个污染物的小时均值及相关的气象参数,如风向、风速、大气压、气温、相对湿度的小时均值。省级环境监测总站负责收集汇总所辖的城市的各个自动化监测站的数据,为便于区分各个自动化监测站的数据,一般会在其中心数据库中为每个自动化监测站建立一张数据表,专门用于记录对应自动化监测站的数据。数据汇总到省级中心站数据库后,会对数据进行计算、查询、统计、分析,如计算城区空气质量指数(AQI)、统计某个城市在某个时间范围内的某个污染物的均值,对比某个城市同期的空气污染情况等。为满足对数据进行计算、查询、统计、分析各类需求,需要做以下两个方面的工作。
1、将所有自动化监测站点的数据表以视图的方式进行组合,从而形成包括所有站点数据的全局视图,方便数据的计算、查询、统计、分析。
2、对形成的全局视图进行分区,从而提高计算、查询、统计、分析的效率。
由于省级中心站数据库中记录每个自动化监测站的数据表的结构是相同的,对于SQL Server数据库管理系统,可以使用分区视图技术来完成前述的两个方面的工作。分区视图技术根据各个成员数据表中的某个列的取值范围对数据进行分区,每个成员表为分区所依据的列指定了CHECK约束,从而限定其取值范围。然后使用UNION ALL操作符将选定的所有成员数据表组合成全局视图。引用该视图的SELECT语句为分区依据列指定搜索条件后,查询分析器将使用CHECK约束来确定查询哪个成员表中的记录。
SQL Server的分区视图只能使用对数据表的CHECK约束,对一个字段进行限定,且该字段为分区的依据,但数据统计是多维的,对于前面的示例,假设需要按公司的各个部门来统计销售额,由于分区的依据是季节(Season),故对全局视图只能进行全部扫描才能得到各个部门的销售额。Hive的数据分区技术,以多个字段对数据进行层次分区,分区的结果以文件的形式存储在hdfs文件系统中,从而更加适合于大规模数据的多维统计分析,同时由于Hive SQL的执行是以MapReduce的方式分布式进行的,所以可以显著的缩短数据计算、查询、统计、分析所需要的时间,提高效率。本发明针对空气质量监测大数据,提出了一种在集群(Hadoop、Spark)环境下,基于Hive进行分区存储的新方法,实验证明,该新方法较传统的关系数据库分区视图技术,在大规模数据的计算、统计、分析方面有明显的优势。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于集群环境的空气质量监测大数据分区存储方法。
本发明解决其技术问题所采用的技术方案是:一种基于集群环境的空气质量监测大数据分区存储方法,包括以下步骤:
S1:设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表,所述数据表包括:数据名称、数据类型、是否为主属性、说明;
其中,数据名称包括以下字段:SStation(站点编码)、SID(污染物及气象参数编码)、SDataTime(记录时间)、SValue(监测值)、SSamples(样本数)、SMark(仪器工作状态)、SMID(监测值的单位);
S2:为每个自动化监测站数据表添加CHECK约束;
S3:根据多维度的统计需求,提取数据表的相应字段分量作为新的分区维度,然后使用UNION ALL操作符,将所有的监测站点数据表构建v_All_Samples分区视图;
S4:配置能用于Hadoop、Spark集群的Eclipse开发环境,生成SparkSesion对话实例sparkHBAir,以jdbc的方式连接SQL Server数据库服务器,将v_All_Samples读取到Spark集群中的hbairData数据集中;
S5:对hbairData数据集进行分区,获得对hbairData数据集进行多维度、分层次的分区存储。
按上述方案,所述S1中,SStation字段格式为第1至2位为站点标记,第3至6位为地区编码,第7至9位为序列号编码。
按上述方案,所述S1中,SDataTime字段格式为ISO标准格式。
按上述方案,所述S2中,为每个自动化监测站数据表添加CHECK约束为根据查询分析需求对作为视图分区依据的字段进行数值约束。
按上述方案,所述S2中,为每个自动化监测站数据表添加CHECK约束为对站点编码字段设为定值。
按上述方案,所述S3中,所述相应字段为主属性字段中的对应字段。
按上述方案,所述S3中,提取数据表的相应字段分量包括提取每个记录的SStation分量的第3至6位地区编码Region,提取SDataTime分量的1至4位年份Year,并将Region和Year作为新的分区维度。
本发明产生的有益效果是:本发明方法使用Hive分区表,避免了SQL Server分区视图技术只能以一个字段作为分区依据的缺陷,多维度的层次分区使得分区的粒度更小,在进行数据操作时,只读入所需要的分区文件,从而避免了对所有数据表的扫描,减少了文件I/O操作,显著提高了数据计算、查询、统计、分析的性能。实验证明,该方法较传统的关系数据库分区视图技术,在大规模数据的操作方面有明显的效率优势。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的SQL Server分区视图转换为Hive分区表示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于集群环境的空气质量监测大数据分区存储方法,包括以下几个步骤:
S1:设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表,其结构如表1所示:
表1.监测站小时均值数据记录表结构
Figure BDA0002255904840000061
S2:为每个自动化监测站数据表添加CHECK约束,如SStation=‘SS4201001’,表示该数据表只能记录站点编码为‘SS4201001’空气质量污染物及气象参数的小时均值数据。站点编码(SStation)字段为视图的分区依据;
S3:使用UNION ALL操作符,将所有的监测站点数据表表示为一个分区视图。
为方便对数据进行多维度的统计分析,提取每个记录的SStation分量的第3至6位为地区编码(Region),提取SDataTime分量的1至4位为年份(Year),作为新的分区维度构建分区视图v_All_Samples。
具体过程描述为:
SELECT SUBSTRING(SStation,3,6)as Region,SStation,SID,SUBSTRING(SDateTime,1,4)AS Year,SDateTime,SValue,SSamples,SMark,SMID
FROM监测站点数据表1
UNION ALL
SELECT SUBSTRING(SStation,3,6)as Region,SStation,SID,SUBSTRING(SDateTime,1,4)AS Year,SDateTime,SValue,SSamples,SMark,SMID
FROM监测站点数据表2
UNION ALL
...
SELECT SUBSTRING(SStation,3,6)as Region,SStation,SID,SUBSTRING(SDateTime,1,4)AS Year,SDateTime,SValue,SSamples,SMark,SMID
FROM监测站点数据表n
SQL Server数据库中v_All_Samples视图的结构如表2所示:
表2.分区视图v_All_Samples结构
Figure BDA0002255904840000091
S4:配置能用于Hadoop、Spark集群的Eclipse开发环境,生成SparkSesion对话实例sparkHBAir,以jdbc的方式连接SQL Server数据库服务器,将v_All_Samples读取到Spark集群中的hbairData数据集中。实现的伪代码描述如下:
//生成SparkSession对话实例
SparkSession sparkHBAir=SparkSession
.builder()
.appName("Spark的项目名称")
.master("Spark集群主节点地址")//例如:"spark://192.168.2.151:7077"
.config(key,value)//Spark集群环境参数配置
.enableHiveSupport()
.getOrCreate();
spark.sparkContext().addJar("加载到Spark集群的jar包的本地路径");
//设置SQL Server数据库的用户名及密码
Properties connectionProperties=new Properties();
connectionProperties.put("user","用户名");
connectionProperties.put("password","密码");
//读取视图v_ALL_Samples到Spark集群的hbairData数据集
Dataset<Row>hbairData=spark.read()
.jdbc("jdbc:sqlserver://数据库服务器IP地址;databaseName=数据库名称",
"v_ALL_Samples",connectionProperties);
S5:对hbairData数据集进行分区,按"Region","SStation","SID","Year"的次序对hbairData数据集进行多维度、分层次的分区存储。
实现的伪代码描述如下:
hbairData
.write()
.mode(SaveMode.Overwrite).format("json")
.partitionBy("Region","SStation","SID","Year")
.saveAsTable("emcdb.HBAirData");
以Hive分区表存储在集群环境中的空气质量环境监测数据的结构为:
Figure BDA0002255904840000121
其中“XXXX年监测数据文件”为Hive分区表的实际分区文件,对于:
Figure BDA0002255904840000122
其中的“2015年监测数据文件”,所包含的记录为湖北省武汉市,东湖梨园监测站,污染物PM10,2015年的所有小时均值。使用Hive分区表,避免了由于SQL Server分区视图技术只能以一个字段作为分区依据的缺陷,多维度的层次分区使得分区的粒度更小,在进行数据操作时,只读入所需要的分区文件,从而避免了对所有数据表的扫描,减少了文件I/O操作,显著提高了数据计算、查询、统计、分析的性能。将记录所有监测站点小时均值数据的SQL Server全局分区视图转换为Hive分区表的示意图见说明书附图1。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚明白。设计统计污染物均值的实验来对比相同配置的服务器环境下,SQL Server数据库分区视图和Spark集群Hive分区表之间的性能差异。实验采用两台配置相同DELL PowerEdge R720服务器(A,B)。具体配置为:两个物理CPU(Intel Xeon E5-2620 V2 2.10GHZ,每个CPU含6个内核,共12个内核),32G内存,8T硬盘,4个物理网卡。A服务器安装Windows Server 2008操作系统,SQL Server 2012数据库管理系统。B服务器安装VMWare esxi6.0.0操作系统,虚拟化服务器环境。客户端使用VMWare VSphere client 6.0.0将服务器划分为4个虚拟机,每个虚拟机的配置为3内核CPU,8G内存,2T硬盘,1个物理网卡。每个虚拟机安装ubuntu-16.04.1-server-amd64操作系统,Hadoop-2.7.3及Spark-2.1.1分布式计算平台,组成含1个主节点,4个数据节点(主节点也是数据节点)的集群,Hive的版本为2.1.1。
设计以下的四个求污染物均值的查询语句:
查询1:计算某个污染物在某个指定年份的均值。
查询2:计算某个污染物所有年份的均值。
查询3:计算某个指定年份的所有污染物均值
查询4:计算所有污染物、所有年份的均值
四个查询分别使用以下三个限定范围:
1、查询的范围限定为某个监测站点。
2、查询的范围限定在某个地区。
3、查询的范围没有站点和地区的限定。
使用空气质量污染物小时均值记录个数分别为0.5*109、1*109、2*109、4*109条的四个数据集,在A服务器中以SQL Server分区视图存储,在B服务器中以Hive分区表存储。比较四个查询分别在三个限定范围下所需要的时间,结果如表3、4、5所示。
表3.查询的范围限定为某个监测站点的时间比较
Figure BDA0002255904840000141
由于查询限定了监测站点,因此SQL Server分区视图可以根据CHECK约束定位到监测站点的数据表进行均值的计算,对于记录个数不等的数据集,条件不同的查询,经过查询分析器的优化,所需要的时间差距不大。
对于Hive分区表,查询1假设限定的站点编码为‘SS4201001’,污染物编码为‘EP01’,年份为‘2015’。则计算东湖梨园站,污染物PM10的2015年度均值所需要的分区文件为:
查询2假设限定的站点编码为‘SS4201001’,污染物编码为‘EP01’。则计算东湖梨园站,污染物PM10的所有年度均值所需要的分区文件为:
Figure BDA0002255904840000152
Figure BDA0002255904840000161
查询3假设限定的站点编码为‘SS4201001’,查询年份为‘2015’,则计算东湖梨园站,2015年度所有污染物均值所需要的分区文件为(加粗部分为需查询的文件):
Figure BDA0002255904840000162
Figure BDA0002255904840000171
查询4假设限定的站点编码为‘SS4201001’,则计算东湖梨园站所有污染物、所有年度的污染物均值所对应的分区文件为(加粗部分为需查询的文件):
Figure BDA0002255904840000172
由于在Spark集群环境下对Hive分区表查询需要进行建立线程、分配内存及销毁现场等操作,故对于限定监测站点的四个查询,Hive分区表的查询性能较SQL Server分区视图差。SQL Server分区视图查询速度快的根本原因在于由CHECK约束限定的记录监测数据小时均值的某个数据表的大小一般小于服务器A的内存大小,所以SQL Server查询分析器会把整个数据表读入内存进行均值的计算,Hive分区技术按照分区的层次,逐个读入计算均值所需要的文件到内存后,才进行计算。
表4.查询的范围限定为某个地区的时间比较
Figure BDA0002255904840000181
分析表4的查询结果,可以发现Hive分区技术的查询速度较SQL Server分区视图有了显著的提高,特别是当数据集中的记录个数增加到4*109时,查询3比SQL Server分区视图快了20多倍。原因在于,当查询条件限定为某个地区时,SQL Server分区视图无法通过CHECK约束定位到监测站点的数据表,只能将所有数据表加载到内存中进行均值计算,故当数据集大于A服务器内存大小时,就会出现反复的磁盘I/O操作,从而导致计算均值的效率严重下降。
而Hive分区技术仍然是按照分区的层次,依次读取计算均值所需要的分区文件。以查询3为例,假设限定的地区编码为‘4201’,查询年份为‘2015’,则计算湖北省武汉市,2015年度所有污染物均值所对应的分区文件为(加粗部分为需查询的文件):
Figure BDA0002255904840000191
因此使用Hive分区表,避免了由于SQL Server分区视图技术只能以一个字段作为分区依据的缺陷,多维度的层次分区使得分区的粒度更小,在进行计算、查询、统计、分析时,只读入所需要的分区文件,避免了对所有数据表的扫描,从而减少了文件I/O操作,提高了性能。即便对于查询4,计算湖北省武汉市所有污染物、所有年度的污染物均值,也只需要将Region=‘4201’下的所有分区文件读入内存进行计算,同样避免了对所有分区文件的扫描。
表5.查询的范围没有站点和地区的限定时间比较
Figure BDA0002255904840000201
表5的对比结果是分析当4个查询的范围不做站点和地区限定时,计算污染物均值的性能差异。对于SQL Server分区视图,由于没有了站点的限制,故所有的计算均需要通过全部数据表的扫描才能完成。对于Hive分区表,仅查询4需要扫描所有的分区文件才能完成均值的计算,其它查询只需要扫描部分分区文件,只是扫描的范围加大了,加载到内存中进行计算的分区文件个数增加了而已。即便是对于查询4,计算所有污染物、所有年度的均值,需要对全部分区文件进行扫描,由于Hive分区表的均值计算是基于集群环境下分布式MapReduce框架计算的,其速度在四个不同大小的数据集下,仍然要比传统的SQL Server分区视图的全部数据表扫描要快近1倍。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于集群环境的空气质量监测大数据分区存储方法,其特征在于,包括以下步骤:
S1:设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表,所述数据表包括:数据名称、数据类型、是否为主属性、说明;
其中,数据名称包括以下字段:SStation:站点编码、SID:污染物及气象参数编码、SDataTime:记录时间、SValue:监测值、SSamples:样本数、SMark:仪器工作状态、SMID:监测值的单位;
S2:为每个自动化监测站数据表添加CHECK约束;
S3:根据多维度的统计需求,提取数据表的相应字段分量作为新的分区维度,然后使用UNION ALL操作符,将所有的监测站点数据表构建v_All_Samples分区视图;
S4:配置能用于Hadoop、Spark集群的Eclipse开发环境,生成SparkSesion对话实例sparkHBAir,以jdbc的方式连接SQL Server数据库服务器,将v_All_Samples读取到Spark集群中的hbairData数据集中;
S5:对hbairData数据集进行分区,获得对hbairData数据集进行多维度、分层次的分区存储。
2.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S1中,SStation字段格式为第1至2位为站点标记,第3至6位为地区编码,第7至9位为序列号编码。
3.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S1中,SDataTime字段格式为ISO标准格式。
4.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S2中,为每个自动化监测站数据表添加CHECK约束为根据查询分析需求对作为视图分区依据的字段进行数值约束。
5.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S3中,所述相应字段为主属性字段中的对应字段。
6.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S3中,提取数据表的相应字段分量包括提取每个记录的SStation分量的第3至6位地区编码Region,提取SDataTime分量的1至4位年份Year,并将Region和Year作为新的分区维度。
CN201911053354.1A 2019-10-31 2019-10-31 一种基于集群环境的空气质量监测大数据分区存储方法 Active CN110825744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911053354.1A CN110825744B (zh) 2019-10-31 2019-10-31 一种基于集群环境的空气质量监测大数据分区存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911053354.1A CN110825744B (zh) 2019-10-31 2019-10-31 一种基于集群环境的空气质量监测大数据分区存储方法

Publications (2)

Publication Number Publication Date
CN110825744A true CN110825744A (zh) 2020-02-21
CN110825744B CN110825744B (zh) 2023-06-20

Family

ID=69551781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911053354.1A Active CN110825744B (zh) 2019-10-31 2019-10-31 一种基于集群环境的空气质量监测大数据分区存储方法

Country Status (1)

Country Link
CN (1) CN110825744B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380275A (zh) * 2021-01-15 2021-02-19 北京金山云网络技术有限公司 数据查询方法、装置及电子设备
CN113239522A (zh) * 2021-04-20 2021-08-10 四川大学 一种基于计算机集群的大气污染物扩散模拟方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN106095862A (zh) * 2016-06-02 2016-11-09 四川大学 集中式可扩展融合型多维复杂结构关系数据的存储方法
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
US20190236169A1 (en) * 2018-01-31 2019-08-01 Salesforce.Com, Inc. Adding a partition to an existing table stored on a distributed file system
CN110334088A (zh) * 2019-07-11 2019-10-15 江苏曲速教育科技有限公司 教育数据管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN106095862A (zh) * 2016-06-02 2016-11-09 四川大学 集中式可扩展融合型多维复杂结构关系数据的存储方法
US20190236169A1 (en) * 2018-01-31 2019-08-01 Salesforce.Com, Inc. Adding a partition to an existing table stored on a distributed file system
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN110334088A (zh) * 2019-07-11 2019-10-15 江苏曲速教育科技有限公司 教育数据管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张威 等: "基于环境空气质量监测大数据二级索引的研究" *
石凯: "车辆监控系统数据存储方法及优化" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380275A (zh) * 2021-01-15 2021-02-19 北京金山云网络技术有限公司 数据查询方法、装置及电子设备
CN112380275B (zh) * 2021-01-15 2021-07-23 北京金山云网络技术有限公司 数据查询方法、装置及电子设备
CN113239522A (zh) * 2021-04-20 2021-08-10 四川大学 一种基于计算机集群的大气污染物扩散模拟方法
CN113239522B (zh) * 2021-04-20 2022-06-28 四川大学 一种基于计算机集群的大气污染物扩散模拟方法

Also Published As

Publication number Publication date
CN110825744B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
CN108255712B (zh) 数据系统的测试系统和测试方法
CN111159191B (zh) 一种数据处理方法、装置和界面
CN108446293A (zh) 一种基于城市多源异构数据构建城市画像的方法
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN110503570A (zh) 一种异常用电数据检测方法、系统、设备、存储介质
US10204111B2 (en) System and method for compressing data in a database
CN111241129B (zh) 一种工业生产企业指标数据采集与计算的系统
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
CN111552813A (zh) 一种基于电网全业务数据的电力知识图谱构建方法
CN111125068A (zh) 一种元数据治理方法和系统
CN108009265B (zh) 一种云计算环境下的空间数据索引方法
Ceci et al. Big data techniques for supporting accurate predictions of energy production from renewable sources
CN110825744B (zh) 一种基于集群环境的空气质量监测大数据分区存储方法
CN112926852A (zh) 一种基于数据融合的大气生态环境分析方法
CN117171135A (zh) 一种用户行为分析建模方法、分析方法及系统
CN110888861A (zh) 一种新型大数据存储方法
CN114443656A (zh) 一种可定制的自动化数据模型分析工具及其使用方法
CN112540987A (zh) 一种基于数据集市的配用电大数据管理系统
CN108062395A (zh) 一种轨道交通大数据分析方法及系统
CN113284573A (zh) 一种文档数据库检索方法与装置
CN112306421A (zh) 一种用于存储分析测量数据格式mdf文件的方法和系统
CN110032523A (zh) 柴油机装配试验基于地址位动态定义的寄存器存储方法
CN114817661B (zh) 基于ip地址画像的大规模ip自动分类方法、装置和介质
CN117271480B (zh) 数据处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant