CN117931914A - 一种煤炭数据处理系统及其处理方法 - Google Patents

一种煤炭数据处理系统及其处理方法 Download PDF

Info

Publication number
CN117931914A
CN117931914A CN202410035443.8A CN202410035443A CN117931914A CN 117931914 A CN117931914 A CN 117931914A CN 202410035443 A CN202410035443 A CN 202410035443A CN 117931914 A CN117931914 A CN 117931914A
Authority
CN
China
Prior art keywords
data
coal
module
cleaning
storage module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410035443.8A
Other languages
English (en)
Inventor
潘浩
张欢
张龙宇
杨震威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Rongtong Digital Chain Coal Technology Co ltd
Original Assignee
Inner Mongolia Rongtong Digital Chain Coal Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Rongtong Digital Chain Coal Technology Co ltd filed Critical Inner Mongolia Rongtong Digital Chain Coal Technology Co ltd
Priority to CN202410035443.8A priority Critical patent/CN117931914A/zh
Publication of CN117931914A publication Critical patent/CN117931914A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种煤炭数据处理系统,包括:煤炭数字化互联网系统:存储多种煤炭数据;数据采集模块:采集煤炭数字化互联网系统内的煤炭数据,将煤炭数据转换为统一的编码格式,转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;数据存储模块:存储所需的信息、需要的煤炭数据;数据处理清洗模块:抽取数据存储模块内所需的信息,对抽取的所需的信息进行清洗转换,得到需要的煤炭数据;查询模块:用于读取数据存储模块内的数据并进行解析,进行展示;将不同格式的煤炭数据转换为统一编码,清洗处理后,将所需数据从海量数据中提取出来通过文档或可视化进行展示,帮助煤炭相关从业人员判断市场情况。

Description

一种煤炭数据处理系统及其处理方法
技术领域
本申请涉及煤炭数据处理技术领域,具体涉及一种煤炭数据处理系统及其处理方法。
背景技术
煤矿智能化是煤炭工业高质量发展的核心技术支撑,将人工智能、大数据等与现代煤炭开发利用深度融合,形成实时互联、分析决策、动态预测、协同控制的智能系统,对于保障煤炭稳定供应具有重要意义;煤炭行业积极响应国家号召,紧跟技术发展趋势,在互联网领域进行了积极探索,在此背景下,煤炭行业数字化带来的海量数据需要进行存储、整理、利用。
目前煤炭行业数字化存在数据量大、格式不一、存储方式不一致等问题,现有技术中对于煤炭数据的处理主要为单一数据的处理,如中国专利申请号为:CN202310797060.X的煤炭检测数据处理方法及系统、计算机可读储存介质专利申请中,该专利申请的技术方案仅仅对煤炭检测数据进行处理;中国专利申请号为:CN201810615902.4的用于煤炭贸易的交易数据处理方法及装置、服务器专利申请中,该专利的技术方案仅仅对煤炭贸易的交易数据进行处理,单元数据的处理,无法实现解决多种煤炭数据的数据量大、格式不一、存储方式不一致的问题。
申请人通过:煤炭、数据、种类、格式、文档、可视化等作为关键词进行检索,并未检索到对不同种类的煤炭数据进行处理,从而解决数据量大、格式不一、存储方式不一致的问题的技术方案。
综上,本申请需要需要提供一种新的技术方案来解决上述技术问题。
发明内容
本申请提供了一种煤炭数据处理系统,包括:
煤炭数字化互联网系统:用于存储多种煤炭数据;
数据采集模块:采集煤炭数字化互联网系统内的煤炭数据,将所有煤炭数据转换为统一的编码格式,转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;
数据存储模块:存储数据采集模块内得到的所需的信息、存储清洗处理得到的需要的煤炭数据;
数据处理清洗模块:抽取数据存储模块内所需的信息,对抽取的所需的信息进行清洗转换,得到需要的煤炭数据,并将得到的需要的煤炭数据存储于数据存储模块内;
查询模块:用于读取数据存储模块内的数据并进行解析,通过Web端进行展示。
作为一种优选方案,所述煤炭数据处理系统还包括任务调度模块,任务调度模块与数据采集模块和/或数据处理清洗模块连接,任务调度模块对数据采集模块的数据采集任务和/或数据处理清洗模块的数据清洗任务进行定时调度设定,实现数据的自动化采集和/或自动化处理清洗。
作为一种优选方案,所述任务调度模块内设置有告警模块,定时调度任务失败后,通过告警模块进行告警处理。
作为一种优选方案,所述数据存储模块中以压缩的形式进行数据的存储。
作为一种优选方案,所述数据处理清洗模块包括抽取模块、转换模块、加载模块,所述抽取模块用于读取数据存储模块内以压缩形式存储的所需的信息,并对其进行抽取;转换模块用于对抽取模块内得到的所需的信息进行清洗转换,得到需要的煤炭数据;加载模块:用于对得到的需要的煤炭数据以压缩文件的形式存储在数据存储模块内。
作为一种优选方案,所述查询模块包括即席查询模块,即席查询模块内解析的数据在Web端通过文字或列表的形式进行展示。
作为一种优选方案,所述即席查询模块包括登录认证模块。
作为一种优选方案,所述查询模块包括数据可视化展示模块,数据可视化展示模块内解析的数据在Web端通过超文本形式进行数据可视化查询。
作为一种优选方案,所述超文本形式包括图像、音频、视频中的至少一种形式。
作为一种优选方案,所述可视化展示模块包括登录认证模块。
一种煤炭数据处理方法,包括如下步骤:
S1:数据采集模块采集煤炭数字化互联网系统内的煤炭数据,将所有煤炭数据转换为统一的编码格式,转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;
S2:S1中得到的所需的信息存储于数据存储模块内;
S3:抽取数据存储模块内的所需的信息,并对抽取的所需的信息进行清洗转换,得到需要的煤炭数据,并将得到的需要的煤炭数据存储于S2中的数据存储模块内;
S4:通过查询模块查询数据存储模块内的所有数据并对数据进行解析,通过Web端进行展示。
作为一种优选方案,所述S2中得到的所需的信息以压缩文件的形式存储于数据存储模块内。
作为一种优选方案,所述S3包括:
S31:抽取模块用于读取数据存储模块内以压缩形式存储的所需的信息,并对其进行抽取;
S32:转换模块用于对抽取模块内得到的所需的信息进行清洗转换,得到需要的煤炭数据;
S33:加载模块用于对得到的需要的煤炭数据以压缩文件的形式存储在数据存储模块内。
作为一种优选方案,所述S3和S4之间还包括S301,任务调度模块对数据采集模块的数据采集任务和/或数据处理清洗模块的数据清洗任务进行定时调度设定,实现数据的自动化采集和/或自动化处理清洗。
本申请通过大数据技术存储并进行数据处理,将不同格式的煤炭数据转换为统一编码格式,转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;清洗处理后,得到需要的煤炭数据,将所需数据从海量数据中提取出来通过文档或可视化进行展示,从而能够帮助煤炭相关从业人员判断市场情况,进而做出更准确的决策。
附图说明
图1是本申请的结构示意框图;
具体实施方式
以下结合附图1对本发明的具体实施方式进行详细说明。应当说明的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
实施例一:
本实施例提供了一种煤炭数据处理系统,包括:
煤炭数字化互联网系统:用于存储多种煤炭数据,如多种格式不一的煤炭数据,例,文字形式的数据、图片格式的数据等;更具体为:煤炭数据包括,煤炭的价格信息数据、煤炭质量相关信息数据、煤炭库存相关信息数据、煤炭运输运费价格信息数据等,上述煤炭数据的存储方式不限于数据库、文字文件、图片文件等。
数据采集模块:与煤炭数字化互联网系统连接,采集煤炭数字化互联网系统内的煤炭数据,将所有煤炭数据转换为统一的编码格式;统一的编码格式转换的具体的采集步骤为:C1:读取不同存储方式的数据:利用各个数据库提供的连接器组件,读取各个数据库内的数据,还原为原有的数据类型,如某些图片数字是以MD5码存储,某些是以MD5码加哈希码组合存储,都需要通过特定的连接器组件解析还原为最根本的数据含义,之后进行转换处理;C2:读取不同格式的数据:读取到的各个数据库内的数据,利用Hive工具,通过HQL将其中不同格式的数据统一转换为编码处理;
转换为统一编码格式后的煤炭数据会配置好相关算法,所有煤炭数据都会根据煤炭数据的模式进行维度划分,其中维度包括时间维度和地点维度,维度划分的过程利用Hive工具,通过HQL进行,如:煤炭数据细分为煤炭行业的价格信息数据、煤炭质量相关信息数据、煤炭库存相关信息数据、煤炭运输运费价格信息数据等,这几类信息的划分模式和信息的类别有关,如,价格信息就按照价格信息的模式去划分,库存相关的信息就按库存的模式去划分,每一种模式都有独立的配置;优选地,特定的信息还会有分配不同的维度存储方式,特定信息具体为客户要求的信息,根据客户的不同而不同,如:客户需要知道秦皇岛2023年12月12日拉运的车辆数,但是客户还需要知道这些车辆中有哪些是单次拉运超过35吨的大型运输汽车,这样特定的信息就是拉运汽车的运输量,按照这个维度分配这种特定信息进行存储,给客户特定的结果,满足客户的需求。
划分后还会补充其他维度信息,其他的维度信息的来源一般为外部获取,与煤炭数字化互联网系统内的煤炭数据相结合,补充细节,相辅相成得到所需的信息,所需的信息是通过Hive转换为统一的编码后,再和原有的煤炭互联网系统内的煤炭数据进行结合得到的:
如:价格信息数据,除了会根据时间维度及地点维度划分外,增加了矿区维度、煤质维度、折扣维度等,能够在信息采集模块快速有效获取产品除当期价格外的其他价格信息(涨或跌)。
如:库存信息数据,除了会根据时间维度及地点维度划分外,还会通过调用天气软件系统接口,在季节维度、天气维度、仓储费用等进行划分,能够在数据采集模块快速有效获取产品除当期库存外的其他外部因素信息;
如:运价信息数据,除了会根据时间维度及地点维度划分外,还会通过调用地图软件系统接口,在里程维度、道路畅通维度、油价维度等进行划分,能够在数据采集模块快速有效获取产品除当期运价外的其他外部因素信息。
其他的维度信息不仅仅包括煤炭数据,也包括非煤炭数据,如:上述的季节维度、天气维度,其不属于煤炭信息,但是季节、天气会影响煤炭运输价格,所以季节维度、天气维度属于其他的维度信息;上述的矿区维度,属于煤炭数据,但是这种数据不属于煤炭数字化互联网系统内的煤炭数据,也属于其他的维度信息。
数据存储模块:与数据采集模块、数据处理清洗模块连接,存储所需的信息、存储清洗处理后得到的需要的煤炭数据;数据存储模块内设置有大数据文件存储系统,具备扩容存储大小的功能,便于后期能够有效维护;数据采集模块内统一转换为编码处理的数据,运用Sqoop及DataX工具,以Hive形式存储于HDFS;该数据存储模块具有如下特点:(1)存储使用HDFS(Hadoop File System),压缩选择GZip方式,具备扩容存储大小的功能;(2)压缩数据文件:调用Hadoop的数据压缩功能,将文件压缩为GZip格式,节约磁盘空间;(3)具备扩容存储大小的功能:整个HDFS运用数据集群部署,能够通过增删节点的方式缩减或扩展存储容量,后期能够有效维护;
数据处理清洗模块:与数据存储模块连接,抽取数据存储模块内所需的信息,并对抽取的所需的信息进行清洗转换,得到需要的煤炭数据,并将得到的需要的煤炭数据存储于数据存储模块内;更具体地,所述数据处理清洗模块包括抽取模块、转换模块、加载模块,三个模块可以有效处理数据,完成数据的清洗加工,将加工好的所需数据存储至HDFS。
抽取模块用于读取数据存储模块内以压缩形式存储的所需的信息,并对其进行抽取;具体为运用Hive工具,通过SparkOnHive核心,对存储于HDFS上的压缩数据进行抽取读取,有效还原;
转换模块用于对抽取模块内得到的所需的信息进行清洗转换,得到需要的煤炭数据;具体为运用Hive工具,通过HQL对读取到的数据进行加工,得到需要的煤炭数据;需要的煤炭数据是指煤炭行业的价格信息数据、煤炭质量相关信息数据、煤炭库存相关信息数据、煤炭运输运费价格信息数据等,因为此类信息数据具有数据量大、数据量杂,时效性高等特点,通过转换模块能够得到客户需要的及时的数据信息;如:2023年12月11日从秦皇岛收集到煤炭互联网系统的价格信息数据有某交易网的872条、某煤网1623条、某资源网744条、某市场网328条、我们自己线下录入1354条,共计4921条,其中录入错误的信息(价格为负数、0等)有347条把错误的先过滤掉;而目前客户所需的信息是从陕西到秦皇岛的价格,这样过滤下来就只有164条符合标准,陕西还分为陕北陕南,由于距离的原因运价会有偏差,客户属于陕北,则需要过滤掉目的地为陕南城市的价格信息,最终处理的结果就是44条秦皇岛到陕北的价格信息,返给客户的可以是44条价格信息的平均数、众数、中位数。
再如:客户会需要2012年的黄骅港港口煤炭库存整年变化,这要就需要在煤炭互联网系统数据库内寻找2012年的数据信息,之后经过上述步骤,层层处理得到想要的信息。
加载模块:用于对得到的需要的数据以压缩文件的形式存储在数据存储模块内;具体为运用Sqoop及DataX工具,将加工好的所需数据存储至HDFS;即将清洗转换后的数据存储于数据处理清洗模块内;
上述数据采集模块中得到的所需的信息以及转换模块中得到的需要的煤炭数据,都是煤炭数字化互联网系统内的煤炭数据加上其他的维度信息所得到的。
查询模块:与数据存储模块连接,用于读取数据存储模块内的数据并进行解析,通过Web端进行展示;更具体地,所述查询模块包括即席查询模块,即席查询模块用于读取数据存储模块内的压缩的数据文件并进行解析,解析的数据在Web端通过文字或列表的形式进行展示,优选地,所述即席查询模块包括登录认证模块,只有通过认证的用户能够使用即席查询功能;更具体地,通过Hue及Presto,对HDFS内的处理后数据(包括转换统一格式的数据和清洗转换后的数据)进行即席查询。
所述查询模块包括数据可视化展示模块,数据可视化展示模块能够从数据存储模块内读取压缩的数据文件并进行解析,解析的数据在Web端通过超文本形式进行数据可视化查询,超文本形式包括图像、音频、视频中至少一种形式,进而实现数据可视化功能,所述可视化展示模块包括登录认证模块,只有通过认证的用户能够使用数据可视化功能;更具体地,通过DataEase及其他BI软件,对HDFS内的处理后数据进行数据可视化。
本实施例运用大数据技术对煤炭行业数字化的海量数据进行采集,通过统一方式的存储并进行数据处理,将所需数据从海量数据中提取出来通过WEB端以文档或可视化的形式进行展示,便于查询;利用此系统可以有效解决目前煤炭行业数字化存在数据量大、格式不一、存储方式不一致等问题,通过运用大数据技术存储数据并进行数据处理以WEB端展示,从而能够帮助煤炭相关从业人员判断市场情况,进而做出更准确的决策。
实施例二:
本实施例中数据的采集和/或清洗转换能够进行自动化处理,即可以单独对数据的采集进行自动化处理、可以单独对清洗转换进行自动化处理、也可以对数据的采集和清洗转换进行共同的自动化处理,具体地:
所述煤炭数据处理系统还包括任务调度模块,任务调度模块与数据采集模块和/或数据处理清洗模块连接,任务调度模块对数据采集模块的数据采集任务和/或数据处理清洗模块的数据清洗任务进行定时调度设定,实现数据的自动化采集和/或自动化处理清洗;更具体地:通过Dolphinscheduler程序编排,对数据采集模块及数据处理清洗模块中的程序任务进行定时任务调度,确保数据采集模块和/或数据处理清洗模块能够在特定时间定时启动运行,完成其特定的功能任务。
优选地,所述任务调度模块内设置有告警模块,定时调度任务失败后,通过告警模块进行告警处理;告警模块可以通过声光的形式进行告警,也可以通过电话、邮件、短信等形式对系统管理人员进行告警。
实施例三:
本实施例提供了一种煤炭数据处理方法,包括如下步骤:
S1:数据采集模块采集煤炭数字化互联网系统内的煤炭数据,将所有煤炭数据转换为统一的编码格式;更具体地,包括C1和C2,C1:利用各个数据库提供的连接器组件,读取煤炭数字化互联网系统各个数据库内的数据,还原为原有的数据类型;C2:读取到的各个数据库内的数据,利用Hive将其中不同格式的的数据统一转换为编码处理;转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;具体参考实施例一,在此不做具体赘述;
S2:S1中得到的所需的信息存储于数据存储模块内;所需的信息运用Sqoop及DataX工具,以Hive形式存储于HDFS,所需的信息以压缩的形式进行存储,压缩选择GZip方式,且数据存储模块具备扩容存储大小的功能;
S3:抽取数据存储模块内的所需的信息,并对抽取的所需的信息进行清洗转换,得到需要的煤炭数据,并将得到的需要的煤炭数据存储于S2中的数据存储模块内,具体包括如下步骤:
S31:抽取模块用于读取数据存储模块内以压缩形式存储的所需的信息,并对其进行抽取;运用Hive工具,通过SparkOnHive核心,对存储于HDFS上的压缩数据进行抽取读取,有效还原;
S32:转换模块用于对抽取模块内得到的所需的信息进行清洗转换,得到需要的煤炭数据;运用Hive工具,通过HQL对读取到的数据进行加工,得到所需要的煤炭数据;
S33:加载模块用于对得到的需要的煤炭数据以压缩文件的形式存储在数据存储模块内;运用Sqoop及DataX工具,将加工好的需要的煤炭数据存储至HDFS;
S4:通过查询模块查询数据存储模块内的所有数据并对数据进行解析,通过Web端进行展示;
查询方式主要有两种,一种为即席查询模块用于读取数据存储模块内的压缩的数据文件并进行解析,解析的数据在Web端通过文字或列表的形式进行展示,即通过Hue及Presto,对HDFS内的处理后数据进行即席查询;
另外一种为数据可视化展示模块能够从数据存储模块内读取压缩的数据文件并进行解析,解析的数据在Web端通过超文本形式进行数据可视化查询,超文本形式包括图像、音频、视频中至少一种形式,进而实现数据可视化功能,即通过DataEase及其他BI软件,对HDFS内的处理后数据进行数据可视化。
优选地,所述S3和S4之间还包括S301,任务调度模块对数据采集模块的数据采集任务和/或数据处理清洗模块的数据清洗任务进行定时调度设定,实现数据的自动化采集和/或自动化处理清洗;具体地:通过Dolphinscheduler程序编排,对数据采集模块和/或数据处理清洗模块中的程序任务进行定时任务调度,确保数据采集模块和/或数据处理清洗模块能够在特定时间定时启动运行,完成其特定的功能任务。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,申请其同样应当视为本申请所公开的内容。

Claims (10)

1.一种煤炭数据处理系统,其特征在于,包括:
煤炭数字化互联网系统:用于存储多种煤炭数据;
数据采集模块:采集煤炭数字化互联网系统内的煤炭数据,将所有煤炭数据转换为统一的编码格式,转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;
数据存储模块:存储数据采集模块内得到的所需的信息、存储清洗处理后需要的煤炭数据;
数据处理清洗模块:抽取数据存储模块内所需的信息,对抽取的所需的信息进行清洗转换,得到需要的煤炭数据,并将得到的需要的煤炭数据存储于数据存储模块内;
查询模块:用于读取数据存储模块内的数据并进行解析,通过Web端进行展示。
2.根据权利要求1所述的一种煤炭数据处理系统,其特征在于,还包括任务调度模块,任务调度模块与数据采集模块和/或数据处理清洗模块连接,任务调度模块对数据采集模块的数据采集任务和/或数据处理清洗模块的数据清洗任务进行定时调度设定,实现数据的自动化采集和/或自动化处理清洗。
3.根据权利要求1所述的一种煤炭数据处理系统,其特征在于,所述数据存储模块中以压缩的形式进行数据的存储。
4.根据权利要求3所述的一种煤炭数据处理系统,其特征在于,所述数据处理清洗模块包括抽取模块、转换模块、加载模块,所述抽取模块用于读取数据存储模块内以压缩形式存储的所需的信息,并对其进行抽取;转换模块用于对抽取模块内得到的所需的信息进行清洗转换,得到需要的煤炭数据;加载模块:用于对得到的需要的煤炭数据以压缩文件的形式存储在数据存储模块内。
5.根据权利要求1所述的一种煤炭数据处理系统,其特征在于,所述查询模块包括即席查询模块,即席查询模块内解析的数据在Web端通过文字或列表的形式进行展示。
6.根据权利要求1所述的一种煤炭数据处理系统,其特征在于,所述查询模块包括数据可视化展示模块,数据可视化展示模块内解析的数据在Web端通过超文本形式进行数据可视化查询。
7.一种煤炭数据处理方法,其特征在于,包括如下步骤:
S1:数据采集模块采集煤炭数字化互联网系统内的煤炭数据,将所有煤炭数据转换为统一的编码格式,转换格式后的煤炭数据根据维度进行划分,划分后补充其他维度信息,得到所需的信息;
S2:S1中得到的所需的信息存储于数据存储模块内;
S3:抽取数据存储模块内的所需的信息,并对抽取的所需的信息进行清洗转换,得到需要的煤炭数据,并将得到的需要的煤炭数据存储于S2中的数据存储模块内;
S4:通过查询模块查询数据存储模块内的所有数据并对数据进行解析,通过Web端进行展示。
8.根据权利要求7所述的一种煤炭数据处理方法,其特征在于,所述S2中得到的所需的信息以压缩文件的形式存储于数据存储模块内。
9.根据权利要求8所述的一种煤炭数据处理方法,其特征在于,所述S3包括:
S31:抽取模块用于读取数据存储模块内以压缩形式存储的所需的信息,并对其进行抽取;
S32:转换模块用于对抽取模块内得到的所需的信息进行清洗转换,得到需要的煤炭数据;
S33:加载模块用于对得到的需要的煤炭数据以压缩文件的形式存储在数据存储模块内。
10.根据权利要求7所述的一种煤炭数据处理方法,其特征在于,所述S3和S4之间还包括S301,任务调度模块对数据采集模块的数据采集任务和/或数据处理清洗模块的数据清洗任务进行定时调度设定,实现数据的自动化采集和/或自动化处理清洗。
CN202410035443.8A 2024-01-10 2024-01-10 一种煤炭数据处理系统及其处理方法 Pending CN117931914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410035443.8A CN117931914A (zh) 2024-01-10 2024-01-10 一种煤炭数据处理系统及其处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410035443.8A CN117931914A (zh) 2024-01-10 2024-01-10 一种煤炭数据处理系统及其处理方法

Publications (1)

Publication Number Publication Date
CN117931914A true CN117931914A (zh) 2024-04-26

Family

ID=90760744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410035443.8A Pending CN117931914A (zh) 2024-01-10 2024-01-10 一种煤炭数据处理系统及其处理方法

Country Status (1)

Country Link
CN (1) CN117931914A (zh)

Similar Documents

Publication Publication Date Title
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
CN113064866B (zh) 一种电力业务数据整合系统
CN102902752A (zh) 一种日志监控方法及系统
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN115795118A (zh) 一种多源异构数据的信息协同处理方法及装置
CN111125284A (zh) 一种一体化时空大数据与地理信息公共服务云平台
CN114547453A (zh) 一种通用top-n智能推荐系统及方法
CN112860899B (zh) 标签生成方法、装置、计算机设备和计算机可读存储介质
CN117171244A (zh) 基于数据中台构建的企业数据管理系统及其数据分析方法
CN113205808A (zh) 一种基于ai咨询云计算搭建方法及系统
CN117931914A (zh) 一种煤炭数据处理系统及其处理方法
CN116992350A (zh) 一种基于大数据的产业供应链优化方法及系统
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储系统
CN113282568B (zh) 一种iot大数据实时时序流分析应用技术方法
CN111813555B (zh) 基于互联网技术的超融合基础架构分层资源管理系统
CN112241428A (zh) 一种数字化决策方法及系统
CN114003774A (zh) 一种用于智慧城市的电力大数据信息采集系统
CN111813873A (zh) 一种实体关系自动发现方法与系统
CN112965948A (zh) 一种基于数据的管理服务中台系统
CN112328604A (zh) 面向时空画像标签管理的数据中台构建方法、系统及介质
CN117078447B (zh) 业务财务联动方法、系统、电子设备及存储介质
CN113392302B (zh) 一种电力外部环境检测的分析系统
CN111368550A (zh) 一种舆情信息管理系统
CN111582799B (zh) 一种物品画像的构建方法及装置
CN117217618A (zh) 一种多维采集-综合汇总模式检查考核执行及分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination