CN114817240A - 基于选煤厂管理平台的数据资源区的数据处理方法 - Google Patents
基于选煤厂管理平台的数据资源区的数据处理方法 Download PDFInfo
- Publication number
- CN114817240A CN114817240A CN202210292114.2A CN202210292114A CN114817240A CN 114817240 A CN114817240 A CN 114817240A CN 202210292114 A CN202210292114 A CN 202210292114A CN 114817240 A CN114817240 A CN 114817240A
- Authority
- CN
- China
- Prior art keywords
- data
- area
- standard
- subject area
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003245 coal Substances 0.000 title claims abstract description 35
- 238000002360 preparation method Methods 0.000 title claims abstract description 34
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000002776 aggregation Effects 0.000 claims abstract description 26
- 238000004220 aggregation Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 238000007726 management method Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 14
- 238000013499 data model Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 238000012423 maintenance Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002898 library design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Marine Sciences & Fisheries (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Evolutionary Computation (AREA)
- Mining & Mineral Resources (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了基于选煤厂管理平台的数据资源区的数据处理方法。该方法的一具体实施方式包括:将数据源中数据直接存入或经结构化处理后存入原始数据区;将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据;对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据;对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。该实施方式提供了一种数据分层治理机制,提高了选煤厂数据的可利用性。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及基于选煤厂管理平台的数据资源区的数据处理方法。
背景技术
目前已建成的多数选煤厂在生产运行阶段拥有多套信息化系统,例如,PLC工控系统,且各系统的建设较为独立,系统功能仅包括简单浏览、查看等,各系统数据未能进行统一的采集、治理及聚合,数据的可利用性差,无法对数据进行挖掘利用。
发明内容
本申请实施例提出了基于选煤厂管理平台的数据资源区的数据处理方法,该方法包括:将数据源中数据直接存入或经结构化处理后存入原始数据区;将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据;对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据;对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
在一些实施例中,将数据源中数据直接存入或经结构化处理后存入原始数据区,包括:将数据源中非结构化数据经机器学习技术处理或进行协议解析与适配后存入原始数据区。
在一些实施例中,原始数据区采用分布式文件存储系统。
在一些实施例中,数据源中包括生产系统数据、工业控制系统实时数据、三维数字化工厂信息管理平台数据与设备维修数据,原始数据区包括皮带秤表、瓦斯监控表、工业控制系统监控表与维修记录表,标准数据区包括皮带标准数据、瓦斯标准数据、工业控制系统标准数据与维修标准数据,数据专题区包括设备数据模型、人员数据模型、空间数据模型与工艺数据模型,应用专题区包括设备管理应用专题、领导驾驶舱专题、辅助决策专题与融合分析专题。
在一些实施例中,原始数据区包括选煤厂基础库、设计基础库、设备基础库与人员基础库,设备基础库对选煤厂设备相关的数据进行统一库表结构设计,并基于数据资源目录编码进行统一存储,选煤厂设备相关的数据包括静态的批量采集的设备基本信息、实时采集的设备运行状态数据与人工填报的重要生产数据。
在一些实施例中,预先设置的标准包括字典标准或业务标准;以及将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据,包括:将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到待确认数据;响应于接收到数据确认操作将待确认数据存入标准数据区。
在一些实施例中,对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据,包括:基于优化的模糊C均值聚类算法对标准数据区的数据进行关联聚合得到数据主题区的数据,优化的模糊C均值聚类算法通过模糊C均值聚类算法选取初始聚类中心,利用梯度法易收敛到鞍点的特征,结合邻近传播算法和最大最小距离算法联合计算初始距离中心。
在一些实施例中,对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据,包括:根据预先设置的应用需求对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
在一些实施例中,方法还包括:根据预先设置的业务需求数据,从数据标准区、数据主题区和/或应用专题区获取场景数据;通过动态数据地图或可视化大屏等呈现场景数据。
在一些实施例中,方法还包括:通过服务接口、数据库同步和/或多租户模式共享数据资源区的数据。
本申请实施例提供的基于选煤厂管理平台的数据资源区的数据处理方法,通过将数据源中数据直接存入或经结构化处理后存入原始数据区;将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据;对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据;对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据,提供了一种数据分层治理机制,提高了选煤厂数据的可利用性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请基于选煤厂管理平台的数据资源区的数据处理方法的一个实施例的流程图;
图2是本申请的一个实施例中数据协议适配与内容解析系统所在位置的一个示意图;
图3是本申请的一个实施例中数据主题分类的一个示意图;
图4是本申请的一个实施例中数据资源区整体设计方案的一个示意图;
图5是本申请的一个实施例中系统整体架构的一个示意图;
图6是适于用来实现本申请的一些实施例的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1,示出了根据本申请的基于选煤厂管理平台的数据资源区的数据处理方法的一个实施例的流程100。该基于选煤厂管理平台的数据资源区的数据处理方法,包括以下步骤:
步骤101,将数据源中数据直接存入或经结构化处理后存入原始数据区。
在本实施例中,选煤厂的数据大致有三种来源:结构化(或半结构化)数据,非结构化数据以及物联网(Internet of Things,IoT)数据。其中包括BIM(Building InformationModeling,建筑信息模型)、MySQL、Oracle、GBase8a、GBase8s、Kafka、CSV以及文本等多源数据。这些数据可以在业务需求调研阶段进行分类整理,然后根据各类数据的特点进行处理与引接,最终都可以汇聚至大数据资源池进行治理、管理及应用。原始数据区用于存放从前置库抽取过来的数据,这些数据的结构和内容均与业务系统保持一致。这些数据可以是静态的批量采集的设备基本信息,实时采集的设备运行状态数据,人工填报的重要生产数据等。
根据源数据层的定位,因此煤炭企业的原始数据信息在数据仓库上保存来自源头、未经过任何修改的原始数据,这些数据保持与源数据格式一致,且一旦在源数据层落地就不在变动,同时,由于源数据层周期性地采集并源头数据,所以它能保存选煤厂基础业务系统里的各个历史数据,这为后续建立相关数据的缓慢变化维度提供了支持。
选煤厂数据仓库中原始数据区的建设,是用于存放原始基础数据。因此需要给原始数据区进行数据库的设计。基础库设计中包含选煤厂基础库、设计基础库、设备基础库、人员基础库等数据库,设备基础库中将对于所有与选煤厂设备有关的数据进行统一库表结构设计,并对于所有设备信息基于数据资源目录编码进行统一存储。
在本实施例的一些可选实现方式中,原始数据区与数据源之间可以设置数据协议适配与内容解析系统,参见图2,图2展示了数据协议适配与内容解析系统在整体架构中的位置。数据协议适配与内容解析系统以数据采集任务为驱动,数据源层中的原始数据资料进入数据协议适配与内容解析系统前置存储,并由数据处理接口进行处理,最终形成结构数据可以导入CPIM(Certified in Planning&Inventory Management,计划和库存管理认证)等大数据平台。
在本实施例的一些可选实现方式中,将数据源中数据直接存入或经结构化处理后存入原始数据区,包括:将数据源中非结构化数据经机器学习技术处理或进行协议解析与适配后存入原始数据区。
在本实施例的一些可选实现方式中,原始数据区采用分布式文件存储系统。原始数据区保存的是大量明细数据及日志数据,且数据量随时时间一直在增长,所以可以采用分布式文件存储系统(例如HDFS)作为原始数据区的物理实现。
在本实施例的一些可选实现方式中,数据源中包括生产系统数据、工业控制系统实时数据、三维数字化工厂信息管理平台数据与设备维修数据,原始数据区包括皮带秤表、瓦斯监控表、工业控制系统监控表与维修记录表,标准数据区包括皮带标准数据、瓦斯标准数据、工业控制系统标准数据与维修标准数据,数据专题区包括设备数据模型、人员数据模型、空间数据模型与工艺数据模型,应用专题区包括设备管理应用专题、领导驾驶舱专题、辅助决策专题与融合分析专题。
在本实施例的一些可选实现方式中,原始数据区包括选煤厂基础库、设计基础库、设备基础库与人员基础库,设备基础库对选煤厂设备相关的数据进行统一库表结构设计,并基于数据资源目录编码进行统一存储,选煤厂设备相关的数据包括静态的批量采集的设备基本信息、实时采集的设备运行状态数据与人工填报的重要生产数据。
步骤102,将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据。
在本实施例中,标准数据区可以由标准以及标准数据组成,标准可以包括字典标准、业务标准以及其他用户需要的标准。
标准数据区的数据,一般来说在结构和模式上仍与原始数据区保持一致,但是数据内容已经经过清洗加工(即数据去重、质量提升等操作),并根据字典标准以及业务标准集进行了数据标准化。这些数据将是后续制作主题区的数据来源。
在本实施例的一些可选实现方式中,预先设置的标准包括字典标准或业务标准;以及将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据,包括:将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到待确认数据;响应于接收到数据确认操作将待确认数据存入标准数据区。字典标准以及业务标准可以从原始数据区抽取数据,再进行标准数据制作。制作完成后,可以在公司、行业范围内进行协商及沟通,只有达成统一共识的标准才能形成最终的公司、行业标准集,以供后续数据标准化之用。
步骤103,对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据。
在本实施例中,主题数据库一般是面向业务主题而进行划分的,所谓的“主题”,即是要基于不同业务领域的数据,去刻画当前“主题”内的所有业务实体(系统,设备,事件等)的属性。可以通过语义分析等方法进行整理、划分和/或关联聚合。
参见图3,在本实施例的一些可选实现方式中,对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据,包括:基于优化的模糊C均值聚类算法(FCM)对标准数据区的数据进行关联聚合得到数据主题区的数据,优化的模糊C均值聚类算法通过模糊C均值聚类算法选取初始聚类中心,利用梯度法易收敛到鞍点的特征,结合邻近传播算法和最大最小距离算法联合计算初始距离中心。针对FCM对初始聚类中心的选取敏感以及梯度法易收敛到鞍点,在此基础上结合邻近传播算法和最大最小距离算法联合计算初始距离中心,以优化模糊C均值聚类算法来提升聚类性能以及选煤厂数据主题分类的准确性。可以通过近邻传播算法从整个样本集中获得Kap(Kap>k)个具有代表性的候选中心点,再利用最大最小距离算法从Kap个候选中心点中选择k个初始聚类中心。最后将选出来的k个初始化距离中心作为FCM的初始距离中心进行数据的主题分类。
总体上说,数据主题区是所有上层数据应用的直接数据来源(少数复杂模型服务可能需要直接从标准数据区甚至原始数据区进行数据采集),设计目的是为了加速应用项目以及主题的开发,所以其逻辑结构需设计得尽量稳定且可扩展性强,能在较长时间内为选煤厂的信息资源提供稳定的服务。
步骤104,对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
在本实施例中,专题数据是侧重于某一专题方向的数据,一般是针对某一特定的应用需求而建立。这种需求可以是某个产品或者业务方向的商业智能(BusinessIntelligence,BI)统计报表展示,可以是某类特定的数据共享交换需求,也可以是某个人工智能(Artificial Intelligence,AI)模型的特征数据。参见图4,可以看到数据资源区整体设计方案,参见图5,可以看到系统整体架构。
专题数据一般直接由主题数据区而来,通过直接的字段筛选,或是进一步的关联聚合得到。反过来说,专题数据区的需求也能推动主题数据区的迭代建设,以补充那些主题区尚未涵盖的字段。
在本实施例的一些可选实现方式中,对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据,包括:根据预先设置的应用需求对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
在本实施例的一些可选实现方式中,方法还包括:根据预先设置的业务需求数据,从数据标准区、数据主题区和/或应用专题区获取场景数据;通过动态数据地图或可视化大屏等呈现场景数据。根据已经治理好的选煤厂多源异构数据,可以形成具体的功能规划,还可以验证和评估选煤厂数据用例的应用效果,评估和预测是否可以达到业务目标。
在本实施例的一些可选实现方式中,方法还包括:通过服务接口(API)、数据库同步和/或多租户模式共享数据资源区的数据。开发服务接口,发布到API市场后,企业内外部的人员可以授权申请使用,最终实现企业内外的数据共享。数据库同步提供面向目标数据源的跨数据源类型转换的数据同步能力,实现直接向目标数据库表以增量或全量的方式推送数据,主要用于企业内部的数据交换。多租户模式让所有用户共享集团统一的数据中台及大数据平台。考虑到选煤厂服务器集群资源和多任务并行,多租户使用时,可以实现多重隔离。
本申请的上述实施例提供的方法通过管理选煤厂的结构化和非结构化数据,可以向生产、运营和维护团队提供准确的信息。在此基础上基于三维空间和网络功能,有利于数字工程模型助力提高资产性能。平台能够对生产中涉及到的数据进行管理记录,所有信息以电子格式存储在安全的数字化信息库里,并且按照具体情境进行分类,包括工作管理记录、材料管理记录、购买记录及运维信息记录等。通过建立文件资料导航可以查找并浏览项目资料文件,实现通过全文检索快速实现文件的在线浏览。支持SVG、PDF、DOC/DOCX、XLS/XLSX、PPT/PPTX、JPG、JPEG、PNG、GIF、TIFF、TIF、MP4、AVI等文件格式。
此外,基于大数据平台的知识图谱,可以进行文本、doc、pdf等格式文件的全文快速,还可以基于业务文档模板、规程规范、管理文件、三维模型、地理信息系统(GeographicInformation System,GIS)数据等建立数据资料的分门分类指标体系,检索查询支持基于关键词的精确、模糊查询,支持多要素复合查询,支持查询结果的快速下载和预览,实现查询结果的分类统计、综合统计功能。
本申请的上述实施例提供的方法通过将数据源中数据直接存入或经结构化处理后存入原始数据区;将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据;对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据;对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据,提供了一种数据分层治理机制,提高了选煤厂数据的可利用性。
下面参考图6,其示出了适于用来实现本申请实施例的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件可以连接至I/O接口605:包括诸如键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:将数据源中数据直接存入或经结构化处理后存入原始数据区;将原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据;对标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据;对数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于选煤厂管理平台的数据资源区的数据处理方法,其中,所述数据资源区包括原始数据区、数据标准区、数据主题区与应用专题区,所述方法包括:
将数据源中数据直接存入或经结构化处理后存入原始数据区;
将所述原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据;
对所述标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据;
对所述数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
2.根据权利要求1所述的方法,其中,所述将数据源中数据直接存入或经结构化处理后存入原始数据区,包括:
将数据源中非结构化数据经机器学习技术处理或进行协议解析与适配后存入所述原始数据区。
3.根据权利要求1所述的方法,其中,所述原始数据区采用分布式文件存储系统。
4.根据权利要求1所述的方法,其中,所述数据源中包括生产系统数据、工业控制系统实时数据、三维数字化工厂信息管理平台数据与设备维修数据,所述原始数据区包括皮带秤表、瓦斯监控表、工业控制系统监控表与维修记录表,所述标准数据区包括皮带标准数据、瓦斯标准数据、工业控制系统标准数据与维修标准数据,所述数据专题区包括设备数据模型、人员数据模型、空间数据模型与工艺数据模型,所述应用专题区包括设备管理应用专题、领导驾驶舱专题、辅助决策专题与融合分析专题。
5.根据权利要求1所述的方法,其中,所述原始数据区包括选煤厂基础库、设计基础库、设备基础库与人员基础库,所述设备基础库对选煤厂设备相关的数据进行统一库表结构设计,并基于数据资源目录编码进行统一存储,所述选煤厂设备相关的数据包括静态的批量采集的设备基本信息、实时采集的设备运行状态数据与人工填报的重要生产数据。
6.根据权利要求1所述的方法,其中,所述预先设置的标准包括字典标准或业务标准;以及所述将所述原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到标准数据区的数据,包括:
将所述原始数据区进行清洗加工并参照预先设置的标准进行数据标准化得到待确认数据;
响应于接收到数据确认操作将所述待确认数据存入所述标准数据区。
7.根据权利要求1所述的方法,其中,所述对所述标准数据区的数据进行整理、划分和/或关联聚合得到数据主题区的数据,包括:
基于优化的模糊C均值聚类算法对所述标准数据区的数据进行关联聚合得到数据主题区的数据,所述优化的模糊C均值聚类算法通过模糊C均值聚类算法选取初始聚类中心,利用梯度法易收敛到鞍点的特征,结合邻近传播算法和最大最小距离算法联合计算初始距离中心。
8.根据权利要求1所述的方法,其中,所述对所述数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据,包括:
根据预先设置的应用需求对所述数据主题区的数据进行字段筛选和/或关联聚合得到应用专题区的数据。
9.根据权利要求1所述的方法,其中,所述方法还包括:
根据预先设置的业务需求数据,从所述数据标准区、数据主题区和/或应用专题区获取场景数据;
通过动态数据地图或可视化大屏等呈现所述场景数据。
10.根据权利要求1-9中任一项所述的方法,其中,所述方法还包括:
通过服务接口、数据库同步和/或多租户模式共享所述数据资源区的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210292114.2A CN114817240A (zh) | 2022-03-24 | 2022-03-24 | 基于选煤厂管理平台的数据资源区的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210292114.2A CN114817240A (zh) | 2022-03-24 | 2022-03-24 | 基于选煤厂管理平台的数据资源区的数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817240A true CN114817240A (zh) | 2022-07-29 |
Family
ID=82531149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210292114.2A Pending CN114817240A (zh) | 2022-03-24 | 2022-03-24 | 基于选煤厂管理平台的数据资源区的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817240A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116455678A (zh) * | 2023-06-16 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 网络安全日志汇接方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818048A (zh) * | 2021-01-28 | 2021-05-18 | 北京软通智慧城市科技有限公司 | 数据仓库的分层构建方法、装置、电子设备及存储介质 |
CN113704567A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 物联网数据管理方法、装置、物联网数据资源池及设备 |
-
2022
- 2022-03-24 CN CN202210292114.2A patent/CN114817240A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818048A (zh) * | 2021-01-28 | 2021-05-18 | 北京软通智慧城市科技有限公司 | 数据仓库的分层构建方法、装置、电子设备及存储介质 |
CN113704567A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 物联网数据管理方法、装置、物联网数据资源池及设备 |
Non-Patent Citations (1)
Title |
---|
张善文,张传雷: "图像模式识别", 29 February 2020, 西安电子科技大学出版社, pages: 114 - 118 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116455678A (zh) * | 2023-06-16 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 网络安全日志汇接方法及系统 |
CN116455678B (zh) * | 2023-06-16 | 2023-09-05 | 中国电子科技集团公司第十五研究所 | 网络安全日志汇接方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11163527B2 (en) | Techniques for dataset similarity discovery | |
CN109684352B (zh) | 数据分析系统、方法、存储介质及电子设备 | |
US11119980B2 (en) | Self-learning operational database management | |
US20200394478A1 (en) | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network | |
CN109388637A (zh) | 数据仓库信息处理方法、装置、系统、介质 | |
CN109446274B (zh) | 大数据平台bi元数据管理的方法和装置 | |
CN112199433A (zh) | 一种用于城市级数据中台的数据治理系统 | |
US20150317374A1 (en) | User-relevant statistical analytics using business intelligence semantic modeling | |
US10019507B2 (en) | Detection and creation of appropriate row concept during automated model generation | |
US11880740B2 (en) | Facilitating machine learning configuration | |
CN113326247B (zh) | 云端数据的迁移方法、装置及电子设备 | |
CN112818048A (zh) | 数据仓库的分层构建方法、装置、电子设备及存储介质 | |
CN115640300A (zh) | 一种大数据管理方法、系统、电子设备和存储介质 | |
CN114817240A (zh) | 基于选煤厂管理平台的数据资源区的数据处理方法 | |
Aliguliyev et al. | Conceptual big data architecture for the oil and gas industry | |
US10877998B2 (en) | Highly atomized segmented and interrogatable data systems (HASIDS) | |
Dong et al. | Scene-based big data quality management framework | |
US11373104B2 (en) | Connecting OBP objects with knowledge models through context data layer | |
Jadhav et al. | A Practical approach for integrating Big data Analytics into E-governance using hadoop | |
Tazeen et al. | A Survey on Some Big Data Applications Tools and Technologies | |
CN114819873A (zh) | 选煤厂管理平台的协议适配与内容解析系统 | |
Bhatt et al. | Programming language and big data applications | |
Sun et al. | TDH: An Efficient One-stop Enterprise-level Big Data Platform | |
Lewis et al. | A Comparative Analysis of Query Processing Techniques for Big Data | |
Pedersen | Managing Big Multidimensional Data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230704 Address after: 300120 building 3, Anshun building, Dafeng Road, Hongqiao District, Tianjin Applicant after: China coal (Tianjin) underground engineering intelligent Research Institute Co.,Ltd. Applicant after: CETC KEDA BIG DATA RESEARCH INSTITUTE Co.,Ltd. Address before: 300120 building 3, Anshun building, Dafeng Road, Hongqiao District, Tianjin Applicant before: China coal (Tianjin) underground engineering intelligent Research Institute Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |