CN112035419A - 一种新型数据中心可视化算法 - Google Patents

一种新型数据中心可视化算法 Download PDF

Info

Publication number
CN112035419A
CN112035419A CN202010807186.7A CN202010807186A CN112035419A CN 112035419 A CN112035419 A CN 112035419A CN 202010807186 A CN202010807186 A CN 202010807186A CN 112035419 A CN112035419 A CN 112035419A
Authority
CN
China
Prior art keywords
data
subsystem
acquisition
module
novel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010807186.7A
Other languages
English (en)
Inventor
郭柳英
于元媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Century Innovation Technology Co ltd
Original Assignee
Hubei Century Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Century Innovation Technology Co ltd filed Critical Hubei Century Innovation Technology Co ltd
Priority to CN202010807186.7A priority Critical patent/CN112035419A/zh
Publication of CN112035419A publication Critical patent/CN112035419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种新型数据中心可视化算法,包括数据采集子系统、数据处理子系统和数据分发子系统,其特征在于:数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题;所述新型数据中心可视化算法还包括有显示界面系统,用于显示上述数据处理过程。本发明利用深度学习技术进行数据处理,同时引入显示系统,可以供后台查看数据处理过程,便于运维。

Description

一种新型数据中心可视化算法
技术领域
本发明涉及大数据处理技术领域,特别涉及一种新型数据中心可视化算法。
背景技术
随着大数据时代到来,传统数据分发需要采用多套部署支撑,存在孤岛现象,使得数据处理速度慢,效率低,尤其对于大规模数据处理情况下,数据分类耗时久。
而且,现有的数据处理模式一般是封闭非可视化的,出现问题后,后台人员很难判断问题原因。
发明内容
本发明针对现有技术中存在的至少一种技术问题,提供一种新型数据中心可视化算法,利用深度学习技术进行数据处理,同时引入显示系统,可以供后台查看数据处理过程,便于运维。
本发明解决上述技术问题的技术方案如下:一种新型数据中心可视化算法,包括数据采集子系统、数据处理子系统和数据分发子系统,其特征在于:数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题;所述新型数据中心可视化算法还包括有显示界面系统,用于显示上述数据处理过程。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
进一步,数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
进一步,模型训练基于卷积神经网络算法实现。
进一步,数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;
模块三:分发任务运行调度,分发任务并进行调度。
本发明具有以下有益效果:
1、本发明能够进行大规模数据管理与数据分发,采用数据采集子系统,在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,对源数据进行分类,以便于后期数据的数据和分发。
2、本发明采用数据处理子系统,基于卷积神经网络算法实现数据信息的分类,并对数据进行统一管理,提高数据处理效率。
3、本发明采用数据分发子系统,解决数据中心内部系统和外部系统之间的数据接口问题,提高数据分发效率。
4、本发明配置了显示系统,能够随时供后台人员查阅数据处理过程,便于后台运维。
附图说明
图1为本发明的整体系统模块图;
图2为本发明的数据采集子系统流程图;
图3为本发明的数据处理子系统流程图;
图4为本发明的数据分发子系统流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参阅图1-图4所示,本发明提供一种技术方案:
本发明提供大规模数据管理与数据分发系统,包括数据采集子系统、数据处理子系统和数据分发子系统,数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。本发明还包括有显示界面系统,用于显示上述数据处理过程,可以供后台人员随时查看,便于运维。
本实施例中,大规模数据管理与数据分发系统基于ETL模块,ETL模块设计规范主要应用于ETL编码的前期工作,主要工作为数据的抽取、转换、装载,正确界定所涉及到的数据范围和应当应用的转换逻辑。
具体的,数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
其中,文件压缩采用哈夫曼树算法,首先必须知道期字符相应的哈夫曼编码。为了得到文件中字符的频率,一般的做法是扫描整个文本进行统计,编写程序统计文件中各个字符出现的频率。由于一个字符的范围在[0-255]之间,即共256个状态,所以可以直接用256个哈夫曼树节点即数组(后面有节点的定义)空间来存储整个文件的信息,节点中包括对应字符信息;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
再进一步的,数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
模型训练基于卷积神经网络算法实现。
此外,模型训练还可以采用贝叶斯定理。
进一步的,数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息,包括可视化的分发配置,如分发编号、分发名称、源类型、源脚本、目标类型、目标表名、周期、类型、增量全量;支持高级配置要素如文件分割符、目标源等。支持默认参数,也支持个性化的调整;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;分发运行的监控可以设置不同的组合条件来筛选所需要的数据,在模块中支持对临时分发的任务进行配置管理、日志清理、数据文件空间清理,以及及时性、波动情况监控等,同时加载拒绝记录数、关键维度字段,进行业务规则检查和稽核;
模块三:分发任务运行调度,分发任务并进行调度;支持自动调度、手工运行、事件触发、系统自动重做。
本发明还提供的数据管理与数据分发方法,采用上述系统,其方法步骤如下:
S1、在接口机上配置云平台处理接口文件,通过数据采集子系统采集数据,并将对应接口数据传输至云平台的数据抽取目录;
S2、云平台对需要抽取的接口进行配置,配置内容包括接口名、文件名规律、接口文件个数等;
S3、数据传输完毕后,气动数据处理子系统对数据进行分类;
S4、数据分类完成后,启动数据分发子系统,基于配置将数据分发到各个数据集市。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种新型数据中心可视化算法,包括数据采集子系统、数据处理子系统和数据分发子系统,其特征在于:数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题;所述新型数据中心可视化算法还包括有显示界面系统,用于显示上述数据处理过程。
2.根据权利要求1所述的一种新型数据中心可视化算法,其特征在于:数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
3.根据权利要求1所述的一种新型数据中心可视化算法,其特征在于:数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
4.根据权利要求3所述的一种新型数据中心可视化算法,其特征在于:模型训练基于卷积神经网络算法实现。
5.根据权利要求1所述的一种新型数据中心可视化算法,其特征在于:数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;
模块三:分发任务运行调度,分发任务并进行调度。
CN202010807186.7A 2020-08-12 2020-08-12 一种新型数据中心可视化算法 Pending CN112035419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010807186.7A CN112035419A (zh) 2020-08-12 2020-08-12 一种新型数据中心可视化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010807186.7A CN112035419A (zh) 2020-08-12 2020-08-12 一种新型数据中心可视化算法

Publications (1)

Publication Number Publication Date
CN112035419A true CN112035419A (zh) 2020-12-04

Family

ID=73577337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010807186.7A Pending CN112035419A (zh) 2020-08-12 2020-08-12 一种新型数据中心可视化算法

Country Status (1)

Country Link
CN (1) CN112035419A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704925A (zh) * 2017-10-16 2018-02-16 清华大学 深度神经网络训练过程的可视分析系统及方法
CN107948254A (zh) * 2017-11-10 2018-04-20 上海华讯网络系统有限公司 混合云平台的大数据处理框架编排系统及方法
CN108319456A (zh) * 2018-01-29 2018-07-24 徐磊 一种免编程深度学习应用的开发方法
CN109241141A (zh) * 2018-09-04 2019-01-18 北京百度网讯科技有限公司 深度学习的训练数据处理方法和装置
CN110533181A (zh) * 2019-07-25 2019-12-03 深圳市康拓普信息技术有限公司 一种深度学习模型的快速训练方法及系统
CN110704371A (zh) * 2019-09-24 2020-01-17 江苏医健大数据保护与开发有限公司 大规模数据管理与数据分发系统及方法
CN110990657A (zh) * 2019-10-30 2020-04-10 九次方大数据信息集团有限公司 一种全流程可视化建模平台

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704925A (zh) * 2017-10-16 2018-02-16 清华大学 深度神经网络训练过程的可视分析系统及方法
CN107948254A (zh) * 2017-11-10 2018-04-20 上海华讯网络系统有限公司 混合云平台的大数据处理框架编排系统及方法
CN108319456A (zh) * 2018-01-29 2018-07-24 徐磊 一种免编程深度学习应用的开发方法
CN109241141A (zh) * 2018-09-04 2019-01-18 北京百度网讯科技有限公司 深度学习的训练数据处理方法和装置
CN110533181A (zh) * 2019-07-25 2019-12-03 深圳市康拓普信息技术有限公司 一种深度学习模型的快速训练方法及系统
CN110704371A (zh) * 2019-09-24 2020-01-17 江苏医健大数据保护与开发有限公司 大规模数据管理与数据分发系统及方法
CN110990657A (zh) * 2019-10-30 2020-04-10 九次方大数据信息集团有限公司 一种全流程可视化建模平台

Similar Documents

Publication Publication Date Title
CN106708815B (zh) 数据处理方法、装置和系统
CN110704371A (zh) 大规模数据管理与数据分发系统及方法
CN102955977A (zh) 一种基于云技术的能效服务方法及其能效服务平台
CN106533754A (zh) 用于高校教学服务器故障诊断的方法及专家系统
CN113064866B (zh) 一种电力业务数据整合系统
CN106874483A (zh) 一种基于大数据技术的图形化的数据质量评测的装置及方法
CN112966772A (zh) 一种多人在线的图像半自动标注方法及系统
CN104680612A (zh) It设备自动巡检的方法
CN102508919A (zh) 数据处理方法及系统
CN113420009B (zh) 一种基于大数据的电磁数据分析装置、系统及方法
CN108108445A (zh) 一种智能数据处理方法和系统
CN112598142B (zh) 一种风电机组检修工作质量审查辅助方法与系统
CN113506098A (zh) 基于多源数据的电厂元数据管理系统及方法
CN115879915B (zh) 一种用于发电厂的跨平台标准化检修方法
CN112035419A (zh) 一种新型数据中心可视化算法
CN112052284A (zh) 一种大数据下的主数据管理方法及系统
CN109523031B (zh) 一种用于深度分析的大数据智能机器学习系统
CN105630997A (zh) 一种数据并行处理方法、装置及设备
CN107122472A (zh) 大规模非结构化数据提取方法、其系统、分布式数据管理平台
CN112184691A (zh) 一种基于不良Map图的缺陷模式分析方法
CN111832805A (zh) 一种基于电力大数据的经济预警分析系统及方法
CN110738333B (zh) 一种基于大数据的生产线运维方法及装置
CN116244369B (zh) 一种基于大数据可视化的数据挖掘方法及系统
CN116011758B (zh) 一种多数据分析智能整合排程系统及方法
CN117057733A (zh) 一种基于智能大脑的电子政务管理平台及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201204