CN115048465A - 一种基于核电厂PaaS平台的数据分类聚合方法及系统 - Google Patents
一种基于核电厂PaaS平台的数据分类聚合方法及系统 Download PDFInfo
- Publication number
- CN115048465A CN115048465A CN202110256995.8A CN202110256995A CN115048465A CN 115048465 A CN115048465 A CN 115048465A CN 202110256995 A CN202110256995 A CN 202110256995A CN 115048465 A CN115048465 A CN 115048465A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation
- module
- nuclear power
- power plant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004220 aggregation Methods 0.000 title claims abstract description 38
- 230000002776 aggregation Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 62
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010977 unit operation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Monitoring And Testing Of Nuclear Reactors (AREA)
Abstract
本发明公开了一种基于核电厂PaaS平台的数据分类聚合方法及系统,为包括如下步骤:根据用户需要,利用数据接入模块对核电厂PaaS中需要进行评级划分的相关数据进行查询和导入,得到数据集A,将数据集A传入数据预处理模块;利用数据预处理模块,对数据集A中的各行数据进行遍历,对其中存在缺失值的列进行处理,并将其中非数值型的数据转换成数值型数据,得到数据集A′。本发明的有益效果在于:对核电厂中的各种评价工作提供了一个自适应的自动划分评价等级或层次的方法,提升了平台的使用效率。
Description
技术领域
本发明属于大数据分析技术中数据分类聚合领域,具体涉及一种基于核电厂PaaS平台的数据分类聚合方法及系统。
背景技术
在核电的生产和运行流程中,涉及到业务、核电机组运行情况、安全等信息中的关键数据会被记录到核电厂PaaS平台。这些记录的数据定期需要汇总整理,并根据整理后的数对核电生产中的机组运行情况、安全管理情况等重点项目进行综合性的评价。如何能够高效且相对客观的针对各个不同的场景制定一个评级划分,以此为基准对各个分级进行评分的确定,是综合性评价工作中需要解决的重要问题。当下,随着计算机技术的发展,综合性评价的工作逐渐数字化。同时,机器学习,人工智能,大数据处理技术的发展,可以通过机器学习的方法来实现对不同场景制定相对客观且符合要求的评价标准。
在核电厂PaaS平台中,针对核电厂运行情况、机组安全状况等需要进行综合评价的工作上,如何对评价的等级或层次进行合适的划分是影响评价结果的主要因素之一。传统的方式是针对每一个子项目人为地根据经验和行业标准来划分评价等级或者层次,然后根据划分的评价等级或者层次将相关记录进行评分。传统方法的技术在核电厂PaaS平台上进行应用会存在一些不足之处,具体表现在:1、核电厂数据中存在的子项目较多,各个子项目之间存在差异,人工划分各个子项目的评价等级或者层次,工作量较大;2、人为划分评价等级或层次难以做到适应数据本身的分布,使得评价等级不能很好的反映实际情况。
发明内容
本发明的目的在于提供一种基于核电厂PaaS平台的数据分类聚合方法及系统,为平台中的各种综合评估工作提供一个客观且自适应的评级划分方法,提升了平台的运作效率。
本发明的技术方案如下:一种基于核电厂PaaS平台的数据分类聚合方法,包括如下步骤:
步骤001:根据用户需要,利用数据接入模块对核电厂PaaS中需要进行评级划分的相关数据进行查询和导入,得到数据集A,将数据集A传入数据预处理模块;
步骤002:利用数据预处理模块,对数据集A中的各行数据进行遍历,对其中存在缺失值的列进行处理,并将其中非数值型的数据转换成数值型数据,得到数据集A′;
步骤003:将新数据集A′导入数据分类聚合模块,使用改进的DBSCN算法对数据的评级层次的划分个数进行计算;
步骤004:将各个数据行及其所属聚簇的情况作为结果传递到评级划分设置模块,由用户手动设置各个评价等级得分或者评价描述;
步骤005:将设置好的评级划分情况和评价等级得分和描述以及相关数据进行记录并保存。
所述的步骤003包括:
(1)选择数据集A′中的一个没有所属聚簇的数据行X,计算X与其他所有数据行的欧式距离和余弦距离,得到距离集合L1={l1,l2,...,ln}和L2={δ1,δ2,...,δn}。欧式距离计算公式如下
余弦距离计算公式如下
其中,xi表示核电厂中需要获得评价等级的且没有所属评价等级对象的相关数据中的第i数据,yi表示其余的某一个需要获得评价等级的对象的相关数据中的第i数据,n表示需要获得评价等级的对象的相关数据的个数;
(2)将集合L1和L2中各项距离的结合目标函数,计算得到数据行X与其它的数据行的目标距离,得到集合D={d1,d2,...,dn},目标函数公式如下
dn=θ1ln+θ2δn
其中,θ1与θ2的和为1;
(3)遍历集合D中计算得到的距离将其与聚簇半径r进行比较,如果小于等于聚簇半径r,则将对应的数据行算作以X为中心的聚类簇中,得到聚簇点集合α;
(4)统计集合α中点的个数,如果个数大于等于最小聚簇中包含的点的个数minP,则将X作为中心点,其所属聚簇为X,则X聚簇属于一个评价等级,并且将集合α中的点所属的聚簇标记为X,如果集合α中点的个数为0则将X标记为噪声点单独作为一个聚簇,被标记为一个评价等级;
(5)重复上述步骤(1)-(4),直到所有点的评价等级得到标记。
一种基于核电厂PaaS平台的数据分类聚合系统,包括数据接入模块,数据预处理模块,数据分类聚合模块,评价划分设置模块,数据存储模块。
所述的数据接入模块:首先从核电厂PaaS平台中将需要进行评级划分的项目的相关数据通过数据接入模块进行查询和读取,查询的数据主要是根据需要划分评级的需求来确定,并且遍历所有数据如果存在缺失值或者非数值型的数据则传入数据预处理模块,否则直接传入数据分类聚合模块。
所述的数据预处理模块:对导入的数据进行预处理,将存在缺失值的记录中对应的数据项利用中位数填充的方式进行处理,并且将记录中非数值型的数据通过独热编码转换为数值型数据,之后将处理好的数据传入数据分类聚合模块。
所述的数据分类聚合模块:接收了来自数据接入模块或者数据预处理模块传入的数据后,结合相应的机器学习算法对各项记录的数据进行分类聚合,从客观层面确定评价划分的层次数量。
所述的评价划分设置模块:根据数据分类聚合模块确定的评级划分的层次数和各个记录所属评价层次的情况,用户可以自行定义各个评级层次的得分或者评价描述。
所述的数据存储模块:将用户设置的各个评级得分或评价描述以及各个记录所归属的评级层次的情况和相关数据进行记录,并存储到指定的数据库中。
本发明的有益效果在于:对核电厂中的各种评价工作提供了一个自适应的自动划分评价等级或层次的方法,提升了平台的使用效率。
附图说明
图1是本发明一种基于核电厂PaaS平台的数据分类聚合系统示意图;
图2是本发明一种基于核电厂PaaS平台的数据分类聚合方法流程图;
图3是本发明提出的改进的DBSCN算法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明对核电厂PaaS平台中的数据进行应用和创新,为平台中的各种综合评估工作提供一个客观且自适应的评级划分方法,提升了平台的运作效率。
如图1所示,本发明一种基于核电厂PaaS平台的数据分类聚合系统包括数据接入模块,数据预处理模块,数据分类聚合模块,评价划分设置模块,数据存储模块。
数据接入模块:首先从核电厂PaaS平台中将需要进行评级划分的项目的相关数据通过数据接入模块进行查询和读取,查询的数据主要是根据需要划分评级的需求来确定,例如:核电厂经营状况数据、核电厂安全事故数据等等。并且遍历所有数据如果存在缺失值或者非数值型的数据则传入数据预处理模块,否则直接传入数据分类聚合模块。
数据预处理模块:对导入的数据进行预处理,将存在缺失值的记录中对应的数据项利用中位数填充的方式进行处理,并且将记录中非数值型的数据通过独热编码转换为数值型数据,之后将处理好的数据传入数据分类聚合模块。
数据分类聚合模块:接收了来自数据接入模块或者数据预处理模块传入的数据后,结合相应的机器学习算法对各项记录的数据进行分类聚合,从客观层面确定评价划分的层次数量。
评价划分设置模块:根据数据分类聚合模块确定的评级划分的层次数和各个记录所属评价层次的情况,用户可以自行定义各个评级层次的得分或者评价描述。
数据存储模块:将用户设置的各个评级得分或评价描述以及各个记录所归属的评级层次的情况和相关数据进行记录,并存储到指定的数据库中。
如图2所示,一种基于核电厂PaaS平台的数据分类聚合方法,包括如下步骤:
步骤001:根据用户需要,利用数据接入模块对核电厂PaaS中需要进行评级划分的相关数据进行查询和导入,得到数据集A,将数据集A传入数据预处理模块。
步骤002:利用数据预处理模块,对数据集A中的各行数据进行遍历,对其中存在缺失值的列进行处理,并将其中非数值型的数据转换成数值型数据,得到数据集A′。
步骤003:将新数据集A′导入数据分类聚合模块,使用改进的DBSCN算法对数据的评级层次的划分个数进行计算。
(1)选择数据集A′中的一个没有所属聚簇的数据行X,计算X与其他所有数据行的欧式距离和余弦距离,得到距离集合L1={l1,l2,...,ln}和L2={δ1,δ2,...,δn}。
欧式距离计算公式如下
余弦距离计算公式如下
其中,xi表示核电厂中需要获得评价等级的且没有所属评价等级对象的相关数据中的第i数据,yi表示其余的某一个需要获得评价等级的对象的相关数据中的第i数据,n表示需要获得评价等级的对象的相关数据的个数。
(2)将集合L1和L2中各项距离的结合目标函数,计算得到数据行X与其它的数据行的目标距离,得到集合D={d1,d2,...,dn}。目标函数公式如下
dn=θ1ln+θ2δn
其中θ1与θ2的和为1。
(3)遍历集合D中计算得到的距离将其与聚簇半径r进行比较,如果小于等于聚簇半径r,则将对应的数据行算作以X为中心的聚类簇中,得到聚簇点集合α。
(4)统计集合α中点的个数,如果个数大于等于最小聚簇中包含的点的个数minP,则将X作为中心点,其所属聚簇为X,则X聚簇属于一个评价等级,并且将集合α中的点所属的聚簇标记为X。如果集合α中点的个数为0则将X标记为噪声点单独作为一个聚簇,被标记为一个评价等级。
(5)重复上述步骤(1)-(4),直到所有点的评价等级得到标记。
步骤004:将各个数据行及其所属聚簇的情况作为结果传递到评级划分设置模块,由用户手动设置各个评价等级得分或者评价描述。
步骤005:将设置好的评级划分情况和评价等级得分和描述以及相关数据进行记录并保存。
Claims (8)
1.一种基于核电厂PaaS平台的数据分类聚合方法,其特征在于,包括如下步骤:
步骤001:根据用户需要,利用数据接入模块对核电厂PaaS中需要进行评级划分的相关数据进行查询和导入,得到数据集A,将数据集A传入数据预处理模块;
步骤002:利用数据预处理模块,对数据集A中的各行数据进行遍历,对其中存在缺失值的列进行处理,并将其中非数值型的数据转换成数值型数据,得到数据集A′;
步骤003:将新数据集A′导入数据分类聚合模块,使用改进的DBSCN算法对数据的评级层次的划分个数进行计算;
步骤004:将各个数据行及其所属聚簇的情况作为结果传递到评级划分设置模块,由用户手动设置各个评价等级得分或者评价描述;
步骤005:将设置好的评级划分情况和评价等级得分和描述以及相关数据进行记录并保存。
2.如权利要求1所述的一种基于核电厂PaaS平台的数据分类聚合方法,其特征在于,所述的步骤003包括:
(1)选择数据集A′中的一个没有所属聚簇的数据行X,计算X与其他所有数据行的欧式距离和余弦距离,得到距离集合L1={l1,l2,...,ln}和L2={δ1,δ2,...,δn}。欧式距离计算公式如下
余弦距离计算公式如下
其中,xi表示核电厂中需要获得评价等级的且没有所属评价等级对象的相关数据中的第i数据,yi表示其余的某一个需要获得评价等级的对象的相关数据中的第i数据,n表示需要获得评价等级的对象的相关数据的个数;
(2)将集合L1和L2中各项距离的结合目标函数,计算得到数据行X与其它的数据行的目标距离,得到集合D={d1,d2,...,dn},目标函数公式如下
dn=θ1ln+θ2δn
其中,θ1与θ2的和为1;
(3)遍历集合D中计算得到的距离将其与聚簇半径r进行比较,如果小于等于聚簇半径r,则将对应的数据行算作以X为中心的聚类簇中,得到聚簇点集合α;
(4)统计集合α中点的个数,如果个数大于等于最小聚簇中包含的点的个数minP,则将X作为中心点,其所属聚簇为X,则X聚簇属于一个评价等级,并且将集合α中的点所属的聚簇标记为X,如果集合α中点的个数为0则将X标记为噪声点单独作为一个聚簇,被标记为一个评价等级;
(5)重复上述步骤(1)-(4),直到所有点的评价等级得到标记。
3.一种基于核电厂PaaS平台的数据分类聚合系统,其特征在于:包括数据接入模块,数据预处理模块,数据分类聚合模块,评价划分设置模块,数据存储模块。
4.如权利要求3所述的一种基于核电厂PaaS平台的数据分类聚合系统,其特征在于:所述的数据接入模块:首先从核电厂PaaS平台中将需要进行评级划分的项目的相关数据通过数据接入模块进行查询和读取,查询的数据主要是根据需要划分评级的需求来确定,并且遍历所有数据如果存在缺失值或者非数值型的数据则传入数据预处理模块,否则直接传入数据分类聚合模块。
5.如权利要求3所述的一种基于核电厂PaaS平台的数据分类聚合系统,其特征在于:所述的数据预处理模块:对导入的数据进行预处理,将存在缺失值的记录中对应的数据项利用中位数填充的方式进行处理,并且将记录中非数值型的数据通过独热编码转换为数值型数据,之后将处理好的数据传入数据分类聚合模块。
6.如权利要求3所述的一种基于核电厂PaaS平台的数据分类聚合系统,其特征在于:所述的数据分类聚合模块:接收了来自数据接入模块或者数据预处理模块传入的数据后,结合相应的机器学习算法对各项记录的数据进行分类聚合,从客观层面确定评价划分的层次数量。
7.如权利要求3所述的一种基于核电厂PaaS平台的数据分类聚合系统,其特征在于:所述的评价划分设置模块:根据数据分类聚合模块确定的评级划分的层次数和各个记录所属评价层次的情况,用户可以自行定义各个评级层次的得分或者评价描述。
8.如权利要求3所述的一种基于核电厂PaaS平台的数据分类聚合系统,其特征在于:所述的数据存储模块:将用户设置的各个评级得分或评价描述以及各个记录所归属的评级层次的情况和相关数据进行记录,并存储到指定的数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110256995.8A CN115048465A (zh) | 2021-03-09 | 2021-03-09 | 一种基于核电厂PaaS平台的数据分类聚合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110256995.8A CN115048465A (zh) | 2021-03-09 | 2021-03-09 | 一种基于核电厂PaaS平台的数据分类聚合方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115048465A true CN115048465A (zh) | 2022-09-13 |
Family
ID=83156371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110256995.8A Pending CN115048465A (zh) | 2021-03-09 | 2021-03-09 | 一种基于核电厂PaaS平台的数据分类聚合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048465A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355049A (zh) * | 2015-11-05 | 2016-02-24 | 北京航空航天大学 | 一种基于宏观基本图的高速公路运行状态评价方法 |
CN106022477A (zh) * | 2016-05-18 | 2016-10-12 | 国网信通亿力科技有限责任公司 | 智能分析决策系统及方法 |
CN109783639A (zh) * | 2018-12-24 | 2019-05-21 | 银江股份有限公司 | 一种基于特征提取的调解案件智能分派方法及系统 |
CN110363354A (zh) * | 2019-07-16 | 2019-10-22 | 上海交通大学 | 风场风功率预测方法、电子装置及存储介质 |
CN112001511A (zh) * | 2020-09-10 | 2020-11-27 | 上海安恪企业管理咨询有限公司 | 基于数据挖掘的设备可靠性及动态风险评价方法、系统和设备 |
CN112257803A (zh) * | 2020-10-30 | 2021-01-22 | 青岛东软载波科技股份有限公司 | 一种台区故障智能分析方法和系统 |
CN112348050A (zh) * | 2020-09-30 | 2021-02-09 | 中国铁路上海局集团有限公司 | 一种基于高铁沿线风特性的风速仪布置方法 |
CN112381137A (zh) * | 2020-11-10 | 2021-02-19 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
-
2021
- 2021-03-09 CN CN202110256995.8A patent/CN115048465A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355049A (zh) * | 2015-11-05 | 2016-02-24 | 北京航空航天大学 | 一种基于宏观基本图的高速公路运行状态评价方法 |
CN106022477A (zh) * | 2016-05-18 | 2016-10-12 | 国网信通亿力科技有限责任公司 | 智能分析决策系统及方法 |
CN109783639A (zh) * | 2018-12-24 | 2019-05-21 | 银江股份有限公司 | 一种基于特征提取的调解案件智能分派方法及系统 |
CN110363354A (zh) * | 2019-07-16 | 2019-10-22 | 上海交通大学 | 风场风功率预测方法、电子装置及存储介质 |
CN112001511A (zh) * | 2020-09-10 | 2020-11-27 | 上海安恪企业管理咨询有限公司 | 基于数据挖掘的设备可靠性及动态风险评价方法、系统和设备 |
CN112348050A (zh) * | 2020-09-30 | 2021-02-09 | 中国铁路上海局集团有限公司 | 一种基于高铁沿线风特性的风速仪布置方法 |
CN112257803A (zh) * | 2020-10-30 | 2021-01-22 | 青岛东软载波科技股份有限公司 | 一种台区故障智能分析方法和系统 |
CN112381137A (zh) * | 2020-11-10 | 2021-02-19 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106384282A (zh) | 构建决策模型的方法和装置 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN111539845B (zh) | 一种基于用电模式隶属评分的企业环保管控响应研判方法 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN110544035A (zh) | 一种内控检测方法、系统和计算机可读存储介质 | |
CN103971133A (zh) | 基于案例推理的钢板表面缺陷的自动识别方法 | |
CN111062602A (zh) | 企业信用风险评估的方法、装置及存储介质 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN115048465A (zh) | 一种基于核电厂PaaS平台的数据分类聚合方法及系统 | |
CN111984629A (zh) | 多维场景下基于数据挖掘的台区线损率标准库构建方法 | |
CN114676931B (zh) | 一种基于数据中台技术的电量预测系统 | |
CN116306807A (zh) | 一种基于元宇宙数据标记的ai模型生产方法 | |
CN115048682B (zh) | 一种土地流转信息的安全存储方法 | |
CN115687788A (zh) | 一种智能化商机推荐方法和系统 | |
CN115600913A (zh) | 一种用于智能矿山的主数据识别方法 | |
CN110070111A (zh) | 一种配网线路分类方法及系统 | |
CN104484418B (zh) | 一种基于双分辨率的特征量化方法及系统 | |
CN112529712A (zh) | 用户运营分析rfm的建模方法与系统 | |
CN114911847B (zh) | 一种基于大数据的跨境贸易数据统计及分析方法 | |
CN116308214B (zh) | 一种影视全流程制作管理系统 | |
CN113723775B (zh) | 一种基于电力大数据的企业及行业运营风险的评估方法 | |
CN114707583A (zh) | 数据样本模型训练方法及装置 | |
CN115545411A (zh) | 基于人工智能的双创成果与专利运营的价值关联评估方法 | |
CN114049006A (zh) | 一种基于数据处理的海洋经济发展管理系统 | |
Ding | Enterprise Financial Management and Decision System Based on Improved Decision Tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |