CN112733931A - 一种核电厂设备监测数据聚类处理方法和电子设备 - Google Patents
一种核电厂设备监测数据聚类处理方法和电子设备 Download PDFInfo
- Publication number
- CN112733931A CN112733931A CN202110018789.3A CN202110018789A CN112733931A CN 112733931 A CN112733931 A CN 112733931A CN 202110018789 A CN202110018789 A CN 202110018789A CN 112733931 A CN112733931 A CN 112733931A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- clustered
- hash
- power plant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 98
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000010354 integration Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000007621 cluster analysis Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 6
- 238000012806 monitoring device Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Water Supply & Treatment (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明涉及一种核电厂设备监测数据聚类处理方法和电子设备,包括:S1、获取监测数据;S2、对监测数据进行标准化预处理,以生成待聚类数据集;S3、对待聚类数据集中的所有待聚类数据进行聚类处理,获得初始类数据;S4、以初始类数据进行类整合,获得聚类结果;S5、判断聚类结果是否满足聚类目标要求;S6、若是,停止聚类处理;S7、若否,继续进行聚类处理。本发明可有效适应核电厂设备稳态运行过程状态监测历史数据的聚类分析,可有效适应高维数据的聚类分析,所得聚类结果空间连续紧凑,计算效率高。
Description
技术领域
本发明涉及核电厂设备状态监测数据处理的技术领域,更具体地说,涉 及一种核电厂设备监测数据聚类处理方法和电子设备。
背景技术
目前国内一台900MW的核电机组设备在线监测数据测点可达到上万 个,设备监测历史数据最多超过30年,数据量极为庞大,如何从设备监测数 据中挖掘设备运行模式特征,从而为当前设备运行状态监测服务,是核电设 备管理大数据应用中一项极为重要的关键技术。依靠传统的统计分析或者专 家识别的方式无法适应庞大数据的处理,无法发现隐藏在海量设备监测数据 中的规律,因而需要一种无监督的学习算法,实现对庞大历史数据的自动聚 类处理,识别隐藏在历史数据中的规律。
因设备监测需要避免漏报警,以需要保持极低的误报警率,目前经典的 聚类算法设备管理和监测应用有着明显的不适应。设备智能监测对报警的平 衡性需求,要求聚类结果需要数量和大小均衡,且要求类内数据在空间上具 有明显的连续性,因此,需要对现有的聚类算法进行优化,创新适用于设备 智能监测用的聚类算法。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种核 电厂设备监测数据聚类处理方法和电子设备。
本发明解决其技术问题所采用的技术方案是:构造一种核电厂设备监测 数据聚类处理方法,包括:
S1、获取监测数据;
S2、对所述监测数据进行标准化预处理,以生成待聚类数据集;
S3、对所述待聚类数据集中的所有待聚类数据进行聚类处理,获得初始 类数据;
S4、以所述初始类数据进行类整合,获得聚类结果;
S5、判断所述聚类结果是否满足聚类目标要求;
S6、若是,停止聚类处理;
S7、若否,继续进行聚类处理。
其中,所述监测数据包括监测设备的多个监测参数数据;
所述对所述监测数据进行标准化预处理,以生成待聚类数据集包括:
对所述监测设备的每一个监测参数数据进行标准化映射,以使所述监测 设备的每一个参数历史监测数据映射结果服从标准正态分布;
所述待聚类数据集为包括所有监测参数的标准化处理后的数据。
其中,所述对所述待聚类数据集中的所有待聚类数据进行聚类处理,获 得初始类数据包括:
S31、生成哈希函数组;
S32、基于所述哈希函数组对所述待聚类数据集中的所有待聚类数据进 行哈希运算,获得与所述哈希函数组对应的哈希桶组;
S33、从所述待聚类数据集中随机抽取一个数据作为聚类对象,计算其 索引值;
S34、基于所述哈希桶组中的哈希桶的标识和所述聚类对象的索引值, 确定候选数据集;
S35、根据所述候选数据集进行聚类;
S36、重复执行S33至S35,直至所述待聚类数据集为空集,并获取所述 初始类数据。
其中,所述哈希函数组包括:L组哈希函数,每组包括k个哈希函数;
所述基于所述哈希函数组对所述待聚类数据集中的所有待聚类数据进行 哈希运算,获得与所述哈希函数组对应的哈希桶组包括:
基于所述哈希函数组对所述待聚类数据集中的所有待聚类数据进行哈希 映射,生成哈希值;
将L组所述哈希函数组中的每一组中同一数据的k个哈希值组成一个索 引值;
以所述每一组中同一数据的哈希值组成的索引值作为标识建立哈希桶;
将索引值与哈希桶标识相同的数据放在相应哈希桶中;
获得L组哈希桶;所述L组哈希桶为与所述哈希函数组对应的哈希桶 组。
其中,所述从所述待聚类数据集中随机抽取一个数据作为聚类对象,计 算其索引值包括:
基于S31生成的哈希函数组重新计算所抽取聚类对象的L个索引值。
其中,所述基于所述哈希桶组的哈希桶的标识和所述聚类对象的索引 值,确定候选数据集包括:
获取所述L组哈希桶的标识;
从所述L组哈希桶的标识中,每组对应查找与所述聚类对象的索引值相 同的哈希桶;
将所述L组中查找到L个哈希桶的数据合并,形成所述候选数据集。
其中,所述根据所述候选数据集进行聚类包括:
从所述候选数据集中获取与所述聚类对象近邻的数据;
将所述与所述聚类对象近邻的数据与所述聚类对象聚成一个类,并将该 类中的数据从所述待聚类数据集中去除。
其中,所述将L组所述哈希函数组中的每一组中同一数据的k个哈希值 组成一个索引值包括:
取每个哈希值的十位数和个位数组合成字符串,所述字符串为所述索引 值。
其中,所述与所述聚类对象近邻的数据包括:在聚类对象的近邻范围内 的数据。
其中,所述近邻范围为:与所述聚类对象欧式距离最小的Kn个数据;
Kn为近邻数量。
10、根据权利要求9所述的核电厂设备监测数据聚类处理方法,其特征 在于,所述Kn为浮动值,且所述Kn等于所述待聚类数据集中的待聚类数据 的数量整除预期类数量加1。
其中,所述以所述初始类数据进行类整合,获得聚类结果包括:
S41、计算所述初始类数据中的各类的几何中心点;
S42、以所述几何中心点作为输入数据,重新进行聚类计算;
S43、根据所述几何中心点的聚类计算结果,将同一个类中几何中心点 对应的上一轮聚类得到的类中所有数据整合为一个类;
S44、重复执行S41-S43,获取所述聚类结果。
其中,所述聚类目标要求包括:预期类数量和最大连续停止收敛次数。
其中,所述方法还包括:
若所述聚类结果中的类数量小于所述预期类数量,停止聚类处理;
或者,若经过聚类后的类数量没有变化且连续大于最大连续停止收敛次 数时,停止聚类处理。
其中,所述方法还包括:
在重复执行S41-S43时,判断收敛速度;
若所述收敛速度小于预设值,则调大哈希函数的分段长度参数。
本发明还提供一种核电厂设备监测数据聚类处理装置,包括:
获取单元,用于获取监测数据;
预处理单元,用于对所述监测数据进行标准化预处理,以生成待聚类数 据集;
聚类处理单元,用于对所述待聚类数据集中的所有待聚类数据进行聚类 处理,获得初始类数据;
整合单元,用于以所述初始类数据进行类整合,获得聚类结果;
判断单元,判断所述聚类结果是否满足聚类目标要求;
执行单元,用于在所述聚类结果满足聚类目标要求时,停止聚类处理; 在所述聚类结果不满足聚类目标要求时,继续进行聚类处理。
本发明还提供一种电子设备,包括处理器和存储器,所述存储器用于存 储计算机程序,所述处理器用于执行所述存储器存储的计算机程序以实现如 上所述的核电厂设备监测数据聚类处理方法。
本发明还提供一种存储介质,其上存储有计算机程序,所述计算机程序 被处理器执行时实现如上所述核电厂设备监测数据聚类处理方法的步骤。
实施本发明的核电厂设备监测数据聚类处理方法,具有以下有益效果: 包括:S1、获取监测数据;S2、对监测数据进行标准化预处理,以生成待聚 类数据集;S3、对待聚类数据集中的所有待聚类数据进行聚类处理,获得初 始类数据;S4、以初始类数据进行类整合,获得聚类结果;S5、判断聚类结 果是否满足聚类目标要求;S6、若是,停止聚类处理;S7、若否,继续进行 聚类处理。本发明可有效适应核电厂设备稳态运行过程状态监测历史数据的聚类分析,可有效适应高维数据的聚类分析,所得聚类结果空间连续紧凑, 计算效率高。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例提供的核电厂设备监测数据聚类处理方法的流程示 意图;
图2是本发明实施例提供核电厂设备监测数据聚类处理方法的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图 详细说明本发明的具体实施方式。
为了解决目前的聚类算法对数据聚类处理所存在的问题,本发明提供了 一种核电厂设备监测数据聚类处理算法,其基于哈希映射和近邻原则进行聚 类,保障聚类结果在空间上的连续性、紧凑性和均衡性。
具体的,参考图1,图1为本发明实施例提供的核电厂设备监测数据聚 类处理方法的流程示意图。
如图1所示,该核电厂设备监测数据聚类处理方法包括:
步骤S1、获取监测数据。
具体的,监测数据为核电厂设备的监测数据,其可以由监测设备进行监 测并获取得到的多个监测参数数据,其包括但不限于大量的历史数据和/或在 线数据。其中,监测设备包括但不限于各类传感器等。一些实施例中,输入 数据为设备状态监测数据,数据由一组长度等于传感器数目的向量组成,单 个向量表示某一时刻各传感器的数值。
步骤S2、对所述监测数据进行标准化预处理,以生成待聚类数据集。
一些实施例中,对所述监测数据进行标准化预处理,以生成待聚类数据 集包括:对监测设备的每一个监测参数数据进行标准化映射,以使监测设备 的每一个参数历史监测数据映射结果服从标准正态分布;所述待聚类数据集 为包括所有监测参数的标准化处理后的数据。
具体的,以监测设备为传感器为例,在进行标准化预处理时,需要将每 个传感器数值进行标准化映射,将每个传感器的监测数据映射成为一个标准 正态分布的数据,从而通过统一化达到避免不同传感器数据均值和方差相差 太大,造成聚类结果异常,即避免不同传感器量纲和变化剧烈程度不同而造 成单个传感器数据主导聚类结果的情况发生。
步骤S3、对所述待聚类数据集中的所有待聚类数据进行聚类处理,获得 初始类数据。
一些实施例中,对所述待聚类数据集中的所有待聚类数据进行聚类处 理,获得初始类数据包括:
步骤S31、生成哈希函数组。
具体的,哈希函数为:
fhash(x)=(a·x+b)|r,其中,a为长度与x相同的向量,向量a中的每个数 值都是服从高斯分布的随机数,b∈(0,r)是一个随机数,r是分段长度。
因此,根据待聚类数据集生成哈希函数组可以依据不同的a和b建立。
一些实施例中,如图2所示,依据不同的a和b对待聚类数据集生成哈希 函数组可以生成L*k个哈希函数组。即共生成L组哈希函数组,每组有k个 哈希函数。
步骤S32、基于所述哈希函数组对所述待聚类数据集中的所有待聚类数 据进行哈希运算,获得与所述哈希函数组对应的哈希桶组。
一些实施例中,基于所述哈希函数组对所述待聚类数据集中的所有待聚 类数据进行哈希运算,获得与所述哈希函数组对应的哈希桶组包括:
步骤S321、基于所述哈希函数组对所述待聚类数据集中的所有待聚类数 据进行哈希映射,生成哈希值。
其中,通过生成的L*k个哈希函数组,对所有待聚类数据集中的所有待 聚类数据进行哈希映射,可获得每个数据生成L*k个哈希值,其中,k个哈 希值为一组,共L组。
步骤S322、将L组所述哈希函数组中的每一组中同一数据的k个哈希值 组成一个索引值。
其中,将L组所述哈希函数组中的每一组中同一数据的k个哈希值组成 一个索引值包括:取每个哈希值的十位数和个位数组合成字符串,所述字符 串为所述索引值。如图2所示,Fp表示索引值。
步骤S323、以所述每一组中同一数据的哈希值组成的索引值作为标识建 立哈希桶。
步骤S324、将索引值与哈希桶标识相同的数据放在相应哈希桶中。
步骤S325、获得L组哈希桶;所述L组哈希桶为与所述哈希函数组对应 的哈希桶组。
步骤S33、从所述待聚类数据集中随机抽取一个数据作为聚类对象,计 算其索引值。
一些实施例中,所述从所述待聚类数据集中随机抽取一个数据作为聚类 对象,计算其索引值包括:基于S31生成的哈希函数组重新计算所抽取聚类 对象的L个索引值。
在步骤S323中,以所述每一组中同一数据的哈希值组成的索引值作为标 识建立哈希桶。因此,这里的哈希桶的标识即为以每一组中同一数据的哈希 值组成的索引值。
步骤S34、基于所述哈希桶的标识和所述聚类对象的索引值,确定候选 数据集。
一些实施例中,基于所述哈希桶的标识和所述聚类对象的索引值,确定 候选数据集包括:
步骤S351、获取所述L组哈希桶的标识。
步骤S352、从所述L组哈希桶的标识中,每组对应查找与所述聚类对象 的索引值相同的哈希桶。
步骤S353、将所述L组中查找到L个哈希桶的数据合并,形成所述候选 数据集。
可以理解地,每个哈希桶中的数据都是可能与聚类对象相似的潜在对 象,因此,所有潜在对象组合成一个候选数据集。
进一步地,待聚类数据集中原本相似的数据经过哈希函数映射后依然相 似,且越相似的数据,索引值相同的概率越高。
步骤S35、根据所述候选数据集进行聚类。
一些实施例中,根据所述候选数据集进行聚类包括:
步骤S361、从所述候选数据集中获取与所述聚类对象近邻的数据。
步骤S362、将所述与所述聚类对象近邻的数据与所述聚类对象聚成一个 类,并将该类中的数据从所述待聚类数据集中去除。
其中,与所述聚类对象近邻的数据包括:在聚类对象的近邻范围内的数 据。近邻范围为:与所述聚类对象欧式距离最小的Kn个数据;Kn为近邻数 量。为避免在迭代前后期类数量相差太大的影响,近邻数量Kn是一个浮动 值,其中,Kn等于所述待聚类数据集中的待聚类数据的数量整除预期类数量 加1。
步骤S36、重复执行步骤S33至步骤S35,直至所述待聚类数据集为空 集,并获取所述初始类数据。
这里,初始类数据为待聚类数据集中的所有数据都已经完成了一次聚类 后的数据。待聚类数据集为空集即表示待聚类数据集中的所有数据已完成一 次聚类。
步骤S4、以所述初始类数据进行类整合,获得聚类结果。
在完成一次聚类,获得初始类数据后,进一步地,还需要对初始类数据 进行类整合。具体的,以所述初始类数据进行类整合,获得聚类结果包括:
步骤S41、计算所述初始类数据中的各类的几何中心点。
其中,几何中心点是空间上的中心,其值等于类中所有数据点在每个传 感器上的最大值和最小值之和除以2。
步骤S42、以所述几何中心点作为输入数据,重新进行聚类计算。
步骤S43、根据所述几何中心点的聚类计算结果,将同一个类中几何中 心点对应的上一轮聚类得到的类中所有数据整合为一个类。
具体的,将得到的几何中心点作为待聚类数据重新进行聚类计算,几何 中心点聚类结果相似且近邻的,则各个几何中心点对应的类也属于同一个 类。
步骤S44、重复执行S41-S43,获取所述聚类结果。
步骤S5、判断所述聚类结果是否满足聚类目标要求。
步骤S6、若是,停止聚类处理。
步骤S7、若否,继续进行聚类处理。
可选的,聚类目标要求包括:预期类数量和最大连续停止收敛次数。
一些实施例中,判断聚类结果是否满足聚类目标要求包括:
判断聚类结果中的类数量是否小于预期类数量,若是,则满足聚类目标 要求,并停止聚类处理;否则,判断聚类结果中的类数量是否减少,若否, 则聚类收敛次数加1。或者,判断经过聚类后的类数量是否有变化且是否大 于最大连续停止收敛次数,若经过聚类后的类数量没有变化且连续大于最大 连续停止收敛次数时,停止聚类处理。
进一步地,一些实施例中,该核电厂设备监测数据聚类处理方法还包 括:
在重复执行S41-S43时,判断收敛速度;若所述收敛速度小于预设值, 则调大哈希函数的分段长度参数。具体的,当收敛速度小于预设值时,可在 重复执行聚类处理之前调大哈希函数参数的分段长度参数r,以提高收敛效 率。
本发明实施例提供的核电厂设备监测数据聚类处理访求采用哈希映射 的方法,因而对数据维度不敏感,可以处理极高维度的数据,且聚类结果在 空间上分布紧凑、均衡、非常适用于设备状态智能监测数据的模式识别训 练,且本方法还可以自适应的调整收敛速率,对超参数不敏感,计算效率和 稳定性高。
以下以一个具体实施例进行说明:
选择核电厂的6.6KV电机设备监测数据进行聚类处理。
2)生成哈希函数组:
哈希函数为fhash(x)=(a·x+b)|r,其中a为长度与x相同的向量,向量a中 的每个数值都是服从高斯分布的随机数,b∈(0,r)是一个随机数,r为分段长 度,取值0.05。
3)基于生成的哈希函数组对所有待聚类数据进行哈希映射,生成哈希 值。
基于2)生成的L*k个哈希函数组,对预处理后的标准化数据进行映射计 算,得到L*k个哈希值,取L=5,k=5。
4)将每组同一数据的k个哈希值组成一个索引值Fp,以索引值Fp为标 识建立哈希桶,将索引值相同的数据放在同一哈希桶中;取每个哈希值的十 位数和个位数组合成字符串,将该字符串作为索引值Fp,以索引值Fp为标 识建立哈希桶。
5)从待聚类数据集随机抽取一个数据作为聚类对象,计算其索引值Fp。其中,计算聚类对象的索引值时使用原哈希函数组。
6)从L组哈希桶中找到标识与索引值相同的L个哈希桶,每个哈希桶中 的数据都是可能与聚类对象相似的潜在对象,所有潜在对象组合成一个候选 数据集。
7)从候选数据集中寻找与聚类对象近邻的数据与聚类对象聚成一个类。 其中近邻是指数据在聚类对象的近邻范围内,近邻范围由设定的近邻数量Kn 确定,近邻数量指最靠近聚类对象的Kn个数据,为避免在迭代前后期类数量 相差太大的影响,近邻数量Kn是一个浮动值,Kn等于待聚类数据数量整除 预期类数量加1,预期类数量为300。
8)重复执行步骤5)、6)、7),直至待聚类数据集为空集,当待聚类 数据集为空集时表示所有数据都已经完成了一次聚类。
9)计算各类的几何中心点。各类的几何中心点是空间上的中心,其值等 于类中所有数据点在每个传感器上的最大值和最小值之和除以2。
10)以9)得到的几何中心点作为待聚类数据重新进行聚类计算,几休中 心点聚类结果相似且近邻的,则各几何中心点对应的类也属于同一个类。
11)根据几何中心点的聚类结果,将上一轮聚类得到的类中心点相似且 近邻的类整合为一个类。
12)当类数量小于预期类数量或者经聚类后类的数量没有变化且连续超 过最大连续停止收敛次数时,停止聚类过程,预期类数量等于300,最大连 续停止收敛次数等于10。
进一步地,在重复执行步骤9)~11)时,若收敛速度小于1%时,在重复 执行聚类处理前调大哈希函数参数的分段长度参数r为r*1.01,最大不超过 0.1,以提高收敛效率。
本发明还提供一种核电厂设备监测数据聚类处理装置,包括:
获取单元,用于获取监测数据。
预处理单元,用于对所述监测数据进行标准化预处理,以生成待聚类数 据集。
聚类处理单元,用于对所述待聚类数据集中的所有待聚类数据进行聚类 处理,获得初始类数据。
整合单元,用于以所述初始类数据进行类整合,获得聚类结果。
判断单元,判断所述聚类结果是否满足聚类目标要求。
执行单元,用于在所述聚类结果满足聚类目标要求时,停止聚类处理。 在所述聚类结果不满足聚类目标要求时,继续进行聚类处理。
本发明还提供一种电子设备,包括处理器和存储器,所述存储器用于存 储计算机程序,所述处理器用于执行所述存储器存储的计算机程序以实现本 发明实施例公开的核电厂设备监测数据聚类处理方法。
本发明还提供一种存储介质,其上存储有计算机程序,所述计算机程序 被处理器执行时实现本发明实施例公开的核电厂设备监测数据聚类处理方法 的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。 对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述 的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实 现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一 般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执 行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个 特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超 出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、 处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存 储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可 编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的 任意其它形式的存储介质中。
以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项 技术的人士能够了解本发明的内容并据此实施,并不能限制本发明的保护范 围。凡跟本发明权利要求范围所做的均等变化与修饰,均应属于本发明权利 要求的涵盖范围。
Claims (18)
1.一种核电厂设备监测数据聚类处理方法,其特征在于,包括:
S1、获取监测数据;
S2、对所述监测数据进行标准化预处理,以生成待聚类数据集;
S3、对所述待聚类数据集中的所有待聚类数据进行聚类处理,获得初始类数据;
S4、以所述初始类数据进行类整合,获得聚类结果;
S5、判断所述聚类结果是否满足聚类目标要求;
S6、若是,停止聚类处理;
S7、若否,继续进行聚类处理。
2.根据权利要求1所述的核电厂设备监测数据聚类处理方法,其特征在于,所述监测数据包括监测设备的多个监测参数数据;
所述对所述监测数据进行标准化预处理,以生成待聚类数据集包括:
对所述监测设备的每一个监测参数数据进行标准化映射,以使所述监测设备的每一个参数历史监测数据映射结果服从标准正态分布;
所述待聚类数据集为包括所有监测参数的标准化处理后的数据。
3.根据权利要求1所述的核电厂设备监测数据聚类处理方法,其特征在于,所述对所述待聚类数据集中的所有待聚类数据进行聚类处理,获得初始类数据包括:
S31、生成哈希函数组;
S32、基于所述哈希函数组对所述待聚类数据集中的所有待聚类数据进行哈希运算,获得与所述哈希函数组对应的哈希桶组;
S33、从所述待聚类数据集中随机抽取一个数据作为聚类对象,计算其索引值;
S34、基于所述哈希桶组中的哈希桶的标识和所述聚类对象的索引值,确定候选数据集;
S35、根据所述候选数据集进行聚类;
S36、重复执行S33至S35,直至所述待聚类数据集为空集,并获取所述初始类数据。
4.根据权利要求3所述的核电厂设备监测数据聚类处理方法,其特征在于,所述哈希函数组包括:L组哈希函数,每组包括k个哈希函数;
所述基于所述哈希函数组对所述待聚类数据集中的所有待聚类数据进行哈希运算,获得与所述哈希函数组对应的哈希桶组包括:
基于所述哈希函数组对所述待聚类数据集中的所有待聚类数据进行哈希映射,生成哈希值;
将L组所述哈希函数组中的每一组中同一数据的k个哈希值组成一个索引值;
以所述每一组中同一数据的哈希值组成的索引值作为标识建立哈希桶;
将索引值与哈希桶标识相同的数据放在相应哈希桶中;
获得L组哈希桶;所述L组哈希桶为与所述哈希函数组对应的哈希桶组。
5.根据权利要求3所述的核电厂设备监测数据聚类处理方法,其特征在于,所述从所述待聚类数据集中随机抽取一个数据作为聚类对象,计算其索引值包括:
基于S31生成的哈希函数组重新计算所抽取聚类对象的L个索引值。
6.根据权利要求4所述的核电厂设备监测数据聚类处理方法,其特征在于,所述基于所述哈希桶组的哈希桶的标识和所述聚类对象的索引值,确定候选数据集包括:
获取所述L组哈希桶的标识;
从所述L组哈希桶的标识中,每组对应查找与所述聚类对象索引值相同的哈希桶;
将所述L组中查找到L个哈希桶的数据合并,形成所述候选数据集。
7.根据权利要求3所述的核电厂设备监测数据聚类处理方法,其特征在于,所述根据所述候选数据集进行聚类包括:
从所述候选数据集中获取与所述聚类对象近邻的数据;
将所述与所述聚类对象近邻的数据与所述聚类对象聚成一个类,并将该类中的数据从所述待聚类数据集中去除。
8.根据权利要求4所述的核电厂设备监测数据聚类处理方法,其特征在于,所述将L组所述哈希函数组中的每一组中同一数据的k个哈希值组成一个索引值包括:
取每个哈希值的十位数和个位数组合成字符串,所述字符串为所述索引值。
9.根据权利要求7所述的核电厂设备监测数据聚类处理方法,其特征在于,所述与所述聚类对象近邻的数据包括:在聚类对象的近邻范围内的数据。
10.根据权利要求9所述的核电厂设备监测数据聚类处理方法,其特征在于,所述近邻范围为:与所述聚类对象欧式距离最小的Kn个数据;
Kn为近邻数量。
11.根据权利要求10所述的核电厂设备监测数据聚类处理方法,其特征在于,所述Kn为浮动值,且所述Kn等于所述待聚类数据集中的待聚类数据的数量整除预期类数量加1。
12.根据权利要求1所述的核电厂设备监测数据聚类处理方法,其特征在于,所述以所述初始类数据进行类整合,获得聚类结果包括:
S41、计算所述初始类数据中的各类的几何中心点;
S42、以所述几何中心点作为输入数据,重新进行聚类计算;
S43、根据所述几何中心点的聚类计算结果,将同一个类中几何中心点对应的上一轮聚类得到的类中所有数据整合为一个类;
S44、重复执行S41-S43,获取所述聚类结果。
13.根据权利要求1所述的核电厂设备监测数据聚类处理方法,其特征在于,所述聚类目标要求包括:预期类数量和最大连续停止收敛次数。
14.根据权利要求13所述的核电厂设备监测数据聚类处理方法,其特征在于,所述方法还包括:
若所述聚类结果中的类数量小于所述预期类数量,停止聚类处理;
或者,若经过聚类后的类数量没有变化且连续大于最大连续停止收敛次数时,停止聚类处理。
15.根据权利要求12所述的核电厂设备监测数据聚类处理方法,其特征在于,所述方法还包括:
在重复执行S41-S43时,判断收敛速度;
若所述收敛速度小于预设值,则调大哈希函数的分段长度参数。
16.一种核电厂设备监测数据聚类处理装置,其特征在于,包括:
获取单元,用于获取监测数据;
预处理单元,用于对所述监测数据进行标准化预处理,以生成待聚类数据集;
聚类处理单元,用于对所述待聚类数据集中的所有待聚类数据进行聚类处理,获得初始类数据;
整合单元,用于以所述初始类数据进行类整合,获得聚类结果;
判断单元,判断所述聚类结果是否满足聚类目标要求;
执行单元,用于在所述聚类结果满足聚类目标要求时,停止聚类处理;在所述聚类结果不满足聚类目标要求时,继续进行聚类处理。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序以实现如权利要求1-15任一项所述的核电厂设备监测数据聚类处理方法。
18.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-15中任意一项所述核电厂设备监测数据聚类处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018789.3A CN112733931B (zh) | 2021-01-07 | 2021-01-07 | 一种核电厂设备监测数据聚类处理方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018789.3A CN112733931B (zh) | 2021-01-07 | 2021-01-07 | 一种核电厂设备监测数据聚类处理方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733931A true CN112733931A (zh) | 2021-04-30 |
CN112733931B CN112733931B (zh) | 2023-05-16 |
Family
ID=75591074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110018789.3A Active CN112733931B (zh) | 2021-01-07 | 2021-01-07 | 一种核电厂设备监测数据聚类处理方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733931B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187345A (zh) * | 2022-09-13 | 2022-10-14 | 深圳装速配科技有限公司 | 智能家居建材推荐方法、装置、设备及存储介质 |
CN115828145A (zh) * | 2023-02-09 | 2023-03-21 | 深圳市仕瑞达自动化设备有限公司 | 一种电子设备的在线监测方法、系统及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455531A (zh) * | 2013-02-01 | 2013-12-18 | 深圳信息职业技术学院 | 一种支持高维数据实时有偏查询的并行索引方法 |
CN103744934A (zh) * | 2013-12-30 | 2014-04-23 | 南京大学 | 一种基于位置敏感哈希的分布式索引方法 |
CN105608224A (zh) * | 2016-01-13 | 2016-05-25 | 广西师范大学 | 一种提高海量数据查询性能的正交多哈希映射索引方法 |
-
2021
- 2021-01-07 CN CN202110018789.3A patent/CN112733931B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455531A (zh) * | 2013-02-01 | 2013-12-18 | 深圳信息职业技术学院 | 一种支持高维数据实时有偏查询的并行索引方法 |
CN103744934A (zh) * | 2013-12-30 | 2014-04-23 | 南京大学 | 一种基于位置敏感哈希的分布式索引方法 |
CN105608224A (zh) * | 2016-01-13 | 2016-05-25 | 广西师范大学 | 一种提高海量数据查询性能的正交多哈希映射索引方法 |
Non-Patent Citations (2)
Title |
---|
胡会南;: "基于哈希技术的高维数据相似性搜索研究进展", 无线通信技术 * |
赵永威;李弼程;高毫林;: "一种基于精确欧氏位置敏感哈希的目标检索方法", 应用科学学报 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187345A (zh) * | 2022-09-13 | 2022-10-14 | 深圳装速配科技有限公司 | 智能家居建材推荐方法、装置、设备及存储介质 |
CN115828145A (zh) * | 2023-02-09 | 2023-03-21 | 深圳市仕瑞达自动化设备有限公司 | 一种电子设备的在线监测方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112733931B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639497B (zh) | 一种基于大数据机器学习的异常行为发现方法 | |
CN105677791B (zh) | 用于分析风力发电机组的运行数据的方法和系统 | |
CN110266672B (zh) | 基于信息熵和置信度下采样的网络入侵检测方法 | |
CN112528519A (zh) | 发动机质量预警服务的方法、系统、可读介质和电子设备 | |
CN110750524A (zh) | 一种有源配电网故障特征的确定方法及系统 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
CN112733931A (zh) | 一种核电厂设备监测数据聚类处理方法和电子设备 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN111339297A (zh) | 网络资产异常检测方法、系统、介质和设备 | |
CN114386537A (zh) | 基于CatBoost的锂电池故障诊断方法、装置及电子设备 | |
Mbow et al. | An intrusion detection system for imbalanced dataset based on deep learning | |
CN115618249A (zh) | 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 | |
CN115510981A (zh) | 一种决策树模型特征重要性计算方法、装置及存储介质 | |
Cai et al. | Aris: a noise insensitive data pre-processing scheme for data reduction using influence space | |
Wei et al. | Efficient local histogram searching via bitmap indexing | |
CN114707834A (zh) | 一种告警提醒方法、装置及存储介质 | |
Gautam et al. | Adaptive discretization using golden section to aid outlier detection for software development effort estimation | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
Li et al. | Dual-mgan: An efficient approach for semi-supervised outlier detection with few identified anomalies | |
CN116010831A (zh) | 一种基于潜在决策结果的组合聚类场景缩减方法及系统 | |
Jin et al. | Network identification and authentication | |
Yang et al. | Adaptive density peak clustering for determinging cluster center | |
CN113268552A (zh) | 一种基于局部敏感哈希的发电机设备隐患预警方法 | |
Supardi et al. | An evolutionary stream clustering technique for outlier detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |