CN106484838A - 基于数据挖掘的安全检查标准库动态更新方法 - Google Patents
基于数据挖掘的安全检查标准库动态更新方法 Download PDFInfo
- Publication number
- CN106484838A CN106484838A CN201610874151.9A CN201610874151A CN106484838A CN 106484838 A CN106484838 A CN 106484838A CN 201610874151 A CN201610874151 A CN 201610874151A CN 106484838 A CN106484838 A CN 106484838A
- Authority
- CN
- China
- Prior art keywords
- vector
- safety inspection
- cluster
- standard library
- java standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据挖掘的安全检查标准库动态更新方法,包括:从安全检查结果库提取出N种特征合成得到N维向量;对N维向量进行归一化处理得到数据集合;使用canopy算法对数据集合进行聚合得到第一聚类,根据第一聚类的K值;根据K值使用K‑Means算法对数据集合进行聚类直到中心点收敛或达到预设要求,得到多个类簇;根据预设向量相似度阈值确定每个类簇中的关键元素,根据关键元素提炼出导致系统运行安全隐患的关键属性,当安全检查结果库中新检查项的关键属性的数量大于预设关键属性数量阈值时,将新检查项加入到安全检查标准库中。本发明具有如下优点:缩短了更新时间,自动对新的检查项判断是否加入安全检查标准库。
Description
技术领域
本发明涉及电力系统安全检查自动化领域,具体涉及一种基于数据挖掘的安全检查标准库动态更新方法。
背景技术
随着社会经济的快速发展,电网建设也步入高速发展的时期,电网规模已经达到较高水平,电网结构日趋复杂。电力设备数量快速增长,电力系统中运行的设备产生的数据信息量急剧增加。在此情况下保证电网安全稳定的运行是电网动作的重中之重,而安全检查是保证电网安全运行的重要环节之一。
传统的安全检查是相关工作人员根据安全检查标准库中的内容逐项对各检查项定期或者不定期进行检查或抽查,然而随着电网规模的增大传统的安全检查标准库已经跟不上电网系统运行安全生产检查项的更新速度及结构的复杂程度,难免会产生疏漏之处,或者检查项长期不更新就会造成工作效率低或者重复劳动。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的目的在于提出一种基于数据挖掘的安全检查标准库动态更新方法,保证电网安全运行。
为了实现上述目的,本发明的实施例公开了一种基于数据挖掘的安全检查标准库动态更新方法,包括以下步骤:S1:从安全检查结果库提取出N种特征,将多种特征合成得到N维向量,其中,N为自然数;S2:对N维向量进行归一化处理得到数据集合;S3:使用canopy算法对所述数据集合进行聚合得到第一聚类,根据所述第一聚类的K值;S4:根据K值使用K-Means算法对所述数据集合进行聚类直到中心点收敛或达到预设要求,得到多个类簇;S5:根据预设向量相似度阈值确定每个类簇中的关键元素,根据所述关键元素提炼出导致系统运行安全隐患的关键属性,当所述安全检查结果库中新检查项的所述关键属性的数量大于预设关键属性数量阈值时,将所述新检查项加入到所述安全检查标准库中。
根据本发明实施例的基于数据挖掘的安全检查标准库动态更新方法,通过K-Means算法分析出安全检查结果库中的重要检查项更新到安全检查标准库中,当安全检查结果库中出现新的检查项时,计算此检查项数据与安全检查结果库中已有的检查项的匹配度,然后计算出对应的解决方案;根据数据挖掘技术当一个新的检查项出现时进行分析并做出判断,从而缩短了更新时间;当出现一个新的检查项时就及时做出分析判断,从而决定是否对安全检查标准库进行更新。
另外,根据本发明上述实施例的基于数据挖掘的安全检查标准库动态更新方法,还可以具有如下附加的技术特征:
进一步地,通过以下公式进行归一化处理:
其中,为归一化结果,ui为xi维度上的均值,为xi维度上的标准差。
进一步地,步骤S3进一步包括:S301:设定距离阈值T1和第二距离T2,且距离阈值T1大于距离阈值T2;S302:从所述数据集合随机选定一个数据向量,计算所述选定数据向量与其它向量之间的距离H;S303:把距离H小于距离阈值T1的向量生成canopy,把距离H小于T2的向量从所述数据集合中删除;S304:重复执行步骤S302和S303,直至所述数据集合为空,从而得到所述第一聚类,根据所述第一聚类计算K值。
进一步地,步骤S4进一步包括:S401:遍历所述数据集合,将每个数据划分到最近的中心点中;计算每个聚类的平均值,并作为新的中心点,其中,每个点到中心点的距离公式为:
其中,xi为当前数据向量第i个向量分量,ki为聚类中心点地i个分量;S402:判断每个中心点是否收敛或达到预设要求,如果每个中心点不收敛且未达到预设要求,返回步骤S401。
进一步地,步骤S5进一步包括:对每一个类簇中的对象向量,剔除其中的预设数量的向量分量;计算类簇内的剩余向量的向量相似度;如果所述剩余向量的向量相似度小于所述预设向量相似度阈值,则剔除的向量分量为关键元素;根据所述关键元素提炼出导致系统运行安全隐患的关键属性;当所述安全检查结果库中新检查项的关键属性的数量是否大于预设关键属性数量阈值时,将所述新检查项加入到所述安全检查标准库中。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的基于数据挖掘的安全检查标准库动态更新方法的流程图;
图2是本发明一个实施例的基于数据挖掘的安全检查标准库动态更新方法的详细步骤的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述本发明。
图1是本发明实施例的基于数据挖掘的安全检查标准库动态更新方法的流程图,图2是本发明一个实施例的基于数据挖掘的安全检查标准库动态更新方法的详细步骤的流程图。如图1和图2所示,一种基于数据挖掘的安全检查标准库动态更新方法,包括以下步骤:
S1:从安全检查结果库提取出N种特征,将多种特征合成得到N维向量(x1,x2,x3。。。。。,xn),其中,N为自然数。
S2:对N维向量进行归一化处理得到数据集合。
具体地,样本数据集合每一个维度都具有均值和单位方差。计算每一个维度上数据的均值和标准差,首先在每一个维度上与该均值求差,然后在数据的每个维度上与该维度上数据的标准差相除。具体如下:
其中,为归一化结果,ui为xi维度上的均值,为xi维度上的标准差。
S3:使用canopy算法对所述数据集合进行聚合得到第一聚类,根据所述第一聚类的K值。
具体地,将新的安全检查项数据向量化得到一个结果集list后放入内存中,
S301:选择距离阈值T1和距离阈值T2,其中距离阈值T1>距离阈值T2;
S302:从数据集合list中任取一个数据向量计算数据向量与其它向量之间的距离H;
S303:如果当前不存在Canopy,则把数据向量作为一个Canopy,如果数据向量与某个Canopy距离在T1以内,则将数据向量加入到这个Canopy;如果数据向量曾经与某个Canopy的距离在T2以内,则需要把数据向量从list中删除,此时认为数据向量与这个Canopy已经足够接近,它不可以在做其他Canopy的中心。
S304:重复执行步骤S302和S303,直至数据集合list为空,从而得到第一聚类,根据第一聚类计算K值。
S4:根据K值使用K-Means算法对数据集合list进行聚类直到中心点收敛或达到预设要求,得到多个类簇。
具体地,步骤S4进一步包括:
S401:遍历数据集合list,将每个数据划分到最近的中心点中;计算每个聚类的平均值,并作为新的中心点,其中,每个点到中心点的距离公式为:
其中,xi为当前数据向量第i个向量分量,ki为聚类中心点地i个分量;
S402:判断每个中心点是否收敛或达到预设要求,如果每个中心点不收敛且未达到预设要求,返回步骤S401。
S5:根据预设向量相似度阈值确定每个类簇中的关键元素,根据关键元素提炼出导致系统运行安全隐患的关键属性,当安全检查结果库中新检查项的关键属性的数量大于预设关键属性数量阈值时,将新检查项加入到安全检查标准库中。
具体地,如果对每一个类簇中的对象向量剔除其中的某几个向量分量(xj。。。xK。。。xm),计算类簇内的向量相似度,如果大于等于预设向量相似度阈值,说明剔除的向量分量不是关键元素;如果小于预设向量相似度阈值,说明此向量分量为关键元素,进而提炼出导致系统运行安全隐患的关键属性。对比安全检查结果库中每一个新的检查项,看其具有的关键属性的个数用N表示,同时我们设定一个值M,当N>M时,就把此新检查项加入到安全检查标准库中。
另外,本发明实施例的基于数据挖掘的安全检查标准库动态更新方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
Claims (5)
1.一种基于数据挖掘的安全检查标准库动态更新方法,其特征在于,包括以下步骤:
S1:从安全检查结果库提取出N种特征,将多种特征合成得到N维向量,其中,N为自然数;
S2:对N维向量进行归一化处理得到数据集合;
S3:使用canopy算法对所述数据集合进行聚合得到第一聚类,根据所述第一聚类的K值;
S4:根据K值使用K-Means算法对所述数据集合进行聚类直到中心点收敛或达到预设要求,得到多个类簇;
S5:根据预设向量相似度阈值确定每个类簇中的关键元素,根据所述关键元素提炼出导致系统运行安全隐患的关键属性,当所述安全检查结果库中新检查项的所述关键属性的数量大于预设关键属性数量阈值时,将所述新检查项加入到所述安全检查标准库中。
2.根据权利要求1所述的基于数据挖掘的安全检查标准库动态更新方法,其特征在于,通过以下公式进行归一化处理:
其中,为归一化结果,ui为xi维度上的均值,为xi维度上的标准差。
3.根据权利要求1所述的基于数据挖掘的安全检查标准库动态更新方法,其特征在于,步骤S3进一步包括:
S301:设定距离阈值T1和第二距离T2,且距离阈值T1大于距离阈值T2;
S302:从所述数据集合随机选定一个数据向量,计算所述选定数据向量与其它向量之间的距离H;
S303:把距离H小于距离阈值T1的向量生成canopy,把距离H小于T2的向量从所述数据集合中删除;
S304:重复执行步骤S302和S303,直至所述数据集合为空,从而得到所述第一聚类,根据所述第一聚类计算K值。
4.根据权利要求3所述的基于数据挖掘的安全检查标准库动态更新方法,其特征在于,步骤S4进一步包括:
S401:遍历所述数据集合,将每个数据划分到最近的中心点中;计算每个聚类的平均值,并作为新的中心点,其中,每个点到中心点的距离公式为:
其中,xi为当前数据向量第i个向量分量,ki为聚类中心点地i个分量;
S402:判断每个中心点是否收敛或达到预设要求,如果每个中心点不收敛且未达到预设要求,返回步骤S401。
5.根据权利要求4所述的基于数据挖掘的安全检查标准库动态更新方法,其特征在于,步骤S5进一步包括:
对每一个类簇中的对象向量,剔除其中的预设数量的向量分量;
计算类簇内的剩余向量的向量相似度;
如果所述剩余向量的向量相似度小于所述预设向量相似度阈值,则剔除的向量分量为关键元素;
根据所述关键元素提炼出导致系统运行安全隐患的关键属性;
当所述安全检查结果库中新检查项的关键属性的数量是否大于预设关键属性数量阈值时,将所述新检查项加入到所述安全检查标准库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610874151.9A CN106484838A (zh) | 2016-09-30 | 2016-09-30 | 基于数据挖掘的安全检查标准库动态更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610874151.9A CN106484838A (zh) | 2016-09-30 | 2016-09-30 | 基于数据挖掘的安全检查标准库动态更新方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106484838A true CN106484838A (zh) | 2017-03-08 |
Family
ID=58268403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610874151.9A Pending CN106484838A (zh) | 2016-09-30 | 2016-09-30 | 基于数据挖掘的安全检查标准库动态更新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484838A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862431A (zh) * | 2017-09-21 | 2018-03-30 | 中国南方电网有限责任公司 | 一种调度安全生产监督管控方法 |
CN108921395A (zh) * | 2018-06-11 | 2018-11-30 | 中国电力科学研究院有限公司 | 一种面向电力通信系统仿真的网络性能增量优化评估方法及系统 |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
CN110674182A (zh) * | 2019-08-08 | 2020-01-10 | 厦门久凌创新科技有限公司 | 大数据的分析方法、及数据分析服务器 |
CN110750963A (zh) * | 2018-07-02 | 2020-02-04 | 北京四维图新科技股份有限公司 | 一种新闻文档去重的方法、装置及存储介质 |
CN111082968A (zh) * | 2019-11-13 | 2020-04-28 | 广西电网有限责任公司防城港供电局 | 网络设备安全配置合规性批量检查方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591872A (zh) * | 2011-01-06 | 2012-07-18 | 中国移动通信集团四川有限公司 | 一种客户特征库生成方法和装置 |
CN103744962A (zh) * | 2014-01-06 | 2014-04-23 | 浪潮(北京)电子信息产业有限公司 | 一种实现K-means聚类的方法及装置 |
CN104123682A (zh) * | 2014-07-28 | 2014-10-29 | 国家电网公司 | 一种基于气象影响因素的配网故障风险评估方法 |
CN105095266A (zh) * | 2014-05-08 | 2015-11-25 | 中国科学院声学研究所 | 一种基于Canopy算法的聚类优化方法及系统 |
CN105654392A (zh) * | 2015-11-26 | 2016-06-08 | 国家电网公司 | 一种基于聚类算法的设备家族性缺陷的分析方法 |
CN105678607A (zh) * | 2016-01-07 | 2016-06-15 | 合肥工业大学 | 一种基于改进的K-Means算法的订单分批方法 |
CN105787509A (zh) * | 2016-02-25 | 2016-07-20 | 中南大学 | 一种铁矿混匀过程的预配料方法 |
-
2016
- 2016-09-30 CN CN201610874151.9A patent/CN106484838A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591872A (zh) * | 2011-01-06 | 2012-07-18 | 中国移动通信集团四川有限公司 | 一种客户特征库生成方法和装置 |
CN103744962A (zh) * | 2014-01-06 | 2014-04-23 | 浪潮(北京)电子信息产业有限公司 | 一种实现K-means聚类的方法及装置 |
CN105095266A (zh) * | 2014-05-08 | 2015-11-25 | 中国科学院声学研究所 | 一种基于Canopy算法的聚类优化方法及系统 |
CN104123682A (zh) * | 2014-07-28 | 2014-10-29 | 国家电网公司 | 一种基于气象影响因素的配网故障风险评估方法 |
CN105654392A (zh) * | 2015-11-26 | 2016-06-08 | 国家电网公司 | 一种基于聚类算法的设备家族性缺陷的分析方法 |
CN105678607A (zh) * | 2016-01-07 | 2016-06-15 | 合肥工业大学 | 一种基于改进的K-Means算法的订单分批方法 |
CN105787509A (zh) * | 2016-02-25 | 2016-07-20 | 中南大学 | 一种铁矿混匀过程的预配料方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862431A (zh) * | 2017-09-21 | 2018-03-30 | 中国南方电网有限责任公司 | 一种调度安全生产监督管控方法 |
CN108921395A (zh) * | 2018-06-11 | 2018-11-30 | 中国电力科学研究院有限公司 | 一种面向电力通信系统仿真的网络性能增量优化评估方法及系统 |
CN110750963A (zh) * | 2018-07-02 | 2020-02-04 | 北京四维图新科技股份有限公司 | 一种新闻文档去重的方法、装置及存储介质 |
CN110750963B (zh) * | 2018-07-02 | 2023-09-26 | 北京四维图新科技股份有限公司 | 一种新闻文档去重的方法、装置及存储介质 |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
CN110674182A (zh) * | 2019-08-08 | 2020-01-10 | 厦门久凌创新科技有限公司 | 大数据的分析方法、及数据分析服务器 |
CN111082968A (zh) * | 2019-11-13 | 2020-04-28 | 广西电网有限责任公司防城港供电局 | 网络设备安全配置合规性批量检查方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484838A (zh) | 基于数据挖掘的安全检查标准库动态更新方法 | |
Singh et al. | Comparative study ID3, cart and C4. 5 decision tree algorithm: a survey | |
CN107169145B (zh) | 一种基于聚类算法的用户窃电严重等级检测的方法 | |
CN105930723A (zh) | 一种基于特征选择的入侵检测方法 | |
CN106778259A (zh) | 一种基于大数据机器学习的异常行为发现方法及系统 | |
CN105426762A (zh) | 一种android应用程序恶意性的静态检测方法 | |
CN110210723B (zh) | 一种基于层次分析法和孤立森林的窃电辨识方法 | |
CN106899440A (zh) | 一种面向云计算的网络入侵检测方法及系统 | |
CN105372528B (zh) | 一种电力变压器内部故障的状态检修方法 | |
CN107038833B (zh) | 一种山火火点二次甄别方法及系统 | |
CN109507535A (zh) | 变电站接地网运行阶段及运行寿命预测方法及装置 | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN111652478B (zh) | 基于伞式算法的电力系统电压稳定评估误分类约束方法 | |
CN111191731A (zh) | 数据处理的方法、装置、存储介质及电子设备 | |
CN107895212A (zh) | 基于滑动窗口和多视角特征融合的铅酸电池寿命预测方法 | |
CN107729939A (zh) | 一种面向新增电网资源的cim模型扩展方法及装置 | |
CN104933365B (zh) | 一种基于调用习惯的恶意代码自动化同源判定方法及系统 | |
CN116318754A (zh) | 针对分布式电源的多终端协同动态安全分析方法和系统 | |
CN109800782A (zh) | 一种基于模糊knn算法的电网故障检测方法及装置 | |
CN108491719A (zh) | 一种改进朴素贝叶斯算法的安卓恶意程序检测方法 | |
CN105654392A (zh) | 一种基于聚类算法的设备家族性缺陷的分析方法 | |
Zhou et al. | Credit card fraud identification based on principal component analysis and improved AdaBoost algorithm | |
CN112231775A (zh) | 一种基于Adaboost算法的硬件木马检测方法 | |
CN115618610B (zh) | 一种基于信息变权重的地下工程岩爆烈度评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170308 |