CN118013341A - 一种基于smote的电力通信设备数据平衡的方法 - Google Patents

一种基于smote的电力通信设备数据平衡的方法 Download PDF

Info

Publication number
CN118013341A
CN118013341A CN202410294457.1A CN202410294457A CN118013341A CN 118013341 A CN118013341 A CN 118013341A CN 202410294457 A CN202410294457 A CN 202410294457A CN 118013341 A CN118013341 A CN 118013341A
Authority
CN
China
Prior art keywords
samples
data
sample
composite
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410294457.1A
Other languages
English (en)
Inventor
饶庆
石川
刘雯
肖思昌
王晓婷
鲁非
柳明
丰金浩
潘柳兆
涂京
彭学林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Original Assignee
Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd filed Critical Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority to CN202410294457.1A priority Critical patent/CN118013341A/zh
Publication of CN118013341A publication Critical patent/CN118013341A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明涉及一种基于SMOTE的电力通信设备数据平衡的方法,主要应用于电力系统安全方向。方法包括:步骤一:对电力通信设备的数据进行收集,主要包括设备传感器的参数、设备状态、通信流量、设备警告等信息。步骤二:对各种类型数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值。步骤三:针对每个少数类别样本应用SMOTE算法生成合成样本。步骤四:将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集。步骤五:使用平衡后的数据集来训练模型,验证平衡后数据集的有效性。本发明较常规的电力通信设备数据平衡方法相比,采用了基于SMOTE的方法改善数据过拟合风险,并且不改变原始数据分布,能够更好地改善模型性能。

Description

一种基于SMOTE的电力通信设备数据平衡的方法
技术领域
本申请涉及电力系统安全领域,一种基于SMOTE的电力通信设备数据平衡的方法。
背景技术
电力通信设备是电力系统中的核心组成部分,用于实现电力系统的监控、控制和通信。这些设备通常配备了传感器、通信模块和监控系统,以便实时监测电力系统的状态和运行情况。然而,电力通信设备数据集经常面临数据不平衡问题,其中正常状态的样本数量远远多于故障或异常状态的样本数量,这可能对设备的故障检测和预测造成挑战。
在这一背景下,SMOTE技术发挥了关键作用,提供了一种有效的方法来处理电力通信设备数据不平衡问题。1.故障检测:电力通信设备的一个主要任务是检测设备故障或异常状态。然而,由于故障状态的样本数量相对较少,传统的机器学习模型容易受到不平衡数据的影响。SMOTE可以通过生成合成样本来增加故障状态的样本数量,从而改善故障检测的性能。2.预测性维护:电力通信设备的预测性维护对电力系统的稳定性和可靠性至关重要。通过在不平衡的数据集上训练预测性维护模型,可以更好地预测设备的维护需求,减少突发故障和停机时间。SMOTE有助于提高这些预测模型的准确性。3.减少误报:由于正常状态样本数量较多,不平衡数据集容易导致误报。即使有一小部分故障状态样本,模型可能会更倾向于将正常状态的样本错误地分类为故障。通过平衡数据集,SMOTE可以减少误报,提高警报的准确性。4.改善可视化和监控:电力通信设备的监控和可视化通常涉及大量数据。通过处理不平衡数据,可以提高监控系统的性能,更好地反映设备状态的实际情况,使操作人员更容易识别潜在问题。
发明内容
本申请实施例的目的在于提供一种基于SMOTE的电力通信设备数据平衡的方法,该方法通过对电力通信设备的数据收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息。并将收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值。针对每个少数类别样本应用SMOTE算法生成合成样本。将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集。使用平衡后的数据集来训练模型,验证平衡后数据集的有效性。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种基于SMOTE的电力通信设备数据平衡的方法,其特征在于,包括以下步骤:
1)对电力通信设备的数据收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息,
2)对步骤1)中收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值,
3)针对每个少数类别样本应用SMOTE算法生成合成样本,
4)将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集,
5)使用平衡后的数据集来训练模型,验证平衡后数据集的有效性。
步骤1)中,对电力通信设备的数据进行收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息。
所收集到的数据包括数字数据、文本数据、图像数据等类型;数据格式则包括时间序列格式、表格数据、文本数据等,对于电力通信设备数据的采集频率通常固定间隔时间进行数据采集,以减少误差。
步骤2)中,需对步骤1)中收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值,其中将数据集中的类别主要分为两个主要类别,多数类别和少数类别。而电力通信设备数据通常多数类别代表正常状态,少数类别代表故障或异常状态,同时统计每个类别的样本数量,记录多数类别和少数类别的样本数量。
需要为样本选择合适的SMOTE参数值,选择标准的SMOTE方法,并确定参数值k_neighbors,其中参数定义了用于合成样本生成的最近邻样本的数量,并决定需为每个少数类别样本生成多少个合成样本。
步骤3)中,针对每个少数类别样本应用SMOTE算法生成合成样本,其中通过SMOTE算法生成合成样本主要通过以下步骤实现:
a)选择少数类别样本:遍历数据集中的少数类别样本,即故障或异常状态的样本。
b)计算最近邻:对于每个少数类别样本,计算其与数据集中其他样本的距离,以找到最近邻样本,距离可以使用各种距离度量,
c)选择合成样本数量:根据步骤2)中的参数设置,确定为每个少数类别样本生成的合成样本数量,合成样本数量与k_neighbors的值成正比,
d)生成合成样本:
对于每个少数类别样本,为其生成合成样本,
合成样本是通过在特征空间中连接少数类别样本和其最近邻样本生成的,
生成合成样本的过程如下所示:
A.选择一个少数类别样本xi,
B.从该样本的最近邻样本中随机选择一个最近邻样本xnn,
C.对于每个特征j,计算新合成样本xnew的特征值:
xnew[j]=xi[j]+random(0,1)*(xnn[j]-xi[j])
D.这个过程会为每个特征生成新的特征值,从而形成新的合成样本xnew,
E.重复这个过程,直到生成所需数量的合成样本,
e)将合成样本添加到数据集:将生成的合成样本与原始数据集中的少数类别样本合并,以创建新的平衡数据集。
f)重复步骤:重复上述步骤,直到为所有少数类别样本生成足够数量的合成样本,以使每个类别的样本数平衡。
步骤4)中,将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集,其过程如下:
A.合成样本生成:在步骤3)中,为每个少数类别样本生成了合成样本,使得每个少数类别样本都有了多个合成样本,
B.合并过程:将生成的合成样本与原始数据集中的少数类别样本合并为一个新的数据集。这个数据集将包含平衡的样本,其中每个类别的样本数量相近,
C.数据集标签:确保合成样本和原始样本都具有相应的类别标签,以便模型能够正确识别类别,
D.数据分布:检查新数据集的类别分布,确保每个类别的样本数量相近,从而达到数据平衡的目标,
E.数据集划分:为后续模型训练和评估,将新数据集分为训练集和测试集,以进行模型训练和性能评估。
步骤5)中,使用平衡后的数据集来训练模型,验证平衡后数据集的有效性,选择合适的机器学习模型进行训练,根据训练结果来评估新数据集对模型的有效性。
与现有技术相比,本申请的有益效果是:相对于现有的电力通信设备数据平衡方法相比,采用了基于SMOTE的方法改善数据过拟合风险,并且不改变原始数据分布,能够更好地改善模型性能,从而有益于后续进行电力通信设备故障检测、故障预测、减少误报提高准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明中基于SMOTE的电力通信设备数据平衡的方法流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来,而不能理解为指示或暗示相对重要性,也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
如图1所示,本发明一种基于SMOTE的电力通信设备数据平衡的方法和系统,包括以下步骤:
步骤1:对电力通信设备的数据进行收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息。所收集到的数据包括数字数据、文本数据、图像数据等类型;数据格式则包括时间序列格式、表格数据、文本数据等,对于电力通信设备数据的采集频率通常固定间隔时间进行数据采集,以减少误差。
步骤2:需对步骤1中收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值。其中将数据集中的类别主要分为两个主要类别,多数类别和少数类别。而电力通信设备数据通常多数类别代表正常状态,少数类别代表故障或异常状态。同时统计每个类别的样本数量,记录多数类别和少数类别的样本数量。需要为样本选择合适的SMOTE参数值,选择标准的SMOTE方法,并确定参数值k_neighbors,设置为5,其中参数定义了用于合成样本生成的最近邻样本的数量,并决定需为每个少数类别样本生成多少个合成样本。
步骤3:针对每个少数类别样本应用SMOTE算法生成合成样本。其中通过SMOTE算法生成合成样本主要通过以下步骤实现:
a)选择少数类别样本:遍历数据集中的少数类别样本,即故障或异常状态的样本。
b)计算最近邻:对于每个少数类别样本,计算其与数据集中其他样本的距离,以找到最近邻样本。距离可以使用各种距离度量,如欧氏距离、曼哈顿距离等。
c)选择合成样本数量:根据步骤2)中的参数设置,确定为每个少数类别样本生成的合成样本数量。合成样本数量与k_neighbors的值成正比。
d)生成合成样本:
1.对于每个少数类别样本,为其生成合成样本。
2.合成样本是通过在特征空间中连接少数类别样本和其最近邻样本生成的。
3.生成合成样本的过程如下所示:
A.选择一个少数类别样本xi
B.从该样本的最近邻样本中随机选择一个最近邻样本xnn
C.对于每个特征j,计算新合成样本xnew的特征值:
xnew[j]=xi[j]+random(0,1)*(xnn[j]-xi[j])
D.这个过程会为每个特征生成新的特征值,从而形成新的合成样本xnew
E.重复这个过程,直到生成所需数量的合成样本。
e)将合成样本添加到数据集:将生成的合成样本与原始数据集中的少数类别样本合并,以创建新的平衡数据集。
f)重复步骤:重复上述步骤,直到为所有少数类别样本生成足够数量的合成样本,以使每个类别的样本数平衡。
步骤4:将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集。其过程如下:
A.合成样本生成:在步骤3中,为每个少数类别样本生成了合成样本,使得每个少数类别样本都有了多个合成样本。
B.合并过程:将生成的合成样本与原始数据集中的少数类别样本合并为一个新的数据集。这个数据集将包含平衡的样本,其中每个类别的样本数量相近。
C.数据集标签:确保合成样本和原始样本都具有相应的类别标签,以便模型能够正确识别类别。
D.数据分布:检查新数据集的类别分布,确保每个类别的样本数量相近,从而达到数据平衡的目标。
E.数据集划分:为后续模型训练和评估,将新数据集分为训练集和测试集,以进行模型训练和性能评估。
步骤5:使用平衡后的数据集来训练模型,验证平衡后数据集的有效性。选择合适的机器学习模型进行训练,根据训练结果来评估新数据集对模型的有效性。
本发明基于SMOTE的电力通信设备数据平衡的方法,该方法通过对电力通信设备的数据收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息。并将收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值。针对每个少数类别样本应用SMOTE算法生成合成样本。将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集。使用平衡后的数据集来训练模型,验证平衡后数据集的有效性。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种基于SMOTE的电力通信设备数据平衡的方法,其特征在于,包括以下步骤:
1)对电力通信设备的数据收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息,
2)对步骤1)中收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值,
3)针对每个少数类别样本应用SMOTE算法生成合成样本,
4)将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集,
5)使用平衡后的数据集来训练模型,验证平衡后数据集的有效性。
2.根据权利要求1所述方法,其特征在于,步骤1)中,对电力通信设备的数据进行收集,主要包括设备传感器的参数,设备状态、通信流量、设备警告信息。
3.根据权利要求2所述方法,其特征在于,所收集到的数据包括数字数据、文本数据、图像数据等类型;数据格式则包括时间序列格式、表格数据、文本数据等,对于电力通信设备数据的采集频率通常固定间隔时间进行数据采集,以减少误差。
4.根据权利要求1所述方法,其特征在于,步骤2)中,需对步骤1)中收集的数据进行分析,统计每个类别的样本数量,并选择合适的SMOTE参数值,其中将数据集中的类别主要分为两个主要类别,多数类别和少数类别,而电力通信设备数据通常多数类别代表正常状态,少数类别代表故障或异常状态,同时统计每个类别的样本数量,记录多数类别和少数类别的样本数量。
5.根据权利要求4所述方法,其特征在于,需要为样本选择合适的SMOTE参数值,选择标准的SMOTE方法,并确定参数值k_neighbors,其中参数定义了用于合成样本生成的最近邻样本的数量,并决定需为每个少数类别样本生成多少个合成样本。
6.根据权利要求1所述方法,其特征在于,步骤3)中,针对每个少数类别样本应用SMOTE算法生成合成样本,其中通过SMOTE算法生成合成样本主要通过以下步骤实现:
a)选择少数类别样本:遍历数据集中的少数类别样本,即故障或异常状态的样本,
b)计算最近邻:对于每个少数类别样本,计算其与数据集中其他样本的距离,以找到最近邻样本,距离可以使用各种距离度量,
c)选择合成样本数量:根据步骤2)中的参数设置,确定为每个少数类别样本生成的合成样本数量,合成样本数量与k_neighbors的值成正比,
d)生成合成样本:
对于每个少数类别样本,为其生成合成样本,
合成样本是通过在特征空间中连接少数类别样本和其最近邻样本生成的,
生成合成样本的过程如下所示:
A.选择一个少数类别样本xi
B.从该样本的最近邻样本中随机选择一个最近邻样本xnn
C.对于每个特征j,计算新合成样本xnew的特征值:
xnew[j]=xi[j]+random(0,1)*(xnn[j]-xi[j])
D.这个过程会为每个特征生成新的特征值,从而形成新的合成样本xnew
E.重复这个过程,直到生成所需数量的合成样本,
e)将合成样本添加到数据集:将生成的合成样本与原始数据集中的少数类别样本合并,以创建新的平衡数据集,
f)重复步骤:重复上述步骤,直到为所有少数类别样本生成足够数量的合成样本,以使每个类别的样本数平衡。
7.根据权利要求1所述方法,其特征在于,步骤4)中,将生成的合成样本与原始数据集中的少数样本合并,生成一个新的平衡数据集,其过程如下:
A.合成样本生成:在步骤3)中,为每个少数类别样本生成了合成样本,使得每个少数类别样本都有了多个合成样本,
B.合并过程:将生成的合成样本与原始数据集中的少数类别样本合并为一个新的数据集,这个数据集将包含平衡的样本,其中每个类别的样本数量相近,
C.数据集标签:确保合成样本和原始样本都具有相应的类别标签,以便模型能够正确识别类别,
D.数据分布:检查新数据集的类别分布,确保每个类别的样本数量相近,从而达到数据平衡的目标,
E.数据集划分:为后续模型训练和评估,将新数据集分为训练集和测试集,以进行模型训练和性能评估。
8.根据权利要求1所述方法,其特征在于,步骤5)中,使用平衡后的数据集来训练模型,验证平衡后数据集的有效性,选择合适的机器学习模型进行训练,根据训练结果来评估新数据集对模型的有效性。
CN202410294457.1A 2024-03-14 2024-03-14 一种基于smote的电力通信设备数据平衡的方法 Pending CN118013341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410294457.1A CN118013341A (zh) 2024-03-14 2024-03-14 一种基于smote的电力通信设备数据平衡的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410294457.1A CN118013341A (zh) 2024-03-14 2024-03-14 一种基于smote的电力通信设备数据平衡的方法

Publications (1)

Publication Number Publication Date
CN118013341A true CN118013341A (zh) 2024-05-10

Family

ID=90952054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410294457.1A Pending CN118013341A (zh) 2024-03-14 2024-03-14 一种基于smote的电力通信设备数据平衡的方法

Country Status (1)

Country Link
CN (1) CN118013341A (zh)

Similar Documents

Publication Publication Date Title
CN110210512B (zh) 一种自动化日志异常检测方法及系统
AU2019275633B2 (en) System and method of automated fault correction in a network environment
JP2018170006A (ja) 電力グリッドにおけるサイバー脅威を検出する汎用フレームワーク
Pavlovski et al. Hierarchical convolutional neural networks for event classification on PMU measurements
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
WO2018104985A1 (ja) 異常分析方法、プログラムおよびシステム
WO2016147657A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
US11640459B2 (en) Abnormality detection device
KR20230030542A (ko) 랜덤 컷 포레스트 알고리즘을 이용한 ai 기반의 설비 데이터 이상 감지 시스템과 그 방법
CN115396324A (zh) 一种网络安全态势感知预警处理系统
CN108039971A (zh) 一种告警方法及装置
CN110337640A (zh) 用于问题警报聚合的方法和系统
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
Hwang et al. Shifting artificial data to detect system failures
CN113676343A (zh) 电力通信网故障源定位方法及装置
JP4559974B2 (ja) 管理装置及び管理方法及びプログラム
CN112769615A (zh) 一种异常分析方法及装置
US10157113B2 (en) Information processing device, analysis method, and recording medium
CN116756659A (zh) 智能运维管理方法、装置、设备及存储介质
CN118013341A (zh) 一种基于smote的电力通信设备数据平衡的方法
CN115495274A (zh) 基于时序数据的异常处理方法、网络设备和可读存储介质
CN110007171A (zh) 变压器在线监测数据误报警的筛查方法及系统
King et al. Probabilistic approach to the condition monitoring of aerospace engines
CN115189961A (zh) 一种故障识别方法、装置、设备及存储介质
JP2022037107A (ja) 障害分析装置、障害分析方法および障害分析プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination