CN117574135B

CN117574135B - 一种电网攻击事件检测方法、装置、设备及存储介质

Info

Publication number: CN117574135B
Application number: CN202410057439.1A
Authority: CN
Inventors: 章寒冰; 叶吉超; 徐永海; 黄慧; 季奥颖; 胡鑫威; 徐文渊; 潘锴锴; 卢武; 孙歆; 柳伟; 刘林萍; 郑华; 程翔
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-03-26
Anticipated expiration: 2044-01-16
Also published as: CN117574135A

Abstract

本发明公开一种电网攻击事件检测方法、装置、设备及存储介质，该方法包括：将排序处理后的传感器低维特征、通信网络低维特征和日志低维特征整合为第二向量数据；确定传感器低维特征和通信网络低维特征的关联特征，确定日志低维特征和传感器低维特征的交互特征；将关联特征和交互特征添加到第二向量数据，得到第三向量数据；筛选出重要性评分大于影子特征集的特征数据组，并输入到神经网络模型中，得到重要特征集被识别为不同网络攻击类型的概率，将概率最大的网络攻击类型作为预测攻击类型。本发明能够对多源多维度数据进行处理，通过在第二向量数据中添加关联特征和交互特征全面了解数据的重要性和特征，进而提高了对电网攻击事件的检测精度。

Description

一种电网攻击事件检测方法、装置、设备及存储介质

技术领域

本发明涉及电网维护的技术领域，尤其涉及一种电网攻击事件检测方法、装置、设备及存储介质。

背景技术

现有技术中，在进行电网攻击事件检测时，可以考虑单一攻击因素进行建模，但是这种检测方法难以满足不同类型网络攻击的需求；也可以通过机器学习建立网络的正常行为模式，通过攻击下的网络行为与正常行为模式的不匹配度来对网络攻击进行分类检测，但是这种检测方法检测精确度低。

因此，我们需要一种既能同时处理多源多维度数据，又能提高电网攻击事件的检测精度的攻击事件检测方法。

发明内容

本发明提供一种电网攻击事件检测方法、装置、设备及存储介质，解决了现有的电网攻击检测方法不能对多源多维度数据进行处理，同时检测精度低的问题。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种电网攻击事件检测方法，该方法包括：

对从目标电网获取的数据流进行标准化处理得到第一向量数据；所述第一向量数据包括从所述目标电网的传感器网络数据提取的电流数据和电压数据，从所述目标电网的通信通道数据提取的通信流量统计指标数据，从所述目标电网的安全日志数据提取的关键词以及时间戳；不同的所述关键词对应不同的电网攻击事件；

根据数据类型将所述第一向量数据划分为传感器频道数据、通信网络频道数据和日志处理频道数据；

分别对目标时间段内所述传感器频道数据、所述通信网络频道数据以及所述日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征；所述传感器低维特征包括每个传感器的平均电流值、最大电压波动值以及不同传感器的负荷均衡度，所述通信网络低维特征包括平均数据包传输速率、数据包丢失率和通信协议类型，所述日志低维特征包括被识别为恶意的关键词的文本对应的数值和所述关键词的词频；

根据时间戳的先后顺序分别对所述传感器低维特征、所述通信网络低维特征和所述日志低维特征进行排序处理，并将排序处理后的所述传感器低维特征、所述通信网络低维特征和所述日志低维特征按照时间戳整合为第二向量数据；

通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征；同时通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征；

将所述关联特征和所述交互特征添加到所述第二向量数据，得到第三向量数据；

基于Boruta算法对所述第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集；所述影子特征集是通过所述特征数据组顺序打乱和随机化得到的；

将所述重要特征集输入到预先训练好的神经网络模型中，通过所述神经网络模型确定所述重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为所述重要特征集对应的预测攻击类型。

在一种可能的实现方式中，所述对从目标电网获取的数据流进行标准化处理得到第一向量数据，具体包括：

从所述目标电网获取由传感器网络数据、通信通道数据和安全日志数据组成的数据流，并将所述数据流输入到U-PaLM模型中；

对所述传感器网络数据和所述通信通道数据中的缺失值进行填补，对异常值进行修复，并对所述数据流中数据来源和数据类型相同的数据的单位进行统一，得到处理后传感器网络数据和处理后通信通道数据；所述处理后传感器网络数据包括电流数据和电压数据，所述处理后通信通道数据包括通信流量统计指标数据；

提取所述安全日志数据中的关键词，统计所述关键词的词频，并通过文本转向量的方式将所述关键词转换为所述关键词的文本对应的数值；

根据所述处理后传感器网络数据、所述处理后通信通道数据、所述关键词的文本对应的数值以及所述关键词对应的词频，得到第一向量数据。

在一种可能的实现方式中，所述分别对目标时间段内所述传感器频道数据、所述通信网络频道数据以及所述日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征，具体包括：

计算目标时间段内的所述传感器频道数据中每个传感器的电流数据的平均电流值，计算目标时间段内的所述传感器频道数据中每个传感器的电压数据的平均电压值，根据每个传感器的电流数据和电压数据，通过传感器的负载均衡算法计算每个所述传感器的负荷均衡度，并将所述平均电流值、所述平均电压值和负荷均衡度作为传感器低维特征；

确定目标时间段内通信网络频道数据的平均数据包传输速率、数据包丢失率以及通信协议类型，并将所述平均数据包传输速率、所述数据包丢失率以及所述通信协议类型作为通信网络低维特征；

统计所述日志处理频道数据中被识别为恶意的关键词的词频，并将所述被识别为恶意的关键词的文本对应的数值和所述关键词的词频作为日志低维特征。

在一种可能的实现方式中，所述通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征，具体为：

预先确定的相关性函数为皮尔逊相关系数函数，通过所述皮尔逊相关系数函数计算所述传感器低维特征中的第一目标特征与所述通信网络低维特征中的第二目标特征的相关系数，并将计算得到的所述相关系数作为所述传感器低维特征和通信网络低维特征之间的关联特征。

在一种可能的实现方式中，所述通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征，具体包括：

预先确定的匹配函数为余弦相似度计算函数，通过所述余弦相似度计算函数计算所述日志低维特征中的第三目标特征与所述传感器低维特征的第四目标特征的相似度值，并将计算得到的所述相似度值作为所述日志低维特征和所述传感器低维特征之间的交互特征。

在一种可能的实现方式中，所述基于Boruta算法对所述第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集，具体包括：

对于所述第三向量数据中的每个特征数据组，随机打乱所述特征数据组中的特征值，并对所述特征值重新排列，得到所述特征数据组对应的影子特征集；

将所述影子特征集添加到所述第三向量数据中，得到扩展特征集；

基于所述扩展特征集对原始随机森林模型进行训练，得到训练后随机森林模型；

将所述第三向量数据和所述影子特征集输入到所述训练后随机森林模型中，通过所述训练后随机森林模型输出重要性评分大于影子特征集的特征数据组作为重要特征集。

在一种可能的实现方式中，所述将所述重要特征集输入到预先训练好的神经网络模型中，通过所述神经网络模型确定所述重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为所述重要特征集对应的预测攻击类型，具体包括：

将所述重要特征集输入到预先训练好的神经网络模型中，所述神经网络模型的全连接层通过如下公式对所述重要特征集进行处理：

；

其中，表示所述重要特征集，/>表示所述神经网络模型的权重矩阵，/>表示所述神经网络模型的偏重向量；

表示通过所述神经网络模型将所述重要特征集预测为不同的网络攻击类型的概率；网络攻击类型包括恶意软件攻击、分布式拒绝服务攻击、网络入侵、物理攻击、信息泄漏攻击、恶意代码注入、身份欺骗攻击、数据篡改攻击、钓鱼攻击及内部威胁；

表示softmax激活函数。

第二方面，本发明提供一种电网攻击事件检测装置，该装置包括：

数据预处理模块，用于对从目标电网获取的数据流进行标准化处理得到第一向量数据；所述第一向量数据包括从所述目标电网的传感器网络数据提取的电流数据和电压数据，从所述目标电网的通信通道数据提取的通信流量统计指标数据，从所述目标电网的安全日志数据提取的关键词以及时间戳；不同的所述关键词对应不同的电网攻击事件；

数据分割模块，用于根据数据类型将所述第一向量数据划分为传感器频道数据、通信网络频道数据和日志处理频道数据；

低频特征提取模块，用于分别对目标时间段内所述传感器频道数据、所述通信网络频道数据以及所述日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征；所述传感器低维特征包括每个传感器的平均电流值、最大电压波动值以及不同传感器的负荷均衡度，所述通信网络低维特征包括平均数据包传输速率、数据包丢失率和通信协议类型，所述日志低维特征包括被识别为恶意的关键词的文本对应的数值和所述关键词的词频；

排序融合模块，用于根据时间戳的先后顺序分别对所述传感器低维特征、所述通信网络低维特征和所述日志低维特征进行排序处理，并将排序处理后的所述传感器低维特征、所述通信网络低维特征和所述日志低维特征按照时间戳整合为第二向量数据；

关联交互特征确定模块，用于通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征；同时通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征；

数据扩展模块，用于将所述关联特征和所述交互特征添加到所述第二向量数据，得到第三向量数据；

重要特征提取模块，用于基于Boruta算法对所述第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集；所述影子特征集是通过所述特征数据组顺序打乱和随机化得到的；

攻击类型预测模块，用于将所述重要特征集输入到预先训练好的神经网络模型中，通过所述神经网络模型确定所述重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为所述重要特征集对应的预测攻击类型。

在一种可能的实现方式中，所述数据预处理模块被配置为执行：

在一种可能的实现方式中，所述低频特征提取模块被配置为执行：

在一种可能的实现方式中，在通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征时，所述关联交互特征确定模块被配置为执行：

预先确定的相关性函数为皮尔逊相关系数函数，通过所述皮尔逊相关系数函数计算所述传感器低维特征中的第一目标特征与所述通信网络低维特征中的第二目标特征的相关系数，并将计算得到的所述相关系数作为所述传感器低维特征和通信网络低维特征之间的关联特征

在一种可能的实现方式中，在通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征时，所述关联交互特征确定模块被配置为执行：

在一种可能的实现方式中，所述重要特征提取模块被配置为执行：

在一种可能的实现方式中，所述攻击类型预测模块被配置为执行：

；

表示softmax激活函数。

第三方面，本发明提供一种电子设备，该电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一项所述的电网攻击事件检测方法。

第四方面，本发明提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一项所述的电网攻击事件检测方法。

本发明实施例提供的电网攻击事件检测方法在实际应用时，首先，对目标电网涉及到的不同媒体和信号源的多源异质数据进行标准化处理，得到包括传感器网络数据、通信通道数据以及安全日志数据的第一向量数据；其次，根据数据类型的不同将第一向量数据划分为多个频道数据；再次，对目标时间段内各频道数据进行低维特征提取，对提取后的低维特征数据按照时间戳顺序进行排序，并将多个排序后的低维特征数据整合为第二向量数据；之后，通过相关性函数确定传感器低维特征和通信网络低维特征间的关联特征，通过匹配函数确定日志低维特征和传感器低维特征间的交互特征，并将关联特征和交互特征添加到第二向量数据中得到第三向量数据；之后，基于Boruta算法对第三向量数据中的每个特征数据组随机生成影子特征集，筛选出重要性评分大于影子特征集的特征数据组作为重要特征集；最后将重要特征集输入到训练好的神经网络模型中，通过神经网络模型确定该重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为该重要特征集对应的预测攻击类型；本发明的方法能够有效处理与目标电网相关的来自不同媒体和不同信息源的多源异构数据，提高对电网安全威胁的感知能力；本发明充分利用了对原始数据特征提取得到的第二向量数据、关联特征与交互特征，能够更加全面的理解多源异构数据的复杂特征，优化特征的重要性，为建立检测时间网络模型提供更有针对性的数据，从而有效地提高了对电网攻击事件的检测精度。

附图说明

图1为本发明实施例提供的一种电网攻击事件检测方法的步骤流程图；

图2为本发明实施例提供的一种电网攻击事件检测装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

为了解决现有的电网攻击检测方法不能对多源多维度数据进行处理，同时检测精度低的问题，本发明实施例提供了一种电网攻击事件检测方法、装置、设备及存储介质。

如图1所示，第一方面，本发明实施例提供了一种电网攻击事件检测方法，该方法包括：

步骤101、对从目标电网获取的数据流进行标准化处理得到第一向量数据。

其中，第一向量数据包括从目标电网的传感器网络数据提取的电流数据和电压数据，从目标电网的通信通道数据提取的通信流量统计指标数据，从目标电网的安全日志数据提取的关键词以及时间戳。

不同的关键词对应不同的电网攻击事件。

具体的，目标电网为待检测的电网，数据流指的是来自不同来源和维度的多样化数据。这些数据包括：传感器网络数据、通信通道数据和安全日志数据等。

其中，传感器网络数据是时间序列类型的数据，来自分布在目标电网中的多个传感器的数据，包括电压、电流、温度等信息。

通信通道数据包括离散类型数据、时间序列数据、自然语言数据等；具体为通信通道数据与目标电网内的数据传输和通信相关的信息，包括传输流量数据、通信协议以及网络拓扑等信息。

安全日志数据为自然语言类型的数据，具体为电网系统活动和事件的日志和记录，包括事件的自然语言描述、时间戳等信息。

对数据流进行标准化处理具体指的是对从不同来源收集到的数据进行预处理，确保数据的一致性和兼容性。

例如：对时间序列数据进行缺失值或异常值处理，对数据来源相同的同类型数据进行单位统一。

第一向量数据中的每一条数据均包括电流数据、电压数据、通信流量统计指标数据、关键词、时间戳等数据。

步骤102、根据数据类型将第一向量数据划分为传感器频道数据、通信网络频道数据和日志处理频道数据。

具体的，将第一向量数据输入到频道选择器中，频道选择器可以根据多种特征对将数据划分为不同的通道，这些特征包括数据类型、数据来源、时间戳、数据分布等。

本实施例中，频道选择器提高数据类型将第一向量数据划分为传感器频道数据、通信网络频道数据和日志处理频道数据。

其中，数据类型包括数值数据、文本数据以及时间序列数据等。通过频道选择器将不同类型的数据划分到不同的频道，例如，将电流数据、电压数据划分到传感器频道，将关键词划分到日志处理频道。

在本实施例中，第一向量数据，其中，分别表示电流数据、电压数据、通信流量统计指标数据等数据。

通过函数对第一向量数据/>进行数据分割，具体公式如下：

；

其中，为包含所有传感器数据的子向量，/>；表示包含所有通信网络数据的子向量，/>；/>表示所有包含日志数据的子向量，/>。

具体的，上述子向量是函数通过识别第一向量数据/>中的每一个元素的类型来构建的，即函数/>用于将第一向量数据/>中的元素分配到对应的子向量中。

步骤103、分别对目标时间段内传感器频道数据、通信网络频道数据以及日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征。

其中，传感器低维特征包括每个传感器的平均电流值、最大电压波动值以及不同传感器的负荷均衡度。

平均电流值指的是各个传感器通道上电流数据的平均值，最大电压波动指的是传感器通道上电压数据波动的最大值，负荷均衡度指的是不同传感器通道上负荷分布的均衡度。

通信网络低维特征包括平均数据包传输速率、数据包丢失率和通信协议类型。

平均数据包传输速率指的是通信网络通道上数据包的平均传输速率，数据包丢失率指的是数据包在传输过程中的丢失率；通信协议类型指的是通信网络通道使用的通信协议类型。

日志低维特征包括被识别为恶意的关键词的文本对应的数值和关键词的词频。

被识别为恶意的关键词即安全日志中可能涉及异常的文本关键词，词频指的是被识别为恶意的关键词出现的频率，在识别到文本关键词后，需要将该文本信息处理为对应的数值信息。

步骤104、根据时间戳的先后顺序分别对传感器低维特征、通信网络低维特征和日志低维特征进行排序处理，并将排序处理后的传感器低维特征、通信网络低维特征和日志低维特征按照时间戳整合为第二向量数据。

由于目标电网中的大部分数据都包括时间戳，为了对划分为不同通道的低维特征进行排序和组织，便于后续对数据进行处理，按照时间戳的先后顺序对传感器低维特征、通信网络低维特征和日志低维特征进行排序操作，有助于在时间上对数据进行整合和分析，捕捉数据的时间相关性。

在本实施例中，第二向量数据综合了按照时间戳顺序排序后的所有通道的低维特征向量。

第二向量数据以表示，且

；

其中，表示经过排序处理的传感器低维特征，/>表示经过排序处理的通信网络低维特征，/>表示经过排序处理的日志低维特征。

步骤105、通过预先确定的相关性函数确定第二向量数据中传感器低维特征和通信网络低维特征间的关联特征，同时通过预先确定的匹配函数确定第二向量数据中的日志低维特征和传感器低维特征间的交互特征。

其中，相关性函数用于测量一组传感器低维特征和一组通信网络低维特征之间的强度和关系。例如：当传感器低维特征的值增加时，通信网络低维特征的值是否变化，如果通信网络低维特征的值随传感器低维特征的增加而增加，则该通信网络低维特征与该传感器低维特征正相关；如果通信网络低维特征的值随传感器低维特征的增加而减小，则该通信网络低维特征与该传感器低维特征负相关；通信网络低维特征的值随传感器低维特征的增加无明显变化，则该通信网络低维特征与该传感器低维特征不相关。

具体的，在目标电网中，如果用户想知道数据包传输速率与传感器电流变化或电压变化之间是否有关系，可以通过相关性函数来对目标时间段内的两组数据进行分析，如果发现数据包传输速率增加时电流数据也随之增加，则说明这两组数据之间呈正相关。

匹配函数用于识别和比较两组数据中的相似或相关元素。例如：在安全日志数据和传感器数据的对比中，匹配函数可以帮助用户确定安全日志中记录的特定事件是否与传感器读数的异常变化相关。安全日志中记录的特定事件包括异常登录、系统警告等。

步骤106、将关联特征和交互特征添加到第二向量数据，得到第三向量数据。

具体的，第三向量数据以表示，具体的，

；

其中，包括关联特征和交互特征。

也就是说，第三向量数据中包含了从原始数据流中获取的传感器低维特征、通信网络低维特征以及日志低维特征，还包括了传感器低维特征和通信网络低维特征之间的关联特征，以及日志低维特征和传感器低维特征之间的交互特征，从而在保持原有数据准确性的同时，加入了用于表征不同数据源之间相互作用的关联特征和交互特征。

步骤107、基于Boruta算法对第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集。

其中，影子特征集是通过特征数据组顺序打乱和随机化得到的。

Boruta算法是一种基于随机森林的特征选择方法，其主要目标是从给定的特征集合中找到真正重要的特征组成重要特征集。

在本实施例中，重要特征集中的特殊数据为重要性评分大于影子特征集的特征数据组。

Boruta算法通过使用影子特征和随机森林迭代比较过程来确定重要特征集，具有较高的准确性和鲁棒性。相对于其他的特征选择方法，Boruta算法在处理高维和非线性数据方面具有优势，可以与神经网络模型结合，提高电网攻击事件检测的预测精度。

步骤108、将重要特征集输入到预先训练好的神经网络模型中，通过神经网络模型确定重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为重要特征集对应的预测攻击类型。

将步骤107筛选出的重要特征集输入到训练好的神经网络模型中，通过神经网络模型中，神经网络模型对重要特征集进行分类，并对分类的结果进行标准化处理，得到该重要特征集被预测为不同的攻击类型的概率，并将概率最大的预测结果作为最终的预测攻击类型输出。

现有技术中存在很多利用神经网络根据原始数据预测攻击类型的方案，此处不再赘述。

本发明实施例提供的电网攻击事件检测方法在实际应用时，首先，对目标电网涉及到的不同媒体和信号源的多源异质数据进行标准化处理，得到包括传感器网络数据、通信通道数据以及安全日志数据的第一向量数据；其次，根据数据类型的不同将第一向量数据划分为多个频道数据；再次，对目标时间段内各频道数据进行低维特征提取，对提取后的低维特征数据按照时间戳顺序进行排序，并将多个排序后的低维特征数据整合为第二向量数据；之后，通过相关性函数确定传感器低维特征和通信网络低维特征间的关联特征，通过匹配函数确定日志低维特征和传感器低维特征间的交互特征，并将关联特征和交互特征添加到第二向量数据中得到第三向量数据；之后，基于Boruta算法对第三向量数据中的每个特征数据组随机生成影子特征集，筛选出重要性评分大于影子特征集的特征数据组作为重要特征集；最后将重要特征集输入到训练好的神经网络模型中，通过神经网络模型确定该重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为该重要特征集对应的预测攻击类型。

本发明的方法能够有效处理与目标电网相关的来自不同媒体和不同信息源的多源异构数据，提高对电网安全威胁的感知能力。本发明还充分利用了对原始数据特征提取得到的第二向量数据、关联特征与交互特征，能够更加全面的理解多源异构数据的复杂特征，优化特征的重要性，为建立检测时间网络模型提供更有针对性的数据，从而有效地提高了对电网攻击事件的检测精度。

进一步的，在步骤101中，对从目标电网获取的数据流进行标准化处理得到第一向量数据，具体包括：

从目标电网获取由传感器网络数据、通信通道数据和安全日志数据组成的数据流，并将数据流输入到U-PaLM模型中。

其中，U-PaLM模型能够高效处理多源多维的电网数据。

对传感器网络数据和通信通道数据中的缺失值进行填补，对异常值进行修复，并对数据流中数据来源和数据类型相同的数据的单位进行统一，得到处理后传感器网络数据和处理后通信通道数据。

其中，处理后传感器网络数据包括电流数据和电压数据，处理后通信通道数据包括通信流量统计指标数据。

在本实施例中，对传感器网络数据和通信通道数据中的缺失值进行填补、异常值进行修复时，可以利用下一个时间段的均值对缺失值进行填补，对异常值进行替换。

由于数据的来源不同，为了保证数据的准确性，需要对数据流中数据来源和数据类型相同的数据的单位进行统一，例如：将流量数据的单位统一为Gb。

提取安全日志数据中的关键词，统计关键词的词频，并通过文本转向量的方式将关键词转换为关键词的文本对应的数值。

其中，安全日志数据通常包括了电网系统中各种事件和活动的记录，包括网络流量、设备状态、用户操作等。在进行电网攻击事件检测时，需要对安全日志中的数据进行分析，从而识别潜在的威胁和异常行为。

通过对比正常操作和攻击行为的模式，能够实现通过安全日志数据对电网攻击事件的检测。也就是说，通过监控安全日志数据，寻找与已知攻击事件相关的攻击行为或攻击事件相关的关键词。

具体的，通过自然语言处理技术，识别安全日志数据中的词语或短语作为关键词，关键词能够帮助确定安全日志的主题或关键信息。关键词是与攻击事件、异常行为或系统状态相关的术语。

通过命名实体识别技术标识安全日志数据中的命名实体，并将命名实体添加到关键词中，例如：设备名称、通信协议、IP地址等，便于后续识别特定组件或实体是否收到威胁。

记录各关键词在安全日志中出现的频率，即词频，关键词中包含与攻击事件相关的信息或异常活动的标志，因此，通过关键词的类型和词频可以对应攻击类型。

在本实施例中，当安全日志数据为"Unusual login attempt detected from IPaddress 192.168.1.100"时，主题或关键信息的提取结果为："Unusual login attempt,""IP address," "192.168.1.100"。也就是说，通过提取主题或关键信息，可以迅速了解该安全日志事件可能涉及异常登录尝试，其关键信息为涉及的IP地址。

当安全日志数据为"Firewall blocked traffic from external server onport 443"时，命名实体的识别结果为"Firewall" (设备名称), "external server" (外部服务器), "port 443" (端口号)；也就是说，命名实体的识别有助于识别出与防火墙、外部服务器和端口号相关的信息，进而有助于分析网络流量的安全性。

当安全日志数据为"Repeated login failures detected for user 'admin'…"时，关键词识别结果为"login", "failures", "user", "admin"；其中，"login"出现了2次，"failures"出现了2次，"user"出现了1次，"admin"出现了1次。通过词频统计可以识别出"login"和"failures"这两个关键词的词频较大，提示可能存在登录失败的问题，也就是说，可能存在暴力破解攻击。

根据处理后传感器网络数据、处理后通信通道数据、关键词的文本对应的数值以及关键词对应的词频，得到第一向量数据。

具体的，将来自不同数据源和不同数据类型的信息整合到具有相同数据结构和表示形式的统一数据集中，得到第一向量数据，这种统一性有助于简化数据分析和建模过程，使不同类型的数据能够在相同的框架下进行处理和分析。

第一向量数据输出采用高维度数值型向量的形式，以V表示。这个向量中的每一条数据均包括电流数据、电压数据、通信流量统计指标数据、关键词的文本对应的数值、关键词的词频、时间戳等数据。其中，关键词的文本通过文本转向量的方法转换为数值，即。

具体的，传感器测量值、通信流量数据、时间戳为数值型数据或时间序列数据，可以作为数值直接添加到V中；关键词为文本型数据，需要转换为数值之后再添加到第一向量数据V中，如果一个关键词的文本转向量之后的数据为，则将该向量添加到第一向量数据V中。

进一步的，步骤103中，分别对目标时间段内传感器频道数据、通信网络频道数据以及日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征，具体包括：

计算目标时间段内的传感器频道数据中每个传感器的电流数据的平均电流值。

计算目标时间段内的传感器频道数据中每个传感器的电压数据的平均电压值。

根据每个传感器的电流数据和电压数据，通过传感器的负载均衡算法计算每个传感器的负荷均衡度，并将平均电流值、平均电压值和负荷均衡度作为传感器低维特征。

计算目标时间段内通信网络频道数据的平均数据包传输速率、数据包丢失率以及通信协议类型，并将平均数据包传输速率、数据包丢失率以及通信协议类型作为通信网络低维特征。

统计日志处理频道数据中被识别为恶意的关键词的词频，并将被识别为恶意的关键词的文本对应的数值和关键词的词频作为日志低维特征。

其中，被识别为恶意的关键词为词频大于预设阈值的关键词。

进一步的，在步骤105中，通过预先确定的相关性函数确定第二向量数据中传感器低维特征和通信网络低维特征间的关联特征，具体包括：

预先确定的相关性函数为皮尔逊相关系数函数。

通过皮尔逊相关系数函数计算传感器低维特征中的第一目标特征与通信网络低维特征中的第二目标特征的相关系数，并将计算得到的相关系数作为传感器低维特征和通信网络低维特征之间的关联特征。

其中，皮尔逊相关系数函数是一种用于衡量两个变量之间相关程度的函数，皮尔逊相关系数是一个介于-1和1之间的数值，当皮尔逊相关系数接近1时，表示两个变量存在强烈的正相关关系，当皮尔逊相关系数接近-1时，表示两个变量之间存在强烈的负相关关系，当皮尔逊相关系数接近0时，表示两个变量之间没有明显的线性关系。

关联特征为由皮尔逊相关系数组成的矩阵。皮尔逊相关系数能够帮助用户了解两个变量之间的相关关系和影响程度。

例如：当传感器低维特征中的第一目标特征为某一传感器在目标时间段内的电流数据，第二目标特征为目标时间段内数据包传输速度数据时，通过皮尔逊相关系数函数对电流数据和数据包传输速度数据进行计算，得到二者的皮尔逊相关系数矩阵来表征其关联关系。

在步骤105中，通过预先确定的匹配函数确定第二向量数据中的日志低维特征和传感器低维特征间的交互特征，具体包括：

预先确定的匹配函数为余弦相似度计算函数。

通过余弦相似度计算函数计算日志低维特征中的第三目标特征与传感器低维特征的第四目标特征的相似度值，并将计算得到的相似度值作为日志低维特征和传感器低维特征之间的交互特征。

例如，通过余弦相似度计算函数计算日志低维特征中的目标关键词与传感器低维特征中的电流数据之间的相似度，余弦值的范围在-1到1之间，计算的相似度值越趋近于1，表示目标关键词和电流数据越接近，相似度值越趋近于-1，表示目标关键词和电流数据越相反，相似度值越趋近于0，表示目标关键词和电流数据接近于正交。

通过目标关键词和电流数据的相似度矩阵来表征其交互关系。

进一步的，在步骤107中，基于Boruta算法对第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集，具体包括：

对于第三向量数据中的每个特征数据组，随机打乱特征数据组中的特征值，并对特征值重新排列，得到特征数据组对应的影子特征集。

具体的，对于第三向量数据中的每个特征数据组，该特指数据组对应一列数值，随机打乱这列数值的顺序，得到该特征数据组的影子特征集，也就是说，影子特征集与原本的特征数据组的数据结构相同，数据数据也保持不变，只是数值排列顺序被打乱。

通过上述方法生成的影子特征集保留了第三向量数据的类型、范围等结构特征，但因为其数值顺序被随机打乱，因此影子特征集不再具有任何实际的、与目标向量相关的信息。从而为Boruta算法提供了理想的比对基准，帮助用户筛选出真正重要的特征数据。

将影子特征集添加到第三向量数据中，得到扩展特征集。

基于扩展特征集对原始随机森林模型进行训练，得到训练后随机森林模型。

具体的，在随机森林模型中，构建了多个决策树进行预测，每个决策树在做决策时会采用不同的特征。例如：在目标电网中，做决策采用的特征包括电流数据、电压数据等，决策树的目的在于筛选出在进行决策时重要程度更高的特征。

在评估一个特征的重要程度时，例如：在决策树的一个节点上使用电流数据作为决策时采用的特征，这个决策能帮助我们更准确的区分正常情况下和被攻击后电网故障，那么这个特征就被认为是有用的，通过该决策前后数据的混乱程度，即Gini不纯度的减少来衡量该特征帮助程度的大小。Gini不纯度高意味着数据的混乱程度大，不容易做出准确的预测。如果一个特征决策后Gini不纯度显著降低，即让一组数据从很混乱变得有序，那个这个特征的帮助程度较高，这个特征很重要，需要被筛选出来。

将第三向量数据和影子特征集输入到训练后随机森林模型中，通过训练后随机森林模型输出重要性评分大于影子特征集的特征数据组作为重要特征集。

在本实施例中，如果一个特征数据组的重要性评分，即重要程度大于该特征数据组的影子特征集，则认为这个特征数据组是重要的，通过随机森林模型筛选出所有重要程度满足要求的特征数据组作为重要特征集。

即；

其中，表示重要特征集，/>表示第三向量数据，/>表示/>中第i个特征数据组的重要性评分，/>表示/>中第i个特征数据组对应的影子特征集的重要性评分。

进一步的，在步骤108中，将重要特征集输入到预先训练好的神经网络模型中，通过神经网络模型确定重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为重要特征集对应的预测攻击类型，具体包括：

将重要特征集输入到预先训练好的神经网络模型中，神经网络模型的全连接层通过如下公式对重要特征集进行处理：

；

其中，表示重要特征集，/>表示神经网络模型的权重矩阵，/>表示神经网络模型的偏重向量；

表示通过神经网络模型将重要特征集预测为不同的网络攻击类型的概率；网络攻击类型包括恶意软件攻击、分布式拒绝服务攻击、网络入侵、物理攻击、信息泄漏攻击、恶意代码注入、身份欺骗攻击、数据篡改攻击、钓鱼攻击及内部威胁；

表示softmax激活函数。

其中，softmax激活函数用于将神经网络模型的最后一层输出转换为概率分布，这个分布描述了每个类别成为预测攻击类型的可能性。

也就是说，softmax激活函数用于将神经网络模型的全连接层的输出转换为一组介于0到1之间的值，这些值的总和为1，在得到这组概率之后，选择最大的概率值对应的类别作为预测攻击类别。

例如：在神经网络模型预测的攻击类别为模型检测身份欺骗攻击的概率是0.8，是数据篡改攻击的概率0.1，是内部威胁的概率是0.1时，神经网络模型输出身份欺骗攻击作为预测攻击类别。

在神经网络模型确定后，权重矩阵和偏重向量/>为已知数据。

神经网络模型训练全连接层的过程涉及到权重矩阵和偏重向量/>的确定。在训练开始前，权重矩阵/>和偏重向量/>是随机初始化的，训练过程中，神经网络模型根据预测值与期望值的误差对/>和/>进行调整，直至预测值与期望值的误差满足神经网络模型的损失函数。

如图2所示，第二方面，本发明实施例提供一种电网攻击事件检测装置，该装置包括：

数据预处理模块201，用于对从目标电网获取的数据流进行标准化处理得到第一向量数据；第一向量数据包括从目标电网的传感器网络数据提取的电流数据和电压数据，从目标电网的通信通道数据提取的通信流量统计指标数据，从目标电网的安全日志数据提取的关键词以及时间戳；不同的关键词对应不同的电网攻击事件；

数据分割模块202，用于根据数据类型将第一向量数据划分为传感器频道数据、通信网络频道数据和日志处理频道数据；

低频特征提取模块203，用于分别对目标时间段内传感器频道数据、通信网络频道数据以及日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征；传感器低维特征包括每个传感器的平均电流值、最大电压波动值以及不同传感器的负荷均衡度，通信网络低维特征包括平均数据包传输速率、数据包丢失率和通信协议类型，日志低维特征包括被识别为恶意的关键词的文本对应的数值和关键词的词频；

排序融合模块204，用于根据时间戳的先后顺序分别对传感器低维特征、通信网络低维特征和日志低维特征进行排序处理，并将排序处理后的传感器低维特征、通信网络低维特征和日志低维特征按照时间戳整合为第二向量数据；

关联交互特征确定模块，用于通过预先确定的相关性函数确定第二向量数据中传感器低维特征和通信网络低维特征间的关联特征；同时通过预先确定的匹配函数确定第二向量数据中的日志低维特征和传感器低维特征间的交互特征；

数据扩展模块206，用于将关联特征和交互特征添加到第二向量数据，得到第三向量数据；

重要特征提取模块207，用于基于Boruta算法对第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集；影子特征集是通过特征数据组顺序打乱和随机化得到的；

攻击类型预测模块208，用于将重要特征集输入到预先训练好的神经网络模型中，通过神经网络模型确定重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为重要特征集对应的预测攻击类型。

进一步的，数据预处理模块201被配置为执行：

从目标电网获取由传感器网络数据、通信通道数据和安全日志数据组成的数据流，并将数据流输入到U-PaLM模型中；

对传感器网络数据和通信通道数据中的缺失值进行填补，对异常值进行修复，并对数据流中数据来源和数据类型相同的数据的单位进行统一，得到处理后传感器网络数据和处理后通信通道数据；处理后传感器网络数据包括电流数据和电压数据，处理后通信通道数据包括通信流量统计指标数据；

提取安全日志数据中的关键词，统计关键词的词频，并通过文本转向量的方式将关键词转换为关键词的文本对应的数值；

进一步的，低频特征提取模块203被配置为执行：

计算目标时间段内的传感器频道数据中每个传感器的电流数据的平均电流值，计算目标时间段内的传感器频道数据中每个传感器的电压数据的平均电压值，根据每个传感器的电流数据和电压数据，通过传感器的负载均衡算法计算每个传感器的负荷均衡度，并将平均电流值、平均电压值和负荷均衡度作为传感器低维特征；

确定目标时间段内通信网络频道数据的平均数据包传输速率、数据包丢失率以及通信协议类型，并将平均数据包传输速率、数据包丢失率以及通信协议类型作为通信网络低维特征；

进一步的，在通过预先确定的相关性函数确定第二向量数据中传感器低维特征和通信网络低维特征间的关联特征时，关联交互特征确定模块被配置为执行：

预先确定的相关性函数为皮尔逊相关系数函数，通过皮尔逊相关系数函数计算传感器低维特征中的第一目标特征与通信网络低维特征中的第二目标特征的相关系数，并将计算得到的相关系数作为传感器低维特征和通信网络低维特征之间的关联特征

进一步的，在通过预先确定的匹配函数确定第二向量数据中的日志低维特征和传感器低维特征间的交互特征时，关联交互特征确定模块被配置为执行：

预先确定的匹配函数为余弦相似度计算函数，通过余弦相似度计算函数计算日志低维特征中的第三目标特征与传感器低维特征的第四目标特征的相似度值，并将计算得到的相似度值作为日志低维特征和传感器低维特征之间的交互特征。

进一步的，重要特征提取模块207被配置为执行：

对于第三向量数据中的每个特征数据组，随机打乱特征数据组中的特征值，并对特征值重新排列，得到特征数据组对应的影子特征集；

将影子特征集添加到第三向量数据中，得到扩展特征集；

基于扩展特征集对原始随机森林模型进行训练，得到训练后随机森林模型；

进一步的，攻击类型预测模块208被配置为执行：

；

表示softmax激活函数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

第三方面，本发明实施例还提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本发明实施例中的电网攻击事件检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本发明实施例中的电网攻击事件检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种电网攻击事件检测方法，其特征在于，包括：

通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征，同时通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征；

2.根据权利要求1所述的电网攻击事件检测方法，其特征在于，所述对从目标电网获取的数据流进行标准化处理得到第一向量数据，具体包括：

在所述U-PaLM模型中，对所述数据流的处理步骤具体包括：

3.根据权利要求2所述的电网攻击事件检测方法，其特征在于，所述分别对目标时间段内所述传感器频道数据、所述通信网络频道数据以及所述日志处理频道数据进行低维特征提取，对应得到传感器低维特征、通信网络低维特征以及日志低维特征，具体包括：

确定目标时间段内通信网络频道数据的平均数据包传输速率、数据包丢失率以及通信协议类型，并将所述平均数据包传输速率、所述数据包丢失率以及所述通信协议类型作为信网络低维特征；

4.根据权利要求1所述的电网攻击事件检测方法，其特征在于，所述通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征，具体为：

5.根据权利要求1所述的电网攻击事件检测方法，其特征在于，所述通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征，具体包括：

6.根据权利要求1所述的电网攻击事件检测方法，其特征在于，所述基于Boruta算法对所述第三向量数据中的每个特征数据组随机生成对应的影子特征集，并筛选出重要性评分大于影子特征集的特征数据组作为重要特征集，具体包括：

7.根据权利要求1所述的电网攻击事件检测方法，其特征在于，所述将所述重要特征集输入到预先训练好的神经网络模型中，通过所述神经网络模型确定所述重要特征集被识别为不同的网络攻击类型的概率，并将概率最大的网络攻击类型作为所述重要特征集对应的预测攻击类型，具体包括：

；

表示softmax激活函数。

8.一种电网攻击事件检测装置，其特征在于，包括：

关联交互特征确定模块，用于通过预先确定的相关性函数确定所述第二向量数据中传感器低维特征和通信网络低维特征间的关联特征，同时通过预先确定的匹配函数确定所述第二向量数据中的日志低维特征和传感器低维特征间的交互特征；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7中任一项所述的电网攻击事件检测方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7中任一项所述的电网攻击事件检测方法。