CN117370898B

CN117370898B - 一种电子数据安全管控系统

Info

Publication number: CN117370898B
Application number: CN202311676706.5A
Authority: CN
Inventors: 柳晶; 李全德; 陈广辉; 杨丽芬; 薛海清
Original assignee: Titanium Union Shenzhen Technology Co ltd
Current assignee: Titanium Union Shenzhen Technology Co ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-12
Anticipated expiration: 2043-12-08
Also published as: CN117370898A

Abstract

本发明涉及数据分析技术领域，具体涉及一种电子数据安全管控系统，包括：获取电力负荷数据的周期段；根据周期段获取周期段中的小段；根据周期段中的小段获取第一周期段、第二周期段以及目标周期段；根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等；根据周期段中的小段获取周期段与其他所有周期段的相似程度；数据判断模块，用于根据周期段与其他所有周期段的相似程度获取若干类簇的周期段；根据若干类簇获取异常数据。本发明通过将相似性较高的周期分为一类，并从中选取数据构建子树。从而避免相似度不同的周期中的异常数据划分为一个样本集，导致异常结果检测不准确的情况发生。

Description

一种电子数据安全管控系统

技术领域

本发明涉及数据分析技术领域，具体涉及一种电子数据安全管控系统。

背景技术

随着社会的发展，科技水平的提高数字化的电子数据必然发挥着越来越重要的作用，而电力负荷数据作为一种常用的电子数据。由于其具有以天为单位的周期性特点，且每天的数据具有不同的相似性，若直接使用孤立森林检测对其进行异常数据检测，可能会使随机选取的样本集分布在相似的周期段，则会导致异常检测的结果不准确。

因此本发明提出了一种电子数据安全管控系统，该系统主要是实现对电力负荷数据中的异常数据进行精准的识别。首先通过将相似性较高的周期分为一类，并从中选取数据构建子树。从而避免相似度不同的周期中的异常数据划分为一个样本集，导致异常结果检测不准确的情况发生，达到精准识别电力负荷数据中的异常数据。

发明内容

本发明提供一种电子数据安全管控系统，以解决现有的问题：直接对电力负荷数据进行孤立森林检测，可能会导致异常检测的结果不准确。

本发明的一种电子数据安全管控系统采用如下技术方案：

包括以下模块：

数据采集模块，用于获取电力负荷数据的周期段；

数据处理模块，用于获取周期段中的小段；根据周期段中的小段获取第一周期段、第二周期段以及目标周期段；根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等；

数据分析模块，用于获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度；根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度，获取周期段中的小段与其他所有周期段中的小段的相似程度；根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异，获取周期段中每个小段的相似程度权重；根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度，获取周期段与其他所有周期段的相似程度；

数据判断模块，用于根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量；根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段。

优选的，所述获取电力负荷数据的周期段，包括的具体方法为：

采集电力负荷数据，并以时间为横轴以电力负荷数据为纵轴，构建一个二维坐标系，将所有电力负荷数据置入二维坐标系中，再使用最小二乘法对二维坐标系中所有的电力负荷数据进行拟合，得到电力负荷数据曲线，以一天为一个周期单位对电力负荷数据曲线进行分段，得到若干电力负荷数据的周期段。

优选的，所述获取周期段中的小段；根据周期段中的小段获取第一周期段、第二周期段以及目标周期段，包括的具体方法为：

以所有电力负荷数据的周期段内所有极值点为分界点，将所有电力负荷数据的周期段分成若干个小段，统计每个电力负载数据周期段内小段数量，将所有电力负载数据周期段的小段数量构成小段数量的集合，将小段数量的集合中的众数作为目标段数，将小段数量小于目标段数的电力负载数据周期段记为第一周期段；将小段数量大于目标段数的电力负载数据周期段记为第二周期段；将小段数量等于目标段数的电力负载数据周期段记为目标周期段。

优选的，所述根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等，包括的具体方法为：

对于第一周期段，计算第一周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为，选取第一周期段中包含数据数量最多的小段记为第一特征小段，将位于第一特征小段中间的数据作为增加的第一个分界点，并重新将第一周期段分成若干个小段；得到增加一个分界点后的第一周期段内的小段；

选取增加一个分界点后的第一周期段中包含数据数量最多的小段记为第二特征小段，将位于第二特征小段中间的数据作为增加的第二个分界点，并重新将增加一个分界点后的第一周期段分成若干个小段；得到增加两个分界点后的第一周期段内的小段；

选取增加两个分界点后的第一周期段中包含数据数量最多的小段记为第三特征小段，将位于第三特征小段内中间的数据作为增加的第三个分界点，并重新将增加两个分界点后的第一周期段分成若干个小段；得到增加三个分界点后的第一周期段内的小段；

以此类推，直至增加的分界点数量与相等为止，得到增加若干分界点后的第一周期段内的小段；

对于第二周期段，计算第二周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为；将第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段，将第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段，以此类推将第二周期段中第/>个分界点与第/>个分界点之间的数据记为第/>大段；直至，将第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段；得到第二周期段中的所有大段；

选取第二周期段中包含数据数量最少的大段记为第一特征大段，将第一特征大段内的分界点作为去除的第一个分界点，得到去除一个分界点后的第二周期段；

将去除一个分界点后的第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段，将去除一个分界点后的第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段，以此类推将去除一个分界点后的第二周期段中第个分界点与第/>个分界点之间的数据记为第/>大段；直至，将去除一个分界点后的第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段；得到去除一个分界点后的第二周期段中的所有大段；

选取去除一个分界点后的第二周期段中包含数据数量最少的大段记为第二特征大段，将第二特征大段内的分界点作为去除的第二个分界点，得到去除两个分界点后的第二周期段；

以此类推，直至去除的分界点数量与相等为止，得到去除若干分界点后的第二周期段，根据去除若干分界点后的第二周期段内的分界点，得到去除若干分界点后的第二周期段内的小段。

优选的，所述获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度，包括的具体方法为：

将第个周期段第/>个小段与第/>个周期段第/>个小段中包含数据数量最多的小段作为第/>个周期段与第/>个周期段的第/>个基准小段，并统计第/>个基准小段内的数据数量；对第个周期段第/>个小段与第/>个周期段第/>个小段中的不是第/>个基准小段的其他小段进行末位补零处理，使其他小段内的数据数量等于第/>个基准小段的数据数量，将经过末位补零的其他小段记为第/>个非基准小段；最后通过基准小段与非基准小段，计算第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度，其具体的计算公式为：

式中，表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度；/>表示第/>个周期段与第/>个周期段的第/>个基准小段中数据的数量；/>表示第/>个周期段与第/>个周期段的第/>个基准小段中的第/>个数据的值；/>表示第/>个周期段与第/>个周期段的第/>个非基准小段中的第/>个数据的值。

优选的，所述根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度，获取周期段中的小段与其他所有周期段中的小段的相似程度，包括的具体计算公式为：

式中，表示第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段的相似程度；/>表示周期段的数量；/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值；/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值；/>表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度。

优选的，所述根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异，获取周期段中每个小段的相似程度权重，包括的具体计算公式为：

式中，表示第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系；表示第/>个小段内的数据数量；/>表示第/>个小段内的数据数量；/>表示第/>个小段内的数据数量；/>为第/>个周期段中的第/>个小段的相似程度权重；/>表示第/>个周期段中的第/>个小段内的数据数量；/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系；/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系；/>表示周期段的数量；/>表示周期段中的小段的数量。

优选的，所述根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度，获取周期段与其他所有周期段的相似程度，包括的具体计算公式为：

式中，表示第/>个周期段与其他所有周期段的相似程度；/>表示每个周期段中小段的数量；/>表示第/>个周期段中的第/>个小段的相似程度；/>为第/>个周期段中的第/>个小段的相似程度权重。

优选的，所述根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量，包括的具体方法为：

使用k-means聚类算法，并预设一个类簇数，使k-means聚类算法的K值等于/>；根据每个周期段与其他所有周期段的相似程度对所有的周期段进行k-means聚类，得到/>个类簇、每个类簇中数据的数量以及所有类簇中数据的总数量。

优选的，所述根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段，包括的具体方法为：

使用孤立森林异常检测算法，并预设子树数量，使孤立森林异常检测算法中的子树数量等于/>，然后从/>个类簇中每个类簇随机抽取若干个数据构建孤立森林异常检测算法中的子树，具体每个类簇随机抽取的数据数量的计算公式为：

式中，表示第/>个类簇所随机抽取的数据数量；/>表示第/>个类簇中数据的数量；表示所有类簇中数据的总数量；

得到孤立森林异常检测算法中的子树；根据孤立森林异常检测算法中的子树，得到所有数据的异常分数；

最后预设一个异常分数阈值，其中/>的具体大小可根据时间情况自行设置，本实施例不做硬性要求，在本实施例中以/>进行叙述，当数据的异常分数小于等于/>时，则数据为正常数据，当数据的异常分数大于/>时，则数据为异常数据。

本发明的技术方案的有益效果是：传统的孤立森林异常检测算法在构建子树的过程中是在所有数据集中随机进行选取部分数据来构建子树，但对于电力负荷数据来说，其具有以天为单位的周期性特点，且每天的数据具有不同的相似性，若直接使用孤立森林检测对其进行异常数据检测，可能会使随机选取的样本集分布在相似的周期段，则会导致异常检测的结果不准确。因此本发明首先通过将相似性较高的周期分为一类，并从中选取数据构建子树。从而避免相似度不同的周期中的异常数据划分为一个样本集，导致异常结果检测不准确的情况发生。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种电子数据安全管控系统的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种电子数据安全管控系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种电子数据安全管控系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种电子数据安全管控系统的结构框图，该系统包括以下模块：

数据采集模块101：用于获取电力负荷数据的周期段。

需要说明的是，本实施例作为一种电子数据安全管控系统，其具体的应用场景为对电力负荷数据进行分析，获取电力负荷数据中的异常数据，因此首先需要获取历史电力负荷数据。

具体的，在本实施例中以某公司过去一年的电力负荷数据为例进行分析，具体可根据实际需求选择分析的电力负荷数据，本实施例不做硬性要求。以时间为横轴以电力负荷数据为纵轴，构建一个二维坐标系，将所有电力负荷数据置入二维坐标系中，再使用最小二乘法对二维坐标系中所有的电力负荷数据进行拟合，得到电力负荷数据曲线。

需要进一步说明的是，由于公司的电力负荷数据与公司的运行有着密切的联系，而公司的运行则会呈现出以日为周期的特征，为了更好的对电力负荷数据进行分析，所以需要对电力负荷数据曲线进行分段。

具体的，以一天为一个周期单位对电力负荷数据曲线进行分段，得到若干电力负荷数据的周期段。

至此，得到若干电力负荷数据的周期段。

数据处理模块102：用于获取周期段中的小段；根据周期段中的小段获取第一周期段、第二周期段以及目标周期段；根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等。

需要说明的是，由于电力负荷数据会被用电习惯不同、节假日等原因所影响，即不同周期段中电力负荷的波动也不相同；为能够准确的检测出电力负荷数据中的异常数据，需要计算周期段之间的相似性来对周期段进行划分归类。

具体的，以所有电力负荷数据的周期段内所有极值点为分界点，将所有电力负荷数据的周期段分成若干个小段，统计每个电力负载数据周期段内小段数量，得到每个电力负载数据周期段内小段数量的集合，将每个电力负载数据周期段内小段数量的集合中的众数作为目标段数，将电力负载数据周期段内小段数量小于目标段数的电力负载数据周期段记为第一周期段；将电力负载数据周期段内小段数量大于目标段数的电力负载数据周期段记为第二周期段；将电力负载数据周期段内小段数量等于目标段数的电力负载数据周期段记为目标周期段。

需要说明的是，为了更好的计算各个电力负载数据周期段之间的相似性，需要使每个电力负载数据周期段内小段数量相等；即让第一周期段中小段的数量以及第二周期段中小段的数量均与目标周期段中小段的数量相等。

需要进一步说明的是，由于目标周期段中所有电力负载数据周期段内每个小段数量均相等，所以目标周期段中所有电力负载数据周期段内的分界点数量相等，故可以通过目标周期段中所有电力负载数据周期段内的分界点位置，得到能够代表目标周期段中所有电力负载数据周期段内的分界点位置的分界点，再结合第一周期段与第二周期段中每个电力负载数据周期段内分界点的位置与数量，增加或去除第一周期段与第二周期段中每个电力负载数据周期段内分界点，使第一周期段中小段的数量以及第二周期段中小段的数量均与目标周期段中小段的数量相等。

具体的，对于第一周期段，计算第一周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为，选取第一周期段中包含数据数量最多的小段记为第一特征小段，将位于第一特征小段中间的数据作为增加的第一个分界点，并重新将第一周期段分成若干个小段；得到增加一个分界点后的第一周期段内的小段；

以此类推，直至增加的分界点数量与相等为止，得到增加若干分界点后的第一周期段内的小段。

至此，使所有周期段内的小段数量相等。

数据分析模块103：用于获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度；根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度，获取周期段中的小段与其他所有周期段中的小段的相似程度；根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异，获取周期段中每个小段的相似程度权重；根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度，获取周期段与其他所有周期段的相似程度。

需要说明的是，通过数据处理模块102使得所有周期段内的小段数量相同，故可以根据不同周期段中小段内的数据变化情况以及不同周期段中小段内的数据的相似程度，计算不同周期段中小段的相似程度，但是由于不同周期段中小段内的数据的数量不同，为了能够更好的计算不同周期段中小段内的数据的相似程度，首先需要使所计算的不同周期段中小段内的数据数量相等。

具体的，将第个周期段第/>个小段与第/>个周期段第/>个小段中包含数据数量最多的小段作为第/>个周期段与第/>个周期段的第/>个基准小段，并统计第/>个基准小段内的数据数量；对第/>个周期段第/>个小段与第/>个周期段第/>个小段中的不是第/>个基准小段的其他小段进行末位补零处理，使其他小段内的数据数量等于第/>个基准小段的数据数量，将经过末位补零的其他小段记为第/>个非基准小段；最后通过基准小段与非基准小段，计算第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度，其具体的计算公式为：

需要说明的是，当的值越大则说明第/>个周期段中的第/>个小段与第/>个周期段中的第/>个小段越相似；再结合周期段中小段内的数据变化情况，计算每个周期段中所有小段的相似程度，其具体的计算公式为：

式中，表示第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段的相似程度；/>表示周期段的数量；/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值；/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值，由于数据斜率的计算作为一种公知的计算，故在本实施例中不再赘述；/>表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度。

需要说明的是，表示的是第/>个周期段中的第/>个小段内所有数据斜率的均值，与第/>个周期段中的第/>个小段内所有数据斜率的均值之间的差异，所以/>的值越小，则说明第/>个周期段中的第/>个小段内数据的变化情况，与第/>个周期段中的第/>个小段内数据的变化情况越相似；以及/>的值越大则说明第/>个周期段中的第/>个小段与第/>个周期段中的第/>个小段越相似，所以/>的值越大则说明第/>个周期段中的第/>个小段与其他周期段中的第/>个小段越相似。

需要进一步说明的是，当周期段中的小段内的数据数量与其他周期段中对应的小段内的数据数量的差异越大，则该小段越不相似，所以还需要根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异，获取周期段中每个小段的相似程度权重。

其具体的计算公式为：

需要进一步说明的是，当与/>中的/>或/>时，表示第/>个小段仅有一个相邻的小段，此时令/>或/>等于0；而当/>的值越大，则说明第/>个周期段中的第/>个小段与相邻的小段内的数据数量之间的关系，与其他所有周期段中的第/>个小段与相邻的小段内的数据数量之间的关系越不相似，所以/>的值越大则第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段越相似。结合周期段中所有小段的相似程度权重与周期段中所有小段的相似程度，即可得到周期段与其他所有周期段的相似程度。

具体的，对于第个周期段，通过第/>个周期段中所有小段的相似程度权重，与第/>个周期段中所有小段的相似程度，获取第/>个周期段与其他所有周期段的相似程度，其具体计算公式如下：

同理，得到所有周期段与其他所有周期段的相似程度。

需要进一步说明的是，的值越大则说明第/>个周期段与其他所有周期段的相似程度越高。

数据判断模块104：用于根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量；根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段。

需要说明的是，本实施例的最终目的是实现准确地区分电力负荷数据中的正常数据与异常数据，由于孤立森林异常检测其中的异常数据时，随机选取的样本集如果分布在相似的周期段，造成某些特征值存在相似的情况导致异常检测的结果不准确，因此本实施例现依照每个周期段的相似程度对所有周期段进行分类，然后根据每个类簇内的数据进行孤立森林异常检测，达到准确识别异常数据的目的。

具体的，使用k-means聚类算法，并预设一个类簇数，使k-means聚类算法的K值等于/>，其中/>的具体大小可根据时间情况自行设置，本实施例不做硬性要求，在本实施例中以进行叙述，同时由于k-means聚类算法作为一种公知的技术，故在本实施例中不再赘述；根据每个周期段与其他所有周期段的相似程度对所有的周期段进行k-means聚类，得到个类簇、每个类簇中数据的数量以及所有类簇中数据的总数量。

使用孤立森林异常检测算法，并预设子树数量，使孤立森林异常检测算法中的子树数量等于/>，其中/>的具体大小可根据时间情况自行设置，本实施例不做硬性要求，在本实施例中以/>进行叙述，然后从/>个类簇中每个类簇随机抽取若干个数据构建孤立森林异常检测算法中的子树，具体每个类簇随机抽取的数据数量的计算公式为：

式中，表示第/>个类簇所随机抽取的数据数量；/>表示第/>个类簇中数据的数量；表示所有类簇中数据的总数量。

同时由于孤立森林异常检测算法作为一种公知的技术，故在本实施例中不再赘述；得到孤立森林异常检测算法中的子树，而孤立森林异常检测算法中异常分数的计算作为一种公知的现有技术，故在本实施例中不再赘述，得到所有数据的异常分数。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子数据安全管控系统，其特征在于，该系统包括以下模块：

数据采集模块，用于获取电力负荷数据的周期段；

所述获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度，包括的具体方法为：

将第个周期段第/>个小段与第/>个周期段第/>个小段中包含数据数量最多的小段作为第个周期段与第/>个周期段的第/>个基准小段，并统计第/>个基准小段内的数据数量；对第/>个周期段第/>个小段与第/>个周期段第/>个小段中的不是第/>个基准小段的其他小段进行末位补零处理，使其他小段内的数据数量等于第/>个基准小段的数据数量，将经过末位补零的其他小段记为第/>个非基准小段；最后通过基准小段与非基准小段，计算第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度，其具体的计算公式为：

式中，表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度；/>表示第/>个周期段与第/>个周期段的第/>个基准小段中数据的数量；/>表示第/>个周期段与第/>个周期段的第/>个基准小段中的第/>个数据的值；/>表示第/>个周期段与第/>个周期段的第/>个非基准小段中的第/>个数据的值；

所述根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度，获取周期段中的小段与其他所有周期段中的小段的相似程度，包括的具体计算公式为：

式中，表示第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段的相似程度；/>表示周期段的数量；/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值；/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值；/>表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度；

所述根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异，获取周期段中每个小段的相似程度权重，包括的具体计算公式为：

式中，表示第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系；/>表示第/>个小段内的数据数量；/>表示第/>个小段内的数据数量；/>表示第/>个小段内的数据数量；/>为第/>个周期段中的第/>个小段的相似程度权重；/>表示第/>个周期段中的第/>个小段内的数据数量；/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系；/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系；/>表示周期段的数量；/>表示周期段中的小段的数量；

所述根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度，获取周期段与其他所有周期段的相似程度，包括的具体计算公式为：

式中，表示第/>个周期段与其他所有周期段的相似程度；/>表示每个周期段中小段的数量；/>表示第/>个周期段中的第/>个小段的相似程度；/>为第/>个周期段中的第/>个小段的相似程度权重；

2.根据权利要求1所述一种电子数据安全管控系统，其特征在于，所述获取电力负荷数据的周期段，包括的具体方法为：

3.根据权利要求1所述一种电子数据安全管控系统，其特征在于，所述获取周期段中的小段；根据周期段中的小段获取第一周期段、第二周期段以及目标周期段，包括的具体方法为：

4.根据权利要求3所述一种电子数据安全管控系统，其特征在于，所述根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等，包括的具体方法为：

5.根据权利要求1所述一种电子数据安全管控系统，其特征在于，所述根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量，包括的具体方法为：

6.根据权利要求5所述一种电子数据安全管控系统，其特征在于，所述根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段，包括的具体方法为：

式中，表示第/>个类簇所随机抽取的数据数量；/>表示第/>个类簇中数据的数量；/>表示所有类簇中数据的总数量；

最后预设一个异常分数阈值，当数据的异常分数小于等于/>时，则数据为正常数据，当数据的异常分数大于/>时，则数据为异常数据。