CN117370898B - 一种电子数据安全管控系统 - Google Patents

一种电子数据安全管控系统 Download PDF

Info

Publication number
CN117370898B
CN117370898B CN202311676706.5A CN202311676706A CN117370898B CN 117370898 B CN117370898 B CN 117370898B CN 202311676706 A CN202311676706 A CN 202311676706A CN 117370898 B CN117370898 B CN 117370898B
Authority
CN
China
Prior art keywords
period
data
section
small
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311676706.5A
Other languages
English (en)
Other versions
CN117370898A (zh
Inventor
柳晶
李全德
陈广辉
杨丽芬
薛海清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Titanium Union Shenzhen Technology Co ltd
Original Assignee
Titanium Union Shenzhen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Titanium Union Shenzhen Technology Co ltd filed Critical Titanium Union Shenzhen Technology Co ltd
Priority to CN202311676706.5A priority Critical patent/CN117370898B/zh
Publication of CN117370898A publication Critical patent/CN117370898A/zh
Application granted granted Critical
Publication of CN117370898B publication Critical patent/CN117370898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据分析技术领域,具体涉及一种电子数据安全管控系统,包括:获取电力负荷数据的周期段;根据周期段获取周期段中的小段;根据周期段中的小段获取第一周期段、第二周期段以及目标周期段;根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等;根据周期段中的小段获取周期段与其他所有周期段的相似程度;数据判断模块,用于根据周期段与其他所有周期段的相似程度获取若干类簇的周期段;根据若干类簇获取异常数据。本发明通过将相似性较高的周期分为一类,并从中选取数据构建子树。从而避免相似度不同的周期中的异常数据划分为一个样本集,导致异常结果检测不准确的情况发生。

Description

一种电子数据安全管控系统
技术领域
本发明涉及数据分析技术领域,具体涉及一种电子数据安全管控系统。
背景技术
随着社会的发展,科技水平的提高数字化的电子数据必然发挥着越来越重要的作用,而电力负荷数据作为一种常用的电子数据。由于其具有以天为单位的周期性特点,且每天的数据具有不同的相似性,若直接使用孤立森林检测对其进行异常数据检测,可能会使随机选取的样本集分布在相似的周期段,则会导致异常检测的结果不准确。
因此本发明提出了一种电子数据安全管控系统,该系统主要是实现对电力负荷数据中的异常数据进行精准的识别。首先通过将相似性较高的周期分为一类,并从中选取数据构建子树。从而避免相似度不同的周期中的异常数据划分为一个样本集,导致异常结果检测不准确的情况发生,达到精准识别电力负荷数据中的异常数据。
发明内容
本发明提供一种电子数据安全管控系统,以解决现有的问题:直接对电力负荷数据进行孤立森林检测,可能会导致异常检测的结果不准确。
本发明的一种电子数据安全管控系统采用如下技术方案:
包括以下模块:
数据采集模块,用于获取电力负荷数据的周期段;
数据处理模块,用于获取周期段中的小段;根据周期段中的小段获取第一周期段、第二周期段以及目标周期段;根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等;
数据分析模块,用于获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度;根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,获取周期段中的小段与其他所有周期段中的小段的相似程度;根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异,获取周期段中每个小段的相似程度权重;根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度,获取周期段与其他所有周期段的相似程度;
数据判断模块,用于根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量;根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段。
优选的,所述获取电力负荷数据的周期段,包括的具体方法为:
采集电力负荷数据,并以时间为横轴以电力负荷数据为纵轴,构建一个二维坐标系,将所有电力负荷数据置入二维坐标系中,再使用最小二乘法对二维坐标系中所有的电力负荷数据进行拟合,得到电力负荷数据曲线,以一天为一个周期单位对电力负荷数据曲线进行分段,得到若干电力负荷数据的周期段。
优选的,所述获取周期段中的小段;根据周期段中的小段获取第一周期段、第二周期段以及目标周期段,包括的具体方法为:
以所有电力负荷数据的周期段内所有极值点为分界点,将所有电力负荷数据的周期段分成若干个小段,统计每个电力负载数据周期段内小段数量,将所有电力负载数据周期段的小段数量构成小段数量的集合,将小段数量的集合中的众数作为目标段数,将小段数量小于目标段数的电力负载数据周期段记为第一周期段;将小段数量大于目标段数的电力负载数据周期段记为第二周期段;将小段数量等于目标段数的电力负载数据周期段记为目标周期段。
优选的,所述根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等,包括的具体方法为:
对于第一周期段,计算第一周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为,选取第一周期段中包含数据数量最多的小段记为第一特征小段,将位于第一特征小段中间的数据作为增加的第一个分界点,并重新将第一周期段分成若干个小段;得到增加一个分界点后的第一周期段内的小段;
选取增加一个分界点后的第一周期段中包含数据数量最多的小段记为第二特征小段,将位于第二特征小段中间的数据作为增加的第二个分界点,并重新将增加一个分界点后的第一周期段分成若干个小段;得到增加两个分界点后的第一周期段内的小段;
选取增加两个分界点后的第一周期段中包含数据数量最多的小段记为第三特征小段,将位于第三特征小段内中间的数据作为增加的第三个分界点,并重新将增加两个分界点后的第一周期段分成若干个小段;得到增加三个分界点后的第一周期段内的小段;
以此类推,直至增加的分界点数量与相等为止,得到增加若干分界点后的第一周期段内的小段;
对于第二周期段,计算第二周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为;将第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段,将第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段,以此类推将第二周期段中第/>个分界点与第/>个分界点之间的数据记为第/>大段;直至,将第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段;得到第二周期段中的所有大段;
选取第二周期段中包含数据数量最少的大段记为第一特征大段,将第一特征大段内的分界点作为去除的第一个分界点,得到去除一个分界点后的第二周期段;
将去除一个分界点后的第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段,将去除一个分界点后的第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段,以此类推将去除一个分界点后的第二周期段中第个分界点与第/>个分界点之间的数据记为第/>大段;直至,将去除一个分界点后的第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段;得到去除一个分界点后的第二周期段中的所有大段;
选取去除一个分界点后的第二周期段中包含数据数量最少的大段记为第二特征大段,将第二特征大段内的分界点作为去除的第二个分界点,得到去除两个分界点后的第二周期段;
以此类推,直至去除的分界点数量与相等为止,得到去除若干分界点后的第二周期段,根据去除若干分界点后的第二周期段内的分界点,得到去除若干分界点后的第二周期段内的小段。
优选的,所述获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,包括的具体方法为:
将第个周期段第/>个小段与第/>个周期段第/>个小段中包含数据数量最多的小段作为第/>个周期段与第/>个周期段的第/>个基准小段,并统计第/>个基准小段内的数据数量;对第个周期段第/>个小段与第/>个周期段第/>个小段中的不是第/>个基准小段的其他小段进行末位补零处理,使其他小段内的数据数量等于第/>个基准小段的数据数量,将经过末位补零的其他小段记为第/>个非基准小段;最后通过基准小段与非基准小段,计算第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度,其具体的计算公式为:
式中,表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度;/>表示第/>个周期段与第/>个周期段的第/>个基准小段中数据的数量;/>表示第/>个周期段与第/>个周期段的第/>个基准小段中的第/>个数据的值;/>表示第/>个周期段与第/>个周期段的第/>个非基准小段中的第/>个数据的值。
优选的,所述根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,获取周期段中的小段与其他所有周期段中的小段的相似程度,包括的具体计算公式为:
式中,表示第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段的相似程度;/>表示周期段的数量;/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值;/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值;/>表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度。
优选的,所述根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异,获取周期段中每个小段的相似程度权重,包括的具体计算公式为:
式中,表示第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;表示第/>个小段内的数据数量;/>表示第/>个小段内的数据数量;/>表示第/>个小段内的数据数量;/>为第/>个周期段中的第/>个小段的相似程度权重;/>表示第/>个周期段中的第/>个小段内的数据数量;/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示周期段的数量;/>表示周期段中的小段的数量。
优选的,所述根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度,获取周期段与其他所有周期段的相似程度,包括的具体计算公式为:
式中,表示第/>个周期段与其他所有周期段的相似程度;/>表示每个周期段中小段的数量;/>表示第/>个周期段中的第/>个小段的相似程度;/>为第/>个周期段中的第/>个小段的相似程度权重。
优选的,所述根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量,包括的具体方法为:
使用k-means聚类算法,并预设一个类簇数,使k-means聚类算法的K值等于/>;根据每个周期段与其他所有周期段的相似程度对所有的周期段进行k-means聚类,得到/>个类簇、每个类簇中数据的数量以及所有类簇中数据的总数量。
优选的,所述根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段,包括的具体方法为:
使用孤立森林异常检测算法,并预设子树数量,使孤立森林异常检测算法中的子树数量等于/>,然后从/>个类簇中每个类簇随机抽取若干个数据构建孤立森林异常检测算法中的子树,具体每个类簇随机抽取的数据数量的计算公式为:
式中,表示第/>个类簇所随机抽取的数据数量;/>表示第/>个类簇中数据的数量;表示所有类簇中数据的总数量;
得到孤立森林异常检测算法中的子树;根据孤立森林异常检测算法中的子树,得到所有数据的异常分数;
最后预设一个异常分数阈值,其中/>的具体大小可根据时间情况自行设置,本实施例不做硬性要求,在本实施例中以/>进行叙述,当数据的异常分数小于等于/>时,则数据为正常数据,当数据的异常分数大于/>时,则数据为异常数据。
本发明的技术方案的有益效果是:传统的孤立森林异常检测算法在构建子树的过程中是在所有数据集中随机进行选取部分数据来构建子树,但对于电力负荷数据来说,其具有以天为单位的周期性特点,且每天的数据具有不同的相似性,若直接使用孤立森林检测对其进行异常数据检测,可能会使随机选取的样本集分布在相似的周期段,则会导致异常检测的结果不准确。因此本发明首先通过将相似性较高的周期分为一类,并从中选取数据构建子树。从而避免相似度不同的周期中的异常数据划分为一个样本集,导致异常结果检测不准确的情况发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种电子数据安全管控系统的结构框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种电子数据安全管控系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种电子数据安全管控系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种电子数据安全管控系统的结构框图,该系统包括以下模块:
数据采集模块101:用于获取电力负荷数据的周期段。
需要说明的是,本实施例作为一种电子数据安全管控系统,其具体的应用场景为对电力负荷数据进行分析,获取电力负荷数据中的异常数据,因此首先需要获取历史电力负荷数据。
具体的,在本实施例中以某公司过去一年的电力负荷数据为例进行分析,具体可根据实际需求选择分析的电力负荷数据,本实施例不做硬性要求。以时间为横轴以电力负荷数据为纵轴,构建一个二维坐标系,将所有电力负荷数据置入二维坐标系中,再使用最小二乘法对二维坐标系中所有的电力负荷数据进行拟合,得到电力负荷数据曲线。
需要进一步说明的是,由于公司的电力负荷数据与公司的运行有着密切的联系,而公司的运行则会呈现出以日为周期的特征,为了更好的对电力负荷数据进行分析,所以需要对电力负荷数据曲线进行分段。
具体的,以一天为一个周期单位对电力负荷数据曲线进行分段,得到若干电力负荷数据的周期段。
至此,得到若干电力负荷数据的周期段。
数据处理模块102:用于获取周期段中的小段;根据周期段中的小段获取第一周期段、第二周期段以及目标周期段;根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等。
需要说明的是,由于电力负荷数据会被用电习惯不同、节假日等原因所影响,即不同周期段中电力负荷的波动也不相同;为能够准确的检测出电力负荷数据中的异常数据,需要计算周期段之间的相似性来对周期段进行划分归类。
具体的,以所有电力负荷数据的周期段内所有极值点为分界点,将所有电力负荷数据的周期段分成若干个小段,统计每个电力负载数据周期段内小段数量,得到每个电力负载数据周期段内小段数量的集合,将每个电力负载数据周期段内小段数量的集合中的众数作为目标段数,将电力负载数据周期段内小段数量小于目标段数的电力负载数据周期段记为第一周期段;将电力负载数据周期段内小段数量大于目标段数的电力负载数据周期段记为第二周期段;将电力负载数据周期段内小段数量等于目标段数的电力负载数据周期段记为目标周期段。
需要说明的是,为了更好的计算各个电力负载数据周期段之间的相似性,需要使每个电力负载数据周期段内小段数量相等;即让第一周期段中小段的数量以及第二周期段中小段的数量均与目标周期段中小段的数量相等。
需要进一步说明的是,由于目标周期段中所有电力负载数据周期段内每个小段数量均相等,所以目标周期段中所有电力负载数据周期段内的分界点数量相等,故可以通过目标周期段中所有电力负载数据周期段内的分界点位置,得到能够代表目标周期段中所有电力负载数据周期段内的分界点位置的分界点,再结合第一周期段与第二周期段中每个电力负载数据周期段内分界点的位置与数量,增加或去除第一周期段与第二周期段中每个电力负载数据周期段内分界点,使第一周期段中小段的数量以及第二周期段中小段的数量均与目标周期段中小段的数量相等。
具体的,对于第一周期段,计算第一周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为,选取第一周期段中包含数据数量最多的小段记为第一特征小段,将位于第一特征小段中间的数据作为增加的第一个分界点,并重新将第一周期段分成若干个小段;得到增加一个分界点后的第一周期段内的小段;
选取增加一个分界点后的第一周期段中包含数据数量最多的小段记为第二特征小段,将位于第二特征小段中间的数据作为增加的第二个分界点,并重新将增加一个分界点后的第一周期段分成若干个小段;得到增加两个分界点后的第一周期段内的小段;
选取增加两个分界点后的第一周期段中包含数据数量最多的小段记为第三特征小段,将位于第三特征小段内中间的数据作为增加的第三个分界点,并重新将增加两个分界点后的第一周期段分成若干个小段;得到增加三个分界点后的第一周期段内的小段;
以此类推,直至增加的分界点数量与相等为止,得到增加若干分界点后的第一周期段内的小段。
对于第二周期段,计算第二周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为;将第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段,将第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段,以此类推将第二周期段中第/>个分界点与第/>个分界点之间的数据记为第/>大段;直至,将第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段;得到第二周期段中的所有大段;
选取第二周期段中包含数据数量最少的大段记为第一特征大段,将第一特征大段内的分界点作为去除的第一个分界点,得到去除一个分界点后的第二周期段;
将去除一个分界点后的第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段,将去除一个分界点后的第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段,以此类推将去除一个分界点后的第二周期段中第个分界点与第/>个分界点之间的数据记为第/>大段;直至,将去除一个分界点后的第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段;得到去除一个分界点后的第二周期段中的所有大段;
选取去除一个分界点后的第二周期段中包含数据数量最少的大段记为第二特征大段,将第二特征大段内的分界点作为去除的第二个分界点,得到去除两个分界点后的第二周期段;
以此类推,直至去除的分界点数量与相等为止,得到去除若干分界点后的第二周期段,根据去除若干分界点后的第二周期段内的分界点,得到去除若干分界点后的第二周期段内的小段。
至此,使所有周期段内的小段数量相等。
数据分析模块103:用于获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度;根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,获取周期段中的小段与其他所有周期段中的小段的相似程度;根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异,获取周期段中每个小段的相似程度权重;根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度,获取周期段与其他所有周期段的相似程度。
需要说明的是,通过数据处理模块102使得所有周期段内的小段数量相同,故可以根据不同周期段中小段内的数据变化情况以及不同周期段中小段内的数据的相似程度,计算不同周期段中小段的相似程度,但是由于不同周期段中小段内的数据的数量不同,为了能够更好的计算不同周期段中小段内的数据的相似程度,首先需要使所计算的不同周期段中小段内的数据数量相等。
具体的,将第个周期段第/>个小段与第/>个周期段第/>个小段中包含数据数量最多的小段作为第/>个周期段与第/>个周期段的第/>个基准小段,并统计第/>个基准小段内的数据数量;对第/>个周期段第/>个小段与第/>个周期段第/>个小段中的不是第/>个基准小段的其他小段进行末位补零处理,使其他小段内的数据数量等于第/>个基准小段的数据数量,将经过末位补零的其他小段记为第/>个非基准小段;最后通过基准小段与非基准小段,计算第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度,其具体的计算公式为:
式中,表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度;/>表示第/>个周期段与第/>个周期段的第/>个基准小段中数据的数量;/>表示第/>个周期段与第/>个周期段的第/>个基准小段中的第/>个数据的值;/>表示第/>个周期段与第/>个周期段的第/>个非基准小段中的第/>个数据的值。
需要说明的是,当的值越大则说明第/>个周期段中的第/>个小段与第/>个周期段中的第/>个小段越相似;再结合周期段中小段内的数据变化情况,计算每个周期段中所有小段的相似程度,其具体的计算公式为:
式中,表示第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段的相似程度;/>表示周期段的数量;/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值;/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值,由于数据斜率的计算作为一种公知的计算,故在本实施例中不再赘述;/>表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度。
需要说明的是,表示的是第/>个周期段中的第/>个小段内所有数据斜率的均值,与第/>个周期段中的第/>个小段内所有数据斜率的均值之间的差异,所以/>的值越小,则说明第/>个周期段中的第/>个小段内数据的变化情况,与第/>个周期段中的第/>个小段内数据的变化情况越相似;以及/>的值越大则说明第/>个周期段中的第/>个小段与第/>个周期段中的第/>个小段越相似,所以/>的值越大则说明第/>个周期段中的第/>个小段与其他周期段中的第/>个小段越相似。
需要进一步说明的是,当周期段中的小段内的数据数量与其他周期段中对应的小段内的数据数量的差异越大,则该小段越不相似,所以还需要根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异,获取周期段中每个小段的相似程度权重。
其具体的计算公式为:
式中,表示第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;表示第/>个小段内的数据数量;/>表示第/>个小段内的数据数量;/>表示第/>个小段内的数据数量;/>为第/>个周期段中的第/>个小段的相似程度权重;/>表示第/>个周期段中的第/>个小段内的数据数量;/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示周期段的数量;/>表示周期段中的小段的数量。
需要进一步说明的是,当与/>中的/>或/>时,表示第/>个小段仅有一个相邻的小段,此时令/>或/>等于0;而当/>的值越大,则说明第/>个周期段中的第/>个小段与相邻的小段内的数据数量之间的关系,与其他所有周期段中的第/>个小段与相邻的小段内的数据数量之间的关系越不相似,所以/>的值越大则第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段越相似。结合周期段中所有小段的相似程度权重与周期段中所有小段的相似程度,即可得到周期段与其他所有周期段的相似程度。
具体的,对于第个周期段,通过第/>个周期段中所有小段的相似程度权重,与第/>个周期段中所有小段的相似程度,获取第/>个周期段与其他所有周期段的相似程度,其具体计算公式如下:
式中,表示第/>个周期段与其他所有周期段的相似程度;/>表示每个周期段中小段的数量;/>表示第/>个周期段中的第/>个小段的相似程度;/>为第/>个周期段中的第/>个小段的相似程度权重。
同理,得到所有周期段与其他所有周期段的相似程度。
需要进一步说明的是,的值越大则说明第/>个周期段与其他所有周期段的相似程度越高。
数据判断模块104:用于根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量;根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段。
需要说明的是,本实施例的最终目的是实现准确地区分电力负荷数据中的正常数据与异常数据,由于孤立森林异常检测其中的异常数据时,随机选取的样本集如果分布在相似的周期段,造成某些特征值存在相似的情况导致异常检测的结果不准确,因此本实施例现依照每个周期段的相似程度对所有周期段进行分类,然后根据每个类簇内的数据进行孤立森林异常检测,达到准确识别异常数据的目的。
具体的,使用k-means聚类算法,并预设一个类簇数,使k-means聚类算法的K值等于/>,其中/>的具体大小可根据时间情况自行设置,本实施例不做硬性要求,在本实施例中以进行叙述,同时由于k-means聚类算法作为一种公知的技术,故在本实施例中不再赘述;根据每个周期段与其他所有周期段的相似程度对所有的周期段进行k-means聚类,得到个类簇、每个类簇中数据的数量以及所有类簇中数据的总数量。
使用孤立森林异常检测算法,并预设子树数量,使孤立森林异常检测算法中的子树数量等于/>,其中/>的具体大小可根据时间情况自行设置,本实施例不做硬性要求,在本实施例中以/>进行叙述,然后从/>个类簇中每个类簇随机抽取若干个数据构建孤立森林异常检测算法中的子树,具体每个类簇随机抽取的数据数量的计算公式为:
式中,表示第/>个类簇所随机抽取的数据数量;/>表示第/>个类簇中数据的数量;表示所有类簇中数据的总数量。
同时由于孤立森林异常检测算法作为一种公知的技术,故在本实施例中不再赘述;得到孤立森林异常检测算法中的子树,而孤立森林异常检测算法中异常分数的计算作为一种公知的现有技术,故在本实施例中不再赘述,得到所有数据的异常分数。
最后预设一个异常分数阈值,其中/>的具体大小可根据时间情况自行设置,本实施例不做硬性要求,在本实施例中以/>进行叙述,当数据的异常分数小于等于/>时,则数据为正常数据,当数据的异常分数大于/>时,则数据为异常数据。
至此,本实施例完成。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种电子数据安全管控系统,其特征在于,该系统包括以下模块:
数据采集模块,用于获取电力负荷数据的周期段;
数据处理模块,用于获取周期段中的小段;根据周期段中的小段获取第一周期段、第二周期段以及目标周期段;根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等;
数据分析模块,用于获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度;根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,获取周期段中的小段与其他所有周期段中的小段的相似程度;根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异,获取周期段中每个小段的相似程度权重;根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度,获取周期段与其他所有周期段的相似程度;
所述获取周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,包括的具体方法为:
将第个周期段第/>个小段与第/>个周期段第/>个小段中包含数据数量最多的小段作为第个周期段与第/>个周期段的第/>个基准小段,并统计第/>个基准小段内的数据数量;对第/>个周期段第/>个小段与第/>个周期段第/>个小段中的不是第/>个基准小段的其他小段进行末位补零处理,使其他小段内的数据数量等于第/>个基准小段的数据数量,将经过末位补零的其他小段记为第/>个非基准小段;最后通过基准小段与非基准小段,计算第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度,其具体的计算公式为:
式中,表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度;/>表示第/>个周期段与第/>个周期段的第/>个基准小段中数据的数量;/>表示第/>个周期段与第/>个周期段的第/>个基准小段中的第/>个数据的值;/>表示第/>个周期段与第/>个周期段的第/>个非基准小段中的第/>个数据的值;
所述根据周期段中的小段内的数据与其他任意周期段中的小段内的数据之间的相似程度,获取周期段中的小段与其他所有周期段中的小段的相似程度,包括的具体计算公式为:
式中,表示第/>个周期段中的第/>个小段与其他所有周期段中的第/>个小段的相似程度;/>表示周期段的数量;/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值;/>表示第/>个周期段中的第/>个小段内所有数据斜率的均值;/>表示第/>个周期段中的第/>个小段内的数据与第/>个周期段中的第/>个小段内的数据之间的相似程度;
所述根据周期段中的小段内的数据数量与其他周期段中的小段内的数据数量的差异,获取周期段中每个小段的相似程度权重,包括的具体计算公式为:
式中,表示第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示第/>个小段内的数据数量;/>表示第/>个小段内的数据数量;/>表示第/>个小段内的数据数量;/>为第/>个周期段中的第/>个小段的相似程度权重;/>表示第/>个周期段中的第/>个小段内的数据数量;/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示第/>个周期段中的第/>个小段内的数据数量与相邻的小段内的数据数量之间的关系;/>表示周期段的数量;/>表示周期段中的小段的数量;
所述根据周期段中每个小段的相似程度权重以及周期段中的小段与其他所有周期段中的小段的相似程度,获取周期段与其他所有周期段的相似程度,包括的具体计算公式为:
式中,表示第/>个周期段与其他所有周期段的相似程度;/>表示每个周期段中小段的数量;/>表示第/>个周期段中的第/>个小段的相似程度;/>为第/>个周期段中的第/>个小段的相似程度权重;
数据判断模块,用于根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量;根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段。
2.根据权利要求1所述一种电子数据安全管控系统,其特征在于,所述获取电力负荷数据的周期段,包括的具体方法为:
采集电力负荷数据,并以时间为横轴以电力负荷数据为纵轴,构建一个二维坐标系,将所有电力负荷数据置入二维坐标系中,再使用最小二乘法对二维坐标系中所有的电力负荷数据进行拟合,得到电力负荷数据曲线,以一天为一个周期单位对电力负荷数据曲线进行分段,得到若干电力负荷数据的周期段。
3.根据权利要求1所述一种电子数据安全管控系统,其特征在于,所述获取周期段中的小段;根据周期段中的小段获取第一周期段、第二周期段以及目标周期段,包括的具体方法为:
以所有电力负荷数据的周期段内所有极值点为分界点,将所有电力负荷数据的周期段分成若干个小段,统计每个电力负载数据周期段内小段数量,将所有电力负载数据周期段的小段数量构成小段数量的集合,将小段数量的集合中的众数作为目标段数,将小段数量小于目标段数的电力负载数据周期段记为第一周期段;将小段数量大于目标段数的电力负载数据周期段记为第二周期段;将小段数量等于目标段数的电力负载数据周期段记为目标周期段。
4.根据权利要求3所述一种电子数据安全管控系统,其特征在于,所述根据第一周期段、第二周期段以及目标周期段使所有周期段内的小段数量相等,包括的具体方法为:
对于第一周期段,计算第一周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为,选取第一周期段中包含数据数量最多的小段记为第一特征小段,将位于第一特征小段中间的数据作为增加的第一个分界点,并重新将第一周期段分成若干个小段;得到增加一个分界点后的第一周期段内的小段;
选取增加一个分界点后的第一周期段中包含数据数量最多的小段记为第二特征小段,将位于第二特征小段中间的数据作为增加的第二个分界点,并重新将增加一个分界点后的第一周期段分成若干个小段;得到增加两个分界点后的第一周期段内的小段;
选取增加两个分界点后的第一周期段中包含数据数量最多的小段记为第三特征小段,将位于第三特征小段内中间的数据作为增加的第三个分界点,并重新将增加两个分界点后的第一周期段分成若干个小段;得到增加三个分界点后的第一周期段内的小段;
以此类推,直至增加的分界点数量与相等为止,得到增加若干分界点后的第一周期段内的小段;
对于第二周期段,计算第二周期段中分界点的数量与目标周期段中分界点的数量之间的差值记为;将第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段,将第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段,以此类推将第二周期段中第/>个分界点与第/>个分界点之间的数据记为第/>大段;直至,将第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段;得到第二周期段中的所有大段;
选取第二周期段中包含数据数量最少的大段记为第一特征大段,将第一特征大段内的分界点作为去除的第一个分界点,得到去除一个分界点后的第二周期段;
将去除一个分界点后的第二周期段中第一个分界点与第三个分界点之间的数据记为第一大段,将去除一个分界点后的第二周期段中第二个分界点与第四个分界点之间的数据记为第二大段,以此类推将去除一个分界点后的第二周期段中第个分界点与第/>个分界点之间的数据记为第/>大段;直至,将去除一个分界点后的第二周期段中倒数第三个分界点与倒数第一个分界点之间的数据记为最后大段;得到去除一个分界点后的第二周期段中的所有大段;
选取去除一个分界点后的第二周期段中包含数据数量最少的大段记为第二特征大段,将第二特征大段内的分界点作为去除的第二个分界点,得到去除两个分界点后的第二周期段;
以此类推,直至去除的分界点数量与相等为止,得到去除若干分界点后的第二周期段,根据去除若干分界点后的第二周期段内的分界点,得到去除若干分界点后的第二周期段内的小段。
5.根据权利要求1所述一种电子数据安全管控系统,其特征在于,所述根据周期段与其他所有周期段的相似程度获取若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量,包括的具体方法为:
使用k-means聚类算法,并预设一个类簇数,使k-means聚类算法的K值等于/>;根据每个周期段与其他所有周期段的相似程度对所有的周期段进行k-means聚类,得到/>个类簇、每个类簇中数据的数量以及所有类簇中数据的总数量。
6.根据权利要求5所述一种电子数据安全管控系统,其特征在于,所述根据若干类簇、每个类簇中数据的数量以及所有类簇中数据的总数量获取异常周期段,包括的具体方法为:
使用孤立森林异常检测算法,并预设子树数量,使孤立森林异常检测算法中的子树数量等于/>,然后从/>个类簇中每个类簇随机抽取若干个数据构建孤立森林异常检测算法中的子树,具体每个类簇随机抽取的数据数量的计算公式为:
式中,表示第/>个类簇所随机抽取的数据数量;/>表示第/>个类簇中数据的数量;/>表示所有类簇中数据的总数量;
得到孤立森林异常检测算法中的子树;根据孤立森林异常检测算法中的子树,得到所有数据的异常分数;
最后预设一个异常分数阈值,当数据的异常分数小于等于/>时,则数据为正常数据,当数据的异常分数大于/>时,则数据为异常数据。
CN202311676706.5A 2023-12-08 2023-12-08 一种电子数据安全管控系统 Active CN117370898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311676706.5A CN117370898B (zh) 2023-12-08 2023-12-08 一种电子数据安全管控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311676706.5A CN117370898B (zh) 2023-12-08 2023-12-08 一种电子数据安全管控系统

Publications (2)

Publication Number Publication Date
CN117370898A CN117370898A (zh) 2024-01-09
CN117370898B true CN117370898B (zh) 2024-03-12

Family

ID=89400641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311676706.5A Active CN117370898B (zh) 2023-12-08 2023-12-08 一种电子数据安全管控系统

Country Status (1)

Country Link
CN (1) CN117370898B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241208A (zh) * 2019-12-31 2020-06-05 安徽中科大国祯信息科技有限责任公司 一种周期性时序数据的异常监测方法及装置
CN112988536A (zh) * 2021-03-09 2021-06-18 北京奇艺世纪科技有限公司 一种数据异常检测方法、装置、设备及存储介质
CN113051552A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 一种异常行为检测方法和装置
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN115792479A (zh) * 2023-02-08 2023-03-14 东营市建筑设计研究院 一种智能插座的用电智能监测方法及系统
WO2023050620A1 (zh) * 2021-09-29 2023-04-06 西安交通大学 一种分布式区块链系统用户异常行为监测方法及系统
CN116010485A (zh) * 2023-03-28 2023-04-25 杭州比智科技有限公司 一种动态周期时序的无监督异常检测方法
CN116187423A (zh) * 2023-03-07 2023-05-30 上海观安信息技术股份有限公司 一种基于无监督算法的行为序列异常检测方法及系统
CN116361631A (zh) * 2023-03-29 2023-06-30 阿里巴巴(中国)有限公司 时间序列数据周期检测、异常检测、资源调度方法及设备
CN116628529A (zh) * 2023-07-21 2023-08-22 山东科华电力技术有限公司 一种用于用户侧智能负荷控制系统的数据异常检测方法
CN116755641A (zh) * 2023-08-22 2023-09-15 山东凌远机电科技有限公司 一种配电箱运行数据优化采集存储方法
CN116821833A (zh) * 2023-08-29 2023-09-29 好林(威海)新材料有限公司 一种机器滤布粘连的数据异常检测方法
CN116881979A (zh) * 2023-08-23 2023-10-13 上海观安信息技术股份有限公司 数据安全合规的检测方法、装置及设备
CN116990993A (zh) * 2023-09-26 2023-11-03 深圳市柯达科电子科技有限公司 一种lcd显示面板质量检测方法
CN117113235A (zh) * 2023-10-20 2023-11-24 深圳市互盟科技股份有限公司 一种云计算数据中心能耗优化方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263399B2 (en) * 2002-04-29 2007-08-28 Medtronic, Inc. Apparatus and methods for analysis of cardiac device stored episodes containing sensed signals and waveforms
WO2020184443A1 (ja) * 2019-03-08 2020-09-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置
CN113449008B (zh) * 2020-03-27 2023-06-06 华为技术有限公司 一种建模方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051552A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 一种异常行为检测方法和装置
CN111241208A (zh) * 2019-12-31 2020-06-05 安徽中科大国祯信息科技有限责任公司 一种周期性时序数据的异常监测方法及装置
CN112988536A (zh) * 2021-03-09 2021-06-18 北京奇艺世纪科技有限公司 一种数据异常检测方法、装置、设备及存储介质
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
WO2023050620A1 (zh) * 2021-09-29 2023-04-06 西安交通大学 一种分布式区块链系统用户异常行为监测方法及系统
CN115792479A (zh) * 2023-02-08 2023-03-14 东营市建筑设计研究院 一种智能插座的用电智能监测方法及系统
CN116187423A (zh) * 2023-03-07 2023-05-30 上海观安信息技术股份有限公司 一种基于无监督算法的行为序列异常检测方法及系统
CN116010485A (zh) * 2023-03-28 2023-04-25 杭州比智科技有限公司 一种动态周期时序的无监督异常检测方法
CN116361631A (zh) * 2023-03-29 2023-06-30 阿里巴巴(中国)有限公司 时间序列数据周期检测、异常检测、资源调度方法及设备
CN116628529A (zh) * 2023-07-21 2023-08-22 山东科华电力技术有限公司 一种用于用户侧智能负荷控制系统的数据异常检测方法
CN116755641A (zh) * 2023-08-22 2023-09-15 山东凌远机电科技有限公司 一种配电箱运行数据优化采集存储方法
CN116881979A (zh) * 2023-08-23 2023-10-13 上海观安信息技术股份有限公司 数据安全合规的检测方法、装置及设备
CN116821833A (zh) * 2023-08-29 2023-09-29 好林(威海)新材料有限公司 一种机器滤布粘连的数据异常检测方法
CN116990993A (zh) * 2023-09-26 2023-11-03 深圳市柯达科电子科技有限公司 一种lcd显示面板质量检测方法
CN117113235A (zh) * 2023-10-20 2023-11-24 深圳市互盟科技股份有限公司 一种云计算数据中心能耗优化方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于模糊聚类和孤立森林的用电数据异常检测;赵嫚;李英娜;李川;杨莉;;陕西理工大学学报(自然科学版);20200820(第04期);正文第43-48页 *

Also Published As

Publication number Publication date
CN117370898A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN109146705B (zh) 一种用电特征指标降维与极限学习机算法进行窃电检测的方法
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN109858522A (zh) 一种基于数据挖掘的管理线损异常识别方法
CN107682319A (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN113838054B (zh) 基于人工智能的机械零件表面损伤检测方法
CN112732748B (zh) 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN117313016B (zh) 一种新能源电力交易现货电价价差数据处理方法
CN117289778B (zh) 一种工控主机电源健康状态的实时监测方法
CN115409131A (zh) 基于spc过程管控系统的生产线异常检测方法
CN117093947B (zh) 一种发电柴油机运行异常监测方法及系统
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN115876258A (zh) 基于多源数据的畜禽养殖环境异常监测及报警系统
CN117649059B (zh) 一种用于数字化育种流程的成果评价优化方法
CN109434562A (zh) 基于划分聚类的铣削刀具磨损状态识别方法
CN108596227A (zh) 一种用户用电行为主导影响因素挖掘方法
CN109389172B (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN117874676A (zh) 一种多风机机头风速异常恒定值检测方法及装置
CN117370898B (zh) 一种电子数据安全管控系统
CN117435937A (zh) 一种智能电表异常数据识别方法、装置、设备及存储介质
CN117170979A (zh) 一种大规模设备的能耗数据处理方法、系统、设备及介质
CN112287979A (zh) 一种基于互信息的储能电池状态判定方法
CN116561692A (zh) 一种动态更新的实时量测数据检测方法
CN115295016A (zh) 一种设备运行状态监控方法、装置、设备及存储介质
CN116433049A (zh) 一种基于模糊粗糙熵的用电异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant