CN104616092B - 一种基于分布式日志分析的行为模式处理方法 - Google Patents
一种基于分布式日志分析的行为模式处理方法 Download PDFInfo
- Publication number
- CN104616092B CN104616092B CN201410783743.0A CN201410783743A CN104616092B CN 104616092 B CN104616092 B CN 104616092B CN 201410783743 A CN201410783743 A CN 201410783743A CN 104616092 B CN104616092 B CN 104616092B
- Authority
- CN
- China
- Prior art keywords
- behavior
- behavior pattern
- user
- library
- operator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000006399 behavior Effects 0.000 claims abstract description 378
- 230000002159 abnormal effect Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241001074085 Scophthalmus aquosus Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Water Supply & Treatment (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于分布式日志分析的行为模式处理方法,包括如下步骤:S1,获取电力系统的日志信息,并将日志信息逐条序列化输出到分布式存储系统中;S2,对日志信息进行分析,挖掘出操作行为之间的强关联规则,构建用户行为模式库;S3,根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行处理。本发明可以有效判断异常操作,并对其进行及时处理。除此之外,对用户当前操作行为的后续正常操作进行预测,不仅为用户行为操作提供了便利,而且提高了电力系统的操作处理效率,能有效地满足电力系统及时、高效的运行要求。
Description
技术领域
本发明涉及一种行为模式处理方法,尤其涉及一种在电力系统中,基于分布式日志分析的行为模式处理方法,属于电力系统调度技术领域。
背景技术
随着电网规模的日趋扩大和复杂程度的不断增加,特高压互联大电网对一体化运行和电网的统一协调控制提出了新的要求,国家对电网安全、稳定、经济、环保运行的要求也越来越高。电力大数据应运而生,它是大数据理念、技术和方法在电力行业的实践,电力大数据涉及到发电、输电、变电、配电、用电、调度各环节,综合了跨单位、跨专业、跨业务的数据分析、挖掘与数据可视化的功能。
在调度环节,随着智能电网调度技术支持系统的投运,电网数据采集范围和类型不断扩展,在满足对互联大电网全方位的实时监控以及迅速处理等方面起到了重要作用。目前,各级调控中心已建成以智能电网调度技术支持系统为核心的一系列调度生产管理运行系统,主要有SCADA/EMS、WAMS、水电及新能源、二次设备在线监视与分析、调度计划、安全校核、调度管理等系统,系统已投入运行,基本满足调度生产需要,在调度生产管理中发挥重要作用。
在现有系统产品运行过程中,如何保障系统安全稳定运行,防止事故扩大,以及事故后系统快速恢复具有重要意义。电力系统的安全稳定运行需要继电保护和自动装置等就地装置的保护,但仅仅依靠这些就地装置还不能完全保证电力系统的安全运行,因为这些装置往往都是根据局部的信息来处理电力系统的故障,而不能以全局的信息来预测、分析系统的运行情况和处理系统中出现的各种复杂问题,为此,用于行为模式分析和预测的日志分析技术亟待开发。
目前,国内电力企业的系统日志分析技术尚不成熟,大多数系统错误的发现还依赖于故障报警及人力核查,且对运行人员的操作行为分析及预测方面尚属空白。用户不能根据以往操作人员的操作行为迅速的对某些操作行为做出判断,以及时有效地发现异常操作,并对其进行及时地处理,不能满足电网系统及时、高效的运行要求。除此之外,电力企业每天可能会有很多不同的数据分析需求,提供的日志数据也是多样化的,如何对多样化的日志数据进行统一分析处理,也是一个急需解决的问题。
发明内容
本发明所要解决的技术问题在于提供一种基于分布式日志分析的行为模式处理方法。
为实现上述发明目的,本发明采用下述的技术方案:
一种基于分布式日志分析的行为模式处理方法,包括如下步骤:
S1,获取电力系统的日志信息,并将日志信息逐条序列化输出到分布式存储系统中;
S2,对日志信息进行分析,挖掘出操作行为之间的强关联规则,构建用户行为模式库;
S3,根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行处理。
其中较优地,所述用户行为模式库包括操作员正常行为模式库和当前行为模式库。
其中较优地,在步骤S2中,所述挖掘出操作行为之间的强关联规则包括如下步骤:
S21,从分布式存储系统中提取日志信息,通过构造频繁模式树得到日志信息中包含的操作行为的支持度,将支持度不小于最小支持度阈值的操作行为集提取出来,组成操作行为的频繁项集;
S22,在操作行为的频繁项集中,判断置信度不小于最小置信度阈值的操作行为,生成操作行为的强关联规则。
其中较优地,在步骤S3中,所述通过新的行为模式库对操作行为进行处理包括通过新的行为模式库对操作行为进行分析以及通过新的行为模式库对操作行为进行预测。
其中较优地,在步骤S3中,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行分析包括如下步骤:
S311,对用户行为模式库进行变换,得到多维数据立方体;
S312,根据不同任务的需要,对得到的多维数据立方体进行OLAP操作,通过分割多维数据立方体得到针对不同任务需要的新的行为模式库;
S313,对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库进行模式比较,获得当前操作员异常操作,并提供给用户。
其中较优地,在步骤S313中,对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库进行模式比较包括如下步骤:
S3131,将操作员正常行为模式库中所有操作行为的属性之后增加频率属性,并将其设置为0;
S3132,将当前行为模式库中的一条操作行为与操作员正常行为模式库中的操作行为逐条进行比较,当当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为匹配时,操作员正常行为模式库中匹配的操作行为的频率属性增加1,否则,该当前行为模式库中的操作行为为异常操作,将其标注出来;
S3133,按照频率属性由大到小的顺序对操作员正常行为模式库中的操作行为进行排序;
S3134,当前行为模式库中的下一条操作行为依次与操作员正常行为模式库中的操作行为进行比较;以此类推,直至当前行为模式库中的操作行为全部比较完毕为止。
其中较优地,在步骤S313中,对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库进行模式比较还包括如下步骤:
S3135,将标注出来的所有异常操作显示给用户,统一进行处理。
其中较优地,在步骤S3中,所述通过新的行为模式库对操作行为进行预测包括如下步骤:
S321,获取用户当前操作行为;
S322,将用户当前操作行为与新的行为模式库中操作员正常行为模式库进行模式比较,在操作员正常行为模式库中找到包含用户当前操作行为的特定操作行为,该一项或者多项特定操作行为包含用户当前操作行为的所有操作;
S323,根据获得的特定操作行为,得出用户当前操作行为的后续正常操作,并返回给用户。
本发明所提供的基于分布式日志分析的行为模式处理方法,根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行分割,通过对分割后形成的新的行为模式库中,当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为进行比较,实现对操作行为的分析,可以有效地判断异常操作,并对其进行及时的处理。除此之外,还可以通过当前行为与新的行为模式库中操作员正常行为模式库进行模式比较,对用户当前操作行为的后续正常操作进行预测,不仅为用户行为操作提供了便利,而且提高了电力系统的操作处理效率,能有效地满足电力系统及时、高效的运行要求。
附图说明
图1为本发明提供的基于分布式日志分析的行为模式处理方法的流程图;
图2为本发明中,基于分布式日志分析的行为模式分析方法的流程图;
图3为本发明中,基于模式比较算法对前行为模式库中的操作行为进行分析的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
如图1所示,本发明提供的基于分布式日志分析的行为模式处理方法,具体包括如下步骤:首先通过基于syslog(系统日志)方式的日志扫描抓取技术获取电力系统的日志信息,将获取的日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中;然后对日志信息进行分析,挖掘出操作行为之间的强关联规则,构建用户行为模式库;最后根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行OLAP(联机分析处理)操作,构建新的行为模式库,通过新的行为模式库对操作行为进行处理。下面对这一过程做详细具体的说明。
S1,通过基于syslog方式的日志扫描抓取方法获取电力系统的日志信息,然后将获取的日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中。
日志采集技术是日志分析的关键技术之一。日志采集技术需要采集各种安全设备、应用系统等日志信息,为上层的事件分析工作提供数据来源,因此日志采集过程是系统进行检测和决策的基础,它的准确性、可靠性及其效率直接影响到整个系统的性能。
在本发明所提供的实施例中,基于syslog方式的日志扫描抓取方法采用应用于系统日志扫描抓取的网络爬虫系统来实时扫描并抓取系统日志,为后续的行为模式处理做准备。网络爬虫(Spider)是指遵循HTTP协议,根据其中的超链接以及Web页面文档之间的索引关系来遍历信息空间的软件程序。通过网络爬虫系统实现日志信息的获取日志信息具体包括如下步骤:
S11,种子管理模块分布在电力系统各节点上,将位于该节点上的各个种子模块抓取的日志数据进行选取合并,得到本节点的各类日志信息。
S12,将抓取模块分布在电力系统一区、二区、三区,对各节点的种子管理模块汇总得到的日志信息进行抓取合并,得到各区的整合数据。
S13,爬虫日志数据信息抽取与统计模块从种子管理模块和抓取模块获得选取合并的各类日志信息,从抓取日志信息的节点获得抓取记录数据,经过分析得到日志信息的合并抓取策略,可以根据需要及时对合并抓取策略进行调整。
爬虫日志数据信息抽取与统计模块起到调整抓取策略的作用,一方面获得种子管理模块和抓取模块选取合并的日志信息,另一方面从抓取日志信息的节点获得抓取记录数据,通过分析这些信息,得到整个爬虫系统的合并抓取策略,当遇到系统问题时,可以根据需要及时针对发生的问题涉及的日志种类对合并抓取策略进行相应的调整,使系统中的种子管理模块和抓取模块只抓取与问题相关的日志信息,减少了日志信息处理的数量与时间,提高了运维的效率。
获取日志信息之后,将获取的日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中,为下一步日志分析提供数据源。根据电力系统的实际需要,分析的日志信息主要是用户行为日志,包括操作行为、操作时间和操作地点,用于行为模式的挖掘分析,主要对运行人员的操作数据进行建模分析。日志信息通过爬虫技术抓取并利用flume以批量、定时的方式发送到分布式存储系统中。flume是一种分布式日志搜集、运输工具。它以Agent为基本单元,包含数据接收端、发送端、通道,是具有高扩展性和高自由度的分布式工具,不但可以搜集非结构化的文本文件,也可以搜集非结构化的视频、音频等文件。将获取的日志信息通过flume以批量、定时的方式发送到分布式存储系统中,为便于后续的集中分析处理。
S2,对日志信息进行分析,挖掘出操作行为之间的强关联规则,构建用户行为模式库。
在本发明所提供的实施例中,使用FP-Growth算法挖掘出操作行为之间的强关联规则,构建用户行为模式库。FP-Growth算法中使用了一种称为频繁模式树(FP-Tree)的数据结构。FP-Tree是将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。
使用FP-Growth算法挖掘出操作行为之间的强关联规则具体包括如下步骤:
S21,从分布式存储系统中提取日志信息,通过构造频繁模式树得到日志信息中包含的操作行为的支持度,通过与最小支持度阈值进行比较,将支持度不小于最小支持度阈值的操作行为集提取出来,组成操作行为的频繁项集。
S22,在操作行为的频繁项集中,判断置信度不小于最小置信度阈值的操作行为,生成操作行为的强关联规则。
其中,最小支持度阈值和最小置信度阈值是根据电力系统的运行需求进行设定的。根据最小支持度阈值,找出操作行为集的频繁项集,再根据最小置信度,在频繁项集中,寻找置信度不小于最小置信度阈值的操作行为的强关联规则,该操作行为的强关联规则反映了操作员常用的操作行为集。
当电力系统发生故障或者特殊的安全需求需要对某一时间段或者某些地域的操作行为进行分析时,可以将该段时间或者该地域抓取的日志信息提取出来,通过步骤S21~S22生成该段时间或者该地域的操作行为的强关联规则。在本发明所提供的实施例中,由历史抓取的日志信息进行挖掘得到的操作行为的强关联规则,组成操作员正常行为模式库,该操作员正常行为模式库反映了操作员正常的操作行为。而由某一时间段或者某些地域抓取的需要进行分析的日志信息进行挖掘得到的操作行为的强关联规则,组成当前行为模式库,当前行为模式库中是待分析的操作行为。操作员正常行为模式库和当前行为模式库共同组成用户行为模式库。
S3,根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行处理。
电力系统每时每刻都在产生日志信息,由此挖掘生成的正常行为模式库也是巨大的。为了完成操作员行为模式的分析,用户常常需要关注某区域或某重点属性的行为是否违规。比如某地域操作员的行为模式,某时间区域内操作员的行为模式,或某合闸操作的行为模式。这就需要将用户行为模式中某属性的行为切割出来,构建新的行为模式库,从而满足对该属性的操作行为的跟踪、处理。
在本发明所提供的实施例中,通过新的行为模式库对操作行为进行处理包括通过新的行为模式库对某一时间段或者某些地域操作行为进行分析以及对某些操作行为的后续操作行为进行预测。如图2所示,为基于分布式日志分析的行为模式分析方法的流程图,根据电力系统运行状况,确定需要特别关注的行为模式属性,根据确定的行为模式属性,采用OLAP(联机分析处理)操作分别对操作员正常行为模式库和当前行为模式库进行切割,得到新的行为模式库。通过对新的行为模式库中操作员正常行为模式库和当前行为模式库进行分析对比,可以对当前行为模式库中的操作行为进行判断。其中,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行分析包括如下步骤:
S311,对用户行为模式库进行变换,得到多维数据立方体。
在得到用户行为模式库之后,运用数据仓库的相关技术,对用户行为模式库进行逻辑上的建模,构建基于统计分析的数据仓库。将用户行为模式库中的日志信息以分割属性为维度进行分割,得到多维数据立方体。在本发明所提供的实施例中,分割属性包括操作时间、操作地点以及各个操作行为的行为模式属性。
S312,根据不同任务的需要,对得到的多维数据立方体进行OLAP(联机分析处理)操作,得到针对不同任务需要的新的行为模式库。
根据用户的不同任务需求,对得到的多维数据立方体利用OLAP操作将用户所需的特定属性的行为模式分割出来,构建新的行为模式库提供给用户。OLAP是一种数据仓库分析技术,可以用于各种粒度的多维数据分析。在本发明所提供的实施例中,它可以根据不同的任务需求为不同的用户提供简化维度的新的行为模式库。OLAP主要有以下操作:切片、切块操作和上卷、下钻操作以及转轴操作。它可以在不同的抽象层提供数据,从而满足不同的任务需求。
在本发明所提供的实施例中,按照不同的任务需求,对得到的多维数据立方体进行分割,将特定的子模式库分割出来作为新的行为模式库。OLAP切块操作是在给定的多维数据立方体中对两个或多个维进行选择,得出子数据立方体。比如选择时间为10:00,ip地址在202.204.100.101,可以通过切块操作得出子数据立方体,此子数据立方体代表时间维度为10:00,地域维度为ip地址在202.204.100.101的所有操作行为的行为模式构成的一个多维数据立方体。根据不同需求,还可以进一步固定维度项,挑选仅包含一个行为模式属性的单维度数据立方体,用于操作行为的分析判断。OLAP上卷操作是通过一个维的概念分成向上攀升,在数据立方体上进行聚集。而下钻是上卷的逆操作,由概括的数据过渡到更详细的数据。上卷和下钻操作主要用于提高用户的工作效率。上卷操作可以缩小用户使用的行为模式库容量,便于检查异常操作。当在202.204.100.*网段出现异常时,用户再对该网段进行下钻操作,获得更详细的ip地址信息,进行分析比较,判定异常操作出现的具体ip地址,便于集中处理。
S313,对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库进行模式比较,获得当前操作员异常操作或违规操作,并提供给用户。
在本发明所提供的实施例中,新的行为模式库中包含操作员正常行为模式库和当前行为模式库,在得到适合于不同任务需要的操作员正常行为模式库和当前行为模式库后,通过将当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为进行比较分析,可以判断当前操作行为的异常。进而对其进行及时的处理。其中,如图3所示,将当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为进行比较分析,采用基于频率特征的方法来提高模式比较算法的效率。即在所有操作行为的属性之后增加频率属性,反映比较过程中,比较成功的行为模式出现的次数,通过将高出现频率的行为模式前移,来减少比较的次数,进而提高比较算法的效率。包括如下步骤:
S3131,将操作员正常行为模式库中所有操作行为的属性之后增加频率属性,并将其设置为0。
S3132,将当前行为模式库中的一条操作行为与操作员正常行为模式库中的操作行为逐条进行比较,当当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为匹配时,将操作员正常行为模式库中匹配的操作行为的频率属性增加1,当当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为均不匹配时,该当前行为模式库中的操作行为为异常操作,将其标注出来。
S3133,按照频率属性由大到小的顺序对操作员正常行为模式库中的操作行为进行排序。
在本发明所提供的实施例中,当当前行为模式库中的操作行为与操作员正常行为模式库中的某条操作行为匹配时,操作员正常行为模式库中的此条操作行为的频率属性会发生变化,频率属性的属性值越大,说明该条操作行为发生的概率越高,当下次将当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为进行比较时,对其进行优先比较,可以增加匹配的可能性,能有效地降低运算量,提高了比较算法的效率。
S3134,当前行为模式库中的下一条操作行为依次与操作员正常行为模式库中的操作行为进行比较;以此类推,直至当前行为模式库中的操作行为全部比较完毕为止。
S3135,将标注出来的所有异常操作显示给用户,统一进行处理。
除此之外,本发明所提供的基于分布式日志分析的行为模式处理方法还可以为操作行为提供预测提示,以帮助用户在最短的时间内做出正确的操作行为,不仅为用户行为操作提供了便利,而且提高了电力系统的操作处理效率。其中,通过新的行为模式库对操作行为进行预测包括如下步骤:
S321,获取用户当前操作行为。
S322,将用户当前操作行为与新的行为模式库中操作员正常行为模式库进行模式比较,在操作员正常行为模式库中找到包含用户当前操作行为的特定操作行为。该一项或者多项特定操作行为包含用户当前操作行为的所有操作。
S323,根据获得的特定操作行为,得出用户当前操作行为的后续正常操作,并返回给用户。
综上所述,本发明所提供的基于分布式日志分析的行为模式处理方法,通过获取电力系统的日志信息,并将日志信息逐条序列化输出到分布式存储系统中,然后对日志信息进行分析,挖掘出操作行为之间的强关联规则,构建用户行为模式库;根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行分割,通过对分割后形成的新的行为模式库中,当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为进行比较,实现对操作行为的分析,可以有效地判断异常操作,并对其进行及时的处理。除此之外,还可以通过当前行为与新的行为模式库中操作员正常行为模式库进行模式比较,找到用户当前操作行为所属的操作员正常行为模式库中的操作行为,得出用户当前操作行为的后续正常操作,不仅为用户行为操作提供了便利,而且提高了电力系统的操作处理效率。
以上对本发明所提供的基于分布式日志分析的行为模式处理方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (7)
1.一种基于分布式日志分析的行为模式处理方法,其特征在于包括如下步骤:
S1,获取电力系统的日志信息,并将日志信息逐条序列化输出到分布式存储系统中;
S2,对日志信息进行分析,挖掘出操作行为之间的强关联规则,构建用户行为模式库;
S3,根据电力系统运行状况,确定需要特别关注的行为模式属性,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行处理;其中,通过新的行为模式库对操作行为进行处理为对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库采用基于频率特征的方法进行模式比较,获得当前操作员异常操作或违规操作;包括如下步骤:
S3131,将操作员正常行为模式库中所有操作行为的属性之后增加频率属性,并将其设置为0;
S3132,将当前行为模式库中的一条操作行为与操作员正常行为模式库中的操作行为逐条进行比较,当当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为匹配时,操作员正常行为模式库中匹配的操作行为的频率属性增加1,否则,该当前行为模式库中的操作行为为异常操作,将其标注出来;
S3133,按照频率属性由大到小的顺序对操作员正常行为模式库中的操作行为进行排序;当下次将当前行为模式库中的操作行为与操作员正常行为模式库中的操作行为进行比较时,对其进行优先比较;
S3134,当前行为模式库中的下一条操作行为依次与操作员正常行为模式库中的操作行为进行比较;以此类推,直至当前行为模式库中的操作行为全部比较完毕为止。
2.如权利要求1所述的行为模式处理方法,其特征在于:
所述用户行为模式库包括操作员正常行为模式库和当前行为模式库。
3.如权利要求1所述的行为模式处理方法,其特征在于在步骤S2中,所述挖掘出操作行为之间的强关联规则包括如下步骤:
S21,从分布式存储系统中提取日志信息,通过构造FP-Tree得到日志信息中包含的操作行为的支持度,将支持度不小于最小支持度阈值的操作行为集提取出来,组成操作行为的频繁项集;
S22,在操作行为的频繁项集中,判断置信度不小于最小置信度阈值的操作行为,生成操作行为的强关联规则。
4.如权利要求1所述的行为模式处理方法,其特征在于在:
在步骤S3中,所述通过新的行为模式库对操作行为进行处理包括通过新的行为模式库对操作行为进行分析以及通过新的行为模式库对操作行为进行预测。
5.如权利要求1、2或4所述的模式处理方法,其特征在于在步骤S3中,对用户行为模式库进行切割,构建新的行为模式库,通过新的行为模式库对操作行为进行分析包括如下步骤:
S311,对用户行为模式库进行变换,将用户行为模式库中的日志信息以分割属性为维度进行分割,得到多维数据立方体;在得到用户行为模式库之后,运用数据仓库的相关技术,对用户行为模式库进行逻辑上的建模,构建基于统计分析的数据仓库;
S312,根据不同任务的需要,对得到的多维数据立方体进行OLAP操作,通过分割多维数据立方体得到针对不同任务需要的新的行为模式库;
S313,对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库进行模式比较,获得当前操作员异常操作,并提供给用户。
6.如权利要求1所述的模式处理方法,其特征在于在步骤S313中,对得到的新的行为模式库中操作员正常行为模式库和当前行为模式库进行模式比较还包括如下步骤:
S3135,将标注出来的所有异常操作显示给用户,统一进行处理。
7.如权利要求1或4所述的模式处理方法,其特征在于在步骤S3中,所述通过新的行为模式库对操作行为进行预测包括如下步骤:
S321,获取用户当前操作行为;
S322,将用户当前操作行为与新的行为模式库中操作员正常行为模式库进行模式比较,在操作员正常行为模式库中找到包含用户当前操作行为的特定操作行为,该一项或者多项特定操作行为包含用户当前操作行为的所有操作;
S323,根据获得的特定操作行为,得出用户当前操作行为的后续正常操作,并返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783743.0A CN104616092B (zh) | 2014-12-16 | 2014-12-16 | 一种基于分布式日志分析的行为模式处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783743.0A CN104616092B (zh) | 2014-12-16 | 2014-12-16 | 一种基于分布式日志分析的行为模式处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104616092A CN104616092A (zh) | 2015-05-13 |
CN104616092B true CN104616092B (zh) | 2019-10-25 |
Family
ID=53150528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410783743.0A Expired - Fee Related CN104616092B (zh) | 2014-12-16 | 2014-12-16 | 一种基于分布式日志分析的行为模式处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104616092B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468737A (zh) * | 2015-11-24 | 2016-04-06 | 湖北大学 | 一种网络服务大数据分析方法、云计算平台及挖掘系统 |
CN106815274B (zh) * | 2015-12-02 | 2022-02-18 | 中兴通讯股份有限公司 | 基于Hadoop的日志数据挖掘方法及系统 |
CN105844176B (zh) * | 2016-03-23 | 2019-05-14 | 上海上讯信息技术股份有限公司 | 安全策略生成方法及设备 |
CN106487592B (zh) * | 2016-10-21 | 2019-09-27 | 国家计算机网络与信息安全管理中心 | 一种基于数据立方体的分布式系统故障诊断方法 |
CN106651606B (zh) * | 2016-11-29 | 2021-02-05 | 河南科技大学 | 一种多媒体社交网络用户行为模式发现方法 |
CN106951510A (zh) * | 2017-03-17 | 2017-07-14 | 福州大学 | 基于bide算法与最长公共子序列的序列型数据同一鉴定系统及方法 |
CN107276980A (zh) * | 2017-05-02 | 2017-10-20 | 广东电网有限责任公司信息中心 | 一种基于关联分析的用户异常行为检测方法及系统 |
CN108345959A (zh) * | 2018-01-11 | 2018-07-31 | 佛山市顺德区中山大学研究院 | 一种基于移动互联网技术的小区门禁报警预测方法 |
CN108510165A (zh) * | 2018-03-16 | 2018-09-07 | 电子科技大学 | 一种用于用户用电行为的分析方法 |
CN109344042B (zh) * | 2018-08-22 | 2022-02-18 | 北京中测安华科技有限公司 | 异常操作行为的识别方法、装置、设备及介质 |
CN109446816A (zh) * | 2018-10-18 | 2019-03-08 | 中电科大数据研究院有限公司 | 一种基于大数据平台审计日志的用户行为分析方法 |
CN109685399B (zh) * | 2019-02-19 | 2022-09-09 | 贵州电网有限责任公司 | 电力系统日志整合分析方法及系统 |
CN111027023B (zh) * | 2019-12-11 | 2022-07-08 | 重庆锐云科技有限公司 | 一种基于频繁分析的房产在线开盘检测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957570A (zh) * | 2011-08-19 | 2013-03-06 | 句容今太科技园有限公司 | 基于异常检测的关联模式挖掘系统 |
-
2014
- 2014-12-16 CN CN201410783743.0A patent/CN104616092B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957570A (zh) * | 2011-08-19 | 2013-03-06 | 句容今太科技园有限公司 | 基于异常检测的关联模式挖掘系统 |
Non-Patent Citations (3)
Title |
---|
"基于Web的电力系统自适应安全事件管理设计";马茜;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20080415;第C042-144页(正文第25-46页) * |
"基于层次聚类的日志分析技术研究";薛文娟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130815;第I139-69页(正文第5-10、25-31页) * |
"应用多维数据立方体开采Web日志的多维关联规则";胡和平 等;《计算机应用研究》;19991031(第10期);第35-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104616092A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104616092B (zh) | 一种基于分布式日志分析的行为模式处理方法 | |
CN106557991B (zh) | 电压监测数据平台 | |
CN106504116B (zh) | 基于电网运行与暂态稳定裕度指标关联的稳定评估方法 | |
CN102130783B (zh) | 神经网络的智能化告警监控方法 | |
CN101452469B (zh) | 基于攻击模式的软件安全缺陷库系统及其管理方法 | |
CN102881125B (zh) | 基于多信息融合集中处理平台的报警监控系统 | |
CN106019084A (zh) | 基于配用电数据关联的中压配电网断线故障诊断方法 | |
CN106780115A (zh) | 异常用电监测与定位系统及方法 | |
CN106600115A (zh) | 一种企业信息系统运维智能分析方法 | |
CN105608519A (zh) | 一种电网通信设备运行状态的预测算法 | |
CN103825755A (zh) | 电力二次系统的建模方法与系统 | |
CN103559562A (zh) | 电网智能运行系统及其实现方法 | |
CN103902816A (zh) | 基于数据挖掘技术的带电检测数据处理方法 | |
CN113189451A (zh) | 配电网故障定位研判方法、系统、计算机设备和存储介质 | |
CN107577771A (zh) | 一种大数据挖掘系统 | |
CN105184394A (zh) | 基于配电网cps在线数据挖掘的优化控制方法 | |
CN112785108A (zh) | 一种基于调控云的电网运行数据关联分析方法及系统 | |
CN102243628A (zh) | 成矿案例推理模型与方法 | |
CN106789347B (zh) | 一种基于告警数据实现告警关联和网络故障诊断的方法 | |
CN107453354A (zh) | 一种配电网的薄弱环节识别方法 | |
CN113362024A (zh) | 一种基于区块链的应用程序开发多模块协同系统 | |
CN115544519A (zh) | 对计量自动化系统威胁情报进行安全性关联分析的方法 | |
Baembitov et al. | Fast extraction and characterization of fundamental frequency events from a large PMU dataset using big data analytics | |
CN115409264A (zh) | 基于馈线故障预测的配电网抢修驻点位置优化方法 | |
CN103942240B (zh) | 一种智能变电站综合数据信息应用平台的建设方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191025 Termination date: 20211216 |
|
CF01 | Termination of patent right due to non-payment of annual fee |