CN112383544B - 适用于电力scada的基于业务行为画像的反爬虫方法 - Google Patents
适用于电力scada的基于业务行为画像的反爬虫方法 Download PDFInfo
- Publication number
- CN112383544B CN112383544B CN202011267678.8A CN202011267678A CN112383544B CN 112383544 B CN112383544 B CN 112383544B CN 202011267678 A CN202011267678 A CN 202011267678A CN 112383544 B CN112383544 B CN 112383544B
- Authority
- CN
- China
- Prior art keywords
- request
- service
- scada system
- normal
- crawler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006399 behavior Effects 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012423 maintenance Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了适用于电力SCADA的基于业务行为画像的反爬虫方法,对电力SCADA系统的正常业务行为所产生的数据流量进行分析,形成对应不同正常业务行为的画像,其中,正常业务行为画像中包含对应正常业务行为的相似度,正常行为的相似度基于电力SCADA系统被正常操作时产生的请求方式、请求间隔、数据包生成速率、数据包格式、请求时间分布、上下文请求逻辑关系、差错等待时间、数据包连续流量总和生成;然后服务器端接收到客户端发送的访问页面的请求流量后,匹配该访问流量对应的正常业务行为画像;基于该访问流量对应的正常业务行为画像中的相似度,判定该访问流量是否为正常业务行为,如果不是,则判定为爬虫行为,进行反爬虫处理。
Description
技术领域
本发明属于网络技术领域,具体涉及适用于电力SCADA的基于业务行为画像的反爬虫方法。
背景技术
电力SCADA(Supervisory Control And Data Acquisition)系统,即数据采集与监视控制系统,是以计算机为基础的自动化监控系统,是火电厂、水电站、风电场、光伏电站负责对现场的运行设备进行监视和控制,以实现数据采集、设备控制、测量、参数调节以及各类信号报警等各项功能的信息化系统。
网络爬虫是从信息系统中的一个或若干初始化网页开始,逐步访问信息系统中各个网页,并将网页中所需要的数据抓取下来保存的程序。
随着网络爬虫技术的普及,越来越多的电厂员工、运维人员开始自行编写爬虫程序,从电力SCADA系统中大量爬取需要的机组状态、发电量、报警信息、电压电流等数据,给系统服务器造成了极大的负载,对系统的安全、稳定运行带来了严重的影响,不利于电力生产安全,因此,需要及时发现爬虫行为,然后进行处置。
现有的反爬虫技术,主要通过对爬虫程序发出的服务器数据请求包中Header头的特定字段,如UA(User-Agent,用户代理)、Host(来源主机IP)、Cookie、Referer(引用IP)等进行识别,判断当前的访问不是由人员正常发起,而是由自动化程序发起,但由于Header头很容易被伪造,因此,程序可以通过构造伪造的字段信息,绕过检测行为。为此,现有的增强性的反爬虫技术,会将请求间隔时间、并发数量等作为识别参数,进一步提高反爬虫的能力,但仍存在爬虫程序可以通过降低爬取速率、提高爬取间隔时间、减少并发数量等方式进行绕过,使反爬虫功能失效。
因此,需要结合电力SCADA系统实际业务特点,提出一种针对电力SCADA系统的反爬虫方法。
电力SCADA系统和传统的互联网应用系统存在很大的不同,后者面向不同人群的不同业务需求,操作方式、行为模式差别很大,但不同电厂的电力SCADA系统的操作都围绕着电力生产、检修、运行控制等业务进行,所有系统只有运行人员能够操作,运行人员由固定班次的人员组成,对系统的操作存在一些规律性的特征,如操作时间相对固定、操作方式只有查询和下发指令、操作页面相对固定、操作频率相对固定……电力SCADA系统运行产生的流量数据会产生明显的人为特征,正好与爬虫程序的固定模式形成鲜明对比,因此,通过对电力SCADA系统的流量数据进行行为画像,形成正常业务行为的画像,就能很好的区别出爬虫行为,并进行处置。
发明内容
本发明的目的在于提供适用于电力SCADA的基于业务行为画像的反爬虫方法,能有效识别电力SCADA系统的爬虫访问行为,并进行反爬虫处理。
为实现上述发明目的,本发明采用如下技术方案:
适用于电力SCADA的基于业务行为画像的反爬虫方法,该方法包括:
对电力SCADA系统的正常业务行为所产生的数据流量进行分析,形成对应不同正常业务行为的画像,其中,所述的正常业务行为画像中包含对应正常业务行为的相似度,所述正常业务行为的相似度基于电力SCADA系统被正常操作时产生的请求方式、请求间隔、数据包生成速率、数据包格式、请求时间分布、上下文请求逻辑关系、差错等待时间、数据包连续流量总和生成;所述相似度与正常业务行为画像一一对应;
服务器端接收到客户端发送的访问页面的请求流量后,匹配该访问流量对应的正常业务行为画像;基于该访问流量对应的正常业务行为画像中的相似度,判定该访问流量是否为正常业务行为,如果不是,则判定为爬虫行为,进行反爬虫处理。
综上所述,本发明提供的反爬虫的方法,对电力SCADA系统的正常业务行为所产生的数据流量进行分析,形成对应不同正常业务行为的画像;服务器端接收到客户端发送的访问页面的请求流量后,匹配该访问流量对应的正常业务行为画像;基于该访问流量对应的正常业务行为画像中的相似度,判定该访问流量是否为正常业务行为,如果不是,则判定为爬虫行为,进行反爬虫处理。由此可见,本发明为防止爬虫影响正常用户访问电力SCADA系统,将电力SCADA系统正常业务行为进行了画像,分为5种正常业务行为,更符合电力SCADA系统的实际情况,然后对访问服务器的流量进行画像匹配,从而区分当前的访问流量是否人员正常操作业务产生的流量,对不匹配的判定为爬虫行为,进行反爬虫处理。因此,应用本发明后,有效提高电力SCADA系统的反爬虫能力,降低服务器的压力,保证电力生产的安全,并且正常用户的访问也不会受到影响。
附图说明
图1是本发明实施例反爬虫方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案做进一步地详细说明。
实施例
本发明实施例公开了适用于电力SCADA的基于业务行为画像的反爬虫方法,包括以下步骤,流程示意图如图1所示。
S01:对电力SCADA系统的正常业务行为所产生的数据流量进行分析,形成对应不同正常业务行为的画像,其中,所述的正常业务行为画像中包含对应正常业务行为的相似度,所述正常业务行为的相似度基于电力SCADA系统被正常操作时产生的请求方式、请求间隔、数据包生成速率、数据包格式、请求时间分布、上下文请求逻辑关系、差错等待时间、数据包连续流量总和生成;所述相似度与正常业务行为画像一一对应。
下面简单介绍一下本发明对电力SCADA系统的正常业务行为进行区分的方法。
对电力SCADA系统的正常业务行为进行分类,分为:查询业务、指令下发业务、应急处置业务、维护业务、空闲业务;
其中,区分查询业务的方法包括:通过电力SCADA系统不定期向服务器发起的只涉及发起查询请求,服务器返回查询结果的业务;区分指令下发业务的方法包括:通过电力SCADA系统不定期、低频次向服务器发起执行某种操作的请求,服务器将请求转发到其他设备执行,然后把执行结果返回给电力SCADA系统的业务;区分应急处置业务的方法包括:通过电力SCADA系统不定期、高频次向服务器发起执行某种操作的请求,服务器将请求转发到其他设备执行,然后将执行结果返回给电力SCADA系统的业务;区分维护业务的方法包括:电力SCADA系统定期、高频次向服务器发起包括查询、执行某种操作的请求,然后将执行结果返回给电力SCADA系统的业务;区分空闲业务的方法包括:电力SCADA系统N秒(N为10~100秒)内未被执行任何操作的业务。
S02:服务器端接收到客户端发送的访问页面的请求流量后,匹配该访问流量对应的正常业务行为画像。
下面介绍本发明对访问页面的请求流量进行画像匹配的方法:
对请求流量进行相似度计算,相似度基于数据请求方式、请求间隔、数据包生成速率、数据包格式、请求时间分布、上下文请求逻辑关系、差错等待时间、数据包连续流量总和生成,生成的数值与正常业务行为相似度进行比较,当偏差在±5%时,作为匹配成功的依据。
S03:基于该访问流量对应的正常业务行为画像中的相似度,判定该访问流量是否为正常业务行为,如果不是,则判定为爬虫行为,进行反爬虫处理。反爬虫处理包括如下方式中至少之一:
将该访问流量视为爬虫流量进行丢弃;
将该访问流量记录到日志,不丢弃;
对该访问流量进行速率限制;
综上,本发明的有益效果在于:
一、本发明专门针对火电厂、水电站、风电场、光伏电站的电力SCADA系统的运行特点,从“人的行为”角度出发,将电力SCADA系统的正常业务行为进行了画像,然后对访问流量进行相似度匹配,有效地区分出爬虫这种自动化程序的行为和正常业务行为之间的差别,并进行针对性的反爬虫处理。避免了现有的反爬虫技术容易被爬虫程序通过构造各类参数,绕过反爬虫功能的问题。
二、通过与电力SCADA系统正常业务行为画像进行匹配,正常用户的访问流量与画像能够匹配,能够避免影响正常用户对电力SCADA系统的访问。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.适用于电力SCADA的基于业务行为画像的反爬虫方法,其特征在于,包括:
对电力SCADA系统的正常业务行为所产生的数据流量进行分析,形成对应不同正常业务行为的画像,其中,所述的正常业务行为画像中包含对应正常业务行为的相似度,所述正常业务行为的相似度基于电力SCADA系统被正常操作时产生的请求方式、请求间隔、数据包生成速率、数据包格式、请求时间分布、上下文请求逻辑关系、差错等待时间、数据包连续流量总和生成;所述相似度与正常业务行为画像一一对应;
服务器端接收到客户端发送的访问页面的请求流量后,匹配该访问流量对应的正常业务行为画像;基于该访问流量对应的正常业务行为画像中的相似度,判定该访问流量是否为正常业务行为,如果不是,则判定为爬虫行为,进行反爬虫处理。
2.如权利要求1所述的方法,其特征在于,对电力SCADA系统的正常业务行为进行区分的方法包括:
对电力SCADA系统的正常业务行为进行分类并区分,分类包括:查询业务、指令下发业务、应急处置业务、维护业务和空闲业务;
其中,区分查询业务的方法包括:通过电力SCADA系统不定期向服务器发起的只涉及发起查询请求,服务器返回查询结果的业务;区分指令下发业务的方法包括:通过电力SCADA系统不定期、低频次向服务器发起执行某种操作的请求,服务器将请求转发到其他设备执行,然后把执行结果返回给电力SCADA系统的业务;区分应急处置业务的方法包括:通过电力SCADA系统不定期、高频次向服务器发起执行某种操作的请求,服务器将请求转发到其他设备执行,然后将执行结果返回给电力SCADA系统的业务;区分维护业务的方法包括:电力SCADA系统定期、高频次向服务器发起包括查询、执行某种操作的请求,然后将执行结果返回给电力SCADA系统的业务;区分空闲业务的方法包括:电力SCADA系统N秒内未被执行任何操作的业务,其中,N为10~100秒。
3.如权利要求1所述的方法,其特征在于,服务器端接收到客户端发送的访问页面的请求流量后,匹配该访问流量对应的正常业务行为画像的方法包括:
所述访问流量的相似度基于数据请求方式、请求间隔、数据包生成速率、数据包格式、请求时间分布、上下文请求逻辑关系、差错等待时间、数据包连续流量总和生成,生成的数值与正常业务行为相似度进行比较,当偏差在±5%时,作为匹配成功的依据。
4.如权利要求1所述的方法,其中,该反爬虫处理包括如下方式中至少之一:
将该访问流量视为爬虫流量进行丢弃;
将该访问流量记录到日志,不丢弃;
对该访问流量进行速率限制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011267678.8A CN112383544B (zh) | 2020-11-13 | 2020-11-13 | 适用于电力scada的基于业务行为画像的反爬虫方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011267678.8A CN112383544B (zh) | 2020-11-13 | 2020-11-13 | 适用于电力scada的基于业务行为画像的反爬虫方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112383544A CN112383544A (zh) | 2021-02-19 |
CN112383544B true CN112383544B (zh) | 2023-03-24 |
Family
ID=74583840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011267678.8A Active CN112383544B (zh) | 2020-11-13 | 2020-11-13 | 适用于电力scada的基于业务行为画像的反爬虫方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112383544B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107666649A (zh) * | 2016-12-29 | 2018-02-06 | 平安科技(深圳)有限公司 | 个人财产状态评估方法及装置 |
CN109615432A (zh) * | 2018-12-14 | 2019-04-12 | 成都德迈安科技有限公司 | 基于大数据的消费者行为画像工具 |
CN111831881A (zh) * | 2020-07-04 | 2020-10-27 | 西安交通大学 | 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070095718A (ko) * | 2006-03-22 | 2007-10-01 | 한국전자통신연구원 | 유형별 트래픽 특성 분류를 통한 인터넷 웜 트래픽 탐지시스템 및 방법 |
US9043919B2 (en) * | 2008-10-21 | 2015-05-26 | Lookout, Inc. | Crawling multiple markets and correlating |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN107707574A (zh) * | 2017-11-23 | 2018-02-16 | 四川长虹电器股份有限公司 | 一种基于访问行为的反爬虫方法 |
WO2019174040A1 (zh) * | 2018-03-16 | 2019-09-19 | 大连理工大学 | 一种耦合聚类分析和决策树的梯级水电站群短期发电调度方法 |
CN108549727B (zh) * | 2018-05-02 | 2021-11-23 | 上海财经大学 | 基于网络爬虫以及大数据分析的用户获利信息推送方法 |
CN108777687B (zh) * | 2018-06-05 | 2020-04-14 | 掌阅科技股份有限公司 | 基于用户行为画像的爬虫拦截方法、电子设备、存储介质 |
-
2020
- 2020-11-13 CN CN202011267678.8A patent/CN112383544B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107666649A (zh) * | 2016-12-29 | 2018-02-06 | 平安科技(深圳)有限公司 | 个人财产状态评估方法及装置 |
CN109615432A (zh) * | 2018-12-14 | 2019-04-12 | 成都德迈安科技有限公司 | 基于大数据的消费者行为画像工具 |
CN111831881A (zh) * | 2020-07-04 | 2020-10-27 | 西安交通大学 | 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112383544A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109120464B (zh) | 智能变电站二次设备配置信息远程在线管控装置 | |
CN110324323B (zh) | 一种新能源厂站涉网端实时交互过程异常检测方法及系统 | |
CN113162893B (zh) | 基于注意力机制的工业控制系统网络流量异常检测方法 | |
CN113723773B (zh) | 一种基于大数据分析的电能决策系统 | |
CN112866262B (zh) | 一种基于神经网络的电厂安全i区态势感知平台 | |
CN111935189B (zh) | 工控终端策略控制系统及工控终端策略控制方法 | |
CN116257021A (zh) | 一种工控系统智能网络安全态势监测预警平台 | |
CN112383544B (zh) | 适用于电力scada的基于业务行为画像的反爬虫方法 | |
Deng et al. | Intrusion detection method based on support vector machine access of modbus TCP protocol | |
CN116991743A (zh) | 一种基于协议逆向的工控设备黑盒模糊测试方法 | |
CN112866189A (zh) | 基于电力终端攻击行为特征的攻击建模分析方法 | |
CN116361132A (zh) | 一种服务器故障预警方法、装置、设备及存储介质 | |
Wang et al. | Anomaly Detection Method of Unknown Protocol in Power Industrial Control System Based on RNN | |
CN113553588B (zh) | 终端软件管理方法 | |
CN107229525A (zh) | 一种基于Zookeeper的电力系统设备模型关键字生成方法 | |
Yan et al. | Power Grid Adaptive Security Defense System Based on Artificial Intelligence | |
He et al. | Detecting anomalies in distributed control systems by modeling traffic behaviors | |
Wang et al. | Research on Deep Detection Technology of Abnormal Behavior of Power Industrial Control System | |
Peng et al. | Anomaly detection based on multiple streams clustering for train real-time ethernet | |
CN112383545B (zh) | 适用电力scada系统的反爬虫系统、装置及部署方法 | |
Su et al. | Equipment Fault Detection Based on SENCForest | |
Yang et al. | Research on Main-auxiliary Combination Technology of New Generation Smart Substation | |
CN112839053B (zh) | 一种基于自培养的电力工控网络恶意代码防护系统 | |
Sai et al. | Recognition and detection technology for abnormal flow of rebound type remote control Trojan in power monitoring system | |
CN117896121B (zh) | 基于工业网络用户行为学习模型的异常检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |