CN113051559A - 基于分布式深度学习的边缘设备web攻击检测系统及方法 - Google Patents

基于分布式深度学习的边缘设备web攻击检测系统及方法 Download PDF

Info

Publication number
CN113051559A
CN113051559A CN202110302550.9A CN202110302550A CN113051559A CN 113051559 A CN113051559 A CN 113051559A CN 202110302550 A CN202110302550 A CN 202110302550A CN 113051559 A CN113051559 A CN 113051559A
Authority
CN
China
Prior art keywords
data
url data
url
distinguishing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110302550.9A
Other languages
English (en)
Inventor
潘晓光
令狐彬
董虎弟
李娟�
陈智娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202110302550.9A priority Critical patent/CN113051559A/zh
Publication of CN113051559A publication Critical patent/CN113051559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明属于信息安全检测领域,具体涉及一种基于分布式深度学习的边缘设备web攻击检测系统及方法,将服务器中不同格式的URL数据转换为统一的标准形式,并采用CBOW模型将标准化后的URL数据转换为词向量的表示形式;基于多个并存的特征区分模块采用CNN模型对转换为词向量的URL数据进行多次检测,基于多个并存的数据区分模块采用FastText模型对标准化的URL数据进行文本检测;对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;若异常,则将异常URL数据存储到日志库中。本发明采用了多个并发的特征区分模块和数据区分模块分别对每条URL数据进行检测,可以减少漏报的数据数量,可以在一定程度上保护深度学习免受攻击。

Description

基于分布式深度学习的边缘设备web攻击检测系统及方法
技术领域
本发明属于信息安全检测领域,具体涉及一种基于分布式深度学习的边缘设备web攻击检测系统及方法。
背景技术
随着物联网和云技术的快速发展,众多物联网设备和传感器将海量数据传输到云数据中心进行进一步处理。云计算和存储在为我们提供极大便利的同时,也给我们带来了很多安全问题,比如信息收集的滥用,云中的web服务器集中。传统的入侵检测系统和web应用防火墙与新的网络环境越来越不兼容。云物联网系统增加了对web服务器的攻击。
现有技术存在的问题或者缺陷:在云中,常用的入侵检测系统被用来防范web攻击,但它们仍然是可渗透的。因为大多数web应用防火墙依赖于根据已知攻击特征创建的基于正则表达式的过滤器,而且它们需要大量的专家配置。
发明内容
针对上述的技术问题,本发明提供了一种安全性高、可控性强、效率高的基于分布式深度学习的边缘设备web攻击检测系统及方法。
为了解决上述技术问题,本发明采用的技术方案为:
基于分布式深度学习的边缘设备web攻击检测系统,包括:
数据标准化模块,用于将服务器中不同格式的URL数据转换为统一的标准形式;
特征表示模块,用于采用CBOW模型将标准化后的URL数据转换为词向量的表示形式;
多个并存的特征区分模块,用于采用CNN模型对转换为词向量的URL数据进行检测,每个特征区分模块分别对每条URL数据进行检测;
多个并存的数据区分模块,用于采用FastText模型对标准化的URL数据进行文本检测,每个数据区分模块分别对每条URL数据进行文本检测;
统计模块,对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;
日志库,用于存储统计模块统计判断出的异常URL数据。
基于分布式深度学习的边缘设备web攻击检测方法,包括下列步骤:
S1、将服务器中不同格式的URL数据转换为统一的标准形式,并采用CBOW模型将标准化后的URL数据转换为词向量的表示形式;
S2、基于多个并存的特征区分模块采用CNN模型对转换为词向量的URL数据进行多次检测,基于多个并存的数据区分模块采用FastText模型对标准化的URL数据进行文本检测;
S3、对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;若异常,则将异常URL数据存储到日志库中。
所述S1中将服务器中不同格式的URL数据转换为统一的标准形式的方法为:包括下列步骤:
首先定义一组特殊的关键字,包括SQL关键字、HTML关键字和JavaScript关键字;其次根据转换模式将URL数据转换为统一标准的格式,转换模式如下:
将URL数据中所有的路径替换为PaS,替换所有纯数字为Num,替换所有Unicode数据为UN,替换所有Hex数据为HE,替换所有a-z和-组成的字符串为PuS。
所述S2中的CNN模型采用ResNet模型,所述ResNet模型的检测过程如下:
F1(x)=x,F2(x)=pool(x),F3(x)=Relu(Conv(x)),H(x)=(aF1(x)+bF2(x)+cF3(x)),其中,a、b、c是各个分支的影响因素,将与整个网络一起优化。
所述S3中对多个特征区分模块和多个数据区分模块各自得到的结果进行统计的方法为:分别对每条URL数据进行多次检测;若50%的特征区分模块和/或数据区分模块检测的结果是正常,则将该URL数据确定为正常,否则确定为异常;将异常URL数据存储到日志库中,用于后续分析或系统更新。
本发明与现有技术相比,具有的有益效果是:
本发明采用了多个并发的特征区分模块和数据区分模块分别对每条URL数据进行检测,可以减少漏报的数据数量,可以在一定程度上保护深度学习免受攻击;并且系统更新方便,日志库将提供关于异常URL数据的详细信息,有助于发现不可见的攻击,有助于更新系统。
附图说明
图1为本发明实施例一中的系统框图;
图2为本发明实施例一中采用CBOW模型将URL数据标准化的示意图;
图3为本发明实施例一中采用FastText模型对URL数据进行检测的示意图;
图4为本发明实施例一中采用CNN模型对词向量的URL数据进行检测的示意图;
图5为本发明实施例二中的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
基于分布式深度学习的边缘设备web攻击检测系统,如图1、图2、图3、图4所示,包括:
数据标准化模块,用于将服务器中不同格式的URL数据转换为统一的标准形式;具体地,在物联网环境中的分布式节点中,由于服务器的不同配置和语言,对服务器的URL请求具有不同的格式,因此数据标准化模块负责将这些URL转换为相同的表示形式。采用数据标准化模块将URL数据转换为相同的表示形式,具体转换方法如下:
首先定义一组特殊的关键字,包括SQL关键字、HTML关键字和JavaScript关键字;SQL关键字,例如select、update、delete、insert等;HTML关键字,例如doctype、basefont、button等;JavaScript关键字,例如section、source、span、strike等。其次根据转换模式将URL转换为相同的格式,转换模式为:
将URL中所有的路径替换为PaS,例如http://www.example.com/main/index.php被转换为http://www.example.com/PaS/PaS(下述规则同理)。替换所有纯数字为Num,替换所有Unicode数据为UN,替换所有Hex数据为HE,替换所有a-z和-组成的字符串为PuS。
特征表示模块,用于采用CBOW模型将标准化后的URL数据转换为词向量的表示形式;具体地,标准化后的URL数据会进入到数据区分模块和特征表示模块。特征表示模块将标准化后的URL表示为词向量,方法使用CBOW模型,如图2所示。标准化的URL转变为词向量后会输入到特征区分模块中,进行分类。
多个并存的特征区分模块,用于采用CNN模型对转换为词向量的URL数据进行检测,每个特征区分模块分别对每条URL数据进行检测;具体地,特征区分模块接收到来自特征表示模块的词向量,鉴别出正常URL和异常URL。使用ResNet模型,它是一种特殊的CNN,参照图4,ResNet模型流程如下:
F1(x)=x,F2(x)=pool(x),F3(x)=Relu(Conv(x)),H(x)=(aF1(x)+bF2(x)+cF3(x)),其中,a、b、c是各个分支的影响因素,将与整个网络一起优化。
多个并存的数据区分模块,用于采用FastText模型对标准化的URL数据进行文本检测,每个数据区分模块分别对每条URL数据进行文本检测;具体地,参照图3,数据区分模块接收到标准化的URL,使用FastText模型,进行文本分类,鉴别出正常URL和异常URL。
统计模块,对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;日志库,用于存储统计模块统计判断出的异常URL数据。具体地,所述多个特征区分模块和多个数据区分模块并存运行,分别对每条URL数据进行多次检测;若50%的特征区分模块和/或数据区分模块检测的结果是正常,则将该URL数据确定为正常,否则确定为异常;将异常URL数据存储到日志库中,用于后续分析或系统更新。
上述基于分布式深度学习的边缘设备web攻击检测系统,采用了多个并发的特征区分模块和数据区分模块分别对每条URL数据进行检测,可以减少漏报的数据数量,可以在一定程度上保护深度学习免受攻击;并且系统更新方便,日志库将提供关于异常URL数据的详细信息,有助于发现不可见的攻击,有助于更新系统。
实施例二:
如图5所示,一种基于分布式深度学习的边缘设备web攻击检测方法,包括以下步骤:
将服务器中不同格式的URL数据转换为统一的标准形式,并采用CBOW模型将标准化后的URL数据转换为词向量的表示形式。
具体地,在物联网环境中的分布式节点中,由于服务器的不同配置和语言,对服务器的URL请求具有不同的格式,因此数据标准化模块负责将这些URL转换为相同的表示形式。
采用数据标准化模块将URL数据转换为相同的表示形式,具体转换方法如下:
首先定义一组特殊的关键字,包括SQL关键字、HTML关键字和JavaScript关键字;SQL关键字,例如select、update、delete、insert等;HTML关键字,例如doctype、basefont、button等;JavaScript关键字,例如section、source、span、strike等。其次根据转换模式将URL转换为相同的格式,转换模式为:
将URL中所有的路径替换为PaS,例如http://www.example.com/main/index.php被转换为http://www.example.com/PaS/PaS(下述规则同理)。替换所有纯数字为Num,替换所有Unicode数据为UN,替换所有Hex数据为HE,替换所有a-z和-组成的字符串为PuS。
具体地,标准化后的URL数据会进入到数据区分模块和特征表示模块。特征表示模块将标准化后的URL表示为词向量,方法使用CBOW模型,参照图2。标准化的URL转变为词向量后会输入到特征区分模块中,进行分类。
基于多个并存的特征区分模块采用CNN模型对转换为词向量的URL数据进行多次检测,基于多个并存的数据区分模块采用FastText模型对标准化的URL数据进行文本检测。
具体地,特征区分模块接收到来自特征表示模块的词向量,鉴别出正常URL和异常URL。使用ResNet模型,它是一种特殊的CNN,参照图4,ResNet模型流程如下:
F1(x)=x,F2(x)=pool(x),F3(x)=Relu(Conv(x)),H(x)=(aF1(x)+bF2(x)+cF3(x)),其中,a、b、c是各个分支的影响因素,将与整个网络一起优化。
具体地,如图3所示,数据区分模块接收到标准化的URL,使用FastText模型,进行文本分类,鉴别出正常URL和异常URL。
对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;若异常,则将异常URL数据存储到日志库中。
具体地,多个特征区分模块和多个数据区分模块并存运行,分别对每条URL数据进行多次检测;若50%的特征区分模块和/或数据区分模块检测的结果是正常,则将该URL数据确定为正常,否则确定为异常;将异常URL数据存储到日志库中,用于后续分析或系统更新。
上述基于分布式深度学习的边缘设备web攻击检测方法,采用了多个并发的特征区分模块和数据区分模块分别对每条URL数据进行检测,可以减少漏报的数据数量,可以在一定程度上保护深度学习免受攻击;并且系统更新方便,日志库将提供关于异常URL数据的详细信息,有助于发现不可见的攻击,有助于更新系统。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (5)

1.基于分布式深度学习的边缘设备web攻击检测系统,其特征在于:包括:
数据标准化模块,用于将服务器中不同格式的URL数据转换为统一的标准形式;
特征表示模块,用于采用CBOW模型将标准化后的URL数据转换为词向量的表示形式;
多个并存的特征区分模块,用于采用CNN模型对转换为词向量的URL数据进行检测,每个特征区分模块分别对每条URL数据进行检测;
多个并存的数据区分模块,用于采用FastText模型对标准化的URL数据进行文本检测,每个数据区分模块分别对每条URL数据进行文本检测;
统计模块,对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;
日志库,用于存储统计模块统计判断出的异常URL数据。
2.基于分布式深度学习的边缘设备web攻击检测方法,其特征在于:包括下列步骤:
S1、将服务器中不同格式的URL数据转换为统一的标准形式,并采用CBOW模型将标准化后的URL数据转换为词向量的表示形式;
S2、基于多个并存的特征区分模块采用CNN模型对转换为词向量的URL数据进行多次检测,基于多个并存的数据区分模块采用FastText模型对标准化的URL数据进行文本检测;
S3、对多个特征区分模块和多个数据区分模块各自得到的结果进行统计,并判断当前URL数据是否存在异常;若异常,则将异常URL数据存储到日志库中。
3.根据权利要求2所述的基于分布式深度学习的边缘设备web攻击检测方法,其特征在于:所述S1中将服务器中不同格式的URL数据转换为统一的标准形式的方法为:包括下列步骤:
首先定义一组特殊的关键字,包括SQL关键字、HTML关键字和JavaScript关键字;其次根据转换模式将URL数据转换为统一标准的格式,转换模式如下:
将URL数据中所有的路径替换为PaS,替换所有纯数字为Num,替换所有Unicode数据为UN,替换所有Hex数据为HE,替换所有a-z和-组成的字符串为PuS。
4.根据权利要求2所述的基于分布式深度学习的边缘设备web攻击检测方法,其特征在于:所述S2中的CNN模型采用ResNet模型,所述ResNet模型的检测过程如下:
F1(x)=x,F2(x)=pool(x),F3(x)=Relu(Conv(x)),H(x)=(aF1(x)+bF2(x)+cF3(x)),其中,a、b、c是各个分支的影响因素,将与整个网络一起优化。
5.根据权利要求2所述的基于分布式深度学习的边缘设备web攻击检测方法,其特征在于:所述S3中对多个特征区分模块和多个数据区分模块各自得到的结果进行统计的方法为:分别对每条URL数据进行多次检测;若50%的特征区分模块和/或数据区分模块检测的结果是正常,则将该URL数据确定为正常,否则确定为异常;将异常URL数据存储到日志库中,用于后续分析或系统更新。
CN202110302550.9A 2021-03-22 2021-03-22 基于分布式深度学习的边缘设备web攻击检测系统及方法 Pending CN113051559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110302550.9A CN113051559A (zh) 2021-03-22 2021-03-22 基于分布式深度学习的边缘设备web攻击检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110302550.9A CN113051559A (zh) 2021-03-22 2021-03-22 基于分布式深度学习的边缘设备web攻击检测系统及方法

Publications (1)

Publication Number Publication Date
CN113051559A true CN113051559A (zh) 2021-06-29

Family

ID=76514522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110302550.9A Pending CN113051559A (zh) 2021-03-22 2021-03-22 基于分布式深度学习的边缘设备web攻击检测系统及方法

Country Status (1)

Country Link
CN (1) CN113051559A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259494A (zh) * 2018-01-17 2018-07-06 北京邮电大学 一种网络攻击检测方法及装置
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109413028A (zh) * 2018-08-29 2019-03-01 集美大学 基于卷积神经网络算法的sql注入检测方法
CN109753798A (zh) * 2018-12-11 2019-05-14 四川大学 一种基于随机森林与FastText的Webshell检测模型

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
CN108259494A (zh) * 2018-01-17 2018-07-06 北京邮电大学 一种网络攻击检测方法及装置
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109413028A (zh) * 2018-08-29 2019-03-01 集美大学 基于卷积神经网络算法的sql注入检测方法
CN109753798A (zh) * 2018-12-11 2019-05-14 四川大学 一种基于随机森林与FastText的Webshell检测模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何韩森 等: ""基于特征聚合的假新闻内容检测模型"", 《计算机应用》 *
吴海滨 等: ""基于上下文信息的恶意URL检测技术"", 《软件》 *
罗超超: ""基于深度学习的SQL注入和XSS攻击检测技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
Seo et al. Machine‐learning approach to optimize smote ratio in class imbalance dataset for intrusion detection
Peng et al. Network intrusion detection based on deep learning
CN111600919B (zh) 智能网络应用防护系统模型的构建方法和装置
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN109660518B (zh) 网络的通信数据检测方法、装置以及机器可读存储介质
CN111526136A (zh) 基于云waf的恶意攻击检测方法、系统、设备和介质
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
CN108718306A (zh) 一种异常流量行为判别方法和装置
CN108509794A (zh) 一种基于分类学习算法的恶意网页防御检测方法
Srilatha et al. Implementation of Intrusion detection and prevention with Deep Learning in Cloud Computing
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
CN111431883B (zh) 一种基于访问参数的web攻击检测方法及装置
CN112733954A (zh) 一种基于生成对抗网络的异常流量检测方法
Lambert II Security analytics: Using deep learning to detect cyber attacks
Lorenzen et al. Determining viability of deep learning on cybersecurity log analytics
CN116633682B (zh) 一种基于安全产品风险威胁的智能识别方法及系统
CN113051559A (zh) 基于分布式深度学习的边缘设备web攻击检测系统及方法
Choi et al. Detection of Cross Site Scripting Attack in Wireless Networks Using n‐Gram and SVM
CN115860117A (zh) 基于攻防行为的mdata知识抽取方法及其系统
Zhong et al. FLP: a feature‐based method for log parsing
CN111507368B (zh) 一种校园网入侵检测方法和系统
CN107819601A (zh) 一种基于Spark的快速和高效的安全运维服务架构
Li et al. An Anomaly Detection Approach Based on Integrated LSTM for IoT Big Data
Wang et al. Char-level neural network for network anomaly behavior detection
Zhao [Retracted] Efficient Detection of Large‐Scale Multimedia Network Information Data Anomalies Based on the Rule‐Extracting Matrix Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629

RJ01 Rejection of invention patent application after publication