CN116980235A - 一种基于人工智能的web非法请求的拦截方法 - Google Patents

一种基于人工智能的web非法请求的拦截方法 Download PDF

Info

Publication number
CN116980235A
CN116980235A CN202311235946.1A CN202311235946A CN116980235A CN 116980235 A CN116980235 A CN 116980235A CN 202311235946 A CN202311235946 A CN 202311235946A CN 116980235 A CN116980235 A CN 116980235A
Authority
CN
China
Prior art keywords
request
data
illegal
web
intercepting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311235946.1A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhi Innovation Lean Technology Co ltd
Original Assignee
Chengdu Shuzhi Innovation Lean Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhi Innovation Lean Technology Co ltd filed Critical Chengdu Shuzhi Innovation Lean Technology Co ltd
Priority to CN202311235946.1A priority Critical patent/CN116980235A/zh
Publication of CN116980235A publication Critical patent/CN116980235A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/306Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information intercepting packet switched data communications, e.g. Web, Internet or IMS communications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于人工智能的WEB非法请求的拦截方法,涉及网络安全领域,所述方法包括:获取应用程序的请求日志文件,基于所述请求日志文件获得识别模型,将所述识别模型应用到所述应用程序;若所述应用程序接收到请求,基于所述识别模型,识别所述请求的特征,基于所述特征,判断所述请求是否合法,若是则将所述请求传递到服务器进行响应处理;若否则拦截所述请求。所述方法可以快速识别到非法请求且对非法请求的识别率高。

Description

一种基于人工智能的WEB非法请求的拦截方法
技术领域
本发明涉及网络安全领域,具体地,涉及一种基于人工智能的WEB非法请求的拦截方法。
背景技术
随着互联网的高速发展和社交媒体等的兴起,带来便利的同时也导致网络空间的安全形势越来越严峻,网络安全和用户隐私问题也越发受到人们关注。一个Web系统每天需要处理大量的用户请求,除了用户的合理请求,还伴随着非法请求,如XSS(跨站脚本)攻击请求、CSRF(跨站请求伪造)和SQL注入漏洞等,面对纷繁复杂的网络攻击,目前常用的解决方法是利用开发框架提供的相关机制和功能进行拦截,但由于提供的相关机制和功能并非专门用于拦截恶意攻击等非法请求,导致非法请求的识别率低和识别效率低,从而导致用户的WEB网络空间被病毒侵占或用户隐私被泄漏等问题。
发明内容
为了保护WEB的网络安全和用户隐私,本发明提供了一种基于人工智能的WEB非法请求的拦截方法,所述方法包括:获取应用程序的请求日志文件,基于所述请求日志文件获得识别模型,将所述识别模型应用到所述应用程序;若所述应用程序接收到请求,基于所述识别模型,识别所述请求的特征,基于所述特征,判断所述请求是否合法,若是则将所述请求传递到服务器进行响应处理;若否则拦截所述请求。通过应用程序的请求日志文件获得识别模型,再将所述识别模型应用到所述应用程序,通过识别模型识别请求的特征,从而判断所述请求是否合法,识别模型的应用可以全面的和快速解析请求的特征,从而提高非法请求的识别率和识别效率。
在实施上述方案的过程中,申请人发现不同算法训练的识别模型有不同的识别效果,为了选择更优的识别模型,申请人优化了获得识别模型的步骤,通过所述请求日志文件训练多个不同的模型,再通过测试集测试模型获得识别结果,再将识别结果与预设参数比较获得最优的模型。
进一步地,基于所述请求日志文件获得识别模型的具体步骤包括:预处理所述请求日志文件,获得数据集,所述数据集包括若干合法请求数据和若干非法请求数据;对所述数据集进行特征提取和特征构建,获得训练集;基于预设参数,选取若干第一模型;基于所述训练集,对每个所述第一模型进行训练,累计获得若干优化模型;基于测试集对每个所述优化模型进行测试,累计获得若干测试结果;将每个所述测试结果与预设指标进行比较,获得最优测试结果;基于与所述最优测试结果对应的所述优化模型获得所述识别模型。预处理所述请求日志文件可以提高所述数据集的多样性和重复性,以提高模型的鲁棒性,所述数据集进行特征提取和特征构建,可以提高所述识别模型的识别性能和泛化能力,使用所述训练集对每个所述第一模型进行迭代训练,可以使得所述优化模型的预测结果和真实值之前的误差最小化,使用测试集对每个所述优化模型进行评估,包括每个所述优化模型的预测性能、准确度和泛化能力,选择出各项指标最优的所述优化模型,获得所述识别模型,从而使得所述识别模型的识别率提高和识别效率提升。
在实施上述方案的过程中,申请人发现用户的请求为非法请求,但用户需要相关的请求数据,为了解决这一问题,申请人改进了所述方法,获取请求的请求数据,通过提取并匹配请求数据的关键字,推荐用户与请求相关的数据。
进一步地,若所述请求为非法请求,所述方法还包括:获取所述请求的请求数据,对所述请求数据进行关键字提取,获得关键字;获得与所述关键字相匹配的推荐数据,所述推荐数据用于在请求被拦截状态下推荐用户需要的数据,在保证用户网络安全的情况下推荐用户与请求相关的数据,可以提高用户的体验感。
在实施上述方案的过程中,申请人发现所述识别模型会误将某些用户请求识别为非法请求,进而拦截,导致用户无法查看请求数据,为了解决这一问题,申请人改进了所述方法,将与请求对应的网址记录到信任名单,从而实现用户可以查看请求数据。
进一步地,若所述请求为非法请求,所述方法还包括:将与所述请求对应的第一网址记录到信任名单,所述请求更新为合法请求,所述信任名单用于误拦截情况下用户访问所述第一网址。增加误拦截的补救措施,提高用户的体验感。
在实施上述方案的过程中,为了减少所述识别模型的误拦截次数,申请人改进了所述方法,获取所述信任名单中的请求,对其进行特征提取,获得信任特征,若所述识别模型识别到所述信任特征,则预测所述请求是合法请求,从而减少所述识别模型的误拦截次数。
进一步地,所述方法还包括:获取所述信任名单的若干所述第一网址,将每个所述第一网址进行特征提取,获得信任特征;若所述识别模型识别到所述信任特征,则预测所述请求是合法请求。减少误拦截次数,提高用户的体验感。
在实施上述方案的过程中,申请人发现某些请求虽然识别为合法请求,但用户讨厌并将其拉黑至黑名单,为了解决这一问题,申请人改进了所述方法,获取黑名单中请求,对其进行特征提取,获得拦截特征,若所述识别模型识别到所述拦截特征,则预测所述请求是非法请求,实现自动识别用户讨厌的请求,提高用户的体验感。
进一步地,若所述请求为合法请求,所述方法还包括:获取用户黑名单中的若干第二网址;将每个所述第二网址进行特征提取,获得拦截特征;若所述识别模型识别到所述拦截特征,则预测所述请求是非法请求。自动识别用户讨厌的请求,提高用户的体验感。
在实施上述方案的过程中,申请人发现某些请求中包含了广告,其广告占用了网页的大篇幅位置,降低用户的使用感和观看性,甚至用户点到某些广告会跳转至其他网页,从而导致用户的网络安全受到攻击或用户隐私泄露,为了解决这一问题,申请人改进了所述方法,通过包含广告的网页数据和不包含广告的网页数据对所述识别模型进一步进行训练,从而使得所述识别模型可以识别所述请求的请求数据是否包含广告,若是则将广告数据删除,从而保护用户的网络安全和隐私安全。
进一步地,若所述请求为合法请求,所述方法还包括:获取所述应用程序的网页数据,所述网页数据包括包含广告的网页数据和不包含广告的网页数据;对所述网页数据进行特征提取获得网页训练集,基于所述网页训练集对所述识别模型进行训练,所述识别模型针对所述网页数据进行是否包含广告的识别。进一步的完善所述识别模型,提高所述识别模型的完整性和多功能性。
进一步地,所述识别模型识别所述网页数据是否包含广告的具体步骤包括:获取所述请求的请求数据;基于所述识别模型分析所述请求数据获得广告特征,所述广告特征包含若干子特征,每个所述子特征对应一个权重;基于每个所述子特征的所述权重累计获得所述广告特征的权重值;判断所述权重值是否大于或等于阈值;若是则基于所述广告特征获取所述请求数据中的广告数据;删除所述广告数据,获得过滤数据;将所述请求数据更新为所述过滤数据。删除广告数据,提高用户的使用感和减少潜在的危险。
在实施上述方案的过程中,申请人发现某些场景下,用户需要查看拦截记录,申请人改进了所述方法,将拦截记录到拦截名单,用于用户查看拦截记录。
进一步地,若所述请求为非法请求,所述方法还包括:记录所述请求到拦截名单。
在实施上述方案的过程中,申请人发现某些非法请求的请求数据包含恶意数据,为了解决这一问题,申请人改进了所述方法,将恶意数据删除或替换,使得非法请求变更为合法请求,可以在保证用户的网络安全情况下,提高请求数据的可用范围。
进一步地,若所述请求为非法请求,所述方法还包括:获取所述请求的请求数据,将所述请求数据进行清洗,获得第二请求,将所述第二请求变更为合法请求,所述请求更新为所述第二请求。提高请求数据的可用范围,从而提高用户的体验感。
在实施上述方案的过程中,申请人考虑受到非法请求的攻击时,应用程序应该对其进行相应的响应或保护措施,申请人改进了所述方法,判断非法请求的类型,针对不同的类型响应不同的机制,从而进一步的保护用户的网络安全或隐私。
进一步地,若所述请求为非法请求,所述方法还包括:基于所述识别模型对所述请求进行分析,获得所述请求的非法请求类型,基于所述非法请求类型,启动与所述非法请求类型相应的应急相应机制。
在实施上述方案的过程中,申请人考虑到某些用户不希望留下请求记录,于是申请人改进了所述方法,在用户关闭请求对应的网址后,将请求记录删除,实现无痕浏览,保护用户的隐私。
进一步地,所述方法还包括:若所述请求结束,则将所述请求的记录删除。
在实施上述方案的过程中,申请人考虑到某些用户的请求记录希望记录到隐藏空间,不想其他人查看,于是申请人改进了所述方法,设置了验证码,当输入的验证码与用户设定的验证码一致时,才能查看隐藏起来的请求记录,从而提高用户隐私的私密性。
进一步地,所述方法还包括:获取验证码,判断所述验证码与设定验证码是否相同,若是则获取所述请求的请求记录。
在实施上述方案的过程中,申请人发现有些不法分子会通过网络爬取用户的网页数据,为了解决这一问题,申请人改进了所述方法,在用户请求记录中增加或替换虚假的请求记录,使得不法分子获取的用户信息错误,从而达到保护隐私的目的。
进一步地,所述方法还包括:设置虚假请求记录;将所述请求的请求记录更新为所述虚假请求记录。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
1.通过训练多个模型选择最优的识别模型,提高对非法请求的识别率和提升识别效率。2.分析拦截的非法请求对应的请求数据,推荐用户与请求数据相关的数据,保证用户网络安全的同时满足用户的请求。3.识别合法请求的请求数据是否包含广告,并对广告数据进行删除,提高用户的网络安全。4.无痕浏览和验证码提高了用户的隐私性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明中一种基于人工智能的WEB非法请求的拦截方法的流程示意图;
图2是本发明中一种基于人工智能的WEB非法请求的拦截方法中通过日志文件获得识别模型的具体步骤示意图;
图3是本发明中一种基于人工智能的WEB非法请求的拦截方法中识别网页是否包含广告的流程示意图;
图4是本发明中一种基于人工智能的WEB非法请求的拦截方法中对非法请求和合法请求的处理流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
参考图1和图2,在本实施例中,获取部署在公网上的WEB应用程序产生的请求日志文件,将请求日志文件解析后进行数据清洗,去除噪声、缺失值和重复值等,再进行数据集成,将所有数据集成到一个数据集中,将数据集中的数据进行变换,使数据标准化和归一化,便于机器学习算法的使用,再将数据进行规约,减少数据集的大小并提高机器学习算法的效率,再通过人工梳理出合法请求数据和非法请求数据并将其进行分类,再分别进行特征选择,选择的特征可以为IP地址、URI路径、响应状态码和流量等,再通过添加噪声、旋转和缩放等方式增加数据集的数量和多样性,以提高机器学习算法的鲁棒性和泛化能力,再对合法请求数据和非法请求数据通过正则表达式匹配进行特征提取和特征构建,以提高模型的识别性能和泛化能力,获得训练集;综合考虑数据特点、模型复杂度和算法识别效率等因素,选择多个合适模型,如朴素贝叶斯模型、决策树模型、随机森林模型、神经网络模型和卷积神经网络等,使用训练集对每个模型进行训练,再通过迭代训练优化模型参数,使得模型的预测结果与真实值之间的误差最小化,再通过测试集对训练好的每个模型进行评估,评估各模型的预测性能、准确度、效率和泛化能力等,选择出各项指标最优的模型,获得识别模型。将识别模型集成到应用程序中,当客户端发送请求到应用程序时,识别模型对请求进行识别,根据不同请求的特征参数进行预测识别,若特征参数满足非法请求特征则对该请求进行拦截,若不满足则传递请求至系统中处理完毕后返回给客户端需要的结果。本实施例中,机器算法可以为决策树算法、神经网络算法和SVM(支持向量机)算法,选择的特征还可以为用户代理、请求频率和请求间隔等与WEB请求相关的特征,特征提取和特征构建的方式还可以为通过字符串处理,如分割、截取和替换等,或将日志数据导入数据库通过SQL语句进行提取和聚合,或通过机器学习算法对特征进行训练和预测,或预处理工具和其他开源工具和框架等,集成的方式可以采用RESTful API,通过http协议提供服务接口或将识别模型内置到系统中,或通过调用识别模型的API或SDK接口。
实施例2
在上述实施例的基础上,申请人发现识别模型的应用可以用来防御,同时也可能被攻击者拿来攻击,攻击者会试图混淆识别模型使其做出错误的分类、误判甚至识别模型被完全破坏,为了解决这一问题,申请人改进了所述方法,所述方法还包括:处理所述训练集,获得对抗集;基于所述对抗集对所述识别模型进行对抗训练,所述识别模型针对对抗性攻击进行识别。在训练中,识别模型学习如何处理对抗性攻击,可以提高其鲁棒性,以减少攻击者通过对抗性样本攻击的成功率。
通过快速梯度符号方法(FGSM)对训练集进行微小的扰动生成对抗样本,使用对抗样本对识别模型进行训练,使得识别模型可以识别对抗性攻击。本实施例中,FGSM也可以为基于梯度的优化方法(BIM)或对抗机器学习。
实施例3
在上述实施例的基础上,申请人发现识别模型能识别的为目前已知的威胁,而随着网络技术的发展,攻击者的攻击手段也在不断改进和优化,出现新的攻击方式或恶意代码,这些未知的威胁,识别模型无法识别,为了解决这一问题,申请人改进了所述方法,所述方法还包括:实时检测所述请求,抽取所述请求的请求过程中生成的监控指标,对所述监控指标进行检测和分析,若所述监控指标波动范围大于预设范围,则启动异常警告。波动范围是指一定时期内监控指标波动而形成的波峰与波谷间的距离,如在1秒内进程数增加了100个,则波动范围为100,而预设范围为50,100大于50则启动异常警告。目前未知威胁分为两种,一种是能预测到可能会发生的,可以一定程度上进行防范的,称为“已知的未知威胁”,而另一种则是无法预测,让人觉得无从防范的,则称为“未知的未知威胁”,将“未知的未知威胁”转为“已知的未知威胁”,通过基于异常行为的实时入侵检测,来发现未知手段的黑客入侵,实现实时的入侵检测和快速响应,一旦发现异常情况,进行毫秒级报警,提高对未知威胁检测的效率。
在请求的请求过程中,抽取大量检测请求过程中生成的监控指标,并对指标进行持续地观测和分析,如文件进程数、主机访问频率和业务关系等,若监控指标的的波动范围大于预设范围,如文件进程数快速增加超过阈值、短时间内频繁访问主机或调用了其他程序下的子程序,则快速启动异常警告。对入侵行为进行监控,极大地保障对抗未知威胁的准确性和可靠性。
实施例4
参考图4,在上述实施例的基础上,本实施例中,当请求被拦截时,通过网络爬虫抓取请求对应的请求数据,使用机器学习算法抓取关键字,再通过网络爬虫获取与关键字相关的数据并显示在页面,推荐用户可能需要的数据。本实施例中,获取数据的方式还可以为数据挖掘分析、通过API接口获取或其他三方工具等,抓取关键字的方式还可以为正则表达式匹配、设置关键字筛选规则或深度学习算法等。
实施例5
参考图4,在上述实施例的基础上,本实施例中,请求被拦截时,当用户将请求对应的网址添加到信任名单,识别模型再次识别此请求时,若在信任名单中匹配到其对应网址,则将请求识别为合法请求。同时获取信任名单中的所有网址,通过机器学习算法对其进行特征提取,获得信任特征,当识别模型识别请求时识别到信任特征,则将请求预测为合法请求。
实施例6
参考图4,在上述实施例的基础上,本实施例中,请求被识别为合法请求但请求对应的网址被用户拉黑到黑名单时,识别模型再次识别此请求时,若在黑名单中匹配到其对应的网址,则将请求识别为非法请求。同时获取黑名单中的所有网址,通过机器学习算法对其进行特征提取,获得拦截特征,当识别模型识别请求时识别到拦截特征,则将请求预测为非法请求。
实施例7
参考图3,在上述实施例的基础上,本实施例中,通过网络爬虫获取大量网页数据,预处理网页数据,包括数据清洗、数据变换和数据分类等,分为包含广告的网页数据和不包含广告的网页数据,分别进行特征选择,选择的特征可以为链接、文字、图片位置和源码标签等, 再将包含广告的网页数据和不包含广告的网页数据通过正则表达式匹配进行特征提取和特征构建,获得网页训练集,通过网页训练集对识别模型进行训练,使得模型针对网页数据进行是否包含广告的识别。当客户端发送请求到应用程序时,通过网络爬虫获取请求对应的请求数据,识别模型对请求数据进行分析,若获得广告特征,如广告标签、弹窗或图片位置等,广告特征包含若干子特征,每个所述子特征对应一个权重,如广告标签包含ads标签和iframe标签,ads标签和iframe标签分别对应的权重为3和2,计算所有子特征的权重获得权重值,判断权重值是否大于或等于阈值,如权重值为5,阈值设为3,5大于3,则判断请求数据中包含广告,再通过广告特征获取请求数据中的广告数据,如通过正则表达式匹配ads标签,找到ads标签对应的广告数据,将其进行删除,获得过滤数据,将过滤数据返回至客户端。
实施例8
参考图4,在上述实施例的基础上,本实施例中,当请求被识别为非法请求时,记录请求到拦截名单,包括请求的时间、请求的标题和对应的网址等。若用户保留了请求记录,当用户需要查看拦截名单、信任名单、黑名单和历史记录等时,需要输入验证码,当验证码与用户设定的验证码一致时才能查看;若用户不保留请求记录,设置为无痕浏览,当客户端得到请求返回的结果后,请对应的请求记录删除。
实施例9
参考图4,在上述实施例的基础上,本实施例中,当请求被识别为非法请求,通过网络爬虫获取对应的请求数据,再通过恶意代码分析方法进行分析,若确定到恶意数据的特征字符串或特征代码段等,如<iframe src=http://www.xxx.com/muma.html width=100height=100></iframe>,这是一种网络挂马代码,则可以提取iframe进行分析识别,则将特征字符串或特征代码段对应的数据删除。其中恶意代码分析方法可以为基于代码特征的分析方法、基于代码语义的分析方法或静态分析工具,如ollyDump(GigaPede2009)、 W32DASM(URSoftware2009)、IDAPro(DataReseue2009)和HIEw(Suslikov2009)等。
实施例10
参考图4,在上述实施例的基础上,本实施例中,当请求被识别为非法请求时,通过识别模型识别的非法请求特征判断非法请求类型,针对不同的非法请求类型响应不同的应急相应机制,如识别到非法请求特征为SQL语句,则判断非法请求为SQL注入攻击,则立即启动WEB应用防火墙,或识别到非法请求多次输入密码,则非法请求特征为破解,则判断非法请求为暴力破解攻击,则立即将用户账户锁定。
实施例11
在上述实施例的基础上,本实施例中,通过网络爬虫获取其他网页网址,将获取的网址随机插入到用户历史记录中,或直接替换部分用户历史记录。
实施例12
在上述实施例的基础上,申请人发现当前的请求虽然为合法请求,但请求对应的请求数据中包含了其他网址或图片,而有些网址和图片带有病毒或木马,用户点击触发这些网址和图片时,则可能遭受网络攻击,而所述方法只能识别当前的请求,不能提前预防页面中其他网址对应的请求,为了解决这一问题,申请人改进了所述方法,所述方法还包括获取所述请求的请求数据;对所述请求数据进行分析获得源码链接;基于所述源码链接向所述应用程序发送模拟请求;所述应用程序接收到所述模拟请求,基于所述识别模型,识别所述模拟请求的模拟特征;若所述模拟特征满足非法请求特征,则警示用户所述源码链接为危险链接。将当前请求对应的请求数据中的网址提前进行模拟请求,判断其是否为非法请求,若是则警示用户不去点击网址触发病毒或木马等,减少受到网络攻击,进一步的保护网络安全。
通过网络爬虫抓取所述请求对应的源代码,通过正则表达式匹配获得源代码中的URL地址,如通过href、http或https等与URL地址相关的关键字匹配获得源代码中的所有URL地址,对每个URL地址进行构造获得模拟请求,如通过Pyhton的requests模块填写模拟请求的参数,包括请求方式、请求URL地址和请求标头等,具体为request(method, url,params, data, headers, cookies, files, auth, timeout, allow_redirects,proxies, hooks, stream, verify, cert, json),向应用程序发送模拟请求,应用程序接收到模拟请求后,识别模型对模拟请求进行识别,根据其模拟特征参数进行预测识别,若模拟特征参数满足非法请求特征,则通过高亮或弹框等方式警示用户其对应的URL地址为危险链接。
实施例13
在上述实施例的基础上,申请人发现程序员们也会从攻击者的攻击方式中挖掘学习到新技术,并将新技术应用到系统或程序中,而新技术的请求由于带有非法的特征导致无法通过识别模型,为了解决这一问题,申请人改进了所述方法,所述方法还包括:获取含有非法请求特征的更新请求;分析所述更新请求,获得改进特征;将所述特征与所述改进特征进行比较,获得比较结果,基于所述比较结果,判断所述请求是否合法。分析含有非法请求特征的新技术的特征,将其视为合法特征,再通过合法特征与请求的特征相比较,可以获得两者的相似性,进而判断新技术的请求是否合法,可以适用于请求在合法与非法之间的转变。
获取含有非法请求特征的更新请求,通过机器学习算法分析更新请求,获得改进特征,再将通过识别模型获取的特征与改进特征进行相似度比较,获得相似度,如相似度小于80%,则判断请求为非法请求。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种基于人工智能的WEB非法请求的拦截方法,其特征在于,所述方法包括:
获取应用程序的请求日志文件,基于所述请求日志文件获得识别模型,将所述识别模型应用到所述应用程序;若所述应用程序接收到请求,基于所述识别模型,识别所述请求的特征,基于所述特征,判断所述请求是否合法,若是则将所述请求传递到服务器进行响应处理;若否则拦截所述请求。
2.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,基于所述请求日志文件获得识别模型的具体步骤包括:
预处理所述请求日志文件,获得数据集,所述数据集包括若干合法请求数据和若干非法请求数据;对所述数据集进行特征提取和特征构建,获得训练集;基于预设参数,选取若干第一模型;基于所述训练集,对每个所述第一模型进行训练,累计获得若干优化模型;基于测试集对每个所述优化模型进行测试,累计获得若干测试结果;将每个所述测试结果与预设指标进行比较,获得最优测试结果;基于与所述最优测试结果对应的所述优化模型获得所述识别模型。
3.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为非法请求,所述方法还包括:
获取所述请求的请求数据,对所述请求数据进行关键字提取,获得关键字;获得与所述关键字相匹配的推荐数据,所述推荐数据用于在请求被拦截状态下推荐用户需要的数据。
4.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为非法请求,所述方法还包括:
将与所述请求对应的第一网址记录到信任名单,所述请求更新为合法请求,所述信任名单用于误拦截情况下用户访问所述第一网址。
5.根据权利要求4所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,所述方法还包括:
获取所述信任名单的若干所述第一网址,将每个所述第一网址进行特征提取,获得信任特征;若所述识别模型识别到所述信任特征,则预测所述请求是合法请求。
6.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为合法请求,所述方法还包括:
获取用户黑名单中的若干第二网址;将每个所述第二网址进行特征提取,获得拦截特征;若所述识别模型识别到所述拦截特征,则预测所述请求是非法请求。
7.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为合法请求,所述方法还包括:
获取所述应用程序的网页数据,所述网页数据包括包含广告的网页数据和不包含广告的网页数据;对所述网页数据进行特征提取获得网页训练集,基于所述网页训练集对所述识别模型进行训练,所述识别模型针对所述网页数据进行是否包含广告的识别。
8.根据权利要求7所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,所述识别模型识别所述网页数据是否包含广告的具体步骤包括:
获取所述请求的请求数据;基于所述识别模型分析所述请求数据获得广告特征,所述广告特征包含若干子特征,每个所述子特征对应一个权重;基于每个所述子特征的所述权重累计获得所述广告特征的权重值;判断所述权重值是否大于或等于阈值;若是则基于所述广告特征获取所述请求数据中的广告数据;删除所述广告数据,获得过滤数据;将所述请求数据更新为所述过滤数据。
9.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为非法请求,所述方法还包括:记录所述请求到拦截名单。
10.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为非法请求,所述方法还包括:
获取所述请求的请求数据,将所述请求数据进行清洗,获得第二请求,将所述第二请求变更为合法请求,所述请求更新为所述第二请求。
11.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,若所述请求为非法请求,所述方法还包括:
基于所述识别模型对所述请求进行分析,获得所述请求的非法请求类型,基于所述非法请求类型,启动与所述非法请求类型相应的应急相应机制。
12.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,所述方法还包括:若所述请求结束,则将所述请求的记录删除。
13.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,所述方法还包括:获取验证码,判断所述验证码与设定验证码是否相同,若是则获取所述请求的请求记录。
14.根据权利要求1所述的一种基于人工智能的WEB非法请求的拦截方法,其特征在于,所述方法还包括:
设置虚假请求记录;将所述请求的请求记录更新为所述虚假请求记录。
CN202311235946.1A 2023-09-25 2023-09-25 一种基于人工智能的web非法请求的拦截方法 Pending CN116980235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311235946.1A CN116980235A (zh) 2023-09-25 2023-09-25 一种基于人工智能的web非法请求的拦截方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311235946.1A CN116980235A (zh) 2023-09-25 2023-09-25 一种基于人工智能的web非法请求的拦截方法

Publications (1)

Publication Number Publication Date
CN116980235A true CN116980235A (zh) 2023-10-31

Family

ID=88473496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311235946.1A Pending CN116980235A (zh) 2023-09-25 2023-09-25 一种基于人工智能的web非法请求的拦截方法

Country Status (1)

Country Link
CN (1) CN116980235A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323261A (zh) * 2015-12-15 2016-02-10 北京奇虎科技有限公司 数据检测方法及装置
CN107886344A (zh) * 2016-09-30 2018-04-06 北京金山安全软件有限公司 基于卷积神经网络的欺诈广告页面识别方法和装置
CN108616498A (zh) * 2018-02-24 2018-10-02 国家计算机网络与信息安全管理中心 一种web访问异常检测方法和装置
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN110457597A (zh) * 2019-08-08 2019-11-15 中科鼎富(北京)科技发展有限公司 一种广告识别方法及装置
CN113242223A (zh) * 2021-04-30 2021-08-10 刘厚泽 一种网址检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323261A (zh) * 2015-12-15 2016-02-10 北京奇虎科技有限公司 数据检测方法及装置
CN107886344A (zh) * 2016-09-30 2018-04-06 北京金山安全软件有限公司 基于卷积神经网络的欺诈广告页面识别方法和装置
CN108616498A (zh) * 2018-02-24 2018-10-02 国家计算机网络与信息安全管理中心 一种web访问异常检测方法和装置
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN110457597A (zh) * 2019-08-08 2019-11-15 中科鼎富(北京)科技发展有限公司 一种广告识别方法及装置
CN113242223A (zh) * 2021-04-30 2021-08-10 刘厚泽 一种网址检测方法及装置

Similar Documents

Publication Publication Date Title
Zhang et al. Crawlphish: Large-scale analysis of client-side cloaking techniques in phishing
US11483343B2 (en) Phishing detection system and method of use
Shibahara et al. Efficient dynamic malware analysis based on network behavior using deep learning
Patil et al. A methodical overview on phishing detection along with an organized way to construct an anti-phishing framework
US8448245B2 (en) Automated identification of phishing, phony and malicious web sites
Ludl et al. On the effectiveness of techniques to detect phishing sites
EP2769508B1 (en) System and method for detection of denial of service attacks
US8015133B1 (en) Computer-implemented modeling systems and methods for analyzing and predicting computer network intrusions
Punithavathani et al. Surveillance of anomaly and misuse in critical networks to counter insider threats using computational intelligence
Liu et al. A novel approach for detecting browser-based silent miner
EP3646218A1 (en) Cyber-security system and method for weak indicator detection and correlation to generate strong indicators
AU2010250015A1 (en) Systems and methods for application-level security
Al-Khateeb et al. Awareness model for minimizing the effects of social engineering attacks in web applications
CN112182614A (zh) 一种动态Web应用防护系统
Raftopoulos et al. Detecting, validating and characterizing computer infections in the wild
Massa et al. A fraud detection system based on anomaly intrusion detection systems for e-commerce applications
Pramono Anomaly-based intrusion detection and prevention system on website usage using rule-growth sequential pattern analysis: Case study: Statistics of Indonesia (BPS) website
Abuadbba et al. Towards web phishing detection limitations and mitigation
Alavizadeh et al. A survey on threat situation awareness systems: framework, techniques, and insights
Xie et al. Scanner hunter: Understanding http scanning traffic
Ficco et al. A weight-based symptom correlation approach to SQL injection attacks
CN116980235A (zh) 一种基于人工智能的web非法请求的拦截方法
Hatada et al. Finding new varieties of malware with the classification of network behavior
Hess et al. Malicious HTML file prediction: A detection and classification perspective with noisy data
Venturi et al. Classification of Web Phishing Kits for early detection by platform providers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination