CN114827084A - 基于人工智能网络安全信息防护管理系统 - Google Patents

基于人工智能网络安全信息防护管理系统 Download PDF

Info

Publication number
CN114827084A
CN114827084A CN202210634650.6A CN202210634650A CN114827084A CN 114827084 A CN114827084 A CN 114827084A CN 202210634650 A CN202210634650 A CN 202210634650A CN 114827084 A CN114827084 A CN 114827084A
Authority
CN
China
Prior art keywords
link
module
phishing
links
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210634650.6A
Other languages
English (en)
Inventor
刘立坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210634650.6A priority Critical patent/CN114827084A/zh
Publication of CN114827084A publication Critical patent/CN114827084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于人工智能网络安全信息防护管理系统,涉及网络安全技术领域,包括数据收集模块、链接验证模块、模型训练模块、数据存储模块、计算机设备、钓鱼链接识别模块以及链接确认模块;通过在顶级域名DNS服务器或根域名DNS服务器处设置钓鱼链接识别模块,用于使用训练好的神经网络模型判断访问链接是否为钓鱼链接;同时还将已判断的访问链接作为训练数据,更新神经网络模型,进一步提高准确率;且解决了传统钓鱼链接检测方法采用单机的难以更新的问题。

Description

基于人工智能网络安全信息防护管理系统
技术领域
本发明属于网络安全领域,涉及网络安全防护技术,具体是基于人工智能网络安全信息防护管理系统。
背景技术
随着互联网技术的不断发展,网民的数量越来越多;而与之相对的是,钓鱼链接的日益猖獗;所谓“钓鱼链接”是指利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料;从而达到盗取钱财的目的;
目前,存在一些自动检测钓鱼链接的技术和方案,部分技术方案采用了深度学习技术;但大部分方案往往存在以下不足:
1、钓鱼链接识别模型往往是单机安装的,无法覆盖所有用户,且钓鱼链接识别模型无法根据新获取的数据进行更新;
2、对于判断为钓鱼链接的链接,没有进行进一步的验证,增加了误报的可能性;
因此,提出基于人工智能网络安全信息防护管理系统。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出基于人工智能网络安全信息防护管理系统,该基于人工智能网络安全信息防护管理系统通过在顶级域名DNS服务器或根域名DNS服务器处设置钓鱼链接识别模块,用于使用训练好的神经网络模型判断访问链接是否为钓鱼链接;同时还将已判断的访问链接作为训练数据,更新神经网络模型,进一步提高准确率;且解决了传统钓鱼链接检测方法采用单机的难以更新的问题。
为实现上述目的,根据本发明的第一方面的实施例提出基于人工智能网络安全信息防护管理系统,包括数据收集模块、链接验证模块、模型训练模块、数据存储模块、计算机设备、钓鱼链接识别模块以及链接确认模块;
其中,数据收集模块主要用于收集互联网中已有的钓鱼链接和非钓鱼链接数据集;
在一个优选的实施例中,所述数据收集模块与顶级域名DNS服务器或根域名DNS服务器以无线和/或电气方式直接连接;
所述链接验证模块主要用于验证收集的钓鱼链接与非钓鱼链接的有效性;
可以理解的是,互联网中收集到的链接可能因网站封闭以及服务器关闭等原因无法访问;因此,需要首先对收集的链接进行有效性验证;
所述有效性验证可以通过使用java或python等开发语言中的库函数模拟发送对链接的访问请求,根据请求返回的响应状态码或返回报文的时长判断链接的有效性;
所述数据收集模块与链接验证模块以无线和/或电气连接;且数据收集模块将收集到的链接发送至链接验证模块;
所述链接验证模块与模型训练模块以无线和/或电气连接;且链接验证模块将有效链接发送至模型训练模块;
所述模型训练模块主要用于将有效链接作为输入,训练出可识别钓鱼链接的神经网络模型;
所述模型训练模块与钓鱼链接识别模块以无线和/或电气方式连接;且模型训练模块将训练好的神经网络模型发送至钓鱼链接识别模块;
所述钓鱼链接识别模块与顶级域名DNS服务器或根域名DNS服务器以无线和/或电气方式链接;
其中,所述数据存储模块主要用于存储已知的钓鱼链接以及非钓鱼链接;
所述数据存储模块与本地域名DNS服务器直接以无线和/或电气连接;可以理解的是,数据存储模块与本地域名DNS服务器数量相同;
所述链接验证模块与数据存储模块以无线和/或电气连接;且链接验证模块将有效链接发送至各个数据存储模块;
其中,所述计算机设备为网络请求的主体;可以理解的是,计算机设备每发送的对访问链接的请求,需先经过本地域名DNS服务器;因此,可利用本地域名DNS服务器对网络链接是否为钓鱼链接进行判断;
其中,所述链接确认模块主要用于二次确认访问链接是否为钓鱼链接;
计算机设备用户可选择反馈访问钓鱼链接的真实情况;当链接确认模块中的链接被超过固定数量以及比例的用户标记为非钓鱼链接,则修改数据收集模块、顶级域名DNS服务器或根域名DNS服务器中的识别结果;其中用户数量以及比例根据实际经验设置;且用户以IP地址划分;同一IP地址反馈的真实情况仅记为一次。
与现有技术相比,本发明的有益效果是:
1、本发明通过在顶级域名DNS服务器或根域名DNS服务器处设置钓鱼链接识别模块,用于使用训练好的神经网络模型判断访问链接是否为钓鱼链接;同时还将已判断的访问链接作为训练数据,更新神经网络模型,进一步提高准确率;且解决了传统钓鱼链接检测方法采用单机的难以更新的问题。
2、本发明通过设置链接确认模块,通过用户对判断为钓鱼链接的链接进行进一步的确认,降低了神经网络判断的误报率以及增加了神经网络训练的准确率。
附图说明
图1为本发明的原理图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,基于人工智能网络安全防护管理系统,包括数据收集模块、链接验证模块、模型训练模块、数据存储模块、计算机设备、钓鱼链接识别模块以及链接确认模块;
其中,数据收集模块主要用于收集互联网中已有的钓鱼链接和非钓鱼链接数据集;
可以理解的是,目前研究人员对于钓鱼链接的研究较多,因此互联网中存在一批由研究人员收集并做好标注的钓鱼链接以及非钓鱼链接数据集;
在一个优选的实施例中,所述数据收集模块与顶级域名DNS服务器或根域名DNS服务器以无线和/或电气方式直接连接;
所述链接验证模块主要用于验证收集的钓鱼链接与非钓鱼链接的有效性;
可以理解的是,互联网中收集到的链接可能因网站封闭以及服务器关闭等原因无法访问;因此,需要首先对收集的链接进行有效性验证;
在一个优选的实施例中,所述有效性验证可以通过使用java或python等开发语言中的库函数模拟发送对链接的访问请求,根据请求返回的响应状态码或返回报文的时长判断链接的有效性;
所述数据收集模块与链接验证模块以无线和/或电气连接;且数据收集模块将收集到的链接发送至链接验证模块;
所述链接验证模块与模型训练模块以无线和/或电气连接;且链接验证模块将有效链接发送至模型训练模块;
所述模型训练模块主要用于将有效链接作为输入,训练出可识别钓鱼链接的神经网络模型;
具体的,所述训练出可识别钓鱼链接的神经网络模型包括以下步骤:
步骤S1:提取每条有效链接的特征,并进行量化;
所述有效链接的特征包括URL文本特征、DNS特征、WHOIS特征、排名特征以及页面内容特征等;
其中,URL文本特征包括但不限于长度、IP地址、主机名长度、数字出现次数、大写字母、深度、特殊符号、最大长度、转换频次点分数等;
其中,DNS特征包括但不限于DNS信息是否缺失、A记录个数以及NS记录个数;
其中,WHOIS特征包括但不限于WHOIS信息缺失、终止时间以及存活时间;
其中,排名特征包括但不限于综合排名以及到访量排名;
其中,页面内容特征包括但不限于anction_empty属性、href_empty属性、link属性、img属性、script_empty属性等;
将提取出的属性进行量化并为每个链接构建特征向量;
步骤S2:将每条链接根据所属的分组打上标签;其中,属于钓鱼链接的标记为1,属于非钓鱼链接的标记为0;
步骤S3:将构建的特征向量作为输入,是否为钓鱼链接作为输出;通过不断缩小输出值与真实标记值之间的差距训练神经网络;所述神经网络可以是深度神经网络;
步骤S4:训练神经网络直至准确率达到95%以上;
所述模型训练模块与钓鱼链接识别模块以无线和/或电气方式连接;且模型训练模块将训练好的神经网络模型发送至钓鱼链接识别模块;
所述钓鱼链接识别模块与顶级域名DNS服务器或根域名DNS服务器以无线和/或电气方式链接;
其中,所述数据存储模块主要用于存储已知的钓鱼链接以及非钓鱼链接;
所述数据存储模块与本地域名DNS服务器直接以无线和/或电气连接;可以理解的是,数据存储模块与本地域名DNS服务器数量相同;
所述链接验证模块与数据存储模块以无线和/或电气连接;且链接验证模块将有效链接发送至各个数据存储模块;
其中,所述计算机设备为网络请求的主体;可以理解的是,计算机设备每发送的对访问链接的请求,需先经过本地域名DNS服务器;因此,可利用本地域名DNS服务器对网络链接是否为钓鱼链接进行判断;
具体的,所述本地域名DNS服务器对网络链接是否为钓鱼链接进行判断包括以下步骤:
步骤P1:本地域名DNS服务器检查本地服务器是否存在访问链接的记录;若存在,且记录为钓鱼链接,则发送钓鱼链接警告至计算机设备;若记录为非钓鱼链接,则继续访问;若本地服务器不存在访问链接,转至步骤P2;
步骤P2:将链接发送至数据存储服务器,数据存储服务器从保存的现有链接中查找访问链接;若找到访问链接,且链接标记为钓鱼链接,则发送钓鱼链接警告至计算机设备;若记录为非钓鱼链接,则继续访问;若未找到,转至步骤P3;
步骤P3:将链接转发至顶级域名DNS服务器或根域名DNS服务器进行域名解析,进一步的顶级域名DNS服务器或根域名DNS服务器将访问链接发送至钓鱼链接识别模块;
步骤P4:所述钓鱼链接识别模块提取访问链接特征,并将特征量化以及转为特征向量;将特征向量作为输入,输入训练好的神经网络模型;获得访问链接为钓鱼链接的概率;当概率大于钓鱼链接概率阈值p时,发送钓鱼链接警告至计算机设备;否则,则继续访问访问链接;其中,钓鱼链接概率阈值p根据实际经验设置;
步骤P5:顶级域名DNS服务器或根域名DNS服务器记录识别结果;并将识别为钓鱼链接的访问链接发送至链接确认模块;并将识别结果发送至数据收集模块,进行模型的重新训练;
其中,所述链接确认模块主要用于二次确认访问链接是否为钓鱼链接;
在一个优选的实施例中,计算机设备用户可选择反馈访问钓鱼链接的真实情况;当链接确认模块中的链接被超过固定数量以及比例的用户标记为非钓鱼链接,则修改数据收集模块、顶级域名DNS服务器或根域名DNS服务器中的识别结果;其中用户数量以及比例根据实际经验设置;且用户以IP地址划分;同一IP地址反馈的真实情况仅记为一次。
本发明的工作原理:
数据收集模块收集互联网中已有的钓鱼链接以及非钓鱼链接数据集;
链接验证模块用于验证收集的钓鱼链接以及非钓鱼链接的有效性;
模型训练模块用于提取收集到的钓鱼链接以及非钓鱼链接的特征,并生成特征向量集合,将特征向量集合作为输入,训练出钓鱼链接识别神经网络模型;
数据存储模块连接本地域名DNS服务器,通过检查到达的访问链接是否存在本地域名DNS服务器或数据存储模块,判断访问链接是否为钓鱼链接;
钓鱼链接识别模块接收本地域名DNS服务器中未访问过的访问链接,使用训练好的神经网络模型计算访问链接为钓鱼链接的概率;
链接确认模块用于二次确认由钓鱼链接识别模块判断为钓鱼链接的链接是否正确。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (8)

1.基于人工智能网络安全信息防护管理系统,其特征在于,包括数据收集模块、链接验证模块、模型训练模块、数据存储模块、计算机设备、钓鱼链接识别模块以及链接确认模块;
数据收集模块用于收集互联网中已有的钓鱼链接和非钓鱼链接数据集;
所述链接验证模块用于验证收集的钓鱼链接与非钓鱼链接的有效性;
所述模型训练模块用于将有效链接作为输入,训练出可识别钓鱼链接的神经网络模型;
所述数据存储模块用于存储已知的钓鱼链接以及非钓鱼链接;
所述计算机设备为网络请求的主体;本地域名DNS服务器判断由计算机设备请求的网络链接是否为钓鱼链接;
所述链接确认模块用于二次确认访问链接是否为钓鱼链接。
2.根据权利要求1所述的基于人工智能网络安全信息防护管理系统,其特征在于,所述数据收集模块与顶级域名DNS服务器或根域名DNS服务器以无线和/或电气方式直接连接;
所述数据收集模块与链接验证模块以无线和/或电气连接;且数据收集模块将收集到的链接发送至链接验证模块;
所述链接验证模块与模型训练模块以无线和/或电气连接;且链接验证模块将有效链接发送至模型训练模块;
所述模型训练模块与钓鱼链接识别模块以无线和/或电气方式连接;且模型训练模块将训练好的神经网络模型发送至钓鱼链接识别模块;
所述钓鱼链接识别模块与顶级域名DNS服务器或根域名DNS服务器以无线和/或电气方式链接;
所述数据存储模块与本地域名DNS服务器直接以无线和/或电气连接;
所述链接验证模块与数据存储模块以无线和/或电气连接;且链接验证模块将有效链接发送至各个数据存储模块。
3.根据权利要求1所述的基于人工智能网络安全信息防护管理系统,其特征在于,所述验证收集的钓鱼链接与非钓鱼链接的有效性通过使用java或python中的库函数模拟发送对链接的访问请求,根据请求返回的响应状态码或返回报文的时长判断链接的有效性。
4.根据权利要求1所述的基于人工智能网络安全信息防护管理系统,其特征在于,所述训练出可识别钓鱼链接的神经网络模型包括以下步骤:
步骤S1:提取每条有效链接的特征,并进行量化;
所述有效链接的特征包括URL文本特征、DNS特征、WHOIS特征、排名特征以及页面内容特征;将提取出的特征进行量化并为每个链接构建特征向量;
步骤S2:将每条链接根据所属的分组打上标签;其中,属于钓鱼链接的标记为1,属于非钓鱼链接的标记为0;
步骤S3:将构建的特征向量作为输入,是否为钓鱼链接作为输出;通过不断缩小输出值与真实标记值之间的差距训练神经网络;所述神经网络为深度神经网络;
步骤S4:训练神经网络直至准确率达到95%以上。
5.根据权利要求4所述的基于人工智能网络安全信息防护管理系统,其特征在于,所述有效链接的特征包括URL文本特征、DNS特征、WHOIS特征、排名特征以及页面内容特征。
6.根据权利要求5所述的基于人工智能网络安全信息防护管理系统,其特征在于,所述URL文本特征包括长度、IP地址、主机名长度、数字出现次数、大写字母、深度、特殊符号、最大长度、转换频次点分数;
所述DNS特征包括DNS信息是否缺失、A记录个数以及NS记录个数;
所述WHOIS特征包括WHOIS信息缺失、终止时间以及存活时间;
所述排名特征包括综合排名以及到访量排名;
所述页面内容特征包括anction_empty属性、href_empty属性、link属性、img属性、script_empty属性。
7.根据权利要求1或2所述的基于人工智能网络安全信息防护管理系统,其特征在于,所述本地域名DNS服务器判断由计算机设备请求的网络链接是否为钓鱼链接包括以下步骤:
步骤P1:本地域名DNS服务器查询本地服务器是否存在访问链接的记录;若存在,且记录为钓鱼链接,则发送钓鱼链接警告至计算机设备;若记录为非钓鱼链接,则请求访问链接;若不存在访问链接,转至步骤P2;
步骤P2:将链接发送至数据存储服务器,数据存储服务器从保存的现有链接中查找访问链接;若找到访问链接,且链接标记为钓鱼链接,则发送钓鱼链接警告至计算机设备;若记录为非钓鱼链接,则继续请求访问链接;若未找到,转至步骤P3;
步骤P3:将链接转发至顶级域名DNS服务器或根域名DNS服务器进行域名解析,进一步的顶级域名DNS服务器或根域名DNS服务器将访问链接发送至钓鱼链接识别模块;
步骤P4:所述钓鱼链接识别模块提取访问链接特征,并将特征量化以及转为特征向量;将特征向量作为输入,输入训练好的神经网络模型;获得访问链接为钓鱼链接的概率;当概率大于钓鱼链接概率阈值p时,发送钓鱼链接警告至计算机设备;否则,则请求访问链接;其中,钓鱼链接概率阈值p根据实际经验设置;
步骤P5:顶级域名DNS服务器或根域名DNS服务器记录识别结果;并将识别为钓鱼链接的访问链接发送至链接确认模块;并将识别结果发送至数据收集模块,进行模型的重新训练。
8.根据权利要求1或2所述的基于人工智能网络安全信息防护管理系统,其特征在于,计算机设备用户反馈访问钓鱼链接的真实情况;当链接确认模块中的链接被超过固定数量以及比例的用户标记为非钓鱼链接,则修改数据收集模块、顶级域名DNS服务器或根域名DNS服务器中的识别结果;其中用户数量以及比例根据实际经验设置;且用户以IP地址划分;同一IP地址反馈的真实情况仅记一次。
CN202210634650.6A 2022-06-06 2022-06-06 基于人工智能网络安全信息防护管理系统 Pending CN114827084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210634650.6A CN114827084A (zh) 2022-06-06 2022-06-06 基于人工智能网络安全信息防护管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210634650.6A CN114827084A (zh) 2022-06-06 2022-06-06 基于人工智能网络安全信息防护管理系统

Publications (1)

Publication Number Publication Date
CN114827084A true CN114827084A (zh) 2022-07-29

Family

ID=82521934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210634650.6A Pending CN114827084A (zh) 2022-06-06 2022-06-06 基于人工智能网络安全信息防护管理系统

Country Status (1)

Country Link
CN (1) CN114827084A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN113098887A (zh) * 2021-04-14 2021-07-09 西安工业大学 一种基于网站联合特征的钓鱼网站检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN113098887A (zh) * 2021-04-14 2021-07-09 西安工业大学 一种基于网站联合特征的钓鱼网站检测方法

Similar Documents

Publication Publication Date Title
CN107918733A (zh) 检测网页的恶意元素的系统和方法
CN109831459B (zh) 安全访问的方法、装置、存储介质和终端设备
CN106961419A (zh) WebShell检测方法、装置及系统
CN111538929B (zh) 网络链接识别方法、装置、存储介质及电子设备
CN111278014A (zh) 一种防诈骗系统、方法、服务器及存储介质
CN101971591A (zh) 分析网址的系统及方法
CN101370008A (zh) Sql注入web攻击的实时入侵检测系统
CN108664559A (zh) 一种网站网页源代码自动爬取方法
CN109274632A (zh) 一种网站的识别方法及装置
CN111865925A (zh) 基于网络流量的诈骗团伙识别方法、控制器和介质
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN103914655A (zh) 一种检测下载文件安全性的方法及装置
CN110262949A (zh) 智能设备日志处理系统及方法
CN113918526B (zh) 日志处理方法、装置、计算机设备和存储介质
CN112199677A (zh) 一种数据处理方法和装置
CN108023868A (zh) 恶意资源地址检测方法和装置
CN114465780A (zh) 一种基于特征提取的钓鱼邮件检测方法及系统
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN105337776B (zh) 一种生成网站指纹的方法、装置及电子设备
CN103312692B (zh) 链接地址安全性检测方法及装置
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
JP2018041442A (ja) Webページの異常要素を検出するためのシステム及び方法
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN103475673B (zh) 钓鱼网站识别方法、装置及客户端
CN108282478A (zh) 一种web站点安全检测方法、装置及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination