CN114650176A - 钓鱼网站的检测方法、装置、计算机设备及存储介质 - Google Patents

钓鱼网站的检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114650176A
CN114650176A CN202210284038.0A CN202210284038A CN114650176A CN 114650176 A CN114650176 A CN 114650176A CN 202210284038 A CN202210284038 A CN 202210284038A CN 114650176 A CN114650176 A CN 114650176A
Authority
CN
China
Prior art keywords
website
page
screenshot
detected
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210284038.0A
Other languages
English (en)
Inventor
李海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202210284038.0A priority Critical patent/CN114650176A/zh
Publication of CN114650176A publication Critical patent/CN114650176A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术,提供一种钓鱼网站的检测方法、装置、计算机设备及存储介质,根据预先收集得到的网站页面域名信息,抓取域名对应的网站页面内容;对网站页面内容进行处理,得到网站页面的页面截图;根据域名对网页进行抓取,提高了网页的抓取速度,将网站页面截图作为训练集,通过自动编码模型的训练,提取页面截图的特征向量,并保存至Milvus库,以便快速检索对应的网站页面的特征向量,根据得到的待检测网站页面截图的特征向量,在Milvus库中搜索与待检测网站页面截图的特征向量相似的页面,得到目标相似度,根据预先设置的阈值,与目标相似度,通过比较,判断所述待检测网站是否为钓鱼网站,提高了钓鱼网站的检测效率。

Description

钓鱼网站的检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种钓鱼网站的检测方法、装置、计算机设备及存储介质。
背景技术
钓鱼攻击是不法分子通过大量发送中奖、或仿冒银行等知名机构的短信或者邮件来诱导用户自发给出个人隐私信息(例如IPHONE ID密码和屏幕锁、其它账号及密码、验证口令、银行卡和信用卡信息等)或者在某些漏洞网页插入病毒代码骗取私人资料的一种网络攻击,以此来骗取用户银行或信用卡账号、密码等私人资料,给用户造成损失。
现有技术中,对钓鱼网站的检测主要由有关部门进行几率性扫描以及用户举报来获取钓鱼网站信息(URL、IP等),建立钓鱼网站数据库和安全网站数据库,但钓鱼网站可以通过更换域名或者IP地址等方式躲避扫描,致使钓鱼网站漏检,所以现有技术中对钓鱼网站的检测存在检测效率较低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种钓鱼网站的检测方法、装置、计算机设备及存储介质,以解决钓鱼网站检测效率较低的问题。
本申请实施例的第一方面提供了一种钓鱼网站的检测方法,包括:
根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容;
对所述网站页面内容进行截图处理,得到所述网站的页面截图;
将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中;其中所述Milvus库中包括搜索索引;
根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度;
基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站。
进一步地,所述根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容,包括:
根据预先收集得到的网站页面域名信息,对所述网站页面进行动态渲染,得到渲染后的网站页面;
从所述渲染后的网站页面中抓取所述网站页面内容。
进一步地,所述将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中,包括:
利用自动编码模型对所述页面截图训练集进行降维处理;
对降维处理后的所述页面截图训练集进行优化,以得到优化后的页面截图训练集;
根据所述优化后的页面截图训练集对自动编码模型进行训练,以得到训练好的特征提取模型;
通过所述特征提取模型提取所述页面截图的特征向量,并保存至Milvus 库中。
进一步地,所述根据得到的待检测网站页面截图的特征向量,在所述 Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度,包括:
根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述网站图片的特征向量相似的前N条Milvus向量索引信息;其中,N为大于1的整数;
根据所述前N条Milvus向量索引信息与所述网站的IP信息,通过对比分析,得到与所述待检测网站页面截图的特征向量最相似的所述Milvus库中的目标特征向量;
根据所述目标特征向量与所述待检测网站页面截图的特征向量,得到页面目标相似度。
进一步地,所述根据所述目标特征向量与所述待检测网站页面截图的特征向量,得到页面目标相似度,包括:
对所述目标特征向量与所述待检测网站页面截图的特征向量进行归一化处理,得到归一化的目标特征向量与归一化的待检测网站页面截图的特征向量;
根据所述归一化的目标特征向量与所述归一化的待检测网站页面截图的特征向量,通过计算,得到目标相似度。
进一步地,所述基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站,包括:
当所述目标相似度小于所述预先设置的阈值,则所述待检测网站为钓鱼网站;
当所述目标相似度大于所述预先设置的阈值,根据查询得到的所述待检测网站的域名备案信息,判断所述待检测网站是否为钓鱼网站。
进一步地,所述当所述目标相似度大于所述预先设置的阈值,根据查询得到的所述待检测网站的域名备案信息,判断所述待检测网站是否为钓鱼网站,包括:
当所述待检测网站的域名备案信息与所述Milvus库中的所述网站页面域名信息不同时,则所述待检测网站为钓鱼网站。
本申请实施例的第二方面提供了一种钓鱼网站的检测方法装置,包括:
抓取单元:根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容;
截图单元:对所述网站页面内容进行截图处理,得到所述网站的页面截图;
训练单元:将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中;其中所述Milvus库中包括搜索索引;
搜索单元:根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度;
判断单元:基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站。
本申请实施例的第三方面提供了一种计算机设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,该计算机指令用于使该计算机执行钓鱼网站的检测方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行钓鱼网站的检测方法的各步骤。
实施本申请实施例提供的一种钓鱼网站的检测方法具有以下有益效果:
本发明涉及人工智能技术,提供一种钓鱼网站的检测方法,根据预先收集得到的网站页面域名信息,抓取域名对应的网站页面内容;对网站页面内容进行处理,得到网站页面的页面截图;根据域名对网页进行抓取,提高了网页的抓取速度,将网站页面截图作为训练集,通过自动编码模型的训练,提取页面截图的特征向量,并保存至Milvus库,以便快速检索对应的网站页面的特征向量,根据得到的待检测网站页面截图的特征向量,在Milvus库中搜索与待检测网站页面截图的特征向量相似的页面,得到页面目标相似度,根据预先设置的阈值,与页面目标相似度,通过比较,判断所述待检测网站是否为钓鱼网站,Milvus库中向量相似度搜索引擎实现了中央处理器(CPU)与多图形处理器 (GPU)的融合计算,大幅提高了向量搜索性能,可以在秒内完成十亿级的向量搜索,在对点检测网站进行检测时,提高了钓鱼网站的检测效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中一种钓鱼网站的检测方法实现流程图;
图2本申请实施例提供的一种钓鱼网站的检测方法装置的结构框图;
图3是本申请实施例提供的一种服务器端设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请涉及的钓鱼网站的检测方法,应用于人工智能领域,可以由服务器端执行。
如图1所示,一种钓鱼网站的检测方法,包括:
S11:根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容;
在步骤S11中,收集各个网站的页面域名信息,收集时,通过对DNS请求数据包进行解析,得到对应的网站的页面域名信息,例如,在访问某个域名时,DNS请求给DNS服务器,以获取域名www.baidu.com所对应的IP地址,只有获得正确的IP地址,才会完成网站的访问。当访问成功后,对访问的网站页面内容进行抓取。
需要说明的是,当进行抓取网站页面域名信息对应的网站页面内容时,可以通过多线程并行抓取,也可以通过单线程异步抓取,网络爬虫在抓取网站页面内容的过程中,也必须遵循互联网的一些规则。如果网站的管理员声明站点内某些内容禁止网络爬虫访问,则网络爬虫就需要遵守这个规则,否则将被认为是不友好的。
本实施例中,通过接口收集流经该接口的DNS数据包,通过对DNS数据包进行解析得到对应的域名信息,解析域名时,域名通常是由一连串字符标签组成,标签之间用点隔开,标签内由字母a-z、数字0-9以及连接符“-”组成,连接符不能在域名的起始和结尾部分,字母大小写不敏感,并且每段标签的长度不能超过63字节,完整的域名长度不能超过255字节。利用libcap收集DNS 数据包,libcap允许用户选择使用何种方式进行数据的输入。当用户选择从网卡输入时,利用libcap的相关功能,检查目前的网络是否为以太网,然后通过数据接收的相关函数,收集网络上的DNS数据包,由于相关功能会捕获符合条件的所有数据包。
当得到网站域名信息后,基于网站域名对该网站域名信息对应的网页内容进行抓取,从收集到的网站域名信息后,以某种策略获取待抓取的网站页面,下载网站页面,下载网站页面后提取页面中所有链接域名,对于提取到的每个链接域名,判断此链接域名已下载或是否存在于域名集合中,对于没有被下载且不存在于域名集合中的链接域名,把它加入到域名集合中。
需要说明的是,在进行抓取时,还可以利用数据库进行去重,即将爬虫下载下来的网站页面依次存储在数据库中,当需要判断是否重复时,需要将此网站页面域名与数据库中每一条记录进行对比,如果在数据库中查找到此记录时说明该已经被爬虫下载过,爬虫将放弃对该进行下载,如果在数据库中没有查找到该记录,对该网站页面进行下载,同时将该啊网站页面添加到数据库中,下次抓取时遇到此将会被抛弃。
作为本申请一实施例,步骤S11具体包括:
根据预先收集得到的网站页面域名信息,对所述网站页面进行动态渲染,得到渲染后的网站页面;从所述渲染后的网站页面中抓取所述网站页面内容。
本实施例中,网站页面常都夹杂有CSS代码或者JS代码,这些页面需要渲染完毕后才能得到真实的网站页面,在渲染之前有一些信息是无法提取到的信息,比如需要动态生成的动画素材或图片素材等。本实施例中,基于ajax 技术,从服务端获取网站页面所需的动态数据,并加载至网站页面中,使用 Ajax技术,Web应用程序可以异步地从服务器发送和检索数据(在后台),而不会干扰现有网站页面的显示。通过将数据交换层与表示层分离,Ajax技术允许网站页面和扩展Web应用程序动态更改内容,而无需重新加载整个页面。从渲染后的网站页面中抓取页面内容。
S12:对所述网站页面内容进行截图处理,得到所述网站页面的页面截图;
在步骤S12中,当抓取到网站页面内容时,触发截图指令,直接截取网站页面当前所显示的区域的截图,得到该网站页面对应的截图,并将得到页面截图保存至数据库中。
需要说明的是,在触发截图指令后,对网站页面进行截图时,可以设置截图预设区域,如预设区域中内容的主题名称或介绍文字等。例如,网站页面的预设区域中展示的是服装,可以设置服装的品牌名称、服装简介、服装尺码以及服装价格中的一种或几种的组合。
本实施例中,当当抓取到网站页面内容时,触发截图指令,通过进行截图的编程接口,对抓取的网站页面进行截图操作,截图时,由于不同网站页面的大小可能不同,所以设置截图区域,使截网站页面的截图范围相同,将网站页面截图发送至数据库中保存。
需要说明的是,当发送页面截图时,可以先将页面截图压缩处理,防止页面截图容量较大时发生阻塞,也可以对页面截图进行分割,发送至数据库中后,在对页面截图进行组装。
S13:将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中;
在步骤S13中,将数据库中的页面截图作为训练集,通过自动编码模型的训练,提取页面截图的特征向量,自动编码模型包含编码器(encoder)和解码器 (decoder)两部分,通过训练,得到页面截图的特征向量,将对应页面截图的特征向量保存至Milvus库,其中,Milvus库中包括搜索索引。
本实施例中,在利用自动编码模型对页面截图训练样本集进行处理之前,可以先对页面截图训练样本集进行预处理,以将页面截图训练样本集中的多余的页面截图训练样本删除掉,从而保证页面截图训练样本集中样本的质量,进而保证训练出的页面截图识别模型识别的准确性。自动编码模型是由输入层、隐含层、输出层三层神经网络组成,其中输入层的节点数与输出层的节点数相同,隐含层的节点数以及输入层和输出层的节点数都可根据不同情况设定。自动编码模型把它看成是一个输出节点数与输入节点数相等的多层神经网络。在输入-隐层中,模型将计算页面截图在各个隐层节点上的值,这些值构成了页面截图的特征向量。将对应的页面截图的特征向量保存至Milvus库。
作为本申请一实施例,步骤S13具体包括:
利用自动编码模型对所述页面截图训练集进行降维处理;对降维处理后的所述页面截图训练集进行优化,以得到优化后的页面截图训练集;根据所述优化后的页面截图训练集对自动编码模型进行训练,以得到训练好的特征提取模型;通过所述特征提取模型提取所述页面截图的特征向量,并保存至Milvus库中。
本实施例中,对页面截图训练集进行降维处理,可以将高维训练样本识别问题转化为特征向量的识别问题,极大的降低了计算的复杂程度,例如,当得到的页面截图为RGB图像时,可以对RGB截图进行横降维处理,得到对应的灰度图像。对降维后的页面截图进行优化处理,优化时,可以删除清晰度较低的页面截图,不合理的或者是错误的页面截图,而保证能够训练得到可以对图像进行准确识别的图像识别模型。通过对优化后的页面截图极性训练,建立自动编码模型,在建立自动编码模型时,可以设置其隐藏层神经元个数小于输入层神经元个数,这样建立隐藏层可以使得输入层到隐藏层的变化本质上是一种降维的操作,自动编码模型可以试图以更小的维度去描述原始数据而尽量不损失数据信息。
需要说明的是,当训练得到的特征向量中有多个数据时,自动编码模型中将有多个输入神经元,由于输入到隐层是全连接的,即每一个隐层节点与每一个输入节点都有连接,因此对于每一个隐层节点,它一共有多个从不同输入节点接入的连接权值。自动编码模型提取特征,主要是通过调整每个隐层节点上的这多个连接权值,进而调整特征向量中的值来实现的。这多个连接权值作为一个整体可以被看作是一种“滤波器”,因为它将一些特征的输入放大,同时又将另一些特征对应的输入减小。训练一个含有多个隐层节点的自动编码模型,可以看成训练多个这样的滤波器。
将对应的页面截图的特征向量保存至Milvus库,Milvus是一个开源的向量相似度搜索引擎,它集成了成熟的向量搜索技术如Faiss和SPTAG,同时针对Faiss IVF索引进行了深度优化,实现了中央处理器(CPU)与多图形处理器 (GPU)的融合计算,大幅提高了向量搜索性能,可以在秒内完成十亿级的向量搜索。此外,Milvus能够有效地管理向量数据,提供针对向量和非向量数据的增删改查的能力,有利于后续特征向量的搜索。
S14:根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度;
在步骤S14中,待检测网站的页面截图,通过自动编码模型,得到待检测网站页面截图的特征向量,在Milvus库中搜索与待检测网站页面截图的特征向量相似的网站页面,通过计算,得到待检测网站页面截图的特征向量与在Milvus库中搜索得到的网站页面特征向量的相似度。
本实施例中,通过Milvus向量相似度搜索引擎,基于待查询网站页面截图中的每张图像,与待检测网站的页面截图分别对应的特征向量之间的欧式距离,根据特征向量之间的欧式距离得到图像之间的相似度,通过Milvus向量相似度搜索引擎,快速搜索Milvus库中欧式距离最小的网站页面。
需要说明的是,在进行计算图像之间的相似度时,特征向量中的数据较多时,计算速度较慢,可以通过选择其中的指定特征向量数据进行计算欧氏距离,在进行选择特征向量数据时,选择相同的特征向量数据。
作为本申请一实施例,步骤S14具体包括:
根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述网站图片的特征向量相似的前N条Milvus向量索引信息;其中,N为大于1的整数;根据所述前N条Milvus向量索引信息与所述网站的IP信息,通过对比分析,得到与所述待检测网站页面截图的特征向量最相似的所述Milvus 库中的目标特征向量;根据所述目标特征向量与所述待检测网站页面截图的特征向量,得到页面目标相似度。
本实施例中,根据得到的待检测网站页面截图的特征向量,在Milvus库中搜索与网站图片的特征向量相似的前N条Milvus向量索引信息,根据相似度大小由高到低的顺序进行排序,根据前N条Milvus向量索引信息得到特征向量对应的网站页面,然后根据得到的网站页面中对应的IP信息,通过比较 IP信息,得到与待检测网站页面IP信息相同的Milvus库中的网站页面,从而得到与待检测网站页面截图的特征向量最相似的Milvus库中的目标特征向量,得到目标相似度。
对目标特征向量与待检测网站页面截图的特征向量进行归一化处理,得到归一化的目标特征向量与归一化的待检测网站页面截图的特征向量;根据归一化的目标特征向量与归一化的待检测网站页面截图的特征向量,通过计算,得到目标相似度。对目标特征向量与待检测网站页面截图的特征向量进行归一化处理时,使特征向量中的数据值在0-1之间,在计算相似度时,避免了特征向量中单个数据过大或过小时,对计算结果造成影响。
需要说明的是,通过Milvus向量相似度搜索引擎确定相似度时,还可以根据单个特征向量数据,首先确定出前N条Milvus向量索引信息得到特征向量对应的网站页面,单个特征向量数据进行比较,可以根据单个特征向量数据从Milvus库中筛选出与单个特征向量数据相近的前N条Milvus向量索引信息得到特征向量对应的网站页面,直接筛选可以提高搜索速度。
例如,网站的证号即网站备案号,又称“ICP备案号”用于标识网站的身份,可以作为单个特征向量数据进行搜索,和网站的地址一样,网站证号是唯一的。网站想要合法经营就必须按照《中华人民共和国电信与信息服务业务经营许可证》规定向该地的通信管理部门申请经营许可,由该机构核发经营许可证之后才可以经营网站,为合法网站的ICP证号。
另外需要说明的是,为了实现前N条Milvus向量索引信息得到特征向量对应的网站页面的快速确定,在一种可能的实现方式中,可以通过特征向量数据库,例如,集群分布式远程字典服务(redis)数据库(可以记为redis集群)保存待查询网站页面截图中每张图像对应的特征向量,即可以通过集群分布方式部署的非关系型(NoSQL)数据库redis保存待查询网站页面截图中每张图像对应的特征向量。其中,可以预先对待查询网站页面截图中每张图像对应的特征向量进行处理得到统一格式的特征向量,并将对应的网站与特征向量以key-value 方式作为缓存存入redis集群对应的服务器内存中,从而可以通过redis集群,快速地提供待查询网站页面截图中每张图像对应的特征向量。
在一种可能的实现方式中,为了保证redis集群的高可用性,可以将redis 节点分为主从节点,主节点负责写入数据,从节点负责读出数据,并可以将主从节点部署在不同服务器上。
S15:基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站。
在步骤S15中,通过预设相似度评价函数检验预先设置的阈值,得到较准确的阈值,根据预先设置的阈值与目标相似度,判断待检测网站是否为钓鱼网站。
本实施例中,在设置阈值时,为了提高阈值的准确度,对设置的阈值进行检验,使用预设相似度评价函数检验阈值的准确度,当预设相似度评价函数在预先设置的阈值情况下,钓鱼网站检测精度的置信区间为95%时,认为预先设置的阈值准确,根据预先设置的阈值与目标相似度,判断待检测网站是否为钓鱼网站。
作为本申请一实施例,步骤S15具体包括:
当所述目标相似度小于所述预先设置的阈值,则所述待检测网站为钓鱼网站;当所述目标相似度大于所述预先设置的阈值,根据查询得到的所述待检测网站的域名备案信息,判断所述待检测网站是否为钓鱼网站。
本实施例中,当得到待检测网站页面与Milvus库中的网站页面的目标相似度时,与预先设置的阈值进行比较,当目标相似度小于预先设置的阈值,则认为待检测网站为钓鱼网站。当目标相似度大于预先设置的阈值时,不能立即判断待检测网站,继续检测待检测网站的域名备案信息与Milvus库中的网站页面域名信息是否相同,当待检测网站的域名备案信息与Milvus库中的网站页面域名信息不同时,则待检测网站为钓鱼网站。
网站域名遵循先注册原则,是独一无二、不可重复的,是网络中的相对有限资源。是由点间隔名字的字符串组成,用于标识计算机、计算机组的电子方位。由于IP地址用二进制表示难以记忆和书写,于是发展成域名,域名是便于记忆的服务器地址,是IP地址的“面具”。域名就像家庭住址里的门牌号,方便他人寻找,很容易可以查询到大部分正常网站的域名DNS,然而钓鱼网站通常是非法的、没有经过注册的,或与所声明的身份不符。谷歌名单中记载了大部分的合法域名的注册信息。通过查询待检测网站页面的域名信息是否与Milvus库中的网站页面域名信息是否相同,可以判断该网站是否为钓鱼网页。
本发明涉及人工智能技术,提供一种钓鱼网站的检测方法,根据预先收集得到的网站页面域名信息,抓取域名对应的网站页面内容;对网站页面内容进行处理,得到网站页面的页面截图;根据域名对网页进行抓取,提高了网页的抓取速度,将网站页面截图作为训练集,通过自动编码模型的训练,提取页面截图的特征向量,并保存至Milvus库,以便快速检索对应的网站页面的特征向量,根据得到的待检测网站页面截图的特征向量,在Milvus库中搜索与待检测网站页面截图的特征向量相似的页面,得到目标相似度,根据预先设置的阈值,与目标相似度,通过比较,判断所述待检测网站是否为钓鱼网站,提高了钓鱼网站的检测效率。
请参阅图2,图2是本申请实施例提供的一种钓鱼网站的检测方法的装置结构框图。本实施例中该服务器端包括的5个单元用于执行图1对应的实施例中的各步骤,具体请参阅图1以及图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图2,钓鱼网站的检测方法装置20包括:抓取单元21,截图单元22,训练单元23,搜索单元24,判断元25,其中:
抓取单元21,用于根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容;
截图单元22,用于对所述网站页面内容进行截图处理,得到所述网站页面的页面截图;
训练单元23,用于将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中;其中所述Milvus 库中包括搜索索引;
搜索单元24,用于根据得到的待检测网站页面截图的特征向量,在所述 Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度;
判断单元25,用于基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站。
作为本申请一实施例,抓取单元21具体用于,根据预先收集得到的网站页面域名信息,对所述网站页面进行动态渲染,得到渲染后的网站页面;从所述渲染后的网站页面中抓取所述网站页面内容。
作为本申请一实施例,训练单元23具体用于,利用自动编码模型对所述页面截图训练集进行降维处理;对降维处理后的所述页面截图训练集进行优化,以得到优化后的页面截图训练集;根据所述优化后的页面截图训练集对自动编码模型进行训练,以得到训练好的特征提取模型;通过所述特征提取模型提取所述页面截图的特征向量,并保存至Milvus库中。
作为本申请一实施例,一种钓鱼网站的检测方法的装置20还包括:
第一执行单元26,用于对所述目标特征向量与所述待检测网站页面截图的特征向量进行归一化处理,得到归一化的目标特征向量与归一化的待检测网站页面截图的特征向量;
第二执行单元27,用于根据所述归一化的目标特征向量与所述归一化的待检测网站页面截图的特征向量,通过计算,得到目标相似度。
作为本申请一实施例,搜索单元24具体用于,根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述网站图片的特征向量相似的前N条Milvus向量索引信息;其中,N为大于1的整数;根据所述前N条 Milvus向量索引信息与所述网站的IP信息,通过对比分析,得到与所述待检测网站页面截图的特征向量最相似的所述Milvus库中的目标特征向量;根据所述目标特征向量与所述待检测网站页面截图的特征向量,得到页面目标相似度。
作为本申请一实施例,一种钓鱼网站的检测方法的装置20还包括:
第三执行单元28,用于当所述待检测网站的域名备案信息与所述Milvus 库中的所述网站页面域名信息不同时,则所述待检测网站为钓鱼网站。
作为本申请一实施例,判断单元25具体用于,当所述目标相似度小于所述预先设置的阈值,则所述待检测网站为钓鱼网站;当所述目标相似度大于所述预先设置的阈值,根据查询得到的所述待检测网站的域名备案信息,判断所述待检测网站是否为钓鱼网站。
应当理解的是,图2示出的钓鱼网站的检测方法的装置的结构框图中,各单元用于执行图1对应的实施例中的各步骤,而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1以及图1所对应的实施例中的相关描述,此处不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备为服务器,其内部结构图可以如图3所示。该计算机设备30包括通过系统总线32连接的处理器31、内存储器33、网络接口34。其中,该计算机设备的处理器31用于提供计算和控制能力。该计算机设备30的存储器包括可读存储介质35、内存储器33。该可读存储介质35存储有操作系统36、计算机可读指令37和数据库 38。该内存储器33为可读存储介质35中的操作系统36和计算机可读指令37的运行提供环境。该计算机设备30的数据库38用于钓鱼网站的检测方法。该计算机设备30的网络接口33用于与外部的终端通过网络连接通信。该计算机可读指令37被处理器31执行时以实现一种钓鱼网站的检测方法。本实施例所提供的可读存储介质35包括非易失性可读存储介质和易失性可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM (EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM (SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种钓鱼网站的检测方法,其特征在于,包括:
根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容;
对所述网站页面内容进行截图处理,得到所述网站页面的页面截图;
将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中;其中所述Milvus库中包括搜索索引;
根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度;
基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站。
2.如权利要求1所述的钓鱼网站的检测方法,特征在于,所述根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容,包括:
根据预先收集得到的网站页面域名信息,对所述网站页面进行动态渲染,得到渲染后的网站页面;
从所述渲染后的网站页面中抓取所述网站页面内容。
3.如权利要求1所述的钓鱼网站的检测方法,特征在于,所述将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中,包括:
利用自动编码模型对所述页面截图训练集进行降维处理;
对降维处理后的所述页面截图训练集进行优化,以得到优化后的页面截图训练集;
根据所述优化后的页面截图训练集对自动编码模型进行训练,以得到训练好的特征提取模型;
通过所述特征提取模型提取所述页面截图的特征向量,并保存至Milvus库中。
4.如权利要求1所述的钓鱼网站的检测方法,特征在于,所述根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度,包括:
根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述网站图片的特征向量相似的前N条Milvus向量索引信息;其中,N为大于1的整数;
根据所述前N条Milvus向量索引信息与所述网站的IP信息,通过对比分析,得到与所述待检测网站页面截图的特征向量最相似的所述Milvus库中的目标特征向量;
根据所述目标特征向量与所述待检测网站页面截图的特征向量,得到页面目标相似度。
5.如权利要求4所述的钓鱼网站的检测方法,特征在于,所述根据所述目标特征向量与所述待检测网站页面截图的特征向量,得到页面目标相似度,包括:
对所述目标特征向量与所述待检测网站页面截图的特征向量进行归一化处理,得到归一化的目标特征向量与归一化的待检测网站页面截图的特征向量;
根据所述归一化的目标特征向量与所述归一化的待检测网站页面截图的特征向量,通过计算,得到目标相似度。
6.如权利要求1所述的钓鱼网站的检测方法,特征在于,所述基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站,包括:
当所述目标相似度小于所述预先设置的阈值,则所述待检测网站为钓鱼网站;
当所述目标相似度大于所述预先设置的阈值,根据查询得到的所述待检测网站的域名备案信息,判断所述待检测网站是否为钓鱼网站。
7.如权利要求6所述的钓鱼网站的检测方法,特征在于,所述当所述目标相似度大于所述预先设置的阈值,根据查询得到的所述待检测网站的域名备案信息,判断所述待检测网站是否为钓鱼网站,包括:
当所述待检测网站的域名备案信息与所述Milvus库中的所述网站页面域名信息不同时,则所述待检测网站为钓鱼网站。
8.一种钓鱼网站的检测方法装置,其特征在于,
抓取单元:根据预先收集得到的网站页面域名信息,抓取所述网站页面域名信息对应的网站页面内容;
截图单元:对所述网站页面内容进行截图处理,得到所述网站的页面截图;
训练单元:将所述页面截图作为训练集,通过自动编码模型的训练,提取所述页面截图的特征向量,并保存至Milvus库中;其中所述Milvus库中包括搜索索引;
搜索单元:根据得到的待检测网站页面截图的特征向量,在所述Milvus库中搜索与所述待检测网站页面截图的特征向量相似的网站页面,通过计算,得到页面目标相似度;
判断单元:基于所述页面目标相似度与预先设置的阈值,判断所述待检测网站是否为钓鱼网站。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述计算机可读指令为权利要求1-7任意一项所述的引擎生成的可读指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述任一权利要求1-7所述方法的步骤。
CN202210284038.0A 2022-03-22 2022-03-22 钓鱼网站的检测方法、装置、计算机设备及存储介质 Pending CN114650176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210284038.0A CN114650176A (zh) 2022-03-22 2022-03-22 钓鱼网站的检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210284038.0A CN114650176A (zh) 2022-03-22 2022-03-22 钓鱼网站的检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114650176A true CN114650176A (zh) 2022-06-21

Family

ID=81996249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210284038.0A Pending CN114650176A (zh) 2022-03-22 2022-03-22 钓鱼网站的检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114650176A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600040A (zh) * 2022-11-25 2023-01-13 清华大学(Cn) 一种钓鱼网站识别方法及装置
CN116366338A (zh) * 2023-03-30 2023-06-30 北京微步在线科技有限公司 一种风险网站识别方法、装置、计算机设备及存储介质
CN116644250A (zh) * 2023-07-27 2023-08-25 太平金融科技服务(上海)有限公司 页面检测方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张国战;: "网络钓鱼的攻击方式与识别技术", 价值工程, no. 34 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600040A (zh) * 2022-11-25 2023-01-13 清华大学(Cn) 一种钓鱼网站识别方法及装置
CN116366338A (zh) * 2023-03-30 2023-06-30 北京微步在线科技有限公司 一种风险网站识别方法、装置、计算机设备及存储介质
CN116366338B (zh) * 2023-03-30 2024-02-06 北京微步在线科技有限公司 一种风险网站识别方法、装置、计算机设备及存储介质
CN116644250A (zh) * 2023-07-27 2023-08-25 太平金融科技服务(上海)有限公司 页面检测方法、装置、计算机设备和存储介质
CN116644250B (zh) * 2023-07-27 2023-10-20 太平金融科技服务(上海)有限公司 页面检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107204960B (zh) 网页识别方法及装置、服务器
US11463476B2 (en) Character string classification method and system, and character string classification device
CN110602029B (zh) 一种用于识别网络攻击的方法和系统
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN108566399B (zh) 钓鱼网站识别方法及系统
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN109949154B (zh) 客户信息分类方法、装置、计算机设备和存储介质
CN107257390B (zh) 一种url地址的解析方法和系统
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
CN116366338B (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN106790025B (zh) 一种对链接进行恶意性检测的方法及装置
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN117081801A (zh) 网站的内容管理系统的指纹识别方法、装置及介质
CN116451071A (zh) 样本标注方法、设备及可读存储介质
CN115392238A (zh) 一种设备识别方法、装置、设备及可读存储介质
CN113992390A (zh) 一种钓鱼网站的检测方法及装置、存储介质
US8909795B2 (en) Method for determining validity of command and system thereof
CN114048311A (zh) 网络诈骗的预警方法、装置、设备及存储介质
CN111385295A (zh) 一种WebShell检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220621

WD01 Invention patent application deemed withdrawn after publication