CN111181922A - 一种钓鱼链接检测方法及系统 - Google Patents

一种钓鱼链接检测方法及系统 Download PDF

Info

Publication number
CN111181922A
CN111181922A CN201911243734.1A CN201911243734A CN111181922A CN 111181922 A CN111181922 A CN 111181922A CN 201911243734 A CN201911243734 A CN 201911243734A CN 111181922 A CN111181922 A CN 111181922A
Authority
CN
China
Prior art keywords
webpage
phishing
url
features
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911243734.1A
Other languages
English (en)
Inventor
魏海宇
王炳来
刘庆林
何济中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zorelworld Information Technology Co ltd
Original Assignee
Beijing Zorelworld Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zorelworld Information Technology Co ltd filed Critical Beijing Zorelworld Information Technology Co ltd
Priority to CN201911243734.1A priority Critical patent/CN111181922A/zh
Publication of CN111181922A publication Critical patent/CN111181922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种钓鱼链接检测方法和系统,通过将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。可以精确检测出钓鱼链接。

Description

一种钓鱼链接检测方法及系统
技术领域
本申请实施例涉及网络安全技术领域,具体涉及一种钓鱼链接检测方法及系统。
背景技术
所谓“钓鱼链接”是指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。钓鱼链接一般通过电子邮件传播,此类邮件中一个经过伪装的链接将收件人联到钓鱼网站,钓鱼网站通常伪装成为银行网站,窃取访问者提交的账号和密码信息。
为维护财产和网络安全,如何精准的检测出钓鱼链接,是亟待解决的问题。
发明内容
为此,本申请实施例提供一种钓鱼链接检测方法及系统,可以精确检测出钓鱼链接。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,本申请实施例提供了一种钓鱼链接检测方法,包括:
将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。
可选地,所述网页内容特征是特征提取模块基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
可选地,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
可选地,所述钓鱼链接检测模型是基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
可选地,还包括:所述钓鱼链接检测模型使用如下公式进行检测:
Figure BDA0002306947430000021
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
根据本申请实施例的第二方面,本申请实施例提供了一种钓鱼链接检测系统,包括:
钓鱼链接检测模块,用于将待检测的URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;
钓鱼链接检测模型生成模块,用于基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练;
网页文本标签分类模块,用于基于极限学习机分类器对所述网页提取特征进行分类,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
钓鱼链接检测结果输出模块,用于将所述钓鱼链接检测模块结果为是时,将所述待检测URL为钓鱼链接的结果输出;将所述钓鱼链接检测模块结果为非时,将所述待检测URL为非钓鱼链接的结果输出。
可选地,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
可选地,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
可选地,所述钓鱼链接检测模型生成模块具体用于:
基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
可选地,所述钓鱼链接检测模块具体用于:
所述钓鱼链接检测模型使用如下公式进行检测:
Figure BDA0002306947430000031
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
综上所述,本申请实施例提供的钓鱼链接检测方法和系统,通过将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。从而可以精确检测出钓鱼链接。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种钓鱼链接检测方法流程示意图;
图2为本申请实施例提供的钓鱼链接检测实施例示意图;
图3为本申请实施例提供的一种钓鱼链接检测系统示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
钓鱼链接检测是一种二分类问题,但是一旦检测出现错误,就可能会使受害者面临经济损失的风险,因此钓鱼链接识别的正确率至关重要。
目前,针对钓鱼链接的识别主要通过相关安全公司积累的钓鱼URL黑名单和基于机器学习的网页内容相似性这两种方法来进行的。
其中,基于钓鱼URL黑名单的检测方法需要维护了一个已知的钓鱼网站信息列表,以便根据列表检查当前访问的网站。一般而言,这份需要不断更新的黑名单包含已知网络钓鱼URL、IP地址和域名、证书或者关键词信息。黑名单的方法应用广泛,是主要的网络钓鱼URL检测技术之一。
第二种方法则是基于机器学习的相关方法,机器学习是人工智能的一个分支,基于机器学习的检测方法将网络钓鱼检测视为一个文本分类或聚类问题,然后运用各种分类算法(如K-近邻、C4.5、支持向量机、随机森林、K-means以及DBSCAN等)来构建相关机器学习检测模型对待检测的钓鱼URL进行识别。目前,机器学习方法主要分为有监督学习、半监督学习和无监督学习3种,因此基于机器学习的钓鱼链接检测也是使用这3类学习方法实现的。
这里以有监督学习的钓鱼链接检测为例对基于机器学习的网络钓鱼链接检测过程进行简要介绍概述。基于有监督学习方法的网络钓鱼检测是利用带标记的钓鱼数据(钓鱼邮件、钓鱼网站、钓鱼URL等)和带标记的合法数据分类得到一个分类器,通过得到的分类器对待检测数据进行分类的方法。整个检测流程中最重要的部分在于特征提取和特征表示。
上述基于钓鱼URL黑名单和基于机器学习的钓鱼链接检测方法均存在一定缺陷;例如第一种方法主要是将待检测的URL和黑名单中的网络钓鱼URL进行匹配,进而判定可疑URL的是否为钓鱼链接。然而,为了规避黑名单的检测,网络钓鱼攻击者往往需要不断地改变钓鱼网页的URL,而URL的任何一点变化都会导致黑名单中的URL匹配失败,从而导致检测出错的情况发生。其次,由于黑名单数量庞大,其加载和更新均需要较长的时间,这样将极大地影响黑名单方法的检测效果。而基于机器学习的网络钓鱼URL检测方法步骤主要分为模型训练阶段和待测试数据检测阶段。传统机器学习方法训练数据和选取特征需要耗费大量时间和精力,如此在一定程度上降低了分类的效率。
针对上述方法的不足,本申请实施例提供一种钓鱼链接检测方法及系统,基于极限学习机提出了一个构建线性混合特征模型的方法来识别钓鱼URL。
图1示出了本申请实施例提供的一种钓鱼链接检测方法流程示意图,包括如下步骤:
步骤101:将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;若结果为是,转入步骤102;若结果为非,转入步骤103。
步骤102:若结果为是,则判定所述待检测URL为钓鱼链接。
步骤103:若结果为非,则判定所述待检测URL为非钓鱼链接。
极限学习机(Extreme Learning Machine,ELM)是一个单隐藏的前馈神经网络。但是与传统的前馈神经网络不同,ELM的主要思想是:(机器或生物)学习可以不需要调整隐层节点,也就是说ELM网络隐藏层节点的权重随机生成或者人工定义,学习过程仅需计算输出权重;因此,极限学习机在一定程度上提升运行速度,加快了钓鱼链接检测模型的生成。同时,该检测模型涵盖了和钓鱼链接相关的特征信息,包括URL基础特征,网页内容特征以及网页链接特征之间的规则特征,避免了因为特征过少而导致检测出错的情况发生。
大多数钓鱼网页所包含的文本内容均具有一定的恶意性。因此,提取网页文本特征成为钓鱼网页判定的一个关键步骤,本申请实施例提供的提取步骤主要是基于极限学习机分类器进行的,提取的特征为Title特征和String特征。传统的方法主要是提取了Title特征和String特征,然后用相应的机器学习方法处理所述Title特征和所述String特征,本申请实施例使用极限学习机的方法取代机器学习方法。之所以提取这两个特征,是因为这两个特征涵盖了网页文本内容全部特征,具有代表性。
在一种可能的实施方式中,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;去除网页HTML文本中的停用词;使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
具体来说,本申请实施例提供的网页内容特征的提取步骤如下:
步骤1:从待检测网页HTML源码汇总提取Title标签,可以使用JSOUP爬虫的方式。使用JSOUP是该方法正确率高,也可以使用别的特征导出器。
步骤2:去除网页HTML文本中的停用词;所述停用词是指在信息检索中,为了节省存储空间和提高搜索效率,处理自然语言数据(或者文本)前后自动过滤的某些字或词。
步骤3:使用TF-IDF算法来计算网页文本中的每个词的分数。
步骤4:根据步骤3中的每个词的分数,将排名在前N个位置的词汇作为钓鱼网页标题标签中的关键字。在判定过程中,如果第j个待检测网页中Title包含了上述第i个关键词,那么FLAGij设定为1。否则,FLAGij设定为0。由此获取一个待检测网页关于文本内容的分类矩阵。
步骤5:使用极限学习机训练步骤4的文本内容的分类矩阵,确定所述文本内容的Title标签。如果Title标签的文本特征是恶意的,就需要将基于文本内容中的Title特征赋值为1,否则,设置为0即可。
同理,网页文本内容中的String特征提取网页文本中的HTML源码中的Head标签和Body标签,也同样按照上述步骤进行提取。文本内容中的特征包含Title特征和String特征,而String特征来源于网页文本中的Head标签和Body标签,在提取步骤中,只有步骤1不一样,将Title标签分别换成Head标签和Body标签。
在一种可能的实施方式中,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的,具体可以包括如下步骤:
步骤1:使用浏览器模拟工具,登录指定的URL网址,从而产生相应的网络流量。
步骤2:使用流量转存工具留存待检测的流量。
步骤3:使用流量解析器解析第一步中留存下来的流量,具体到协议类型和字段。
步骤4:从解析到的协议内容和字段中匹配到相应的域名信息和IP地址信息。
步骤5:查看并统计协议内容中的登录字段信息、URLs数量信息和DNS记录。
本申请实施例提供的URL基础特征包括但不限于以下几种特征:
IP地址;IP地址的提取,点分十进制的IP提取。
域名中的符号@:URL地址中@符号前后的可信度不一样,@符号可用于隐藏URL中的恶意部分,@符号之前的字符串通常是比较可信的字符串,而在
子域名:模仿著名的域名后通常会添加上钓鱼URL来迷惑用户。
长域名:攻击者经常会使用到这一点,在自己的钓鱼URL中包含诸如Paypal的字符串来骗取用户的信任。
网站流量:合法的网站通常会在Alexa数据库中有高访问量排名,钓鱼网站的访问量会比较低。
DNS记录:如果DNS记录为空,通常会被认为是恶意行为。
域名的使用年限:大多数钓鱼网址的使用年限较短。
登录形式:很多钓鱼链接会模拟一个假的网站来来窃取攻击者的私密信息。因此,本专利提供的方法中使用“登录形式”来作为钓鱼URL检测模型中的一个基础性特征。
URLs的数量;链接指向排名的特征,越多链接排名指向的URL地址则拥有较高的可信度。该特征可在著名网站“Who.is”中的数据库中获取。
在一种可能的实施方式中,所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。在一个网页页面中,拥有很多内部链接(NIL)和外部链接(NEL),内部链接是指跳转到网站内部的链接,而外部链接则是指跳转到网站外部的链接。内部链接和外部链接的判断方法可以是查看该链接是否包含当前网页网页中的域名信息,如果包含,则是内部链接,否则会认定为外部链接。
合法的网页页面通常依赖于经过认证的URL域名,而大多数钓鱼网页则是合法网页的副本,其众多链接均指向其他网页副本。在合法网页页面中,其内部链接比外部链接多;而在网页钓鱼页面中,其外部链接数量则比内部链接多。利用这个特性,本申请实施例提出了两条关于网页页面中的内部链接和外部链接的规则。
规则一:如果NIL>=0并且NEL>=NIL,那么该网页页面中的链接关系就是可疑的。
规则二:如果NIL>0并且NEL<NIL,那么该网页页面中的链接关系就是合法的。
本步骤中的NIL值和NEL值可以采取如下步骤进行计算:
步骤1:读取当前网页URL中的域名。
步骤2:以字符串形式读取网页页面中的所有字符信息。
步骤3:提取上述字符信息中的URL网址信息,并将其写入到列表中。
步骤4:利用内部链接和外部链接的判断方法来对列表中的URL进行判断,将结果赋给NIL和NEL即可。
在一种可能的实施方式中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
在一种可能的实施方式中,所述钓鱼链接检测模型使用如下公式(1)进行检测:
Figure BDA0002306947430000091
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
这里需要让模型取得条件是让
Figure BDA0002306947430000101
如此可以得到权重v=[v1,v2,...,vEn]T的线性方程组。进一步基于极限学习机分类器,可得到权重如下公式(2):
Figure BDA0002306947430000102
其中,
Figure BDA0002306947430000103
可知F(x)-1是F(x)的可逆矩阵,而v是方程组的唯一最小范数最小二乘解,F(x)可由上述公式(1)得到。
这里的线性混合极限学习机算法步骤如下所示:
输入:训练数据D={(x1,t1),(x2,t2),...,(xN,tN)};训练样本大小En。
输出:基础分类器fj(j=1,2,3,...,En)和权重
Figure BDA0002306947430000104
Figure BDA0002306947430000105
本申请实施例提供的钓鱼链接检测模型是一种混合多特征的二分类模型,是经过大量钓鱼URL数据和正常URL数据训练生成的,用来判定待检测的URL是否为钓鱼网站。相关软件开发者可通过该模型提供的应用程序接口API来判断待检测的URL是否为钓鱼URL。
为了本申请实施例提供的钓鱼链接检测方法更清晰,图2示出了本申请实施例提供的钓鱼链接检测方法实施例流程图。
从具体实现的角度出发,整个预测模型是基于两层极限学习机来实现的,第一层是通过极限学习机来对网页内容特征进行分类,并预测其中网页内容标签。第二层则是基于极限学习机来将上述所有钓鱼URL特征以线性混合特征模型分类器融合到一起,然后生成钓鱼链接检测模型。
如图2所示,第一阶段为训练阶段,使用了特征提取模块从训练数据集中提取Web网页内容特征、URL基础特征以及Web链接特征,进一步,基于上述提取的特征信息预测Web页面中的标签信息,进一步将所得到的网页内容分为基础的n个分类,同时使用线性方法结合上述的三种类型的特征特征提取模块训练。待检测的URL是原始数据,URL基础性特征和Web页面原始HTML源代码均是通过原始URL得到的。
线性混合特征模型分类器将上述所有钓鱼URL特征以线性方式融合到一起,然后生成钓鱼URL检测模型。
第二阶段则是测试阶段,输入为第一阶段产生的分类数据,然后基于极限学习机来生成线性混合特征的钓鱼URL检测模型。钓鱼URL检测模型,该检测模型是经过大量钓鱼URL数据和正常URL数据生成的,用来判定待检测的URL是否为钓鱼网站。相关软件开发者可通过该模型提供的应用程序接口API来判断待检测的URL是否为钓鱼URL。
相较于基于传统机器学习算法的钓鱼URL检测方法不同,本申请实施例提出的也可以概括为一种基于极限学习机的多特征混合模型的钓鱼URL二分类方法,该方法在保证学习精度的前提下比传统机器学习算法速度更快。因为传统的一些机器学习算法均是在梯度下降上进行的。而在极限学习机中,一旦输入权重Wi和隐层的偏置bi被随机确定,隐层的输出矩阵H就被唯一确定,训练单隐层神经网络可以转化为求解一个线性系统。
在特征提取阶段,本申请实施例提出了一种基于极限学习机提取了待检测网页的标签特征的方法,该方法在一定程度上减轻了标签分类人员重复性工作,同时提升了标签分类速度以及准确率;在特征混合阶段,本申请实施例提出了一种基于极限学习机的线性混合特征的分类方法,该方法融合了web文本内容,URL基础信息以及Web网页内容链接等特征,扩展了基于传统机器学习算法的钓鱼URL分类模型,提升了检测正确率。
综上所述,通过将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。从而可以精确检测出钓鱼链接。
基于相同的技术构思,本申请实施例还提供了一种钓鱼链接检测系统,如图3所示,该系统包括:
钓鱼链接检测模块301,用于将待检测的URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接。
钓鱼链接检测模型生成模块302,用于基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练。
网页文本标签分类模块303,用于基于极限学习机分类器对所述网页提取特征进行分类,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征。
钓鱼链接检测结果输出模块304,用于将所述钓鱼链接检测模块结果为是时,将所述待检测URL为钓鱼链接的结果输出;将所述钓鱼链接检测模块结果为非时,将所述待检测URL为非钓鱼链接的结果输出。
在一种可能的实施方式中,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;去除网页HTML文本中的停用词;使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
在一种可能的实施方式中,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
在一种可能的实施方式中,所述钓鱼链接检测模型生成模块具体用于:基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
在一种可能的实施方式中,所述钓鱼链接检测模块301具体用于:
所述钓鱼链接检测模型使用如下公式进行检测:
Figure BDA0002306947430000131
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种钓鱼链接检测方法,其特征在于,所述方法包括:
将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。
2.如权利要求1所述的方法,其特征在于,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用词频-逆文档频率法TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
3.如权利要求1所述的方法,其特征在于,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
4.如权利要求1所述的方法,其特征在于,所述钓鱼链接检测模型是基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
5.如权利要求1所述的方法,其特征在于,还包括:所述钓鱼链接检测模型使用如下公式进行检测:
Figure FDA0002306947420000021
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
6.一种钓鱼链接检测系统,其特征在于,所述系统包括:
钓鱼链接检测模块,用于将待检测的URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;
钓鱼链接检测模型生成模块,用于基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练;
网页文本标签分类模块,用于基于极限学习机分类器对所述网页提取特征进行分类,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
钓鱼链接检测结果输出模块,用于将所述钓鱼链接检测模块结果为是时,将所述待检测URL为钓鱼链接的结果输出;将所述钓鱼链接检测模块结果为非时,将所述待检测URL为非钓鱼链接的结果输出。
7.如权利要求6所述的系统,其特征在于,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。
8.如权利要求6所述的系统,其特征在于,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。
9.如权利要求6所述的系统,其特征在于,所述钓鱼链接检测模型生成模块具体用于:
基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。
10.如权利要求6所述的系统,其特征在于,所述钓鱼链接检测模块具体用于:
所述钓鱼链接检测模型使用如下公式进行检测:
Figure FDA0002306947420000031
其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。
CN201911243734.1A 2019-12-06 2019-12-06 一种钓鱼链接检测方法及系统 Pending CN111181922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911243734.1A CN111181922A (zh) 2019-12-06 2019-12-06 一种钓鱼链接检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911243734.1A CN111181922A (zh) 2019-12-06 2019-12-06 一种钓鱼链接检测方法及系统

Publications (1)

Publication Number Publication Date
CN111181922A true CN111181922A (zh) 2020-05-19

Family

ID=70650176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911243734.1A Pending CN111181922A (zh) 2019-12-06 2019-12-06 一种钓鱼链接检测方法及系统

Country Status (1)

Country Link
CN (1) CN111181922A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488953A (zh) * 2020-06-28 2020-08-04 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN112257783A (zh) * 2020-10-22 2021-01-22 北京中睿天下信息技术有限公司 僵尸网络流量的分类方法、装置和电子设备
CN112989341A (zh) * 2021-03-03 2021-06-18 中国信息通信研究院 一种涉诈网页的确定方法、系统和介质
CN113347177A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 钓鱼网站检测方法、检测系统、电子设备及可读存储介质
CN114070653A (zh) * 2022-01-14 2022-02-18 浙江大学 混合钓鱼网站检测方法及装置、电子设备、存储介质
CN114465780A (zh) * 2022-01-14 2022-05-10 广东盈世计算机科技有限公司 一种基于特征提取的钓鱼邮件检测方法及系统
CN114978624A (zh) * 2022-05-09 2022-08-30 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN115622739A (zh) * 2022-09-20 2023-01-17 浪潮云信息技术股份公司 一种面向url和标签结合的泛化钓鱼网站检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537303A (zh) * 2014-12-30 2015-04-22 中国科学院深圳先进技术研究院 一种钓鱼网站鉴别系统及鉴别方法
CN105426760A (zh) * 2015-11-05 2016-03-23 工业和信息化部电信研究院 一种安卓恶意应用的检测方法及装置
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
US20190014149A1 (en) * 2017-07-06 2019-01-10 Pixm Phishing Detection Method And System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537303A (zh) * 2014-12-30 2015-04-22 中国科学院深圳先进技术研究院 一种钓鱼网站鉴别系统及鉴别方法
CN105426760A (zh) * 2015-11-05 2016-03-23 工业和信息化部电信研究院 一种安卓恶意应用的检测方法及装置
US20190014149A1 (en) * 2017-07-06 2019-01-10 Pixm Phishing Detection Method And System
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI ZHANG ETAL;: "Two-stage ELM for phishing Web pages detection using hybrid features", 《WORLD WIDE WEB》 *
张茜等: "网络钓鱼欺诈检测技术研究", 《网络与信息安全学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488953A (zh) * 2020-06-28 2020-08-04 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN111488953B (zh) * 2020-06-28 2020-10-13 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN112257783A (zh) * 2020-10-22 2021-01-22 北京中睿天下信息技术有限公司 僵尸网络流量的分类方法、装置和电子设备
CN112989341A (zh) * 2021-03-03 2021-06-18 中国信息通信研究院 一种涉诈网页的确定方法、系统和介质
CN113347177A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 钓鱼网站检测方法、检测系统、电子设备及可读存储介质
CN114070653A (zh) * 2022-01-14 2022-02-18 浙江大学 混合钓鱼网站检测方法及装置、电子设备、存储介质
CN114465780A (zh) * 2022-01-14 2022-05-10 广东盈世计算机科技有限公司 一种基于特征提取的钓鱼邮件检测方法及系统
CN114978624A (zh) * 2022-05-09 2022-08-30 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN114978624B (zh) * 2022-05-09 2023-11-03 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN115622739A (zh) * 2022-09-20 2023-01-17 浪潮云信息技术股份公司 一种面向url和标签结合的泛化钓鱼网站检测方法及系统

Similar Documents

Publication Publication Date Title
CN111181922A (zh) 一种钓鱼链接检测方法及系统
Wang et al. PDRCNN: Precise phishing detection with recurrent convolutional neural networks
Li et al. A stacking model using URL and HTML features for phishing webpage detection
Jain et al. A machine learning based approach for phishing detection using hyperlinks information
Opara et al. HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis
Yuan et al. Malicious URL detection based on a parallel neural joint model
Abdullah et al. Fake news classification bimodal using convolutional neural network and long short-term memory
EP3972192B1 (en) Method and system for layered detection of phishing websites
Patil et al. Feature-based Malicious URL and Attack Type Detection Using Multi-class Classification.
Khan et al. Phishing attacks and websites classification using machine learning and multiple datasets (a comparative analysis)
Chai et al. An explainable multi-modal hierarchical attention model for developing phishing threat intelligence
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
Nowroozi et al. An adversarial attack analysis on malicious advertisement URL detection framework
Vajrobol et al. Mutual information based logistic regression for phishing URL detection
CN111754338B (zh) 一种套路贷网站团伙识别方法及系统
Hara et al. Machine-learning approach using solidity bytecode for smart-contract honeypot detection in the ethereum
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
Khan Detection of phishing websites using deep learning techniques
Gupta et al. GeneMiner: a classification approach for detection of XSS attacks on web services
Linh et al. Real-time phishing detection using deep learning methods by extensions
Kumarasiri et al. Cybersmish: A Proactive Approach for Smishing Detection and Prevention using Machine Learning
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
Alsaedi et al. Multi-Modal Features Representation-Based Convolutional Neural Network Model for Malicious Website Detection
Elnagar et al. A cognitive framework for detecting phishing websites
CN113204954A (zh) 基于大数据的数据检测方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519