CN101145902A - 基于图像处理的钓鱼网页检测方法 - Google Patents

基于图像处理的钓鱼网页检测方法 Download PDF

Info

Publication number
CN101145902A
CN101145902A CNA2007101308096A CN200710130809A CN101145902A CN 101145902 A CN101145902 A CN 101145902A CN A2007101308096 A CNA2007101308096 A CN A2007101308096A CN 200710130809 A CN200710130809 A CN 200710130809A CN 101145902 A CN101145902 A CN 101145902A
Authority
CN
China
Prior art keywords
webpage
subimage
similarity
image
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101308096A
Other languages
English (en)
Other versions
CN100583738C (zh
Inventor
曹玖新
罗军舟
毛波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN200710130809A priority Critical patent/CN100583738C/zh
Publication of CN101145902A publication Critical patent/CN101145902A/zh
Application granted granted Critical
Publication of CN100583738C publication Critical patent/CN100583738C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及图像信息处理以及网络安全领域,尤其涉及一种基于图像分割的钓鱼网页检测方法。本发明采用逐一计算可疑钓鱼网页与各个受保护网页之间的相似度,将可疑网页与受保护网页之间的相似度小于预先设定的值的可疑网页判为针对该受保护网页的钓鱼网页。本发明的特点是直接分析用户所访问的网页图像,可靠性高,不易被网页设计技巧所欺骗;通过对网页图片进行分割可以进行部分匹配,防止由于部分相似而引起的网络钓鱼;使用子图像特征和关系并重的匹配方法,更加符合视觉心理学,使匹配结果更加准确。根据试验测得的数据显示,本发明具有网页图像检测准确性高的优点。

Description

基于图像处理的钓鱼网页检测方法
技术领域
本发明涉及图像信息处理以及网络安全领域,涉及一种反网络钓鱼的方法,尤其涉及一种基于图像处理的钓鱼网页检测方法。
背景技术
网络钓鱼(Web Phishing)是一种在线身份冒充,它综合使用社会工程学(即骗术)和技术手段(包括恶意代码、钓鱼邮件、监听软件等),以窃取网络用户的个人身份信息或帐号、密码、信用卡号等。网络钓鱼目前已经成为用户信息安全的极大威胁,并给用户造成了巨大的经济损失(据权威机构预测美国2007年因网络钓鱼引起的损失达到28亿美元);同时由于网络钓鱼的肆虐,恶化了网络生态环境,严重阻碍了我国网上银行、在线支付等电子金融的发展。
目前常用对网络钓鱼的防范主要包括以下三种措施。
一、电子邮件检测。该方法通过在邮件服务器上设置邮件过滤策略,通过检测邮件中的超链接,内嵌脚本中域名的有效性和一致性来发现钓鱼网页。
二、个人信息保护。该方法通过检测用户发出的所有信息的目的地址,以及所发信息的机密程度来判断此次发送的安全性,如果发现不安全的发送便会阻断该发送或向用户询问是否在有威胁的情况下继续发送。
三、网络行为检测。该方法通过模拟用户的提交行为,向网页发送预先构造的用户名和密码,如果服务器回应提交成功,则证明该网页为钓鱼网页。
但以上三种方法都存在很大的不足,方法一无法检测包含图像的邮件,包括使用图片和映射的方法提供的链接或以图片显示的地址等;方法二则会大幅降低网络速度,同时规则的维护也极为复杂,而且涉及用户的隐私,因此很难部署;方法三无法应对桥接攻击,同时简单的自动提交防范机制(验证码)就能使该方失效。
发明内容
本发明针对现有技术的不足和缺陷,提供一种准确性高、可靠性强且能够减小被欺骗可能性的基于图像处理的钓鱼网页检测方法。
本发明采用如下技术方案:
逐一计算可疑钓鱼网页与各个受保护网页之间的相似度,将可疑网页与受保护网页之间的相似度小于预先设定的值的可疑网页判为针对该受保护网页的钓鱼网页;
上述网络钓鱼为:通过仿造网上金融或其他网络服务提供商的相关页面,诱导用户输入敏感信息,并非法取得该敏感信息的手段;
上述可疑钓鱼网页为:从可疑邮件中检测出的链接地址所指向的网页,或由用户上报的钓鱼网页;
上述受保护网页为:网络钓鱼所伪造的对象网页;
上述计算网页相似度的方法为:
步骤1,将网页转换为图像;
步骤2,对所得图像进行分割;
步骤3,提取其分割后子图像的图像特征;
步骤4,生成子图像之间的相对位置关系;
步骤5,将子图像的图像特征和子图像的相对位置关系组成该页面的特征关系集合;
步骤6,计算两个网页的特征关系集合之间的距离并以此作为这两个网页的相似度,两个网页之间的距离小于0.02的两个网页为相似网页;
其中步骤4中子图像之间的相对位置关系由一个9维向量表示,该9维向量的每个分量表示由任一子图像所确定的9个象限中的每个象限与另一子图像之间的位置关系,设用于确定9个象限的任一子图像为矩形,延长该矩形的四条边将把图像平面分为9个部分,从左上角开始顺时针编号1~8,中心编号为9,由此形成第1~9象限,该子图像与另一子图像之间相对位置关系的求取方法为:只需判断另一子图像在该子图像所分割的9个部分中的分布状况,将出现全部或部分另一子图像的象限记为1,则与该象限对应的第i维分量就为1,否则为0,根据上述方法,求出由关系矩阵表示的原网页图像所有子图像之间的相对位置关系。本发明通过将网页转化为图像,并对所的图像进行分割、特征提取、子图像关系检测得到特征关系集合,再求出可疑网页与受保护网页之间特征关系集合的NEMD距离,从而发现可疑网页与受保护网页之间的相似度,并根据该相似度判断可疑网页是否是钓鱼网页。如果可疑网页与受保护网页及其相似,则该可疑网页已经侵犯了受保护网页的“肖像权”,即使该可疑网页并非钓鱼网页也会误导用户并引发不必要的威害。
本发明的特点是直接分析用户所访问的网页图像,可靠性高,不易被网页设计技巧所欺骗;通过对网页图片进行分割可以进行部分匹配,防止由于部分相似而引起的网络钓鱼;使用子图像特征和关系并重的匹配方法,更加符合视觉心理学,使匹配结果更加准确。根据试验测得的数据显示,本发明具有网页图像检测准确性高的优点。
附图说明
图1钓鱼网页检测流程图。
图2为本发明所述分割方法的流程图。
图3为本发明所述系统的结构示意图。
图4为本发明所述的子区域关系示意图。
图5为本发明与国际现有先进方法的比较。
图6为本发明与国际现有先进方法的平均比较。
具体实施方式
基于图像处理的钓鱼网页检测方法,具体如下:逐一计算可疑钓鱼网页与各个受保护网页之间的相似度,将可疑网页与受保护网页之间的相似度小于预先设定的值的可疑网页判为针对该受保护网页的钓鱼网页;
上述网络钓鱼为:通过仿造网上金融或其他网络服务提供商的相关页面,诱导用户输入敏感信息,并非法取得该敏感信息的手段;
上述可疑钓鱼网页为:从可疑邮件中检测出的链接地址所指向的网页,或由用户上报的钓鱼网页;
上述受保护网页为:网络钓鱼所伪造的对象网页;
上述计算网页相似度的方法为:
步骤1,将网页转换为图像;
步骤2,对所得图像进行分割;
步骤3,提取其分割后子图像的图像特征;
步骤4,生成子图像之间的相对位置关系;
步骤5,将子图像的图像特征和子图像的相对位置关系组成该页面的特征关系集合;
步骤6,计算两个网页的特征关系集合之间的距离并以此作为这两个网页的相似度,两个网页之间的距离小于0.02的两个网页为相似网页;
其中步骤4中子图像之间的相对位置关系由一个9维向量表示,该9维向量的每个分量表示由任一子图像所确定的9个象限中的每个象限与另一子图像之间的位置关系,设用于确定9个象限的任一子图像为矩形,延长该矩形的四条边将把图像平面分为9个部分,从左上角开始顺时针编号1~8,中心编号为9,由此形成第1~9象限,该子图像与另一子图像之间相对位置关系的求取方法为:只需判断另一子图像在该子图像所分割的9个部分中的分布状况,将出现全部或部分另一子图像的象限记为1,则与该象限对应的第i维分量就为1,否则为0,根据上述方法,求出由关系矩阵表示的原网页图像所有子图像之间的相对位置关系。
上述图像分割方法由以下步骤组成:
步骤1,预处理:预处理是采用通用的坎尼算子边界检测方法将网页图像转换为初始二值图像;
步骤2,将预处理所得的二值图像设为初始子图像,置于待分割子图像集合中(初始该集合中只有初始子图像);
步骤3,判断待分割子图像集合是否为空,如果为空则结束,否则进入步骤4;
步骤4,从待分割子图像集合中任取某个子图像对其进行收缩处理,得到有效子图像;
步骤5,判断该有效子图像是否可分割,如果可分割,检测出该子图像中面积最大的分割带,并以此将该子图像一分为二,同时把分割后的两个子图像存入待分割子图像集合中,如果不能分割则将其存入以分割子图像集合中;
步骤6,转步骤3。
步骤3所述的图像特征包括彩色信息,灰度信息以及长度和宽度,彩色信息和灰度信息采用直方图统计的方法;子图像长度和宽度直接由分割结果得到,
上述彩色信息采用直方图获取方法:将原图转换到色度纯度亮度(HSV)颜色空间并将其非均匀量化为32种颜色,在此基础上提取彩色直方图,并对其进行归一化处理;灰度信息采用直方图获取方法:将原图转换为黑白图像,并对其进行拉伸,增强对比度,再将整个灰度空间量化为32个灰度,在此基础上提取灰度直方图,并对其进行归一化处理。
上述计算两个网页的特征关系集合之间相似度的方法采用嵌套运土者距离方法,该嵌套运土者距离方法为:确定步骤5所述的特征关系集合中的子图像的图像特征的相似度,所述子图像的图像特征相似度的确定方法采用综合加权距离,该综合加权距离包括归一化彩色直方图相似度、归一化灰度直方图相似度以及长宽相似度,其权值各为1/3;确定步骤5所述的特征关系集合中的子图像的相对位置关系的相似度,所述子图像的相对位置关系的相似度的确定方法采用归一化的运土者距离;最后根据子图像的图像特征相似度和子图像的相对位置关系相似度,采用嵌套运土者距离计算两个特征关系集合之间的相似度,所述嵌套运土者距离的计算方法为:首先求出所有子图像两两之间的内部距离矩阵,该内部距离矩阵的大小为M×N,其中M、N为分别为两个待检测网页中的子图像的个数,内部距离矩阵的元素由前述子图像的图像特征相似度和子图像的相对位置关系相似度给出,根据该内部距离矩阵,采用运土者距离算法求出子图像之间的外部距离,所有子图像之间的外部距离构成一个外部距离矩阵,大小为M×N,其中M、N为分别为两个待检测网页中的子图像的个数,基于该外部距离矩阵,并将两个待检测网页中所有子图像的权值设为相等,再次使用运土者距离算法求出两个待检测网页的距离,该距离即为网页的嵌套运土者距离。
下面参照附图,对本发明的具体实施方式加以详细描述:
根据网页图像的特征关系集合,逐一计算可疑钓鱼网页与各个受保护网页之间的相似度,将可疑网页与受保护网页之间的相似度小于预先设定的值的可疑网页判为针对该受保护网页的钓鱼网页;受保护网页的特征关系集合可以预先计算出并存储于数据库中,这样可以提高检索效率;
上述网络钓鱼为:通过仿造网上金融或其他网络服务提供商的相关页面,诱导用户输入敏感信息,并非法取得该敏感信息的手段;
上述可疑钓鱼网页为:从可疑邮件中检测出的链接地址所指向的网页,或由用户上报的钓鱼网页;
上述受保护网页为:网络钓鱼所伪造的对象网页;
根据国际反网络钓鱼工作组(Anti-Phishing Work Group APWG)的统计,80%的网络钓鱼针对11家网络金融服务提供商,因此受保护网页数据库不会十分庞大。同时通过电子邮件检测、网络流量捕获,用户报告等方式各个网络钓鱼分析节点获取疑似钓鱼网站地址。
如图1所示,上述计算网页相似度的方法为:
步骤1,将网页转换为图像;根据需求不同可以使用Java语言中的容器,或商业软件如HTML2JPG完成。该转换以网页地址(URL)为输入,取得网页内容后将其自动转换为设定格式的图片(如JPEG或BMP等)并保存在预先制定的位置;
步骤2,对所得图像进行分割;对步骤1所得的待检测网页的图像进行分割,将其分成包含网页中各个特征块的子图像。如图2所示,具体步骤如下:
步骤2.1,预处理。预处理是指采用通用的坎尼算子边界检测方法将网页图像转换为初始二值图像;
步骤2.2,将预处理所得的二值图像设为初始子图像,置于待分割子图像集合中(初始该集合中只有初始子图像);
步骤2.3,判断待分割子图像集合是否为空,如果为空则结束分割并转步骤3,否则进入步骤2.4;
步骤2.4,从待分割子图像集合中任取某个子图像对其进行收缩处理,得到有效子图像;
步骤2.5,判断该有效子图像是否可分割,如果可分割,检测出该子图像中面积最大的分割带,并以此将该子图像一分为二,同时把分割后的两个子图像存入待分割子图像集合中,如果不能分割则将其存入以分割子图像集合中;
步骤2.6,转步骤2.3。
步骤3,提取分割后子图像的图像特征;在子图像特征提取方面,特征包括彩色信息,灰度信息以及度长和宽度,彩色信息和灰度信息采用直方图统计的方法;子图像长度和宽度直接由分割结果得到。具体而言,彩色信息直方图的获取方法为,将原图转换到HSV颜色空间并将其非均匀量化为32种颜色[见参考文献1],在此基础上提取彩色直方图,并对其进行归一化处理。灰度信息直方图获取方法为,将原图转换为黑白图像,并对其进行拉伸,增强对比度,再将整个灰度空间量化为32个灰度,在此基础上提取灰度直方图,并对其进行归一化处理。步骤4,生成子图像之间的相对位置关系;
步骤4,生成子图像之间的相对位置关系;子图像之间的相对位置关系由一个9维向量表示,该9维向量的每个分量表示由一个子图像所确定的9个象限中另一子图像的分布状况。根据分割的结果,每个子图像都为矩形,延长该矩形的四条边将把平面分为9个部分,从左上角开始顺时针编号1~8,中心编号为9,如图4所示。求该子图像与另一子图像之间的关系时,只需判断另一子图像在该子图像所分割的9个部分中的分布状况,如果另一子图像出现在该子图像所确定的第i个象限中,则该9维向量的第i维为1,否则为0。例如图4中,子图像A与B的关系R(A,B)={0,0,0,0,1,1,0,0,0},其中第五和第六个分量为1,表示B在由A所分割的平面上的第五和第六个区域。根据以上方法,可以求出原网页图像所有子图之间的相对位置关系(由关系矩阵表示)。
步骤5,子图的特征和关系组成该页面的特征关系集合;
步骤6,使用嵌套运土者距离方法计算两个网页的特征关系集合之间的距离并以此作为这两个网页的相似度;在特征关系集合之间的匹配方面,使用综合加权相似度描述特征之间的相似程度,该综合加权距离包括归一化彩色直方图相似度,归一化灰度直方图相似度以及长宽相似度,其权值各为1/3;使用归一化的运土者距离(EMD Earth Mover’s Distance)来计算关系相似度;最后根据特征和关系距离并使用嵌套运土者距离(NEMD)来计算两个特征关系集之间的相似度。
具体而言,归一化彩色直方图和灰度直方图的相似度为对应的相同颜色或灰度的最小值相加,这样1表示完全相似,0表示完全不同。长宽相似度为较小的长和宽的乘积比较大的长和宽的乘积,同样,0为完全不同,1为完全相似。这样再对以上三个相似度进行加权求和,将所得的相似度作为两个子图像的特征相似度,再用1减去该特征相似度得到子图像特征的距离(0为完全相似,1为完全不同)。
关系距离使用EMD计算,其中关系由9维向量表示,并以此作为EMD算法中的特征向量,再根据预设的每个分量之间的距离生成距离矩阵,该预设距离可以根据具体应用进行设定,例如可以采用曼哈顿距离,或欧拉距离等。
NEMD首先根据输入的两个子图像特征关系集合及其对应的特征和关系之间的距离,求出内部EMD,再根据内部EMD求出两个子图像之间的距离;求出所有子图像之间的距离,组成外部EMD,并由该外部EMD求出两个子图像特征关系集合的距离,并以此判断这两个集合的相似度,从而得到其对应网页的相似度。
实施实例。如图3所示,将本发明方法部署于独立的钓鱼分析节点,并使用网络钓鱼控制中心保存和维护受保护网页信息,其数据分布与域名服务(DNS)相似,由中心节点——网络钓鱼控制中心负责受保护数据库的更新维护,各个分析节点从控制中心取得受保护网页,并建立本地缓存机制,定期更新。为了进行大规模的钓鱼网页检测,在各个邮件服务器端的垃圾邮件检测规则中增加对钓鱼邮件检测的相关配置,对钓鱼邮件进行初步处理,并将可疑钓鱼邮件交付网络钓鱼分析结点,各个分析结点可以位于邮件服务其或独立的分析服务器上,并通过网络与钓鱼控制中心相连,分析服务器主要对可疑邮件中的网页进行处理并提取出可疑网页的特征关系集合,在与从钓鱼控制中心得到的受保护网页的特征关系集合进行匹配,以发现钓鱼网页,如果发现钓鱼网页则通知钓鱼控制中心,中心汇总各个网络钓鱼分析结点所提供的数据建立钓鱼网站黑名单,并通知所有分析结点和受害网站,受害网站可以警告其用户,或向公安机关报案,公安机关则可据此取缔钓鱼网站或钓鱼邮件发送主机并追究相关责任人的法律责任。
发明特点。基于本发明方法开发了原型系统,包括网页转换为图像,图像预处理,网页图像分割,特征关系提取,和特征关系集匹配等。从实施效果来看,本发明能在合理的时间内,准确的判断两个网页的相似程度,抗干扰性好,分析结果可靠准确,超过目前已有的钓鱼网页分析方法。此外由于引入了图像的分割使得本发明可以匹配部分网页,大大增加了本方法的有效性。在对7个钓鱼网页的检测中,本发明方法体现出明显的优势,具体数据如下:
表1 Yu的钓鱼网页检测方法
t-eBay   t-EarthLink t-ICBC   t-WellsFargo   t-USBank   t-Washington
  f-eBay1f-eBay2f-EarthLinkf-ICBCf-WellsFargof-US Bankf-Washington   0.00410.00480.01870.05910.04240.01720.0293   0.02920.02940.02930.06330.05710.02400.0231   0.0650.06430.06090.0030.06720.05960.0597   0.04320.04340.05610.06640.01210.04130.0614   0.01960.02030.02480.05660.04190.00170.0299   0.02560.02490.01430.05890.05590.02280.0095
表2本发明钓鱼网页检测方法
t-eBay   t-EarthLink t-ICBC   t-WellsFargo   t-USBank   t-Washington
  f-eBay1f-eBay2f-EarthLinkf-ICBCf-WellsFargof-US Bankf-Washington   0.01510.00320.19850.32190.14140.33700.2470   0.20440.20510.19890.41680.13430.33930.2642   0.34830.32320.42570.00100.45160.21530.4280   0.14720.14520.08200.45990.01350.27200.1777   0.34580.33950.34900.21550.27060.00520.3387   0.23830.24050.24490.42100.16850.33540.0125
表1,2中分别显示了Yu检测方法与本发明方法对钓鱼网页(以f-开头)及其所针对的真实网页(以t-开头)之间相似度的计算结果。其中针对EarthLink的钓鱼网页与真实网页有很大的区别,所以两种方法都无法检测。根据表1和2的结果,求出了最坏情况对比度(图5所示)和平均对比度(图6所示),从图5和图6的对比度来看本发明方法明显优于Yu的方法。

Claims (4)

1.一种基于图像处理的钓鱼网页检测方法,其特征在于方法具体如下:逐一计算可疑钓鱼网页与各个受保护网页之间的相似度,将可疑网页与受保护网页之间的相似度小于预先设定的值的可疑网页判为针对该受保护网页的钓鱼网页;
上述网络钓鱼为:通过仿造网上金融或其他网络服务提供商的相关页面,诱导用户输入敏感信息,并非法取得该敏感信息的手段;
上述可疑钓鱼网页为:从可疑邮件中检测出的链接地址所指向的网页,或由用户上报的钓鱼网页;
上述受保护网页为:网络钓鱼所伪造的对象网页;
上述计算网页相似度的方法为:
步骤1,将网页转换为图像;
步骤2,对所得图像进行分割;
步骤3,提取其分割后子图像的图像特征;
步骤4,生成子图像之间的相对位置关系;
步骤5,将子图像的图像特征和子图像的相对位置关系组成该页面的特征关系集合;
步骤6,计算两个网页的特征关系集合之间的距离并以此作为这两个网页的相似度,两个网页之间的距离小于0.02的两个网页为相似网页;
其中步骤4中子图像之间的相对位置关系由一个9维向量表示,该9维向量的每个分量表示由任一子图像所确定的9个象限中的每个象限与另一子图像之间的位置关系,设用于确定9个象限的任一子图像为矩形,延长该矩形的四条边将把图像平面分为9个部分,从左上角开始顺时针编号1~8,中心编号为9,由此形成第1~9象限,该子图像与另一子图像之间相对位置关系的求取方法为:只需判断另一子图像在该子图像所分割的9个部分中的分布状况,将出现全部或部分另一子图像的象限记为1,则与该象限对应的第i维分量就为1,否则为0,根据上述方法,求出由关系矩阵表示的原网页图像所有子图像之间的相对位置关系。
2.根据权利要求1所述的基于图像处理的钓鱼网页检测方法,其特征是:图像分割方法由以下步骤组成:
步骤1,预处理:预处理是采用通用的坎尼算子边界检测方法将网页图像转换为初始二值图像;
步骤2,将预处理所得的二值图像设为初始子图像,置于待分割子图像集合中(初始该集合中只有初始子图像);
步骤3,判断待分割子图像集合是否为空,如果为空则结束,否则进入步骤4;
步骤4,从待分割子图像集合中任取某个子图像对其进行收缩处理,得到有效子图像;
步骤5,判断该有效子图像是否可分割,如果可分割,检测出该子图像中面积最大的分割带,并以此将该子图像一分为二,同时把分割后的两个子图像存入待分割子图像集合中,如果不能分割则将其存入以分割子图像集合中;
步骤6,转步骤3。
3.根据权利要求1所述的这种基于图像处理的钓鱼网页检测方法,其特征是:步骤3所述的图像特征包括彩色信息,灰度信息以及长度和宽度,彩色信息和灰度信息采用直方图统计的方法;子图像长度和宽度直接由分割结果得到,
上述彩色信息采用直方图获取方法:将原图转换到色度纯度亮度(HSV)颜色空间并将其非均匀量化为32种颜色,在此基础上提取彩色直方图,并对其进行归一化处理;灰度信息采用直方图获取方法:将原图转换为黑白图像,并对其进行拉伸,增强对比度,再将整个灰度空间量化为32个灰度,在此基础上提取灰度直方图,并对其进行归一化处理。
4.根据权利要求3所述的这种基于图像处理的钓鱼网页检测方法,其特征是:计算两个网页的特征关系集合之间相似度的方法采用嵌套运土者距离方法,该嵌套运土者距离方法为:确定步骤5所述的特征关系集合中的子图像的图像特征的相似度,所述子图像的图像特征相似度的确定方法采用综合加权距离,该综合加权距离包括归一化彩色直方图相似度、归一化灰度直方图相似度以及长宽相似度,其权值各为1/3;确定步骤5所述的特征关系集合中的子图像的相对位置关系的相似度,所述子图像的相对位置关系的相似度的确定方法采用归一化的运土者距离;最后根据子图像的图像特征相似度和子图像的相对位置关系相似度,采用嵌套运土者距离计算两个特征关系集合之间的相似度,所述嵌套运土者距离的计算方法为:首先求出所有子图像两两之间的内部距离矩阵,该内部距离矩阵的大小为M×N,其中M、N为分别为两个待检测网页中的子图像的个数,内部距离矩阵的元素由前述子图像的图像特征相似度和子图像的相对位置关系相似度给出,根据该内部距离矩阵,采用运土者距离算法求出子图像之间的外部距离,所有子图像之间的外部距离构成一个外部距离矩阵,大小为M×N,其中M、N为分别为两个待检测网页中的子图像的个数,基于该外部距离矩阵,并将两个待检测网页中所有子图像的权值设为相等,再次使用运土者距离算法求出两个待检测网页的距离,该距离即为网页的嵌套运土者距离。
CN200710130809A 2007-08-17 2007-08-17 基于图像处理的钓鱼网页检测方法 Expired - Fee Related CN100583738C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710130809A CN100583738C (zh) 2007-08-17 2007-08-17 基于图像处理的钓鱼网页检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710130809A CN100583738C (zh) 2007-08-17 2007-08-17 基于图像处理的钓鱼网页检测方法

Publications (2)

Publication Number Publication Date
CN101145902A true CN101145902A (zh) 2008-03-19
CN100583738C CN100583738C (zh) 2010-01-20

Family

ID=39208219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710130809A Expired - Fee Related CN100583738C (zh) 2007-08-17 2007-08-17 基于图像处理的钓鱼网页检测方法

Country Status (1)

Country Link
CN (1) CN100583738C (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
WO2010108421A1 (zh) * 2009-03-27 2010-09-30 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN102073822A (zh) * 2011-01-30 2011-05-25 北京搜狗科技发展有限公司 防止用户信息泄漏的方法及系统
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN101667979B (zh) * 2009-10-12 2012-06-06 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN102521331A (zh) * 2011-12-06 2012-06-27 中国科学院计算机网络信息中心 网页跳转作弊检测方法及装置
CN101820366B (zh) * 2010-01-27 2012-09-05 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN102663093A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 不良网站检测方法及设备
CN102710648A (zh) * 2012-06-11 2012-10-03 北京慧眼智行科技有限公司 身份验证的方法、设备以及系统
CN102801709A (zh) * 2012-06-28 2012-11-28 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN101594314B (zh) * 2008-05-30 2012-12-26 电子科技大学 一种基于高阶自相关特征的垃圾邮件图像识别方法
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
WO2014075571A1 (en) * 2012-11-13 2014-05-22 Tencent Technology (Shenzhen) Company Limited Method and device for detecting malicious url
CN103986731A (zh) * 2014-05-30 2014-08-13 北京奇虎科技有限公司 通过图片匹配来检测钓鱼网页的方法及装置
CN104111960A (zh) * 2013-04-22 2014-10-22 阿里巴巴集团控股有限公司 一种页面的匹配方法和装置
CN104143008A (zh) * 2014-08-11 2014-11-12 北京奇虎科技有限公司 基于图片匹配检测钓鱼网页的方法及装置
WO2014206203A1 (en) * 2013-06-24 2014-12-31 Tencent Technology (Shenzhen) Company Limited System and method for detecting unauthorized login webpage
CN104504579A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种信息审核方法和装置
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN105119909A (zh) * 2015-07-22 2015-12-02 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN105653959A (zh) * 2015-12-31 2016-06-08 深圳市安之天信息技术有限公司 一种基于功能图片识别仿冒网站的方法及系统
CN106127042A (zh) * 2016-07-06 2016-11-16 苏州仙度网络科技有限公司 网页视觉相似度识别方法
CN106713335A (zh) * 2016-12-30 2017-05-24 山石网科通信技术有限公司 恶意软件的识别方法及装置
CN107402936A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 信息识别方法及装置
CN107889068A (zh) * 2017-12-11 2018-04-06 成都欧督系统科技有限公司 基于无线通信的消息广播控制方法
CN108304540A (zh) * 2018-01-29 2018-07-20 腾讯科技(深圳)有限公司 一种文本数据识别方法、装置及相关设备
CN108764352A (zh) * 2018-05-25 2018-11-06 百度在线网络技术(北京)有限公司 重复页面内容检测方法和装置
CN109067716A (zh) * 2018-07-18 2018-12-21 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统
CN109361654A (zh) * 2018-09-18 2019-02-19 深圳崀途科技有限公司 一种基于区块链协商加密管理商业秘密的方法和系统
CN114465780A (zh) * 2022-01-14 2022-05-10 广东盈世计算机科技有限公司 一种基于特征提取的钓鱼邮件检测方法及系统
CN114650176A (zh) * 2022-03-22 2022-06-21 深圳壹账通智能科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN116777046A (zh) * 2023-05-11 2023-09-19 中国科学院自动化研究所 交通预训练模型构建和交通预测方法、装置及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523202B (zh) * 2011-12-01 2014-10-08 华北电力大学 钓鱼网页的深度学习智能检测方法
RU2014131311A (ru) 2014-07-29 2016-02-20 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) генерации страницы результатов поиска, сервер, используемый в нем, и способ определения позиции веб-страницы в списке веб-страниц

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101594314B (zh) * 2008-05-30 2012-12-26 电子科技大学 一种基于高阶自相关特征的垃圾邮件图像识别方法
WO2010108421A1 (zh) * 2009-03-27 2010-09-30 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101667979B (zh) * 2009-10-12 2012-06-06 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN101820366B (zh) * 2010-01-27 2012-09-05 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN101826105B (zh) * 2010-04-02 2013-06-05 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
US9218482B2 (en) 2010-12-31 2015-12-22 Huawei Technologies Co., Ltd. Method and device for detecting phishing web page
WO2012089005A1 (zh) * 2010-12-31 2012-07-05 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102073822A (zh) * 2011-01-30 2011-05-25 北京搜狗科技发展有限公司 防止用户信息泄漏的方法及系统
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN102521331A (zh) * 2011-12-06 2012-06-27 中国科学院计算机网络信息中心 网页跳转作弊检测方法及装置
CN102663093A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 不良网站检测方法及设备
CN102663093B (zh) * 2012-04-10 2014-07-09 中国科学院计算机网络信息中心 不良网站检测方法及设备
CN102710648A (zh) * 2012-06-11 2012-10-03 北京慧眼智行科技有限公司 身份验证的方法、设备以及系统
CN102710648B (zh) * 2012-06-11 2016-04-06 北京慧眼智行科技有限公司 身份验证的方法、设备以及系统
CN102801709A (zh) * 2012-06-28 2012-11-28 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
US9954895B2 (en) 2012-06-28 2018-04-24 Beijing Qihoo Technology Company Limited System and method for identifying phishing website
WO2014000536A1 (zh) * 2012-06-28 2014-01-03 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104580254B (zh) * 2012-06-28 2017-10-31 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
US9531751B2 (en) 2012-06-28 2016-12-27 Beijing Qihoo Technology Company Limited System and method for identifying phishing website
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN102801709B (zh) * 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
US9935967B2 (en) 2012-11-13 2018-04-03 Tencent Technology (Shenzhen) Company Limited Method and device for detecting malicious URL
WO2014075571A1 (en) * 2012-11-13 2014-05-22 Tencent Technology (Shenzhen) Company Limited Method and device for detecting malicious url
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN104111960A (zh) * 2013-04-22 2014-10-22 阿里巴巴集团控股有限公司 一种页面的匹配方法和装置
WO2014206203A1 (en) * 2013-06-24 2014-12-31 Tencent Technology (Shenzhen) Company Limited System and method for detecting unauthorized login webpage
CN103986731A (zh) * 2014-05-30 2014-08-13 北京奇虎科技有限公司 通过图片匹配来检测钓鱼网页的方法及装置
CN104143008A (zh) * 2014-08-11 2014-11-12 北京奇虎科技有限公司 基于图片匹配检测钓鱼网页的方法及装置
CN104143008B (zh) * 2014-08-11 2017-10-27 北京奇虎科技有限公司 基于图片匹配检测钓鱼网页的方法及装置
CN104504579A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种信息审核方法和装置
CN104504579B (zh) * 2014-12-09 2018-09-04 北京奇虎科技有限公司 一种信息审核方法和装置
CN105119909B (zh) * 2015-07-22 2019-02-19 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN105119909A (zh) * 2015-07-22 2015-12-02 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN105653959A (zh) * 2015-12-31 2016-06-08 深圳市安之天信息技术有限公司 一种基于功能图片识别仿冒网站的方法及系统
CN107402936A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 信息识别方法及装置
CN106127042A (zh) * 2016-07-06 2016-11-16 苏州仙度网络科技有限公司 网页视觉相似度识别方法
CN106713335A (zh) * 2016-12-30 2017-05-24 山石网科通信技术有限公司 恶意软件的识别方法及装置
CN107889068A (zh) * 2017-12-11 2018-04-06 成都欧督系统科技有限公司 基于无线通信的消息广播控制方法
CN108304540A (zh) * 2018-01-29 2018-07-20 腾讯科技(深圳)有限公司 一种文本数据识别方法、装置及相关设备
CN108764352A (zh) * 2018-05-25 2018-11-06 百度在线网络技术(北京)有限公司 重复页面内容检测方法和装置
CN108764352B (zh) * 2018-05-25 2022-09-27 百度在线网络技术(北京)有限公司 重复页面内容检测方法和装置
CN109067716A (zh) * 2018-07-18 2018-12-21 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统
CN109361654A (zh) * 2018-09-18 2019-02-19 深圳崀途科技有限公司 一种基于区块链协商加密管理商业秘密的方法和系统
CN109361654B (zh) * 2018-09-18 2021-10-26 广州市溢信科技股份有限公司 一种基于区块链协商加密管理商业秘密的方法和系统
CN114465780A (zh) * 2022-01-14 2022-05-10 广东盈世计算机科技有限公司 一种基于特征提取的钓鱼邮件检测方法及系统
CN114650176A (zh) * 2022-03-22 2022-06-21 深圳壹账通智能科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN116777046A (zh) * 2023-05-11 2023-09-19 中国科学院自动化研究所 交通预训练模型构建和交通预测方法、装置及电子设备

Also Published As

Publication number Publication date
CN100583738C (zh) 2010-01-20

Similar Documents

Publication Publication Date Title
CN100583738C (zh) 基于图像处理的钓鱼网页检测方法
KR102007809B1 (ko) 이미지를 이용한 신경망 기반 익스플로잇킷 탐지 시스템
KR101702614B1 (ko) 온라인 사기 검출 동적 점수 합계 시스템 및 방법
CN104954372B (zh) 一种钓鱼网站的取证与验证方法及系统
CN101730903B (zh) 多维声誉评分
CN110650117B (zh) 跨站攻击防护方法、装置、设备及存储介质
CN1728655A (zh) 一种检测鉴别假冒网页的方法及系统
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
CN108809928B (zh) 一种网络资产风险画像方法及装置
Huang et al. Data matrix code location based on finder pattern detection and bar code border fitting
CN104143008A (zh) 基于图片匹配检测钓鱼网页的方法及装置
US6831991B2 (en) Reliable detection of LSB steganography in color and grayscale images
CN107896225A (zh) 钓鱼网站判定方法、服务器及存储介质
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
CN111967064A (zh) 一种网页防篡改方法和系统
CN110008392A (zh) 一种基于网络爬虫技术的网页篡改检测方法
JP6127225B1 (ja) 画像処理装置、画像処理方法、及びプログラム
Xue et al. JPEG image tampering localization based on normalized gray level co-occurrence matrix
JP6127227B1 (ja) 画像処理装置、画像処理方法、及びプログラム
CN111310832A (zh) 一种图片查重方法和系统
CN114638984B (zh) 一种基于胶囊网络的恶意网站url检测方法
CN112528115B (zh) 网站监测方法及装置
CN113225343A (zh) 一种基于身份特征信息的风险网站识别方法及系统
Song et al. Security measure for image steganography based on high dimensional KL divergence

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100120

Termination date: 20130817