CN102082792A - 钓鱼网页检测方法及设备 - Google Patents

钓鱼网页检测方法及设备 Download PDF

Info

Publication number
CN102082792A
CN102082792A CN2010106206476A CN201010620647A CN102082792A CN 102082792 A CN102082792 A CN 102082792A CN 2010106206476 A CN2010106206476 A CN 2010106206476A CN 201010620647 A CN201010620647 A CN 201010620647A CN 102082792 A CN102082792 A CN 102082792A
Authority
CN
China
Prior art keywords
webpage
template file
fishing
content characteristic
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106206476A
Other languages
English (en)
Inventor
马勺布
郭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2010106206476A priority Critical patent/CN102082792A/zh
Publication of CN102082792A publication Critical patent/CN102082792A/zh
Priority to PCT/CN2011/083745 priority patent/WO2012089005A1/zh
Priority to US13/689,230 priority patent/US9218482B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Abstract

本发明实施例提供一种钓鱼网页检测方法及设备,该方法包括:判断信任域名库中是否存在待检测网页对应的唯一域名;在信任域名库中不存在唯一域名时,分别确定从待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度;内容特征至少包括:编码格式、文档对象模型、词汇和词汇数量;在从待检测网页中提取的内容特征,至少与一个模板文件中内容特征的相似度大于预设的相似阈值时,确定待检测网页为钓鱼网页。本发明实施例提高了钓鱼网页检测结果的准确性。

Description

钓鱼网页检测方法及设备
技术领域
本发明实施例涉及网络技术,尤其涉及一种钓鱼网页检测方法及设备。
背景技术
钓鱼网站举报机制是防护钓鱼网站攻击的一种基础性解决方法。反钓鱼组织鼓励终端用户提交发现的phishing(钓鱼)信息,phishing信息包括统一资源定位符(Uniform Resource Locator,简称URL),邮件内容等,然后将收集到的phishing信息进行甄别处理组织成知识库,例如URL列表方式、单向哈希(Hash)值方式等。将知识库部署在各类安全设备或客户端软件中,上述设备监测到知识库存在当前访问的网页时对该网页拦截和过滤,防止钓鱼网页的攻击,
目前,通用的方法是将Phishing检测模块集成到客户端软件中,当用户通过浏览器访问网页时,Phishing检测模块依据本地或者远程数据查询结果计算出该网页的可疑度,当可疑度较高时,向用户发出告警信息。远程Anti-Phishing服务器向众多客户端Phishing检测模块提供数据更新、查询、过滤等功能。Phishing检测模块的监测依据主要包括:已知phishing的URL列表,Phishing的IP列表,信任域名列表,phishing关键词、phishing网页通用特征等。phishing网页通用特征包括:拥有超文本置标语言(HyperText Markup Language,HTML)输入标签,有符合社会保险号码的数据,显示的URL和真实URL不一致等,
由于,钓鱼网页的URL、IP和域名经常变化,有许多正常网页也包括phishing关键词。因此,通过上述方法检测钓鱼网页时,不仅对钓鱼网页的识别率较低,而且对正常网页的误判率也较高、因而,现有钓鱼网页检测方法的检测准确率较低。
发明内容
本发明实施例提供一种钓鱼网页检测方法及设备,用以提高钓鱼网站的检测准确率。
本发明实施例提供一种钓鱼网页检测方法,包括:
判断信任域名库中是否存在待检测网页对应的唯一域名;
在所述信任域名库中不存在所述唯一域名时,分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度;所述内容特征至少包括:编码格式、文档对象模型、词汇和词汇数量;
在从所述待检测网页中提取的内容特征,至少与一个所述模板文件中内容特征的相似度大于预设的相似阈值时,确定所述待检测网页为钓鱼网页。
本发明实施例提供一种钓鱼网页检测设备,包括:
信任域名库,用于保存受信任网页对应的唯一域名;
模板文件库,用于保存多个模板文件,所述模板文件包括从网页中提取的内容特征;所述内容特征至少包括:网页的编码格式、文档对象模型、词汇和词汇数量;
域名确定模块,用于判断信任域名库中是否存在待检测网页对应的唯一域名;
内容提取模块,用于在所述信任域名库中不存在所述唯一域名时,从所述待检测网页中提取的内容特征;
相似度确定模块,用于分别确定从所述待检测网页中提取的内容特征与所述模板文件库的各模板文件中内容特征的相似度;
钓鱼网页确定模块,用于在从所述待检测网页中提取的内容特征,至少与一个所述模板文件中内容特征的相似度大于预设的相似阈值时,确定所述待检测网页为钓鱼网页。
本发明实施例,确定待检测网页的唯一域名不是信任域名后,通过待检测网页的内容特征确定与模板文件库中各模板文件的相似度,如编码格式、文档对象模型、词汇和词汇数量等内容特征与模板文件库中各模板文件中内容特征的相似度,确定该待检测网页是否为钓鱼网页。因此本发明通过内容特征确定网页是否钓鱼网页,可提高钓鱼网页检测结果的准确性。另外,由于本发明通过不断更新的信任域名库先确定待检测网页是否为受信任的网页,从而减少了将品牌网页误判为钓鱼网页的几率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的钓鱼网页检测方法实施例一流程图;
图2为本发明提供的钓鱼网页检测方法实施例二流程图;
图3为本发明提供的钓鱼网页检测方法实施例三流程图;
图4A为本发明提供的钓鱼网页检测设备实施例一结构示意图;
图4B为本发明提供的钓鱼网页检测设备一种应用场景示意图;
图4C为本发明提供的钓鱼网页检测设备另一种应用场景示意图;
图5为本发明提供的钓鱼网页检测设备实施例二结构示意图;
图6为图4或图5中相似度确定模块的结构示意图;
图7为本发明提供的钓鱼网页检测设备实施例三结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的钓鱼网页检测方法实施例一流程图。如图1所示,本实施例包括:
步骤11:判断信任域名库中是否存在待检测网页对应的唯一域名。
本实施例中待检测网页可以有多种获取方式,一种是根据URL下载待检测网页,将下载后的待检测网页存储于存储介质中;一种是从网络通信流量中直接提取数据包。直接从网络通信流量中提取数据包时,进一步将数据包进行解析直接形成HTML文件。
获取待检测网页后,从待检测网页对应的URL中提取出唯一域名,并在信任域名库查找该唯一域名。信任域名库中存在该唯一域名时,即该唯一域名为信任域名,表明该唯一域名对应的待检测网页不是钓鱼网页。信任域名库中没有该唯一域名时,该待检测网页有可能是钓鱼网页,也可能不是钓鱼网页,需进一步通过后续的内容特征匹配过程,检测该待检测网页是否为钓鱼网页。
信任域名库中保存有万级、百万级甚至千万级受信任网页的唯一域名,目的是在检测钓鱼网页时,先通过唯一域名排除品牌网页或从未受到钓鱼网站攻击的网页。信任域名库需要周期性更新,域名的收集和提取主要依据如下原则:从收集的URL列表逐一取出URL,在某一URL中顶级域名为非国家顶级域名时,从该URL中提取出二级域名写入信任域名库;该URL中顶级域名是国家域名且二级域名是顶级域名字符串,从URL中提取三级域名写入信任域名库。
例如,URL中顶级域名是“.com”、“.org”、“.edu”、“.net”、“.gov”、“int”、“mil”、“biz”、“info”、“pro”、“name”和“idv”等非国家顶级域名,则URL中提取二级域名。顶级域名是国家或地区域名,则判断二级域是否为常用的顶级域名字符串,例如“com”、“org”、“net”、“gov”、“edu”和“biz”等,则提取到三级域名,否则只提取到二级域名。提取到的域名如下所示:huawei.com、huawei.com.cn、sina.com.cn、apwg.org、apwg.net等。域名提取后,将提取到的域名转换成Hash表存储以利于后续查询,建立Hash表的具体Hash算法可以采用MD5、SHA1等标准算法,也可以采用自定义算法。
步骤12:在信任域名库中不存在唯一域名时,分别确定从待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度。
模板文件库可为品牌模板库,也可为钓鱼模板库。模板文件库用于保存包括从钓鱼网页提取的内容特征的模板文件,或用于保存包括从品牌网页提取的内容特征的模板文件;内容特征至少包括从网页提取的:编码格式、文档对象模型、词汇和词汇数量。
在信任域名库不存在该待检测网页对应的唯一域名时,从该待检测网页中提取内容特征,与钓鱼模板库中每个模板文件中保存的内容特征进行匹配;另外,也可与品牌模板库中每个模板文件中保存的内容特征进行匹配,确定从待检测网页中提取的内容特征与各模板文件中内容特征的相似度。
由于大量钓鱼网站通过自动程序产生或直接仿冒品牌网页时,通常会采用相同的编码格式、较接近的词汇和相似的文档对象模型(Document Object Model,简称DOM),并且词汇数量也基本接近,因此,本发明实施例通过分析包括编码格式、文档对象模型、词汇和词汇数量的内容特征,可以确定待检测网页与品牌网页或钓鱼网页的相似度。
钓鱼模板库中包括多个钓鱼模板文件,用于保存从各钓鱼网页提取的内容特征。建立钓鱼模板库时,从多个钓鱼网页分别提取出内容特征,以模板文件形式分别保存每个钓鱼网页的内容特征。
品牌模板库中包括多个品牌模板文件,用于保存从各品牌网页提取的内容特征。品牌网页为经常被仿冒的网页或可能被仿冒的网页,比如全球各大银行网页、保险公司网页、网上支付机构或企业网页、社交网站登陆网页等。建立品牌模板库时,从多个品牌网页分别提取出内容特征,以模板文件形式分别保存每个品牌网页的内容特征。
步骤13:在从待检测网页中提取的内容特征,至少与一个模板文件中内容特征的相似度大于预设的相似阈值时,确定待检测网页为钓鱼网页。
从待检测网页中提取的内容特征,与钓鱼模板库中一个或一个以上的钓鱼模板文件中内容特征的相似度大于预设的相似阈值时,即在钓鱼模板库中存在与该待检测网页相似的钓鱼模板文件时,确定该待检测网页为非仿冒品牌网页的钓鱼网页。例如,相似度可以是百分比数值,也可以是其他的自定义的类型,当相似度是百分比数值时,百分比数值越高,相似度越大;相似度也可以是0到100的数值,在这种情况下,数值越大相似度越大,其中,预设的相似阈值可以是经验值。
另外,由于钓鱼模板库每个模板文件对应一个钓鱼网页,在确定该待检测网页中内容特征与钓鱼网页的内容特征相同时,还可确定与该待检测网页相似的钓鱼网页的网页名称。
从待检测网页中提取的内容特征,与品牌模板库中一个或一个以上的品牌模板文件中内容特征的相似度大于预设的相似阀值时,即在品牌模板库中存在与该待检测网页相似的品牌模板文件时,由于该待检测网页对应的唯一域名不是信任域名,因此确定该待检测网页为仿冒品牌网页的钓鱼网页。
本发明实施例,确定待检测网页的唯一域名不是信任域名后,通过待检测网页的内容特征确定与模板文件库中各模板文件的相似度,确定该待检测网页是否为钓鱼网页。品牌模板文件保存的是品牌网页的内容特征,在该待检测网页的唯一域名不是信任域名的情况下,其内容特征与品牌网页的相似度较高时,确定该待检测网页为仿冒品牌网页的钓鱼网页。模板文件保存的是钓鱼网页的内容特征或品牌网页的内容特征,在该待检测网页的肉容特征与模板文件的相似度较高时,确定该待检测网页为非仿冒品牌网页的钓鱼网页。由于钓鱼网页通常由自动程序产生或直接仿冒品牌网页,且大多数钓鱼网页的内容特征基本相似,内容特征反映出钓鱼网页的特性。因此本发明通过内容特征确定网页是否钓鱼网页,可提高钓鱼网页检测结果的准确性。另外,由于本发明通过不断更新的信任域名库先确定待检测网页是否为受信任的网页,从而减少了将品牌网页误判为钓鱼网页的几率。
图2为本发明提供的钓鱼网页检测方法实施例二流程图。本实例主要说明如何将待检测网页的内容特征与钓鱼模板库中钓鱼模板文件进行匹配的方法。如图2所示,本实施例包括:
步骤20:从待检测网页中提取出内容特征。
在步骤20之前,先在信任域名库查找待检测网页的唯一域名,由于信任域名库保存的是受信任的唯一域名,因此当信任域名库存在待检测网页的唯一域名时,确定待检测网页为受信任的网页。如果信任域名库中不存在待检测网页的唯一域名执行步骤20,通过待检测网页的内容特征判断其是否为钓鱼网页。
步骤21:判断钓鱼模板库中是否存在还没有与待检测网页进行匹配的钓鱼模板文件。如果是则执行步骤22,否则结束。
如果采用品牌模板库中品牌模板文件与待检测网页进行匹配,则步骤21可为:判断品牌模板库是否存在还没有与该待检测网页进行匹配的品牌模板文件。
步骤22:从钓鱼模板库中按序读取一个还没有与待检测页匹配的钓鱼模板文件。
建立钓鱼模板库时,为避免在钓鱼品牌库保存内容特征相似的钓鱼模板文件,从钓鱼网页提取出内容特征后,将从钓鱼网页提取的内容特征与钓鱼模板库中各钓鱼模板文件中内容特征进行匹配,确定从钓鱼网页提取的内容特征与各钓鱼模板文件的相似度,通过相似度大小确定是否将该内容特征以钓鱼模板文件的形式写入钓鱼模板库。在从钓鱼网页提取的内容特征与各钓鱼模板文件的相似度均小于预设的相似阈值时,将从钓鱼网页提取的内容特征形成钓鱼模板文件写入钓鱼模板库。
同理,建立品牌模板库时,为避免在品牌库保存内容特征相同的品牌模板文件,从品牌网页提取出内容特征后,将从品牌网页提取的内容特征与品牌模板库中各品牌模板文件中内容特征进行匹配,确定从品牌网页提取的内容特征与各品牌模板文件的相似度,通过相似度大小确定是否将该内容特征以品牌模板文件的形式写入品牌模板库。在从品牌网页提取的内容特征与各品牌模板文件的相似度均小于预设的相似阈值时,将从品牌网页提取的内容特征形成品牌模板文件写入品牌模板库。
步骤23:判断该待检测网页的编码格式是否与当前钓鱼模板文件中的编码格式相同。如果不相同返回步骤21执行,如果相同执行步骤24。
步骤24:在该待检测网页的编码格式与当前钓鱼模板文件中的编码格式相同时,判断从待检测网页中提取的词汇数量与当前模板文件中的词汇数量差值的绝对值是否在数量相似预设范围内。如果不在数量相似预设范围内,返回步骤21执行;如果在数量相似预设范围内,执行步骤25。
从待检测网页中提取的词汇数量与当前钓鱼模板文件中的词汇数量的差值的绝对值在数量相似预设范围内时,表明从待检测网页中提取的词汇数量与当前模板文件中的词汇数量较接近,该待检测网页有可能是钓鱼网页,需通过进一步的判断才可确定其是否钓鱼网页。通过数量相似预设范围可确定从待检测网页中提取的词汇数量与当前钓鱼模板文件中的词汇数量是否在一个量级,如果两者相差较大,则认为待检测网页与当前钓鱼模板文件不相似,数量相似预设范围可根据待检测网页中的词汇数量设置。
步骤25:从待检测网页中提取的词汇数量在数量相似预设范围时,判断从待检测网页中提取的词汇与当前钓鱼模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间。如果词汇相似度在词汇相似高预设值与词汇相似低预设值之间执行步骤26。若词汇相似度不在词汇相似高预设值与词汇相似低预设值之间,但词汇相似度大于词汇相似高预设值时执行步骤27,词汇相似度小于词汇相似低预设值时返回步骤21执行。
词汇相似度是指待检测网页中的词汇与某一钓鱼模板文件有多少相同的词汇的度量,一般情况下词汇相似度可以描述成某种算式,比如:待检测网页有m个词汇,而某一钓鱼模板文件有n个词汇,两者有s个相同的词汇,此时词汇相似度可描述为一个百分比数值:[2×s/(m+n)]×100,当该数值高于某一阈值,则认为待检测网页中的词汇与某一钓鱼模板文件的词汇相似度很高。
词汇相似度大于词汇相似高预设值时,表明待检测网页的词汇与钓鱼模板文件的相同词汇较多,由于当前钓鱼模板文件对应的网页是钓鱼网页,因此可确定待检测网页为钓鱼网页。如果当前品牌模板文件对应的网页为品牌网页,由于在提取待检测网页的内容特征之前,已确定在信任域名库中没有该待检测网页的唯一域名,因此,同样可确定该待检测网页为钓鱼网页。
词汇相似度小于词汇相似高预设值时,表明待检测网页的词汇与模板文件的相同词汇较少,可确定该待检测网页不是钓鱼网页。
步骤26:词汇相似度在词汇相似高预设值与词汇相似低预设值之间时,判断从待检测网页中提取的文档对象模型与当前钓鱼模板文件中文档对象模型的模型相似度是否大于模型相似预设值。如果是执行步骤27,否则返回步骤21执行。
从待检测网页中提取的文档对象模型与当前钓鱼模板文件中文档对象模型的模型相似度大于模型相似预设值,表明两者在文档对象模型方面的相似程度较高。模型相似度可以换算成百分比数,模型相似度也可以换算成0到100的数值。将模型相似度换算成百分比数时模型相似预设值可以为80%。将模型相似度换算成0到100的数值时,模型相似预设值可以是50。
步骤27:在模型相似度大于模型相似预设值时,确定待检测网页为钓鱼网页,并输出该钓鱼模板文件对应的钓鱼网页名称。返回步骤21执行。
在确定待检测网页为钓鱼网页后,与后续的模板文件继续匹配的目的是,可根据模型相似度从多个达到模型相似预设值的模板文件中找出相似度最高的模板文件,从而输出该相似度最高的模板文件对应的钓鱼网页名称。
如果在步骤22中读取的是品牌模板库中品牌模板文件,则步骤27中输出该品牌模板文件对应的品牌网页的网页名称。
本发明实施例。通过从待检测网页提取的内容特征:待检测网页的编码格式、词汇、网页词汇量和DOM,分别与钓鱼模板库中各钓鱼模板文件保存的内容特征进行匹配,在编码格式与当前匹配的钓鱼模板文件相同时,则确定待检测网页为钓鱼网页,并继续与下一个钓鱼模板文件进行匹配。在编码格式不同时,与当前钓鱼模板文件中的词汇数量进行匹配,在与当前钓鱼模板文件的词汇数量接近时,确定该待检测网页为钓鱼网页,否则继续与该钓鱼模板文件进行词汇相似度匹配。在词汇相似度达到词汇相似预设值时确定该待检测网页为钓鱼网页,并继续与下一个钓鱼模板文件进行匹配;否则与该钓鱼模板文件的DOM进行模型相似度匹配,模型相似预设值时,确定待检测网页为钓鱼网页。在确定待检测网页为钓鱼网页时,同时还输出当前匹配的钓鱼模板议论折的网页名称。另外,还可将待检测网页的内容特征与品牌模板库中各模板文件进行匹配。确定该待检测网页为钓鱼网页的同时,还可输出该模板文件对应网页的名称,即该待检测网页所仿冒的品牌网页的名称。
图3为本发明提供的钓鱼网页检测方法实施例三流程图。本实例主要说明品牌模板库中品牌模板文件建立过程。钓鱼模板库中钓鱼模板文件建立过程与品牌模板库相似,区别仅在于钓鱼模板库中钓鱼模板文件用于保存已知钓鱼网页的内容特征,而品牌模板库中品牌模板文件用于保存已知品牌网页的内容特征。如图3所示,本实施例包括:
步骤30:判断品牌URL列表中是否还存在没有处理的URL。如果是执行步骤31,否则结束。
步骤31:从品牌URL列表按序读取一个没有处理的URL。
步骤32:根据读取的URL下载相应的网页。
步骤33:从下载网页中提取出内容特征:下载网页的编码格式、词汇、词汇数量和DOM。
步骤34:判断品牌模板库是否存在还没有匹配的品牌模板文件。具体判断品牌模板库是否存在还没有与从下载网页中提取出内容特征进行匹配的品牌模板文件。如果存在还没有与从下载网页中提取出内容特征进行匹配的品牌模板文件,执行步骤35,否则执行步骤37。
步骤35:从品牌模板库中按序读取一个没有匹配过的品牌模板文件。
步骤36:判断该下载网页的内容特征与当前品牌模板文件的内容特征的相似度是否小于预设的相似阈值。如果小于预设的相似阈值,确定该下载网与当前品牌模板文件不相似,返回步骤34执行继续与后续的品牌模板文件进行匹配。如果大于预设的相似阈值,确定该下载网与当前品牌模板文件相似,不需要在品牌模板库中保存该下载网页的内容特征,返回步骤30执行,以对下一个URL对应的下载网页进行匹配。
步骤37:将下载网页的内容特征以品牌模板文件形式写入品牌模板库。返回步骤30继续执行。
本发明实施例建立品牌模板库时,将下载网页的内容特征与品牌模板库中已有品牌模板文件进行匹配,只有在品牌模板库中不存在与该下载网页的内容特征相似的品牌模板文件(即下载网页与所有品牌模板文件都不相似)时,才将该下载网页以品牌模板文件形式存入品牌模板库中,从而避免了在品牌模板库中重复保存多个相似网页的品牌模板文件。
图4A为本发明提供的钓鱼网页检测设备实施例一结构示意图。如图4所示,本实施例包括:信任域名库40、域名确定模块41、内容提取模块42、相似度确定模块43和钓鱼网页确定模块44以及模板文件库45。
信任域名库40,用于保存受信任的唯一域名。模板文件库45,用于保存多个模板文件,模板文件包括从网页中提取的内容特征;所述内容特征至少包括:网页的编码格式、文档对象模型、词汇和词汇数量。具体地,模板文件库包括:钓鱼模板库和品牌模板库。钓鱼模板库,用于保存包括从钓鱼网页中提取的内容特征的模板文件。品牌模板库,用于保存包括从品牌网页中提取的内容特征的模板文件。
域名确定模块41,用于判断信任域名库40中是否存在待检测网页对应的唯一域名。内容提取模块42,用于在域名确定模块41确定信任域名库中不存在唯一域名时,从待检测网页中提取的内容特征。
相似度确定模块43,用于分别确定内容提取模块42从待检测网页中提取的内容特征与模板文件库45的各模板文件中内容特征的相似度。
钓鱼网页确定模块44,用于在从待检测网页中提取的内容特征,至少与一个模板文件中内容特征的相似度大于预设的相似阈值时,确定待检测网页为钓鱼网页。
由于本发明实施例钓鱼网页检测设备检测网页,不需要远程设备配合完成,可以部署于任意网络节点处,支持大流量检测。例如可部署于网络流量监控设备、防火墙设备和路由器等。图4B为本发明提供的钓鱼网页检测设备一种应用场景示意图。如图4B所示,本发明实施例钓鱼网页检测设备从网络流量监控设备中获取待检测网页的URL,根据URL从网络下载待检测网页后进行检测,将检测结果输出给其它设备。图4C为本发明提供的钓鱼网页检测设备另一种应用场景示意图。如图4C所示,本发明实施例钓鱼网页检测设备直接从网络流量监控设备获取HTTP数据包进行钓鱼网页检测,将检测结果输出给其它设备。
进一步,如图5所示,本实施例还包括:网页名称输出模块46,用于确定与从待检测网页中提取的内容特征的相似度大于预设的相似阈值的模板文件,输出该些模板文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。
上述各模块的工作机理参见图1对应实施例的描述,在此不再赘述。
本发明实施例钓鱼检测设备,在检测待检测网页时,域名确定模块41从本地保存的信任域名库中查找待检测页面对应的唯一域名,在信任域名库中不存在该唯一域名时,相似度确定模块43将待检测网页的内容特征,与保存在本地的模板文件进行匹配确定相似度。由于钓鱼网页通常由自动程序产生或直接仿冒品牌网页,钓鱼网页的内容特征基本相似,内容特征可反映出钓鱼网页的特性。因此本发明通过内容特征确定网页是否钓鱼网页,提高了钓鱼网页检测结果的准确性。另外,由于本发明通过不断更新的信任域名库先确定待检测网页是否为受信任的网页,从而减少了将品牌网页误判为钓鱼网页的几率。
图6为图4或图5中相似度确定模块的结构示意图。如图6所示,相似度确定模块43包括:读取单元431、编码格式确定单元432、词汇数量确定单元433、词汇确定单元434和对象模型确定单元435。
读取单元431,用于从钓鱼模板库或品牌模板库中读取一模板文件。
编码格式确定单元432,用于判断从待检测网页中提取的编码格式是否与模板文件中的编码格式相同。
词汇数量确定单元433,用于在编码格式确定单元432确定编码格式相同时,判断从待检测网页中提取的词汇数量是否在模板文件中的词汇数量对应的数量相似预设范围内。
词汇确定单元434,用于词汇数量确定单元433确定词汇数量在数量相似预设范围时,判断从待检测网页中提取的词汇与模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间。
对象模型确定单元435,用于在词汇确定单元434确定所述词汇相似度在词汇相似高预设值与词汇相似低预设值之间时,确定从所述待检测网页中提取的文档对象模型与所述模板文件中文档对象模型的模型相似度,并判断所述模型相似度是否大于模型相似预设值。
钓鱼网页确定模块44,具体用于在对象模型确定单元435确定模型相似度大于模型相似预设值或在词汇确定单元434词汇相似度高于词汇相似高预设值时,确定待检测网页为钓鱼网页。
上述各模块的工作机理参见图2对应实施例的描述,在此不再赘述。
本发明实施例。通过从待检测网页提取的内容特征:网页编码格式、网页词汇、网页词汇量和网页DOM,分别与钓鱼模板库中各模板文件保存的内容特征进行匹配,得到多个相似度。只要其中一个相似度大于预设的相似阈值,则确定该待检测网页是钓鱼网页,并还可确定相似度大于预设的相似阈值的模板文件对应的网页名称,从而确定该待检测网页相似的钓鱼网页。另外,还可将待检测网页的内容特征与品牌模板库中各模板文件进行匹配。在品牌模板库中确定出相似度大于预设的相似阀值的模板文件时,确定该待检测网页为钓鱼网页的同时,还可输出该模板文件对应网页的名称,即该待检测网页所仿冒的品牌网页的名称。
图7为本发明提供的钓鱼网页检测设备实施例三结构示意图。如图7所示,在图5所示的基础上还包括:钓鱼模板库建立模块47、品牌模板库建立模块48和信任域名库建立模块49。
钓鱼模板库建立模块47,用于将从钓鱼网页提取的内容特征,与钓鱼模板库中各模板文件中内容特征进行匹配,确定从钓鱼网页提取的内容特征与各模板文件的相似度;在从钓鱼网页提取的内容特征与各模板文件的相似度均小于预设的相似阈值时,将从钓鱼网页提取的内容特征形成模板文件写入钓鱼模板库。
品牌模板库建立模块48,用于将从品牌网页提取的内容特征,与品牌模板库中各模板文件中内容特征进行匹配,确定从品牌网页提取的内容特征与各模板文件的相似度;在从品牌网页提取的内容特征与各模板文件的相似度均小于预设的相似阈值时,将从品牌网页提取的内容特征形成模板文件写入品牌模板库。
信任域名库建立模块49,用于若URL中顶级域名为非国家顶级域名,从URL中提取出二级域名写入信任域名库;若URL中顶级域名是国家域名且二级域名是顶级域字符串,从URL中提取三级域名写入信任域名库。
上述各模块的工作机理参见图3对应实施例的描述,在此不再赘述。
本发明实施例建立品牌模板库时,将下载网页的内容特征与品牌模板库中已有模板文件进行匹配,只有在品牌模板库中不存在与该下载网页的内容特征相似的模板文件时,才将该下载网页以模板文件形式存入品牌模板库中,从而避免了在品牌模板库中重复保存多个相似网页的模板文件。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种钓鱼网页检测方法,其特征在于,包括:
判断信任域名库中是否存在待检测网页对应的唯一域名;
在所述信任域名库中不存在所述唯一域名时,分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度;所述内容特征至少包括:编码格式、文档对象模型、词汇和词汇数量;
在从所述待检测网页中提取的内容特征,至少与一个所述模板文件中内容特征的相似度大于预设的相似阈值时,确定所述待检测网页为钓鱼网页。
2.根据权利要求1所述的钓鱼网页检测方法,其特征在于,所述信任域名库用于保存待检测网页受信任的唯一域名,所述模板文件库为品牌模板库或钓鱼模板库;所述钓鱼模板库中模板文件中包括从钓鱼网页提取的内容特征,所述品牌模板库中模板文件包括从品牌网页提取的内容特征。
3.根据权利要求1或2所述的钓鱼网页检测方法,其特征在于,在所述确定所述待检测网页为钓鱼网页之后,还包括:
在确定与从所述待检测网页中提取的内容特征的相似度大于所述预设的相似阈值的模板文件时,输出所述模板文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。
4.根据权利要求1所述的钓鱼网页检测方法,其特征在于,所述分别确定从所述待检测网页中提取的内容特征与模板文件库的各模板文件中内容特征的相似度,包括:
从所述模板文件库中读取模板文件,判断从所述待检测网页中提取的编码格式是否与所述模板文件中的编码格式相同;
在从所述待检测网页中提取的编码格式与所述模板文件中的编码格式相同时,判断从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值是否在数量相似预设范围内;
所述词汇数量在所述数量相似预设范围时,确定从所述待检测网页中提取的词汇与所述模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间;
在所述词汇相似度在词汇相似高预设值与词汇相似低预设值之间时,计算从所述待检测网页中提取的文档对象模型与所述模板文件中文档对象模型的模型相似度;
在所述模型相似度大于模型相似预设值或在所述词汇相似度高于词汇相似高预设值时,确定所述待检测网页为钓鱼网页;从所述钓鱼模板库或所述品牌模板库读取下一模板文件,重复执行上述步骤,直至根据模型相似度从多个达到模型相似预设值的模板文件中找出相似度最高的模板文件。
5.根据权利要求1所述的钓鱼网页检测方法,其特征在于,在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括:
将从钓鱼网页提取的内容特征,与钓鱼模板库中各模板文件中内容特征进行匹配,确定从钓鱼网页提取的内容特征与各所述模板文件的相似度;
在从所述钓鱼网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时,将从钓鱼网页提取的内容特征形成模板文件写入所述钓鱼模板库。
6.根据权利要求1所述的钓鱼网页检测方法,其特征在于,在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括:
将从品牌网页提取的内容特征,与品牌模板库中各模板文件中内容特征进行匹配,确定从品牌网页提取的内容特征与各所述模板文件的相似度;
在从所述品牌网页提取的内容特征与各所述模板文件的相似度均小于所述模型相似预设值时,将从品牌网页提取的内容特征形成模板文件写入所述品牌模板库。
7.根据权利要求5或6所述的钓鱼网页检测方法,其特征在于,在所述判断信任域名库中是否存在待检测网页对应的唯一域名之前还包括:
收集的统一资源定位符中顶级域名为非国家顶级域名时,从所述统一资源定位符中提取出二级域名写入所述信任域名库;
收集的所述统一资源定位符中顶级域名是国家域名且二级域名是顶级域名字符串时,从所述统一资源定位符中提取三级域名写入所述信任域名库。
8.一种钓鱼网页检测设备,其特征在于,包括:
信任域名库,用于保存受信任网页对应的唯一域名;
模板文件库,用于保存多个模板文件,所述模板文件包括从网页中提取的内容特征;所述内容特征至少包括:编码格式、文档对象模型、词汇和词汇数量;
域名确定模块,用于判断信任域名库中是否存在待检测网页对应的唯一域名;
内容提取模块,用于在所述信任域名库中不存在所述唯一域名时,从所述待检测网页中提取的内容特征;
相似度确定模块,用于分别确定从所述待检测网页中提取的内容特征与所述模板文件库的各所述模板文件中内容特征的相似度;
钓鱼网页确定模块,用于在从所述待检测网页中提取的内容特征,至少与一个所述模板文件中内容特征的相似度大于预设的相似阈值时,确定所述待检测网页为钓鱼网页。
9.根据权利要求8所述的钓鱼网页检测设备,其特征在于,还包括:
网页名称输出模块,用于确定与从所述待检测网页中提取的内容特征的相似度大于所述预设的相似阈值预设的相似阀值的模板文件,输出所述模板文件所对应的钓鱼网页名称或对应的被仿冒品牌网页名称。
10.根据权利要求9所述的钓鱼网页检测设备,其特征在于,所述相似度确定模块包括:
读取单元,用于从钓鱼模板库或品牌模板库中读取模板文件;
编码格式确定单元,用于判断从所述待检测网页中提取的编码格式是否与所述模板文件中的编码格式相同;
词汇数量确定单元,用于在从所述待检测网页中提取的编码格式与所述模板文件中的编码格式相同时,判断从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值是否在数量相似预设范围内;
词汇确定单元,用于从所述待检测网页中提取的词汇数量与所述模板文件中词汇数量的差值的绝对值在所述数量相似预设范围内时,判断从所述待检测网页中提取的词汇与所述模板文件中词汇的词汇相似度是否在词汇相似高预设值与词汇相似低预设值之间;
对象模型确定单元,用于在所述词汇相似度在词汇相似高预设值与词汇相似低预设值之间时,确定从所述待检测网页中提取的文档对象模型与所述模板文件中文档对象模型的模型相似度,并判断所述模型相似度是否大于所述模型相似预设值;
所述钓鱼网页确定模块,具体用于在所述模型相似度大于模型相似预设值或在所述词汇相似度高于词汇相似高预设值时,确定所述待检测网页为钓鱼网页。
11.根据权利要求10所述的钓鱼网页检测设备,其特征在于,所述模板文件库包括:
钓鱼模板库,用于保存包括从钓鱼网页中提取的内容特征的模板文件;
品牌模板库,用于保存包括从品牌网页中提取的内容特征的模板文件。
12.根据权利要求11所述的钓鱼网页检测设备,其特征在于,还包括:
钓鱼模板库建立模块,用于将从钓鱼网页提取的内容特征,与钓鱼模板库中各模板文件中内容特征进行匹配,确定从钓鱼网页提取的内容特征与各所述模板文件的相似度;在从所述钓鱼网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时,将从钓鱼网页提取的内容特征形成模板文件写入所述钓鱼模板库;
品牌模板库建立模块,用于将从品牌网页提取的内容特征,与品牌模板库中各模板文件中内容特征进行匹配,确定从品牌网页提取的内容特征与各所述模板文件的相似度;在从所述品牌网页提取的内容特征与各所述模板文件的相似度均小于所述预设的相似阈值时,将从品牌网页提取的内容特征形成模板文件写入所述品牌模板库。
13.根据权利要求12所述的钓鱼网页检测设备,其特征在于,还包括:信任域名库建立模块,用于收集的统一资源定位符中顶级域名为非国家顶级域名时,从所述统一资源定位符中提取出二级域名写入所述信任域名库;收集的统一资源定位符中顶级域名是国家域名且二级域名是顶级域名字符串时,从所述统一资源定位符中提取三级域名写入所述信任域名库。
CN2010106206476A 2010-12-31 2010-12-31 钓鱼网页检测方法及设备 Pending CN102082792A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2010106206476A CN102082792A (zh) 2010-12-31 2010-12-31 钓鱼网页检测方法及设备
PCT/CN2011/083745 WO2012089005A1 (zh) 2010-12-31 2011-12-09 钓鱼网页检测方法及设备
US13/689,230 US9218482B2 (en) 2010-12-31 2012-11-29 Method and device for detecting phishing web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106206476A CN102082792A (zh) 2010-12-31 2010-12-31 钓鱼网页检测方法及设备

Publications (1)

Publication Number Publication Date
CN102082792A true CN102082792A (zh) 2011-06-01

Family

ID=44088544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106206476A Pending CN102082792A (zh) 2010-12-31 2010-12-31 钓鱼网页检测方法及设备

Country Status (3)

Country Link
US (1) US9218482B2 (zh)
CN (1) CN102082792A (zh)
WO (1) WO2012089005A1 (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436563A (zh) * 2011-12-30 2012-05-02 奇智软件(北京)有限公司 一种检测页面篡改的方法及装置
WO2012089005A1 (zh) * 2010-12-31 2012-07-05 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN102682237A (zh) * 2012-03-08 2012-09-19 珠海市君天电子科技有限公司 针对网络下载文件的判毒方法及系统
CN102737183A (zh) * 2012-06-12 2012-10-17 腾讯科技(深圳)有限公司 网页安全访问的方法及装置
CN103077208A (zh) * 2012-12-28 2013-05-01 华为技术有限公司 统一资源定位符匹配处理方法及装置
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN103442014A (zh) * 2013-09-03 2013-12-11 中国科学院信息工程研究所 一种自动检测疑似仿冒网站的方法及系统
CN103455758A (zh) * 2013-08-22 2013-12-18 北京奇虎科技有限公司 恶意网站的识别方法及装置
CN103501306A (zh) * 2013-10-23 2014-01-08 腾讯科技(武汉)有限公司 一种网址识别的方法、服务器及系统
CN103580948A (zh) * 2012-12-27 2014-02-12 哈尔滨安天科技股份有限公司 一种基于结构性文件索引信息的网络检测方法及装置
WO2014079257A1 (zh) * 2012-11-20 2014-05-30 Gao Jianqing 基于部分哈希值对有限项目的排除
CN104050257A (zh) * 2014-06-13 2014-09-17 百度国际科技(深圳)有限公司 钓鱼网页的检测方法和装置
CN104135467A (zh) * 2014-05-29 2014-11-05 腾讯科技(深圳)有限公司 识别恶意网站的方法及装置
WO2014187120A1 (zh) * 2013-05-23 2014-11-27 中国科学院计算机网络信息中心 基于网页图标匹配的品牌仿冒网站检测方法
CN104462152A (zh) * 2013-09-23 2015-03-25 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN105138918A (zh) * 2015-09-01 2015-12-09 百度在线网络技术(北京)有限公司 一种安全文件的识别方法及装置
CN105187415A (zh) * 2015-08-24 2015-12-23 成都秋雷科技有限责任公司 钓鱼网页检测方法
CN105208002A (zh) * 2015-08-24 2015-12-30 成都秋雷科技有限责任公司 钓鱼网站拦截方法
CN105373730A (zh) * 2014-08-25 2016-03-02 中国信托商业银行股份有限公司 自动侦查钓鱼网页的方法与系统
CN105391674A (zh) * 2014-09-04 2016-03-09 腾讯科技(深圳)有限公司 一种信息处理方法及系统、服务器、客户端
CN105488406A (zh) * 2014-12-29 2016-04-13 哈尔滨安天科技股份有限公司 一种基于特征向量的相似恶意样本匹配方法及系统
CN105530251A (zh) * 2015-12-14 2016-04-27 深圳市深信服电子科技有限公司 识别钓鱼网站的方法及装置
CN106302319A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 一种钓鱼网站检测方法和设备
CN106503125A (zh) * 2016-10-19 2017-03-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN103685308B (zh) * 2013-12-25 2017-04-26 北京奇虎科技有限公司 一种钓鱼网页的检测方法及系统、客户端、服务器
CN106603490A (zh) * 2016-11-10 2017-04-26 上海斐讯数据通信技术有限公司 一种钓鱼网站的检测方法和系统
CN106713246A (zh) * 2015-11-17 2017-05-24 中国移动通信集团公司 一种应用程序页面劫持的检测方法、装置及移动终端
CN107181730A (zh) * 2017-03-13 2017-09-19 烟台中科网络技术研究所 一种仿冒网站监测识别方法及系统
CN107204960A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN107533557A (zh) * 2015-05-13 2018-01-02 谷歌公司 使用模板识别网络欺诈通信
CN107786529A (zh) * 2016-08-31 2018-03-09 阿里巴巴集团控股有限公司 网站的检测方法、装置及系统
CN107800686A (zh) * 2017-09-25 2018-03-13 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN107870927A (zh) * 2016-09-26 2018-04-03 上海泓智信息科技有限公司 文件评估方法和装置
CN108304584A (zh) * 2018-03-06 2018-07-20 百度在线网络技术(北京)有限公司 非法页面检测方法、装置、入侵检测系统及存储介质
US10291646B2 (en) 2016-10-03 2019-05-14 Telepathy Labs, Inc. System and method for audio fingerprinting for attack detection
CN111224923A (zh) * 2018-11-26 2020-06-02 阿里巴巴集团控股有限公司 一种仿冒网站的检测方法、装置及系统

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL209960A0 (en) * 2010-12-13 2011-02-28 Comitari Technologies Ltd Web element spoofing prevention system and method
US20120331551A1 (en) * 2011-06-24 2012-12-27 Koninklijke Kpn N.V. Detecting Phishing Attempt from Packets Marked by Network Nodes
WO2014101230A1 (zh) 2012-12-31 2014-07-03 华为技术有限公司 移动性管理方法及设备
US9398038B2 (en) * 2013-02-08 2016-07-19 PhishMe, Inc. Collaborative phishing attack detection
US9356948B2 (en) 2013-02-08 2016-05-31 PhishMe, Inc. Collaborative phishing attack detection
US8966637B2 (en) 2013-02-08 2015-02-24 PhishMe, Inc. Performance benchmarking for simulated phishing attacks
JP6015546B2 (ja) * 2013-04-30 2016-10-26 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
CN104717185B (zh) * 2013-12-16 2019-03-26 腾讯科技(北京)有限公司 短统一资源定位符的展示响应方法、装置、服务器和系统
US11017426B1 (en) * 2013-12-20 2021-05-25 BloomReach Inc. Content performance analytics
CN106104550A (zh) * 2014-03-19 2016-11-09 日本电信电话株式会社 网站信息提取装置、系统、网站信息提取方法以及网站信息提取程序
CN104008131B (zh) * 2014-04-30 2018-07-13 广州市动景计算机科技有限公司 一种网页数据处理方法及装置
CN104079560A (zh) * 2014-06-05 2014-10-01 腾讯科技(深圳)有限公司 一种网址安全性检测方法、装置及服务器
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
US9398047B2 (en) * 2014-11-17 2016-07-19 Vade Retro Technology, Inc. Methods and systems for phishing detection
US10164927B2 (en) 2015-01-14 2018-12-25 Vade Secure, Inc. Safe unsubscribe
US9930025B2 (en) * 2015-03-23 2018-03-27 Duo Security, Inc. System and method for automatic service discovery and protection
US9906539B2 (en) 2015-04-10 2018-02-27 PhishMe, Inc. Suspicious message processing and incident response
CN106330811A (zh) * 2015-06-15 2017-01-11 中兴通讯股份有限公司 域名可信度确定的方法及装置
EP3125147B1 (en) * 2015-07-27 2020-06-03 Swisscom AG System and method for identifying a phishing website
WO2017049042A1 (en) 2015-09-16 2017-03-23 RiskIQ, Inc. Identifying phishing websites using dom characteristics
WO2017049045A1 (en) * 2015-09-16 2017-03-23 RiskIQ, Inc. Using hash signatures of dom objects to identify website similarity
US9386037B1 (en) 2015-09-16 2016-07-05 RiskIQ Inc. Using hash signatures of DOM objects to identify website similarity
US9674213B2 (en) * 2015-10-29 2017-06-06 Duo Security, Inc. Methods and systems for implementing a phishing assessment
US10893009B2 (en) * 2017-02-16 2021-01-12 eTorch Inc. Email fraud prevention
US10142366B2 (en) 2016-03-15 2018-11-27 Vade Secure, Inc. Methods, systems and devices to mitigate the effects of side effect URLs in legitimate and phishing electronic messages
WO2017189727A1 (en) 2016-04-26 2017-11-02 RiskIQ, Inc. Techniques for monitoring version numbers of web frameworks
US11049161B2 (en) * 2016-06-20 2021-06-29 Mimeo.Com, Inc. Brand-based product management with branding analysis
US20180007066A1 (en) * 2016-06-30 2018-01-04 Vade Retro Technology Inc. Detection of phishing dropboxes
RU2634211C1 (ru) 2016-07-06 2017-10-24 Общество с ограниченной ответственностью "Траст" Способ и система анализа протоколов взаимодействия вредоносных программ с центрами управления и выявления компьютерных атак
US10193923B2 (en) 2016-07-20 2019-01-29 Duo Security, Inc. Methods for preventing cyber intrusions and phishing activity
CN106156348B (zh) * 2016-07-21 2019-06-28 杭州安恒信息技术股份有限公司 一种数据库对象脚本危险操作的审计方法
RU2649793C2 (ru) 2016-08-03 2018-04-04 ООО "Группа АйБи" Способ и система выявления удаленного подключения при работе на страницах веб-ресурса
US10498761B2 (en) 2016-08-23 2019-12-03 Duo Security, Inc. Method for identifying phishing websites and hindering associated activity
RU2634209C1 (ru) 2016-09-19 2017-10-24 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ автогенерации решающих правил для систем обнаружения вторжений с обратной связью
US10313352B2 (en) * 2016-10-26 2019-06-04 International Business Machines Corporation Phishing detection with machine learning
US20180173799A1 (en) * 2016-12-21 2018-06-21 Verisign, Inc. Determining a top level domain from a domain name
RU2637477C1 (ru) 2016-12-29 2017-12-04 Общество с ограниченной ответственностью "Траст" Система и способ обнаружения фишинговых веб-страниц
RU2671991C2 (ru) * 2016-12-29 2018-11-08 Общество с ограниченной ответственностью "Траст" Система и способ сбора информации для обнаружения фишинга
RU2689816C2 (ru) 2017-11-21 2019-05-29 ООО "Группа АйБи" Способ для классифицирования последовательности действий пользователя (варианты)
US10009375B1 (en) * 2017-12-01 2018-06-26 KnowBe4, Inc. Systems and methods for artificial model building techniques
RU2677368C1 (ru) 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система для автоматического определения нечетких дубликатов видеоконтента
RU2676247C1 (ru) 2018-01-17 2018-12-26 Общество С Ограниченной Ответственностью "Группа Айби" Способ и компьютерное устройство для кластеризации веб-ресурсов
RU2677361C1 (ru) 2018-01-17 2019-01-16 Общество с ограниченной ответственностью "Траст" Способ и система децентрализованной идентификации вредоносных программ
RU2668710C1 (ru) 2018-01-17 2018-10-02 Общество с ограниченной ответственностью "Группа АйБи ТДС" Вычислительное устройство и способ для обнаружения вредоносных доменных имен в сетевом трафике
RU2680736C1 (ru) 2018-01-17 2019-02-26 Общество с ограниченной ответственностью "Группа АйБи ТДС" Сервер и способ для определения вредоносных файлов в сетевом трафике
RU2681699C1 (ru) 2018-02-13 2019-03-12 Общество с ограниченной ответственностью "Траст" Способ и сервер для поиска связанных сетевых ресурсов
CN110309402A (zh) * 2018-02-27 2019-10-08 阿里巴巴集团控股有限公司 检测网站的方法和系统
US20190319905A1 (en) * 2018-04-13 2019-10-17 Inky Technology Corporation Mail protection system
CN110647895B (zh) * 2018-06-26 2023-02-03 深信服科技股份有限公司 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN110647896B (zh) * 2018-06-26 2023-02-03 深信服科技股份有限公司 一种基于logo图像的钓鱼页面识别方法及相关设备
JP7182764B2 (ja) * 2018-08-29 2022-12-05 Bbソフトサービス株式会社 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム
WO2020110109A1 (en) * 2018-11-26 2020-06-04 Cyberfish Ltd. Phishing protection methods and systems
RU2708508C1 (ru) 2018-12-17 2019-12-09 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для выявления подозрительных пользователей в системах обмена сообщениями
RU2701040C1 (ru) 2018-12-28 2019-09-24 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
SG11202101624WA (en) 2019-02-27 2021-03-30 Group Ib Ltd Method and system for user identification by keystroke dynamics
US11233820B2 (en) 2019-09-10 2022-01-25 Paypal, Inc. Systems and methods for detecting phishing websites
RU2728498C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его исходному коду
RU2728497C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его машинному коду
RU2743974C1 (ru) 2019-12-19 2021-03-01 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ сканирования защищенности элементов сетевой архитектуры
US11470114B2 (en) 2019-12-27 2022-10-11 Paypal, Inc. Malware and phishing detection and mediation platform
US20210203693A1 (en) * 2019-12-27 2021-07-01 Paypal, Inc. Phishing detection based on modeling of web page content
US11671448B2 (en) * 2019-12-27 2023-06-06 Paypal, Inc. Phishing detection using uniform resource locators
US11381598B2 (en) 2019-12-27 2022-07-05 Paypal, Inc. Phishing detection using certificates associated with uniform resource locators
SG10202001963TA (en) 2020-03-04 2021-10-28 Group Ib Global Private Ltd System and method for brand protection based on the search results
US11475090B2 (en) 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
RU2743619C1 (ru) 2020-08-06 2021-02-20 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система генерации списка индикаторов компрометации
US11831417B2 (en) * 2020-09-28 2023-11-28 Focus IP Inc. Threat mapping engine
CN112217815B (zh) * 2020-10-10 2022-09-13 杭州安恒信息技术股份有限公司 钓鱼网站的识别方法、装置和计算机设备
CN115085952A (zh) * 2021-03-10 2022-09-20 中国电信股份有限公司 钓鱼网站处理方法及装置、存储介质与电子设备
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
CN114070819B (zh) * 2021-10-09 2022-11-18 北京邮电大学 恶意域名检测方法、设备、电子设备及存储介质
US20230188563A1 (en) * 2021-12-09 2023-06-15 Blackberry Limited Identifying a phishing attempt
US20240020347A1 (en) * 2022-07-18 2024-01-18 Bank Of America Corporation Browser Application Extension for Payload Detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101510887A (zh) * 2009-03-27 2009-08-19 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080735A1 (en) * 2004-09-30 2006-04-13 Usa Revco, Llc Methods and systems for phishing detection and notification
CN1319331C (zh) * 2004-11-25 2007-05-30 刘文印 一种检测鉴别假冒网页的方法及系统
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101510887A (zh) * 2009-03-27 2009-08-19 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012089005A1 (zh) * 2010-12-31 2012-07-05 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
US9218482B2 (en) 2010-12-31 2015-12-22 Huawei Technologies Co., Ltd. Method and device for detecting phishing web page
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN103179095B (zh) * 2011-12-22 2016-03-30 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN102436563B (zh) * 2011-12-30 2014-07-09 奇智软件(北京)有限公司 一种检测页面篡改的方法及装置
CN102436563A (zh) * 2011-12-30 2012-05-02 奇智软件(北京)有限公司 一种检测页面篡改的方法及装置
CN102682237B (zh) * 2012-03-08 2015-08-05 珠海市君天电子科技有限公司 针对网络下载文件的判毒方法及系统
CN102682237A (zh) * 2012-03-08 2012-09-19 珠海市君天电子科技有限公司 针对网络下载文件的判毒方法及系统
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN102737183A (zh) * 2012-06-12 2012-10-17 腾讯科技(深圳)有限公司 网页安全访问的方法及装置
CN102737183B (zh) * 2012-06-12 2014-08-13 腾讯科技(深圳)有限公司 网页安全访问的方法及装置
WO2014079257A1 (zh) * 2012-11-20 2014-05-30 Gao Jianqing 基于部分哈希值对有限项目的排除
CN103580948A (zh) * 2012-12-27 2014-02-12 哈尔滨安天科技股份有限公司 一种基于结构性文件索引信息的网络检测方法及装置
CN103077208A (zh) * 2012-12-28 2013-05-01 华为技术有限公司 统一资源定位符匹配处理方法及装置
CN103077208B (zh) * 2012-12-28 2016-01-27 华为技术有限公司 统一资源定位符匹配处理方法及装置
WO2014187120A1 (zh) * 2013-05-23 2014-11-27 中国科学院计算机网络信息中心 基于网页图标匹配的品牌仿冒网站检测方法
CN103455758A (zh) * 2013-08-22 2013-12-18 北京奇虎科技有限公司 恶意网站的识别方法及装置
CN103442014A (zh) * 2013-09-03 2013-12-11 中国科学院信息工程研究所 一种自动检测疑似仿冒网站的方法及系统
CN104462152A (zh) * 2013-09-23 2015-03-25 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
WO2015039553A1 (en) * 2013-09-23 2015-03-26 Tencent Technology (Shenzhen) Company Limited Method and system for identifying fraudulent websites priority claim and related application
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN103501306B (zh) * 2013-10-23 2016-09-14 腾讯科技(武汉)有限公司 一种网址识别的方法、服务器及系统
CN103501306A (zh) * 2013-10-23 2014-01-08 腾讯科技(武汉)有限公司 一种网址识别的方法、服务器及系统
CN103685308B (zh) * 2013-12-25 2017-04-26 北京奇虎科技有限公司 一种钓鱼网页的检测方法及系统、客户端、服务器
CN104135467A (zh) * 2014-05-29 2014-11-05 腾讯科技(深圳)有限公司 识别恶意网站的方法及装置
CN104135467B (zh) * 2014-05-29 2015-09-23 腾讯科技(深圳)有限公司 识别恶意网站的方法及装置
CN104050257A (zh) * 2014-06-13 2014-09-17 百度国际科技(深圳)有限公司 钓鱼网页的检测方法和装置
CN105373730A (zh) * 2014-08-25 2016-03-02 中国信托商业银行股份有限公司 自动侦查钓鱼网页的方法与系统
CN105391674A (zh) * 2014-09-04 2016-03-09 腾讯科技(深圳)有限公司 一种信息处理方法及系统、服务器、客户端
CN105391674B (zh) * 2014-09-04 2020-10-16 腾讯科技(深圳)有限公司 一种信息处理方法及系统、服务器、客户端
CN105488406A (zh) * 2014-12-29 2016-04-13 哈尔滨安天科技股份有限公司 一种基于特征向量的相似恶意样本匹配方法及系统
CN107533557B (zh) * 2015-05-13 2019-10-18 谷歌有限责任公司 使用模板识别网络欺诈通信
CN107533557A (zh) * 2015-05-13 2018-01-02 谷歌公司 使用模板识别网络欺诈通信
CN106302319A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 一种钓鱼网站检测方法和设备
CN105208002A (zh) * 2015-08-24 2015-12-30 成都秋雷科技有限责任公司 钓鱼网站拦截方法
CN105187415A (zh) * 2015-08-24 2015-12-23 成都秋雷科技有限责任公司 钓鱼网页检测方法
CN105138918B (zh) * 2015-09-01 2019-03-29 百度在线网络技术(北京)有限公司 一种安全文件的识别方法及装置
CN105138918A (zh) * 2015-09-01 2015-12-09 百度在线网络技术(北京)有限公司 一种安全文件的识别方法及装置
CN106713246A (zh) * 2015-11-17 2017-05-24 中国移动通信集团公司 一种应用程序页面劫持的检测方法、装置及移动终端
CN105530251A (zh) * 2015-12-14 2016-04-27 深圳市深信服电子科技有限公司 识别钓鱼网站的方法及装置
CN107204960A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN107204960B (zh) * 2016-03-16 2020-11-24 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN107786529A (zh) * 2016-08-31 2018-03-09 阿里巴巴集团控股有限公司 网站的检测方法、装置及系统
CN107870927A (zh) * 2016-09-26 2018-04-03 上海泓智信息科技有限公司 文件评估方法和装置
CN107870927B (zh) * 2016-09-26 2021-08-13 博彦泓智科技(上海)有限公司 文件评估方法和装置
US10291646B2 (en) 2016-10-03 2019-05-14 Telepathy Labs, Inc. System and method for audio fingerprinting for attack detection
US10992700B2 (en) 2016-10-03 2021-04-27 Telepathy Ip Holdings System and method for enterprise authorization for social partitions
US10404740B2 (en) 2016-10-03 2019-09-03 Telepathy Labs, Inc. System and method for deprovisioning
US10419475B2 (en) 2016-10-03 2019-09-17 Telepathy Labs, Inc. System and method for social engineering identification and alerting
US11818164B2 (en) 2016-10-03 2023-11-14 Telepathy Labs, Inc. System and method for omnichannel social engineering attack avoidance
US11165813B2 (en) 2016-10-03 2021-11-02 Telepathy Labs, Inc. System and method for deep learning on attack energy vectors
US11122074B2 (en) 2016-10-03 2021-09-14 Telepathy Labs, Inc. System and method for omnichannel social engineering attack avoidance
CN106503125B (zh) * 2016-10-19 2019-10-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN106503125A (zh) * 2016-10-19 2017-03-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN106603490A (zh) * 2016-11-10 2017-04-26 上海斐讯数据通信技术有限公司 一种钓鱼网站的检测方法和系统
CN107181730A (zh) * 2017-03-13 2017-09-19 烟台中科网络技术研究所 一种仿冒网站监测识别方法及系统
CN107800686B (zh) * 2017-09-25 2020-06-12 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN107800686A (zh) * 2017-09-25 2018-03-13 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN108304584A (zh) * 2018-03-06 2018-07-20 百度在线网络技术(北京)有限公司 非法页面检测方法、装置、入侵检测系统及存储介质
CN111224923A (zh) * 2018-11-26 2020-06-02 阿里巴巴集团控股有限公司 一种仿冒网站的检测方法、装置及系统
CN111224923B (zh) * 2018-11-26 2022-07-22 阿里巴巴集团控股有限公司 一种仿冒网站的检测方法、装置及系统

Also Published As

Publication number Publication date
US9218482B2 (en) 2015-12-22
WO2012089005A1 (zh) 2012-07-05
US20130086677A1 (en) 2013-04-04

Similar Documents

Publication Publication Date Title
CN102082792A (zh) 钓鱼网页检测方法及设备
CN109510815B (zh) 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN104125209B (zh) 恶意网址提示方法和路由器
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
CN102663000B (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN107204960B (zh) 网页识别方法及装置、服务器
CN102957664B (zh) 一种识别钓鱼网站的方法及装置
CN101795267B (zh) 病毒检测方法、装置和网关设备
CN102316099B (zh) 网络钓鱼检测方法及装置
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
CN102739679A (zh) 一种基于url分类的钓鱼网站检测方法
CN102129528A (zh) 一种web网页篡改识别方法及系统
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN102622553A (zh) 检测网页安全的方法及装置
CN101950312A (zh) 一种互联网网页内容解析方法
CN112929390B (zh) 一种基于多策略融合的网络智能监控方法
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN111723371A (zh) 构建恶意文件的检测模型以及检测恶意文件的方法
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN111770079A (zh) 一种web框架注入漏洞检测方法及装置
CN107239520B (zh) 一种通用论坛正文提取方法
CN114372267A (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
CN109284465A (zh) 一种基于url的网页分类器构建方法及其分类方法
CN111125704B (zh) 一种网页挂马识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Effective date: 20130106

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Applicant after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Applicant before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD. TO: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: CORRECT: ADDRESS; FROM: 611731 CHENGDU, SICHUAN PROVINCE TO: 518129 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20130106

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Applicant before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110601