CN103843003A - 句法指纹识别 - Google Patents

句法指纹识别 Download PDF

Info

Publication number
CN103843003A
CN103843003A CN201280039933.0A CN201280039933A CN103843003A CN 103843003 A CN103843003 A CN 103843003A CN 201280039933 A CN201280039933 A CN 201280039933A CN 103843003 A CN103843003 A CN 103843003A
Authority
CN
China
Prior art keywords
hashed value
phishing
website
url
web site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280039933.0A
Other languages
English (en)
Other versions
CN103843003B (zh
Inventor
B·瓦德曼
W·哈顿克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UAB Research Foundation
Original Assignee
UAB Research Foundation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UAB Research Foundation filed Critical UAB Research Foundation
Publication of CN103843003A publication Critical patent/CN103843003A/zh
Application granted granted Critical
Publication of CN103843003B publication Critical patent/CN103843003B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/51Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems at application loading time, e.g. accepting, rejecting, starting or inhibiting executable software based on integrity or source reliability
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01FMEASURING VOLUME, VOLUME FLOW, MASS FLOW OR LIQUID LEVEL; METERING BY VOLUME
    • G01F11/00Apparatus requiring external operation adapted at each repeated and identical operation to measure and separate a predetermined volume of fluid or fluent solid material from a supply or container, without regard to weight, and to deliver it
    • G01F11/10Apparatus requiring external operation adapted at each repeated and identical operation to measure and separate a predetermined volume of fluid or fluent solid material from a supply or container, without regard to weight, and to deliver it with measuring chambers moved during operation
    • G01F11/26Apparatus requiring external operation adapted at each repeated and identical operation to measure and separate a predetermined volume of fluid or fluent solid material from a supply or container, without regard to weight, and to deliver it with measuring chambers moved during operation wherein the measuring chamber is filled and emptied by tilting or inverting the supply vessel, e.g. bottle-emptying apparatus
    • G01F11/262Apparatus requiring external operation adapted at each repeated and identical operation to measure and separate a predetermined volume of fluid or fluent solid material from a supply or container, without regard to weight, and to deliver it with measuring chambers moved during operation wherein the measuring chamber is filled and emptied by tilting or inverting the supply vessel, e.g. bottle-emptying apparatus for liquid or semi-liquid
    • G01F11/263Apparatus requiring external operation adapted at each repeated and identical operation to measure and separate a predetermined volume of fluid or fluent solid material from a supply or container, without regard to weight, and to deliver it with measuring chambers moved during operation wherein the measuring chamber is filled and emptied by tilting or inverting the supply vessel, e.g. bottle-emptying apparatus for liquid or semi-liquid with valves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Abstract

一种通过组成网站的构造组件,识别网络钓鱼网站和展示每个网站的起源的方法。本方法包括识别新观察到的网络钓鱼网站并使用本方法作为聚集网络钓鱼网站的距离度量。变更本方法内的阈值演示了网络钓鱼调查人员识别许多网络钓鱼网站源头以及各个网络钓鱼者的潜在能力。

Description

句法指纹识别
相关申请的交叉引用
根据35U.S.C.§119,本申请要求2011年7月8日提交的临时专利申请序列号61/505,630的优先权,标题为“SyntacticalFingerprinting”,其全部内容在此引用作为参考。
技术领域
本发明针对自动地识别在工具栏内新观察到的网络钓鱼网站、为了调查而正确地标注所述网络钓鱼网站以及确定所述网络钓鱼网站的流行和起源的方法。
背景技术
研发人员已经提出许多不同的技术用于检测文件之间的相似性,比如确定源代码中变化的技术,例如普遍存在的Unix实用程序diff,或者通过ssdeep取证地识别系统文件的变种或恶意软件。这些实用程序提供了确定文件变化的好处,比如对代码段的编辑或者诸如插入或删除若干字节的小变化。不过,需要几乎严格匹配并非总是切合实际,并且这些技术对文件的起源是否相同不提供指示。为了识别网站是不是恶意,文件不一定需要完全相同,网络钓鱼就是一个实例情况。常用组件如表单和JavaScript函数过程在计算机罪犯的这个子集之中被开发和重用,从而能够被用于识别新的网络钓鱼网站以及聚集类似的网站。
网络钓鱼是社会工程攻击,通常通过模仿机构,典型情况下模仿金融机构的网站诱骗受害者提供敏感信息。收集的信息随后用于获得对账户信息的访问权限或用于身份窃取。2008年,Gartner的研究报告了2008年因网络钓鱼欺诈超过500万美国人损失平均361美元,损失大约将近20亿美元。有两种方法应对这些攻击:反应和主动行动。
反应方式是用于许多金融机构的情况,其中恶意内容在被称为“拆卸”的过程中从因特网去除。典型情况下,机构把这个过程外包给“拆卸”公司。这些公司接收可能恶意的URL并判断这些URL是不是网络钓鱼。如果网站是网络钓鱼网站,那么联系该URL所在域的系统管理员随后要求他删除该内容。不过,某些机构已经开始了主动行动方式,通过起诉和定罪以阻止网络钓鱼者从事未来的攻击。
机构的反应响应包括在恶意内容到达潜在受害者之前,经由电子邮件过滤器和浏览器工具栏阻止它。电子邮件服务提供商、邮箱软件比如微软的Outlook和Mozilla Thunderbird或者反垃圾邮件厂商使用了恶意内容所在的已知网站的URL列表(黑名单)、URL内的特征以及统计技术(DSPAM,SpamAssassin等)以阻挡网络钓鱼邮件到达潜在的受害者。为了适应垃圾邮件过滤器,网络钓鱼者经由HTML隐藏电子邮件消息内的内容,假冒发件人的电子邮件和IP地址,并且创建随机URL把受害者重定向到网络钓鱼网站。这些重定向可以协助使黑名单无效,因为每个URL都可以是随机地唯一的。此外,研究人员已经显示出:黑名单识别出足够百分比的URL要花两小时而这些URL的垃圾邮件活动──这是指为共同意图而发送简短、高容量分发的电子邮件消息──平均持续四至六小时。所以,到把URL列入黑名单之时,罪犯很可能已经转移到下一个网络钓鱼网站向新的URL发送垃圾邮件。
浏览器工具栏是另一种反应措施,往往采用类似技术识别网络钓鱼网站。工具栏使用URL黑名单与网站内容的启发式的结合以警告用户网络钓鱼内容(Mozilla Firefox2011;Internet Explorer2011;Netcraft2011)。这些基于内容的技术能够使用网站的文本分析、WHOIS信息和图像分析用于识别。这是这些反应方式的一个主要弱点,并且是为何某些机构也已经开始采用主动行动方式的原因。
机构的某些响应已经转向更为主动行动的方式,使用调查人员和法律实施以利用起诉和刑期的后果阻止网络钓鱼者。另一方面已经证明,对网络钓鱼的调查难以调查和定罪。调查人员往往缺乏必要的工具和分析数据对罪犯建立强有力的证据。研究人员已经试图收集关于网络钓鱼事件的集合信息,以提供关于这种犯罪行为流行程度的数据报告。2007年,网络钓鱼者在相同的IP区块创建若干域并主管这些域。为了把由同一网络钓鱼者创建的网站分在一组,开发了聚集算法,根据IP地址或网络确定网络钓鱼网站的流行。因此根据这些网站所在之处指示网络钓鱼者的范围。不过,最近已经证明,网络钓鱼者正在共享常用的攻击工具,并且有可能使用相同的漏洞利用工具危害网络服务器;因此,如果若干网络钓鱼网站处在同一网络上,未必表明该网站由同一网络钓鱼者创建。
在先前工作中,开发的聚集算法采用了称为Deep MD5Matching的文件匹配算法,通过文件集中类似文件的数量对网站集进行分组。这种技术展示了把由同一或类似网络钓鱼工具箱创建的若干网站组进行聚集的能力。这种技术的一个缺点是聚集以下网站的能力,它们由网站所在的域上的仅有一个文件组成。
在阿拉巴马大学伯明翰分校的研究表明,大约50%的网络钓鱼网站包含所在域的服务器上的仅仅一个文件,而提供更网站外观和感觉的其它文件存在于另一台服务器上,比如目标机构的或商标的网络服务器。作为响应,需要开发新的方式用于这样的网站。
发明内容
本发明针对识别在工具栏内新观察到的网络钓鱼网站、为了调查而正确地标注所述网络钓鱼网站以及确定所述网络钓鱼网站的流行和起源的方法。句法指纹识别计算网络钓鱼网站主索引文件的构造成分即组件的集之间的相似系数以确定相似度。所述方法能够用于识别、标注以及分组相似的网站,它们可以提供网络钓鱼的作者身份或起始地址的证据。
确切地说,所述句法指纹识别方法被用于找到文件关系并确定文件相似度。如此做的方式为把文件和大的字符串集解析为片段并将这些片段与其他文件或文档进行对比而确定它们的相似度。句法指纹识别对网络钓鱼网站的识别能力部分地依赖于软件开发人员在其程序或网站的开发中重用结构和功能组件比如函数和类的实践。同样,人们重用论坛上的帖子和建议。
除了确定网络钓鱼网站之间的关系,句法指纹识别还能够被应用到若干恶意软件样本以确定恶意软件家族和恶意软件版本。重叠的代码段或函数可能表明病毒作者重用了来自另一个源的代码,或者所述文件集全部来自同一文件家族(即从同一源创建)并随着时间推移或所述代码被分配给不同开发人员时被修改。论坛中成员往往重帖对用户的建议,或传递来自其他论坛的新闻。在黑客或恐怖分子的情况下,论坛和论坛主题能够被指纹识别以确定帖子的起源或起点。另外,黑客创建新工具或漏洞利用工具箱闯入电脑。这些漏洞利用工具箱往往重用来自先前工具箱的漏洞利用工具。或许有可能显示出漏洞利用工具箱家族和这些工具箱随时间的演变。句法指纹识别也可以适用于分析因特网流量,无论通过网络日志还是即时数据包俘获。所述协议允许把流量解析为组件,并且这些组件可以对比以确定流量之间的相似度。加权的或白名单的方式能够被用于去除对流量相似度没有影响的常见组件。
句法指纹识别的重要方面是其显示出有可能通向文件的起源或家族的文件之间关系的能力,尤其是当文件格式遵循特定的语法树或协议时。此外,句法指纹识别能够被用作聚集算法的距离度量,以展示文件或协议家族如何随时间演变。
附图简要说明
图1是流程图,展示了网络钓鱼网站的抽象语法树指纹识别的方法;
图2展示了针对两种不同商标的两个网络钓鱼网站如何具有重叠的HTML构造,比如JavaScript函数;
图3展示了两个源代码片段之间的代码变化;
图4展示了关于两个训练集的句法指纹识别的ROC图;
图5展示了使用句法指纹识别的集群。
具体实施方式
本发明针对被称为抽象语法树指纹识别或句法指纹识别的新颖方法,用于对比相似的网络钓鱼网站文件结构组件或构造成分以确定相似度。预期这种技术可以应用于计算不同于网络钓鱼网站文件的若干文件类型之间的相似度。这种相似度能够被用于显示网络钓鱼网站文件为同一起源并可能来自同一文件家族。一般来说,本方法包括把网页比如网站索引页解析为抽象语法树。源代码构造成分可以包括网页的常用元素比如表单、表或JavaScript代码,但不限于仅仅这些组件。不是语法树的每个构造成分都被解析,因为某些网页可能包含数千个构造成分,可能导致比较和分析中的问题。下一步,对每个构造成分都计算散列值,并且构造成分散列值的集与其他钓鱼网页的构造成分集进行对比。最后步骤使用相似系数(如Kulczynski2)产生相似度评分。取决于相似度评分的预定阈值,该网站被认为是与特定商标比如美国银行相关联的网络钓鱼网站。另外,根据相似度评分能够确定该网站的起源。
参考图1,所构建的系统10为了运行在计算机系统比如计算机服务器上,具有现代化的操作系统,象微软的视窗或UNIX的变种比如Linux。数据库功能目前由PostgreSQL提供,它是强大的开源的对象-关系数据库系统,但是也可以用于其他数据库平台。目前,在系统中使用PERL控制经由因特网的通信并解析所收到的电子邮件。虽然本发明人目前使用解释型语言PERL,但是预期编译语言比如C语言会最终实施所述系统的特征。
启动11后,系统10接收13所供给的URL12的字符串并把它们解析13为文本文件,每行具有分开的URL。URL12由各种各样的来源提供,比如反垃圾邮件公司、反网络钓鱼公司、“关机”公司、受益人(如客户)、客户转发的电子邮件、积极预防网络钓鱼网站泛滥的其他实体的通知或者保存着由反垃圾邮件协会所维护的URL集合的自动化数据库发出的通信。此外,消费者可能有在其PC上运行的自治程序,自动从疑似网络钓鱼网站俘获通信并把这些通信发送到系统10进行自动处理,或者消费者有可能手动地激活已安装的插件,它被设计为与消费者的电子邮件程序合作,转发疑似网络钓鱼通信的取证原始副本。另外,预解析程序(未显示)可以接收向本系统转发的电子邮件,并且提取电子邮件中出现的URL再把这些URL馈送到系统。典型情况下,编程语言PERL在其函数库中包括解析函数,能够用于成功地解析电子邮件,产生电子邮件本体中出现的URL。
决策步骤14提供了对重复URL和可能已被消费者报告为潜在网络钓鱼网站,但是被系统10的受益人先前确定为合法网站的URL的排除。例如,如果某特定域被预定义为保持受益人站点,那么利用该域名报告的全部URL将会被排除在系统的分析之外。去除有利的和重复的URL后,每个剩余疑似网络钓鱼网站URL的索引页的网站内容文件14都由系统10在因特网上检索并下载。然后系统10预处理16每个网站内容文件,包括去除网站内容文件中的全部空格,并使文件不区分大小写。预处理进一步包括去除在解压网站上钓鱼工具箱期间被添加到文件中的动态内容或定位。预处理产生标准化的网站内容文件。
利用诸如Beautiful Soup的程序,识别了解析破损HTML的Python包、标准化网站内容文件内的HTML标签,比如<form>、<script>和<table>标签,并且为每个网站创建了抽象语法树17。其他编程语言也可以用于解析网站文件。图2展示了示范内容文件。抽象语法树由标识的HTML实体构建,它们在树中排列的顺序与在导出它们的网站内容文件中呈现的顺序相同。
把标准化网站内容文件解析为抽象语法树后,对每个标识的HTML实体计算18散列值。散列值集从每个网站内容文件的每个HTML实体的散列值构建并存储在数据库中。散列值通过计算MD5检查和而获得,利用了称为“md5deep”的已知库函数。Md5deep是使用MD5(消息摘要算法5)的散列函数,产生唯一表示下载索引页的单一整数值。众所周知,散列函数是任何明确定义的过程序或数学函数,将大量的有可能可变规模量的数据转换为小数据项,通常是单一整数,可以用作阵列的索引。在这种情况下,MD5散列函数被用来计算散列值,与其他存储的散列值进行对比。
一旦已存储,从网站内容文件的散列值集中随机选择的散列值便与已知网络钓鱼网站的HTML实体的散列值进行对比19。散列值呈现在按时间顺序排列的散列值表中并被存储在数据库20上。散列值从最新到最旧排列。在对比期间,随机选取的散列值与已知网络钓鱼网站的散列值按它们在表中呈现的顺序进行对比。这样,随机选择的散列值首先与近期添加的已知网络钓鱼散列值对比,然后再与较旧的散列值对比。如果对第一个随机选择的散列值在数据库20中没有找到匹配,便执行来自疑似网站内容文件的另一个散列值。如果在数据库20中没有找到匹配,反映所处理的URL没有匹配,此URL就能够被升级为由干预团队进行人工审核。
如果在数据库20中找到了匹配,疑似网络钓鱼的URL的散列值集便与它已匹配的已知网络钓鱼的URL的散列值集进行对比,以产生相似度评分21。Kulczynski2系数产生相似度评分。Kulczynski2系数在公式1中表达,其中a是集合1与集合2之间匹配的文件构造成分MD5或散列值的数量,b是集合1中的构造成分没有与集合2中文件构造成分MD5匹配的数量,而c是集合2中的构造成分没有与集合1中文件构造成分MD5匹配的数量。
Kulczynski 2 = ( a a + b + a z + c ) - - - ( 1 )
对公式1进行估算所提供的值度量了两个文件构造成分集或散列值集之间的相似度,方式为取两该集合之间匹配构造成分比例的平均。选择Kulczynski2相似系数是因为一个集合中匹配构造成分的百分比与另一个集合中匹配构造成分的百分比应当具有相等的权值,以便不歧视任一网页的集合。取决于相似度评分的预定阈值,如果疑似网络钓鱼网站达到或超过此阈值,其URL就被视为网络钓鱼网站。一旦网站被视为网络钓鱼网站,其散列值集便被存储到数据库20上的已知网络钓鱼网站的散列值表中。正如以下进一步详细介绍,当网站被视为网络钓鱼网站时,确定23其起源的方式为对比网络钓鱼网站的散列值集与在数据库20上存储的一定的已知网络钓鱼散列值集并计算相似度评分。
句法指纹识别方法在以下实例中进一步详细介绍。
实例
构造成分的预处理。许多网络钓鱼的主索引文件包括在网络服务器上的网络钓鱼工具箱解压期间被添加到文件的动态内容(即对绝对文件路径的引用)。这种内容对过分简单化的和模糊散列值的函数都引起不匹配。从原始副本分开网络钓鱼网站的另一种尝试包括对字母大小写的编辑和插入或删除空格。参考图3,描绘了两个美国银行网络钓鱼网站源程序的实例,其中差异在“onKeyPress”中存在。为了反击这些实例,对构造成分先进行预处理,方式为去除URL和空格并把构造成分改变为不区分大小写,再计算散列值。这些预处理步骤对其他形式的文件匹配算法也有效。
数据集。这个实例利用了由UAB电脑取证研究实验室(CFRL)收集和标注的两个数据集。这些数据集合由来自许多不同疑似网络钓鱼的URL馈源的URL组成,使得每个数据集都为网络钓鱼网站的多变高质的集合。若干URL被发送到UAB网络钓鱼的数据宝库,在此重复的URL被去除以避免重复处理同一内容。与这些URL相关联的网站内容文件由采用GNU的Wget Red Hat修改版的定制软件下载。
训练数据集由两个实验测试:第一个实验更新训练集,犹如UAB网络钓鱼的操作团队和自动方式深层MD5匹配每天一批地标注URL,在每天结束时添加另外的已确认的URL(即模仿从黑名单公司馈送已确认的URL)。这个实验最接近地类似于热门网络钓鱼系统在其日常操作中遇到的问题。第二个训练数据集实验运行对由不断地对训练数据集更新的理想标签组成的系统进行仿真。这个实验最接近地类似于在学术研究中使用的假设数据集。
数据集1-检测网络钓鱼网站。为了把网站标注为网络钓鱼或非网络钓鱼而收集数据集1。为了确保结果的准确性,数据集的49,840个URL由人工检查以判断URL为有利还是网络钓鱼。结果发现49,840个URL中的17,992个是把156个不同的机构作为目标的网络钓鱼。由于这个数据集关于URL是网络钓鱼还是非网络钓鱼而不是关于商标的人工检查,所以URL商标标签可能不是一直准确的。
数据集2-聚集网络钓鱼网站。在数据集1之后收集数据集2。这个数据集具有把230个不同商标作为目标的网站,并且与数据集1相比关于商标更多样化,因为向UAB网络钓鱼数据宝库加入了URL馈源。这个数据集的一个限制是它不是人工检查准确性,并关于商标和网络钓鱼标签包含误标注的网站。
方法。句法指纹识别使用网络钓鱼网站主索引文件的结构组件作为识别网络钓鱼的机制。除了网络钓鱼网站的检测,句法指纹识别也用于演示聚集网络钓鱼网站以及潜在地识别网站起源的能力。
检测网络钓鱼网站。为了验证所提出的方法是检测网络钓鱼网站的可接受方法,设置了若干实验。数据集1被用于度量对训练数据进行句法指纹识别时检测与误报率,模仿使用人工确认的热门网络钓鱼系统和无瑕疵标注的数据集比如在学术研究中所使用的数据集都用这些训练数据。这些实验测试了改变文件组件的散列值集之间相似系数阈值的效果。
聚集网络钓鱼网站。研究的第二阶段使用句法指纹识别作为聚集的距离度量。这个研究阶段对来自数据集2的47,534个网站即网站池进行测试。对网站池测试了三个实验,其中由Kulczynski2系数产生的阈值有变化,使用10%、50%和85%。阈值的变化用于演示更低的阈值如何可以根据起源或源头聚集,而更高的阈值可以根据网络钓鱼者聚集。聚集算法的步骤如下:
输入:URL数据集(D)、阈值(tValue)
输出:由相似系数聚集的集群集。
Figure BDA0000466299070000101
阈值的统计分析。为了设置阈值,必须确定误报率。例如,工具栏或拆卸公司或许仅仅能够接受小于1%误报率,而股份公司可能接受5%的误报率以保护其员工。考察了三个阈值表明,对于反网络钓鱼社区的某些派系,低值仍然提供了可管理的误报率。此外,考虑这样的技术的利用率时,误报种类存在差异。存在着关于网站是网络钓鱼网站还是有利网站的误报以及被标注为关于为同一目标机构的误报。前者会用于度量工具栏和电子邮件过滤器的准确度,而后者可以用于度量聚集算法的准确度。
统计技术。在这项研究中使用的统计技术是对来自数据集2的有利和网络钓鱼的URL都进行系统性采样。在这个时段,有47,534个URL包含了与同一时段内另一个URL匹配的部分,建立了近9650万对。因为这么大的数量,所以系统性采样被用于减少需要手动验证以确定句法指纹识别置信度的URL对的数量。系统性采样方案把样本整体按URL被提交到UAB系统的时间排序。本采样技术计算该集合中前i个元素中的随机起始点,并在余下已排序的样本整体中从该起始点每i个元素选择一个。i的计算结果是总样本(N)除以采样规模(SS)的结果。
当数据集关于商标和非网络钓鱼无序时选择这种方式。以±2%的采样误差率实现99%置信度的统计公式表明,对于1,000,000的样本整体规模会需要对4,143个实例采样,而当样本整体规模为100,000,000时那么会需要对4,160个实例采样(只十三个以上)。公式2和公式3用于计算样本整体为N时所需的样本规模。Z被定义为置信百分比的Z评分。P是样本整体中网络钓鱼的比例。典型情况下,如果这个值未知,那么,使用0.5,这将会使样本整体中需要采样的部分最大化。最后,C指的是置信区间,意味着误差率在±某百分比之内。在这个统计分析中置信百分比是99%,Z评分是2.576,P为0.5,而C被设置为1%和2%。
X = Z 2 * P * ( 1 - P ) C 2 - - - ( 2 )
SS = X 1 + X - 1 N - - - ( 3 )
选择99%置信度和0.5的P值是为了对显示句法指纹识别有效性所需要的网站数量进行过采样。
统计分析。初步测试表明误报率和检测率随阈值变化而改变。所以,测试了三个阈值10%、50%和85%以确定在句法指纹识别方法中使用它们将引发的误报率。样本整体从9650万对中采集,有利和网络钓鱼网站都包括,其中算出的文件组件集的Kulczynski2系数大于等于这三个阈值。这些查询对于阈值85%产生了10,548,665对的样本整体,而对于50%产生了19,282,737对,对于10%产生了88,999,846
对。表1呈现了使用公式3对每个阈值的样本整体算出的样本规模。
样本规模 85%阈值 50%阈值 10%阈值
±1%误差率 16,615 16,627 16,638
±2%误差率 4,160 4,160 4,160
表1:句法指纹识别的统计分析中每个阈值的样本规模
为了测试所述采样方法的准确度,以及在研究中加入统计的优点,每组样本,1%和2%的样本都随机地选择并且网站由人工检查以确定句法指纹识别方法的准确度。共计62,360对进行了准确度检查。这些样本显示出预期的在理想地标注的数据集上关于商标标注和网络钓鱼检测的误报率。表2和表3由对±1%和±2%采样误差率都使用99%的置信度的每个阈值的统计分析结果组成。
Figure BDA0000466299070000121
表2:使用句法指纹识别把有利网站标注为网络钓鱼网站的统计方法的结果
Figure BDA0000466299070000122
表3:使用句法指纹识别误标注网络钓鱼网站的统计方法的结果。
结果。首先呈现的是当改变文件组件集之间Kulczynski2相似系数的阈值时,发生在数据集1上的检测和误报率的结果。其次,呈现了使用句法指纹识别作为距离度量的聚集方法的结果。呈现了I2分析师簿式视窗图表,以便视觉地展示在网络钓鱼网站整个进化中如何使用文件组件,无论是由相同的还是不同的网络钓鱼者。
检测网络钓鱼网站。参考图4,上述统计方法显示出,不同的阈值能够改变对网络钓鱼内容进行识别时的误报率水平。对数据集1测量了每个阈值的检测和误报率。正如在表4中所观察到的,用于句法指纹识别的不同阈值对检测和误报率都有影响。当在两个实验运行中都把阈值从85%降低至10%时,检测率实质提高6-7%。85%阈值的误报率分别为1.9%和2.0%,然而,在两个实验中85%阈值的误报率增加了12.5%和13.5%,这对于反网络钓鱼解决方案是高误报率。在这个数据集中有1,981个网站(11%)的主索引页不包含任何AST构造成分。
标注似乎随训练数据(即网络钓鱼主页的数量)的规模增加而变得更好。表4表明,有众多有利网站包含着在网络钓鱼中出现的某些重叠段。许多这些有利网站几乎不重叠,如它们的评分所表明。
表4:使用数据集中主索引页的句法指纹识别的结果。
聚集网络钓鱼网站。最后结果展示了如何使用组成这些网站的构造成分能够聚集网络钓鱼网站的主页。第一组群集根据数据集2中若干网站之间的10%重叠而分组。第二和第三组相似但是使用了50%和85%的阈值。阈值的变化有助于展示更低的阈值如何显示出识别同一起源或原始组件的网站的能力,而更高的阈值展示出找到由个别网络钓鱼者创建的一组网站的能力。
第一组群集使用了10%的阈值,所以,如果在某网络钓鱼页面中包含部分的10%或更多出现在代表性URL中,那么向该群集加入候选URL。一旦候选URL被添加到群集,它便从代表性的和候选URL池中去除。这个过程导致4,033个群集中的2,182个群集包含该群集中不止一个URL。2,182个群集中有1,018个包含至少一个网站具有群集中的商标,而这些群集中的94个包含同一群集中的多个商标。
通过提高阈值增加聚集算法的选择性引起更小尺寸的更多群集。在50%阈值,有6,791个群集,包括2,182个带有不止一个URL,而85%阈值引起9,311个群集,其中2,948个包含不止一个URL。在50%水平,1,721个具有至少一个网站带有已标注的商标且只有87个群集具有多个商标,而在85%水平,2,796个群集包含带商标的网站且106个群集包含多个商标。
如上所述,数据集2中的URL表示了230个不同的网络钓鱼商标。表5显示了关于85%和10%阈值结果中代表性URL的十个最知名商标的某些特征。表5展示了句法指纹识别中Kulczynski2系数的阈值变化如何能够改变群集的规模和数量。表5中重要的变化是PayPal网络钓鱼网站的减少,当阈值从85%移动到10%时减少74.5%。以下聚集讨论部分中介绍了对发生现象的观察,以及对合成群集的更深入分析。
Figure BDA0000466299070000141
表5:使用句法指纹识别根据代表性URL商标,关于目标机构的群集的最大数量。
下文讨论了这些实验的结果以及如何调整这种技术用于不同目的。为了更清晰地表达句法指纹识别以及它如何工作,介绍了实例群集的i2分析师簿式视窗图表。
图5是以50%阈值使用句法指纹识别所产生的群集之一的视觉表达。代表性URL的商标,该图中心的圆,是NatWest。称为子集的正方形表示由网络钓鱼网站的图标所指示的每组网络钓鱼当中的公共构造成分集。弧线具有相关联的十进制数,是在每个子集中的网络钓鱼网站与代表性URL的相似度评分。有13个JavaScript和2个表单段被用于建造该群集。表6显示了所述实体存在于源代码之内的群集内所有网站的出现百分比。
JavaScript实体1、2、3、4 91%
JavaScript实体5、6、7、8 82%
JavaScript实体9 64%
JavaScript实体10、11 46%
JavaScript实体12、13 18%
表单实体1、2 27%
表6:展示了包含每个实体的网站百分比
正如表6中要素展示,与匹配的表单表单实体相比,匹配的JavaScript实体更为普遍。表单实体往往被用于提供网站的外观和感觉,而JavaScript实体能够影响网站的功能。网络钓鱼网站的各个版本可能外观和感觉略有不同,但仍然需要相同的功能。因此,匹配的JavaScript实体的普遍性可能是由于网站的功能而不是外观和感觉。
检测网络钓鱼网站。句法指纹识别实验的检测和误报率可以与之前研究人员的结果不相上下,与10%阈值相关联的高误报率例外。两个数据集的利用显示出令人吃惊的结果。使用每日批处理系统的训练数据与使用理想标签进行训练的方法之间没有显著差异。误报和漏报的分析减少了本技术当前实施方式的局限性。
数据集内发生漏报由于两个主要原因。未识别网络钓鱼网站的第一个原因是因为在该数据集期间引入了在该数据集之内或该训练集之内先前并未出现的新的源代码。新的源代码不是对先前已观察到的网络钓鱼网站的变更或修改。利用更大的主索引页集,如同UAB网络钓鱼数据宝库中当前存在的,检测率能够得到提高。未划分网络钓鱼网站的第二个原因是由于网站的语法解析。在目前实验中,当元素字母大写时,比如搜索<table>标签但是不捕捉<TABLE>标签时,句法元素不被考虑。这种现象存在于许多被错过的网站。这种分析的另一个发现是,某些构造成分没有被解析并散列在语法树中。例如,目前的实验没有把<div>标签考虑为用于对比的构造成分。
要解决误报率更加复杂。在某些情况下网络钓鱼者重用合法网站中存在的构造成分,给出逼真的外观和感觉。这些可重用的组件实际存在,比如用于登录用户的普通JavaScript函数和用来选择数据的表格。在未来的实施中可以给这些公共构造成分更小的权重,所以不会根据这样的构造成分标注网络钓鱼网站。
聚集网络钓鱼网站。使用句法指纹识别作为距离度量已经显示出根据组成网站主索引页的公共结构组件聚集网站的能力。分析显示出在不同阈值的句法指纹识别可以根据网络钓鱼与非网络钓鱼、商标、或可能网络钓鱼者引起聚集。
表5显示了使用三个阈值的句法指纹识别聚集得出的最高群集。显然,升高Kulczynski2系数的阈值引起群集数量的增大。在同高阈值群集中的成员可能由同一网络钓鱼者创建。
表5中,更高阈值产生更多群集的实例在美国银行商标中观察到。使用10%阈值产生的24个群集与使用85%阈值产生的174个群集之间有1%的网站成员变化。群集数量的增大而商标成员差异的缺乏的解释可能是174个群集是由不同网络钓鱼者所编辑的网站组,而24个群集是来自同一文件起源的网站组。
句法指纹识别可用于自动地标注网站商标。85%阈值产生了2,630个单商标群集,包括37,129个网站。不过,85%阈值也产生了106个跨商标群集,包括18,457个网站。106个跨商标群集的分析显示出88个群集事实上不是跨商标群集。这88个群集的成员网站由人工和由UAB网络钓鱼数据宝库当前采用的自动标注而误标注。不仅如此,这些群集有可能被用于重新标注误识别的网络钓鱼内容。正如关于数据集2指出,数据集不是100%由人工检查标注。通过使用聚集方法,可以在数据宝库内识别并修复误标注的网络钓鱼网站。除了重新标注已知的网络钓鱼内容,句法指纹识别也显示出对过去错过的网络钓鱼网站进行更新的能力。一旦检测出新版本的网络钓鱼网站,现在就能够根据新模式或构造成分更新过去未检测出的网站。
剩余18个85%阈值的跨商标群集中,9个群集包含的网站使用JavaScript函数把用户重定向到附加内容。剩余9个跨商标群集每个群集都包含两个商标。所有这些群集中,两个商标的网站使用同一构造成分组织和执行网络钓鱼内容。许多网站的源代码几乎相同,网页的标题和标志除外。
以下索引页内容文件中可以观察到实例。
A.桑坦德银行网站
Figure BDA0000466299070000181
Figure BDA0000466299070000191
B.巴西银行网站
Figure BDA0000466299070000212
Figure BDA0000466299070000221
在这个实例中,粗体字显示的标题包含不同的目标商标,但是标题的其余部分相同。每个网站涉及几乎完全相同内容的文件,不过当对这些文件进行预处理时文件处在不同的服务器上,正如以斜体字显示的类型所示以及上面指出。最后,桑坦德银行网络钓鱼涉及
carlin.jpg,这不是巴西银行网络钓鱼所涉及的,因为巴西银行网络钓鱼涉及botoa-pessoafisica.png。carlin.jpg的几行加了下划线而
botoa-pessoafisica.png以加下划线的粗体字显示。这可以表明这种技术可以不仅用于识别某特定网络钓鱼者对一个机构的攻击,而且可以识别网络钓鱼者使用同一或类似内容攻击多个机构。
最后,观察到了改变阈值导致的群集中网站数量的显著降低,如表5展示,它们的代表性URL被标注为PayPal。85%与10%阈值的对比显示出网站数量减少了74.5%。更详细地说,10%阈值时有7,690个PayPal网络钓鱼在其代表性URL被标注为有利的群集中发现,而85%阈值时4,566个PayPal网络钓鱼在类似群集中发现。这表明了两种情况之一。首先,重申了聚集方法可以被用于标注未被标注为网络钓鱼的URL。另一方面,表明每个群集的代表性URL都应该由人工验证和标注以扩大商标标注。
使用不同阈值的句法指纹识别能够由不同的网络钓鱼对策使用。URL黑名单公司可以发现以10%或50%阈值的误报率可接受,然而,对于拆卸公司它们过高。另一方面,拆卸公司确实发现以85%阈值的误报率是可以接受的。典型情况下,这些公司采用人工判断某网站是否为网络钓鱼。考虑到这一点,可以把系统设置为把超出85%的全部网站标注为网络钓鱼,而把落入85%与50%之间的网站标注为更可能的候选者。从而减少检查所有潜在网络钓鱼内容所需要的人工量。
局限性。本文介绍的方法具有局限性,如果专注解决,可以引起句法指纹识别更好的性能。第一个主要局限是用于收集网络钓鱼网站的提取过程。使用Wget是因为易于实施及其提供的特征。不过,在HTML、PHP或JavaScript内发生重定向时,关于提取内容Wget也有局限性。这样的重定向导致Wget无法检索恶意的网络钓鱼内容。数据集1中未检测出的许多网络钓鱼网站事实上为重定向并且网络钓鱼内容未被检索。要是网站被检索了,句法指纹识别的检测率很可能提高。一个解决方案将是开发定制网络爬虫,它具有跟随这样的重定向和捕捉网络钓鱼内容的能力。
另一个问题是Wget提取与人工检查过程之间的时间差异。如果在Wget提取与人工检查过程之间的时间里网页已经改变或其可用性已经改变,那么人工检查网页将不会看到与Wget过程检索相同的网页。例如,如果Wget提取时钓鱼网页被挂起,但是进行人工检查过程时活化,那么人工检查将把UAB网络钓鱼数据宝库中的挂起页面标注为确认的网络钓鱼。产生的误标注能够通过系统级联导致许多未来的误标注。最后,对由句法指纹识别创建的群集只给出了粗略分析而不是深入分析。这些群集需要更多分析以理解它们如何组成,以及阈值的变化如何能够用于识别不同的网站层(即同一起源、文件家族、商标或网络钓鱼者的文件)
未来的工作。本文介绍的方法提出了新颖的方法,用于网络钓鱼网站检测和分类。初始结果表明本方法有良好的检测性能并展示了链接类似网站的能力。在这两个领域都有改进空间,所以,需要未来的工作使这种技术更好。加入规模和/或构造成分类型作为相似系数中的加权调整,并使用抽象语法树的更多元素作为构造成分可以显示出在检测、商标标注以及作者身份即起源中的改进。
检测阶段中,为了关于提高检测率同时降低误报率的更好性能,这种技术能够与文件匹配的其他方法结合。与对照的文件匹配的其他技术相比,句法指纹识别可以证明是寻找候选文件的良好技术。这项研究还显示出句法指纹识别用作简单聚集的距离度量的能力;不过,未来的研究可以实施各种各样的聚集算法以提高性能。
未来工作可以包括调查研究高阈值的群集,以及显示多种文件构造成分显现在由UAB网络钓鱼数据宝库所收集的数据中的时间。句法指纹识别或许能够显示文件构造成分的显现与目标机构网站的变化之间的相关性。最后,需要先进一步测试和分析,才能做出有关网络钓鱼主索引文件的起源的更多断言。
正如将会被本领域的技术人员所理解,本发明可以以其他特定形式实施而不脱离其精神或本质特征。所以,本文的公开内容和说明旨在展示而不是限制本发明的范围,它在下面权利要求书中阐述。

Claims (20)

1.一种识别网络钓鱼网站的方法,包括:
a.提供计算机系统,具有操作系统、数据库系统以及用于控制通过因特网通信的通信系统;
b.向计算机系统发送通信,包含多个疑似网络钓鱼URL;
c.检索多个网络钓鱼URL的每个疑似网络钓鱼URL的网站内容文件,该网站内容文件包括构造组件;
d.预处理网站内容文件,从而为多个疑似网络钓鱼URL的每一个产生标准化的网站内容文件集;
e.为标准化的网站内容文件集的每一个创建抽象语法树;
f.为每个标准化的网站内容文件集的每个构造组件计算散列值,并且为每个标准化的网站内容文件集都从中构建散列值集;
g.从第一个散列值集选择第一个散列值并且把第一个散列值与已知网络钓鱼网站构造组件的散列值进行对比,以定位匹配的散列值;
h.如果匹配的散列值已定位,把第一个散列值集与匹配的散列值的散列值集进行对比并创建相似度评分;以及
i.如果相似度评分达到或超过预定阈值,把导出第一个散列值的疑似URL指定为网络钓鱼网站。
2.根据权利要求1的方法,其中,所述通信被发送自反垃圾邮件公司、反网络钓鱼公司、关机公司、在客户计算机系统上运行的自治程序,该自治程序被配置为自动地俘获疑似网络钓鱼网站的通信并把疑似网络钓鱼网站的通信发送到所述计算机系统。
3.根据权利要求1的方法,其中,以电子邮件本体发送多个疑似网络钓鱼URL时,从采用第一解析程序的通信中提取所述多个疑似网络钓鱼URL。
4.根据权利要求1的方法,进一步包括在步骤c之前,从多个疑似网络钓鱼URL中去除以下情形的任何疑似网络钓鱼URL:已知有利URL、已知网络钓鱼URL或者所述多个疑似网络钓鱼URL中另一个网络钓鱼URL的副本的URL。
5.根据权利要求1的方法,进一步包括在所述计算机系统上存储网站内容文件。
6.根据权利要求1的方法,其中,预处理包括一项或多项以下操作:从网站内容文件中去除空格、使网站内容文件不区分大小写或者从网站内容文件中去除动态内容。
7.根据权利要求1的方法,其中,网站内容文件从所检索的网站内容文件的索引页中导出。
8.根据权利要求1的方法,其中,创建抽象语法树包括解析标准化的网站内容文件集内的HTML标签并构建HTML实体的抽象语法树。
9.根据权利要求1的方法,进一步包括在所述计算机系统上存储散列值。
10.根据权利要求1的方法,进一步包括在所述计算机系统上把已知网络钓鱼网站的构造组件的散列值存储为散列值集表。
11.根据权利要求1的方法,其中,使用Kulczynski2系数计算相似度评分。
12.根据权利要求1的方法,进一步包括相似度评分达到或超过预定阈值时,把所述第一个散列值集添加到已知网络钓鱼网站构造组件的散列值。
13.根据权利要求1的方法,其中,构造组件是HTML标签。
14.根据权利要求1的方法,进一步包括确定网络钓鱼网站的起源。
15.根据权利要求14的方法,其中,确定网络钓鱼网站的起源包括把网络钓鱼网站的散列值集与已知网络钓鱼网站的散列值集进行对比并对每个已知网络钓鱼网站计算相似度评分。
16.根据权利要求15的方法,进一步包括识别最高的相似度评分并把所述网络钓鱼网站与从其算出最高相似度评分的已知网络钓鱼网站聚集。
17.一种识别网络钓鱼网站的方法,包括:
a.接收包含多个疑似网络钓鱼URL的通信;
b.检索多个网络钓鱼URL的每个疑似网络钓鱼URL的网站内容文件,该网站内容文件包括构造组件;
c.为每个网站内容文件创建抽象语法树;
d.为每个网站内容文件的每个构造组件计算散列值,并且为每个网站内容文件集都从中构建散列值集;
e.从第一个散列值集选择第一个散列值并且把第一个散列值与已知网络钓鱼网站构造组件的散列值进行对比,以定位匹配的散列值;
f.如果匹配的散列值已定位,把第一个散列值集与匹配的散列值的散列值集进行对比并创建相似度评分;以及
g.如果相似度评分达到或超过预定阈值,把导出第一个散列值的疑似URL指定为网络钓鱼网站。
18.根据权利要求17的方法,进一步包括确定网络钓鱼网站的起源,方式为把网络钓鱼网站的散列值集与已知网络钓鱼网站的散列值集进行对比并对每个已知网络钓鱼网站计算相似度评分。
19.一种识别网络钓鱼网站的方法,包括:
a.提供计算机系统,具有操作系统、数据库系统以及用于控制通过因特网通信的通信系统;
b.向计算机系统发送通信,包含多个疑似网络钓鱼URL;
c.在步骤d之前,从多个疑似网络钓鱼URL中去除以下情形的任何疑似网络钓鱼URL:已知有利URL、已知网络钓鱼URL或者所述多个疑似网络钓鱼URL中另一个网络钓鱼URL的副本的URL;
d.检索多个网络钓鱼URL的每个疑似网络钓鱼URL的网站内容文件,其中,网站内容文件包括构造组件并且从所检索的网站内容文件的索引页中导出;
e.预处理网站内容文件,从而为多个疑似网络钓鱼URL的每一个产生标准化的网站内容文件集,其中,预处理包括一项或多项以下操作:从网站内容文件中去除空格、使网站内容文件不区分大小写或者从网站内容文件中去除动态内容;
f.为标准化的网站内容文件集的每一个创建抽象语法树,其中,创建抽象语法树包括解析标准化的网站内容文件集内的HTML标签并构建HTML实体的抽象语法树;
g.为每个标准化的网站内容文件集的每个构造组件计算散列值,并且为每个标准化的网站内容文件集都从中构建散列值集;
h.从第一个散列值集选择第一个散列值并且把第一个散列值与已知网络钓鱼网站构造组件的散列值进行对比,以定位匹配的散列值;
i.如果匹配的散列值已定位,把第一个散列值集与匹配的散列值的散列值集进行对比并创建相似度评分;以及
j.如果相似度评分达到或超过预定阈值,把导出第一个散列值的疑似URL指定为网络钓鱼网站。
20.根据权利要求19的方法,进一步包括确定网络钓鱼网站的起源,方式为把网络钓鱼网站的散列值集与已知网络钓鱼网站的散列值集进行对比并对每个已知网络钓鱼网站计算相似度评分。
CN201280039933.0A 2011-07-08 2012-07-09 识别网络钓鱼网站的方法 Expired - Fee Related CN103843003B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161505630P 2011-07-08 2011-07-08
US61/505,630 2011-07-08
PCT/US2012/045979 WO2013009713A2 (en) 2011-07-08 2012-07-09 Syntactical fingerprinting

Publications (2)

Publication Number Publication Date
CN103843003A true CN103843003A (zh) 2014-06-04
CN103843003B CN103843003B (zh) 2016-06-08

Family

ID=47506845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280039933.0A Expired - Fee Related CN103843003B (zh) 2011-07-08 2012-07-09 识别网络钓鱼网站的方法

Country Status (7)

Country Link
US (1) US20150067839A1 (zh)
EP (1) EP2729895B1 (zh)
CN (1) CN103843003B (zh)
AU (1) AU2012282792B2 (zh)
CA (1) CA2840992C (zh)
IL (1) IL230340A (zh)
WO (1) WO2013009713A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107181758A (zh) * 2017-06-30 2017-09-19 微梦创科网络科技(中国)有限公司 识别黑客行为的方法及系统
CN107402936A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 信息识别方法及装置
CN107683478A (zh) * 2015-02-26 2018-02-09 迈克菲有限责任公司 缓解恶意软件的系统和方法
CN107852412A (zh) * 2015-08-05 2018-03-27 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法
CN108694321A (zh) * 2017-04-07 2018-10-23 武汉安天信息技术有限责任公司 一种钓鱼网站的识别方法及装置
CN109067723A (zh) * 2018-07-24 2018-12-21 国家计算机网络与信息安全管理中心 钓鱼网站使用者信息的追溯方法、控制器和介质

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9176883B2 (en) 2009-04-30 2015-11-03 HGST Netherlands B.V. Storage of data reference blocks and deltas in different storage devices
US9413527B2 (en) * 2009-04-30 2016-08-09 HGST Netherlands B.V. Optimizing signature computation and sampling for fast adaptive similarity detection based on algorithm-specific performance
US8521667B2 (en) 2010-12-15 2013-08-27 Microsoft Corporation Detection and categorization of malicious URLs
US9405915B2 (en) * 2013-03-14 2016-08-02 Whitehat Security, Inc. Techniques for correlating vulnerabilities across an evolving codebase
US9178901B2 (en) 2013-03-26 2015-11-03 Microsoft Technology Licensing, Llc Malicious uniform resource locator detection
CN103235723B (zh) * 2013-04-23 2016-05-04 浙江天正思维信息技术有限公司 基于抽象语法树和软件产品特征的应用软件代码提取方法
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
US20150317325A1 (en) * 2014-04-30 2015-11-05 Key Cybersecurity, Inc. Methods and apparatus for detection of illicit files in computer networks
CN104217160B (zh) * 2014-09-19 2017-11-28 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104239582A (zh) * 2014-10-14 2014-12-24 北京奇虎科技有限公司 基于特征向量模型识别钓鱼网页的方法及装置
US10044750B2 (en) 2015-01-16 2018-08-07 Microsoft Technology Licensing, Llc Code labeling based on tokenized code samples
US9479524B1 (en) * 2015-04-06 2016-10-25 Trend Micro Incorporated Determining string similarity using syntactic edit distance
US10810176B2 (en) 2015-04-28 2020-10-20 International Business Machines Corporation Unsolicited bulk email detection using URL tree hashes
RU2624552C2 (ru) * 2015-06-30 2017-07-04 Закрытое акционерное общество "Лаборатория Касперского" Способ обнаружения вредоносных файлов, исполняемых с помощью стековой виртуальной машины
EP3125147B1 (en) * 2015-07-27 2020-06-03 Swisscom AG System and method for identifying a phishing website
WO2017049045A1 (en) * 2015-09-16 2017-03-23 RiskIQ, Inc. Using hash signatures of dom objects to identify website similarity
RU2622626C2 (ru) * 2015-09-30 2017-06-16 Акционерное общество "Лаборатория Касперского" Система и способ обнаружения фишинговых сценариев
US10007786B1 (en) * 2015-11-28 2018-06-26 Symantec Corporation Systems and methods for detecting malware
CN106919570B (zh) * 2015-12-24 2020-12-22 国家新闻出版广电总局广播科学研究院 一种面向网络新媒体的页面链接去重扫描方法及装置
US10893009B2 (en) * 2017-02-16 2021-01-12 eTorch Inc. Email fraud prevention
US10721195B2 (en) * 2016-01-26 2020-07-21 ZapFraud, Inc. Detection of business email compromise
WO2017136755A1 (en) 2016-02-04 2017-08-10 Observepoint, Inc. Analyzing analytic element network traffic
GB2561802A (en) * 2016-02-09 2018-10-24 Observepoint Inc Managing network communication protocols
US10860715B2 (en) * 2016-05-26 2020-12-08 Barracuda Networks, Inc. Method and apparatus for proactively identifying and mitigating malware attacks via hosted web assets
RU2634211C1 (ru) 2016-07-06 2017-10-24 Общество с ограниченной ответственностью "Траст" Способ и система анализа протоколов взаимодействия вредоносных программ с центрами управления и выявления компьютерных атак
RU2649793C2 (ru) 2016-08-03 2018-04-04 ООО "Группа АйБи" Способ и система выявления удаленного подключения при работе на страницах веб-ресурса
US10498761B2 (en) * 2016-08-23 2019-12-03 Duo Security, Inc. Method for identifying phishing websites and hindering associated activity
RU2634209C1 (ru) 2016-09-19 2017-10-24 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ автогенерации решающих правил для систем обнаружения вторжений с обратной связью
US10581879B1 (en) * 2016-12-22 2020-03-03 Fireeye, Inc. Enhanced malware detection for generated objects
RU2671991C2 (ru) 2016-12-29 2018-11-08 Общество с ограниченной ответственностью "Траст" Система и способ сбора информации для обнаружения фишинга
RU2637477C1 (ru) 2016-12-29 2017-12-04 Общество с ограниченной ответственностью "Траст" Система и способ обнаружения фишинговых веб-страниц
US11593475B2 (en) * 2017-01-30 2023-02-28 Nec Corporation Security information analysis device, security information analysis method, security information analysis program, security information evaluation device, security information evaluation method, security information analysis system, and recording medium
US10346291B2 (en) 2017-02-21 2019-07-09 International Business Machines Corporation Testing web applications using clusters
US10599668B2 (en) * 2017-10-31 2020-03-24 Secureworks Corp. Adaptive parsing and normalizing of logs at MSSP
RU2689816C2 (ru) 2017-11-21 2019-05-29 ООО "Группа АйБи" Способ для классифицирования последовательности действий пользователя (варианты)
RU2677368C1 (ru) 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система для автоматического определения нечетких дубликатов видеоконтента
RU2668710C1 (ru) 2018-01-17 2018-10-02 Общество с ограниченной ответственностью "Группа АйБи ТДС" Вычислительное устройство и способ для обнаружения вредоносных доменных имен в сетевом трафике
RU2677361C1 (ru) 2018-01-17 2019-01-16 Общество с ограниченной ответственностью "Траст" Способ и система децентрализованной идентификации вредоносных программ
RU2680736C1 (ru) 2018-01-17 2019-02-26 Общество с ограниченной ответственностью "Группа АйБи ТДС" Сервер и способ для определения вредоносных файлов в сетевом трафике
RU2676247C1 (ru) 2018-01-17 2018-12-26 Общество С Ограниченной Ответственностью "Группа Айби" Способ и компьютерное устройство для кластеризации веб-ресурсов
RU2681699C1 (ru) 2018-02-13 2019-03-12 Общество с ограниченной ответственностью "Траст" Способ и сервер для поиска связанных сетевых ресурсов
US10944789B2 (en) * 2018-07-25 2021-03-09 Easy Solutions Enterprises Corp. Phishing detection enhanced through machine learning techniques
CN109284465B (zh) * 2018-09-04 2021-03-19 暨南大学 一种基于url的网页分类器构建方法及其分类方法
RU2708508C1 (ru) 2018-12-17 2019-12-09 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для выявления подозрительных пользователей в системах обмена сообщениями
US11743290B2 (en) * 2018-12-21 2023-08-29 Fireeye Security Holdings Us Llc System and method for detecting cyberattacks impersonating legitimate sources
RU2701040C1 (ru) 2018-12-28 2019-09-24 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
EP3842968B1 (en) 2019-02-27 2024-04-24 "Group IB" Ltd. Method and system for identifying a user according to keystroke dynamics
KR102247065B1 (ko) * 2019-03-28 2021-05-03 네이버클라우드 주식회사 웹 페이지에서 url을 수집하는 방법, 장치 및 컴퓨터 프로그램
US11303674B2 (en) * 2019-05-14 2022-04-12 International Business Machines Corporation Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications
US11218500B2 (en) 2019-07-31 2022-01-04 Secureworks Corp. Methods and systems for automated parsing and identification of textual data
RU2728497C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его машинному коду
RU2728498C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его исходному коду
RU2743974C1 (ru) 2019-12-19 2021-03-01 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ сканирования защищенности элементов сетевой архитектуры
SG10202001963TA (en) 2020-03-04 2021-10-28 Group Ib Global Private Ltd System and method for brand protection based on the search results
US11616797B2 (en) 2020-04-30 2023-03-28 Mcafee, Llc Large scale malware sample identification
US11575708B2 (en) * 2020-05-29 2023-02-07 Mcafee, Llc Icon based phishing detection
US11475090B2 (en) 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
US11418485B2 (en) * 2020-07-28 2022-08-16 Palo Alto Networks, Inc. Pattern-based malicious URL detection
RU2743619C1 (ru) 2020-08-06 2021-02-20 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система генерации списка индикаторов компрометации
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
NL2031940B1 (en) 2021-05-20 2023-06-13 Group Ib Ltd Method and device for clustering phishing web resources based on visual content image
US11882152B2 (en) * 2021-07-30 2024-01-23 Bank Of America Corporation Information security system and method for phishing website identification based on image hashing
US20230082289A1 (en) * 2021-09-10 2023-03-16 Palo Alto Networks, Inc. Automated fuzzy hash based signature collecting system for malware detection
CN115840863A (zh) * 2021-09-18 2023-03-24 华为技术有限公司 网页内容溯源方法、知识图谱构建方法以及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026599A (zh) * 2007-01-19 2007-08-29 深圳市深信服电子科技有限公司 基于网关、网桥防范网络钓鱼网站的方法
US7958555B1 (en) * 2007-09-28 2011-06-07 Trend Micro Incorporated Protecting computer users from online frauds

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330884B1 (en) * 2000-09-14 2008-02-12 Sony Corporation Internet strawman and user interface therefor
GB0220790D0 (en) * 2002-09-06 2002-10-16 Cresset Biomolecular Discovery Searchable molecular database
US7231667B2 (en) * 2003-05-29 2007-06-12 Computer Associates Think, Inc. System and method for computer virus detection utilizing heuristic analysis
US9076132B2 (en) * 2003-11-07 2015-07-07 Emc Corporation System and method of addressing email and electronic communication fraud
US8990928B1 (en) * 2003-12-11 2015-03-24 Radix Holdings, Llc URL salience
US20070094500A1 (en) * 2005-10-20 2007-04-26 Marvin Shannon System and Method for Investigating Phishing Web Sites
GB0603888D0 (en) * 2006-02-27 2006-04-05 Univ Newcastle Phishing mitigation
CA2648997A1 (en) * 2006-04-13 2007-10-25 Art Of Defence Gmbh Method for providing web application security
KR100835033B1 (ko) * 2006-08-30 2008-06-03 인포섹(주) 트러스티드 네트워크를 이용한 피싱 방지 방법
US8584235B2 (en) * 2011-11-02 2013-11-12 Bitdefender IPR Management Ltd. Fuzzy whitelisting anti-malware systems and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026599A (zh) * 2007-01-19 2007-08-29 深圳市深信服电子科技有限公司 基于网关、网桥防范网络钓鱼网站的方法
US7958555B1 (en) * 2007-09-28 2011-06-07 Trend Micro Incorporated Protecting computer users from online frauds

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107683478A (zh) * 2015-02-26 2018-02-09 迈克菲有限责任公司 缓解恶意软件的系统和方法
CN107852412A (zh) * 2015-08-05 2018-03-27 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法
CN107852412B (zh) * 2015-08-05 2020-09-29 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法、计算机可读介质
CN107402936A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 信息识别方法及装置
CN108694321A (zh) * 2017-04-07 2018-10-23 武汉安天信息技术有限责任公司 一种钓鱼网站的识别方法及装置
CN107181758A (zh) * 2017-06-30 2017-09-19 微梦创科网络科技(中国)有限公司 识别黑客行为的方法及系统
CN109067723A (zh) * 2018-07-24 2018-12-21 国家计算机网络与信息安全管理中心 钓鱼网站使用者信息的追溯方法、控制器和介质
CN109067723B (zh) * 2018-07-24 2021-03-02 国家计算机网络与信息安全管理中心 钓鱼网站使用者信息的追溯方法、控制器和介质

Also Published As

Publication number Publication date
EP2729895A2 (en) 2014-05-14
WO2013009713A3 (en) 2013-03-07
CA2840992C (en) 2017-03-14
EP2729895A4 (en) 2015-04-15
AU2012282792B2 (en) 2015-07-30
EP2729895B1 (en) 2016-07-06
IL230340A (en) 2016-12-29
CA2840992A1 (en) 2013-01-17
CN103843003B (zh) 2016-06-08
WO2013009713A2 (en) 2013-01-17
US20150067839A1 (en) 2015-03-05
AU2012282792A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
CN103843003A (zh) 句法指纹识别
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
Basnet et al. Rule-based phishing attack detection
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN111953697B (zh) 一种apt攻击识别及防御方法
Wardman et al. High-performance content-based phishing attack detection
Sonowal Phishing email detection based on binary search feature selection
US9563770B2 (en) Spammer group extraction apparatus and method
CN110177114A (zh) 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质
CN103530336B (zh) 统一资源定位符url中无效参数的识别设备及方法
CN103678692A (zh) 一种下载文件的安全扫描方法及装置
CN103067387B (zh) 一种反钓鱼监测系统和方法
CN108023868B (zh) 恶意资源地址检测方法和装置
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN103532760A (zh) 用于分析在各主机上执行的命令的分析设备、系统和方法
CN105138907A (zh) 一种主动探测被攻击网站的方法和系统
CN103530337B (zh) 识别统一资源定位符url中无效参数的设备及方法
WO2018047027A1 (en) A method for exploring traffic passive traces and grouping similar urls
CN106933880B (zh) 一种标签数据泄漏渠道检测方法及装置
Pejić-Bach et al. A Bibliometric Analysis of Phishing in the Big Data Era: High Focus on Algorithms and Low Focus on People
WO2021248707A1 (zh) 一种操作的验证方法和装置
CN103455754A (zh) 一种基于正则表达式的恶意搜索关键词识别方法
CN103001848B (zh) 垃圾邮件过滤方法及装置
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
Liao et al. An Intelligent Cyber Threat Classification System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160608

Termination date: 20190709