CN101221611A - 用于检测并补救误导超链接的方法和系统 - Google Patents

用于检测并补救误导超链接的方法和系统 Download PDF

Info

Publication number
CN101221611A
CN101221611A CNA2008100031108A CN200810003110A CN101221611A CN 101221611 A CN101221611 A CN 101221611A CN A2008100031108 A CNA2008100031108 A CN A2008100031108A CN 200810003110 A CN200810003110 A CN 200810003110A CN 101221611 A CN101221611 A CN 101221611A
Authority
CN
China
Prior art keywords
domain name
hyperlink
discerned
misleading
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100031108A
Other languages
English (en)
Inventor
卡里·L·贝茨
詹姆斯·E·凯里
贾森·J·伊尔格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101221611A publication Critical patent/CN101221611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/30Types of network names
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种用于验证超链接的合法性并确定用户被引导到的网站的域名是否合法的方法。在一个实施例中,本方法识别超链接、超链接内的URL以及URL内的域名。然后给所识别的域名分配页面等级参数。如果该页面等级参数在阈值以下,则本方法比较所识别的域名与公知或高页面等级域名的列表。然后将相似性参数分配给所识别的域名,以指示该域名是否是误导的。如果该链接是误导的,本方法可以实施某些可配置的补救行动,比如警告用户或废除超链接。

Description

用于检测并补救误导超链接的方法和系统
技术领域
本发明涉及防止计算机犯罪的方法。更具体地,本发明涉及检测由误导超链接(misleading hyperlink)引起的安全威胁。
背景技术
超过十亿人基于常规使用英特网。在英特网上可用的大多数普遍使用的应用是电子邮件和即时通讯。因为给很多接收者发送消息的低花费使得很多商业实体广泛地使用这些应用。
很多英特网用户不是计算机专家(computer savvy),并且对在他们的个人计算机上所存储的个人和机密信息的弱点了解很少。这些用户对于欺诈高手来说是有吸引力的牺牲者。使得电子邮件和即时消息对于商业和消费者具有吸引力的因素同样使得这些应用对于诈骗者和欺诈高手具有吸引力。诈骗者可以廉价地设计并发送消息至大量消费者。这些条件导致了已知为“网上诱骗”的英特网诈骗的蔓延。
“网上诱骗”是指设计用于操纵人们泄露他们的机密信息的英特网上犯罪行为的术语。网上诱骗,“钓鱼”的有意错误拼写,指的是欺诈高手试图诱使无疑心的消费者泄露他们的个人信息,比如用于访问在线账户的信用卡号或密码。“诱骗者”可以设计并发送故意被做成像来自依赖英特网办理业务的商业实体的电子邮件或消息的电子邮件或即时消息。欺骗性的电子邮件或消息被设计得看来好像是来自诸如通常使用的网站或大银行的大量消费者所熟悉的合法源头。诱骗者一般会要求接收者通过提供诸如银行账户号、信用卡号、社会保险号、用户ID或接收者的在线账户密码的机密且私人的信息来答复该电子邮件或消息。
更老练的诱骗者精明地设计电子邮件或消息以引诱接收者实际上想在英特网上泄露个人信息。例如,诱骗者的消息可能包含将接收者引到已经专门创建用于实现诱骗诈骗的网站的可选超链接。经常,诱骗者的电子邮件消息可能提供警告接收者的信息,以引诱接收者选择超链接以便解决问题。例如,诱骗者的消息可能警告接收者有“可疑行为”,比如试图使用接收者的在线账户而没有合适的密码,并且可能要求接收者使用所提供的超链接来访问网站并登录账户或者另外提供个人信息以验证或改变密码。讽刺的是,很多诱骗诈骗通过虚伪地警告接收者有关接收者的在线账户的安全威胁来操作,以便获取接收者的个人信息。
在电子邮件消息中提供给接收者的超链接可能通过看来要将接收者引到与接收者的在线账户有关的网站来引诱接收者选择该超链接。但是,以电子文档形式被提供给无疑心的接收者的超链接可能被做的能看出发送者所期望的。例如,消息内的显示名称或文本可能被显示为“www.yahoo.com”,以看起来是作为到熟悉的网站的实际超链接,但是,该文本可能实际包括了嵌入的链接,该嵌入的链接将把用户的浏览器引导到由诱骗者建立的用于实施诈骗的不同网站。通过选择该超链接而把接收者引到的网站可能非常类似于与超链接看起来要提供给接收者的目的地对应的熟悉且可信的网站。粗心的接收者可能不了解超链接如何操作,或者可能甚至不知道可以操纵超链接以将接收者引到与文本中看似的网站不同的网站。到达假冒网站的接收者将被要求验证密码或账户号,或者输入被诱骗者捕获并滥用的敏感个人信息。
网上诱骗的一个特别精明的方法是在电子邮件消息或即时消息中警告接收者他们的在线账户有问题。例如,电子邮件可能被设计得看来已经通过银行、信用卡公司或接收者可能与之从事业务的其他类似实体来发送给接收者,并警告接收者他们的账户有“可疑行为”。选择超链接以尽力防止欺骗或身份盗用的接收者实际被引导到由诱骗者创建的用于实施诈骗的假冒网站,并试图使用该网站来验证账户状况。对于无疑心的接收者来说该网站通常看来是银行、信用卡公司或维护接收者在线账户的业务的实际网站,并且该假冒网站被设计用于接收并记录接收者的个人信息,比如账号、密码或可能被诱骗者滥用的其他个人信息。
因此,需要一种检测诸如电子邮件消息和即时消息的电子文档中所包含的误导超链接的方法。同样,需要警告或保护电子文档的接收者免遭利用通过电子邮件或即时通讯发送到接收者的误导超链接的诱骗诈骗。
发明内容
本发明提供了一种用于验证超链接的可靠性并用于确定超链接内的域名是否有可能涉及诱骗犯罪的方法。在本发明的一个实施例中,该方法包括步骤:识别(identify)电子文档内的超链接;识别超链接的URL;识别URL内的域名;给域名分配页面等级参数;确定被分配给域名的页面等级参数是否大于页面等级阈值;以及分析所识别的域名与公知或高页面等级域名的列表的相似性。本发明的一个实施例包括步骤:相对于公知或高页面等级的网站的域名,分析该域名关于被设计用于使域名对于接收者看起来是合法的域名的替换的字符、插入或省略的复数、冗余字符或其他字符插入、替换或省略。该方法还可以包括:给域名分配相似性参数,其中该相似性参数反映该域名被设计得看起来与公知域名的列表中的一个域名的相似的程度。该方法还可以包括:分析该相似性参数和页面等级参数,然后使用算法来确定该超链接是否是误导的。该方法还可以可选择地包括步骤:在包含了误导超链接的文档被打开之前通知接收者有误导超链接。该方法还可以自动废除文档中所检测的误导超链接,以防止接收者使用该超链接。
附图说明
图1是表示用于识别电子文档内所包含的超链接的合法性的方法的流程图。
图2是图示用于确定电子文档内所包含的超链接是误导的可能性的超链接分类的象限图。
图3是能够接收并打开诸如电子邮件消息的电子文档并执行确保URL链接的合法性的方法的计算机系统的示意图。
具体实施方式
本发明提供了一种用于验证电子文档内所包含的超链接的合法性并用于确定超链接内所包含的网站的域名是否可能是为欺骗目的而创建的方法。一般出现在电子文档内的超链接很容易与周围文本区分。通常在电子文档中使用高度可见字体颜色或字体大小并通过给超链接加下划线来显示超链接。电子文档中出现的超链接一般具有几个组成部分。本发明中感兴趣的主要超链接组成部分是链接标签和编码链接目的地的统一资源定位(URL)。
虽然可以直接将URL复制到电子文档中,但是不显示嵌入超链接的URL。链接标签是电子文档在计算机监视器上显示给用户的字符串。链接标签可以包括任意期望的字符串,或者可以是用户可以选择的用以访问链接目的地的图形,比如照片、标志图案或图标。链接目的地被编码为统一资源定位(URL),有时也被称为统一资源识别符(URI)。虽然URI和URL在意思上稍有差异,但是在这些术语之间的普通使用没有差异,并且下面的公开将涉及URL。URL识别英特网上的可用网络资源,比如网站。URL提供当接收者选择超链接时网页浏览器将访问的网络资源的地址。URL还提供了用于取回资源的协议。对网上诱骗的问题起重要作用的因素是,编码链接目的地的URL通常隐藏在HTML代码中,并且没有向电子文档的接收者示出通过选择超链接而将访问的网站的URL。
本发明的方法包括识别电子文档内的超链接的步骤。电子文档可以包括电子邮件、即时消息、网页、文字处理文件、图形表示、可移植文件格式(PDF)文件或能够包含并向用户显示超链接的任意电子文档或文件。可以通过解析文档并寻找指示URL的特定样式、比如寻找“http”、“WWW”或“.com”来识别超链接。还可以通过在HTML源代码中搜索超文本参考(HREE)的锚标签(anchor tag)或通过可以检测电子文档内的超链接的存在的任意其他手段来识别超链接。例如,用于建立超链接的HTML代码可以包括以下:
<a href=“http://antivirus.about.com”> http://www.ebay.com</a>.
已经识别超链接后,然后可以进一步分析HTML代码以识别编码该超链接的链接目的地的URL。在大多数情况下,尤其在网上诱骗中,不在超链接的文本或图形内显示URL。而是,显示可能与URL有关系或毫无关系的链接标签。因此,必须访问HTML或其他源代码,以便确定实际的URL。链接目的地很有可能是网站上的特定网页。例如,选择具有到http://www.ibm.com/info/page.htm的链接的超链接将使得浏览器显示网页page.htm,其存在于与域名www.ibm.com有关的网站上的info目录中。
通过从URL的剩余部分中解析诸如www.ibm.com的域名来识别域名。可替换地,当超链接包括诸如142.118.0.11的IP地址而不是域名时,可以改为识别IP地址。
该方法还包括给域名分配页面等级参数的步骤。页面等级参数帮助确定链接是否将访问有效网站或网页。该确定是基于如下假设的:接收大量的英特网“流量”或访问的网页通常是有效的并且不需要被进一步分析。通过比较在超链接内所识别的域名与公知或高页面等级的域名的列表可以简要确定页面等级参数。如果超链接内的域名与具有公知页面等级的域名匹配,则将默认页面等级参数值分配给所识别的域名。例如,公知和高页面等级域名的列表可以包括,例如,WWW.ibm.comwww.amazon.comWWW.yahoo.comwww.whitehouse.gov,给所有这些分配高默认页面等级参数。诸如yahoo!或Google的熟知的搜索引擎维护并发布允许通过各种方法来将各个网站分级的统计表。因此,可以通过从搜索引擎中取回页面等级来确定给定域名的页面等级参数。可替换地,该步骤可以包括从跟踪英特网使用并发布其得到的结果的机构访问最广泛公知的域名列表。另一种替换方法是维护订阅带有域名使用统计表的社团或机构的网站列表。
该列表还可以包括“公知”的域名,因为它们已经被识别为欺骗性的或误导的,并且这些域名被分配了不受欢迎页面等级参数。如果超链接内所识别的域名与公知列表中的误导域名匹配,则分配与威胁程度相应的页面等级参数,并且该方法直接跳到采取补救行动的步骤,该补救行动包括根据安全威胁的访问级别警告接收者废除或阻挡超链接。但是,如果在超链接内所识别的域名与列表中的公知域名不匹配,则该方法可以给域名分配反映安全威胁的评估级别的页面等级参数。
如果所配置的页面等级参数落到阈值以下,则该方法还可以包括步骤:将所识别的域名和/或链接标签与公知域名的列表比较,以及给所识别的域名和/或链接标签分配相似性参数。例如,如果域名迷惑地与频繁访问和/或大量消费者公知的域名相似,但是不相同,则所分配的相似性参数将高。但是,如果所识别的域名与任意频繁访问和/或大量消费者公知的域名都不相似,则相似性参数将低。设计该步骤以识别由迷惑地与公知域名相似的域名或链接标签引起的安全隐患,这些域名或链接标签比如www.paypals.com(迷惑地与www.paypal.com相似)、www.YAH00.com(迷惑地与www.yahoo.com相似)和www.wells-fargo.com(迷惑地与www.wellsfargo.com相似)。一般识别误导URL比误导标签更重要,因为URL确定在选择链接时将由浏览器访问的网站。识别误导标签仍然很有用,因为用户可以基于该链接标签判断是否选择该链接。
分配相似性参数的步骤可以包括相似字符的替代的分析。例如,在英语中,零(0)对大写字母“O”的替换,以及数字一(1)对小写字母“l”的替换导致单词看来与原始的正确拼写的单词迷惑地相似。在分配相似性参数的步骤中,趋向于以迷惑误导方式使标签看起来呈现频繁访问的或公知的域名的替换字符的出现将增加威胁和相似性参数。另一种考虑可以搜索不适当插入“s”或“es”的使用而使单词变成复数,可能不被接收者注意的较小改变。例如。www.paypals.com包括插入的字母“s”,并且可能误导具有www.paypal.com上的在线账户的接收者。该步骤可以包括搜索重复字符的包括或排除,例如,www.busines.comwww.businesses.com,替代www.business.com上的有效网站。可替换地,差异语言或字体中的字符可能散布在链接标签内。例如,西里尔字母“a”与拉丁字母“a”显示得一致。但是,计算机可以区分这两个字符并不同地读取字符串。
如果域名的页面等级参数在页面等级阈值以下,则与该域名关联的网站具有低流量(traffic volume)并且不太可能是频繁访问的网站。如果页面等级参数在页面等级阈值以上,则超链接很可能将接收者引到安全的网站,并且该方法不包括进一步的步骤。可替换地,如果页面等级参数落在阈值以下,则与该域名关联的网站具有低流量并且不太可能是频繁访问的网站。在这种情况下,方法的随后步骤确定相似性参数是否在警报阈值以上。
如果所识别的域名的相似性参数在相似阈值以上,则该域名与公知的域名非常相似但是不相同,并且该方法可以进一步包括警告接收者有电子文档诈骗的可能性的步骤。例如,该方法可以自动使得文本框显示在紧邻电子文档内的超链接的位置,警告接收者该超链接可能是误导的。该文本框可以包括该超链接是非法的估计概率。作为替换,该显示可以包括制定可配置的数值范围(scale)、颜色编码的标记或其他被设计用于区分安全超链接与误导超链接的可视和/或音频手段。
该方法还可以包括自动废除(disable)被确定是误导的超链接的步骤。除了或者代替警告接收者、使接收者的信息账户不能进一步从该电子文档的发送者接收包含超链接的消息、通知网络管理员或任何其他被设计用于保护接收者免遭进一步误导的超链接的可配置补救行动,还可以进行废除超链接。
图1是描述本发明的一个实施例的高级流程图。在步骤10,方法开始。可以响应于接收电子邮件或即时消息、存取文件、手动开始方法或任何其他配置条件来实施该方法。
在步骤12,识别超链接。通过扫描文档、电子邮件、消息和所附文件的内容可以在电子文档内识别超链接。可以扫描电子文档以确定链接的出现。在该步骤中,可以识别并扫描包括超文本标记语言(HTML)、JAVA脚本、XML脚本以及其他的任何脚本以确定是否出现超链接。
在步骤14,识别超链接和/或链接标签的URL。该URL提供在选择超链接时将由浏览器访问的网页的地址或者网址。在步骤16,识别URL内的域名。该域名可以是完整URL的被解析部分。
在步骤18,比较URL的域名与具有已知安全级别或已知页面等级的域名的列表。可以使用英特网上的、在接收者的计算机上本地维持的或从远程计算机访问的资源来获取公知域名的列表。如果确定超链接中的域名对应于公知域名,则在步骤20中,将与该公知域名关联的预定页面等级参数分配给所识别的域名或超链接本身。但是,如果所识别的域名没有出现在公知或高页面等级域名的列表中,则在步骤22中,使用英特网上的其他资源估计与链接目的地中的域名关联的网站的页面等级值。具体地,可以通过从诸如搜索引擎www.yahoo.comwww.google.com的某些网站或任何其他网页活动性或分级的源获取数据来确定用于诸如网站的目的地的页面等级值。在步骤24中,比较与域名关联的所确定的页面等级值和与公知域名关联的页面等级值。在步骤26中,基于该比较,给超链接分配页面等级参数。在非限制的例子中,页面等级参数可以是引用被超链接的网站的网页的数量和引用公知域名的网页的数量之间的关系的某种可配置的函数。最优选地,页面等级参数是高页面等级网站的排序列表内的网站等级。可替换地,页面等级参数可以是引用被超链接的网站或特定网页的引用的数量的测量。
在步骤28中,比较被分配给URL的域名的页面等级参数与可配置的阈值,并且如果页面等级参数在阈值以上,则在步骤29中,则评估终止,并且使能超链接并且使该超链接可用于接收者的选择而不警报或通知。但是,如果所识别的域名的页面等级参数在阈值以下,则在步骤34中,对于字符重复、字符替换和指示误导接收者的意图的其他内容分析超链接的URL内的字符。该分析可以包括分析超链接的URL关于被替换或代替的字符,比如用小写字母L代替数字一(1),重复本应该不重复的字母、省略的字母、复数、省略的复数、以及标签中的任何其他误导字符。基于文档的语言,被分析的字符可能不同。在步骤36中,基于上述相似分析的结果,将相似性参数分配给URL。相似性参数指示URL是否包含与公知或高页面等级域名非常相似但是稍有不同的域名。
在步骤38中,分析域名的相似性参数,以确定超链接是否是误导的。联系图2给出该确定的更详细论述,图2是图示超链接是误导的可能性的象限图。域名的相似性参数的分析意要确定所识别的域名何时暗示着公知或高页面等级域名(高相似性),而URL内的实际域名的页面等级参数指示其不是公知域名(步骤28中的低页面等级)。
如果在步骤38中没发现超链接是误导的,则在步骤40中,方法移至步骤29并且终止,直到另一超链接需要分析(在步骤10从头开始)。如果在步骤38中发现超链接是误导的,则在步骤40中,方法移至步骤42,并采取补救行动。该补救行动可以只包括通知接收者电子文档中所包含的超链接可能是误导的、废除超链接、阻挡来自发送电子文档处的地址、或任何其他行动。
图2是图示通过本发明的方法做出的超链接的分类来确定电子文档内所包含的超链接是误导的可能性的象限图。带有高页面等级参数的域名将必然具有高流量。这指示英特网用户频繁访问,并且欺诈或误导是不太可能的。实质上在阈值之上的所分配的页面等级参数指示超链接很有可能是安全的50。
与分配给该域名的低或者高相似性参数结合的分配给域名的高页面等级参数指示超链接很有可能是有效并且安全的50。尽管与该域名关联的网站的页面等级值是低的,但是所识别的域名不与频繁访问的域名混淆地相似。因此,通过超链接访问的网站很有可能是带有适当功能(niche following)的合法网站。但是,该域名是被创建用于实施诱骗犯罪的可能性仍然存在。
与分配给该域名的高相似性参数结合的分配给所识别的域名的低页面等级参数指示该超链接很有可能是误导的54。在这种情况下,到与所识别的域名关联的网站的流量很少,并且所识别的域名与频繁访问的域名具有很高相似性。由于相似性参数专门寻找被插入或省略以使域名看起来很像公知或具有高页面等级的域名的误导字符,因而低页面等级参数和高相似性参数的结合指示具有很高可能性是误导链接的超链接。相反,与分配给该域名的低相似性参数结合的分配给域名的低页面等级产生指示该超链接可能是良好超链接52。
图3是能够接收并打开诸如电子邮件消息的电子文档并进行确保URL链接的合法性的方法的计算机系统50的示意图。系统50可以是以传统个人计算机50形式的通用计算设备。一般地,个人计算机50包括处理单元51、系统存储器52和系统总线53,其中系统总线53把包括系统存储器52的公知系统组件耦接到处理单元51。系统总线53可以是包括使用任何一种总线体系的存储器总线或存储器控制器、外围总线和本地总线的几种总线结构的任意一种。
系统存储器包括只读存储器(ROM)54和随机存取存储器(RAM)55。将基本输入/输出系统(BIOS)56存储在ROM54中,该基本输入/输出系统(BIOS)56包含了有助于比如在启动期间、在个人计算机50内的元件之间传输信息的基础程序。
计算机50还包括用于从硬盘57读取或向其写入的硬盘驱动57、用于从可移动磁盘59读取或向其写入的磁盘驱动58以及用于从诸如CD-ROM或其他光介质的可移动光盘61读取或向其写入的光盘驱动60。硬盘驱动57、磁盘驱动58和光盘驱动60分别通过硬盘驱动接口62、磁盘驱动接口63和光盘驱动接口64与系统总线53连接。尽管在此所述的示范环境采用了硬盘57、可移动磁盘59和可移动光盘61,但是本领域技术人员应该意识到,在示范操作环境中也可以使用能够存储可由计算机访问的数据的其它类型的计算机可读介质,比如磁带、闪存卡、数字视频盘、Bernoulli编码磁带、RAM、ROM等。驱动和它们关联的计算机可读介质提供了计算机可执行指令、数据结构、程序模块和用于计算机50的其他数据的非易失性存储。例如,可以将诸如网络浏览器66和电子邮件程序67的操作系统65和应用程序存储在计算机50的RAM55和/或硬盘57中。
用户可以通过诸如键盘70的输入设备和诸如鼠标71的定点设备(pointing device)将指令和信息输入到个人计算机50中。其他输入设备(没有示出)包括麦克风、操纵杆、卫星天线、扫描仪等。这些和其他输入设备通常通过与系统总线53耦接的串口接口68与处理单元51连接,而输入设备可以通过其他诸如并口、通用串行总线(USB)等的接口来连接。显示设备72也可以通过诸如视频适配器69的接口与系统总线53连接。除了监视器外,个人计算机一般包括其他外围输出设备(没有示出),比如扬声器和打印机。
计算机50可以在联网环境下使用与一个或多个远程计算机74的逻辑连接来操作。远程计算机74可以是另一个人计算机、服务器、客户端、路由器、网络PC、对等设备、主机、个人数字助理、与英特网连接的移动电话或其他公共网络节点。虽然远程计算机74一般包括多个或所有与计算机50有关的上述元件,但是在图中仅图示了显示设备75。图中所示的逻辑连接包括局域网(LAN)76和广域网(WAN)77。这种联网环境是办公室中普通的、企业广泛使用的计算机网络、企业内部互联网和英特网。
当被使用在LAN联网环境中时,计算机50通常通过网络接口或适配器78被连接到局域网76。当被使用在WAN联网环境中时,计算机50一般包括调制解调器79或用于在诸如英特网的WAN77上建立高速通信的其他装置。可能是内部的或外部的调制解调器79通过串口接口68与系统总线53连接。在联网环境下,可以将与个人计算机50有关的所示程序模块或其部分存储在远程存储器存储设备75中。将意识到,所示的网络连接是示范性的,并且可以使用在计算机间建立连接的其他装置。可以将大量程序模块,包括操作系统65和浏览器66存储在硬盘57、磁盘59、光盘61、ROM54、或RAM55上。
所述的计算机系统并不暗示体系结构限制。例如,本领域技术人员将意识到,可以在包括手持设备、多处理器系统、基于微处理器的或可编程的消费电子、网络个人计算机、迷你计算机、主机计算机等的其他计算机系统配置中实现本发明。还可以在分布式计算环境中实践本发明,在分布式计算环境中由通过通信网络链接的远程处理设备执行任务。在分布式计算环境中,可已经被定位在逻辑和远程存储器存储设备两者中。
应该将在此的权利要求和说明书中所使用的措辞“包括”、“包含”和“具有”当作指示可以包括没有示出的其他元件的开放组。应该采取措辞“一个(a)”、“一个(an)”和单词的单数形式以包括相同单词的复数形式,以便这些措辞意味着提供了某物的一个或多个。措辞“一个(one)”或“单个”可以用于指示意指某物的一个或仅一个。类似地,当意指特定数量的某物时,可以使用诸如“两个”的其他特定整数值。措辞“优选地”、“作为优选”、“优选”、“选择地”、“可以”和类似措辞可以用于指示所指的项目、条件或步骤是本发明的可选(不是要求的)特征。
虽然已经关于有限数量的实施例描述了本发明,但是从本公开受益的本领域技术人员将意识到,不脱离如在此公开的本发明的范围,可以设计其他实施例。因此,本发明的范围应当仅受所附权利要求的限制。

Claims (9)

1.一种方法,包括:
识别电子文档内的超链接,其中该超链接包括域名;以及
如果确定所述域名与小于阈值的页面等级值关联并且如果确定所述域名相对于与大于该阈值的页面等级值关联的另一域名具有一个或多个误导字符替换、添加或删除,则针对该超链接的使用自动地采取补救行动。
2.如权利要求1所述的方法,其中,通过以下步骤确定所述域名与小于阈值的页面等级值关联:
如果所识别的域名出现在具有预定页面等级值的域名的列表中,则分配与所识别的域名关联的预定页面等级值;以及
如果所识别的域名没有出现在所述列表中,则根据所识别的域名的页面等级值和所述列表中的域名的页面等级值来分配页面等级参数。
3.如权利要求1所述的方法,其中通过以下步骤确定所述域名具有一个或多个误导字符替换、添加或删除:
识别所识别的域名和所列的域名的至少一个之间的差异;以及
找出在误导字符替换、添加或删除的列表中的每个所识别的差异。
4.如权利要求3所述的方法,其中如果在没有一个或多个误导字符替换、添加或删除的情况下、所识别的域名将与所列域名中的一个相匹配,则确定所识别的域名具有一个或多个误导字符。
5.如权利要求1所述的方法,还包括:
比较链接标签与所识别的域名的相似性。
6.如权利要求1所述的方法,其中所述补救行动包括通知用户所述超链接很有可能是误导的。
7.如权利要求1所述的方法,其中,所述补救行动包括阻挡所述超链接。
8.如权利要求3所述的方法,其中识别差异的步骤还包括:
识别所识别的域名中具有与所述域名中的其他字符不同的字体或语言的字符。
9.一种计算机系统,包括:
用于识别电子文档内的超链接的装置,其中该超链接包括域名;
用于如果确定所述域名与小于阈值的页面等级值关联并且如果确定所述域名相对于与大于该阈值的页面等级值关联的域名具有一个或多个误导字符替换、添加或删除,则针对该超链接的使用自动采取补救行动的装置。
CNA2008100031108A 2007-01-11 2008-01-10 用于检测并补救误导超链接的方法和系统 Pending CN101221611A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/622,082 US20080172738A1 (en) 2007-01-11 2007-01-11 Method for Detecting and Remediating Misleading Hyperlinks
US11/622,082 2007-01-11

Publications (1)

Publication Number Publication Date
CN101221611A true CN101221611A (zh) 2008-07-16

Family

ID=39618796

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100031108A Pending CN101221611A (zh) 2007-01-11 2008-01-10 用于检测并补救误导超链接的方法和系统

Country Status (2)

Country Link
US (1) US20080172738A1 (zh)
CN (1) CN101221611A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656707A (zh) * 2008-08-19 2010-02-24 盛大计算机(上海)有限公司 网站的防伪标识系统及其实现方法
CN102073822A (zh) * 2011-01-30 2011-05-25 北京搜狗科技发展有限公司 防止用户信息泄漏的方法及系统
CN102663291A (zh) * 2012-03-23 2012-09-12 奇智软件(北京)有限公司 邮件的信息提示方法及装置
US8621616B2 (en) 2009-03-24 2013-12-31 Alibaba Group Holding Limited Method and system for identifying suspected phishing websites
CN104506426A (zh) * 2012-03-23 2015-04-08 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN104583949A (zh) * 2012-08-16 2015-04-29 高通股份有限公司 Web浏览器中的脚本的预处理
WO2015066860A1 (zh) * 2013-11-06 2015-05-14 华为终端有限公司 页面操作处理方法、装置及终端
CN104639524A (zh) * 2013-11-12 2015-05-20 华东科技股份有限公司 一种安全引导装置及其执行方法
CN110785979A (zh) * 2017-05-17 2020-02-11 法赛特安全公司 用于域名假冒检测的系统、方法和域名令牌化
CN111914522A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 无效超链接修复方法、装置、电子设备和可读存储介质

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652613B1 (en) 2002-01-17 2017-05-16 Trustwave Holdings, Inc. Virus detection by executing electronic message code in a virtual machine
US8402529B1 (en) 2007-05-30 2013-03-19 M86 Security, Inc. Preventing propagation of malicious software during execution in a virtual machine
US8869269B1 (en) * 2008-05-28 2014-10-21 Symantec Corporation Method and apparatus for identifying domain name abuse
CN101420433B (zh) * 2008-12-01 2013-03-13 成都市华为赛门铁克科技有限公司 防御域名系统欺骗攻击的方法及装置
US8468597B1 (en) * 2008-12-30 2013-06-18 Uab Research Foundation System and method for identifying a phishing website
US8495735B1 (en) * 2008-12-30 2013-07-23 Uab Research Foundation System and method for conducting a non-exact matching analysis on a phishing website
JP2011013707A (ja) * 2009-06-30 2011-01-20 Hitachi Ltd Webページの中継装置
US8346878B2 (en) * 2009-11-06 2013-01-01 International Business Machines Corporation Flagging resource pointers depending on user environment
US8671175B2 (en) * 2011-01-05 2014-03-11 International Business Machines Corporation Managing security features of a browser
TW201230741A (en) * 2011-01-07 2012-07-16 Nat Univ Tsing Hua Method and system for preventing domain name system cache poisoning attacks
US9176938B1 (en) * 2011-01-19 2015-11-03 LawBox, LLC Document referencing system
CN102902917A (zh) * 2011-07-29 2013-01-30 国际商业机器公司 用于预防钓鱼式攻击的方法和系统
US8996976B2 (en) * 2011-09-06 2015-03-31 Microsoft Technology Licensing, Llc Hyperlink destination visibility
CN102419808B (zh) * 2011-09-28 2015-07-01 奇智软件(北京)有限公司 一种下载链接安全性检测方法、装置及系统
US20130166657A1 (en) * 2011-12-27 2013-06-27 Saied Tadayon E-mail Systems
CN103188602B (zh) * 2011-12-29 2016-01-20 腾讯科技(深圳)有限公司 获取周边信息的方法和系统以及一种位置代理服务器
US9338112B2 (en) * 2012-07-12 2016-05-10 Microsoft Technology Licensing, Llc Safety protocols for messaging service-enabled cloud services
CN103577449B (zh) * 2012-07-30 2017-05-10 珠海市君天电子科技有限公司 钓鱼网站特性自学习挖掘方法及系统
CN103685174B (zh) * 2012-09-07 2016-12-21 中国科学院计算机网络信息中心 一种不依赖样本的钓鱼网站检测方法
CN103778113B (zh) * 2012-10-17 2017-04-19 腾讯科技(深圳)有限公司 终端、服务器及终端、服务器的网页处理方法
US20150205767A1 (en) * 2012-11-12 2015-07-23 Google Inc. Link appearance formatting based on target content
US10304047B2 (en) * 2012-12-07 2019-05-28 Visa International Service Association Token generating component
EP2760183A1 (en) * 2013-01-28 2014-07-30 British Telecommunications public limited company System for detecting hyperlink faults
US9692771B2 (en) * 2013-02-12 2017-06-27 Symantec Corporation System and method for estimating typicality of names and textual data
US20140237091A1 (en) * 2013-02-15 2014-08-21 Digicert, Inc. Method and System of Network Discovery
WO2014207941A1 (ja) * 2013-06-28 2014-12-31 楽天株式会社 判定装置、判定方法、及びプログラム
US9043425B2 (en) * 2013-07-29 2015-05-26 Google Inc. Resource locator remarketing
CN103530336B (zh) * 2013-09-30 2017-09-15 北京奇虎科技有限公司 统一资源定位符url中无效参数的识别设备及方法
US9396170B2 (en) * 2013-11-11 2016-07-19 Globalfoundries Inc. Hyperlink data presentation
US9516049B2 (en) * 2013-11-13 2016-12-06 ProtectWise, Inc. Packet capture and network traffic replay
US10735453B2 (en) 2013-11-13 2020-08-04 Verizon Patent And Licensing Inc. Network traffic filtering and routing for threat analysis
US9419986B2 (en) 2014-03-26 2016-08-16 Symantec Corporation System to identify machines infected by malware applying linguistic analysis to network requests from endpoints
DE102015011013B4 (de) 2014-08-22 2023-05-04 Sigma Additive Solutions, Inc. Verfahren zur Überwachung von generativen Fertigungsprozessen
US9473531B2 (en) * 2014-11-17 2016-10-18 International Business Machines Corporation Endpoint traffic profiling for early detection of malware spread
US10786948B2 (en) 2014-11-18 2020-09-29 Sigma Labs, Inc. Multi-sensor quality inference and control for additive manufacturing processes
US9372994B1 (en) 2014-12-13 2016-06-21 Security Scorecard, Inc. Entity IP mapping
CN107428081B (zh) 2015-01-13 2020-07-07 西格马实验室公司 材料鉴定系统和方法
US9942249B2 (en) * 2015-07-22 2018-04-10 Bank Of America Corporation Phishing training tool
US9749359B2 (en) * 2015-07-22 2017-08-29 Bank Of America Corporation Phishing campaign ranker
US9825974B2 (en) * 2015-07-22 2017-11-21 Bank Of America Corporation Phishing warning tool
US10110623B2 (en) * 2015-07-22 2018-10-23 Bank Of America Corporation Delaying phishing communication
US9729573B2 (en) * 2015-07-22 2017-08-08 Bank Of America Corporation Phishing campaign ranker
US10207489B2 (en) 2015-09-30 2019-02-19 Sigma Labs, Inc. Systems and methods for additive manufacturing operations
CN105306462B (zh) * 2015-10-13 2018-09-14 郑州悉知信息科技股份有限公司 网页链接检测方法及装置
US9954877B2 (en) 2015-12-21 2018-04-24 Ebay Inc. Automatic detection of hidden link mismatches with spoofed metadata
US10832000B2 (en) * 2016-11-14 2020-11-10 International Business Machines Corporation Identification of textual similarity with references
US10872088B2 (en) * 2017-01-30 2020-12-22 Apple Inc. Domain based influence scoring
US10474836B1 (en) 2017-04-26 2019-11-12 Wells Fargo Bank, N.A. Systems and methods for a generated fraud sandbox
JP7130995B2 (ja) * 2018-03-12 2022-09-06 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11303670B1 (en) * 2019-06-07 2022-04-12 Ca, Inc. Pre-filtering detection of an injected script on a webpage accessed by a computing device
CN110532784A (zh) * 2019-09-04 2019-12-03 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
US11741223B2 (en) * 2019-10-09 2023-08-29 International Business Machines Corporation Validation of network host in email
CN113556347B (zh) * 2021-07-22 2023-04-07 深信服科技股份有限公司 一种钓鱼邮件的检测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
WO2007038389A2 (en) * 2005-09-26 2007-04-05 Technorati, Inc. Method and apparatus for identifying and classifying network documents as spam

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656707B (zh) * 2008-08-19 2014-01-22 盛趣信息技术(上海)有限公司 网站的防伪标识系统及其实现方法
CN101656707A (zh) * 2008-08-19 2010-02-24 盛大计算机(上海)有限公司 网站的防伪标识系统及其实现方法
US8621616B2 (en) 2009-03-24 2013-12-31 Alibaba Group Holding Limited Method and system for identifying suspected phishing websites
CN102073822A (zh) * 2011-01-30 2011-05-25 北京搜狗科技发展有限公司 防止用户信息泄漏的方法及系统
CN104506426B (zh) * 2012-03-23 2019-03-01 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN102663291A (zh) * 2012-03-23 2012-09-12 奇智软件(北京)有限公司 邮件的信息提示方法及装置
CN104506426A (zh) * 2012-03-23 2015-04-08 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN104583949A (zh) * 2012-08-16 2015-04-29 高通股份有限公司 Web浏览器中的脚本的预处理
CN105122760A (zh) * 2013-11-06 2015-12-02 华为终端有限公司 页面操作处理方法、装置及终端
WO2015066860A1 (zh) * 2013-11-06 2015-05-14 华为终端有限公司 页面操作处理方法、装置及终端
CN105122760B (zh) * 2013-11-06 2019-04-26 华为终端(东莞)有限公司 页面操作处理方法、装置及终端
CN104639524A (zh) * 2013-11-12 2015-05-20 华东科技股份有限公司 一种安全引导装置及其执行方法
CN110785979A (zh) * 2017-05-17 2020-02-11 法赛特安全公司 用于域名假冒检测的系统、方法和域名令牌化
CN110785979B (zh) * 2017-05-17 2021-02-05 法赛特安全公司 用于域名假冒检测的系统、方法和域名令牌化
CN111914522A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 无效超链接修复方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
US20080172738A1 (en) 2008-07-17

Similar Documents

Publication Publication Date Title
CN101221611A (zh) 用于检测并补救误导超链接的方法和系统
Ho et al. Detecting and characterizing lateral phishing at scale
US20240061550A1 (en) Systems and methods for proactive analysis of artifacts associated with information resources
Alkhozae et al. Phishing websites detection based on phishing characteristics in the webpage source code
TWI592821B (zh) 用於提供威脅儀表板之方法及基於雲端之威脅偵測系統
Dunlop et al. Goldphish: Using images for content-based phishing analysis
US8930805B2 (en) Browser preview
US9111090B2 (en) Detection of phishing attempts
TWI593266B (zh) 惡意訊息之偵測及處理
US20100313266A1 (en) Method of Detecting Potential Phishing by Analyzing Universal Resource Locators
US11960604B2 (en) Online assets continuous monitoring and protection
KR20090019451A (ko) 피싱 및 파밍 알림 방법 및 장치
CN102984121A (zh) 访问监视方法和信息处理装置
AU2009326848A1 (en) System and method for adapting an internet and intranet filtering system
US20220030029A1 (en) Phishing Protection Methods and Systems
WO2014103115A1 (ja) 不正侵入検知装置、不正侵入検知方法、不正侵入検知プログラム及び記録媒体
Deshpande et al. Detection of phishing websites using Machine Learning
KR100885634B1 (ko) 피싱 방지를 위한 웹 사이트 및 메일 검증 방법과 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
Geng et al. Combating phishing attacks via brand identity and authorization features
JP6210761B2 (ja) 電子メールの送信制御システム及びプログラム
Sanchez-Rola et al. Dirty clicks: A study of the usability and security implications of click-related behaviors on the web
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
JP4564916B2 (ja) フィッシング詐欺対策方法、端末、サーバ及びプログラム
KR20070067651A (ko) 인터넷 사이트 패턴 분석을 통한 피싱방지 방법
JP5009105B2 (ja) 情報処理装置、入力情報制御方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080716