CN102801709B - 一种钓鱼网站识别系统及方法 - Google Patents

一种钓鱼网站识别系统及方法 Download PDF

Info

Publication number
CN102801709B
CN102801709B CN201210224485.3A CN201210224485A CN102801709B CN 102801709 B CN102801709 B CN 102801709B CN 201210224485 A CN201210224485 A CN 201210224485A CN 102801709 B CN102801709 B CN 102801709B
Authority
CN
China
Prior art keywords
domain name
self
website
target domain
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210224485.3A
Other languages
English (en)
Other versions
CN102801709A (zh
Inventor
陈营营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210224485.3A priority Critical patent/CN102801709B/zh
Priority to CN201510051628.9A priority patent/CN104580254B/zh
Publication of CN102801709A publication Critical patent/CN102801709A/zh
Priority to PCT/CN2013/075949 priority patent/WO2014000536A1/zh
Priority to US14/411,466 priority patent/US9531751B2/en
Application granted granted Critical
Publication of CN102801709B publication Critical patent/CN102801709B/zh
Priority to US15/359,131 priority patent/US9954895B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种钓鱼网站识别系统及方法,涉及网络安全领域。所述系统包括:域名获取单元、域名统计单元和网站识别单元;所述域名获取单元,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名;所述域名统计单元,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。所述系统及方法,基于网站中的链接关系进行钓鱼网站的识别,可以有效识别新类型的钓鱼网站;同时,有利于丰富钓鱼网站库中钓鱼网站的数量和类型,便于进一步的钓鱼网站识别和查找,在网络安全领域具有广泛的应用前景。

Description

一种钓鱼网站识别系统及方法
技术领域
本发明涉及网络安全技术领域,特别涉及一种钓鱼网站识别系统及方法。
背景技术
随着互联网的发展,网民数量逐年增加。在上网时,除了传统的木马、病毒的威胁,近两年钓鱼网站的数量大幅增加。
当前主要的钓鱼网站识别技术是通过收集常见的钓鱼网站,制作成知识库,再计算新发现的网页与知识库中的钓鱼网站的相似度,从而判断是否是钓鱼网站。
上述通过钓鱼网站知识库识别钓鱼网站的方法,通常只能识别已知类别的钓鱼网站,对于新类型的钓鱼网站则无法识别,比如钓鱼网站知识库内只有中国银行相关的钓鱼网站时,对于仿冒工商银行的钓鱼网站就无法识别。
发明内容
本发明要解决的技术问题是:如何提供一种钓鱼网站识别系统及方法,以有效识别新类型的钓鱼网站。
为解决上述技术问题,本发明提供一种钓鱼网站识别系统,其包括:域名获取单元、域名统计单元和网站识别单元;
所述域名获取单元,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名;
所述域名统计单元,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;
所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
其中,所述网站识别单元包括:比较子单元和识别子单元;
所述比较子单元,适于比较所述目标域名与所述自身域名,并在比较结果显示所述目标域名与所述自身域名相同时,判定所述待识别网站不是钓鱼网站;
所述识别子单元,适于在所述目标域名与所述自身域名不同时,计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及计算所述目标域名与所述自身域名之间的相似度,进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
其中,所述识别子单元包括:比例计算模块、相似度计算模块和判断模块;
所述比例计算模块,适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例;
所述相似度计算模块,适于计算所述目标域名与所述自身域名之间的相似度;
所述判断模块,适于判断所述比例和所述相似度是否满足条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果满足,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站。
其中,所述相似度计算模块包括:字符串对比子模块、初值计算子模块和终值计算子模块;
所述字符串对比子模块,适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比;
所述初值计算子模块,适于当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中,m=n1+n2-1,n1表示所述目标域名的字符串长度,n2表示所述自身域名的字符串长度;
所述终值计算子模块,适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax
Qmax=max{Q1,Q2,Q3,……Qm}。
其中,所述初值计算子模块中,利用如下公式计算第i相似度计算值Qi
Qi=Mi 2×Li
其中,i为自然数,并且,1≤i≤m;并且,
Mi=si/nmax
Li=ri/nmax
其中,ri表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠的字符个数;nmax表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数;Li表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的重叠率;si表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠并且相同的字符个数;Mi表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的匹配率。
其中,所述初值计算子模块中,利用如下方式计算第i相似度计算值Qi
在第i次对比时,计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数,将所述重叠并且相同的字符个数作为第i相似度计算值Qi
其中,所述系统还包括:补充识别单元;
所述补充识别单元,适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站,并对所述可疑网站进行补充识别,在识别结果显示所述可疑网站仍为钓鱼网站的情况下,将所述可疑网站送入钓鱼网站库。
其中,所述链接对应的域名为所述链接的绝对地址。
其中,所述系统还包括:网站获取单元;
所述网站获取单元,适于查找新建网站以作为待识别网站。
本发明还提供一种钓鱼网站识别方法,其包括步骤:
收集待识别网站中出现的所有链接,得到所述链接对应的域名;
统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;
根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
其中,所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站,进一步包括步骤:
判断所述目标域名与所述自身域名是否相同,如果是,判定所述待识别网站不是钓鱼网站,结束流程;否则,执行下一步;
计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
其中,所述计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站,进一步包括步骤:
计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例;
计算所述目标域名与所述自身域名之间的相似度;
判断是否满足以下条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果是,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站。
其中,所述计算所述目标域名与所述自身域名之间的相似度,进一步包括步骤:
构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比;
当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中,m=n1+n2-1,n1表示所述目标域名的字符串长度,n2表示所述自身域名的字符串长度;
根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax
Qmax=max{Q1,Q2,Q3,……Qm}。
其中,所述当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm中,第i相似度计算值Qi的计算公式如下:
Qi=Mi 2×Li
其中,i为自然数,并且,1≤i≤m;并且,
Mi=si/nmax
Li=ri/nmax
其中,ri表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠的字符个数;nmax表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数;Li表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的重叠率;si表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠并且相同的字符个数;Mi表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的匹配率。
其中,所述当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm中,利用如下方式计算第i相似度计算值Qi
在第i次对比时,计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数,将所述重叠并且相同的字符个数作为第i相似度计算值Qi
其中,在所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括步骤:将判断结果显示为钓鱼网站的待识别网站记作可疑网站,并对所述可疑网站进行补充识别,在识别结果显示所述可疑网站仍为钓鱼网站的情况下,将所述可疑网站送入钓鱼网站库。
其中,所述链接对应的域名为所述链接的绝对地址。
其中,在所述收集待识别网站中出现的所有链接,得到所述链接对应的域名之前还包括步骤:查找新建网站以作为待识别网站。
本发明的所述钓鱼网站识别系统及方法,基于网站中的链接关系进行钓鱼网站的识别,可以有效识别新类型的钓鱼网站;同时,有利于丰富钓鱼网站库中钓鱼网站的数量和类型,便于进一步的钓鱼网站识别和查找,在网络安全领域具有广泛的应用前景。
附图说明
图1是本发明实施例一所述钓鱼网站识别系统的模块结构示意图;
图2是所述网站识别单元的模块结构示意图;
图3是所述识别子单元的模块结构示意图;
图4是所述相似度计算模块的模块结构示意图;
图5是本发明实施例二所述钓鱼网站识别系统的模块结构示意图;
图6是本发明实施例三所述钓鱼网站识别方法的流程图;
图7是本发明实施例四所述钓鱼网站识别方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明实施例一所述钓鱼网站识别系统的模块结构示意图,如图1所示,所述系统包括:域名获取单元100、域名统计单元200和网站识别单元300。
所述域名获取单元100,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名。这里所述链接对应的域名为所述链接的绝对地址,如果所述待识别网站中出现的链接采用相对地址,需要将其转换为绝对地址。
所述域名统计单元200,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名。所述域名统计单元200会以域名为key,以出现次数为value,生成一个key-value表格,然后根据表格中value的数值,对域名进行排序,得到出现次数最多的域名。
所述网站识别单元300,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
图2是所述网站识别单元的模块结构示意图,如图2所示,所述网站识别单元300进一步包括:比较子单元310和识别子单元320。
所述比较子单元310,适于比较所述目标域名与所述自身域名,并在比较结果显示所述目标域名与所述自身域名相同时,判定所述待识别网站不是钓鱼网站。
所述识别子单元320,适于在所述目标域名与所述自身域名不同时,计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及计算所述目标域名与所述自身域名之间的相似度,进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
图3是所述识别子单元的模块结构示意图,如图3所示,所述识别子单元320进一步包括:比例计算模块321、相似度计算模块322和判断模块323。
所述比例计算模块321,适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例。
所述相似度计算模块322,适于计算所述目标域名与所述自身域名之间的相似度。
图4是所述相似度计算模块的模块结构示意图,如图4所示,所述相似度计算模块322进一步包括:字符串对比子模块322a、初值计算子模块322b和终值计算子模块322c。
所述字符串对比子模块322a,适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比。
所述初值计算子模块322b,适于当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中,m=n1+n2-1,n1表示所述目标域名的字符串长度,n2表示所述自身域名的字符串长度。
其中,所述初值计算子模块322b中,利用如下公式计算第i相似度计算值Qi
Qi=Mi 2×Li
其中,i为自然数,并且,1≤i≤m;并且,
Mi=si/nmax
Li=ri/nmax
其中,ri表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠的字符个数;nmax表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数;Li表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的重叠率;si表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠并且相同的字符个数;Mi表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的匹配率。
举例来讲,假设自身域名为boc.cn自左向右移动,目标域名为cocc.cn保持位置固定。在第1次对比时,只有字符n与字符c重叠,相应地r1=1,s1=0;在第2次对比时,字符n与字符o重叠,字符c与字符c重叠,相应地r2=2,s2=1。
另外,所述初值计算子模块中,还可以利用如下方式计算第i相似度计算值Qi
在第i次对比时,计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数,将所述重叠并且相同的字符个数作为第i相似度计算值Qi
对于第i相似度计算值Qi的计算方式,还可以采用一些公知现有方法,由于其非本发明重点,在此不再赘述。
所述终值计算子模块322c,适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax
Qmax=max{Q1,Q2,Q3,……Qm}。
所述判断模块323,适于判断所述比例和所述相似度是否满足条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果满足,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站。所述预定比例和所述预定阈值可以根据实际使用情况进行设置和调整,本实施例,所述预定比例优选为1.0,所述预定阈值优选为80%。
图5是本发明实施例二所述钓鱼网站识别系统的模块结构示意图,如图5所示,本实施例所述系统与实施例一所述系统基本相同,其不同之处仅在于,本实施例所述系统还包括:网站获取单元000和补充识别单元400。
所述网站获取单元000,适于查找新建网站以作为待识别网站。一般情况下,钓鱼网站多是新建网站,因此,通过设置所述网站获取单元000,只将新建网站作为待识别网站,可以缩小钓鱼网站的识别范围,提高识别的准确度和速度。对于新建网站的查找可以采用如下方法:通过特定关键词监控搜索引擎结果页;或者,通过客户端发现网民访问量极少的网站。
所述补充识别单元000,适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站,并对所述可疑网站进行补充识别,在识别结果显示所述可疑网站仍为钓鱼网站的情况下,将所述可疑网站送入钓鱼网站库。所述补充识别可以采用人工审查的方式。通过设置所述补充识别单元000,可以进一步提高钓鱼网站识别的准确度。
图6是本发明实施例三所述钓鱼网站识别方法的流程图,如图6所示,所述方法包括步骤:
A:收集待识别网站中出现的所有链接,得到所述链接对应的域名。所述链接对应的域名为所述链接的绝对地址。
B:统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名。
C:根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
所述步骤C进一步包括步骤:
C1:判断所述目标域名与所述自身域名是否相同,如果是,判定所述待识别网站不是钓鱼网站,结束流程;否则,执行步骤C2;
C2:计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
所述步骤C2进一步包括步骤:
C21:计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例。
C22:计算所述目标域名与所述自身域名之间的相似度。
所述步骤C22进一步包括步骤:
C221:构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比。
C222:当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中,m=n1+n2-1,n1表示所述目标域名的字符串长度,n2表示所述自身域名的字符串长度。
所述步骤C222中,第i相似度计算值Qi的计算公式如下:
Qi=Mi 2×Li
其中,i为自然数,并且,1≤i≤m;并且,
Mi=si/nmax
Li=ri/nmax
其中,ri表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠的字符个数;nmax表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数;Li表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的重叠率;si表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠并且相同的字符个数;Mi表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的匹配率。
另外,所述步骤C222中,也可以利用如下方式计算第i相似度计算值Qi
在第i次对比时,计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数,将所述重叠并且相同的字符个数作为第i相似度计算值Qi
C223:根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax
Qmax=max{Q1,Q2,Q3,……Qm}。
C23:判断是否满足以下条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果是,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站。
图7是本发明实施例四所述钓鱼网站识别方法的流程图,如图7所示,本实施例所述方法与实施例三所述方法基本相同,其不同之处仅在于:
在所述步骤A之前还包括步骤A’:查找新建网站以作为待识别网站。对于新建网站的查找可以采用如下方法:通过特定关键词监控搜索引擎结果页;或者,通过客户端发现网民访问量极少的网站。
在所述步骤C之后还包括步骤D:将判断结果显示为钓鱼网站的待识别网站记作可疑网站,并对所述可疑网站进行补充识别,在识别结果显示所述可疑网站仍为钓鱼网站的情况下,将所述可疑网站送入钓鱼网站库。所述补充识别可以采用人工审查的方式。
本发明实施例所述钓鱼网站识别系统及方法,基于网站中的链接关系进行钓鱼网站的识别,可以有效识别新类型的钓鱼网站;同时,有利于丰富钓鱼网站库中钓鱼网站的数量和类型,便于进一步的钓鱼网站识别和查找,在网络安全领域具有广泛的应用前景。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (12)

1.一种钓鱼网站识别系统,其包括:域名获取单元、域名统计单元和网站识别单元;
所述域名获取单元,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名;
所述域名统计单元,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;
所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站;
其中,所述网站识别单元包括:比较子单元和识别子单元;
所述比较子单元,适于比较所述目标域名与所述自身域名,并在比较结果显示所述目标域名与所述自身域名相同时,判定所述待识别网站不是钓鱼网站;
所述识别子单元,适于在所述目标域名与所述自身域名不同时,计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及计算所述目标域名与所述自身域名之间的相似度,进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站;
其中,所述识别子单元包括:比例计算模块、相似度计算模块和判断模块;
所述比例计算模块,适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例;
所述相似度计算模块,适于计算所述目标域名与所述自身域名之间的相似度;
所述判断模块,适于判断所述比例和所述相似度是否满足条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果满足,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站;
其中,所述相似度计算模块包括:字符串对比子模块、初值计算子模块和终值计算子模块;
所述字符串对比子模块,适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比;
所述初值计算子模块,适于当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中,m=n1+n2-1,n1表示所述目标域名的字符串长度,n2表示所述自身域名的字符串长度;
所述终值计算子模块,适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax
Qmax=max{Q1,Q2,Q3,……Qm}。
2.如权利要求1所述的系统,其特征在于,所述初值计算子模块中,利用如下公式计算第i相似度计算值Qi
Qi=Mi 2×Li
其中,i为自然数,并且,1≤i≤m;并且,
Mi=si/nmax
Li=ri/nmax
其中,ri表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠的字符个数;nmax表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数;Li表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的重叠率;si表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠并且相同的字符个数;Mi表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的匹配率。
3.如权利要求1所述的系统,其特征在于,所述初值计算子模块中,利用如下方式计算第i相似度计算值Qi
在第i次对比时,计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数,将所述重叠并且相同的字符个数作为第i相似度计算值Qi
4.如权利要求1所述的系统,其特征在于,所述系统还包括:补充识别单元;
所述补充识别单元,适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站,并对所述可疑网站进行补充识别,在识别结果显示所述可疑网站仍为钓鱼网站的情况下,将所述可疑网站送入钓鱼网站库。
5.如权利要求1所述的系统,其特征在于,所述链接对应的域名为所述链接的绝对地址。
6.如权利要求1所述的系统,其特征在于,所述系统还包括:网站获取单元;
所述网站获取单元,适于查找新建网站以作为待识别网站。
7.一种钓鱼网站识别方法,其包括步骤:
收集待识别网站中出现的所有链接,得到所述链接对应的域名;
统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;
根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站;
其中,所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站,进一步包括步骤:
判断所述目标域名与所述自身域名是否相同,如果是,判定所述待识别网站不是钓鱼网站,结束流程;否则,执行下一步;
计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站;
其中,所述计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站,进一步包括步骤:
计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例;
计算所述目标域名与所述自身域名之间的相似度;
判断是否满足以下条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果是,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站;
其中,所述计算所述目标域名与所述自身域名之间的相似度,进一步包括步骤:
构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比;
当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中,m=n1+n2-1,n1表示所述目标域名的字符串长度,n2表示所述自身域名的字符串长度;
根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax
Qmax=max{Q1,Q2,Q3,……Qm}。
8.如权利要求7所述的方法,其特征在于,所述当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm中,第i相似度计算值Qi的计算公式如下:
Qi=Mi 2×Li
其中,i为自然数,并且,1≤i≤m;并且,
Mi=si/nmax
Li=ri/nmax
其中,ri表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠的字符个数;nmax表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数;Li表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的重叠率;si表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串中,重叠并且相同的字符个数;Mi表示在第i次对比时,所述自身域名的字符串与所述目标域名的字符串的匹配率。
9.如权利要求7所述的方法,其特征在于,所述当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Qm中,利用如下方式计算第i相似度计算值Qi
在第i次对比时,计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数,将所述重叠并且相同的字符个数作为第i相似度计算值Qi
10.如权利要求7所述的方法,其特征在于,在所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括步骤:将判断结果显示为钓鱼网站的待识别网站记作可疑网站,并对所述可疑网站进行补充识别,在识别结果显示所述可疑网站仍为钓鱼网站的情况下,将所述可疑网站送入钓鱼网站库。
11.如权利要求7所述的方法,其特征在于,所述链接对应的域名为所述链接的绝对地址。
12.如权利要求7所述的方法,其特征在于,在所述收集待识别网站中出现的所有链接,得到所述链接对应的域名之前还包括步骤:查找新建网站以作为待识别网站。
CN201210224485.3A 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法 Expired - Fee Related CN102801709B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201210224485.3A CN102801709B (zh) 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法
CN201510051628.9A CN104580254B (zh) 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法
PCT/CN2013/075949 WO2014000536A1 (zh) 2012-06-28 2013-05-21 一种钓鱼网站识别系统及方法
US14/411,466 US9531751B2 (en) 2012-06-28 2013-05-21 System and method for identifying phishing website
US15/359,131 US9954895B2 (en) 2012-06-28 2016-11-22 System and method for identifying phishing website

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210224485.3A CN102801709B (zh) 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510051628.9A Division CN104580254B (zh) 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法

Publications (2)

Publication Number Publication Date
CN102801709A CN102801709A (zh) 2012-11-28
CN102801709B true CN102801709B (zh) 2015-03-04

Family

ID=47200672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210224485.3A Expired - Fee Related CN102801709B (zh) 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法

Country Status (3)

Country Link
US (2) US9531751B2 (zh)
CN (1) CN102801709B (zh)
WO (1) WO2014000536A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801709B (zh) 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN103428307B (zh) * 2013-08-09 2016-07-20 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN103530367B (zh) * 2013-10-12 2017-07-18 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN104317574B (zh) * 2014-09-30 2018-03-30 北京金山安全软件有限公司 识别应用程序类型的方法和装置
US10229219B2 (en) 2015-05-01 2019-03-12 Facebook, Inc. Systems and methods for demotion of content items in a feed
EP3125147B1 (en) * 2015-07-27 2020-06-03 Swisscom AG System and method for identifying a phishing website
CN108874802A (zh) * 2017-05-09 2018-11-23 阿里巴巴集团控股有限公司 网页检测方法和装置
CN107220239A (zh) * 2017-05-31 2017-09-29 温州市鹿城区中津先进科技研究院 一种基于大数据处理的电子商务中有效评论的特征提取方法
CN107896225A (zh) * 2017-12-08 2018-04-10 深信服科技股份有限公司 钓鱼网站判定方法、服务器及存储介质
CN108173814B (zh) * 2017-12-08 2021-02-05 深信服科技股份有限公司 钓鱼网站检测方法、终端设备及存储介质
CN108337259A (zh) * 2018-02-01 2018-07-27 南京邮电大学 一种基于HTTP请求Host信息的可疑网页识别方法
US10826935B2 (en) * 2018-04-24 2020-11-03 International Business Machines Corporation Phishing detection through secure testing implementation
US10673894B2 (en) 2018-09-26 2020-06-02 KnowBe4, Inc. System and methods for spoofed domain identification and user training
WO2020110109A1 (en) * 2018-11-26 2020-06-04 Cyberfish Ltd. Phishing protection methods and systems
CN111428061A (zh) * 2019-01-09 2020-07-17 北京搜狗科技发展有限公司 一种图片描述信息的获取方法、装置及电子设备
US20210367918A1 (en) * 2020-05-22 2021-11-25 Nvidia Corporation User perceptible indicia for web address identifiers
CN114095252B (zh) * 2021-11-22 2023-09-05 安天科技集团股份有限公司 Fqdn域名检测方法、装置、计算设备及存储介质
CN114710468B (zh) * 2022-03-31 2024-05-14 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质
CN115982508B (zh) * 2023-03-21 2023-06-27 中国人民解放军国防科技大学 基于异构信息网络的网站检测方法、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101369278A (zh) * 2008-09-27 2009-02-18 成都市华为赛门铁克科技有限公司 一种近似匹配方法和装置
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN102339320A (zh) * 2011-11-04 2012-02-01 成都市华为赛门铁克科技有限公司 恶意网页的识别方法以及识别装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
US8578481B2 (en) * 2006-10-16 2013-11-05 Red Hat, Inc. Method and system for determining a probability of entry of a counterfeit domain in a browser
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US7958555B1 (en) * 2007-09-28 2011-06-07 Trend Micro Incorporated Protecting computer users from online frauds
CN102801709B (zh) * 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101369278A (zh) * 2008-09-27 2009-02-18 成都市华为赛门铁克科技有限公司 一种近似匹配方法和装置
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN102339320A (zh) * 2011-11-04 2012-02-01 成都市华为赛门铁克科技有限公司 恶意网页的识别方法以及识别装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104580254B (zh) * 2012-06-28 2017-10-31 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法

Also Published As

Publication number Publication date
US9531751B2 (en) 2016-12-27
WO2014000536A1 (zh) 2014-01-03
US9954895B2 (en) 2018-04-24
US20150326606A1 (en) 2015-11-12
CN102801709A (zh) 2012-11-28
US20170078327A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
CN102801709B (zh) 一种钓鱼网站识别系统及方法
CN104580254A (zh) 一种钓鱼网站识别系统及方法
CN102222187B (zh) 基于域名构造特征的挂马网页检测方法
CN105488024B (zh) 网页主题句的抽取方法及装置
CN101267313A (zh) 泛洪攻击检测方法及检测装置
CN102405622A (zh) 二叉树建立、压缩和查找的方法和装置
CN103399872B (zh) 对网页抓取进行优化的方法和装置
CN102799814A (zh) 一种钓鱼网站查找系统及方法
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN102298681B (zh) 一种基于数据流切片的软件识别方法
CN107145779A (zh) 一种离线恶意软件日志的识别方法和装置
CN103294820B (zh) 基于语义扩展的web页面归类方法和系统
CN106121622A (zh) 一种基于示功图的有杆泵抽油井的多故障诊断方法
CN110278150A (zh) 一种基于边缘节点请求信息特征的域间聚合路径分析方法
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN106940711B (zh) 一种url检测方法及检测装置
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN103455491B (zh) 对查询词分类的方法及装置
CN105119876A (zh) 一种自动生成的域名的检测方法及系统
CN106295252A (zh) 用于基因产品的检索方法
CN106250456A (zh) 一种中标公告的抽取方法及装置
CN105095387A (zh) 基于用户评论信息的poi数据采集方法及装置
CN102831135B (zh) 一种新型的中文新闻页面增量采集的方法及装置
CN102902918A (zh) 一种基于复合特征码的恶意文件检测方法
CN107239704A (zh) 恶意网页发现方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150304

Termination date: 20210628

CF01 Termination of patent right due to non-payment of annual fee