CN104462152B - 一种网页的识别方法及装置 - Google Patents

一种网页的识别方法及装置 Download PDF

Info

Publication number
CN104462152B
CN104462152B CN201310443265.4A CN201310443265A CN104462152B CN 104462152 B CN104462152 B CN 104462152B CN 201310443265 A CN201310443265 A CN 201310443265A CN 104462152 B CN104462152 B CN 104462152B
Authority
CN
China
Prior art keywords
webpage
similarity
identified
web page
page contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310443265.4A
Other languages
English (en)
Other versions
CN104462152A (zh
Inventor
刘杰
陆莉
陈旺林
陈秋滢
段文文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201310443265.4A priority Critical patent/CN104462152B/zh
Priority to PCT/CN2014/085529 priority patent/WO2015039553A1/en
Publication of CN104462152A publication Critical patent/CN104462152A/zh
Application granted granted Critical
Publication of CN104462152B publication Critical patent/CN104462152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种网页的识别方法及装置,包括:抓取待识别网页的URL和网页内容;获取所述待识别网页的URL与目标网页的URL的第一相似度;获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。本发明同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。

Description

一种网页的识别方法及装置
技术领域
本发明属于互联网技术领域,尤其涉及一种网页的识别方法及装置。
背景技术
钓鱼网站为一种网络欺诈行为,其仿冒真实网站(例如银行网站、安全类网站、电子商务网站等)的统一资源定位符(Uniform Resource Locator,URL)以及页面内容,以此来骗取用户的私人信息,转移用户的财产和其他虚拟财物,从而造成用户的个人信息泄露和财产损失,因此,市面上的网络安全产品多具备钓鱼网站识别功能,通过识别、屏蔽钓鱼网站,为用户的互联网浏览行为提供安全保障。
目前的网络安全产品仅仅依赖于用户举报的方式,将用户举报的网站标识成钓鱼网站,无法确保钓鱼网站识别结果的准确性。
发明内容
本发明实施例的目的在于提供一种网页的识别方法,旨在确保钓鱼网站识别结果的准确性。
本发明实施例是这样实现的,一种网页的识别方法,包括:
抓取待识别网页的统一资源定位符URL和网页内容;
获取所述待识别网页的URL与目标网页的URL的第一相似度;
获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;
根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。
本发明实施例的另一目的在于提供一种网页的识别装置,包括:
抓取单元,用于抓取待识别网页的统一资源定位符URL和网页内容;
第一获取单元,用于获取所述待识别网页的URL与目标网页的URL的第一相似度;
第二获取单元,用于获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;
识别单元,用于根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。
本发明实施例同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。
附图说明
图1是本发明实施例提供的网页的识别方法的实现流程图;
图2是本发明实施例提供的网页的识别方法S103的具体实现流程图;
图3是本发明实施例提供的网页的识别方法第三相似度匹配过程的具体实现流程图;
图4是本发明实施例提供的网页的识别方法S104的具体实现流程图;
图5是本发明实施例提供的网页的识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例同时结合网页统一资源定位符(Uniform Resource Locator,URL)以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率,提升了对网络安全的保障。
需要说明的是,本发明实施例均以钓鱼网页的识别过程为例,对网页的识别方法及装置进行说明,而本发明实施例提供的钓鱼网页的识别方法及装置可应用的场景不仅仅局限于对钓鱼网页的识别,任何需要对网页之间的相似程度进行判断的应用场景均可适用本发明实施例提供的钓鱼网页的识别方法及装置,在后续实施例中不再一一举例说明。
图1示出了本发明实施例提供的网页的识别方法的实现流程,详述如下:
在S101中,抓取待识别网页的URL和网页内容。
在本实施例中,S101之前,可以通过网络爬虫系统,从海量的互联网网页中抓取待识别网页,并一一对每个待识别网页开展识别其是否为钓鱼网页的步骤。对于已经通过识别的网页,可以记录其URL,在后续过程中若抓取到该网页,则不再进行分析。
网络爬虫系统在抓取待识别网页的过程中,首先获取到待识别网页的URL,并根据该URL向该待识别网页的主机地址发送请求,从而获取到该待识别网页的超文本标记语言(Hypertext Markup Language,HTML),从而通过解析该待识别网页的HTML,获取到该待识别网页的网页内容。
作为本发明的一个实施例,在待识别网页的抓取过程中,可以对抓取到的异常网页进行过滤,例如,过滤掉HTML无法正常解析,或者网页内容无法正常显示的网页,从而提高后续识别过程的效率。
在S102中,获取所述待识别网页的URL与目标网页的URL的第一相似度。
在本实施例中,目标网页由系统预先确定,在多数情况下,目标网页可以为网上银行相关页面、购物网页相关页面或者第三方社交网站用户个人信息相关页面,等等,这些页面由于涉及到用户私人信息、财产信息的展示或者输入,因此,被钓鱼网页所防冒的可能性很高。
在本实施例中,目标网页的URL和网页内容均是预存储在系统之中的。由于钓鱼页面通常会对目标网站的URL进行依照,因此,在S102中,对于获取到的待识别网页,首先将其的URL与预存储的目标网页的URL进行匹配,判断这两个URL的相似程度,并计算出对应的第一相似度。
具体地,在S102的匹配过程中,可以考虑两个URL之间相同连续字符串的长度占目标网站的URL总长度的比例,或者可以考虑两个URL之间主机地址的相似程度,由此计算出待识别网页的URL与目标网页的URL的第一相似度。具体的第一相似度计算方法在此不用于限定本发明。
在S103中,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。
由于钓鱼网页除了会依照目标网页的URL之外,在网页内容上,大多也会仿照目标网页的网页内容,以混淆用户的视觉,因此,在本实施例中,除了对待识别网页的URL与目标网页的URL进行识别,还需要将待识别网页的网页见容与目标网页的网页内容相匹配,判断这两个网页的网页内容的相似程度,并计算出对应的第二相似度。
作为本发明的一个实施例,在S103中,可以对待识别网页与目标网页的网页内容中的文本信息进行匹配。如图2所示,S103具体为:
在S201中,分析所述待识别网页的HTML,提取所述待识别网页中的文本信息。
首先,对S101中获取到的待识别网页的HTML进行解析,定位HTML中的标签,再依次读取每个标签中的text属性,从而获取到text属性中的文本内容,这些text属性中的文本内容即为待识别网页中的文本信息。
在S202中,对所述文本信息进行关键词提取。
对于获取到的文本信息,进行分词处理,确定出待识别网页中的文本信息的若干关键词。对于关键词的确定原则,可以遵循每个词出现的频率的高低,将出现频率最高的若干个词确定为关键词,也可以判断得到的分词中是否包含了预设的关键词,例如,将“支付”、“密码”、“网上银行”等钓鱼网站通常会仿照的网站中常出现的词确定为预设的关键词,当判断出文本信息中的分词包含这些预设的关键词时,则将这些分词确定为待识别网页的文本信息的关键词。
在S203中,将提取出的关键词与所述目标网页的预设关键词进行匹配,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。
在本实施例中,对于目标网页,也根据S201与S202的相同方式,预先提取出若干关键词并存储。在S203中,将待识别网页中文本信息的关键词与目标网页中文本信息的关键词进行匹配,由此计算出待识别网页的网页内容与目标网页的网页内容的第二相似度。
具体地,整个匹配过程可以考虑这两个网页文本信息的关键词的重叠率,例如,待识别网页中提取出的十个关键词中,有八个均与目标网页的文本信息的关键词相同,则此时这两个网页文本信息的关键词的重叠率相对较高。而进一步地,还可以考虑两个网页中重叠的关键词在各自文本信息中的出现频率是否也匹配,并根据匹配程度的高低确定相应的第二相似度。具体的第二相似度计算方法在此不用于限定本发明。
需要说明的是,在本实施例中,S102和S103的执行无需具备一定的先后顺序,且S102和S103可以并行执行,提高钓鱼网页的识别效率。
由于一些钓鱼网页为了规避安全检测,会特意在网页内容中增加不同于目标网页的文本信息,这部分文本信息通常会设置为与网页背景色相同,因此对于用户来说,这部分文本信息是不可见的,用户仍有很大可能会将该钓鱼网页误认为是目标网页,因此,作为本发明的一个实施例,在S201提取所述待识别网页中的文本信息之后,S202对所述文本信息进行关键词提取之前,所述方法还包括:
S204,过滤所述文本信息中的不可见部分。
通过解析待识别网页的HTML,搜寻出其中与其文字背景色相同的文本信息,将这部分文本信息确定为不可见的文本信息,并过滤掉这部分文本信息,之后再进行关键词的提取和匹配,由此能够提高第二相似度的计算精度,提高钓鱼网页识别的准确性。
在S104中,根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。
在本实施例确定待识别网页是否为目标网页的钓鱼网页的过程中,必须同时考虑获取到的第一相似度和第二相似度。例如,可以通过求和、加权平均等预设算法对第一相似度及第二相似度进行计算,当计算结果高于某一预设阈值时,则确定待识别网页为目标网页的钓鱼网页,而当计算结果低于某一预设阈值时,则确定待识别网页并非目标网页的钓鱼网页。
上述实施例同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。
对于网页来说,其网页内容的组成除了文本信息之外,还包括了图片信息及网页框架信息,而钓鱼网页通常会直接套用目标网页的网页框架,仅仅修改后台的网页代码,以达到欺骗用户的目的。因此,作为本发明的一个实施例,为了进一步提高对钓鱼网页的识别准确率,还可以判断待识别网页的网页内容的截图与目标网页的网页内容的截图的匹配程度,并将该匹配结果作为钓鱼网页的识别依据之一。具体的匹配过程如图3所示:
在S301中,获取所述待识别网页的网页内容的截图。
其中,待识别网页的网页内容的截图,为在浏览器的网页显示区域中能够显示出的所有网页内容。
在S302中,将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度。
在本实施例中,对于目标网页的网页内容,也预先进行了截图处理,并将生成的截图图片预先进行存储。在S302中,将获取到的待识别网页的网页内容的截图与预先存储的目标网页的网页内容的截图进行匹配,根据匹配结果计算出待识别网页与目标网页的第三相似度。
具体的匹配过程可以通过对每张截图计算特征值,并比对特征值的接近程度来完成。例如,先对待识别网页的截图均进行灰度处理,获取到对应的灰度图,以此确定出该截图的每个像素点上的灰度值,此后,比对目标网页相应像素点上的灰度值,确定出灰度值相同、或者灰度值差值在一定差值范围内的像素点的多少,根据这部分像素点的数量来计算出待识别网页与目标网页的第三相似度。具体的第三相似度计算方法在此不用于限定本发明。
在本发明实施例中,图3所示的匹配过程可以与第一相似度和第二相似度的计算过程并行进行,在该情况下,在S104的执行过程中,所述获取到的相似度还包括所述第三相似度,相应的算法同于前述对S104的实施例阐述,在此不再赘述。
作为本发明的另一实施例,考虑到图片处理过程所需要耗费的系统资源较多,所需的处理时间也较长,因此,为了进一步提高钓鱼网页识别的效率,可以根据第一相似度与第二相似度的计算结果决定是否对第三相似度进行计算,如图4所示,S104具体为:
在S401中,根据所述第一相似度和所述第二相似度计算第一参数。
在本实施例中,第一参数的计算方法可以依照前述实施例对S104的阐述,在此不再赘述。
在S402中,判断所述第一参数是否位于预设参数区间内。
在S403中,当所述第一参数大于所述第一预设阈值且小于所述第二预设阈值时,获取所述待识别网页的网页内容的截图;将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度;根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。
在S404中,当所述第一参数小于所述第一预设阈值或者大于所述第二预设阈值时,根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。
在本实施例中,若计算出的第一参数越大表示待识别网页和目标网页越相似,则当S401计算出的第一参数大于某一预设阈值时,即可以确定待识别网页为目标网页的钓鱼网页,当计算出的第一参数小于另一预设阈值时,即可以确定待识别网页并非目标网页的钓鱼网页;若计算出的第一参数越小表示待识别网页和目标网页越相似,则当S401计算出的第一参数小于某一预设阈值时,即可以确定待识别网页为目标网页的钓鱼网页,而当计算出的第一参数大于另一预设阈值时,即可以确定待识别网页并非目标网页的钓鱼网页。
因此,在本实施例中,设置预设参数区间,当第一参数不位于该预设参数区间内时,表明仅依据第一相似度和第二相似度,即可以明确地识别出目标网页是否为钓鱼网页,此时,无需在参考第三相似度的计算结果,由此提高了网页识别的效率;而当第一参数位于该预设参数区间内时,表明第一参数的计算结果模棱两可,无法仅依据第一相似度和第二相似度来确定待识别网页是否为目标网页的钓鱼网页,此时,则再执行图3所示步骤,将第三相似度也作为判断依据,以提高识别结果的准确性。
本发明实施例同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。
图5示出了本发明实施例提供的网页的识别装置的结构框图,该装置用于运行本发明图1至图4实施例所述的网页的识别方法。为了便于说明,仅示出了与本实施例相关的部分。
参照图5,该装置包括:
抓取单元51,抓取待识别网页的URL和网页内容。
第一获取单元52,获取所述待识别网页的URL与目标网页的URL的第一相似度。
第二获取单元53,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。
识别单元54,根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。
可选地,所述第二获取单元53包括:
分析子单元,分析所述待识别网页的HTML,提取所述待识别网页中的文本信息。
提取子单元,对所述文本信息进行关键词提取。
匹配子单元,将提取出的关键词与所述目标网页的预设关键词进行匹配,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。
可选地,所述第二获取单元53还包括:
过滤子单元,用于过滤所述文本信息中的不可见部分。
可选地,所述装置还包括:
第三获取单元,获取所述待识别网页的网页内容的截图。
第四获取单元,将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度。
则所述获取到的相似度还包括所述第三相似度。
可选地,所述识别单元54包括:
计算子单元,根据所述第一相似度和所述第二相似度计算第一参数。
判断子单元,判断所述第一参数是否大于第一预设阈值且小于第二预设阈值。
第一识别子单元,当所述第一参数大于所述第一预设阈值且小于所述第二预设阈值时,获取所述待识别网页的网页内容的截图;将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度;根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。
第二识别子单元,当所述第一参数小于所述第一预设阈值或者大于所述第二预设阈值时,根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。
本发明实施例同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页的识别方法,其特征在于,包括:
抓取待识别网页的统一资源定位符URL和网页内容;
获取所述待识别网页的URL与目标网页的URL的第一相似度;
获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;
根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度;
其中,所述根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页包括:
根据所述第一相似度和所述第二相似度计算第一参数;
判断所述第一参数是否位于预设参数区间内;
当所述第一参数位于所述预设参数区间内时,获取所述待识别网页的网页内容的截图;将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度;根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。
2.如权利要求1所述的方法,其特征在于,所述获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度包括:
分析所述待识别网页的超文本标记语言HTML,提取所述待识别网页中的文本信息;
对所述文本信息进行关键词提取;
将提取出的关键词与所述目标网页的预设关键词进行匹配,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。
3.如权利要求2所述的方法,其特征在于,在所述提取所述待识别网页中的文本信息之后,所述对所述文本信息进行关键词提取之前,所述方法还包括:
过滤所述文本信息中的不可见部分。
4.如权利要求1-3任一项所述的方法,其特征在于,在所述抓取待识别网页的URL和网页内容之后,所述根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页之前,所述方法还包括:
获取所述待识别网页的网页内容的截图;
将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度;
则所述获取到的相似度还包括所述第三相似度。
5.如权利要求1-3任一项所述的方法,其特征在于,在所述判断所述第一参数是否位于预设参数区间内之后,所述方法还包括:
当所述第一参数不位于所述预设参数区间内时,根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。
6.一种网页的识别装置,其特征在于,包括:
抓取单元,用于抓取待识别网页的统一资源定位符URL和网页内容;
第一获取单元,用于获取所述待识别网页的URL与目标网页的URL的第一相似度;
第二获取单元,用于获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;
识别单元,用于根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度;
其中,所述识别单元包括:
计算子单元,用于根据所述第一相似度和所述第二相似度计算第一参数;
判断子单元,用于判断所述第一参数是否位于预设参数区间内;
第一识别子单元,用于当所述第一参数位于所述预设参数区间内时,获取所述待识别网页的网页内容的截图;将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度;根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。
7.如权利要求6所述的装置,其特征在于,所述第二获取单元包括:
分析子单元,用于分析所述待识别网页的超文本标记语言HTML,提取所述待识别网页中的文本信息;
提取子单元,用于对所述文本信息进行关键词提取;
匹配子单元,用于将提取出的关键词与所述目标网页的预设关键词进行匹配,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。
8.如权利要求7所述的装置,其特征在于,所述第二获取单元还包括:
过滤子单元,用于过滤所述文本信息中的不可见部分。
9.如权利要求6-8任一项所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于获取所述待识别网页的网页内容的截图;
第四获取单元,用于将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取第三相似度;
则所述获取到的相似度还包括所述第三相似度。
10.如权利要求6-8任一项所述的装置,其特征在于,所述识别单元还包括:
第二识别子单元,用于当所述第一参数不位于所述预设参数区间内时,根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。
CN201310443265.4A 2013-09-23 2013-09-23 一种网页的识别方法及装置 Active CN104462152B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310443265.4A CN104462152B (zh) 2013-09-23 2013-09-23 一种网页的识别方法及装置
PCT/CN2014/085529 WO2015039553A1 (en) 2013-09-23 2014-08-29 Method and system for identifying fraudulent websites priority claim and related application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310443265.4A CN104462152B (zh) 2013-09-23 2013-09-23 一种网页的识别方法及装置

Publications (2)

Publication Number Publication Date
CN104462152A CN104462152A (zh) 2015-03-25
CN104462152B true CN104462152B (zh) 2019-04-09

Family

ID=52688217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310443265.4A Active CN104462152B (zh) 2013-09-23 2013-09-23 一种网页的识别方法及装置

Country Status (2)

Country Link
CN (1) CN104462152B (zh)
WO (1) WO2015039553A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106936778B (zh) * 2015-12-29 2020-05-05 北京国双科技有限公司 网站流量异常的检测方法和装置
CN105763543B (zh) * 2016-02-03 2019-08-30 百度在线网络技术(北京)有限公司 一种识别钓鱼网站的方法及装置
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN106055574B (zh) * 2016-05-19 2019-12-24 微梦创科网络科技(中国)有限公司 一种识别非法统一资源标识符url的方法与装置
CN106227823A (zh) * 2016-07-21 2016-12-14 知几科技(深圳)有限公司 一种网页更新探测方法、网页信息抓取及呈现方法
CN106371988A (zh) * 2016-08-22 2017-02-01 浪潮(北京)电子信息产业有限公司 一种自动化测试界面的方法和装置
CN106453351A (zh) * 2016-10-31 2017-02-22 重庆邮电大学 基于Web页面特征的金融类钓鱼网页检测方法
CN107181730A (zh) * 2017-03-13 2017-09-19 烟台中科网络技术研究所 一种仿冒网站监测识别方法及系统
US10601866B2 (en) * 2017-08-23 2020-03-24 International Business Machines Corporation Discovering website phishing attacks
CN108009232A (zh) * 2017-11-29 2018-05-08 北京小米移动软件有限公司 广告屏蔽方法及装置
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置
CN108304480B (zh) * 2017-12-29 2020-08-04 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN108154031B (zh) * 2018-01-17 2021-08-06 腾讯科技(深圳)有限公司 伪装应用程序的识别方法、装置、存储介质和电子装置
CN108306878A (zh) * 2018-01-30 2018-07-20 平安科技(深圳)有限公司 钓鱼网站检测方法、装置、计算机设备和存储介质
CN109062981B (zh) * 2018-07-01 2021-09-10 国网湖北省电力有限公司信息通信公司 一种网站相似度检测方法
CN108810025A (zh) * 2018-07-19 2018-11-13 平安科技(深圳)有限公司 一种暗网的安全性评估方法、服务器及计算机可读介质
CN108881517B (zh) * 2018-08-01 2021-08-24 北京闲徕互娱网络科技有限公司 域名池自动化管理方法及系统
CN112149101A (zh) * 2019-06-28 2020-12-29 北京智明星通科技股份有限公司 虚假游戏app识别方法及系统
CN113221032A (zh) * 2021-04-08 2021-08-06 北京智奇数美科技有限公司 链接风险检测方法、装置以及存储介质
CN114124564B (zh) * 2021-12-03 2023-11-28 北京天融信网络安全技术有限公司 一种仿冒网站检测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196994A (zh) * 2007-12-26 2008-06-11 腾讯科技(深圳)有限公司 图片内容识别方法及识别系统
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102647408A (zh) * 2012-02-27 2012-08-22 珠海市君天电子科技有限公司 一种基于内容分析的判断钓鱼网站的方法
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
WO2013009713A3 (en) * 2011-07-08 2013-03-07 Uab Research Foundation Syntactical fingerprinting
CN103052950A (zh) * 2010-08-20 2013-04-17 惠普发展公司,有限责任合伙企业 用于过滤网页内容的系统和方法
US8533184B2 (en) * 2006-02-08 2013-09-10 Fujitsu Limited Numerical analysis data creating method and apparatus, and computer-readable program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510887B (zh) * 2009-03-27 2012-01-25 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN102523210B (zh) * 2011-12-06 2014-11-05 中国科学院计算机网络信息中心 钓鱼网站检测方法及装置
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533184B2 (en) * 2006-02-08 2013-09-10 Fujitsu Limited Numerical analysis data creating method and apparatus, and computer-readable program
CN101196994A (zh) * 2007-12-26 2008-06-11 腾讯科技(深圳)有限公司 图片内容识别方法及识别系统
CN103052950A (zh) * 2010-08-20 2013-04-17 惠普发展公司,有限责任合伙企业 用于过滤网页内容的系统和方法
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
WO2013009713A3 (en) * 2011-07-08 2013-03-07 Uab Research Foundation Syntactical fingerprinting
CN102647408A (zh) * 2012-02-27 2012-08-22 珠海市君天电子科技有限公司 一种基于内容分析的判断钓鱼网站的方法
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备

Also Published As

Publication number Publication date
WO2015039553A1 (en) 2015-03-26
CN104462152A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462152B (zh) 一种网页的识别方法及装置
US9935967B2 (en) Method and device for detecting malicious URL
CN103179095B (zh) 一种检测钓鱼网站的方法及客户端装置
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN106685936B (zh) 网页篡改的检测方法及装置
US10366211B2 (en) Method, device and apparatus for recognizing picture
CN105184159A (zh) 网页篡改的识别方法和装置
US20180115584A1 (en) Color image ray transform technique for detecting phishing web pages
CN109922065B (zh) 恶意网站快速识别方法
HR et al. Development of anti-phishing browser based on random forest and rule of extraction framework
CN107800686A (zh) 一种钓鱼网站识别方法和装置
CN109858248A (zh) 恶意Word文档检测方法和装置
CN105704099A (zh) 一种检测隐藏在网站脚本中非法链接的方法
CN111754338B (zh) 一种套路贷网站团伙识别方法及系统
Ojewumi et al. Performance evaluation of machine learning tools for detection of phishing attacks on web pages
CN112200196A (zh) 钓鱼网站检测方法、装置、设备及计算机可读存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
Deepa Phishing website detection using novel features and machine learning approach
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统
CN111125704B (zh) 一种网页挂马识别方法及系统
CN114124448B (zh) 一种基于机器学习的跨站脚本攻击识别方法
CN101436210B (zh) 一种识别假冒网页的方法及系统
US11706253B2 (en) Semi-automatic rule generator
CN112804192A (zh) 暗网泄露监测方法、装置、电子设备、程序和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant