CN115801455A - 一种基于网站指纹的仿冒网站检测方法及装置 - Google Patents

一种基于网站指纹的仿冒网站检测方法及装置 Download PDF

Info

Publication number
CN115801455A
CN115801455A CN202310047798.4A CN202310047798A CN115801455A CN 115801455 A CN115801455 A CN 115801455A CN 202310047798 A CN202310047798 A CN 202310047798A CN 115801455 A CN115801455 A CN 115801455A
Authority
CN
China
Prior art keywords
website
fingerprint
weight
detected
fingerprints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310047798.4A
Other languages
English (en)
Other versions
CN115801455B (zh
Inventor
汪树蕾
唐御钦
武浩
薛锋
樊兴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ThreatBook Technology Co Ltd
Original Assignee
Beijing ThreatBook Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ThreatBook Technology Co Ltd filed Critical Beijing ThreatBook Technology Co Ltd
Priority to CN202310047798.4A priority Critical patent/CN115801455B/zh
Publication of CN115801455A publication Critical patent/CN115801455A/zh
Application granted granted Critical
Publication of CN115801455B publication Critical patent/CN115801455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Storage Device Security (AREA)

Abstract

本申请实施例提供一种基于网站指纹的仿冒网站检测方法及装置,网络安全技术领域。该方法包括:获取原网站的网站指纹和待检测网站的网站指纹;根据网站指纹进行划分,获得高权重指纹和低权重指纹;根据原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;判断相似度分值是否大于预设阈值;若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同,若不相同,判定待检测网站是仿冒网站;若相同,判定待检测网站不是仿冒网站;若小于等于预设阈值,则判定待检测网站不是仿冒网站。

Description

一种基于网站指纹的仿冒网站检测方法及装置
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种基于网站指纹的仿冒网站检测方法及装置。
背景技术
目前,随着计算机网络技术的飞速发展,网站数量成指数级别增长,网站已成为日常信息获取、企业、学校业务在线办理和网络购物不可或缺的途径之一。同时计算机网络的安全问题也变得日益复杂与突出。特别是企业与金融机构网站,一直是不法分子攻击的重点目标。如何快速检测出仿冒网站,成为亟需解决的安全问题。
现有技术中,现有仿冒网站检测技术是通过对比网站之间三个维度上的相似性综合判定是否为仿冒网站,具体为通过对网站内容分词、网站截图以及网站URL(uniformresource locator,统一资源定位器)三个维度分别计算与原网站的相似度得分后、集成汇总计算出最终的一个网站相似值,将集成汇总后计算的相似度值与预设的相似度阈值进行比较,超过阈值则判断待检测网站是原网站的仿冒站点;但是,现有仿冒网站检测技术还存在以下问题:网页截图比对的方式消耗较多的存储与计算资源;分词需要实时处理,无法提前预处理分词影响检测效率;URL相似性比对的方式漏报高;对比维度少,其中一个维度分数相似分值低则会导致判断错误。
发明内容
本申请实施例的目的在于提供一种基于网站指纹的仿冒网站检测方法、装置、电子设备及计算机可读存储介质,可以实现提高仿冒网站的检测效率和检测准确性的技术效果。
第一方面,本申请实施例提供了一种基于网站指纹的仿冒网站检测方法,包括:
获取原网站的网站指纹和待检测网站的网站指纹,所述网站指纹包括关键词指纹、原生指纹、衍生指纹、技术组件指纹中的一种或多种;
根据所述关键词指纹、所述原生指纹、所述衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹;
根据所述原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和所述待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;
判断所述相似度分值是否大于预设阈值;
若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同,若不相同,判定所述待检测网站是仿冒网站;若相同,判定所述待检测网站不是仿冒网站;
若小于等于预设阈值,则判定所述待检测网站不是仿冒网站。
在上述实现过程中,该基于网站指纹的仿冒网站检测方法通过获取原网站以及待检测网站的关键词指纹、原生指纹、衍生指纹、技术组件指纹,基于两者指纹进行综合处理、获得相似度分值,进而基于相似度分值和原网站的基础信息、待检测网站的基础信息进行综合判断,判定待检测网站是否为仿冒网站;从而,该方法通过网站指纹的多维度信息以及对比网站的基础信息的组合方式检测仿冒网站,从多维度对比网站指纹信息,提升了相似网站检出的准确度,又通过对比网站基础信息进一步判定相似网站是否为仿冒网站,相对于现有的检测方案本方法对于仿冒网站的检出准确度大大提升;同时,所有网站指纹都可以根据标签提取网站源码对应位置生成网站指纹,提取流程通用快速;从而,该方法可以实现提高仿冒网站的检测效率和检测准确性的技术效果。
进一步地,在根据所述关键词指纹、所述原生指纹、所述衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹的步骤之后,所述方法还包括:
根据预设条件筛选所述高权重指纹中的部分指纹和所述低权重指纹中的部分指纹,获得权重组合指纹;
将所述原网站的权重组合指纹与所述待检测网站的权重组合指纹进行匹配判断是否命中,若匹配命中,则跳转至所述检测原网站的基础信息和待检测网站的基础信息是否相同的步骤。
在上述实现过程中,权重组合指纹是根据分析当前原网站的特征,将高、低权重指纹中部分指纹根据网站分析的实际情况组合起来的;作为一个权重组合指纹,权重组合指纹为原网站独一无二的特征,该权重组合指纹可信度为100%,即待检测网站一旦命中原网站的权重组合指纹,则直接判定该待检测网站为疑似仿冒网站,从而提高对仿冒网站的检测效率。
进一步地,所述关键词指纹包括网站源码的词汇、短句、网页源码片段中的一种或多种组合;
所述原生指纹包括网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码提取的备案编号、网站ssl证书提取的网站证书使用者信息中的一种或多种;
所述衍生指纹包括html源码hash、icon图标hash、网页footer部分hash、网页引用的js的hash、网页dom树hash 中的一种或多种。
进一步地,所述技术组件指纹通过预设web指纹扫描器检测网站应用获得,其中所述技术组件指纹包括检测网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件中的一种或多种。
进一步地,所述高权重指纹包括icon图标hash、网页dom树hash、html源码hash、关键词指纹中的一种或多种;
所述低权重指纹包括:网页title、网页源码提取的备案编号、网站证书使用者信息、网页引用js的url、网页引用js的hash、网页footer、网页footer部分hash中的一种或多种。
进一步地,所述高权重指纹、所述低权重指纹、所述技术组件指纹在相似度分值中的权重分别为60%、30%、10%;在根据所述原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和所述待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值的步骤之前,所述方法还包括:
当原网站存在权重指纹取值为空时,则剔除该权重指纹取值的相似度对比。
在上述实现过程中,当原网站存在权重指纹取值为空时,则剔除该指纹维度的相似度对比,从而避免空值计算,提高相似度分值的准确率。
第二方面,本申请实施例提供了一种基于网站指纹的仿冒网站检测装置,包括:
指纹获取模块,用于获取原网站的网站指纹和待检测网站的网站指纹,所述网站指纹包括关键词指纹、原生指纹、衍生指纹、技术组件指纹中的一种或多种;
指纹划分模块,用于根据所述关键词指纹、所述原生指纹、所述衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹;
相似度计算模块,用于根据所述原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和所述待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;
判断模块,用于判断所述相似度分值是否大于预设阈值;若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同,若不相同,判定所述待检测网站是仿冒网站;若相同,判定所述待检测网站不是仿冒网站;若小于等于预设阈值,则判定所述待检测网站不是仿冒网站。
进一步地,所述基于网站指纹的仿冒网站检测装置还包括:
权重组合模块,用于根据预设条件筛选所述高权重指纹中的部分指纹和所述低权重指纹中的部分指纹,获得权重组合指纹;将所述原网站的权重组合指纹与所述待检测网站的权重组合指纹进行匹配判断是否命中,若匹配命中,则跳转至所述检测原网站的基础信息和待检测网站的基础信息是否相同的步骤。
进一步地,所述基于网站指纹的仿冒网站检测装置还包括:
剔除模块,用于当原网站存在权重指纹取值为空时,则剔除该权重指纹取值的相似度对比。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于网站指纹的仿冒网站检测方法的流程示意图;
图2为本申请实施例提供的另一种基于网站指纹的仿冒网站检测方法的流程示意图;
图3为本申请实施例提供的基于网站指纹的仿冒网站检测装置的结构框图;
图4为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供了一种基于网站指纹的仿冒网站检测方法、装置、电子设备及计算机可读存储介质,可以应用于仿冒网站的检测甄别中;该基于网站指纹的仿冒网站检测方法通过获取原网站以及待检测网站的关键词指纹、原生指纹、衍生指纹、技术组件指纹,基于两者指纹进行综合处理、获得相似度分值,进而基于相似度分值和原网站的基础信息、待检测网站的基础信息进行综合判断,判定待检测网站是否为仿冒网站;从而,该方法通过网站指纹的多维度信息以及对比网站的基础信息的组合方式检测仿冒网站,从多维度对比网站指纹信息,提升了相似网站检出的准确度,又通过对比网站基础信息进一步判定相似网站是否为仿冒网站,相对于现有的检测方案本方法对于仿冒网站的检出准确度大大提升;同时,所有网站指纹都可以根据标签提取网站源码对应位置生成网站指纹,提取流程通用快速;从而,该方法可以实现提高仿冒网站的检测效率和检测准确性的技术效果。
请参见图1,图为本申请实施例提供的一种基于网站指纹的仿冒网站检测方法的流程示意图,该基于网站指纹的仿冒网站检测方法包括如下步骤:
S100:获取原网站的网站指纹和待检测网站的网站指纹,网站指纹包括关键词指纹、原生指纹、衍生指纹、技术组件指纹中的一种或多种。
示例性地,网站指纹可以通过标签提取网站源码、并根据对应位置生成网站指纹,提取流程通用快速。
示例性地,网站原生指纹、衍生指纹、技术组件指纹、关键词指纹为检出相似网站提供了更多对比维度。
S200:根据关键词指纹、原生指纹、衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹。
示例性地,根据关键词指纹、原生指纹、衍生指纹中的一种或多种进行划分,区分不同各个指纹对应的权重比例,获得高权重指纹和低权重指纹,进行后续的权重计算;可选地,各个指纹对应的权重比例可以根据实际需要进行调节,此处不作限定。
S300:根据原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;
示例性地,将原网站的指纹和待检测网站的指纹进行一一比对并计算对应的权重占比值,进行加权平均后,获得原网站和待检测网站之间的相似度分值,根据相似度分值可以判定该待检测网站是否为疑似仿冒网站。其中,通过区分不同指纹在计算网站相似度过程中的权重,更合理的计算出两网站之间的相似度分值。
S400:判断相似度分值是否大于预设阈值;
S410:若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同;
S420:若不相同,判定待检测网站是仿冒网站;
S430:若相同,判定待检测网站不是仿冒网站;
若小于等于预设阈值,则跳转至S430:判定待检测网站不是仿冒网站。
示例性地,若相似度分值低于(或等于)预设阈值,则说明待检测网站不是仿冒网站;若相似度分值高于预设阈值,则说明待检测网站是疑似仿冒网站,此时结合原网站的基础信息和待检测网站的基础信息进一步判断:若两个网站的基础信息相同,则说明是属于同单位,即同单位资产的网站;若两个网站的基础信息不相同,则说明待检测网站为仿冒网站。
示例性地,原网站的基础信息可以从第三方公开信息源进行收集;可选地,从第三方公开信息源收集原网站的基础信息;基础信息包括网站的IP(InternetProtocol,网际互连协议)地址、域名备案信息、whois(域名查询协议)信息、证书使用者信息中的一种或多种。
在一些实施方式中,该基于网站指纹的仿冒网站检测方法通过获取原网站以及待检测网站的关键词指纹、原生指纹、衍生指纹、技术组件指纹,基于两者指纹进行综合处理、获得相似度分值,进而基于相似度分值和原网站的基础信息、待检测网站的基础信息进行综合判断,判定待检测网站是否为仿冒网站;从而,该方法通过网站指纹的多维度信息以及对比网站的基础信息的组合方式检测仿冒网站,从多维度对比网站指纹信息,提升了相似网站检出的准确度,又通过对比网站基础信息进一步判定相似网站是否为仿冒网站,相对于现有的检测方案本方法对于仿冒网站的检出准确度大大提升;同时,所有网站指纹都可以根据标签提取网站源码对应位置生成网站指纹,提取流程通用快速;从而,该方法可以实现提高仿冒网站的检测效率和检测准确性的技术效果。
请参见图2,图2为本申请实施例提供的另一种基于网站指纹的仿冒网站检测方法的流程示意图。
示例性地,在S200:根据关键词指纹、原生指纹、衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹的步骤之后,方法还包括:
S210:根据预设条件筛选高权重指纹中的部分指纹和低权重指纹中的部分指纹,获得权重组合指纹;
S220:将原网站的权重组合指纹与待检测网站的权重组合指纹进行匹配判断是否命中;
若匹配命中,则跳转至S410:检测原网站的基础信息和待检测网站的基础信息是否相同。
在一些实施方式中,权重组合指纹是根据分析当前原网站的特征,将高、低权重指纹中部分指纹根据网站分析的实际情况组合起来的;作为一个权重组合指纹,权重组合指纹为原网站独一无二的特征,该权重组合指纹可信度为100%,即待检测网站一旦命中原网站的权重组合指纹,则直接判定该待检测网站为疑似仿冒网站,从而提高对仿冒网站的检测效率。换言之,当命中了权重组合指纹时,无需再检测其他指纹,判定该待检测网站为相似网站即疑似仿冒网站。
示例性地,关键词指纹包括网站源码的词汇、短句、网页源码片段中的一种或多种组合;
原生指纹包括网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码提取的备案编号、网站ssl证书提取的网站证书使用者信息中的一种或多种;
衍生指纹包括html源码hash、icon图标hash、网页footer部分hash、网页引用的js的hash、网页dom树hash 中的一种或多种;
示例性恶,robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件;
示例性地,js(JavaScript)是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;
示例性地,html(Hyper TextMarkup Language,超文本标记语言),是一种标记语言;
示例性地,网站响应的header即网页页头,网页footer即网页页尾;
示例性地,icon是一种图标格式,用于系统图标、软件图标等;
示例性地,dom(DocumentObject Model,文档对象模型),是一种处理可扩展置标语言的标准编程接口;
示例性地,hash即哈希值,是把任意长度的输入通过散列算法变换成固定长度的输出值;
示例性地,技术组件指纹通过预设web指纹扫描器检测网站应用获得,其中技术组件指纹包括检测网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件中的一种或多种。
示例性地,web(World Wide Web,全球广域网)是一种基于超文本的、全球性的、动态交互的、跨平台的分布式图形信息系统。
示例性地,高权重指纹包括icon图标hash、网页dom树hash、html源码hash、关键词指纹中的一种或多种;
低权重指纹包括:网页title、网页源码提取的备案编号、网站证书使用者信息、网页引用js的url、网页引用js的hash、网页footer、网页footer部分hash中的一种或多种。
示例性地,高权重指纹、低权重指纹、技术组件指纹在相似度分值中的权重分别为60%、30%、10%;在S300:根据原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值的步骤之前,方法还包括:
S230:当原网站存在权重指纹取值为空时,则剔除该权重指纹取值的相似度对比。
示例性地,当原网站存在权重指纹取值为空时,则剔除该指纹维度的相似度对比,从而避免空值计算,提高相似度分值的准确率。
在一些实施方式中,高权重指纹、低权重指纹、技术组件指纹在相似度分值中的权重占比可以根据实际需要确定,本申请实施例不作限定。
示例性地,结合图1至图2,本申请实施例提供的基于网站指纹的仿冒网站检测方法,可以实现提升现有检测方案的有限维度判定仿冒网站的准确度与效率;具体的实施方法步骤示例如下:
1)从第三方公开信息源收集原网站的基础信息:ip地址、域名备案信息、whois信息、证书使用者等。
2)提取原网站的网站指纹,包括:
2.1)提取网站关键词指纹:增加网站特征关键词:提取网站源码特有的词汇、短句、网页源码片段组合作为网站关键词指纹;
2.2)提取网站原生指纹:网站响应的header,html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码中提取的备案编号,网站ssl证书提取的网站证书使用者信息;
2.3)计算网站衍生指纹:html源码hash、icon图标hash、网页footer部分hash、网页引用的js的hash、网页dom树hash。
2.4)使用自研的web指纹扫描器检测网站应用:包括检测网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件等类型技术组件,输出网站使用的技术组件的应用名以及版本;
3)提取待检测站点的网站指纹,指纹维度与原网站提取的网站指纹维度保持一致;
4)待检测网站与原网站指纹对比,根据以下计算规则计算相似值;
4.1)网站原生指纹与网站衍生指纹按照权重分为高低两个等级:
i. 高权重:icon hash、dom hash、html hash、关键词组合指纹;
ii. 低权重:网站title、网页提取的网站备案编号,网站证书使用者信息、网站使用的js资源地址及hash、网页footer部分源码及hash;
iii. 高、低权重指纹相似度分值占比最终计算网站相似度分值权重的60%、30%,当原网站存在权重指纹取值为空时,则剔除该指纹维度的相似度对比,避免空值计算降低了结果的准确率;
4.2)网站技术组件指纹:
i. 网站技术指纹为网站所检测到的技术组件列表,根据待检测网站与原网站共同检测到的技术组件/原网站指纹总数,计算出技术组件的相似度分值,技术组件指纹相似度分值占比最终计算两网站相似度分值权重的10%。
4.3)权重组合指纹:
i. 根据具体网站设立的具体的权重组合指纹,权重组合指纹是根据分析当前原网站特征,将高、低权重指纹中部分指纹根据网站分析的实际情况组合起来作为一个权重组合指纹,组合指纹应为原网站独一无二的特征,该指纹可信度为100%,即待检测网站一旦命中原网站的权重组合指纹,则直接输出为相似网站;
4.4)指纹匹配顺序依次为权重组合指纹、高权重指纹、低权重指纹、技术组件指纹,最终根据命中的指纹与其对应的权重占比值计算出相似度分值,当命中了权重组合指纹时则无需检测其他指纹,当相似度分值超过预设的阈值时,判定为相似网站即疑似仿冒网站;
5)得到相似网站之后,对比相似网站与原网站基础信息,即可以通过域名真实备案信息、whois信息、站点ip是否为同一C段地址、ssl证书信息判定是否为同一单位资产,排除掉是同单位资产的网站,待检测网站基础信息与原网站均不相同则为仿冒网站。
在一些实施场景中,选择网站a作为原网站,网站b作为待检测网站,基于网站指纹的仿冒网站检测方法的具体流程步骤示例如下:
1、提取网站a的基础信息:域名备案信息、证书使用者、IP地址、whois信息等;
2、获取原网站的原生指纹、衍生指纹、技术组件指纹、关键词指纹;
2.1、划分指纹权重:
i. 高权重:icon hash、dom hash、html hash、网页源码关键词组合指纹;
ii. 低权重:网站title、网页提取的网站备案编号,网站证书使用者信息、网站使用的js资源地址及hash、网页footer部分源码及hash;
2.2、设置权重组合指纹:
i. 将 icon hash指纹、网站title、网页提取的备案编号并集作为网站权重组合指纹;
2.3、使用web指纹扫描器检测网站所使用的技术组件,输出技术组件指纹。
3、待检测网站b的指纹生成:
按原网站同样维度解析网站b,生成网站b的指纹:网站原生指纹、衍生指纹、技术组件指纹;
4、对比网站a、b的指纹信息
4.1)依次对比权重组合指纹,高权重指纹、低权重指纹、技术组件指纹;
4.2)根据匹配到指纹与其权重算出最终相似分值,b网站与a网站相似值大于设定的相似度阈值,判定b为a的相似网站,判定为疑似仿冒网站;
5、进一步对比网站a、b的基础信息,发现网站b与原网站a的解析ip地址不同、备案不存在、证书不存在、判定网站b为网站a的仿冒网站。
综上所述,本申请实施例提供的基于网站指纹的仿冒网站检测方法,通过网站指纹多维度信息以及对比网站基础信息的组合方式检测仿冒网站,从多维度对比网站指纹信息,提升了相似网站检出的准确度,又通过对比网站基础信息进一步判定相似网站为仿冒网站;相对于现有的检测方案本发明仿冒网站的检出准确度大大提升。
请参见图3,图3为本申请实施例提供的基于网站指纹的仿冒网站检测装置的结构框图,该基于网站指纹的仿冒网站检测装置包括:
指纹获取模块100,用于获取原网站的网站指纹和待检测网站的网站指纹,网站指纹包括关键词指纹、原生指纹、衍生指纹、技术组件指纹中的一种或多种;
指纹划分模块200,用于根据关键词指纹、原生指纹、衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹;
相似度计算模块300,用于根据原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;
判断模块400,用于判断相似度分值是否大于预设阈值;若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同,若不相同,判定待检测网站是仿冒网站;若相同,判定待检测网站不是仿冒网站;若小于等于预设阈值,则判定待检测网站不是仿冒网站。
示例性地,基于网站指纹的仿冒网站检测装置还包括:
权重组合模块,用于根据预设条件筛选高权重指纹中的部分指纹和低权重指纹中的部分指纹,获得权重组合指纹;将原网站的权重组合指纹与待检测网站的权重组合指纹进行匹配判断是否命中,若匹配命中,则跳转至检测原网站的基础信息和待检测网站的基础信息是否相同的步骤。
示例性地,基于网站指纹的仿冒网站检测装置还包括:
剔除模块,用于当原网站存在权重指纹取值为空时,则剔除该权重指纹取值的相似度对比。
需要注意的是,本申请实施例提供的基于网站指纹的仿冒网站检测装置与图1至图2所述的方法实施例相对应,为避免重复,此处不在赘述。
本申请还提供一种电子设备,请参见图4,图4为本申请实施例提供的一种电子设备的结构框图。电子设备可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中,通信总线540用于实现这些组件直接的连接通信。其中,本申请实施例中电子设备的通信接口520用于与其他节点设备进行信令或数据的通信。处理器510可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器510可以是通用处理器,包括中央处理器(CPU,Central ProcessingUnit)、网络处理器(NP,Network Processor)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
存储器530可以是,但不限于,随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read Only Memory),可编程只读存储器(PROM ,ProgrammableRead-OnlyMemory),可擦除只读存储器(EPROM ,ErasableProgrammable Read-Only Memory),电可擦除只读存储器(EEPROM ,ElectricErasable Programmable Read-Only Memory)等。存储器530中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器510执行时,电子设备可以执行上述图1至图2方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块,例如电子设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图4所示的结构仅为示意,所述电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,所述计算机程序被处理器执行时实现方法实施例所述的方法,为避免重复,此处不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于网站指纹的仿冒网站检测方法,其特征在于,包括:
获取原网站的网站指纹和待检测网站的网站指纹,所述网站指纹包括关键词指纹、原生指纹、衍生指纹、技术组件指纹中的一种或多种;
根据所述关键词指纹、所述原生指纹、所述衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹;
根据所述原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和所述待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;
判断所述相似度分值是否大于预设阈值;
若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同,若不相同,判定所述待检测网站是仿冒网站;若相同,判定所述待检测网站不是仿冒网站;
若小于等于预设阈值,则判定所述待检测网站不是仿冒网站。
2.根据权利要求1所述的基于网站指纹的仿冒网站检测方法,其特征在于,在根据所述关键词指纹、所述原生指纹、所述衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹的步骤之后,所述方法还包括:
根据预设条件筛选所述高权重指纹中的部分指纹和所述低权重指纹中的部分指纹,获得权重组合指纹;
将所述原网站的权重组合指纹与所述待检测网站的权重组合指纹进行匹配判断是否命中,若匹配命中,则跳转至所述检测原网站的基础信息和待检测网站的基础信息是否相同的步骤。
3.根据权利要求1所述的基于网站指纹的仿冒网站检测方法,其特征在于,所述关键词指纹包括网站源码的词汇、短句、网页源码片段中的一种或多种组合;
所述原生指纹包括网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码提取的备案编号、网站ssl证书提取的网站证书使用者信息中的一种或多种;
所述衍生指纹包括html源码hash、icon图标hash、网页footer部分hash、网页引用的js的hash、网页dom树hash 中的一种或多种。
4.根据权利要求1或3所述的基于网站指纹的仿冒网站检测方法,其特征在于,所述技术组件指纹通过预设web指纹扫描器检测网站应用获得,其中所述技术组件指纹包括检测网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件中的一种或多种。
5.根据权利要求3所述的基于网站指纹的仿冒网站检测方法,其特征在于,所述高权重指纹包括icon图标hash、网页dom树hash、html源码hash、关键词指纹中的一种或多种;
所述低权重指纹包括:网页title、网页源码提取的备案编号、网站证书使用者信息、网页引用js的url、网页引用js的hash、网页footer、网页footer部分hash中的一种或多种。
6.根据权利要求1所述的基于网站指纹的仿冒网站检测方法,其特征在于,所述高权重指纹、所述低权重指纹、所述技术组件指纹在相似度分值中的权重分别为60%、30%、10%;在根据所述原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和所述待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值的步骤之前,所述方法还包括:
当原网站存在权重指纹取值为空时,则剔除该权重指纹取值的相似度对比。
7.一种基于网站指纹的仿冒网站检测装置,其特征在于,包括:
指纹获取模块,用于获取原网站的网站指纹和待检测网站的网站指纹,所述网站指纹包括关键词指纹、原生指纹、衍生指纹、技术组件指纹中的一种或多种;
指纹划分模块,用于根据所述关键词指纹、所述原生指纹、所述衍生指纹中的一种或多种进行划分,获得高权重指纹和低权重指纹;
相似度计算模块,用于根据所述原网站的高权重指纹、低权重指纹、技术组件指纹中的一种或多种和所述待检测网站的权重组合指纹、高权重指纹、低权重指纹、技术组件指纹中的一种或多种进行匹配并计算对应的权重占比值,获得相似度分值;
判断模块,用于判断所述相似度分值是否大于预设阈值;若大于预设阈值,检测原网站的基础信息和待检测网站的基础信息是否相同,若不相同,判定所述待检测网站是仿冒网站;若相同,判定所述待检测网站不是仿冒网站;若小于等于预设阈值,则判定所述待检测网站不是仿冒网站。
8.根据权利要求7所述的基于网站指纹的仿冒网站检测装置,其特征在于,所述基于网站指纹的仿冒网站检测装置还包括:
权重组合模块,用于根据预设条件筛选所述高权重指纹中的部分指纹和所述低权重指纹中的部分指纹,获得权重组合指纹;将所述原网站的权重组合指纹与所述待检测网站的权重组合指纹进行匹配判断是否命中,若匹配命中,则跳转至所述检测原网站的基础信息和待检测网站的基础信息是否相同的步骤。
9.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于网站指纹的仿冒网站检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至6任一项所述的基于网站指纹的仿冒网站检测方法。
CN202310047798.4A 2023-01-31 2023-01-31 一种基于网站指纹的仿冒网站检测方法及装置 Active CN115801455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310047798.4A CN115801455B (zh) 2023-01-31 2023-01-31 一种基于网站指纹的仿冒网站检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310047798.4A CN115801455B (zh) 2023-01-31 2023-01-31 一种基于网站指纹的仿冒网站检测方法及装置

Publications (2)

Publication Number Publication Date
CN115801455A true CN115801455A (zh) 2023-03-14
CN115801455B CN115801455B (zh) 2023-05-26

Family

ID=85429342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310047798.4A Active CN115801455B (zh) 2023-01-31 2023-01-31 一种基于网站指纹的仿冒网站检测方法及装置

Country Status (1)

Country Link
CN (1) CN115801455B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723050A (zh) * 2023-08-02 2023-09-08 北京微步在线科技有限公司 基于图数据库的仿冒网站检测方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130263272A1 (en) * 2009-01-17 2013-10-03 Stopthehacker.com, Jaal LLC Automated identidication of phishing, phony and malicious web sites
CN109274632A (zh) * 2017-07-12 2019-01-25 中国移动通信集团广东有限公司 一种网站的识别方法及装置
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
CN111224923A (zh) * 2018-11-26 2020-06-02 阿里巴巴集团控股有限公司 一种仿冒网站的检测方法、装置及系统
CN111756724A (zh) * 2020-06-22 2020-10-09 杭州安恒信息技术股份有限公司 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN113242223A (zh) * 2021-04-30 2021-08-10 刘厚泽 一种网址检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130263272A1 (en) * 2009-01-17 2013-10-03 Stopthehacker.com, Jaal LLC Automated identidication of phishing, phony and malicious web sites
CN109274632A (zh) * 2017-07-12 2019-01-25 中国移动通信集团广东有限公司 一种网站的识别方法及装置
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
CN111224923A (zh) * 2018-11-26 2020-06-02 阿里巴巴集团控股有限公司 一种仿冒网站的检测方法、装置及系统
CN111756724A (zh) * 2020-06-22 2020-10-09 杭州安恒信息技术股份有限公司 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN113242223A (zh) * 2021-04-30 2021-08-10 刘厚泽 一种网址检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723050A (zh) * 2023-08-02 2023-09-08 北京微步在线科技有限公司 基于图数据库的仿冒网站检测方法、装置、设备及介质
CN116723050B (zh) * 2023-08-02 2023-10-27 北京微步在线科技有限公司 基于图数据库的仿冒网站检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115801455B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
Chiew et al. A new hybrid ensemble feature selection framework for machine learning-based phishing detection system
CN110808968B (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
JP2007528520A (ja) 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
US11301522B1 (en) Method and apparatus for collecting information regarding dark web
Kreuzer et al. A quantitative comparison of semantic web page segmentation approaches
US20220377095A1 (en) Apparatus and method for detecting web scanning attack
CN116108880A (zh) 随机森林模型的训练方法、恶意网站检测方法及装置
Dangwal et al. Feature selection for machine learning-based phishing websites detection
CN115309968A (zh) 一种基于资源搜索引擎生成网页指纹规则的方法、装置
CN112199573B (zh) 一种非法交易主动探测方法及系统
CN114201376A (zh) 基于人工智能的日志解析方法、装置、终端设备及介质
CN113691548A (zh) 一种数据采集和分类存储方法及其系统
CN112148943A (zh) 网页分类方法、装置、电子设备及可读存储介质
CN112187768B (zh) 不良信息网站的检测方法、装置、设备及可读存储介质
CN116723050B (zh) 基于图数据库的仿冒网站检测方法、装置、设备及介质
KR20210083510A (ko) 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법
CN113965421B (zh) 应用程序接口的获取方法、装置和分析方法、装置
CN115587364B (zh) 基于前后端关联性分析的固件漏洞输入点定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant