CN116723050B

CN116723050B - 基于图数据库的仿冒网站检测方法、装置、设备及介质

Info

Publication number: CN116723050B
Application number: CN202310961877.6A
Authority: CN
Inventors: 唐御钦; 武浩; 樊兴华; 薛锋
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-10-27
Anticipated expiration: 2043-08-02
Also published as: CN116723050A

Abstract

本申请实施例提供一种基于图数据库的仿冒网站检测方法、装置、设备及介质，涉及网站检测技术领域。所述方法包括：基于相同属性维度提取合法网站和待检测网站的强相关属性数据；根据强相关属性数据搜索合法网站的合法网站资产；基于相同属性维度提取合法网站和待检测网站的相似特征数据；分别构建合法网站和待检测网站的图数据；根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测。本申请通过基于同样的属性维度分别提取合法网站与待检测网站的特征数据并分别构建图数据，将合法网站与待检测网站的图数据进行匹配以识别得到仿冒网站，从而有效提高了仿冒网站检测的效率和准确性。

Description

基于图数据库的仿冒网站检测方法、装置、设备及介质

技术领域

本申请涉及网站检测技术领域，具体而言，涉及一种基于图数据库的仿冒网站检测方法、装置、设备及存储介质。

背景技术

随着网络技术的发展，网络安全成为人们不得不重视的问题，正规网站被仿冒的趋势越来越严重。仿冒网站主要是黑客组织为了经济利益而采用的一种手法，通过仿冒看似完全正常合规的站点页面，实际在网站中植入大量的第三方链接和内容，实现传播和推广地下灰色产业、欺诈用户骗取个人机密信息从而谋取非法利益的目的。因此，如何快速、准确地检测正规网站是否有相应的仿冒网站出现，以减少用户以及正规网站的损失，成为亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种基于图数据库的仿冒网站检测方法、装置、设备及存储介质，能够快速、准确地进行仿冒网站检测。

第一方面，本申请实施例提供了一种基于图数据库的仿冒网站检测方法，包括：

基于预设的属性维度分别获取目标合法网站的强相关属性数据和待检测网站的强相关属性数据；

基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产；

基于所述属性维度分别提取所述目标合法网站的相似特征数据和所述待检测网站的相似特征数据；

根据所述目标合法网站的强相关属性数据、合法网站资产和相似特征数据构建第一图数据，根据所述待检测网站的强相关属性数据和相似特征数据构建第二图数据；

根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果。

在本申请实施例中，通过提取合法网站的强相关属性数据、合法网站资产以及相似特征数据构建图数据，同时以相同的维度提取待检测网站的数据并构建图数据，通过合法网站与待检测网站的图数据进行对比以进行仿冒网站识别，从而大大提高了仿冒网站检测的准确性和效率。

在一些可能的实施例中，所述基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产，包括：

基于预设的第三方数据源对所述目标合法网站的强相关属性数据进行扩展；

根据扩展后的所述目标合法网站的强相关属性数据在图数据库中循环搜索所述目标合法网站的合法网站资产。

在本申请实施例中，通过对合法网站的强相关属性数据进行扩展，并循环搜索与合法网站关联的合法网站资产，从而能够提高合法网站资产获取的全面性，更好地排除待检测网站被误识别为仿冒网站的情况，进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，所述相似特征数据具体为网站指纹；

所述网站指纹包括原生指纹、衍生指纹、技术组件指纹、关键词指纹中的至少一种。

在本申请实施例中，通过多维度提取合法网站的网站指纹，包括原生指纹、衍生指纹、技术组件指纹等，作为用于构建网站图数据的相似特征数据，从而进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，所述根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果，包括：

判断所述第一图数据和所述第二图数据中属性为强相关的边是否相连；

若是，则确定所述待检测网站为合法网站；

若否，则对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值，若所述综合相似度分值超过预设阈值，则确定所述待检测网站为疑似仿冒网站，若所述综合相似度分值未超过所述预设阈值，则确定所述待检测网站为合法网站。

在本申请实施例中，通过图计算的方式来获取合法网站与待检测网站的综合相似度分值，并根据分值与阈值的比较来判断待检测网站是否为仿冒网站，从而大大提高了仿冒网站识别的检测速度，减少计算资源的占用。

在一些可能的实施例中，所述的基于图数据库的仿冒网站检测方法还包括：

对所述原生指纹、所述衍生指纹和所述关键词指纹中的至少一种进行划分，得到高权重指纹和低权重指纹；其中，所述高权重指纹在综合相似度分值中所占的权重大于所述低权重指纹在综合相似度分值中所占的权重；

所述对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值，具体为：

根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值。

在本申请实施例中，通过对各种网站指纹划分不同的计算权重，并根据不同的权重计算最终的综合相似度分值，能够更合理的计算出合法网站与待检测网站的相似度，从而进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，所述低权重指纹在综合相似度分值中所占的权重大于所述技术组件指纹在综合相似度分值中所占的权重，且所述高权重指纹、所述低权重指纹、所述技术组件指纹各自在综合相似度分值中所占的权重的和为100%。

在本申请实施例中，通过将高权重指纹、低权重指纹和技术组件指纹各自在综合相似度分值中所占的权重配置为相加的和等于100%，并且按照高权重指纹、低权重指纹和技术组件指纹的权重从大到小的比例进行配置，能够更合理的计算出合法网站与待检测网站的相似度，从而进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，在所述对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值之前，还包括：

根据预设条件筛选出所述高权重指纹中的目标指纹和所述低权重指纹中的目标指纹并进行组合，得到权重组合指纹；

对所述目标合法网站的权重组合指纹与所述待检测网站的权重组合指纹进行匹配并判断是否命中，若匹配命中则确定所述待检测网站为疑似仿冒网站。

在本申请实施例中，通过根据高权重指纹和低权重指纹中分别筛选部分指纹并进行组合，获得组合权重指纹，根据组合权重指纹对合法网站与待检测网站进行相似匹配，若命中则直接判别为疑似仿冒网站，从而省去其他维度的网站指纹相似度计算过程，进一步提高了仿冒网站检测的效率。

在一些可能的实施例中，所述根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值，具体为：

按照从先到后对所述高权重指纹、所述低权重指纹和所述技术组件指纹进行匹配的次序，对所述目标合法网站与所述待检测网站进行网站指纹匹配，并根据匹配命中的网站指纹及其对应的权重对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值。

在本申请实施例中，通过按照从先到后依次对高权重指纹、低权重指纹和技术组件指纹进行匹配和计算，能够优先匹配和计算权重较高的指纹特征，从而更快速完成仿冒网站检测的过程，进一步提高了仿冒网站检测的效率。

在一些可能的实施例中，所述原生指纹包括以下至少一种：网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码中提取的icp备案编号、网页源码中提取的公安备案编号以及网站SSL证书中提取的网站证书使用者信息；

所述衍生指纹包括由至少一种所述原生指纹计算生成的哈希值；

所述技术组件指纹包括网站使用的技术组件的应用名和版本信息，其中，所述网站使用的技术组件包括以下至少一种：网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库以及中间件；

所述关键词指纹包括基于网站源码进行提取的词汇、短句和片段中的一种或多种组合。

在本申请实施例中，通过多维度提取合法网站的网站指纹，包括由网站源码等组成的原生指纹、由原生指纹的哈希值组成的衍生指纹、由网站使用的应用及框架等组成的技术组件指纹等，作为用于构建网站图数据的相似特征数据，从而进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，所述强相关属性数据包括网站的域名、子域名、IP地址段、ICP备案单位名称、公安备案单位名称、Whois注册单位名称以及SSL证书注册单位名称中的至少一种。

在本申请实施例中，通过将域名、备案信息等作为网站检测的强相关属性数据，使得检测过程中能够根据这些强相关属性数据快速识别出合法的待检测网站，进一步提高了仿冒网站检测的效率。

第二方面，本申请实施例提供了一种基于图数据库的仿冒网站检测装置，包括：

数据获取模块，用于基于预设的属性维度分别获取目标合法网站的强相关属性数据和待检测网站的强相关属性数据；

资产搜索模块，用于基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产；

特征提取模块，用于基于所述属性维度分别提取所述目标合法网站的相似特征数据和所述待检测网站的相似特征数据；

图数据构建模块，用于根据所述目标合法网站的强相关属性数据、合法网站资产和相似特征数据构建第一图数据，根据所述待检测网站的强相关属性数据和相似特征数据构建第二图数据；

仿冒检测模块，用于根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时可实现第一方面任一实施例所述的方法。

第四方面，本申请实施例提供了一种计算机程序产品，所述的计算机程序产品包括计算机程序，其中，所述的计算机程序被处理器执行时可实现第一方面任一实施例所述的方法。

第五方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现第一方面任一实施例所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于图数据库的仿冒网站检测方法的流程示意图；

图2为本申请实施例提供的一种基于图数据库的仿冒网站检测装置的结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本申请实施例提供了一种基于图数据库的仿冒网站检测方法，可以包括步骤：

S1、基于预设的属性维度分别获取目标合法网站的强相关属性数据和待检测网站的强相关属性数据；

S2、基于目标合法网站的强相关属性数据搜索目标合法网站的合法网站资产；

S3、基于属性维度分别提取目标合法网站的相似特征数据和待检测网站的相似特征数据；

S4、根据目标合法网站的强相关属性数据、合法网站资产和相似特征数据构建第一图数据，根据待检测网站的强相关属性数据和相似特征数据构建第二图数据；

S5、根据第一图数据和第二图数据对待检测网站进行仿冒网站检测得到检测结果。

需要说明的是，可以通过人工运营确定合法网站的强相关属性数据，例如强相关属性数据可以包括以下一种或多种：域名/子域名、IP地址段、ICP备案单位名称、公安备案单位名称、Whois注册单位名称、SSL证书注册单位名称（中、英）等。通过这些强相关属性数据，可以在预设的测绘数据中搜索并关联得到目标合法网站的合法网站资产，主要用以在检测过程中排除待检测网站为原网站（目标合法网站）所属单位的合法资产的可能性，提高仿冒网站检出的准确度。基于目标合法网站的强相关属性数据、相似特征数据和合法网站资产可以构建目标合法网站的图数据。另外，基于相同的属性维度提取待检测网站的强相关属性数据和相似特征数据，同样构建为图数据，最后通过合法网站的图数据以及待检测网站的图数据进行比对以识别仿冒网站。

在本申请实施例中，通过根据合法网站的强相关属性数据、合法网站资产以及相似特征数据构建图数据，同时以相同的维度提取待检测网站的相应数据并构建为图数据，通过合法网站与待检测网站的图数据进行对比以进行仿冒网站识别，从而大大提高了仿冒网站检测的准确性和效率。

在一些可能的实施例中，基于目标合法网站的强相关属性数据搜索目标合法网站的合法网站资产，进一步包括如下步骤S201- S202：

S201、基于预设的第三方数据源对目标合法网站的强相关属性数据进行扩展；

S202、根据扩展后的目标合法网站的强相关属性数据在图数据库中循环搜索目标合法网站的合法网站资产。

需要说明的是，通过预设的第三方数据源可以对强相关属性数据进行扩展，例如：1.根据单位名称获取所有相关域名；2.根据单位名称和域名获取所有相关IP地址段；3.根据单位名称获取备案数据和注册单位数据。并基于扩展得到的强相关属性数据来循环搜索与目标合法网站相关联的合法网站资产。从而能够全面搜索到目标合法网站相关的合法网站资产，避免了将合法的待检测网站误识别为仿冒网站的情况。

在本申请实施例中，通过对合法网站的强相关属性数据进行扩展，并循环搜索与合法网站关联的合法网站资产，从而能够提高合法关联网站获取的全面性，更好地排除待检测网站被误识别为仿冒网站的情况，进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，相似特征数据具体为网站指纹；

网站指纹包括原生指纹、衍生指纹、技术组件指纹、关键词指纹中的至少一种。

需要说明的是，可以从多维度提取目标合法网站的网站指纹，作为用于相似度计算的相似特征数据。网站指纹的类型可以包括原生指纹、衍生指纹、技术组件指纹、关键词指纹等。

其中，原生指纹可以通过关键字段识别等技术进行提取，例如提取的原生指纹可以包括网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码中提取的icp备案编号、网页源码中提取的公安备案编号、网站ssl证书提取的网站证书使用者信息等。

衍生指纹可以是根据提取到的原生指纹进行哈希变换得到，例如衍生指纹可以包括html源码hash、icon图标hash、网页footer部分hash、网页引用的js的hash、网页dom树hash等。

技术组件指纹可以使用web指纹扫描器检测网站应用获取得到，例如技术组件指纹可以包括检测网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件等类型技术组件，输出网站使用的技术组件的应用名以及版本等。

关键词指纹可以通过设定的网站特征关键词对网站源码特有的词汇、短句、网页源码片段组合等进行提取得到。

在一些可能的实施例中，根据第一图数据和第二图数据对待检测网站进行仿冒网站检测得到检测结果，进一步包括如下步骤S501- S503：

S501、判断第一图数据和第二图数据中属性为强相关的边是否相连；

S502、若是，则确定待检测网站为合法网站；

S503、若否，则对第一图数据和第二图数据进行图计算，得到目标合法网站与待检测网站的综合相似度分值，若综合相似度分值超过预设阈值，则确定待检测网站为疑似仿冒网站，若综合相似度分值未超过预设阈值，则确定待检测网站为合法网站。

需要说明的是，目标合法网站的图数据和待检测网站的图数据中均包含有属性为强相关的边（基于各自的强相关属性数据建立），在图计算过程中，当待检测网站和目标合法网站的图数据中属性为强相关的边相连时，说明待检测网站的强相关属性数据与目标合法网站的强相关属性数据具有关联关系，此时将该待检测网站识别为合法网站。对于属性为强相关的边不相连的情况，再进一步计算待检测网站与目标合法网站的相似度，通过图计算的形式进行匹配和检测，能够有效提高仿冒网站检测的效率。

在一些可能的实施例中，基于图数据库的仿冒网站检测方法还可以包括步骤：

对原生指纹、衍生指纹和关键词指纹中的至少一种进行划分，得到高权重指纹和低权重指纹；其中，高权重指纹在综合相似度分值中所占的权重大于低权重指纹在综合相似度分值中所占的权重；

对第一图数据和第二图数据进行图计算，得到目标合法网站与待检测网站的综合相似度分值，具体为：

根据各种网站指纹对应的权重对第一图数据和第二图数据进行图计算，得到目标合法网站与待检测网站的综合相似度分值。

需要说明的是，可以对原生指纹和衍生指纹划分为不同的权重值，在对第一图数据和第二图数据进行图计算的过程中，各种网站指纹的权重代表了该网站指纹在计算最终的综合相似度分值过程中的贡献度，例如，可以将icon hash、dom hash、html hash、关键词组合指纹等划分为高权重指纹，将网站title、网页源码提取的icp备案编号、网页提取的网站公安备案编号、网站证书使用者信息、网站使用的js资源地址及hash、网页footer部分源码及hash等划分为低权重指纹。

在一些可能的实施例中，低权重指纹在综合相似度分值中所占的权重大于技术组件指纹在综合相似度分值中所占的权重，且高权重指纹、低权重指纹、技术组件指纹各自在综合相似度分值中所占的权重的和为100%。

需要说明的是，在网站相似度计算过程中，可以将高权重指纹、低权重指纹、技术组件指纹占最终计算两网站相似度分值的权重分别设置为60%、30%、10%。在本申请实施例中，通过将高权重指纹、低权重指纹和技术组件指纹各自在综合相似度分值中所占的权重配置为相加的和等于100%，并且按照高权重指纹、低权重指纹和技术组件指纹的权重从大到小的比例进行配置，能够更合理的计算出合法网站与待检测网站的相似度，从而进一步提高了仿冒网站检测的准确性。

在一些可能的实施例中，在对第一图数据和第二图数据进行图计算，得到目标合法网站与待检测网站的综合相似度分值之前，进一步包括如下步骤：

根据预设条件筛选出高权重指纹中的目标指纹和低权重指纹中的目标指纹并进行组合，得到权重组合指纹；

对目标合法网站的权重组合指纹与待检测网站的权重组合指纹进行匹配并判断是否命中，若匹配命中则确定待检测网站为疑似仿冒网站。

需要说明的是，可以在高权重指纹和低权重指纹中分别筛选出部分指纹并进行组合作为权重组合指纹，权重组合指纹视为网站独一无二的特征，该指纹的可信度可视为百分百可信。可以设置指纹的匹配顺序依次为权重组合指纹、高权重指纹、低权重指纹、技术组件指纹，待检测网站一旦命中原网站的权重组合指纹，则直接输出为仿冒网站，无需对次序靠后的其他指纹进行匹配，从而减少仿冒网站检测过程的计算量。

在本申请实施例中，通过根据高权重指纹和低权重指纹中分别筛选部分指纹并进行组合，获得组合权重指纹，根据组合权重指纹对合法网站与待检测网站进行相似匹配，若命中则直接判定为疑似仿冒网站，从而省去其他维度的网站指纹相似度计算过程，进一步提高了仿冒网站检测的效率。

在一些可能的实施例中，根据各种网站指纹对应的权重对第一图数据和第二图数据进行图计算，得到目标合法网站与待检测网站的综合相似度分值，具体为：

按照从先到后对高权重指纹、低权重指纹和技术组件指纹进行匹配的次序，对目标合法网站与待检测网站进行网站指纹匹配，并根据匹配命中的网站指纹及其对应的权重对第一图数据和第二图数据进行图计算，得到目标合法网站与待检测网站的综合相似度分值。

需要说明的是，可以按照从先到后对高权重指纹、低权重指纹和技术组件指纹进行匹配的次序，对目标合法网站与待检测网站进行网站指纹匹配。例如，首先基于高权重指纹对目标合法网站与待检测网站进行匹配并计算相似度分值，若该相似度分值超出预设的高权重指纹对应的阈值，则直接将待检测网站列为疑似仿冒网站，不再对低权重指纹以及技术组件指纹进行匹配和计算。

在一些可能的实施例中，原生指纹包括以下至少一种：网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码中提取的icp备案编号、网页源码中提取的公安备案编号以及网站SSL证书中提取的网站证书使用者信息；

衍生指纹包括由至少一种原生指纹计算生成的哈希值；

技术组件指纹包括网站使用的技术组件的应用名和版本信息，其中，网站使用的技术组件包括以下至少一种：网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库以及中间件；

关键词指纹包括基于网站源码进行提取的词汇、短句和片段中的一种或多种组合。

在一些可能的实施例中，强相关属性数据包括网站的域名、子域名、IP地址段、ICP备案单位名称、公安备案单位名称、Whois注册单位名称以及SSL证书注册单位名称中的至少一种。

作为示例，以下列举具体实例对本申请实施例的基于图数据库的仿冒网站检测方法进行进一步说明，可以通过以下步骤实现：

1、通过人工运营设定属性维度，基于该属性维度来分别提取目标合法网站和待检测网站的强相关属性数据，包括网站的域名/子域名、IP地址段、ICP备案单位名称、公安备案单位名称、Whois注册单位名称、SSL证书注册单位名称（中、英）；

2、根据预设的第三方被确认为100%正确的数据源，对目标合法网站的强相关属性数据进行扩展，包括：1.根据单位名称获取所有关联的域名；2.根据单位名称和域名获取所有关联的IP地址段；3.根据单位名称获取与该网站相关联的备案数据和注册单位数据；

3、根据扩展后的目标合法网站的强相关属性数据在通过测绘数据构成的图数据库中循环关联出目标合法网站的合法网站资产；

4、根据同样的属性维度，分别提取目标合法网站和待检测网站的相似特征数据，包括：

a)提取网站关键词指纹：根据设定的网站特征关键词，提取网站源码特有的词汇、短句、网页源码片段组合作为网站关键词指纹。

b)提取网站原生指纹：根据设定的关键字段提取网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码中提取的icp备案编号、网页源码中提取的公安备案编号、网站ssl证书提取的网站证书使用者信息。

c)根据原生指纹计算网站的衍生指纹，包括：html源码hash、icon图标hash、网页footer部分hash、网页引用的js的hash和网页dom树hash等。

d)提取技术组件指纹：使用web指纹扫描器检测网站应用，包括网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件等类型技术组件，将网站使用的技术组件的应用名以及版本作为该网站的技术组件指纹。

5、将提取到的网站的相似特征数据整理为以下数据形式：

a)Icon D/Hash属性数据集合；b)证书Hash属性数据集合；c)网站ICP备案编号属性数据集合；d)Js特征Hash属性数据集合；e)域名属性数据集合；f)Dom树属性数据集合；g)Logo Hash属性数据集合；h)Title名称属性数据集合；i)Cname域名属性数据集合；j)公安编号属性数据集合；k)SsDeep属性数据集合等。

6、构建目标合法网站的图数据：在图数据库中，以合法网站资产的强相关属性数据为图属性，建立所有的点；在图数据库中，基于合法网站的强相关属性数据之间的关系建立边，且边的属性为强相关；在图数据库中，将相似特征数据作为点的属性写入图数据库，基于相似特征数据之间的关系建立边，且边的属性为相似及对应的置信度；

同时，基于目标合法网站的图数据，以相同的属性维度和相同的方式构建待检测网站的图数据。

7、基于待检测网站与目标合法网站的图数据进行判断，当两者图数据的属性为强相关的边相连时，则将待检测网站识别为合法网站；

8、若判断待检测网站与目标合法网站的图数据中属性为强相关的边不相连，则基于待检测网站与目标合法网站的图数据进行图计算，即对属性为相似的边根据置信度计算综合相似度分值，当综合相似度分值超过设定的阈值则将待检测网站识别为仿冒网站。具体根据以下计算规则计算综合相似度分值：

a)对原生指纹、衍生指纹和关键词指纹按照权重分为高低两个等级；

高权重指纹：icon hash、dom hash、html hash、关键词组合指纹。

低权重指纹：网站title、网页源码提取的icp备案编号、网页提取的网站公安备案编号、网站证书使用者信息、网站使用的js资源地址及hash、网页footer部分源码及hash。

b)将高、低权重指纹相似度分值占比最终计算网站综合相似度分值的权重设置为60%、30%，当目标合法网站存在高、低权重指纹取值为空时，则剔除该指纹维度的相似度对比，避免空值计算降低了结果的准确率。

c)计算网站技术组件指纹的相似度分值：

网站技术组件指纹为基于网站所检测到的技术组件列表，根据待检测网站与目标合法网站共同检测到的技术组件/网站指纹总数，计算出技术组件指纹的相似度分值，技术组件指纹相似度分值占比最终计算两网站相似度分值权重的10%。技术组件指纹包括网站使用的web服务器、前端框架、后端框架、服务器操作系统、服务端语言、内容管理系统、数据库、中间件中的一种或多种。

d)设置权重组合指纹：

根据实际网站情况设定具体的权重组合指纹，通过对当前目标合法网站进行特征分析，将高、低权重指纹中部分指纹根据网站分析的实际情况组合起来作为一个权重组合指纹，权重组合指纹应为网站独一无二的特征，该指纹可信度为100%，即待检测网站一旦命中目标合法网站的权重组合指纹，则直接输出该待检测网站为仿冒网站；本实例中将iconhash（高权重指纹）、网站title（低权重指纹）、网页提取的icp备案编号（低权重指纹）的并集作为网站权重组合指纹；

e)网站指纹匹配的顺序依次为组合指纹、高权重指纹、低权重指纹、技术组件指纹，最终根据命中的指纹与其对应的权重占比值计算出相似度分值，当命中了权重组合指纹时则无需检测其他指纹，当根据权重组合指纹计算的相似度分值超过预设的阈值时，判定该待检测网站为仿冒网站。

需要说明的是，本申请实施例通过网站指纹多维度信息检测提升了仿冒网站检出的准确度，通过图计算的检测方式提升了检测速度，并且通过图数据的检测方式可以更好的展示出合法网站与仿冒网站的关联关系。

与现有技术相比，本申请实施例具有如下有益效果：

1、将多维度网站指纹作为仿冒网站检测的相似特征数据，包括原生指纹、衍生指纹、技术组件指纹和关键词指纹，为检出相似网站提供了更多对比维度。

2. 对各个网站指纹设置不同的权重，区分不同网站指纹在计算网站相似度过程中的贡献度，更合理的计算出两网站之间的相似度分值。

3. 通过结合网站真实备案、证书、ip、whois等强相关属性数据的对比，能够排除原网站所属单位相关的合法网站资产被误识别为仿冒网站的可能性，进一步提升了仿冒网站检出的准确度。

4. 通过图计算的方式提升了仿冒网站检出的速度，并且占用更少的计算资源。

5. 通过图数据的检测方式能够更好的展示合法网站与仿冒网站的关联关系。

请参考图2，图2示出了本申请的一些实施例提供的基于图数据库的仿冒网站检测装置的组成框图。应理解，该基于图数据库的仿冒网站检测装置与上述图1方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该基于图数据库的仿冒网站检测装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

图2的基于图数据库的仿冒网站检测装置包括至少一个能以软件或固件的形式存储于存储器中或固化在基于图数据库的仿冒网站检测装置中的软件功能模块，该基于图数据库的仿冒网站检测装置包括：

数据获取模块210，用于基于预设的属性维度分别获取目标合法网站的强相关属性数据和待检测网站的强相关属性数据；

资产搜索模块220，用于基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产；

特征提取模块230，用于基于所述属性维度分别提取所述目标合法网站的相似特征数据和所述待检测网站的相似特征数据；

图数据构建模块240，用于根据所述目标合法网站的强相关属性数据、合法网站资产和相似特征数据构建第一图数据，根据所述待检测网站的强相关属性数据和相似特征数据构建第二图数据；

仿冒检测模块250，用于根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果。

可以理解的是上述装置项实施例，是与本发明方法项实施例相对应的，本发明实施例提供的一种基于图数据库的仿冒网站检测装置，可以实现本发明任意一项方法项实施例提供的基于图数据库的仿冒网站检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

如图3所示，本申请的一些实施例提供一种电子设备300，该电子设备300包括：存储器310、处理器320以及存储在存储器310上并可在处理器320上运行的计算机程序，其中，处理器320通过总线330从存储器310读取程序并执行所述程序时可实现如上述基于图数据库的仿冒网站检测方法包括的任意实施例的方法。

处理器320可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器320可以是微处理器。

存储器310可以用于存储由处理器320执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器320可以用于执行存储器310中的指令以实现上述所示的方法。存储器310包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

本申请的一些实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行方法实施例所述的方法。

本申请的一些实施例还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于图数据库的仿冒网站检测方法，其特征在于，包括：

根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果；

其中，所述相似特征数据具体为网站指纹，所述检测结果是根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算，得到的所述目标合法网站与所述待检测网站的综合相似度分值获得的，其中，所述综合相似度分值是通过所述第一图数据和所述第二图数据中的属性为强相关的边的置信度获得的。

2.根据权利要求1所述的基于图数据库的仿冒网站检测方法，其特征在于，所述基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产，包括：

3.根据权利要求1所述的基于图数据库的仿冒网站检测方法，其特征在于，所述相似特征数据具体为网站指纹；

4.根据权利要求3所述的基于图数据库的仿冒网站检测方法，其特征在于，所述根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果，包括：

若是，则确定所述待检测网站为合法网站；

5.根据权利要求4所述的基于图数据库的仿冒网站检测方法，其特征在于，还包括：

6.根据权利要求5所述的基于图数据库的仿冒网站检测方法，其特征在于，所述低权重指纹在综合相似度分值中所占的权重大于所述技术组件指纹在综合相似度分值中所占的权重，且所述高权重指纹、所述低权重指纹、所述技术组件指纹各自在综合相似度分值中所占的权重的和为100%。

7.根据权利要求5所述的基于图数据库的仿冒网站检测方法，其特征在于，在所述对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值之前，还包括：

8.根据权利要求7所述的基于图数据库的仿冒网站检测方法，其特征在于，所述根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算，得到所述目标合法网站与所述待检测网站的综合相似度分值，具体为：

9.根据权利要求3所述的基于图数据库的仿冒网站检测方法，其特征在于，所述原生指纹包括以下至少一种：网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网页源码中提取的icp备案编号、网页源码中提取的公安备案编号以及网站SSL证书中提取的网站证书使用者信息；

10.根据权利要求1所述的基于图数据库的仿冒网站检测方法，其特征在于，所述强相关属性数据包括网站的域名、子域名、IP地址段、ICP备案单位名称、公安备案单位名称、Whois注册单位名称以及SSL证书注册单位名称中的至少一种。

11.一种基于图数据库的仿冒网站检测装置，其特征在于，包括：

仿冒检测模块，用于根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果；

12.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1-10任一所述的基于图数据库的仿冒网站检测方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-10任一所述的基于图数据库的仿冒网站检测方法。