CN113254844A

CN113254844A - 一种基于知识图谱和图片特征的诈骗网站识别方法与系统

Info

Publication number: CN113254844A
Application number: CN202110764714.XA
Authority: CN
Inventors: 漆伟; 张瑞冬; 马永霄; 童永鳌; 朱鹏; 张�浩
Original assignee: Chengdu No Sugar Information Tech Co ltd
Current assignee: Chengdu No Sugar Information Tech Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-13
Anticipated expiration: 2041-07-07
Also published as: CN113254844B

Abstract

本发明公开了一种基于知识图谱和图片特征的诈骗网站识别方法与系统，针对现有技术中存在的现有识别技术手段是无法有效的识别到最新的诈骗网站，缺少主动去发现新样本的诈骗网站，并且识别到的网站都是比较过时的，不能有效的对新式诈骗网站进行识别的问题，本发明通过对未知网站的图片特征和网站信息进行验证是否为诈骗网站，并且通过对识别到的诈骗网站进行图片特征提取和网站信息关系构建，分别录入到图片特征库和知识图谱库中，不断丰富图片特征库和知识图谱库的多样性。本发明不仅能够检测传统的诈骗网站，还能够主动去发现新样本的诈骗网站。

Description

一种基于知识图谱和图片特征的诈骗网站识别方法与系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于知识图谱和图片特征的诈骗网站识别方法与系统。

背景技术

随着互联网的发展，网络上的诈骗网站层出不穷，网络恶意分子通过搭建诈骗网站，引诱有需求的网民，再通过技术手段，在诈骗网站中层层设套，从而对网民进行诈骗，由于诈骗网站不断出现，其中的诈骗手段更是变化万千，令网民防不胜防，对网民造成了极大的生活困扰和经济损失，为社会带来了严重的不良影响。

现有的识别诈骗网站方法主要是基于网站内容的识别技术，通过对网站的图片进行构建深度学习模型进行图片分类来进行识别诈骗网站；或者通过对诈骗网站的前端框架代码进行特征提取，通过页面内容的匹配来识别诈骗网站。

现有的技术方案存在以下问题：

只是在已有的诈骗网站基础上进行模型训练和特征提取形成识别技术，但是诈骗网站是变换多端，且日新月异，现有的识别技术手段是无法有效的识别到最新的诈骗网站，缺少主动去发现新样本的诈骗网站，并且识别到的网站都是比较过时的，不能有效的对新式诈骗网站进行识别。

发明内容

针对现有技术中存在的现有的识别技术手段是无法有效的识别到最新的诈骗网站，缺少主动去发现新样本的诈骗网站，并且识别到的网站都是比较过时的，不能有效的对新式诈骗网站进行识别的问题，本发明提出了一种基于知识图谱和图片特征的诈骗网站识别方法与系统，其目的为：以解决现有的识别技术手段是无法有效的识别到最新的诈骗网站，缺少主动去发现新样本的诈骗网站，并且识别到的网站都是比较过时的，不能有效的对新式诈骗网站进行识别的问题。

为实现上述目的本发明所采用的技术方案是：提供一种基于知识图谱和图片特征的诈骗网站识别方法，包括：

步骤1：采集现有的诈骗网站有效的网站截图并进行分类，然后获取所述网站截图的图片特征，并构建图片特征库进行对应的分类，用于存储不同类的图片特征，实时提取未知网站的图片特征，将所述提取未知网站的图片特征与所述图片特征库中的所有特征进行匹配，最后根据阈值确定未知网站的类别；

步骤2：获取步骤1中诈骗网站的网站信息数据，根据信息数据构建数据关系图，并将数据关系图以三元组的形式录入知识图谱库中，然后计算知识图谱库中每个节点在全局知识图谱库的关系权重；

步骤3：实时获取步骤1中未知网站的图片特征与图片特征库的匹配结果，

当匹配成功时，将匹配成功的网站的数据关系图更新录入到知识图谱库中，图片特征更新录入到图片特征库中；

当匹配失败或者匹配为非诈骗时，将这些未知网站的数据信息通过知识图谱库进行匹配验证，得到这些未知网站的诈骗网站疑似度分数和疑似诈骗网站类别；然后构建图片二分类模型对疑似诈骗网站进行判别，若判别为诈骗网站，则将该诈骗网站的数据更新到知识图谱库和图片特征库中。

较优的，本发明步骤1具体为：

步骤1.1：采集现有的诈骗网站有效的网站截图并进行分类;

步骤1.2：构建基于无监督的深度卷积神经网络图片自编码器模型,提取所述网站截图的图片特征，并通过所述网站截图进行模型的反复学习;

步骤1.3：模型训练完成后,以图片为输入,图片特征为输出,部署图片自编码器模型，通过图片自编码器模型获取图片的图片特征向量并分类,构建对应类的图片特征库用于存入不同类的图片特征向量;

步骤1.4：通过对未知网站的网站截图进行图片提取模型提取图片特征，将该图片特征与图片特征库的所有特征进行计算欧式距离，然后进行计算判断该未知网站是否属于诈骗网站；并根据阈值对诈骗网站进行分类。

较优的，本发明步骤1.2是构建基于无监督的深度卷积神经网络的图片自编码器模型进行诈骗类图片的编码和解码的学习，具体为：

步骤1.2.1：将获取的网站截图缩放到固定的尺寸并对图片进行均值化和归一化处理；

步骤1.2.2：将处理好的的图片数据经过第一层的深度卷积神经网络获取到图片的浅层轮廓信息特征；

步骤1.2.3：将获取的浅层轮廓信息特征经过第二层的深度卷积神经网络获取到图片的浅层的底层信息特征；

步骤1.2.4：将底层信息特征经过第三层的深度卷积神经网络获取到图片的深层语义信息特征；

步骤1.2.5：将语义信息特征经过第四层的深度卷积神经网络获取更精细的语义信息作为最终的图片特征；

步骤1.2.6：将图片特征进行同等比例的还原，最终恢复到图片的原始大小，把原始图片数据和还原的图片数据构建重构误差；

步骤1.2.7：对诈骗类网站的有效截图进行模型的反复学习，直到模型拟合和重构误差达到最小。

较优的，本发明步骤2中网站数据信息具体包括：网站IP信息、所属机房信息、网页的body hash值、网站域名、网站注册域名、域名注册人、域名注册人邮箱、域名注册商和网站证书域名,根据数据信息构建数据关系图具体为：

步骤2.1：构建节点：网站IP信息、所属机房信息、网页的body hash值、网站域名、网站注册域名、域名注册人、域名注册人邮箱、域名注册商和网站证书域名,将这些字段信息作为关系图中的节点;

步骤2.2：构建关系：根据节点之间的关系构建图谱所需要的三元组关系;

步骤2.3：构建属性：根据已知的诈骗网站类别，把对应的类型信息录入为网站域名的属性。

较优的，本发明步骤2中计算知识图谱库中每个节点在全局知识图谱库的关系权重具体为：

步骤2.4：使用PageRank算法计算知识图谱中每个节点之间相互的连接权重，获取到每个节点的在全局图谱中的关系权重；

步骤2.5：将每个节点的关系权重写入对应节点的属性中；

步骤2.6：当两个网站的网站域名或网页源码hash值一致时，这两个网站为相同网站，则把网站域名和网页源码hash值两个节点的权重手动置为1并写入到对应节点的属性中。

较优的，本发明步骤3具体为：

步骤3.1：实时获取步骤1中未知网站的图片特征与图片特征库的匹配结果，当步骤1中未知网站的图片特征与图片特征库进行图片特征匹配并匹配成功时，将该未知网站的网站信息构建数据关系图，并将该数据关系图更新录入到知识图谱库中；

步骤3.2：当步骤1中与图片特征库进行图片特征匹配为失败或者匹配为非诈骗时，获取这些未知网站的网站数据信息，将这些网站的数据信息通过知识图谱库进行匹配验证，得到这些未知网站的诈骗网站疑似度分数和疑似诈骗网站类别；

步骤3.3：构建一个基于深度卷积神经网络的图片二分类模型，通过该图片二分类模型对疑似诈骗网站进行判别，如果为正常访问图片，则将该网站的网站信息构建数据关系图，并更新到知识图谱库中，根据最终确认的诈骗类别，根据图片信息获取图片特征，并将该图片特征更新到对应诈骗类别的图片特征库中，如果识别为异常访问图片，则判别为非诈骗网站类。

较优的，本发明步骤3.2具体为：

步骤3.2.1：当未知网站的图片与图片特征库进行图片特征匹配并匹配失败时，获取该网站信息;

步骤3.2.2：构建基于该网站信息的数据关系图；

步骤3.2.3：通过该数据关系图在知识图谱库中进行搜索匹配，获取匹配上节点的关系权重和匹配上的网站类别，并统计所有匹配上的关系权重总和作为网站权重；

步骤3.2.4：获取知识图谱中每个节点的关系权重最大值，并统计所有值的总和作为关系权重最大值；

步骤3.2.5：通过对未知网站的网站权重除以关系权重最大值，得到该未知网站的诈骗网站疑似度分数和疑似诈骗网站类别。

较优的，本发明步骤3中构建图片二分类模型具体为：

收集正常访问的网站截图和异常打开的网站截图，并按8：2分割为训练集和测试集；

构建基于Resnet的ImageNet预训练模型的图片二分类模型；

对图片二分类模型进行训练，直到模型拟合；

对图片二分类模型进行部署。

本发明还提供了一种基于知识图谱和图片特征的诈骗网站识别系统：

图片特征模块：获取诈骗网站，对诈骗网站进行网站截图和分类，分别对同类的诈骗网站的网站截图通过图片自编码器进行图片压缩并获取图片特征，然后将图片特征存入对应分类的图片特征库，最后通过图片自编码器提取实时未知网站的图片特征，将该图片特征与图片特征库中所有特征计算欧式距离，根据计算的欧式距离和阈值判断该未知网站的类别；

知识图谱模块：对现有的诈骗网站进行分析，提取诈骗网站的信息，然后构建网站信息间的关系图，然后将网站信息关系图通过三元组的形式录入到知识图谱中，通过PageRank算法进行计算全局关系图中节点的权重，最后将通过图片特征模块匹配失败的未知网站的网站信息构建数据关系图，然后通过知识图谱中的诈骗网站数据进行关系匹配，获取未知网站的诈骗疑似度及疑似诈骗类别；

特征更新模块：获取图片特征模块匹配成功的未知网站的信息，将该网站信息构建关系图更新到知识图谱中，然后通过图片二分类模型，对知识图谱模块识别的疑似诈骗网站进行判别是否为正常访问的网站，如果为正常访问图片，则将网站的图片信息获取图片的特征更新到对应类别的图片特征库，将网站信息构建关系图更新到知识图谱库中，如果识别为异常访问图片，则判别为非诈骗网站类。

较优的，本发明图片特征模块中构建图片自编码器模型具体为：

将获取的网站截图缩放到固定的尺寸并对图片进行均值化和归一化处理；

将处理好的的图片数据经过第一层的深度卷积神经网络获取到图片的浅层轮廓信息特征；

将获取的浅层轮廓信息特征经过第二层的深度卷积神经网络获取到图片的浅层的底层信息特征；

将底层信息特征经过第三层的深度卷积神经网络获取到图片的深层语义信息特征；

将语义信息特征经过第四层的深度卷积神经网络获取更精细的语义信息作为最终的图片特征；

将图片特征进行同等比例的还原，最终恢复到图片的原始大小，把原始图片数据和还原的图片数据构建重构误差；

对诈骗类网站的有效截图进行模型的反复学习，直到模型拟合和重构误差达到最小。

较优的，本发明知识图谱模块中对未知网站的诈骗疑似度及疑似诈骗类别判断方式具体为：

获取未知网站的网站信息;

构建基于该网站信息的数据关系图；

通过该数据关系图在知识图谱库中进行搜索匹配，获取匹配上节点的关系权重和匹配上的网站类别，并统计所有匹配上的关系权重总和作为网站权重；

获取知识图谱中每个节点的关系权重最大值，并统计所有值的总和作为关系权重最大值；

通过对未知网站的网站权重除以关系权重最大值，得到该未知网站的诈骗网站疑似度分数和疑似诈骗网站类别。

较优的，本发明特征更新模块中构建图片二分类模型具体为：

构建基于Resnet的ImageNet预训练模型的图片二分类模型；

对图片二分类模型进行训练，直到模型拟合；

对图片二分类模型进行部署。

相比现有技术，本发明的技术方案具有如下优点/有益效果：

1.本发明采用无监督的深度卷积神经网络的图片自编码器模型进行图片特征的提取，提取图片的浅层轮廓信息和深层的语义信息结合，增加了图片特征的可靠性和代表性。

2.本发明构建收集和识别的诈骗类网站的网站截图作为图片特征库，通过对应类型的诈骗特征进行计算图片特征间的欧氏距离类进行识别诈骗类网站，提高了识别的效率和准确性。

3.本发明通过将网站信息构建数据关系图，从多维度和网站间的关系进行判别诈骗类网站，解决了隐藏很深的诈骗钓鱼网站的识别和减少了对诈骗类网站识别的误报率和漏报率。

4.本发明将实时识别到的诈骗网站进行图片特征提取和网络信息关系构建，分别录入到图片特征库和知识图谱库，不断丰富图片特征库和知识图谱库的多样性，解决了诈骗网站日新月异，变化多端的现状，大大提高了诈骗网站有效识别率。

5.本发明采用PageRank算法，计算知识图谱中每个节点之间相互的连接权重，权重代表节点的相关性和重要性，从而发觉诈骗网站的网站信息中比较重要和相似的网站信息，然后通过该网站信息来匹配诈骗网站，提高了识别的可靠性和准确率。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例的整体流程示意图。

图2是本发明实施例的自编码模型的网络结构示意图。

图3是本发明实施例中数据关系图的示意图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

步骤1.获取未知网站的网站截图信息、网站IP信息、IP A步骤N信息、网页的bodysha256值、网站域名、网站注册域名、网站注册人、网站注册人邮箱、网站注册商、网站证书域名相关字段信息。

步骤2.先通过网页截图信息获取图片特征，然后将图片特征通过图片特征模块进行图片特征匹配。

步骤3.如果图片特征匹配成功，则直接返回该未知网站的诈骗类别，并将该图片特征更新到图片特征库中，然后将该未知网站的其他网站信息构建数据关系图，并将该数据关系图更新到知识图谱库中。

步骤4.如果图片特征匹配失败，则将该网站的其他字段信息构建数据关系图，并将该数据关系图进行知识图谱模块匹配。

步骤5.图谱关系匹配完成，获取到该匹配失败的未知网站的诈骗疑似分数和疑似诈骗类别。

步骤6.对疑似网站的网站截图通过图片二分类模型进行判断。

步骤7.如果判断为正常访问的网页截图，则将该网站的网站信息构建数据关系图，并更新到知识图谱中，然后根据最终确认的诈骗类别，将图片信息获取图片特征，并将该图片特征更新到对应诈骗类别的图片特征库中；如果判断为异常访问的网页截图，则将该网站定义为非诈骗网站。

实施例1：

如图1所示，

本发明提供一种基于知识图谱和图片特征的诈骗网站识别方法，包括：

步骤1：采集现有的诈骗网站有效的网站截图并进行分类;

步骤2：构建基于无监督的深度卷积神经网络图片自编码器模型,提取所述网站截图的图片特征，并通过所述网站截图进行模型的反复学习;

如图2所示，本发明步骤2为：构建基于无监督的深度卷积神经网络的图片自编码器模型进行诈骗类图片的编码和解码的学习，具体为：

步骤2.1：将获取的网站截图缩放到512x512的尺寸并对图片进行均值化和归一化处理；

步骤2.2：将处理好的的图片数据经过第一层的深度卷积神经网络获取到图片的浅层轮廓信息特征；特征向量为：256x256x128。

步骤2.3：将获取的浅层轮廓信息特征经过第二层的深度卷积神经网络获取到图片的浅层的底层信息特征；特征向量为：128x128x64。

步骤2.4：将底层信息特征经过第三层的深度卷积神经网络获取到图片的深层语义信息特征；64x64x32。

步骤2.5：将语义信息特征经过第四层的深度卷积神经网络获取更精细的语义信息作为最终的图片特征；32x32x8。

步骤2.6：将图片特征进行同等比例的还原，最终恢复到图片的原始大小，把原始图片数据和还原的图片数据构建重构误差；误差越小，体现出模型提取的特征向量更有效和更有代表性。

步骤2.7：对诈骗类网站的有效截图进行模型的反复学习，直到模型拟合和重构误差达到最小。

本实施例中所述每层深度卷积神经网络主要是利用卷积的特性（随机设置卷积核与图片做矩阵乘法生成新的特征图），不断的通过图片进行卷积计算，去除图片的干扰噪声获取有效的特征，不断的进行卷积操作，会获取到图片的更有代表性的特征，图2中CNN即表示每一层深度卷积神经网络。

步骤3：模型训练完成后,以图片为输入,图片特征为输出,部署图片自编码器模型，然后构建图片特征库：（以贷款诈骗网站为例）

步骤3.1：采集贷款类诈骗网站的有效截图；

步骤3.2：将这些截图通过特征提取模型进行获取图片的图片特征向量；

步骤3.2：构建贷款网站特征向量库并将这些向量存入到该特征向量库中。

步骤4：验证图片匹配流程（以贷款诈骗网站为例）。

步骤4.1：获取未知网站的有效截图。

步骤4.2：获取该有效截图的图片特征向量。

步骤4.3：将该图片特征向量与贷款网站特征向量库进行搜索计算，获取该向量与贷款网站特征向量库中所有向量的欧式距离，最后根据阈值判断该网站是否为贷款诈骗网站，贷款诈骗的欧式距离匹配阈值为10。

步骤5：获取诈骗网站的网站信息数据，然后根据信息数据构建数据关系图，将数据关系图以三元组的形式录入知识图谱中；

如图3所示，数据信息具体包括：网站IP信息、所属机房信息、网页的body hash值、网站域名、网站注册域名、域名注册人、域名注册人邮箱、域名注册商和网站证书域名,根据数据信息构建数据关系图具体为：

步骤5.1：构建节点：网站IP信息、所属机房信息、网页的body hash值、网站域名、网站注册域名、域名注册人、域名注册人邮箱、域名注册商和网站证书域名,将这些字段信息作为关系图中的节点;

步骤5.2：构建关系：根据节点之间的关系构建图谱所需要的三元组关系; 例如：节点：网站域名、关系：IP地址、节点：网站IP地址。

步骤5.3：构建属性：根据已知的诈骗网站类别，把对应的类型信息录入为网站域名的属性。

步骤6：获取知识图谱中每个节点在全局知识图谱的关系权重，然后将该关系权重写入对应节点的属性中；步骤6具体为：

步骤6.1：使用PageRank算法计算知识图谱中每个节点之间相互的连接权重，获取到每个节点的在全局图谱中的关系权重；

步骤6.2：将每个节点的关系权重写入对应节点的属性中；

步骤6.3：当两个网站的网站域名或网页源码hash值一致时，这两个网站为相同网站，则把网站域名和网页源码hash值两个节点的权重手动置为1并写入到对应节点的属性中。

步骤7：通过知识图谱库对未知网站进行匹配验证，得到未知网站的诈骗网站疑似度分数和疑似诈骗网站类别；步骤7具体为：

步骤7.1：当未知网站的图片与图片特征库进行图片特征匹配并匹配失败时，获取该网站信息;

步骤7.2：构建基于该网站信息的数据关系图；

步骤7.3：通过该数据关系图在知识图谱库中进行搜索匹配，获取匹配上节点的关系权重和匹配上的网站类别，并统计所有匹配上的关系权重总和作为网站权重；

步骤7.4：获取知识图谱中每个节点的关系权重最大值，并统计所有值的总和作为关系权重最大值；

步骤7.5：通过对未知网站的网站权重除以关系权重最大值，得到该未知网站的诈骗网站疑似度分数和疑似诈骗网站类别。

步骤8：当未知网站的图片特征通过图片特征模块进行图片特征匹配并匹配成功时，将该未知网站的网站信息构建数据关系图，并将该数据关系图更新录入到知识图谱库中；

步骤9：构建一个基于深度卷积神经网络的图片二分类模型，当知识图谱模块对未知网站匹配完成后，获取到未知网站的诈骗网站疑似度和诈骗疑似类别；

通过该图片二分类模型对疑似诈骗网站进行判别，如果为正常访问图片，则将该网站的网站信息构建数据关系图，并更新到知识图谱库中，根据最终确认的诈骗类别，根据图片信息获取图片特征，并将该图片特征更新到对应诈骗类别的图片特征库中，如果识别为异常访问图片，则判别为非诈骗网站类。步骤9中构建图片二分类模型具体为：

步骤9.1：收集正常访问的网站截图和异常打开的网站截图，并按8：2分割为训练集和测试集；

步骤9.2：构建基于Resnet的ImageNet预训练模型的图片二分类模型；

步骤9.3：对图片二分类模型进行训练，直到模型拟合；图片二分类准确率达到95。

步骤9.4：对图片二分类模型进行部署。

本发明还包括一种基于知识图谱和图片特征的诈骗网站识别系统，具体包括图片特征模块、知识图谱模块和特征更新模块：

图片特征模块：获取诈骗网站，对诈骗网站进行网站截图和分类，分别对同类的诈骗网站的网站截图通过图片自编码器进行图片压缩并获取图片特征，然后将图片特征存入对应分类的图片特征库，最后通过图片自编码器提取待测的未知网站的图片特征，将该图片特征与图片特征库中所有特征计算欧式距离，根据计算的阈值判断该未知网站的类别；本发明图片特征模块中构建图片自编码器模型具体为：

知识图谱模块：对现有的诈骗网站进行分析，提取诈骗网站的信息，然后构建网站信息间的关系图，然后将网站信息关系图通过三元组的形式录入到知识图谱中，通过PageRank算法进行计算全局关系图中节点的权重，最后将通过图片特征模块匹配失败的未知网站的网站信息构建数据关系图，然后通过知识图谱中的诈骗网站数据进行关系匹配，获取未知网站的诈骗疑似度及疑似诈骗类别；本发明知识图谱模块中对未知网站的诈骗疑似度及疑似诈骗类别判断方式具体为：

获取未知网站的网站信息;

构建基于该网站信息的数据关系图；

特征更新模块：获取图片特征模块匹配成功的未知网站的信息，将该网站信息构建关系图更新到知识图谱中，然后通过图片二分类模型，对知识图谱模块识别的疑似诈骗网站进行判别是否为正常访问的网站，如果为正常访问图片，则将网站的图片信息获取图片的特征更新到对应类别的图片特征库，将网站信息构建关系图更新到知识图谱库中，如果识别为异常访问图片，则判别为非诈骗网站类。本发明特征更新模块中构建图片二分类模型具体为：

构建基于Resnet的ImageNet预训练模型的图片二分类模型；

对图片二分类模型进行训练，直到模型拟合；

对图片二分类模型进行部署。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤1具体为：

步骤1.1：采集现有的诈骗网站有效的网站截图并进行分类;

3.根据权利要求2所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤1.2是构建基于无监督的深度卷积神经网络的图片自编码器模型进行诈骗类图片的编码和解码的学习，具体为：

4.根据权利要求1所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤2中网站数据信息具体包括：网站IP信息、所属机房信息、网页的body hash值、网站域名、网站注册域名、域名注册人、域名注册人邮箱、域名注册商和网

站证书域名,根据数据信息构建数据关系图具体为：

5.根据权利要求1所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤2中计算知识图谱库中每个节点在全局知识图谱库的关系权重具体为：

步骤2.5：将每个节点的关系权重写入对应节点的属性中；

6.根据权利要求1所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤3具体为：

7.根据权利要求6所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤3.2具体为：

步骤3.2.2：构建基于该网站信息的数据关系图；

8.根据权利要求1所述的一种基于知识图谱和图片特征的诈骗网站识别方法，其特征在于，步骤3中构建图片二分类模型具体为：

构建基于Resnet的ImageNet预训练模型的图片二分类模型；

对图片二分类模型进行训练，直到模型拟合；

对图片二分类模型进行部署。

9.一种基于知识图谱和图片特征的诈骗网站识别系统，其特征在于，包括图片特征模块、知识图谱模块和特征更新模块：

10.根据权利要求9所述的一种基于知识图谱和图片特征的诈骗网站识别系统，其特征在于，图片特征模块中构建图片自编码器模型具体为：

将获取的浅层轮廓信息特征经过第二层的深度卷积神经网络获取到图片的浅层的

底层信息特征；