CN114049508A

CN114049508A - 一种基于图片聚类和人工研判的诈骗网站识别方法及系统

Info

Publication number: CN114049508A
Application number: CN202210029217.XA
Authority: CN
Inventors: 漆伟; 张瑞冬; 马永霄; 童永鳌; 朱鹏; 张�浩
Original assignee: Chengdu No Sugar Information Tech Co ltd
Current assignee: Chengdu No Sugar Information Tech Co ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-02-15
Anticipated expiration: 2042-01-12
Also published as: CN114049508B

Abstract

本发明公开了一种基于图片聚类和人工研判的诈骗网站识别方法及系统，属于图像处理技术领域，针对现有技术中存在的缺少对新型诈骗网站的发现，不能有效的对现有涉诈样本数据补充新型的诈骗网站的问题，本发明的技术方案包括获取现有诈骗网站及其涉诈类型，进行特征提取得到图片融合特征；将所述所有的图片融合特征及其涉诈类型录入至涉诈样本库，并获取每个涉诈类型的聚类中心特征向量；获取未知网站的的图片融合特征，然后将该图片融合特征与涉诈样本库进行匹配，得到该未知图片的疑似涉诈类型；对一批得到疑似涉诈类型的未知网站进行分析，得到符合条件的新型涉诈类型和新型涉诈网站。

Description

一种基于图片聚类和人工研判的诈骗网站识别方法及系统

技术领域

本发明属于图片信息处理技术领域，具体涉及一种基于图片聚类和人工研判的诈骗网站识别方法及系统。

背景技术

随着信息时代的不断发展，网络已经成了骗子新的集聚地，由于目前网络监管难度较大，人们网络安全防范意识相对较低，新型网络诈骗方式花样百出，导致近几年通讯网络诈骗案件频频发生，给网民带来了严重的生活困扰和经济损失，也对社会造成了不良影响，因此对诈骗网站的有效识别是至关重要的。

现有技术中，通过采集已有的诈骗网站数据，然后基于关键词匹配、基于网络框架匹配，基于深度学习分类等方法对诈骗网站进行识别。

现有技术存在以下技术问题：

只是在已有的诈骗网站进行分析和建模，从现有的诈骗网站特征进行学习只能识别和现有诈骗网站相关的诈骗网站，缺少对新型诈骗网站的发现，以及不能快速有效的对新型诈骗网站的类型进行判别。

发明内容

针对现有技术中存在的只是在已有的诈骗网站进行分析和建模，从现有的诈骗网站特征进行学习只能识别和现有诈骗网站相关的诈骗网站，缺少对新型诈骗网站的发现，以及不能快速有效的对新型诈骗网站的类型进行判别的问题，本发明提出了一种基于图片聚类和人工研判的诈骗网站识别方法及系统，其目的为：通过特征匹配模块和人工分析模块对未知网站进行特征匹配和分析，发现新型涉诈网站和新型涉诈类型网站。

为实现上述目的本发明所采用的技术方案是：提供一种基于图片聚类和人工研判的诈骗网站识别方法，包括：

S1：获取现有诈骗网站的有效网站截图及其涉诈类型，对诈骗图片进行特征提取，得到作为涉诈样本的图片融合特征，并根据图片融合特征的涉诈类型进行分类；

S2：将所有的所述图片融合特征及其涉诈类型录入至涉诈样本库，计算涉诈样本库中的图片融合特征的聚类信息，并获取每个涉诈类型的聚类中心特征向量；

S3：获取一批未知网站的有效网站截图，对未知图片进行特征提取，得到未知图片的图片融合特征，然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度，从而得到该未知图片的疑似涉诈类型；

S4：对一批得到疑似涉诈类型的未知网站进行分析，得到符合条件的新型涉诈类型和新型涉诈网站；

S5:采用循环录入的方式，将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库，并重新计算每个涉诈类型的聚类中心特征向量。

较优的，本发明S1中得到图片融合特征具体为：

通过图片特征提取器和感知哈希算法对诈骗图片进行处理，获取诈骗图片的全局语义特征和全局轮廓特征，将所述全局语义特征与所述全局轮廓特征结合，得到诈骗图片的图片融合特征。

较优的，本发明S2中得到每个涉诈类型的聚类中心特征向量具体为：

基于无监督学习的增量聚类算法，计算涉诈样本库中所有图片融合特征之间的欧式距离，得到图片融合特征的聚类信息，并获取每个涉诈类型的聚类中心特征向量，所述聚类信息用于反馈涉诈样本库中图片融合特征的分布情况和各种涉诈类型的呈现形式。

较优的，本发明S3具体为：

S3.1：通过图片特征提取器和感知哈希算法对未知图片进行处理，获取未知图片的全局语义特征和全局轮廓特征，将所述全局语义特征与所述全局轮廓特征结合，得到未知图片的图片融合特征；

S3.2：依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离；

S3.3：通过欧式距离得到未知图片对应的最相似的聚类中心特征向量，并根据相似距离得到未知图片的疑似涉诈类型。

较优的，本发明S4对一批得到疑似涉诈类型的未知网站进行分析具体为：

当疑似涉诈类型中某一类的未知网站数量符合样本阈值，且与最相似的聚类中心特征向量的相似距离达到相似阈值，则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型，这一类的未知网站为该涉诈类型的新型涉诈网站；当疑似涉诈类型中某一类的未知网站数量符合样本阈值，且其相似距离未达到相似阈值，则判定这类未知网站的类型为新型涉诈类型，其对应的未知网站为该新型涉诈类型的新型涉诈网站。

本发明还提出一种基于图片聚类和人工研判的诈骗网站识别系统，包括：

图片特征模块：获取现有诈骗网站的有效网站截图及其涉诈类型，对诈骗图片进行特征提取，得到作为涉诈样本的图片融合特征，并根据图片融合特征的涉诈类型进行分类；

涉诈样本库模块：将所有的所述图片融合特征及其涉诈类型录入至涉诈样本库，计算涉诈样本库中的图片融合特征的聚类信息，并获取每个涉诈类型的聚类中心特征向量；

特征匹配模块：获取一批未知网站的有效网站截图，对未知图片进行特征提取，得到未知图片的图片融合特征，然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度，从而得到该未知图片的疑似涉诈类型；

人工分析模块：对一批得到疑似涉诈类型的未知网站进行分析，得到符合条件的新型涉诈类型和新型涉诈网站；

更新模块:采用循环录入的方式，将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库，并重新计算每个涉诈类型的聚类中心特征向量。

较优的，本发明图片特征模块中得到图片融合特征具体为：

较优的，本发明涉诈样本库模块中得到每个涉诈类型的聚类中心特征向量具体为：

较优的，本发明特征匹配模块具体为：

步骤1：通过图片特征提取器和感知哈希算法对未知图片进行处理，获取未知图片的全局语义特征和全局轮廓特征，将所述全局语义特征与所述全局轮廓特征结合，得到未知图片的图片融合特征；

步骤2：依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离；

步骤3：通过欧式距离得到未知图片对应的最相似的聚类中心特征向量，并根据相似距离得到未知图片的疑似涉诈类型。

较优的，本发明人工分析模块对一批得到疑似涉诈类型的未知网站进行分析具体为：

相比现有技术，本发明的技术方案具有如下优点/有益效果：

1.本发明将图片全局语义特征和全局轮廓特征融合为图片特征，提高了图片特征的代表性和可靠性。

2.本发明基于无监督聚类算法对涉诈样本库实现增量聚类，对现有涉诈网站的分析，有助于分析出现有的涉诈类型的呈现方式。

3.本发明采用实时聚类通过对未知网站进行涉诈样本库特征匹配，获取未知网站的疑似类别，有助于快速的筛选正常网站和涉诈网站。

4.本发明采用未知网站和涉诈样本库聚类中心特征向量进行匹配，不需要全局特征匹配，提供了对海量数据识别的效率。

5.本发明通过涉诈样本库和人工研判来分析未知网站聚类结果，提高了对新型涉诈网站和新型涉诈类型网站的发现能力。

6.本发明对发现的新型涉诈网站和新型涉诈类型网站进行录入到涉诈样本库，提高了对涉诈网站的识别能力。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例1的流程示意图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

实施例1：

1.对已知的涉诈类型网站进行提取特征向量和hash特征值，并录入到涉诈样本库。

2.通过递归的方式对涉诈样本库的特征向量进行计算欧式距离，依据欧式距离进行聚类。

3.对于一批未知网站，通过特征模型获取到网站的图片特征向量。

4.将该图片特征向量与涉诈样本库的每个类型的聚类中心特征向量进行计算欧式距离，通过距离来判断该未知网站的类型，对距离为0的直接判断该网站为非法网站，对距离不为0的作为疑似非法网站并将匹配的类型作为疑似类型。

5.对这一批未知网站的获取的疑似类型进行人工分析，发现某一类型的样本出现比较多的时候，定义这类型样本为新型涉诈网站，比如匹配结果中有大于5张图片相似并且都是疑似贷款诈骗网站，但是又和现有涉诈图片库中的图片样本都不一样，所以定义这批疑似贷款诈骗网站，为贷款诈骗类型的新型网站。

6.当未达到相似阈值的未知网站的样本数量较多时（即达到样本数量阈值），定义这种样本为新型涉诈类型网站，比如在匹配结果中大于5张的相似图片，但是这些相似图片都属于不同的疑似涉诈类型，有的是贷款诈骗，有的是杀猪盘等等，但是又和现有涉诈图片样本库中的涉诈图片样本都不一样，所以定义这一批网站为一种新型的涉诈类型网站。

7.对新型的涉诈网站直接根据疑似的类型录入涉诈样本库中，对于新型涉诈类型网站，通过人工分析确定一个涉诈类型并录入到涉诈类型中。

8.涉诈样本库根据新录入的涉诈样本重新聚类并计算聚类中心向量。

实施例2：

如图1所示，提供一种基于图片聚类和人工研判的诈骗网站识别方法，包括：

S1：获取现有诈骗网站的有效网站截图及其涉诈类型，对诈骗图片进行特征提取，得到作为涉诈样本的图片融合特征，并根据图片融合特征的涉诈类型进行分类；S1具体为：

S1.1.获取现有的已知诈骗网站及其涉诈类型。

S1.2.构建基于mobilenetv3网络的模型和基于imageNet数据集的预训练权重。

S1.3.基于构建的预训练模型结合现有的诈骗网站数据进行迁移学习，学习诈骗类网站的特征分布情况。

S1.4.将拟合诈骗网站分布的迁移学习模型作为特征提取器。

S1.5.通过特征提取器获取诈骗网站的全局语义特征。

S1.6.通过感知哈希算法获取诈骗网站的全局轮廓特征。

S1.7.将全局语义特征和全局轮廓特征融合作为诈骗类场景的图片融合特征。

S2：将所述所有的图片融合特征及其涉诈类型录入至涉诈样本库，计算涉诈样本库中的图片融合特征的聚类信息，并获取每个涉诈类型的聚类中心特征向量；得到每个涉诈类型的聚类中心特征向量具体为：

S3：获取一批未知网站的有效网站截图，对未知图片进行特征提取，得到未知图片的图片融合特征，然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度，从而得到该未知图片的疑似涉诈类型；S3具体为：

S4：对一批得到疑似涉诈类型的未知网站进行分析，得到符合条件的新型涉诈类型和新型涉诈网站；对一批得到疑似涉诈类型的未知网站进行分析具体为：

当疑似涉诈类型中某一类的未知网站数量符合样本阈值，且与最相似的聚类中心特征向量的相似距离达到相似阈值，则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型，这一类的未知网站为该涉诈类型的新型涉诈网站；当疑似涉诈类型中某一类的未知网站数量符合样本阈值，且其相似距离未达到相似阈值，则判定这类未知网站的类型为新型涉诈类型，该新型涉诈类型的具体名称通过人工研判进行定义，其对应的未知网站为该新型涉诈类型的新型涉诈网站。本实施例1的样本阈值和相似阈值都是预设的。

图片特征模块：

1.获取现有的已知诈骗网站及其涉诈类型。

2.构建基于mobilenetv3网络的模型和基于imageNet数据集的预训练权重。

3.基于构建的预训练模型结合现有的诈骗网站数据进行迁移学习，学习诈骗类网站的特征分布情况。

4.将拟合诈骗网站分布的迁移学习模型作为特征提取器。

5.通过特征提取器获取诈骗网站的全局语义特征。

6.通过感知哈希算法获取诈骗网站的全局轮廓特征。

7.将全局语义特征和全局轮廓特征融合作为诈骗类场景的图片融合特征。

涉诈样本库模块：

1.获取现有的已知诈骗网站及其涉诈类型。

2.通过特征提取器和感知哈希算法获取已知诈骗网站的图片融合特征。

3.将已知诈骗网站的图片融合特征及其涉诈类型录入到涉诈样本库中。

4.通过增量聚类算法计算涉诈样本库中各种涉诈类型的聚类中心特征向量。

特征匹配模块：

1.获取一批未知的网站数据。

2.获取这批未知网站的图片融合特征。

3.通过实时聚类的方式，依次对未知网站的图片融合特征与涉诈样本库的聚类中心特征向量进行计算欧式距离，并根据距离判断未知网站的疑似类型。

4.根据未知网站匹配的疑似类型进行整合，获取所有未知网站的所有疑似涉诈类型并作为疑似样本。

人工分析模块：

1.通过人工对疑似样本进行研判。

2.发现相同涉诈类型中，相似的未知网站比较多，则定义这类未知网站为新型的涉诈网站。

3.发现相似的未知网站位于不同的涉诈类型中，则定义这类未知网站为新型涉诈类型的涉诈网站。

更新模块:采用循环录入的方式，将发现的新型涉诈网站和新型涉诈类型的涉诈网站，并重新计算每个涉诈类型的聚类中心特征向量。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图片聚类和人工研判的诈骗网站识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于图片聚类和人工研判的诈骗网站识别方法，其特征在于，S1中得到图片融合特征具体为：

3.根据权利要求1所述的一种基于图片聚类和人工研判的诈骗网站识别方法，其特征在于，S2中得到每个涉诈类型的聚类中心特征向量具体为：

4.根据权利要求1所述的一种基于图片聚类和人工研判的诈骗网站识别方法，其特征在于，S3具体为：

5.根据权利要求4所述的一种基于图片聚类和人工研判的诈骗网站识别方法，其特征在于，S4对一批得到疑似涉诈类型的未知网站进行分析具体为：

当疑似涉诈类型中某一类的未知网站数量符合样本阈值，且与最相似的聚类中心特征向量的相似距离达到相似阈值，则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型，这一类的未知网站为该涉诈类型的新型涉诈网站；

当疑似涉诈类型中某一类的未知网站数量符合样本阈值，且其相似距离未达到相似阈值，则判定这类未知网站的类型为新型涉诈类型，其对应的未知网站为该新型涉诈类型的新型涉诈网站。

6.一种基于图片聚类和人工研判的诈骗网站识别系统，其特征在于，包括：

7.根据权利要求6所述的一种基于图片聚类和人工研判的诈骗网站识别系统，其特征在于，图片特征模块中得到图片融合特征具体为：

8.根据权利要求6所述的一种基于图片聚类和人工研判的诈骗网站识别系统，其特征在于，涉诈样本库模块中得到每个涉诈类型的聚类中心特征向量具体为：

9.根据权利要求6所述的一种基于图片聚类和人工研判的诈骗网站识别系统，其特征在于，特征匹配模块具体为：

10.根据权利要求9所述的一种基于图片聚类和人工研判的诈骗网站识别系统，其特征在于，人工分析模块对一批得到疑似涉诈类型的未知网站进行分析具体为：