CN114049508A - 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 - Google Patents

一种基于图片聚类和人工研判的诈骗网站识别方法及系统 Download PDF

Info

Publication number
CN114049508A
CN114049508A CN202210029217.XA CN202210029217A CN114049508A CN 114049508 A CN114049508 A CN 114049508A CN 202210029217 A CN202210029217 A CN 202210029217A CN 114049508 A CN114049508 A CN 114049508A
Authority
CN
China
Prior art keywords
fraud
picture
unknown
websites
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210029217.XA
Other languages
English (en)
Other versions
CN114049508B (zh
Inventor
漆伟
张瑞冬
马永霄
童永鳌
朱鹏
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu No Sugar Information Tech Co ltd
Original Assignee
Chengdu No Sugar Information Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu No Sugar Information Tech Co ltd filed Critical Chengdu No Sugar Information Tech Co ltd
Priority to CN202210029217.XA priority Critical patent/CN114049508B/zh
Publication of CN114049508A publication Critical patent/CN114049508A/zh
Application granted granted Critical
Publication of CN114049508B publication Critical patent/CN114049508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图片聚类和人工研判的诈骗网站识别方法及系统,属于图像处理技术领域,针对现有技术中存在的缺少对新型诈骗网站的发现,不能有效的对现有涉诈样本数据补充新型的诈骗网站的问题,本发明的技术方案包括获取现有诈骗网站及其涉诈类型,进行特征提取得到图片融合特征;将所述所有的图片融合特征及其涉诈类型录入至涉诈样本库,并获取每个涉诈类型的聚类中心特征向量;获取未知网站的的图片融合特征,然后将该图片融合特征与涉诈样本库进行匹配,得到该未知图片的疑似涉诈类型;对一批得到疑似涉诈类型的未知网站进行分析,得到符合条件的新型涉诈类型和新型涉诈网站。

Description

一种基于图片聚类和人工研判的诈骗网站识别方法及系统
技术领域
本发明属于图片信息处理技术领域,具体涉及一种基于图片聚类和人工研判的诈骗网站识别方法及系统。
背景技术
随着信息时代的不断发展,网络已经成了骗子新的集聚地,由于目前网络监管难度较大,人们网络安全防范意识相对较低,新型网络诈骗方式花样百出,导致近几年通讯网络诈骗案件频频发生,给网民带来了严重的生活困扰和经济损失,也对社会造成了不良影响,因此对诈骗网站的有效识别是至关重要的。
现有技术中,通过采集已有的诈骗网站数据,然后基于关键词匹配、基于网络框架匹配,基于深度学习分类等方法对诈骗网站进行识别。
现有技术存在以下技术问题:
只是在已有的诈骗网站进行分析和建模,从现有的诈骗网站特征进行学习只能识别和现有诈骗网站相关的诈骗网站,缺少对新型诈骗网站的发现,以及不能快速有效的对新型诈骗网站的类型进行判别。
发明内容
针对现有技术中存在的只是在已有的诈骗网站进行分析和建模,从现有的诈骗网站特征进行学习只能识别和现有诈骗网站相关的诈骗网站,缺少对新型诈骗网站的发现,以及不能快速有效的对新型诈骗网站的类型进行判别的问题,本发明提出了一种基于图片聚类和人工研判的诈骗网站识别方法及系统,其目的为:通过特征匹配模块和人工分析模块对未知网站进行特征匹配和分析,发现新型涉诈网站和新型涉诈类型网站。
为实现上述目的本发明所采用的技术方案是:提供一种基于图片聚类和人工研判的诈骗网站识别方法,包括:
S1:获取现有诈骗网站的有效网站截图及其涉诈类型,对诈骗图片进行特征提取,得到作为涉诈样本的图片融合特征,并根据图片融合特征的涉诈类型进行分类;
S2:将所有的所述图片融合特征及其涉诈类型录入至涉诈样本库,计算涉诈样本库中的图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量;
S3:获取一批未知网站的有效网站截图,对未知图片进行特征提取,得到未知图片的图片融合特征,然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度,从而得到该未知图片的疑似涉诈类型;
S4:对一批得到疑似涉诈类型的未知网站进行分析,得到符合条件的新型涉诈类型和新型涉诈网站;
S5:采用循环录入的方式,将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库,并重新计算每个涉诈类型的聚类中心特征向量。
较优的,本发明S1中得到图片融合特征具体为:
通过图片特征提取器和感知哈希算法对诈骗图片进行处理,获取诈骗图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到诈骗图片的图片融合特征。
较优的,本发明S2中得到每个涉诈类型的聚类中心特征向量具体为:
基于无监督学习的增量聚类算法,计算涉诈样本库中所有图片融合特征之间的欧式距离,得到图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量,所述聚类信息用于反馈涉诈样本库中图片融合特征的分布情况和各种涉诈类型的呈现形式。
较优的,本发明S3具体为:
S3.1:通过图片特征提取器和感知哈希算法对未知图片进行处理,获取未知图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到未知图片的图片融合特征;
S3.2:依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离;
S3.3:通过欧式距离得到未知图片对应的最相似的聚类中心特征向量,并根据相似距离得到未知图片的疑似涉诈类型。
较优的,本发明S4对一批得到疑似涉诈类型的未知网站进行分析具体为:
当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且与最相似的聚类中心特征向量的相似距离达到相似阈值,则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型,这一类的未知网站为该涉诈类型的新型涉诈网站;当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且其相似距离未达到相似阈值,则判定这类未知网站的类型为新型涉诈类型,其对应的未知网站为该新型涉诈类型的新型涉诈网站。
本发明还提出一种基于图片聚类和人工研判的诈骗网站识别系统,包括:
图片特征模块:获取现有诈骗网站的有效网站截图及其涉诈类型,对诈骗图片进行特征提取,得到作为涉诈样本的图片融合特征,并根据图片融合特征的涉诈类型进行分类;
涉诈样本库模块:将所有的所述图片融合特征及其涉诈类型录入至涉诈样本库,计算涉诈样本库中的图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量;
特征匹配模块:获取一批未知网站的有效网站截图,对未知图片进行特征提取,得到未知图片的图片融合特征,然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度,从而得到该未知图片的疑似涉诈类型;
人工分析模块:对一批得到疑似涉诈类型的未知网站进行分析,得到符合条件的新型涉诈类型和新型涉诈网站;
更新模块:采用循环录入的方式,将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库,并重新计算每个涉诈类型的聚类中心特征向量。
较优的,本发明图片特征模块中得到图片融合特征具体为:
通过图片特征提取器和感知哈希算法对诈骗图片进行处理,获取诈骗图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到诈骗图片的图片融合特征。
较优的,本发明涉诈样本库模块中得到每个涉诈类型的聚类中心特征向量具体为:
基于无监督学习的增量聚类算法,计算涉诈样本库中所有图片融合特征之间的欧式距离,得到图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量,所述聚类信息用于反馈涉诈样本库中图片融合特征的分布情况和各种涉诈类型的呈现形式。
较优的,本发明特征匹配模块具体为:
步骤1:通过图片特征提取器和感知哈希算法对未知图片进行处理,获取未知图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到未知图片的图片融合特征;
步骤2:依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离;
步骤3:通过欧式距离得到未知图片对应的最相似的聚类中心特征向量,并根据相似距离得到未知图片的疑似涉诈类型。
较优的,本发明人工分析模块对一批得到疑似涉诈类型的未知网站进行分析具体为:
当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且与最相似的聚类中心特征向量的相似距离达到相似阈值,则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型,这一类的未知网站为该涉诈类型的新型涉诈网站;当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且其相似距离未达到相似阈值,则判定这类未知网站的类型为新型涉诈类型,其对应的未知网站为该新型涉诈类型的新型涉诈网站。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明将图片全局语义特征和全局轮廓特征融合为图片特征,提高了图片特征的代表性和可靠性。
2.本发明基于无监督聚类算法对涉诈样本库实现增量聚类,对现有涉诈网站的分析,有助于分析出现有的涉诈类型的呈现方式。
3.本发明采用实时聚类通过对未知网站进行涉诈样本库特征匹配,获取未知网站的疑似类别,有助于快速的筛选正常网站和涉诈网站。
4.本发明采用未知网站和涉诈样本库聚类中心特征向量进行匹配,不需要全局特征匹配,提供了对海量数据识别的效率。
5.本发明通过涉诈样本库和人工研判来分析未知网站聚类结果,提高了对新型涉诈网站和新型涉诈类型网站的发现能力。
6.本发明对发现的新型涉诈网站和新型涉诈类型网站进行录入到涉诈样本库,提高了对涉诈网站的识别能力。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1的流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
1.对已知的涉诈类型网站进行提取特征向量和hash特征值,并录入到涉诈样本库。
2.通过递归的方式对涉诈样本库的特征向量进行计算欧式距离,依据欧式距离进行聚类。
3.对于一批未知网站,通过特征模型获取到网站的图片特征向量。
4.将该图片特征向量与涉诈样本库的每个类型的聚类中心特征向量进行计算欧式距离,通过距离来判断该未知网站的类型,对距离为0的直接判断该网站为非法网站,对距离不为0的作为疑似非法网站并将匹配的类型作为疑似类型。
5.对这一批未知网站的获取的疑似类型进行人工分析,发现某一类型的样本出现比较多的时候,定义这类型样本为新型涉诈网站,比如匹配结果中有大于5张图片相似并且都是疑似贷款诈骗网站,但是又和现有涉诈图片库中的图片样本都不一样,所以定义这批疑似贷款诈骗网站,为贷款诈骗类型的新型网站。
6.当未达到相似阈值的未知网站的样本数量较多时(即达到样本数量阈值),定义这种样本为新型涉诈类型网站,比如在匹配结果中大于5张的相似图片,但是这些相似图片都属于不同的疑似涉诈类型,有的是贷款诈骗,有的是杀猪盘等等,但是又和现有涉诈图片样本库中的涉诈图片样本都不一样,所以定义这一批网站为一种新型的涉诈类型网站。
7.对新型的涉诈网站直接根据疑似的类型录入涉诈样本库中,对于新型涉诈类型网站,通过人工分析确定一个涉诈类型并录入到涉诈类型中。
8.涉诈样本库根据新录入的涉诈样本重新聚类并计算聚类中心向量。
实施例2:
如图1所示,提供一种基于图片聚类和人工研判的诈骗网站识别方法,包括:
S1:获取现有诈骗网站的有效网站截图及其涉诈类型,对诈骗图片进行特征提取,得到作为涉诈样本的图片融合特征,并根据图片融合特征的涉诈类型进行分类;S1具体为:
S1.1.获取现有的已知诈骗网站及其涉诈类型。
S1.2.构建基于mobilenetv3网络的模型和基于imageNet数据集的预训练权重。
S1.3.基于构建的预训练模型结合现有的诈骗网站数据进行迁移学习,学习诈骗类网站的特征分布情况。
S1.4.将拟合诈骗网站分布的迁移学习模型作为特征提取器。
S1.5.通过特征提取器获取诈骗网站的全局语义特征。
S1.6.通过感知哈希算法获取诈骗网站的全局轮廓特征。
S1.7.将全局语义特征和全局轮廓特征融合作为诈骗类场景的图片融合特征。
S2:将所述所有的图片融合特征及其涉诈类型录入至涉诈样本库,计算涉诈样本库中的图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量;得到每个涉诈类型的聚类中心特征向量具体为:
基于无监督学习的增量聚类算法,计算涉诈样本库中所有图片融合特征之间的欧式距离,得到图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量,所述聚类信息用于反馈涉诈样本库中图片融合特征的分布情况和各种涉诈类型的呈现形式。
S3:获取一批未知网站的有效网站截图,对未知图片进行特征提取,得到未知图片的图片融合特征,然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度,从而得到该未知图片的疑似涉诈类型;S3具体为:
S3.1:通过图片特征提取器和感知哈希算法对未知图片进行处理,获取未知图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到未知图片的图片融合特征;
S3.2:依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离;
S3.3:通过欧式距离得到未知图片对应的最相似的聚类中心特征向量,并根据相似距离得到未知图片的疑似涉诈类型。
S4:对一批得到疑似涉诈类型的未知网站进行分析,得到符合条件的新型涉诈类型和新型涉诈网站;对一批得到疑似涉诈类型的未知网站进行分析具体为:
当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且与最相似的聚类中心特征向量的相似距离达到相似阈值,则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型,这一类的未知网站为该涉诈类型的新型涉诈网站;当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且其相似距离未达到相似阈值,则判定这类未知网站的类型为新型涉诈类型,该新型涉诈类型的具体名称通过人工研判进行定义,其对应的未知网站为该新型涉诈类型的新型涉诈网站。本实施例1的样本阈值和相似阈值都是预设的。
S5:采用循环录入的方式,将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库,并重新计算每个涉诈类型的聚类中心特征向量。
本发明还提出一种基于图片聚类和人工研判的诈骗网站识别系统,包括:
图片特征模块:
1.获取现有的已知诈骗网站及其涉诈类型。
2.构建基于mobilenetv3网络的模型和基于imageNet数据集的预训练权重。
3.基于构建的预训练模型结合现有的诈骗网站数据进行迁移学习,学习诈骗类网站的特征分布情况。
4.将拟合诈骗网站分布的迁移学习模型作为特征提取器。
5.通过特征提取器获取诈骗网站的全局语义特征。
6.通过感知哈希算法获取诈骗网站的全局轮廓特征。
7.将全局语义特征和全局轮廓特征融合作为诈骗类场景的图片融合特征。
涉诈样本库模块:
1.获取现有的已知诈骗网站及其涉诈类型。
2.通过特征提取器和感知哈希算法获取已知诈骗网站的图片融合特征。
3.将已知诈骗网站的图片融合特征及其涉诈类型录入到涉诈样本库中。
4.通过增量聚类算法计算涉诈样本库中各种涉诈类型的聚类中心特征向量。
特征匹配模块:
1.获取一批未知的网站数据。
2.获取这批未知网站的图片融合特征。
3.通过实时聚类的方式,依次对未知网站的图片融合特征与涉诈样本库的聚类中心特征向量进行计算欧式距离,并根据距离判断未知网站的疑似类型。
4.根据未知网站匹配的疑似类型进行整合,获取所有未知网站的所有疑似涉诈类型并作为疑似样本。
人工分析模块:
1.通过人工对疑似样本进行研判。
2.发现相同涉诈类型中,相似的未知网站比较多,则定义这类未知网站为新型的涉诈网站。
3.发现相似的未知网站位于不同的涉诈类型中,则定义这类未知网站为新型涉诈类型的涉诈网站。
更新模块:采用循环录入的方式,将发现的新型涉诈网站和新型涉诈类型的涉诈网站,并重新计算每个涉诈类型的聚类中心特征向量。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于图片聚类和人工研判的诈骗网站识别方法,其特征在于,包括:
S1:获取现有诈骗网站的有效网站截图及其涉诈类型,对诈骗图片进行特征提取,得到作为涉诈样本的图片融合特征,并根据图片融合特征的涉诈类型进行分类;
S2:将所有的所述图片融合特征及其涉诈类型录入至涉诈样本库,计算涉诈样本库中的图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量;
S3:获取一批未知网站的有效网站截图,对未知图片进行特征提取,得到未知图片的图片融合特征,然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度,从而得到该未知图片的疑似涉诈类型;
S4:对一批得到疑似涉诈类型的未知网站进行分析,得到符合条件的新型涉诈类型和新型涉诈网站;
S5:采用循环录入的方式,将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库,并重新计算每个涉诈类型的聚类中心特征向量。
2.根据权利要求1所述的一种基于图片聚类和人工研判的诈骗网站识别方法,其特征在于,S1中得到图片融合特征具体为:
通过图片特征提取器和感知哈希算法对诈骗图片进行处理,获取诈骗图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到诈骗图片的图片融合特征。
3.根据权利要求1所述的一种基于图片聚类和人工研判的诈骗网站识别方法,其特征在于,S2中得到每个涉诈类型的聚类中心特征向量具体为:
基于无监督学习的增量聚类算法,计算涉诈样本库中所有图片融合特征之间的欧式距离,得到图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量,所述聚类信息用于反馈涉诈样本库中图片融合特征的分布情况和各种涉诈类型的呈现形式。
4.根据权利要求1所述的一种基于图片聚类和人工研判的诈骗网站识别方法,其特征在于,S3具体为:
S3.1:通过图片特征提取器和感知哈希算法对未知图片进行处理,获取未知图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到未知图片的图片融合特征;
S3.2:依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离;
S3.3:通过欧式距离得到未知图片对应的最相似的聚类中心特征向量,并根据相似距离得到未知图片的疑似涉诈类型。
5.根据权利要求4所述的一种基于图片聚类和人工研判的诈骗网站识别方法,其特征在于,S4对一批得到疑似涉诈类型的未知网站进行分析具体为:
当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且与最相似的聚类中心特征向量的相似距离达到相似阈值,则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型,这一类的未知网站为该涉诈类型的新型涉诈网站;
当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且其相似距离未达到相似阈值,则判定这类未知网站的类型为新型涉诈类型,其对应的未知网站为该新型涉诈类型的新型涉诈网站。
6.一种基于图片聚类和人工研判的诈骗网站识别系统,其特征在于,包括:
图片特征模块:获取现有诈骗网站的有效网站截图及其涉诈类型,对诈骗图片进行特征提取,得到作为涉诈样本的图片融合特征,并根据图片融合特征的涉诈类型进行分类;
涉诈样本库模块:将所有的所述图片融合特征及其涉诈类型录入至涉诈样本库,计算涉诈样本库中的图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量;
特征匹配模块:获取一批未知网站的有效网站截图,对未知图片进行特征提取,得到未知图片的图片融合特征,然后将该图片融合特征与涉诈样本库中所有的聚类中心特征向量计算相似度,从而得到该未知图片的疑似涉诈类型;
人工分析模块:对一批得到疑似涉诈类型的未知网站进行分析,得到符合条件的新型涉诈类型和新型涉诈网站;
更新模块:采用循环录入的方式,将新型涉诈网站的图片融合特征及其新型涉诈类型更新到涉诈样本库,并重新计算每个涉诈类型的聚类中心特征向量。
7.根据权利要求6所述的一种基于图片聚类和人工研判的诈骗网站识别系统,其特征在于,图片特征模块中得到图片融合特征具体为:
通过图片特征提取器和感知哈希算法对诈骗图片进行处理,获取诈骗图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到诈骗图片的图片融合特征。
8.根据权利要求6所述的一种基于图片聚类和人工研判的诈骗网站识别系统,其特征在于,涉诈样本库模块中得到每个涉诈类型的聚类中心特征向量具体为:
基于无监督学习的增量聚类算法,计算涉诈样本库中所有图片融合特征之间的欧式距离,得到图片融合特征的聚类信息,并获取每个涉诈类型的聚类中心特征向量,所述聚类信息用于反馈涉诈样本库中图片融合特征的分布情况和各种涉诈类型的呈现形式。
9.根据权利要求6所述的一种基于图片聚类和人工研判的诈骗网站识别系统,其特征在于,特征匹配模块具体为:
步骤1:通过图片特征提取器和感知哈希算法对未知图片进行处理,获取未知图片的全局语义特征和全局轮廓特征,将所述全局语义特征与所述全局轮廓特征结合,得到未知图片的图片融合特征;
步骤2:依次计算所述未知图片的图片融合特征与涉诈样本库的所有聚类中心特征向量之间的欧式距离;
步骤3:通过欧式距离得到未知图片对应的最相似的聚类中心特征向量,并根据相似距离得到未知图片的疑似涉诈类型。
10.根据权利要求9所述的一种基于图片聚类和人工研判的诈骗网站识别系统,其特征在于,人工分析模块对一批得到疑似涉诈类型的未知网站进行分析具体为:
当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且与最相似的聚类中心特征向量的相似距离达到相似阈值,则判断这一类疑似涉诈类型为该聚类中心特征向量对应的涉诈类型,这一类的未知网站为该涉诈类型的新型涉诈网站;当疑似涉诈类型中某一类的未知网站数量符合样本阈值,且其相似距离未达到相似阈值,则判定这类未知网站的类型为新型涉诈类型,其对应的未知网站为该新型涉诈类型的新型涉诈网站。
CN202210029217.XA 2022-01-12 2022-01-12 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 Active CN114049508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210029217.XA CN114049508B (zh) 2022-01-12 2022-01-12 一种基于图片聚类和人工研判的诈骗网站识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210029217.XA CN114049508B (zh) 2022-01-12 2022-01-12 一种基于图片聚类和人工研判的诈骗网站识别方法及系统

Publications (2)

Publication Number Publication Date
CN114049508A true CN114049508A (zh) 2022-02-15
CN114049508B CN114049508B (zh) 2022-04-01

Family

ID=80196313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210029217.XA Active CN114049508B (zh) 2022-01-12 2022-01-12 一种基于图片聚类和人工研判的诈骗网站识别方法及系统

Country Status (1)

Country Link
CN (1) CN114049508B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117254983A (zh) * 2023-11-20 2023-12-19 卓望数码技术(深圳)有限公司 涉诈网址检测方法、装置、设备及存储介质
CN117439821A (zh) * 2023-12-20 2024-01-23 成都无糖信息技术有限公司 一种基于数据融合及多因素决策法的网站判定方法及系统

Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4100901A (en) * 2000-03-09 2001-09-17 Yeda Research And Development Co. Ltd. Coupled two-way clustering analysis of data
EP1589716A1 (en) * 2004-04-20 2005-10-26 Ecole Polytechnique Fédérale de Lausanne (EPFL) Method of detecting anomalous behaviour in a computer network
CN102521366A (zh) * 2011-12-16 2012-06-27 华中科技大学 融合分类与全局索引的图像检索方法和图像检索系统
US20120166414A1 (en) * 2008-08-11 2012-06-28 Ultra Unilimited Corporation (dba Publish) Systems and methods for relevance scoring
US20140351109A1 (en) * 2013-05-22 2014-11-27 Light In The Box Limited Method and apparatus for automatically identifying a fraudulent order
US20160217344A1 (en) * 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc. Optimizing multi-class image classification using patch features
CN106651373A (zh) * 2016-12-02 2017-05-10 中国银联股份有限公司 一种混合欺诈交易检测分类器建立方法及装置
WO2017124884A1 (zh) * 2016-01-22 2017-07-27 中国互联网络信息中心 一种针对新增域名自动检测网络钓鱼的方法与系统
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN109492219A (zh) * 2018-10-25 2019-03-19 山东省通信管理局 一种基于特征分类和情感语义分析的诈骗网站识别方法
US20190122258A1 (en) * 2017-10-23 2019-04-25 Adbank Inc. Detection system for identifying abuse and fraud using artificial intelligence across a peer-to-peer distributed content or payment networks
CN109801175A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种医保诈骗行为检测方法和装置
WO2019134567A1 (zh) * 2018-01-08 2019-07-11 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
US20190311301A1 (en) * 2018-04-10 2019-10-10 Ebay Inc. Dynamically generated machine learning models and visualization thereof
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20200394455A1 (en) * 2019-06-15 2020-12-17 Paul Lee Data analytics engine for dynamic network-based resource-sharing
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
US20210073110A1 (en) * 2019-09-10 2021-03-11 Sauce Labs Inc. Authoring automated test suites using artificial intelligence
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN113098870A (zh) * 2021-04-01 2021-07-09 恒安嘉新(北京)科技股份公司 一种网络诈骗检测方法、装置、电子设备及存储介质
CN113095858A (zh) * 2021-05-07 2021-07-09 广州市刑事科学技术研究所 一种涉诈短文本识别方法
CN113254844A (zh) * 2021-07-07 2021-08-13 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与系统
US20210334371A1 (en) * 2020-04-26 2021-10-28 Bluedon Information Security Technologies Corp. Malicious File Detection Technology Based on Random Forest Algorithm
EP3905086A1 (en) * 2020-04-30 2021-11-03 McAfee, LLC Large scale malware sample identification
EP3905126A2 (en) * 2021-02-26 2021-11-03 Beijing Baidu Netcom Science And Technology Co. Ltd. Image clustering method and apparatus
CN113726824A (zh) * 2021-11-03 2021-11-30 成都无糖信息技术有限公司 一种基于图像特征的诈骗网站查找方法及系统
CN113779481A (zh) * 2021-09-26 2021-12-10 恒安嘉新(北京)科技股份公司 诈骗网站的识别方法、装置、设备及存储介质
WO2021248707A1 (zh) * 2020-06-12 2021-12-16 完美世界(北京)软件科技发展有限公司 一种操作的验证方法和装置
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置

Patent Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4100901A (en) * 2000-03-09 2001-09-17 Yeda Research And Development Co. Ltd. Coupled two-way clustering analysis of data
EP1589716A1 (en) * 2004-04-20 2005-10-26 Ecole Polytechnique Fédérale de Lausanne (EPFL) Method of detecting anomalous behaviour in a computer network
US20120166414A1 (en) * 2008-08-11 2012-06-28 Ultra Unilimited Corporation (dba Publish) Systems and methods for relevance scoring
CN102521366A (zh) * 2011-12-16 2012-06-27 华中科技大学 融合分类与全局索引的图像检索方法和图像检索系统
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20140351109A1 (en) * 2013-05-22 2014-11-27 Light In The Box Limited Method and apparatus for automatically identifying a fraudulent order
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20160217344A1 (en) * 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc. Optimizing multi-class image classification using patch features
WO2017124884A1 (zh) * 2016-01-22 2017-07-27 中国互联网络信息中心 一种针对新增域名自动检测网络钓鱼的方法与系统
CN106651373A (zh) * 2016-12-02 2017-05-10 中国银联股份有限公司 一种混合欺诈交易检测分类器建立方法及装置
US20190122258A1 (en) * 2017-10-23 2019-04-25 Adbank Inc. Detection system for identifying abuse and fraud using artificial intelligence across a peer-to-peer distributed content or payment networks
WO2019134567A1 (zh) * 2018-01-08 2019-07-11 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
US20190311301A1 (en) * 2018-04-10 2019-10-10 Ebay Inc. Dynamically generated machine learning models and visualization thereof
CN109492219A (zh) * 2018-10-25 2019-03-19 山东省通信管理局 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN109801175A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种医保诈骗行为检测方法和装置
US20200394455A1 (en) * 2019-06-15 2020-12-17 Paul Lee Data analytics engine for dynamic network-based resource-sharing
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
US20210073110A1 (en) * 2019-09-10 2021-03-11 Sauce Labs Inc. Authoring automated test suites using artificial intelligence
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
US20210334371A1 (en) * 2020-04-26 2021-10-28 Bluedon Information Security Technologies Corp. Malicious File Detection Technology Based on Random Forest Algorithm
EP3905086A1 (en) * 2020-04-30 2021-11-03 McAfee, LLC Large scale malware sample identification
WO2021248707A1 (zh) * 2020-06-12 2021-12-16 完美世界(北京)软件科技发展有限公司 一种操作的验证方法和装置
EP3905126A2 (en) * 2021-02-26 2021-11-03 Beijing Baidu Netcom Science And Technology Co. Ltd. Image clustering method and apparatus
CN113098870A (zh) * 2021-04-01 2021-07-09 恒安嘉新(北京)科技股份公司 一种网络诈骗检测方法、装置、电子设备及存储介质
CN113095858A (zh) * 2021-05-07 2021-07-09 广州市刑事科学技术研究所 一种涉诈短文本识别方法
CN113254844A (zh) * 2021-07-07 2021-08-13 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与系统
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置
CN113779481A (zh) * 2021-09-26 2021-12-10 恒安嘉新(北京)科技股份公司 诈骗网站的识别方法、装置、设备及存储介质
CN113726824A (zh) * 2021-11-03 2021-11-30 成都无糖信息技术有限公司 一种基于图像特征的诈骗网站查找方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FU A等: "Detecting Phishing Web Pages with Visual Similarity Assessment Based on Earth Mover"s Distance", 《DEPENDABLE AND SECURE COMPUTING》 *
陈常杰: "基于图像语义理解的恶意网页识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117254983A (zh) * 2023-11-20 2023-12-19 卓望数码技术(深圳)有限公司 涉诈网址检测方法、装置、设备及存储介质
CN117439821A (zh) * 2023-12-20 2024-01-23 成都无糖信息技术有限公司 一种基于数据融合及多因素决策法的网站判定方法及系统

Also Published As

Publication number Publication date
CN114049508B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN114049508B (zh) 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN108319672B (zh) 基于云计算的移动终端不良信息过滤方法及系统
WO2021174812A1 (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
WO2022105336A1 (zh) 图像分类方法及电子设备
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN111914649A (zh) 人脸识别的方法及装置、电子设备、存储介质
CN111126112B (zh) 候选区域确定方法和装置
CN110688572A (zh) 冷启动状态下搜索意图的识别方法
CN111275058B (zh) 一种基于行人重识别的安全帽佩戴与颜色识别方法及装置
CN114005004B (zh) 一种基于图片实例级特征的诈骗网站识别方法及系统
CN113920573B (zh) 基于对抗学习的人脸变化解耦的亲属关系验证方法
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
CN115238707A (zh) 基于词向量语义分析的执法视频评价方法及装置
CN112200260B (zh) 一种基于丢弃损失函数的人物属性识别方法
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN115130535A (zh) 一种样本噪声识别方法、装置、电子设备及存储介质
CN111143303B (zh) 一种基于信息增益和改进knn算法的日志分类方法
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN115129929A (zh) 视频推送方法、装置、服务器及存储介质
CN100363943C (zh) 基于色彩内容及分布的彩色图像匹配分析方法
CN117633675B (zh) 一种基于模型级联的网络公害网站发现方法及系统
CN114880572B (zh) 新闻客户端智能推荐系统
CN113014591B (zh) 假冒公众号的检测方法和装置、电子设备、及介质
CN113535951B (zh) 用于进行信息分类的方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Identifying Fraud Websites Based on Image Clustering and Artificial Judgment

Effective date of registration: 20230712

Granted publication date: 20220401

Pledgee: Sichuan Tianfu bank Limited by Share Ltd. Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2023510000179

PE01 Entry into force of the registration of the contract for pledge of patent right