CN114005004B - 一种基于图片实例级特征的诈骗网站识别方法及系统 - Google Patents

一种基于图片实例级特征的诈骗网站识别方法及系统 Download PDF

Info

Publication number
CN114005004B
CN114005004B CN202111640282.8A CN202111640282A CN114005004B CN 114005004 B CN114005004 B CN 114005004B CN 202111640282 A CN202111640282 A CN 202111640282A CN 114005004 B CN114005004 B CN 114005004B
Authority
CN
China
Prior art keywords
picture
feature
level
instance
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111640282.8A
Other languages
English (en)
Other versions
CN114005004A (zh
Inventor
漆伟
张瑞冬
童永鳌
朱鹏
马永霄
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu No Sugar Information Tech Co ltd
Original Assignee
Chengdu No Sugar Information Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu No Sugar Information Tech Co ltd filed Critical Chengdu No Sugar Information Tech Co ltd
Priority to CN202111640282.8A priority Critical patent/CN114005004B/zh
Publication of CN114005004A publication Critical patent/CN114005004A/zh
Application granted granted Critical
Publication of CN114005004B publication Critical patent/CN114005004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图片实例级特征的诈骗网站识别方法及系统,属于图像处理技术领域,针对现有的技术方案存在的对诈骗网站识别模式单一,识别效果不高,容易出现漏报误报的情况。本发明通过对需要识别的网站首页截图进行全局特征模型进行图片全局特征向量的提取,然后将提取的图片全局特征向量在特征向量数据库中进行搜索,计算搜索该图片全局特征向量和特征向量数据库的所有图片全局特征向量的欧式距离,并返回距离最近的前N个图片全局特征向量和所属涉诈类型,最后计算分别与N个图片相似实例对象特征点的最多的数量,得到待识别网站的类型。

Description

一种基于图片实例级特征的诈骗网站识别方法及系统
技术领域
本发明属于图像处理技术领域,具体涉及一种基于图片实例级特征的诈骗网站识别方法及系统。
背景技术
随着互联网技术的发展,传统违法犯罪正加速向以电信、互联网等为媒介的非接触性犯罪转移,各类新型的涉嫌网络犯罪的网站层出不穷。新型网络违法犯罪正通过人工智能、机器学习、大数据等新技术被实施于各个环节,形成盘根错节的“黑灰产业链”和犯罪利益联合体,严重损害人民群众的合法权益和社会安全稳定。
现有的诈骗网站识别方法主要是采用基于内容的匹配技术,通过对网站的文本关键词进行匹配,或者通过对网站的图片进行构建深度学习模型进行图片分类来进行识别诈骗网站。
现有的技术方案存在以下问题:
1.通过文本关键词进行匹配和通过对图片进行分类的方式识别诈骗网站,模式比较单一,识别效果不高,容易出现漏报误报的情况。
2.在目前各类新型的涉嫌网络犯罪的网站层出不穷的情况,同类型的诈骗网站各式各样,现有的方法无法对同诈骗类型的网站进行有效识别。
3.现有的方法面对诈骗网站的增多,采用对模型的重新数据标注和模型训练,效率不高,不满足目前诈骗网站增长迅速需要实时识别的情况。
发明内容
针对以上现有技术中存在的问题,本发明提出了一种基于图片实例级特征的诈骗网站识别方法及系统,以解决上述现有技术存在的问题。
为实现上述目的本发明所采用的技术方案是:提供一种基于图片实例级特征的诈骗网站识别方法及系统,包括:
S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;
S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;
S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
较优的,本发明S1具体为:
S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;
S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。
较优的,本发明S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
较优的,本发明获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
较优的,本发明S5得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
本发明还提出一种基于图片实例级特征的诈骗网站识别系统,包括:
图片全局特征模块:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;
特征向量数据库:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
图片实例级特征模块:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;
图片检索模块:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
图片实施例匹配模块:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
较优的,本发明图片全局特征模块具体包括:
步骤1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
步骤2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
步骤3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型。
较优的,本发明采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
步骤1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
步骤2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
步骤3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
步骤4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
步骤5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
较优的,本发明图片实施例匹配模块中获得两张图片相似实例对象特征点的数量具体为:
首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
较优的,本发明图片实施例匹配模块中得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明采用构建特征向量数据库的形式,对积累的诈骗网站首页截图进行分类然后提取全局特征向量,并把该全局特征向量和对应的涉诈类型录入到特征向量数据库,通过对特征向量数据库进行不断的更新和添加样本,增加了特征向量数据库的匹配能力。
2.本发明通过对需要识别的网站首页截图进行全局特征模型进行图片全局特征向量的提取,然后将提取的图片全局特征向量在特征向量数据库中进行搜索,计算搜索该图片全局特征向量和特征向量数据库的所有图片全局特征向量的欧式距离,并返回距离最近的前N个图片全局特征向量和所属涉诈类型,实质就是返回前N个和搜索图片是最相似的图片及类型,最大化匹配出网站的疑似类型,减少诈骗网站的误报和漏报情况。
3.本发明采用来图片实例级特征模型获取实例对象特征点和实例对象特征向量,精准到图片中的关键内容的识别和比对,使模型更能精准的定位到待识别图片的涉诈类型。
4.本发明通过对两张图片分别进行实例对象特征点的检测和实例对象特征点的特征向量的获取,通过KNN的算法,计算两张图片的实例对象特征点之间的相关性和欧式距离,通过阈值过滤距离较近的特征点,最后获取到两张图片间的相同实例对象特征点数量,并按照数量进行从多到少排序,使得识别的类型更可靠不会产生误报的情况。
5.本发明通过将图片全局特征向量和实例对象特征向量进行糅合,从全局粗略匹配到实例级精细匹配,更准确的识别出未知网站的涉诈类型。
6.本发明的图片全局特征模型,输出的是针对于诈骗网站场景的图片从结构、轮廓和细节特征的融合,使该全局特征向量更具代表性。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明具体实施方式的流程示意图。
图2是本发明实施例1中图片全局特征模型的示意图。
图3是本发明实施例1中图片实例级特征模型的示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
1.获取一张待识别的未知网站的有效图片;
2.对该图片通过图片全局特征模型进行图片全局特征向量的提取;
3.将该图片全局特征向量通过特征向量数据库进行搜索匹配,获取到欧式距离最近的N张最相似的图片及类型;
4.将该图片和最相近的N张图片进行轮询通过图片实例级特征模型提取图片的实例对象特征点和实例对象特征向量;
5.通过KNN计算实例对象特征点的欧式距离,并通过阈值过滤,获取到待识别图片和最相近的N张图片的之间的相似实例对象特征点数量;
6.按照相似实例对象特征点数量进行排序,最终获取相似实例对象特征点数量最多的那张图片的类型;
7.该相似实例对象特征点的数量满足预先设置的实例对象特征点阈值,则该图片的类型就是待识别图片的类型。
实施例1:
如图1、图2和图3所示,本发明提出一种基于图片实例级特征的诈骗网站识别方法,包括
S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;S1具体为:
S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;
S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。
S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;本发明S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。本发明获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
本发明S5得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
本发明还提出一种基于图片实例级特征的诈骗网站识别系统,包括:
图片全局特征模块:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注;然后构建基于MobileNet神经网络结构的图片分类模型,如图2所述。对模型进行反复训练,直到模型拥有拟合这些诈骗类型网站的能力;对训练好的图片分类模型进行拆分融合成图片全局特征模型:
1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
3.以图片作为输入,融合的全局特征向量作为输出,组成新的图片全局特征模型。
本发明采用对监督学习好的MobileNet模型进行分层解析,获取MobileNet模型的每一个bottleneck层的输出和最后特征层输出,每一个bottleneck层表示对图片的特征从轮廓特征信息到语义特征信息的细节信息不断加深再加上最后的特征层全局特征进行融合作为图片的特征,从而组成图片作为输入,每一个bottleneck层的输出和最后特征层输出融合的图片特征为输出的全局图片特征模型。针对于诈骗网站场景的图片从结构、轮廓和细节特征的融合,使该全局特征向量更具代表性。
特征向量数据库:用于对通过所述图片全局特征模型获取所有截图的图片全局特征向量,按照对应的类型进行分类保存;本实施例以图片hash值,图片全局特征向量,图片涉诈类型作为基础字段存储到图片特征向量数据库。
图片实例级特征模块:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,侧重于图片中各诈骗类型的典型图案或图形,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点及实例对象特征向量,如图3所示:
采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
图片检索模块:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
图片实施例匹配模块:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
本发明图片实施例匹配模块中获得两张图片相似实例对象特征点的数量具体为:
首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
本发明图片实施例匹配模块中得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于图片实例级特征的诈骗网站识别方法,其特征在于,包括:
S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;
S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;
S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
2.根据权利要求1所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,S1具体为:
S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;
S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。
3.根据权利要求2所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
4.根据权利要求1所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
5.根据权利要求4所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,S5得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
6.一种基于图片实例级特征的诈骗网站识别系统,其特征在于,包括:
图片全局特征模块:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;
特征向量数据库:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
图片实例级特征模块:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;
图片检索模块:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
图片实施例匹配模块:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
7.根据权利要求6所述的一种基于图片实例级特征的诈骗网站识别系统,其特征在于,图片全局特征模块具体包括:
步骤1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
步骤2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
步骤3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型。
8.根据权利要求7所述的一种基于图片实例级特征的诈骗网站识别系统,其特征在于,采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
步骤1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
步骤2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
步骤3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
步骤4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
步骤5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
9.根据权利要求6所述的一种基于图片实例级特征的诈骗网站识别系统,其特征在于,图片实施例匹配模块中获得两张图片相似实例对象特征点的数量具体为:
首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
10.根据权利要求6所述的一种基于图片实例级特征的诈骗网站识别系统,其特征在于,图片实施例匹配模块中得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
CN202111640282.8A 2021-12-30 2021-12-30 一种基于图片实例级特征的诈骗网站识别方法及系统 Active CN114005004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111640282.8A CN114005004B (zh) 2021-12-30 2021-12-30 一种基于图片实例级特征的诈骗网站识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111640282.8A CN114005004B (zh) 2021-12-30 2021-12-30 一种基于图片实例级特征的诈骗网站识别方法及系统

Publications (2)

Publication Number Publication Date
CN114005004A CN114005004A (zh) 2022-02-01
CN114005004B true CN114005004B (zh) 2022-04-01

Family

ID=79932261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111640282.8A Active CN114005004B (zh) 2021-12-30 2021-12-30 一种基于图片实例级特征的诈骗网站识别方法及系统

Country Status (1)

Country Link
CN (1) CN114005004B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633675B (zh) * 2024-01-25 2024-04-30 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662959A (zh) * 2012-03-07 2012-09-12 南京邮电大学 利用空间混合索引机制检测钓鱼网页的方法
CN102750519A (zh) * 2012-05-30 2012-10-24 北京城市网邻信息技术有限公司 一种图像的识别及过滤方法和装置
CN103049483A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 网页危险性的识别系统
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN110647896A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于logo图像的钓鱼页面识别方法及相关设备
CN111191695A (zh) * 2019-12-19 2020-05-22 杭州安恒信息技术股份有限公司 一种基于深度学习的网站图片篡改检测方法
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
WO2021133592A1 (en) * 2019-12-27 2021-07-01 Paypal, Inc. Malware and phishing detection and mediation platform
CN113254844A (zh) * 2021-07-07 2021-08-13 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与系统
CN113836365A (zh) * 2021-07-16 2021-12-24 成都无糖信息技术有限公司 一种异常行为网站的识别预警方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN102662959A (zh) * 2012-03-07 2012-09-12 南京邮电大学 利用空间混合索引机制检测钓鱼网页的方法
CN102750519A (zh) * 2012-05-30 2012-10-24 北京城市网邻信息技术有限公司 一种图像的识别及过滤方法和装置
CN103049483A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 网页危险性的识别系统
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN110647896A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于logo图像的钓鱼页面识别方法及相关设备
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN111191695A (zh) * 2019-12-19 2020-05-22 杭州安恒信息技术股份有限公司 一种基于深度学习的网站图片篡改检测方法
WO2021133592A1 (en) * 2019-12-27 2021-07-01 Paypal, Inc. Malware and phishing detection and mediation platform
CN113254844A (zh) * 2021-07-07 2021-08-13 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与系统
CN113836365A (zh) * 2021-07-16 2021-12-24 成都无糖信息技术有限公司 一种异常行为网站的识别预警方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Detecting Phishing Sites - An Overview;P.Kalaharsha 等;《arXiv》;20210406;1-13 *
Phishing Detection: Analysis of Visual Similarity Based Approaches;Anlit Kumar Jain 等;《Security and Communication Networks》;20170110;1-21 *
Phish-IRIS: A New Approach for Vision Based Brand Prediction of Phishing Web Pages via Compact Visual Descriptors;F.C. Dalgic 等;《ISMSIT 2018》;20181021;1-8 *
一种基于堆叠模型的钓鱼网站检测方法;黎宇坤;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215(第02期);I138-295 *
基于URL特征检测的违法网站识别方法;凡友荣 等;《计算机工程》;20180331;第44卷(第3期);171-177 *
移动通信中的金融类钓鱼网页检测方法研究;刘可;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180415(第04期);I139-558 *

Also Published As

Publication number Publication date
CN114005004A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
Kim et al. Domain adaptation without source data
CN107798033B (zh) 一种公安领域案件文本的分类方法
CN111090763B (zh) 一种图片自动标签方法及装置
CN111831790A (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
Maigrot et al. Mediaeval 2016: A multimodal system for the verifying multimedia use task
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN111581956A (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN112287020A (zh) 一种基于图分析的大数据挖掘方法
CN114915468A (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN114005004B (zh) 一种基于图片实例级特征的诈骗网站识别方法及系统
CN117081808A (zh) 一种融合对比学习和特征选择的入侵检测方法
CN117743596A (zh) 一种知识图谱的数据处理方法及装置
CN114049508B (zh) 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN117763151A (zh) 一种低资源多领域的假新闻检测方法及系统
Tabone et al. Pornographic content classification using deep-learning
CN114880572B (zh) 新闻客户端智能推荐系统
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Feng et al. BiMGCL: rumor detection via bi-directional multi-level graph contrastive learning
Dong et al. An Asterisk-shaped Patch Attack for Object Detection
CN109934302B (zh) 新类别识别方法和基于模糊理论和深度学习的机器人系统
Kim et al. Graph neural network based scene change detection using scene graph embedding with hybrid classification loss
CN115705756A (zh) 动作检测方法、装置、计算机设备和存储介质
CN117633675B (zh) 一种基于模型级联的网络公害网站发现方法及系统
Chen et al. Intelligent Classifier for Identify Reliable On-Demand Messages
CN117131503B (zh) 一种用户行为的威胁链识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Identifying Fraud Websites Based on Image Instance Level Features

Effective date of registration: 20230712

Granted publication date: 20220401

Pledgee: Sichuan Tianfu bank Limited by Share Ltd. Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2023510000179

PE01 Entry into force of the registration of the contract for pledge of patent right