一种基于图片实例级特征的诈骗网站识别方法及系统
技术领域
本发明属于图像处理技术领域,具体涉及一种基于图片实例级特征的诈骗网站识别方法及系统。
背景技术
随着互联网技术的发展,传统违法犯罪正加速向以电信、互联网等为媒介的非接触性犯罪转移,各类新型的涉嫌网络犯罪的网站层出不穷。新型网络违法犯罪正通过人工智能、机器学习、大数据等新技术被实施于各个环节,形成盘根错节的“黑灰产业链”和犯罪利益联合体,严重损害人民群众的合法权益和社会安全稳定。
现有的诈骗网站识别方法主要是采用基于内容的匹配技术,通过对网站的文本关键词进行匹配,或者通过对网站的图片进行构建深度学习模型进行图片分类来进行识别诈骗网站。
现有的技术方案存在以下问题:
1.通过文本关键词进行匹配和通过对图片进行分类的方式识别诈骗网站,模式比较单一,识别效果不高,容易出现漏报误报的情况。
2.在目前各类新型的涉嫌网络犯罪的网站层出不穷的情况,同类型的诈骗网站各式各样,现有的方法无法对同诈骗类型的网站进行有效识别。
3.现有的方法面对诈骗网站的增多,采用对模型的重新数据标注和模型训练,效率不高,不满足目前诈骗网站增长迅速需要实时识别的情况。
发明内容
针对以上现有技术中存在的问题,本发明提出了一种基于图片实例级特征的诈骗网站识别方法及系统,以解决上述现有技术存在的问题。
为实现上述目的本发明所采用的技术方案是:提供一种基于图片实例级特征的诈骗网站识别方法及系统,包括:
S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;
S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;
S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
较优的,本发明S1具体为:
S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;
S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。
较优的,本发明S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
较优的,本发明获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
较优的,本发明S5得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
本发明还提出一种基于图片实例级特征的诈骗网站识别系统,包括:
图片全局特征模块:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;
特征向量数据库:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
图片实例级特征模块:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;
图片检索模块:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
图片实施例匹配模块:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
较优的,本发明图片全局特征模块具体包括:
步骤1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
步骤2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
步骤3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型。
较优的,本发明采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
步骤1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
步骤2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
步骤3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
步骤4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
步骤5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
较优的,本发明图片实施例匹配模块中获得两张图片相似实例对象特征点的数量具体为:
首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
较优的,本发明图片实施例匹配模块中得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明采用构建特征向量数据库的形式,对积累的诈骗网站首页截图进行分类然后提取全局特征向量,并把该全局特征向量和对应的涉诈类型录入到特征向量数据库,通过对特征向量数据库进行不断的更新和添加样本,增加了特征向量数据库的匹配能力。
2.本发明通过对需要识别的网站首页截图进行全局特征模型进行图片全局特征向量的提取,然后将提取的图片全局特征向量在特征向量数据库中进行搜索,计算搜索该图片全局特征向量和特征向量数据库的所有图片全局特征向量的欧式距离,并返回距离最近的前N个图片全局特征向量和所属涉诈类型,实质就是返回前N个和搜索图片是最相似的图片及类型,最大化匹配出网站的疑似类型,减少诈骗网站的误报和漏报情况。
3.本发明采用来图片实例级特征模型获取实例对象特征点和实例对象特征向量,精准到图片中的关键内容的识别和比对,使模型更能精准的定位到待识别图片的涉诈类型。
4.本发明通过对两张图片分别进行实例对象特征点的检测和实例对象特征点的特征向量的获取,通过KNN的算法,计算两张图片的实例对象特征点之间的相关性和欧式距离,通过阈值过滤距离较近的特征点,最后获取到两张图片间的相同实例对象特征点数量,并按照数量进行从多到少排序,使得识别的类型更可靠不会产生误报的情况。
5.本发明通过将图片全局特征向量和实例对象特征向量进行糅合,从全局粗略匹配到实例级精细匹配,更准确的识别出未知网站的涉诈类型。
6.本发明的图片全局特征模型,输出的是针对于诈骗网站场景的图片从结构、轮廓和细节特征的融合,使该全局特征向量更具代表性。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明具体实施方式的流程示意图。
图2是本发明实施例1中图片全局特征模型的示意图。
图3是本发明实施例1中图片实例级特征模型的示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
1.获取一张待识别的未知网站的有效图片;
2.对该图片通过图片全局特征模型进行图片全局特征向量的提取;
3.将该图片全局特征向量通过特征向量数据库进行搜索匹配,获取到欧式距离最近的N张最相似的图片及类型;
4.将该图片和最相近的N张图片进行轮询通过图片实例级特征模型提取图片的实例对象特征点和实例对象特征向量;
5.通过KNN计算实例对象特征点的欧式距离,并通过阈值过滤,获取到待识别图片和最相近的N张图片的之间的相似实例对象特征点数量;
6.按照相似实例对象特征点数量进行排序,最终获取相似实例对象特征点数量最多的那张图片的类型;
7.该相似实例对象特征点的数量满足预先设置的实例对象特征点阈值,则该图片的类型就是待识别图片的类型。
实施例1:
如图1、图2和图3所示,本发明提出一种基于图片实例级特征的诈骗网站识别方法,包括
S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;S1具体为:
S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;
S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;
S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;
S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。
S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;
S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;本发明S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:
S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。本发明获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
本发明S5得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
本发明还提出一种基于图片实例级特征的诈骗网站识别系统,包括:
图片全局特征模块:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注;然后构建基于MobileNet神经网络结构的图片分类模型,如图2所述。对模型进行反复训练,直到模型拥有拟合这些诈骗类型网站的能力;对训练好的图片分类模型进行拆分融合成图片全局特征模型:
1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;
2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;
3.以图片作为输入,融合的全局特征向量作为输出,组成新的图片全局特征模型。
本发明采用对监督学习好的MobileNet模型进行分层解析,获取MobileNet模型的每一个bottleneck层的输出和最后特征层输出,每一个bottleneck层表示对图片的特征从轮廓特征信息到语义特征信息的细节信息不断加深再加上最后的特征层全局特征进行融合作为图片的特征,从而组成图片作为输入,每一个bottleneck层的输出和最后特征层输出融合的图片特征为输出的全局图片特征模型。针对于诈骗网站场景的图片从结构、轮廓和细节特征的融合,使该全局特征向量更具代表性。
特征向量数据库:用于对通过所述图片全局特征模型获取所有截图的图片全局特征向量,按照对应的类型进行分类保存;本实施例以图片hash值,图片全局特征向量,图片涉诈类型作为基础字段存储到图片特征向量数据库。
图片实例级特征模块:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,侧重于图片中各诈骗类型的典型图案或图形,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点及实例对象特征向量,如图3所示:
采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;
在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;
在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;
通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;
以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
图片检索模块:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;
图片实施例匹配模块:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
本发明图片实施例匹配模块中获得两张图片相似实例对象特征点的数量具体为:
首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
本发明图片实施例匹配模块中得到待识别网站的类型具体为:
得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向量数据库中。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。