CN115359468A - 一种目标网站识别方法、装置、设备及介质 - Google Patents

一种目标网站识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN115359468A
CN115359468A CN202210974175.7A CN202210974175A CN115359468A CN 115359468 A CN115359468 A CN 115359468A CN 202210974175 A CN202210974175 A CN 202210974175A CN 115359468 A CN115359468 A CN 115359468A
Authority
CN
China
Prior art keywords
website
picture
sample
pictures
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210974175.7A
Other languages
English (en)
Inventor
林嗣鹏
杨勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202210974175.7A priority Critical patent/CN115359468A/zh
Publication of CN115359468A publication Critical patent/CN115359468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标网站识别方法、装置、设备及介质,涉及图像识别技术领域,包括:对获取到的样本网站图片进行预处理,并基于预处理后的样本网站图片构建训练样本集;其中,样本网站图片包括目标类型图片和其他类型图片;对训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;获取待识别网站图片,并将待识别网站图片输入图片分类模型以得到相应的图片分类概率分布,然后基于图片分类概率分布确定出待识别网站的网站类型。通过结合SIFT特征检测和卷积神经网络的方式对待识别网站图片进行识别,提高了目标网站的识别速度以及识别结果的准确率。

Description

一种目标网站识别方法、装置、设备及介质
技术领域
本发明涉及图像识别技术领域,特别涉及一种目标网站识别方法、装置、设备及介质。
背景技术
互联网大数据时代,数据日益膨胀增长。网络资源越来越丰富的同时,垃圾信息、不良网站等不健康内容也充斥着网络中。云安全管理平台的目标是识别违法违禁的不良网站,例如博彩网站等,也即云管理平台将这些不良网站作为目标网站进行识别,在识别出这些不良网站后则可以向网络安全部门发出告警,帮助快速识别并清除,为营造健康安全的网络环境贡献力量。
传统方案下,不良网站的识别基于网站文本与网站图片。其中,网站文本中的特征关键字能作为网站标签特征的依据之一,匹配得到的特征关键字越多,则说明网站属于博彩标签的置信度则越高。然而根据特征关键字识别不良网站,该方法检测效率低,并且需要人为维护黑名单特征词典库,另外,网站建设人员可以猜测词典库内容人为规避关键词检测,另外部分不良网站仅通过识别视频的方式吸取用户流量,则无法为该方法提供检测输入参数信息。此外,基于网站图片的识别方法有基于图片特征识别、基于卷积神经网络图片分类方法。传统的图片特征检测方法有:HOG特征、HARR特征、SIFT特征等,并且图片特征识别需要经历特征提取、转换、相似度计算等过程,特征匹配与特征相似度计算量大,耗时长,对计算资源要求较高,无法满足线上海量图片实时识别的要求;而基于卷积神经网络模型的图片分类方法,模型分类计算能近似满足实时性要求,但分类准确性依赖训练集图片集合,要求训练集丰富且能覆盖各种场景,否则就会导致识别的准确率较低。
综上,如何提高目标网站的识别速度和识别的准确率是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种目标网站识别方法、装置、设备及介质,能够提高目标网站的识别速度和识别的准确率。其具体方案如下:
第一方面,本申请公开了一种目标网站识别方法,包括:
对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;
对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;
获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
可选的,所述对获取到的样本网站图片进行预处理,包括:
通过网络爬虫技术采集样本网站图片;
按照预设尺寸大小对所述样本网站图片进行缩放处理,并对所述样本网站图片进行灰度处理。
可选的,所述对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,包括:
对所述训练样本集中的每一所述样本网站图片进行尺度空间极值检测以确定出关键点,并对所述关键点进行拟合以确定出所述关键点的位置信息和尺度信息;
按照预设规则确定出所述关键点的方向信息,然后基于所述位置信息、所述尺度信息和所述方向信息生成所述关键点的描述向量,以得到SIFT特征向量。
可选的,所述对所述训练样本集中的每一所述样本网站图片进行尺度空间极值检测以确定出关键点,包括:
构建所述训练样本集中每一所述样本网站图片的高斯金字塔,并对所述高斯金字塔中的上下两层图像进行相减处理以得到高斯差分金字塔;
基于所述高斯金字塔和所述高斯差分金字塔进行尺度空间极值检测以确定出关键点。
可选的,所述按照预设规则确定出所述关键点的方向信息,包括:
以所述关键点的位置坐标为中心点构建预设窗口半径大小的领域,并确定所述领域内每一像素点的梯度方向;
基于每一所述像素点的梯度方向构建分布直方图,并将所述分布直方图的峰值确定为所述关键点的方向信息。
可选的,所述将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型,包括:
将所述SIFT特征向量输入至全连接卷积神经网络进行降维处理以得到降维后的目标特征向量;
利用Softmax回归模型输出所述目标特征向量的图片分类结果,并将所述图片分类结果与所述样本网站图片的分类标签进行比对得到比对结果;
基于所述比对结果调整模型残差以得到图片分类模型。
可选的,所述基于所述图片分类概率分布确定出待识别网站的网站类型,包括:
确定出所述图片分类概率分布中的概率最大值,并将所述概率最大值对应的图片类别确定为所述待识别网站图片的类别;
基于所述待识别网站图片的类别确定出待识别网站中目标类型图片个数和总图片个数的目标比重,若所述目标比重大于预设阈值,则判定所述待识别网站为目标网站。
第二方面,本申请公开了一种目标网站识别装置,包括:
预处理模块,用于对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;
SIFT特征检测模块,用于对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量;
模型训练模块,用于并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;
类型确定模块,用于获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的目标网站识别方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的目标网站识别方法的步骤。
可见,本申请对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。由此可见,本申请在获取到样本网站图片后,则对样本网站进行预处理并构建训练样本集,然后对样本网站图片进行SIFT特征检测得到SIFT特征向量,再将SIFT特征向量输入全连接卷积神经网络进行学习训练得到网站分类模型,最后利用网站分类模型对待识别网站图片进行识别分类得到相应的网站类型。上述方案通过将SIFT特征检测与卷积神经网络计算相结合,既利用了传统SIFT特征的局部稳定性,对图片的旋转、尺度缩放、亮度变化等保持特征不变性的特点,又利用了卷积神经网络计算量小,对计算资源要求低,具有实时性的特点,提高了目标网站的识别速度和识别的准确率,也即保证了目标网站识别的准确性和实时性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种目标网站识别方法流程图;
图2为本申请公开的一种具体的目标网站识别方法流程图;
图3为本申请公开的一种具体的目标网站识别流程图;
图4为本申请公开的一种具体的SIFT特征检测流程图;
图5为本申请公开的一种目标网站识别装置结构示意图;
图6为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统方案下,不良网站的识别基于网站文本与网站图片。其中,网站文本中的特征关键字能作为网站标签特征的依据之一,然而根据特征关键字识别不良网站,该方法检测效率低,并且需要人为维护黑名单特征词典库。另外,基于网站图片的识别方法有基于图片特征识别、基于卷积神经网络图片分类方法,其中,图片特征识别中,特征匹配与特征相似度计算量大,耗时长,对计算资源要求较高,无法满足线上海量图片实时识别的要求;而基于卷积神经网络模型的图片分类方法,模型分类计算能近似满足实时性要求,但分类准确性依赖训练集图片集合,要求训练集丰富且能覆盖各种场景,否则就会导致识别的准确率较低。为此,本申请实施例公开了一种目标网站识别方法、装置、设备及介质,能够提高目标网站的识别速度和识别的准确率。
参见图1所示,本申请实施例公开了一种目标网站识别方法,该方法包括:
步骤S11:对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片。
本实施例中,首先获取到样本网站图片,并对样本网站图片进行预处理以提高图片特征计算效率,然后基于预处理后的样本网站图片构建训练样本集。样本网站图片中包括目标类型图片和其他类型图片,其中目标类型图片为与不良网站相关的图片。
步骤S12:对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型。
本实施例中,通过对训练样本集中的每个样本网站图片进行SIFT特征检测以计算相应的SIFT特征向量,再将SIFT特征向量输入到全连接卷积神经网络模型中进行学习训练得到图片分类模型。上述将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型,包括:将所述SIFT特征向量输入至全连接卷积神经网络进行降维处理以得到降维后的目标特征向量;利用Softmax回归模型输出所述目标特征向量的图片分类结果,并将所述图片分类结果与所述样本网站图片的分类标签进行比对得到比对结果;基于所述比对结果调整模型残差以得到图片分类模型。可以理解的是,样本网站图片经过SIFT检测后得到N*128维的特征向量,其中N表示图片特征点个数,再将SIFT特征向量输入至一层全连接卷积神经网络输出得到32维的目标特征向量,实现降维处理;然后利用Softmax回归模型输出目标特征向量的图片分类结果,该图片分类结果具体为二分类概率分布结果,也即分类计算该样本网站图片是否属于目标类型图片,然后将图片分类结果与样本网站图片的分类标签进行比对得到比对结果,以便基于比对结果调整回归模型残差和趋近拟合以得到可以生产实际应用的图片分类模型。如此一来,结合卷积神经网络模型与残差回归模型,将SIFT特征向量结果转换输出得到二分类概率分布结果。由于SIFT特征的稳定且结果矩阵维度少,神经网络模型计算量小,对资源要求低,能满足生产实际应用中。相对于直接应用图片卷积网络模型计算,计算效率高,并且结果稳定。相比其他公开的方法,本申请中的目标网站识别方法能够做到接近实时,并且识别的准确率也达到95%以上。
步骤S13:获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
本实施例中,获取待识别网站图片,并将待识别网站图片输入上述得到的图片分类模型中以输出相应的图片分类概率分布,再基于图片概率分布确定出待识别网站的网站类型。上述基于所述图片分类概率分布确定出待识别网站的网站类型,包括:确定出所述图片分类概率分布中的概率最大值,并将所述概率最大值对应的图片类别确定为所述待识别网站图片的类别;基于所述待识别网站图片的类别确定出待识别网站中目标类型图片个数和总图片个数的目标比重,若所述目标比重大于预设阈值,则判定所述待识别网站为目标网站。可以理解的是,通过softmax回归模型拟合得到图片的二分类概率分布,比较概率值得到图片类别,具体为softmax回归模型可以将图片转化值为正且和为1的概率分布,并将概率最大值对应的图片类别确定为待识别网站图片的所属类别;然后基于待识别网站图片的类别确定出待识别网站中目标类型图片个数和总图片个数的目标比重。可以理解的是,一个待识别网站中可能有多张图片,其中可以一部分图片为目标类型图片,而其余部分图片为正常图片,那么通过确定出待识别网站中每一待识别网站图片的类别后,则确定出待识别网站中目标类型图片个数和总图片个数的目标比重,如果该目标比重大于预设阈值,则判定待识别网站为目标网站。其中,预设阈值可以设为经验值0.36,也即如果目标类型图片占总图片个数比重的0.36及其以上,则判定该待识别网站为目标网站。
可见,本申请对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。由此可见,本申请在获取到样本网站图片后,则对样本网站进行预处理并构建训练样本集,然后对样本网站图片进行SIFT特征检测得到SIFT特征向量,再将SIFT特征向量输入全连接卷积神经网络进行学习训练得到网站分类模型,最后利用网站分类模型对待识别网站图片进行识别分类得到相应的网站类型。上述方案通过将SIFT特征检测与卷积神经网络计算相结合,既利用了传统SIFT特征的局部稳定性,对图片的旋转、尺度缩放、亮度变化等保持特征不变性的特点,又利用了卷积神经网络计算量小,对计算资源要求低,具有实时性的特点,提高了目标网站的识别速度和识别的准确率,也即保证了目标网站识别的准确性和实时性。
参见图2和图3所示,本申请实施例公开了一种具体的目标网站识别方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体包括:
步骤S21:通过网络爬虫技术采集样本网站图片,按照预设尺寸大小对所述样本网站图片进行缩放处理,并对所述样本网站图片进行灰度处理,然后基于灰度处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片。
本实施例中,在采集样本网站图片时,具体用到了网络爬虫技术。并且对样本网站图片进行预处理或者初始化的具体方式为对样本网站图片进行缩放处理和灰度处理,本实施例采取将图片尺寸统一缩小到512*512,以及将图片RGB三通道转换为单通道的灰度图片。通过对图片进行初始化,减少了图片矩阵大小,并极大地减少了特征计算量。
步骤S22:对所述训练样本集中的每一所述样本网站图片进行尺度空间极值检测以确定出关键点,并对所述关键点进行拟合以确定出所述关键点的位置信息和尺度信息。
本实施例中,参见图4所示,在对训练样本集中的每一样本网站图片进行SIFT特征检测时,首先是对样本网站图片进行尺度空间极值检测以确定出候选关键点,再实现关键点精确定位。可以理解的是,通过尺度空间极值检测得到的是离散关键点,为了提高关键点精确性与稳定性,需要对尺度空间的DOG函数曲线拟合,以确定关键点的精确位置信息和尺度信息。
上述对所述训练样本集中的每一所述样本网站图片进行尺度空间极值检测以确定出关键点,包括:构建所述训练样本集中每一所述样本网站图片的高斯金字塔,并对所述高斯金字塔中的上下两层图像进行相减处理以得到高斯差分金字塔;基于所述高斯金字塔和所述高斯差分金字塔进行尺度空间极值检测以确定出关键点。可以理解的是,尺度空间极值检测的目的为了候选SIFT特征点,首先对样本网站图片构建高斯金字塔,高斯金字塔的每一层尺度空间是由样本网站图片不断降采样,然后与高斯核函数的乘积得到,表达式具体为:
Figure BDA0003798073000000091
L(x,y,δ)=G(x,y,δ)*I(x,y)
式中,I(x,y)表示源图片降采样后的图片,(x,y)分别表示图片像素的横纵坐标位置,G(x,y,δ)表示高斯核函数,δ表示尺度空间因子,大尺度对应图像的概貌特征,小尺度对应图像的细节特征,δ取经验值1.3。
然后利用图像高斯金字塔上下层相减,得到高斯差分金字塔,具体公式为:
D(x,y,δ)=[G(x,y,kδ)-G(x,y,δ)]*I(x,y)=L(x,y,kδ)-L(x,y,δ)
然后通过每个采样点与同尺度的8领域,与上下尺度的18领域像素值比较,得到极值点的候选关键点。
步骤S23:按照预设规则确定出所述关键点的方向信息,然后基于所述位置信息、所述尺度信息和所述方向信息生成所述关键点的描述向量,以得到SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型。
本实施例中,对关键点精确定位后,需要为关键点分配方向,使得SIFT特征具备旋转不变特性。上述按照预设规则确定出所述关键点的方向信息,具体包括:以所述关键点的位置坐标为中心点构建预设窗口半径大小的领域,并确定所述领域内每一像素点的梯度方向;基于每一所述像素点的梯度方向构建分布直方图,并将所述分布直方图的峰值确定为所述关键点的方向信息。具体的,以关键点的位置坐标为中心点,3δ为邻域的预设窗口半径大小,计算邻域内每个像素点的梯度方向:
Figure BDA0003798073000000092
用直方图统计各像素点梯度方向分布直方图,直方图划分为36个区间,选取分布直方图的峰值作为关键点的主方向,也即确定为关键点的方向信息。在获取到关键点的位置信息、尺度信息和方向信息后,即是SIFT特征点,以关键点邻域4*4个子区域,每个子区域得到8个方向,最后得到4*4*8=128维向量描述关键点,即得到SIFT特征向量。再将SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型。
步骤S24:获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
其中,关于上述步骤S24更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请为了解决传统的网站识别方法中识别准确率低、计算量大、计算效率低等问题,采用全连接卷积神经网络模型,为了使模型稳定,汲取传统SIFT特征尺度不变局部稳定特性,将SIFT特征向量作为卷积网络的输入,使卷积网络模型对待识别网站图片旋转、亮度变化、尺寸缩放场景具有稳定的输出,既能有效提高检测速度,又能保证检测结果准确稳定。
参见图5所示,本申请实施例公开了一种目标网站识别方法,该方法包括:
预处理模块11,用于对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;
SIFT特征检测模块12,用于对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量;
模型训练模块13,用于并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;
类型确定模块14,用于获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
可见,本申请对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。由此可见,本申请在获取到样本网站图片后,则对样本网站进行预处理并构建训练样本集,然后对样本网站图片进行SIFT特征检测得到SIFT特征向量,再将SIFT特征向量输入全连接卷积神经网络进行学习训练得到网站分类模型,最后利用网站分类模型对待识别网站图片进行识别分类得到相应的网站类型。上述方案通过将SIFT特征检测与卷积神经网络计算相结合,既利用了传统SIFT特征的局部稳定性,对图片的旋转、尺度缩放、亮度变化等保持特征不变性的特点,又利用了卷积神经网络计算量小,对计算资源要求低,具有实时性的特点,提高了目标网站的识别速度和识别的准确率,也即保证了目标网站识别的准确性和实时性。
图6为本申请实施例提供的一种电子设备的结构示意图。具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的由电子设备执行的目标网站识别方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的目标网站识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
进一步的,本申请实施例还公开了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的由目标网站识别过程中执行的方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种目标网站识别方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种目标网站识别方法,其特征在于,包括:
对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;
对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;
获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
2.根据权利要求1所述的目标网站识别方法,其特征在于,所述对获取到的样本网站图片进行预处理,包括:
通过网络爬虫技术采集样本网站图片;
按照预设尺寸大小对所述样本网站图片进行缩放处理,并对所述样本网站图片进行灰度处理。
3.根据权利要求1所述的目标网站识别方法,其特征在于,所述对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量,包括:
对所述训练样本集中的每一所述样本网站图片进行尺度空间极值检测以确定出关键点,并对所述关键点进行拟合以确定出所述关键点的位置信息和尺度信息;
按照预设规则确定出所述关键点的方向信息,然后基于所述位置信息、所述尺度信息和所述方向信息生成所述关键点的描述向量,以得到SIFT特征向量。
4.根据权利要求3所述的目标网站识别方法,其特征在于,所述对所述训练样本集中的每一所述样本网站图片进行尺度空间极值检测以确定出关键点,包括:
构建所述训练样本集中每一所述样本网站图片的高斯金字塔,并对所述高斯金字塔中的上下两层图像进行相减处理以得到高斯差分金字塔;
基于所述高斯金字塔和所述高斯差分金字塔进行尺度空间极值检测以确定出关键点。
5.根据权利要求3所述的目标网站识别方法,其特征在于,所述按照预设规则确定出所述关键点的方向信息,包括:
以所述关键点的位置坐标为中心点构建预设窗口半径大小的领域,并确定所述领域内每一像素点的梯度方向;
基于每一所述像素点的梯度方向构建分布直方图,并将所述分布直方图的峰值确定为所述关键点的方向信息。
6.根据权利要求1所述的目标网站识别方法,其特征在于,所述将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型,包括:
将所述SIFT特征向量输入至全连接卷积神经网络进行降维处理以得到降维后的目标特征向量;
利用Softmax回归模型输出所述目标特征向量的图片分类结果,并将所述图片分类结果与所述样本网站图片的分类标签进行比对得到比对结果;
基于所述比对结果调整模型残差以得到图片分类模型。
7.根据权利要求1至6任一项所述的目标网站识别方法,其特征在于,所述基于所述图片分类概率分布确定出待识别网站的网站类型,包括:
确定出所述图片分类概率分布中的概率最大值,并将所述概率最大值对应的图片类别确定为所述待识别网站图片的类别;
基于所述待识别网站图片的类别确定出待识别网站中目标类型图片个数和总图片个数的目标比重,若所述目标比重大于预设阈值,则判定所述待识别网站为目标网站。
8.一种目标网站识别装置,其特征在于,包括:
预处理模块,用于对获取到的样本网站图片进行预处理,并基于预处理后的所述样本网站图片构建训练样本集;其中,所述样本网站图片包括目标类型图片和其他类型图片;
SIFT特征检测模块,用于对所述训练样本集中每一所述样本网站图片进行SIFT特征检测以得到相应的SIFT特征向量;
模型训练模块,用于并将所述SIFT特征向量输入至全连接卷积神经网络中进行学习训练以得到图片分类模型;
类型确定模块,用于获取待识别网站图片,并将所述待识别网站图片输入所述图片分类模型以得到相应的图片分类概率分布,然后基于所述图片分类概率分布确定出待识别网站的网站类型。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的目标网站识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的目标网站识别方法的步骤。
CN202210974175.7A 2022-08-15 2022-08-15 一种目标网站识别方法、装置、设备及介质 Pending CN115359468A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210974175.7A CN115359468A (zh) 2022-08-15 2022-08-15 一种目标网站识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210974175.7A CN115359468A (zh) 2022-08-15 2022-08-15 一种目标网站识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115359468A true CN115359468A (zh) 2022-11-18

Family

ID=84033377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210974175.7A Pending CN115359468A (zh) 2022-08-15 2022-08-15 一种目标网站识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115359468A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633675A (zh) * 2024-01-25 2024-03-01 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633675A (zh) * 2024-01-25 2024-03-01 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统
CN117633675B (zh) * 2024-01-25 2024-04-30 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统

Similar Documents

Publication Publication Date Title
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN111598164B (zh) 识别目标对象的属性的方法、装置、电子设备和存储介质
CN110874618B (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN112016638B (zh) 一种钢筋簇的识别方法、装置、设备及存储介质
CN112949415A (zh) 图像处理方法、装置、设备和介质
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Zhang et al. Saliency detection via local structure propagation
CN113947188A (zh) 目标检测网络的训练方法和车辆检测方法
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
JP2023531759A (ja) 車線境界線検出モデルの訓練方法、車線境界線検出モデルの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
CN115359468A (zh) 一种目标网站识别方法、装置、设备及介质
CN111898544B (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN117173223A (zh) 电表断码屏的标准模板生成方法、装置、设备及介质
CN115424267A (zh) 基于高斯分布的旋转目标检测方法和装置
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN112926368B (zh) 一种识别障碍物的方法和装置
Liu et al. Extracting River Illegal Buildings from UAV Image Based on Deeplabv3+
CN113723093B (zh) 人员管理策略推荐方法、装置、计算机设备及存储介质
Ke Realization of Halcon Image Segmentation Algorithm in Machine Vision for Complex Scenarios
CN116468916A (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN116863259A (zh) 目标检测模型的训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination