CN111626309A - 一种基于深度学习的网站指纹识别方法 - Google Patents

一种基于深度学习的网站指纹识别方法 Download PDF

Info

Publication number
CN111626309A
CN111626309A CN202010455374.8A CN202010455374A CN111626309A CN 111626309 A CN111626309 A CN 111626309A CN 202010455374 A CN202010455374 A CN 202010455374A CN 111626309 A CN111626309 A CN 111626309A
Authority
CN
China
Prior art keywords
website
image
model
fingerprint identification
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010455374.8A
Other languages
English (en)
Inventor
董昊辰
方仁贵
高晓辉
郭路路
何晓刚
何召阳
李克萌
刘兵
王欣宇
郗朝旭
谢鑫
赵岱翀
周欢
朱伟光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moyun Technology Co ltd
Original Assignee
Beijing Moyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moyun Technology Co ltd filed Critical Beijing Moyun Technology Co ltd
Priority to CN202010455374.8A priority Critical patent/CN111626309A/zh
Publication of CN111626309A publication Critical patent/CN111626309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于深度学习的网站指纹识别方法,包含以下步骤:A、利用网页解析和渲染技术获取网站页面图片;B、提取图片特征,对图片进行预处理;C、构建降噪模型,对页面图片数据进行降噪;D、构建深度学习模型,对页面图片进行指纹识别;E、将模型输出转化为对应的指纹类型,输出指纹分类,本发明的有益效果是:1、无需进行大量规则匹配,检测效率高。2、模型训练后可复用,维护人工成本低。3、检测灵活性高,误报低4、专业人员水平要求低5、模型可移植性强。

Description

一种基于深度学习的网站指纹识别方法
技术领域
本发明涉及计算机技术领域,具体是一种基于深度学习的网站指纹识别方法。
背景技术
传统的网站指纹检测需要对网站进行发包,获取网站的响应结果。根据网站的响应页面源码、响应头关键字段信息、网站指定路径的页面响应结果、网页后缀、网站robots.txt协议内容、网站错误页面内容等信息,利用规则匹配判断某种指纹的关键特征是否存在于上述信息中,并最终返回检测结果。
因此,网站的指纹检测需要提取多处关键位置信息,并遍历数万条指纹规则,依照规则对信息进行匹配,才能从数千种网站指纹类型中准确的判断出目标网站的指纹类型。随着现在网站指纹的不断更新以及新型类型不断增加,传统网站识别缺点日渐突出。一方面,网站的指纹识别规则难以维护,需要随着互联网网站的不断更新而更新以及修改指纹识别规则,极其浪费人力资源成本,而且还可能存在遗漏、错写规则等问题,识别效果日渐衰退。另一方面,随着网站指纹的种类不断增加,指纹规则同样日趋增多,单次扫描目标所需要进行的指纹规则匹配次数也随之不断增多,使得网站指纹识别的效率越来越差。
此外,由于目标网站作者的防范意识,其对于网站关键特征点的改动也难以防范。一旦网站作者对目标网站规则特征点进行改动,基于规则匹配的指纹检测手段将会误报,严重影响检测结果。
发明内容
本发明的目的在于提供一种基于深度学习的网站指纹识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于深度学习的网站指纹识别方法,包含以下步骤:
A、利用网页解析和渲染技术获取网站页面图片;
B、提取图片特征,对图片进行预处理;
C、构建降噪模型,对页面图片数据进行降噪;
D、构建深度学习模型,对页面图片进行指纹识别;
E、将模型输出转化为对应的指纹类型,输出指纹分类。
作为本发明的进一步技术方案:所述步骤A具体是:利用网页解析和渲染技术对要进行指纹识别的目标网站进行截图,获取目标页面。
作为本发明的进一步技术方案:所述步骤B利用图像处理算法,首先对图片进行几何变化,确保目标图像的形态准确性,其次对目标图像进行二值化处理,利用算法确定图像二值化阈值,然后对图像进行平滑处理,模糊图像,最后利用特征提取算法对图像进行特征提取,将图片中的关键特征点提取出来。
作为本发明的进一步技术方案:所述步骤C具体是:针对步骤B特征提取后的图像,将图像数据转换为深度学习模型可学习的数组数据并进行数据预处理,将处理后的图像数据利用DAE模型对图像数据进行降噪,产出降噪后的图像数据。
作为本发明的进一步技术方案:所述步骤D具体是:将网站指纹分类的图像数据每种取几千张分类图片,利用步骤B以及步骤C的数据预处理方法转换为图像数组数据,输入至CNN模型,进行模型的训练并进行函数调优、参数调优,直至训练出效果最佳的网站指纹识别模型。
作为本发明的进一步技术方案:所述网站指纹识别模型可以输入处理后的网站图像输出网站指纹。
作为本发明的进一步技术方案:所述步骤E具体是:将目标网站的图像经过步骤A至步骤C获取并处理,将处理后的图像数据输入至网站指纹识别模型,输出目标网站的指纹类型。
与现有技术相比,本发明的有益效果是:1、无需进行大量规则匹配,检测效率高。2、模型训练后可复用,维护人工成本低。3、检测灵活性高,误报低4、专业人员水平要求低5、模型可移植性强。
附图说明
图1为基于深度学习的网站指纹识别方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于深度学习的网站指纹识别方法,包含以下步骤:
A、利用网页解析和渲染技术获取网站页面图片;
B、提取图片特征,对图片进行预处理;
C、构建降噪模型,对页面图片数据进行降噪;
D、构建深度学习模型,对页面图片进行指纹识别;
E、将模型输出转化为对应的指纹类型,输出指纹分类。
在上述第一步中,利用网页解析和渲染技术对要进行指纹识别的目标网站进行截图,获取目标页面。
在第二步中,需要利用图像处理算法,首先对图片进行几何变化,确保目标图像的形态准确性,其次对目标图像进行二值化处理,利用算法确定图像二值化阈值,然后对图像进行平滑处理,模糊图像。最后利用特征提取算法对图像进行特征提取,将图片中的关键特征点提取出来。
在第三步中,需要构建降噪模型,将图像数据转变为降噪数据。针对第二步特征提取后的图像,需要将图像数据转换为深度学习模型可学习的数组数据并进行数据预处理。将处理后的图像数据利用DAE(降噪自编码器)模型对图像数据进行降噪,产出降噪后的图像数据。
在第四步中,将网站指纹分类的图像数据每种取几千张分类图片,利用第二部以及第三步的数据预处理方法转换为图像数组数据,输入至CNN(卷积神经网络)模型,进行模型的训练并进行函数调优、参数调优,直至训练出效果最佳的网站指纹识别模型。该模型可以输入处理后的网站图像输出网站指纹。
在第五步中,将目标网站的图像经过第一至三步获取并处理,将处理后的图像数据输入至网站指纹识别模型,输出目标网站的指纹类型。
本方案提出了一种基于深度学习的网站指纹识别技术方案,该方案将目标网站的页面图片信息截取,利用图像特征提取技术对图像进行预处理,然后将图像利用深度学习模型进行识别,输入目标网站的指纹类型。该方案完全脱离了基于规则匹配的传统网站指纹识别方法,无需对大量指纹规则一一校验,无需大量网站发包请求,具有检测速度快,精度高,成本低等特点。
1、向web应用服务器发送基于规则语句描述构建的漏洞扫描请求;
在系统的规则库中内置已经构建好的向应用服务器发送请求的规则参数,例ECN(R=Y%DF=Y%T=3B-45%TG=40%W=3908%O=M548NNSNW7%CC=Y%Q=),规则是根据不同的漏洞、不同的应用场景安全专家进行构建的。每项规则的值都是 K-V 形式,K 是规则相关参所的名字,而V 具体规每个规则参数对应的值。
2、接受所述web应用服务器对于所述漏洞扫描http请求的响应结果;
根据构造含有规则的请求参数向web应用服务器发送请求,服务器会根据的请求返回相应的响应结果,如响应状态码、错误页面、响应内容、headers信等内容。
3、基于规则中的扫描策略信息,对所述响应结果进行匹配得到匹配结果;
系统中根据安全专家的经验会内置响应结果匹配的规则。响应的匹配规则如下:httpm|^HTTP/1\.[01] \d\d\d.*\r\nServer: nginx/([\d.]+)\r\n|s p/nginx/ v/$1/ cpe:/a:igor_sysoev:nginx:$1/,请求参数得到的响应内容都会对响应的规则进行匹配,用以得到对应的结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于深度学习的网站指纹识别方法,其特征在于,包含以下步骤:
A、利用网页解析和渲染技术获取网站页面图片;
B、提取图片特征,对图片进行预处理;
C、构建降噪模型,对页面图片数据进行降噪;
D、构建深度学习模型,对页面图片进行指纹识别;
E、将模型输出转化为对应的指纹类型,输出指纹分类。
2.根据权利要求1所述的一种基于深度学习的网站指纹识别方法,其特征在于,所述步骤A具体是:利用网页解析和渲染技术对要进行指纹识别的目标网站进行截图,获取目标页面。
3.根据权利要求1所述的一种基于深度学习的网站指纹识别方法,其特征在于,所述步骤B利用图像处理算法,首先对图片进行几何变化,确保目标图像的形态准确性,其次对目标图像进行二值化处理,利用算法确定图像二值化阈值,然后对图像进行平滑处理,模糊图像,最后利用特征提取算法对图像进行特征提取,将图片中的关键特征点提取出来。
4.根据权利要求1所述的一种基于深度学习的网站指纹识别方法,其特征在于,所述步骤C具体是:针对步骤B特征提取后的图像,将图像数据转换为深度学习模型可学习的数组数据并进行数据预处理,将处理后的图像数据利用DAE模型对图像数据进行降噪,产出降噪后的图像数据。
5.根据权利要求1所述的一种基于深度学习的网站指纹识别方法,其特征在于,所述步骤D具体是:将网站指纹分类的图像数据每种取几千张分类图片,利用步骤B以及步骤C的数据预处理方法转换为图像数组数据,输入至CNN模型,进行模型的训练并进行函数调优、参数调优,直至训练出效果最佳的网站指纹识别模型。
6.根据权利要求5所述的一种基于深度学习的网站指纹识别方法,其特征在于,所述网站指纹识别模型可以输入处理后的网站图像输出网站指纹。
7.根据权利要求1-6任一所述的一种基于深度学习的网站指纹识别方法,其特征在于,所述步骤E具体是:将目标网站的图像经过步骤A至步骤C获取并处理,将处理后的图像数据输入至网站指纹识别模型,输出目标网站的指纹类型。
CN202010455374.8A 2020-05-26 2020-05-26 一种基于深度学习的网站指纹识别方法 Pending CN111626309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010455374.8A CN111626309A (zh) 2020-05-26 2020-05-26 一种基于深度学习的网站指纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010455374.8A CN111626309A (zh) 2020-05-26 2020-05-26 一种基于深度学习的网站指纹识别方法

Publications (1)

Publication Number Publication Date
CN111626309A true CN111626309A (zh) 2020-09-04

Family

ID=72260004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010455374.8A Pending CN111626309A (zh) 2020-05-26 2020-05-26 一种基于深度学习的网站指纹识别方法

Country Status (1)

Country Link
CN (1) CN111626309A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130124911A (ko) * 2012-05-07 2013-11-15 주식회사 마크애니 디지털 핑거프린팅을 이용한 정보 제공 시스템 및 방법
US9479519B1 (en) * 2014-12-18 2016-10-25 Amazon Technologies, Inc. Web content fingerprint analysis to detect web page issues
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测系统及方法
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108650260A (zh) * 2018-05-09 2018-10-12 北京邮电大学 一种恶意网站的识别方法和装置
CN108921184A (zh) * 2018-04-18 2018-11-30 中国科学院信息工程研究所 一种通用的网页类型判定方法
CN109583567A (zh) * 2018-11-29 2019-04-05 四川大学 一种基于CNN的Web自动扫描器指纹识别模型
CN109933975A (zh) * 2019-03-20 2019-06-25 山东浪潮云信息技术有限公司 一种基于深度学习的验证码识别方法及系统
CN110909807A (zh) * 2019-11-26 2020-03-24 深圳市信联征信有限公司 基于深度学习的网络验证码识别方法、装置及计算机设备
CN110958225A (zh) * 2019-11-08 2020-04-03 杭州安恒信息技术股份有限公司 基于流量识别网站指纹的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130124911A (ko) * 2012-05-07 2013-11-15 주식회사 마크애니 디지털 핑거프린팅을 이용한 정보 제공 시스템 및 방법
US9479519B1 (en) * 2014-12-18 2016-10-25 Amazon Technologies, Inc. Web content fingerprint analysis to detect web page issues
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测系统及方法
CN108921184A (zh) * 2018-04-18 2018-11-30 中国科学院信息工程研究所 一种通用的网页类型判定方法
CN108650260A (zh) * 2018-05-09 2018-10-12 北京邮电大学 一种恶意网站的识别方法和装置
CN109583567A (zh) * 2018-11-29 2019-04-05 四川大学 一种基于CNN的Web自动扫描器指纹识别模型
CN109933975A (zh) * 2019-03-20 2019-06-25 山东浪潮云信息技术有限公司 一种基于深度学习的验证码识别方法及系统
CN110958225A (zh) * 2019-11-08 2020-04-03 杭州安恒信息技术股份有限公司 基于流量识别网站指纹的方法
CN110909807A (zh) * 2019-11-26 2020-03-24 深圳市信联征信有限公司 基于深度学习的网络验证码识别方法、装置及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIRINAM, P,ETC: "Deep Fingerprinting: Undermining Website Fingerprinting Defenses with Deep Learning", 《PROCEEDINGS OF THE 2018 ACM SIGSAC CONFERENCE ON COMPUTER AND COMMUNICATIONS SECURITY》 *
张道维: "基于图像纹理的网站指纹技术", 《计算机应用》 *
邹鸿程: "网站指纹识别与防御研究综述", 《计算机学报 》 *

Similar Documents

Publication Publication Date Title
CN110210617B (zh) 一种基于特征增强的对抗样本生成方法及生成装置
CN105426356B (zh) 一种目标信息识别方法和装置
CN111191695A (zh) 一种基于深度学习的网站图片篡改检测方法
CN112862024B (zh) 一种文本识别方法及系统
CA3168501A1 (en) Machine learned structured data extraction from document image
CN116311214B (zh) 车牌识别方法和装置
CN112199569A (zh) 一种违禁网址识别方法、系统、计算机设备及存储介质
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN111626309A (zh) 一种基于深度学习的网站指纹识别方法
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
Tanniru et al. Online Fake Logo Detection System
CN115392238A (zh) 一种设备识别方法、装置、设备及可读存储介质
US20220044048A1 (en) System and method to recognise characters from an image
CN113947195A (zh) 模型确定方法、装置、电子设备和存储器
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
Barsellotti et al. Enhancing Open-Vocabulary Semantic Segmentation with Prototype Retrieval
CN108021918B (zh) 文字识别方法及装置
CN108694347B (zh) 图像处理方法和装置
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity
CN111783781A (zh) 基于产品协议字符识别的恶意条款识别方法、装置、设备
CN110674497B (zh) 一种恶意程序相似度计算的方法和装置
CN116775889B (zh) 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904

RJ01 Rejection of invention patent application after publication