CN112445997A - 一种提取cms多版本识别特征规则的方法及装置 - Google Patents
一种提取cms多版本识别特征规则的方法及装置 Download PDFInfo
- Publication number
- CN112445997A CN112445997A CN202011473252.8A CN202011473252A CN112445997A CN 112445997 A CN112445997 A CN 112445997A CN 202011473252 A CN202011473252 A CN 202011473252A CN 112445997 A CN112445997 A CN 112445997A
- Authority
- CN
- China
- Prior art keywords
- cms
- files
- feature
- version
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
Abstract
本发明公开了一种提取CMS多版本识别特征规则的方法及装置,属于网站管理技术领域,提取方法包括以下步骤:S1、采集下载CMS不同版本的源码程序,保存为CMS版本与源码包对应的文件;S2、获取每个版本CMS源码文件中的静态文件并计算出md5值,保存为对应版本的初始化CMS特征集;S3、在不同版本CMS特征集中筛选出具有相同路径且md5值不同的静态文件,作为CMS特征文件;S4、存储CMS特征文件的CMS名称、URL路径以及文件md5值,作为CMS源码的识别规则。通过智能查找并计算静态文件对应的md5值,提升了搜集效率,并且通过筛选CMS特征集中的相同路径不同md5值的文件进行优化,找到版本识别的唯一性文件,实现CMS多版本识别特征规则的提取。
Description
技术领域
本发明涉及网站管理技术领域,特别涉及一种提取CMS多版本识别特征规则的方法及装置。
背景技术
内容管理系统,英文全称:Content Management System,英文缩写为CMS。内容管理系统是一种运行于服务器端的编程语言对网站的栏目、内容以及模板进行管理和维护的系统。随着互联网的持续发展,如今CMS的种类越来越多,各CMS的版本迭代也越来越丰富,开发者不再需要从零开始开发一个网站,只需从网上下载需要的开源建站程序即可快速建站,所以互联网中存在着大量使用CMS搭建的网站;而在网络安全中,识别一个网站使用了何种CMS程序且知道CMS程序版本对于安全测试工作有着重要影响,通过精准识别CMS及版本可以大大缩减安全测试环节中工作量。
一般识别网站的web指纹的方法为:识别首页内容是否包含某关键词、判断某页面是否包含某关键词、判断网站的某静态文件的md5是否为预期值等方法。传统的web指纹规则的搜集的方法为:明确某网站为某开源建站程序,通过寻找某静态文件为该程序特有的文件,如该品牌建站程序的logo图片、js或css文件中包含了该品牌的名称,即该文件为该程序特有的文件,可以定义为该文件的URL绝对路径即为该建站程序的特征文件路径,该文件的md5值即为该建站程序的特征值,特征文件路径+特征值+该品牌的建站程序,组成了一个web指纹识别规则。
随着互联网上的CMS种类日益增多,如何快速丰富识别web指纹识别的规则库成为了提升web指纹识别效率的关键,传统的方法为手动寻找特征文件路径,但效率非常低:需要基于经验从网页源码中寻找特征文件,并且大多数特征文件都处于网站程序的特殊目录,所查看的网页可能并没有加载该特征文件;且精度差:很容易出现寻找的特征文件并非该建站程序独有,所以导致识别误报率较高。
发明内容
本发明的目的就在于为了解决上述CMS手动寻找特征文件路径,效率低下,且精度差的问题而提供一种提取CMS多版本识别特征规则的方法及装置,具有搜寻特征文件效率高,且识别规则准确率高的优点。
本发明通过以下技术方案来实现上述目的,一种提取CMS多版本识别特征规则的方法,包括以下步骤:
S1、采集下载CMS不同版本的源码程序,保存为CMS版本与源码包对应的文件;
S2、获取每个版本CMS源码文件中的静态文件并计算出md5值,保存为对应版本的初始化CMS特征集;
S3、在不同版本CMS特征集中筛选出具有相同路径且md5值不同的静态文件,作为CMS特征文件;
S4、存储CMS特征文件的CMS名称、URL路径以及文件md5值,作为CMS源码的识别规则。
优选的,所述静态文件为js文件、css文件、txt文件、md文件和/或图片文件。
优选的,所述CMS特征集中删除与CMS通用文件库中相同的文件。
优选的,所述CMS特征文件筛选的方法为:
S301、将不同版本的CMS特征集按照版本时间排序;
S302、选择第一个版本CMS特征集中的文件依次与其他版本的CMS特征集中相同路径的文件进行md5值对比;
S303、在其他版本特征集中寻找到相同路径,且md5值不相同的文件,输出该文件作为CMS版本特征文件;
S304、选择第二版本CMS特征集中的文件重复对比,输出CMS版本特征文件,直到所有版本的CMS特征文件。
一种提取CMS多版本识别特征规则的装置,包括:
源码下载模块,用于下载CMS所有版本源码程序源码;
特征集提取模块,用于提取CMS源码文件中的静态文件并计算出md5值;
特征优化模块,用于筛选出具有相同路径且md5值不同的静态文件作为CMS特征文件;
存储模块,用于存储初始化特征集和优化后的特征集。
与现有技术相比,本发明的有益效果是:通过智能查找并计算静态文件对应的md5值,提升了搜集效率,并且通过筛选CMS特征集中的相同路径不同md5值的文件进行优化,找到版本识别的唯一性文件,实现CMS多版本识别特征规则的提取,大大提高了规则识别的精准率。
附图说明
图1为本发明的识别特征规则提取方法流程图。
图2为本发明的CMS特征文件筛选方法流程图。
图3为本发明的识别特征规则提取系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1所示,一种提取CMS多版本识别特征规则的方法,包括以下步骤:
S1、采集下载CMS不同版本的源码程序,保存为CMS版本与源码包对应的文件,从互联网上各大开源程序发布平台采集并下载开源CMS所有版本的源码包,并进行解压,其中CMS名称与各版本源码包目录需要形成对应关系,一个文件夹包含一个CMS某一版本的源码。
S2、获取每个版本CMS源码文件中的静态文件并计算出md5值,保存为对应版本的初始化CMS特征集,所述静态文件为js文件、css文件、txt文件、md文件和/或图片文件,遍历解压后的CMS程序文件夹,以程序根目录为起点为根目录,找到所有后缀是以.js、.css、.txt和.md的文件或图片文件,图片文件后缀包含但不限于:.jpg、.png、.jpeg、.ico、.gif,并且计算每个文件的md5值,形
成该CMS的特征集,所述CMS特征集中删除与CMS通用文件库中相同的文件,通用文件库:收集下载大量不同CMS程序源码包,解压,将文件包中各文件计算md5值,不同CMS中存在md5值相同的(既md5相同的数量大于等于2)可视为通用文件,收录通用文件库。
如图2所示,S3、在不同版本CMS特征集中筛选出具有相同路径且md5值不同的静态文件,作为CMS特征文件,所述CMS特征文件筛选的方法为:
S301、将不同版本的CMS特征集按照版本时间排序;
S302、选择第一个版本CMS特征集中的文件依次与其他版本的CMS特征集中相同路径的文件进行md5值对比;
S303、在其他版本特征集中寻找到相同路径,且md5值不相同的文件,输出该文件作为CMS版本特征文件;
S304、选择第二版本CMS特征集中的文件重复对比,输出CMS版本特征文件,直到所有版本的CMS特征文件。
S4、存储CMS特征文件的CMS名称、URL路径以及文件md5值,作为CMS源码的识别规则。
如图3所示,一种提取CMS多版本识别特征规则的装置,包括:
源码下载模块,用于下载CMS所有版本源码程序源码;
特征集提取模块,用于提取CMS源码文件中的静态文件并计算出md5值;
特征优化模块,用于筛选出具有相同路径且md5值不同的静态文件作为CMS特征文件;
存储模块,用于存储初始化特征集和优化后的特征集。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种提取CMS多版本识别特征规则的方法,其特征在于,包括以下步骤:
S1、采集下载CMS不同版本的源码程序,保存为CMS版本与源码包对应的文件;
S2、获取每个版本CMS源码文件中的静态文件并计算出md5值,保存为对应版本的初始化CMS特征集;
S3、在不同版本CMS特征集中筛选出具有相同路径且md5值不同的静态文件,作为CMS特征文件;
S4、存储CMS特征文件的CMS名称、URL路径以及文件md5值,作为CMS源码的识别规则。
2.根据权利要求1所述的一种提取CMS多版本识别特征规则的方法,其特征在于,所述静态文件为js文件、css文件、txt文件、md文件和/或图片文件。
3.根据权利要求1所述的一种提取CMS多版本识别特征规则的方法,其特征在于,所述CMS特征集中删除与CMS通用文件库中相同的文件。
4.根据权利要求1所述的一种提取CMS多版本识别特征规则的方法及装置,其特征在于,所述CMS特征文件筛选的方法为:
S301、将不同版本的CMS特征集按照版本时间排序;
S302、选择第一个版本CMS特征集中的文件依次与其他版本的CMS特征集中相同路径的文件进行md5值对比;
S303、在其他版本特征集中寻找到相同路径,且md5值不相同的文件,输出该文件作为CMS版本特征文件;
S304、选择第二版本CMS特征集中的文件重复对比,输出CMS版本特征文件,直到所有版本的CMS特征文件。
5.根据权利要求1-4任一项所述的一种提取CMS多版本识别特征规则的装置,其特征在于,包括:
源码下载模块,用于下载CMS所有版本源码程序源码;
特征集提取模块,用于提取CMS源码文件中的静态文件并计算出md5值;
特征优化模块,用于筛选出具有相同路径且md5值不同的静态文件作为CMS特征文件;
存储模块,用于存储初始化特征集和优化后的特征集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473252.8A CN112445997A (zh) | 2020-12-15 | 2020-12-15 | 一种提取cms多版本识别特征规则的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473252.8A CN112445997A (zh) | 2020-12-15 | 2020-12-15 | 一种提取cms多版本识别特征规则的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112445997A true CN112445997A (zh) | 2021-03-05 |
Family
ID=74739379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011473252.8A Pending CN112445997A (zh) | 2020-12-15 | 2020-12-15 | 一种提取cms多版本识别特征规则的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112445997A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127049A (zh) * | 2021-04-22 | 2021-07-16 | 安徽三实信息技术服务有限公司 | 一种基于程序源码的程序组成及版本识别特征规则获取方法及装置 |
CN113127355A (zh) * | 2021-04-22 | 2021-07-16 | 安徽三实信息技术服务有限公司 | 一种分析识别第三方组件程序及版本的方法及装置 |
CN114422199A (zh) * | 2021-12-28 | 2022-04-29 | 中国电信股份有限公司 | 一种cms识别方法及装置 |
CN116991978A (zh) * | 2023-09-26 | 2023-11-03 | 杭州今元标矩科技有限公司 | 一种cms碎片特征提取方法、系统、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593406A (zh) * | 2013-10-17 | 2014-02-19 | 北京奇虎科技有限公司 | 一种静态资源标识处理方法及装置 |
CN110348219A (zh) * | 2019-06-13 | 2019-10-18 | 晶晨半导体(上海)股份有限公司 | 版本比对方法、系统、计算机设备及可读存储介质 |
CN110489701A (zh) * | 2019-08-19 | 2019-11-22 | 安徽三实信息技术服务有限公司 | 提取cms识别特征的方法、装置及cms识别方法 |
CN111008405A (zh) * | 2019-12-06 | 2020-04-14 | 杭州安恒信息技术股份有限公司 | 一种基于文件Hash的网站指纹识别方法 |
-
2020
- 2020-12-15 CN CN202011473252.8A patent/CN112445997A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593406A (zh) * | 2013-10-17 | 2014-02-19 | 北京奇虎科技有限公司 | 一种静态资源标识处理方法及装置 |
CN110348219A (zh) * | 2019-06-13 | 2019-10-18 | 晶晨半导体(上海)股份有限公司 | 版本比对方法、系统、计算机设备及可读存储介质 |
CN110489701A (zh) * | 2019-08-19 | 2019-11-22 | 安徽三实信息技术服务有限公司 | 提取cms识别特征的方法、装置及cms识别方法 |
CN111008405A (zh) * | 2019-12-06 | 2020-04-14 | 杭州安恒信息技术股份有限公司 | 一种基于文件Hash的网站指纹识别方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127049A (zh) * | 2021-04-22 | 2021-07-16 | 安徽三实信息技术服务有限公司 | 一种基于程序源码的程序组成及版本识别特征规则获取方法及装置 |
CN113127355A (zh) * | 2021-04-22 | 2021-07-16 | 安徽三实信息技术服务有限公司 | 一种分析识别第三方组件程序及版本的方法及装置 |
CN114422199A (zh) * | 2021-12-28 | 2022-04-29 | 中国电信股份有限公司 | 一种cms识别方法及装置 |
CN114422199B (zh) * | 2021-12-28 | 2024-04-16 | 中国电信股份有限公司 | 一种cms识别方法及装置 |
CN116991978A (zh) * | 2023-09-26 | 2023-11-03 | 杭州今元标矩科技有限公司 | 一种cms碎片特征提取方法、系统、电子设备及存储介质 |
CN116991978B (zh) * | 2023-09-26 | 2024-01-02 | 杭州今元标矩科技有限公司 | 一种cms碎片特征提取方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112445997A (zh) | 一种提取cms多版本识别特征规则的方法及装置 | |
US9448999B2 (en) | Method and device to detect similar documents | |
US7818303B2 (en) | Web graph compression through scalable pattern mining | |
US7505984B1 (en) | Systems and methods for information extraction | |
CN108021598B (zh) | 页面抽取模板匹配方法、装置及服务器 | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN107885873B (zh) | 用于输出信息的方法和装置 | |
CN108073815B (zh) | 基于代码切片的家族判定方法、系统及存储介质 | |
CN110489701A (zh) | 提取cms识别特征的方法、装置及cms识别方法 | |
CN101950312A (zh) | 一种互联网网页内容解析方法 | |
CN106156098B (zh) | 一种纠错对挖掘方法及系统 | |
CN102508901A (zh) | 基于内容的海量图像检索方法和系统 | |
CN111562920A (zh) | 小程序代码相似度确定方法、装置、服务器及存储介质 | |
CN112434250B (zh) | 一种基于在线网站的cms识别特征规则提取方法 | |
KR19990070968A (ko) | 인터넷 자료 검색 및 데이터베이스화 방법 | |
CN116126997B (zh) | 一种文献去重存储方法、系统、设备及存储介质 | |
CN113806647A (zh) | 识别开发框架的方法及相关设备 | |
CN109614535B (zh) | 一种基于Scrapy框架的网络数据的采集方法及装置 | |
CN115437930B (zh) | 网页应用指纹信息的识别方法及相关设备 | |
US10380195B1 (en) | Grouping documents by content similarity | |
CN110764781B (zh) | 一种自动解析论坛网站数据的方法 | |
CN104281693A (zh) | 一种语义搜索方法及系统 | |
CN108009171B (zh) | 一种提取内容数据的方法和装置 | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN112752165A (zh) | 字幕处理方法、装置、服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |