CN109697267B - Cms识别方法及装置 - Google Patents

Cms识别方法及装置 Download PDF

Info

Publication number
CN109697267B
CN109697267B CN201811515687.7A CN201811515687A CN109697267B CN 109697267 B CN109697267 B CN 109697267B CN 201811515687 A CN201811515687 A CN 201811515687A CN 109697267 B CN109697267 B CN 109697267B
Authority
CN
China
Prior art keywords
cms
word segmentation
target
programs
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811515687.7A
Other languages
English (en)
Other versions
CN109697267A (zh
Inventor
刘浩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Clover Cyber Technology Co ltd
Original Assignee
Xi'an Clover Cyber Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Clover Cyber Technology Co ltd filed Critical Xi'an Clover Cyber Technology Co ltd
Priority to CN201811515687.7A priority Critical patent/CN109697267B/zh
Publication of CN109697267A publication Critical patent/CN109697267A/zh
Application granted granted Critical
Publication of CN109697267B publication Critical patent/CN109697267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本公开提供一种CMS识别方法及装置,涉及网络安全技术领域,能够解决B的问题。具体技术方案为:获取目标网站的网页内容;对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。本公开用于网站CMS识别。

Description

CMS识别方法及装置
技术领域
本公开涉及网络安全技术领域,尤其涉及CMS识别方法及装置。
背景技术
内容管理系统,即Content Management System,英文缩写是CMS。网站CMS通常包括实现不同功能的多个CMS程序。
识别CMS使用了哪些CMS程序,在网络安全中是一个至关重要的环节。通过识别网站的CMS程序可以大大缩减网络安全人员需要测试的安全问题的范围,因而至关重要。
相关技术中,通过访问目标网站的某个特殊链接请求获取某个CMS程序的指纹,将网站返回的结果与预期的指纹相比对,二者匹配则判定该网站包括该CMS程序。
CMS指纹识别的缺点在于,针对不同的CMS程序,需要分别向目标网站发送访问请求。如果要针对大量的CMS程序分别进行CMS指纹识别,需要向目标网站发送大量访问请求,不但测试效率低耗时长,且占用被测网站的服务带宽可能影响其正常业务。
发明内容
本公开实施例提供一种CMS识别方法及装置,能够解决B的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供一种CMS识别方法,该方法包括:
获取目标网站的网页内容;
对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;
获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;
从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。
本公开提供的技术方案,从目标网站提取得到分词特征,即目标分词特征,从K种CMS程序所对应的K个分词特征中,筛选出与目标分词特征相似度超过预设阈值的部分,即S个相似分词特征,从S个相似分词特征对应的S个CMS程序中确定目标网站所应用的CMS程序,从而通过比较分词特征相似度,将考察范围从K种CMS程序缩小到S种,无需逐一验证K个CMS程序的指纹,从而减少了对目标网站的访问次数,提高了CMS识别的效率。
在一个实施例中,所述从S个候选CMS程序中确定所述目标网站所应用的CMS程序,包括:
向所述目标网站发送请求信息并接收所述目标网站返回的响应信息,所述请求信息用于向所述目标网站请求获取目标CMS程序的特异信息,所述目标CMS程序为所述S个候选CMS程序中任一;
在确定所述响应信息与预存储的所述目标CMS的指纹相匹配时,确定所述目标网站所应用的CMS程序包括所述目标CMS程序。
从K个分词特征中筛选出相似度较高的部分,即S个相似分词特征。针对这部分所对应的CMS程序进行指纹验证,对于相似度低的部分对应的CMS程序无需进行指纹验证,从而减少了对目标网站的访问次数,提高了CMS识别的效率。
在一个实施例中,还包括:
获取K种CMS程序各自对应的指纹;
将所述K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
将每种CMS程序对应的分词特征和指纹关联存储,在确定一种CMS程序对应的分词特征与目标分词特征相似时,进一步根据关联存储的指纹进行验证,达到准确识别CMS的效果。
在一个实施例中,所述所述获取K种CMS程序所对应的K个分词特征,包括:
获取N个样本网站的网页内容,N≥1,所述N个样本网站所应用的CMS程序均包括参考CMS程序,所述参考CMS程序为所述K种CMS程序中任一;
对所述N个样本网站的网页内容进行文本分词得到N个参考分词集合;
根据所述N个参考分词集合生成所述参考CMS程序所对应的分词特征。
针对应用参照CMS程序的N个样本网站,对其网页内容进行分词,得到N个参考分词集合,N的取值越大,即所提取的网站样本越多,越助于提高参照CMS程序对应分词特征的准确性。
在一个实施例中,所述根据所述N个参考分词集合生成所述参考CMS程序所对应的分词特征,包括:
确定所述N个参考分词集合中的共有分词,所述共有分词为至少两个参考分词集合所共有的分词;
将所述共有分词添加到所述目标CMS程序所对应的分词特征中。
将在两个或以上分词集合中重复出现的分词特征加入目标CMS程序所对应的分词特征,即将与目标CMS程序关联性较强的分词特征加入分词特征,可提高筛选得到候选CMS程序的准确性。
根据本公开实施例的第二方面,提供一种CMS识别装置,包括:
接口模块,用于获取目标网站的网页内容;
分词模块,用于对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;
处理模块,用于获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;
识别模块,用于从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。
在一个实施例中,所述识别模块包括:
测试子模块,用于向所述目标网站发送请求信息并接收所述目标网站返回的响应信息,所述请求信息用于向所述目标网站请求获取目标CMS程序的特异信息,所述目标CMS程序为所述S个候选CMS程序中任一;
验证子模块,用于在确定所述响应信息与预存储的所述目标CMS的指纹相匹配时,确定所述目标网站所应用的CMS程序包括所述目标CMS程序。
在一个实施例中,其特征在于,
所述验证子模块,用于获取K种CMS程序各自对应的指纹;将所述K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
在一个实施例中,所述接口模块,用于获取N个样本网站的网页内容,N≥1,所述N个样本网站所应用的CMS程序均包括参考CMS程序,所述参考CMS程序为所述K种CMS程序中任一;
所述分词模块,用于对所述N个样本网站的网页内容进行文本分词得到N个参考分词集合;
所述处理模块,用于根据所述N个参考分词集合生成所述参考CMS程序所对应的分词特征。
在一个实施例中,所述处理模块,用于确定所述N个参考分词集合中的共有分词,将所述共有分词添加到所述目标CMS程序所对应的分词特征中;
其中,所述共有分词为至少两个参考分词集合所共有的分词。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,处理器被配置为:
获取目标网站的网页内容;
对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;
获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;
从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面所提供的CMS识别方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例提供的一种CMS识别方法的流程图;
图2是本公开实施例提供的一种CMS识别方法的流程图;
图3是本公开实施例提供的一种CMS识别装置的结构图;
图4是本公开实施例提供的一种CMS识别装置的结构图;
图5是本公开实施例提供的一种电子设备的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
要针对大量的CMS程序分别进行CMS指纹识别时,需要向目标网站发送大量访问请求,导致CMS识别耗时长效率低,并需占用目标网站的服务带宽。
本公开的实施例提供的CMS识别方法,通过计算目标网站分词特征与若干种分词特征之间的相似度,排除可能性低的CMS程序,保留可能性高的CMS程序,起到模糊识别的作用。对模糊识别的结果,可以进一步通过指纹验证达到精确识别,从而减少访问次数,提高识别效率。
本公开实施例提供一种CMS识别方法,应用于CMS识别装置,该装置可应用于服务器、网络终端等各种计算机设备。如图1所示,该CMS识别方法包括以下步骤:
101、获取目标网站的网页内容。
目标网站可以为任一网站,可通过向目标网站发起超文本传输协议(英文全称:HyperText Transfer Protocol,英文简称:HTTP)请求,获取到目标网站返回的网页内容。网页内容可包括目标网站一个或多个网页的内容。
102、对网页内容进行文本分词得到网页内容对应的目标分词特征。
对目标网站的网页内容进行文本分词,得到若干分词。为便于描述,将这些分词构成的集合称为目标分词特征。
本公开的实施例中,对目标分词特征以及后文出现的其他分词特征所包括的分词数量不做限定。
103、从K个分词特征中筛选出相似分词特征。
参照表1所示,在一个实施例中,一种CMS程序对应一个分词特征。以CMS1为例,分词特征1可以为从若干应用CMS1的样本网站提取得到的分词特征。
相似分词特征为在K个分词特征中,与目标分词特征的相似度超过预设阈值的部分或者全部。相似分词特征的数量为S。
K种CMS程序 K个分词特征 S个相似分词特征
CMS1 分词特征1
CMS2 分词特征2
CMS3 分词特征3
…… …… ……
表1
在一个实施例中,逐一计算目标分词特征与K个分词特征的相似度,确定与目标分词特征的相似度超过预设阈值S个分词特征,作为S个相似分词特征。可选的,可建立分类模型,通过监督学习方式训练分类模型,提取K种CMS程序对应的K个分词特征,并计算目标分词特征与K个分词特征的相似度。
相似度可通过欧氏距离、曼哈顿距离、余弦相似度等参数表示,本公开对于计算相似度的具体算法不做限定。
104、从候选CMS程序中确定目标网站所应用的CMS程序。
候选CMS程序为相似分词特征所对应的CMS程序。参照表1,相似分词特征的数量为2,候选CMS程序包括CMS1和CMS3。
在一个实施例中,候选CMS程序作为模糊识别得到的结果,确定目标网站应用的CMS程序包括CMS1和CMS3。网络安全人员可针对这两种CMS程序测试目标网站的安全问题。可选的,对模糊识别得到的结果可进一步做指纹验证,即分别对CMS1和CMS3做指纹验证,从而达到精确识别CMS的目的。
本公开实施例提供的CMS识别方法,从目标网站提取得到分词特征,即目标分词特征,从K种CMS程序所对应的K个分词特征中,筛选出与目标分词特征相似度超过预设阈值的部分,即S个相似分词特征,从S个相似分词特征对应的S个CMS程序中确定目标网站所应用的CMS程序,从而通过比较分词特征相似度,将考察范围从K种CMS程序缩小到S种,无需逐一验证K个CMS程序的指纹,从而减少了对目标网站的访问次数,提高了CMS识别的效率。
基于上述图1对应的实施例提供的CMS识别方法,本公开另一实施例对CMS识别方法做了进一步补充说明。本实施例以模糊识别和指纹识别相结合的情形为例进行说明。其中部分步骤中的内容与图1对应的实施例中的步骤相同或类似,以下只对步骤中不同之处做详细说明。
参照图2所示,本实施例提供的CMS识别方法包括以下步骤:
201、获取N个样本网站的网页内容。
样本网站所应用的CMS程序均包括参考CMS程序。参考CMS程序可以为K种CMS程序中任一。参照表1所示,参考CMS程序可以为表1第一列中所列举的任一CMS程序。
样本网站的数量为N,N为大于或者等于1的整数。
通过向目标网站发起HTTP请求,获取到每个样本网站至少一个网页的网页内容。
202、对N个样本网站的网页内容进行文本分词得到N个参考分词集合。
对每个样本网站的网页内容进行文本分词,得到N个参考分词集合。
203、根据N个参考分词集合生成参考CMS程序所对应的分词特征。
参照表1所示,以参考CMS程序为CMS1的情形为例,参考CMS程序所对应的分词特征为分词特征1。
可选的,对N个参考分词集合进行交叉对比,确定至少两个参考分词集合所共有的分词为共有分词。共有分词的数量以C表示,分词特征1可以包括C个共有分词中的部分或者全部。
参照表1所示,可针对表1第一列中所列举的每一个CMS程序,分别执行步骤201-步骤203,得到每一CMS程序所对应的分词特征,即表1第二列中所列举的K个分词特征。
204、将CMS程序对应的分词特征和指纹关联存储。
获取K种CMS程序各自对应的指纹,将K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
一个CMS程序对应的指纹,可以为该CMS程序包含的某些特定文件的哈希值、响应主体内容或头信息的关键字等。
205、获取目标网站的网页内容所对应的目标分词特征。
可通过向目标网站发起HTTP请求,获取到目标网站返回的网页内容,对网页内容进行文本分词得到网页内容对应的目标分词特征。
206、计算目标分词特征与K个分词特征的相似度。
遍历K个分词特征,将目标分词特征逐个与K个分词特征做对比,计算相似度。
207、在K个分词特征中筛选出S个相似分词特征。
在一个实施例中,按照相似度对K个分词特征排序,取相似度高的前S个分词特征作为相似分词特征。
或者,在K个分词特征中,取相似度超过预设阈值的分词特征作为相似分词特征。相似分词特征的数量以S表示。
208、向目标网站发送请求信息并接收目标网站返回的响应信息。
请求信息用于向目标网站请求获取目标CMS程序的特异信息。
特异信息为能够标识目标CMS程序的一段特征信息,包括但不限于目标网站某写特殊路径下的文件、文本内容等。
目标CMS程序为S个候选CMS程序中任一。参照表1所示,候选CMS程序包括CMS1和CMS3,目标CMS程序可以为CMS1和CMS3中任一。
209、判定目标网站所应用的CMS程序是否包括目标CMS程序。
参照步骤204,目标CMS程序对应的分词特征和指纹关联存储,在接收到目标网站返回的响应信息后,根据响应信息计算或者查找目标CMS程序的指纹。例如,计算文件的哈希值、通过正则匹配的方式查找文本中的关键字。
在确定响应信息包括目标CMS的指纹,或者根据响应信息能够计算得到目标CMS的指纹时,确定响应信息与预存储的目标CMS的指纹相匹配。此时,确定目标网站所应用的CMS程序包括目标CMS程序。
从K个分词特征中筛选出相似度较高的部分,即S个相似分词特征。针对这部分所对应的CMS程序进行指纹验证,对于相似度低的部分对应的CMS程序无需进行指纹验证,从而减少了对目标网站的访问次数,提高了CMS识别的效率。
本公开的实施例提供的CMS识别方法,从目标网站提取得到分词特征,即目标分词特征,从K种CMS程序所对应的K个分词特征中,筛选出与目标分词特征相似度超过预设阈值的部分,即S个相似分词特征,从S个相似分词特征对应的S个CMS程序中确定目标网站所应用的CMS程序,从而通过比较分词特征相似度,将考察范围从K种CMS程序缩小到S种,无需逐一验证K个CMS程序的指纹,从而减少了对目标网站的访问次数,提高了CMS识别的效率。
基于上述图1-图2对应的实施例中所描述的CMS识别方法,下述为本公开装置实施例,可以用于执行本公开方法实施例。
本公开实施例提供一种CMS识别装置,如图3所示,CMS识别装置包括:
接口模块31,用于获取目标网站的网页内容。
分词模块32,用于对网页内容进行文本分词得到网页内容对应的目标分词特征。
处理模块33,用于获取K种CMS程序所对应的K个分词特征,从中筛选出与目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K。
识别模块34,用于从S个候选CMS程序中确定目标网站所应用的CMS程序,S个候选CMS程序为S个相似分词特征所对应的S个CMS程序。
如图4所示,在一个实施例中,识别模块34包括:
测试子模块341,用于向目标网站发送请求信息并接收目标网站返回的响应信息,请求信息用于向目标网站请求获取目标CMS程序的特异信息,目标CMS程序为S个候选CMS程序中任一。
验证子模块342,用于在确定响应信息与预存储的目标CMS的指纹相匹配时,确定目标网站所应用的CMS程序包括目标CMS程序。
在一个实施例中,验证子模块342,用于获取K种CMS程序各自对应的指纹。将K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
在一个实施例中,接口模块31,用于获取N个样本网站的网页内容,N≥1,N个样本网站所应用的CMS程序均包括参考CMS程序,参考CMS程序为K种CMS程序中任一。
分词模块32,用于对N个样本网站的网页内容进行文本分词得到N个参考分词集合。
处理模块33,用于根据N个参考分词集合生成参考CMS程序所对应的分词特征。
在一个实施例中,处理模块33,用于确定N个参考分词集合中的共有分词,将共有分词添加到目标CMS程序所对应的分词特征中。
其中,共有分词为至少两个参考分词集合所共有的分词。
本公开实施例提供的CMS识别装置,从目标网站提取得到分词特征,即目标分词特征,从K种CMS程序所对应的K个分词特征中,筛选出与目标分词特征相似度超过预设阈值的部分,即S个相似分词特征,从S个相似分词特征对应的S个CMS程序中确定目标网站所应用的CMS程序,从而通过比较分词特征相似度,将考察范围从K种CMS程序缩小到S种,无需逐一验证K个CMS程序的指纹,从而减少了对目标网站的访问次数,提高了CMS识别的效率。
基于上述图1-图2对应的实施例中所描述的CMS识别方法,本公开实施例还提供一种电子设备50,包括:
处理器501。
用于存储处理器可执行指令的存储器502。
其中,处理器501被配置为:
获取目标网站的网页内容。
对网页内容进行文本分词得到网页内容对应的目标分词特征。
获取K种CMS程序所对应的K个分词特征,从中筛选出与目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K。
从S个候选CMS程序中确定目标网站所应用的CMS程序,S个候选CMS程序为S个相似分词特征所对应的S个CMS程序。
在一个实施例中,处理器501被配置为:
向目标网站发送请求信息并接收目标网站返回的响应信息,请求信息用于向目标网站请求获取目标CMS程序的特异信息,目标CMS程序为S个候选CMS程序中任一。
在确定响应信息与预存储的目标CMS的指纹相匹配时,确定目标网站所应用的CMS程序包括目标CMS程序。
在一个实施例中,处理器501被配置为:
获取K种CMS程序各自对应的指纹。
将K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
在一个实施例中,处理器501被配置为:
获取N个样本网站的网页内容,N≥1,N个样本网站所应用的CMS程序均包括参考CMS程序,参考CMS程序为K种CMS程序中任一。
对N个样本网站的网页内容进行文本分词得到N个参考分词集合。
根据N个参考分词集合生成参考CMS程序所对应的分词特征。
在一个实施例中,处理器501被配置为:
确定N个参考分词集合中的共有分词,共有分词为至少两个参考分词集合所共有的分词。
将共有分词添加到目标CMS程序所对应的分词特征中。
基于上述图1-图2对应的实施例中所描述的CMS识别方法,本公开实施例还提供一种计算机可读存储介质,例如,非临时性计算机可读存储介质可以是只读存储器(英文:Read Only Memory,ROM)、随机存取存储器(英文:Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有计算机指令,用于执行上述图1-图2对应的实施例中所描述的CMS识别方法,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

Claims (12)

1.一种CMS识别方法,其特征在于,所述方法包括:
获取目标网站的网页内容;
对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;
获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;
从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。
2.根据权利要求1所述的方法,其特征在于,所述从S个候选CMS程序中确定所述目标网站所应用的CMS程序,包括:
向所述目标网站发送请求信息并接收所述目标网站返回的响应信息,所述请求信息用于向所述目标网站请求获取目标CMS程序的特异信息,所述目标CMS程序为所述S个候选CMS程序中任一;
在确定所述响应信息与预存储的所述目标CMS的指纹相匹配时,确定所述目标网站所应用的CMS程序包括所述目标CMS程序。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取K种CMS程序各自对应的指纹;
将所述K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
4.根据权利要求2所述的方法,其特征在于,所述获取K种CMS程序所对应的K个分词特征,包括:
获取N个样本网站的网页内容,N≥1,所述N个样本网站所应用的CMS程序均包括参考CMS程序,所述参考CMS程序为所述K种CMS程序中任一;
对所述N个样本网站的网页内容进行文本分词得到N个参考分词集合;
根据所述N个参考分词集合生成所述参考CMS程序所对应的分词特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述N个参考分词集合生成所述参考CMS程序所对应的分词特征,包括:
确定所述N个参考分词集合中的共有分词,所述共有分词为至少两个参考分词集合所共有的分词;
将所述共有分词添加到所述目标CMS程序所对应的分词特征中。
6.一种CMS识别装置,其特征在于,包括:
接口模块,用于获取目标网站的网页内容;
分词模块,用于对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;
处理模块,用于获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;
识别模块,用于从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。
7.根据权利要求6所述的装置,其特征在于,所述识别模块包括:
测试子模块,用于向所述目标网站发送请求信息并接收所述目标网站返回的响应信息,所述请求信息用于向所述目标网站请求获取目标CMS程序的特异信息,所述目标CMS程序为所述S个候选CMS程序中任一;
验证子模块,用于在确定所述响应信息与预存储的所述目标CMS的指纹相匹配时,确定所述目标网站所应用的CMS程序包括所述目标CMS程序。
8.根据权利要求7所述的装置,其特征在于,
所述验证子模块,用于获取K种CMS程序各自对应的指纹;将所述K种CMS程序中每种CMS程序所对应的分词特征和指纹关联存储。
9.根据权利要求7所述的装置,其特征在于,
所述接口模块,用于获取N个样本网站的网页内容,N≥1,所述N个样本网站所应用的CMS程序均包括参考CMS程序,所述参考CMS程序为所述K种CMS程序中任一;
所述分词模块,用于对所述N个样本网站的网页内容进行文本分词得到N个参考分词集合;
所述处理模块,用于根据所述N个参考分词集合生成所述参考CMS程序所对应的分词特征。
10.根据权利要求9所述的装置,其特征在于,
所述处理模块,用于确定所述N个参考分词集合中的共有分词,将所述共有分词添加到所述目标CMS程序所对应的分词特征中;
其中,所述共有分词为至少两个参考分词集合所共有的分词。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,处理器被配置为:
获取目标网站的网页内容;
对所述网页内容进行文本分词得到所述网页内容对应的目标分词特征;
获取K种CMS程序所对应的K个分词特征,从中筛选出与所述目标分词特征相似度超过预设阈值的S个相似分词特征,1≤S≤K;
从S个候选CMS程序中确定所述目标网站所应用的CMS程序,所述S个候选CMS程序为所述S个相似分词特征所对应的S个CMS程序。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任一项所述CMS识别方法的步骤。
CN201811515687.7A 2018-12-12 2018-12-12 Cms识别方法及装置 Active CN109697267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811515687.7A CN109697267B (zh) 2018-12-12 2018-12-12 Cms识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811515687.7A CN109697267B (zh) 2018-12-12 2018-12-12 Cms识别方法及装置

Publications (2)

Publication Number Publication Date
CN109697267A CN109697267A (zh) 2019-04-30
CN109697267B true CN109697267B (zh) 2021-02-23

Family

ID=66230479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811515687.7A Active CN109697267B (zh) 2018-12-12 2018-12-12 Cms识别方法及装置

Country Status (1)

Country Link
CN (1) CN109697267B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958225B (zh) * 2019-11-08 2022-02-15 杭州安恒信息技术股份有限公司 基于流量识别网站指纹的方法
CN111008405A (zh) * 2019-12-06 2020-04-14 杭州安恒信息技术股份有限公司 一种基于文件Hash的网站指纹识别方法
CN112365352B (zh) * 2020-11-30 2023-07-04 西安四叶草信息技术有限公司 一种基于图神经网络的反套现方法及装置
CN113420818A (zh) * 2021-06-27 2021-09-21 杭州迪普科技股份有限公司 内容管理系统识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833556A (zh) * 2009-03-12 2010-09-15 英业达股份有限公司 文件内容管理系统及其方法
CN104899217A (zh) * 2014-03-06 2015-09-09 阿里巴巴集团控股有限公司 一种自定义功能的实现方法及装置
CN108363665A (zh) * 2018-02-09 2018-08-03 西安博达软件股份有限公司 一种基于云端的cms远程运维诊断系统及方法
CN108549693A (zh) * 2018-04-13 2018-09-18 上海宝尊电子商务有限公司 基于爬虫技术的cms页面生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154355A1 (en) * 2013-03-15 2017-06-01 Google Inc. Score boards based on social groups
US11544400B2 (en) * 2017-02-24 2023-01-03 Hyland Uk Operations Limited Permissions-constrained dynamic faceting of search results in a content management system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833556A (zh) * 2009-03-12 2010-09-15 英业达股份有限公司 文件内容管理系统及其方法
CN104899217A (zh) * 2014-03-06 2015-09-09 阿里巴巴集团控股有限公司 一种自定义功能的实现方法及装置
CN108363665A (zh) * 2018-02-09 2018-08-03 西安博达软件股份有限公司 一种基于云端的cms远程运维诊断系统及方法
CN108549693A (zh) * 2018-04-13 2018-09-18 上海宝尊电子商务有限公司 基于爬虫技术的cms页面生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于网络爬虫的CMS识别系统的研究与应用;刘阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315;I139-293第1-73页 *

Also Published As

Publication number Publication date
CN109697267A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN109697267B (zh) Cms识别方法及装置
CN109829628B (zh) 基于大数据的风险预警方法、装置和计算机设备
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN108053545B (zh) 证件验真方法和装置、服务器、存储介质
US10049096B2 (en) System and method of template creation for a data extraction tool
EP3713191A1 (en) Identifying legitimate websites to remove false positives from domain discovery analysis
CN111897962B (zh) 一种物联网资产标记方法及装置
US10452725B2 (en) Web page recognizing method and apparatus
CN105338001A (zh) 识别钓鱼网站的方法及装置
CN111428466B (zh) 法律文书解析方法及装置
CN110619075B (zh) 一种网页识别方法与设备
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
KR102334018B1 (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
KR101868421B1 (ko) 웹 상의 콘텐츠들에 대한 거짓 여부 판별 지원 장치 및 그 동작 방법
CN114372267B (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN112989256B (zh) 识别响应信息中web指纹的方法和装置
CN112488140B (zh) 一种数据关联方法及装置
Fuglsby et al. Elucidating the relationships between two automated handwriting feature quantification systems for multiple pairwise comparisons
CN105099996B (zh) 网站验证方法及装置
CN112487270A (zh) 基于图片识别进行资产分类及准确度校验的方法和装置
CN115269765A (zh) 账号识别方法、装置、电子设备和存储介质
CN109583210A (zh) 一种水平权限漏洞的识别方法、装置及其设备
de Jongh et al. Performance evaluation of automated fingerprint identification systems for specific conditions observed in casework using simulated fingermarks
CN114169331A (zh) 地址解析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant