CN113468395A - 一种基于倒排索引的互联网资产指纹识别方法与系统 - Google Patents

一种基于倒排索引的互联网资产指纹识别方法与系统 Download PDF

Info

Publication number
CN113468395A
CN113468395A CN202110794330.2A CN202110794330A CN113468395A CN 113468395 A CN113468395 A CN 113468395A CN 202110794330 A CN202110794330 A CN 202110794330A CN 113468395 A CN113468395 A CN 113468395A
Authority
CN
China
Prior art keywords
asset
matching
fingerprint
key
inverted index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110794330.2A
Other languages
English (en)
Inventor
刘山林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Lintian Information Technology Co ltd
Original Assignee
Shandong Lintian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Lintian Information Technology Co ltd filed Critical Shandong Lintian Information Technology Co ltd
Priority to CN202110794330.2A priority Critical patent/CN113468395A/zh
Publication of CN113468395A publication Critical patent/CN113468395A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种基于倒排索引的互联网资产指纹识别方法与系统,本发明通过倒排索引对互联网资产指纹进行识别,将key‑va l ue的形式转变为va l ue‑key的倒排形式,然后排序va l ue键名,合并相同键名,靠拢相似键名,以提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,以标记和分类获取的指纹资产,形成资产匹配识别规则,方便提取互联网资产的属性特征,简洁高效,采用引擎匹配规则的方式灵活方便,有效提高识别效率和速度。

Description

一种基于倒排索引的互联网资产指纹识别方法与系统
技术领域
本发明涉及网络资产探测技术领域,特别是一种基于倒排索引的互联网资产指纹识别方法与系统。
背景技术
国内网络安全专用搜索引擎的相关研究以知道创宇公司开发的ZoomEye搜索引擎和白帽汇的Fofa为代表。ZoomEye搜索引擎在Nmap的基础上,开发了Web指纹识别引擎Wmap,并依托其后台的大数据存储处理平台,为用户提供了设备指纹、Web服务等的搜索功能。ZoomEye的核心作用是针对全球网络空间基础设施、网络设备进行指纹的扫描和存储,输出检索功能。
而现有的ZoomEye搜索引擎和白帽汇的Fofa都是基于搜索引擎,对互联网指纹强调扫描、收集、存储和查找、统计、排序等,不进行加工识别。
发明内容
本发明的目的是提供一种基于倒排索引的互联网资产指纹识别方法与系统,旨在解决现有技术中无法识别种类繁多的应用版本的问题,实现提高互联网资产的识别效率和速度。
为达到上述技术目的,本发明提供了一种基于倒排索引的互联网资产指纹识别方法,所述方法包括以下操作:
对互联网资产指纹进行响应头提取,对响应头中字段进行拆解,以倒排索引形式,排序键名,合并相同键名,靠拢相似键名,提取资产指纹的特征;
根据资产指纹特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加匹配核对,标记和分类获取的指纹资产,形成资产匹配识别规则。
优选地,所述倒排索引形式为将key-value的形式转变为value-key的倒排形式。
优选地,所述资产匹配识别规则为json格式,规则库中一行书写一条规则,注释行首书写一个或多个#。
优选地,所述资产匹配识别规则中多条规则可匹配同一条资产指纹,如任一输出字段没有匹配到,则不论优先级会先填空值,然后同一优先级、同一类型复合相加。
本发明还提供了一种基于倒排索引的互联网资产指纹识别系统,所述系统包括:
倒排索引模块,用于对互联网资产指纹进行响应头提取,对响应头中字段进行拆解,以倒排索引形式,排序键名,合并相同键名,靠拢相似键名,提取资产指纹的特征;
资产匹配模块,用于根据资产指纹特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加匹配核对,标记和分类获取的指纹资产,形成资产匹配识别规则。
优选地,所述倒排索引形式为将key-value的形式转变为value-key的倒排形式。
优选地,所述资产匹配识别规则为json格式,规则库中一行书写一条规则,注释行首书写一个或多个#。
优选地,所述资产匹配识别规则中多条规则可匹配同一条资产指纹,如任一输出字段没有匹配到,则不论优先级会先填空值,然后同一优先级、同一类型复合相加。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过倒排索引对互联网资产指纹进行识别,将key-value的形式转变为value-key的倒排形式,然后排序value键名,合并相同键名,靠拢相似键名,以提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,以标记和分类获取的指纹资产,形成资产匹配识别规则,方便提取互联网资产的属性特征,简洁高效,采用引擎匹配规则的方式灵活方便,有效提高识别效率和速度。
附图说明
图1为本发明实施例中所提供的一种基于倒排索引的互联网资产指纹识别方法流程图;
图2为本发明实施例中所提供的一种基于倒排索引的互联网资产指纹识别系统结构框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于倒排索引的互联网资产指纹识别方法与系统进行详细说明。
如图1所示,本发明实施例公开了一种基于倒排索引的互联网资产指纹识别方法,所述方法包括以下操作:
对互联网资产指纹进行响应头提取,对响应头中字段进行拆解,以倒排索引形式,排序键名,合并相同键名,靠拢相似键名,提取资产指纹的特征;
根据资产指纹特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加匹配核对,标记和分类获取的指纹资产,形成资产匹配识别规则。
本发明实施例采用倒排索引对互联网资产指纹进行识别,尤其HTTP指纹,进行HTTP响应头提取,然后对响应头中各个字段进行拆解,将key-value的形式转变为value-key的倒排形式,然后排序value键名,合并相同键名,靠拢相似键名,以提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,以标记和分类获取的指纹资产。
HTTP类原始资产指纹中,Server为HTTP协议响应关键字,可视为键名,Tengine为Server键值,键名在此识别方法中只起到提取和定位资源头中各属性字段的作用,因此将Server转变为键值并舍弃或只做定位参考,将Tengine转变为键名作为应用名或应用近似名,并对键名重点分析、合并或靠拢。
本发明实施例中将资产匹配识别规则设计为json格式,规则库中一行书写一条规则,注释行首书写一个或多个#,例如针对Tengine资产指纹,规则设计格式如下:
{"jid":1,"dsize":65535,"pcre":["/Tengine\/([0-9.])+/",0],"priority":7,"score:":50,"out":{"protocol7":"HTTP","app":"Tengine","manufacturer":"阿里云","Industry":"云提供厂商"}}
多条规则可匹配同一条资产指纹,如任一输出字段没有匹配到,则不论优先级会先填空值,然后同一优先级同一类型,会复合相加,例如模块为mod_ssl,mod_perl,mod_ssl,mod_perl这几个模块,存在于HTTP的header中的Server字段,如果后续识别了页面如body中又有模块,例如apache容器,php子容器,wordpres框架(或应用),wordpress中又有ckeditor模块,则如果ckeditor模块对应的规则,优先级低,则不覆盖不叠加;优先级高,会覆盖;优先级相同,会叠加到mod_ssl,mod_perl,mod_ssl,mod_perl后面。
提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,根据资产匹配识别规则识别承载种类繁多的应用及应用版本。
本发明实施例通过倒排索引对互联网资产指纹进行识别,将key-value的形式转变为value-key的倒排形式,然后排序value键名,合并相同键名,靠拢相似键名,以提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,以标记和分类获取的指纹资产,形成资产匹配识别规则,方便提取互联网资产的属性特征,简洁高效,采用引擎匹配规则的方式灵活方便,有效提高识别效率和速度。
如图2所示,本发明实施例还公开了一种基于倒排索引的互联网资产指纹识别系统,所述系统包括:
倒排索引模块,用于对互联网资产指纹进行响应头提取,对响应头中字段进行拆解,以倒排索引形式,排序键名,合并相同键名,靠拢相似键名,提取资产指纹的特征;
资产匹配模块,用于根据资产指纹特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加匹配核对,标记和分类获取的指纹资产,形成资产匹配识别规则。
在本系统中采用倒排索引对互联网资产指纹进行识别,尤其HTTP指纹,进行HTTP响应头提取,然后对响应头中各个字段进行拆解,将key-value的形式转变为value-key的倒排形式,然后排序value键名,合并相同键名,靠拢相似键名,以提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,以标记和分类获取的指纹资产。
HTTP类原始资产指纹中,Server为HTTP协议响应关键字,可视为键名,Tengine为Server键值,键名在此识别方法中只起到提取和定位资源头中各属性字段的作用,因此将Server转变为键值并舍弃或只做定位参考,将Tengine转变为键名作为应用名或应用近似名,并对键名重点分析、合并或靠拢。
本发明实施例中将资产匹配识别规则设计为json格式,规则库中一行书写一条规则,注释行首书写一个或多个#,例如针对Tengine资产指纹,规则设计格式如下:
{"jid":1,"dsize":65535,"pcre":["/Tengine\/([0-9.])+/",0],"priority":7,"score:":50,"out":{"protocol7":"HTTP","app":"Tengine","manufacturer":"阿里云","Industry":"云提供厂商"}}
多条规则可匹配同一条资产指纹,如任一输出字段没有匹配到,则不论优先级会先填空值,然后同一优先级同一类型,会复合相加,例如模块为mod_ssl,mod_perl,mod_ssl,mod_perl这几个模块,存在于HTTP的header中的Server字段,如果后续识别了页面如body中又有模块,例如apache容器,php子容器,wordpres框架(或应用),wordpress中又有ckeditor模块,则如果ckeditor模块对应的规则,优先级低,则不覆盖不叠加;优先级高,会覆盖;优先级相同,会叠加到mod_ssl,mod_perl,mod_ssl,mod_perl后面。
提取资产指纹的共性和个性特征,并依据特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加等匹配核对,根据资产匹配识别规则识别承载种类繁多的应用及应用版本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于倒排索引的互联网资产指纹识别方法,其特征在于,所述方法包括以下操作:
对互联网资产指纹进行响应头提取,对响应头中字段进行拆解,以倒排索引形式,排序键名,合并相同键名,靠拢相似键名,提取资产指纹的特征;
根据资产指纹特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加匹配核对,标记和分类获取的指纹资产,形成资产匹配识别规则。
2.根据权利要求1所述的一种基于倒排索引的互联网资产指纹识别方法,其特征在于,所述倒排索引形式为将key-value的形式转变为value-key的倒排形式。
3.根据权利要求1所述的一种基于倒排索引的互联网资产指纹识别方法,其特征在于,所述资产匹配识别规则为json格式,规则库中一行书写一条规则,注释行首书写一个或多个#。
4.根据权利要求1所述的一种基于倒排索引的互联网资产指纹识别方法,其特征在于,所述资产匹配识别规则中多条规则可匹配同一条资产指纹,如任一输出字段没有匹配到,则不论优先级会先填空值,然后同一优先级、同一类型复合相加。
5.一种基于倒排索引的互联网资产指纹识别系统,其特征在于,所述系统包括:
倒排索引模块,用于对互联网资产指纹进行响应头提取,对响应头中字段进行拆解,以倒排索引形式,排序键名,合并相同键名,靠拢相似键名,提取资产指纹的特征;
资产匹配模块,用于根据资产指纹特征,进行三元组、负载大小、协议特征、内容字符多模匹配、pcre正则匹配、优先级累加、匹配分值累加匹配核对,标记和分类获取的指纹资产,形成资产匹配识别规则。
6.根据权利要求5所述的一种基于倒排索引的互联网资产指纹识别系统,其特征在于,所述倒排索引形式为将key-value的形式转变为value-key的倒排形式。
7.根据权利要求5所述的一种基于倒排索引的互联网资产指纹识别系统,其特征在于,所述资产匹配识别规则为json格式,规则库中一行书写一条规则,注释行首书写一个或多个#。
8.根据权利要求5所述的一种基于倒排索引的互联网资产指纹识别系统,其特征在于,所述资产匹配识别规则中多条规则可匹配同一条资产指纹,如任一输出字段没有匹配到,则不论优先级会先填空值,然后同一优先级、同一类型复合相加。
CN202110794330.2A 2021-07-14 2021-07-14 一种基于倒排索引的互联网资产指纹识别方法与系统 Withdrawn CN113468395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110794330.2A CN113468395A (zh) 2021-07-14 2021-07-14 一种基于倒排索引的互联网资产指纹识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110794330.2A CN113468395A (zh) 2021-07-14 2021-07-14 一种基于倒排索引的互联网资产指纹识别方法与系统

Publications (1)

Publication Number Publication Date
CN113468395A true CN113468395A (zh) 2021-10-01

Family

ID=77880171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110794330.2A Withdrawn CN113468395A (zh) 2021-07-14 2021-07-14 一种基于倒排索引的互联网资产指纹识别方法与系统

Country Status (1)

Country Link
CN (1) CN113468395A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114077609A (zh) * 2022-01-19 2022-02-22 北京四维纵横数据技术有限公司 数据存储及检索方法,装置,计算机可读存储介质及电子设备
CN114244824A (zh) * 2021-11-25 2022-03-25 国家计算机网络与信息安全管理中心河北分中心 一种网络空间WEB类资产风险Server同性快速识别的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244824A (zh) * 2021-11-25 2022-03-25 国家计算机网络与信息安全管理中心河北分中心 一种网络空间WEB类资产风险Server同性快速识别的方法
CN114244824B (zh) * 2021-11-25 2024-05-03 国家计算机网络与信息安全管理中心河北分中心 一种网络空间WEB类资产风险Server同性快速识别的方法
CN114077609A (zh) * 2022-01-19 2022-02-22 北京四维纵横数据技术有限公司 数据存储及检索方法,装置,计算机可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN113468395A (zh) 一种基于倒排索引的互联网资产指纹识别方法与系统
CN111897962B (zh) 一种物联网资产标记方法及装置
US20090192996A1 (en) Method and apparatus for collecting entity aliases
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109766525A (zh) 一种数据驱动的敏感信息泄露检测框架
CN109194677A (zh) 一种sql注入攻击检测方法、装置及设备
CN110032724B (zh) 用于识别用户意图的方法及装置
WO2022127259A1 (zh) 数据清洗方法、装置、设备及存储介质
CN113408574B (zh) 一种车牌分类方法、车牌分类装置和计算机可读存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN107861944A (zh) 一种基于Word2Vec的文本标签提取方法及装置
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN114090736A (zh) 一种基于文本相似度的企业行业识别系统及识别方法
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN112711693A (zh) 一种基于多特征融合的诉讼线索挖掘方法及系统
CN117743517A (zh) 基于人工智能的智慧冰雪旅游管理系统及方法
CN107679055B (zh) 信息检索方法、服务器及可读存储介质
CN112434049A (zh) 表格数据存储方法、装置、存储介质及电子装置
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
CN115879001A (zh) 一种智慧校园多媒体综合信息服务终端管理方法及系统
CN111062199A (zh) 一种不良信息识别方法及装置
CN107291952B (zh) 一种提取有意义串的方法及装置
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Sun Yan

Inventor after: Zhao Chunkai

Inventor after: Liu Shanlin

Inventor before: Liu Shanlin

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211001