CN112003884B - 一种网络资产的采集和自然语言检索方法 - Google Patents

一种网络资产的采集和自然语言检索方法 Download PDF

Info

Publication number
CN112003884B
CN112003884B CN201910598194.2A CN201910598194A CN112003884B CN 112003884 B CN112003884 B CN 112003884B CN 201910598194 A CN201910598194 A CN 201910598194A CN 112003884 B CN112003884 B CN 112003884B
Authority
CN
China
Prior art keywords
natural language
asset information
network
scanning
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910598194.2A
Other languages
English (en)
Other versions
CN112003884A (zh
Inventor
赵武
龙专
张偲彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baimaohui Technology Co ltd
Original Assignee
Beijing Baimaohui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baimaohui Technology Co ltd filed Critical Beijing Baimaohui Technology Co ltd
Publication of CN112003884A publication Critical patent/CN112003884A/zh
Application granted granted Critical
Publication of CN112003884B publication Critical patent/CN112003884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网络资产的采集和自然语言检索方法,包括如下步骤:扫描IP全球网段;依次识别各IP端口,获取端口对应的网络资产信息;处理采集到的网络资产信息;将处理后的资产信息与本地资产信息数据库进行比较,对符合特定条件的软件和硬件资产信息,为该软件或者硬件资产信息提供自然语言标识,存储在本地自然语言资产信息数据库;通过搜索引擎,将本地自然语言资产信息数据库提供到网络。本发明能够通过自然语言形式将网络资产信息提供给使用者。

Description

一种网络资产的采集和自然语言检索方法
技术领域
本发明属于网络软硬件资产采集和检索领域,特别的是涉及网络资产的采集和自然语言检索。
背景技术
全球互联网是由无数节点构成,每个节点都是一个或者一个以上的接入网络的软件和硬件资产(或称网络资产),网络资产包括操作系统、网络设备、安全设备、数据库、中间件、应用组件等等。网络资产信息是信息安全管理中最为重要的基础性信息。随着组织的壮大和业务的复杂化,组织的各种信息化系统越来越复杂,网络资产如服务器、存储设备、网络设备、安全设备数量越积越多,类型也越来越丰富,导致部分资产被遗忘,从而难以纳入管理员日常维护范围内,给组织安全带来极大隐患,成为组织信息安全的漏洞。
以政府为例,常见的信息化设备,如服务器、交换机、路由器、政务信息平台、OA系统等,一旦发生安全问题,将影响政府工作的正常进行,会产生极大的影响。
因此,摸清网络资产,掌握组织资产信息意义重大。
现有技术中,已经注意到了网络信息资产管理的重要意义,例如,中国发明专利申请CN106980668A公开了一种网络空间测绘要素的形式化建模方法。该发明对网络空间测绘要素进行形式化描述:对网络空间测绘要素进行形式化建模,并对该形式化建模流程进行实现,测绘方式、测绘处理、测绘应用、测绘评估和测绘尺度等提供统一的数据模型。该发明中给予每个要素唯一一个ID号,通过有限三元组符号集A对网络空间测绘要素进行形式化描述;然后进行要素组成Element ID、要素属性Element Pro、形式化描述、要素关系Element Rel形式化描述,基于每个要素ID以及对应的有限三元符号集A,形成网络空间测绘要素模型,为网络空间测绘提供统一的数据模型。该发明提供了一种形象化展示网络空间的方法,但是对于特定用户希望查找特定网络资产,无法提供快捷、使用自然语言进行资产信息检索的方案。
中国发明专利申请CN107147515A公开了一种基于MLN的网络空间安全态势预测方法及系统,方法包括:采集特定网络空间中的资产信息数据;对采集得到的资产信息数据进行预处理,并构建训练网络空间安全态势感知模型;根据网络空间安全姿态感知模型和当前网络空间中的实际数据,对当前的网络空间安全态势进行评估;根据网络空间的安全态势评估结果,对未来的网络空间安全态势进行预测,得到安全态势预测结果。该方法同样的无法解决快捷、使用自然语言进行资产信息检索的方案。
发明内容
本发明涉及一种网络资产的自然语言检索方法,包括如下步骤:扫描IP全球网段;依次识别各IP端口,获取端口对应的网络资产信息;处理采集到的网络资产信息;将处理后的资产信息与本地资产信息数据库进行比较,对符合特定条件的软件和硬件资产,为该软件或者硬件资产提供自然语言标识,存储在本地自然语言资产信息数据库;通过搜索引擎,将本地自然语言资产信息数据库提供到网络。
进一步的,对IP全球网段进行并发扫描,将扫描获得的开放端口的IP存入消息队列,然后再依次识别这些端口的协议。
进一步的,对于识别到的端口的协议,如果是http和https协议,则继续抓取首页数据,并将数据进行格式化处理。
进一步的,将获取的IP全球网段的开放端口的协议、首页数据等与本地资产信息数据库进行比较。
进一步的,所述对IP全球网段进行并发扫描是基于分布式架构,在分布式架构中,扫描任务被分解后,分配到合适的处理资源中,从而针对IP全球网段的多个节点实现分布式扫描;分布式扫描与分布式处理,以及分布式数据存储同时执行。
进一步的,根据本地已知的资产信息建立本地自然语言资产信息数据库,本地自然语言资产信息数据库包括了网络软件资产和硬件资产的代码信息和自然语言信息对应列表。
进一步的,向使用者提供搜索引擎,在搜索引擎使用者使用搜索引擎时,使用自然语言进行检索,在对本地自然语言资产信息数据库检索后,将命中结果的代码信息和对应的自然语言信息展示给使用者。
端口的协议为http和https时,进一步抓取首页内容、页面的header信息、banner信息、网站的域名、IP地址;端口的协议为https时,提取cert证书信息。
本发明的有益效果在于:
1)在进行网络空间资产进行处理的过程中,为网络空间资产提供了自然语言标签,从而为提供自然语言网络资产搜索引擎检索提供了便利
2)在进行网络空间资产进行信息收集、处理的过程中,采用了并发式收集,提高了收集的效率;
本发明能够高效收集网络空间的资产信息,获得后网络空间的资产信息后,通过本发明的方式对资产信息进行高效处理,随后将资产信息通过网络平台的搜索引擎按照指定的搜索方式提供给搜索引擎用户。
附图说明
图1为本发明方法的流程图。
具体实施方式
传统的搜索网站不提供网络资产的搜索,而zoomeye.com和shodan.com提供网络资产搜索,但是不支持详细搜索,例如只搜索网站内容的title(网站标题)、header(网站头部)、cert(证书部分内容)这些信息,而且无法使用自然语言来搜索,这非常不利于操作,也不利于后续进行可视化分析。
例如,扫描全网端开放的端口,而每个开放的端口都有一个对应的服务,这个时候就需要去识别服务,目前可以识别超过200个协议,针对这些开放的端口先去识别协议,然后把识别出来的协议相关的数据进一步提取banner信息。例如发包的时候,服务器返回“SSH-2.0-OpenSSH_6.7p1Debian-5+deb8u4”,这个时候判断属于ssh协议,同时将返回的数据保存起来,记录字段protocol为ssh,banner为“SSH-2.0-OpenSSH_6.7p1Debian-5+deb8u4”。http和https类似,不过http和https是网站,网站本身就是各种各样的服务,因此需要进一步把网站源代码、header、域名、ip地址保存起来。
参见图1,本发明涉及一种网络资产的自然语言检索方法,首先可以采用分布式计算方式,对IP全球网段进行并发扫描是基于分布式架构,在分布式架构中,扫描任务被分解后,分配到合适的处理资源中,从而针对IP全球网段的多个节点实现分布式扫描;分布式扫描与分布式处理,以及分布式数据存储同时执行。
也可以在本地通过在底层使用扫描工具对IP全球网段进行高并发的端口扫描,从而实现数据采集。针对扫描全球IP网段,可以使用mascan工具,这是一种扫描网络中开放端口的工具,还可以使用nmap和zmap这两种工具或者其他扫描IP字段的工具。相比mascan工具,zmap不支持多端口扫描,nmap扫描速度慢,全球网段扫描速度较慢。mascan能够较好的适用于本发明的应用场景。但是这并不意味着在本发明中仅仅可以使用mascan。由于扫描的IP数量巨大,所以对高并发的要求很高。
扫描的开放端口的IP被存入消息队列,然后再依次识别这些端口的协议,识别后存储到搜索服务器中,其中http和https的协议会做特殊处理,因为这两种协议表示这是网站,所以会再次抓取这些网站的首页数据格式化后进行存储。
消息队列用于把存放将要执行的任务,以便程序从队列里取任务执行。消息队列可以使用sidekiq工具来实现,也可以使用kafka工具来实现,因为sidekiq工具基于redis内存数据库,数据量大了以后,导致内存占用太大,最后redis会崩溃。而kafka是基于硬盘的,所以不会导致内存崩溃的问题。因此,kafka是优选的工具,而sidekiq工具也是可选的工具,尽管效果相较kafka较差。
随着任务的执行,会产生大量的数据。通常数据量小的时候可以存到mysql这样的关系型数据库,该种数据库在数据量大时搜索速度较慢,限制了搜索业务发展,影响了用户的体验。也可以使用搜索服务器了,常见的搜索服务器有elasticsearch、solr、lucene等。数据量大得情况下,应当采用大数据的服务器,还可以使用了集群方式,把数据分布到多态服务器上,从而加快搜索数据的速度。
获得网络资产信息后,通常网络资产信息都是具有一定的规律的。这样的规律识别出来后,将网络资产信息与本地的资产信息数据库进行比较。例如,各种品牌的路由器设备具有一定的代码,服务器使用的操作系统具有一定的规律性代码。这些代码对人类识别是非常不友好的,在收集完网络资产信息后,需要将网络资产信息增加自然语言标识/符号。增加自然语言标识/符号的方法是通过在本地建立本地资产信息数据库,本地资产信息数据库存储有网络资产中的软件或者硬件的特征标识、自然语言标识。将网络资产信息的特征标识在本地资产信息数据库中进行匹配,匹配后为网络资产信息增加自然语言标识,然后作为一条记录存储。
至此,网络空间资产的收集和提供自然语言标签完成。完成这一工作后,获得了网络资产的自然语言数据库,通过为该数据库提供搜索引擎接口,将本地自然语言资产信息数据库提供到网络。当用户使用自然语言在搜索引擎进行搜索时,搜索引擎可以展示相对应的网络空间资产的属性信息,例如,软件或者硬件所固有的代码信息,软件或者硬件所具有的自然语言信息。搜索引擎展示这样的信息,便于用户识记、辨认,对于用户掌握系统情况,为进行系统管理提供了极大的帮助。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种网络资产的采集和自然语言检索方法,包括如下步骤:
扫描IP全球网段;
依次识别各IP端口,获取端口对应的网络资产信息;
处理采集到的网络资产信息;
将处理后的资产信息与本地资产信息数据库进行比较,对于符合特定条件的软件或硬件资产信息,为该软件或硬件资产信息提供自然语言标识,存储在本地自然语言资产信息数据库;
通过搜索引擎,将本地自然语言资产信息数据库提供到网络。
2.根据权利要求1所述的方法,其特征在于:
对IP全球网段进行并发扫描,将扫描获得的开放端口的IP存入消息队列,然后再依次识别这些端口的协议。
3.根据权利要求2所述的方法,其特征在于:
对于识别到的端口的协议,如果是http和https协议,则继续抓取首页数据,并将数据进行格式化处理。
4.根据权利要求3所述的方法,其特征在于:将获取的IP全球网段的开放端口的协议、首页数据与本地资产信息数据库进行比较。
5.根据权利要求2所述的方法,其特征在于:
所述对IP全球网段进行并发扫描是基于分布式架构,在分布式架构中,扫描任务被分解后,分配到合适的处理资源中,从而针对IP全球网段的多个节点实现分布式扫描;分布式扫描与分布式处理,以及分布式数据存储同时执行。
6.根据权利要求1所述的方法,其特征在于:
根据本地已知的资产信息建立本地自然语言资产信息数据库,本地自然语言资产信息数据库包括网络软件资产和硬件资产的代码信息和自然语言信息对应列表。
7.根据权利要求1所述的方法,其特征在于:
向使用者提供搜索引擎,在搜索引擎使用者使用搜索引擎时,使用自然语言进行检索,在对本地自然语言资产信息数据库检索后,将命中结果的代码信息和对应的自然语言信息展示给使用者。
8.根据权利要求3所述的方法,其特征在于:
端口的协议为http和https时,进一步抓取首页内容、页面的header信息、banner信息、网站的域名、IP地址;端口的协议为https时,提取cert证书信息。
CN201910598194.2A 2019-05-27 2019-07-04 一种网络资产的采集和自然语言检索方法 Active CN112003884B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019104694902 2019-05-27
CN201910469490 2019-05-27

Publications (2)

Publication Number Publication Date
CN112003884A CN112003884A (zh) 2020-11-27
CN112003884B true CN112003884B (zh) 2024-04-16

Family

ID=73461380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598194.2A Active CN112003884B (zh) 2019-05-27 2019-07-04 一种网络资产的采集和自然语言检索方法

Country Status (1)

Country Link
CN (1) CN112003884B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584486B (zh) * 2022-02-23 2023-09-29 滨州东方地毯有限公司 一种基于分布式的网络资产扫描探测平台及扫描探测方法
CN116823162B (zh) * 2023-06-27 2024-04-09 上海螣龙科技有限公司 一种网络资产扫描任务管理方法、系统及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577198A (zh) * 2013-11-22 2014-02-12 中国联合网络通信集团有限公司 一种面向用户的物联网服务平台及远程控制方法
CN107809433A (zh) * 2017-11-06 2018-03-16 中国联合网络通信集团有限公司 资产管理方法及装置
CN107979597A (zh) * 2017-11-24 2018-05-01 上海携程商务有限公司 分布式扫描的内网资产管理方法、系统、设备及存储介质
CN109327461A (zh) * 2018-11-12 2019-02-12 广东省信息安全测评中心 分布式资产识别及变更感知方法与系统
CN109525427A (zh) * 2018-11-12 2019-03-26 广东省信息安全测评中心 分布式资产信息探测方法与系统
CN109660401A (zh) * 2018-12-20 2019-04-19 中国电子科技集团公司第三十研究所 一种分布式网络资产探测方法
CN109785144A (zh) * 2019-01-18 2019-05-21 国家电网有限公司 一种资产分类方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921091B2 (en) * 2004-12-16 2011-04-05 At&T Intellectual Property Ii, L.P. System and method for providing a natural language interface to a database
US20120191831A1 (en) * 2011-01-26 2012-07-26 Carl Kanzabedian System and method for cataloging assets in a network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577198A (zh) * 2013-11-22 2014-02-12 中国联合网络通信集团有限公司 一种面向用户的物联网服务平台及远程控制方法
CN107809433A (zh) * 2017-11-06 2018-03-16 中国联合网络通信集团有限公司 资产管理方法及装置
CN107979597A (zh) * 2017-11-24 2018-05-01 上海携程商务有限公司 分布式扫描的内网资产管理方法、系统、设备及存储介质
CN109327461A (zh) * 2018-11-12 2019-02-12 广东省信息安全测评中心 分布式资产识别及变更感知方法与系统
CN109525427A (zh) * 2018-11-12 2019-03-26 广东省信息安全测评中心 分布式资产信息探测方法与系统
CN109660401A (zh) * 2018-12-20 2019-04-19 中国电子科技集团公司第三十研究所 一种分布式网络资产探测方法
CN109785144A (zh) * 2019-01-18 2019-05-21 国家电网有限公司 一种资产分类方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112003884A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN109857917B (zh) 面向威胁情报的安全知识图谱构建方法及系统
CN105721427B (zh) 一种从Web日志中挖掘攻击频繁序列模式的方法
Tyagi et al. An algorithmic approach to data preprocessing in web usage mining
Hussain et al. Web usage mining: A survey on preprocessing of web log file
US9262767B2 (en) Systems and methods for generating statistics from search engine query logs
Prakash et al. Geo-identification of web users through logs using ELK stack
CN106682147A (zh) 一种基于海量数据的查询方法及装置
EP1869583A1 (en) Content adaptation
CN112003884B (zh) 一种网络资产的采集和自然语言检索方法
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
Sujatha Improved user navigation pattern prediction technique from web log data
CN108923963B (zh) 一种利用Looking Glass测量点实现自动化拓扑测量的方法
CN116166854A (zh) 企业与政策智能匹配系统、方法和存储介质
Lokeshkumar et al. A survey on preprocessing of web log file in web usage mining to improve the quality of data
CN111611483B (zh) 一种对象画像构建方法、装置、设备及存储介质
CN115134095A (zh) 僵尸网络控制端检测方法及装置、存储介质、电子设备
CN112347066B (zh) 日志处理方法、装置及服务器和计算机可读存储介质
CN111353300A (zh) 一种数据集构建和相关信息获取方法及其装置
US20070245029A1 (en) Method for Determining Validity of Command and System Thereof
SalahEldeen et al. Reading the correct history? Modeling temporal intention in resource sharing
CN114866354B (zh) 基于指纹元搜索与扩展识别的物联网终端设备识别方法
CN117473172B (zh) 基于用户操作的信息处理方法、装置、设备及存储介质
Rathi et al. Approach for processing of Web Usage Data
Vemulapalli et al. Design and Implementation of an Effective Web Server Log Preprocessing System
RU2664018C1 (ru) Система и способ автоматического расследования инцидентов безопасности в автоматизированной системе

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant