CN105138561B - 一种暗网空间数据采集方法及装置 - Google Patents

一种暗网空间数据采集方法及装置 Download PDF

Info

Publication number
CN105138561B
CN105138561B CN201510438103.0A CN201510438103A CN105138561B CN 105138561 B CN105138561 B CN 105138561B CN 201510438103 A CN201510438103 A CN 201510438103A CN 105138561 B CN105138561 B CN 105138561B
Authority
CN
China
Prior art keywords
data
web
darknet
web request
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510438103.0A
Other languages
English (en)
Other versions
CN105138561A (zh
Inventor
刘纪平
罗安
王勇
蔡地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN201510438103.0A priority Critical patent/CN105138561B/zh
Publication of CN105138561A publication Critical patent/CN105138561A/zh
Application granted granted Critical
Publication of CN105138561B publication Critical patent/CN105138561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及互联网络信息技术领域,尤其涉及一种暗网空间数据采集方法及装置。一种暗网空间数据采集方法,包括:搭建分布式系统基础架构;在分布式系统基础架构中,构建Web请求池;根据Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在分布式系统上的采集引擎;采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;解析采集到的暗网数据并抽取目标信息。本发明的暗网空间数据采集方法及装置,能够实现对暗网空间数据的采集。

Description

一种暗网空间数据采集方法及装置
技术领域
本发明涉及互联网络信息技术领域,具体而言,涉及一种暗网空间数据采集方法及装置。
背景技术
自从2006年云的设想被Google提出以来,国内外的学术界和产业界都给与了极大的关注。在学术领域,Scientific Cloud和Open Nebula是有名的云计算科学研究项目。在产业界,Google云计算平台率先领跑,提出了分布式计算框架下分布式文件系统GFS(Google File System)、MapReduce分布式编程框架和并行处理的数据库系统Big Table;由于云计算平台将所有数据存储在网上和能够提供强大的计算资源等特点,使其成为了研究热点。
随着互联网不断深入社会生活各个角落,互联网的信息更新速度加快,且蕴含丰富的空间位置信息。互联网已是公众获取信息的主要渠道,相对传统信息收集和传播方式更为广泛,更新速度快,成为了全社会、多领域、广纵深、近实时的动态映像。因此,充分利用互联网信息,挖掘出有效的空间数据,将是信息服务的一个重要内容和发展方向,也是对传统测绘手段获取空间数据的一个有效补充手段。
根据IDC的数据,人类社会一天产生的信息量为8兆万亿字节,而其中大量的内容包含有与地理空间有关的信息。据统计,18.78%的网络资源包含有空间位置信息,而空间位置相关的用户检索则占18.6%。目前在Web 2.0时代,数以亿计的网民还可以自发通过网络(如微博、微信、社交网络等)发布各种具有地理空间意义的信息,出现了大众参与的自发地理信息系统(Volunteer GIS),如OpenStreetMap、Wikimapia等。此外,还有大量带有地理信息的图片和文本。海量VGI数据广泛分布在互联网中,如何有效的采集这些VGI数据则成为了研究的热点。
暗网(Hidden Web)是指网络上不能通过静态链接获取其内容的web页面,如各网站通过用输入关键词才能获得表单内容的页面,需要登录才能获取的页面等,这些页面是目前搜索引擎所无法抓取的网页、不能直接进行检索的网页,即“看不见”的网站。2000年由Bright Planet公司发布的一个名为《The Deep Web-Surfacing The Hidden Value》白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。而此比率随着时间推移正在越来越大。发掘、索引和丰富展示更多的暗网数据,对各搜索引擎来说已经势在必行或者正在实施。
综上研究和开发一种分布式的暗网空间数据采集技术,具有重要的科研价值和市场前景。
发明内容
本发明的目的在于提供一种暗网空间数据采集方法及装置,以实现对暗网空间数据的采集。
第一方面,本发明实施例提供了一种暗网空间数据采集方法,包括:搭建分布式系统基础架构;在所述分布式系统基础架构中,构建Web请求池;根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎;所述采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;解析采集到的所述暗网数据并抽取目标信息。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述在所述分布式系统基础架构中,构建Web请求池,包括:基于本体语料库动态生成用于匹配抓取内容的关键词列表;通过配置式的表单模板生成与所述关键词列表中的关键词匹配的查询表单,作为Web请求;将生成的所述Web请求存储于Web请求池。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述方法还包括:确定采集到的所述暗网数据的数据结构类型;根据所述暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;根据所述数据统计信息构建新的查询表单,作为Web请求存储到所述Web请求池中。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述解析采集到的所述暗网数据并抽取目标信息,包括:采用基于可扩展标记语言XML构建的解析模板对所述暗网数据进行解析;其中所述解析过程中,基于XPath进行细粒度节点的查找和定位,从而获取所述目标信息。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述方法还包括:对抽取到的所述目标信息进行数据结构转换与格式标准化;其中,所述目标信息包括属性信息,将所述属性信息与给定的数据结构进行映射,实现数据结构转换;将所述属性信息按照既定的标准进行转换和补充,得到标准化的表达。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:将提取的目标信息存储到MongoDB数据库中。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:根据文本属性和空间属性分别建立索引表,为所述目标信息查询提供查询通道。
第二方面,本发明实施例还提供了一种暗网空间数据采集装置,包括:系统架构搭建模块,用于搭建分布式系统基础架构;请求池构建模块,用于在所述分布式系统基础架构中,构建Web请求池;任务分配模块,用于根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎;数据采集模块,用于所述采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;信息抽取模块,用于解析采集到的所述暗网数据并抽取目标信息。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述装置还包括:Web请求池扩充模块,用于确定采集到的所述暗网数据的数据结构类型;根据所述暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;根据所述数据统计信息构建新的查询表单,作为Web请求存储到所述Web请求池中。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述装置还包括:结构转换与标准化模块,用于对抽取到的所述目标信息进行数据结构转换与格式标准化;其中,所述目标信息包括属性信息,将所述属性信息与给定的数据结构进行映射,实现数据结构转换;将所述属性信息按照既定的标准进行转换和补充,得到标准化的表达;和/或,还包括:存储模块,用于将提取的目标信息存储到MongoDB数据库中。
本发明实施例的暗网空间数据采集方法及装置,采用分布式系统基础架构为基础,使得可以在不了解分布式底层细节的情况下,开发分布式采集程序,本发明充分利用集群的特性进行高并发及高效率的空间数据采集工作,利用弹性适配的方式平衡集群中各采集系统的负载,最后利用搜索引擎实现暗网空间数据的抽取,提供多源异构空间数据的抽取能力,从而利用本发明实施例的方法及装置能够实现暗网空间数据的高效率采集与获取。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例中暗网空间数据采集方法的一种流程图;
图2示出了本发明实施例中暗网空间数据采集方法的另一种流程图;
图3示出了本发明实施例中同步I/O与异步I/O序列对比图;
图4示出了本发明实施例中暗网空间数据采集装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在自发性地理信息不断发展的今天,大量由终端用户产生的高质量及高时效性的数据广泛存在于互联网络中,但目前空间信息采集领域的发展遇到瓶颈,海量的空间数据只能通过人工进行矢量化,效率非常低,而且广泛存在于暗网空间的数据由于其获取接口的特点,无法通过一般的Web爬虫获取。
为了解决上述问题,本发明实施例中提供了一种暗网空间数据采集方法,如图1所示,主要处理步骤包括:
步骤S11:搭建分布式系统基础架构。
具体实施时,可以搭建基于Map/Reduce的分布式系统基础架构。
本发明中,搭建一个分布式系统作为基础架构,使得大量的暗网数据采集程序能够以分布式的方式部署,并行的采集暗网中的空间数据。基于分布式架构进行Web请求池的集中管理,便于抓取任务的弹性分配。
步骤S12:在分布式系统基础架构中,构建Web请求池。
暗网空间数据采集不同于一般的明网数据,其并不显在的发布特定的URL地址供爬虫采集。为了实现对暗网空间数据的采集,本发明中通过生成动态表单向暗网数据库中查询所需的暗网空间数据。
具体构建Web请求池的方法包括:基于本体语料库动态生成用于匹配抓取内容的关键词列表,通过配置式的表单模板生成与所述关键词列表中的关键词匹配的查询表单,作为Web请求;将生成的所述Web请求存储于Web请求池。
上述的本体语料库是存储了可以描述常见空间信息和兴趣点信息的语料库。基于本体语料库可以动态生成可以匹配抓取内容的关键词列表,并通过配置式的表单模板大量生成Web请求,存储于Web请求池中,便于后续的抓取任务分配。
本发明中在Web请求池中构建足够多的表单信息,以便尽可能完整的遍历暗网数据库中的内容,从而为实现暗网空间数据的自动化采集提供支持。
步骤S13:根据Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在分布式系统上的采集引擎。
根据Web请求池中Web请求的数量和类型,动态计算任务量,弹性分配给部署在分布式服务器系统上的采集引擎,达到空间数据采集的负载均衡。
步骤S14:采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库。
步骤S15:解析采集到的暗网数据并抽取目标信息。
在解析暗网数据时,可以基于一个高可扩展性的模块化文本空间数据解析引擎,自动解析采集到的文本数据,并提取出相关的目标信息,如提取出业务相关的属性信息与空间信息。
本发明实施例中还提供了一种暗网空间数据采集方法的优选实施方式,如图2所示,主要处理步骤包括:
步骤一:搭建基于Map/Reduce的分布式系统基础架构。
本发明提供的暗网空间数据采集方法是以hadoop分布式系统基础架构为基础,Hadoop是一个能够对大量数据进行分布式处理的软件框架,并以一种可靠、高效、可伸缩的方式进行处理。本发明中,将Hadoop系统架构及Web搜索方式融入到主题搜索云计算中间件台中,能够充分的利用其高效的分布式文件系统和强大的并行处理海量数据的方式,充分体现空间数据采集系统中分布式部署的优势。
本发明提供分布式采集架构采用Hadoop分布式系统基础架构来实现分布式的暗网空间数据采集。基于Hadoop分布式系统基础架构,本发明中采用了Web检索方式,Web检索作为一个并行数据处理引擎,它的表现非常突出,使得开发者可以在不了解分布式底层细节的情况下,开发分布式程序,且能够充分的利用集群的威力高速运算和存储。Hadoop中的分布式文件系统(HDFS)有高容错性,能提供高传输率来访问应用程序的数据,适合那些有超大数据集的应用程序,能够对大量数据进行分布式处理的软件框架。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,具备可靠性,高扩展性,高效性,高容错性,低成本等优点。Hadoop带有用Java语言编写的框架,Hadoop上的应用程序也可以使用其他语言编写,比如C++。
步骤二:基于本体语料库和表单模板构建Web请求池。
暗网数据采集不同于一般的明网数据爬取方法,它并不显在的发布特定的URL地址供爬虫采集,而是通过一个动态的Web服务接口,通过生成动态表单向暗网数据库中查询所需的暗网空间数据。所以,自动化采集暗网空间数据的基础是能够自动化构建足够多的表单信息,以便尽可能的完整遍历暗网数据库中的内容。本方法采用一个分类的本体语料库,构建查询表单Web请求池,供后续的暗网数据采集工作使用。
步骤三:抓取任务弹性分配。
基于Hadoop的分布式暗网空间数据采集系统是一个拥有大量暗网爬虫的集群。为了对暗网空间数据进行有效的采集,需要对分布式集群中的各个暗网爬虫进行灵活的任务分配,如图2中将抓取任务动态分配给暗网爬虫1、暗网爬虫2……暗网爬虫n,以达到暗网空间数据的高效采集的目的。
抓取任务弹性分配方式可以为根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎。
步骤四:暗网空间数据抓取
暗网空间数据的抓取依赖于暗网爬虫的应用,暗网爬虫根据采集任务基于异步I/O模型高效采集文本空间数据,存储到分布式系统上的暗网文本空间数据仓库中。
其中异步I/O模型是一种新的数据并行下载方式。传统的线程模型是同步的,所谓同步是指在发出一个功能调用时,在没有得到结果之前,该调用就不返回。而异步则与同步概念相对,当一个异步过程调用发出后,调用者不能立刻得到结果。实际处理这个调用的部件在完成后,通过状态、通知和回调来通知调用者。在系统开发时,默认情况下大多数行为都是基于同步模式的,这样的函数调用方式易于理解,可以有效的提高开发效率,系统问题也比较容易跟踪。而异步模式则与之相反,程序在调用一个异步函数后,不会等待这个函数的响应,而是直接跳过继续执行下面的函数,在异步函数执行完毕时,会发出一个消息,然后执行对应的回调函数。异步I/O模型是为了应对强I/O操作而生的,由于I/O操作往往有大量等待I/O设备响应的时间,若利用线程来进行I/O操作会造成大量的计算资源浪费,异步I/O模型则可利用一个I/O线程完成整个流程,在不降低系统效率的情况下,大大降低了对系统资源的消耗。异步I/O与同步I/O的序列对比如图3所示。
其中,分布式的暗网文本空间数据仓库基于Hbase构建。HBase–(HadoopDatabase)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase的存储模式非常适合对暗网空间数据进行仓库式管理,它能够应对高并发的插入和删除。
步骤五:根据采集内容扩充Web请求池。在采集到暗网空间数据后,就会对其数据结构进行分析,常规的暗网空间数据结构主要包括了XML和JSON两种。根据暗网空间数据的结构,动态解析其内容,并首先抽取出其中的数据统计信息。一般的暗网数据服务都会提供对应的数据统计信息,包括了这个表单对应的数据总条目、分页数量、总页数等。暗网表单则需要通过这些统计信息,进一步的构建新的暗网表单,扩充到Web请求池中,供进一步的抓取使用。
步骤六:暗网空间信息抽取。暗网空间信息一般都有固定的构建规则,基于这种规则可以构建一个对应的解析模板,依靠模板能够对暗网空间数据进行细粒度的抽取,得到终端用户真正关心的信息。暗网空间数据抽取模板基于XML构建,并基于XPath进行细粒度节点的查找和定位。采用XML模板进行暗网空间数据抽取的好处在于:1)使用XML模板可以让传统编译语言动态对模板进行加载与更新,可在不重新编译的情况下应对文本结构的变化。2)XML标记语言是一种可读性较强、灵活度高、维护较为便捷的语言,利用XML进行模板定义可以演化出通用性更强的模板。3)常规编译语言都具有XML语言的解析库,可在不引入外部库的情况下对XML模板进行解析。
步骤七:数据结构转换与标准化。为了对Web多源空间数据进行统一的存储与管理,有必要对抽取到的数据进行进一步的数据结构转换与标准化,形成统一的空间数据管理模式。
其中数据结构转化是指对抽取到的属性信息与给定的数据结构进行映射。例如对于结构不符合规范的时间属性信息,则需要基于给定的结构进行标准化。
其中标准化是指对各个属性的表达方式基于一定的标准进行转换和补充,得到标准化的表达,为对于空间属性来说,主要是指空间坐标的标准化。互联网中存在的矢量空间数据由于没有规范的空间坐标系及空间坐标投影,所以在抽取到暗网空间数据后无法直接使用,需要将其坐标转换为标准的WGS84坐标系,并投影为球面墨卡托投影。
步骤八:结果存储。标准化的暗网空间数据基于给定格式的XML文档进行存储,供后续的数据提交使用。具体的可以将提取的目标信息存储到MongoDB数据库中。
如图2所示,Hadoop分布式系统中设置有暗网空间数据库服务器集群,用于存储抽取的目标信息,其中暗网空间数据库服务器集群中包括暗网空间数据库服务器1、暗网空间数据库服务器2……暗网空间数据库服务器n。
在完成数据存储后,还可以根据文本属性和空间属性分别建立索引表,为所述目标信息查询提供查询通道,以期提高数据查询效率。
基于Hadoop的暗网空间数据爬虫是一个分布式的集群,其可以通过TCP/IP的方式与数据库进行交互,在抽取到正确的数据结果后,将基于一个统一的数据提交接口进行数据的分布式存储工作。
对应上述暗网空间数据采集方法,本发明实施例还提供了一种暗网空间数据采集装置,如图4所示包括:
系统架构搭建模块41,用于搭建分布式系统基础架构;
请求池构建模块42,用于在分布式系统基础架构中,构建Web请求池;
任务分配模块43,用于根据Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在分布式系统上的采集引擎;
数据采集模块44,用于采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;
信息抽取模块45,用于解析采集到的暗网数据并抽取目标信息。
上述的暗网空间数据采集装置还包括:Web请求池扩充模块,用于确定采集到的暗网数据的数据结构类型;根据暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;根据数据统计信息构建新的查询表单,作为Web请求存储到Web请求池中。
为了实现对抽取的目标信息的标准化,在上述装置中还包括结构转换与标准化模块,用于对抽取到的目标信息进行数据结构转换与格式标准化;其中,目标信息包括属性信息,将属性信息与给定的数据结构进行映射,实现数据结构转换;将属性信息按照既定的标准进行转换和补充,得到标准化的表达;和/或,还包括:存储模块,用于将提取的目标信息存储到MongoDB数据库中。
本发明实施例的暗网空间数据采集方法优化了响应请求,对每个请求响应的数据包应有个合理的控制。
本发明实施例的暗网空间数据采集的整个系统基于Map/Reduce的Hadoop架构下部署,提供了灵活高效的采集方式;
暗网空间数据基于一个种类丰富、结构完善的语料库构建,高度覆盖暗网数据库中的暗网空间数据;
依靠完善的XML模板,构建暗网空间数据的实时解析方式,能够在不重新编译整个抽取模块的情况下快速解析暗网空间数据;
对获取到的暗网空间数据进行了标准化,得到的暗网空间数据可用性大大提高。
本发明至少具有以下效果:
高效性:基于Hadoop集群部署,能够高并发的对暗网空间数据进行有效的获取;
通用性:基于XML模板的抽取方式能够应对绝大多数的暗网空间数据结构;
稳定性:整个采集系统中各个模块充分解耦,一个模块的升级不会对其他模块产生影响;
灵活性:系统基于Web请求池进行请求的存储,通过请求的灵活分配有效降低集群中的各个爬虫引擎的系统负载。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种暗网空间数据采集方法,其特征在于,包括:
搭建分布式系统基础架构;
在所述分布式系统基础架构中,构建Web请求池;
根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎;
所述采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;
解析采集到的所述暗网数据并抽取目标信息;
所述在所述分布式系统基础架构中,构建Web请求池,包括:
基于本体语料库动态生成用于匹配抓取内容的关键词列表;
通过配置式的表单模板生成与所述关键词列表中的关键词匹配的查询表单,作为Web请求;
将生成的所述Web请求存储于Web请求池;
所述方法还包括:确定采集到的所述暗网数据的数据结构类型;
根据所述暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;
根据所述数据统计信息构建新的查询表单,作为Web请求存储到所述Web请求池中。
2.根据权利要求1所述的方法,其特征在于,所述解析采集到的所述暗网数据并抽取目标信息,包括:
采用基于可扩展标记语言XML构建的解析模板对所述暗网数据进行解析;
其中所述解析过程中,基于XPath进行细粒度节点的查找和定位,从而获取所述目标信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对抽取到的所述目标信息进行数据结构转换与格式标准化;
其中,所述目标信息包括属性信息,将所述属性信息与给定的数据结构进行映射,实现数据结构转换;将所述属性信息按照既定的标准进行转换和补充,得到标准化的表达。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将提取的目标信息存储到MongoDB数据库中。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据文本属性和空间属性分别建立索引表,为所述目标信息查询提供查询通道。
6.一种暗网空间数据采集装置,其特征在于,包括:
系统架构搭建模块,用于搭建分布式系统基础架构;
请求池构建模块,用于在所述分布式系统基础架构中,构建Web请求池;
任务分配模块,用于根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎;
数据采集模块,用于所述采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;
信息抽取模块,用于解析采集到的所述暗网数据并抽取目标信息;
所述请求池构建模块,具体用于根据下述步骤在所述分布式系统基础架构中,构建Web请求池:基于本体语料库动态生成用于匹配抓取内容的关键词列表;
通过配置式的表单模板生成与所述关键词列表中的关键词匹配的查询表单,作为Web请求;
将生成的所述Web请求存储于Web请求池;
所述装置还包括:Web请求池扩充模块,用于确定采集到的所述暗网数据的数据结构类型;根据所述暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;根据所述数据统计信息构建新的查询表单,作为Web请求存储到所述Web请求池中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:结构转换与标准化模块,用于对抽取到的所述目标信息进行数据结构转换与格式标准化;其中,所述目标信息包括属性信息,将所述属性信息与给定的数据结构进行映射,实现数据结构转换;将所述属性信息按照既定的标准进行转换和补充,得到标准化的表达;和/或,
还包括:存储模块,用于将提取的目标信息存储到MongoDB数据库中。
CN201510438103.0A 2015-07-23 2015-07-23 一种暗网空间数据采集方法及装置 Active CN105138561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510438103.0A CN105138561B (zh) 2015-07-23 2015-07-23 一种暗网空间数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510438103.0A CN105138561B (zh) 2015-07-23 2015-07-23 一种暗网空间数据采集方法及装置

Publications (2)

Publication Number Publication Date
CN105138561A CN105138561A (zh) 2015-12-09
CN105138561B true CN105138561B (zh) 2018-11-27

Family

ID=54723910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510438103.0A Active CN105138561B (zh) 2015-07-23 2015-07-23 一种暗网空间数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN105138561B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870917B (zh) * 2016-09-23 2021-05-07 中国电信股份有限公司 传输网管系统数据变换和逆变换方法及标准化系统
CN107391597B (zh) * 2017-06-30 2020-08-07 北京航空航天大学 一种多元数据采集方法及系统
CN107808000B (zh) * 2017-11-13 2020-05-22 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法
CN108133041A (zh) * 2018-01-11 2018-06-08 四川九洲电器集团有限责任公司 基于网络爬虫和数据转移技术的数据采集系统及方法
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法
CN110096664B (zh) * 2019-04-03 2021-04-09 北大方正集团有限公司 分布式文本信息处理方法、装置、系统、设备及存储介质
CN111737551B (zh) * 2020-05-26 2022-08-05 国家计算机网络与信息安全管理中心 一种基于异构图注意力神经网络的暗网线索检测方法
CN115168714B (zh) * 2022-07-07 2023-11-10 中国测绘科学研究院 一种Web API数据抽取方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100875636B1 (ko) * 2007-09-19 2008-12-26 한국과학기술정보연구원 그리드 컴퓨팅 기반 웹 크롤러 시스템 및 그 방법
CN101840432A (zh) * 2010-05-11 2010-09-22 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
CN102135976A (zh) * 2010-09-27 2011-07-27 华为技术有限公司 超文本标识语言页面结构化数据提取方法及装置
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN103294715A (zh) * 2012-02-29 2013-09-11 腾讯科技(深圳)有限公司 一种暗网数据搜索方法及搜索引擎
CN103455597A (zh) * 2013-09-03 2013-12-18 山东省计算中心 面向海量web图像的分布式信息隐藏检测方法
CN103678490A (zh) * 2013-11-14 2014-03-26 桂林电子科技大学 一种基于Hadoop平台的Deep Web查询接口聚类方法
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100875636B1 (ko) * 2007-09-19 2008-12-26 한국과학기술정보연구원 그리드 컴퓨팅 기반 웹 크롤러 시스템 및 그 방법
CN101840432A (zh) * 2010-05-11 2010-09-22 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
CN102135976A (zh) * 2010-09-27 2011-07-27 华为技术有限公司 超文本标识语言页面结构化数据提取方法及装置
CN103294715A (zh) * 2012-02-29 2013-09-11 腾讯科技(深圳)有限公司 一种暗网数据搜索方法及搜索引擎
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN103455597A (zh) * 2013-09-03 2013-12-18 山东省计算中心 面向海量web图像的分布式信息隐藏检测方法
CN103678490A (zh) * 2013-11-14 2014-03-26 桂林电子科技大学 一种基于Hadoop平台的Deep Web查询接口聚类方法
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"吃玩网中DeepWeb数据集成研究";李继宝;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090115;全文 *
"基于Web的空间数据爬取与度量研究";王明军;《中国博士学位论文全文数据库 基础科学辑》;20140715;摘要第1页、正文第4-6、12-19、44-46、48-49、51-55、63、84、87页 *

Also Published As

Publication number Publication date
CN105138561A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN105138561B (zh) 一种暗网空间数据采集方法及装置
Zhang et al. A survey on emerging computing paradigms for big data
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
Khan et al. Cloud based big data analytics for smart future cities
CN110309264B (zh) 基于知识图谱获取地理产品数据的方法和装置
CN105138661B (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN110196871A (zh) 数据入库方法和系统
CN107463434B (zh) 一种分布式任务处理方法与设备
US20200159764A1 (en) Method for Processing and Displaying Real-Time Social Data on Map
WO2021032146A1 (zh) 元数据管理方法和装置、设备及存储介质
CN103984745A (zh) 分布式视频垂直搜索方法及系统
CN103246963B (zh) 基于物联网的员工培训系统
CN103390018B (zh) 一种基于SDD的Web服务数据建模与搜索方法
CN114399006A (zh) 基于超算的多源异构图数据融合方法及系统
CN104270443B (zh) 一种能够动态解析Web应用的云计算系统及方法
Javadi et al. Decentralized orchestration of data-centric workflows using the object modeling system
CN103823855B (zh) 面向语义网的中文百科知识组织与集成方法
Huang Geopubsubhub: A geospatial publish/subscribe architecture for the world-wide sensor web
CN110347562A (zh) 数据采集方法、装置、计算机可读介质及智能终端设备
Bardi et al. Aggregative data infrastructures for the cultural heritage
Andročec Systematic mapping study on osmotic computing
Han Hadoop Data Mining Analysis of Network Education Platform based on PDM New Media Data Perspectives
CN109522466A (zh) 一种分布式爬虫系统
Zaslavskiy et al. Implementation of the new REST API for open source LBS-platform Geo2Tag
Karthik et al. Scaling an urban emergency evacuation framework: challenges and practices.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant