CN107391597A

CN107391597A - 一种多元数据采集方法及系统

Info

Publication number: CN107391597A
Application number: CN201710522317.5A
Authority: CN
Inventors: 李博; 焉域政; 陈汉腾; 李建欣; 李子涵; 朱化磊; 王晓松
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2017-11-24
Anticipated expiration: 2037-06-30
Also published as: CN107391597B

Abstract

本发明公开了一种多元数据采集方法及系统，所述方法包括：对网络进行IP扫描，获取多个IP地址以及与所述IP地址相应的文本信息；通过文本分类器对获取到的所述文本信息进行分类，并基于分类结果确定出与工控安全相关的IP地址，其中，所述与工控安全相关的IP地址包括：数据源的IP地址、工控系统的IP地址；将所述与工控安全相关的IP地址存储至网站库中，并基于所述网站库中的所述数据源的IP地址，通过多源爬虫对与各个IP地址对应的网站进行数据爬取；对爬取到的数据进行结构化处理，并将结构化处理后的数据存储至数据库中。

Description

一种多元数据采集方法及系统

技术领域

本发明涉及工业控制安全技术领域，尤其涉及一种工业控制安全中的多元数据采集方法及系统。

背景技术

天眼是360公司自主研制的大数据安全分析系统。天眼依托于360的丰富资源，可以获得360自有的海量多维度安全数据，可以自动化挖掘数据中潜在的威胁情报，向客户推送预警信息。

天眼系统首先分析自有的海量数据，通过机器学习和数据挖掘等方式结合安全专家对网上出现的安全情报进行持续的监控，对新型的木马、病毒和攻击方式进行监控，并对攻击者进行跟踪，最后将这些威胁情报推送给用户。

天眼系统还可以基于一整套硬件系统对公司的网络数据进行采集，一方面可以完善公司的数据库，另一方面通过对网络流量的分析，结合云端发现的威胁情报数据对本地的恶意行为进行发现。

最后天眼系统会根据用户的数据和自有的海量数据对攻击者进行追踪定位，并分析出攻击者的位置、行为、目标等数据，分辨出普通攻击和高级持续性威胁(APT，AdvancedPersistent Threat)攻击，一方面充实数据库，另一方面针对性地做出响应。

x-force是IBM公司所开发的一个信息安全数据平台，上面有丰富的各类数据，一方面是实时更新的攻击行为数据和僵尸网络的数据，另一方面有安全专家发布各类新闻等数据，这些数据经过了精心的编排，页面做得非常细致。

x-force的僵尸网络数据是网站比较核心的数据，IBM通过检测网上的数据流，检测网上的僵尸网络，借此来发现攻击组织的行为。

该网站的另一个特色是有着比较方便的用户定制服务，对于用户来说可以建立一个集合，追踪自己关心的某个组织，将这个组织的相关行为综合起来集中分析，这个集合也可以与其他人分享，这就构成了一个比较活跃的用户群。

360的天眼和IBM的x-force是比较出名的网络安全多源数据汇聚平台，这两者都收集了海量的安全数据并且进行分析，挖掘了其中的价值，但是这两者并非最佳解决方案，主要有以下几个问题：

数据来源依靠公司强大的背景，对于网络中可获取的数据并不是特别重视，因此，数据来源并不全面。

网站的数据没有工业控制(也简称为工控)特色，也即网站数据中缺乏工控安全方面的多源数据。

发明内容

为解决上述技术问题，本发明实施例提供了一种多元数据采集方法及系统。

本发明实施例提供的多元数据采集方法，包括：

对网络进行IP扫描，获取多个IP地址以及与所述IP地址相应的文本信息；

通过文本分类器对获取到的所述文本信息进行分类，并基于分类结果确定出与工控安全相关的IP地址，其中，所述与工控安全相关的IP地址包括：数据源的IP地址、工控系统的IP地址；

将所述与工控安全相关的IP地址存储至网站库中，并基于所述网站库中的所述数据源的IP地址，通过多源爬虫对与各个IP地址对应的网站进行数据爬取；

对爬取到的数据进行结构化处理，并将结构化处理后的数据存储至数据库中。

本发明实施例中，所述数据库中的数据内容至少包括：文本信息数据库、厂商库、设备库、协议库；所述方法还包括：

对所述文本信息数据库中的文本信息进行关键词处理，生成与工控相关的关键词库；

基于所述关键词库，生成或更新认知库中的文本分类器，所述认知库中的内容至少包括：关键词库、厂商库、设备库、协议库。

本发明实施例中，所述方法还包括：

当更新认知库中的文本分类器时，基于更新后的文本分类器对当前获取到的文本信息进行重新分类，并基于分类结果更新与工控安全相关的IP地址；

基于更新后的与工控安全相关的IP地址，通过多源爬虫对网站进行数据的爬取。

本发明实施例中，所述方法还包括：

确定出与工控安全相关的IP地址后，基于工控系统分类器对所述与工控安全相关的IP地址进行分类，并基于分类结果确定出数据源的IP地址、工控系统的IP地址。

本发明实施例中，所述基于所述关键词库，生成或更新认知库中的文本分类器，包括：

基于所述关键词库中的各个关键词以及获取到的文本信息，对文本分类器进行训练，得到文本分类器。

本发明实施例提供的多元数据采集系统，包括：

扫描模块，用于对网络进行IP扫描，获取多个IP地址以及与所述IP地址相应的文本信息；

分类及筛选模块，用于通过文本分类器对获取到的所述文本信息进行分类，并基于分类结果确定出与工控安全相关的IP地址，其中，所述与工控安全相关的IP地址包括：数据源的IP地址、工控系统的IP地址；

存储模块，用于将所述与工控安全相关的IP地址存储至网站库中；

爬虫模块，用于基于所述网站库中的所述数据源的IP地址，通过多源爬虫对与各个IP地址对应的网站进行数据爬取；

所述存储模块，还用于对爬取到的数据进行结构化处理，并将结构化处理后的数据存储至数据库中。

本发明实施例中，所述数据库中的数据内容至少包括：文本信息数据库、厂商库、设备库、协议库；

所述系统还包括：

处理模块，用于对所述文本信息数据库中的文本信息进行关键词处理，生成与工控相关的关键词库；

生成模块，用于基于所述关键词库，生成或更新认知库中的文本分类器，所述认知库中的内容至少包括：关键词库、厂商库、设备库、协议库。

本发明实施例中，所述系统还包括：

更新模块，用于当更新认知库中的文本分类器时，基于更新后的文本分类器对当前获取到的文本信息进行重新分类，并基于分类结果更新与工控安全相关的IP地址；基于更新后的与工控安全相关的IP地址，通过多源爬虫对网站进行数据的爬取。

本发明实施例中，所述分类及筛选模块，还用于确定出与工控安全相关的IP地址后，基于工控系统分类器对所述与工控安全相关的IP地址进行分类，并基于分类结果确定出数据源的IP地址、工控系统的IP地址。

本发明实施例中，所述生成模块，具体用于基于所述关键词库中的各个关键词以及获取到的文本信息，对文本分类器进行训练，得到文本分类器。

本发明实施例还提供一种计算机存储介质，其上存储有计算机可执行指令，其特征在于，该计算机可执行指令被处理器执行时实现本发明实施例提供的多元数据采集方法。

采用本发明实施例的技术方案，能够汇聚网络中的可以获取到的各类安全数据，实现数据采集能力很强的数据采集系统；此外，这类安全数据工控安全方面的多源数据，从而能够实现工控安全特色的数据采集系统。

附图说明

图1为本发明实施例的多元数据采集方法的流程示意；

图2为本发明实施例的多元数据采集系统的结构组成示意图一；

图3为本发明实施例的多元数据采集系统的结构组成示意图二；

图4为本发明实施例的计算机设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

以下为本发明实施例相关的关键术语的解释说明：

IP扫描：本发明实施例提供一种用于进行IP扫瞄和文本抓取的工具，使用这个工具进行大规模地IP扫描，如此，可以轻松地将大量的IP地址和网页上面的文本采集下来，然后，根据文本的内容分析对应的IP地址与工控安全的相关性。

多源爬虫：多源爬虫是本发明实施例的关键技术，因为数据源的数量很多，而每个数据源上面的数据量并不多，因此，本发明实施例采用一个可以适应复杂环境的开源爬虫，对于各种不同的数据源，爬虫都能将标题、作者、时间、内容这些信息准确地存进数据库中。每发现一个新的数据源网站，都只需将标题、作者、翻页这些信息的XPATH变量配置进去，就能实现将新的网站爬下来。

本发明实施例的技术方案，旨在获取网络中的海量数据，这些数据是包括不同类型的内容，例如：安全新闻、安全博客、IP信誉库、漏洞库等各类数据，这些数据的数据源散落在互联网中，想要将他们全部获取到，就需要先找到数据源的网站。为此，本发明实施例提供一种发现新数据源的方案，能够汇聚网络中的多源数据。

本发明实施例的技术方案，汇聚网络中的多源数据之后，能够从多源数据中过滤出工控安全相关的数据源。数据源的过滤如果通过人工实现，那么带来的将是非常大的工作量。为此，本发明实施例提供数据源过滤模块，能够对数据源进行自动过滤。进一步，数据源过滤模块还有一个功能是能够自动的进行更新，从而能够辩认出新的工控热点。

图1为本发明实施例的多元数据采集方法的流程示意图，如图1所示，所述多元数据采集方法包括以下步骤：

步骤101：对网络进行IP扫描，获取多个IP地址以及与所述IP地址相应的文本信息。

步骤102：通过文本分类器对获取到的所述文本信息进行分类，并基于分类结果确定出与工控安全相关的IP地址，其中，所述与工控安全相关的IP地址包括：数据源的IP地址、工控系统的IP地址。

本发明实施例中，确定出与工控安全相关的IP地址后，基于工控系统分类器对所述与工控安全相关的IP地址进行分类，并基于分类结果确定出数据源的IP地址、工控系统的IP地址。

步骤103：将所述与工控安全相关的IP地址存储至网站库中，并基于所述网站库中的所述数据源的IP地址，通过多源爬虫对与各个IP地址对应的网站进行数据爬取。

步骤104：对爬取到的数据进行结构化处理，并将结构化处理后的数据存储至数据库中。

这里，所述数据库中的数据内容至少包括：文本信息数据库、厂商库、设备库、协议库；所述方法还包括：

本发明实施例中，当更新认知库中的文本分类器时，基于更新后的文本分类器对当前获取到的文本信息进行重新分类，并基于分类结果更新与工控安全相关的IP地址；

本发明实施例中，基于所述关键词库中的各个关键词以及获取到的文本信息，对文本分类器进行训练，得到文本分类器。

本发明实施例的上述技术方案中，数据源的获取方式具体为：大规模IP扫描，获取80端口开放的IP地址；抓取开放80端口的IP地址中网页的文本信息；通过文本分类器得到其中的工控安全数据源的IP地址和工控系统的IP地址。

本发明实施例的上述技术方案中，认知库与数据源具有自动更新机制。具体地，首先利用爬取下来的数据对关键词库进行分词、TF-IDF，并进行其他的处理可以得到关键词库，然后从一些特定的数据源中获取厂商库、设备库等数据，共同组成了工控安全的认知库。然后，关键词库中的关键词作为特征词，利用爬下来的文本训练文本分类器，通过文本分类器获取数据源。随着时间的推移，爬下来的数据内容会发生变化，那么就会导致关键词库的内容会变化，厂商库、设备库等的内容也会不断地进行更新，所以认知库是在不断地更新。由于认知库和数据库中的文本都发生了更新，所以训练出的文本分类器也会改变，再加上网络环境的变化，就会发现新的数据源，然后从新的数据源爬下来数据又会推动关键词库的更新。

图2为本发明实施例的多元数据采集系统的结构组成示意图一，如图2所示，所述系统包括：

扫描模块201，用于对网络进行IP扫描，获取多个IP地址以及与所述IP地址相应的文本信息；

分类及筛选模块202，用于通过文本分类器对获取到的所述文本信息进行分类，并基于分类结果确定出与工控安全相关的IP地址，其中，所述与工控安全相关的IP地址包括：数据源的IP地址、工控系统的IP地址；

存储模块203，用于将所述与工控安全相关的IP地址存储至网站库中；

爬虫模块204，用于基于所述网站库中的所述数据源的IP地址，通过多源爬虫对与各个IP地址对应的网站进行数据爬取；

所述存储模块203，还用于对爬取到的数据进行结构化处理，并将结构化处理后的数据存储至数据库中。

所述系统还包括：

处理模块205，用于对所述文本信息数据库中的文本信息进行关键词处理，生成与工控相关的关键词库；

生成模块206，用于基于所述关键词库，生成或更新认知库中的文本分类器，所述认知库中的内容至少包括：关键词库、厂商库、设备库、协议库。

本发明实施例中，所述系统还包括：

更新模块207，用于当更新认知库中的文本分类器时，基于更新后的文本分类器对当前获取到的文本信息进行重新分类，并基于分类结果更新与工控安全相关的IP地址；基于更新后的与工控安全相关的IP地址，通过多源爬虫对网站进行数据的爬取。

本发明实施例中，所述分类及筛选模块202，还用于确定出与工控安全相关的IP地址后，基于工控系统分类器对所述与工控安全相关的IP地址进行分类，并基于分类结果确定出数据源的IP地址、工控系统的IP地址。

本发明实施例中，所述生成模块206，具体用于基于所述关键词库中的各个关键词以及获取到的文本信息，对文本分类器进行训练，得到文本分类器。

本领域技术人员应当理解，图2所示的多元数据采集系统中的各模块的实现功能可参照前述多元数据采集方法的相关描述而理解。

图3为本发明实施例的多元数据采集系统的结构组成示意图二，如图3所示，所述多元数据采集系统由3个主要部分组成，分别是：数据库、认知库、网站库；其中：

1)数据库：是系统的关键部分，所有数据源中获取到的数据都会存储至数据库中，后续的数据分析也是以数据库为基础的。由于舆情方面的数据量非常大，因此数据库采用hbase进行分布式存储，然后，采用elastic search进行分布式索引。

2)认知库：代表了系统对于工控安全的认知状态，其中包括几个利用庞大数据生成的不同需求的文本分类器。

3)网站库：保存工控安全方面的IP地址，这里，工控安全方面的IP地址分为两类，其中，一类是工控安全技术网站这样的数据源网站的IP地址，另一类是工控系统的IP地址。

本发明实施例的多元数据采集系统的主要工作流程包括以下步骤：

(1)：从现有的数据源中获取数据。

这里，本发明实施例需要编写爬虫对数据进行持续自动的爬取，以适应大量的不同结构网站的需求。

(2)：.对爬取下来的数据进行处理。具体地，首先，通过分词、词频-逆向文件频率(TFIDF，Term Frequency–Inverse Document Frequency)生成关键词，如此得到每个词的分数；然后，根据时间的不同，将不同文本的词的分数乘以一个不同的系数，时间越久远的文本系数越低；最后，将所有文本中相同词语的分数相加，得到一个总的分数列表，将其中分数较高的词语取出来，人工排除掉不相关的词语，剩余的词语形成关键词库(wordbank)，根据分数不同给予不同的权重。然后，从特定的网站爬取厂商库、设备库、协议库之类的其他认知库的组成部分并定时更新。

(3)：以认知库中的词语作为特征词，利用这些数据对文本分类器进行训练，获得符合需要的工控安全文本分类器。

(4)：文本分类器用来对一些数据源中相关性不是很高的数据进行筛选分类，提高数据的相关性。

(5)：进行大规模的IP扫描，抓取网站80端口的文本信息，初步筛选只保留其中含有认知库的关键词的文本。用文本分类器对网站的文本进行分类，筛选出工控安全相关的IP地址。这里，工控安全相关的IP地址又有两类，一类是数据源的IP地址，另一类是工控系统的IP地址，人工筛选出工控系统的IP地址，并训练一个工控系统文本分类器用来自动对文本进行筛选。

(6)：对于工控系统的IP地址，根据IP地址查询地理位置等信息，将其存入网站库中。对于数据源的IP地址，通过一个多源爬虫对它们进行同时爬取，将获取到的数据结构化之后存入数据库之中。

(7)：知识库定期根据数据库的内容进行半自动的更新。本发明实施例会截取最近一段时间的数据，重新运行生成工具，配合人工，发现新的工控安全属性词，生成新的认知库，并标注新的训练集来训练文本分类器，并利用这个来获取新的数据源。即每过一段时间就会重新运行(2)-(5)步骤。

在上述方案的基础上，本发明实施例还提供几个数据分析功能：1、针对舆情数据的事件检测与分析模块，通过对微博数据的聚类，得到事件的信息，然后进行事件演化分析，得到事件演化过程。2、针对微博、新闻、博客等的查询与展示。3、根据最近几天的舆情数据的数量计算出舆情指数，从而间接地展现当前的工控安全现状。4、热点词云，将最近的一段时间的文章进行分词，做TF-IDF统计，将结果的分数最高的词语展示出来，从而比较直观地看出当前的热点。

本发明实施例上述多元数据采集系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例还提供一种计算机存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本发明实施例的上述多元数据采集方法。

图4为本发明实施例的计算机设备的结构组成示意图，如图4所示，所述计算机设备包括存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机可执行指令，所述处理器402执行所述计算机可执行指令时实现如下方法步骤：

以上涉及计算机设备的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。

本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种多元数据采集方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多元数据采集方法，其特征在于，所述数据库中的数据内容至少包括：文本信息数据库、厂商库、设备库、协议库；所述方法还包括：

3.根据权利要求2所述的多元数据采集方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的多元数据采集方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的多元数据采集方法，其特征在于，所述基于所述关键词库，生成或更新认知库中的文本分类器，包括：

6.一种多元数据采集系统，其特征在于，所述系统包括：

7.根据权利要求6所述的多元数据采集系统，其特征在于，所述数据库中的数据内容至少包括：文本信息数据库、厂商库、设备库、协议库；

所述系统还包括：

8.根据权利要求7所述的多元数据采集系统，其特征在于，所述系统还包括：

9.根据权利要求6所述的多元数据采集系统，其特征在于，所述分类及筛选模块，还用于确定出与工控安全相关的IP地址后，基于工控系统分类器对所述与工控安全相关的IP地址进行分类，并基于分类结果确定出数据源的IP地址、工控系统的IP地址。

10.根据权利要求7所述的多元数据采集系统，其特征在于，所述生成模块，具体用于基于所述关键词库中的各个关键词以及获取到的文本信息，对文本分类器进行训练，得到文本分类器。