CN115296892A

CN115296892A - 数据信息服务系统

Info

Publication number: CN115296892A
Application number: CN202210922781.4A
Authority: CN
Inventors: 徐桂忠; 张淯舒; 钱茛南; 林倩如
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-04
Anticipated expiration: 2042-08-02
Also published as: CN115296892B

Abstract

本公开涉及互联网技术领域，提供一种数据雷达监测系统，包括：数据雷达子系统，用于通过暗网代理节点接入暗网网络空间，利用暗网网络爬虫，对所述暗网网络空间中的暗网节点进行分布式探测，获取所述暗网节点的特征信息；数据监测与分析子系统，用于基于所述特征信息，对所述暗网网络空间中的目标暗网节点进行数据采集，并对采集到的数据进行内容分析，抽取出所述采集到的数据对应的数据特征，对所述数据特征进行分析处理，以实现对所述暗网网络空间的监测与分析。本公开实现了对暗网网络空间的监测与分析，有效地对暗网网络空间进行了数据挖掘，获取了其中的情报信息。

Description

数据信息服务系统

技术领域

本公开涉及互联网技术领域，特别涉及一种数据信息服务系统。

背景技术

暗网是指只能通过特殊的配置、软件、授权或者非标准的通信协议和端口才能访问的网络。暗网以匿名通信技术为基础，提供一个无法被追踪的网络系统。在暗网中，无论是服务提供者还是访问者，都是完全匿名且无法被追踪的，因此，暗网成为了各种非法交易的核心场所，也成为了各种暴恐组织的活动场所。基于此，如何对暗网进行数据挖掘以获取其中的情报信息，成为本领域技术人员亟待解决的问题。

发明内容

本公开旨在至少解决现有技术中存在的问题之一，提供一种数据信息服务系统。

本公开提供的数据信息服务系统，包括：

数据雷达子系统，用于通过暗网代理节点接入暗网网络空间，利用暗网网络爬虫，对所述暗网网络空间中的暗网节点进行分布式探测，获取所述暗网节点的特征信息；

数据监测与分析子系统，用于基于所述特征信息，对所述暗网网络空间中的目标暗网节点进行数据采集，并对采集到的数据进行内容分析，抽取出所述采集到的数据对应的数据特征，对所述数据特征进行分析处理，以实现对所述暗网网络空间的监测与分析。

可选的，所述数据雷达子系统包括匿名网络节点利用模块、数据探测模块、数据传输模块和第一数据处理模块，其中：

所述匿名网络节点利用模块，用于在所述暗网网络空间部署若干受控节点，通过所述受控节点探测所述暗网节点，对暗网流量进行检测，并提供匿名网络代理；

所述数据探测模块，用于基于所述匿名网络代理，对所述暗网网络空间的网络服务和服务指纹进行探测，并根据探测结果构建暗网节点服务及指纹探测数据库；检测所述暗网节点中存在的潜在漏洞，对所述潜在漏洞进行验证，收集所述暗网节点的脆弱性信息，并利用所述潜在漏洞对所述暗网节点进行控制；探测并发现所述暗网节点对应的暗网节点资源，并将所述暗网节点资源作为所述暗网节点的特征信息，所述暗网节点资源包括暗网IP地址、暗网IP地址的位置信息、开放端口、banner信息、使用软件及版本中的至少一者；

所述数据传输模块，用于将所述数据探测模块探测到的所述暗网节点资源采用预设的隐蔽传输方式传输至所述数据处理与分析模块；

所述第一数据处理模块，用于对所述暗网节点资源进行处理，形成预设数据格式的数据，得到所述暗网节点的特征信息；其中，所述预设数据格式中的字段包括IP地址、设备名称、设备固件版本、服务类型、访问地址、端口信息、脆弱性信息中的至少一者。

可选的，所述匿名网络节点利用模块，具体用于：

利用已有的暗网资源数据和匿名网络自身的技术特征，建立相应的流量检测节点、匿名网络代理节点和数据通信传输节点，深入探测暗网流量情况；使用匿名网络代理和防溯源通信传输技术，实现已建立的各节点之间的防溯源隐匿通信；

所述第一数据处理模块，具体用于：

对所述暗网节点资源进行数据标注、数据识别和数据清洗，得到所述预设数据格式的数据。

可选的，所述第一数据处理模块，具体用于对所述暗网节点资源进行数据标注，包括：

所述第一数据处理模块，具体用于：

根据预设的通用标注需求、用户的自定义标注需求以及用户自定义的树形结构标注体系，对基于所述暗网节点资源形成的数据表和/或数据列表进行标注；其中，

对基于所述暗网节点资源形成的数据表进行标注，包括：对所述数据表的置信度、数据来源、数据内容所在区域、用户自定义信息中的至少一者进行标注；

对基于所述暗网节点资源形成的数据列表进行标注，包括：根据所述用户自定义的树形结构标注体系，对所述数据列表中的数据列进行业务级标注；

所述第一数据处理模块，具体用于对所述暗网节点资源进行数据识别，包括：

所述第一数据处理模块，具体用于：

利用预设的自动识别模型，对所述暗网节点资源形成的数据列表中的各数据列的数据类型进行识别，并根据识别出的数据类型对各数据列进行标注；其中，所述数据类型包括地名、日期时间、IP地址、GPS位置信息中的至少一者；

所述第一数据处理模块，具体用于对所述暗网节点资源进行数据清洗，包括：

所述第一数据处理模块，具体用于：

对所述暗网节点资源形成的数据列表进行结构编辑和内容编辑；其中，

所述内容编辑包括：根据预设的数据清洗规则和用户自定义的数据清洗规则，对所述数据列表中的数据进行内容级别的清洗操作，所述清洗操作包括字段拼接、字段拆分、字段复制、字符串提取、字符串替换、增加前/后缀、清除指定字符、字段截断、时间变换、繁简体转换中的至少一者。

可选的，所述数据监测与分析子系统包括：

暗网接入模块，用于基于所述暗网节点的特征信息以及暗网接入代理，建立与所述暗网网络空间的通信链路，并根据所述通信链路的状态，及时对所述通信链路进行更新，以确保实现与所述暗网网络空间的通信连接；其中，所述暗网网络空间包括Tor暗网、I2P暗网、ZeroNet暗网中的至少一者；

采集代理模块，用于基于所述通信链路，根据预设的采集任务，利用爬虫程序对所述目标暗网节点进行数据采集；

第二数据处理模块，用于根据预先配置的数据处理规则，对所述采集代理模块采集到的数据进行处理，得到所述目标暗网节点对应的预设形式数据；

数据分析模块，用于对所述预设形式数据进行分析处理，生成所述目标暗网节点对应的数据分析结果。

可选的，所述第二数据处理模块包括：

数据清洗模块，用于根据预先配置的数据提取规则，从所述采集代理模块采集到的数据中提取目标数据，根据预先配置的数据清洗规则，去除所述目标数据中的预设无用符号和停用词，并进行去重处理，以对所述采集代理模块采集到的数据进行清洗；根据预设的字段映射规则，将清洗后的数据映射至预设的结构化数据字段，得到所述预设形式数据；

数据标签管理模块，用于采用基于字符串匹配的分词方法、基于统计的分词方法、基于理解的分词方法中的至少一者，对所述预设形式数据进行分词处理，得到所述预设形式数据的分词结果，并根据所述分词结果，为所述预设形式数据设置数据标签，得到所述目标暗网节点对应的带标签数据。

可选的，所述数据分析模块包括：

语义识别模块，用于采用基于Skip-gram模型的方法或者LSA算法中的至少一者，对所述带标签数据进行语义识别，得到语义识别结果；

命名实体识别模块，用于采用基于长短期记忆网络的命名实体识别模型，对所述带标签数据进行命名实体识别，得到命名实体识别结果，其中，所述基于长短期记忆网络的命名实体识别模型包括lookup层、双向LSTM层和CRF层；

关键语句识别模块，用于对所述带标签数据进行分句处理，将分句处理得到的词和句子通过词嵌入方式进行向量表示，利用机器学习方法对向量表示后的词和句子进行排序，将排名在预设数值之前的词和/或句子作为关键语句，得到关键语句识别结果；

分类分析模块，用于基于训练好的分类器模型，根据所述带标签数据的文本特征，对所述带标签数据进行分类，得到分类分析结果，其中，所述训练好的分类器模型预先根据样本文本特征的文本向量空间对预设的文本分类算法进行训练得到；

聚类分析模块，用于通过TF-IDF对所述带标签数据进行特征提取，并使用基于密度的DBSCAN算法对特征提取后的所述带标签数据进行聚类，得到聚类分析结果；

关联分析模块，用于根据用户输入的指定数据特征，从已有的所述带标签数据中筛选出目标数据，利用预设的关联分析算法对所述目标数据进行关联分析，得到关联分析结果。

可选的，所述数据信息服务系统还包括：

分布式存储子系统，用于基于MySQL、Hbase、FastDFS中的至少一者，采用分布式存储方式，对所述暗网节点的特征信息和/或所述数据特征进行存储和管理。

可选的，所述数据信息服务系统还包括：

可视化展示子系统，用于对所述暗网节点的特征信息和/或所述目标暗网节点对应的数据特征进行统计学分析，根据预设的关键词进行检索，以图形化方式展示所述暗网节点的特征信息和/或所述目标暗网节点对应的数据特征，并基于所述暗网节点的特征信息对所述暗网网络空间中的威胁事件进行识别和预警；其中，所述统计学分析包括分类分析、聚类分析中的至少一者。

可选的，运维管理子系统，用于对所述数据雷达子系统和所述数据监测与分析子系统进行运维管理，根据预设的监测任务对所述数据雷达子系统和所述数据监测与分析子系统进行协调和调度。

本公开相对于现有技术而言，利用数据雷达子系统通过暗网代理节点接入暗网网络空间，探测暗网网络空间中的暗网节点，获取暗网节点的特征信息，利用数据监测与分析子系统基于暗网节点的特征信息，对暗网网络空间中的目标暗网节点进行数据采集，并对采集到的数据进行内容分析，抽取出采集到的数据对应的数据特征，对数据特征进行分析处理，从而实现了对暗网网络空间的监测与分析，有效地对暗网网络空间进行了数据挖掘，获取了其中的情报信息。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种数据信息服务系统的结构示意图；

图2为本公开另一实施方式提供的数据雷达子系统的结构示意图；

图3为本公开另一实施方式提供的数据监测与分析子系统的结构示意图。

具体实施方式

为使本公开实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本公开的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本公开各实施方式中，为了使读者更好地理解本公开而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便，不应对本公开的具体实现方式构成任何限定，各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种数据信息服务系统，如图1所示，包括数据雷达子系统110和数据监测与分析子系统120。

数据雷达子系统110用于通过暗网代理节点接入暗网网络空间，利用暗网网络爬虫，对暗网网络空间中的暗网节点进行分布式探测，获取暗网节点的特征信息；。

数据监测与分析子系统120用于基于特征信息，对暗网网络空间中的目标暗网节点进行数据采集，并对采集到的数据进行内容分析，抽取出采集到的数据对应的数据特征，对数据特征进行分析处理，以实现对暗网网络空间的监测与分析。

如图2所示，数据雷达子系统110可以包括匿名网络节点利用模块111、数据探测模块112、数据传输模块113和第一数据处理模块114。

匿名网络节点利用模块111用于在暗网网络空间部署若干受控节点，通过受控节点探测暗网节点，对暗网流量进行检测，并提供匿名网络代理。

示例性的，匿名网络节点利用模块111具体用于：

利用已有的暗网资源数据和匿名网络自身的技术特征，建立相应的流量检测节点、匿名网络代理节点和数据通信传输节点，深入探测暗网流量情况；使用匿名网络代理和防溯源通信传输技术，实现已建立的各节点之间的防溯源隐匿通信。

数据探测模块112用于基于匿名网络代理，对暗网网络空间的网络服务和服务指纹进行探测，并根据探测结果构建暗网节点服务及指纹探测数据库；检测暗网节点中存在的潜在漏洞，对潜在漏洞进行验证，收集暗网节点的脆弱性信息，并利用潜在漏洞对暗网节点进行控制；探测并发现暗网节点对应的暗网节点资源，并将暗网节点资源作为暗网节点的特征信息，暗网节点资源包括暗网IP地址、暗网IP地址的位置信息、开放端口、banner信息、使用软件及版本中的至少一者。

示例性的，数据探测模块112可以包括资源探测模块、漏洞探测模块、端口探测模块、资产管理模块、自定义特征探测模块、网络协议栈识别模块、IP地址定位模块。

资源探测模块用于对暗网网络空间的网络服务和服务指纹进行探测，并根据探测结果构建暗网节点服务及指纹探测数据库。资源探测模块具体还用于：获取暗网网络空间待探测网络的IP地址列表，IP地址列表中的IP地址基于预设的顺序排列，将IP地址列表进行拆分并重新排列组合，根据重新排列后的IP地址列表对暗网网络空间的网络服务和服务指纹进行探测。作为优选地，在每次探测完成后，均对IP地址列表中未完成探测的IP地址列表进行拆分并重新排列组合，以根据重新排列后的IP地址列表进行下一次探测。通过将IP地址列表进行拆分，打乱顺序进行探测，探测完成后再次重新排列组合，能够避免探测被安全设备的防御机制所阻断，从而大大提高了资源侦测的成功率。

漏洞探测模块用于根据暗网节点服务及指纹探测数据库对暗网节点中的潜在漏洞进行探测，并对潜在漏洞进行验证，收集暗网节点的脆弱性信息，以及利用潜在漏洞针对暗网节点进行控制。漏洞探测模块具体还用于：获取关于目标主机的基本信息，将其与存有漏洞信息的漏洞库进行漏洞特征的关键字匹配，获得漏洞的大致范围，根据漏洞本身的特征构造对应类型的数据包，并将该数据包发送到目标主机的相应端口，根据目标主机对该数据包的回复情况判断出目标主机是否存在该类型的数据包对应的漏洞。

端口探测模块用于对预设端口进行扫描，探测端口的开放情况，并根据端口的响应数据和端口的开放情况，确定出该端口符合的协议服务信息、产品组件信息和操作系统信息。

资产管理模块用于对暗网资产的存活情况进行跟踪，将跟踪发现的资产信息存入资产数据库，并对资产信息进行管理。资产管理模块具体还用于：通过IP扫描、SNMP扫描和流量发现中的至少一种方式，对暗网资产的存活情况进行跟踪，将发现的资产信息录入资产数据库，通过分组、标记等方式对资产进行更加细致的管理。这里的资产信息包括资产名称、厂家、型号、IP地址、网络掩码、物理地址、端口号、所开服务类别、采用协议、服务版本以及操作系统类型等，同时还可以包含路由设备的带宽使用率信息以及安全信息如脆弱性、违规信息、发起攻击信息和被攻击信息等。

自定义特征探测模块用于根据预设的自定义端口特征信息数据，对暗网网络空间待探测网络的IP地址列表中的IP地址逐个进行自定义特征探测，获得各IP地址的端口情况探测结果，根据响应数据及端口开放状态进行自定义特征识别，确定出各IP地址的端口所符合的协议服务信息、产品组件信息和操作系统信息。其中，这里的自定义特征探测，其目的是为了对资源探测模块、漏洞探测模块、端口探测模块的探测服务进行补充和完善。

网络协议栈识别模块用于通过识别暗网网络空间中网络设备的TCP/IP协议栈信息，确定出该网络设备对应的操作系统类型和版本信息。

IP地址定位模块用于对多个数据源获取的基础IP地址数据进行初步过滤，去除重复IP地址以及无法探测的IP地址，通过预先建立的黑白名单对完成初步过滤后的IP地址数据进行再次过滤，对IP地址进行数据标记。其中，标记出的有效的IP地址可以进入下一环节进行处理，标记出的无效的IP地址需要进行记录和存储，并定期进行检测，待其无效时间超出一定时长后对其进行删除。利用IP地址定位模块可以建立数据标准统一的IP库，从而进一步提高数据质量，保证IP库的有效性以及进一步的数据应用。

本实施方式涉及的数据雷达子系统具有以下优点：

1.暗网信息覆盖度高：数据采集几乎包括暗网网络空间的所有资源，维度大，采集面广、采集内容丰富，为后续暗网资源的分析、统计、挖掘提供全面数据支持，以深入了解暗网情况和态势。

2.暗网目标敏感度低：通过利用暗网节点，以正常网络接入方式接入暗网，保证暗网探测和采集的有效潜伏，持续作用；使用分布式探测，避免探测节点访问频率过高后被发现和跟踪；最大程度地降低暗网目标对被扫描的感知。

数据传输模块113用于将数据探测模块112探测到的暗网节点资源采用预设的隐蔽传输方式传输至数据处理与分析模块114。

示例性的，预设的隐蔽传输方式可以是存储型隐蔽传输方式或者时间型隐蔽传输方式。

存储型隐蔽传输方式首先获取待传输的暗网节点资源对应的无符号整型数据，之后将该无符号整型数据中每个字符的ASCII码与预设数值相乘，以对该无符号整型数据进行加密，并将加密后的无符号整型数据嵌入待传输的数据包中，从而实现将数据探测模块112探测到的暗网节点资源以存储型隐蔽传输方式传输至数据处理与分析模块114。

时间型隐蔽传输方式可以通过基于包速率/时隙的时间型隐蔽信道或者基于包时间间隔的时间型隐蔽信道实现。其中，基于包速率/时隙的时间型隐蔽信道通过控制数据包的传输速率或调整数据包的发送时间间隔发送隐蔽信息。基于包时间间隔的时间型隐蔽信道是将隐蔽信息藏在相邻数据包之间的延迟时间中进行传输。

通过采用预设的隐蔽传输方式将暗网节点资源传输至数据处理与分析模块，确保了暗网节点资源传输的安全性、完整性和可靠性。

第一数据处理模块114用于对暗网节点资源进行处理，形成预设数据格式的数据，得到暗网节点的特征信息；其中，预设数据格式中的字段包括IP地址、设备名称、设备固件版本、服务类型、访问地址、端口信息、脆弱性信息中的至少一者。

示例性的，第一数据处理模块114具体用于：

对暗网节点资源进行数据标注、数据识别和数据清洗，得到预设数据格式的数据。

示例性的，第一数据处理模块114具体用于对暗网节点资源进行数据标注，包括：

第一数据处理模块114具体用于：

根据预设的通用标注需求、用户的自定义标注需求以及用户自定义的树形结构标注体系，对基于暗网节点资源形成的数据表和/或数据列表进行标注；其中，对基于暗网节点资源形成的数据表进行标注，包括：对数据表的置信度、数据来源、数据内容所在区域、用户自定义信息中的至少一者进行标注；对基于暗网节点资源形成的数据列表进行标注，包括：根据用户自定义的树形结构标注体系，对数据列表中的数据列进行业务级标注。

第一数据处理模块114具体用于对暗网节点资源进行数据识别，包括：

第一数据处理模块114具体用于：

利用预设的自动识别模型，对暗网节点资源形成的数据列表中的各数据列的数据类型进行识别，并根据识别出的数据类型对各数据列进行标注；其中，数据类型包括地名、日期时间、IP地址、GPS位置信息中的至少一者。

第一数据处理模块114具体用于对暗网节点资源进行数据清洗，包括：

第一数据处理模块114具体用于：

对暗网节点资源形成的数据列表进行结构编辑和内容编辑；其中，内容编辑包括：根据预设的数据清洗规则和用户自定义的数据清洗规则，对数据列表中的数据进行内容级别的清洗操作，清洗操作包括字段拼接、字段拆分、字段复制、字符串提取、字符串替换、增加前/后缀、清除指定字符、字段截断、时间变换、繁简体转换中的至少一者。

本实施方式可进一步提高暗网节点资源的数据质量。

示例性的，如图3所示，数据监测与分析子系统120包括：

暗网接入模块121，用于基于暗网节点的特征信息以及暗网接入代理，建立与暗网网络空间的通信链路，并根据通信链路的状态，及时对通信链路进行更新，以确保实现与暗网网络空间的通信连接；其中，暗网网络空间包括Tor暗网、I2P暗网、ZeroNet暗网中的至少一者。

示例性的，暗网接入模块可以包括Tor接入模块、I2P接入模块和ZeroNet接入模块。

Tor接入模块用于基于Tor暗网接入代理，建立与Tor暗网的通信链路，并根据通信链路的状态，及时对通信链路进行更换，以确保实现Tor暗网接入。Tor接入模块为暗网监测与分析系统提供接入Tor暗网服务，以使采集代理模块能够爬取Tor暗网的相关内容。

I2P接入模块用于基于I2P暗网接入代理，建立与I2P暗网的通信链路，并在I2P暗网接入代理中添加多个代理服务，当其中一个代理服务不可用时，通过其他代理服务建立与I2P暗网的通信链路，以确保实现I2P暗网接入。

ZeroNet接入模块用于基于ZeroNet暗网接入代理，建立与ZeroNet暗网的通信链路，并根据通信链路的状态，及时对通信链路进行更换，以确保实现ZeroNet暗网接入。

采集代理模块122，用于基于通信链路，根据预设的采集任务，利用爬虫程序对目标暗网节点进行数据采集。

示例性的，采集代理模块122可以用于管理暗网数据采集代理，包括采集代理的基础配置、数据采集策略、数据采集任务的下发与执行、反爬虫机制等。采集代理模块122可以包括采集任务调度模块、爬虫程序模块、内容解析模块和要素提取模块。

采集任务调度模块用于配置采集任务和采集策略。爬虫程序模块用于将采集任务划分为多个采集子任务，利用采集策略，采用分布式网络爬虫根据采集子任务对暗网网络空间中的目标暗网节点进行爬取，以采集目标暗网节点的数据。内容解析模块用于对采集到的目标暗网节点的数据进行内容解析，得到该数据对应的数据内容。要素提取模块用于提取数据内容的特征和特征值。

第二数据处理模块123，用于根据预先配置的数据处理规则，对采集代理模块采集到的数据进行处理，得到目标暗网节点对应的预设形式数据。

数据分析模块124，用于对数据特征进行分析处理，生成目标暗网节点对应的数据分析结果。

示例性的，第二数据处理模块123包括数据清洗模块和数据标签管理模块。

数据清洗模块用于根据预先配置的数据提取规则，从采集代理模块采集到的数据中提取目标数据，根据预先配置的数据清洗规则，去除目标数据中的预设无用符号和停用词，并进行去重处理，以对采集代理模块采集到的数据进行清洗；根据预设的字段映射规则，将清洗后的数据映射至预设的结构化数据字段，得到预设形式数据。

数据标签管理模块用于采用基于字符串匹配的分词方法、基于统计的分词方法、基于理解的分词方法中的至少一者，对预设形式数据进行分词处理，得到预设形式数据的分词结果，并根据分词结果，为预设形式数据设置数据标签，得到目标暗网节点对应的带标签数据。其中，这里的分词处理指的是按照一定的规则，将连续的词或者词组重新组合成词序列的过程。

数据标签管理模块可以按需设置数据标签，该数据标签一方面可作为采集代理模块122的采集关键词，指导采集代理模块122有针对性地进行数据采集，另一方面还可为数据处理和数据分析提供支撑。

本实施方式涉及的第二数据处理模块实现了对数据的快速有效梳理和利用，形成了标准的业务数据，为数据分析模块提供了坚实的数据基础。

示例性的，数据分析模块包括语义识别模块、命名实体识别模块、关键语句识别模块、分类分析模块、聚类分析模块和关联分析模块。

语义识别模块用于采用基于Skip-gram模型的方法或者LSA算法中的至少一者，对带标签数据进行语义识别，得到语义识别结果。

命名实体识别模块用于采用基于长短期记忆网络的命名实体识别模型，对带标签数据进行命名实体识别，得到命名实体识别结果，其中，基于长短期记忆网络的命名实体识别模型包括lookup层、双向LSTM层和CRF层。其中，命名实体指的是文本中具有特定意义或者指代性强的实体，通常包括时间、地点、专有名词等。命名实体识别模型基于长短期记忆网络，可以从非结构化的文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体。长短期记忆网络通过输入门、遗忘门、输出门三个门结构选择性地遗忘部分历史信息，加入部分当前输入信息，最终整合到当前状态并产生输出状态。

关键语句识别模块用于对带标签数据进行分句处理，将分句处理得到的词和句子通过词嵌入方式进行向量表示，利用机器学习方法对向量表示后的词和句子进行排序，将排名在预设数值之前的词和/或句子作为关键语句，得到关键语句识别结果。

关键语句识别模块可以采用“基于抽取的摘要”方式对关键语句进行识别，其工作流程为：首先对带标签数据进行分句处理。在进行分句处理时，可以依据逗号分隔方式进行词和句子的划分，之后通过词嵌入方式将划分后的词和句子进行向量表示，并利用机器学习方法对该向量表示进行排序。排序时可以选择基于特征的排序方法，根据不同的特征分别对各个词和句子进行打分，并依据各个词和句子的得分进行排序。基于特征的排序方法用到的特征可以包括词/句子长度、词/句子位置、是否包含标题词、句子关键词等。排序完成之后，可以将排名在预设数值之前的词和/或句子作为关键语句。

为了避免出现排名靠前的词和/或句子表达相似意思的情况，可以引入一个惩罚因子，从基于特征排序后排名第二的词/句子开始，基于惩罚因子分别对各个词/句子重新进行打分，依据重新打分后的得分对词/句子进行排序，并将排序之后的词/句子按照分句处理之前的排列顺序输出，从而提升关键语句识别的连贯性。

分类分析模块用于基于训练好的分类器模型，根据带标签数据的文本特征，对带标签数据进行分类，得到分类分析结果，其中，训练好的分类器模型预先根据样本文本特征的文本向量空间对预设的文本分类算法进行训练得到。

聚类分析模块用于通过TF-IDF对带标签数据进行特征提取，并使用基于密度的DBSCAN算法对特征提取后的带标签数据进行聚类，得到聚类分析结果。

关联分析模块，用于根据用户输入的指定数据特征，从已有的带标签数据中筛选出目标数据，利用预设的关联分析算法对目标数据进行关联分析，得到关联分析结果。

本实施方式中的数据分析模块通过多种数据治理手段和数据分析模型对数据进行分析，形成了有效的业务数据支撑，不仅能够对Tor、I2P、ZeroNet多个暗网的数据进行分析，也能够依据舆情进行关联分析，综合关联多个维度，保障数据分析的科学性、准确性，为观察暗网行为提供可靠依据。

示例性的，数据信息服务系统还包括分布式存储子系统。

分布式存储子系统用于基于MySQL、Hbase、FastDFS中的至少一者，采用分布式存储方式，对暗网节点的特征信息和/或数据特征进行存储和管理。

分布式存储子系统可以包括物理设施部分和软件实现部分。物理设施部分可以包括数据库服务器、Web服务器、资源分配管理服务器，并分别实现数据存取、数据分析处理、资源工作均衡分配等工作。物理设施部分包括的数据库服务器、Web服务器和资源分配管理服务器协同合作，共同搭建一个高效、协同的后端服务管理，从而使分布式存储子系统能够均衡工作、高效运行。软件实现部分是数据存储子系统的核心部分，用于实现数据查询语句的分配、资源工作调度分配、数据库服务器并行执行策略、容错服务及灾难恢复等。

本实施方式中的分布式存储子系统具有高可用、高扩展、高并发等特点，解决了传统数据库无法解决的海量数据存储的问题。

示例性的，数据信息服务系统还包括可视化展示子系统。

可视化展示子系统用于对暗网节点的特征信息和/或目标暗网节点对应的数据特征进行统计学分析，根据预设的关键词进行检索，以图形化方式展示暗网节点的特征信息和/或目标暗网节点对应的数据特征，并基于暗网节点的特征信息对暗网网络空间中的威胁事件进行识别和预警；其中，统计学分析包括分类分析、聚类分析中的至少一者。

本实施方式中的可视化展示子系统可以提供检索和展示功能，并可对暗网网络空间中的威胁事件进行识别和预警，从而进一步提高了用户体验。

示例性的，数据信息服务系统还包括运维管理子系统。

运维管理子系统用于对数据雷达子系统和数据监测与分析子系统进行运维管理，根据预设的监测任务对数据雷达子系统和数据监测与分析子系统进行协调和调度。

在数据雷达子系统和数据监测与分析子系统分别包括多个功能模块时，运维管理子系统还可以根据预设的监测任务，对各个功能模块进行协调和调度，以实现对各个功能模块的运维管理。

本领域的普通技术人员可以理解，上述各实施方式是实现本公开的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本公开的精神和范围。

Claims

1.一种数据信息服务系统，其特征在于，所述数据信息服务系统包括：

2.根据权利要求1所述的数据信息服务系统，其特征在于，所述数据雷达子系统包括匿名网络节点利用模块、数据探测模块、数据传输模块和第一数据处理模块，其中：

3.根据权利要求2所述的数据信息服务系统，其特征在于，

所述匿名网络节点利用模块，具体用于：

所述第一数据处理模块，具体用于：

4.根据权利要求3所述的数据信息服务系统，其特征在于，所述第一数据处理模块，具体用于对所述暗网节点资源进行数据标注，包括：

所述第一数据处理模块，具体用于：

5.根据权利要求1所述的数据信息服务系统，其特征在于，所述数据监测与分析子系统包括：

6.根据权利要求5所述的数据信息服务系统，其特征在于，所述第二数据处理模块包括：

7.根据权利要求6所述的数据信息服务系统，其特征在于，所述数据分析模块包括：

8.根据权利要求1至7任一项所述的数据信息服务系统，其特征在于，所述数据信息服务系统还包括：

9.根据权利要求1至7任一项所述的数据信息服务系统，其特征在于，所述数据信息服务系统还包括：

10.根据权利要求1至7任一项所述的数据信息服务系统，其特征在于，所述数据信息服务系统还包括：

运维管理子系统，用于对所述数据雷达子系统和所述数据监测与分析子系统进行运维管理，根据预设的监测任务对所述数据雷达子系统和所述数据监测与分析子系统进行协调和调度。