CN117874633B

CN117874633B - 基于深度学习算法的网络数据资产画像生成方法及装置

Info

Publication number: CN117874633B
Application number: CN202410286343.2A
Authority: CN
Inventors: 张玉祺; 程丽; 鲁星星; 齐文宇; 明有为
Original assignee: Jinqi Chuang Beijing Technology Co ltd
Current assignee: Jinqi Chuang Beijing Technology Co ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-05-28
Anticipated expiration: 2044-03-13
Also published as: CN117874633A

Abstract

本发明公开了一种基于深度学习算法的网络数据资产画像生成方法及装置，涉及数据处理技术领域，方法包括：获取网络数据资产；设置脱敏参数，对网络数据资产进行保留偏移长度的数据脱敏；对网络数据资产进行预处理；提取预处理后的网络数据资产的特征向量；结合特征向量，对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类；通过信息熵计算各个网络数据资产种类的数据损失影响值，并基于数据损失影响值构建网络数据资产重要性判别模型；根据网络数据资产重要性判别模型计算各个数据资产种类的重要性级别；对各个数据资产种类进行排序；将排序结果进行可视化，生成网络数据资产画像。有助于发现隐形资产，降低客户数据管理难度。

Description

基于深度学习算法的网络数据资产画像生成方法及装置

技术领域

本发明属于数据处理技术领域，具体涉及一种基于深度学习算法的网络数据资产画像生成方法及装置。

背景技术

网络数据资产画像是指通过对网络中的各种数据资产进行分析和整理，生成一种综合的、直观的图像，以展示网络中不同类型和重要性的数据资产的特征和关联，这种画像通常利用深度学习算法进行处理和分析，以提取有关数据资产的关键特征，并将其可视化呈现，使用户能够更好地理解网络中的数据资产状况。网络数据资产画像展示了不同种类的数据资产，包括硬件数据（如服务器、设备信息）、软件数据（如应用程序、操作系统）、云计算资源数据（如云服务器信息）和网络信息数据（如流量、日志）等。

现有技术中，往往在现有标签即现有数据种类的监督下进行重分类，但是由于网络数据的异构性，这种方式无法发现数据隐形数据资产，进而导致无法采取针对性措施进行保护，数据泄露风险大。

发明内容

为了解决现有技术存在的往往在现有标签即现有数据种类的监督下进行重分类，但是由于网络数据的异构性，这种方式无法发现数据隐形数据资产，进而导致无法采取针对性措施进行保护，数据泄露风险大的技术问题，本发明提供一种基于深度学习算法的网络数据资产画像生成方法及装置。所述技术方案如下：

一方面，提供了一种基于深度学习算法的网络数据资产画像生成方法，该方法由网络数据资产画像生成设备实现，该方法包括：

S1：获取网络数据资产，其中，所述网络数据资产包括硬件数据资产、软件数据资产、云计算资源数据资产和网络信息数据资产；

S2：根据用户授权级别设置脱敏参数，对所述网络数据资产进行保留偏移长度的数据脱敏；

S3：对脱敏后的网络数据资产进行预处理；

S4：利用深度学习模型提取预处理后的网络数据资产的特征向量；

S5：结合所述特征向量，对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类；

S6：通过信息熵，计算所述多个网络数据资产种类中的每个网络数据资产种类的数据损失影响值，并基于所述数据损失影响值构建网络数据资产重要性判别模型；

S7：根据所述网络数据资产重要性判别模型，计算各个数据资产种类的重要性级别；

S8：根据所述重要性级别，对每个网络数据资产种类进行排序；

S9：将排序结果进行可视化，生成网络数据资产画像。

另一方面，提供了一种基于深度学习算法的网络数据资产画像生成装置，该装置应用于一种基于深度学习算法的网络数据资产画像生成方法，该装置包括：

获取模块，用于获取网络数据资产，其中，所述网络数据资产包括硬件数据资产、软件数据资产、云计算资源数据资产和网络信息数据资产；

设置模块，用于根据用户授权级别设置脱敏参数，对所述网络数据资产进行保留偏移长度的数据脱敏；

预处理模块，用于对脱敏后的网络数据资产进行预处理；

提取模块，用于利用深度学习模型提取预处理后的网络数据资产的特征向量；

分类模块，用于结合所述特征向量，对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类；

构建模块，用于通过信息熵，计算所述多个网络数据资产种类中的每个网络数据资产种类的数据损失影响值，并基于所述数据损失影响值构建网络数据资产重要性判别模型；

计算模块，用于根据所述网络数据资产重要性判别模型，计算各个数据资产种类的重要性级别；

排序模块，用于根据所述重要性级别，对每个网络数据资产种类进行排序；

生成模块，用于将排序结果进行可视化，生成网络数据资产画像。

另一方面，提供一种网络数据资产画像生成设备，所述网络数据资产画像生成设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述一种基于深度学习算法的网络数据资产画像生成方法中的任一项方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述一种基于深度学习算法的网络数据资产画像生成方法中的任一项方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

在本发明中，对获取的网络数据资产进行保留偏移长度的数据脱敏，以便于客户根据用户授权级别进行数据访问权限的设置，降低数据解码时长，确保数据处理的实时性，另外，通过无标签分类方式对网络数据进行无监督分类，降低数据隐形资产的发现难度，避免了有监督分类导致的资产固化，对发现的隐形资产进行针对性的保护，提升网络数据资产的安全性。此外，引入了基于信息熵的网络数据资产重要性判别模型对分类得到的各个网络数据资产种类进行重要性定量评估，并进行排序，能够在海量的网络数据资产中及时简便的监控重要性资产的数据变化情况，进一步就降低客户的数据管理难度，提升数据的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度学习算法的网络数据资产画像方法的流程示意图；

图2是本发明实施例提供的一种基于深度学习算法的网络数据资产画像生成装置框图；

图3是本发明实施例提供的一种网络数据资产画像生成设备的结构示意图。

具体实施方式

下面结合附图，对本发明中的技术方案进行描述。

在本发明实施例中，“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。此外，在本发明实施例中，“和/或”所表达的含义可以是两者都有，或者可以是两者任选其一。

本发明实施例中，“图像”，“图片”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。“的(of)”，“相应的（corresponding，relevant）”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本发明实施例中，有时候下标如W₁可能会书写为非下标的形式如W1，在不强调其区别时，其所要表达的含义是一致的。

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于深度学习算法的网络数据资产画像生成方法，该方法可以由网络数据资产画像生成设备实现，该网络数据资产画像生成设备可以是终端或服务器。如图1所示的基于深度学习算法的网络数据资产画像生成方法流程图，该方法的处理流程可以包括如下的步骤：

S1：获取网络数据资产。

其中，网络数据资产包括硬件数据资产、软件数据资产、云计算资源数据资产和网络信息数据资产。

其中，硬件数据资产涵盖了网络中的硬件设备的信息，这包括各种网络设备如路由器、交换机、防火墙等的配置、运行状态、硬件性能指标、连接信息等，硬件数据资产的获取方式涉及主动探测（例如网络扫描）、被动探测（例如网络监测）或流量镜像技术。软件数据资产关注网络中运行的软件和应用程序的信息，这包括各种应用程序、操作系统、服务和其配置信息，获取软件数据资产需要分析主机或服务器上的软件清单、版本信息、运行状态等。云计算资源数据资产涵盖了在云平台上运行的资源信息，这包括在云中部署的虚拟机、存储、数据库等资源的配置、使用情况、性能指标等，获取这些数据涉及与云服务提供商的API交互或其他监测手段。网络信息数据资产包括整个网络的信息，它包括网络拓扑结构、流量数据、通信模式、协议使用情况等，获取网络信息数据需要流量分析、协议解析和网络监测等技术。

一种可行的实施方式中，S1可以具体如下述步骤S11：

S11：通过主动探测、被动探测或者流量镜像获取网络数据资产。

需要说明的是，主动探测是通过系统发送请求或扫描网络设备，主动获取网络数据资产的信息。被动探测是监测网络中的通信和活动，获取网络数据资产的信息，而无需直接干预网络。流量镜像是复制网络中的流量并将其传送到分析系统，以获取详细的网络活动和信息。通过多种手段综合获取不同类型的网络数据资产，为后续的数据处理和分析提供了基础。

S2：根据用户授权级别设置脱敏参数，对网络数据资产进行保留偏移长度的数据脱敏。

一种可行的实施方式中，S2可以具体包括下述步骤S21-S24：

S21：获取敏感字节；

S22：遍历网络数据资产，获取不同长度的待脱敏句子，根据用户授权级别以及下式（1），设置脱敏参数：

（1）

其中，表示所述脱敏参数，/>，n表示所述用户授权级别，符号“/>”表示向下取函数小数点后一位；

S23：基于脱敏参数以及下式（2），获取各个待脱敏句子的偏移长度：

（2）

其中，表示长度为i的待脱敏句子的偏移长度，/>表示长度为i的待脱敏句子；

S24：根据敏感字节和偏移长度，对待脱敏句子进行缩减和脱敏。

需要说明的是，该方法通过脱敏操作保护网络数据资产的敏感信息。系统会识别网络数据资产中的敏感字节，即包含敏感信息的字节或字符。这些敏感信息包括个人身份信息、机密数据等，通过明确识别敏感字节，系统能够有针对性地对这些数据进行脱敏，确保保护敏感信息。系统遍历整个网络数据资产，是文本、配置文件等，以获取不同长度的待脱敏句子，这些句子可以是网络通信记录、配置信息等。授权级别反映了用户对不同类型数据的访问权限，高级别表示更多的数据可见性，以便根据用户的权限对数据进行适当的脱敏。根据设置的脱敏参数，系统计算每个待脱敏句子的偏移长度，这个偏移长度是根据用户授权级别和句子长度来动态确定的，以确保在脱敏的同时，保持数据的可读性和有用性。利用计算得到的偏移长度和识别的敏感字节，系统对待脱敏句子进行相应的处理，处理方式包括对敏感字节进行替换、删除、添加噪声等操作，以确保脱敏后的数据不再包含敏感信息，同时又不失去原始数据的基本结构和特征。实现对网络数据资产的脱敏操作，以保护其中的敏感信息，同时考虑了用户的权限和需要对数据进行合理的脱敏处理，这有助于平衡数据可用性之间的关系。

S3：对脱敏后的网络数据资产进行预处理。

在一种可能的实施方式中，预处理包括数据清洗、数据冗余去除和数据标准化。

具体地，对脱敏后的网络数据资产进行预处理，以确保数据的质量、一致性和适用性。数据清洗是为了检测和纠正可能存在的数据质量问题，例如缺失值、异常值、错误值等，包括去除不完整或无效的数据，填充缺失值，纠正格式错误，以确保数据的完整性和准确性。例如，如果在脱敏过程中引入了一些缺失值或者数据格式出现错误，数据清洗阶段会处理这些问题，使得数据更为规范和可用。数据冗余去除的目的是去除数据中的重复信息，减少数据冗余，提高存储效率和分析效率，通过检测并删除重复的记录、行或列，确保每条数据都是唯一的，避免存储和处理过多相同或相似的信息，如果在脱敏后的数据中存在冗余信息，比如相同的记录被多次复制，数据冗余去除操作将清理这些重复的数据。数据标准化可以将数据转化为统一的格式和单位，以便进行有效的比较和分析，对数据进行缩放、单位转换、归一化等处理，确保数据在不同来源或不同时间点之间具有一致的度量标准，如果网络数据资产中包含有关硬件规格的信息，数据标准化可以确保不同硬件规格之间的比较是有意义的，而不会受到单位或度量标准的差异影响。通过这些预处理步骤，系统可以提高脱敏后数据的质量、可用性和一致性。这有助于确保在后续的深度学习模型和分类步骤中，基于的是高质量、一致的数据，从而提高模型的准确性和可信度。

S4：利用深度学习模型提取预处理后的网络数据资产的特征向量。

在一种可能的实施方式中，深度学习模型包括BERT模型、FastText模型、Word2Vec模型和Doc2Vec模型。

需要说明的是，深度学习模型被用于学习数据中的复杂特征和模式，将原始数据转化为更具有表达力的特征向量，以便更好地反映数据的语义和结构，可以选择BERT模型、FastText模型、Word2Vec模型和Doc2Vec模型，这些模型在自然语言处理和文本表示任务中表现良好。

其中，BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer架构的预训练模型，能够双向学习上下文中的词汇表示，适用于各种自然语言处理任务。FastText是一种快速文本表示模型，能够学习每个单词的词向量，并通过单词的n-gram特征进行表示，适用于多语言和小样本场景。Word2Vec是一种经典的词嵌入模型，通过学习词汇在上下文中的分布式表示，将单词映射到连续的向量空间。Doc2Vec是Word2Vec的扩展，能够学习文档级别的嵌入表示，为整个文档生成一个向量表示。特征向量生成的具体步骤为：输入：经过预处理的网络数据资产。输出：使用选择的深度学习模型生成的特征向量。过程：将网络数据资产输入到选择的深度学习模型中，模型将学习并生成与数据语义相关的特征向量。这些特征向量可以用于对网络数据进行无标签分类，即在没有预定义类别标签的情况下，将数据划分为多个类别，有助于发现数据的潜在模式和结构，生成的特征向量可以成为后续深度学习任务的输入，如聚类、相似度计算等，从而更深入地分析网络数据资产。

总体而言，这个步骤利用深度学习模型将网络数据资产转化为具有表达力的特征向量，为后续的无监督分类和数据分析提供更有效的表，选择不同的深度学习模型会在不同类型的数据和任务中取得更好的效果。

S5：结合特征向量，对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类。

需要说明的是，通过无监督学习方法对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类，采用无监督学习方法进行分类，这意味着在没有事先标记的情况下，系统可以自动地从数据中学习模式和结构，相较于监督学习，无监督学习更适用于处理大规模的网络数据，因为获取大规模标记数据通常是昂贵和耗时的。通过S5的处理，系统能够将网络数据资产划分为多个种类，这有助于理解和识别数据的多样性，揭示数据中不同类别的潜在模式和关系，这对于提高对网络数据资产的整体认知非常有帮助。采用深度学习模型进行特征提取和无标签分类的方法具有一定的灵活性，能够适应不同类型和结构的网络数据，这种灵活性使得该方法更适用于处理复杂、异构的网络数据。通过无标签分类，S5能够对数据进行更细致的划分，有助于减轻数据隐形资产的发现难度，这对于安全性保护非常重要，能够更好地发现和保护潜在的敏感信息。

在一种可能的实施方式中，S5可以具体包括下述步骤S51-S53：

S51：对预处理后的网络数据资产进行数据降维。

在一种可能的实施方式中，S51可以具体包括下述步骤S511-S516：

S511：根据下式（3）计算各类别的特征向量之间的第一距离：

（3）

其中，表示所述第一距离，/>表示第k个类别中第i个特征向量，/>表示第k个类别中第j个特征向量，K=4表示类别数量；

S512：建立关于第一距离的第一距离矩阵；

S513：对预处理后的网络数据资产进行独热编码，获取相对应数据的类别数据值；

S514：根据下式（4），结合第一距离矩阵计算不同类别数据值的数据差异度：

（4）

其中，表示所述数据差异度，/>表示第k个类别中第i个类别数据值，/>表示第k个类别中第j个类别数据值，C表示所述第一距离矩阵;

S515：根据下式（5）、第一距离和数据差异度，计算不同类别数据值之间的总距离值：

（5）

其中，e表示总距离值；

S516：利用梯度下降法最小化总距离值，根据最小化得到的总距离值对预处理后的网络数据资产进行数据降维。

需要说明的是，对预处理后的网络数据资产进行数据降维，计算不同类别的特征向量之间的距离，以便进行后续的数据降维。计算各类别内的特征向量之间的第一距离，可以是欧氏距离，以便衡量它们之间的相似度。建立一个矩阵，其中记录了各个特征向量之间的距离，为后续的计算提供数据基础，将类别信息转换为可供计算的数值型数据，通常使用独热编码表示，通过考察数据值之间的差异，确定数据在不同类别之间的分离度。结合距离和差异度信息，得到各类别数据之间的总距离值，通过梯度下降法调整参数，以最小化总距离值，实现数据降维，减少数据的维度，但仍保留重要的信息。

S52：对降维后的网络资产数据进行特征提取进行无标签分类，获取多个备选特征。

在一种可能的实施方式中，S52可以具体包括下述步骤S521-S527：

S521：根据下式（6）对降维后的网络资产数据样本进行转置，获得样本转置矩阵：

（6）

其中，F表示所述样本转置矩阵，表示第i个类别中的第j个数据样本；

S522：根据下式（7）对样本转置矩阵中的数据样本进行标准化处理，得到标准化矩阵：

（7）

其中，表示所述标准化矩阵，/>和/>分别表示所述样本转置矩阵中的样本数据最大值和样本数据最小值；

S523：对标准化矩阵中的每一列数据进行均值化处理，得到标准化矩阵的列均值；

S524：根据下式（8）计算各个列均值的权重参数：

（8）

其中，表示所述标准化矩阵第i列均值的权重参数，/>表示所述标准化矩阵第j个数据样本中第i列数据的数据偏离值，/>表示所述标准化矩阵的列均值；

S525：对标准化矩阵进行主成分分析，根据下式（9）计算标准化矩阵中各个类别中样本数据的样本特征值：

（9）

其中，表示所述标准化矩阵中第i个类别的样本特征值；

S526：根据下式（10）计算各个样本特征值的贡献率：

（10）

其中，表示第i个样本特征值的方差解释率。

其中，方差解释率表示每个主成分所解释的原始数据的方差的比例，具体地说，将第i个类别的样本数据作为主成分，对于第i个主成分，其方差解释率定义为该主成分所包含的方差占总方差的比例。

S527：在贡献率大于预设贡献率的情况下，将样本特征值对应的样本数据作为主成分，并将主成分作为备选特征进行保留。

在一种可能的实施方式中，本领域技术人员可以根据实际需要预设贡献率的大小，本发明在此不做限定。具体的，预设贡献率可设置为0.85。

需要说明的是，对降维后的网络资产数据样本进行转置，以获取特征的维度。将数据标准化，使得每个特征的数值范围一致，避免某些特征对分类结果的影响过大。计算每个特征的均值，为后续处理提供基准。计算每个特征的权重，以反映其对分类的贡献。利用主成分分析方法获取特征的主成分，减少数据的冗余。计算每个主成分对总方差的贡献率，帮助确定保留哪些主成分。根据预设的贡献率筛选主成分，保留对总方差贡献较大的主成分作为备选特征。

S53：计算各个备选特征之间的互信息值，并基于互信息值对备选特征进行融合，得到多个网络数据资产种类。

在一种可能的实施方式中，S53可以具体包括下述步骤S531-S532：

S531：根据下式（11）计算各个备选特征之间的互信息值：

（11）

其中，表示第i个备选特征/>与第j个备选特征/>之间的互信息值，Q表示所述备选特征的总数量，R表示备选特征集合，/>表示备选特征/>与备选特征/>之间的联合概率分布函数，/>和/>分别表示备选特征/>和备选特征/>的信息熵；

S532：将互信息值大于1的两个备选特征进行融合，得到多个网络数据资产种类。

需要说明的是，计算各个备选特征之间的互信息值，并基于互信息值对备选特征进行融合，得到多个网络数据资产种类，通过计算互信息值来衡量备选特征之间的相关性和信息共享程度。根据互信息值的阈值，将相关性较高的备选特征融合，形成多个网络数据资产种类。

通过数据降维、特征提取和互信息值计算等步骤，实现对预处理后的网络数据资产的无标签分类，得到多个网络数据资产种类，这有助于揭示数据内在的结构和关系，为后续的分析和可视化提供基础。通过无监督学习和自动化方法，包括数据降维、特征提取和互信息值计算等，实现了对预处理后的网络数据的无标签分类和多层次分析，这种多阶段的处理流程保证了对网络数据的全面挖掘，结合信息融合和维度降低等技术手段，使得该方案具有高灵活性、自适应性和处理效率，有助于更好的保护网络数据资产。

S6：通过信息熵计算各个网络数据资产种类的数据损失影响值，并基于数据损失影响值构建网络数据资产重要性判别模型。

在一种可能的实施方式中，网络数据资产重要性判别模型具体为：

（12）

其中，表示网络数据资产种类X的重要性级别，/>表示网络数据资产种类X的信息熵，/>表示所述数据损失影响值，/>表示信息熵权重参数，/>表示价值权重参数，/>表示网络数据资产种类X在初始时刻/>即数据泄露时刻的信息熵，/>表示网络数据资产种类X当前时刻t的信息熵，λ表示信息熵衰减因子，/>,n表示网络数据资产中的字符种类数，/>表示网络数据资产种类X中第i类字符/>的出现概率。

具体地，首先，对于每个网络数据资产种类X，计算其信息熵，信息熵是对系统不确定性的度量，表示在给定条件下信息的平均量，在这里，对于每个数据资产种类X，信息熵的计算涉及到该种类中字符的出现概率，概率通过统计字符在该数据资产中的频率来获得。然后，计算每个网络数据资产种类X的数据损失影响值，数据损失影响值的计算与信息熵的变化有关，包括考虑初始时刻（数据泄露时刻）和当前时刻，公式中的λ表示信息熵的衰减因子。接下来，基于所得的信息熵和数据损失影响值构建网络数据资产重要性判别模型，该模型包括了信息熵权重参数和价值权重参数，用于平衡信息熵和数据损失影响值在重要性评估中的贡献，这两个权重参数的设定可以根据实际需求和场景进行调整。信息熵权重参数的设置取决于对信息熵在重要性评估中所占比例的需求，如果更强调系统的不确定性和信息熵的变化，可能选择较高的权重，反之，如果更关注数据损失影响值，可能选择较低的权重，在实际应用中，可以通过试验和不断调整信息熵权重参数，观察模型对于不同权重的反应，以找到合适的权重值。价值权重参数的设置应该基于对不同网络数据资产种类的实际业务价值的理解，具有更高业务价值的数据资产可能被赋予更高的权重，以更好地反映其在系统中的重要性。

需要说明的是，网络数据资产重要性判别模型通过信息熵计算各个网络数据资产种类的数据损失影响值，结合信息熵权重参数和价值权重参数，以及信息熵衰减因子，构建了一个有利于评估和判别网络数据资产重要性的模型。通过综合考虑信息熵、数据损失影响值、信息熵权重和价值权重，该模型提供了一个全面的网络数据资产评估指标，有助于深入理解每个资产在整个系统中的贡献和影响。引入了信息熵衰减因子λ，考虑了信息熵随时间的变化，从而更好地反映了数据资产在不同时间点的重要性，这对于处理时间敏感性的数据资产非常有帮助。通过信息熵权重参数和价值权重参数，模型提供了个性化的权重调整选项，这意味着可以根据具体业务需求和数据特性来调整不同因素的权重，使模型更贴合实际应用场景。使用字符出现概率作为模型参数，使得模型可以适应不同种类的网络数据资产，而不仅限于特定的数据形式，这增强了模型的泛化性。将信息熵和数据损失影响值综合起来，通过判别重要性级别，实现了对网络数据资产的层次化评估，这有助于优先处理对整个系统影响最大的数据资产。由于考虑了时间因素，模型可以在不同的时间点进行实时性评估，捕捉数据资产重要性的动态变化，这对于处理实时数据流或具有时间敏感性的数据资产非常重要。总体而言，该网络数据资产重要性判别模型提供了一个综合、灵活且具有时间维度的评估框架，有助于组织和管理网络数据资产，确保对整个系统的关键数据进行有效监测和保护。

S7：根据网络数据资产重要性判别模型计算各个数据资产种类的重要性级别。

S8：根据重要性级别对各个数据资产种类进行排序。

需要说明的是，根据得到的重要性级别对各个数据资产种类进行排序，排序的依据是它们在网络数据资产中的相对重要性，即重要性级别的高低，这可以帮助识别和理解哪些数据资产对整个系统的稳定性和性能有着更大的影响，有助于进行后续的优化和管理。

S9：将排序结果进行可视化，生成网络数据资产画像。

可以理解的是，将排序的结果进行可视化，生成网络数据资产画像，这个画像是对整个网络数据资产的直观呈现，通常以图形或图表的形式展示，可视化网络数据资产画像可以帮助决策者和数据管理人员更好地理解数据资产的相对重要性，并采取相应的措施，比如加强对高重要性数据资产的保护，有助于直观地了解网络数据资产的特征和分布，为数据管理和决策提供有力支持。

在本发明实施例中，对获取的网络数据资产进行保留偏移长度的数据脱敏，以便于客户根据用户授权级别进行数据访问权限的设置，降低数据解码时长，确保数据处理的实时性，另外，通过无标签分类方式对网络数据进行无监督分类，降低数据隐形资产的发现难度，避免了有监督分类导致的资产固化，对发现的隐形资产进行针对性的保护，提升网络数据资产的安全性。此外，引入了基于信息熵的网络数据资产重要性判别模型对分类得到的各个网络数据资产种类进行重要性定量评估，并进行排序，能够在海量的网络数据资产中及时简便的监控重要性资产的数据变化情况，进一步就降低客户的数据管理难度，提升数据的安全性。

图2是根据一示例性实施例示出的一种基于深度学习算法的网络数据资产画像生成装置框图，该装置用于基于深度学习算法的网络数据资产画像生成方法。参照图2，该装置包括：

获取模块210，用于获取网络数据资产，其中，所述网络数据资产包括硬件数据资产、软件数据资产、云计算资源数据资产和网络信息数据资产；

设置模块220，用于根据用户授权级别设置脱敏参数，对所述网络数据资产进行保留偏移长度的数据脱敏；

预处理模块230，用于对脱敏后的网络数据资产进行预处理；

提取模块240，用于利用深度学习模型提取预处理后的网络数据资产的特征向量；

分类模块250，用于结合所述特征向量，对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类；

构建模块260，用于通过信息熵，计算所述多个网络数据资产种类中的每个网络数据资产种类的数据损失影响值，并基于所述数据损失影响值构建网络数据资产重要性判别模型；

计算模块270，用于根据所述网络数据资产重要性判别模型，计算各个数据资产种类的重要性级别；

排序模块280，用于根据所述重要性级别，对每个网络数据资产种类进行排序；

生成模块290，用于将排序结果进行可视化，生成网络数据资产画像。

图3是本发明实施例提供的一种网络数据资产画像生成设备的结构示意图，如图3所示，网络数据资产画像生成设备可以包括上述图2所示的基于深度学习算法的网络数据资产画像生成装置。可选地，网络数据资产画像生成设备310可以包括第一处理器2001。

可选地，网络数据资产画像生成设备310还可以包括存储器2002和收发器2003。

其中，第一处理器2001与存储器2002以及收发器2003，如可以通过通信总线连接。

下面结合图3对网络数据资产画像生成设备310的各个构成部件进行具体的介绍：

其中，第一处理器2001是网络数据资产画像生成设备310的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，第一处理器2001是一个或多个中央处理器（central processing unit，CPU），也可以是特定集成电路（application specificintegrated circuit，ASIC），或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器（digital signal processor，DSP），或，一个或者多个现场可编程门阵列（field programmable gate array，FPGA）。

可选地，第一处理器2001可以通过运行或执行存储在存储器2002内的软件程序，以及调用存储在存储器2002内的数据，执行网络数据资产画像生成设备310的各种功能。

在具体的实现中，作为一种实施例，第一处理器2001可以包括一个或多个CPU，例如图3中所示出的CPU0和CPU1。

在具体实现中，作为一种实施例，网络数据资产画像生成设备310也可以包括多个处理器，例如图3中所示的第一处理器2001和第二处理器2004。这些处理器中的每一个可以是一个单核处理器（single-CPU），也可以是一个多核处理器（multi-CPU）。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

其中，所述存储器2002用于存储执行本发明方案的软件程序，并由第一处理器2001来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器2002可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器2002可以和第一处理器2001集成在一起，也可以独立存在，并通过网络数据资产画像生成设备310的接口电路（图3中未示出）与第一处理器2001耦合，本发明实施例对此不作具体限定。

收发器2003，用于与网络设备通信，或者与终端设备通信。

可选地，收发器2003可以包括接收器和发送器（图3中未单独示出）。其中，接收器用于实现接收功能，发送器用于实现发送功能。

可选地，收发器2003可以和第一处理器2001集成在一起，也可以独立存在，并通过网络数据资产画像生成设备310的接口电路（图3中未示出）与第一处理器2001耦合，本发明实施例对此不作具体限定。

需要说明的是，图3中示出的网络数据资产画像生成设备310的结构并不构成对该路由器的限定，实际的知识结构识别设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，网络数据资产画像生成设备310的技术效果可以参考上述方法实施例所述的基于深度学习算法的网络数据资产画像生成方法的技术效果，此处不再赘述。

应理解，在本发明实施例中的第一处理器2001可以是中央处理单元（centralprocessing unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（digitalsignal processor，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本发明实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器（random accessmemory，RAM）可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

上述实施例，可以全部或部分地通过软件、硬件（如电路）、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本发明中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述方法包括：

S3：对脱敏后的网络数据资产进行预处理；

S9：将排序结果进行可视化，生成网络数据资产画像。

2.根据权利要求1所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述S1的获取网络数据资产，包括：

S11：通过主动探测、被动探测或者流量镜像，获取网络数据资产。

3.根据权利要求1所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述S2的根据用户授权级别设置脱敏参数，对所述网络数据资产进行保留偏移长度的数据脱敏，包括：

S21：获取敏感字节；

S22：遍历所述网络数据资产，获取不同长度的待脱敏句子，根据用户授权级别以及下式（1），设置脱敏参数：

（1）

S23：基于所述脱敏参数以及下式（2），获取各个待脱敏句子的偏移长度：

（2）

S24：根据所述敏感字节和所述偏移长度，对所述待脱敏句子进行缩减和脱敏。

4.根据权利要求1所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述深度学习模型包括BERT模型、FastText模型、Word2Vec模型和Doc2Vec模型。

5.根据权利要求1所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述S5的结合所述特征向量，对预处理后的网络数据资产进行无标签分类，得到多个网络数据资产种类，包括：

S51：对预处理后的网络数据资产进行数据降维；

S52：对降维后的网络资产数据进行特征提取，获取多个备选特征；

S53：计算各个备选特征之间的互信息值，基于所述互信息值对所述备选特征进行融合，得到多个网络数据资产种类。

6.根据权利要求5所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述S51的对预处理后的网络数据资产进行数据降维，包括：

（3）

S512：建立关于所述第一距离的第一距离矩阵；

S514：根据下式（4），结合所述第一距离矩阵计算不同类别数据值的数据差异度：

（4）

S515：根据下式（5）、所述第一距离和所述数据差异度，计算不同类别数据值之间的总距离值：

（5）

其中，e表示所述总距离值；

S516：利用梯度下降法最小化所述总距离值，根据最小化得到的总距离值对预处理后的网络数据资产进行数据降维。

7.根据权利要求5所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述S52的对降维后的网络资产数据进行特征提取，获取多个备选特征，包括：

（6）

S522：根据下式（7）对所述样本转置矩阵中的数据样本进行标准化处理，得到标准化矩阵：

（7）

S523：对所述标准化矩阵中的每一列数据进行均值化处理，得到所述标准化矩阵的列均值；

S524：根据下式（8）计算各个列均值的权重参数：

（8）

S525：对所述标准化矩阵进行主成分分析，根据下式（9）计算所述标准化矩阵中各个类别中样本数据的样本特征值：

（9）

其中，表示所述标准化矩阵中第i个类别的样本特征值；

S526：根据下式（10）计算各个样本特征值的贡献率：

（10）

其中，表示第i个样本特征值的方差解释率；

S527：在所述贡献率大于预设贡献率的情况下，将所述样本特征值对应的样本数据作为主成分，并将所述主成分作为备选特征进行保留。

8.根据权利要求5所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述S53的计算各个备选特征之间的互信息值，基于所述互信息值对所述备选特征进行融合，得到多个网络数据资产种类，包括：

S531：根据下式（11）计算各个备选特征之间的互信息值：

（11）

9.根据权利要求1所述的基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述网络数据资产重要性判别模型为下式（12）：

（12）

其中，表示网络数据资产种类X的重要性级别，/>表示网络数据资产种类X的信息熵，/>表示所述数据损失影响值，/>表示信息熵权重参数，/>表示价值权重参数，表示网络数据资产种类X在初始时刻/>即数据泄露时刻的信息熵，/>表示网络数据资产种类X当前时刻t的信息熵，λ表示信息熵衰减因子，/>,n表示网络数据资产中的字符种类数，/>表示网络数据资产种类X中第i类字符/>的出现概率。

10.一种基于深度学习算法的网络数据资产画像生成装置，所述基于深度学习算法的网络数据资产画像生成装置用于实现如权利要求1-9任一项所述基于深度学习算法的网络数据资产画像生成方法，其特征在于，所述装置包括：

预处理模块，用于对脱敏后的网络数据资产进行预处理；