CN116719942B

CN116719942B - 数据资产分类方法、装置、计算机设备和计算机存储介质

Info

Publication number: CN116719942B
Application number: CN202310830389.1A
Authority: CN
Inventors: 朱贺军
Original assignee: BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Current assignee: BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2024-03-12
Anticipated expiration: 2043-07-07
Also published as: CN116719942A

Abstract

本发明公开了一种数据资产分类方法、装置、计算机设备和计算机存储介质，方法应用于计算机设备，方法包括：将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，根据匹配结果确定第一数据资产对应的第一分类结果；将分类参考数据与预配置的指纹库中的分类信息进行相似度比对，根据比对结果确定第一数据资产的第二分类结果；将分类参考数据作为预训练的文本分类模型的输入，文本分类模型输出第一数据资产的第三分类结果；根据第一分类结果、第二分类结果以及第三分类结果中一个或多个，确定第一数据资产的最终分类结果。

Description

数据资产分类方法、装置、计算机设备和计算机存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据资产分类方法、装置、计算机设备和计算机存储介质。

背景技术

近年来，为实现数据资源的高效存储、管理和交换，许多行业都开始开展数据平台的建设。随着数据资源的汇集，对资源的科学管理越发重要。对于数据平台而言，如何数据安全性成为重点关注问题。通常可以根据不同类的数据进行数据的分类安全性保护。而这数据分类是数据安全建设的第一步且相关的数据分类方法对于大数据时代来说过粗放。因此，如何提高数据资产的识别率和分类的准确率是亟需解决的技术问题。

发明内容

有鉴于此，本发明实施例提供一种数据资产分类方法、装置、计算机设备和计算机存储介质。

本发明的技术方案是这样实现的：

将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，根据匹配结果确定所述第一数据资产对应的第一分类结果；其中，所述规则库中的每个所述分类信息均包括分类结果和所述分类结果对应的分类规则；

将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，根据比对结果确定所述第一数据资产的第二分类结果；其中，所述指纹库中每个分类信息包括分类结果和所述分类结果对应的文件指纹；

将所述分类参考数据作为预训练的文本分类模型的输入，所述文本分类模型输出所述第一数据资产的第三分类结果；

根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果。

上述方案中，所述根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果，包括：

如果一个所述第一数据资产的所述第一分类结果、所述第二分类结果和所述第三分类结果中任意两者不一致，则基于预训练的决策树模型确定所述第一数据资产的最终分类结果。

上述方案中，所述方法，还包括：

根据目标网络的监听结果，确定待分类的第一数据资产的资产信息；

对所述第一数据资产的资产信息进行预处理，得到所述第一数据资产的分类参考数据，其中所述分类参考数据包括所述第一数据资产的基本信息和所述第一数据资产中的命名实体；其中所述基本信息至少包括发现所述第一数据资产的网络地址的元数据。

上述方案中，所述根据目标网络的监听结果，确定待分类的第一数据资产的资产信息包括：

确定所述目标网络的目的IP段和目的端口段；

识别所述目的IP段和目的端口段对应的服务端的应用类型；

根据所述服务端的应用类型，向所述服务端发送与所述应用类型对应的资产探测数据包，以及

接收所述服务端基于所述资产探测数据包返回的资产信息。

接收所述目标网络的网络流量；

根据对所述网络流量的协议解析结果，得到所述第一数据资产的资产信息。

上述方案中，所述将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，包括：

将所述命名实体与所述规则库中的分类信息进行匹配；

在所述规则库中存在至少两组与所述分类参考数据的匹配度大于第一预设匹配阈值的情况下，将所述基本信息与所述规则库中的分类信息进行匹配，根据所述基本信息的匹配结果得到第一分类结果。

上述方案中，在所述规则库中存在匹配度小于第一预设匹配阈值且大于第二匹配阈值的情况下，根据预设的字典库，确定所述字典库中是否存在与所述第一数据资产的所述命名实体相似命名的第二数据资产的命名实体；

在所述字典库中存在与所述第一数据资产命名实体命名相似的所述第二数据资产的命名实体，根据所述第二数据资产的分类信息确定所述第一数据资产的最终分类结果。

本发明实施例还提供了一种计算机设备，所述计算机设备包括：

第一分类模块，用于将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，在所述规则库中存在与所述分类参考数据匹配的分类信息的情况下，根据匹配结果确定所述数据资产对应的第一分类结果；其中，所述规则库中的每个所述分类信息均包括分类结果和所述分类结果对应的分类规则；

第二分类模块，用于将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，在所述指纹库中存在与所述分类参考数据相似度超出预设相似度阈值的情况下，根据比对结果确定所述第一数据资产的第二分类结果；其中，所述指纹库中每个分类信息包括分类结果和所述分类结果对应的文件指纹；

第三分类模块，用于将所述分类参考数据作为预训练的文本分类模型的输入，所述文本分类模型输出所述第一数据资产的第三分类结果；

结果输出模块，用于根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果。

为实现上述目的，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行上述任一方案所述的数据资产分类方法的步骤。

本发明实施例所提供的一种数据资产分类方法、装置、计算机设备和计算机存储介质，通过将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，根据匹配结果确定所述数据资产对应的第一分类结果；将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，根据比对结果确定所述第一数据资产的第二分类结果；将所述分类参考数据作为预训练的文本分类模型的输入，所述文本分类模型输出所述第一数据资产的第三分类结果；根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果。如此，分别基于规则库、文件指纹及机器学习确定数据的分类结果不同的分类技术实现数据的分类，从而实现更多种数据分类的分类，提升了数据分类的泛化能力；且结合多种分类技术进行分类结果确定最终分类结果，可提高识别的准确率。

附图说明

图1为本发明一些实施例提供的数据资产分类产品的技术框架图；

图2为本发明一些实施例提供数据资产分类方法的流程示意图；

图3为本发明另一些实施例提供的数据资产分类方法的流程示意图；

图4为本发明一些实施例提供的数据资产分类装置的组成结构示意图；

图5本发明实施例提供的计算机设备的硬件结构示意图。

具体实施方式

需要说明的是，数据作为新型生产要素，是数字化、网络化、智能化的基础，同时随着云计算、大数据、物联网、5G等新兴技术的发展。为应对日益严峻的数据安全形势，从数据安全的角度提出要加强数据安全建设，要构建“云、网、端”立体安全防护体系、“以数据为中心”的安全防护思路，增强数据资产分类与运营能力。数据分类是数据安全建设的第一步，也是平衡数据安全成本的依据。

基于此，本发明实施例提供了一套计算机设备的数据资产分类产品，该产品可以以插件的形式被安装在计算机设备中，也可以是安装与计算机设备连接的网络平台或者网络服务器中。该数据资产分类产品能够实现了金融、运营商、医疗、政府、物流等多个行业数据的分类分级，准确率不低于95％。

图1是数据资产分类产品的技术框架图，如图1所示，数据资产分类产品会对数据资产进行发现与识别。通过对终端、网络、数据库等数据源进行智能嗅探、扫描，实现了用户数据资产的自动发现。数据资产发现与识别过程中，会对计算机设备的数据资产进行扫描，网络数据进行识别，还会对电子文档隐藏信息进行深度感知，在资产发现的基础上，基于规则库、文件指纹及机器学习等方法，实现对数据资产的分类分级。

本发明实施例旨在研究数据资产发现以及对发现的数据资产的分类技术。

图2为本发明实施例中数据资产分类方法的流程示意图，请参阅图2，本发明实施例提供了一种数据资产分类方法，该方法应用于计算机设备，该方法包括：

步骤201：将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，在所述规则库中存在与所述分类参考数据匹配的分类信息的情况下，根据匹配结果确定所述数据资产对应的第一分类结果；其中，所述规则库中的每个所述分类信息均包括分类结果和所述分类结果对应的分类规则。

在这里的第一数据资产可以是待未进行分类的数据资产。此处的数据资产包括但不限于以下至少之一：

数字化的版权；

网络游戏卡；

网络充值卡；

电子化的优惠券；

固定资产和/或非固定资产的数字化表达；

可在网络中流通的金融资产，该金融资产可包括：股票、基金、债券、期货和/或兑换汇票。

参考数据可以是能够代表第一数据资产所属分类的信息。例如，参考数据可以是从第一数据资产中提取的命名实体，也可以是发现所述第一数据资产的网络地址的元数据，更可以是两者的组合。

在这里预配置的规则库的每个分类规则可以包括该分类规则对应的模板数据和匹配规则，例如，模板数据包括多个命名实体，多个命名实体具有相应的优先级，则匹配规则是参考数据中的命名实体与模板数据的命根据命名实体出现的频次也可以根据命名实体的元数据确定，规则库中的每个分类规则具有各自的规则。

在这里，可以预先基于正则表达式以规则的形式建立规则库。规则可以依据专家经验确定，规则具体可表现为正则表达式。正则表达式增加Python校验，构建数据标识符，减少误报率。基于该正则表达式识别的字段类别以及相应的字段描述。字段类别具有唯一性，其可以对字段类别的数量不做具体限定。规则库由专人进行维护，当有新增规则出现时，以人工添加的形式将新增的规则输入至规则库中，而难以用正则表达式识别的字段内容，可只输入字段类别与字段描述，正则表达式显示为空。

在这里分类结果实质上是数据资产地多级分类标签，当然，不同行业分级分类标签是不同的，在本申请中分级分类标签是根据已有行业地数据资产采用是线分类方法，也可以是面分类方法得到的。具体而言，线分类方法即将数据资源按照选定的至少一个属性(或特征)逐次地分为至少一个层级，每个层级又分为至少一个类目，统一分支的同层级类目之间构成并列关系，互不重复、互不交叉，且不同层级类目之间构成隶属关系。面分类方法即将要分类的数据资源的至少一个属性(或特征)视为至少一个面，每个面可以分为彼此独立的至少一个类目，使用时根据企业需要将这些面中的类目组合在一起，形成一个复合类目。

示例地，第一数据资产是企业年度评测报告文件抽取该文件中的命名实体可能会抽取到公司名、法人名、营收金额、营业金额、融资金额等，通过将抽取地命名实体和规则库进行匹配可能得到的结果是多级标签，如金融行业数据-企业数据-上市企业数据。

需要理解的是，本发明数据资产分类产品可以应用于不同行业的数据资产的分类，例如，政府、金融、医疗、教育、能源、运营商、企事业单位等。只要具备IT和数字化基础的组织即可。

步骤202：将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，在所述指纹库中存在与所述分类参考数据相似度超出预设相似度阈值的情况下，根据比对结果确定所述第一数据资产的第二分类结果；其中，所述指纹库中每个分类信息包括分类结果和所述分类结果对应的文件指纹。

可以理解，文件指纹是一个文本的唯一标识，用于区别于其它的文本。理想的文件指纹应该具备如下特点：确定性，即相同文本的文件指纹是相同的；文件指纹越相似，则文本的相似性就越高；指纹生成和匹配效率高。

在这里通过计算分类参考数据与指纹库中的指纹之间的海明距离，确定分类参考数据与所述指纹库中的文件指纹的相似度。

步骤203：将所述分类参考数据作为预训练的文本分类模型的输入，所述文本分类模型输出所述第一数据资产的第三分类结果。

原则上，预训练的文本分类模型SVM、CNN、textCNN、FastText、LSTM等中的任一分类模型。为了获得更好的分类结果，分别采用训练数据上述分类模型的各项性能参数进行实现验证。在同等的硬件配置下，对数以万计文件，按照训练集:验证集:测试集8:1:1的比例进行模型训练，在同等的硬件配置下，对大量文件，按照训练集:验证集:测试集8:1:1的比例进行模型训练，具体验证结果：SVM模型是传统机器学习中常用的分类模型。该模型训练简单，训练时间较短，但是和深度学习的模型相比，识别效果还是有差距。CNN模型是深度学习模型。训练时间较短，训练简单，分类效果较好，但是CNN不能够很好的提取连续文本的特征向量，textCNN是对CNN进行改进，模型的识别效果更好。FastText在模型的训练时间方面对CNN模型进行改进，使得训练时间更少。LSTM是循环神经网络的变种，能够更好的处理文本的上下文信息，分类效果较好；但是在模型的训练时间方面较长，训练样本进行多次迭代。比较五种模型的准确率(Accuracy)、精准度(Precision)、召回率(Recall)、F1-score，结果如下表1所示。

表1

模型名称	准确率	精准度	召回率	F1-score
					支持向量机(SVM)	89.60％	92.05％	89.61％	89.99％
卷积神经网络(CNN)	94.53％	94.91％	94.54％	94.58％
					文本卷积神经网络(TextCNN)	95.31％	95.64％	95.31％	95.30％
快文本(FastText)	93.75％	94.33％	93.75％	93.82％
					长短记忆网(LSTM)	94.64％	95.04％	94.64％	94.70％

根据实验训练结果，本发明选择textCNN算法模型。

在一场景中，根据上述的规则库和指纹库都无法确定第一数据资产的分类结果，将所述分类参考数据作为预训练的文本分类模型的输入，得到第一数据资产的第三分类结果。

在另一场景中，至少根据上述的规则库和/或指纹库得到了第一数据资产的分类结果，仍将所述分类参考数据作为预训练的文本分类模型的输入，得到第一数据资产的第三分类结果。

在另一场景中，包括多个预训练的文本分类模型，每个预训练的文本分类模型与第一数据资产的一级分类标签(如行业)一一对应，根据上述的规则库和/或指纹库得到第一数据资产的分类结果，得到一级分类标签，然后，将第一数据资产的分类参考数据输入与该一级分类标签对应的预训练的文本分类模型，得到第一数据资产一级分类标签以下的分类结果。当然，不同一级分类标签对应的预训练的文本分类模型的训练数据也不同。例如，一级分类标签如果是行业的话，那么金融行业对应一个预训练的文本分类模型，该预训练的文本分类模型采用金融数据进行训练。物流行业对应一个预训练的文本分类模型，该预训练的文本分类模型采用物流数据进行训练。

步骤204：根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结。

可理解的，规则库中的分类结果和指纹库中的分类结果是完全重合或部分重合的。这里的重合或部分重合是将分类结果作为一个整理的部分重合，完全重合，例如，规则库中分类结果和指纹库中的分类结果的数量相同，且一一对应相同，就是完全重合。规则库中分类结果和指纹库中的分类结果的数量不相同，部分分类结果一一对应相同，就是部分重合。

在一场景中，所述第一分类结果、所述第二分类结果以及所述第三分类结果可以是三者相同。

在一场景中，所述第一分类结果、所述第二分类结果以及所述第三分类结果可以是所述第一分类结果、所述第二分类结果以及所述第三分类结果的高层级的分类结果相同，但是部分分类结果没有低层级分类结果，以有低层级分类结果的结果为最终分类结果。

示例性地，该最终分类结果，至少指示所述第一数据资产是否为符合安全条件的安全资产。

又示例性地，该最终分类结果，至少指示第一数据资产是否为合法资产。

在一些情况下，若检测到非法资产，可以显示提示信息，以提示对该数据资产进行进一步地合规检测和/或监督。

示例性地，该最终分类结果，可用于确定针对第一数据资产的安全防护策略。例如，分类结果显示第一数据资产的重要性和/或当前防护措施的防护能力，因此根据该最终分类结果确定的安全防护策略，对第一数据资产进行防护，可以实现对第一数据资产的防护需求。

在一些实施例中，所述根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果，包括：

在这里第一数据资产的所述第一分类结果、所述第二分类结果和所述第三分类结果中任意两者不一致，可以是第一分类结果、所述第二分类结果和所述第三分类结果中任意两者的部分结果不相同或完全不相同，其中部分不相同，例如一级分类结果(标签)相同，但是一级分类之下的部分层级的分类结果不同。第一分类结果是金融-银行-借款-安全资产；第二分类结果是金融-贷款机构-借款-安全资产；第三分类结果是金融-基金-存款-风险资产。

在这里通过将第一分类结果、第二分类结果和第三分类结果和各个分类结果的权重输入预训练的决策树模型，该决策树模型输出相应的决策结果，即为最终的分类结果。

在一些实施例中，上述方法，还包括：

该资产信息可为任意描述第一数据资产的任意信息。

示例性地，该资产信息可包括但不限于：

数据资产的名称；

数据资产的唯一编号；

数据资产的发行方信息；

数据资产的存储方信息；

数据资产的持有者信息；

数据资产的流通限制信息；

数据资产的份数；

单份数据资产的货币价值。

例如，此处的预处理可包括但不限于，对资产信息的过滤和/或提取处理。例如，将资产信息的名称提取出来，用于确定命名实体。

又例如，根据数据资产的存储方信息、持有者信息和/或发行方信息，确定基本信息。

在这里数据资产发现有两种方式，一种需要人为手动去进行配置一个IP网段，在指定网段中发现数据资产称为主动发现；另一种无需人为投入，通过网络流量分析识别出数据资产称为被动发现。

示例性地，针对组织或企业内“云网端”的复杂场景，通过主动嗅探方法，实现了自动发现网络环境中的终端、数据库及文件服务器上的数据，并对敏感数据进行标识；通过静态扫描、动态解析、手动添加等多种资产发现方式，能够自动发现数据资产的基本信息，包括：网络协议(InternetProtocol，IP)地址、资产类型、资产来源、业务系统等，为后续的资产梳理和分类分级提供了基础数据。

在以场景中，静态扫描可以包括：接收针对第一数据资源的扫描指令，并基于所述扫描指令，确定计算机设备的使用情况；根据计算机设备的使用情况，调整计算机设备的系统资源的分配比例，并在在调整了计算机设备的系统资源的分配比例后利用计算机设备对第一数据资源进行扫描。如此，由于会根据计算机设备的使用情况，调整计算机设备的系统资源的分配比例，并利用调整后的计算机设备对第一数据资源进行扫描，因此，可以使得扫描时计算机设备能够智能分配系统资源分配比例，并在动态的系统资源分配比例下进行扫描作业，提高对第一数据资源的扫描效率，提高扫描速度。此外，由于通过计算机设备的使用情况进行分析，根据计算机设备的使用情况合理调整计算机设备的系统资源分配比，从而能够更充分地利用计算机设备的系统资源，提升扫描速度的同时，还可以不影响计算机设备本身的操作体验感，从而实现计算机设备的扫描无感度。

在一些实施例中，所述根据目标网络的监听结果，确定待分类的第一数据资产的资产信息包括：

确定所述目标网络的目的IP段和目的端口段；

识别所述目的IP段和目的端口段对应的服务端的应用类型；

接收所述服务端基于所述资产探测数据包返回的资产信息。

在这里的主动式发现和数据资产的精确分类，可以获取到足够多、足够详尽的资产信息，缓解了现有的数据资产的发现方法存在资产发现不完全、资产分类不够精确的问题。

例如，该IP端和目的端口段可包括：

确定银行、金融公司、证券交易所等网络地址的IP段和/或目的端口段，以获取数字化的金融资产的信息。

接收所述目标网络的网络流量；

将接收设备设置在网络中，接收目标网络外发的网络流量或经过该设备的流量，而不是通过主动发送请求消息或者探测请求的方式获取到网络流量。

在一些实施例中，所述将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，包括：

将所述命名实体与所述规则库中的分类信息进行匹配；

在这里优先采用命名实体作为数据资源分类的依据，当然，基本信息即元数据也可以作为匹配的辅助。

在一些实施例中，在所述规则库中存在匹配度小于第一预设匹配阈值且大于第二匹配阈值的情况下，根据预设的字典库，确定所述字典库中是否存在与所述第一数据资产的所述命名实体相似命名的第二数据资产的命名实体；

可理解，数据资产中的命名实体可能不是规范行业数据，因此有必要通过与第一资产有相似命名实体的第二资产的分类结果进行交叉验证，以提高分类的准确度。

在一实施例中，发现(采集)第一资源数据之后，需要对第一数据资源进行持久化存储，以便后续对所述第一资源数据的进一步利用。

在一实施例中，所述第一资源数据采集值持久化存储的过程，包括：

基于目标协议对采集到的数据进行解析还原得到数据资源；所述目标协议与采集到的数据相对应，用于解析采集到的数据；

将所述数据资源进行批量封装，并将封装后的数据进行缓存；

在所述封装后的数据达到预设缓存周期的情况下，将所述数据资源进行持久化存储。

如此，海量数据从采集到持久化过程进行三级缓存，其中，数据采集层为一级缓存区，在一级缓存区内由海量数据解析还原模块对各种网络协议、数据库协议数据进行解析还原，并对解析后的数据在内存中进行批量封装写入二级缓存，最后滚动转移到三级存储上进行持久化存储，从而实现高速批量入库，避免了原有技术处理海量数据时常见的数据积压等问题。

在一实施例中，在所述将所述数据分片按照预设的数据分片迁移规则迁移至进行持久化存储之后，还包括：

生成所述分布式数据节点中数据分片的备份分片；

根据预设配置规则，将所述备份分片配置在所述分布式数据节点中，所述预设配置规则包括至少一半的数据分片的备份分片存储在所述数据分片所在分分布式数据节点以外的数据节点。

如此，利用分布式技术将海量数据资源按照网络协议类型、数据库语句、数据库会话等机制进行切分，将数据块按时间及大小等条件滚动，分散而有机地存储在各个分布式数据节点，再将这些节点组合形成大数据引擎。各个分布式数据节点内划分出不同的数据分片和备份分片，确保系统的冗余备份及高可用性，在节点故障数小于一半时，仍然能提供正常的服务，而且数据不会丢失。

如此，本发明实施例中，通过主动发现和被动发现的方式能够发现海量的的数据资源为后续的为后续的资产梳理和分类提供了基础数据。分别基于规则库、文件指纹及机器学习确定数据的分类结果，基于大量的项目积累，关键字、正则及文件指纹内置规则库算法有2000+。对于关键字检测，通过配置是否完全匹配、关键字对配置、区分大小写等，细化识别条件，提高识别的准确率。正则表达式增加Python校验，构建数据标识符，减少误报率。

基于规则库、文件指纹及机器学习的数据分类分级方法，同时在对于结构化电子文档识别感知上应用了隐藏信息深度感知技术，能够实现各类基于文件结构的信息隐藏方法的检测，如文件类型验证、Office文件结构检查、NTFS数据流扫描、文件尾部数据检查、关键词扫描等，以及基于文本分类技术的文本类别检查功能等。

需要补充的是，如上述图1的数据资产分类平台中，平台当前数据分类分级，针对已具备数据分类规范的行业，对于无分类分级标准的行业数据，无法利用带标记的样本数据进行监督机器学习形成相应算法模型，因此，下一步引入K-means等聚类算法进行无监督机器学习对数据进行自动分类分级，在此基础上进一步完善行业数据分类分级标准和规范。本发明可以采用规则库匹配、文件指纹和txtCNN分类模型结合的方式，已经能够达到95％以上的识别率。

为了能够更好地理解本发明实施例所提供的数据资产分类方法，还提供一具体的实施例。

请参阅图3，据资产分类方法，包括：

检测并抽取目标网络中的数据资源；

对抽取的数据资源进行鉴别，确定数据资源为结构化数据或者是非结构化数据；

对结构化数据和非结构化数据进行全文数据抽取、OCR图像识别等获取数据的内容；

通过准备词库、过滤算法清洗掉脏数据，使用语言分析提取主题性关键词，再根据关键词的上下文分分析、命名实体；

使用定制的字典库、规则库、指纹库、业务数据的特征、机器学习的预模对分类的数据再经过多种策略的权重进行级别打标。

需要说明的是，上述各个功能模块为计算机设备中为实现某一个功能而把计算机设备中的处理模组进行的虚拟划分，可以理解的是，不同的功能模块执行的其实现该功能的计算机指令，从而协同完成上述数据分类的方法。

为实现上述目的，本发明实施例还提供了一种数据资产分类装置，请参阅图4，所述装置包括：

第一分类模块41，用于将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，在所述规则库中存在与所述分类参考数据匹配的分类信息的情况下，根据匹配结果确定所述数据资产对应的第一分类结果；其中，所述规则库中的每个所述分类信息均包括分类结果和所述分类结果对应的分类规则；

第二分类模块42，用于将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，在所述指纹库中存在与所述分类参考数据相似度超出预设相似度阈值的情况下，根据比对结果确定所述第一数据资产的第二分类结果；其中，所述指纹库中每个分类信息包括分类结果和所述分类结果对应的文件指纹；

第三分类模块43，用于将所述分类参考数据作为预训练的文本分类模型的输入，所述文本分类模型输出所述第一数据资产的第三分类结果；

结果输出模块44，用于根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果；其中所述最终分类结果，用于第一数据资产的安全保护。

所述结果输出模块44，还用于：

将一个所述第一数据资产的所述第一结果、第二分类结果和所述第三分类结果任意两者以及所述第一分类结果、所述第二分类结果和所述第三分类结果各自对应的权重输入预训练的决策模型，得到所述第一数字子资产的最终分类结果。

所述结果输出模块44，还用于：

在一些实施例中，所述发现模块包括主动发现子模块。

主动发现子模块用于根据目标网络的监听结果，确定待分类的第一数据资产的资产信息；

对所述第一数据资产的资产信息进行预处理，得到所述第一数据资产的分类参考数据，其中所述分类参考数据包括所述第一数据资产的基本信息和所述第一数据资产中的命名实体；其中所述基本信息至少包括发现所述第一数据资产的网络地址的元数据。被动发现子模块。

被动发现子模块用于确定所述目标网络的目的IP段和目的端口段；

识别所述目的IP段和目的端口段对应的服务端的应用类型；

接收所述服务端基于所述资产探测数据包返回的资产信息。

这里需要指出的是：以上数据资产分类装置项的描述，与上述数据资产分类方法项描述是类似的，同方法的有益效果描述，不做赘述。对于本发明实施例数据资产分类装置实施例中未披露的技术细节，请参照本发明实施例数据资产分类方法实施例的描述。

为实现上述目的，本发明实施例还提供了一种计算机设备，如图5所示，该计算机设备包括处理器501、以及通过通信总线502与所述处理器501连接的存储器503；其中，所述存储器503，用于数据分类程序；所述处理器501，用于执行所述数据分类程序，以实现上述任一方案所述的数据分类的方法步骤：将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，根据匹配结果确定所述数据资产对应的第一分类结果；其中，所述规则库中的每个所述分类信息均包括分类结果和所述分类结果对应的分类规则；

将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，在所述指纹库中存在与所述分类参考数据相似度超出预设相似度阈值的情况下，根据比对结果确定所述第一数据资产的第二分类结果；其中，所述指纹库中每个分类信息包括分类结果和所述分类结果对应的文件指纹；

根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果；其中所述最终分类结果，用于第一数据资产的安全保护。

这里，所述处理器501，用于所述根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果，包括：

这里，所述处理器501，用于根据目标网络的监听结果，确定待分类的第一数据资产的资产信息；

这里，所述处理器501，用于所述根据目标网络的监听结果，确定待分类的第一数据资产的资产信息包括：

确定所述目标网络的目的IP段和目的端口段；

识别所述目的IP段和目的端口段对应的服务端的应用类型；

接收所述服务端基于所述资产探测数据包返回的资产信息。

接收所述目标网络的网络流量；

这里，所述处理器501，用于所述将所述分类参考数据与预配置的指纹库中的分类信息进行相似度比对，包括：

将所述命名实体与所述规则库中的分类信息进行匹配；

这里，所述处理器501，用于在所述规则库中存在匹配度小于第一预设匹配阈值且大于第二匹配阈值的情况下，根据预设的字典库，确定所述字典库中是否存在与所述第一数据资产的所述命名实体相似命名的第二数据资产的命名实体；

可选的，所述处理器501可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。这里，所述处理器501执行的程序可以存储在与所述处理器501通过通信总线502连接的存储器503之中，所述存储器503可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnlyMemory)、可编程只读存储器(PROM，ProgrammableRead-OnlyMemory)、可擦除可编程只读存储器(EPROM，ErasableProgrammableRead-OnlyMemory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasableProgrammableRead-OnlyMemory)、磁性随机存取存储器(FRAM，ferromagneticrandomaccessmemory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，CompactDiscRead-OnlyMemory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandomAccessMemory)、同步静态随机存取存储器(SSRAM，SynchronousStaticRandomAccessMemory)、动态随机存取存储器(DRAM，DynamicRandomAccessMemory)、同步动态随机存取存储器(SDRAM，SynchronousDynamicRandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，DoubleDataRateSynchronousDynamicRandomAccessMemory)、增强型同步动态随机存取存储器(ESDRAM，EnhancedSynchronousDynamicRandomAccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLinkDynamicRandomAccessMemory)、直接内存总线随机存取存储器(DRRAM，DirectRambusRandomAccessMemory)。本发明实施例描述的存储器503旨在包括但不限于这些和任意其它适合类型的存储器503。本发明实施例中的存储器503用于存储各种类型的数据以支持所述处理器501的操作。这些数据的示例包括：供所述处理器501操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

在一些实施例中，本发明实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本文描述的系统和方法的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。

在一些实施例中，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明又一实施例提供了一种计算机存储介质，该计算机可读存储介质存储有可执行程序，所述可执行程序被处理器501执行时，可实现应用于所述端点设备的数据扫描方法的步骤。例如，如图2或图3所示的方法中的一个或多个。

在一些实施例中，所述计算机存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，ReadOnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据资产分类方法，其特征在于，所述方法包括：

根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果；

所述方法，还包括：

对所述第一数据资产的资产信息进行预处理，得到所述第一数据资产的分类参考数据，其中所述分类参考数据包括所述第一数据资产的基本信息和所述第一数据资产中的命名实体；其中所述基本信息至少包括发现所述第一数据资产的网络地址的元数据；

所述根据目标网络的监听结果，确定待分类的第一数据资产的资产信息包括：

确定所述目标网络的目的IP段和目的端口段；

识别所述目的IP段和目的端口段对应的服务端的应用类型；

接收所述服务端基于所述资产探测数据包返回的资产信息；

接收所述目标网络的网络流量；

根据对所述网络流量的协议解析结果，得到所述第一数据资产的资产信息；

所述将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，根据匹配结果确定所述第一数据资产对应的第一分类结果，包括：

将所述命名实体与所述规则库中的分类信息进行匹配；

在所述规则库中存在至少两组与所述分类参考数据的匹配度大于第一预设匹配阈值的情况下，将所述基本信息与所述规则库中的分类信息进行匹配，根据所述基本信息的匹配结果得到第一分类结果；

每个分类规则包括所述分类规则对应的模板数据和匹配规则，所述规则库中的每个分类规则具有各自的匹配规则。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果，包括：

3.根据权利要求1所述的数据资产分类方法，其特征在于，在所述规则库中存在匹配度小于第一预设匹配阈值且大于第二匹配阈值的情况下，根据预设的字典库，确定所述字典库中是否存在与所述第一数据资产的所述命名实体相似命名的第二数据资产的命名实体；

4.一种数据资产分类装置，其特征在于，应用于权利要求1至3任一所述的数据资产分类方法，所述装置包括：

第一分类模块，用于将第一数据资产的分类参考数据与预配置的规则库中的分类信息进行匹配，在所述规则库中存在与所述分类参考数据匹配的分类信息的情况下，根据匹配结果确定所述第一数据资产对应的第一分类结果；其中，所述规则库中的每个所述分类信息均包括分类结果和所述分类结果对应的分类规则；

结果输出模块，用于根据所述第一分类结果、所述第二分类结果以及所述第三分类结果中的至少两者，确定所述第一数据资产的最终分类结果；

所述装置还包括发现模块和分类参考模块，其中，

所述发现模块，用于根据目标网络的监听结果，确定待分类的第一数据资产的资产信息；

所述分类参考模块，用于对所述第一数据资产的资产信息进行预处理，得到所述第一数据资产的分类参考数据，其中所述分类参考数据包括所述第一数据资产的基本信息和所述第一数据资产中的命名实体；其中所述基本信息至少包括发现所述第一数据资产的网络地址的元数据；

所述发现模块包括被动发现子模块和主动发现子模块，其中，

所述被动发现子模块，用于确定所述目标网络的目的IP段和目的端口段；识别所述目的IP段和目的端口段对应的服务端的应用类型；根据所述服务端的应用类型，向所述服务端发送与所述应用类型对应的资产探测数据包，以及接收所述服务端基于所述资产探测数据包返回的资产信息；

所述主动发现子模块，用于接收所述目标网络的网络流量；根据对所述网络流量的协议解析结果，得到所述第一数据资产的资产信息；

所述第一分类模块，包括：

匹配子模块，用于将所述命名实体与所述规则库中的分类信息进行匹配；

选择子模块，用于在所述规则库中存在至少两组与所述分类参考数据的匹配度大于第一预设匹配阈值的情况下，将所述基本信息与所述规则库中的分类信息进行匹配，根据所述基本信息的匹配结果得到第一分类结果；

5.一种计算机设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器用于执行如权利要求1至3任一项所述的数据资产分类方法。

6.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行如权利要求1至3中任一项所述的数据资产分类方法。