CN118013364A

CN118013364A - 一种多维数据智能标识方法

Info

Publication number: CN118013364A
Application number: CN202410166535.XA
Authority: CN
Inventors: 雷雳; 薛锋; 马晓旭; 白健; 徐允彪
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-05-10

Abstract

本发明提供了一种多维数据智能标识方法，包括：对扫描到的非结构化数据和结构化数据分别执行对应标识流程，完成非结构化数据安全标识和结构化数据安全标识；在数据发生变化时，若数据内容发生变化时，表示扫描到新数据，重新根据数据对应的标识流程生成数据安全标识；若数据内容未发生变化，仅变化其他属性，则更新对应数据安全标识属性。本发明能够实现针对不同数据的多维安全标识，融入了人工智能与内容检索规则相结合的分类分级判定方法，增加了系统的灵活性与智能抉择能力，适应更加丰富的业务场景；提供并行处理的方式，大量减少重复计算、串行计算的情况，有效提升标识效率，降低性能损耗。

Description

一种多维数据智能标识方法

技术领域

本发明涉及数据安全领域，特别涉及一种多维数据智能标识方法

背景技术

数字时代，数据成为国家基础性战略资源和重要生产要素，《数据安全法》强调了数据安全是数字中国重要战略举措的根本保障，并提出国家将对数据实行分级分类保护。数据标识的本质是通过对数据的特征进行全方面的分析与提取，进而识别和定义数据，并为数据打上标识，方便数据资产管理，实施分级分类保护。数据标识多是离散的分布于数据的各种属性中，常见的数据标识方法单一、流程固定、效率低、性能开销较大，难以满足业务灵活多样且海量异构数据频繁更新的场景下，各领域、行业、机构主体高效完成数据标识，管控数据安全的核心诉求。

发明内容

针对现有技术中存在的问题，提供了一种多维数据智能标识方法，基于多线并行的方式，结合AI人工智能算法，实现结构化数据与非结构化数据的多维属性智能标识提取与更新。

本发明采用的技术方案如下：一种多维数据智能标识方法，包括：

对扫描到的非结构化数据和结构化数据分别执行对应标识流程，建立非结构化数据安全标识和结构化数据安全标识；

在数据发生变化时，若数据内容发生变化时，表示扫描到新数据，重新根据数据对应的标识流程生成数据安全标识；若数据内容未发生变化，仅变化其他属性，则更新对应数据安全标识属性。

进一步的，对于非结构化数据，安全标识流程如下：

步骤A1、扫描文件服务器，获取非结构化数据；

步骤A2、并行完成数据清洗、文件指纹计算、元数据提取；

步骤A3、对数据清洗后的数据内容进行模糊指纹计算和分类属性提取；

步骤A4、根据提取的分类属性进行分级判定，确定数据安全等级；

步骤A5、将文件指纹、元数据、模糊指纹、分类属性及安全等级进行组装，输出针对非结构化数据的安全标识。

进一步的，所述分类属性提取过程包括：

步骤A3.1、对数据清洗后的数据进行特征提取；

步骤A3.2、基于提取的数据特征，通过人工智能机器学习算法预先生成的AI模型，自动判别数据类型，完成分类判定；

步骤A3.3、通过自定义的分类规则匹配逻辑，对数据内容进行检索，完成分类判定；

步骤A3.4、基于AI模型的分类结果与规则匹配的分类结果，联合确定分类属性。

进一步的，所述步骤A4中，确定数据安全等级的方法包括：

步骤A4.1、根据数据分类属性与预先定义的安全等级映射关系，查询该数据的安全等级；

步骤A4.2、通过自定义的分级规则表，对数据内容进行检索，完成基于数据内容检索的分级判定；

步骤A4.3、综合分类属性对应安全等级和基于数据内容检索的分级判定结果，取最高值作为该数据的最终安全等级。

进一步的，对于结构化数据，安全标识流程如下：

步骤B1、扫描数据库，获取结构化数据；

步骤B2、并行完成数据抽样、数据列指纹计算、数据列模糊指纹计算以及元数据提取；

步骤B3、对数据抽样的数据进行分类属性提取；

步骤B4、根据分类属性进行分级判定，确定数据安全等级；

步骤B5、将数据列指纹、数据列模糊指纹、元数据、分类属性以及安全等级进行组装，输出针对结构化数据的安全标识。

进一步的，所述数据抽样包括：随机抽样结构化数据中500行作为分类属性提取过程所使用的数据，当且仅当数据表结构发生变化时，需要重新抽样。

进一步的，所述步骤B3的子步骤包括：

步骤B3.1、对数据抽样后的数据进行清洗，再提取数据特征；

步骤B3.2、基于提取的数据特征，通过人工智能机器学习算法预先生成的AI模型，自动判别数据类型，完成分类判定；

步骤B3.3、通过自定义的分类规则匹配逻辑，对数据内容进行检索，完成分类判定；

步骤B3.4、基于AI模型的分类结果与规则匹配的分类结果，联合确定分类属性。

进一步的，所述步骤B4中，确定数据安全等级的方法包括：

步骤B4.1、根据数据分类属性与预先定义的安全等级映射关系，查询该数据的安全等级；

步骤B4.2、通过自定义的分级规则表，对数据内容进行检索，完成基于数据内容检索的分级判定；

步骤B4.3、综合分类属性对应安全等级和基于数据内容检索的分级判定结果，取最高值作为该数据的最终安全等级。

进一步的，对于非结构化数据，标识更新过程如下：

步骤C1、扫描文件服务器，基于文件本体计算数据指纹；

步骤C2、与历史扫描结果做比对，判断该数据指纹是否已经存在历史记录中；

步骤C3、若该文件指纹已存在历史记录中，则判断分类规则和/或分级规则是否发生变化，若分类分级规则未发生变化，则不做更新，流程结束；若分类规则和/或分级规则发生变化，则重新计算分类分级属性，并记录数据扫描历史，用于后续查询变化记录；

步骤C4、若文件指纹并不存在历史记录中，则认为本次扫描的数据为一条新的数据，执行非结构化数据的标识流程，生成新的数据安全标识。

进一步的，对于结构化数据，标识更新过程如下：

步骤D1、扫描数据库，识别数据资产，基于数据字段的元数据信息计算数据指纹；

步骤D2、与历史扫描结果做比对，判断该数据指纹是否已经存在历史记录中；

步骤D3、若该数据指纹已存在历史记录中，则判断该数据字段存在的库表结构是否发生变化，若没发生变化，再判断分类规则和/或分级规则是否发生变化，若未发生变化，则不做更新，流程结束；若分类规则和/或分级规则发生变化，则直接提交原先抽样的样本数据再次进行分类分级判定，判定结束后，更新变化后的数据标识；

步骤D4、若该字段存在的库表结构已发生变化，则重新进行数据抽样，并将抽样后的数据样本直接按当前规则进行分类分级判定，判定结束后，更新变化后的数据标识；

步骤D5、若该文件指纹并不存在历史记录中，则认为本次扫描的数据为一条新的数据，执行结构化数据的标识流程，生成新的数据安全标识。

与现有技术相比，采用上述技术方案的有益效果为：

(1)针对非结构化数据和结构化数据，分别提供了不同的流程与方法，有针对性的实现针对不同数据的多维安全标识。

(2)流程中融入了人工智能与内容检索规则相结合的分类分级判定方法，增加了系统的灵活性与智能抉择能力，适应更加丰富的业务场景。

(3)提供并行处理的方式，进行包括数据指纹、模糊指纹、元数据、分类分级等在内的多维属性的提取，并结合数据标识的更新判断逻辑，大量减少重复计算、串行计算的情况，有效提升标识效率，降低性能损耗。

附图说明

图1为本发明提出的多维数据智能标识方法流程图。

图2为本发明一实施例中非结构化数据标识流程图。

图3为本发明一实施例中结构化数据标识流程图。

图4为本发明一实施例中非结构化数据标识更新流程图。

图5为本发明一实施例中结构化数据标识更新流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

本发明主要解决以下技术问题：

(1)提供多维数据标识提取并行执行的策略方法，解决多维数据安全标识效率难提升的问题。

(2)提供智能化、适应性强的分类分级方法，解决不同的业务场景下，分类分级手段单一、灵活性差的问题。

(3)大数据场景中，面对大量新数据与重复数据识别分析的情况下，做到精准的标识更新与新增，避免无谓的性能开销与浪费。

针对上述技术问题，本发明实施例提供了一种多维数据智能标识方法，基于多线并行的方式，结合AI人工智能算法，实现结构化数据与非结构化数据的多维属性智能标识提取与更新。数据安全标识包含了一系列描述数据属性的信息集合，围绕数据的各种基础属性、安全属性、权属属性等信息进行构建，如：数据标识ID、数据指纹、数据模糊指纹、数据名称、数据类别、数据级别等多维属性参数，用于精准定义数据，为掌握数据资产并实施数据全生命周期安全管控提供核心支撑。

请参考图1，该多维数据智能标识方法，包括以下过程：

下面分别针对非结构化数据和结构化数据分别进行标识流程的说明。

非机构化数据主要指存储于多种文件服务器之上的各种文件类数据，包括所有格式的办公文档、文本、图片，HTML、各类报表、图像等等。请参考图2，针对非结构化数据的标识流程具体如下：

步骤A1、扫描文件服务器，获取非结构化数据。本实施例中，主要通过定时任务自动扫描文件服务器或通过接口对接外部业务系统，获取各类非结构化文件数据。

步骤A2、并行完成数据清洗、文件指纹计算、元数据提取。

其中，数据清洗指对文件格式统一转化后，读取文件内容，对文件内容进行清洗，完成去异常值、去停用词、缺失值补充、错误标注、图像模糊处理等。文件指纹计算：本实施例中，采用文件MD5值作为数据的唯一指纹标识。元数据提取包括识别如文件名称、文件格式、创建者、创建时间、上次修改时间等元数据信息。

步骤A3、对数据清洗后的数据内容进行模糊指纹计算和分类属性提取。

本实施例中，模糊指纹计算过程包括：分析清洗后的数据内容，将内容进行分片处理，综合计算其模糊hash值，作为数据的模糊指纹。

分类属性提取过程包括：

1)特征提取：针对清洗后的数据，依据现有算法，实现针对长短文本融合的特征识别逻辑，自动提取数据中的特征值。

2)人工智能分类：基于提取的数据特征，通过人工智能机器学习算法预先生成的AI模型，自动判别数据类型，完成分类判定。

3)规则检索：通过自定义关键词、正则表达式等内容的分类规则表，对数据内容进行检索，完成基于数据内容检索的分类判定。上述分类规则表为预先建立的，包含有关键词、正则表达式等内容与分类属性的关系。

4)联合获取分类属性：基于AI模型的分类结果与规则匹配的分类结果，联合判定分类结果(AI分类结果为“其他”或暂未发布AI模型时，以规则检索的分类结果为准)。

步骤A4、根据提取的分类属性进行分级判定，确定数据安全等级。

本实施例中，分级判定过程包括：

1)依据分类属性完成安全分级：预先建立数据类别与安全等级的映射关系，根据数据分类结果，直接查询该数据的安全等级。

2)规则检索：通过自定义关键词、正则表达式等内容的分级规则表，对数据内容进行检索，完成基于数据内容检索的分级判定。上述分级规则表为预先建立的，包含有关键词、正则表达式等内容与安全等级的关系。

3)联合获取分级属性：综合分类属性对应的安全等级与规则匹配的安全等级，取最高值，作为为该数据的安全等级。

而结构化数据由明确定义的信息组成，并以高度组织化的表格或数据库进行存储和管理。请参考图3，针对结构化数据的标识流程具体如下：

步骤B1、扫描数据库，获取结构化数据。本实施例中，主要通过定时任务自动扫描数据库或对接外部系统，获取各类结构化库表数据。

步骤B2、并行完成数据抽样、数据列指纹计算、数据列模糊指纹计算以及元数据提取。

对于数据抽样：本实施例中，随机抽取数据表中的500行作为分类分级服务的预测数据，当且仅当数据表结构发生变化时，需要重新抽样。

对于数据列指纹计算：本实施例以(数据源ID+库名+表名+字段名+字段类型)计算md5，作为该数据字段的唯一指纹标识。

对于数据列模糊指纹计算：分析每一列字段中的数据内容，将数据按固定行分片，综合计算其模糊hash值，作为列数据的模糊指纹。

对于元数据提取：识别库表数据的元数据信息。

步骤B3、对数据抽样的数据进行分类属性提取。

本实施例中，分类属性提取过程如下：

1)特征提取：针对抽样数据，进行数据清洗后依据现有算法，实现针对长短文本融合的特征识别逻辑，自动提取数据中的特征值。

2)人工智能分类：基于提取的数据特征，通过人工智能机器学习算法预先生成的AI模型，自动判别数据类型；上述分类规则表为预先建立的，包含有关键词、正则表达式等内容与分类属性的关系。

3)规则检索：通过自定义关键词、正则表达式等内容的分类规则匹配逻辑，对数据内容进行检索，完成基于数据内容检索的分类判定。

步骤B4、根据分类属性进行分级判定，确定数据安全等级。

在获取分类属性后，联合分类属性和分级匹配规则确定数据安全等级。具体如下：

3)联合获取分级属性：综合分类属性对应的安全等级与规则检匹配的安全等级，取最高值，作为该数据的安全等级。

当数据发生变化时，数据安全标识需要做相应的更新操作，实际上会因为变化的部分不同而采取不同的更新方式。

请参考图4，对于非结构化数据，安全标识更新过程如下：

步骤C1、扫描文件服务器，基于文件本体计算数据指纹；

步骤C4、若文件指纹并不存在历史记录中，则认为本次扫描的数据为一条新的数据，生成新的数据资产目录，执行非结构化数据的标识流程，生成新的数据安全标识。

请参考图5，对于结构化数据，安全标识更新过程如下：

步骤D3、若该数据指纹已存在历史记录中，则判断该数据字段存在的库表结构是否发生变化(如库表中其余字段是否有增删等情况)，若没发生变化，再判断分类规则和/或分级规则是否发生变化，若未发生变化，则不做更新，流程结束；若分类规则和/或分级规则发生变化，则直接提交原先抽样的样本数据再次进行分类分级判定，判定结束后，更新变化后的数据标识；

步骤D5、若该文件指纹并不存在历史记录中，则认为本次扫描的数据为一条新的数据，生成新的数据资产目录，执行结构化数据的标识流程，生成新的数据安全标识。

至此，完成非结构化数据和结构化数据的安全标识建立与更新，具有以下优点：

(1)针对非结构化数据和结构化数据，分别提供了不同的流程与方法，有针对性的实现针对不同数据的多维安全标识；

(2)流程中融入了人工智能与内容检索规则相结合的分类分级判定方法，增加了系统的灵活性与智能抉择能力，适应更加丰富的业务场景；

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中所述的多维数据智能标识方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的多维数据智能标识方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义；实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多维数据智能标识方法，其特征在于，包括：

在数据发生变化时，若数据内容发生变化时，表示扫描到新数据，重新根据数据对应的标识流程生成对应数据安全标识；若数据内容未发生变化，仅变化其他属性，则更新对应数据安全标识属性。

2.根据权利要求1所述的多维数据智能标识方法，其特征在于，对于非结构化数据，标识流程如下：

步骤A1、扫描文件服务器，获取非结构化数据；

步骤A2、并行完成数据清洗、文件指纹计算、元数据提取；

3.根据权利要求2所述的多维数据智能标识方法，其特征在于，所述分类属性提取过程包括：

步骤A3.1、对数据清洗后的数据进行特征提取；

4.根据权利要求2或3所述的多维数据智能标识方法，其特征在于，所述步骤A4中，确定数据安全等级的方法包括：

5.根据权利要求1所述的多维数据智能标识方法，其特征在于，对于结构化数据，安全标识流程如下：

步骤B1、扫描数据库，获取结构化数据；

步骤B3、对数据抽样的数据进行分类属性提取；

步骤B4、根据分类属性进行分级判定，确定数据安全等级；

6.根据权利要求5所述的多维数据智能标识方法，其特征在于，所述数据抽样包括：随机抽样结构化数据中500行作为分类属性提取过程所使用的数据，当且仅当数据表结构发生变化时，需要重新抽样。

7.根据权利要求5或6所述的多维数据智能标识方法，其特征在于，所述步骤B3的子步骤包括：

步骤B3.1、对数据抽样后的数据进行清洗，再提取数据特征；

8.根据权利要求7所述的多维数据智能标识方法，其特征在于，所述步骤B4中，确定数据安全等级的方法包括：

9.根据权利要求2所述的多维数据智能标识方法，其特征在于，对于非结构化数据，安全标识更新过程如下：

步骤C1、扫描文件服务器，基于文件本体计算数据指纹；

10.根据权利要求5所述的多维数据智能标识方法，其特征在于，对于结构化数据，标识更新过程如下：