CN110472036A

CN110472036A - 一种基于大数据的敏感数据确定方法及装置

Info

Publication number: CN110472036A
Application number: CN201910774931.XA
Authority: CN
Inventors: 黄山姗
Original assignee: Enyike (beijing) Data Technology Co Ltd
Current assignee: Enyike (beijing) Data Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-19

Abstract

本申请提供了一种基于大数据的敏感数据确定方法及装置，首先，获取敏感数据的第一筛选条件；其次，基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；最后，基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。与现有技术相比，本申请可以通过对不同类型的数据采用不同的解析方法，使其能够识别非结构化数据中的敏感数据，提高敏感数据的识别率，进而保护用户的敏感数据。

Description

一种基于大数据的敏感数据确定方法及装置

技术领域

本申请涉及数据处理技术领域，尤其是涉及一种基于大数据的敏感数据确定方法及装置。

背景技术

目前，网络以成为工作生活中必不可少的一部分，无论是企业还是个人用户，都有大量信息数据储存在网络上，其中，还包含了大量的敏感数据。敏感数据又称隐私数据，常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景，以及一些企业的机密文件等。在工作与生活中，经常出现敏感数据被盗取的情况。

为了防止敏感数据被盗取，出了加强数据库的安全性外，通常还采用脱敏的方法，将敏感数据筛选出来，并对其进行处理。为了进行对数据进行脱敏处理，必须先确定敏感数据有哪些。现有的敏感数据确定方法，不能对如非结构化数据的数据进行分析和处理，导致有很多敏感数据不能被发现，进而增加了敏感数据泄露的风险。

发明内容

有鉴于此，本申请的目的在于提供一种基于大数据的敏感数据确定方法及装置，可以通过对不同类型的数据采用不同的解析方法，使其能够识别非结构化数据中的敏感数据，提高敏感数据的识别率，进而保护用户的敏感数据。

本申请实施例提供了一种基于大数据的敏感数据确定方法，所述方法包括：

获取敏感数据的第一筛选条件；

基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；

基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。

在一种可能的实施例中，所述基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析包括：

若所述目标数据集内包含非结构化数据，则对所述目标数据集内的非结构化数据进行字段切分处理，并确定所述目标数据集内每个字段的格式；

针对所述目标数据集内的每个字段，若该字段的格式与格式字典中预设字段的格式的相似度高于预设阈值，则将所述格式字典中的预设字段的类型作为该字段的类型。

在一种可能的实施例中，所述基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据，包括：

确定所述第一筛选条件中的敏感数据类型，并确定类型与所述第一筛选条件中的敏感数据类型一致的字段为第一类型敏感数据。

在一种可能的实施例中，所述方法还包括：

利用训练好的敏感数据识别模型，对所述目标数据集内未被确定为第一类型敏感数据的字段进行筛选，得到满足所述敏感数据识别模型中预设的第二筛选条件的第二类型敏感数据。

在一种可能的实施例中，所述方法还包括：

对所述第一类型敏感数据和所述第二类型敏感数据的数量及数据信息进行统计，并将统计结果展示给用户，以使用户根据统计结果，对所述第一类型敏感数据和所述第二类型敏感数据进行处理；

其中，所述数据信息包括以下至少一种：

该敏感数据所属的文件的储存路径、该敏感数据在其所属文件中的位置、该敏感数据的数据类型、该敏感数据的字段格式与预设的字段格式的相似度。

本申请实施例还提供了一种基于大数据的敏感数据确定装置，所述装置包括：

获取模块，用于获取敏感数据的第一筛选条件；

解析模块，用于基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；

第一筛选模块，用于基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。

在一种可能的实施例中，所述解析模块在基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析时，具体用于：

在一种可能的实施例中，所述第一筛选模块在基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据时，具体用于：

在一种可能的实施例中，所述装置还包括第二筛选模块，所述第二筛选模块具体用于：

在一种可能的实施例中，所述装置还包括：

统计模块，用于对所述第一类型敏感数据和所述第二类型敏感数据的数量及数据信息进行统计，并将统计结果展示给用户，以使用户根据统计结果，对所述第一类型敏感数据和所述第二类型敏感数据进行处理；

其中，所述数据信息包括以下至少一种：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的基于大数据的敏感数据确定方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的基于大数据的敏感数据确定方法的步骤。

本申请实施例提供的基于大数据的敏感数据确定方法及装置，首先获取敏感数据的第一筛选条件；其次，基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；最后，基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。与现有技术相比，本申请可以通过对不同类型的数据采用不同的解析方法，使其能够识别非结构化数据中的敏感数据，提高敏感数据的识别率，进而保护用户的敏感数据。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于大数据的敏感数据确定方法的流程图；

图2示出了本申请实施例所提供的另一种基于大数据的敏感数据确定方法的流程图；

图3示出了本申请实施例所提供的另一种基于大数据的敏感数据确定方法的流程图；

图4示出了应用本申请实施例提供的一种基于大数据的敏感数据确定方法的系统的功能结构框图；

图5示出了应用本申请实施例提供的一种基于大数据的敏感数据确定方法的一种系统构架；

图6示出了本申请实施例所提供的一种基于大数据的敏感数据确定装置的结构示意图之一；

图7示出了本申请实施例所提供的一种基于大数据的敏感数据确定装置的结构示意图之二；

图8示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

经研究发现，现有的敏感数据确定方法，不能对如非结构化数据的数据进行分析和处理，导致有很多敏感数据不能被发现，进而增加了敏感数据泄露的风险。

基于此，本申请实施例提供一种基于大数据的敏感数据确定方法及装置，可以通过对不同类型的数据采用不同的解析方法，使其能够识别非结构化数据中的敏感数据，提高敏感数据的识别率，进而保护用户的敏感数据。

请参阅图1，图1为本申请实施例所提供的一种基于大数据的敏感数据确定方法的流程图。如图1中所示，本申请实施例提供的敏感数据确定方法，包括：

S101、获取敏感数据的第一筛选条件。

该步骤中，可以根据用户的需求，以及用户所属的行业信息等相关内容，确定敏感数据的定义，针对不同的用户群体，敏感数据的定义可能会不同，基于用户属于的用户群体，可以确定用于筛选敏感数据的第一筛选条件。

其中，敏感数据可以包括手机号、身份证号、IP地址、IMEI(国际移动设备识别码)等在法律中规定的信息，以及政治、低俗等垃圾信息，还可以包括用户所属行业的特有的敏感信息。第一筛选条件可以包括上述敏感数据所具有的特征，如，身份证号、IP地址等数字类型的数据在数据结构上具备的排列规则、包含特定字眼的短句或词组等，也可以包括敏感数据类型。

S102、基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析。

该步骤中，可以先从一个或多个数据库中确定目标数据集，目标数据集中包含了需要进行脱敏处理的数据，目标数据集也可以理解为在数据库中筛选敏感数据时的筛选范围。目标数据集中可以包括结构化数据及非结构化数据。由于非结构化数据无法同结构化数据一样能够直接识别，因此，需要专门针对非结构化数据，设立一个新的数据解析方式，将非结构化数据转换成可以识别处理的数据。

S103、基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。

该步骤中，可以对目标数据集中的数据进行遍历，并将遍历中发现符合第一筛选条件的数据作为第一类型敏感数据，第一类型敏感数据是能够直接根据预设的第一筛选条件识别出的敏感数据。

请参阅图2，图2为本申请另一实施例提供的基于大数据的敏感数据确定方法的流程图。如图2中所示，本申请实施例提供的敏感数据确定方法，包括：

S201、获取敏感数据的第一筛选条件。

S202、若所述目标数据集内包含非结构化数据，则对所述目标数据集内的非结构化数据进行字段切分处理，并确定所述目标数据集内每个字段的格式。

该步骤中，可以根据预设的常见数据分隔方式，对数据的行、列切分，得到多个字段，并确定每个字段的格式；对于无法根据预设的常见数据分隔方式进行切分的数据，可以通过分别识别多行数据中每个相邻字符的相似度，若相似度高于预设的阈值，则确定该相邻的两个字符属于同一字段，进而对数据进行切分。

S203、针对所述目标数据集内的每个字段，若该字段的格式与格式字典中预设字段的格式的相似度高于预设阈值，则将所述格式字典中的预设字段的类型作为该字段的类型。

该步骤中，可以将每个字段的格式与格式字典中预设字段的格式进行比较，若相似度较高，则可以认为两者类型相同，进而能够确定每个字段的类型，得到的字段以及字段的类型即为数据解析的结果。

进一步的，还可以通过校验算法，对字段的格式与预设字段的格式的相似度进行核对，避免错误识别字段的类型。

S204、基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。

其中，S201、S204的描述可以参照S101、S103的描述，并且能达到相同的技术效果，对此不做赘述。

在一种可能的实施方式中，所述基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据，包括：

其中，第一筛选条件中包含有敏感数据的类型，其中，敏感数据的类型的数量可以为一个或多个，例如，敏感数据类型可以包括身份证号、手机号、姓名等类型，当字段根据字段的格式，确定该字段的类型为身份证号码时，即确定该字段为敏感数据。

在一种可能的实施方式中，所述方法还包括：

该步骤中，由于可能存在无法确定类型的字段，此时通过上述方式无法确定该字段是否为敏感数据，可以对未被确定为第一类型敏感数据的字段进行二次筛选，将这些字段输入至训练好的敏感数据识别模型中，利用敏感数据识别模型，从中确定第一次筛选未能识别的敏感数据。

其中，第二筛选条件可以根据机器学习以及神经网络确定的敏感数据的筛选条件；第二类型敏感数据可以为反动暴恐等未记录在格式字典中的类型的数据。

在一种可能的实施方式中，所述方法还包括：

其中，所述数据信息包括以下至少一种：

该步骤中，可以对接不同的数据展示方式，或者将筛选出的敏感数据数据直接对接大数据治理的不同环节，以进行后续处理和分析。

请参阅图3，图3为本申请实施例提供的另一种基于大数据的敏感数据确定方法的流程图。如图3所示，所述方法包括：

连接需要被处理的数据源，其中，数据源可以包括关系型数据库、非关系型数据库以及文件数据库；选择数据源下的数据范围，作为数据子集；针对于非关系型数据库以及文件等形式，可提供分隔符等内容方便进行数据解析，也可以采用系统自带解析功能；选择创建好的数据子集以及需要识别的内容规则，提交智能识别任务，其中，内容规则可以从规则库、算法模型以及敏感词库中获得；如果库中的规则、模型不能完全覆盖需要确定的敏感数据类型，通过用户创建新的识别规则；得到识别任务的结果；针对于任务结果进行触发通知预警。

请参阅图4，图4为应用本申请实施例提供的一种基于大数据的敏感数据确定方法的系统的功能结构框图。如图4所示，所述系统包括：

Dashboard模块，用于整体展示当前数据源连接数量、任务执行情况、机器资源占用情况等信息；

数据连接模块，用于管理数据源及数据子集，配置数据解析信息，进行连通性测试；

规则配置模块，用于创建及导入自定义识别规则，管理内置规则；

任务配置模块，用于关联数据连接模块创建的数据子集，关联规则配置模块中的规则，根据需求设置智能识别的精度(是否完全匹配，还是容忍混入一定的脏数据)、任务执行时间、识别策略(识别全部数据、识别抽样数据、只要识别出一条即停止)；

任务结果模块，用于显示任务自身的配置信息，统计分目录/表/文件等各个层级识别的数量及对应识别出符合规则的数量，并统计占比情况。针对输出结果提供当前任务结果的综合风险情况评估；

数据预警模块，用于针对于提交的任务状态，如发生了变化，则进行邮件通知；还可设置对于识别出的规则可覆盖的数量情况进行预警，对于条数和占比如触发了预警条件，则进行对应的通知；

审计模块，用于对于用户的操作进行记录，包括登录、添加、修改、删除等，可进行方便快捷的查询；

权限模块，用于设置管理员及用户角色，并且管理员可以查看用户的操作及创建内容。

请参阅图5，图5为应用本申请实施例提供的一种基于大数据的敏感数据确定方法的一种系统构架。如图5所示，所述系统构架包括数据对接、任务管理以及结果展示三大模块，其中，任务管理模块中包括智能识别引擎子模块、任务配置子模块、消息队列及数据适配子模块和识别结果处理子模块。

本申请实施例提供的基于大数据的敏感数据确定方法，首先，获取敏感数据的第一筛选条件；其次，基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；最后，基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。与现有技术相比，本申请可以通过对不同类型的数据采用不同的解析方法，使其能够识别非结构化数据中的敏感数据，提高敏感数据的识别率，进而保护用户的敏感数据。

请参阅图6、图7，图6为本申请实施例所提供的一种基于大数据的敏感数据确定装置的结构示意图之一，图7为本申请实施例所提供的一种基于大数据的敏感数据确定装置的结构示意图之二。如图6中所示，基于大数据的敏感数据确定装置600包括：

获取模块610，用于获取敏感数据的第一筛选条件；

解析模块620，用于基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；

第一筛选模块630，用于基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。

在一种可能的实施例中，所述解析模块620在基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析时，具体用于：

在一种可能的实施例中，所述第一筛选模块630在基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据时，具体用于：

在一种可能的实施例中，如图7所示，所述敏感数据确定装置600还包括第二筛选模块640，所述第二筛选模块640具体用于：

在一种可能的实施例中，所述敏感数据确定装置600还包括：

统计模块650，用于对所述第一类型敏感数据和所述第二类型敏感数据的数量及数据信息进行统计，并将统计结果展示给用户，以使用户根据统计结果，对所述第一类型敏感数据和所述第二类型敏感数据进行处理；

其中，所述数据信息包括以下至少一种：

本申请实施例提供的基于大数据的敏感数据确定装置，首先通过获取模块，获取敏感数据的第一筛选条件；其次通过解析模块，基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析；最后通过第一筛选模块，基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据。与现有技术相比，本申请可以通过对不同类型的数据采用不同的解析方法，使其能够识别非结构化数据中的敏感数据，提高敏感数据的识别率，进而保护用户的敏感数据。

请参阅图8，图8为本申请实施例所提供的一种电子设备的结构示意图。如图8中所示，所述电子设备800包括处理器810、存储器820和总线830。

所述存储器820存储有所述处理器810可执行的机器可读指令，当电子设备800运行时，所述处理器810与所述存储器820之间通过总线830通信，所述机器可读指令被所述处理器810执行时，可以执行如上述图1以及图2所示方法实施例中的敏感数据确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的敏感数据确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于大数据的敏感数据确定方法，其特征在于，所述方法包括：

获取敏感数据的第一筛选条件；

2.根据权利要求1所述的方法，其特征在于，所述基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

其中，所述数据信息包括以下至少一种：

6.一种基于大数据的敏感数据确定装置，其特征在于，所述装置包括：

获取模块，用于获取敏感数据的第一筛选条件；

7.根据权利要求6所述的装置，其特征在于，所述解析模块在基于目标数据集内数据的类型，确定目标数据集的数据解析方式，并利用所述数据解析方式对所述目标数据集进行数据解析时，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述第一筛选模块在基于所述敏感数据的第一筛选条件，对数据解析后的目标数据集中的数据进行筛选，得到第一类型敏感数据时，具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至5任一所述的基于大数据的敏感数据确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5任一所述的基于大数据的敏感数据确定方法的步骤。