CN115878671A - 敏感数据分析方法、装置、电子设备及存储介质 - Google Patents
敏感数据分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115878671A CN115878671A CN202211654435.9A CN202211654435A CN115878671A CN 115878671 A CN115878671 A CN 115878671A CN 202211654435 A CN202211654435 A CN 202211654435A CN 115878671 A CN115878671 A CN 115878671A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- database
- sensitive data
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供敏感数据分析方法、装置、电子设备及存储介质,首先取第一数据库中被标定为敏感数据的第一字段;然后查找第一数据库中与第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与第一字段相匹配的第一字段集,并将第一字段集中的所有字段标定为敏感数据;最后,至少依据第一字段和/或第一字段集中的所有字段查找其他系统中的各个数据库,得到与第一字段和/或第一字段集中的所有字段相匹配的第二字段集,并将第二字段集中的所有字段标定为敏感数据。本申请利用数据血缘关系和多数据系统采集对敏感数据进行全面分析,以数据库的维度全面查找出敏感数据,从根本上提高敏感数据在大数据汇聚交互共享过程中的安全性。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及敏感数据分析方法、装置、电子设备及存储介质。
背景技术
大数据汇聚交换共享方式越来越普及,大数据侧可以通过API、库表交换、文件共享等多种实现方式来满足大数据汇聚交换共享的需求。但是,在大数据汇聚交换共享所带来便利的同时,在数据传输过程中例如身份信息等敏感数据的数据安全性无法得到有效保障。
相关技术中,如果发现API响应数据中携带有敏感数据,可以通过对API参数的修改对该敏感数据进行数据脱敏。但是,由于敏感数据还可能通过如库表交换、文件共享等其他方式泄漏,敏感数据的安全性仍然没有得到有效保障。
发明内容
为克服相关技术中存在的问题,本申请提供一种敏感数据分析方法、装置、电子设备及存储介质,该方法用以在数据库的维度全面查找出敏感数据,以实现从根本上提高敏感数据在大数据汇聚交互共享过程中的安全性。
本申请第一方面提供一种敏感数据分析方法,包括:获取第一数据库中被标定为敏感数据的第一字段,所述第一数据库存储于第一系统;
查找所述第一数据库中与所述第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与所述第一字段相匹配的第一字段集,并将所述第一字段集中的所有字段标定为敏感数据;
至少依据所述第一字段和/或所述第一字段集中的所有字段查找其他系统中的各个数据库,得到与所述第一字段和/或所述第一字段集中的所有字段相匹配的第二字段集,并将所述第二字段集中的所有字段标定为敏感数据。
本申请第二方面提供一种敏感数据分析装置,包括:
第一处理模块,用于获取第一数据库中被标定为敏感数据的第一字段,所述第一数据库存储于第一系统;
第二处理模块,用于查找所述第一数据库中与所述第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与所述第一字段相匹配的第一字段集,并将所述第一字段集中的所有字段标定为敏感数据;
第三处理模块,用于至少依据所述第一字段和/或所述第一字段集中的所有字段查找其他系统中的各个数据库,得到与所述第一字段和/或所述第一字段集中的所有字段相匹配的第二字段集,并将所述第二字段集中的所有字段标定为敏感数据。
本申请第三方面提供一种电子设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的敏感数据分析方法。
本申请第四方面提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的敏感数据分析方法。
本申请提供的一种敏感数据分析方法,该方法首先取第一数据库中被标定为敏感数据的第一字段;然后查找第一数据库中与第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与第一字段相匹配的第一字段集,并将第一字段集中的所有字段标定为敏感数据;最后,至少依据第一字段和/或第一字段集中的所有字段查找其他系统中的各个数据库,得到与第一字段和/或第一字段集中的所有字段相匹配的第二字段集,并将第二字段集中的所有字段标定为敏感数据。本申请利用数据血缘关系和多数据系统采集对敏感数据进行全面分析,以数据库的维度全面查找出敏感数据,从根本上提高敏感数据在大数据汇聚交互共享过程中的安全性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1为相关技术中大数据汇聚交换共享的场景示意图;
图2为本申请示出的一种敏感数据分析方法的流程示意图;
图3为本申请实施例示出的一种敏感数据分析方法中具有数据血缘关系的关系链的示例图;
图4为本申请实施例公开的一种敏感数据分析方法中具有数据血缘关系的数据表的示例图;
图5为本申请实施例公开的将第一字段标定为敏感数据的过程流程示意图;
图6为本申请实施例示出的一种敏感数据分析装置的结构示意图;
图7为本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
本申请可以应用到大数据的相关场景下,例如大数据汇聚交换共享的场景中,参见图1,图1是相关技术中大数据汇聚交换共享的场景示意图。其中,通过API的方式访问中心数据库,数量大,系统多,敏感数据被泄漏的风险大。
相关技术中,通过对API响应数据进行敏感数据泄漏分析,从而对API的实现代码进行调整,可以对API中泄漏的敏感数据精准的保护。但是,通过图1可以看出,中心数据库中还可能通过其它多种方式对外提供包括敏感数据在内的其它数据,因此,当中心数据库采用其它方式时,仍存着敏感数据泄漏的风险。另外,大数据还存在多头采集即从多个系统的数据库同时对敏感数据进行采集的情况下,仅对于某一API的实现代码进行调整,也无法做到全面的分析排查。
本申请的核心思想是通过对API响应数据的监控,发现敏感数据后,直接对数据库中的相关字段均进行标记;再利用数据血缘对数据内在关系进行敏感数据的精准记录,并沿多叉树路径对上下游关联数据进行全面分析,进而可以根据不同的数据提供方式针对性的进行处理,例如,执行数据脱敏、字段加密或者删除字段等方式,从而从根源上降低敏感数据泄漏的风险,提高敏感数据在大数据汇聚交换共享场景下的数据安全性。
针对上述问题,本申请实施例提供一种敏感数据分析方法,用以在数据库的维度全面查找出敏感数据,以实现从根本上提高敏感数据在大数据汇聚交互共享过程中的安全性。
以下结合附图详细描述本申请实施例的技术方案。
图2是本申请实施例示出的一种敏感数据分析方法的流程示意图。
参见图2,本申请公开的一种敏感数据分析方法,该方法具体包括如下步骤:
S201:获取第一数据库中被标定为敏感数据的第一字段,该第一数据库存储于第一系统。
本申请实施例中,第一系统对应有第一数据库,当需要通过API方式访问第一数据库时,通常会发送API请求到第一数据库,第一数据库会返回响应数据。可以理解的是,第一系统可以是第一应用或者第一程序所对应的第一系统。可以理解的是,第一系统可以是例如考试系统、人事系统、采购系统等需要使用数据库的系统。
S202:查找第一数据库中与第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与第一字段相匹配的第一字段集,并将第一字段集中的所有字段标定为敏感数据。
其中,通过分析数据血缘关系可以理解为数据之间的数据流向关系,即数据的传输过程中的数据流向关系,数据血缘关系可以通过关系链的形式进行表达,该关系链上下游的节点数据都进行分析后,可以得出多叉树结构的数据关系,进而进行完整的排查。参见图3,图3是本申请实施例公开的一种敏感数据分析方法中具有数据血缘关系的关系链的示例图。以图3中数据血缘关系A关系链为例,每个节点代表一个具体的库表字段,实线与节点代表了此血缘关系链,虚线与节点代表分析相关数据的过程。若API泄露的敏感字段位于A42,其数据血缘的关系链为A-->A1-->A2-->A32-->A42。基于数据血缘的数据风险分析,会沿虚线回溯A42-->A32-->A2-->A1-->A,此为查找到的主关系链上的相关数据,由此将A32、A2、A1、A加入了A42的相关数据集合。然后,再对此主关系链上的节点分别依据数据血缘进行分析,得到了A2-->A31,A32-->A41的关系链,由此将A31与A41加入了A42的相关数据集合。通过整个分析过程,最后形成了一个多叉树的查找路径。
S203:至少依据第一字段和/或第一字段集中的所有字段查找其他系统中的各个数据库,得到与第一字段和/或第一字段集中的所有字段相匹配的第二字段集,并将第二字段集中的所有字段标定为敏感数据。
在具体实施例中,对于标定的敏感数据,可以对相应的库表字段进行排查,没有实际需要的,可以删除,需要使用的,再采取对应的敏感数据保护措施例如数据脱敏操作、加密操作等。通过上述实施例完成了从API数据泄露风险监测到触发数据库中相关数据智能分析,进而完成对数据风险的完整梳理和检查、处理。
本申请实施例中,步骤201之后,或者步骤202之后,可以执行步骤203。本申请实施例中,第一系统与其他系统由于不具有交互关系,各个数据表之间也不具有数据血缘关系,因此,其他系统中如果具有第一字段或第一字段集中的某个字段,仍存着敏感数据泄漏的风险。
本申请实施例中,为了解决该技术问题,还能够通过系统维度进一步分析。通过数据血缘关系,可以得出第一字段对应的血缘起点的起点数据表,该起点数据表中可能是第一字段也可能是第一字段集中的某个字段。可以基于第一字段或者第一字段集中的某个字段,在其它系统的其它数据库例如第二数据库中进行分析,来确定出与第一字段或第一字段集中的某个字段相匹配的第二字段集。第二字段集中的字段可以与第一字段或第一字段集中的某个字段具有相同或相应的键值、键名。
进一步,基于数据血缘和数据内容的多头采集数据风险分析,查找数据血缘关系链之外的多头采集数据并进行对应血缘分析,完整分析所有相关数据风险。以图3中与数据节点A相关的多头采集数据节点B和数据节点C为例。虚线和虚线分别代表了基于A的数据内容相关特征,查找多头采集进入系统的相关数据节点B和节点C的过程,由此将B和C加入了A42相关数据集合。当查找到B和C之后,再基于B和C的数据血缘关系,进行相关数据查找,最后得到B-->B1的关系链,由此将B1也加入了A42的相关数据集合。对多头采集引入的数据风险的分析,采取了数据血缘和数据内容特征结合的方式进行,最终得到完整的相关数据集合。
可以理解的是,第一系统与其他系统可能采集了相同的数据。参见图4,图4是本申请实施例公开的一种敏感数据分析方法中具有数据血缘关系的数据表的示例图。图4中人事系统表与通行证系统表以及疫情系统表之间可以是多头采集关系。这几个数据表对应的数据库中备注均设置有采集人员信息的相关记录,或者通过分析这三个数据表可以发现具有共同的字段“EmployeeID:201891621”,或者通过人工确认的方式指定出上述三个表具有多头数据采集关系。
图4中,通过主题库表中的字段:CRZ-出入库-22922可以分析出与该表具有数据血缘关系的数据表可以包括人事系统表中、原始库表、标准库表、通行证系统表以及考试系统表。实际使用中,对人事系统表中的数据通过采集的方式可以得到原始库1表,然后原始库1表可以通过转换得到标准库1表,标准库1表通过集成的方式可以对应到主题库表,主题库表通过共享的方式可以对应到通行证系统表。也就是说,这些数据表之间具有数据血缘关系。而通行证系统表与疫情系统表之间并不存在任何数据血缘关系。
本申请实施例中,相关联数据表可以是多个,只要与第一数据表中的第一字段具有数据血缘关系即可。例如,人事系统表、原始库表、标准库表均可以称之为相关联数据表。
可以理解的是,第二字段的键值与第一字段的键值很可能在表达方式上不同,例如,图4中的主题库中的第一字段的键名是出入证,而在原始库中的第二字段的键名为Pass,但是,第一字段与第二字段的键值均为22922,实际上第一字段与第二字段具有数据血缘关系。可以理解的是,第一字段与第二字段可以完全相同也可以具有不同的键名。
本申请实施例中,可以将与第一字段具有数据血缘关系的全部字段均确定出来。然后可以将全部字段存储至第一字段集,并将第一字段集中的所有字段标定为敏感数据。
将第一字段集中的所有字段标定为敏感数据的方式可以是将第一字段集中的所有字段所对应的内容写入到敏感数据集合中,该敏感数据集合可以用来存储被标定的敏感数据。可以理解的是,写入的内容还可以包括其对应的位置信息,例如库表具体位置。
实际使用中,可以通过对第一字段的回溯来构成一条完整的数据血缘关系链,例如图4中,泄漏的字段可以是主题库中的字段CRZ-出入证、22922,对该字段进行回溯,可以得知主关系链条可以是从人事系统-原始库1-标准库1-主题库1,可以将人事系统表的位置信息以及字段Pass、22922,原始库1表的位置信息以及字段Pass、22922,标准库1表中的位置信息以及字段CRZ-出入证、22922,写入与主题库的敏感数据对应的敏感数据集合中。
当然,可以根据本申请的方法还可以分析出考试系统表以及通行证系统表中也属于主关系链的分支关系链,还可以将分支关系链中对应的数据表中相应的第二字段、第三字段标定为敏感数据,并加入到前述与主题库的敏感数据对应的敏感数据集合中。
进一步,可以理解的是,实际上,在大数据中可能存着多个系统,而多个系统中存着有多头采集的情况。而多头采集的情况往往隐蔽性较强,不容易被发现。可以从图4中看出,不同系统的不同数据库中也可能存着相同或相应的敏感数据。因此,如果仅对具有数据血缘关系的敏感数据进行分析、处理,依然存着所监测到的敏感数据泄漏的风险。为了进一步提高敏感数据的安全性,本申请实施例还可以对多头采集的情况进行分析、处理。
例如图4中的人事系统对应的可以是人事系统表、原始库1表以及标准库1表,而通行证系统对应的可以是通行证系统表、原始库2表以及标准库2表,疫情系统对应的有疫情系统表。而人事系统、通行证系统与疫情系统之间不具有数据血缘关系。因此,如果将人事系统中的各个数据表中的第一字段和/或第二字段标定为敏感数据,仍然具有泄漏敏感数据的安全隐患。
可以理解的是,可以综合数据内容、数据库备注以及人工确认的方式,结合数据血缘关系来对多头采集数据的系统和数据库进行定位,可以实现多头采集数据的敏感数据分析。
实际使用中,可以结合人工指定的方式,或者从大数据平台中确定与第一系统具有多头采集关系的其他系统。
可以理解的是,第二字段集中的字段标定为敏感数据可以是将第二字段集的字段所对应的内容写入到敏感数据集合中,该敏感数据集合可以用来存储被标定的敏感数据。可以理解的是,写入的内容还可以包括其对应的位置信息,例如库表具体位置。
可以理解的是,通过上述实施例,可以利用对API响应数据监测出的敏感数据,将第一系统的第一数据库中的第一数据表以及第二数据表,其他系统的数据库中的数据表中所包含的敏感数据均保存在敏感数据集合中。
本申请实施例中,如图5所示,将第一字段标定为敏感数据的过程具体包括如下步骤:
S501:获得针对于访问第一系统的第一数据库的API访问请求所返回的响应数据。
本申请实施例中,可以通过对API流量设置镜像流量的方式来获得响应数据。也可以是设置API监控程序来对转发API流量。只要能够获得第一数据库的响应数据即可,再此不进行具体限定。
S502:当监测到响应数据中包括有敏感类型的第一数据时,确定第一数据在第一数据库中的位置信息。
本申请实施例中,如果监测到响应数据中包括有敏感类型的第一数据,则意味着响应数据中可能有敏感数据被泄漏的风险,因此,需要从根源上消除该风险。
本申请实施例中,确定响应数据是否包括有敏感类型的第一数据,可以是通过机器学习模型的方式自动判断,也可以是通过匹配表、标定表的方式进行判断,还可以是设置监测规则的方式进行判断,再此不进行限定。只需要能够监测出第一类型的第一数据即可。
可以理解的是,敏感类型用于表征需要保护的数据类型,第一数据可以包括具体的数据字段,例如,“姓名:张三”、“身份证号:1101XXXX”等。包括例如上述字段的数据类型可以理解为敏感类型。
当监测到敏感类型的第一数据时,需要确定该第一数据在第一数据库中的库表位置,即位置信息。
本申请实施例中,由于大数据的复杂性,可以设置有特定的平台用于查询位置信息,来预先存储各字段在各数据库中的位置信息。例如,“姓名:张三”在第一数据库中的主题库表的第一行。
当然,如果知悉第一数据库的具体标示,还可以根据第一数据生成SQL查询语句,来确定在第一数据库中的位置信息。
可以理解的是,第一数据表可能有多个,则第一字段相应的也存着多个。此时,可以通过人工协助确认的方式来确定出位置信息。
S503:基于所述位置信息将所述第一数据库中的所述第一字段标定为敏感数据。
本申请实施例中,确定了数据表中的第一字段后,可以将第一字段标定为敏感数据。从数据库的维度对敏感数据进行保护。
标定为敏感数据后,可以向指定目标发送提醒信息,例如向数据安全工程师的终端发送敏感信息泄露的警示提醒,以便于对该数据库中的该字段进行相应处理。
可选的,所述基于所述位置信息将所述第一数据库中的第一字段标定为敏感数据包括:
基于所述位置信息确定所述第一数据库中的第一数据表;
确定所述第一数据表中与所述第一数据相匹配的第一字段;
将所述第一字段对应的键名以及键值标定为敏感数据。
本申请实施例中,得到库表位置后,确定与第一数据匹配的第一字段,然后将第一字段所在行的数据标定为敏感数据。例如,将键名为出入证号、该键名对应的键值为23333的字段标定为敏感数据。
可以理解的是,可以对该字段进行数据脱敏,也可以是根据需要将该字段进行删除,或者设置加密算法在库表共享、数据库共享等其它方式中进行特殊加密处理。
可选的,所述将所述第一字段对应的键名以及键值标定为敏感数据包括:
将所述第一字段对应的键名以及键值写入敏感数据集合;
或,将所述第一字段所在的位置信息添加的标记列中添加敏感数据标记。
本申请实施例中,标定为敏感数据可以是将第一字段所对应的内容写入到敏感数据集合中,该敏感数据集合可以用来存储被标定的敏感数据。可以理解的是,写入的内容还可以包括其对应的位置信息,例如库表具体位置。
可以理解的是,字段的内容在数据表中通常是以键值以及键名的形式存储的。例如,姓名张三,在第一数据表中姓名是键名,张三为键值。因此,本申请实施例中,不仅仅将字段本身进行标记,还可以对该字段对应的键名以及键值进行标记。
可以看出,本申请实施例中,不但可以将敏感数据本身从数据库的层面进行分析,还能根据敏感数据将其相应的数据表中的相关的数据均能够分析出来。例如,敏感数据包括通行证8452,在数据表中,与通行证相关的所有键值实际上可能都是敏感数据,因此,本申请实施例中,通过确定通行证8452在第一数据表中的位置信息,可以将该数据行或数据列中的全部数据标定为敏感数据。
当然,还可以是将第一字段所在的数据行或者数据列中添加一个敏感数据标记,具体可以根据数据表所设置的数据表结构相关。
可以理解的是,第一数据库中存在有多张数据表,例如第二数据表,第二数据表的敏感数据也应当进行处理,本申请实施例中,为了进一步提高敏感数据的安全性,需要根据数据血缘关系来进一步实现敏感数据的精准记录。
本申请实施例中,如果监测到了响应数据中具有敏感类型的第一数据,则可以触发数据全面分析的相关步骤。例如可以触发步骤202,来通过与第一字段所在第一数据表确定出与其具有数据血缘关系的所有数据表。
与前述应用功能实现方法实施例相对应,本申请还提供了一种敏感数据分析装置、电子设备及相应的实施例。
图6是本申请实施例示出的一种敏感数据分析装置的结构示意图。
参见图6,本申请实施例公开的一种敏感数据分析装置,包括:
第一处理模块601,用于获取第一数据库中被标定为敏感数据的第一字段,所述第一数据库存储于第一系统;
第二处理模块602,用于查找所述第一数据库中与所述第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与所述第一字段相匹配的第一字段集,并将所述第一字段集中的所有字段标定为敏感数据;
第三处理模块603,用于至少依据所述第一字段和/或所述第一字段集中的所有字段查找其他系统中的各个数据库,得到与所述第一字段和/或所述第一字段集中的所有字段相匹配的第二字段集,并将所述第二字段集中的所有字段标定为敏感数据。
本申请提供的一种敏感数据分析装置,第一处理模块用于获取第一数据库中被标定为敏感数据的第一字段;然后第二处理模块用于查找第一数据库中与第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与第一字段相匹配的第一字段集,并将第一字段集中的所有字段标定为敏感数据;最后,第三处理模块用于至少依据第一字段和/或第一字段集中的所有字段查找其他系统中的各个数据库,得到与第一字段和/或第一字段集中的所有字段相匹配的第二字段集,并将第二字段集中的所有字段标定为敏感数据。本申请利用数据血缘关系和多数据系统采集对敏感数据进行全面分析,以数据库的维度全面查找出敏感数据,从根本上提高敏感数据在大数据汇聚交互共享过程中的安全性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图7是本申请实施例示出的电子设备的结构示意图。
参见图7,电子设备1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
上文中已经参考附图详细描述了本申请的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本申请所必须的。另外,可以理解,本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使所述处理器执行根据本申请的上述方法的各个步骤的部分或全部。
本领域技术人员还将明白的是,结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本申请的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种敏感数据分析方法,其特征在于,包括:
获取第一数据库中被标定为敏感数据的第一字段,所述第一数据库存储于第一系统;
查找所述第一数据库中与所述第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与所述第一字段相匹配的第一字段集,并将所述第一字段集中的所有字段标定为敏感数据;
至少依据所述第一字段和/或所述第一字段集中的所有字段查找其他系统中的各个数据库,得到与所述第一字段和/或所述第一字段集中的所有字段相匹配的第二字段集,并将所述第二字段集中的所有字段标定为敏感数据。
2.根据权利要求1所述的方法,其特征在于,将所述第一字段标定为敏感数据的过程包括:
获得针对于访问所述第一系统的所述第一数据库的API访问请求所返回的响应数据;
当监测到所述响应数据中包括有敏感类型的第一数据时,确定所述第一数据在所述第一数据库中的位置信息;
基于所述位置信息将所述第一数据库中的所述第一字段标定为敏感数据。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一数据在所述第一数据库中的位置信息包括:
查找所述第一数据在所述第一数据库中的位置信息,得到至少一个查找结果;
将用户指定的查找结果作为所述位置信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述位置信息将所述第一数据库中的第一字段标定为敏感数据包括:
基于所述位置信息确定所述第一数据库中的第一数据表;
确定所述第一数据表中与所述第一数据相匹配的第一字段;
将所述第一字段对应的键名以及键值标定为敏感数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一字段对应的键名以及键值标定为敏感数据包括:
将所述第一字段对应的键名以及键值写入敏感数据集合;
或,将所述第一字段所在的位置信息添加的标记列中添加敏感数据标记。
6.一种敏感数据分析装置,其特征在于,包括:
第一处理模块,用于获取第一数据库中被标定为敏感数据的第一字段,所述第一数据库存储于第一系统;
第二处理模块,用于查找所述第一数据库中与所述第一字段所在第一数据表具有数据血缘关系的多个数据表,确定多个数据表中与所述第一字段相匹配的第一字段集,并将所述第一字段集中的所有字段标定为敏感数据;
第三处理模块,用于至少依据所述第一字段和/或所述第一字段集中的所有字段查找其他系统中的各个数据库,得到与所述第一字段和/或所述第一字段集中的所有字段相匹配的第二字段集,并将所述第二字段集中的所有字段标定为敏感数据。
7.根据权利要求6所述的装置,其特征在于,所述第一处理模块具体用于:
获得针对于访问所述第一系统的所述第一数据库的API访问请求所返回的响应数据;
当监测到所述响应数据中包括有敏感类型的第一数据时,确定所述第一数据在所述第一数据库中的位置信息;
基于所述位置信息将所述第一数据库中的所述第一字段标定为敏感数据。
8.根据权利要求7所述的装置,其特征在于,所述第一处理模块具体还用于:
查找所述第一数据在所述第一数据库中的位置信息,得到至少一个查找结果;
将用户指定的查找结果作为所述位置信息。
9.一种电子设备,其特征在于,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-5中任一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211654435.9A CN115878671A (zh) | 2022-12-22 | 2022-12-22 | 敏感数据分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211654435.9A CN115878671A (zh) | 2022-12-22 | 2022-12-22 | 敏感数据分析方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115878671A true CN115878671A (zh) | 2023-03-31 |
Family
ID=85755339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211654435.9A Pending CN115878671A (zh) | 2022-12-22 | 2022-12-22 | 敏感数据分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115878671A (zh) |
-
2022
- 2022-12-22 CN CN202211654435.9A patent/CN115878671A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400765B (zh) | 一种隐私数据的访问方法、装置及电子设备 | |
Krishna et al. | Too much automation? The bellwether effect and its implications for transfer learning | |
US7039650B2 (en) | System and method for making multiple databases appear as a single database | |
KR20150076225A (ko) | 위치 정보를 가진 데이터 프로파일링 | |
CN107657177A (zh) | 一种漏洞检测方法及装置 | |
JP6042974B2 (ja) | データ管理装置、データ管理方法及び非一時的な記録媒体 | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
CN113711221A (zh) | 可链记录的高效存取 | |
CN112989990B (zh) | 医疗票据识别方法、装置、设备及存储介质 | |
CN111092880B (zh) | 一种网络流量数据提取方法及装置 | |
CN115827903A (zh) | 媒体信息的违规检测方法、装置、电子设备及存储介质 | |
CN110362569A (zh) | 数据表的校验方法及装置、电子设备、存储介质 | |
US10423618B2 (en) | Method and system for enforcing user policy on database records | |
CN111680110B (zh) | 数据处理方法、装置、bi系统及介质 | |
US20210357396A1 (en) | Related file analysis | |
CN107844592A (zh) | 一种查询元数据的方法和装置 | |
CN115878671A (zh) | 敏感数据分析方法、装置、电子设备及存储介质 | |
CN116610583A (zh) | Sca工具成熟度评价方法、装置、设备、介质和产品 | |
EP3108400A1 (en) | Virus signature matching method and apparatus | |
CN111489177A (zh) | 基于区块链系统的跨境商品溯源方法、装置及硬件设备 | |
CN115964742A (zh) | 敏感数据的分析方法、装置、电子设备及存储介质 | |
CN110289066A (zh) | 一种法医鉴定报告的审查方法及系统 | |
CN116167441A (zh) | 网络安全风险评估的知识图谱及构建方法 | |
CN106557586B (zh) | 数据库访问处理方法及装置 | |
CN114676061A (zh) | 一种基于知识图谱自动化固件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |