CN117113403A - 一种数据脱敏的方法、装置、电子设备及存储介质 - Google Patents

一种数据脱敏的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117113403A
CN117113403A CN202311076412.9A CN202311076412A CN117113403A CN 117113403 A CN117113403 A CN 117113403A CN 202311076412 A CN202311076412 A CN 202311076412A CN 117113403 A CN117113403 A CN 117113403A
Authority
CN
China
Prior art keywords
sensitive information
data
sensitive
desensitization
desensitizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311076412.9A
Other languages
English (en)
Inventor
叶莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202311076412.9A priority Critical patent/CN117113403A/zh
Publication of CN117113403A publication Critical patent/CN117113403A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据脱敏的方法、装置、电子设备及存储介质,应用于大数据领域或金融领域。在本申请中,首先对数据进行敏感信息识别,然后基于K‑means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度。最后根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。本申请实现对不同敏感数据进行高效且准确地脱敏操作。

Description

一种数据脱敏的方法、装置、电子设备及存储介质
技术领域
本申请涉及大数据技术领域,特别涉及一种数据脱敏的方法、装置、电子设备及存储介质。
背景技术
在银行业的日常业务处理的过程中,不可避免地会遇到各种客户的信息,而这些客户信息大多属于客户的敏感信息,如:身份证号码、信用卡号码、账户余额、交易金额等。这些信息如果被泄露或者被未授权的人员获取,可能会导致客户的财产受到损失,甚至会影响银行的声誉和信誉。因此,对于银行来说,保护客户隐私和数据安全是至关重要的。而在现有技术中,由于敏感数据类型繁多、数据格式多样且敏感程度不同,无法实现对不同敏感数据进行高效且准确地脱敏操作。
发明内容
有鉴于此,本申请实施例提供了一种数据脱敏的方法、装置、电子设备及存储介质,旨在实现对不同敏感数据进行高效且准确地脱敏操作。
第一方面,本申请实施例提供了一种数据脱敏的方法,所述方法包括:
对数据进行敏感信息识别;
基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度;
根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。
可选的,所述根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,包括:
设置脱敏规则,所述脱敏规则包括所述敏感信息的敏感程度与敏感信息转换规则的对应关系;
获取所述敏感信息的敏感程度;
基于所述脱敏规则根据所述敏感信息的敏感程度确定敏感信息转换规则;
利用所述敏感信息转换规则对所述敏感信息进行脱敏处理。
可选的,所述对数据进行敏感信息识别,包括:
利用样本采集技术从所述数据中采集样本数据;
对所述样本数据进行数据结构特征的确定;
利用深度学习算法基于所述数据结构特征进行敏感信息的识别。
可选的,所述基于K-means++聚类算法对所述识别到的敏感信息进行分类,包括:
基于所述敏感信息的待分类数目确定所述K-means++聚类算法的聚类簇的数量;
利用所述K-means++聚类算法对所述识别到的敏感信息进行聚类操作;
当所述聚类操作完成时形成聚类簇的集合,完成对所述识别到的敏感信息的分类,所述聚类簇与所述敏感信息的类别相关。
可选的,所述根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度,包括:
设置敏感信息类型匹配模板,所述模板包括敏感信息的敏感类型与所述敏感信息的敏感程度的对应关系;
根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感类型;
基于所述敏感信息类型匹配模板及所述敏感信息的敏感类型,确定所述敏感信息的敏感程度。
可选的,所述利用所述敏感信息转换规则对所述敏感信息进行脱敏处理,包括:
在采用所述敏感信息转换规则对所述敏感信息进行转换时,将所述数据中属于同一敏感程度的全部所述敏感信息进行批量转换。
可选的,所述根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作之后,还包括:
将完成数据脱敏操作的数据按照进行脱敏前的数据存储方式进行存储。
第二方面,本申请实施例提供了一种数据脱敏的装置,所述装置包括:识别模块、分类模块及脱敏模块;
所述识别模块用于,对数据进行敏感信息识别;
所述分类模块用于,基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度;
所述脱敏模块用于,根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。
第三方面,本申请提供了一种电子设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行实现第一方面所述方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述方法。
本申请提供了一种数据脱敏的方法、装置、电子设备及存储介质,在执行所述方法时,首先对数据进行敏感信息识别,然后基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度。最后根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。如此,通过对敏感信息的识别能够避免其他非敏感信息的冗余对数据脱敏过程的影响,同时能够节约算力资源。通过利用K-means++聚类算法对所述识别到的敏感信息进行分类,能够将敏感信息区分出不同的敏感级别,便于后续对敏感信息进行针对性以及适应性的处理,提高了对敏感信息处理的灵活性。通过根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作,在进行脱敏处理的期间,结合敏感信息的类别以及应用场景为不同的敏感信息匹配不同的脱敏方式,能够实现对不同敏感数据进行高效且准确地脱敏操作。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据脱敏的方法的流程图;
图2为本申请实施例提供的一种对敏感信息进行分类的方法的流程图;
图3为本申请实施例提供的一种对敏感信息进行脱敏处理的方法的流程图;
图4为本申请实施例提供的一种数据脱敏的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在对于相关技术的研究中发现,银行业拥有大量敏感的客户信息和交易记录,例如身份证号码、信用卡号码、账户余额、交易金额等。这些信息如果被泄露或者被未授权的人员获取,可能会导致客户的财产受到损失,甚至会影响银行的声誉和信誉。因此,对于银行来说,保护客户隐私和数据安全是至关重要的。数据脱敏可以帮助银行隐藏敏感数据,使得这些数据在交换、共享和存储时更加安全。通过脱敏技术,可以将敏感数据替换为无意义的伪造数据,这样即使数据被泄露或者被未授权的人员获取,也无法识别出真实的敏感信息。
但是由于敏感数据类型繁多、数据格式多样,传统的敏感数据识别方法存在误判、漏判问题,且难以处理多层次的敏感数据。因此需要不断提高算法的准确性和可靠性,并结合实际场景和需求,综合考虑数据的安全性、可用性和可读性等多个方面,实现敏感数据的有效保护和管理。
基于此,本申请提出了一种数据脱敏的方法、装置、电子设备及存储介质。能够通过训练深度学习模型来学习敏感数据和非敏感数据的特征,然后利用这些特征对新的数据进行分类。其次,在得到敏感数据之后,结合敏感数据的数据类型等特征进行敏感度分类。最后结合敏感度和数据使用场景,对数据进行脱敏处理。
本发明提供的一种数据脱敏的方法、装置、电子设备及存储介质可用于金融领域或其他领域,例如,可用于金融领域中的工作人员对客户的数据进行处理时对敏感信息进行脱敏操作的应用场景。其他领域为除金融领域之外的任意领域,例如,大数据领域。上述仅为示例,并不对本发明提供的一种数据脱敏的方法、装置、电子设备及存储介质的应用领域进行限定。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种数据脱敏的方法的流程图,参见图1所示,本申请实施例提供的一种数据脱敏的方法包括:
S11:对数据进行敏感信息识别。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
步骤S11中提到“对数据进行敏感信息识别”,具体的识别方法可以包括:首先利用样本采集技术从所述数据中采集样本数据,然后对所述样本数据进行数据结构特征的确定,最后利用深度学习算法基于所述数据结构特征进行敏感信息的识别。
上述提到的对数据进行敏感信息识别主要是识别敏感数据及非敏感数据,如身份证号码、银行卡号码、手机号码等数据为敏感数据。
上述提到的利用样本采集技术从数据中采集样本数据,具体的样本采集技术可以为分布式样本采集技术,原因在于在银行业的应用场景中,往往需要进行接触以及处理的数据的数据量是十分庞大的,往往可能包括上万、数十万、上百万条数据的记录,面对这种情况采用分布式样本采集技术,能够保证采集到的数据结构完整且具有代表性,能够降低敏感数据筛选工作的工作量,提高敏感数据筛选的效率。除此之外还可以选择其他数据采集技术,具体的数据采集技术可以由本领域技术人员根据实际情况及应用场景进行确定,在此不作限定。
在完成样本数据采集后,可以对已经采样得到的数据结构完成具有代表性的所述样本数据进行深度扫描,以确定所述样本数据的数据结构特征,便于之后利用所述数据结构特征对所述样本数据进行分析筛选。最后利用深度学习算法基于上述确定的数据结构特征进行敏感信息的识别。
除此之外,对于敏感信息的识别还可以采用如下三类智能算法:基于相似度、非监督学习和监督学习。其中基于相似度算法可准确检测以文档形式存储的非结构化数据,例如Word与PowerPoint文件、PDF文档、财务、并购文档,以及其他敏感或专有信息。基于无监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签,比如敏感/非敏感标签(二分类场景)。
通过利用样本采集技术从数据中采集样本数据,并对样本数据的数据结构进行确定,能够降低敏感数据筛选工作的工作量,提高敏感数据筛选的效率。同时利用深度学习算法基于数据结构特征进行敏感信息的识别能够实现对敏感信息的准确识别。
S12:基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度。
步骤S12中提到“基于K-means++聚类算法对所述识别到的敏感信息进行分类”,图2为本申请实施例提供的一种对敏感信息进行分类的方法的流程图,如图2所示,该方法具体包括:
S121:基于所述敏感信息的待分类数目确定所述K-means++聚类算法的聚类簇的数量。
S122:利用所述K-means++聚类算法对所述识别到的敏感信息进行聚类操作。
S123:当所述聚类操作完成时形成聚类簇的集合,完成对所述识别到的敏感信息的分类,所述聚类簇与所述敏感信息的类别相关。
上述提到的K-means++聚类算法的主要原理是:逐个选取k个簇中心,且离它簇中心越远的簇越有可能被选为下一个簇中心。其中簇可以理解为是敏感信息的一个类别,簇中心点的选择可以按照如下步骤进行:
1、从数据集中随机选择一个样本点作为聚类中心点;
2、计算当前选择聚类中心与其它样本点的距离,将距离样本点最大的点作为下一个聚类中心点;
3、重复步骤2直至选出k个聚类中心。
可以理解的是,聚类中心的数量对应聚类簇的数量,聚类簇的数量对应敏感信息的待分类数目,聚类操作完成意味着敏感信息的分类完成。也即将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同“簇”的数据集合,可以利用人工或机器识别对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非敏感型。
通过上述提到的对敏感信息进行分类的方法,利用K-means++聚类算法确定聚类簇的数量能够对应确定出敏感信息的类别数,通过聚类操作形成聚类簇的集合能够完成对识别到的敏感信息的分类。
上述S12提到“根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度”,确定敏感信息的敏感程度的方法可以为:首先设置敏感信息类型匹配模板,所述模板包括敏感信息的敏感类型与所述敏感信息的敏感程度的对应关系,然后根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感类型,最后基于所述敏感信息类型匹配模板及所述敏感信息的敏感类型,确定所述敏感信息的敏感程度。
通过上述敏感信息类型匹配模板的设置,能够便于根据敏感信息的敏感类型对应确定敏感信息的敏感程度,如此能够提高敏感信息的敏感程度的确定的效率及准确性,同时可以根据敏感信息的不同进行调整,灵活性和适应性强。
S13:根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。
步骤S13提到“根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理”,图3为本申请实施例提供的一种对敏感信息进行脱敏处理的方法的流程图,如图3所示,该方法具体包括:
S131:设置脱敏规则,所述脱敏规则包括所述敏感信息的敏感程度与敏感信息转换规则的对应关系。
S132:获取所述敏感信息的敏感程度。
上述提到的敏感信息的敏感程度可以理解为是敏感信息的类型。
S133:基于所述脱敏规则根据所述敏感信息的敏感程度确定敏感信息转换规则。
上述提到的敏感信息转换规则可以包括但不限于以下几种转换类型:
固定值替换,采用预设的固定字符对所述敏感数据进行替换操作;
随机值替换,采用指定类型的随机字符对所述敏感数据进行替换操作;
空字符替换,采用空字符对所述敏感数据进行替换操作;
掩码字符替换,采用掩码字符对所述敏感数据进行替换操作;
值转换替换,利用不可逆算法对所述敏感数据中的数据进行计算,并采用计算结果对所述敏感数据进行替换操作。
在对敏感信息进行转换时可以采用一种或一种以上的上述转换类型。
S134:利用所述敏感信息转换规则对所述敏感信息进行脱敏处理。
在本实施例中可以使用上述的敏感信息转换规则对敏感信息进行脱敏处理,也可以理解为是对敏感信息进行模糊化处理,即将原先的敏感数据进行转换,使得转换后的敏感数据在满足可用性前提下,避免敏感数据信息的泄露。具体的,模糊化处理可以是利用特殊字符对敏感数据进行简单替换、通过特定的算法进行转换或者关键内容进行删除等多种方式,根据所述脱敏规则为不同的敏感数据选取合适的模糊化处理的方式,更有针对性且保证模糊化处理之后的数据依然可用。
除此之外,在本实施例中,针对敏感数据的敏感度以及数据的使用场景,可以使用不同的算法进行敏感数据的脱敏处理。
通过上述提到的对敏感信息进行脱敏处理,能够实现在不同的场景下以及根据敏感数据的类型的不同,对敏感数据采用不同的敏感信息的转换规则进行敏感信息的转换,如此能够针对不同的使用场景进行不同程度的脱敏处理,从而保留了数据的一定程度的价值和可用性,避免了脱敏处理导致数据价值丧失的问题。
在采用所述敏感信息转换规则对所述敏感信息进行转换时,将所述数据中属于同一敏感程度的全部所述敏感信息进行批量转换。
在完成数据脱敏操作之后,还可以将完成数据脱敏操作的数据按照进行脱敏前的数据存储方式进行存储。在本实施例中提出了一种数据脱敏的方法,该方法首先对数据进行敏感信息识别,然后基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度。最后根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。如此,通过对敏感信息的识别能够避免其他非敏感信息的冗余对数据脱敏过程的影响,同时能够节约算力资源。通过利用K-means++聚类算法对所述识别到的敏感信息进行分类,能够将敏感信息区分出不同的敏感级别,便于后续对敏感信息进行针对性以及适应性的处理,提高了对敏感信息处理的灵活性。通过根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作,在进行脱敏处理的期间,结合敏感信息的类别以及应用场景为不同的敏感信息匹配不同的脱敏方式,能够实现对不同敏感数据进行高效且准确地脱敏操作。
图4为本申请实施例提供的一种数据脱敏的装置的结构示意图,如图4所示,一种数据脱敏的装置具体包括:识别模块100、分类模块200及脱敏模块300;
所述识别模块100用于,对数据进行敏感信息识别;
所述分类模块200用于,基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度;
所述脱敏模块300用于,根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。
在可以的实现方式中,所述脱敏模块300,具体用于:
设置脱敏规则,所述脱敏规则包括所述敏感信息的敏感程度与敏感信息转换规则的对应关系;
获取所述敏感信息的敏感程度;
基于所述脱敏规则根据所述敏感信息的敏感程度确定敏感信息转换规则;
利用所述敏感信息转换规则对所述敏感信息进行脱敏处理。
在可以的实现方式中,所述识别模块100,具体用于:
利用样本采集技术从所述数据中采集样本数据;
对所述样本数据进行数据结构特征的确定;
利用深度学习算法基于所述数据结构特征进行敏感信息的识别。
在可以的实现方式中,所述分类模块200,具体用于:
基于所述敏感信息的待分类数目确定所述K-means++聚类算法的聚类簇的数量;
利用所述K-means++聚类算法对所述识别到的敏感信息进行聚类操作;
当所述聚类操作完成时形成聚类簇的集合,完成对所述识别到的敏感信息的分类,所述聚类簇与所述敏感信息的类别相关。
在可以的实现方式中,所述分类模块200,具体用于:
设置敏感信息类型匹配模板,所述模板包括敏感信息的敏感类型与所述敏感信息的敏感程度的对应关系;
根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感类型;
基于所述敏感信息类型匹配模板及所述敏感信息的敏感类型,确定所述敏感信息的敏感程度。
在可以的实现方式中,所述脱敏模块300,具体用于:
在采用所述敏感信息转换规则对所述敏感信息进行转换时,将所述数据中属于同一敏感程度的全部所述敏感信息进行批量转换。
在可以的实现方式中,所述装置还包括存储模块400,所述存储模块400具体用于:将完成数据脱敏操作的数据按照进行脱敏前的数据存储方式进行存储。
在本实施例中提出了一种数据脱敏的装置,该装置包括:识别模块、分类模块及脱敏模块。其中识别模块用于对数据进行敏感信息识别;分类模块用于基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度;脱敏模块用于根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。如此,通过深度学习模型对数据进行自动识别,将敏感数据与非敏感数据进行区分。然后根据敏感数据的特点和重要性,利用聚类算法将敏感数据分为不同的敏感度级别。接着,根据数据使用场景,结合不同的脱敏算法,对不同敏感度级别的数据进行脱敏处理。通过自适应的脱敏方式,可以更好地保护敏感数据的安全性和隐私性,同时保证数据的可用性和可解释性。适用于各种数据类型和场景,具有良好的实用性和可扩展性。
本申请实施例还提出了一种应用场景下的一种数据脱敏的方法,具体而言:
1、数据识别:从输入数据中,识别敏感数据及非敏感数据,如身份证号码、银行卡号码、手机号码为敏感数据。对识别出的敏感数据进行标记,以便后续的处理。
2、数据敏感度分类:将标记的敏感数据进行敏感度等级划分,主要使用K-means++聚类算法将数据分为不同的簇,根据簇中的数据特征来确定不同的敏感度。
3、数据脱敏:结合敏感数据敏感度和数据使用场景,使用不同的算法进行数据脱敏处理并输出结果。
4、数据存储:将脱敏后的数据以及其他非敏感数据按照脱敏前的数据存储方式进行存储,用于传输给数据使用方。
通过上述方法首先利用深度学习方法进行敏感数据的自动识别,主要是通过训练深度学习模型来学习敏感数据和非敏感数据的特征,然后利用这些特征对新的数据进行分类。其次,在得到敏感数据之后,结合敏感数据的数据类型等特征进行敏感度分类。最后结合敏感度和数据使用场景,对数据进行脱敏处理。通过将敏感数据自动识别、敏感度划分和结合数据使用场景进行数据脱敏,解决了传统数据脱敏方法存在的脱敏效果不理想、安全性难以保证等问题。同时,本发明考虑了数据使用场景,结合不同的脱敏算法,使脱敏后的数据能够满足实际应用场景的需求,保证了数据的可用性和可解释性。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本申请实施例还提供了对应的设备以及计算机可读存储介质,用于实现本申请实施例提供的方案。
其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的一种数据脱敏的方法。
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据脱敏的方法,其特征在于,所述方法包括:
对数据进行敏感信息识别;
基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度;
根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。
2.根据权利要求1所述的方法,其特征在于,所述根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,包括:
设置脱敏规则,所述脱敏规则包括所述敏感信息的敏感程度与敏感信息转换规则的对应关系;
获取所述敏感信息的敏感程度;
基于所述脱敏规则根据所述敏感信息的敏感程度确定敏感信息转换规则;
利用所述敏感信息转换规则对所述敏感信息进行脱敏处理。
3.根据权利要求1所述的方法,其特征在于,所述对数据进行敏感信息识别,包括:
利用样本采集技术从所述数据中采集样本数据;
对所述样本数据进行数据结构特征的确定;
利用深度学习算法基于所述数据结构特征进行敏感信息的识别。
4.根据权利要求1所述的方法,其特征在于,所述基于K-means++聚类算法对所述识别到的敏感信息进行分类,包括:
基于所述敏感信息的待分类数目确定所述K-means++聚类算法的聚类簇的数量;
利用所述K-means++聚类算法对所述识别到的敏感信息进行聚类操作;
当所述聚类操作完成时形成聚类簇的集合,完成对所述识别到的敏感信息的分类,所述聚类簇与所述敏感信息的类别相关。
5.根据权利要求1所述的方法,其特征在于,所述根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度,包括:
设置敏感信息类型匹配模板,所述模板包括敏感信息的敏感类型与所述敏感信息的敏感程度的对应关系;
根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感类型;
基于所述敏感信息类型匹配模板及所述敏感信息的敏感类型,确定所述敏感信息的敏感程度。
6.根据权利要求2所述的方法,其特征在于,所述利用所述敏感信息转换规则对所述敏感信息进行脱敏处理,包括:
在采用所述敏感信息转换规则对所述敏感信息进行转换时,将所述数据中属于同一敏感程度的全部所述敏感信息进行批量转换。
7.根据权利要求1所述的方法,其特征在于,所述根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作之后,还包括:
将完成数据脱敏操作的数据按照进行脱敏前的数据存储方式进行存储。
8.一种数据脱敏的装置,其特征在于,所述装置包括:识别模块、分类模块及脱敏模块;
所述识别模块用于,对数据进行敏感信息识别;
所述分类模块用于,基于K-means++聚类算法对所述识别到的敏感信息进行分类,并根据分类后的所述敏感信息的数据特征确定所述敏感信息的敏感程度;
所述脱敏模块用于,根据所述敏感信息的敏感程度对所述敏感信息进行脱敏处理,完成数据脱敏操作。
9.一种电子设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7中任一项所述的数据脱敏的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现数据脱敏的方法的实现程序,所述实现数据脱敏的方法的实现程序被处理器执行时实现如权利要求1-7任意一项所述方法的步骤。
CN202311076412.9A 2023-08-24 2023-08-24 一种数据脱敏的方法、装置、电子设备及存储介质 Pending CN117113403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311076412.9A CN117113403A (zh) 2023-08-24 2023-08-24 一种数据脱敏的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311076412.9A CN117113403A (zh) 2023-08-24 2023-08-24 一种数据脱敏的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117113403A true CN117113403A (zh) 2023-11-24

Family

ID=88797813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311076412.9A Pending CN117113403A (zh) 2023-08-24 2023-08-24 一种数据脱敏的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117113403A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951748A (zh) * 2024-03-26 2024-04-30 苏州元脑智能科技有限公司 隐私数据的数据存储架构构建方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951748A (zh) * 2024-03-26 2024-04-30 苏州元脑智能科技有限公司 隐私数据的数据存储架构构建方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110443692B (zh) 企业信贷审核方法、装置、设备及计算机可读存储介质
CN112837069B (zh) 基于区块链与大数据的安全支付方法及云平台系统
US20200125827A1 (en) Classifying digital documents in multi-document transactions based on signatory role analysis
CN113221747B (zh) 一种基于隐私保护的隐私数据处理方法、装置及设备
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN111932363A (zh) 授权书的识别审核方法、装置、设备及系统
CN117113403A (zh) 一种数据脱敏的方法、装置、电子设备及存储介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN111415336A (zh) 一种图像篡改识别方法、装置、服务器及存储介质
US20190279228A1 (en) Suspicious activity report smart validation
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN108717511A (zh) 一种Android应用威胁度评估模型建立方法、评估方法及系统
CN116881687A (zh) 一种基于特征提取的电网敏感数据识别方法及装置
Satpathy et al. Big data computing application in digital forensics investigation and cyber security
CN114469139A (zh) 脑电信号识别模型训练、脑电信号识别方法、装置及介质
CN114090650A (zh) 一种样本数据识别方法、装置、电子设备及存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN112084306A (zh) 一种敏感词挖掘方法、装置、存储介质及电子设备
CN112417007A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN116028880B (zh) 训练行为意图识别模型的方法、行为意图识别方法及装置
CN113919447B (zh) 基于DNA分子加密和LightGBM算法的数字资产交易管理方法及系统
CN117786121B (zh) 一种基于人工智能的档案鉴定方法以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination