CN116611092A - 一种基于多因子的数据脱敏方法及装置、溯源方法及装置 - Google Patents
一种基于多因子的数据脱敏方法及装置、溯源方法及装置 Download PDFInfo
- Publication number
- CN116611092A CN116611092A CN202310668916.3A CN202310668916A CN116611092A CN 116611092 A CN116611092 A CN 116611092A CN 202310668916 A CN202310668916 A CN 202310668916A CN 116611092 A CN116611092 A CN 116611092A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- desensitized
- character
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013507 mapping Methods 0.000 claims abstract description 84
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims description 31
- 150000003839 salts Chemical class 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 34
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- 206010070834 Sensitisation Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及一种基于多因子的数据脱敏方法及装置、溯源方法及装置,包括:构建敏感信息全体或部分的全局上下文向量和构建用户数据场景的身份凭证向量,计算生成脱敏算法上下文参数;对参与脱敏的字符集合进行划分和归集计算得到相应的映射参数;获取和解析需要被脱敏的数据,识别其中的信息主体和敏感信息,构建需要被脱敏的数据集,对脱敏数据进行形状识别,调用对应脱敏映射算法对数据映射,对映射后的数据进行形状比对得到脱敏后的脱敏数据集,进行相关映射进而得到脱敏后的数据。本发明根据场景需求控制数据脱敏的程度,保留数据的一定程度的信息,确保脱敏后数据依然具有分析和应用价值,并使得数据可以快速和精准溯源,保障数据的安全性。
Description
技术领域
本发明涉及数据安全技术领域,尤其涉及一种基于多因子的数据脱敏方法及装置、溯源方法及装置。
背景技术
现有的数据脱敏方法主要包括替换、遮盖、加密、删除以及格式化等,这些方法在保护数据隐私方面虽然有一定的效果,但是其缺陷和不足也相对明显;首先,替换、遮盖、删除和加密方法虽然可以隐藏数据本身的信息,但是可能会导致主要数据价值损失,严重失真,导致分析和决策过程中的不确定和误差,对数据应用和分析产生很大影响;另外格式化方法在一定程度上保护了数据的隐私,但是格式化也会影响数据的价值,例如,将日期格式化为年月日格式可能会导致数据失去时间序列信息,从而影响数据分析和决策。
此外,这些方法在对数据进行溯源方面的支持程度较低,一旦数据被脱敏后,就难以追踪其原始来源,这对于数据的可追溯性和可信度都会带来挑战,在数据脱敏时需要平衡敏感保护和保留数据价值的需求,以及如何提高数据的可追溯性,如何在去除隐私和敏感信息的同时,保持数据原有的应用价值和内容一致性,同时实现易于对数据使用过程中的溯源分析和管理,是目前数据脱敏处理中需要考虑的一个问题。
需要说明的是,在上述背景技术部分公开的信息只用于加强对本公开的背景的理解,因此不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种基于多因子的数据脱敏方法及装置、溯源方法及装置,解决了目前数据脱敏方法导致数据失真、数据应用价值损失、数据分析结果误差大,以及数据随机脱敏带来的不一致性等问题,以及在保留数据高价值的同时,无法实现脱敏数据的溯源问题。
本发明的目的通过以下技术方案来实现:一种基于多因子的数据脱敏方法,所述数据脱敏方法包括:
步骤一、通过对全部数据进行分析,构建敏感信息的全局上下文向量,获取用户相关身份凭证,生成随机脱敏盐,构建用户数据场景的身份凭证向量,并生成脱敏算法上下文参数;
步骤二、根据生成的脱敏算法上下文参数,对参与脱敏的字符集合进行分段和归集并计算相应的映射参数;
步骤三、获取和解析需要被脱敏的数据,识别其中的敏感主体和敏感信息,构建需要被脱敏的数据集,对脱敏数据进行形状识别,调用对应脱敏映射算法对数据映射,并对映射后的数据进行形状比较得到敏感数据脱敏后的脱敏数据集;
步骤四、将脱敏数据集替换原始数据中对应的敏感数据,得到脱敏后的数据。
所述步骤一具体包括以下内容:
A1、通过全面分析所有数据的敏感信息、主体信息、时间序列特征以及事件流信息,获得敏感信息、主体身份、时间序列和事件流的关联关系,计算出主体信息重标识需要的信息维度,并进行统一编码和向量化,生成全局特征向量和关联矩阵,构建敏感信息的全局上下文向量;
A2、获取数据使用方提供的用户凭证以及使用数据的目的进行向量化和统一编码,并基于获得的身份凭证生成随机脱敏盐,构建用户使用敏感数据场景的身份凭证向量;
A3、根据步骤A1和A2获得的敏感信息全局上下文向量和用户使用敏感数据场景的身份凭证向量,结合随机脱敏盐参数,生成脱敏算法的上下文参数。
所述步骤二具体包括以下内容:
B1、根据得到的脱敏算法的上下文参数识别需要脱敏数据包含的字符集信息,将参与脱敏的字符集合中大的字符集划分为小的字符集,确保其所包含的字符数量不大于算法上下文所定义的模;
B2、将字符集归集为时间序列、ASCII序列、UTF8序列、标定符号序列和停用字符序列,并分别计算时间序列、ASCII序列、UTF8序列、标定符号序列的映射参数,以及计算停用字符序列列表,针对每一个字符集构建对应的字符跳表和映射关系。
所述步骤三具体包括以下内容:。
C1、获取需要被脱敏的数据,识别其对应的数据类型、敏感特征、主体信息、时间序列、敏感信息,构建需要脱敏处理的特征数据集合,从需要处理的数据中找出需要进行脱敏处理的目标数据;
C2、根据脱敏的算法上下文参数,对脱敏数据进行形状识别,识别出目标数据的结构,根据计算得到的映射参数,将需要脱敏的部分映射到对应字符序列中特定的字符中或根据停用字符序列保留不变,根据被替换字符所属于的字符集,从算法上下文参数中计算其偏移参数得到映射关系和跳表定义,得到该字符在字符集中目标字符的位置;
C3、对映射后得到脱敏前和脱敏后的数据进行形状比较,如果形状不同,则对脱敏后不符合基本语义结构的部分进行语义化替换,并记录语义替换处理的映射关系,得到敏感数据脱敏后的脱敏数据集。
一种基于多因子的数据脱敏装置,它包括构建模块、计算模块、识别分析模块和替换模块;
所述构建模块:用于通过对全部数据进行分析,构建敏感信息的全局上下文向量,获取用户相关身份凭证,生成随机脱敏盐,构建用户数据场景的身份凭证向量,并生成脱敏算法上下文参数;
所述计算模块:用于根据生成的脱敏算法上下文参数,对参与脱敏的字符集合进行分段和归集并计算相应的映射参数;
所述识别分析模块:用于获取和解析需要被脱敏的数据,识别其中的敏感主体和敏感信息,构建需要被脱敏的数据集,对脱敏数据进行形状识别,调用对应脱敏映射算法对数据映射,并对映射后的数据进行形状比较得到敏感数据脱敏后的脱敏数据集;
所述替换模块:用于将脱敏数据集替换原始数据中对应的敏感数据,得到脱敏后的数据。
所述构建模块包括敏感信息全局上下文向量构建单元、身份凭证向量构建单元和脱敏算法上下文参数生成单元;
所述敏感信息全局上下文向量构建单元:用于通过全面分析所有数据的敏感信息、主体信息、时间序列特征以及事件流信息,获得敏感信息、主体份、时间序列和事件流的关联关系,计算出主体信息重标识需要的信息维度,并进行统一编码和向量化,生成全局特征向量和关联矩阵,构建敏感信息的全局上下文向量;
所述身份凭证向量构建单元:用于获取数据使用方提供的用户凭证以及使用数据的目的进行向量化和统一编码,并基于获得的身份凭证生成随机脱敏盐,构建用户使用敏感数据场景的身份凭证向量;
所述脱敏算法上下文参数生成单元:用于根据敏感信息全局上下文向量构建单元和身份凭证向量构建单元获得的敏感信息全局上下文向量和用户使用敏感数据场景的身份凭证向量,结合随机脱敏盐参数,生成脱敏算法的上下文参数。
所述计算模块包括字符集划分归集单元和映射参数计算单元;
所述字符集划分归集单元:用于根据脱敏算法的上下文参数识别需要脱敏数据包含的字符集信息,将参与脱敏的字符集合中大的字符集划分为小的字符集,确保其所包含的字符数量不大于算法上下文所定义的模;
所述映射参数计算单元:用于将字符集归集为时间序列、ASCII序列、UTF8序列、标定符号序列和停用字符序列,并分别计算时间序列、ASCII序列、UTF8序列、标定符号序列的映射参数,以及计算停用字符序列列表,针对每一个字符集构建对应的字符跳表和映射关系。
所述识别模块包括数据识别单元、映射变换单元和数据形状比较单元;
所述数据识别单元:用于获取需要被脱敏的数据,识别其对应的数据类型、敏感特征、主体信息、时间序列、敏感信息,构建需要脱敏处理的特征数据集合,从需要处理的数据中找出需要进行脱敏处理的目标数据;
所述映射变换单元:用于根据脱敏的算法上下文参数,对脱敏数据进行形状识别,识别出目标数据的结构,根据计算得到的映射参数,对需要脱敏处理的特征数据集合进行映射变换,将需要脱敏的部分映射到对应字符序列中特定的字符中或根据停用字符序列保留不变,根据被替换字符所属于的字符集,从算法上下文参数中计算其偏移参数得到映射关系和跳表定义,得到该字符在字符集中目标字符的位置;
所述数据形状比较单元:用于对映射后得到脱敏前和脱敏后的数据进行形状比较,如果形状不同,则对脱敏后不符合基本语义结构的部分进行语义化替换,并记录语义替换处理的映射关系,得到敏感数据脱敏后的脱敏数据集。
一种数据溯源方法,所述数据溯源方法包括一种基于多因子的数据脱敏方法的步骤,还包括:
步骤五、对经过数据脱敏方法后得到的脱敏数据集进行特征识别,按照数据原始排序对特征序列逐项进行指纹计算,获得对应的指纹序列,并按照先后顺序构建特征指纹、用户HASH值,用户信息以及抽样原始数据的依赖指纹特征链,并保存;
步骤六、获取脱敏后需要溯源的数据,按照步骤五计算相关的指纹序列,通过比较新计算的指纹序列和步骤五得到并保存在指纹库中特征指纹,根据其最大概率相似链得到对应的数据用户信息,实现对数据的溯源。
一种数据溯源装置,它包括一种基于多因子的数据脱敏装置,还包括依赖指纹特征链构建模块和溯源模块;
所述依赖指纹特征链构建模块:用于对经过数据脱敏方法后得到的脱敏数据集进行特征识别,按照数据原始排序对特征序列逐项进行指纹计算,获得对应的指纹序列,并按照先后顺序构建特征指纹、用户HASH值,用户信息以及抽样原始数据的依赖指纹特征链,并保存;
所述溯源模块:用于获取脱敏后需要溯源的数据,按照步骤五计算相关的指纹序列,通过比较新计算的指纹序列和步骤五得到并保存在指纹库中特征指纹,根据其最大概率相似链得到对应的数据用户信息,实现对数据的溯源。
本发明具有以下优点:
1、可以保持数据的结构完整性,确保脱敏后数据依然可以进行准确的分析和处理。相比其他脱敏方法,如随机脱敏、替换脱敏等,仿真脱敏可以更好地保持数据的完整性。
2、可以根据需求控制数据脱敏的程度,保留数据的一定程度的信息,从而确保脱敏后数据依然具有一定的分析价值。
3、可以根据需求设置脱敏规则和脱敏数据的特征链,使得数据可以进行溯源,从而保障数据的安全性和可追溯性。同时可以快速进行溯源,效率高。
4、可以根据不同的数据类型和需求进行灵活的设置,从而能够适应不同的业务场景和需求。
附图说明
图1为本发明的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。
如图1所示,本发明其中一种实施方式涉及一种基于多因子面向场景的一致高仿真数据脱敏方法,在保护敏感数据的同时,保留了原数据原有语义、结构和时间序列。同时对同样的原始数据集,如果是同一用户多次请求,返回相同一致的脱敏数据,而且脱敏数据中包含和具体用户相关特征信息,确保脱敏后数据的一致性,其具体包括以下内容:
S1、通过全面分析所有数据的敏感信息、主体信息、时间序列特征以及事件流信息,获得敏感信息、主体身份、时间序列和事件流的关联关系,计算出主体信息重标识需要的信息维度,并进行统一编码和向量化,生成全局特征向量和关联矩阵,构建敏感信息的全局上下文向量;
通过分析,获得敏感信息,主体身份,时间序列和事件的关联关系,从而计算出重新主体信息重标识需要的信息维度。在脱敏时,对能够对主体进行重标识相关信息,需要进行去关联处理;
S2、获取数据使用方提供的用户凭证以及使用数据目的进行向量化和统一编码,并基于获得的身份凭证生成随机脱敏盐,构建用户使用敏感数据场景的身份凭证向量;
其中,用户身份凭证,指能唯一定位用户的信息,包含如身份证、法人信息、用户名、用户ID,生物指纹等不可否认和变更的信息;使用数据的方式指用户实际上是如何使用数据,用于决定数据的脱敏的粒度;随机脱敏盐,是为特定用户生成的随机数,用于防止外部逆向分析还原脱敏数据。
S3、根据步骤S1和S2获得的敏感信息全局上下文向量和用户使用敏感数据场景的身份凭证向量,结合随机脱敏盐参数,生成脱敏算法的上下文参数。
其中,脱敏算法的上下文参数同时包含用户身份信息,用户特定随机脱敏盐;以及敏感数据和主体的关联矩阵等信息等,从这些信息构建出用于计算关联特定用户唯一的脱敏HASH值,这里的HASH包含不限于MD5、SHA等。记录HASH和相关的上下文信息,以及用于后续脱敏需要的字符集合分段参数,映射参数,跳表定义参数,和归一化处理的模。
S4、根据得到算法上下文参数识别需要脱敏数据包含的字符集信息,将参与脱敏的字符集合中大的字符集划分为小的字符集,确保其所包含的字符数量不大于算法上下文所定义的模;
S5、根据脱敏算法的上下文参数计算时间序列的映射参数,此处的映射参数,用于将一个时间转换为另一个时间,例如根据时间的年月日时分秒,通过和得到的HASH进行规定时间算法计算,得到新的年月日时分秒。从而在原始数据、脱敏数据和特定用户之间建立联系;
S6、根据脱敏算法的上下文参数计算ASCII序列的映射参数,此处的映射参数,用于将一个ASCII序列转换为另一个ASCII序列,如通过得到的HASH和原字符计算跳变偏移,结合定义的转换规则如ASCII跳表,得到新的ASCII序列。从而在原始数据、脱敏数据和特定用户之间建立联系;
S7、根据脱敏算法的上下文参数计算标点符号序列的映射参数;这里的映射参数,用于将一个标点转换为另一个标点,主要是在全角标点和半角标点之间进行映射;用于文档性数据的特征植入。具体讲,通过构建全部符号表和半角符号表,利用上述得到的用户脱敏HASH,计算需要进行全角和半角替换的特定标点;
S8、根据脱敏算法的上下文参数计算Unicode字符序列的映射参数;这里的映射参数,用户将一个Unicode字符映射到新的中文字符。具体而言,可以通过根据编码方式,获得对应中文字符的码点,结合得到的HASH,计算出一个新的码点。从而在原始数据、脱敏数据和特定用户之间建立联系;
S9、根据脱敏算法的上下文参数计算停用字符序列列表;这里主要是根据用户对数据的使用目的,定义不进行脱敏处理的停用词。在进行脱敏处理时,忽略生效的停用词;
对于不进行替换的字符或词,则归为停用字符集合;并根据脱敏算法的上下文参数,针对每一个字符集构建对应的字符跳表和映射关系;例如对ASCII字符集,通过对应编码范围(0、127),根据跳表参数和映射关系,将A映射为B,B映射为F等,对编码在(0、127)内,不在停用字符集内的,进行相关的变化;对时间序列如2021-Feb-23,需要根据具体的格式,将其转换为一个有效的时间,如UTC格式,并转换为Ticks值,并利用年月日时分秒构建的跳表获得一个偏移ticks,相加后得到新的时间,并转换回原来的格式。
S10、获取需要被脱敏的数据,识别其对应的数据类型、敏感特征、主体信息、时间序列、敏感信息,构建需要脱敏处理的特征数据集合,从需要处理的数据中找出需要进行脱敏处理的目标数据;
其中识别敏感主体和敏感信息的方法,一般包含但不限于特征规则、正则表达式、NLP命名识别、语义识别、元数据识别等。目的是从需要处理的数据集中找出需要进行脱敏处理的目标数据;
S11、根据脱敏的算法上下文参数,对脱敏数据进行形状识别,识别出目标数据的结构,根据计算得到的映射参数,对需要脱敏处理的特征数据集合进行映射变换,将需要脱敏的部分映射到对应字符序列中特定的字符或根据停用字符序列保留不变,根据被替换字符所属于的字符集,从算法上下文参数中计算其偏移参数得到映射关系和跳表定义,得到该字符在字符集中目标字符的位置;
其中,形状识别指目标数据的格式识别,主要包含识别目标数据的结构如主谓宾、实体、时间结构、地点等,具体如NLP,元数据,规则和正则匹配等。在脱敏处理主要处理主体、宾语、实体、时间、数量和地址等,保留元数据的基本结构。
进一步地,通过得到一系列需要脱敏处理的特征如数据类型、敏感特征、主体信息、时间序列、敏感信息等,每一个特征属于上述ASCII字符集、标点符号集、UTF8编码集、GB2312或时间序列,根据得到的映射关系,对其进行映射变化,得到对应的脱敏后的特征。这里被脱敏的字符或词属于停用字符,则忽略。
比如,如果需要处理的特征是身份证,如110101199003070134,映射算法对应ASCII字符集中的0-9X,根据特征要求,算法要求需要对199003070134进行脱敏,具体19900307为时间序列,需要转换为Ticks,并加上为该用户主体的Tick偏移,得到新的时间。对序列0134,通过ASCII字符集中的数据集对应的映射关系进行映射,从而得到一个新的号码。
S12、对映射后得到脱敏前和脱敏后的数据进行形状比较,如果形状不同,则对脱敏后不符合基本语义结构的部分进行语义化替换,并记录语义替换处理的映射关系,如保证长度,格式等保证一致,得到敏感数据脱敏后的脱敏数据集。
其中,形状比较主要有语法、语义结构,集合实体、时间、数量和地址等不同的数据的格式要求,通过NLP,元数据,规则和正则匹配等比对,发现结构错误,如不正确的时间格式,或长度问题如14位身份证,并进行修正。
S13、将脱敏数据集替换原始数据中对应的敏感数据,得到脱敏后的数据。脱敏后的数据和原始数据一样,具有相似的敏感特征,但内容已经进行变化,并且已经实现去主体标识和去敏感。
本发明另一种实施方式涉及一种基于多因子的数据脱敏装置,它包括构建模块、计算模块、识别分析模块和替换模块;
构建模块:用于通过对全部数据进行分析,构建敏感信息的全局上下文向量,获取用户相关身份凭证,生成随机脱敏盐,构建用户数据场景的身份凭证向量,并生成脱敏算法上下文参数;
计算模块:用于根据生成的脱敏算法上下文参数,对参与脱敏的字符集合进行分段和归集并计算相应的映射参数;
所述识别分析模块:用于获取和解析需要被脱敏的数据,识别其中的敏感主体和敏感信息,构建需要被脱敏的数据集,对脱敏数据进行形状识别,调用对应脱敏映射算法对数据映射,并对映射后的数据进行形状比较得到敏感数据脱敏后的脱敏数据集;
替换模块:用于将脱敏数据集替换原始数据中对应的敏感数据,得到脱敏后的数据。
进一步地,构建模块包括敏感信息全局上下文向量构建单元、身份凭证向量构建单元和脱敏算法上下文参数生成单元;
敏感信息全局上下文向量构建单元:用于通过全面分析所有数据的敏感信息、主体信息、时间序列特征以及事件流信息,获得敏感信息、主体身份、时间序列和事件流的关联关系,计算出主体信息重标识需要的信息维度,并进行统一编码和向量化,生成全局特征向量和关联矩阵,构建敏感信息的全局上下文向量;
身份凭证向量构建单元:用于获取数据使用方提供的用户凭证以及使用数据的目的进行向量化和统一编码,并基于获得的身份凭证生成随机脱敏盐,构建用户使用敏感数据场景的身份凭证向量;
脱敏算法上下文参数生成单元:用于根据敏感信息全局上下文向量构建单元和身份凭证向量构建单元获得的敏感信息全局上下文向量和用户使用敏感数据场景的身份凭证向量,结合随机脱敏盐参数,生成脱敏算法的上下文参数。
进一步地,计算模块包括字符集划分归集单元和映射参数计算单元;
字符集划分归集单元:用于根据脱敏算法的上下文参数识别需要脱敏数据包含的字符集信息,将参与脱敏的字符集合中大的字符集划分为小的字符集,确保其所包含的字符数量不大于算法上下文所定义的模;
映射参数计算单元:用于将字符集归集为计算时间序列、ASCII序列、标定符号序列和停用字符序列,并分别计算时间序列、ASCII序列、标定符号序列的映射参数,以及计算停用字符序列列表,针对每一个字符集构建对应的字符跳表和映射关系。
进一步地,识别模块包括数据识别单元、映射变换单元和数据形状比较单元;
数据识别单元:用于获取需要被脱敏的数据,识别其对应的数据类型、敏感特征、主体信息、时间序列、敏感信息,构建需要脱敏处理的特征数据集合,从需要处理的数据中找出需要进行脱敏处理的目标数据;
映射变换单元:用于根据脱敏的算法上下文参数,对脱敏数据进行形状识别,识别出目标数据的结构,根据计算得到的映射参数,对需要脱敏处理的特征数据集合进行映射变换,将需要脱敏的部分映射到对应字符序列中特定的字符中或根据停用字符序列保留不变,根据被替换字符所属于的字符集,从算法上下文参数中计算其偏移参数得到映射关系和跳表定义,得到该字符在字符集中目标字符的位置;
数据形状比较单元:用于对映射后得到脱敏前和脱敏后的数据进行形状比较,如果形状不同,则对脱敏后不符合基本语义结构的部分进行语义化替换,并记录语义替换处理的映射关系,得到敏感数据脱敏后的脱敏数据集。
本发明的又一种实施方式涉及一种数据溯源方法,其中,数据溯源方法包括一种基于多因子的数据脱敏方法的步骤,还包括:
S14、对经过数据脱敏方法后得到的脱敏数据集进行特征分级,按照数据原始排序对特征序列逐项进行指纹计算,获得对应的指纹序列,并按照先后顺序构建特征指纹、用户HASH值,用户信息以及抽样原始数据的依赖指纹特征链,并保存;
S15、获取脱敏后需要溯源的数据,按照步骤五计算相关的指纹序列,通过比较新计算的指纹序列和步骤五得到并保存在指纹库中特征指纹,根据其最大概率相似链得到对应的数据用户信息,实现对数据的溯源。
本发明再一种实施方式涉及一种数据溯源装置,它包括一种基于多因子的数据脱敏装置,还包括依赖指纹特征链构建模块和溯源模块;
所述依赖指纹特征链构建模块:用于对经过数据脱敏方法后得到的脱敏数据集进行特征识别,按照数据原始排序对特征序列逐项进行指纹计算,获得对应的指纹序列,并按照先后顺序构建特征指纹、用户HASH值,用户信息以及抽样原始数据的依赖指纹特征链,并保存;
所述溯源模块:用于获取脱敏后需要溯源的数据,按照步骤五计算相关的指纹序列,通过比较新计算的指纹序列和步骤五得到并保存在指纹库中特征指纹,根据其最大概率相似链得到对应的数据用户信息,实现对数据的溯源。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种基于多因子的数据脱敏方法,其特征在于:所述数据脱敏方法包括:
步骤一、通过对全部数据进行分析,构建敏感信息的全局上下文向量,获取用户相关身份凭证,生成随机脱敏盐,构建用户数据场景的身份凭证向量,并生成脱敏算法上下文参数;
步骤二、根据生成的脱敏算法上下文参数,对参与脱敏的字符集合进行分段和归集并计算相应的映射参数;
步骤三、获取和解析需要被脱敏的数据,识别其中的敏感主体和敏感信息,构建需要被脱敏的数据集,对脱敏数据进行形状识别,调用对应脱敏映射算法对数据映射,并对映射后的数据进行形状比较得到敏感数据脱敏后的脱敏数据集;
步骤四、将脱敏数据集替换原始数据中对应的敏感数据,得到脱敏后的数据。
2.根据权利要求1所述的一种基于多因子的数据脱敏方法,其特征在于:所述步骤一具体包括以下内容:
A1、通过全面分析所有数据的敏感信息、主体信息、时间序列特征以及事件流信息,获得敏感信息、主体身份、时间序列和事件流的关联关系,计算出主体信息重标识需要的信息维度,并进行统一编码和向量化,生成全局特征向量和关联矩阵,构建敏感信息的全局上下文向量;
A2、获取数据使用方提供的用户凭证以及使用数据的目的进行向量化和统一编码,并基于获得的身份凭证生成随机脱敏盐,构建用户使用敏感数据场景的身份凭证向量;
A3、根据步骤A1和A2获得的敏感信息全局上下文向量和用户使用敏感数据场景的身份凭证向量,结合随机脱敏盐参数,生成脱敏算法的上下文参数。
3.根据权利要求1所述的一种基于多因子的数据脱敏方法,其特征在于:所述步骤二具体包括以下内容:
B1、根据得到脱敏算法的上下文参数识别需要脱敏数据包含的字符集信息,将参与脱敏的字符集合中大的字符集划分为小的字符集,确保其所包含的字符数量不大于算法上下文所定义的模;
B2、将字符集归集为时间序列、ASCII序列、UTF8序列、标定符号序列和停用字符序列,并分别计算时间序列、ASCII序列、UTF8序列、标定符号序列的映射参数,以及计算停用字符序列列表,针对每一个字符集构建对应的字符跳表和映射关系。
4.根据权利要求1所述的一种基于多因子的数据脱敏方法,其特征在于:所述步骤三具体包括以下内容:
C1、获取需要被脱敏的数据,识别其对应的数据类型、敏感特征、主体信息、时间序列、敏感信息,构建需要脱敏处理的特征数据集合,从需要处理的数据中找出需要进行脱敏处理的目标数据;
C2、根据脱敏的算法上下文参数,对脱敏数据进行形状识别,识别出目标数据的结构,根据计算得到的映射参数,将需要脱敏的部分映射到对应字符序列中特定的字符中或根据停用字符序列保留不变,根据被替换字符所属于的字符集,从算法上下文参数中计算其偏移参数得到映射关系和跳表定义,得到该字符在字符集中目标字符的位置;
C3、对映射后得到脱敏前和脱敏后的数据进行形状比较,如果形状不同,则对脱敏后不符合基本语义结构的部分进行语义化替换,并记录语义替换处理的映射关系,得到敏感数据脱敏后的脱敏数据集。
5.一种基于多因子的数据脱敏装置,其特征在于:它包括构建模块、计算模块、识别分析模块和替换模块;
所述构建模块:用于通过对全部数据进行分析,构建敏感信息的全局上下文向量,获取用户相关身份凭证,生成随机脱敏盐,构建用户数据场景的身份凭证向量,并生成脱敏算法上下文参数;
所述计算模块:用于根据生成的脱敏算法上下文参数,对参与脱敏的字符集合进行分段和归集并计算相应的映射参数;
所述识别分析模块:用于获取和解析需要被脱敏的数据,识别其中的敏感主体和敏感信息,构建需要被脱敏的数据集,对脱敏数据进行形状识别,调用对应脱敏映射算法对数据映射,并对映射后的数据进行形状比较得到敏感数据脱敏后的脱敏数据集;
所述替换模块:用于将脱敏数据集替换原始数据中对应的敏感数据,得到脱敏后的数据。
6.根据权利要求5所述的一种基于多因子的数据脱敏装置,其特征在于:所述构建模块包括敏感信息全局上下文向量构建单元、身份凭证向量构建单元和脱敏算法上下文参数生成单元;
所述敏感信息全局上下文向量构建单元:用于通过全面分析所有数据的敏感信息、主体信息、时间序列特征以及事件流信息,获得敏感信息、主体身份、时间序列和事件流的关联关系,计算出主体信息重标识要的信息维度,并进行统一编码和向量化,生成全局特征向量和关联矩阵,构建敏感信息的全局上下文向量;
所述身份凭证向量构建单元:用于获取数据使用方提供的用户凭证以及使用数据的目的进行向量化和统一编码,并基于获得的身份凭证生成随机脱敏盐,构建用户使用敏感数据场景的身份凭证向量;
所述脱敏算法上下文参数生成单元:用于根据敏感信息全局上下文向量构建单元和身份凭证向量构建单元获得的敏感信息全局上下文向量和用户使用敏感数据场景的身份凭证向量,结合随机脱敏盐参数,生成脱敏算法的上下文参数。
7.根据权利要求5所述的一种基于多因子的数据脱敏装置,其特征在于:所述计算模块包括字符集划分归集单元和映射参数计算单元;
所述字符集划分归集单元:用于根据脱敏算法的上下文参数识别需要脱敏数据包含的字符集信息,将参与脱敏的字符集合中大的字符集划分为小的字符集,确保其所包含的字符数量不大于算法上下文所定义的模;
所述映射参数计算单元:用于将字符集归集为时间序列、ASCII序列、UTF8序列、标定符号序列和停用字符序列,并分别计算时间序列、ASCII序列、UTF8序列、标定符号序列的映射参数,以及计算停用字符序列列表,针对每一个字符集构建对应的字符跳表和映射关系。
8.根据权利要求5所述的一种基于多因子的数据脱敏装置,其特征在于:所述识别模块包括数据识别单元、映射变换单元和数据形状比较单元;
所述数据识别单元:用于获取需要被脱敏的数据,识别其对应的数据类型、敏感特征、主体信息、时间序列、敏感信息,构建需要脱敏处理的特征数据集合,从需要处理的数据中找出需要进行脱敏处理的目标数据;
所述映射变换单元:用于根据脱敏的算法上下文参数,对脱敏数据进行形状识别,识别出目标数据的结构,根据计算得到的映射参数,对需要脱敏处理的特征数据集合进行映射变换,将需要脱敏的部分映射到对应字符序列中特定的字符中或根据停用字符序列保留不变,根据被替换字符所属于的字符集,从算法上下文参数中计算其偏移参数得到映射关系和跳表定义,得到该字符在字符集中目标字符的位置;
所述数据形状比较单元:用于对映射后得到脱敏前和脱敏后的数据进行形状比较,如果形状不同,则对脱敏后不符合基本语义结构的部分进行语义化替换,并记录语义替换处理的映射关系,得到敏感数据脱敏后的脱敏数据集。
9.一种数据溯源方法,所述数据溯源方法包括如权利要求1-4中任意一项所述的一种基于多因子的数据脱敏方法的步骤,其特征在于:还包括:
步骤五、对经过数据脱敏方法后得到的脱敏数据集进行特征识别,按照数据原始排序对特征序列逐项进行指纹计算,获得对应的指纹序列,并按照先后顺序构建特征指纹、用户HASH值,用户信息以及抽样原始数据的依赖指纹特征链,并保存;
步骤六、获取脱敏后需要溯源的数据,按照步骤五计算相关的指纹序列,通过比较新计算的指纹序列和步骤五得到并保存在指纹库中特征指纹,根据其最大概率相似得到对应的数据用户信息,实现对数据的溯源。
10.一种数据溯源装置,它包括如权利要求5-8中任意一项所述的一种基于多因子的数据脱敏装置,其特征在于:还包括依赖指纹特征链构建模块和溯源模块;
所述依赖指纹特征链构建模块:用于对经过数据脱敏方法后得到的脱敏数据集进行特征识别,按照数据原始排序对特征序列逐项进行指纹计算,获得对应的指纹序列,并按照先后顺序构建特征指纹、用户HASH值,用户信息以及抽样原始数据的依赖指纹特征链,并保存;
所述溯源模块:用于获取脱敏后需要溯源的数据,按照步骤五计算相关的指纹序列,通过比较新计算的指纹序列和步骤五得到并保存在指纹库中特征指纹,根据其最长相似链得到对应的数据用户信息,实现对数据的溯源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668916.3A CN116611092A (zh) | 2023-06-07 | 2023-06-07 | 一种基于多因子的数据脱敏方法及装置、溯源方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668916.3A CN116611092A (zh) | 2023-06-07 | 2023-06-07 | 一种基于多因子的数据脱敏方法及装置、溯源方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611092A true CN116611092A (zh) | 2023-08-18 |
Family
ID=87678095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310668916.3A Pending CN116611092A (zh) | 2023-06-07 | 2023-06-07 | 一种基于多因子的数据脱敏方法及装置、溯源方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611092A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235814A (zh) * | 2023-11-16 | 2023-12-15 | 贵州华谊联盛科技有限公司 | 一种含有时间序列关联混淆数据的数据处理方法及装置 |
-
2023
- 2023-06-07 CN CN202310668916.3A patent/CN116611092A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235814A (zh) * | 2023-11-16 | 2023-12-15 | 贵州华谊联盛科技有限公司 | 一种含有时间序列关联混淆数据的数据处理方法及装置 |
CN117235814B (zh) * | 2023-11-16 | 2024-01-26 | 贵州华谊联盛科技有限公司 | 一种含有时间序列关联混淆数据的数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6190041B2 (ja) | 安否確認システム及び秘匿化データの類似検索方法 | |
CN106033416B (zh) | 一种字符串处理方法及装置 | |
US9489414B2 (en) | Prefix burrows-wheeler transformations for creating and searching a merged lexeme set | |
CN110489997A (zh) | 一种基于模式匹配算法的敏感信息脱敏方法 | |
CN113656807A (zh) | 一种漏洞管理方法、装置、设备及存储介质 | |
CN116611092A (zh) | 一种基于多因子的数据脱敏方法及装置、溯源方法及装置 | |
CN110837568A (zh) | 实体对齐方法及装置、电子设备、存储介质 | |
CN106933824B (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
CN111046087A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
US10558739B2 (en) | Prefix table generation for prefix burrows-wheeler transformation with fast operations on compressed data | |
US11797705B1 (en) | Generative adversarial network for named entity recognition | |
CN110955796B (zh) | 一种基于笔录信息的案件特征信息提取方法及装置 | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Zhang et al. | A program plagiarism detection model based on information distance and clustering | |
CN112989820B (zh) | 法律文书定位方法、装置、设备及存储介质 | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN117278343B (zh) | 一种基于大数据平台数据的数据多级输出处理方法 | |
CN112989793B (zh) | 文章检测方法及装置 | |
Jupin et al. | Identity tracking in big data: preliminary research using in-memory data graph models for record linkage and probabilistic signature hashing for approximate string matching in big health and human services databases | |
Malhotra et al. | A deterministic eviction model for removing redundancies in video corpus | |
Guo et al. | Evaluation of string comparators for record linkage in Chinese environment | |
Liu et al. | Kernelized neighborhood preserving hashing for social-network-oriented digital fingerprints | |
CN106961423A (zh) | 一种信息发布方法 | |
Houshmand et al. | Identifying Passwords Stored on Disk |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |