CN110489997A

CN110489997A - 一种基于模式匹配算法的敏感信息脱敏方法

Info

Publication number: CN110489997A
Application number: CN201910757737.0A
Authority: CN
Inventors: 唐舸轩; 石波; 乔序; 赵磊
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-22

Abstract

本发明涉及一种基于模式匹配算法的敏感信息脱敏方法，属于数据脱敏技术领域。本发明提出了一种基于模式匹配算法的敏感信息脱敏方法，使用改进后的Sunday算法，对原始文本字符串的敏感信息进行精准匹配与定位，通过记录所有敏感字符串的位置，并通过数据脱敏方法中的替代、混洗等技术，对敏感信息进行脱敏处理。本发明实现了将文本串中敏感的字符进行高效、精准脱敏，同时保证了数据原始价值。

Description

一种基于模式匹配算法的敏感信息脱敏方法

技术领域

本发明属于数据脱敏技术领域，具体涉及一种基于模式匹配算法的敏感信息脱敏方法。

背景技术

敏感数据一般是指不宜公开的含有敏感属性的数据，敏感数据的内容一般能够确定某个体的相关情报信息，比如个人身份证号码、个人手机号码、家庭住址、家庭成员关系等等。数据的安全是信息安全的重要一环，在做模型测试、实验等过程中，经常需要使用一些敏感的数据来训练。为了保护个体的隐私，需要对数据进行脱敏处理。

数据脱敏也叫做数据漂白，是指针对某些敏感信息通过定义的脱敏规则，进行数据的变形和隐藏，从而能够转化为全新的虚构的数据，让窃取数据的人不能获得这些数据的真正含义，从而实现对个体敏感信息的保护。一般来说，数据经过脱敏处理后需要满足如下两个条件:

(1)数据挖掘人员不能访问原始的、真实的数据，即使挖掘人员获得了失真数据，通过分析、重构也无法得到原始的、真实的数据内容。

(2)数据虽然是失真的，但是发布的数据依旧能够保持其性质不发生变化，即失真数据挖掘的知识与基于原始数据挖掘得出的知识是相同或者类似的。对制定的敏感信息进行脱敏，就需要对原始数据的信息进行匹配，对需要脱敏的数据进行脱敏处理，因此在数据脱敏之前，经常采用模式匹配算法，对需要脱敏的字符串进行定位。

模式匹配在网络入侵检测、生物序列数据库比对、信息检索、生物计量学等领域得到了比较广泛的应用。模式匹配按同时匹配模式串的个数，分为单模式匹配和多模式匹配，其中KMT、BM为经典的单模式匹配，AC、WM算法为经典多模式匹配。每种匹配算法都有其最优、最坏匹配复杂度，针对不同模式串的类型，算法各有优缺点，分析如下。

(一)Sunday算法

Sunday算法是对BM算法的一种改进，Sunday算法采用BM算法中坏字符的启发规则，和BM算法相比效率有了较大的提升。例如在文本串T中查找模式串P。

(二)数据脱敏方法

数据脱敏技术包括很多方法，常用的技术是采用替代、混洗、数值变换、加密、遮挡、空值插入/删除等数据脱敏方法，力求在度量脱敏后数据的各重要指标之间取得平衡。这包括统计特征和真实度、计算资源开销、保持原有数据感观、脱敏结果是否可能被反向推出原始数据等。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何将文本数据中敏感的字符进行高效、精准脱敏，同时保证数据原始价值。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于模式匹配算法的敏感信息脱敏方法，包括以下步骤：

步骤1：定义待脱敏的文本数据，提取文本数据中的文本串T，后续对文本串T进行敏感信息的脱敏；

步骤2：根据需求确定需要脱敏的敏感信息为模式串P，作为对文本串T进行模式匹配的对象；

步骤3：使用Sunday算法对待脱敏的文本数据进行模式匹配，记录敏感数据位置；

步骤4：构造出敏感数据位置记录表；

步骤5：使用脱敏方法，对待脱敏的文本数据中的所有敏感数据进行脱敏处理。

优选地，所述待脱敏的文本数据为PDF文档。

优选地，设所述文本串T长度为n，则有：

T＝T₀T₁T₂T₃T₄T₅…T_n-1

其中，T_i为文本串T中一个特定的字符。

优选地，步骤2中，根据用户需求确定需要进行脱敏的敏感信息，定义模式串P的长度为m，m<n，则有：

P＝P₀P₁P₂P₃P₄P₅…P_m-1

在文本串T中匹配给定的模式串P，若模式串P出现在了文本串T中，且：

T_iT_i+1T_i+2T_i+3T_i+4…T_i+m-1＝P₀P₁P₂P₃P₄P₅…P_m-1

则认为匹配成功，此时P₀在文本串T中的位置为i，将i作为敏感数据位置的坐标。

优选地，步骤3包括如下步骤：

步骤3.1：按照左对齐原则将文本串T和模式串P对齐；

步骤3.2：将文本串T和模式串P从右向左进行比较，此时从最右边的字符开始比较，若P_m-1与T中跟其位置对齐的字符相同，则执行步骤3.4，否则执行步骤3.3；

步骤3.3：若T中正在匹配的字符为坏字符，则执行步骤3.3.1，否则执行步骤3.3.2；

步骤3.3.1：此时字符匹配不成功是因为坏字符引起的，并且文本串T的当前字符右边的字符仍然不能和模式串P的右边第一个字匹配时，模式窗口则需要向右移动m+1的长度，并且返回步骤3.2；如果文本串T的当前字符右边的字符和模式串P右边第一个字匹配时，模式窗口则需要向右移动m的长度，并且返回步骤3.2；

步骤3.3.2：此时字符匹配不成功不是因为坏字符引起的，则在模式串P中由右向左查找第一次出现T中正在匹配的字符的地方与文本串T对齐，返回步骤3.2继续下一轮匹配；

步骤3.4：此时已经在文本串T中找到与模式串P最右侧的第一个字符匹配的字符，则P和T均继续向左取下一个字符继续匹配，当发现字符不匹配时，返回步骤3.3判断T中正在匹配的字符是否为坏字符，否则P和T均继续向左取下一个字符继续匹配，直至P₀匹配完毕且均未发现不匹配的情况，此时执行步骤3.5；

步骤3.5：返回文本串T中与P₀对应的位置作为敏感数据位置记录表的坐标i，判断文本串T是否已经检索完毕，检索完毕则执行步骤4；否则取待脱敏的文本数据中剩下未检索的文本串T’，返回至步骤3.1中将文本串T替换为文本串T’，并将模式串P与文本串T’重新进行匹配。

优选地，步骤4中构造出敏感数据位置记录表，将每次执行步骤3.5时返回的位置坐标依次插入到位置记录表中。

优选地，步骤5中，使用替代、混洗这些脱敏方法，对待脱敏的文本数据中的所有敏感数据进行脱敏处理。

优选地，步骤5中，采用替代技术时，用随机的伪装字符串替换文本串T中定位的敏感数据，使得文本串中的敏感数据不可恢复。

优选地，步骤5中，采用的替换方式是常数替代、查表替代、参数化替代等这些方法。

优选地，步骤5中，采用混洗技术，通过随机操作打乱原有的排列顺序，将文本串中的敏感数据进行随机互换，打破这些数据与其他数据的关联关系。

(三)有益效果

本发明提出了一种基于模式匹配算法的敏感信息脱敏方法，使用改进后的Sunday算法，对原始文本字符串的敏感信息进行精准匹配与定位，通过记录所有敏感字符串的位置，并通过数据脱敏方法中的替代、混洗等技术，对敏感信息进行脱敏处理。本发明实现了将文本串中敏感的字符进行高效、精准脱敏，同时保证了数据原始价值。

附图说明

图1是本发明的方法整体流程图；

图2至图5是本发明的方法中进行模式匹配时文本串与模式串的几种匹配位置示例。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

如图1所示，本发明提供的一种基于模式匹配算法的敏感信息脱敏，包括以下步骤：

以PDF文档为例，需要从其对象、文件结构、文档结构、内容流和编码等方面对其文件格式进行分析、理解。分析待脱敏文件的层次化结构，找到文档目录字典对象，根据引用的对象获得其他对象的内容，进而找到文本的整个内容。在文档中提取出整个内容，从提取的字符集中，构建文本串T，长度为n，则有：

T＝T₀T₁T₂T₃T₄T₅…T_n-1

其中，T_i为文本串T中某个特定的字符。

根据用户需求确定需要进行脱敏的敏感信息，敏感信息一般为文本串T中的子串，定义模式串P的长度为m，m<n，则有：

P＝P₀P₁P₂P₃P₄P₅…P_m-1

明确敏感信息字符串的目的在于，在文本串T中匹配给定的模式串P，若模式串P出现在了文本串T中，且：

T_iT_i+1T_i+2T_i+3T_i+4…T_i+m-1＝P₀P₁P₂P₃P₄P₅…P_m-1

则认为匹配成功，此时P₀在文本串T中的位置为i，将i作为敏感数据位置的坐标；

步骤3：使用改进后的Sunday算法对待脱敏的文本数据进行模式匹配，记录敏感数据位置；

步骤3.1：将文本串T的左边和模式串P的左边对齐，为了方便理解，本实施例中假设文本串T为“abcoefcacdxdbcd”，需要查找的模式串P为“dbcd”，按照左对齐原则将文本串T和模式串P对齐，如图2所示。

步骤3.2：将文本串T和模式串P从右向左进行比较，此时从最右边的字符开始比较，若P_m-1与T中跟其位置对齐的字符相同(本实施例中第一次执行本步骤时比较对象为T₃、P₃)，则执行步骤3.4，否则执行步骤3.3；

步骤3.3：如图3所示，本实施例中第一次执行本步骤时文本串T₃＝‘o’，模式串P₃＝‘d’，且T₃≠P₃，则分为两种情况，若T中正在匹配的字符(本实施例中第一次执行本步骤时为T₃)为坏字符，则执行步骤3.3.1，否则执行步骤3.3.2，本步骤中对Sunday算法进行了调整，以使得该Sunday算法能够适用于本发明的特定应用场景；

步骤3.3.1：此时字符匹配不成功是因为坏字符引起的，并且文本串T的当前字符右边的字符仍然不能和模式串P的右边第一个字匹配时，模式窗口则需要向右移动m+1的长度(本实施例中为图4的情况)，并且返回步骤3.2；如果文本串T的当前字符右边的字符和模式串P右边第一个字匹配时，模式窗口则需要向右移动m的长度，并且返回步骤3.2；

步骤3.3.2：此时字符匹配不成功不是因为坏字符引起的，则在模式串P中由右向左查找第一次出现T中正在匹配的字符的地方与文本串T对齐，返回步骤3.2继续下一轮匹配；如图5所示的情况是经过由图4的情况(该图4所示情况下，T中正在匹配的字符为c)再返回步骤3.2之后再跳转至本步骤执行对齐动作之后得到的一个示例。

步骤3.5：返回文本串T中与P₀对应的位置作为敏感数据位置记录表的坐标i，判断文本串T是否已经检索完毕，检索完毕则执行步骤4；否则取待脱敏的文本数据中剩下未检索的文本串T’，返回至步骤3.1中将文本串T替换为文本串T’，并将模式串P与文本串T’重新进行匹配；

步骤4：构造出敏感数据位置记录表，将每次执行步骤3.5时返回的位置坐标依次插入到位置记录表中，例如集合S{敏感数据1，位置1，...}，能够快速定位脱敏数据位置；

步骤5：使用替代、混洗等脱敏方法，对待脱敏的文本数据中的所有敏感数据进行脱敏处理。

本步骤采用替代技术，用随机的伪装字符串替换文本串T中定位的敏感数据，使得文本串中的敏感数据不可恢复，从而确保敏感数据的安全，可以采用的替换方式是常数替代、查表替代、参数化替代等方法，一般来说，替换所用的数据集合会包括姓氏、名字、信用卡号、电话号码、邮件地址、城市、乡镇和街道地址、邮政编码、公司名称等。

同时，也可以采用混洗技术，通过随机操作打乱原有的排列顺序，将文本串中的敏感数据进行随机互换，打破这些数据与其他数据的关联关系，以消除偏差，此方法开销更小。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于模式匹配算法的敏感信息脱敏方法，其特征在于，包括以下步骤：

步骤4：构造出敏感数据位置记录表；

2.如权利要求1所述的方法，其特征在于，所述待脱敏的文本数据为PDF文档。

3.如权利要求1所述的方法，其特征在于，设所述文本串T长度为n，则有：

T＝T₀T₁T₂T₃T₄T₅…T_n-1

其中，T_i为文本串T中一个特定的字符。

4.如权利要求3所述的方法，其特征在于，步骤2中，根据用户需求确定需要进行脱敏的敏感信息，定义模式串P的长度为m，m<n，则有：

P＝P₀P₁P₂P₃P₄P₅…P_m-1

T_iT_i+1T_i+2T_i+3T_i+4…T_i+m-1＝P₀P₁P₂P₃P₄P₅…P_m-1

5.如权利要求4所述的方法，其特征在于，步骤3包括如下步骤：

步骤3.1：按照左对齐原则将文本串T和模式串P对齐；

6.如权利要求5所述的方法，其特征在于，步骤4中构造出敏感数据位置记录表，将每次执行步骤3.5时返回的位置坐标依次插入到位置记录表中。

7.如权利要求1所述的方法，其特征在于，步骤5中，使用替代、混洗这些脱敏方法，对待脱敏的文本数据中的所有敏感数据进行脱敏处理。

8.如权利要求7所述的方法，其特征在于，步骤5中，采用替代技术时，用随机的伪装字符串替换文本串T中定位的敏感数据，使得文本串中的敏感数据不可恢复。

9.如权利要求8所述的方法，其特征在于，步骤5中，采用的替换方式是常数替代、查表替代、参数化替代等这些方法。

10.如权利要求8所述的方法，其特征在于，步骤5中，采用混洗技术，通过随机操作打乱原有的排列顺序，将文本串中的敏感数据进行随机互换，打破这些数据与其他数据的关联关系。