CN113591150B

CN113591150B - 一种针对敏感数据的脱敏处理方法

Info

Publication number: CN113591150B
Application number: CN202110886512.2A
Authority: CN
Inventors: 温积群; 王绍荃; 钟尚染; 杨迁; 项胜乙; 虞冠鹤; 何涨云; 孙浩迈; 叶青旭
Original assignee: Wenzhou Science And Technology Branch Of Zhejiang Tusheng Transmission And Transfer Engineering Co ltd
Current assignee: Wenzhou Science And Technology Branch Of Zhejiang Tusheng Transmission And Transfer Engineering Co ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2024-04-26
Anticipated expiration: 2041-08-03
Also published as: CN113591150A

Abstract

本发明公开了一种针对敏感数据的脱敏处理方法，首先借助设置敏感字库，敏感字库组成包括数据积累词、设定词和关联词组；此处的数据积累词通过对用户的敏感文件进行分析得到；之后针对用户上传文件时，进行的敏感判定，得到其是否属于敏感文件；此处借助敏感字库内的数据积累词、设定词和关联词组进行联动判定，更加准确，也具备自主判定的智能性；之后对得到的敏感文件进行权限设定，具体权限为仅限本人及其直属领导查看；对敏感文件进行脱敏处理，具体通过数据相关属性来对数据进行脱敏处理，对数据合理隐藏；在用户访问时，自动对用户身份进行验证，并根据用户身份查阅敏感文件；本发明简单有效，且易于实用。

Description

一种针对敏感数据的脱敏处理方法

技术领域

本发明属于数据脱敏领域，涉及数据权限设定技术，具体是一种针对敏感数据的脱敏处理方法。

背景技术

公开号为CN108512807A的专利公开了一种数据传输中的数据脱敏方法及数据脱敏服务器，其中的方法提通过判断用户终端发送的包含敏感数据的数据传输请求的类型，若确认数据传输请求的类型为数据下载请求，且数据下载请求对应的待下载数据总量大于或等于第一阈值，则对数据下载请求中的数据库查询指令进行数据脱敏处理；以及根据经数据脱敏处理后的数据库查询指令在目标数据库中获取对应的待下载数据，并将待下载数据发送至对应的用户终端。本发明针对用户访问敏感数据的数量采用不同的脱敏方法，提高了数据处理的速度，不仅解决了敏感数据的可逆性问题，而且解决了大量敏感数据处理时系统性能耗损问题，有效的保障了大数据中敏感数据的安全性、完整性和可用性。

但是，针对数据脱敏来说，其对数据敏感程度的判定方式，用户的权限是否允许，对数据进行具体脱敏处理的方式都有所欠缺，或者未有涉及，基于此，现提供一种解决方案。

发明内容

本发明的目的在于提供一种针对敏感数据的脱敏处理方法。

本发明的目的可以通过以下技术方案实现：

一种针对敏感数据的脱敏处理方法，该方法借助下述步骤实现：

步骤一：设置敏感字库，敏感字库组成包括数据积累词、设定词和关联词组；设定词为管理人员预先设定的词语；

步骤二：针对用户上传文件时，进行的敏感判定，得到其是否属于敏感文件；

步骤三：对得到的敏感文件进行权限设定，具体权限为仅限本人及其直属领导查看；

步骤四：对敏感文件进行脱敏处理，具体处理步骤为：

S01：获取到敏感文件中的所有的数据积累词、设定词，将其标记为更换词语；

S02：将所有的更换词语按照在敏感文件中的出现顺序进行排列；

S03：获取到敏感文件上传的时间戳，以月日时分的形式获取，得到八位数字构成的上传时值组，将其标记为Tj，j＝1...8；

S04：之后对Tj进行特征值Zt计算，具体计算公式为：

式中，QG{*}指代为对括号内数值，取其个位上的数值；

S05：之后根据得到的特征值Zt，当其为奇数时，将更换词语从第Zt个开始，依次往后移一个位置，取代原来的更换词语，代入原本位置；

否则，将更换词语从第Zt个开始，依次往前移一个位置，取代原来的更换词语，代入原本位置；

S06：得到新的敏感文件标记为脱敏文件；并将时间戳传输至对应有文件阅读权限的用户的个人设备；

步骤五：用户访问时，自动对用户身份进行验证，并根据用户身份查阅敏感文件；

步骤六：完成脱敏处理。

进一步地，步骤一中的数据积累词借助下述方式进行获取：

S1：获取到所有的机密文件，任选一机密文件；

S2：获取得到机密文件，对其进行分词处理，得到若干个组成分词；从组成分词里面删除常用词汇，常用词汇为用户预设词语，具体举例为：你好、比如、大概等常用无实际意义的词汇；将剩余的组成分词标记为目标分词；

S3：获取到所有的目标分词，并自动获取到所有的目标分词出现次数，将其标记为纵向次数；将目标分词标记为M i，i＝1...n；对应的纵向次数标记为Z i，i＝1...n；

S4：之后选择下一机密文件，重复步骤S2-S3，得到对应本次机密文件的目标分词和对应的纵向次数；进行目标分词合并操作，得到目标分词M i及其对应的纵向次数Z i和横向次数H i，i＝1...m；

S5：重复步骤S4，直到对所有的机密文件处理完毕，得到所有的目标分词及其对应的纵向次数和横向次数，三者依次标记为M i、Z i和H i，i＝1...k，k≥m；

S6：之后对目标分词进行核次值计算，具体计算公式为：

Q i＝0.347*Z i+0.653*H i；

式中，0.347和0.653均为预设的权值，用于体现不同因素对最终结果的不同影响；

S7：得到所有目标分词M i对应的核次值Qi；

S8：将Q i大于X1的目标分词，去除设定词之后，剩余的全部标记为数据积累词；

S9：当任意三项以上的数据积累词同时出现在同一篇机密文件中的次数超过X2次时，将对应的数据积累词标记为关联词组；X1和X2均为预设数值。

进一步地，步骤S4中的对目标分词合并操作具体为：

S401：将其与前面得到的所有目标分词Mi进行合并，将一致的目标分词的纵向次数相加，更新目标分词，将其标记为M i，i＝1...m，对应的纵向次数为Z i，i＝1...m；m≥n；

S402：之后将本项机密文件内出现的与上一项机密文件内相同的目标分词，定义一个横向次数，并将横向次数的值自动加一，横向次数的值初始为零，将横向次数标记为Hi，i＝1...m；且Hi、Z i和M i一一对应。

进一步地，步骤二中的敏感判定具体步骤为：

SS1：将用户的上传文件标记为待测文件；

SS2：对待测文件进行分词处理，对得到的分词删除常用词汇，之后将得到的分词标记为单构分词；

SS3：获取得到所有单构分词的次数，将该次数除以单构分词的总个数，得到的值标记为占用配比；

SS4：将占用配比超过X3的单构分词标记为占用分词，X3为预设数值，具体根据多次实验数据设置；

SS5：将占用分词与数据积累词、设定词、关联词组进行比较，

当占用分词中存在数据积累词或设定词，将其个数除以占用分词的总个数，当得到的值超过X4时，将占用分词所在的待测文件标记为敏感文件；X4为预设数值；

当占用分词中出现任意一组关联词组时，自动将其标记为敏感文件。

进一步地，步骤五中的对用户身份进行验证的具体验证方式为：

SS01：当用户登陆时，对其身份密钥录入过程进行监控；具体监控方式为获取到用户录入密钥时候的录入时间，录入时间指代为用户录入第一个字符到最后一个字符的时间；

SS02：根据用户的习惯获取到惯性时段；

SS03：将录入时间与惯性时段进行比较，得到偏离值；

当录入时间位于惯性时段时，偏离值为零；

否则，自动将录入时间减去惯性时段的两个端值之后去绝对值，将绝对值小的数值标记为偏离值；

SS04：同时监控用户录入密钥的错误次数，错误次数指代当用户出现删除字符重新录入的时候，每删除一次字符并重新录入一次，自动将错误次数的值加一；

SS05：获取到用户上一次登陆的时间距今的时间差，将该差值标记为疏远值；

SS06：根据公式计算危险值W，具体计算公式为：

危险值＝0.2疏远值+0.443*错误次数+0.357*偏离值；

当危险值超过X7时，产生拒绝信号，否则允许用户登陆；X7为预设数值；

SS07：验证通过后若对应身份权限允许读取敏感文件，则会按照步骤四中的脱敏处理的反向原理对脱敏文件进行敏感解除，将其恢复为敏感文件；否则不允许读取敏感文件。

进一步地，步骤SS02中惯性时段获取方式为：

SS022：获取到用户近三十次的录入时间，将其标记为Lj，j＝1...30；

SS023：之后求取录入时间的均值标记为P；

SS024：借助公式计算离差值Lc，具体计算公式为：

SS025：之后令j＝1，去除对应的录入时间L1之后，重复步骤SS023-SS024的处理过程，得到新的离差值，当新得到的离差值与Lc的差值的绝对值大于X6时，将数据L1剔除，否则不做处理；X6为预设数值；

SS026：之后令j值自动加一，重复步骤SS025-SS026，直到对所有的Lj值处理完毕；将剩余的录入时间的最小值到最大值标记为惯性时段。

本发明的有益效果：

本发明首先借助设置敏感字库，敏感字库组成包括数据积累词、设定词和关联词组；此处的数据积累词通过对用户的敏感文件进行分析得到；之后针对用户上传文件时，进行的敏感判定，得到其是否属于敏感文件；此处借助敏感字库内的数据积累词、设定词和关联词组进行联动判定，更加准确，也具备自主判定的智能性；

之后对得到的敏感文件进行权限设定，具体权限为仅限本人及其直属领导查看；对敏感文件进行脱敏处理，具体通过数据相关属性来对数据进行脱敏处理，对数据合理隐藏；在用户访问时，自动对用户身份进行验证，并根据用户身份查阅敏感文件；本发明简单有效，且易于实用。

具体实施方式

一种针对敏感数据的脱敏处理方法，该方法具体包括下述步骤：

数据积累词借助下述方式进行获取：

S1：获取到所有的机密文件，任选一机密文件；

S4：之后选择下一机密文件，重复步骤S2-S3，得到对应本次机密文件的目标分词和对应的纵向次数；进行目标分词合并操作，具体为：

S401：将其与前面得到的所有目标分词M i进行合并，将一致的目标分词的纵向次数相加，更新目标分词，将其标记为M i，i＝1...m，对应的纵向次数为Z i，i＝1...m；m≥n；

S402：之后将本项机密文件内出现的与上一项机密文件内相同的目标分词，定义一个横向次数，并将横向次数的值自动加一，横向次数的值初始为零，将横向次数标记为Hi，i＝1...m；且H i、Z i和M i一一对应；

S6：之后对目标分词进行核次值计算，具体计算公式为：

Q i＝0.347*Z i+0.653*H i；

S7：得到所有目标分词M i对应的核次值Qi；

S9：当任意三项以上的数据积累词同时出现在同一篇机密文件中的次数超过X2次时，将对应的数据积累词标记为关联词组；X1和X2均为预设数值；

步骤二：针对用户上传文件时，进行的敏感判定，得到其是否属于敏感文件，敏感判定具体步骤为：

SS1：将用户的上传文件标记为待测文件；

当占用分词中出现任意一组关联词组时，自动将其标记为敏感文件；

步骤三：对得到的敏感文件进行权限设定，具体权限为仅限本人及其直属领导查看，同时管理人员、上传人员均可自定义修改敏感文件的权限；

步骤四：对敏感文件进行脱敏处理，具体处理步骤为：

S04：之后对Tj进行特征值Zt计算，具体计算公式为：

式中，QG{*}指代为对括号内数值，取其个位上的数值；

步骤五：用户访问时，自动对用户身份进行验证，具体验证方式为：

SS02：根据用户的习惯获取到惯性时段；

SS021：惯性时段获取方式为：

SS023：之后求取录入时间的均值标记为P；

SS024：借助公式计算离差值Lc，具体计算公式为：

SS026：之后令j值自动加一，重复步骤SS025-SS026，直到对所有的Lj值处理完毕；将剩余的录入时间的最小值到最大值标记为惯性时段；

SS03：将录入时间与惯性时段进行比较，得到偏离值；

当录入时间位于惯性时段时，偏离值为零；

SS06：根据公式计算危险值W，具体计算公式为：

危险值＝0.2疏远值+0.443*错误次数+0.357*偏离值；

SS07：验证通过后若对应身份权限允许读取敏感文件，则会按照步骤四中的脱敏处理的反向原理对脱敏文件进行敏感解除，将其恢复为敏感文件；否则不允许读取敏感文件；

步骤六：完成脱敏处理。

一种针对敏感数据的脱敏处理方法，该方法首先借助设置敏感字库，敏感字库组成包括数据积累词、设定词和关联词组；此处的数据积累词通过对用户的敏感文件进行分析得到；之后针对用户上传文件时，进行的敏感判定，得到其是否属于敏感文件；此处借助敏感字库内的数据积累词、设定词和关联词组进行联动判定，更加准确，也具备自主判定的智能性；

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种针对敏感数据的脱敏处理方法，其特征在于，该方法借助下述步骤实现：

数据积累词借助下述方式进行获取：

步骤S1：获取到所有的机密文件，任选一机密文件；

步骤S2：获取得到机密文件，对其进行分词处理，得到若干个组成分词；从组成分词里面删除常用词汇，常用词汇为用户预设词语；将剩余的组成分词标记为目标分词；

步骤S3：获取到所有的目标分词，并自动获取到所有的目标分词出现次数，将其标记为纵向次数；将目标分词标记为Mi，i＝1...n；对应的纵向次数标记为Zi，i＝1...n；

步骤S4：之后选择下一机密文件，重复步骤S2-S3，得到对应本次机密文件的目标分词和对应的纵向次数；进行目标分词合并操作，得到目标分词Mi及其对应的纵向次数Zi和横向次数Hi，i＝1...m；对目标分词合并操作具体为：

S401：将其与前面得到的所有目标分词Mi进行合并，将一致的目标分词的纵向次数相加，更新目标分词，将其标记为Mi，i＝1...m，对应的纵向次数为Zi，i＝1...m；m≥n；

S402：之后将本项机密文件内出现的与上一项机密文件内相同的目标分词，定义一个横向次数，并将横向次数的值自动加一，横向次数的值初始为零，将横向次数标记为Hi，i＝1...m；且Hi、Zi和Mi一一对应；

步骤S5：重复步骤S4，直到对所有的机密文件处理完毕，得到所有的目标分词及其对应的纵向次数和横向次数，三者依次标记为Mi、Zi和Hi，i＝1...k，k≥m；

步骤S6：之后对目标分词进行核次值计算，具体计算公式为：

Qi＝0.347*Zi+0.653*Hi；

步骤S7：得到所有目标分词Mi对应的核次值Qi；

步骤S8：将Qi大于X1的目标分词，去除设定词之后，剩余的全部标记为数据积累词；

步骤S9：当任意三项以上的数据积累词同时出现在同一篇机密文件中的次数超过X2次时，将对应的数据积累词标记为关联词组；X1和X2均为预设数值；

步骤二：针对用户上传文件时，进行的敏感判定，得到其是否属于敏感文件；敏感判定具体步骤为：

SS1：将用户的上传文件标记为待测文件；

SS5：将占用分词与数据积累词、设定词、关联词组进行比较：

步骤四：对敏感文件进行脱敏处理；对敏感文件进行脱敏处理的具体处理步骤为：

S04：之后对Tj进行特征值Zt计算，具体计算公式为：

式中，QG{*}指代为对括号内数值，取其个位上的数值；

步骤五：用户访问时，自动对用户身份进行验证，并根据用户身份查阅敏感文件；对用户身份进行验证的具体验证方式为：

步骤SS01：当用户登陆时，对其身份密钥录入过程进行监控；具体监控方式为获取到用户录入密钥时候的录入时间，录入时间指代为用户录入第一个字符到最后一个字符的时间；

步骤SS02：根据用户的习惯获取到惯性时段，惯性时段获取方式为：

步骤SS022：获取到用户近三十次的录入时间，将其标记为Lj，j＝1...30；

步骤SS023：之后求取录入时间的均值标记为P；

步骤SS024：借助公式计算离差值Lc，具体计算公式为：

步骤SS025：之后令j＝1，去除对应的录入时间L1之后，重复步骤SS023-SS024的处理过程，得到新的离差值，当新得到的离差值与Lc的差值的绝对值大于X6时，将数据L1剔除，否则不做处理；X6为预设数值；

步骤SS026：之后令j值自动加一，重复步骤SS025-SS026，直到对所有的Lj值处理完毕；将剩余的录入时间的最小值到最大值标记为惯性时段；

步骤SS03：将录入时间与惯性时段进行比较，得到偏离值；

当录入时间位于惯性时段时，偏离值为零；

步骤SS04：同时监控用户录入密钥的错误次数，错误次数指代当用户出现删除字符重新录入的时候，每删除一次字符并重新录入一次，自动将错误次数的值加一；

步骤SS05：获取到用户上一次登陆的时间距今的时间差，将该差值标记为疏远值；

步骤SS06：根据公式计算危险值W，具体计算公式为：

危险值＝0.2疏远值+0.443*错误次数+0.357*偏离值；

步骤SS07：验证通过后若对应身份权限允许读取敏感文件，则会按照步骤四中的脱敏处理的反向原理对脱敏文件进行敏感解除，将其恢复为敏感文件；否则不允许读取敏感文件；

步骤六：完成脱敏处理。