CN113254995A - 数据脱敏方法、装置、系统及计算机可读介质 - Google Patents

数据脱敏方法、装置、系统及计算机可读介质 Download PDF

Info

Publication number
CN113254995A
CN113254995A CN202110598739.7A CN202110598739A CN113254995A CN 113254995 A CN113254995 A CN 113254995A CN 202110598739 A CN202110598739 A CN 202110598739A CN 113254995 A CN113254995 A CN 113254995A
Authority
CN
China
Prior art keywords
word
desensitization
jumping
data
code table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110598739.7A
Other languages
English (en)
Other versions
CN113254995B (zh
Inventor
朱孔亮
史晨阳
彭晓
孙纪周
邢世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Everbright Bank Co Ltd
Original Assignee
China Everbright Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Everbright Bank Co Ltd filed Critical China Everbright Bank Co Ltd
Priority to CN202110598739.7A priority Critical patent/CN113254995B/zh
Publication of CN113254995A publication Critical patent/CN113254995A/zh
Application granted granted Critical
Publication of CN113254995B publication Critical patent/CN113254995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种数据脱敏方法、装置、系统及计算机可读介质,加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;获得不同于已标定密钥的一个随机偏移量作为统一密钥,对每个所述字段进行正则识别并标记,对于被普通标记的字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;对于被特殊标记的字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;将脱敏数据存储进所述字段。本发明数据脱敏方法、装置以及系统,可以安全、可靠、快速地对原始数据进行脱敏和生成新的脱敏数据。

Description

数据脱敏方法、装置、系统及计算机可读介质
技术领域
本发明涉及金融数据处理和数据安全领域,尤其涉及银行数据脱敏的方法,并还涉及使用该银行数据脱敏方法的装置、系统和计算机可读介质。
背景技术
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号、微信号、邮箱、账号、地址、姓名、账户名称等信息都需要进行数据脱敏。
基于互联网络的大数据环境已经逐步应用于了包括银行在内的各大企业。企业敏感数据的所有权和使用权缺乏明确界定和管理,可能造成用户隐私信息的泄露和企业内部数据的泄露,直接造成企业声誉和经济的双重损失。从外部来看,数据即价值,大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客或者其他非法试图使用数据的人成功攻击一次就能获得更多数据,极大降低了黑客或者违法的进攻成本。因此,基于互联网的大数据应用已经成为网络攻击的显著目标。大数据平台安全能力的严重缺失和风险的普遍存在,导致大数据平台本身就是脆弱的,对企业数据安全造成了极大的风险,对企业来说是难以忽视的风险点。在基于互联网络下的大数据环境,数据多是以传统的存储形式,各种类型的数据也并非是脱敏后进行存储。在访问数据时,对所访问的数据进行敏感检测同时进行脱敏,是大数据和互联网环境下实现数据安全访问的重要保障。
在金融系统中,特别是涉及银行的计算机系统中,生产系统往往可以通过严格的网络和数据库安全机制等工具保证生产系统的数据绝对不可对非生产系统的人员或用户泄漏。但是基于银行的研发目的或者统计、审计等独立于生产系统和环境的数据提供正在变得越来越普遍和经常,前述种类的应用与生产系统类似,都是在大数据和互联网基础上所建构的,在这种环境下,数据泄漏有时可以说是不可避免的,特别是对于一些非生产的外围系统或外包系统的参与人员而言,将脱敏后的数据有意或无意泄露,是不可避免的。因此,将生产环境中的实际数据进行脱敏并使得其不可反向得出原始数据以及使得脱敏后的数据仍然满足与原始数据在非生产系统中的高度可用性和应用一致性提出了越来越迫切的要求,例如,脱敏后的数据应当与原始数据一样可以用来测试即将进入生产系统上线的新软件和新系统并且该等测试满足投产标准,或者得出精确的统计结果,或者可以精确地用于稽核审计系统或其他系统得出精确判断或预测结果等等。
现有的脱敏方法,往往是诸如图1的方式进行的,首先由生产系统的操作人员根据经验或者一些实际要求将生产系统中的敏感数据人工进行编辑汇总及挑选,找到每次相应业务系统中所需数据,放入脱敏服务器,然后用传统的遮罩或随机脱敏,得出相应业务系统中所需的脱敏数据放入业务系统的数据库供应用使用。这种现有的脱敏方法,消耗大量的操作人员的时间,并且从脱敏数据反向得出原始数据,特别是其中的极度重要的敏感数据,在某些情况下变得较为容易。而且,该种脱敏方法得到的脱敏数据在应用于相关系统时,往往与原始数据应用在该种系统中的结果偏差巨大,字段间的关联性缺失,例如,不能保证用脱敏数据测试后的新软件或新系统能够无故障地接入生产系统;还例如,统计或稽核审计系统或其他系统根据脱敏数据得到的结果的失真或偏差巨大。
发明内容
针对上述现有技术中的不足,本发明提供一种数据脱敏方法、装置、系统及计算机可读介质,用以解决上述至少一个技术问题。
第一方面,本发明提供了一种数据脱敏方法。
在本发明第一方面的一个实施例中,加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;
获得不同于已标定密钥的一个随机偏移量作为统一密钥,记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值;
对每个所述字段进行正则识别并标记,使得根据所述标记进行相应的所述处理;
所述标记包括普通标记和特殊标记;
对于被所述普通标记的所述字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;
对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;
将所述脱敏数据存储进所述字段。
在本发明第一方面的又一个实施例中,所述的词库包括特征库和/或通用库;
其中所述的特征库包括特殊字符码表,和/或别称码表,和/或空字符码表,和/或特殊字符码表,和/或词性码表,和/或字义码表,和/或特殊联动码表;
其中所述的通用库至少包括预存储的一个通用编码表;
还包括至少一个规则集;
所述的脱敏数据包括至少一个结果库。
在本发明第一方面的再一个实施例中,所述的对于被所述普通标记的所述字段,将所述字段进行分词包括如下步骤:
步骤一,将字段内所有字符拆分为单独字符;
步骤二,从左至右读取单独字符,判断是否读取到下一单独字符,如果为否,临时队列字符组成词语进入结果栈,清空临时队列,跳出;如果为是,跳转到步骤三;
步骤三,判断是否为空字符;如果为是,临时队列字符组成词语进入结果栈,清空临时队列,跳转到步骤二;如果为否,跳转到步骤四;
步骤四,字符放入临时队列;
步骤五,临时队列中,依据队列中字符字义构成临时队列的字符组词性;
步骤六,字符组词性判断;如果为未知,跳转到步骤七;如果为已知,跳转到步骤八;
步骤七,词性码表中的枚举不可用表中查询匹配;跳转到步骤九;
步骤八,词性码表中的一个或多个已知词性表中查询匹配;跳转到步骤九;
步骤九,判断匹配结果;如果存在完全一致匹配,跳转到步骤十一;如果存在严格子串匹配,跳转到步骤二;如果不存在匹配,跳转到步骤十;
步骤十,判断上一次匹配存在且为严格子串,如果为是,跳转到步骤十三;如果为否,跳转到步骤十二;
步骤十一,字符组词性调整为对应匹配表的词性,成词语后进入结果栈,清空临时队列;跳转到步骤二;
步骤十二,字符组词性调整为未知,成词语后进入结果栈,清空临时队列;跳转到步骤二;
步骤十三,当前字符退出临时队列,字符组词性不变;当前字符组成词语词性设为未知,顺序进入结果栈,清空临时队列,跳转到步骤二;
在本发明第一方面的另一个实施例中,所述的词语整理包括如下步骤:
步骤二十一,将结果栈中词语逆向读取;
步骤二十二,从右向左读取单个词语;判断是否读取到下一词语,如果否,临时栈中连续同词性词语组合为新的词语,词性不变,跳出;如果是,跳转到步骤二十三;
步骤二十三,词语放入临时栈;
步骤二十四,由临时栈中词语顺序、词语词性与规则集进行比对;
步骤二十五,判断是否调整;如果否,跳转到步骤二十二;如果是,跳转到步骤二十六;
步骤二十六,根据规则集中匹配条件选择修改当前词语词性或选择临时栈中多个词语组合成新的词语;跳转到步骤二十二。
在本发明第一方面的还一个实施例中,所述的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据包括如下步骤:
步骤三十一,临时栈中连续同词性词语组合为新的词语,词性不变;
步骤三十三,依次读取临时栈中词语,判断是否读取到下一词语;如果否,跳转到步骤三十四;如果是,跳转到步骤三十五;
步骤三十四,结果队列词语拼接,顺序导出得到偏移后字段,存入结果库,跳出;
步骤三十五,判断是否为未知词性;如果否,跳转到步骤三十六;如果是,跳转到步骤五十一;
步骤三十六,为词性对应的词性码表构建所述规则集中的关键帧映射,当前词语在对应的词性码表中查找匹配关键帧;
步骤三十七,判断是否一致匹配;如果是,跳转到步骤三十八,如果否,跳转到步骤三十九;
步骤三十八,记录匹配词语在对应的词性码表中的关键帧;跳转到步骤四十;
步骤三十九,当前词语添加至对应的词性码表中,并增加所述规则集中的关键帧映射,并记录关键帧;跳转到步骤四十;
步骤四十,关键帧与标定密钥、本次脱敏的统一密钥共同参与关键帧映射的反射,得到反射后的词语;该词语为偏移后的词语,存入结果结果队列;跳转到步骤三十三;
步骤五十一,将词语内所有字符拆分,为单个字符,关联通用库;
步骤五十二,依次读取字符直到全部字符处理后直接跳转到步骤五十七;
步骤五十三,判断字符,分为大写英文字母、小写英文字母、数字、汉字,关联通用库中通用编码表对应区域;
步骤五十四,对应区域构成匹配编码表,为匹配编码表构建关键帧映射,在匹配编码表中查找匹配关键帧;
步骤五十五,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后的偏移字符,存入临时队列;跳转到步骤五十二;
步骤五十七,临时队列重组为词语,存入结果队列;跳转到步骤三十三。
在本发明第一方面的又一个实施例中,对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据包括如下步骤:
步骤七十一,分段处理,每段成个体,每个个体赋予对应的码表类型;
步骤七十二,依次读取每段个体,判断是否读取到下一段;如果是,跳转到步骤七十三;如果否,结果队列个体拼接,顺序导出得到偏移后字段,存入结果库,跳出;
步骤七十三,判断对应的码表类型;如果否,结果队列中个体拼接,顺序导出得到偏移后字段,存入结果库,跳出;如果是,跳转到步骤七十四;
步骤七十四,判断码表类型;如果是通用码表,跳转到步骤七十五;如果是特殊联动码表,跳转到步骤九十;如果是特殊字符码表,跳转到步骤八十二;
步骤七十五,将个体所有字符拆分为单个字符,关联通用库;
步骤七十六,依次读取字符,直到全部字符被处理;当字符全部处理后,临时队列重组为个体,跳转到步骤七十二;
步骤七十七,判断字符,分为大写英文字母、小写英文字母、数字、汉字,关联通用库中编码表对应分类范围;
步骤七十八,对应范围构成匹配编码表,为表构建关键帧映射,在匹配编码表中查找匹配关键帧;
步骤七十九,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后偏移字符,存入临时队列;跳转到步骤七十六;
步骤八十二,该段个体不做操作,存入结果队列;跳转到步骤七十二;
步骤九十,依据相关字段值,把条件限定至特殊联动码表中的指定范围;
步骤九十一,指定范围构成匹配编码表,为表构建关键帧映射,依据本段个体,在匹配编码表中查找匹配关键帧;
步骤九十二,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后的偏移字符,存入临时队列;跳转到步骤七十二。
第二方面,本发明提供了一种数据脱敏装置。
在本发明第二方面的一个实施例中,包括至少一个存储器和至少一个处理器,所述存储器与所述处理器通信连接,所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现如权利要求1-6其中任意一项所述的数据脱敏方法;所述计算机程序包括:存放敏感源数据的敏感源数据模块;对敏感源数据进行识别的敏感元识别模块;将敏感元识别模块的识别结果进行比对的码表数据模块;处理脱敏任务的识别及问题的分发的敏感平台服务模块;偏移脱敏计算的偏移算法服务模块;存储脱敏数据的业务系统模块。
第三方面,本发明提供了一种数据脱敏系统。
在本发明第三方面的一个实施例中,包括:
原始数据库,用于存放原数据;
敏感元识别器,用于读取原数据以及,产生更新码表到码表数据库,以及对原数据进行格式化;
脱敏平台服务器,用于将所述格式化的数据进行调取并将脱敏后的数据导出至业务系统库;
偏移算法服务器,用于基于所述码表数据库获得的偏移应用在脱敏计算上,并将脱敏后的计算结果送至所述脱敏平台服务器;
所述系统包括至少一个存储器和至少一个处理器,所述存储器与所述处理器通信连接,所述存储器存储有用于所述脱敏计算的程序,所述脱敏计算的程序由所述处理器执行时,实现如权利要求1-6其中任意一项所述的数据脱敏方法。
第四方面,本发明提供了一种计算机可读介质。
在本发明第四方面的一个实施例中,所述程序被处理器执行时,能够实现任意一项所述的方法。
本发明相对现有技术的有益效果:
本发明数据脱敏方法、装置以及系统,可以安全、可靠、快速地对原始数据进行脱敏和生成新的脱敏数据。
本发明数据脱敏方法,脱敏结果在周期时间内存在一致性,由于在周期内采用了构建关键帧映射后,关键帧、已标定密钥与统一密钥共同偏移反射后形成脱敏内容的方式,从而使得周期时间内对于同样的源数据可以得到同样的脱敏结果,大大降低随机性而导致的数据关联关系丢失。
本发明数据脱敏方法,脱敏效果好,由于不单单在识别和配置模块对码表进行了动态更新,以此补充偏移脱敏的多样性。在满足文字类已知词性的高效分词和整理的同时,对文字类未知词性的字段以其特性给出已知词性中不可枚举类词性范围划分,也进行了有效的分词和整理,使得较为复杂的字段在经过脱敏后能够最大限度地保持其原有数据指向,但同时不会过多暴露数据信息。
本发明数据脱敏方法,脱敏保密性强,由于使用了动态的可更新码表和随机性密钥,从而使得逆向工程几乎不存在可能,包括码表的周期随机更新、已标定密钥的维护和周期随机的统一密钥使得脱敏结果保密性大大增强。
附图说明
图1是现有技术的数据脱敏方式的示意图;
图2是本发明数据脱敏系统的示意图;
图3是本发明数据脱敏装置的示意图;
图4是本发明数据脱敏方法的流程图;
图5是本发明数据脱敏装置的模块示意图;
图6是本发明数据脱敏方法的详细流程图的第一部分;
图7是本发明数据脱敏方法的详细流程图的第二部分;
图8是本发明数据脱敏方法的详细流程图的第三部分;
图9是本发明数据脱敏方法的详细流程图的第四部分;
图10是本发明数据脱敏方法的详细流程图的第五部分;
图11是本发明数据脱敏方法的概括性实施例中的分词的一个示意图。
具体实施方式
以下参照附图及实施例详细描述本申请,本申请的实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外,如果已知技术的详细描述对于示出的本申请的特征是不必要的,则将其省略。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语,包括技术术语和科学术语等,具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接或者其他形式的连接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
参照图4的本发明脱敏方法的流程图、以及图6至图10的本发明脱敏方法的详细流程图,本发明的脱敏方法的实施方式为:
名词介绍:
字段:由一个或多个词组成,拥有一个完整的字段标记,被分为特殊标记或普通标记。
词:即词语,一个词语可由一个或多个汉字、英文字母、数字共同组成,其可以根据分隔符号或概念隔离的方式进行词语的分割。
词性:一个词拥有一个单一值的词性,该词性根据码表参照或人为分析得到。本发明中词性分为已知和未知,未知词性为单一种类,已知词性分为12种各带有一个独特的词性码表。
词库:由多个码表组成的一类数据库内容。词库分为特征库与通用库,词库用于发明中需要进行偏移脱敏过程的作用客体的存放,即所有码表的存放和维护均在词库种进行。词库分为特征库和通用库,前者用于专项脱敏处理,属于本发明中独特创建的;而后者属于偏移脱敏的一般处理参照码表存放,属于计算机固有内容。
特征库:包括六类码表,特殊字符码表、别称码表、空字符码表、词性码表、字义码表、特殊联动码表。特殊字符码表用于识别在字段中的特殊字符,对于特殊字符本发明采用不脱敏行为,因为特殊字符普遍具有特殊含义,不可进行形变而抹去其原有意义;别称码表用于识别脱敏中存在的行业常用简称或别称,用于减少简称带来的脱敏结果失真问题;空字符码表多在字段分词或码表解析等场景下的拆分工具;词性码表根据对应词性各存在一张码表,用于同词性下的偏移算法,同时词性码表可被分为枚举不可用码表和枚举可用码表,前者用于未知词性的词进行匹配的检索范围;字义码表用于对单独字符的概念存储,字符根据字义与字符顺序可以初步判断词语的词性,为分词提供先决条件;特殊联动码表用于解决字段间必然关联性脱敏丢失的问题,通过该码表将需要保留的字段间关联直接进行表的绑定,再进行码表内脱敏即可保持关联性。
通用库:代指计算机自带的编码表,例如unicode码表,本发明中所有无法归类到其他自定义的码表时,就采用计算机自带码表做偏移处理,处理方式区分汉字、大小写英文、数字。
关键帧映射:本发明中所有的脱敏过程均需要经过指定码表范围内进行偏移脱敏,码表范围即构成了映射的出射集与入射集,为满足偏移脱敏的一致性,在码表中构建一一映射,并为每个存储词语、字符构建对应的关键帧,关键帧形成关键帧字段,与映射方法一同存储于码表之中。
动态码表:发明中为保证自建码表的更新能力,依据每个码表的关键帧映射,可以周期性地变换映射方法,每次调整映射方法均可以实现码表内偏移结果的不同;同时,偏移脱敏过程中的码表补充和周期性偏移脱敏结束后的码表缩减也大大提升了码表的动态能力。本发明中动态码表主要特指枚举不可用码表。
在本发明数据脱敏方法的一个实施中包括:加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;获得不同于已标定密钥的一个随机偏移量作为统一密钥,记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值;对每个所述字段进行正则识别并标记,使得根据所述标记进行相应的所述处理;所述标记包括普通标记和特殊标记;对于被所述普通标记的所述字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;将所述脱敏数据存储进所述字段。
在本发明数据脱敏方法的一个实施例中,所述的词库包括特征库和/或通用库;其中所述的特征库包括特殊字符码表,和/或别称码表,和/或空字符码表,和/或特殊字符码表,和/或词性码表,和/或字义码表,和/或特殊联动码表;其中所述的通用库至少包括预存储的一个通用编码表;还包括至少一个规则集;所述的脱敏数据包括至少一个结果库。
在本发明数据脱敏方法的一个实施例中,所述的对于被所述普通标记的所述字段,将所述字段进行分词包括如下步骤:步骤一,将字段内所有字符拆分为单独字符;步骤二,从左至右读取单独字符,判断是否读取到下一单独字符,如果为否,临时队列字符组成词语进入结果栈,清空临时队列,跳出;如果为是,跳转到步骤三;步骤三,判断是否为空字符;如果为是,临时队列字符组成词语进入结果栈,清空临时队列,跳转到步骤二;如果为否,跳转到步骤四;步骤四,字符放入临时队列;步骤五,临时队列中,依据队列中字符字义构成临时队列的字符组词性;步骤六,字符组词性判断;如果为未知,跳转到步骤七;如果为已知,跳转到步骤八;步骤七,词性码表中的枚举不可用表中查询匹配;跳转到步骤九;步骤八,词性码表中的一个或多个已知词性表中查询匹配;跳转到步骤九;步骤九,判断匹配结果;如果存在完全一致匹配,跳转到步骤十一;如果存在严格子串匹配,跳转到步骤二;如果不存在匹配,跳转到步骤十;步骤十,判断上一次匹配存在且为严格子串,如果为是,跳转到步骤十三;如果为否,跳转到步骤十二;步骤十一,字符组词性调整为对应匹配表的词性,成词语后进入结果栈,清空临时队列;跳转到步骤二;步骤十二,字符组词性调整为未知,成词语后进入结果栈,清空临时队列;跳转到步骤二;步骤十三,当前字符退出临时队列,字符组词性不变;当前字符组成词语词性设为未知,顺序进入结果栈,清空临时队列,跳转到步骤二;
在本发明数据脱敏方法的一个实施例中,所述的词语整理包括如下步骤:步骤二十一,将结果栈中词语逆向读取;步骤二十二,从右向左读取单个词语;判断是否读取到下一词语,如果否,临时栈中连续同词性词语组合为新的词语,词性不变,跳出;如果是,跳转到步骤二十三;步骤二十三,词语放入临时栈;步骤二十四,由临时栈中词语顺序、词语词性与规则集进行比对;步骤二十五,判断是否调整;如果否,跳转到步骤二十二;如果是,跳转到步骤二十六;步骤二十六,根据规则集中匹配条件选择修改当前词语词性或选择临时栈中多个词语组合成新的词语;跳转到步骤二十二。
在本发明数据脱敏方法的一个实施例中,所述的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据包括如下步骤:步骤三十一,临时栈中连续同词性词语组合为新的词语,词性不变;步骤三十三,依次读取临时栈中词语,判断是否读取到下一词语;如果否,跳转到步骤三十四;如果是,跳转到步骤三十五;步骤三十四,结果队列词语拼接,顺序导出得到偏移后字段,存入结果库,跳出;步骤三十五,判断是否为未知词性;如果否,跳转到步骤三十六;如果是,跳转到步骤五十一;步骤三十六,为词性对应的词性码表构建所述规则集中的关键帧映射,当前词语在对应的词性码表中查找匹配关键帧;步骤三十七,判断是否一致匹配;如果是,跳转到步骤三十八,如果否,跳转到步骤三十九;步骤三十八,记录匹配词语在对应的词性码表中的关键帧;跳转到步骤四十;步骤三十九,当前词语添加至对应的词性码表中,并增加所述规则集中的关键帧映射,并记录关键帧;跳转到步骤四十;步骤四十,关键帧与标定密钥、本次脱敏的统一密钥共同参与关键帧映射的反射,得到反射后的词语;该词语为偏移后的词语,存入结果结果队列;跳转到步骤三十三;步骤五十一,将词语内所有字符拆分,为单个字符,关联通用库;步骤五十二,依次读取字符直到全部字符处理后直接跳转到步骤五十七;步骤五十三,判断字符,分为大写英文字母、小写英文字母、数字、汉字,关联通用库中通用编码表对应区域;步骤五十四,对应区域构成匹配编码表,为匹配编码表构建关键帧映射,在匹配编码表中查找匹配关键帧;步骤五十五,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后的偏移字符,存入临时队列;跳转到步骤五十二;步骤五十七,临时队列重组为词语,存入结果队列;跳转到步骤三十三。
在本发明数据脱敏方法的一个实施例中,对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据包括如下步骤:步骤七十一,分段处理,每段成个体,每个个体赋予对应的码表类型;步骤七十二,依次读取每段个体,判断是否读取到下一段;如果是,跳转到步骤七十三;如果否,结果队列个体拼接,顺序导出得到偏移后字段,存入结果库,跳出;步骤七十三,判断对应的码表类型;如果否,结果队列中个体拼接,顺序导出得到偏移后字段,存入结果库,跳出;如果是,跳转到步骤七十四;步骤七十四,判断码表类型;如果是通用码表,跳转到步骤七十五;如果是特殊联动码表,跳转到步骤九十;如果是特殊字符码表,跳转到步骤八十二;步骤七十五,将个体所有字符拆分为单个字符,关联通用库;步骤七十六,依次读取字符,直到全部字符被处理;当字符全部处理后,临时队列重组为个体,跳转到步骤七十二;步骤七十七,判断字符,分为大写英文字母、小写英文字母、数字、汉字,关联通用库中编码表对应分类范围;步骤七十八,对应范围构成匹配编码表,为表构建关键帧映射,在匹配编码表中查找匹配关键帧;步骤七十九,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后偏移字符,存入临时队列;跳转到步骤七十六;步骤八十二,该段个体不做操作,存入结果队列;跳转到步骤七十二;步骤九十,依据相关字段值,把条件限定至特殊联动码表中的指定范围;步骤九十一,指定范围构成匹配编码表,为表构建关键帧映射,依据本段个体,在匹配编码表中查找匹配关键帧;步骤九十二,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后的偏移字符,存入临时队列;跳转到步骤七十二。
本发明的脱敏方法,针对现有技术的缺陷,现在提升脱敏算法的同时为结构也做了相应的优化。其中在源数据输入时,首先经过敏感源识别器,在该工具中首先对源数据进行格式化处理,使得源敏感数据格式化为每条数据均有一致的多个字段,每个字段将采用相同的脱敏方法。其次主要完成对字段的属性识别,由于在金融业务中脱敏任务主要基于对名称、地点、数量、概念等操作,而其中有相当一部分敏感内容是可以进行正则处理的,因此本发明在原有基础上实现了正则化识别字段的方式,以完善未经过人工标注的字段内容。在识别完成后将识别结果与码表数据库进行比对,码表数据库用于本发明中脱敏算法的偏移对照、查验、密钥的内容,此处更新词库码表可将未来的脱敏结果更为合理和高效。脱敏平台服务器用于处理脱敏任务的识别及问题的分发,本发明中在保留原有的随机脱敏、遮罩脱敏功能的同时,将偏移脱敏的计算放置于偏移算法服务器中,基于脱敏平台服务器的字段分类和分词整理后使用对应函数并结合词库码表进行偏移应用。所有数据在一次任务中实现脱敏后即可进入结果库,作为之后数据应用的导出库。
本发明的码表数据库及随机偏移量更新方式可以是,在码表数据库中包含码表和密钥两者,码表在功能上可分多种,将在算法流程中介绍,而码表在操作性上分为枚举可用码表和枚举不可用码表,以下主要论述枚举不可用码表,其主要特点为偏移算法中该码表的内容可以变换,即可通过增减码表内容的方式达到影响偏移结果的目的;而密钥则是作为偏移算法的统一偏移度,其需要每隔固定时间进行随机替换以保证脱敏的保密性,连同码表的更新即可保证脱敏的不可逆性。
任务参数配置单元在接收脱敏申请后一方面接收数据源配置单元的数据输入,另一方面将根据时间选择新生成统一密钥或是在数据库中抽取当前统一密钥,周期一般为一个月。当密钥为当前周期第一次生成时,将该密钥存入库的同时对码表进行更新请求,该更新作用于不可枚举码表,将关键帧输出频率低的一些映射数据内容进行删除,之后对所有词性码表的映射方法进行一次更新,形成本周期内固定的映射方法,进入下一步敏感元识别单元。
在敏感元识别单元中,可以依据先标注再正则识别的顺序,对字段进行区分,并提供普通标记的整体词性预定,在此过程中对于所有涉及不可枚举码表的字段,当识别出并未出现在码表内的词时,则将该新词标记并暂时作为增量更新进入相应的码表,其后再进行完整的脱敏算法。
在本发明的一个概括示例性详细说明的偏移脱敏的方法流程可以是,首先加载包括格式化数据、词库两个部分内容,使得系统处于待机状态。对于已经格式化后的原始数据表,将得到能够对应每个字段的原始数据表,其后一一针对每个字段做脱敏处理即可。正式处理前,读取本次脱敏过程的随机偏移量,该随机偏移量即为本系统内的本次统一密钥,统一的密钥可以在脱敏过程中保证偏移程度为固定值,即可防止随机性而导致的脱敏结果不统一,数据关联性缺失。而同时保存并在一段时间后更新密钥即可实现脱敏的安全性。其后进行每个字段的正则识别,正则识别针对所有未进行类别标记的字段,标记字段后可根据标记内容进行相应的脱敏处理。该过程将字段区分为两大类内容,包括特殊字段和普通字段,特殊字段为源数据可常见的字段整体,包括但不限于身份证号、电话号、网络邮箱地址等,特殊字段一般能够通过正则表达式来完整地识别或由业务员预先进行标注识别,即可对应情况实现高关联性的脱敏结果。而普通字段由更为普遍的字段构成,主要包括实际地址、个人姓名、银行账号、备注说明等,其具有一定的可拆解或可组合能力,从而导致简单的正则识别无法完美区分字段,并且字段的脱敏方法重叠处较多,因此将所有未识别字段连同以上分类一同归类为普通字段。
对于普通字段的脱敏,本发明可以优选考虑采用分词后对每个词的脱敏方法的实现,该方法能够最大限度地将字段内包含词性之间的关系保留下来。首先对字段分词,该部分功能在系统中预设包括省市县、品牌、企业、组织、未知等十三种类的词性,除未知词性外,每个词性均有一个特有的码表,每个特有的词性码表可为对应词性的词语做偏移脱敏,且部分不可枚举码表可多种方式来进行增量更新对应的码表,其他可枚举码表能在周期间隔中进行相应维护,即可满足当前脱敏过程的词库可运行性。
对于字段分词,本发明可以优选考虑首先对字段从左向右循环获取每一个字符,每一个词类字符均可根据字义码表中获得字义,判断字符如果为空字符类则不处理,非空字符时与前面的所有未组词字符组合,由字义和顺序获得词性后,在所属的字段的码表中查询是否存在一致的词,当存在时则将这些字符组合成词,并为其标注相应词性;当不存在时则继续索引下一个字符。由于存在一些特殊词性是无法进行正则识别,例如品牌词,该类词在未经过人工标注进入字段分词时会被标记为未知词,所以未知词中存在可枚举码表词和不可枚举码表词。因此在上述所属字段码表中查询后仍旧未知时,需依次在不可枚举码表中以该未知词进行匹配查询。完成一次遍历后,可实现初步分词,并为每个词赋予一个词性。
参照图11:本发明优选的一个示例性的分词详细方式可以是,首先将字段内所有字符拆分为单独个体,从左至右开始读取单独字符,每个字符均带有一个字义。首先将字义a的字符放入临时队列,单字符构成字符组词性a,判断当前词性并经过条件下的词性调整,将字符组词性调整为未知,此时依据判断,将字符组组成词语,并赋予词性未知并进入结果栈。
继续读取下一个字符,该字符拥有字义b,则同之前进行字符组词性赋予并进行条件下词性调整,此时调整后由于是码表中严格子串,所以词性未改变,依据判断继续下一个循环。
继续读取一个字符进入临时队列,队列中字符组词性根据字符进入顺序与其字义重要度进行修改,修改后为b,再进行词性调整,调整结果得到词性不变的一致判断,则依据判断将两个字符构成的字符组形成词性为b的词语进入结果栈。
后续则继续循环操作,直至所有字符均经过一次循环,即可得到结果栈中待词语分析的词语组。
本发明的分词完毕后,造成了整个字段的颗粒性变小,继而需要对词语颗粒度再整合与词性优化,即词语分析整理。整理过程同分词相似,即从右向左循环获取每一个词。对于字符数量为1的词将其称为碎词,碎词需要进行整理,即将连续的碎词组成新词并设置词性。词性设置基于非未知字段词性、右侧首位非未知词词性、未知词性的顺序赋予。同时在循环过程中对每个词和其上一个词、下一个词的词性做判断后总结出多个特殊情况下的整合机制。例举几种情况,情形一,当前词为地区、品牌词时,使用别称码表查询并使用别名代替,使得目标词可以在目标码表中进行统一标准偏移;情形二,当该词为地区词且为最后一个词时,由于逆向循环的原因,该词极大概率并不表达地区概念,而是上一个词的一部分,即将该词与上一个词合并,词性为上一个词为准;情形三,当前词性为组织且为一个字符,并且下一个词为未知词或品牌词,则与之合并为组织词。针对十三种不同的词性,同时分析其当前词的字符数和上下词之间的关系一共总结出大量特殊情况来提升脱敏的词关联效果。完成一次循环后即可完成当前分析步骤。
字段词分析完毕后,本发明优选可以开始分情况进行字段内每个词的偏移脱敏。首先抽取当前操作涉及的统一密钥,其后需要将词语分析整理部分得到的该字段词语组依次做偏移处理,每次偏移前根据该词的词性判断其是否有相应的词性码表。
所有的无词码表型词,即未知词,采用单位分割后的偏移算法。需要判断该词的数据类型:当词为数字时,将数字拆分为独立数字,构造码表范围为十进制数字;当词为英文字母时,拆分为单独的字母,区分大小写后构成26个字母的码表范围;当词为汉字时,依据计算机unicode编码表中汉字范围(40623-19968)构成映射所属集。所有的有词码表型词,即未知词以外的词,基于不同的词性分类,可有不同的处理方式,但其核心方法均通过在各自特有的码表内进行偏移算法。综上,当确定偏移算法的码表范围后,即可通过码表内独有的已标定密钥、周期内的统一密钥、在匹配原词语的映射关键帧,三者统合后反射找到码表内的偏移词语。
不断循环,实现对每一个词语的脱敏过程后,只需将结果组合,即可将该部分词语本字段的脱敏结果。
将字段内所有词进行变形后即可顺序组合所有字段的词,形成该字段的脱敏结果,同时可以将脱敏字段中样本存入库中。在另一种情况中,特殊字段是各种可正则识别的数字类或字母类字段,该类型字段均可自动识别而出且具有特殊含义,脱敏的方式也需要特殊处理,其代表即为身份证字段。特殊字段基于各自情况首先进行分段处理,每段使用或词库函数或无词库函数的偏移脱敏方法。最后也将组合完毕的脱敏后字段存入库即可。
本发明的脱敏方法在诸如处理身份证号码字段时的优选示例性实现如下:
当拥有字段身份证号码,其中一条数据为a1a2...a18的18位数字,在完成格式化和码表的加载后,假设当日为2020—12—25,则在库中抽取12月的密钥为k=10。若当前字段未有人工标注,则对其进行正则识别,
当正则表达式为:
^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1—9])](10|11|12))(([0—2][1—9])|10|20|30|31)\d{3}[0-9Xx]$
发现匹配成功,则当前字段作为特殊字段进入身份证的脱敏过程。
身份证处理时,由于本条数据为18位满足上述正则表达式的身份证,所以根据普通大陆身份证做处理,首先将其前6位数字a1a2...a6拆出,由于该6位表达了身份地点,当脱敏数据中存在另一字段“身份证地址”时,为满足字段间关联性,需要保证脱敏后身份证字段语地点字段的一致性保持。适用码表类型为特殊联动码表,该表为身份证号码语地区的对照码表,将该6位数字导入对照码表中,当查询到对应值时,导出该对应值的映射关键帧值s=5987。对该关键帧处理,将关键帧与已标定密钥sadd=12和统一密钥k共同作用于表内映射的反射,将反射后得到的新的6位数字b1b2...b6作为偏移后的脱敏值。继续拆出源数据中间8位数字a7a8...a14,由于中间8位代表生日,所以此处将该8位数字应用于生日身份证的对照码表,采用类似方式,在原生日数据映射后关键帧基础上,连同已标定密钥sbir=311和统一密钥k,作用映射的反射后最终转换为偏移值b7b8...b14。最后将末尾四位数字的前三位做随机变换,目的使得身份证号有更多随机性结果,该随机变化基于通用码表,即每个数字在对应的十个阿拉伯数字码表范围内进行映射、密钥共同作用、反射散步操作后,得到b15b16b17,又应为当前共有18位数字,最后一位作为身份证号的末尾号是其校验码,所以校验码需要依据其校验码的设计原理进行变化,此处可以人为该位数字属于特殊字符码表,不做偏移处理,由前17位进行变换后的数字每一位与其权重系数,7 9 10 5 8 4 2 1 6 37 9 10 5 8 4 2相乘后每位相加得到的值除以11的余数,作为序号在数列1 0 X 9 8 7 65 4 3 2中找到对应的值即为校验码值b18。由此即可得到完整的身份证号脱敏结果b1b2...b18,将其存入库中。
本发明的脱敏方法在诸如处理公司名称字段时的优选示例性实现如下:当拥有某未标记字段内容“北京某某化工有限公司”,同样假设当日为2020—12—25,则在库中抽取12月的密钥为k=10。由于该字段内容无法再正则表达式中识别也没有经过人工标注,所以被判断为普通字段,普通字段则需要进行分词。分词过程中将原内容按字符拆分,得到从“北”开始到“司”的正向10个字符,正向循环时每次将一个字符加入临时栈并判断栈内字符组的词性。由于初步标记时未有字段的整体词性,所以不更新不可枚举码表。根据每次读取的字符和已在字符组中的字符的顺序及每个字符的字义,可为每次字符组初步提供一个词性。首先是字符组“北”,未找到匹配词性后加入“京”,在字义组合后构成词性,同时在地区词码表中找到匹配项,于是将“北京”作为一个地区词保存,并清空当前临时栈。重新开始查询字符“某”,未找到匹配词后再加入“某”,在字义与顺序构成含义后,在品牌词码表中找到匹配,于是将“某某”作为一个品牌词保存,并清空当前临时栈。同理对后续字符操作,通过一次正向循环后可以将原内容划分为一个词组,该词组内包括“北京”、“某某”、“化工”、“有限公司”,且每个词有其词性“地区”、“品牌”、“行业”、“组织”。由于可能存在的过度拆分和失误理解,接下来开始词语的整理分析,以完善整体字段内容的词性分配。整理过程为逆向处理,从最后一个词“有限公司”开始至“北京”,在此过程中,仅在最后一个词“北京”时,需要依照特殊情况下将该词与前一个词“某某”作合并,并且其词性变为“品牌”。所以最终该字段变为词组“北京某某”、“化工”、“有限公司”,并有词性依次为“品牌”、“行业”、“组织”。接下来进行每个词的偏移脱敏,对于品牌词“北京某某”,首先在品牌词库中查找是否有完全匹配词,当判断为没有时,将该词作为新词插入码表中,为该新词构建新的关键帧和与关键帧的唯一映射,由该新建的关键帧开始做偏移,偏移量为已标定密钥177与统一密钥k,共同参与映射的反射后得到新的品牌词“智某某”。同样操作作用于词“化工”、“有限公司”,分别得到偏移值的词“林业”、“局”,其中对于能够在码表中找到一致匹配的词,则无需进行新建操作,直接做映射后,偏移再反射的操作即可实现;而对于未知词性,由于方式与特殊标记中通用码表类型一致,不再赘述。最后将偏移值组合,得到完整的脱敏字段内容为“智某某林业局”。
本发明的脱敏方法的脱敏不可逆性的示例性说明:
假设现有待脱敏的1万条数据,每条数据有三个字段,其字段分别指定采用最为有特点的三种偏移函数,第一个为字母按位偏移,第二个为地区按位偏移,第三个为电话号码按位偏移。当完成脱敏后,也可以得到相应的三个脱敏后字段,假设某个字段脱敏前后字段的内容为(Dp,Da)n,n=10000,在算法的过程中,有脱敏公式可以表达为fs(Dp+s+k)=Da,其中s为某一个脱敏函数所用到的固定偏移量,k为随机偏移量也即为每月随机生成的密钥,函数fs代表在指定脱敏函数下所采用的码表映射值。由于在样例中三个字段采用不同的函数进行脱敏,所以在公式中fs,s均不相同,从横向观测,已知大量Da的情况下,无法得到Dp的值,当且仅当fs,s,k均已知的情况下才能够将原数据推算得出。同样的考虑字段与字段之间的关系,由于对于不同的字段,假设原数据存在关联性,即r1(Dp3)=Dp1,r2(Dp3)=Dp2,由三个公式联立可以得到
Figure BDA0003092146830000251
从纵向观测,已知大量Da1,Da2,Da3的情况下,无法求解Dp3,也就是其中一个字段的原数据值无法通过大量测算得到。该脱敏过程保密性主要基于码表的保密性,所以本发明中码表会连同密钥在每个周期下进行刷新。即使在某一个周期下,已知码表的映射关系和密钥值,也需要知道特定码表下的固定偏移量才可能得到原数据。
在区别于本发明的一些方法中,使用例如如下一些手段进行数据脱敏,例如使用分析源数据,以使得基于所述源数据的特点构建第一脱敏规则;从所述源数据构建基准脱敏字段匹配表,基于所述基准脱敏字段匹配表对源数据的字段进行识别和匹配;根据识别的脱敏字段,将匹配信息的前后内容基于与所述第一脱敏规则不同的第二脱敏规则进行匹配,以使得确认组合规则并构建脱敏参数表;针对所述组合规则,准备映射关系数据;以及基于所述脱敏参数表以及所述映射关系数据,进行数据脱敏,以生成相应的脱敏结果表。所述源数据包括基于审计培训环境中的多个数据源系统的数据。所述第一脱敏规则包括:公有规则,其是根据属于不同数据源系统的具有共同数据特征的字段归纳出的基本脱敏规则;以及私有规则,其是每个数据源系统特有的脱敏规则,是通过在公有规则、特征规则和无保留勾稽关系的规则基础上组合而成的。所述第二脱敏规则是基于数据内容而归类得到的,其包括以下至少之一:中文、英文、1位数字、2位数字、中英文数字、月、日。在确认组合规则并构建脱敏参数表之后,通过人工复核,以确认所述组合规则。在映射关系数据的准备中,将中文源数据分为姓氏、不脱敏字符、高频字符以及低频字符,并采用随机方式实现映射对照等等。在映射关系数据的准备中,通过将脱敏规则编写成脱敏函数,并且利用函数结果进行映射结果进行拼接。在生成相应的脱敏结果表之后,对数据脱敏进行验证,在所述验证中,对需要保留映射一致性的字段进行关联,并记录关联的记录数,并且通过对比记录数,检查脱敏的准确率。针对这些区别于本发明的方法,本发明区别于原有的多数据源多特点预分析后标注脱敏的方式,而是将源数据脱敏至脱敏数据的过程进行标准化处理,以表结构形式的数据输入再以表结构形式数据存储并供后续使用,整体过程有了统一的标准便于维护及前后端用户的操作处理,也提升了本发明的可复制性和可增长性。本发明区别于原有的预先制定规则后执行源数据识别、匹配、组合的方式,而是将预置规则与机器逻辑分析相结合的方式先执行源数据的类型识别,以分类的方式降低源数据的处理难度,再在特殊情况下具体分析解决问题。具体方法采用了正则识别与包括可人工或自动预规则识别的方式将字段进行预标注,分为特殊字段与普通字段并给予字段一个统一的细分类目,也就是整体词性,为之后的处理提供了大量的便捷。本发明区别于原有的以固定脱敏表,通过人工复核方式确认脱敏规则,而是将普通字段中所有具有特殊词性、特殊码表的内容抽离出来,以周期性固定偏移脱敏方式,在满足脱敏需求的前提下,可自动可人工的方式增减参照码表,以形成映射关系的高度随机性。本发明不仅在对照表,包括特殊码表上做了随机性、丰富能力、容量能力的多方位提升,同时在满足勾稽关系,包括字段关联性上以全字段随机偏移脱敏的方式得到了更好的实现,同时本发明通过采用固定随机与周期随机相结合的方式在满足脱敏安全性的前提下几乎完全实现数据关联性的保留。
基于同一发明构思,本发明提供了一种数据脱敏装置,如图3和图5所示,一种数据脱敏装置包括至少一个存储器和至少一个处理器,所述存储器与所述处理器通信连接,所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现本发明其中任意一项数据脱敏方法;所述计算机程序包括:存放敏感源数据的敏感源数据模块;对敏感源数据进行识别的敏感元识别模块;将敏感元识别模块的识别结果进行比对的码表数据模块;处理脱敏任务的识别及问题的分发的敏感平台服务模块;偏移脱敏计算的偏移算法服务模块;存储脱敏数据的业务系统模块。
本发明的脱敏装置包括一个或多个存储器和处理器,存储器与处理器通信连接。存储器存储有计算机程序,计算机程序由处理器执行时,实现本申请实施例提供的数据脱敏方法。本技术领域技术人员可以理解,本申请实施例提供的脱敏装置可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。例如,脱敏装置可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本等设备,本申请实施例对脱敏装置的具体类型不作任何限制。这些装置具有存储在其内的计算机程序,这些计算机程序可选择性地激活或重构。这样的计算机程序可以被存储在例如计算机的设备或者可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中。本申请的脱敏装置中的存储器可以是ROM(Read-OnlyMemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,可以是RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD—ROM(Compact Disc Read-Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计机存取的任何其他介质,但不限于此。本申请的脱敏装置中的处理器可以是CPU(Central Processing Unit,中央处理器)、通用处理器,DSP(Digital SignalProcessor,数据信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field—Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。本发明实施例提供的脱敏装置,与前面本发明的各实施例具有相同的发明构思,该脱敏装置中未详细示出的内容可可参照本发明的各实施例,在此不再赘述。
基于同一发明构思,本发明提供了一种数据脱敏系统,如图2所示,一种数据脱敏系统包括:原始数据库,用于存放原数据;敏感元识别器,用于读取原数据以及,产生更新码表到码表数据库,以及对原数据进行格式化;脱敏平台服务器,用于将所述格式化的数据进行调取并将脱敏后的数据导出至业务系统库;偏移算法服务器,用于基于所述码表数据库获得的偏移应用在脱敏计算上,并将脱敏后的计算结果送至所述脱敏平台服务器;所述系统包括至少一个存储器和至少一个处理器,所述存储器与所述处理器通信连接,所述存储器存储有用于所述脱敏计算的程序,所述脱敏计算的程序由所述处理器执行时,实现本发明任意一项所述的数据脱敏方法。
基于同一发明构思,本发明提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时,能够实现本发明任意一项所述的数据脱敏方法。
本发明提供的计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM、RAM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM、闪存、磁性卡片、U盘或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本发明实施例提供的计算机可读存储介质,与前面所述的各实施例具有相同的发明构思,该计算机可读存储介质中未详细示出的内容可参照前面所述的各实施例,在此不再赘述。步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、步骤N等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在某些情况下,本发明的特定步骤顺序会具有相比于其他组合或排列的更加优良的技术效果,但这并不意味着那些基于本发明构思的组合或排列不具有基于现有技术的更优的技术效果。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的方法步骤或者结构等作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。

Claims (9)

1.一种数据脱敏方法,其特征在于,
加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;
获得不同于已标定密钥的一个随机偏移量作为统一密钥,记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值;
对每个所述字段进行正则识别并标记,使得根据所述标记进行相应的所述处理;
所述标记包括普通标记和特殊标记;
对于被所述普通标记的所述字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;
对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;
将所述脱敏数据存储进所述字段。
2.根据权利要求1所述数据脱敏方法,其特征在于:所述的词库包括特征库和/或通用库;
其中所述的特征库包括特殊字符码表,和/或别称码表,和/或空字符码表,和/或特殊字符码表,和/或词性码表,和/或字义码表,和/或特殊联动码表;
其中所述的通用库至少包括预存储的一个通用编码表;
还包括至少一个规则集;
所述的脱敏数据包括至少一个结果库。
3.根据权利要求2所述数据脱敏方法,其特征在于:所述的对于被所述普通标记的所述字段,将所述字段进行分词包括如下步骤:
步骤一,将字段内所有字符拆分为单独字符;
步骤二,从左至右读取单独字符,判断是否读取到下一单独字符,如果为否,临时队列字符组成词语进入结果栈,清空临时队列,跳出;如果为是,跳转到步骤三;
步骤三,判断是否为空字符;如果为是,临时队列字符组成词语进入结果栈,清空临时队列,跳转到步骤二;如果为否,跳转到步骤四;
步骤四,字符放入临时队列;
步骤五,临时队列中,依据队列中字符字义构成临时队列的字符组词性;
步骤六,字符组词性判断;如果为未知,跳转到步骤七;如果为已知,跳转到步骤八;
步骤七,词性码表中的枚举不可用表中查询匹配;跳转到步骤九;
步骤八,词性码表中的一个或多个已知词性表中查询匹配;跳转到步骤九;
步骤九,判断匹配结果;如果存在完全一致匹配,跳转到步骤十一;如果存在严格子串匹配,跳转到步骤二;如果不存在匹配,跳转到步骤十;
步骤十,判断上一次匹配存在且为严格子串,如果为是,跳转到步骤十三;如果为否,跳转到步骤十二;
步骤十一,字符组词性调整为对应匹配表的词性,成词语后进入结果栈,清空临时队列;跳转到步骤二;
步骤十二,字符组词性调整为未知,成词语后进入结果栈,清空临时队列;跳转到步骤二;
步骤十三,当前字符退出临时队列,字符组词性不变;当前字符组成词语词性设为未知,顺序进入结果栈,清空临时队列,跳转到步骤二。
4.根据权利要求2所述数据脱敏方法,其特征在于:所述的词语整理包括如下步骤:
步骤二十一,将结果栈中词语逆向读取;
步骤二十二,从右向左读取单个词语;判断是否读取到下一词语,如果否,临时栈中连续同词性词语组合为新的词语,词性不变,跳出;如果是,跳转到步骤二十三;
步骤二十三,词语放入临时栈;
步骤二十四,由临时栈中词语顺序、词语词性与规则集进行比对;
步骤二十五,判断是否调整;如果否,跳转到步骤二十二;如果是,跳转到步骤二十六;
步骤二十六,根据规则集中匹配条件选择修改当前词语词性或选择临时栈中多个词语组合成新的词语;跳转到步骤二十二。
5.根据权利要求2所述数据脱敏方法,其特征在于:所述的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据包括如下步骤:
步骤三十一,临时栈中连续同词性词语组合为新的词语,词性不变;
步骤三十三,依次读取临时栈中词语,判断是否读取到下一词语;如果否,跳转到步骤三十四;如果是,跳转到步骤三十五;
步骤三十四,结果队列词语拼接,顺序导出得到偏移后字段,存入结果库,跳出;
步骤三十五,判断是否为未知词性;如果否,跳转到步骤三十六;如果是,跳转到步骤五十一;
步骤三十六,为词性对应的词性码表构建所述规则集中的关键帧映射,当前词语在对应的词性码表中查找匹配关键帧;
步骤三十七,判断是否一致匹配;如果是,跳转到步骤三十八,如果否,跳转到步骤三十九;
步骤三十八,记录匹配词语在对应的词性码表中的关键帧;跳转到步骤四十;
步骤三十九,当前词语添加至对应的词性码表中,并增加所述规则集中的关键帧映射,并记录关键帧;跳转到步骤四十;
步骤四十,关键帧与标定密钥、本次脱敏的统一密钥共同参与关键帧映射的反射,得到反射后的词语;该词语为偏移后的词语,存入结果结果队列;跳转到步骤三十三;
步骤五十一,将词语内所有字符拆分,为单个字符,关联通用库;
步骤五十二,依次读取字符直到全部字符处理后直接跳转到步骤五十七;
步骤五十三,判断字符,分为大写英文字母、小写英文字母、数字、汉字,关联通用库中通用编码表对应区域;
步骤五十四,对应区域构成匹配编码表,为匹配编码表构建关键帧映射,在匹配编码表中查找匹配关键帧;
步骤五十五,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后的偏移字符,存入临时队列;跳转到步骤五十二;
步骤五十七,临时队列重组为词语,存入结果队列;跳转到步骤三十三。
6.根据权利要求2所述数据脱敏方法,其特征在于:对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据包括如下步骤:
步骤七十一,分段处理,每段成个体,每个个体赋予对应的码表类型;
步骤七十二,依次读取每段个体,判断是否读取到下一段;如果是,跳转到步骤七十三;如果否,结果队列个体拼接,顺序导出得到偏移后字段,存入结果库,跳出;
步骤七十三,判断码表类型;如果是通用码表,跳转到步骤七十五;如果是特殊联动码表,跳转到步骤九十;如果是特殊字符码表,跳转到步骤八十二;
步骤七十五,将个体所有字符拆分为单个字符,关联通用库;
步骤七十六,依次读取字符,直到全部字符被处理;当字符全部处理后,临时队列重组为个体,跳转到步骤七十二;
步骤七十七,判断字符,分为大写英文字母、小写英文字母、数字、汉字,关联通用库中编码表对应分类范围;
步骤七十八,对应范围构成匹配编码表,为表构建关键帧映射,在匹配编码表中查找匹配关键帧;
步骤七十九,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后偏移字符,存入临时队列;跳转到步骤七十六;
步骤八十二,该段个体不做操作,存入结果队列;跳转到步骤七十二;
步骤九十,依据相关字段值,把条件限定至特殊联动码表中的指定范围;
步骤九十一,指定范围构成匹配编码表,为表构建关键帧映射,依据本段个体,在匹配编码表中查找匹配关键帧;
步骤九十二,关键帧与标定密钥、本次脱敏的统一密钥,共同参与对应映射的反射,得到反射后的偏移字符,存入临时队列;跳转到步骤七十二。
7.一种数据脱敏装置,其特征在于,包括至少一个存储器和至少一个处理器,所述存储器与所述处理器通信连接,所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现如权利要求1-6其中任意一项所述的数据脱敏方法;所述计算机程序包括:存放敏感源数据的敏感源数据模块;对敏感源数据进行识别的敏感元识别模块;将敏感元识别模块的识别结果进行比对的码表数据模块;处理脱敏任务的识别及问题的分发的敏感平台服务模块;偏移脱敏计算的偏移算法服务模块;存储脱敏数据的业务系统模块。
8.一种数据脱敏系统,其特征在于,包括:
原始数据库,用于存放原数据;
敏感元识别器,用于读取原数据以及,产生更新码表到码表数据库,以及对原数据进行格式化;
脱敏平台服务器,用于将所述格式化的数据进行调取并将脱敏后的数据导出至业务系统库;
偏移算法服务器,用于基于所述码表数据库获得的偏移应用在脱敏计算上,并将脱敏后的计算结果送至所述脱敏平台服务器;
所述系统包括至少一个存储器和至少一个处理器,所述存储器与所述处理器通信连接,所述存储器存储有用于所述脱敏计算的程序,所述脱敏计算的程序由所述处理器执行时,实现如权利要求1-6其中任意一项所述的数据脱敏方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,能够实现权利要求1-6其中任意一项所述的方法。
CN202110598739.7A 2021-05-31 2021-05-31 数据脱敏方法、装置、系统及计算机可读介质 Active CN113254995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110598739.7A CN113254995B (zh) 2021-05-31 2021-05-31 数据脱敏方法、装置、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110598739.7A CN113254995B (zh) 2021-05-31 2021-05-31 数据脱敏方法、装置、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN113254995A true CN113254995A (zh) 2021-08-13
CN113254995B CN113254995B (zh) 2023-06-23

Family

ID=77183714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110598739.7A Active CN113254995B (zh) 2021-05-31 2021-05-31 数据脱敏方法、装置、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN113254995B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591127A (zh) * 2021-08-16 2021-11-02 京东科技控股股份有限公司 数据脱敏方法以及装置
CN115050390A (zh) * 2022-08-12 2022-09-13 杭州海康威视数字技术股份有限公司 一种语音隐私保护方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN112765641A (zh) * 2021-02-03 2021-05-07 兴业证券股份有限公司 一种高效脱敏方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN112765641A (zh) * 2021-02-03 2021-05-07 兴业证券股份有限公司 一种高效脱敏方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591127A (zh) * 2021-08-16 2021-11-02 京东科技控股股份有限公司 数据脱敏方法以及装置
CN115050390A (zh) * 2022-08-12 2022-09-13 杭州海康威视数字技术股份有限公司 一种语音隐私保护方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113254995B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US11816121B2 (en) System and method for matching of database records based on similarities to search queries
US8266179B2 (en) Method and system for processing text
US5960430A (en) Generating rules for matching new customer records to existing customer records in a large database
US9690788B2 (en) File type recognition analysis method and system
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110826320A (zh) 一种基于文本识别的敏感数据发现方法及系统
CN110597816A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN113254995A (zh) 数据脱敏方法、装置、系统及计算机可读介质
CN112231747A (zh) 数据脱敏方法、数据脱敏装置以及计算机可读介质
CN104750852B (zh) 中文地址数据的发现与分类方法
EP0857334A1 (en) Corporate disclosure and repository system
CN110489997A (zh) 一种基于模式匹配算法的敏感信息脱敏方法
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN110222015A (zh) 一种文件数据的读取、查询方法、装置及可读存储介质
CN112667619B (zh) 辅助检查数据的方法、装置、终端设备及存储介质
CN111177771B (zh) 一种人员简历的生成方法及装置
CN117312904A (zh) 一种数据分类分级方法和相关产品
US20230186023A1 (en) Automatically assign term to text documents
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
RU2755606C2 (ru) Способ и система классификации данных для выявления конфиденциальной информации в тексте
US8024347B2 (en) Method and apparatus for automatically differentiating between types of names stored in a data collection
CN115221891B (zh) 基于上下文语义分析的目标信息检测方法、装置、系统及介质
CN108255887B (zh) 校验行业文本的方法和装置
JP7405287B1 (ja) 情報処理装置、コンピュータプログラム及び情報処理方法
CN112395865B (zh) 报关单校验方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant