CN114386100A - 一种公有云用户敏感数据管理方法 - Google Patents

一种公有云用户敏感数据管理方法 Download PDF

Info

Publication number
CN114386100A
CN114386100A CN202210031211.6A CN202210031211A CN114386100A CN 114386100 A CN114386100 A CN 114386100A CN 202210031211 A CN202210031211 A CN 202210031211A CN 114386100 A CN114386100 A CN 114386100A
Authority
CN
China
Prior art keywords
sensitive
data
sensitive data
desensitization
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210031211.6A
Other languages
English (en)
Inventor
霍玉璨
吕翔
梅宝林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinyang Agriculture and Forestry University
Original Assignee
Xinyang Agriculture and Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinyang Agriculture and Forestry University filed Critical Xinyang Agriculture and Forestry University
Priority to CN202210031211.6A priority Critical patent/CN114386100A/zh
Publication of CN114386100A publication Critical patent/CN114386100A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种公有云用户敏感数据管理方法包括:步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段,步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段,分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,将加密后的数据段放置在对应原位置中,并替换原数据段,用以防止用户个人信息泄露,保护网络环境,创造绿色健康的网络言论平台。

Description

一种公有云用户敏感数据管理方法
技术领域
本发明涉及数据管理方法技术领域,特别涉及一种公有云用户敏感数据管理方法。
背景技术
随着互联网的迅速发展,数据安全问题引发了全民的广泛关注,个人信息及敏感信息泄露的安全事件,可能引发严重的网络犯罪。而传统敏感数据发现技术对于不规范敏感数据的识别率特别低,容易出现遗漏导致敏感数据泄露风险。
现今互联网系统中,敏感数据通常在各自业务链中由业务方提供加密保护。对于小型系统来说,由于业务不复杂,系统维护人员通常比较容易掌控各个涉及敏感数据的访问点。而随着业务逐渐复杂,敏感数据可能在业务链中互相渗透,导致敏感数据在多处存放多次,甚至出现敏感数据因业务责任人经验不足采取了较弱加密措施而出现容易被攻破的脆弱点的问题,可见,用户在互联网中的数据存在风险,故本发明提高了一种公有云用户敏感数据管理方法,用以代替人工筛选敏感数据,避免数据被攻破造成信息泄露的问题。
发明内容
本发明提供一种公有云用户敏感数据管理方法,用以代替人工筛选敏感数据,避免数据被攻破造成信息泄露的问题。
本发明提供的一种公有云用户敏感数据管理方法,包括:
步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段;
步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段;
步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密;
步骤4:将加密后的数据段放置在对应原位置中,并替换原数据段。
在一种可实施的方式中,
步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段之前,包括:
在所述数据库中提取用户手动加密的初始敏感数据段;
获取所述初始敏感数据段对应的加密信息;
在所述数据库中获取与所述加密信息一致的第三疑似敏感数据段,并将所述加密信息复制到所述第三疑似敏感数据段所在的位置,进行加密。
在一种可实施的方式中,
步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段,包括:
基于预设姓氏对比库和预设关键字数据库提取所述涉敏数据中含姓氏的第一待检验数据段;
获取所述第一待检数据段中包含的名词,并对所述第一待检数据段进行分段,提取属于姓名的第一子待检数据段;
获取所有所述第一子待检数据段视为所述第一疑似敏感数据段。
在一种可实施的方式中,
步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段,包括:
在所述涉敏数据中提取包含所述预设敏感词语的第二待检数据段;
根据所述敏感词语在所述第二待检数据段的位置,判断所述第二待检数据段上是否存在关联敏感词;
汇集所有敏感词语和所述关联敏感词视为所述第二疑似敏感数据段。
在一种可实施的方式中,
步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,包括:
在敏感数据段中标记对应的敏感数据,并为所述敏感数据段匹配对应的敏感类型;
基于不同的敏感类型,将对应敏感数据段中对应的部分转换为指定符号。
在一种可实施的方式中,
获取所有所述第一子待检数据段视为所述第一疑似敏感数据段之后,包括:
分别解析所述第一疑似敏感数据段,在对应的所述第一疑似敏感数据段上标记第一疑似敏感文字;
同时获取所述第一疑似敏感数据段对应的第一云用户,提取所示第一云用户的历史加密信息,利用所示历史加密信息遍历所示第一疑似敏感数据段,获取第二疑似敏感文字;
将所述第一疑似敏感文字和第二疑似敏感文字视为疑似敏感文字;
根据所述疑似敏感文字为映射元素构建文字集;
分别获取所述文字集中每一映射元素对应的词义;
在所述文字集中提取属于姓名的第一映射元素;
将所述第一映射元素划分为若干字符;
根据预设姓氏数据为所述若干字符中的第一字符匹配对应的待加密姓氏;
以所述待加密姓氏为根节点,建立初始二叉树,并根据所述若干字符中的剩余字符建立所述初始二叉树的叶子节点;
分别对每一剩余字符添加扰码,建立加密字符,并将所述加密字符输入到所述初始二叉树对应的叶子节点上;
复制所述初始二叉树的叶子节点,建立转换二叉树;
在所述转换二叉树上随机选取分叉树以及对应的加密字符;
调节所述加密字符的顺序,生成对应的加密姓名;
根据所述历史加密姓名更新所述历史加密信息;
将所述第一疑似敏感数据中对应的姓名字符并转换为对应的加密姓名。
在一种可实施的方式中,
步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,包括:
将所述第一疑似敏感数据段和所述第二疑似敏感数据段视为未脱敏数据;
分别判断每一所述未脱敏数据对应的敏感程度;
基于不同未脱敏数据对应的敏感程度,建立脱敏模型,对所述未脱敏数据进行脱敏工作。
在一种可实施的方式中,
基于不同未脱敏数据对应的敏感程度,建立脱敏模型,对所述未脱敏数据进行脱敏工作,包括:
根据所述预设敏感词语,获取每一敏感词对应的描述信息以及扩展信息,建立敏感词索引;
将所述未脱敏数据转换为未脱敏字符串;
对所述未脱敏字符串进行词义划分,并将词义相同的字符视为一类,建立若干字符数组,并分别解析每一字符数组对应的组义;
获取所述组义的敏感程度,根据所述敏感程度在预设多模型库中获取对应的雏形脱敏模型,且对应的雏形脱敏模型包括与字符数组的数量相一致的脱敏层;
根据所述组义将字符数组输入到对应的脱敏层中,利用所述敏感词索引在所述脱敏层中进行检索,提取含有敏感词的待脱敏字符数组;
在所述待脱敏字符数组中标记待脱敏字符,并基于所述待脱敏字符与所述敏感词索引的关系,在预设敏感词索引-脱敏粒子列表中为所述待脱敏字符匹配相应的脱敏粒子;
利用所述脱敏粒子对对应的脱敏层进行脱敏工作并获取脱敏后的新字符;
利用所述新字符代替所述未脱敏字符串中对应的所述待脱敏字符,获取初级脱敏字符串,并解析所述初级脱敏字符串的语义;
若所述初级脱敏字符串的语义中存在断裂,在所述初级脱敏字符串中标记断裂处,根据断裂长度,获取脱敏字符串;
根据所述脱敏字符串建立对应的脱敏数据,并替换所述数据库中对应的未脱敏数据。
在一种可实施的方式中,
根据所述脱敏字符串建立对应的脱敏数据,并替换所述数据库中对应的未脱敏数据,包括:
获取所述未脱敏数据在所述数据库中的位置,并将所述未脱敏数据从所述数据库中剔除;
将所述脱敏数据补充到剔除位置,并在所述数据库中获取与所述脱敏数据相邻的第一数据和第二数据;
分别解析所述第一数据、脱敏数据、第二数据对应的第一语义、脱敏语义、第二语义;
将所述第一语义、脱敏语义、第二语义依次连接,获取整体语义,并判断所述整体语义是否连贯;
若不是,构建连接数据,并添加到对应的数据连接处。
在一种可实施的方式中,
步骤4:将加密后的数据段放置在对应原位置中,并替换原数据段之后,还包括:
在预设周期内分别检测所述数据库中每一数据的敏感程度;
当所述数据库中存在涉敏数据时,对对应的涉敏数据进行脱敏工作。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种公有云用户敏感数据管理方法的流程图;
图2为本发明实施例中一种公有云用户敏感数据管理方法中第一疑似数据段加密过程流程图;
图3为本发明实施例中一种公有云用户敏感数据管理方法中对未脱敏数据进行脱敏工作流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供了一种公有云用户敏感数据管理方法,如图1所示,包括:
步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段;
步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段;
步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密;
步骤4:将加密后的数据段放置在对应原位置中,并替换原数据段。
该实例中,数据库表示将用户利用云用户账户发送的数据进行存储的空间;
该实例中,涉敏数据中包含(第一、第二)疑似敏感数据段,疑似敏感数据段中包含敏感词语;
该实例中,预设敏感词语包含网络禁词,并根据当前国家以及地方规定时时更新。
上述技术方案的工作原理以及有益效果:当用户在互联网上发布言论时,可能会在无意间将个人信息或网络禁词参杂在言论中,故解析数据库中的涉敏数据,提取含有名字的第一疑似敏感数据段,以及利用预设敏感词语扫描涉敏数据段,获取第二疑似敏感数据段,对敏感数据段进行加密并在加密后替换原数据段,这样一来不仅可以防止用户个人信息泄露,同时也可以保护网络环境,创造绿色健康的网络言论平台。
实施例2
在实施例1的基础上,一种公有云用户敏感数据管理方法,步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段之前,包括:
在所述数据库中提取用户手动加密的初始敏感数据段;
获取所述初始敏感数据段对应的加密信息;
在所述数据库中获取与所述加密信息一致的第三疑似敏感数据段,并将所述加密信息复制到所述第三疑似敏感数据段所在的位置,进行加密。
该实例中,初始敏感数据段表示该数据段中含有用户提前加密的信息;
该实例中,加密过程为:选取用户手动加密的信息-在全文中查找对应的信息-剔除对应的信息-利用用户手动加密的信息进行替换;
例如,用户在网上发表了一段话:我的工号是1234,我是公司第1234名入职的员工,所以工号为1234,其中,用户在发表时手动将“我的工号是1234”加密为“我的工号是aabbcc”,那么,加密后为:我的工号是aabbcc,我是公司第aabbcc名入职的员工,所以工号为aabbcc。
上述技术方案的工作原理以及有益效果:由于不同用户的自身情况存在不同的隐私,为了避免手动加密时出现遗漏,降低加密信度,所以在用户手动对某信息进行加密后,将其他信息中包含的加密信息进行加密,这样一来,可以在最大程度上保证用户的隐私安全。
实施例3
在实施例1的基础上,一种公有云用户敏感数据管理方法,步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段,包括:
基于预设姓氏对比库和预设关键字数据库提取所述涉敏数据中含姓氏的第一待检验数据段;
获取所述第一待检数据段中包含的名词,并对所述第一待检数据段进行分段,提取属于姓名的第一子待检数据段;
获取所有所述第一子待检数据段视为所述第一疑似敏感数据段。
该实例中,
该实例中,第一子待检数据段表示含有姓名的数据段;
该实例中,第一疑似敏感数据段表示含有姓名的完整语句;
例如,“我今天和张三相约去图书馆找李四,我们一起学英语。”那么其中的“张三”、“李四”都属于第一子待检数据段,“我今天和张三相约去图书馆找李四”属于第一疑似敏感数据段。
上述技术方案的工作原理以及有益效果:利用预设姓氏对比库和预设关键字在涉敏数据中提取第一待检数据段,再将第一待检数据段进行划分,提取其中属于名字的第一子待检数据段,这样一来就可以在涉敏数据中准确的提取第一疑似敏感数据段,为后续工作做基础。
实施例4
在实施例1的基础上,一种公有云用户敏感数据管理方法,步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段,包括:
在所述涉敏数据中提取包含所述预设敏感词语的第二待检数据段;
根据所述敏感词语在所述第二待检数据段的位置,判断所述第二待检数据段上是否存在关联敏感词;
汇集所有敏感词语和所述关联敏感词视为所述第二疑似敏感数据段。
该实例中,关键敏感词表示本身不属于敏感词语,但与敏感词语放在一起时属性发生变化,敏感程度提高的词语。
上述技术方案的工作原理以及有益效果:为了创建绿色的网络环境,在涉敏数据中提取敏感词语以及关联敏感词,统一视为第二疑似敏感数据段,这样一来可以大幅度的加强网络净化力度。
实施例5
在实施例1的基础上,一种公有云用户敏感数据管理方法,步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,包括:
在敏感数据段中标记对应的敏感数据,并为所述敏感数据段匹配对应的敏感类型;
基于不同的敏感类型,将对应敏感数据段中对应的部分转换为指定符号。
该实例中,敏感程度分为初级、中级、高级三种;
其中,对初级敏感数据段的操作为:将敏感数据折叠为指定大小,例如,敏感数据为“北京市朝阳区”,加密后为“某市某区”;
对中级敏感数据段的操作为:将敏感数据转换为其他文字,例如,敏感数据为“王二麻”,加密后为“王一一”;
对高级敏感数据段的操作为:将敏感数据转换为预设符号,例如,敏感数据为“死亡”,加密后为“**”。
上述技术方案的工作原理以及有益效果:由于不同的敏感数据具有不同的敏感程度,所以在进行加密时根据其敏感程度进行相应的加密,极大限度的保留原句意,避免过度加密。
实施例6
在实施例3的基础上,一种公有云用户敏感数据管理方法,获取所有所述第一子待检数据段视为所述第一疑似敏感数据段之后,如图2所示,包括:
分别解析所述第一疑似敏感数据段,在对应的所述第一疑似敏感数据段上标记第一疑似敏感文字;
同时获取所述第一疑似敏感数据段对应的第一云用户,提取所示第一云用户的历史加密信息,利用所示历史加密信息遍历所示第一疑似敏感数据段,获取第二疑似敏感文字;
将所述第一疑似敏感文字和第二疑似敏感文字视为疑似敏感文字;
根据所述疑似敏感文字为映射元素构建文字集;
分别获取所述文字集中每一映射元素对应的词义;
在所述文字集中提取属于姓名的第一映射元素;
将所述第一映射元素划分为若干字符;
根据预设姓氏数据为所述若干字符中的第一字符匹配对应的待加密姓氏;
以所述待加密姓氏为根节点,建立初始二叉树,并根据所述若干字符中的剩余字符建立所述初始二叉树的叶子节点;
分别对每一剩余字符添加扰码,建立加密字符,并将所述加密字符输入到所述初始二叉树对应的叶子节点上;
复制所述初始二叉树的叶子节点,建立转换二叉树;
在所述转换二叉树上随机选取分叉树以及对应的加密字符;
调节所述加密字符的顺序,生成对应的加密姓名;
根据所述历史加密姓名更新所述历史加密信息;
将所述第一疑似敏感数据中对应的姓名字符并转换为对应的加密姓名。
该实例中,第一云用户表示发表的内容包含第一疑似敏感数据段的云用户;
该实例中,历史加密信息表示第一用户以前发表的内容中进行加密的信息;
该实例中,文字映射集表示疑似敏感文字与历史加密信息之间的对应关系;
该实例中,词义表示文字映射集中的映射元素中所包含的文字所组成的词语的性质;
例如,映射元素中包含“香”“蕉”两个字,这两个字组成词语“香蕉”,其性质为水果;
该实例中,待加密姓氏表示若干字符中属于姓氏的字符;
该实例中,初始二叉树表示含有一个根节点和两个叶子节点的二叉树;
该实例中,扰码表示会干扰字符本身含义的加密因子;
该实例中,加密字符表示对剩余字符添加扰码后产生的新字符;
例如,一个字符为“李”扰码为“一”,那么加密字符为“木”“子”“一”中的任意一个;
该实例中,复制建立转换二叉树时仅复制初始二叉树的叶子节点,且转换二叉树的根节点为初始二叉树的根节点;
例如,第一疑似敏感数据段为“今天我和王小明一起去红星体育馆打篮球,我喜欢和王小明一起玩”,这段数据的作者为A云用户,其中的敏感文字为“王小明”、“李小红”;
其对应的历史加密信息记作A加密史;
A加密史中曾经对“张红星”、“小明”、进行加密,那么构成的文字映射集为:(1)张红星-红星体育馆、(2)小明-王小明;
其中(1)的词义为地址,(2)的词义为姓名,那么(2)为第一映射元素;
将第一映射元素(2)划分为(2):王-小-明;
其中的待加密姓氏为“王”,以“王”为根节点建立初始二叉树并将“小”、“明”输入到两个叶子节点中;
分别为“小”、“明”添加扰码“丁”、“宝”,所得到的加密字符为:小-晓、丁,明-日、月、宝、玉,并将加密字符输入到初始二叉树上;
复制初始二叉树建立转换二叉树,并在转换二叉树上随机选取分叉树;
若分树中含有的加密文字为“晓”、“玉”,那么加密姓名为:晓玉;
进行加密后的数据为“今天我和晓玉一起去红星体育馆打篮球,我喜欢和晓玉一起玩。
上述技术方案的工作原理以及有益效果:为了保护用户的真实姓名,避免个人信息泄露,在第一疑似数据段上标记疑似文字,再根据历史加密信息进一步确定疑似文字的属性,然后利用二叉树对姓名进行加密,这样一来不仅可以对用户的真实姓名进行加密,还可以使得生成的化名具有真实感。
实施例7
在实施例1的基础上,一种公有云用户敏感数据管理方法,步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,包括:
将所述第一疑似敏感数据段和所述第二疑似敏感数据段视为未脱敏数据;
分别判断每一所述未脱敏数据对应的敏感程度;
基于不同未脱敏数据对应的敏感程度,建立脱敏模型,对所述未脱敏数据进行脱敏工作。
上述技术方案的工作原理以及有益效果:根据未脱敏数据的敏感程度建立脱敏模型进行脱敏工作,不仅可以精确脱敏,还可以最大限度的保留原句意,给用户带来更好的体验感。
实施例8
在实施例7的基础上,一种公有云用户敏感数据管理方法,基于不同未脱敏数据对应的敏感程度,建立脱敏模型,对所述未脱敏数据进行脱敏工作,如图3所示,包括:
根据所述预设敏感词语,获取每一敏感词对应的描述信息以及扩展信息,建立敏感词索引;
将所述未脱敏数据转换为未脱敏字符串;
对所述未脱敏字符串进行词义划分,并将词义相同的字符视为一类,建立若干字符数组,并分别解析每一字符数组对应的组义;
获取所述组义的敏感程度,根据所述敏感程度在预设多模型库中获取对应的雏形脱敏模型,且对应的雏形脱敏模型包括与字符数组的数量相一致的脱敏层;
根据所述组义将字符数组输入到对应的脱敏层中,利用所述敏感词索引在所述脱敏层中进行检索,提取含有敏感词的待脱敏字符数组;
在所述待脱敏字符数组中标记待脱敏字符,并基于所述待脱敏字符与所述敏感词索引的关系,在预设敏感词索引-脱敏粒子列表中为所述待脱敏字符匹配相应的脱敏粒子;
利用所述脱敏粒子对对应的脱敏层进行脱敏工作并获取脱敏后的新字符;
利用所述新字符代替所述未脱敏字符串中对应的所述待脱敏字符,获取初级脱敏字符串,并解析所述初级脱敏字符串的语义;
若所述初级脱敏字符串的语义中存在断裂,在所述初级脱敏字符串中标记断裂处,根据断裂长度,获取脱敏字符串;
根据所述脱敏字符串建立对应的脱敏数据,并替换所述数据库中对应的未脱敏数据。
该实例中,描述信息表示利用通俗易懂的文字解释敏感词语的信息;
该实例中,扩展信息表示可替换敏感词语的信息;
例如,假设“圣女果”属于敏感信息,那么对应的描述信息为:是一年生草本植物,属茄科番茄属,对应的扩展信息为:小西红柿、樱桃番茄;
该实例中,敏感词索引表示包含描述信息和扩展信息的敏感词查找项;
该实例中,雏形脱敏模型表示与敏感程度相对应的预设脱敏模型;
该实例中,一个脱敏层上放置一类字符;
该实例中,脱敏粒子表示对字符进行脱敏的函数;
例如,未脱敏数据为“今天超市的西红柿10元/kg,小西红柿15元/kg,但是我喜欢吃圣女果,所以买了小西红柿”(实际上此处的敏感词语均为网络禁词,由于不便列举,故暂时将“圣女果”视为敏感词语);
对应的为未脱敏字符串为:(a)小西红柿15元/kg、(b)但是我喜欢吃圣女果、(c)所以买了小西红柿;
划分词义后的字符串为(a)小西红柿-15-元/kg、(b)但是-我-喜欢吃-圣女果、(c)所以-买了-小西红柿;
由此可以建立字符数组:(X)小西红柿and圣女果and我、(Y)15、(Z)买了and元/kg、(N)但是and所以、(K)喜欢吃;
若“圣女果”属于中级敏感程度,获取雏形脱敏模型,并建立5个脱敏层再分别将字符数组输入待对应的脱敏层中;
将(X)字符数组中的“小西红柿”和“圣女果”标记为待脱敏字符,为其匹配脱敏粒子P;
利用脱敏粒子P对(X)字符数组进行脱敏,获取新字符小红果实;
那么可以获得字符数组:(XT)小红果实and小红果实and红我果、(YT)15、(ZT)买了and元/kg、(NT)但是and所以、(KT)喜欢吃;
初级脱敏字符串为:(aT)小红果实-15-元/kg、(bT)但是-红我果-喜欢吃-小红果实、(cT)所以-买了-小红果实
其中,(bT)的语义发生断裂,将这一字符串调节为:但是-我-喜欢吃-小红果实;
在未脱敏数据“今天超市的西红柿10元/kg,小西红柿15元/kg,但是我喜欢吃圣女果,所以买了小西红柿”中替换“小西红柿”、“圣女果”字符,最终的得到的脱敏数据为:今天超市的西红柿10元/kg,小红果实15元/kg,但是我喜欢吃小红果实,所以买了小红果实。
上述技术方案的工作原理以及有益效果:根据未脱敏数据的敏感程度建立对应的脱敏模型,对数据进行脱敏,这样一来不仅可以精准脱敏还可以在脱敏后调节字符串的语义,避免过度脱敏造成语义折叠,而且使用不同的脱敏层进行脱敏还可以检测每一个词语的语义,提高脱敏的效率。
实施例9
在实施例8的基础上,种公有云用户敏感数据管理方法,根据所述脱敏字符串建立对应的脱敏数据,并替换所述数据库中对应的未脱敏数据,包括:
获取所述未脱敏数据在所述数据库中的位置,并将所述未脱敏数据从所述数据库中剔除;
将所述脱敏数据补充到剔除位置,并在所述数据库中获取与所述脱敏数据相邻的第一数据和第二数据;
分别解析所述第一数据、脱敏数据、第二数据对应的第一语义、脱敏语义、第二语义;
将所述第一语义、脱敏语义、第二语义依次连接,获取整体语义,并判断所述整体语义是否连贯;
若不是,构建连接数据,并添加到对应的数据连接处。
上述技术方案的工作原理以及有益效果:在数据库中替换未脱敏数据时,获取未脱敏数据相邻的第一数据和第二数据,并分析前后语义,避免替换后的数据过于突兀,难以理解。
实施例10
在实施例1的基础上,一种公有云用户敏感数据管理方法,步骤4:将加密后的数据段放置在对应原位置中,并替换原数据段之后,还包括:
在预设周期内分别检测所述数据库中每一数据的敏感程度;
当所述数据库中存在涉敏数据时,对对应的涉敏数据进行脱敏工作。
上述技术方案的工作原理以及有益效果:为了进一步加强敏感数据的检测力度,在预设周期内检测数据库中每一个数据的敏感程度,并对检测出来的涉敏数据进行脱敏,保护用户隐私。
实施例11
在实施例8的基础上,一种公有云用户敏感数据管理方法,获对所述未脱敏字符串进行词义划分,并将词义相同的字符视为一类,包括:
利用预设简约字符列表遍历所述未脱敏字符串,获取可转换为简约词义的第一字符子串,并将上述第一字符子串转换为对应的简约字符子串;
当所述简约字符子串的数量不为1时,对所述简约字符子串进行数值转换,并建立检验矩阵;
将所述未脱敏字符串中的剩余字符视为第二字符子串;
分别记录所述第二字符子串与每一简约字符子串之间的编辑距离;
对编辑距离进行大小排序,并从最大排序简约字符子串开始依次与第二字符子串建立对应列表;
并根据公式(Ⅰ)计算所述第二字符子串与每一简约字符子串之间的第一相似度;
Figure BDA0003466528770000171
其中,d1表示所述所述第二字符子串与每一简约字符子串之间的第一相似度,f表示所述第二字符子串与每一简约字符子串之间的编辑距离,a表示所述第二字符子串的长度,b表示每一简约字符子串的长度;
其中,f和b均为长度变量;
根据公式(Ⅰ)的计算结果,筛选第一相似度不在预设范围内的第二简约子串,并分别确定每个第二简约子串与第二字符子串的不同字符,并构建对应数量个差异子串,
根据(Ⅱ)计算每个差异子串与对应简约字符子串之间的第二相似度;
Figure BDA0003466528770000172
其中,dh表示第h个差异子串与对应简约字符子串之间的第二相似度,ti表示所述第h个差异子串中第i个字符的字符描述信息所转换的描述值,si表示第h个差异子串所对应的简约字符子串中第i个字符的字符描述信息所转换的描述值,n表示第h个差异子串的字符个数,m表示与第h个差异子串所对应的简约字符子串的字符个数,bh表示与第h个差异子串所对应的简约字符子串的字符长度,且取值小于或等于5,βh表示第h个差异子串所对应的简约字符子串的权值,且取值为[0.5,1];
将所述第二相似度大于或者等于预设相似度所对应的差异子串放置在所增加的空白行向量上与对应简约字符子串对应的同列位置上,并将对应的同列字符子串视为一类,即实现将词义相同的字符视为一类的结果。
该实例中,简约词义表示利用最简的词语表示另一个词语的方式;
该实例中,第二字符子串表示不能转换为简约字符串的字符串;
例如,一个未脱敏字符串为“这里有苹果、香蕉、西瓜”,进行简约后为“这里有水果”,其中,“苹果、香蕉、西瓜”属于简约字符串,“这里有”属于第二字符子串;
该实例中,编辑距离表示第二字符子串与简约字符子串之间,由第二字符子串转成简约字符子串所需的最少编辑操作次数;
该实例中,差异子串表示第二字符子串与简约字符子串之间的不同,且差异子串属于第二字符子串的一部分。
上述技术方案的工作原理以及有益效果:通过建立检验矩阵,再将相似度高的子串放置在同一列中,不仅可以保证快速将相同词义的字符进行配对,还可以丰富子串的数量,且有效避免遗漏,为后续工作做基础。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种公有云用户敏感数据管理方法,其特征在于,包括:
步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段;
步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段;
步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密;
步骤4:将加密后的数据段放置在对应原位置中,并替换原数据段。
2.根据权利要求1所述的一种公有云用户敏感数据管理方法,其特征在于,步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段之前,包括:
在所述数据库中提取用户手动加密的初始敏感数据段;
获取所述初始敏感数据段对应的加密信息;
在所述数据库中获取与所述加密信息一致的第三疑似敏感数据段,并将所述加密信息复制到所述第三疑似敏感数据段所在的位置,进行加密。
3.根据权利要求1所述的一种公有云用户敏感数据管理方法,其特征在于,步骤1:解析数据库中的涉敏数据,并提取含有姓名的第一疑似敏感数据段,包括:
基于预设姓氏对比库和预设关键字数据库提取所述涉敏数据中含姓氏的第一待检验数据段;
获取所述第一待检数据段中包含的名词,并对所述第一待检数据段进行分段,提取属于姓名的第一子待检数据段;
获取所有所述第一子待检数据段视为所述第一疑似敏感数据段。
4.根据权利要求1所述的一种公有云用户敏感数据管理方法,其特征在于,步骤2:利用预设敏感词语对所述数据库中的涉敏数据进行扫描,筛选含有敏感词语的第二疑似敏感数据段,包括:
在所述涉敏数据中提取包含所述预设敏感词语的第二待检数据段;
根据所述敏感词语在所述第二待检数据段的位置,判断所述第二待检数据段上是否存在关联敏感词;
汇集所有敏感词语和所述关联敏感词视为所述第二疑似敏感数据段。
5.根据权利要求1所述的一种公有云用户敏感数据管理方法,其特征在于,步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,包括:
在敏感数据段中标记对应的敏感数据,并为所述敏感数据段匹配对应的敏感类型;
基于不同的敏感类型,将对应敏感数据段中对应的部分转换为指定符号。
6.根据权利要求3所述的一种公有云用户敏感数据管理方法,其特征在于,获取所有所述第一子待检数据段视为所述第一疑似敏感数据段之后,包括:
分别解析所述第一疑似敏感数据段,在对应的所述第一疑似敏感数据段上标记第一疑似敏感文字;
同时获取所述第一疑似敏感数据段对应的第一云用户,提取所示第一云用户的历史加密信息,利用所示历史加密信息遍历所示第一疑似敏感数据段,获取第二疑似敏感文字;
将所述第一疑似敏感文字和第二疑似敏感文字视为疑似敏感文字;
根据所述疑似敏感文字为映射元素构建文字集;
分别获取所述文字集中每一映射元素对应的词义;
在所述文字集中提取属于姓名的第一映射元素;
将所述第一映射元素划分为若干字符;
根据预设姓氏数据为所述若干字符中的第一字符匹配对应的待加密姓氏;
以所述待加密姓氏为根节点,建立初始二叉树,并根据所述若干字符中的剩余字符建立所述初始二叉树的叶子节点;
分别对每一剩余字符添加扰码,建立加密字符,并将所述加密字符输入到所述初始二叉树对应的叶子节点上;
复制所述初始二叉树的叶子节点,建立转换二叉树;
在所述转换二叉树上随机选取分叉树以及对应的加密字符;
调节所述加密字符的顺序,生成对应的加密姓名;
根据所述历史加密姓名更新所述历史加密信息;
将所述第一疑似敏感数据中对应的姓名字符并转换为对应的加密姓名。
7.根据权利要求1所述的一种公有云用户敏感数据管理方法,其特征在于,步骤3:分别对第一疑似敏感数据段和第二疑似敏感数据段进行加密,包括:
将所述第一疑似敏感数据段和所述第二疑似敏感数据段视为未脱敏数据;
分别判断每一所述未脱敏数据对应的敏感程度;
基于不同未脱敏数据对应的敏感程度,建立脱敏模型,对所述未脱敏数据进行脱敏工作。
8.根据权利要求7所述的一种公有云用户敏感数据管理方法,其特征在于,基于不同未脱敏数据对应的敏感程度,建立脱敏模型,对所述未脱敏数据进行脱敏工作,包括:
根据所述预设敏感词语,获取每一敏感词对应的描述信息以及扩展信息,建立敏感词索引;
将所述未脱敏数据转换为未脱敏字符串;
对所述未脱敏字符串进行词义划分,并将词义相同的字符视为一类,建立若干字符数组,并分别解析每一字符数组对应的组义;
获取所述组义的敏感程度,根据所述敏感程度在预设多模型库中获取对应的雏形脱敏模型,且对应的雏形脱敏模型包括与字符数组的数量相一致的脱敏层;
根据所述组义将字符数组输入到对应的脱敏层中,利用所述敏感词索引在所述脱敏层中进行检索,提取含有敏感词的待脱敏字符数组;
在所述待脱敏字符数组中标记待脱敏字符,并基于所述待脱敏字符与所述敏感词索引的关系,在预设敏感词索引-脱敏粒子列表中为所述待脱敏字符匹配相应的脱敏粒子;
利用所述脱敏粒子对对应的脱敏层进行脱敏工作并获取脱敏后的新字符;
利用所述新字符代替所述未脱敏字符串中对应的所述待脱敏字符,获取初级脱敏字符串,并解析所述初级脱敏字符串的语义;
若所述初级脱敏字符串的语义中存在断裂,在所述初级脱敏字符串中标记断裂处,根据断裂长度,获取脱敏字符串;
根据所述脱敏字符串建立对应的脱敏数据,并替换所述数据库中对应的未脱敏数据。
9.根据权利要求8所述的一种公有云用户敏感数据管理方法,其特征在于,根据所述脱敏字符串建立对应的脱敏数据,并替换所述数据库中对应的未脱敏数据,包括:
获取所述未脱敏数据在所述数据库中的位置,并将所述未脱敏数据从所述数据库中剔除;
将所述脱敏数据补充到剔除位置,并在所述数据库中获取与所述脱敏数据相邻的第一数据和第二数据;
分别解析所述第一数据、脱敏数据、第二数据对应的第一语义、脱敏语义、第二语义;
将所述第一语义、脱敏语义、第二语义依次连接,获取整体语义,并判断所述整体语义是否连贯;
若不是,构建连接数据,并添加到对应的数据连接处。
10.根据权利要求1所述的一种公有云用户敏感数据管理方法,其特征在于,步骤4:将加密后的数据段放置在对应原位置中,并替换原数据段之后,还包括:
在预设周期内分别检测所述数据库中每一数据的敏感程度;
当所述数据库中存在涉敏数据时,对对应的涉敏数据进行脱敏工作。
CN202210031211.6A 2022-01-12 2022-01-12 一种公有云用户敏感数据管理方法 Withdrawn CN114386100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031211.6A CN114386100A (zh) 2022-01-12 2022-01-12 一种公有云用户敏感数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031211.6A CN114386100A (zh) 2022-01-12 2022-01-12 一种公有云用户敏感数据管理方法

Publications (1)

Publication Number Publication Date
CN114386100A true CN114386100A (zh) 2022-04-22

Family

ID=81202266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031211.6A Withdrawn CN114386100A (zh) 2022-01-12 2022-01-12 一种公有云用户敏感数据管理方法

Country Status (1)

Country Link
CN (1) CN114386100A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108466A (zh) * 2022-12-28 2023-05-12 南京邮电大学盐城大数据研究院有限公司 一种基于统计语言模型的加密方法
CN116756777A (zh) * 2023-08-14 2023-09-15 上海观安信息技术股份有限公司 数据脱敏方法及装置、计算机设备和可读存储介质
CN117010019A (zh) * 2023-08-04 2023-11-07 北京泰策科技有限公司 一种基于nlp语言模型的数据脱敏方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108466A (zh) * 2022-12-28 2023-05-12 南京邮电大学盐城大数据研究院有限公司 一种基于统计语言模型的加密方法
CN116108466B (zh) * 2022-12-28 2023-10-13 南京邮电大学盐城大数据研究院有限公司 一种基于统计语言模型的加密方法
CN117010019A (zh) * 2023-08-04 2023-11-07 北京泰策科技有限公司 一种基于nlp语言模型的数据脱敏方法及系统
CN117010019B (zh) * 2023-08-04 2024-04-16 北京泰策科技有限公司 一种基于nlp语言模型的数据脱敏方法及系统
CN116756777A (zh) * 2023-08-14 2023-09-15 上海观安信息技术股份有限公司 数据脱敏方法及装置、计算机设备和可读存储介质
CN116756777B (zh) * 2023-08-14 2023-11-03 上海观安信息技术股份有限公司 数据脱敏方法及装置、计算机设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN114386100A (zh) 一种公有云用户敏感数据管理方法
CN108446540B (zh) 基于源代码多标签图神经网络的程序代码抄袭类型检测方法与系统
EP3726414A1 (en) System and methods for natural pseudonymization of text
CN108415953B (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN111797409B (zh) 一种大数据中文文本无载体信息隐藏方法
CN112989414B (zh) 基于宽度学习的移动业务数据脱敏规则生成方法
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
Jin et al. DarkBERT: A language model for the dark side of the Internet
Wu et al. A semi‐supervised active learning algorithm for information extraction from textual data
CN115730087A (zh) 基于知识图谱的矛盾纠纷分析和预警方法及其应用
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
CN110110218B (zh) 一种身份关联方法及终端
CN115618085B (zh) 一种基于动态标签的接口数据暴露探测方法
CN113657443B (zh) 一种基于soinn网络的在线物联网设备识别方法
US11429819B2 (en) Packer classification apparatus and method using PE section information
CN109918638B (zh) 一种网络数据监测方法
CN111538893A (zh) 一种从非结构化数据中提取网络安全新词的方法
CN115795060A (zh) 一种基于知识增强的实体对齐方法
CN112182069B (zh) 代理人留存预测方法、装置、计算机设备及存储介质
Shil et al. An approach for detecting Bangla spam comments on Facebook
CN114297377A (zh) 威胁指标的分析方法及分析装置
CN106095813A (zh) 一种用户标识识别方法和装置
CN112699217B (zh) 一种基于用户文本数据和通讯数据的行为异常用户识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220422

WW01 Invention patent application withdrawn after publication