CN116340387A - 一种用于数据表的个人信息披露情况统计分析方法及系统 - Google Patents

一种用于数据表的个人信息披露情况统计分析方法及系统 Download PDF

Info

Publication number
CN116340387A
CN116340387A CN202310257243.2A CN202310257243A CN116340387A CN 116340387 A CN116340387 A CN 116340387A CN 202310257243 A CN202310257243 A CN 202310257243A CN 116340387 A CN116340387 A CN 116340387A
Authority
CN
China
Prior art keywords
data table
data
personal information
field
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310257243.2A
Other languages
English (en)
Inventor
廖佳纯
陈海粟
姚思诚
焦文品
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhu Laboratory
Original Assignee
Nanhu Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhu Laboratory filed Critical Nanhu Laboratory
Priority to CN202310257243.2A priority Critical patent/CN116340387A/zh
Publication of CN116340387A publication Critical patent/CN116340387A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方案公开了一种用于数据表的个人信息披露情况统计分析方法及系统,提出了一种新的数据处理方法,对数据表制作数据目录,并基于数据目录对个人信息相关数据表进行初步标注和分类,然后再对筛选出来的个人信息相关数据表进行字段内容的全面识别,准确且高效地完成字段标识符的标注;在前述处理基础上,依据是否存在直接标识符信息记录行将数据表进行划分,依据是否含有直接标识符信息记录行对数据表进行拆分重组,能够有效提高后续处理分析和统计效率;在前述处理基础上,采用逐层分类方法分析数据表,并从多个维度进行统计分析,自动化生成个人信息披露情况结果报表,从而全面完整地刻画平台的个人信息披露情况。

Description

一种用于数据表的个人信息披露情况统计分析方法及系统
技术领域
本方案属于个人信息安全技术领域,提出一种用于数据表的个人信息披露情况统计分析方法及系统。
背景技术
依据《信息安全技术个人信息去标识化指南》,个人信息指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反应特定自然人活动状况的各种信息。个人信息标识的自然人称为个人信息主体。微数据指一个结构化数据表,其中每条(行)记录对应一个个人信息主体,记录的每个字段(列)对应一个属性。标识符为微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别,分为直接标识符和准标识符。直接标识符指在特定环境下可以单独识别个人信息主体的微数据属性,常见的直接标识符比如姓名、身份证、手机号码等。准标识符指不可单独用来识别个人,但结合其他属性可唯一识别个人信息主体的微数据属性,常见的准标识符比如性别、职业、学历等。数据平台在数据表发布前常会对数据表内容进行去标识化处理,去标识化处理即通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。在无直接标识符披露的数据表中准标识符取值相同的记录行构成等价类,等价类大小即为所有准标识符取值均相同的记录行的数量,其决定记录行对应个人被重标识的风险;等价类维度为形成该等价类的准标识符的数量,其衡量的是记录行包含个人信息的种类的多少,维度越高,则可披露的个人信息越多。而重标识则是把去标识化的数据表重新关联到原始个人信息主体或一组个人信息主体的过程。对于待去标识化的数据表,由于数据表下的同一等价类中各记录行不可区分,故同一等价类中各记录行对应的个人被重标识的概率,即记录行的重标识风险,为等价类大小的倒数。
Figure BDA0004130051750000021
Rb=maxj∈Jθj 公式2
式中:J为等价类,j∈J,fj为等价类大小,θj为重标识概率,|J|表示数据表中等价类的个数,Rb为重标识概率最大值。
在对某平台公开的数据表进行个人信息披露情况分析时通常至少包括数据分类、数据内容识别两部分:
1)数据分类,根据特定管理或业务选定的维度,将具有相似属性或特征的数据按照一定的原则和方法进行归类,数据分类任务可以对数据表集合进行分类,按照公民个人维度可以将数据分为个人信息和非个人信息。目前常见的数据分类任务主要依靠自动化工具或人工进行数据分类打标,人工分类标注较为精准但会显著增加任务周期,而全自动化的标注方法对数据表质量要求较高,现实情况下数据表的质量通常无法满足要求。
2)数据内容识别,完成对数据表中数据字段涉及信息类型的识别,主要是对数据表中的敏感信息进行识别。传统的数据内容识别方式主要采用基于人工定义及正则表达式两种方式。人工定义的方法为人工定敏感词词库,使用关键词匹配对数据表在元数据层级进行信息识别,同样对于数据表质量要求较高,若数据字段存在错位或字段名与字段内容不匹配等情况,则该方法的应用在识别可信程度上受限。正则表达式方法对于具有结构化特征的数据信息如手机号、身份证和银行卡号较为适配,但对于非结构化的文本信息中的敏感信息如姓名等则无法通过进行该方法来完成识别,以及对于非结构化的长文本中混杂的构成模式相对简单的信息无法进行准确的识别提取,如长文本段落中混杂的手机号号码等。
综上,现有技术存在如下缺陷:
现实场景中数据表存在数据格式复杂、字段不可信,以及结构化表格随机嵌套非结构化内容等不合规的客观情况,使分类和识别工作较难展开:随着信息处理和存储技术的不断发展,我国个人信息滥用问题日趋严重。在特定的数据资源平台的发布场景下,其中获取到的数据表中常常会出现个人信息匿名化不到位导致个人信息披露的情况,又因数据表的来源多样化,缺少统一标准,且其数据字段内容及字段目录往往未经验证,或存在字段名与字段内容不匹配和字段间信息内容混杂等不合规情况,传统的分类和识别任务较难直接开展。
发明内容
本方案的目的是针对上述问题,提供一种用于数据表的个人信息披露情况统计分析方法及系统,令特定数据资源平台管理者使用本发明的系统通过本发明的方法流程能够高效且准确地洞悉当前平台场景中资源发布的与个人相关的隐私信息披露的情况、数据表潜在的重标识风险以及可实现的重标识情况。
一种用于数据表的个人信息披露情况统计分析方法,包括:
S1.获取待分析数据表;
S2.清理待分析数据表并对清理后的待分析数据表制作元数据目录;
所述元数据目录的每一条目对应于一待分析数据表,包括相应待分析数据表的字段名集合以及用于指向相应待分析数据表的映射代码;以目录表为例,一行对应一个条目,当待分析数据表只有一个时,则该元数据目录表只有一行;
S3.基于映射代码匹配每一条目的待分析数据表;对元数据目录的字段名集合完成对相应数据表各字段值关于字段标识符类型的初步分类标注,并筛选元数据目录中与个人信息相关的条目;
S4.基于步骤S3的筛选结果提取对应的个人信息相关数据表,对所述的个人信息相关数据表中字段名的字段值进行全面识别;
S5.根据是否存在含直接标识符信息的记录行将个人信息相关数据表分类为类型一数据表和类型二数据表;
S6.根据数据表内记录行是否含有直接标识符信息可识别信息将类型一数据表在记录行层级拆分重组为完全由含有直接标识符可识别信息的记录行构成的A类数据表和不含有直接标识符可识别信息构成的B类数据表;;
将类型二数据表归类为B类数据表;
S7.对A类数据表和B类数据表分别进行统计分析以对待分析数据表的个人信息披露情况进行统计分析。
在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S2中,对待分析数据表的清理包括字段错位修正、字段名完善、字段名转换和特殊字符处理中的任意一种或多种的组合,以使被清理后的数据表每个字段名存在且与字段值对应,字段名以中文字符为主且字段中的特殊字符被去除;这里的特殊字符主要有空格、换行符等特殊字符;
所述的元数据目录中,每一条目还包括相应待分析数据表的数据表标题、网页链接、数据表文件名以及包含领域标注信息的数据表相关信息中的任意一种或多种的组合;
将每个待分析数据表的映射代码、字段名集合、数据表标题、网页链接、数据表文件名以及数据表相关信息建立映射以整合成所述的元数据目录。
在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S3具体包括:
S31.获取各条目中各字段名集合的字段取值特征,包括字段唯一值取值占比、采样样本的各种字符类型占比分布、字段数据类型;
S32.将字段名所在条目的数据表标题、数据表领域标注进行文本向量化,将字段集合的字段取值特征进行向量化,并将各向量特征合并;
S33.将合并的向量化的字段特征输入至经过训练的机器学习分类模型,,如决策树分类模型,模型输出各字段的标识符类型标注;
S34.根据标识符类型标注判断相应条目是否与个人信息相关,以对元数据目录筛选与个人信息相关的条目。
在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S33中,可被标注的标识符类型有直接标识符、准标识符、非标识符;
步骤S34中,当一个条目中的字段存在直接标识符、准标识符和去标识化标识符三者之一时判断该条目与个人信息相关。
在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S4中,全面识别的方式如下:
对于直接标识符,使用严格遵循一定构成模式的信息进行识别,如手机号码、身份证、银行卡号和车牌号等;使用LAC词法分析工具中的基于深度学习的命名实体识别方法对描述性文本中不具有严格构成模式进行识别和提取,如姓名等;
对于准标识符,如性别、学历和工作单位等,依据个人信息参考文件,如《网络安全标准实践指南-网络数据分级分类指引》中附录B表B.1,使用基于关键词词库的元数据识别技术进行识别匹配;
对于被去标识化的标识符,检测其去标识化程度,如使用是否含特殊字符“*”来作为判定去标识化的依据并使用含“*”字段值的占比来确认其去标识化处理的程度。去标识符化的标识符在被去标识化之前可能是直接标识符,也可能是准标识符。
在上述的用于数据表的个人信息披露情况统计分析方法中,对于A类数据表,表中每个记录行对应的个体均被直接披露。可以统计该类数据表在不同领域的分布情况,从而直观展示平台场景中各领域直接披露个体的情况;可以统计该类数据表在特定领域下对不同类个人信息的覆盖分布,从而展示平台场景在不同领域对直接披露个体的不同信息泄露情况。由于每个数据表涉及的个体数量存在较大差异,故本方法还对每个数据表涉及各相关个人信息类型的记录数量汇总,对于识别到的直接标识符信息,以各行的各直接标识符识别结果数作为涉及人数的指示;对于匹配到的准标识符字段,使用记录行数的汇总作为涉及人数的指示,并对数据表间直接标识符信息相同的个体进行去重,以作为数据表涉及人数的参考指示,从而实现对特定平台场景以单个数据表的形式披露个体及其个人信息的全面刻画与定量展示;
对于B类数据表,表中每个记录行对应的个体有被识别的潜在风险,首先依照背景技术所提到的重标识风险的计算方法,分别计算各个数据表内记录行的重标识风险,记数据表的最大重标识风险为数据表内所有记录行中最大重标识风险,并统计不同最大重标识风险下的数据表数目;可以对最大重标识风险大于或等于设定阈值的数据表,统计其在不同领域的分布情况和其在特定领域下对不同类个人信息的覆盖分布,展示平台在不同领域下高风险数据表的存在情况以及其包含的不同信息披露情况。可以对B类数据表中所有重标识风险大于或等于设定阈值的数据行进行汇总作为数据表涉及的个体数量的指示,从而实现对特定平台场景最大重标识风险大于或等于设定阈值的数据表披露个人信息的全面刻画和定量展示。设定阈值可以为1/2,1/3,1…,优选为1,此时,在实际情况下,重标识风险最大为1。
在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S7中,还包括A类数据表与B类数据表的关联分析方法:
S71.将重表示风险大于或等于设定阈值的B类数据表作为可用于关联的B类数据表;
S72.将可用于关联的B类数据表中重标识风险大于或等于设定阈值的记录行与A类数据表进行配对关联:
S721.分别获取两个数据表的准标识符字段集合,将包含同一种个人信息类型且取值相同的字段相配对,获得两数据表中所有的可匹配字段对;
S722.依据S721所确定的两数据表字段对的取值,对两数据表的记录行逐一分析,将所有准标识符字段对取值均相同,且直接标识符信息与去标识化标识符字段的剩余信息的亦相同的记录行相匹配,并作出该对记录行对应同一个人的判断;
S73.使用成功匹配的准标识符数量衡量匹配记录行对应同一个体的可信度,对于配对数据表Ai和Bj,数据表Ai扩充的信息量为数据表Bj的准标识符数量减去两数据表中所有可匹配的字段对的数量;
对于配对数据表Ai和Bj,数据表Ai扩充的个人信息的确信度为1/n,n表示Ai的一条记录行匹配于Bj的n条重标识风险大于或等于设定阈值的记录行;
S74.依据关联匹配结果,统计在不同可信度和不同确信度下实现重标识的记录数目;
对于关联匹配结果进行类似对于A类数据表的统计分析。
在上述的用于数据表的个人信息披露情况统计分析方法中,对步骤S7的统计分析结果进行可视化处理:
S81.对A类数据表和B类数据表的统计分析,从数据表数据和数据表涉及人数两个角度出发,以涉及个人信息类型为X轴,领域标签为Y轴,颜色指示数据表数目或涉及人数,以此绘制热力图来展示各领域标签下数据表对涉及个人信息类型的具体披露情况;
S82.对A、B数据表关联匹配的统计分析,设计不同角度的可视化呈现:
(1)以涉及个人信息类型为X轴,涉及人数为Y轴,以可信度为维度绘制多维度簇状柱形图来展示数据表成功关联匹配后的记录行在不同可信度下涉及各个人信息类型的具体分布情况;
(2)以数据对关联匹配后扩充的信息量为X轴,涉及人数为Y轴,以确信度范围为维度绘制多维度簇状柱形图来展示在不同确信度下记录行重标识后对信息量的扩充情况。
在上述的用于数据表的个人信息披露情况统计分析方法中,步骤S3中,完成分类标注后,由用户进行人工核验;
步骤S4中,对准标识符、直接标识符和去标识化的字段识别后,由用户对识别结果结合数据表标题、字段取值采样和字段唯一值取值占比进行辅助校验。
步骤S5中,类型一数据表含有记录行包含可独立识别个人的识别信息,其对应个体被直接披露;类型二数据表中所有记录行暴露的个人信息,其对应个人具有被识别的潜在风险。
一种个人信息披露情况统计分析系统,用于执行所述用于数据表的个人信息披露情况统计分析方法。
本方案的优点在于:
对数据质量要求很低,能够对数据质量良莠不齐的数据表,,即结构化数据表随机嵌套非结构化数据情况,进行个人信息披露统计分析,降低对人为的依赖程度,同时提高统计分析可信度;
本方案提出了一种新的数据处理方法,对数据表制作数据目录,并基于数据目录对个人信息相关数据表进行初步标注和分类,然后再对筛选出来的个人信息相关数据表进行字段内容的全面识别,准确且高效地完成字段标识符的标注;在前述处理基础上,依据是否存在直接标识符信息记录行将数据表进行划分,依据是否含有直接标识符信息记录行对数据表进行拆分重组,能够有效提高后续处理分析和统计效率;在前述处理基础上,采用逐层分类方法分析数据表,并从多个维度进行统计分析,自动化生成个人信息披露情况结果报表,从而全面完整地刻画平台的个人信息披露情况;
同时,本方案采用关联披露的思路,对使用A类数据表重标识B类数据表的可能性进行分析,能够实现多个关联数据表的个人信息披露情况统计分析,能够实现某平台数据表集合整体的的个人信息披露情况统计分析。
附图说明
图1为本发明用于数据表的个人信息披露情况统计分析方法的总流程框架图;
图2为本发明示例的原始数据表;
图3为图2示例的原始数据表经数据清洗后的第一子图和第二子图;
图4为某数据表目录示意图;
图5为本发明个人信息数据表重组模块流程图;
图6为本发明个人信息风险统计分析模块流程图;
图7为本发明分析结果可视化模块流程图;
图8为本发明数据目录建立、数据表分类、识别和标注模块流程图。
具体实施方式
下面结合附图和具体实施方式对本方案做进一步详细的说明。
图1为本发明应用开展个人信息披露情况的分析统计的总框架流程图,本发明提出了一种使用python语言实现的集分类、识别和关联等方法流程的,对于单个数据表和数据表集合中个人信息披露情况进行统计分析和可视化图表制作的运行框架。首先从某数据资源平台获取到数据表集合,然后将数据表集合进行映射制作元数据目录,再对数据表集合进行分类筛选,从中筛选出潜在与个人信息相关的数据表。然后对于标记为个人信息相关的数据表集合中每一个数据表,全面识别其数据表字段内容中的隐私信息。依靠识别检测结果和提取信息,即数据表中是否被识别到直接标识符,对数据表进行划分,并将识别到直接标识符的行从原数据表中拆分出来,重组为新的数据表。基于数据表划分重组后的不同情况,采用逐层分类讨论的方法去分析实际数据表平台场景中数据表,并从多个维度进行统计分析,自动化生成个人信息披露情况结果报表,从而全面完整地刻画平台的个人信息披露情况。具体可以包括以下步骤:
步骤一,数据目录建立,对获取到的某数据资源平台的数据表集合进行数据清理,清理其字段名使字段名尽可能为中文,若为缩写或英文则根据平台信息将字段名重新映射为中文,且去除字段名中如换行符、空格等特殊字符,确保数据表的每个字段名存在且字段名以中文字符为主,并去除字段名中的空格等特殊字符。
以极端的情况为例,如图2所示为数据平台公布的xl s格式的原始数据表,可以看到该原始数据表缺失字段名且存在错位,这是该数据平台发布时从原数据库调出数据表时操作错误导致的问题。该数据平台同时也发布了XML格式的该数据表数据,格式为树结构,包含完整数据信息,每个数据元素含有一个标签tag,该标签就是字段名,通过beautifulsoup对XML文件进行整理,将其转化为标准dataframe格式时可以把XML中tag调出作为我们所需要的xls格式中的字段名,依此调用完成对原始数据表的数据清理,通过数据清理,一步步对其转化获得最终较为规范的数据集,可得到图3中第一子图和第二子图,第一子图为对原始数据表通过XML和XLS结构转换得到的数据表;第二子图为使用数据平台上提供的数据表元数据,将第一子图数据表中的英文及缩写字段名进行转换后得到的清洗完成的数据表。
根据特定数据资源平台中给出的数据表集合的实际文件情况,首先确定数据表文件名与特定数据表名称之间的映射方式,即使用映射代码能够唯一读取特定数据表且获得到该特定数据表的正确名称。一般映射代码在数据资源平台上有提供,在获取数据表集合时可以同步获取映射代码,将映射代码记录在元数据目录中即可,可以通过算法读取特定数据表文件并获取数据表信息;若平台不提供,则将特定数据表与其所指向的文件名建立唯一映射,生成映射代码。
遍历读取数据清洗完成的数据表,获取各数据表的文件名、字段名集合、数据表标题、数据资源平台给出的数据表的相关信息(如领域标注),依据当前数据表中的字段名集合和其映射代码,将数据表的文件名、字段名集合、映射代码、标题和数据资源平台给出的数据表的相关信息如领域标注等建立物理映射,整合成为数据表数据目录。数据表目录中的每一行对应一个字段,全部记录行即数据表集合的所有字段的集合。
图4为数据表目录建立映射的具体示例,其中title为数据表标题,domain为领域标注信息,url为数据平台对应该数据表的网页url链接,filecode为映射代码,filenames为具体数据表文件名称,columns为清理后的字段名集合。
步骤二,数据表分类,使用清理完成的数据表集合和建立的数据目录,根据映射读取数据表,对数据表进行预处理和字段内容的特征信息提取和检测,获取其包括字段唯一值取值占比、采样样本的各种字符类型占比分布(如是否为中文、数字和英文等)、字段数据类型,使用这些特征信息对字段进行向量化,使用字段名所在条目的数据表标题和领域标注进行文本向量化,将各向量特征合并得到向量化的字段特征。将合并的向量化特征输入至训练完成的决策树模型中,进行预测以获得关于字段标识符类型的分类标注,对数据表的各字段完成初步的分类标注,即字段为直接标识符、去标识化的标识符、准标识符或非标识符,再进行数据表中字段标注的汇总,初步确认数据表是否与个人信息相关。
字段特征包含字段所在数据表标题、字段所在数据表领域标注、字段数据类型、字段名本身、字段数据类型以及该字段下字段的取值采样样本的字符类型占比比值、该字段字段唯一值取值占比等。
可能的字段数据类型有int、float、object、date、bool等。纯文本的字段为object;纯手机号的字段应为int但也会存在误存为float的情况需要提前清洗转换;字段中取值既有数字又有文本则为object,日期类字段数据类型为date。
字段唯一值取值占比计算如下:
对于给定数据表K中字段j,获取字段j去除空集后的总字段元素长度记作all_lengthj,获取字段j去除空值后再使用unique()去重复值后的当前总字段元素长度记作uni_lengthj,将两种元素长度输入到下式中:
Figure BDA0004130051750000121
计算字段唯一值取值占比的目的使用一个指标代表该字段的取值分布特征,以作为特征变量输入决策树模型。举例来说,一个汇总教师信息的数据集中存在一个展示姓名的字段和一个展示单位名称的字段。因为姓名作为直接标识符,在特定环境下可以唯一确定一个个人信息主体,故展示姓名的字段的字段唯一值取值比例一般在0.95以上(非一般情况为重名和重复记录)。而单位名称为准标识符,不同个人信息主体可以在同一个单位,故展示单位名称的字段的字段唯一取值比例一般在不会很高,多在0.5以下。由此该指标可以在一定程度上判别直接标识符和准标识符,可以作为数据集字段标注的的特征变量,以帮助进行数据集分类。
通过三个字段示例对字段的取值采样样本的字符类型占比比值进行解释说明:
第一个字段为规范数据集中的姓名字段,字段数据类型为object类型,采样获得十个取值样本,如张三、李四、王五等,每个取值样本中的每个字符均为中文字符。故每个取值样本的中文字符占比为1,其余字符类型占比比如英文和数字及分割字符(空格、下划线、句号、逗号)和特殊字符“*”占比为0。则根据十个取值样本可以计算并扩大到整个字段。
第二个字段为规范数据集中的身份证字段,由于身份证中最后一位校验码中有X的存在,故身份证可能存在完全为数字的号码也可能存在数字和字母混杂的号码,字段数据类型为object类型。采样获得十个取值样本,对于完全为数字的号码,其数字字符占比为1,而其他字符类型为0,;对于含X的号码,其数字字符占比为17/18=0.94,英文字符占比为1/18=0.06,其余为0。
第三个字段为匿名化处理数据集中的姓名字段,字段数据类型为object,采样获取十个样本,有张*三,李*四和王*等,字段取值由中文字符和特殊字符“*”组成,即样本的中文字符占比为0.66或0.5,特殊字符“*”占比为0.33或0.5。再根据取之样本的字符占比计算扩大到整个字段。
举一个数据表的例子,一个“教育文化”领域的标题为“某市优秀班主任”的数据集,以其中“教师姓名”字段为例,在采样了十个样本后发现唯一值比例很低,特殊字符“*”比例较高,原来该字段进行了去标识化,故分类模型对字段属于“去标识化标识符”的标注决策。
而同样的数据表,以其中的“序号”字段,采样样本虽唯一值比例很高,数字字符或英文字符比例较高,但其字段名“序号”在预训练的分类模型中通常被标注为非标识符,故模型作出字段属于“非标识符”的标注决策。
分类标注的主要目的是预先分析判断数据表的字段是否与个人信息相关,用于后续隐私信息识别检测任务、单一数据表和关联多个数据表的分析统计任务的展开。
步骤三,字段信息识别和标注,通过分类标注获得个人信息相关数据表后,对数据表集合中每个数据表内容进行全面识别,使用识别算法对数据表中结构化和非结构化的各字段进行遍历识别筛查。识别算法包括正则表达式、命名实体识别方法、关键词匹配等算法工具。由正则表达式方法完成对手机号码、身份证、银行卡号和车牌号等构成规则特征明显的字符串文本的识别;命名实体识别方法选用LAC词法分析工具,用于对文本中的姓名进行识别和提取。
同时也进行去标识化标识符字段的识别,通过判断字段中含常用屏蔽字符的字段值的数量占该字段长度的比例来初步判别字段是否属于去标识化的标识符。如使用是否含特殊字符“*”来作为判定去标识化的依据并使用含“*”字段值的占比来确认其去标识化处理的程度。
对于数据表中剩余的字段,如性别、学历和工作单位等种类复杂繁多的准标识符信息,使用词库,如《网络安全标准实践指南-网络数据分级分类指引》(以下简称为《指引》)中附录B表B.1的个人信息分类参考示例,使用字段名关键词匹配并结合字段值样本进行准标识符字段的标注。
该步骤获得字段完成标识符标注,如是否含直接标识符信息、是否为去标识化的标识符字段和准标识符字段的目录。
步骤四、根据数据表识别结果中直接标识符信息存在有无,数据资源平台中涉及个人信息的数据表可以分为两种类型:(1)数据表含有记录行包含可独立识别个人的识别性信息,其对应个体被直接披露;(2)数据表中所有记录行暴露的个人信息,其对应个体仅有被识别的潜在风险。因此数据资源平台对个人信息的披露可以区分为直接披露个体和个体有重识别风险两个层次,且平台直接披露个体的情况又可分为单个数据表直接披露和平台多数据表关联披露两种不同方式。
故本方案,按照图5的流程将相关数据表集合依照数据表是否含直接标识符信息区分为类型(一)数据表和类型(二)数据表,再对类型(一)数据表中记录行是否包含可识别信息在记录行的层级进行拆分,将含有可识别性信息的和不含可识别性信息的记录行分别聚合,形成所有记录行均包含可识别性信息的新数据表,记为A类数据表,和所有记录行均不包含可识别性信息的新数据表,此类新数据表和上述类型(二)的数据表一样,所有记录行对应个体仅有被识别的潜在风险,被统称为B类数据表。可识别信息是指具有直接标识符的信息,仅有准标识符或去标识化的标识符的信息为不可识别信息。并在A类数据表中加入在识别过程中检测到的五类直接标识符信息,已识别的信息的添加与记录行保持对应,以方便后续分析和统计。如一个由描述性文本组成的字段“案件描述”,其中可能会出现身份证号、姓名、手机号等,但这些信息是被包含在非结构化的文本中的,并不是结构化的,本方案在识别过程中检测到这些信息后将其提出并添加在原始数据表中,形成数列结构化的字段。已识别的信息的添加与记录行保持对应意思是某行“案件描述”中一段文本提取到的姓名和身份证在添加的结构化的字段中的行索引应与该行“案件描述”保持一致,代表这些姓名和身份证是从这一行信息中提取出来的。
对任一平台场景,A类数据表数目与上述类型(一)的数据表数目相等,而B类数据表数目则不会少于上述类型(二)的数据表数目。A和B两类数据表中所有记录行对个人信息的披露可分别对应图1中"个体直接披露"和“个体有重识别风险”两个层次。
步骤五、依据数据资源平台赋给数据表的领域标签和《指引》文件对于个人信息的分类,对A类数据表、B类数据表和关联结果分别进行不同流程的统计分析,如图6所示:
1)A类数据表中每个记录行对应的个体均被直接披露。对于A类数据表中的直接标识符信息和准标识符信息的字段名,依照《指引》中附录B表B.1,通过建立信息类型字典进行信息类型分类。常规数据表涉及披露的个人信息类型主要有:个人基本信息、个人身份信息、个人健康生理信息、个人教育工作信息、个人财产信息和其他信息。统计该类数据表在不同领域的分布情况,可直观展示平台场景中各领域直接披露个体的情况;统计该类数据表在特定领域下对不同类个人信息的覆盖分布,可展示平台场景在不同领域对直接披露个体的不同信息泄露情况。由于每个数据表涉及的个体数量存在较大差异,故本实施例对每个数据表涉及各相关个人信息类型的记录数量汇总(对于识别到的直接标识符信息,以各行的各直接标识符识别结果数作为涉及人数的指示;对于匹配到的准标识符字段,使用记录行数的汇总作为涉及人数的指示)。
在个人信息类型分类过程中,一种类型下可能既包含直接标识符也包含准标识符,如个人基本信息包括姓名、性别、年龄、民族等。对于数据表中识别到的直接标识符,在统计涉及人数时,相关个人信息类型的记录数量参考各直接标识符的识别结果;对于数据表中匹配到的准标识符字段,在统计涉及人数时,相关个人信息类型的记录数量参考各准标识符字段下有效的记录行数。最后将数据表间直接标识符信息相同的个体进行去重后,再统计数据表涉及相关个人信息类型的数据表数目和涉及人数。
通过以上统计分析方法实现对特定平台场景以单个数据表的形式披露个体及其个人信息的全面刻画与定量展示。
2)对于B类数据表,数据表中每个记录行对应的个体有被识别的潜在风险,首先将各数据表内的所有准标识符字段组合形成等价类,依照背景技术中描述的重标识风险的计算方法,分别计算各个数据表内记录行的重标识风险。统计并提取在该等价类筛选条件唯一的记录行,记作重标识风险为1的记录行,对最大重标识风险为1的数据表,对其采用如A类数据表式的统计方式,但鉴于该类数据表中不含直接标识符,故在统计该类数据表涉及相关个人信息类型的涉及人数时,仅参考数据表中匹配到的准标识符字段下有效的记录行的数量,作为数据表涉及的个体数量的指示。统计其在不同领域的分布情况和其在特定领域下对不同类个人信息的覆盖分布,可展示平台在不同领域下高风险数据表的存在情况以及其包含的不同信息披露情况。对B类数据表中所有重标识风险为1的数据行进行汇总作为数据表涉及的个体数量的指示,从而实现对特定平台场景最大重标识风险为1的数据表披露个人信息的全面刻画和定量展示。
3)将A类数据表与B类数据表中重标识风险为1的的记录行进行关联,按照准标识符字段信息分布匹配的方法,首先确认两数据表中所有的存在共同取值的可匹配准标识符字段对,再依据两数据表准标识符字段对的取值,逐行进行准标识符匹配判断,若两记录行的所有准标识符字段对取值均匹配,且直接标识符信息和去标识化标识符字段的剩余信息亦配对,则两记录行可被认为是匹配,将被记录到关联匹配结果中。对于关联匹配结果进行同A类数据表相似的涉及人数的统计方式。
在完成记录行关联匹配后,成功匹配的准标识符数量可以用于衡量匹配记录行对应同一个体的可信度。对于配对数据表Ai和Bj,数据表Ai扩充的信息量为数据表Bj的准标识符数量减去两数据表中所有可匹配的字段对的数量。此外,鉴于存在A类数据表中Ai的一条记录行通过分步匹配方法后可能对应B类数据表中Bj的n条重标识风险为1的记录行在所有可匹配准标识符字段对的取值上均匹配,这里定义在关联匹配后,对于配对数据表Ai和Bj,数据表Ai扩充的个人信息的确信度为1/n。最后依据关联匹配结果,统计在不同可信度和不同确信度下实现重标识的记录数目。
本方案采用分布匹配的方式,在两数据表的层级先确认所有的存在共同取值的可匹配准标识符字段对,依据两数据表准标识符字段对的取值,再逐行进行准标识符匹配判断。依靠准标识符的匹配,对匹配用的数据表进行切片压缩,再遍历匹配,能够在达到关联分析的同时大大缩减算力消耗。
步骤六、对于步骤五中三部分获得的统计结果,依照图7描述的流程,分别进行可视化制图。A类数据表、B类数据表数目和涉及人数分布热力图由涉及的个人信息类型组成X轴标签,由数据表所在领域的标签组成Y轴标签,数据表数目或涉及人数指示X、Y标签对应的具体区块的色彩值域。以此绘制热力图来展示各领域标签下数据表对涉及个人信息类型的具体披露情况。
对关联匹配记过进行可信度和确信度的计算,依照相关维度对记录对的数量进行汇总作为涉及人数的参考。关联匹配信息披露情况多维度簇状柱形图由涉及的个人信息类型构成X轴标签,由涉及人数构成Y轴标签,由可信度构成柱状图的参考维度;关联匹配信息扩充情况多维度簇状柱形图由关联后个人信息扩充量构成X轴标签,由涉及人数构成Y轴标签,由确信度范围构成柱状图的参考维度。以此绘制多维度簇状柱形图来展示在不同确信度下记录行重标识后对信息量的扩充情况
如图8所示,在另一实施例中,步骤二中,初步确认数据表是否与个人信息相关后,再由人工对分类标注仅进行否定性筛查,对标注为个人信息数据表的数据表进行人工核验。步骤三中,对于识别到的直接标识符和去标识化的标识符可以伴随人工进行辅助校验,尽可能确保标注的准确性。同时对除直接标识符字段和去标识化标识符字段的剩余字段也可以在进行关键词匹配的同时配合人工辅助校验进行准标识符字段的标注。该实施例中,在识别流程中可使用人机交互式模式,在保证直接标识符信息高效识别的同时,对于准标识符信息的识别保有准确性,尽可能减少误判。
本方案基于数据分类分级、数据内容识别等相关技术,着眼于数据资源平台场景下数据质量良莠不齐较难完成常规识别和分析统计任务的现实情况,提出了一种使用python语言实现的集数据清洗、分类、识别和关联等流程的统计分析方法、系统和可视化制图应用工具。通过本发明的框架提出的依据识别结果的数据表集合的类型划分和拆分重组原数据表集合的方法和分步匹配的流程,以及框架定义可信度和确信度概念进行可视化制图的方法,管理者能够在实际数据资源平台场景中对于单个数据表和数据表集合中个人信息披露情况进行统计分析,且统计结果的可信程度可评估、可查证,使使用本发明的的特定数据资源平台管理者能够高效且准确地洞悉当前平台场景中资源发布的与个人相关的隐私信息披露的情况、数据表潜在的重标识风险以及可实现的重标识情况。
本文中所描述的具体实施例仅仅是对本方案精神作举例说明。本方案所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本方案的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种用于数据表的个人信息披露情况统计分析方法,其特征在于,包括:
S1.获取待分析数据表;
S2.清理待分析数据表并对清理后的待分析数据表制作元数据目录;
所述元数据目录的每一条目对应于一待分析数据表,包括相应待分析数据表的字段名集合以及用于指向相应待分析数据表的映射代码;
S3.基于映射代码匹配每一条目的待分析数据表;
对每一条目的字段名集合完成以相应数据表各字段取值信息为特征向量的关于字段标识符类型的初步分类标注,并筛选元数据目录中与个人信息相关的条目;
S4.基于步骤S3的筛选结果提取对应的个人信息相关数据表,对所述的个人信息相关数据表中字段名的字段值进行全面识别;
S5.根据数据表是否存在含直接标识符信息的记录行将个人信息相关数据表分类为类型一数据表和类型二数据表;
S6.根据数据表内记录行是否含有直接标识符信息将类型一数据表在记录行层级拆分重组为完全由含有直接标识符信息的记录行构成的A类数据表和不含有直接标识符信息构成的B类数据表;
将类型二数据表归类为B类数据表;
S7.对A类数据表和B类数据表分别进行统计分析以对待分析数据表的个人信息披露情况进行统计分析。
2.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S2中,对待分析数据表的清理包括字段错位修正、字段名完善、字段名转换和特殊字符处理中的任意一种或多种的组合,以使被清理后的数据表每个字段名存在且与字段值对应,字段名以中文字符为主且字段中的特殊字符被去除;
所述的元数据目录中,每一条目还包括相应待分析数据表的数据表标题、网页链接、数据表文件名以及包含领域标注信息的数据表相关信息中的任意一种或多种;将每个待分析数据表的映射代码、字段名集合、数据表标题、网页链接、数据表文件名以及数据表相关信息建立映射以整合成所述的元数据目录。
3.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S3具体包括:
S31.获取各条目中各字段名集合的字段取值特征;
S32.将字段名所在条目的数据表标题、数据表领域标注进行文本向量化,将字段集合的字段取值特征进行向量化,并将各向量特征合并;
S33.将合并的向量化特征输入至经过训练的机器学习分类模型,模型输出各字段的标识符类型标注;
S34.根据标识符类型标注判断相应条目是否与个人信息相关,以对元数据目录筛选与个人信息相关的条目。
4.根据权利要求4所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S33中,可被标注的标识符类型有直接标识符、去标识化的标识符、准标识符、非标识符;
步骤S34中,当一个条目中的字段存在直接标识符、准标识符和去标识化标识符三者之一时判断该条目指向的数据表与个人信息相关。
5.根据权利要求4所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S4中,全面识别的方式如下:
对于直接标识符,使用正则表达式对严格遵循一定构成模式的信息进行识别;使用命名实体识别方法对描述性文本中不具有严格构成模式的信息进行识别和提取;
对于准标识符,依据个人信息参考文件,使用基于关键词词库的元数据识别技术进行识别匹配;
对于被去标识化的标识符,检测其去标识化程度。
6.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,对于A类数据表,根据设定进行信息披露情况统计分析;
对于B类数据表,依照重标识风险的计算方法,分别计算各个数据表内记录行的重标识风险,记数据表的最大重标识风险为数据表内所有记录行中最大重标识风险;对最大重标识风险大于或等于设定阈值的数据表根据设定进行信息披露情况统计分析。
7.根据权利要求6所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S7中,还包括A类数据表与B类数据表的关联分析方法:
S71.将重标识风险大于或等于设定阈值的B类数据表作为可用于关联的数据表;
S72.将可用于关联的B类数据表中重标识风险大于或等于设定阈值的记录行与A类数据表进行配对关联:
S721.分别获取两个数据表的准标识符字段集合,将包含同一种个人信息类型且取值相同的字段相配对,获得两数据表中所有的可匹配字段对;
S722.依据S721所确定的两数据表字段对的取值,对两数据表的记录行逐一分析,将所有准标识符字段对取值均相同,且直接标识符信息与去标识化标识符字段的剩余信息的亦相同的记录行相匹配,并作出该对记录行对应同一个人的判断;
S73.使用成功匹配的准标识符数量衡量匹配记录行对应同一个体的可信度,对于配对数据表Ai和Bj,数据表Ai扩充的信息量为数据表Bj的准标识符数量减去两数据表中所有可匹配的字段对的数量;
对于配对数据表Ai和Bj,数据表Ai扩充的个人信息的确信度为1/n,n表示Ai的一条记录行匹配于Bj的n条重标识风险大于或等于设定阈值的记录行;
S74.依据关联匹配结果,统计在不同可信度和不同确信度下实现重标识的记录数目;
对于关联匹配结果进行类似对于A类数据表的统计分析。
8.根据权利要求7所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,本方法还包括对步骤S7的统计分析结果进行可视化处理:
S81.对A类数据表和B类数据表的统计分析,从数据表数目和数据表涉及人数两个角度出发,以涉及个人信息类型为X轴,领域标签为Y轴,颜色指示数据表数目或涉及人数,以此绘制热力图来展示各领域标签下数据表对涉及个人信息类型的具体披露情况;
S82.对A、B数据表关联匹配的统计分析,设计不同角度的可视化呈现:
(1)以涉及个人信息类型为X轴,涉及人数为Y轴,以可信度为维度绘制多维度簇状柱形图来展示数据表成功关联匹配后的记录行在不同可信度下涉及各个人信息类型的具体分布情况;
(2)以数据对关联匹配后扩充的信息量为X轴,涉及人数为Y轴,以确信度范围为维度绘制多维度簇状柱形图来展示在不同确信度下记录行重标识后对信息量的扩充情况。
9.根据权利要求1所述的用于数据表的个人信息披露情况统计分析方法,其特征在于,步骤S3中,完成分类标注后,由用户进行人工核验;
步骤S4中,对准标识符、直接标识符和去标识化的字段识别后,由用户进行辅助校验。
步骤S5中,类型一数据表含有记录行包含可独立识别个人的识别信息,其对应个体被直接披露;类型二数据表中所有记录行暴露的个人信息,其对应个人具有被识别的潜在风险。
10.一种个人信息披露情况统计分析系统,用于执行权利要求1-9任意一项所述用于数据表的个人信息披露情况统计分析方法。
CN202310257243.2A 2023-03-17 2023-03-17 一种用于数据表的个人信息披露情况统计分析方法及系统 Pending CN116340387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310257243.2A CN116340387A (zh) 2023-03-17 2023-03-17 一种用于数据表的个人信息披露情况统计分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310257243.2A CN116340387A (zh) 2023-03-17 2023-03-17 一种用于数据表的个人信息披露情况统计分析方法及系统

Publications (1)

Publication Number Publication Date
CN116340387A true CN116340387A (zh) 2023-06-27

Family

ID=86894243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310257243.2A Pending CN116340387A (zh) 2023-03-17 2023-03-17 一种用于数据表的个人信息披露情况统计分析方法及系统

Country Status (1)

Country Link
CN (1) CN116340387A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827991A (zh) * 2024-03-06 2024-04-05 南湖实验室 一种半结构化数据中个人标识信息识别方法与系统
CN117827991B (zh) * 2024-03-06 2024-05-31 南湖实验室 一种半结构化数据中个人标识信息识别方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827991A (zh) * 2024-03-06 2024-04-05 南湖实验室 一种半结构化数据中个人标识信息识别方法与系统
CN117827991B (zh) * 2024-03-06 2024-05-31 南湖实验室 一种半结构化数据中个人标识信息识别方法与系统

Similar Documents

Publication Publication Date Title
US8325189B2 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
US20200387543A1 (en) Trademark inquiry result proximity evaluating and sorting method and device
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN109241527B (zh) 一种中文商品虚假评论数据集自动生成方法
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
TWI743623B (zh) 基於人工智慧的商務智慧系統及其分析方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN114218391A (zh) 一种基于深度学习技术的敏感信息识别方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
CN112148735B (zh) 一种用于结构化表格数据知识图谱的构建方法
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN113935880A (zh) 政策推荐方法、装置、设备及存储介质
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
CN111402068B (zh) 基于大数据的保费数据分析方法、装置及存储介质
Ritze Web-scale web table to knowledge base matching
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination