CN109902509A - 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置 - Google Patents
一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置 Download PDFInfo
- Publication number
- CN109902509A CN109902509A CN201910071403.8A CN201910071403A CN109902509A CN 109902509 A CN109902509 A CN 109902509A CN 201910071403 A CN201910071403 A CN 201910071403A CN 109902509 A CN109902509 A CN 109902509A
- Authority
- CN
- China
- Prior art keywords
- chinese address
- character string
- masking
- data
- arabic numerals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置,该方法采用如下步骤实现对中文地址中阿拉伯数字的遮蔽,输入中文地址字符串,将待脱敏的中文地址字符串输入至数据脱敏方法入口中,等待处理;识别中文地址字符串中的阿拉伯数字;使用遮蔽字符替换阿拉伯数字;输出脱敏后的中文地址字符串,将脱敏遮蔽后的中文地址字符串进行输出,方法结束。使用该方法可用于对地址数据的脱敏,且不影响用户画像、基于地理位置的分析等实际场景对地址精度的需求,在保护用户隐私和数据使用方面达到了较好的平衡点,可提升现有对中文地址脱敏方法的运行速率;同时本发明还提供了一种实现上述方法的装置。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及对中文字符中的特定字符进行脱敏处理的领域。
背景技术
随着大数据技术的发展,大数据平台越来越多为数据集中存储和数据深度挖掘分析提供平台支撑。然而大数据技术最初的设计并未完善的考虑其安全性,这些平台专注于发展数据处理能力,忽视了其他能力的发展,大数据平台作为一个分布式系统,承载了丰富的应用,集中了海量的数据,如何管理和保护这些数据充满了挑战。另一方面,大量的数据需要挖掘分析,过于封锁屏蔽数据无疑是对大数据平台的浪费,如何才能在信息便捷传递共享的基础上,对数据进行合理的处理,使数据隐私保护和数据挖掘分析达成合理的平衡点,也是当下需要重点解决的问题。
中华人民共和国网络安全法第42条规定:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”。中文地址数据可用于用户画像等数据分析场景,但其必须是经过数据脱敏处理后方可用于数据分析。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
中文地址数据的格式具有不确定性,由于数据质量的问题,通常存在不规律性,使用基于文本分析的脱敏方法通常需要对中文地址数据进行补齐与校正后方可对其进行脱敏,但这种脱敏方法效率较低,且需要根据不同的业务系统进行策略调整。
发明内容
有鉴于此,本发明提供一种基于阿拉伯数据遮蔽的中文地址数据脱敏方法,可用于对地址数据的脱敏,且不影响用户画像、基于地理位置的分析等实际场景对地址精度的需求,在保护用户隐私和数据使用方面达到了较好的平衡点,可提升现有对中文地址脱敏方法的运行速率。
为了实现上述目的,本发明提供如下技术方案:
一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法,其特征在于,该方法包括如下步骤:
输入中文地址字符串,将待脱敏的中文地址字符串输入至数据脱敏方法入口中,等待处理;
识别中文地址字符串中的阿拉伯数字,使用判定逻辑对输入的中文地址字符串中的文字进行逐一识别,记录其中的阿拉伯数字的具体位置,并将位置存于数组A中;
使用遮蔽字符替换阿拉伯数字;根据记录的阿拉伯数字的具体位置数组A,将A中存储位置的阿拉伯数字字符用遮蔽字符进行代替;
输出脱敏后的中文地址字符串,将脱敏遮蔽后的中文地址字符串进行输出,方法结束。
同时,本发明还提供一种实现基于阿拉伯数字遮蔽的中文地址数据脱敏方法的装置,其特征在于,该装置包括:
数据输入及缓存模块,其实现中文地址字符串的输入及临时存储,等待后续提取数据指令;
数据提取及识别模块,其用于对所述数据输入及缓存模块发送数据提取指令,并对提取的中文地址字符串中的阿拉伯数字进行识别;
遮蔽处理模块,其对所述数据提取及识别模块中已经识别为中文地址字符串中的阿拉伯数字进行遮蔽处理;
输出模块,其对所述遮蔽处理模块处理后的含遮蔽字符的中文地址字符串进行输出。
与现有技术相比,本发明提供的一种基于阿拉伯数据遮蔽的中文地址数据脱敏方法,可用于对地址数据的脱敏,且不影响用户画像、基于地理位置的分析等实际场景对地址精度的需求,显著提升现有对中文地址脱敏方法的运行速率。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明基于阿拉伯数字遮蔽的中文地址数据脱敏方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
根据本发明的一个实施例,如图1所示,提供一种基于阿拉伯数据遮蔽的中文地址数据脱敏方法:
输入中文地址字符串。将待脱敏的中文地址字符串,例如“山西省太原市万柏林区兴华街丽日小区3号楼2单元602”输入至所述方法入口中,等待处理;
识别中文地址字符串中的阿拉伯数字。使用判定逻辑对输入的中文地址字符串中的文字进行逐一识别,记录其中的阿拉伯数字的具体位置,阿拉伯数字的位置是字符串的第18、21、24、25、26位,因而A=[18,21,24,25,26],如表1所述;
输入 | 山 | 西 | 省 | 太 | 原 | 市 | 万 | 柏 | 林 | 区 | 兴 | 华 | 街 | 丽 | 日 | 小 | 区 | 3 | 号 | 楼 | 2 | 单 | 元 | 6 | 0 | 2 |
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |
是否为数字 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 是 |
使用遮蔽字符替换阿拉伯数字。根据前述记录的阿拉伯数字位置数组A,将指定位置的阿拉伯数字用遮蔽字符进行代替;本例使用的遮蔽字符为“*”,对原字符串中的第18、21、24、25、26位用“*”进行替换,得到的结果是“山西省太原市万柏林区兴华街丽日小区*号楼*单元***”,如表2所示;
输入 | 山 | 西 | 省 | 太 | 原 | 市 | 万 | 柏 | 林 | 区 | 兴 | 华 | 街 | 丽 | 日 | 小 | 区 | 3 | 号 | 楼 | 2 | 单 | 元 | 6 | 0 | 2 |
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |
是否为数字 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 是 |
输出 | 山 | 西 | 省 | 太 | 原 | 市 | 万 | 柏 | 林 | 区 | 兴 | 华 | 街 | 丽 | 日 | 小 | 区 | * | 号 | 楼 | * | 单 | 元 | * | * | * |
输出脱敏后的中文地址字符串。将脱敏遮蔽后的中文地址字符串“山西省太原市万柏林区兴华街丽日小区*号楼*单元***”进行输出,可供用户画像或基于地理位置的分析等实际场景下使用,方法结束。
根据本发明的另一实施例,本发明还提供一种实现基于阿拉伯数据遮蔽的中文地址数据脱敏方法的装置,该装置包括:
数据输入及缓存模块,其实现中文地址字符串的输入及临时存储,等待后续提取数据指令;
数据提取及识别模块,其用于对所述数据输入及缓存模块发送数据提取指令,并对提取的中文地址字符串中的阿拉伯数字进行识别;
遮蔽处理模块,其对所述数据提取及识别模块中已经识别为中文地址字符串中的阿拉伯数字进行遮蔽处理;
输出模块,其对所述遮蔽处理模块处理后的含遮蔽字符的中文地址字符串进行输出。
从脱敏后的结果中文地址字符串可以看出,其将具体门牌号码的阿拉伯数字进行了遮蔽,即使该地址泄露,获得者也无法根据脱敏后信息定位到用户个人,从而有效保护了用户隐私,符合国家网络安全法相关规定;另一方面,在用户画像或基于地理位置的分析等实际场景中,使用该地址不影响对某省、某市或某小区的数据分析结果,其精度可满足一般数据分析需求。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法,其特征在于,该方法包括如下步骤:
输入中文地址字符串,将待脱敏的中文地址字符串输入至数据脱敏方法入口中,等待处理;
识别中文地址字符串中的阿拉伯数字;
使用遮蔽字符替换阿拉伯数字;
输出脱敏后的中文地址字符串,将脱敏遮蔽后的中文地址字符串进行输出,方法结束。
2.根据权利要求1所述的方法,其特征在于:在所述识别中文地址字符串中的阿拉伯数字步骤中,使用判定逻辑对输入的中文地址字符串中的文字进行逐一识别,记录其中的阿拉伯数字的具体位置,并将位置存于数组A中。
3.根据权利要求2所述的方法,其特征在于,在所述使用遮蔽字符替换阿拉伯数字的步骤中,根据记录的阿拉伯数字的具体位置数组A,将A中存储位置的阿拉伯数字字符用遮蔽字符进行代替。
4.一种实现如权利要求1所述的基于阿拉伯数字遮蔽的中文地址数据脱敏方法的装置,其特征在于,该装置包括:
数据输入及缓存模块,其实现中文地址字符串的输入及临时存储,等待后续提取数据指令;
数据提取及识别模块,其用于对所述数据输入及缓存模块发送数据提取指令,并对提取的中文地址字符串中的阿拉伯数字进行识别;
遮蔽处理模块,其对所述数据提取及识别模块中已经识别为中文地址字符串中的阿拉伯数字进行遮蔽处理;
输出模块,其对所述遮蔽处理模块处理后的含遮蔽字符的中文地址字符串进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910071403.8A CN109902509A (zh) | 2019-01-25 | 2019-01-25 | 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910071403.8A CN109902509A (zh) | 2019-01-25 | 2019-01-25 | 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109902509A true CN109902509A (zh) | 2019-06-18 |
Family
ID=66944165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910071403.8A Pending CN109902509A (zh) | 2019-01-25 | 2019-01-25 | 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902509A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008282238A (ja) * | 2007-05-11 | 2008-11-20 | Hitachi Systems & Services Ltd | 名刺情報取得システム及び名刺情報取得方法 |
CN104933024A (zh) * | 2015-05-12 | 2015-09-23 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN106203139A (zh) * | 2016-07-13 | 2016-12-07 | 成都知道创宇信息技术有限公司 | 一种数据局部脱敏方法 |
CN106959955A (zh) * | 2016-01-11 | 2017-07-18 | 中国移动通信集团陕西有限公司 | 一种数据库的数据处理方法及装置 |
CN108268800A (zh) * | 2017-12-29 | 2018-07-10 | 上海上讯信息技术股份有限公司 | 一种可配置区域范围和信息格式的地址脱敏方法 |
CN108418676A (zh) * | 2018-01-26 | 2018-08-17 | 山东超越数控电子股份有限公司 | 一种基于权限的数据脱敏方法 |
CN108829789A (zh) * | 2018-06-01 | 2018-11-16 | 平安普惠企业管理有限公司 | 日志处理方法、装置、计算机设备和存储介质 |
CN108846292A (zh) * | 2018-05-30 | 2018-11-20 | 中国联合网络通信集团有限公司 | 脱敏处理方法及装置 |
-
2019
- 2019-01-25 CN CN201910071403.8A patent/CN109902509A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008282238A (ja) * | 2007-05-11 | 2008-11-20 | Hitachi Systems & Services Ltd | 名刺情報取得システム及び名刺情報取得方法 |
CN104933024A (zh) * | 2015-05-12 | 2015-09-23 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN106959955A (zh) * | 2016-01-11 | 2017-07-18 | 中国移动通信集团陕西有限公司 | 一种数据库的数据处理方法及装置 |
CN106203139A (zh) * | 2016-07-13 | 2016-12-07 | 成都知道创宇信息技术有限公司 | 一种数据局部脱敏方法 |
CN108268800A (zh) * | 2017-12-29 | 2018-07-10 | 上海上讯信息技术股份有限公司 | 一种可配置区域范围和信息格式的地址脱敏方法 |
CN108418676A (zh) * | 2018-01-26 | 2018-08-17 | 山东超越数控电子股份有限公司 | 一种基于权限的数据脱敏方法 |
CN108846292A (zh) * | 2018-05-30 | 2018-11-20 | 中国联合网络通信集团有限公司 | 脱敏处理方法及装置 |
CN108829789A (zh) * | 2018-06-01 | 2018-11-16 | 平安普惠企业管理有限公司 | 日志处理方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
HT799426868: ""java对地址字符串脱敏"", 《URL:HTTPS://BLOG.CSDN.NET/HT799426868/ARTICLE/DETAILS/78521336》 * |
江堂碧: ""支持挖掘的流式数据脱敏关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570144B (zh) | 推荐信息的方法和装置 | |
CN108229158B (zh) | 一种Android中存储的用户隐私信息的保护方法 | |
CN104766012B (zh) | 基于动态污点追踪的数据安全动态检测方法及系统 | |
Lee et al. | A novel approach for event detection by mining spatio-temporal information on microblogs | |
CN104966031B (zh) | 安卓应用程序中非权限相关隐私数据的识别方法 | |
CN105956180B (zh) | 一种敏感词过滤方法 | |
US10067919B2 (en) | Feedback tool | |
CN108280130A (zh) | 一种在文本大数据中发现敏感数据的方法 | |
CN107239694B (zh) | 一种基于用户评论的Android应用权限推理方法及装置 | |
CN109873813B (zh) | 文本输入异常监控方法、装置、计算机设备及存储介质 | |
US7266554B2 (en) | Document extracting device, document extracting program, and document extracting method | |
CN105045715B (zh) | 基于编程模式和模式匹配的漏洞聚类方法 | |
CN106951562A (zh) | 一种中文姓名数据的脱敏方法及装置 | |
Weber et al. | Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents | |
CN105656594B (zh) | 基于信道差异的转发式gnss欺骗干扰检测方法 | |
Carpineto et al. | Semantic search log k-anonymization with generalized k-cores of query concept graph | |
CN106803028A (zh) | 一种防止安卓手机短信验证码被窃取的方法 | |
CN108197112A (zh) | 一种从新闻中提取事件的方法 | |
CN109902509A (zh) | 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置 | |
Zerbe et al. | Optimized hot spot and directional distribution analyses characterize the spatiotemporal variation of large wildfires in Washington, USA, 1970− 2020 | |
CN105631336A (zh) | 检测移动装置上的恶意文件的系统及方法 | |
CN109190862B (zh) | 操作风险联动方法、系统、计算机设备和存储介质 | |
US9164985B1 (en) | Techniques for detecting poor machine translations of key terms | |
Miceli et al. | XMM-Newton observation of the supernova remnant Kes 78 (G32. 8-0.1): Evidence of shock-cloud interaction | |
CN114006776B (zh) | 一种敏感信息泄露检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190618 |
|
RJ01 | Rejection of invention patent application after publication |