CN106649532B - 一种针对地址信息的数据脱敏方法 - Google Patents
一种针对地址信息的数据脱敏方法 Download PDFInfo
- Publication number
- CN106649532B CN106649532B CN201610931036.0A CN201610931036A CN106649532B CN 106649532 B CN106649532 B CN 106649532B CN 201610931036 A CN201610931036 A CN 201610931036A CN 106649532 B CN106649532 B CN 106649532B
- Authority
- CN
- China
- Prior art keywords
- desensitization
- longitude
- information
- algorithm
- latitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种针对地址信息的数据脱敏方法,属于计算机安全领域。所述的方法包括对地址解析,坐标抖动以及地址的反解析。本发明针对地理位置信息的特点,能够对地址信息进行脱敏操作,在保护敏感信息的同时,可以保持脱敏后地址信息格式的正确性,有效的避免了传统脱敏算法返回乱码或者不可理解的字符串等问题。同时,可以设置位置边界,防止脱敏后的数据越界导致脱敏后的信息不够真实的问题。
Description
技术领域
本发明涉及隐私保护安全技术领域,具体涉及一种针对地址信息的数据脱敏方法。
背景技术
随着各行各业的快速发展,随着国家信息化建设的大力开展,以及IT系统应用的越来越普遍,企业内部已经积累了大量的敏感信息和数据。而这些数据,在企业的很多工作场景中都会得到使用。例如,业务分析、开发测试、甚至一些外包业务等方面,使用的都是真实的业务数据和信息,这些敏感的数据就像一颗定时炸弹,一旦发生泄漏、损坏。不仅会给企业带来极大的损失,还会对企业形象造成巨大的负面影响
数据脱敏(Data Masking)的概念最先由Adam和Wortmann于1989年提出。相关技术发展到现在,学术界提出了很多算法用于解决数据脱敏相关的问题,如噪声干扰(noisedisturbance),K-匿名(K-anonymous),微聚合(micropolymerization)等。在产业化方面,IBM、ORACLE和MICROSOFT等传统数据库大厂也推出了相应的数据脱敏产品。IBM将数据脱敏集成到自己的关系型数据库框架中。而Oracle以插件的方式提供数据脱敏的扩展。Microsoft的方案可以实现在生产数据库到测试数据库的数据传输过程中部署用户自定义转换函数从而实现数据脱敏操作。
发明内容
针对上述现有技术,本发明目的在于提供一种针对地址信息的数据脱敏方法,解决现有技术不能够在不违反系统规则下保持改造的脱敏地址信息格式正确有效等技术问题;同时对于测试开发,尤其是涉及到位置信息系统的测试开发具有积极意义,还适用于涉及到位置信息关联的大数据分析。
为达到上述目的,本发明采用的技术方案如下:
一种针对地址信息的数据脱敏方法,包括如下步骤,
步骤1、获取结构化地址信息,再对结构化地址信息进行解析,获得对应的经纬度信息;
步骤2、根据预定的规则,选择出脱敏算法,利用脱敏算法对经纬度信息进行脱敏操作,获得脱敏经纬度信息;
步骤3、根据预定的条件,对脱敏经纬度信息进行条件判断,当不符合条件时,跳转至步骤2;
步骤4、对符合条件的脱敏经纬度信息进行反解析,获得脱敏结构化地址信息。
上述方法中,所述的步骤2,其中选择出脱敏算法,包括在抖动算法、随机置乱算法或模糊化算法三种算法中选择出一种算法或组合算法作为脱敏算法。
上述方法中,所述的步骤2,其中利用抖动算法对经纬度信息进行脱敏操作,脱敏操作为
f(x)=x±random*sfactor
其中,random为[0,1]随机值,sfactor为抖动系数,抖动系数sfactor代表目标值f(x)与原始值x之间的最大差异。
上述方法中,所述的步骤2,其中利用随机置乱算法对经纬度信息进行脱敏操作,脱敏操作为
f(x)=(baseV±random*factor)%180
其中,baseV为坐标中心点,factor为坐标半径,若baseV=0,factor=180,则随机置乱算法在经纬度区间内取随机值。
上述方法中,所述的步骤2,其中利用模糊化算法对经纬度信息进行脱敏操作,脱敏操作为
其中,floor为向下取整函数,fa为模糊系数,模糊系数fa代表地址模糊的程度。
上述方法中,所述的步骤3,包括如下步骤,
步骤3.1、选取预定的条件为地图中定义国家、省份或城市的边界范围;
步骤3.2、根据边界范围,判断脱敏经纬度信息是否超越边界范围;
步骤3.3.1、当脱敏经纬度信息超越边界范围时,跳转至步骤2;
步骤3.3.3、当脱敏经纬度信息处于边界范围上或边界范围内时,进行步骤4。
与现有技术相比,本发明的有益效果:
(1)本发明提供的方法所产生的地址信息是真实有效的,能够被程序解析运算;
(2)本发明支持多种不同的脱敏算法对地址信息经纬度进行处理,具有良好的可扩展性,可以根据需求适配不同的脱敏算法;
(3)本发明具有地址边界检查功能,能够对所生成的地址范围进行限制,防止出现一些不合常理的地址数据,如:某中国地理信息数据库经脱敏后出现若干国外地址;
(4)本发明支持对目标地址格式输出的自定义,能够生成特定格式的地址信息,满足不同国家的用户习惯。
附图说明
图1为本发明的地址数据脱敏方法流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合附图对本发明做进一步说明:
实施例1
数值型关系数据库水印机制的设计:
一种针对地址信息的数据脱敏方法,具体包括以下步骤:
步骤1.地址解析
对数据的地址进行解析,得到对应的经纬度信息;
地址信息通常由详细到街道的结构化地址得到经纬度信息,例如:“北京市海淀区中关村南大街27号”地址解析的结果是经度:116.31985,纬度:39.959836。
步骤2.进行脱敏运算
根据当前系统配置对步骤1所解析的到的地址经纬度信息进行脱敏操作,所支持的脱敏算法包括但不限于抖动、随机置乱、模糊化等算法;
其中抖动算法表示如下:
f(x)=x±random*sfactor
其中random为[0,1]随机值,sfactor为抖动系数,代表目标值与原始值之间的最大差异。
随机置乱算法表示如下:
f(x)=(baseV±random*factor)%180
其中baseV为坐标中心点,factor为坐标半径,可用于控制坐标区域,按180取余可保证所产生的值符合经纬度坐标区间,若baseV=0,factor=180,则随机置乱算法在经纬度区间内取随机值,
其中模糊化算法表示如下:
其中fa为模糊系数,代表地址模糊的程度,fa值越大,模糊程度越小,模糊化算法会使得相近区域的地址都指向同一个地址;
步骤3.坐标边界检查
根据系统配置对步骤2所生成的坐标信息进行检查,检查经纬度信息是否越界,坐标边界的设定可以按照国家、省份、城市等设定,若步骤2所生成的坐标信息越界,则返回步骤2,重新进行脱敏运算;
步骤4.地址反解析
根据步骤3所生成的经纬度信息进行反解析,得到地址信息
地址反解析,由经纬度信息得到结构化地址信息,例如:经度:31.325152,纬度:120.558957地址反解析的结果是“江苏省苏州市虎丘区塔园路318号”。
实施例2
本发明一种针对地址信息的脱敏方法的一个实施例,包括以下步骤:
步骤一:调用百度地图GeocodingAPI对输入地址进行解析,得到输入地址的经纬度信息。
步骤二:根据配置选择脱敏算法,默认算法为抖动算法。
步骤三:对经纬度值分别进行脱敏运算,得到脱敏后经纬度值
步骤四:对步骤三所的到的经纬度信息进行检查,默认检查范围为国家,检查步骤三所生成的经纬度坐标与输入地址是否所属同一国家,如检查失败,则重复步骤三。
步骤五:对步骤四所得到的符合条件的经纬度坐标调用百度地图GeocodingAPI进行地址反解析,根据设定的地址格式对返回地址进行格式化操作,输出脱敏后地址。
实施例3
下面以“成都市高新西区合信路口龙湖时代天骄17栋202号”为例,对该地址实现脱敏方法步骤如下:
通过百度地图API地址解析查询到输入地址的经纬度为30.759466,103.925618;
选择脱敏方法,此处默认选择抖动算法;
通过抖动算法计算得到脱敏后经纬度30.5753960000,104.3465050000;
对该地址坐标进行边界检查,默认检查其是否与输入地址同属一个国家;
调用百度地图API对所得经纬度进行反解析,得到结果地址:四川省成都市双流县太平镇桃源村。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种针对地址信息的数据脱敏方法,其特征在于,包括如下步骤,
步骤1、获取结构化地址信息,再对结构化地址信息进行解析,获得对应的经纬度信息;
步骤2、根据预定的规则,选择出脱敏算法,利用脱敏算法对经纬度信息进行脱敏操作,获得脱敏经纬度信息;
步骤3、根据预定的条件,对脱敏经纬度信息进行条件判断,当不符合条件时,跳转至步骤2;
步骤4、对符合条件的脱敏经纬度信息进行反解析,获得脱敏结构化地址信息。
2.根据权利要求1所述的一种针对地址信息的数据脱敏方法,其特征在于,所述的步骤2,其中选择出脱敏算法,包括在抖动算法、随机置乱算法或模糊化算法三种算法中选择出一种算法或组合算法作为脱敏算法。
3.根据权利要求2所述的一种针对地址信息的数据脱敏方法,其特征在于,所述的步骤2,其中利用抖动算法对经纬度信息进行脱敏操作,脱敏操作为
f(x)=x±random*sfactor
其中,random为[0,1]随机值,sfactor为抖动系数,抖动系数sfactor代表目标值f(x)与原始值x之间的最大差异。
4.根据权利要求3所述的一种针对地址信息的数据脱敏方法,其特征在于,所述的步骤2,其中利用随机置乱算法对经纬度信息进行脱敏操作,脱敏操作为
f(x)=(baseV±random*factor)%180
其中,baseV为坐标中心点,factor为坐标半径,若baseV=0,factor=180,则随机置乱算法在经纬度区间内取随机值。
6.根据权利要求1或2所述的一种针对地址信息的数据脱敏方法,其特征在于,所述的步骤3,包括如下步骤,
步骤3.1、选取预定的条件为地图中定义国家、省份或城市的边界范围;
步骤3.2、根据边界范围,判断脱敏经纬度信息是否超越边界范围;
步骤3.3.1、当脱敏经纬度信息超越边界范围时,跳转至步骤2;
步骤3.3.3、当脱敏经纬度信息处于边界范围上或边界范围内时,进行步骤4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610931036.0A CN106649532B (zh) | 2016-10-31 | 2016-10-31 | 一种针对地址信息的数据脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610931036.0A CN106649532B (zh) | 2016-10-31 | 2016-10-31 | 一种针对地址信息的数据脱敏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649532A CN106649532A (zh) | 2017-05-10 |
CN106649532B true CN106649532B (zh) | 2020-12-11 |
Family
ID=58820680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610931036.0A Active CN106649532B (zh) | 2016-10-31 | 2016-10-31 | 一种针对地址信息的数据脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649532B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268800A (zh) * | 2017-12-29 | 2018-07-10 | 上海上讯信息技术股份有限公司 | 一种可配置区域范围和信息格式的地址脱敏方法 |
CN108171069A (zh) * | 2018-01-03 | 2018-06-15 | 平安科技(深圳)有限公司 | 脱敏方法、应用服务器及计算机可读存储介质 |
CN108566373B (zh) * | 2018-03-06 | 2020-06-12 | 清华大学 | 保护用户隐私的位置信息发布系统 |
CN110909375B (zh) * | 2019-10-12 | 2022-04-08 | 浙江工业大学 | 一种保留分布特征的地址脱敏方法 |
CN110889136B (zh) * | 2019-11-18 | 2022-03-11 | 杭州安恒信息技术股份有限公司 | 一种地址信息的数据脱敏方法、装置和电子设备 |
CN113051357B (zh) * | 2021-03-08 | 2022-09-30 | 中国地质大学(武汉) | 一种基于博弈论的矢量地图最优化局部脱敏方法 |
CN113342915A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 地址脱敏方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN105976091A (zh) * | 2016-04-28 | 2016-09-28 | 上海世脉信息科技有限公司 | 一种大数据环境下个体活动稳态训练方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7657104B2 (en) * | 2005-11-21 | 2010-02-02 | Mcafee, Inc. | Identifying image type in a capture system |
CN103324749B (zh) * | 2013-07-05 | 2016-06-22 | 中邮科通信技术股份有限公司 | 一种基于标准文本地址的空间化解析及纠偏方法 |
-
2016
- 2016-10-31 CN CN201610931036.0A patent/CN106649532B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN105976091A (zh) * | 2016-04-28 | 2016-09-28 | 上海世脉信息科技有限公司 | 一种大数据环境下个体活动稳态训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106649532A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649532B (zh) | 一种针对地址信息的数据脱敏方法 | |
Hesselbarth et al. | landscapemetrics: an open‐source R tool to calculate landscape metrics | |
CN111798932B (zh) | 一种污染物监测数据的处理方法、装置、存储介质及终端 | |
Yang et al. | Spatial patterns of modern period human-caused fire occurrence in the Missouri Ozark Highlands | |
CN101883024A (zh) | 一种跨站点伪造请求的动态检测方法 | |
CN107886414B (zh) | 一种订单合并方法和设备以及计算机存储介质 | |
US11321777B1 (en) | Business data processing method and computer device | |
CN113342639B (zh) | 小程序安全风险评估方法和电子设备 | |
CN110704816B (zh) | 接口破解的识别方法、装置、设备及存储介质 | |
CN112232171B (zh) | 基于随机森林的遥感影像信息提取方法、装置及存储介质 | |
CN112241439A (zh) | 一种攻击组织发现方法、装置、介质和设备 | |
CN105468970B (zh) | 一种基于防御网的Android应用程序防篡方法及系统 | |
CN107832391B (zh) | 一种数据查询方法和系统 | |
WO2020119269A1 (zh) | 用户位置确定方法、装置、设备及计算机可读存储介质 | |
CN110543783A (zh) | 一种投票系统及其实现方法、设备及存储介质 | |
CN110363648B (zh) | 一种基于同一地理类型多维度属性校验方法、装置和电子设备 | |
JP6487820B2 (ja) | リスク評価装置、リスク評価方法及びリスク評価プログラム | |
CN112068812A (zh) | 一种微服务生成方法、装置、计算机设备和存储介质 | |
CN116228501A (zh) | 排污超标区域行业确定方法、装置、存储介质及电子设备 | |
CN110866271A (zh) | 一种基于Android平台的位置隐私保护方法及系统 | |
CN114116948B (zh) | 地理矢量数据空间缓冲区分析方法、装置、设备及介质 | |
CN112749243A (zh) | 一种坐标系统一转换方法、装置、计算机设备及存储介质 | |
CN109740369B (zh) | 一种信息隐写的检测方法及装置 | |
CN112860677A (zh) | 实体判重方法、终端设备及存储介质 | |
CN111104613A (zh) | 一种空间数据的分析方法、存储介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |