CN112116973A - 一种对个人健康医疗数据的系统化脱敏方法 - Google Patents
一种对个人健康医疗数据的系统化脱敏方法 Download PDFInfo
- Publication number
- CN112116973A CN112116973A CN202010978859.5A CN202010978859A CN112116973A CN 112116973 A CN112116973 A CN 112116973A CN 202010978859 A CN202010978859 A CN 202010978859A CN 112116973 A CN112116973 A CN 112116973A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- data
- tool
- environment
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000036541 health Effects 0.000 title claims abstract description 14
- 230000009897 systematic effect Effects 0.000 title claims abstract description 8
- 238000002360 preparation method Methods 0.000 claims abstract description 15
- 238000012550 audit Methods 0.000 claims abstract description 13
- 238000012544 monitoring process Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000003908 quality control method Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Abstract
本发明提供一种对个人健康医疗数据的系统化脱敏方法,属于计算机软件技术领域和医疗信息化技术领域,本发明包括脱敏数据准备、脱敏设置、脱敏工具库、脱敏审核、限制环境下开放5个部分,分别完成目标数据的准备、脱敏、质控、开放和监测;实现数据高效脱敏、达到“保护个人隐私、确保信息安全”的最佳可用状态,从而支撑个人健康医疗数据的实际应用。
Description
技术领域
本发明涉及计算机软件技术领域和医疗信息化技术,尤其涉及一种对个人健康医疗数据的系统化脱敏方法。
背景技术
健康医疗大数据对医疗科研、医疗行为、医疗产业、个人健康、政府监管具有极大的应用价值,要实现其应用价值必须经过数据汇集、数据治理、数据脱敏、数据开放、最终在软件应用中完成数据利用。其中,保护个人隐私、确保信息安全的“数据脱敏”环节是健康医疗数据应用的关键环节。但目前的数据脱敏大多依靠人工手动处理,存在处理效率低、手动产生的随机误差多等问题,最终导致数据不具备开放、应用支撑条件,从而阻碍了健康医疗大数据的应用价值转化。因此,急需一种高效、准确、系统化的的个人健康医疗数据脱敏方法来解决这一问题。
发明内容
为了解决以上技术问题,本发明提供了一种对个人健康医疗数据的系统化脱敏方法。
本发明的技术方案是:
一种对个人健康医疗数据的系统化脱敏方法,包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤,分别完成目标数据的准备、脱敏、质控、开放和监测。
其中,
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;
b)脱敏设置
操作员根据数据将要使用的业务场景需求,设置脱敏条件;
c)建立脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节。该环节包括“程序全量审核”和“人工抽检审核”两部分。程序全量审核,是包括敏感词库和由分词技术、NLP、ORC等技术,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据。人工抽检,是操作员手动在“操作平台”抽查脱敏数据,并进行审核标记
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。
进一步的,
脱敏条件包括圈定脱敏数据表、字段和字段类型、文件和文件类型、选择脱敏工具;
其中,字段包括身份证号、性别、出生日期、籍贯;字段类型包括字符串、数值、图片、标记的;
选择脱敏工具是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。
设置脱敏后,即可控制数据导入程序脱敏。
程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。
进一步的,
脱敏工具涵盖分词、NLP、OCR、加密的计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏的脱敏方式;数据处理由选择脱敏工具处置。
偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。
脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。
进一步的,
脱敏审核通过的数据推送到限制开放环境;未通过的,由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。
进一步的,
限制环境包括:内网访问环境、VPN访问环境、互联网访问环境。
监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的。
本发明的有益效果是
最大程度提高脱敏效率,规避手动脱敏操作带来的误差,确保数据可用。在持续应用中,该系统支持机器学习和人工反馈-优化机制,可持续“进化”;同时,该系统连接原数据输入、应用环境输出,支持全程控制和数据透明流转,可最大限度地保障数据安全应用。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方法为实现大数据从原始库到应用的必要中间环节,脱敏环节,提供了一种解决方案。涉及分词、NLP、OCR、加密、大数据处理、储存等计算机技术。是一种包括脱敏数据准备、脱敏设置、脱敏工具库、脱敏审核、限制环境下开放共5部分的系统方案。
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型。配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备。此过程有支持操作人员控制数据处理过程的大数据数据库管理技术和操作平台。
b)脱敏设置
操作员根据数据将要使用的业务场景需求,包括目的、应用环境、应用程序、使用人等,设置脱敏条件。脱敏条件包括圈定脱敏数据表、字段和字段类型、文件和文件类型、选定脱敏工具。字段通常包括身份证号、性别、出生日期、籍贯等个人隐私字段;字段类型包括字符串、数值、图片、标记等类型;脱敏工具选择是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。设置脱敏后,操作员即可控制数据导入程序脱敏。程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。
c)脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求(包括科研、医用、个人、产业、部门5类需求)开发形成的程序工具组成的工具库。这些脱敏工具涵盖分词、NLP、OCR、加密等计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏等脱敏方式;数据处理由选择脱敏工具处置,比如,选择“数据一致性脱敏工具”,在对目标数据字段加密处理后进一步保持原数据间表的主外建、非主外建的关联关系。偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节。该环节包括“程序全量审核”和“人工抽检审核”两部分。程序全量审核,是包括敏感词库和由分词技术、NLP、ORC等技术,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据。人工抽检,是操作员手动在“操作平台”抽查脱敏数据,并进行审核标记。脱敏审核使用以上两种方法实现半自动或全自动脱敏数据审核,判定审核通过或未通过。通过的数据可由人工推送到限制开放环境;未通过的,可由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。审核环节最大限度解决数据脱敏遗漏问题,实现脱敏质控。
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境。限制环境大致包括:内网访问环境、VPN访问环境、互联网访问环境。监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的等方法。例如,互联网环境下,使用数据的应用程序将被监测数据处理接口、传输过程和使用终端,使用者行为将被检测浏览行为、限制数据交易分享等。以确保数据在安全开放环境下应用。
本发明提供了应对各种应用场景脱敏工具库,使用时能按需灵活配置。脱敏工具库具有按反馈优化和调整的空间。连接上游原数据输入、下游应用环境输出,联合完成脱敏任务。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种对个人健康医疗数据的系统化脱敏方法,其特征在于,
包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤;
其中,
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;
b)脱敏设置
操作员根据数据将要使用的业务场景需求,设置脱敏条件;
c)建立脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节;该环节包括“程序全量审核”和“人工抽检审核”两部分;程序全量审核,是包括敏感词库和由分词技术、NLP、ORC,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据;人工抽检,是手动在“操作平台”抽查脱敏数据,并进行审核标记;
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。
2.根据权利要求1所述的方法,其特征在于,
脱敏条件包括字段和字段类型、选择脱敏工具;
其中,字段包括身份证号、性别、出生日期、籍贯;字段类型包括字符串、数值、图片、标记的;
选择脱敏工具是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。
3.根据权利要求2所述的方法,其特征在于,
设置脱敏后,即可控制数据导入程序脱敏。
4.根据权利要求3所述的方法,其特征在于,
程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。
5.根据权利要求1所述的方法,其特征在于,
脱敏工具涵盖分词、NLP、OCR、加密的计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏的脱敏方式;数据处理由选择脱敏工具处置。
偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。
脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。
6.根据权利要求1所述的方法,其特征在于,
脱敏审核通过的数据推送到限制开放环境;未通过的,由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。
7.根据权利要求1所述的方法,其特征在于,
限制环境包括:内网访问环境、VPN访问环境、互联网访问环境。
8.根据权利要求1或7所述的方法,其特征在于,
监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978859.5A CN112116973A (zh) | 2020-09-17 | 2020-09-17 | 一种对个人健康医疗数据的系统化脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978859.5A CN112116973A (zh) | 2020-09-17 | 2020-09-17 | 一种对个人健康医疗数据的系统化脱敏方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112116973A true CN112116973A (zh) | 2020-12-22 |
Family
ID=73799745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010978859.5A Pending CN112116973A (zh) | 2020-09-17 | 2020-09-17 | 一种对个人健康医疗数据的系统化脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116973A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733152A (zh) * | 2021-01-22 | 2021-04-30 | 湖北宸威玺链信息技术有限公司 | 敏感数据处理方法及系统及装置 |
CN113468561A (zh) * | 2021-06-18 | 2021-10-01 | 宝湾资本管理有限公司 | 数据保护方法、装置及服务器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951796A (zh) * | 2016-01-07 | 2017-07-14 | 阿里巴巴集团控股有限公司 | 一种数据隐私保护的脱敏方法及其装置 |
CN110516466A (zh) * | 2019-07-12 | 2019-11-29 | 苏州浪潮智能科技有限公司 | 一种数据脱敏方法与装置 |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
CN110826105A (zh) * | 2019-11-15 | 2020-02-21 | 江苏苏宁银行股份有限公司 | 一种分布式银行数据脱敏方法及系统 |
CN111382151A (zh) * | 2020-03-23 | 2020-07-07 | 新疆大学 | 一种基于数据脱敏的ct医疗图像清洗方法 |
CN111563271A (zh) * | 2020-04-29 | 2020-08-21 | 曹嘉宁 | 智能敏感数据动态脱敏管理系统 |
-
2020
- 2020-09-17 CN CN202010978859.5A patent/CN112116973A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951796A (zh) * | 2016-01-07 | 2017-07-14 | 阿里巴巴集团控股有限公司 | 一种数据隐私保护的脱敏方法及其装置 |
CN110516466A (zh) * | 2019-07-12 | 2019-11-29 | 苏州浪潮智能科技有限公司 | 一种数据脱敏方法与装置 |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
CN110826105A (zh) * | 2019-11-15 | 2020-02-21 | 江苏苏宁银行股份有限公司 | 一种分布式银行数据脱敏方法及系统 |
CN111382151A (zh) * | 2020-03-23 | 2020-07-07 | 新疆大学 | 一种基于数据脱敏的ct医疗图像清洗方法 |
CN111563271A (zh) * | 2020-04-29 | 2020-08-21 | 曹嘉宁 | 智能敏感数据动态脱敏管理系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733152A (zh) * | 2021-01-22 | 2021-04-30 | 湖北宸威玺链信息技术有限公司 | 敏感数据处理方法及系统及装置 |
CN113468561A (zh) * | 2021-06-18 | 2021-10-01 | 宝湾资本管理有限公司 | 数据保护方法、装置及服务器 |
CN113468561B (zh) * | 2021-06-18 | 2024-04-23 | 宝湾资本管理有限公司 | 数据保护方法、装置及服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6678822B1 (en) | Method and apparatus for securely transporting an information container from a trusted environment to an unrestricted environment | |
Tully et al. | Quality standards for digital forensics: Learning from experience in England & Wales | |
US20150172294A1 (en) | Managing user access to query results | |
WO2018051233A1 (en) | Electronic document management using classification taxonomy | |
CN106446707A (zh) | 一种数据动态防泄漏系统及方法 | |
DE102010043265A1 (de) | Systeme und Verfahren zum Verarbeiten und Verwalten von objektbezogenen Daten zur Verwendung durch mehrere Anwendungen | |
AU2658699A (en) | Mapping compliance information into useable format | |
CN112116973A (zh) | 一种对个人健康医疗数据的系统化脱敏方法 | |
CN110727643A (zh) | 一种基于机器学习的文件分类管理方法及系统 | |
CN111782719B (zh) | 数据处理方法及装置 | |
US20130036127A1 (en) | Document registry system | |
CN114722416B (zh) | 一种基于加密的财务信息化数据处理方法和系统 | |
CN112150113A (zh) | 档案数据的借阅方法、装置和系统、资料数据的借阅方法 | |
CN116383693A (zh) | 基于数据安全自动分类分级结果的数据外发方法 | |
US8572749B2 (en) | Information security control self assessment | |
CN114003600A (zh) | 数据处理方法、系统、电子设备和存储介质 | |
WO2024045955A1 (zh) | 结合rpa和ai实现ia的文书处理方法、装置、设备及介质 | |
TW202213145A (zh) | 文件機密等級管理系統及方法 | |
US20200019721A1 (en) | Holistic and secure resource provisioning gateway system | |
US11748515B2 (en) | System and method for secure linking of anonymized data | |
CN115544556A (zh) | 一种信息处理方法、系统、存储介质及电子设备 | |
Pollitt | The key to forensic success: examination planning is a key determinant of efficient and effective digital forensics | |
CN107392060A (zh) | 一种硬盘、复印机安全检查方法、系统 | |
EP3480821B1 (en) | Clinical trial support network data security | |
CN104599074B (zh) | 实名制卡的智能业务采集管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |