CN112116973A - 一种对个人健康医疗数据的系统化脱敏方法 - Google Patents

一种对个人健康医疗数据的系统化脱敏方法 Download PDF

Info

Publication number
CN112116973A
CN112116973A CN202010978859.5A CN202010978859A CN112116973A CN 112116973 A CN112116973 A CN 112116973A CN 202010978859 A CN202010978859 A CN 202010978859A CN 112116973 A CN112116973 A CN 112116973A
Authority
CN
China
Prior art keywords
desensitization
data
tool
environment
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010978859.5A
Other languages
English (en)
Inventor
左霖
邓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health Medical Big Data Co ltd
Original Assignee
Shandong Health Medical Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health Medical Big Data Co ltd filed Critical Shandong Health Medical Big Data Co ltd
Priority to CN202010978859.5A priority Critical patent/CN112116973A/zh
Publication of CN112116973A publication Critical patent/CN112116973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Abstract

本发明提供一种对个人健康医疗数据的系统化脱敏方法,属于计算机软件技术领域和医疗信息化技术领域,本发明包括脱敏数据准备、脱敏设置、脱敏工具库、脱敏审核、限制环境下开放5个部分,分别完成目标数据的准备、脱敏、质控、开放和监测;实现数据高效脱敏、达到“保护个人隐私、确保信息安全”的最佳可用状态,从而支撑个人健康医疗数据的实际应用。

Description

一种对个人健康医疗数据的系统化脱敏方法
技术领域
本发明涉及计算机软件技术领域和医疗信息化技术,尤其涉及一种对个人健康医疗数据的系统化脱敏方法。
背景技术
健康医疗大数据对医疗科研、医疗行为、医疗产业、个人健康、政府监管具有极大的应用价值,要实现其应用价值必须经过数据汇集、数据治理、数据脱敏、数据开放、最终在软件应用中完成数据利用。其中,保护个人隐私、确保信息安全的“数据脱敏”环节是健康医疗数据应用的关键环节。但目前的数据脱敏大多依靠人工手动处理,存在处理效率低、手动产生的随机误差多等问题,最终导致数据不具备开放、应用支撑条件,从而阻碍了健康医疗大数据的应用价值转化。因此,急需一种高效、准确、系统化的的个人健康医疗数据脱敏方法来解决这一问题。
发明内容
为了解决以上技术问题,本发明提供了一种对个人健康医疗数据的系统化脱敏方法。
本发明的技术方案是:
一种对个人健康医疗数据的系统化脱敏方法,包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤,分别完成目标数据的准备、脱敏、质控、开放和监测。
其中,
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;
b)脱敏设置
操作员根据数据将要使用的业务场景需求,设置脱敏条件;
c)建立脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节。该环节包括“程序全量审核”和“人工抽检审核”两部分。程序全量审核,是包括敏感词库和由分词技术、NLP、ORC等技术,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据。人工抽检,是操作员手动在“操作平台”抽查脱敏数据,并进行审核标记
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。
进一步的,
脱敏条件包括圈定脱敏数据表、字段和字段类型、文件和文件类型、选择脱敏工具;
其中,字段包括身份证号、性别、出生日期、籍贯;字段类型包括字符串、数值、图片、标记的;
选择脱敏工具是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。
设置脱敏后,即可控制数据导入程序脱敏。
程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。
进一步的,
脱敏工具涵盖分词、NLP、OCR、加密的计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏的脱敏方式;数据处理由选择脱敏工具处置。
偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。
脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。
进一步的,
脱敏审核通过的数据推送到限制开放环境;未通过的,由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。
进一步的,
限制环境包括:内网访问环境、VPN访问环境、互联网访问环境。
监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的。
本发明的有益效果是
最大程度提高脱敏效率,规避手动脱敏操作带来的误差,确保数据可用。在持续应用中,该系统支持机器学习和人工反馈-优化机制,可持续“进化”;同时,该系统连接原数据输入、应用环境输出,支持全程控制和数据透明流转,可最大限度地保障数据安全应用。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方法为实现大数据从原始库到应用的必要中间环节,脱敏环节,提供了一种解决方案。涉及分词、NLP、OCR、加密、大数据处理、储存等计算机技术。是一种包括脱敏数据准备、脱敏设置、脱敏工具库、脱敏审核、限制环境下开放共5部分的系统方案。
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型。配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备。此过程有支持操作人员控制数据处理过程的大数据数据库管理技术和操作平台。
b)脱敏设置
操作员根据数据将要使用的业务场景需求,包括目的、应用环境、应用程序、使用人等,设置脱敏条件。脱敏条件包括圈定脱敏数据表、字段和字段类型、文件和文件类型、选定脱敏工具。字段通常包括身份证号、性别、出生日期、籍贯等个人隐私字段;字段类型包括字符串、数值、图片、标记等类型;脱敏工具选择是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。设置脱敏后,操作员即可控制数据导入程序脱敏。程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。
c)脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求(包括科研、医用、个人、产业、部门5类需求)开发形成的程序工具组成的工具库。这些脱敏工具涵盖分词、NLP、OCR、加密等计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏等脱敏方式;数据处理由选择脱敏工具处置,比如,选择“数据一致性脱敏工具”,在对目标数据字段加密处理后进一步保持原数据间表的主外建、非主外建的关联关系。偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节。该环节包括“程序全量审核”和“人工抽检审核”两部分。程序全量审核,是包括敏感词库和由分词技术、NLP、ORC等技术,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据。人工抽检,是操作员手动在“操作平台”抽查脱敏数据,并进行审核标记。脱敏审核使用以上两种方法实现半自动或全自动脱敏数据审核,判定审核通过或未通过。通过的数据可由人工推送到限制开放环境;未通过的,可由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。审核环节最大限度解决数据脱敏遗漏问题,实现脱敏质控。
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境。限制环境大致包括:内网访问环境、VPN访问环境、互联网访问环境。监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的等方法。例如,互联网环境下,使用数据的应用程序将被监测数据处理接口、传输过程和使用终端,使用者行为将被检测浏览行为、限制数据交易分享等。以确保数据在安全开放环境下应用。
本发明提供了应对各种应用场景脱敏工具库,使用时能按需灵活配置。脱敏工具库具有按反馈优化和调整的空间。连接上游原数据输入、下游应用环境输出,联合完成脱敏任务。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种对个人健康医疗数据的系统化脱敏方法,其特征在于,
包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤;
其中,
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;
b)脱敏设置
操作员根据数据将要使用的业务场景需求,设置脱敏条件;
c)建立脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节;该环节包括“程序全量审核”和“人工抽检审核”两部分;程序全量审核,是包括敏感词库和由分词技术、NLP、ORC,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据;人工抽检,是手动在“操作平台”抽查脱敏数据,并进行审核标记;
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。
2.根据权利要求1所述的方法,其特征在于,
脱敏条件包括字段和字段类型、选择脱敏工具;
其中,字段包括身份证号、性别、出生日期、籍贯;字段类型包括字符串、数值、图片、标记的;
选择脱敏工具是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。
3.根据权利要求2所述的方法,其特征在于,
设置脱敏后,即可控制数据导入程序脱敏。
4.根据权利要求3所述的方法,其特征在于,
程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。
5.根据权利要求1所述的方法,其特征在于,
脱敏工具涵盖分词、NLP、OCR、加密的计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏的脱敏方式;数据处理由选择脱敏工具处置。
偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。
脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。
6.根据权利要求1所述的方法,其特征在于,
脱敏审核通过的数据推送到限制开放环境;未通过的,由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。
7.根据权利要求1所述的方法,其特征在于,
限制环境包括:内网访问环境、VPN访问环境、互联网访问环境。
8.根据权利要求1或7所述的方法,其特征在于,
监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的。
CN202010978859.5A 2020-09-17 2020-09-17 一种对个人健康医疗数据的系统化脱敏方法 Pending CN112116973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978859.5A CN112116973A (zh) 2020-09-17 2020-09-17 一种对个人健康医疗数据的系统化脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978859.5A CN112116973A (zh) 2020-09-17 2020-09-17 一种对个人健康医疗数据的系统化脱敏方法

Publications (1)

Publication Number Publication Date
CN112116973A true CN112116973A (zh) 2020-12-22

Family

ID=73799745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978859.5A Pending CN112116973A (zh) 2020-09-17 2020-09-17 一种对个人健康医疗数据的系统化脱敏方法

Country Status (1)

Country Link
CN (1) CN112116973A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733152A (zh) * 2021-01-22 2021-04-30 湖北宸威玺链信息技术有限公司 敏感数据处理方法及系统及装置
CN113468561A (zh) * 2021-06-18 2021-10-01 宝湾资本管理有限公司 数据保护方法、装置及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951796A (zh) * 2016-01-07 2017-07-14 阿里巴巴集团控股有限公司 一种数据隐私保护的脱敏方法及其装置
CN110516466A (zh) * 2019-07-12 2019-11-29 苏州浪潮智能科技有限公司 一种数据脱敏方法与装置
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110826105A (zh) * 2019-11-15 2020-02-21 江苏苏宁银行股份有限公司 一种分布式银行数据脱敏方法及系统
CN111382151A (zh) * 2020-03-23 2020-07-07 新疆大学 一种基于数据脱敏的ct医疗图像清洗方法
CN111563271A (zh) * 2020-04-29 2020-08-21 曹嘉宁 智能敏感数据动态脱敏管理系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951796A (zh) * 2016-01-07 2017-07-14 阿里巴巴集团控股有限公司 一种数据隐私保护的脱敏方法及其装置
CN110516466A (zh) * 2019-07-12 2019-11-29 苏州浪潮智能科技有限公司 一种数据脱敏方法与装置
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110826105A (zh) * 2019-11-15 2020-02-21 江苏苏宁银行股份有限公司 一种分布式银行数据脱敏方法及系统
CN111382151A (zh) * 2020-03-23 2020-07-07 新疆大学 一种基于数据脱敏的ct医疗图像清洗方法
CN111563271A (zh) * 2020-04-29 2020-08-21 曹嘉宁 智能敏感数据动态脱敏管理系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733152A (zh) * 2021-01-22 2021-04-30 湖北宸威玺链信息技术有限公司 敏感数据处理方法及系统及装置
CN113468561A (zh) * 2021-06-18 2021-10-01 宝湾资本管理有限公司 数据保护方法、装置及服务器
CN113468561B (zh) * 2021-06-18 2024-04-23 宝湾资本管理有限公司 数据保护方法、装置及服务器

Similar Documents

Publication Publication Date Title
US6678822B1 (en) Method and apparatus for securely transporting an information container from a trusted environment to an unrestricted environment
Tully et al. Quality standards for digital forensics: Learning from experience in England & Wales
US20150172294A1 (en) Managing user access to query results
WO2018051233A1 (en) Electronic document management using classification taxonomy
CN106446707A (zh) 一种数据动态防泄漏系统及方法
DE102010043265A1 (de) Systeme und Verfahren zum Verarbeiten und Verwalten von objektbezogenen Daten zur Verwendung durch mehrere Anwendungen
AU2658699A (en) Mapping compliance information into useable format
CN112116973A (zh) 一种对个人健康医疗数据的系统化脱敏方法
CN110727643A (zh) 一种基于机器学习的文件分类管理方法及系统
CN111782719B (zh) 数据处理方法及装置
US20130036127A1 (en) Document registry system
CN114722416B (zh) 一种基于加密的财务信息化数据处理方法和系统
CN112150113A (zh) 档案数据的借阅方法、装置和系统、资料数据的借阅方法
CN116383693A (zh) 基于数据安全自动分类分级结果的数据外发方法
US8572749B2 (en) Information security control self assessment
CN114003600A (zh) 数据处理方法、系统、电子设备和存储介质
WO2024045955A1 (zh) 结合rpa和ai实现ia的文书处理方法、装置、设备及介质
TW202213145A (zh) 文件機密等級管理系統及方法
US20200019721A1 (en) Holistic and secure resource provisioning gateway system
US11748515B2 (en) System and method for secure linking of anonymized data
CN115544556A (zh) 一种信息处理方法、系统、存储介质及电子设备
Pollitt The key to forensic success: examination planning is a key determinant of efficient and effective digital forensics
CN107392060A (zh) 一种硬盘、复印机安全检查方法、系统
EP3480821B1 (en) Clinical trial support network data security
CN104599074B (zh) 实名制卡的智能业务采集管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination