CN109522740B - 健康数据的去隐私化处理方法及系统 - Google Patents

健康数据的去隐私化处理方法及系统 Download PDF

Info

Publication number
CN109522740B
CN109522740B CN201811203455.8A CN201811203455A CN109522740B CN 109522740 B CN109522740 B CN 109522740B CN 201811203455 A CN201811203455 A CN 201811203455A CN 109522740 B CN109522740 B CN 109522740B
Authority
CN
China
Prior art keywords
data
probability
word
chinese character
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811203455.8A
Other languages
English (en)
Other versions
CN109522740A (zh
Inventor
金以东
李雪莉
王语莫
周大胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ebaonet Healthcare Information Technology Beijing Co ltd
Original Assignee
Ebaonet Healthcare Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ebaonet Healthcare Information Technology Beijing Co ltd filed Critical Ebaonet Healthcare Information Technology Beijing Co ltd
Priority to CN201811203455.8A priority Critical patent/CN109522740B/zh
Publication of CN109522740A publication Critical patent/CN109522740A/zh
Application granted granted Critical
Publication of CN109522740B publication Critical patent/CN109522740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种健康数据的去隐私化处理方法及系统,方法包括:获取健康数据;判断获取的健康数据是结构化数据还是非结构化数据;对于非结构化数据,分别提取非结构化数据中的英文与数字类数据以及中文字符类数据;对非结构化数据中的中文字符类数据进行维特比分词,得到中文字符的分词结果;对非结构化数据中的中文字符类数据的分词结果进行维特比分类,得到结构化数据;对获取的结构化数据和处理得到的结构化数据进行去隐私化处理;输出经过掩码与转码后的去隐私化健康数据。本申请通过分词和分类处理将非结构化数据转换成结构化数据,通过对结构化数据进行敏感信息标记和脱敏处理,能够使健康数据在公开时不暴露隐私信息。

Description

健康数据的去隐私化处理方法及系统
技术领域
本申请属于信息安全技术领域,具体涉及一种健康数据的去隐私化处理方法及系统。
背景技术
随着大数据技术的发展,信息的商品化特性逐渐增强。个人健康数据是个人隐私的一部分,其通常包含以下信息:姓名、医院名、药品名、机构名、身份证号、手机号和地址等。由于基于群体的健康数据分析有着相当高的潜在价值,例如,可以在获得许可的前提下有针对性地进行推送服务、商品等商业操作,因此,在保证个人私密信息不泄露的前提下公开个人健康数据是非常有必要的。然而,现有技术中只能通过对结构化数据进行脱敏处理来保证个人信息的私密性。其中的结构化数据指的是已经明确知道数据类别的数据。例如,一条结构化数据在数据库中的词条标识为:姓名,值为:张某某。现有技术中可以通过词条标识匹配对词条标识的值进行脱敏处理,具体的脱敏方式为:将敏感词条标识的值掩码或删除。现有技术并不能对非结构化数据进行脱敏处理,而且也不能解决信息脱敏后的回溯问题。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种健康数据的去隐私化处理方法及系统。
根据本申请实施例的第一方面,本申请提供了一种健康数据的去隐私化处理方法,其包括以下步骤:
获取健康数据;
判断获取的健康数据是结构化数据还是非结构化数据;
对于非结构化数据,分别提取非结构化数据中的英文与数字类数据以及中文字符类数据;
对非结构化数据中的中文字符类数据进行维特比分词,得到中文字符的分词结果;
对非结构化数据中的中文字符类数据的分词结果进行维特比分类,得到结构化数据;
对获取的结构化数据和处理得到的结构化数据进行去隐私化处理;
输出经过掩码与转码后的去隐私化健康数据。
进一步地,所述步骤分别提取非结构化数据中的英文与数字类数据以及中文字符类数据采用正则表达式进行提取,所述英文与数字类数据包括身份证号、手机号和地址号,所述中文字符类数据包括姓名、病名、医院名、机构名和地址。
进一步地,所述步骤对非结构化数据中的中文字符类数据进行维特比分词的过程为:
根据中文字符分词的观测概率和分词的初始概率,计算第一个中文字符的分词概率,采用以下公式:
Figure BDA0001830608330000021
式中,φ1表示第一个中文字符的分词概率;pi,k表示中文字符分词的观测概率,具体地,表示第k个字符分别为词头B、词身M、词尾E和其他O的概率;si表示分词的初始概率;
根据第一个中文字符的分词概率对应得到第一个中文字符对应的分词结果,第一个中文字符对应的分词结果为词头B、词身M、词尾E和其他O中的一种;
根据上一个中文字符的分词概率、分词转换概率和中文字符分词的观测概率,计算得到剩余字符的分词概率,采用以下公式循环迭代,顺次计算剩余各字符的分词概率;
Figure BDA0001830608330000031
其中,φx表示第x个中文字符的分词概率,其中x>1;pj,k表示中文字符分词的观测概率,ti,j表示分词转换概率,φx-1,i表示上一中文字符的分词概率,即第x-1个中文字符的分词概率;
根据剩余各字符的分词概率对应得到剩余各字符的分词结果;剩余各字符的分词结果为词头B、词身M、词尾E和其他O中的一种;
根据各字符的分词结果在字符串中的位置得到非结构化数据中的中文字符类数据的分词结果。
更进一步地,所述步骤对非结构化数据中的中文字符类数据的分词结果进行维特比分类的过程为:
根据中文字符分类的观测概率和分类的初始概率,计算第一个词的分类概率,采用以下公式:
Figure BDA0001830608330000032
式中,θ1表示第一个词的分类概率,qi,k表示中文字符分类的观测概率,ui表示分类的初始概率;
根据第一个词的分类概率对应得到第一个词对应的分类结果,第一个词对应的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种;
根据上一个词的分类概率、分类转换概率和中文字符分类的观测概率,计算得到剩余词的分类概率;采用以下公式循环迭代,顺次计算剩余各字符的分词概率;
Figure BDA0001830608330000033
式中,θx表示第x个词的分类概率,其中x>1;qj,k表示中文字符分类的观测概率,vi,j表示分类转换概率,φx-1,i表示上一词的分类概率,即第x-1个词的分类概率;
根据剩余各词的分类概率对应得到剩余各词的分类结果,剩余各词的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种。
根据各词的分类结果,得到结构化数据。
进一步地,所述步骤对获取的结构化数据和处理得到的结构化数据进行去隐私化处理的过程为:
对结构化数据进行敏感信息标记,其过程为:
将敏感词库中的所有敏感词条目与词条标识进行向量匹配,进行验证;其中,对于第i个词条,如果
Figure BDA0001830608330000041
则将该词条标识下的词条标记为敏感词,否则不予标记;
对标记为敏感词的词条进行脱敏处理,其具体包括:
对非标记类敏感词进行掩码处理;
对标记类敏感词进行转码处理。
更进一步地,所述步骤对标记类敏感词进行转码处理的过程为:
假设标记类敏感词对应的码值为m,转码后的词条对应的码值为c;取整数g,使得g>m;取随机整数r;根据以下公式:
c=m+gr,
计算得到转码后的词条对应的码值c。
更进一步地,所述健康数据的去隐私化处理方法还包括以下步骤:
对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词,其过程为:
根据去隐私化健康数据中标记类信息,采用以下公式:
m=c%g,%表示取余,
计算得到转码处理前的标记类信息。
根据本申请实施例的第二方面,本申请提供了一种健康数据的去隐私化处理系统,其包括:
获取模块,用于获取一段健康数据;
判断模块,用于判断获取的健康数据是结构化数据还是非结构化数据;
提取模块,用于提取非结构化数据中的英文与数字类数据以及中文字符类数据;
分词模块,用于对非结构化数据中的中文字符类数据进行分词,得到中文字符的分词结果;
分类模块,用于对非结构化数据中的中文字符类数据的分词结果进行分类,得到结构化数据;
处理模块,用于对结构化数据进行去隐私化处理;处理模块包括标记模块、掩码处理模块和转码处理模块,标记模块用于对结构化数据进行敏感信息标记,掩码处理模块用于对非标记类敏感词进行掩码处理,转码处理模块用于对标记类敏感词进行转码处理;
输出模块,用于输出经过掩码与转码后的去隐私化健康数据。
进一步地,所述健康数据的去隐私化处理系统还包括信息回溯模块,所述信息回溯模块用于对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词。
根据本申请实施例的第三方面,本申请提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请通过分词和分类处理将非结构化数据转换成结构化数据,通过对结构化数据进行敏感信息标记和脱敏处理,能够使健康数据在公开时不暴露隐私信息。另外,通过对标记类数据的转码处理,使得数据在去隐私化处理后,依然能够通过预设的算法进行信息回溯,便于原始信息的查询。采用本申请还能够灵活的对敏感信息进行设置。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种健康数据的去隐私化处理方法的流程图。
图2为本申请具体实施方式提供的一种健康数据的去隐私化处理方法中向量匹配过程示意图。
图3为本申请具体实施方式提供的一种健康数据的去隐私化处理系统的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以细微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的细微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
如图1所示,本申请提供了一种健康数据的去隐私化处理方法,其包括以下步骤:
S1、获取健康数据。
S2、判断获取的健康数据是结构化数据还是非结构化数据,具体地,如果获取的健康数据为有明确词条标识的词序列,则该健康数据为结构化数据;否则,该健康数据为非结构化数据。
S3、如果该健康数据为非结构化数据,则提取非结构化数据中的英文与数字类数据以及中文字符类数据。具体地,可以采用正则表达式进行提取。如果该健康数据为结构化数据,则进入步骤S6。
其中,英文与数字类数据包括身份证号、手机号和地址号等。中文字符类数据包括姓名、病名、医院名、机构名和地址等。
S4、对非结构化数据中的中文字符类数据进行维特比分词,得到中文字符的分词结果,其具体过程为:
S41、根据中文字符分词的观测概率和分词的初始概率,计算第一个中文字符的分词概率,其具体过程为:
根据各中文字符在中文字符类数据中的相对位置,各中文字符均可以为词头B、词身M、词尾E和其他O中的一种。
获取词头B、词身M、词尾E和其他O四种类型分词的初始概率。
获取中文字符类数据中各中文字符分别为词头B、词身M、词尾E和其他O的概率,即中文字符分词的观测概率。
根据公式
Figure BDA0001830608330000081
计算中文字符类数据中第一个中文字符的分词概率。其中,φ1表示第一个中文字符的分词概率;pi,k表示中文字符分词的观测概率,具体地,表示第k个字符分别为词头B、词身M、词尾E和其他O的概率;si表示分词的初始概率。
根据第一个中文字符的分词概率对应得到第一个中文字符对应的分词结果。其中,第一个中文字符对应的分词结果为词头B、词身M、词尾E和其他O中的一种。
S42、根据上一个中文字符的分词概率、分词转换概率和中文字符分词的观测概率,计算得到剩余字符的分词概率。
具体地,采用以下公式循环迭代,顺次计算剩余各字符的分词概率。
Figure BDA0001830608330000082
其中,φx表示第x个中文字符的分词概率,其中x>1;pj,k表示中文字符分词的观测概率,ti,j表示分词转换概率,φx-1,i表示上一中文字符的分词概率,即第x-1个中文字符的分词概率。
根据剩余各字符的分词概率对应得到剩余各字符的分词结果。其中,剩余各字符的分词结果为词头B、词身M、词尾E和其他O中的一种。
S43、根据各字符的分词结果在字符串中的位置得到非结构化数据中的中文字符类数据的分词结果。
S5、对非结构化数据中的中文字符类数据的分词结果进行维特比分类,得到结构化数据,其具体过程为:
S51、根据中文字符分类的观测概率和分类的初始概率,计算第一个词的分类概率,其具体过程为:
根据各词词意,各词均可以属于姓名N、病名D、医院H、机构G和地址A中五种类型词条标识的一种。
获取姓名N、病名D、医院H、机构G和地址A五种类型词条标识的分类的初始概率。
获取中文字符的分词结果中各词分别属于姓名N、病名D、医院H、机构G和地址A的概率,即中文字符分类的观测概率。
根据公式
Figure BDA0001830608330000091
计算中文字符的分词结果中第一个词的分类概率。其中,θ1表示第一个词的分类概率,qi,k表示中文字符分类的观测概率,ui表示分类的初始概率。
根据第一个词的分类概率对应得到第一个词对应的分类结果。其中,第一个词对应的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种。
S52、根据上一个词的分类概率、分类转换概率和中文字符分类的观测概率,计算得到剩余词的分类概率。
具体地,采用以下公式循环迭代,顺次计算剩余各字符的分词概率。
Figure BDA0001830608330000092
其中,θx表示第x个词的分类概率,其中x>1;qj,k表示中文字符分类的观测概率,vi,j表示分类转换概率,φx-1,i表示上一词的分类概率,即第x-1个词的分类概率。
根据剩余各词的分类概率对应得到剩余各词的分类结果。其中,剩余各词的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种。
S53、根据各词的分类结果,得到结构化数据。
S6、对结构化数据进行去隐私化处理,如图2所示,其具体过程为:
S61、对结构化数据进行敏感信息标记,其具体过程为:
将敏感词库中的所有敏感词条目与词条标识进行向量匹配,进行验证。其中,对于第i个词条,如果
Figure BDA0001830608330000101
则将该词条标识下的词条标记为敏感词,否则不予标记。
S62、对标记为敏感词的词条进行脱敏处理,其具体包括:
对非标记类敏感词进行掩码处理。具体地,可以利用*、+、X等字符代替非标记类敏感词;
对标记类敏感词进行转码处理。具体地,对标记类敏感词进行转码处理的过程为:
假设标记类敏感词对应的码值为m,转码后的词条对应的码值为c。取整数g,使得g>m;取随机整数r。根据以下公式:
c=m+gr,
计算得到转码后的词条对应的码值c。
S7、输出经过掩码与转码后的去隐私化健康数据。
本申请健康数据的去隐私化处理方法还包括以下步骤:
对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词,其具体过程为:
根据去隐私化健康数据中标记类信息,采用以下公式:
m=c%g,
计算得到转码处理前的标记类信息。
在技术层面,本申请实施例提出的健康数据的去隐私化处理方法通过对非结构化数据进行脱敏处理,能够实现在不暴露隐私信息的前提下公开健康数据。同时本申请实施例还提供了标记类数据的转码处理方法,使得数据在去隐私化处理后,依然能够通过预设的算法进行信息回溯,便于原始信息的查询。
在应用层面,本申请实施例提出的健康数据的去隐私化处理方法可以根据预先设置的敏感词库设置不同的敏感词。例如,无需对姓名进行脱敏处理时,则将姓名从敏感词库中移除即可。
在一个具体的实施例中,假设读取了以下健康数据:北京医院与卫生研究所对身份证号是123456的张三进行了肺结核治疗的会诊。采用本申请健康数据的去隐私化处理方法,对以上健康数据进行去隐私化处理,其具体过程为:
根据获取的健康数据没有明确的词条标识,判定该健康数据为非结构化数据。
利用正则表达式分别提取非结构化数据中的英文与数字类数据以及中文字符类数据。其中,提取出的英文与数字类数据为:123456。提取出的中文字符类数据包括:“北京医院与卫生研究所对身份证号是”以及“的张三进行了肺结核治疗的会诊”。
对上述中文字符类数据进行维特比分词,得到“北京医院与卫生研究所对身份证号是”的分词结果为:‘B M M E O B M M M E O O O O O O’;“的张三进行了肺结核治疗的会诊”的分词结果为:‘O B E O O O B M E O O O O O’。
其中,采用以下公式计算中文字符类数据中第一个中文字符的分词概率:
Figure BDA0001830608330000111
式中,φ1表示第一个中文字符的分词概率;pi,k表示中文字符分词的观测概率,具体地,表示第k个字符分别为词头B、词身M、词尾E和其他O的概率;si表示分词的初始概率。
采用以下公式循环迭代,顺次计算剩余各字符的分词概率。
Figure BDA0001830608330000121
式中,φx表示第x个中文字符的分词概率,其中x>1;pj,k表示中文字符分词的观测概率,ti,j表示分词转换概率,φx-1,i表示上一中文字符的分词概率,即第x-1个中文字符的分词概率。
如表1所示,词头B、词身M、词尾E和其他O四种类型分词的初始概率表为:
表1分词的初始概率表
词头B 词身M 词尾E 其他O
s<sub>1</sub> s<sub>2</sub>=-10<sup>10</sup> s<sub>3</sub>=-10<sup>10</sup> s<sub>4</sub>
中文字符分词的观测概率如表2所示。其中,p1,k表示第k个字符为词头B的概率,p2,k表示第k个字符为词身M的概率,p3,k表示第k个字符为词尾E的概率,p4,k表示第k个字符为其他O的概率。
表2中文字符分词的观测概率表
…… k ……
词头B p<sub>11</sub> p<sub>12</sub> p<sub>13</sub> p<sub>14</sub> p<sub>15</sub> p<sub>1k</sub>
词身M p<sub>21</sub> p<sub>22</sub> p<sub>23</sub> p<sub>24</sub> p<sub>25</sub> p<sub>2k</sub>
词尾E p<sub>31</sub> p<sub>32</sub> p<sub>33</sub> p<sub>34</sub> p<sub>35</sub> p<sub>3k</sub>
其他O p<sub>41</sub> p<sub>42</sub> p<sub>43</sub> p<sub>44</sub> p<sub>45</sub> p<sub>4k</sub>
……
如表3所示,在分词转换概率表中,分词转换概率ti,j,i=1、2、3、4,j=1、2、3、4,其中,t11表示当前中文字符为词头B,其上一中文字符也为词头B的概率;同理,t41表示当前中文字符为词头B,其上一中文字符为其他O的概率;同理,t34表示当前中文字符为其他O,其上一中文字符为词尾E的概率。
表3分词转换概率表
词头B 词身M 词尾E 其他O
词头B t<sub>11</sub>=-10<sup>10</sup> t<sub>12</sub> t<sub>13</sub> t<sub>14</sub>=-10<sup>10</sup>
词身M t<sub>21</sub>=-10<sup>10</sup> t<sub>22</sub> t<sub>23</sub> t<sub>24</sub>=-10<sup>10</sup>
词尾E t<sub>31</sub> t<sub>32</sub>=-10<sup>10</sup> t<sub>33</sub>=-10<sup>10</sup> t<sub>34</sub>
其他O t<sub>41</sub> t<sub>42</sub>=-10<sup>10</sup> t<sub>43</sub>=-10<sup>10</sup> t<sub>44</sub>
根据分词结果中所有B、E在字符串中的位置,得到非结构化数据中的中文字符类数据的分词结果:“北京医院”、“卫生研究所”、“张三”、“肺结核”。
对以上分词结果进行维特比分类,得到结构化数据为:姓名N:“张三”;病名D:“肺结核”;医院H:“北京医院”;机构A:“卫生研究所”。
其中,采用以下公式计算中文字符的分词结果中第一个词的分类概率:
Figure BDA0001830608330000131
式中,θ1表示第一个词的分类概率,qi,k表示中文字符分类的观测概率,ui表示分类的初始概率。
采用以下公式循环迭代,顺次计算剩余各字符的分词概率。
Figure BDA0001830608330000132
式中,θx表示第x个词的分类概率,其中x>1;qj,k表示中文字符分类的观测概率,vi,j表示分类转换概率,φx-1,i表示上一词的分类概率,即第x-1个词的分类概率。
如表4所示,姓名N、病名D、医院H、机构G和地址A中五种类型词条标识的分类的初始概率分别为:u1~u5
表4分类的初始概率表
姓名N 病名D 医院H 机构G 地址A
u<sub>1</sub> u<sub>2</sub> u<sub>3</sub> u<sub>4</sub> u<sub>5</sub>
中文字符分类的观测概率如表5所示。其中,q1,k表示第k个字符属于姓名N的概率,p2,k表示第k个字符为词身M的概率,p3,k表示第k个字符为词尾E的概率,p4,k表示第k个字符为其他O的概率。
表5中文字符分类的观测概率表
…… k ……
姓名N q<sub>11</sub> q<sub>12</sub> q<sub>13</sub> q<sub>14</sub> q<sub>15</sub> q<sub>1k</sub>
病名D q<sub>21</sub> q<sub>22</sub> q<sub>23</sub> q<sub>24</sub> q<sub>2`5</sub> q<sub>2k</sub>
医院H q<sub>31</sub> q<sub>32</sub> q<sub>33</sub> q<sub>34</sub> q<sub>35</sub> q<sub>3k</sub>
机构G q<sub>41</sub> q<sub>42</sub> q<sub>43</sub> q<sub>44</sub> q<sub>45</sub> q<sub>4k</sub>
地址A q<sub>51</sub> q<sub>52</sub> q<sub>53</sub> q<sub>54</sub> q<sub>55</sub> q<sub>5k</sub>
……
如表6所示,在分类转换概率表中,分类转换概率vi,j,i=1、2、3、4、5,j=1、2、3、4、5,其中,v11表示当前字符属于姓名N,其上一字符也属于姓名N的概率;同理,t41表示当前字符属于姓名N,其上一字符属于机构G的概率;同理,t34表示当前字符属于机构G,其上一字符属于医院H的概率。
表6分类转换概率表
姓名N 病名D 医院H 机构G 地址A
姓名N v<sub>11</sub> v<sub>12</sub> v<sub>13</sub> v<sub>14</sub> v<sub>15</sub>
病名D v<sub>21</sub> v<sub>22</sub> v<sub>23</sub> v<sub>24</sub> v<sub>25</sub>
医院H v<sub>31</sub> v<sub>32</sub> v<sub>33</sub> v<sub>34</sub> v<sub>35</sub>
机构G v<sub>41</sub> v<sub>42</sub> v<sub>43</sub> v<sub>44</sub> v<sub>45</sub>
地址A v<sub>51</sub> v<sub>52</sub> v<sub>53</sub> v<sub>54</sub> v<sub>55</sub>
根据各词的分类结果,得到的结构化数据为:
姓名N:“张三”、病名D:“肺结核”、医院H:“北京医院”、机构:“卫生研究所”。
例如,对结构化数据进行去隐私化处理后得到:
***与***对身份证号是0x47C5D7的***进行了***治疗的会诊。
进行信息回溯处理时,令g=654321,则m=c%g=0x47C5D7%g=123456,%表示取余。
如图3所示,本申请实施例还提供了一种健康数据的去隐私化处理系统,其包括:
获取模块1,用于获取一段健康数据。
判断模块2,用于判断获取的健康数据是结构化数据还是非结构化数据。
提取模块3,用于提取非结构化数据中的英文与数字类数据以及中文字符类数据。具体地,可以采用正则表达式进行提取,还可以采用其他算法提取文本中的英文与数字类数据以及中文字符类数据。
分词模块4,用于对非结构化数据中的中文字符类数据进行分词,得到中文字符的分词结果。具体地,可以采用维特比算法对非结构化数据中的中文字符类数据进行分词,还可以采用RNN或LSTM等人工神经网络进行分词。
分类模块5,用于对非结构化数据中的中文字符类数据的分词结果进行分类,得到结构化数据。具体地,可以采用维特比算法对分词结果进行分类,还可以采用RNN或LSTM等人工神经网络进行分类。
处理模块6,用于对结构化数据进行去隐私化处理。具体地,处理模块6包括标记模块、掩码处理模块和转码处理模块。标记模块用于对结构化数据进行敏感信息标记,掩码处理模块用于对非标记类敏感词进行掩码处理,转码处理模块用于对标记类敏感词进行转码处理。
输出模块,用于输出经过掩码与转码后的去隐私化健康数据。
本申请实施例健康数据的去隐私化处理系统还包括信息回溯模块,其用于对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词。
需要说明的是:上述实施例提供的去隐私化处理系统仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将去隐私化处理系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的去隐私化处理系统与去隐私化处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请健康数据的去隐私化处理系统通过分词模块4和分类模块5将非结构化数据转换成结构化数据,再通过处理模块6对结构化数据进行去隐私化处理,本申请能够对非结构化健康数据进行去隐私化处理,从而能够实现在不暴露隐私信息的前提下公开健康数据的目的。本申请还能够对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词。
基于上述去隐私化处理系统中各模块的硬件实现,为了实现本申请实施例提供的去隐私化处理方法,本申请实施例还提供了一种健康数据的去隐私化处理装置,其包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器。其中所述处理器用于运行所述计算机程序时,执行如下步骤:
获取健康数据。
判断获取的健康数据是结构化数据还是非结构化数据。
对于非结构化数据利用正则表达式分别提取非结构化数据中的英文与数字类数据以及中文字符类数据。对非结构化数据中的中文字符类数据进行维特比分词,得到中文字符的分词结果。
对非结构化数据中的中文字符类数据的分词结果进行维特比分类,得到结构化数据。
对结构化数据进行去隐私化处理,包括:对结构化数据进行敏感信息标记;对标记为敏感词的词条进行脱敏处理,其中,对非标记类敏感词进行掩码处理,对标记类敏感词进行转码处理。
所述处理器用于运行所述计算机程序时,还执行如下步骤:对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词。
在示例性实施例中,本申请实施例还提供了一种计算机存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由去隐私化处理系统中的处理器执行,以完成上述去隐私化处理方法中的所述步骤。计算机可读存储介质可以是磁性随机存取存储器(FRAM,ferromagnetic random access memory)、只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory)等存储器。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (9)

1.一种健康数据的去隐私化处理方法,其特征在于,包括以下步骤:
获取健康数据;
判断获取的健康数据是结构化数据还是非结构化数据;
对于非结构化数据,分别提取非结构化数据中的英文与数字类数据以及中文字符类数据;
对非结构化数据中的中文字符类数据进行维特比分词,得到中文字符的分词结果;
对非结构化数据中的中文字符类数据的分词结果进行维特比分类,得到结构化数据;
对获取的结构化数据和处理得到的结构化数据进行去隐私化处理,其具体过程为:
对结构化数据进行敏感信息标记,其过程为:
将敏感词库中的所有敏感词条目与词条标识进行向量匹配,进行验证;其中,对于第i个词条,如果
Figure FDA0002827589590000011
则将该词条标识下的词条标记为敏感词,否则不予标记;
对标记为敏感词的词条进行脱敏处理,其具体包括:对非标记类敏感词进行掩码处理;对标记类敏感词进行转码处理;
输出经过掩码与转码后的去隐私化健康数据。
2.根据权利要求1所述的健康数据的去隐私化处理方法,其特征在于,所述步骤分别提取非结构化数据中的英文与数字类数据以及中文字符类数据采用正则表达式进行提取,所述英文与数字类数据包括身份证号、手机号和地址号,所述中文字符类数据包括姓名、病名、医院名、机构名和地址。
3.根据权利要求1或2所述的健康数据的去隐私化处理方法,其特征在于,所述步骤对非结构化数据中的中文字符类数据进行维特比分词的过程为:
根据中文字符分词的观测概率和分词的初始概率,计算第一个中文字符的分词概率,采用以下公式:
Figure FDA0002827589590000021
式中,φ1表示第一个中文字符的分词概率;pi,k表示中文字符分词的观测概率,具体地,表示第k个字符分别为词头B、词身M、词尾E和其他O的概率;si表示分词的初始概率;
根据第一个中文字符的分词概率对应得到第一个中文字符对应的分词结果,第一个中文字符对应的分词结果为词头B、词身M、词尾E和其他O中的一种;
根据上一个中文字符的分词概率、分词转换概率和中文字符分词的观测概率,计算得到剩余字符的分词概率,采用以下公式循环迭代,顺次计算剩余各字符的分词概率;
Figure FDA0002827589590000022
其中,φx表示第x个中文字符的分词概率,其中x>1;pj,k表示中文字符分词的观测概率,ti,j表示分词转换概率,φx-1,i表示上一中文字符的分词概率,即第x-1个中文字符的分词概率;
根据剩余各字符的分词概率对应得到剩余各字符的分词结果;剩余各字符的分词结果为词头B、词身M、词尾E和其他O中的一种;
根据各字符的分词结果在字符串中的位置得到非结构化数据中的中文字符类数据的分词结果。
4.根据权利要求3所述的健康数据的去隐私化处理方法,其特征在于,所述步骤对非结构化数据中的中文字符类数据的分词结果进行维特比分类的过程为:
根据中文字符分类的观测概率和分类的初始概率,计算第一个词的分类概率,采用以下公式:
Figure FDA0002827589590000031
式中,θ1表示第一个词的分类概率,qi,k表示中文字符分类的观测概率,ui表示分类的初始概率;
根据第一个词的分类概率对应得到第一个词对应的分类结果,第一个词对应的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种;
根据上一个词的分类概率、分类转换概率和中文字符分类的观测概率,计算得到剩余词的分类概率;采用以下公式循环迭代,顺次计算剩余各字符的分词概率;
Figure FDA0002827589590000032
式中,θx表示第x个词的分类概率,其中x>1;qj,k表示中文字符分类的观测概率,vi,j表示分类转换概率,φx-1,i表示上一词的分类概率,即第x-1个词的分类概率;
根据剩余各词的分类概率对应得到剩余各词的分类结果,剩余各词的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种;
根据各词的分类结果,得到结构化数据。
5.根据权利要求1所述的健康数据的去隐私化处理方法,其特征在于,所述步骤对标记类敏感词进行转码处理的过程为:
假设标记类敏感词对应的码值为m,转码后的词条对应的码值为c;取整数g,使得g>m;取随机整数r;根据以下公式:
c=m+gr,
计算得到转码后的词条对应的码值c。
6.根据权利要求5所述的健康数据的去隐私化处理方法,其特征在于,还包括以下步骤:
对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词,其过程为:
根据去隐私化健康数据中标记类信息,采用以下公式:
m=c%g,%表示取余,
计算得到转码处理前的标记类信息。
7.一种健康数据的去隐私化处理系统,其特征在于,包括:
获取模块,用于获取一段健康数据;
判断模块,用于判断获取的健康数据是结构化数据还是非结构化数据;
提取模块,用于提取非结构化数据中的英文与数字类数据以及中文字符类数据;
分词模块,用于对非结构化数据中的中文字符类数据进行分词,得到中文字符的分词结果;
分类模块,用于对非结构化数据中的中文字符类数据的分词结果进行分类,得到结构化数据;
处理模块,用于对结构化数据进行去隐私化处理;处理模块包括标记模块、掩码处理模块和转码处理模块,标记模块用于对结构化数据进行敏感信息标记,其具体过程为:将敏感词库中的所有敏感词条目与词条标识进行向量匹配,进行验证;其中,对于第i个词条,如果
Figure FDA0002827589590000041
则将该词条标识下的词条标记为敏感词,否则不予标记;
掩码处理模块用于对非标记类敏感词进行掩码处理,转码处理模块用于对标记类敏感词进行转码处理;
输出模块,用于输出经过掩码与转码后的去隐私化健康数据。
8.根据权利要求7所述的健康数据的去隐私化处理系统,其特征在于,还包括信息回溯模块,所述信息回溯模块用于对转码后的词条进行信息回溯处理,得到转码前的标记类敏感词。
9.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201811203455.8A 2018-10-16 2018-10-16 健康数据的去隐私化处理方法及系统 Active CN109522740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811203455.8A CN109522740B (zh) 2018-10-16 2018-10-16 健康数据的去隐私化处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811203455.8A CN109522740B (zh) 2018-10-16 2018-10-16 健康数据的去隐私化处理方法及系统

Publications (2)

Publication Number Publication Date
CN109522740A CN109522740A (zh) 2019-03-26
CN109522740B true CN109522740B (zh) 2021-04-20

Family

ID=65770879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811203455.8A Active CN109522740B (zh) 2018-10-16 2018-10-16 健康数据的去隐私化处理方法及系统

Country Status (1)

Country Link
CN (1) CN109522740B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781516A (zh) * 2019-10-29 2020-02-11 无锡海鹰电子医疗系统有限公司 一种图像去隐私标注方法
CN110826105B (zh) * 2019-11-15 2021-11-12 江苏苏宁银行股份有限公司 一种分布式银行数据脱敏方法及系统
CN111143882A (zh) * 2019-12-31 2020-05-12 杭州依图医疗技术有限公司 一种信息处理方法及装置
CN111984987B (zh) * 2020-09-01 2024-04-02 上海梅斯医药科技有限公司 一种用于电子病历脱敏及还原的方法、装置、系统和介质
CN116776862A (zh) * 2023-08-25 2023-09-19 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的敏感词屏蔽方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
CN106055996A (zh) * 2016-05-18 2016-10-26 维沃移动通信有限公司 一种多媒体信息分享方法及移动终端
CN106302328A (zh) * 2015-05-20 2017-01-04 腾讯科技(深圳)有限公司 敏感用户数据处理系统和方法
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN108170682A (zh) * 2018-01-18 2018-06-15 北京同盛科创科技有限公司 一种基于专业词汇的中文分词方法及计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10771247B2 (en) * 2013-03-15 2020-09-08 Commerce Signals, Inc. Key pair platform and system to manage federated trust networks in distributed advertising

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
CN106302328A (zh) * 2015-05-20 2017-01-04 腾讯科技(深圳)有限公司 敏感用户数据处理系统和方法
CN106055996A (zh) * 2016-05-18 2016-10-26 维沃移动通信有限公司 一种多媒体信息分享方法及移动终端
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN108170682A (zh) * 2018-01-18 2018-06-15 北京同盛科创科技有限公司 一种基于专业词汇的中文分词方法及计算设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Viterbi algorithm based Bluetooth low energy receiver for IoT;K T Nimisha;《 2017 2nd IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology (RTEICT)》;20180115;第978-981页 *
基于隐马尔科夫模型的专利功效词识别;张博培等;《情报工程》;20150910;第1卷(第3期);第81-89页 *

Also Published As

Publication number Publication date
CN109522740A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522740B (zh) 健康数据的去隐私化处理方法及系统
CN109522557B (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN106033416A (zh) 一种字符串处理方法及装置
CN111651986B (zh) 事件关键词提取方法、装置、设备及介质
KR101897060B1 (ko) 개체명 인식 모델 생성 장치 및 방법
CN112633423B (zh) 文本识别模型的训练方法、文本识别方法、装置及设备
CN113076748B (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
WO2021179708A1 (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN113707300A (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN110427992A (zh) 数据匹配方法、装置、计算机设备及存储介质
CN116049354A (zh) 基于自然语言的多表格检索方法及装置
CN111783126A (zh) 一种隐私数据识别方法、装置、设备和可读介质
CN112651392A (zh) 证件信息的获取方法及装置、存储介质、计算机设备
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN111357015A (zh) 语音合成方法、装置、计算机设备和计算机可读存储介质
CN112395866B (zh) 报关单数据匹配方法及装置
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN116611092A (zh) 一种基于多因子的数据脱敏方法及装置、溯源方法及装置
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
CN111738358B (zh) 一种数据识别方法、装置、设备和可读介质
CN114238597A (zh) 一种信息抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant