CN112632606A

CN112632606A - 基于snomed-ct的医疗文本文档脱敏方法及系统

Info

Publication number: CN112632606A
Application number: CN202011533361.4A
Authority: CN
Inventors: 戴敏; 吕晓云; 朱森
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-09
Anticipated expiration: 2040-12-23
Also published as: CN112632606B

Abstract

本发明涉及一种基于SNOMED‑CT的医疗文本文档脱敏方法及系统，包括以下步骤：步骤1、根据隐私要求，确定医疗文本脱敏系统的脱敏阈值；步骤2、对待处理的医疗文本文档进行预处理，得到名词列表；步骤3、根据步骤1获得的医疗文本脱敏系统的脱敏阈值，将步骤2中获得的名词列表进行敏感术语检测和消毒，得到脱敏后的文档。本发明能够提高脱敏的精确性及脱敏后文档的实用性。

Description

基于SNOMED-CT的医疗文本文档脱敏方法及系统

技术领域

本发明属于生物医学和信息技术领域，涉及医疗文本文档脱敏方法及系统，尤其是一种基于SNOMED-CT的医疗文本文档脱敏方法及系统。

背景技术

医疗物联网(IoMT)技术的发展推进了医疗服务、医疗保健的普及和发展。许多基于IoMT的工具、软件和设施已用于远程健康跟踪、身体恢复锻炼、慢性病人群和老年人群的护理。当健康数据关联到具体的个体时，若处理不当，可能会引发严重的用户隐私问题。

在医学领域内已经制定了关于隐私保护的正式条例，如《健康保险携带和责任法案》(HIPAA)规定了在医疗文件允许发布之前应删除个人可识别信息；美国许多州和联邦法律也规定，在向第三方发布医疗记录之前，必须对艾滋病状况、药物或酒精滥用以及精神健康状况等因素进行脱敏。

医疗文本中很多文本术语在语义上都是相关的，单纯删除或涂黑敏感术语(如艾滋病)可能会提高潜在攻击者的警觉性，并且未处理的语义相关术语(如免疫系统、流感和无保护的性行为)可能会增大敏感术语被揭露的风险。因此，如何用语义泛化的形式来处理敏感术语，以及如何发现和处理语义相关术语成为了医疗文本脱敏工作的重点。

目前，Sanchez等人提出的基于信息量(IC)的医疗文本脱敏方法以互联网中医疗数据的稀疏性作为评判术语敏感与否的标准，而互联网中医疗数据的稀疏性受阶段性流行病与社会舆论指向的影响较大。另外，依照数据稀疏性来判断术语敏感与否，可能会使一些非常用的非敏感术语被识别为敏感术语,导致了现有的语义相似度计算方法存在敏感词查找不准确缺陷。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于SNOMED-CT的医疗文本文档脱敏方法及系统，能够提高隐私保护和文档实用性，进而能够有效的应用于医疗文本的语义脱敏。

本发明解决其现实问题是采取以下技术方案实现的：

一种基于SNOMED-CT的医疗文本文档脱敏方法，包括以下步骤：

步骤1、根据隐私要求，确定医疗文本脱敏系统的脱敏阈值；

步骤2、对待处理的医疗文本文档进行预处理，得到名词列表；

步骤3、根据步骤1获得的医疗文本脱敏系统的脱敏阈值，并基于SNOMED-CT的语义相似度的计算方法，将步骤2中获得的名词列表进行敏感术语检测和消毒，得到脱敏后的文档。

而且，所述步骤1的具体步骤包括：

(1)将当前有关医疗数据隐私的法律作为隐私要求，将其在SNOMED-CT中的不同同义词及以其为祖先的所有术语作为敏感术语列表进行输入，将敏感术语列表称为S；

(2)将敏感术语列表S中包含的术语两两进行相似度计算，选取其中相似度最小的两个术语之间的相似性度量值来作为该框架的脱敏阈值τ。

而且，所述步骤2的具体方法为：

输入待处理的医疗文本文档，对该医疗文本文档进行预处理，首先识别和删除否定词和不确定词，然后提取名词和名词短语，之后再提词干，最后进行去重等操作后得到名词列表T。

而且，所述步骤3的具体步骤包括：

(1)使用基于SNOMED-CT的语义相似度的计算方法，计算名词列表T中的术语语义距离，使用脱敏阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S中的各术语的语义距离均大于τ，进而得到一级敏感词列表；

(2)将步骤3的第(1)步标记的一级敏感词列表作为敏感术语列表S1，使用基于SNOMED-CT的语义相似度的计算方法，计算名词列表T中除去一级敏感词后，剩下词语与敏感术语列表S1的语义距离，使用消毒阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S1中的各术语的语义距离均大于τ，以消除对于上述敏感词的披露风险，进而得到二级敏感词列表S2；

(3)对二级敏感词列表进行相邻术语拼接检测，并使用基于SNOMED-CT的语义相似度的计算方法，计算相邻拼接术语的语义距离，使用消毒阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S1中的各术语的语义距离均大于τ，进而得到脱敏后的医疗文档。

而且，所述步骤3的基于SNOMED-CT的语义相似度的计算方法的具体步骤包括：

①在SNOMED-CT结构中，设c₁和c₂是SNOMED-CT中的两个概念，则这两个概念结点的具体化程度可表示为：

其中，h代表了c₁和c₂两个概念结点的最小公共祖先的深度。最小公共祖先的深度越大，概念的具体化程度越高，反之成立；

②在SNOMED-CT结构中，设c₁和c₂是SNOMED-CT中的两个概念，可以用两个概念结点之间的最短路径长度描述两个概念的语义距离：

dis(c₁，c₂)＝e^d

其中，d是概念结点c₁和c₂之间的最短路径，由此可见，两个概念结点之间的最短路径距离越大，它们之间的语义距离就越大，反之成立；

③综合考虑SNOMED-CT中两个概念间的横向关系和纵向关系，两个概念的相似度计算方法为：

设单词q₁具有多个概念(c₁₁,c₁₂,…,c_1a)，单词q₂具有多个概念(c₂₁,c₂₂,…,c_2b)，则q₁，q₂两个单词间的语义相似度计算：

sim_W(q₁，q₂)＝max{sim(c_1i，c_2j)}i∈[1，a]，j∈[1，b]

④假设术语p₁包含多个单词(p₁₁,p₁₂,…,p_1m)，术语p₂包含多个单词(P₂₁,P₂₂,…,P_2n)，则两个术语之间的语义相似性计算：

一种基于SNOMED-CT的医疗文本文档脱敏系统，包括以下模块：

敏感阈值计算模块，根据当前医疗数据隐私保护的法律法规及相关隐私保护要求，建立基于SNOMED-CT的敏感术语列表，并根据该敏感术语列表中两两术语的相似度，确定医疗文本脱敏系统的脱敏阈值；

文本预处理模块，将待处理文档进行去否定词和不确定词等操作后提取文档中的名词和名词短语；

敏感术语检测和消毒模块，以不泄露敏感信息和最大程度减少信息丢失为目的，基于从SNOMED-CT中计算术语的相似度来确定敏感词，利用阈值进行敏感词检测和消除。

本发明的优点和有益效果：

1、本发明提出一种基于SNOMED-CT的医疗文本文档脱敏方法及系统，综合考虑SNOMED-CT中概念之间的“IS_A”关系(纵向关系)和“概念模型属性”关系(横向关系)两方面的因素来计算医疗术语之间的语义相似度。并基于从SNOMED-CT中计算术语的相似度来确定敏感词，计算两个概念之间的相似度主要考虑概念的具体化程度和语义距离，并从中检索到适当的泛化来替换敏感词，从而提高脱敏的精确性及脱敏后文档的实用性。

2、本发明的一种基于SNOMED-CT的医疗文本文档脱敏方法及系统能够有效的用于医疗文本的语义脱敏，将该方法用于医疗文本的语义脱敏过程，并将该方法在高度敏感的医疗文档上进行实验，将结果与基于信息量的脱敏方法进行对比，实验结果表明，该方法在隐私保护和文档实用性方面均有提高。

附图说明

图1为本发明的一种基于SNOMED-CT的医疗文本文档脱敏方法的处理流程图；

图2为本发明的步骤2的预处理流程图；

图3为本发明的基于SNOMED-CT的语义相似度的计算方法的处理流程图；

图4为本发明的SNOMED-CT逻辑结构图。

具体实施方式

以下结合附图对本发明实施例作进一步详述：

一种基于SNOMED-CT的医疗文本文档脱敏方法，如图1所示，包括以下步骤：

步骤1、根据隐私要求，确定医疗文本脱敏系统的脱敏阈值；

所述步骤1的具体步骤包括：

(1)将当前有关医疗数据隐私的法律作为隐私要求，将其在SNOMED-CT中的不同同义词及以其为祖先的所有术语作为敏感术语列表进行输入，将敏感术语列表称为S。

在本实施例中，将当前有关医疗数据隐私的法律作为隐私要求，具体说明应保护的实体类型，也可以根据需求包含其它的隐私要求。然后将其在SNOMED-CT中的不同同义词(例如：STDs:sexuallytransmitteddisease,venerealdisease,VD等)及以其为祖先的所有术语(例如：STDs:gonorrhea,syphilis,chlamydia等)作为敏感术语列表进行输入，将敏感术语列表称为S。

在本实施例中，敏感术语列表S包含的是泄露隐私的敏感术语。

(2)将敏感术语列表S中包含的术语两两进行相似度计算，选取其中相似度最小的两个术语之间的相似性度量值来作为该框架的脱敏阈值τ

在本实施例中，假定任何与s∈S的相似度大于τ的术语都被认定为敏感术语。此阈值是一个数值，代表S中敏感术语在知识库(KB)中的敏感区域半径，在此区域中的任何术语均被认定为敏感。

所述步骤2的具体方法为：

输入待处理的医疗文本文档，对该医疗文本文档进行预处理，首先识别和删除否定词和不确定词，然后提取名词和名词短语，之后再提词干，最后进行去重等操作后得到名词列表，其预处理的流程图如图2所示。

在本实施例中，所述否定词和不确定词在某些预设的上下文中，用来否定或反驳预设，相关研究表明，在叙事性临床报告中，临床观察经常被否定，所以识别否定和不确定术语是至关重要的。在预处理阶段先对包含否定词和不确定词等句子进行识别和删除处理,不仅提高脱敏后输出文本的效用，而且提高脱敏效率，减少系统不必要的开销，如下面的例子，这个句子包含否定信息和不确定信息，句子的整体含义是没有疾病，但是直接提取文本中的名词进行脱敏会对这些非敏感词汇进行处理。

He did not have AIDS,his CD4+ T lymphocytes did not decreaseprogressively,the ratio of CD4+/CD8+T cells did not invert,and the cellularimmune function was normal.

预处理后：['AIDS','CD4+','T','ratio','CD4+/CD8+','T','cells','immune','function']

在本实施例中，在对包含否定和不确定意义的句子进行查找和删除后，对输出的文档利用自然语言工具nltk进行名词提取。通常，敏感术语在文档中是以名词或名词短语的形式存在的，因此，将重点放在名词和名词短语的检测上。

在本实施例中，为提高对同一单词的不同词法衍生形态(例如：单/复数形式)匹配的准确性，我们将应用词干算法对上一步骤提取的名词和名词短语进行提词干处理。

在本实施例中，为提高脱敏效率和减少系统不必要开销，对上一步骤输出的名词列表进行去重处理后最终得到名词列表T。

所述步骤3的具体步骤包括：

在本实施例中，所述基于SNOMED-CT的语义相似度计算方法，为计算两个概念之间的相似度，其主要考虑两个因素：概念的具体化程度和语义距离。

如图3所示，所述步骤3的基于SNOMED-CT的语义相似度的计算方法的具体步骤包括：

①在SNOMED-CT结构中，概念所在的层次(深度)，即概念结点与根节点之间的纵向关系距离(即“IS_A”关系数量)，代表了概念描述内容的具体化程度。每一层都是对上层概念的具体化，也是对下层概念的泛化，故深度越大，具体化程度越高。设c₁和c₂是SNOMED-CT中的两个概念，则这两个概念结点的具体化程度可表示为：

其中，h代表了c₁和c₂两个概念结点的最小公共祖先的深度。最小公共祖先的深度越大，概念的具体化程度越高，反之成立。

②在SNOMED-CT结构中，概念结点之间的横向关系距离(即“概念模型属性”关系数量)代表了两个概念之间的语义距离。设c₁和c₂是SNOMED-CT中的两个概念，可以用两个概念结点之间的最短路径长度描述两个概念的语义距离：

dis(c₁，c₂)＝e^d

其中，d是概念结点c₁和c₂之间的最短路径。由此可见，两个概念结点之间的最短路径距离越大，它们之间的语义距离就越大，反之成立。

由于一个单词可能具有多种概念含义，本文用与单词相关概念的相似度最大值来描述单词之间的语义相似度。设单词q₁具有多个概念(c₁₁,c₁₂,…,c_1a)，单词q₂具有多个概念(c₂₁,c₂₂,…,c_2b)，则q₁，q₂两个单词间的语义相似度计算：

sim_W(q₁，q₂)＝max{sim(c_1i，c_2j)}i∈[1，a]，j∈[1，b]

④单篇医疗文档中包含若干医疗术语，每个医疗术语通常由若干单词组成，假设术语p₁包含多个单词(p₁₁,p₁₂,…,p_1m)，术语p₂包含多个单词(P₂₁,P₂₂,…,P_2n)，则两个术语之间的语义相似性计算：

(3)对二级敏感词列表进行相邻术语拼接检测，相邻术语拼接就是单个术语不敏感，不会揭露敏感信息，但是多个不敏感的术语在一起就会造成敏感信息泄露，使用基于SNOMED-CT的语义相似度的计算方法，计算相邻拼接术语的语义距离，使用消毒阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S1中的各术语的语义距离均大于τ，进而得到脱敏后的医疗文档。

在本实施例中，在步骤3中对敏感术语检测和消毒，应以不泄露敏感信息为目的来进行敏感信息的消毒，或者说，希望它们泄露的敏感信息量足够少。为此，最佳消毒处理是可以保护敏感信息，同时可以最大程度地减少信息的丢失，即，将T中的术语t替换为从知识库(KB)中提取的泛化g(t)(例如：t＝HIV→g(t)＝病毒)。采用基于SNOMED-CT的语义相似度计算方法，综合考虑SNOMED-CT中概念之间的“IS_A”关系(纵向关系)和“概念模型属性”关系(横向关系)两方面的因素来计算医疗术语之间的语义相似度，该方法基于从SNOMED-CT中计算术语的相似度来确定敏感词，计算两个概念之间的相似度主要考虑概念的具体化程度和语义距离，并从中检索到适当的泛化来替换敏感词，从而提高脱敏的精确性及脱敏后文档的实用性。通过这种方式，系统确保了任何有效的泛化均不具备披露敏感信息的风险。为此，每个敏感项t的归纳层次为H＝h₁→…→h_l，其中h_i均从KB中获得。最佳泛化g(t)(从数据实用性的角度来看)将在满足τ的同时具有最大的语义相似度。

步骤4、使用基于SNOMED-CT的语义相似度计算方法后的脱敏系统对于医疗文本文档脱敏精确度和效用进行试验评估。

实验数据为从Wikipedia选择6篇高度敏感医疗文档，这些文档分别从医学角度描述了性传播疾病、艾滋病毒、艾滋病、精神障碍和药物滥用。为了评估本文方法的有效性，我们以两名医疗专家对各文档进行手动脱敏的结果为参照标准，从脱敏精度和实用度两方面对本文方法与基于信息量(IC)的脱敏方法进行了比较。

所述步骤4的具体步骤包括：

(1)用三个指标来评价脱敏的精度，分别是精准度(Precision)、召回率(Recall)和F-度量(F-measure)。

Precision用来描述自动脱敏方法识别出敏感术语的准确率，其计算方法为：

其中，A代表自动脱敏识别出的敏感术语，B代表手动脱敏识别出的敏感词。Precision越高，表明自动脱敏识别敏感术语的正确率越高。

Recall用来描述自动脱敏方法对文档中敏感术语的识别率，其计算方法为：

Recall越高，说明敏感术语的识别率越高。在文档脱敏过程中，Recall通常比Precision更重要，若Recall过低，则意味着有更多敏感术语未被识别出来，文档披露隐私风险越高。

F-measure用Precision和Recall的谐波均值来表示脱敏的准确性，公式如式：

用本发明的方法与基于IC方法分别对6篇文档进行脱敏实验，实验结果如表1所示。

表1 精度实验结果的对比

Tab.1 Comparison of Precision Experimental Results

由表1可见，与基于信息量(IC)的方法相比，采用本文方法对上述6篇医疗文档进行脱敏，Precision、Recall和F-measure的平均性能分别提高了5.92％、3.13％和4.97％。

(2)为了测量实用性保留的程度，实用性代表了文档脱敏后的实用程度，即信息量的保留程度。本发明采用Sanchez提出的基于信息量(IC)的评估方式评估脱敏后文档相对于原文档所保留的实用性。

某术语t的所包含的信息量可用其IC值表示，计算方法为：

IC(t)＝-log₂p(t)

其中p(t)为t在知识库中出现的概率，这里以搜索引擎百度(https://www.baidu.com)所链接的资源作为评估知识库。IC(t)越高，意味着t包含着更多的信息量。

一篇文档的信息量为该文档所包含术语提供的信息量的总和，假设文档D包含多个术语(t₁,t₂,…,t_n)，则计算公式为：

其中，t_i为文档中所包含的术语。

则文档脱敏后的实用性保留程度Utility为：

其中，D为脱敏前的文档，D’为脱敏后的文档。

表2对比了本文方法与基于IC方法脱敏后文档实用性的实验结果。

表2 实用度对比实验结果

Tab.2 Experiment Results of Practicability

由表2可知，与基于信息量(IC)的方法相比，采用本文方法脱敏后文章的实用性平均提高了5.65％。

一种基于SNOMED-CT的医疗文本文档脱敏系统，包括以下模块：

敏感阈值计算模块，根据当前有关医疗数据隐私保护的法律法规及相关隐私保护要求，建立基于SNOMED-CT的敏感术语列表，并根据该敏感术语列表中两两术语的相似度，确定医疗文本脱敏系统的脱敏阈值；

文本预处理模块，将待处理文档进行去否定词和不确定词等操作后提取文档中的名词和名词短语；敏感术语检测和消毒模块，以不泄露敏感信息和最大程度减少信息丢失为目的，基于从SNOMED-CT中计算术语的相似度来确定敏感词，利用阈值进行敏感词检测和消除；评价模块，通过精准度(Precision)、召回率(Recall)和F-度量(F-measure)对脱敏系统在脱敏效用和精度上进行评价，其总体处理流程如图1所示。

本发明的工作原理是：

本发明提出一种基于SNOMED-CT的语义相似度计算方法，SNOMED-CT(Systematized Nomenclature of Medicine–Clinical Terms，临床医学术语标准库)是目前最为全面的国际标准医学术语系统，其被医学领域许多信息模型指定为标准编码系统，在国际医疗与健康领域中有广泛应用。SNOMED-CT概念模型由概念、描述和关系组成，并采取统一的数字标识符来唯一地表示各个概念、描述和关系，其逻辑结构如图4所示，其中概念关系可分为两大类：

第1类是“IS_A”关系，又称“上下位关系”或“父子关系”，从纵向上连接语义上具有包含与被包含关系的概念。IS_A关系是SNOMED-CT建立概念分类层级体系的基础，众多语义上具有包含与被包含的概念基于IS_A关系纵向聚合，形成了SNOMED-CT中不同的概念分类层级体系。除了最顶级的“根概念”—“SNOMED Concept”外，每个概念均至少有一个IS_A关系与上位概念相关联。

第2类是“概念模型属性”关系，从横向上连接两个概念并确定概念间的语义关系。如图2中的“肺炎—肺结构”、“气管支气管炎—气管支气管结构”等都是概念模型属性关系。SNOMED-CT实际运用了60种概念模型属性，形成了数十万条横向语义关联关系。

需要强调的是，本发明所述实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于SNOMED-CT的医疗文本文档脱敏方法，其特征在于：包括以下步骤：

步骤1、根据隐私要求，确定医疗文本脱敏系统的脱敏阈值；

2.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法，其特征在于：所述步骤1的具体步骤包括：

3.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法，其特征在于：所述步骤2的具体方法为：

4.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法，其特征在于：所述步骤3的具体步骤包括：

5.根据权利要求1所述的一种基于SNOMED-CT的医疗文本文档脱敏方法，其特征在于：所述步骤3的基于SNOMED-CT的语义相似度的计算方法的具体步骤包括：

dis(c₁，c₂)＝e^d

设单词q₁具有多个概念(c₁₁，c₁₂，…，c_1a)，单词q₂具有多个概念(c₂₁，c₂₂，…，c_2b)，则q₁，q₂两个单词间的语义相似度计算：

sim_w(q₁，q₂)＝max{sim(c_1i，c_2j)}i∈[1，a]，j∈[1，b]

④假设术语p₁包含多个单词(P₁₁，P₁₂，…，P_1m)，术语p₂包含多个单词(P₂₁，P₂₂，…，P_2n)，则两个术语之间的语义相似性计算：

6.一种基于SNOMED-CT的医疗文本文档脱敏系统，其特征在于：包括以下模块：

敏感阈值计算模块，根据当前医疗数据隐私保护的法律法规及隐私保护要求，建立基于SNOMED-CT的敏感术语列表，并根据该敏感术语列表中两两术语的相似度，确定医疗文本脱敏系统的脱敏阈值；

文本预处理模块，将待处理文档进行去否定词和不确定词操作后提取文档中的名词和名词短语；

敏感术语检测和消毒模块，以不泄露敏感信息和最大程度减少信息丢失为目的，基于SNOMED-CT计算术语的相似度来确定敏感词，利用阈值进行敏感词检测和消除。