CN114580007A

CN114580007A - 医疗数据脱敏方法和装置

Info

Publication number: CN114580007A
Application number: CN202111319705.6A
Authority: CN
Inventors: 周益锋
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-06-03

Abstract

本发明公开了一种医疗数据脱敏方法和装置。该方法包括：对包括结构化和非结构化信息的待脱敏医疗数据进行特征提取；将获取的医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果；以及根据识别的敏感级别，确定敏感数据的脱敏方式。本发明能够对包括结构化信息和非结构化信息在内的各种医疗数据进行处理，利用已有的结构化特征构建更为复杂的级联特征，从非结构化信息中提取出医疗实体、实体关系甚至医学事件，并将这些特征送入敏感信息识别模型进行分类识别，由此实现对是否敏感和敏感等级的判定以及相应的脱敏处理。提取的向量特征还能够与预先构建的指示医学实体间关系的知识图谱相结合，由此实现对复杂形式的敏感信息的全面识别。

Description

医疗数据脱敏方法和装置

技术领域

本公开涉及一种大数据处理领域，尤其涉及一种医疗数据脱敏方法和装置。

背景技术

医疗数据中包含了大量涉及个人隐私的敏感内容，比如医保卡号、姓名、就诊机构名称、所患的疾病、家族史、用药记录等等，这些信息一旦泄露，会对患者造成伤害。虽然现有技术使用正则匹配来对结构化信息中的部分敏感内容进行处理，但对于海量的非结构化信息，以及各种医疗行业术语，仍然缺乏效果良好的脱敏方案。

随着我国隐私保护制度的完善，对医疗数据进行更为全面准确的脱敏处理的需要也日益增长。

为此，需要一种能够对各类数据提供脱敏处理的医疗数据脱敏方案。

发明内容

本公开要解决的一个技术问题是提供一种改进的医疗数据脱敏方案。该方案能够对各种医疗数据，尤其是非结构化信息进行处理，提取医疗实体、实体关系甚至医学事件并将其送入敏感信息识别模型进行分类识别，并由此实现是否敏感和敏感等级的判定以及相应的脱敏处理。提取的向量特征还能够与预先构建的指示医学实体间关系的知识图谱相结合，由此实现对复杂形式的敏感信息的全面识别。

根据本公开的第一个方面，提供了一种医疗数据脱敏方法，包括：对待脱敏的医疗数据进行特征提取，获取医疗数据特征，其中，所述待脱敏的医疗数据包括结构化信息和非结构化信息；将所述医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果；以及根据识别的敏感级别，确定敏感数据的脱敏方式。

可选地，对待脱敏的医疗数据进行特征提取包括：从结构化信息中获取结构化特征；以及从针对医疗特定主体的结构化字段中获取级联特征。

可选地，所述方法还包括：将非结构化的医疗文本和字段送入预处理模型，获取医疗实体特征、实体关系特征和/或医学事件特征。

可选地，所述方法还包括：定义关键医学事件；以及基于定义的所述关键医学事件，从多个实体特征和实体关系特征中获取所述医学事件特征。

可选地，所述方法还包括：将所述医疗数据特征与医疗知识图谱送入向量编码模型，获取融合向量，并且将所述医疗数据特征送入敏感信息识别模型包括：将所述融合向量送入敏感信息识别模型。

可选地，将所述医疗数据特征与医疗知识图谱送入向量编码模型，获取融合向量包括：基于所述医疗知识图谱中包括的相关实体以及相关实体之间的关系，提取图谱向量；以及所述向量编码模型将所述医疗数据特征连同所述图谱向量加工成所述融合向量。

可选地，所述敏感信息识别模型还用于输出如下至少一项：敏感字段的敏感类型；敏感字段的所在位置；敏感字段的具体内容；以及敏感信息的出现频次。

根据本公开的第二个方面，提供了一种医疗数据脱敏装置，包括：特征获取单元，用于对待脱敏的医疗数据进行特征提取，获取医疗数据特征，其中，所述待脱敏的医疗数据包括结构化信息和非结构化信息；敏感识别单元，用于将所述医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果；以及脱敏方式确定单元，用于根据识别的敏感级别，确定敏感数据的脱敏方式。

根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一方面所述的方法。

由此，本发明结合了深度学习模型和医疗知识图谱的融合识别方案，能够对各种医疗数据，包括结构化特征和非结构化信息进行处理，能够从结构化特征中获取级联特征，并从非结构化信息中提取医疗实体、实体关系甚至医学事件并将其送入敏感信息识别模型进行分类识别，并由此能够对广泛意义上的医疗数据以及医疗数据的各种组合实现是否敏感和敏感等级的判定以及相应的脱敏处理。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了医疗数据在不同相关方之间流通的例子。

图2示出了根据本发明一个实施例的医疗数据脱敏方法的示意性流程图。

图3示出了根据本发明一个实施例的医疗数据脱敏装置的组成示意图。

图4示出了根据本发明一个实施例可用于实现上述医疗数据脱敏方法的计算设备的结构示意图。

图5示出了根据本发明一个优选实施例的医疗数据脱敏方法的具体实施步骤的示意图。

图6示出了根据本发明一个实施例的基于向量融合进行敏感信息分类的一个例子。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

医疗数据中包含了大量涉及个人隐私的敏感内容，比如医保卡号、姓名、就诊机构名称、所患的疾病、家族史、用药记录等等，这些信息一旦泄露，会对患者造成伤害。具体地，涉及患者个人隐私的医疗数据可以包括个人属性数据、健康状况数据、医疗应用数据和医疗支付数据等。

个人属性数据是指能够单独或者与其他信息结合识别特定自然人的数据，例如可以包括诸如姓名、出生日期等的人口统计信息；诸如个人身份ID号、社保卡号、住院号等的个人身份信息；诸如手机号、邮箱等的个人通信信息；诸如指纹、声纹、面部特征等的个人生物识别信息；以及个人健康监测传感设备ID等。

健康状况数据是指能反映个人健康情况或同个人健康情况有着密切关系的数据，并且具体可以包括主诉、现病史、既往病史、体格检查(体征)、家族史、症状、检验检查数据等。

医疗应用数据是指能反映医疗保健、门诊、住院、出院和其他医疗服务情况的数据，并且具体可以包括：门(急)诊病历、住院医嘱、检查检验报告、用药信息、病程记录、手术记录、麻醉记录、输血记录、护理记录、入院记录、出院小结、转诊(院)记录、知情告知信息等。

医疗支付数据是指医疗或保险等服务中所涉及的与费用相关的数据，通常包括医疗交易信息和保险信息。

患者产生的医疗数据，除了用作对于患者本身病程的记录之外，还可以具有研究、统计等社会性功能。因此，医疗数据除了被妥善保存在医疗机构之外，还会在不同的场景中，会被不同的组织或是个人利用。为此，可以针对特定医疗数据的特定应用场景，将相关组织或个人可划分为以下四类角色：

a)个人健康医疗数据主体(以下简称“主体”)：个人健康医疗数据所标识的自然人。

b)健康医疗数据控制者(以下简称“控制者”)：能够决定健康医疗数据处理目的、方式及范围等的组织或个人。包括提供健康医疗服务的组织、医保机构、管理机构、健康医疗科学研究机构、个体诊所等，其以电子形式传输或处理健康医疗数据。

c)健康医疗数据处理者(以下简称“处理者”)：代表控制者采集、传输、存储、使用、处理或披露其掌握的健康医疗数据，或为控制者提供涉及健康医疗数据的使用、处理或者披露服务的相关组织或个人。常见的处理者有：健康医疗信息系统供应商、健康医疗数据分析公司、辅助诊疗解决方案供应商等。

d)健康医疗数据使用者(以下简称“使用者”)：针对特定数据的特定场景，不属于主体，也不属于控制者和处理者，但对健康医疗数据进行利用的相关组织或个人。

在不同的应用场景中，数据可以在不同的角色之间流通。图1示出了医疗数据在不同相关方之间流通的例子。图中使用中文标注了医疗数据流通过程中涉及的不同角色，并使用数字区分了不同的流通情形。

首先，如数字1所示，医疗数据可以从主体向控制者流通。例如，患者A到甲医院就诊，此次就诊产生的所有相关医疗数据，就从主体A流通至控制者甲。

医疗数据也可以如数字2所示，从控制者向主体流通。例如，患者A可以使用自己的社保卡在甲医院的终端机上查询自己的检查结果等。

医疗数据可以如圆箭头3所示，在控制者内部流通使用。例如，患者A的就诊数据，不仅可由患者A的主管医生调取，也可用于上级医生的查看或是会诊。

在控制者之间，也可以存在如数字4所示的数据流通。例如，甲医院将患者的就诊数据集中上报给管理机构，或是将科研机构从医院或是管理机构获取医疗数据用于研究。

医疗数据也可以由控制者交由处理者进行处理，这由图1中的箭头5所示。例如，管理机构可以将海量的医疗数据交由数据中心进行处理，以获取想要的数据处理结果，例如，使得医疗数据变得平台可查询。

最后，医疗数据也可由控制者交由使用者使用，如箭头6所示。例如，其他研究者可以在受控条件下对脱敏的医疗数据进行访问以开展自己的医疗研究等等。

在如上的各个场景中，健康医疗数据控制者都应该采取合理和适当的管理与技术保障措施，确保健康医疗数据的保密性、完整性和可用性；确保健康医疗数据使用和披露过程的合法合规性；并在确保健康医疗数据在符合上述安全要求的前提下满足各类发展需求。

上述医疗信息在利用过程中，可以根据数据重要程度和风险级别以及对个人健康医疗数据主体可能造成的损害以及影响的级别，对数据的敏感程度进行划分。例如，可以将医疗数据划分为以下5级：

a)第1级：可完全公开使用的数据。例如医院名称、地址、电话等，可直接在互联网上面向公众公开。

b)第2级：可在较大范围内供访问使用的数据。例如不能标识个人身份的数据，各科室医生经过申请审批可以用于研究分析。

c)第3级：可在中等范围内供访问使用的数据。例如经过部分去标识化处理，但仍可能重标识的数据，仅限于获得授权的项目组范围内使用。

d)第4级：在较小范围内供访问使用的数据。例如可以直接标识个人身份的数据，仅限于相关医护人员访问使用。

e)第5级：仅在极小范围内且在严格限制条件下供访问使用的数据。例如特殊病种(例如，艾滋病)的详细资料，仅限于主治医护人员访问且需要进行严格管控。

由此，由于不同医疗数据涉及的敏感程度不同，不同应用场景(如图1所示数字1-6标注的不同场景)中医疗数据能够公开的程度不同，因此需要能够对各种医疗数据进行敏感识别，并能够根据应用场景灵活选择脱敏方式。

现有的敏感信息识别和脱敏技术不能很好地解决医疗行业的上述隐私保护问题，主要原因有以下几点：

1)现有技术通常是针对通用行业，没有针对医疗行业进行定制化，只能识别姓名、地址、唯一ID号、手机号等一些常规的敏感字段，而无法识别诸如就诊记录、所患疾病、用药记录、检查检验记录等医疗特有的敏感信息。

2)从数据结构上，传统技术主要面向结构化敏感字段识别，字段内容相对规范明晰，而医疗领域涉及了大量非结构化的文本信息，比如主诉、现病史、出院小结等，内容形态复杂，解析识别难度大。

3)从识别技术上，现有方法通常基于正则匹配，只能进行简单识别，精度和召回较差，而且需要花费大量人工配置时间。医疗行业的数据内容包含了大量临床术语，比如疾病、手术、药品、症状、检查、检验、收费项目等等，而且术语标准不统一，或者因为医生人为的错误，比如缩写、错别字等，导致单纯依赖正则匹配的识别效果差。

为此，本发明提出了一种新的医疗数据脱敏方案，该方案利用深度学习模型来提取非结构化数据中的特征，并融合庞大的医疗术语库和知识图谱，解决了医疗行业中无法识别非结构化敏感信息以及医疗数据中术语不统一、别名多、知识门槛高等的行业特有问题。

在步骤S210，对待脱敏的医疗数据进行特征提取，并由此获取医疗数据特征。待脱敏的医疗数据包括结构化信息和经处理的非结构化信息。

如前所述，医疗数据按照内容可以划分为个人属性数据、健康状况数据、医疗应用数据和医疗支付数据等。但倘若按照数据的存储形式进行划分，则可以划分成结构化数据和非结构化数据。

结构化数据指的是在记录文件中以固定格式存在的数据。结构化的数据通常可以使用关系型数据库表示和存储，表现为二维形式的数据。可以从各种结构化的数据库或数据表(例如oracle、mysql、rds、postGresql、excel等)中获取存储的结构化数据。对于结构化字段，通常是数据表里面的某一列，比如姓名、ID号等，可以直接将字段名称和字段内容作为提取的医疗数据特征。

进一步地，可以从针对医疗特定主体的结构化字段中获取级联特征，作为所述待处理的医疗数据。在医疗信息中，一些字段或内容单独展示可能不涉及敏感信息，但如果把它们关联起来就可能唯一标识某一个患者或者大大缩小人群范围。比如，患者的女性身份、医院名称、科室名称、住院天数这四个特征通常是不敏感或者敏感等级很低的字段，单个拿出来都只能对应到一大批患者群体，但如果联合起来，一个女性入住xx医院神经外科并且住院天数达到21天，就能大大缩小群体范围甚至可能定位到唯一患者，从而导致隐私泄露。这些字段可能来自同一患者住院表的多个字段，也可能来自于该患者的多个表格。为此，需要针对结构化字段构建级联特征，例如多表多字段级联特征，

除了如上所述可以直接获取结构化字段作为医疗数据特征，以及将结构化字段进行组合以获取级联特征之外，本发明尤其适用于从非结构化数据中提取医疗数据特征。非结构化的信息没有固定格式和范围的特征，常见的比如一段文本，一张图片。为此，可以从各种非结构化的文件(比如txt、xml、html、word等)甚至在网络中传输的数据流和字符流中获取非结构化文本。还可以从具有结构化形式的信息中提取过长或者难以解析的非结构化字段，例如在检查结果栏里键入的“胸部CT检查所见2厘米大小结节”。

为此，本发明的医疗数据脱敏方法还可以包括针对非结构化数据的预处理步骤，具体可以包括：将非结构化的医疗文本和字段送入特征提取模型，获取医疗实体特征、实体关系特征和/或医学事件特征作为所述经处理的结构化信息。

对于非结构化的文本和字段，需要进行解析和拆解。在本发明的一个实施例中，可以采用基于深度学习模型的医学实体识别、实体之间关系抽取、医学事件抽取三类算法进行针对非结构化数据的预处理，由此得到医学实体特征、实体关系特征和医学事件特征。

命名实体识别属于自然语言处理中的序列标注任务，是指从文本中识别出特定命名指向的词，比如人名、地名和组织机构名等。具体而言，输入自然语言序列，给出对应标签序列。在医学实体识别中，可以基于专门训练的医学实体识别模型，从非结构化数据中提取出诸如疾病名称、手术名称、症状、药品名称等的医学实体。

具体地，可以基于BiLSTM和CRF模型，对非结构化数据中的医学实体进行识别。LSTM(长短时记忆)由于其设计的特点，适合用于对时序数据的建模。由于LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息，因此使用LSTM模型可以更好的捕捉到较长距离的依赖关系。但利用LSTM对句子进行建模存在无法编码从后到前的信息的问题。BiLSTM是由前向LSTM与后向LSTM组合而成的双向LSTM，通过双向的LSTM可以更好的捕捉双向的语义依赖。在BiLSTM层之后可以设置CRF(随机条件场)层。由此，CRF层可以加入一些约束(例如，例如句子的开头是人名或者组织机构的开始部分，不是非实体)来保证最终预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到。

实体之间存在的多种关系。为此在获取了实体信息之后，还可以利用实体关系模型标识实体间的关系。例如，可以首先基于关系模型找出两两实体间的关系，在进行多个实体之间关系的组合。例如上例中的非结构化字段“胸部CT检查所见2厘米大小结节”，基于实体关系识别后，可以将该影像检查项目预处理为包括检查名称(比如胸部CT)、检查的部位(胸部)、检查所见(2厘米大小结节)三种实体以及它们之间的关系。

在获取了实体关系之后，还可以更进一步的获取医学事件。在此，医学事件是指患者在整个治疗过程中在特定的时间和地点发生的一些关键节点。在本发明中，可以定义各种关键医学事件，并且可以基于定义的所述关键医学事件，从多个实体和实体关系中获取所述医学事件。例如，可以利用医学事件抽取模型，从已经获取的多个实体和关系中进一步抽取包含更多实体和更多关系并符合定义的关键事件的医学事件。即，事件中通常包含了多个实体和关系。例如，可以从已经识别出的实体和抽取出的关系中进一步抽取住院事件，比如患者A于xx年xx月xx日入住xx医院xx科室；也可以抽取手术事件，比如患者B于xx年xx月xx日xx时xx分在xx医院由xx医生完成xx手术。

对非结构化信息进行的如上特征抽取，也可以使用功能更为强大的基于BERT的医疗预训练模型。

由上获取的结构化特征，基于结构化特征的级联特征，以及从非结构化信息中提取的特征(医学实体特征、实体关系特征和医学事件特征)可以作为在步骤S210中获取的医疗数据特征，用于随后的处理。

在步骤S220，可以将如上获取的医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果。

具体地，可以将如上所述的结构化特征，基于结构化特征的级联特征，以及从非结构化信息中提取的特征送入敏感信息识别模型，上述模型可以是基于机器学习的各种类型的分类模型，例如可以是全连接神经网络或者传统的机器学习模型比如LightGBM。上述模型能够将输入的特征进行是否属于敏感信息的分类；进一步地，还可以对信息的敏感级别进行分类，因此如下该敏感信息识别模型也可以被称为分类模型。在一个实施例中，该分类模型是可以包括从一级到五级的五个敏感级别分类的分类模型。为此，可以依据如前所述的敏感信息分级，输入分别对应于第一级不敏感到第五级最敏感级别的各类信息来进行模型训练。

由于存在大量实体关系特征、医学事件特征以及级联特征输入模型的情形，换句话说，由于分类模型需要识别包含多个实体关系的特征，甚至长句特征(例如，对应于医学事件)是否敏感，因此在一个实施例中，需要借助医疗知识图谱中所包含的大量医学实体间的关系信息来进行分类。

知识图谱是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系。知识图谱能够将零散的信息进行基于图形式的有效组织，进行成为知识。在本发明中，可以构造专门的医学知识图谱。医学知识图谱的内容包括疾病、手术、症状、检查、检验、药品等实体及它们之间的关系。各种实体都有多个同义词。比如胸痛和胸部疼痛，属于症状同义词。医学知识图谱中包括针对同一实体的各种同义词。由此，通过医学知识图谱，能够将不统一的术语识别为同一实体，并且能够作为寻找实体间关联的基准。

为此，本发明的医疗数据脱敏方法还可以包括：将所述医疗数据特征与医疗知识图谱送入向量编码模型，获取融合向量。具体地，可以基于所述医疗知识图谱中包括的相关实体以及相关实体之间的关系，提取图谱向量，并且向量编码模型将所述医疗数据特征连同所述图谱向量加工成所述融合向量。该向量编码模型同样可以是基于机器学习的模型，所用的模型包括但不限于LSTM、BERT等。

在得到了融合向量之后，将该融合向量作为输入，送入敏感信息识别模型，并由识别模型基于融合向量进行分类，并得到相应的识别结果。上述识别结果会标注出敏感级别，例如一级表示不敏感、二级至五级表示逐渐提升的敏感级别。

在优选的实施例中，所述敏感信息识别模型还可以输出其他信息，例如如下至少一项：敏感字段的敏感类型；敏感字段的所在位置；敏感字段的具体内容；以及敏感信息的出现频次。

在获取了如上识别结果之后，在步骤S230，可以根据识别的敏感级别，确定敏感数据的脱敏方式。

具体地，对于识别出来的敏感信息，可以根据敏感的等级自动进行脱敏，脱敏方式包括但不限于如下各项：

1)删除，即直接删除被标注为敏感的内容；

2)替换，即将敏感内容替换成预设的字符，比如把手机号除前三位外全部替换成*号；

3)泛化，用于将一些特定的信息替换为更宽泛的范围，比如糖尿病三级是一个粒度非常细的疾病，可以将其泛化为一个更宽泛的疾病，比如代谢疾病；再比如，将患者39岁泛化成18-64岁这个更大的范围。

4)加密，用一些加密或哈希算法对信息进行加密处理，比如将住院号“200357”加密成”4cdbacdeecb3ed61564c91cb45007409faaecf41”

在优选的实施例中，还可以根据医疗数据请求方的权限等级，确定是否脱敏显示敏感数据以及脱敏显示的显示方式。换句话说，不仅仅根据敏感级别来确定是否进行脱敏，以及脱敏的方式，还根据医疗数据的具体使用场景，来调整敏感内容的显示方式。

具体地，分类模型可以将敏感信息识别结果返回给最初的数据源，由此使得数据源获取带有敏感级别标注的医疗数据。例如，在患者A的就诊记录中，对患者A的姓名、社保卡号等结构化信息进行对应等级的敏感信息标注，并对例如症状描述、检查结果描述、住院事件、手术事件等基于非结构化信息的特征也进行对应等级的敏感信息标注。由此，就得到对敏感信息进行全面标注的就诊记录。上述记录在被查询时，可以根据查询者的身份，来进行不同等级的敏感信息显示。例如，在患者A的主治医师进行查询时，可以正常显示全部被标注为敏感的信息，以方便主治医师指定治疗计划等。在例如同科室医师为了进行病例分析而查看该就诊信息时，则通常需要对能够唯一标识患者身份的内容，例如姓名和社保卡号等进行脱敏处理。而在上述就诊记录被用于科学研究时，除了需要对姓名和社保卡号等进行脱敏处理之外，还需要对例如住院事件和手术事件进行一定的模糊化处理，例如，仅标明住院时长，以及其中手术事件发生在第几天等。

本发明采用了深度学习模型结合现有识别手段(例如，正则匹配)的方式，并且融合庞大的医疗术语库和知识图谱，以解决医疗信息术语不统一、别名多、知识门槛高等这个行业特有的问题，由此实现医疗信息中大量敏感内容的自动化识别和脱敏。

本发明还可以实现为一种医疗数据脱敏装置，该装置能够执行如上所述的医疗数据脱敏方法。图3示出了根据本发明一个实施例的医疗数据脱敏装置的组成示意图。

如图所示，医疗数据脱敏装置300包括特征获取单元310、敏感识别单元320和脱敏方式确定单元330。特征获取单元310用于对待脱敏的医疗数据进行特征提取，获取医疗数据特征。所述待脱敏的医疗数据包括结构化信息和非结构化信息。敏感识别单元320用于将所述医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果。脱敏方式确定单元330用于根据识别的敏感级别，确定敏感数据的脱敏方式。

本发明的医疗数据脱敏装方案也可由相应的计算设备实现。图4示出了根据本发明一实施例可用于实现上述医疗数据脱敏方法的计算设备的结构示意图。

参见图4，计算设备400包括存储器410和处理器420。

处理器420可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器420可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器420可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器410可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器420或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器410可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器410可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器410上存储有可执行代码，当可执行代码被处理器420处理时，可以使处理器420执行上文述及的医疗数据脱敏方法。

应用例

为了方便对本发明优选实施例的理解，图5示出了根据本发明一个优选实施例的医疗数据脱敏方法的具体实施步骤的示意图。该方法例如可由如前所述的医疗数据处理者进行处理，并将处理结果返回给提供数据的控制方。

如图所示，首先可以在步骤1从多种数据源来获取医疗数据。在本发明的优选实施例中，处理者能够支持各种各样的数据源格式。首先，可以从各种结构化的数据库或数据表，比如oracle、mysql、rds、postGresql、excel等获取结构化数据。其次，可以直接获取各种非结构化的文件，比如txt、xml、html、word等。再次，甚至可以获取在网络中传输的数据流和字符流等作为结构化或是非结构化数据源。

在获取了上述数据之后，可以在步骤2对其中的至少部分数据进行预处理。例如，可以基于深度学习对非结构化信息进行预处理。具体地，对于非结构化的文本和字段，进行必要的解析和拆解。在此，可以采用了基于深度学习模型的医学实体识别算法、实体之间关系抽取算法、医学事件抽取算法进行预处理。具体模型可以是基于BiLSTM+CRF，也可以基于BERT医疗预训练模型，并且获取医学实体、实体关系和医学事件这三类特征。

在进行预处理之后，可以对获取的数据进行步骤3，特征提取。上述特征提取可以包括三个子步骤。

首先，在子步骤3.1，可以针对结构化信息进行特征提取。对于结构化字段，通常是数据表里面的某一列，比如姓名、ID号等，为此可以直接将字段名称和字段内容作为特征。

在子步骤3.2，可以针对非结构化数据进行特征提取。例如，对于非结构化字段和文件，可以直接获取经由第2步预处理得到的三类特征。为此，在某些实施例中，也可以将步骤2并入该子步骤3.2。

而在步骤3.3，则可以针对结构化信息，进行多表多字段级联特征提取。在医疗信息中，一些字段或内容单独拿出来可能不涉及敏感信息，但如果把它们关联起来就可能唯一标识某一个患者或者大大缩小人群范围。比如，患者的女性身份、医院名称、科室名称、住院天数这四个特征通常是不敏感或者敏感等级很低的字段，但联合起来，“某位女性入住xx医院神经外科并且住院天数达到21天”，就能大大缩小群体范围甚至可能定位到唯一的一位患者，从而导致隐私泄露。为此，需要找出这类基于多字段造成敏感的级联特征。

在提取了如上特征之后，就可以行进到步骤4，利用敏感信息识别模型对输入的特征信息进行敏感信息识别。

在此，可以根据敏感字段分级表，对医疗健康领域的敏感信息做了定义和等级划分。比如，医院的名称、地址、电话属于完全可公开的信息，等级为1；患者手机号属于可直接标识的信息，等级为4；患者得过艾滋病，属于最为敏感的信息(等级5)，只有患者的主治医师才可以访问等。可以依据敏感字段分级表，对敏感信息识别模型(也可称为“分类模型”)进行训练。

进一步地，该敏感信息识别模型可以实现为一种多模型融合的敏感信息识别技术。具体地，可以融合了正则匹配、深度学习、医学知识图谱等多种方式来强化识别的效果。对于一些结构化较好的字段或信息，通常使用正则匹配即可获得良好识别效果。对于绝大部分非结构化的信息，需要融合深度学习和知识图谱来识别。

专门构建的医学知识图谱内容可以疾病、手术、症状、检查、检验、药品等实体及各个实体之间的关系，并且包含各种实体的多个同义词。

在一个优选的实施例中，步骤4还可以包含额外的向量融合步骤。图6示出了根据本发明一个实施例的基于向量融合进行敏感信息分类的一个例子。

如前所述，对于绝大部分非结构化的信息，需要融合深度学习和知识图谱来识别。为此，在步骤3，尤其是步骤3.2得到的实体特征、关系特征和事件特征可以与关联的知识图谱同时输入向量编码模型。向量编码模型可基于LSTM、BERT等实现，并且用于将如上多种特征以及知识图谱加工成词向量，对应于图中的实体向量、关系向量、事件向量、图谱向量。上述向量可被一并输入作为分类模型的敏感信息识别模型。分类识别模型基于融合后的各种特征向量对结果进行识别，所用的模型可以是各类合适的机器学习模型，例如全连接神经网络或者传统的机器学习模型比如LightGBM。

由此得到是否敏感以及敏感等级的识别结果，例如图5的步骤5所示。在分类模型包括基于如前所述5个敏感等级分类的分类结果时，可以根据识别结果所属类别，同时进行是否敏感以及敏感等级的判定。例如，如果被分类为敏感级别1，则认为不敏感，而如果被分类为敏感级别2-5，则认为敏感，并且级别越高，内容越敏感。

识别结果除了包括是否敏感字段和敏感等级两部分之外，还可以包括一些统计信息，比如敏感字段名称和所在的位置；敏感信息的具体内容；敏感信息等级；以及此敏感信息出现的频次等。

根据识别结果，可以对例如数据源，或是经由数据源预处理得到的数据进行步骤6所示的自动脱敏处理。具体地，对于识别出来的敏感信息，可以根据敏感的等级自动进行脱敏，例如直接删除、替换成预设的字符、泛化或是加密等。在某些实施例中，还可以针对后续使用者的使用等级或是数据的应用场合，在实际进行医疗数据请求时，再决定是否对敏感数据进行加密，以及加密的形式。

由此，本发明结合了深度学习模型和医疗知识图谱的融合识别方案，能够对非结构化数据进行脱敏处理；同时经由级联特征识别多维度敏感信息，并对其进行识别和脱敏。

上文中已经参考附图详细描述了根据本发明的医疗数据脱敏方案。针对现有技术中基于正则匹配，模型过于简单，只能处理结构化的数据且识别效果差等问题，本发明采用了深度学习模型和诸如正则匹配的现有技术相结合的方式，并且融合了庞大的医疗术语库和知识图谱，解决医疗信息术语不统一、别名多、知识门槛高等行业特有问题，由此实现医疗信息中大量敏感内容的自动化识别和脱敏。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种医疗数据脱敏方法，包括：

对待脱敏的医疗数据进行特征提取，获取医疗数据特征，其中，所述待脱敏的医疗数据包括结构化信息和非结构化信息；

将所述医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果；以及

根据识别的敏感级别，确定敏感数据的脱敏方式。

2.如权利要求1所述的方法，对待脱敏的医疗数据进行特征提取包括：

从结构化信息中获取结构化特征；以及

从针对医疗特定主体的结构化字段中获取级联特征。

3.如权利要求1所述的方法，还包括：

将非结构化的医疗文本和字段送入预处理模型，获取医疗实体特征、实体关系特征和/或医学事件特征。

4.如权利要求3所述的方法，还包括：

定义关键医学事件；以及

基于定义的所述关键医学事件，从多个实体特征和实体关系特征中获取所述医学事件特征。

5.如权利要求1所述的方法，还包括：

将所述医疗数据特征与医疗知识图谱送入向量编码模型，获取融合向量，并且

将所述医疗数据特征送入敏感信息识别模型包括：

将所述融合向量送入敏感信息识别模型。

6.如权利要求5所述的方法，其中，将所述医疗数据特征与医疗知识图谱送入向量编码模型，获取融合向量包括：

基于所述医疗知识图谱中包括的相关实体以及相关实体之间的关系，提取图谱向量；以及

所述向量编码模型将所述医疗数据特征连同所述图谱向量加工成所述融合向量。

7.如权利要求1所述的方法，其中，所述敏感信息识别模型还用于输出如下至少一项：

敏感字段的敏感类型；

敏感字段的所在位置；

敏感字段的具体内容；以及

敏感信息的出现频次。

8.一种医疗数据脱敏装置，包括：

特征获取单元，用于对待脱敏的医疗数据进行特征提取，获取医疗数据特征，其中，所述待脱敏的医疗数据包括结构化信息和非结构化信息；

敏感识别单元，用于将所述医疗数据特征送入敏感信息识别模型，获取标注出敏感级别的识别结果；以及

脱敏方式确定单元，用于根据识别的敏感级别，确定敏感数据的脱敏方式。

9.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。