CN114003791A

CN114003791A - 基于深度图匹配的医疗数据元自动化分类方法及系统

Info

Publication number: CN114003791A
Application number: CN202111649231.1A
Authority: CN
Inventors: 李劲松; 辛然; 杨宗峰; 李玉格; 孙慧瑶; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-02-01
Anticipated expiration: 2041-12-30
Also published as: JP7432801B2; CN114003791B; WO2023124191A1; JP2024502730A

Abstract

本发明公开了一种基于深度图匹配的医疗数据元自动化分类方法及系统，本发明定义了基于最小元数据信息的医疗数据元图数据模型，使得深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况，达到使用最少的元数据信息完成数据元自动化分类的目的，同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练；基于表示学习方法计算医疗数据元的向量表示，通过向量表示的分类，快速、自动化筛选有可能映射到标准数据模型的有效数据元；基于图注意力机制计算列顶点的向量表示，构建深度图匹配模型完成医疗数据元的自动化分类。本发明方法及系统具有良好的可拓展性，可应用于各类数据沼泽向数据湖转化问题的处理。

Description

基于深度图匹配的医疗数据元自动化分类方法及系统

技术领域

本发明属于区域性医疗大数据中心、数据生产平台领域，尤其涉及一种基于深度图匹配的医疗数据元自动化分类方法及系统。

背景技术

随着医疗信息化的建设与发展，大数据与医疗服务的结合，促进了智慧医疗技术不断提升。目前，智慧医疗已经初具雏形，区域性医疗机构组成医联体或医共体并构建统一的医疗大数据中心已成后续智慧医疗数据治理体系发展的必然趋势。然而，医疗机构形态各异的信息平台、软件以及结构复杂的系统，导致不同机构平台之间无法实现数据的共享与交互，数据呈碎片化，形成数据孤岛。在区域性医疗机构间构建医疗大数据中心的过程中，时常发现机构内数据（尤其是历史久远的数据）缺乏管理，信息系统文档缺乏有效维护，字段备注丢失，文档质量低下，难以快速有效追溯数据血缘，形成局部的数据沼泽。传统的医疗大数据中心开发过程中，需要各医疗机构信息化部门和信息系统提供厂商相关负责人员配合医疗大数据中心的开发人员基于标准数据模型（如OMOP CDM）开发的数据接口（包括数据库视图、数据字典）完成数据发现、分类和数据关联映射任务，并完成人工分类和关联映射的数据存在标准数据模型对应的标准数据库中。数据来源的多样性，数据沼泽的密集和不可预知性普遍造成数据接口开发周期长、协调过程复杂、返工次数多等问题，耗费大量的人力物力财力，阻碍了区域性医疗大数据中心的快速自动化构建，同时为后续医疗数据的深度利用创造了很多困难。

医疗大数据中心开发过程中的数据发现、分类和数据关联映射任务，可以抽象为医疗数据元的筛选、分类任务和分类后的医疗数据元关联映射任务。首先，平台开发方案设计人员基于标准数据模型定义标准数据元分类体系和对应的数据接口规范。其后，开发人员通过规则查找和人工搜索筛选并确定与数据接口规范匹配的数据元，这一过程称为数据发现，数据发现过程确定了平台开发过程中医疗机构数据湖内哪些数据元应该被采集；开发人员根据数据发现的结果开发数据接口，并通过完成数据采集工作。最后，开发人员将医疗机构数据湖内的多源异构的数据元按照标准数据元分类体系进行分类，整合并关联映射到标准数据元分类体系上。

现有技术缺点主要体现在以下两个方面：

1）医疗机构信息系统数量多、提供厂商来源各异，数据采集过程复杂，依赖大量人工，阻碍了医疗大数据中心的建设和大数据应用的有效开展。一家三甲级医疗机构的信息系统数量可以达到100-300之多，形成了一个巨大的数据湖。数据湖中数据量大，关系错综复杂，决定了数据接口开发阶段的数据发现工作需要依赖医疗机构信息化部门和信息系统提供厂商相关负责人员的长期配合，数据接口之间相互衔接，造成数据发现工作的人工成本大，耗费时间长。中间环节一旦出现故障，问题的排查过程非常复杂。很大程度上阻碍了医疗大数据中心的开发和大数据应用的有效开展。

2）医疗机构信息系统更迭频繁，历史系统文档维护困难、缺失严重等常见问题在医疗机构的数据湖内形成局部的数据沼泽，进一步增加了数据接口开发的难度。医疗数据包含病人诊疗过程中生成的诊疗数据和医疗机构运营过程中的观测数据，来源多样，关系复杂。随着医疗机构信息系统版本的更迭，历史数据沉睡在医疗机构数据湖中缺乏有效管理，形成局部的数据沼泽。医疗大数据中心的构建需要对这些历史数据进行整合，完成数据沼泽向数据湖的转化。由于医疗机构信息化部门和信息系统提供厂商相关负责人员更替频繁，历史系统文档丢失情况时有发生，面对文档丢失，数据接口开发人员只能依靠重复试错的方法对医疗机构数据湖中所有可能的数据进行人工筛选来完成数据发现，由于医疗机构信息系统的数量多，关联关系复杂，人工筛选的方法难以有效利用医疗机构数据湖的全局信息，耗时长，错误率高，大幅增加了数据发现工作的工作周期和难度。当数据湖内数据间的关联结构过于复杂超过人工能接受的程度时，只能放弃对应数据接口的开发，使得对应类别的数据无法找到可关联映射的数据，造成该分类的数据丢失。

发明内容

医疗大数据中心的构建过程中，医疗机构局部数据沼泽普遍存在等问题导致数据接口开发时间长，维护困难。传统的解决方案依赖人工处理，难以大规模完成海量数据的数据发现、分类和关联映射问题。医疗机构数据湖内的多源异构的数据可以抽象为由未知分类的数据元组成的待筛选医疗数据元集合。过去的几年里，图神经网络的兴起与应用成功推动了图结构数据的深度学习范式的发展。

本发明利用基于图神经网络的深度图匹配算法，改进基于人工处理的数据元分类方法，最大程度降低对于信息系统数据文档的依赖，在只获取医疗机构数据湖内极少元数据信息的条件下，基于医疗数据文本语义实现有效数据元的快速筛选，实现医疗机构数据湖内数据的自动化数据发现，基于深度图匹配算法实现医疗数据元的快速分类，实现医疗机构数据湖内数据元向标准数据元分类体系的自动化分类和关联映射，大幅度提升医疗大数据中心开发过程中数据接口开发的效率。本发明提供的数据元分类方法具有良好的可拓展性，可应用于各类数据沼泽向数据湖转化问题的处理。

本发明的目的是通过以下技术方案来实现的：

本发明一方面公开了一种基于深度图匹配的医疗数据元自动化分类方法，该方法包括以下步骤：

(1)定义基于最小元数据信息的医疗数据元图数据模型；将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合，向所述医疗数据元图数据模型自动化映射，映射结果存储为待筛选医疗数据元图数据；

(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度；构建医疗数据元筛选模型，基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性，筛选出有效列顶点，由有效列顶点集合关联组成待分类医疗数据元图数据，有效列顶点对应的列集合组成待分类医疗数据元集合；

(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合；基于种子顶点集合进行待分类医疗数据元图数据的子图切割；利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类，从而得到列顶点对应的医疗数据元的分类。

进一步地，所述医疗数据元图数据模型采用有向属性图建模，图由顶点和边两种图元素构成；

所述顶点是由标签和对应标签的属性组构成的，标签代表顶点的类型，属性组代表标签拥有的一种或多种属性；所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息，所述顶点类型包括数据库顶点、表顶点和列顶点，所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息，所述表顶点对应的属性信息包括表顶点索引，所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示；

所述边是由边类型和边属性构成的，每一条边均为有向边；所述边的本体信息包含边类型及每类边对应的属性信息，所述边类型包括起点为数据库顶点、终点为表顶点的父子关联，起点为表顶点、终点为列顶点的父子关联，以及起点和终点均为列顶点的外键，三种边类型对应的属性信息均为边索引。

进一步地，所述多源异构的数据元向医疗数据元图数据模型的映射，包括：

将来自多源异构的医疗数据从数据湖中采集，组成待筛选医疗数据元集合；

使用元数据采集工具对数据湖中存储的元数据进行抓取；

使用列向量生成器，对待筛选医疗数据元集合中各表各列中存储的数据进行遍历，利用列向量表示模型预测得到各表各列的列向量表示；

通过图数据关联映射，将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射，得到待筛选医疗数据元图数据。

进一步地，所述列向量生成器以数据表中的单列作为一个数据元单位，使用列向量表示模型转化各列存储的数据，计算各列的向量表示；

所述列向量表示模型的训练包括：列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据，记为标准分类列；标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系；

设标准分类医疗数据元图数据中列顶点集合为

，其中

表示列顶点集合对应的标准分类列中第

列，第

行的数据，

，

为第

行字符总数，

为构成数据

的字符；通过文本表示模型

计算得到字符

的初始向量表示

；在标准分类医疗数据元图数据的列顶点

下随机抽取

行数据

，第

行数据的向量表示为

，根据自注意力机制计算得到标准分类医疗数据元图数据中列顶点

下各行数据的相关性，得到列顶点

的列向量表示

，计算公式为：

其中

为列顶点

的向量表示，

为

的维度，softmax为softmax函数；

所述列向量表示模型的预测包括：列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合，以列为遍历单元对待筛选医疗数据元集合进行遍历；使用列向量表示模型计算对列顶点每次随机抽样的列向量表示；对预测的多次随机抽样的列向量表示结果求平均值，作为所述列顶点最终的列向量表示。

进一步地，所述计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度，包括：

对于待筛选医疗数据元图数据中存储的列顶点

，在除去

的列顶点集合中随机抽取

个列顶点

，通过计算列顶点

与抽取的列顶点的相关性，计算

在医疗数据元图数据模型中的重要度分数

，

定义为：

其中

为重要度函数。

进一步地，所述医疗数据元筛选模型的训练与预测具体为：

将根据标准数据元分类体系，人工分类和关联映射构建的标准分类医疗数据元集合转换为标准分类医疗数据元图数据，设标准分类医疗数据元图数据中存储的列顶点集合为

，设构建标准分类医疗数据元集合过程中被人工筛选排除的列对应的列顶点集合为

；

训练时从集合

中随机抽取

个列顶点作为正样本集合

，从集合

中随机抽取

个列顶点作为负样本集合

；设样本

的重要度分数为

，

表示第

个列顶点，

表示样本真实类别，则基于重要度分数计算医疗数据元筛选模型的损失函数

：

所述医疗数据元筛选模型在预测时，通过计算阈值

判断列顶点

对应的待筛选医疗数据元集合中的列是否为有效数据元，阈值

计算公式：

若

，则说明列顶点

为有效列顶点，对应的列为有效数据元；

由筛选后的有效列顶点集合关联组成待分类医疗数据元图数据，对应的筛选后的列集合组成待分类医疗数据元集合。

进一步地，所述从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合，包括：

设由标准数据模型定义的标准数据元分类体系中所有标准分类集合为

，标准分类医疗数据元图数据中的列顶点集合为

，

在标准数据元分类体系中的分类为

；设待分类医疗数据元图数据中存储的列顶点集合为

；医疗数据元分类过程抽象为在

中找到与列顶点

匹配度最高的列顶点

，从而确定列顶点

对应的列的分类为

；

对于列顶点

，从

对应的列中随机抽取

个数据

，对于列顶点

，从

对应的列中随机抽取

个数据

，则

和

的匹配度

为：

其中

代表数据

的向量表示，则

对应的种子顶点为与其匹配度最高的列顶点

，即：

。

进一步地，所述基于种子顶点集合进行待分类医疗数据元图数据的子图切割，包括：

以

表示待分类医疗数据元图数据中与

存在父子关系的列顶点集合，以

表示待分类医疗数据元图数据中与

存在外键关系的列顶点集合，则基于种子顶点

切割得到的子图

为：

以

表示标准分类医疗数据元图数据中与

关联同一父顶点的列顶点集合，则深度图匹配模型的目标是从子图

中搜索子图，使得搜索到的子图中的列顶点与

中的列顶点一一匹配，实现

中列顶点对应的医疗数据元的分类。

进一步地，所述利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类，包括：

根据图注意力机制，计算标准分类医疗数据元图数据中列顶点

的向量表示

为：

其中

，

为从列顶点

对应的列中随机抽取

个数据；

表示

中的某一列顶点

对于列顶点

的权重函数；

根据图注意力机制，计算待分类医疗数据元图数据的列顶点

的向量表示

为：

其中

，

为从列顶点

对应的列中随机抽取

个数据；

表示

中的某一列顶点

对于列顶点

的权重函数；

列顶点

和列顶点

的匹配度

为：

取与

匹配度最高的列顶点

，即：

待分类医疗数据元图数据中的列顶点

对应的列的分类为

对应的标准数据元分类体系中的类别。

本发明另一方面公开了一种基于深度图匹配的医疗数据元自动化分类系统，该系统包括：

多源异构数据元的规范化采集与映射模块：定义基于最小元数据信息的医疗数据元图数据模型；将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合，向所述医疗数据元图数据模型自动化映射，映射结果存储为待筛选医疗数据元图数据；

有效医疗数据元筛选模块：计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度；构建医疗数据元筛选模型，基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性，筛选出有效列顶点，对应的列为有效医疗数据元，由有效列顶点集合关联组成待分类医疗数据元图数据，有效列顶点对应的列集合组成待分类医疗数据元集合；

基于深度图匹配模型的医疗数据元分类模块：从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合；基于种子顶点集合进行待分类医疗数据元图数据的子图切割；利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类，从而得到列顶点对应的医疗数据元的分类。

本发明的有益效果是：

1）本发明只利用了医疗机构数据湖中存储的极少的元数据信息，使用医疗数据元图数据模型实现医疗机构内医疗数据元的规范化采集和待筛选、分类医疗数据元之间关系信息的充分利用。

2）本发明方法缩小了数据发现、分类和关联映射过程对医疗机构信息系统历史文档的依赖，历史文档的缺失、错误对于医疗数据元的分类结果影响较小。

3）本发明方法大幅度减少了人工对数据发现、分类和关联映射过程的干预，通过人工智能算法对待分类医疗数据元进行分类，为医疗大数据中心数据的实时更新和动态汇聚、深度利用需求中存在的医疗数据元自动化分类难题提供了启发式的解决方案。

附图说明

图1为本发明方法整体流程图；

图2为传统医疗数据元分类方法流程图；

图3为本发明提供的基于深度图匹配的医疗数据元自动化分类方法实现过程示意图；

图4为医疗数据元图数据模型的一个示例；

图5为多源异构数据元向医疗数据元图数据模型的映射示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

以下首先对本发明中涉及的术语进行说明：

元数据：描述其它数据的数据。元数据是关于数据的数据，在某些时候不特指某个单独的数据，可以理解为是一组用来描述数据的信息组/数据组，该信息组/数据组中的一切数据、信息，都描述/反映了某个数据的某方面特征，则该信息组/数据组可称为一个元数据。元数据可以为数据说明其元素或属性（名称、大小、数据类型等），或其结构（长度、字段、数据列），或其相关数据（位于何处、如何联系、拥有者）。在日常生活中，元数据无所不在。只要有一类事物，就可以定义一套元数据。

数据元：可理解为数据的基本单元。卫生信息基本数据元规范和定义了医药卫生领域所有相关信息的唯一中文名称与代码，并且代码以字母、汉字、数字式的字符串形式表示。数据元列举并定义了特定语义环境中的一种信息资源。完整的数据元名称=对象类术语+特征类术语+表示类术语+（限定类术语）。

数据元与元数据的区别和联系：元数据不可能涵盖理解数据元所要表示的数据所必需的所有信息。数据元的相关信息是任何一个（组织的）元数据的一个完整的组成部分。元数据的每一个元素都是一个数据元，用符合数据元标准的元数据属性和描述方法来说明元数据。将元数据存储于一个库中，并使之条理化就需要建模，建模就需要从数据元的注册系统中或库中获取元数据。元数据，它是以一种一致、标准的方式来表达的数据元。元数据与数据元字典格式均由行号、中文名称、英文名称、标识符（短语）、定义、约束／条件、最大出现次数、数据类型、数据的值域等属性组成。不同之处是数据元字典格式中另有语境和同义词名称等属性。

数据湖：数据湖是一种在系统或存储库中以自然格式存储数据的方法，它有助于以各种模式和结构形式配置数据，通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储，从原始数据（源系统数据的精确副本）转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。国内一般把整个HDFS叫做数据仓库（广义），即存放所有数据的地方，而国外一般叫数据湖（data lake）。当数据湖缺乏管理的时候，就会形成数据沼泽。搭建数据湖容易，但是让数据湖发挥价值是很难的。最终数据湖只是一直往里面灌数据，而应用场景极少，没有输出或者极少输出，形成单向湖。大部分使用数据湖的企业在数据真的需要使用的时候，往往因为数据湖中的数据质量太差而无法最终使用。

图神经网络：在过去的几年中，神经网络的兴起与应用成功推动了模式识别和数据挖掘的研究。许多曾经严重依赖于手工提取特征的机器学习任务（如目标检测、机器翻译和语音识别），如今都已被各种端到端的深度学习范式彻底改变了。尽管传统的深度学习方法被应用在提取欧氏空间数据的特征方面取得了巨大的成功，但许多实际应用场景中的数据是从非欧式空间生成的，传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意。图中的每个数据样本（节点）都会有边与图中其他实数据样本相关，这些信息可用于捕获实例之间的相互依赖关系。图神经网络是应用于图结构数据（非欧式空间）上的神经网络。

深度图匹配：图匹配是人工智能中的一个经典问题，在若干领域都有重要的应用，比如计算机视觉中匹配 2D/3D形状，生物信息学中匹配蛋白质网络，社交网络中匹配不同网络当中的用户等。深度图匹配即基于图神经网络解决图匹配问题的方法。

如图1所示，本发明提供了一种基于深度图匹配的医疗数据元自动化分类方法，该方法包括以下步骤：

（1）多源异构数据元的规范化采集与映射，包括：

定义基于最小元数据信息的医疗数据元图数据模型；

将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合，向医疗数据元图数据模型自动化映射，映射结果存储为待筛选医疗数据元图数据；

（2）计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度；构建医疗数据元筛选模型，基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性，筛选出有效列顶点，由有效列顶点集合关联组成待分类医疗数据元图数据，有效列顶点对应的列集合组成待分类医疗数据元集合；

（3）从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合；基于种子顶点集合进行待分类医疗数据元图数据的子图切割；利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类，从而得到列顶点对应的医疗数据元的分类。

图2为传统医疗数据元分类方法流程图。以下参见图3详细描述本发明方法各部分的实现过程。

一、多源异构数据元的规范化采集与映射

1.1医疗数据元图数据模型的定义

医疗机构数据汇聚形成数据湖，数据湖的数据具有多源异构的特性，包括医疗过程中对诊疗过程和医疗机构运营过程的观测数据，观测数据库的目的和设计各不相同。诊疗过程形成的电子病历旨在支持临床实践，而医疗机构运营数据则是为院内管理和医保报销流程构建的。每一种都是为了不同的目的而收集的，导致数据具有不同的逻辑组织和物理格式。

数据模型是数据库设计中用来对现实世界进行抽象的工具，通过建立标准统一的数据模型，定义数据结构、数据操作、数据约束，可以有效保证采集的数据质量和数据表征的标准可控，图数据模型是基于图数据库开发的数据模型。

由于数据湖中数据库类型不同，数据表、数据列间关系复杂。医疗机构内的观测数据时间跨度大，普遍存在数据库文档信息缺失的现象。为了使得本发明提及的深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况，达到使用最小的元数据信息完成数据元自动化分类的目的，同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练，本发明基于数据湖内数据库的最小元数据信息，定义了一种基于最小元数据信息的医疗数据元图数据模型，为医疗大数据中心建立过程中医疗数据元的自动化分类提供了一种启发式的解决方案。

图数据模型采用有向属性图来建模，图由两种图元素构成：顶点Vertex和边Edge。其中顶点由标签和对应标签的属性组构成，标签代表顶点的类型，属性组代表标签拥有的一种或多种属性。顶点的本体信息包含顶点类型及每类顶点对应的属性信息。

本发明定义的医疗数据元图数据模型的顶点的本体信息如下表所示：

表1 医疗数据元图数据模型的顶点的本体信息表

其中vid为图中每一顶点的唯一索引id，可统一使用哈希散列编码。vector_embeddings为列向量表示模型预测的列向量表示结果。

在图数据模型中，边由边类型和边属性构成，每一条边均为有向边，有向边表明一个顶点（起点src）指向另一个顶点（终点dst）的关联关系。边的本体信息包含边类型及每类边对应的属性信息。

本发明定义的医疗数据元图数据模型的边的本体信息如下表所示：

表2 医疗数据元图数据模型的边的本体信息表

图4为医疗数据元图数据模型的一个示例。

1.2多源异构数据元向医疗数据元图数据模型的映射

本发明的数据采集与关联映射过程，将来自多源异构的医疗数据从数据湖中采集，组成待筛选医疗数据元集合。使用元数据采集工具对数据湖中存储的元数据进行抓取。使用列向量生成器，对待筛选医疗数据元集合中各表各列中存储的数据进行遍历，利用列向量表示模型预测得到各表各列的列向量表示。最后通过图数据关联映射，将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射，得到待筛选医疗数据元图数据。参见图5，具体实现描述如下：

（1）元数据采集工具

a)数据库适配：由于医疗机构内数据湖通常包含不同类型数据库，元数据采集工具需针对不同类型数据库开发数据库适配模块实现适配。

b)解析配置：由于最终的关联映射目标为医疗数据元图数据模型，采集信息配置为仅采集元数据中的表格列信息、血缘关系信息和各列的外键信息；对于主键、约束、索引、权限、触发器等常见元数据则不在采集范围之内。

c)元数据抓取：针对解析配置情况，对数据湖内的各数据库执行元数据抓取操作。

d)数据关联：针对数据库适配情况，将不同类型数据库的字段类型统一映射到图数据库数据类型上。如oracle数据库的varchar2类型和MySQL数据库的varchar类型统一映射为图数据库的string类型，其他类型数据库同理。

（2）列向量生成器

列向量生成器以数据表中的单列作为一个数据元单位，使用列向量表示模型转化各列存储的数据，计算各列的向量表示；

a)列向量表示模型的训练

列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据，简称为标准分类列。

标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系。

获得医疗数据元图数据中列顶点向量表示的方法，是将对应医疗数据元集合中的列中存储的数据转化为文本数据，每列文本数据头尾分别加上[CLS]、[SEP]表示数据的开头和结束。

设标准分类医疗数据元图数据中列顶点集合为

，其中

表示列顶点集合对应的标准分类列中第

列，第

行的数据，

，

为第

行字符总数，

为构成数据

的字符。通过文本表示模型

计算得到字符

的初始向量表示

。文本表示模型

可以采用基于Transformer模型的深度双向语言表示模型（BERT模型）。在标准分类医疗数据元图数据的列顶点

下随机抽取

行数据

，第

行数据的向量表示为

，根据自注意力机制（self-attention）计算得到标准分类医疗数据元图数据中列顶点

下各行数据的相关性，得到列顶点

的列向量表示

，计算公式为：

其中

为列顶点

的向量表示，

为

的维度，softmax为softmax函数。

为获得更精确的列顶点向量表示，在积累了足够量的标准分类列作为训练数据的情况下，可以使用标准分类列数据对列向量表示模型进行进一步的迁移学习。以列为单位，随机覆盖对应列数据中15%的字符，使用[MASK]标签替带被覆盖字符。使用列向量表示模型预测被覆盖字符进一步训练和更新模型，这样得到的列向量表示模型更加匹配筛选有效数据元的任务。

b)列向量表示模型的预测

列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合，以列为遍历单元对待筛选医疗数据元集合进行遍历。为避免待筛选医疗数据元集合中存在列数据量过大导致列向量生成器性能下降，在使用列向量表示模型计算列向量表示过程中，可以使用随机抽样的方式（如随机抽取单列1000个数据，抽取100次），使用列向量表示模型计算对列顶点

进行第s次抽样的列向量表示

。对预测的共

次抽样的列向量表示结果求平均值，作为

最终的列向量表示

，存储

在医疗数据元图数据模型列顶点

的vector_embeddings属性内。

（3）图数据关联映射

将计算得到的待筛选医疗数据元集合中各列的列向量表示，以及元数据采集结果，分别关联映射为医疗数据元图数据模型中顶点和边对应的对象，入库到以医疗数据元图数据模型为数据标准的待筛选医疗数据元图数据中，对应的映射关系如下表所示。

表3图数据关联映射表

二、快速、自动化筛选有效医疗数据元

医疗机构内数据湖存储的信息类型繁多，相比于标准数据模型的数据覆盖范围，通常存在大量信息冗余，为了快速、自动化筛选有效医疗数据元，在进行医疗数据元自动化分类任务之前，可以对待筛选医疗数据元集合中的数据元进行筛选，降低数据元分类任务的复杂度。本发明提出如下快速、自动化筛选有效医疗数据元的方法，包括以下两个步骤：（1）计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度。（2）构建医疗数据元筛选模型，基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性，筛选出其中的有效医疗数据元，组成待分类医疗数据元集合。

2.1基于列顶点向量表示计算列顶点在医疗数据元图数据模型中的重要度

待筛选医疗数据元图数据中存储的列顶点与待筛选医疗数据元集合中的列存在一一对应关系。对于待筛选医疗数据元图数据中存储的列顶点

，在除去

的列顶点集合中随机抽取

个列顶点

，通过计算列顶点

与抽取的列顶点的相关性，计算

在医疗数据元图数据模型中的重要度分数

，

定义为：

其中

为重要度函数。

2.2医疗数据元筛选模型的训练与预测

。

训练时从集合

中随机抽取

个列顶点作为正样本集合

，从集合

中随机抽取

个列顶点作为负样本集合

；设样本

的重要度分数为

，

表示第

个列顶点，

：

通过Adam算法更新重要度函数，更新医疗数据元筛选模型。

医疗数据元筛选模型在预测时，通过计算阈值

判断列顶点

计算公式：

若

，则说明列顶点

为有效列顶点，对应的列为有效数据元。

最终由筛选后的有效列顶点集合关联组成待分类医疗数据元图数据，对应的筛选后的列集合组成待分类医疗数据元集合。

三、基于深度图匹配模型确定医疗数据元的类别

3.1从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合

待分类医疗数据元图数据中存储的列顶点与待分类医疗数据元集合中的列存在一一对应关系。设由标准数据模型定义的标准数据元分类体系中所有标准分类集合为

，标准分类医疗数据元图数据中的列顶点集合为

，

在标准数据元分类体系中的分类为

；设待分类医疗数据元图数据中存储的列顶点集合为

。则医疗数据元分类过程可以抽象为在

中找到与列顶点

匹配度最高的列顶点

，从而确定列顶点

对应的列的分类为

，而医疗大数据中心开发过程中的数据分类与关联映射过程，可以抽象为为标准数据元分类体系的所有分类

找到匹配度最高的

。

以标准数据模型为数据标准的标准数据库中有些列的数据的格式或内容会比较统一，与之存在关联映射关系的标准分类医疗数据元集合的列的格式或内容也会比较统一。如果首先为这些列对应的顶点定位到在待分类医疗数据元图数据中对应的顶点（称为种子顶点），可以缩小深度图匹配模型的搜索空间，从而提高其效率。对于列顶点

，从

对应的列中随机抽取

个数据

，对于待分类医疗数据元图数据中的列顶点

，同样从

对应的列中随机抽取

个数据

，则

和

的匹配度

为：

其中

代表数据

的向量表示，则

对应的种子顶点为与其匹配度最高的列顶点

，即：

3.2基于种子顶点集合进行待分类医疗数据元图数据的子图切割

以

表示待分类医疗数据元图数据中与

存在父子关系的列顶点集合，以

表示待分类医疗数据元图数据中与

存在外键关系的列顶点集合，则基于种子顶点

切割得到的子图

为：

以

表示标准分类医疗数据元图数据中与

中搜索合适的子图，使得搜索到的子图中的列顶点与

中的列顶点一一匹配，从而实现

中列顶点对应的医疗数据元的分类。

3.3利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类

医疗数据元分类过程包括以下步骤：

（1）结合图注意力机制，分别计算标准分类医疗数据元图数据中列顶点

的向量表示

和待分类医疗数据元图数据的列顶点

的向量表示

；具体为：

根据图注意力机制，计算

的向量表示

为：

其中

，

为从列顶点

对应的列中随机抽取

个数据；

表示

中的某一列顶点

对于列顶点

的权重函数，具体计算方式为：

其中

为非线性激活函数，

为训练得到的矩阵参数。

根据图注意力机制，计算

的向量表示

为：

其中

，

为从列顶点

对应的列中随机抽取

个数据；

表示

中的某一列顶点

对于列顶点

的权重函数，具体计算方式为：

其中

为非线性激活函数，

为训练得到的矩阵参数。

（2）计算所有

与

的匹配度，基于匹配度计算得到列顶点

的分类，对应得到待分类医疗数据元集合中

对应列的分类结果。

标准分类医疗数据元图数据的列顶点

和待分类医疗数据元图数据的列顶点

的匹配度

为：

取与

匹配度最高的列顶点

，即：

则说明待分类医疗数据元图数据中的列顶点

对应的列的分类为

对应的标准数据元分类体系中的类别。

本发明实施例还提供一种基于深度图匹配的医疗数据元自动化分类系统，该系统包括：

多源异构数据元的规范化采集与映射模块：定义基于最小元数据信息的医疗数据元图数据模型；将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合，向所述医疗数据元图数据模型自动化映射，映射结果存储为待筛选医疗数据元图数据；该模块的实现可以参考上述步骤一。

有效医疗数据元筛选模块：计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度；构建医疗数据元筛选模型，基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性，筛选出有效列顶点，对应的列为有效医疗数据元，由有效列顶点集合关联组成待分类医疗数据元图数据，有效列顶点对应的列集合组成待分类医疗数据元集合；该模块的实现可以参考上述步骤二。

基于深度图匹配模型的医疗数据元分类模块：从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合；基于种子顶点集合进行待分类医疗数据元图数据的子图切割；利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类，从而得到列顶点对应的医疗数据元的分类；该模块的实现可以参考上述步骤三。

本发明提出的基于深度图匹配的医疗数据元自动化分类方法及系统的关键点如下：

1）基于医疗机构内数据湖的最小元数据信息，定义了一种基于最小元数据信息的医疗数据元图数据模型，使得深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况，达到使用最少的元数据信息完成数据元自动化分类的目的，同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练。

2）基于表示学习方法计算医疗数据元的向量表示，通过向量表示的分类，快速、自动化筛选有可能映射到标准数据模型的有效数据元。

3）基于图注意力机制计算列顶点的向量表示，构建深度图匹配模型完成医疗数据元的自动化分类。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。