CN114003791A - 基于深度图匹配的医疗数据元自动化分类方法及系统 - Google Patents

基于深度图匹配的医疗数据元自动化分类方法及系统 Download PDF

Info

Publication number
CN114003791A
CN114003791A CN202111649231.1A CN202111649231A CN114003791A CN 114003791 A CN114003791 A CN 114003791A CN 202111649231 A CN202111649231 A CN 202111649231A CN 114003791 A CN114003791 A CN 114003791A
Authority
CN
China
Prior art keywords
data
column
medical data
vertex
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111649231.1A
Other languages
English (en)
Other versions
CN114003791B (zh
Inventor
李劲松
辛然
杨宗峰
李玉格
孙慧瑶
周天舒
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111649231.1A priority Critical patent/CN114003791B/zh
Publication of CN114003791A publication Critical patent/CN114003791A/zh
Application granted granted Critical
Publication of CN114003791B publication Critical patent/CN114003791B/zh
Priority to PCT/CN2022/116971 priority patent/WO2023124191A1/zh
Priority to JP2023536557A priority patent/JP7432801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度图匹配的医疗数据元自动化分类方法及系统,本发明定义了基于最小元数据信息的医疗数据元图数据模型,使得深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况,达到使用最少的元数据信息完成数据元自动化分类的目的,同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练;基于表示学习方法计算医疗数据元的向量表示,通过向量表示的分类,快速、自动化筛选有可能映射到标准数据模型的有效数据元;基于图注意力机制计算列顶点的向量表示,构建深度图匹配模型完成医疗数据元的自动化分类。本发明方法及系统具有良好的可拓展性,可应用于各类数据沼泽向数据湖转化问题的处理。

Description

基于深度图匹配的医疗数据元自动化分类方法及系统
技术领域
本发明属于区域性医疗大数据中心、数据生产平台领域,尤其涉及一种基于深度图匹配的医疗数据元自动化分类方法及系统。
背景技术
随着医疗信息化的建设与发展,大数据与医疗服务的结合,促进了智慧医疗技术不断提升。目前,智慧医疗已经初具雏形,区域性医疗机构组成医联体或医共体并构建统一的医疗大数据中心已成后续智慧医疗数据治理体系发展的必然趋势。然而,医疗机构形态各异的信息平台、软件以及结构复杂的系统,导致不同机构平台之间无法实现数据的共享与交互,数据呈碎片化,形成数据孤岛。在区域性医疗机构间构建医疗大数据中心的过程中,时常发现机构内数据(尤其是历史久远的数据)缺乏管理,信息系统文档缺乏有效维护,字段备注丢失,文档质量低下,难以快速有效追溯数据血缘,形成局部的数据沼泽。传统的医疗大数据中心开发过程中,需要各医疗机构信息化部门和信息系统提供厂商相关负责人员配合医疗大数据中心的开发人员基于标准数据模型(如OMOP CDM)开发的数据接口(包括数据库视图、数据字典)完成数据发现、分类和数据关联映射任务,并完成人工分类和关联映射的数据存在标准数据模型对应的标准数据库中。数据来源的多样性,数据沼泽的密集和不可预知性普遍造成数据接口开发周期长、协调过程复杂、返工次数多等问题,耗费大量的人力物力财力,阻碍了区域性医疗大数据中心的快速自动化构建,同时为后续医疗数据的深度利用创造了很多困难。
医疗大数据中心开发过程中的数据发现、分类和数据关联映射任务,可以抽象为医疗数据元的筛选、分类任务和分类后的医疗数据元关联映射任务。首先,平台开发方案设计人员基于标准数据模型定义标准数据元分类体系和对应的数据接口规范。其后,开发人员通过规则查找和人工搜索筛选并确定与数据接口规范匹配的数据元,这一过程称为数据发现,数据发现过程确定了平台开发过程中医疗机构数据湖内哪些数据元应该被采集;开发人员根据数据发现的结果开发数据接口,并通过完成数据采集工作。最后,开发人员将医疗机构数据湖内的多源异构的数据元按照标准数据元分类体系进行分类,整合并关联映射到标准数据元分类体系上。
现有技术缺点主要体现在以下两个方面:
1)医疗机构信息系统数量多、提供厂商来源各异,数据采集过程复杂,依赖大量人工,阻碍了医疗大数据中心的建设和大数据应用的有效开展。一家三甲级医疗机构的信息系统数量可以达到100-300之多,形成了一个巨大的数据湖。数据湖中数据量大,关系错综复杂,决定了数据接口开发阶段的数据发现工作需要依赖医疗机构信息化部门和信息系统提供厂商相关负责人员的长期配合,数据接口之间相互衔接,造成数据发现工作的人工成本大,耗费时间长。中间环节一旦出现故障,问题的排查过程非常复杂。很大程度上阻碍了医疗大数据中心的开发和大数据应用的有效开展。
2)医疗机构信息系统更迭频繁,历史系统文档维护困难、缺失严重等常见问题在医疗机构的数据湖内形成局部的数据沼泽,进一步增加了数据接口开发的难度。医疗数据包含病人诊疗过程中生成的诊疗数据和医疗机构运营过程中的观测数据,来源多样,关系复杂。随着医疗机构信息系统版本的更迭,历史数据沉睡在医疗机构数据湖中缺乏有效管理,形成局部的数据沼泽。医疗大数据中心的构建需要对这些历史数据进行整合,完成数据沼泽向数据湖的转化。由于医疗机构信息化部门和信息系统提供厂商相关负责人员更替频繁,历史系统文档丢失情况时有发生,面对文档丢失,数据接口开发人员只能依靠重复试错的方法对医疗机构数据湖中所有可能的数据进行人工筛选来完成数据发现,由于医疗机构信息系统的数量多,关联关系复杂,人工筛选的方法难以有效利用医疗机构数据湖的全局信息,耗时长,错误率高,大幅增加了数据发现工作的工作周期和难度。当数据湖内数据间的关联结构过于复杂超过人工能接受的程度时,只能放弃对应数据接口的开发,使得对应类别的数据无法找到可关联映射的数据,造成该分类的数据丢失。
发明内容
医疗大数据中心的构建过程中,医疗机构局部数据沼泽普遍存在等问题导致数据接口开发时间长,维护困难。传统的解决方案依赖人工处理,难以大规模完成海量数据的数据发现、分类和关联映射问题。医疗机构数据湖内的多源异构的数据可以抽象为由未知分类的数据元组成的待筛选医疗数据元集合。过去的几年里,图神经网络的兴起与应用成功推动了图结构数据的深度学习范式的发展。
本发明利用基于图神经网络的深度图匹配算法,改进基于人工处理的数据元分类方法,最大程度降低对于信息系统数据文档的依赖,在只获取医疗机构数据湖内极少元数据信息的条件下,基于医疗数据文本语义实现有效数据元的快速筛选,实现医疗机构数据湖内数据的自动化数据发现,基于深度图匹配算法实现医疗数据元的快速分类,实现医疗机构数据湖内数据元向标准数据元分类体系的自动化分类和关联映射,大幅度提升医疗大数据中心开发过程中数据接口开发的效率。本发明提供的数据元分类方法具有良好的可拓展性,可应用于各类数据沼泽向数据湖转化问题的处理。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种基于深度图匹配的医疗数据元自动化分类方法,该方法包括以下步骤:
(1)定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;
(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;
(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
进一步地,所述医疗数据元图数据模型采用有向属性图建模,图由顶点和边两种图元素构成;
所述顶点是由标签和对应标签的属性组构成的,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性;所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息,所述顶点类型包括数据库顶点、表顶点和列顶点,所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息,所述表顶点对应的属性信息包括表顶点索引,所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示;
所述边是由边类型和边属性构成的,每一条边均为有向边;所述边的本体信息包含边类型及每类边对应的属性信息,所述边类型包括起点为数据库顶点、终点为表顶点的父子关联,起点为表顶点、终点为列顶点的父子关联,以及起点和终点均为列顶点的外键,三种边类型对应的属性信息均为边索引。
进一步地,所述多源异构的数据元向医疗数据元图数据模型的映射,包括:
将来自多源异构的医疗数据从数据湖中采集,组成待筛选医疗数据元集合;
使用元数据采集工具对数据湖中存储的元数据进行抓取;
使用列向量生成器,对待筛选医疗数据元集合中各表各列中存储的数据进行遍历,利用列向量表示模型预测得到各表各列的列向量表示;
通过图数据关联映射,将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射,得到待筛选医疗数据元图数据。
进一步地,所述列向量生成器以数据表中的单列作为一个数据元单位,使用列向量表示模型转化各列存储的数据,计算各列的向量表示;
所述列向量表示模型的训练包括:列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据,记为标准分类列;标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系;
设标准分类医疗数据元图数据中列顶点集合为
Figure 230557DEST_PATH_IMAGE001
,其中
Figure 884392DEST_PATH_IMAGE002
表示列顶点 集合对应的标准分类列中第
Figure 906574DEST_PATH_IMAGE003
列,第
Figure 620453DEST_PATH_IMAGE004
行的数据,
Figure 196927DEST_PATH_IMAGE005
Figure 123295DEST_PATH_IMAGE006
为第
Figure 468826DEST_PATH_IMAGE004
行字符 总数,
Figure 88026DEST_PATH_IMAGE007
为构成数据
Figure 151797DEST_PATH_IMAGE002
的字符;通过文本表示模型
Figure 616276DEST_PATH_IMAGE008
计算得到字符
Figure 816313DEST_PATH_IMAGE007
的初始向量表示
Figure 340836DEST_PATH_IMAGE009
;在标准分类医疗数据元图数据的列顶点
Figure 360744DEST_PATH_IMAGE010
下随机抽取
Figure 894494DEST_PATH_IMAGE011
行数据
Figure 683458DEST_PATH_IMAGE012
, 第
Figure 378882DEST_PATH_IMAGE004
行数据的向量表示为
Figure 151666DEST_PATH_IMAGE013
,根据自注意力机制计算得到标准分类医 疗数据元图数据中列顶点
Figure 957948DEST_PATH_IMAGE014
下各行数据的相关性,得到列顶点
Figure 132577DEST_PATH_IMAGE010
的列向量表示
Figure 998902DEST_PATH_IMAGE015
,计 算公式为:
Figure 727824DEST_PATH_IMAGE016
其中
Figure 603376DEST_PATH_IMAGE017
为列顶点
Figure 366932DEST_PATH_IMAGE014
的向量表示,
Figure 415877DEST_PATH_IMAGE018
Figure 897674DEST_PATH_IMAGE019
的维度,softmax为softmax函 数;
所述列向量表示模型的预测包括:列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合,以列为遍历单元对待筛选医疗数据元集合进行遍历;使用列向量表示模型计算对列顶点每次随机抽样的列向量表示;对预测的多次随机抽样的列向量表示结果求平均值,作为所述列顶点最终的列向量表示。
进一步地,所述计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度,包括:
对于待筛选医疗数据元图数据中存储的列顶点
Figure 45759DEST_PATH_IMAGE010
,在除去
Figure 929401DEST_PATH_IMAGE014
的列顶点集合中随 机抽取
Figure 871949DEST_PATH_IMAGE020
个列顶点
Figure 841042DEST_PATH_IMAGE021
,通过计算列顶点
Figure 792818DEST_PATH_IMAGE010
与抽取的列顶点的相关性,计算
Figure 530967DEST_PATH_IMAGE014
在 医疗数据元图数据模型中的重要度分数
Figure 909995DEST_PATH_IMAGE022
Figure 100805DEST_PATH_IMAGE022
定义为:
Figure 856272DEST_PATH_IMAGE023
其中
Figure 448927DEST_PATH_IMAGE024
为重要度函数。
进一步地,所述医疗数据元筛选模型的训练与预测具体为:
将根据标准数据元分类体系,人工分类和关联映射构建的标准分类医疗数据元集 合转换为标准分类医疗数据元图数据,设标准分类医疗数据元图数据中存储的列顶点集合 为
Figure 998857DEST_PATH_IMAGE025
,设构建标准分类医疗数据元集合过程中被人工筛选排除的列对应的列顶点 集合为
Figure 676963DEST_PATH_IMAGE026
训练时从集合
Figure 970541DEST_PATH_IMAGE027
中随机抽取
Figure 683282DEST_PATH_IMAGE028
个列顶点作为正样本集合
Figure 404114DEST_PATH_IMAGE029
,从集合
Figure 835095DEST_PATH_IMAGE030
中随机抽取
Figure 666785DEST_PATH_IMAGE028
个列顶点作为负样本集合
Figure 968453DEST_PATH_IMAGE031
;设样本
Figure 860186DEST_PATH_IMAGE032
的重要度分数为
Figure 512884DEST_PATH_IMAGE033
Figure 148265DEST_PATH_IMAGE034
表示第
Figure 835598DEST_PATH_IMAGE035
个列顶点,
Figure 898232DEST_PATH_IMAGE036
表示样本真实类别,则基于重要度分数计算医疗数 据元筛选模型的损失函数
Figure 772647DEST_PATH_IMAGE037
Figure 211719DEST_PATH_IMAGE038
所述医疗数据元筛选模型在预测时,通过计算阈值
Figure 487979DEST_PATH_IMAGE039
判断列顶点
Figure 721514DEST_PATH_IMAGE040
对应的待筛选 医疗数据元集合中的列是否为有效数据元,阈值
Figure 83226DEST_PATH_IMAGE039
计算公式:
Figure 325988DEST_PATH_IMAGE041
Figure 722334DEST_PATH_IMAGE042
,则说明列顶点
Figure 392350DEST_PATH_IMAGE040
为有效列顶点,对应的列为有效数据元;
由筛选后的有效列顶点集合关联组成待分类医疗数据元图数据,对应的筛选后的列集合组成待分类医疗数据元集合。
进一步地,所述从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合,包括:
设由标准数据模型定义的标准数据元分类体系中所有标准分类集合为
Figure 975778DEST_PATH_IMAGE043
,标准分 类医疗数据元图数据中的列顶点集合为
Figure 756652DEST_PATH_IMAGE044
Figure 273084DEST_PATH_IMAGE045
在标准数据元分类体系中的分类为
Figure 848422DEST_PATH_IMAGE046
;设待分类医疗数据元图数据中存储的列顶点集合为
Figure 919146DEST_PATH_IMAGE047
;医疗数据元分类过程抽象 为在
Figure 503711DEST_PATH_IMAGE044
中找到与列顶点
Figure 609071DEST_PATH_IMAGE048
匹配度最高的列顶点
Figure 355310DEST_PATH_IMAGE049
,从而确定列顶点
Figure 444489DEST_PATH_IMAGE040
对应的列的分 类为
Figure 301586DEST_PATH_IMAGE050
对于列顶点
Figure 527031DEST_PATH_IMAGE045
,从
Figure 444172DEST_PATH_IMAGE049
对应的列中随机抽取
Figure 755067DEST_PATH_IMAGE051
个数据
Figure 415856DEST_PATH_IMAGE052
,对于列 顶点
Figure 495807DEST_PATH_IMAGE053
,从
Figure 583849DEST_PATH_IMAGE054
对应的列中随机抽取
Figure 382041DEST_PATH_IMAGE051
个数据
Figure 846520DEST_PATH_IMAGE055
,则
Figure 46557DEST_PATH_IMAGE049
Figure 305500DEST_PATH_IMAGE040
的匹配度
Figure 325409DEST_PATH_IMAGE056
为:
Figure 859158DEST_PATH_IMAGE057
其中
Figure 648123DEST_PATH_IMAGE058
代表数据
Figure 77967DEST_PATH_IMAGE059
的向量表示,则
Figure 850751DEST_PATH_IMAGE049
对应的种子顶点为与其匹配度最高的列顶 点
Figure 657033DEST_PATH_IMAGE060
,即:
Figure 300504DEST_PATH_IMAGE061
进一步地,所述基于种子顶点集合进行待分类医疗数据元图数据的子图切割,包括:
Figure 432408DEST_PATH_IMAGE062
表示待分类医疗数据元图数据中与
Figure 161330DEST_PATH_IMAGE060
存在父子关系的列顶点集合,以
Figure 36882DEST_PATH_IMAGE063
表示待分类医疗数据元图数据中与
Figure 331597DEST_PATH_IMAGE060
存在外键关系的列顶点集合,则基于种子顶 点
Figure 634402DEST_PATH_IMAGE060
切割得到的子图
Figure 850620DEST_PATH_IMAGE064
为:
Figure 529863DEST_PATH_IMAGE065
Figure 147926DEST_PATH_IMAGE066
表示标准分类医疗数据元图数据中与
Figure 621633DEST_PATH_IMAGE049
关联同一父顶点的列顶点集合, 则深度图匹配模型的目标是从子图
Figure 856305DEST_PATH_IMAGE067
中搜索子图,使得搜索到的子图中的列顶点 与
Figure 73660DEST_PATH_IMAGE068
中的列顶点一一匹配,实现
Figure 811809DEST_PATH_IMAGE069
中列顶点对应的医疗数据元的分类。
进一步地,所述利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,包括:
根据图注意力机制,计算标准分类医疗数据元图数据中列顶点
Figure 190837DEST_PATH_IMAGE049
的向量表示
Figure 647226DEST_PATH_IMAGE070
为:
Figure 402693DEST_PATH_IMAGE071
其中
Figure 260927DEST_PATH_IMAGE072
Figure 545278DEST_PATH_IMAGE073
为从列顶点
Figure 20122DEST_PATH_IMAGE074
对应的列中随机抽取
Figure 313700DEST_PATH_IMAGE075
个数据;
Figure 760862DEST_PATH_IMAGE076
表示
Figure 747272DEST_PATH_IMAGE077
中的某一列顶点
Figure 912674DEST_PATH_IMAGE074
对于列顶点
Figure 744364DEST_PATH_IMAGE049
的权重函数;
根据图注意力机制,计算待分类医疗数据元图数据的列顶点
Figure 842770DEST_PATH_IMAGE078
的向量表示
Figure 11801DEST_PATH_IMAGE079
为:
Figure 930078DEST_PATH_IMAGE080
其中
Figure 565459DEST_PATH_IMAGE081
Figure 518372DEST_PATH_IMAGE082
为从列顶点
Figure 581005DEST_PATH_IMAGE083
对应的列中随机抽 取
Figure 721000DEST_PATH_IMAGE075
个数据;
Figure 160071DEST_PATH_IMAGE084
表示
Figure 701911DEST_PATH_IMAGE085
中的某一列顶点
Figure 201026DEST_PATH_IMAGE083
对于列顶点
Figure 828316DEST_PATH_IMAGE078
的权重函数;
列顶点
Figure 71079DEST_PATH_IMAGE086
和列顶点
Figure 467425DEST_PATH_IMAGE087
的匹配度
Figure 871861DEST_PATH_IMAGE088
为:
Figure 720869DEST_PATH_IMAGE089
取与
Figure 767322DEST_PATH_IMAGE083
匹配度最高的列顶点
Figure 752596DEST_PATH_IMAGE090
,即:
Figure 859092DEST_PATH_IMAGE091
待分类医疗数据元图数据中的列顶点
Figure 320029DEST_PATH_IMAGE083
对应的列的分类为
Figure 639015DEST_PATH_IMAGE090
对应的标准数据元 分类体系中的类别。
本发明另一方面公开了一种基于深度图匹配的医疗数据元自动化分类系统,该系统包括:
多源异构数据元的规范化采集与映射模块:定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;
有效医疗数据元筛选模块:计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,对应的列为有效医疗数据元,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;
基于深度图匹配模型的医疗数据元分类模块:从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
本发明的有益效果是:
1)本发明只利用了医疗机构数据湖中存储的极少的元数据信息,使用医疗数据元图数据模型实现医疗机构内医疗数据元的规范化采集和待筛选、分类医疗数据元之间关系信息的充分利用。
2)本发明方法缩小了数据发现、分类和关联映射过程对医疗机构信息系统历史文档的依赖,历史文档的缺失、错误对于医疗数据元的分类结果影响较小。
3)本发明方法大幅度减少了人工对数据发现、分类和关联映射过程的干预,通过人工智能算法对待分类医疗数据元进行分类,为医疗大数据中心数据的实时更新和动态汇聚、深度利用需求中存在的医疗数据元自动化分类难题提供了启发式的解决方案。
附图说明
图1为本发明方法整体流程图;
图2为传统医疗数据元分类方法流程图;
图3为本发明提供的基于深度图匹配的医疗数据元自动化分类方法实现过程示意图;
图4为医疗数据元图数据模型的一个示例;
图5为多源异构数据元向医疗数据元图数据模型的映射示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
以下首先对本发明中涉及的术语进行说明:
元数据:描述其它数据的数据。元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。
数据元:可理解为数据的基本单元。卫生信息基本数据元规范和定义了医药卫生领域所有相关信息的唯一中文名称与代码,并且代码以字母、汉字、数字式的字符串形式表示。数据元列举并定义了特定语义环境中的一种信息资源。完整的数据元名称=对象类术语+特征类术语+表示类术语+(限定类术语)。
数据元与元数据的区别和联系:元数据不可能涵盖理解数据元所要表示的数据所必需的所有信息。数据元的相关信息是任何一个(组织的)元数据的一个完整的组成部分。元数据的每一个元素都是一个数据元,用符合数据元标准的元数据属性和描述方法来说明元数据。将元数据存储于一个库中,并使之条理化就需要建模,建模就需要从数据元的注册系统中或库中获取元数据。元数据,它是以一种一致、标准的方式来表达的数据元。元数据与数据元字典格式均由行号、中文名称、英文名称、标识符(短语)、定义、约束/条件、最大出现次数、数据类型、数据的值域等属性组成。不同之处是数据元字典格式中另有语境和同义词名称等属性。
数据湖:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。国内一般把整个HDFS叫做数据仓库(广义),即存放所有数据的地方,而国外一般叫数据湖(data lake)。当数据湖缺乏管理的时候,就会形成数据沼泽。搭建数据湖容易,但是让数据湖发挥价值是很难的。最终数据湖只是一直往里面灌数据,而应用场景极少,没有输出或者极少输出,形成单向湖。大部分使用数据湖的企业在数据真的需要使用的时候,往往因为数据湖中的数据质量太差而无法最终使用。
图神经网络:在过去的几年中,神经网络的兴起与应用成功推动了模式识别和数据挖掘的研究。许多曾经严重依赖于手工提取特征的机器学习任务(如目标检测、机器翻译和语音识别),如今都已被各种端到端的深度学习范式彻底改变了。尽管传统的深度学习方法被应用在提取欧氏空间数据的特征方面取得了巨大的成功,但许多实际应用场景中的数据是从非欧式空间生成的,传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意。图中的每个数据样本(节点)都会有边与图中其他实数据样本相关,这些信息可用于捕获实例之间的相互依赖关系。图神经网络是应用于图结构数据(非欧式空间)上的神经网络。
深度图匹配:图匹配是人工智能中的一个经典问题,在若干领域都有重要的应用,比如计算机视觉中匹配 2D/3D形状,生物信息学中匹配蛋白质网络,社交网络中匹配不同网络当中的用户等。深度图匹配即基于图神经网络解决图匹配问题的方法。
如图1所示,本发明提供了一种基于深度图匹配的医疗数据元自动化分类方法,该方法包括以下步骤:
(1)多源异构数据元的规范化采集与映射,包括:
定义基于最小元数据信息的医疗数据元图数据模型;
将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;
(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;
(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
图2为传统医疗数据元分类方法流程图。以下参见图3详细描述本发明方法各部分的实现过程。
一、多源异构数据元的规范化采集与映射
1.1医疗数据元图数据模型的定义
医疗机构数据汇聚形成数据湖,数据湖的数据具有多源异构的特性,包括医疗过程中对诊疗过程和医疗机构运营过程的观测数据,观测数据库的目的和设计各不相同。诊疗过程形成的电子病历旨在支持临床实践,而医疗机构运营数据则是为院内管理和医保报销流程构建的。每一种都是为了不同的目的而收集的,导致数据具有不同的逻辑组织和物理格式。
数据模型是数据库设计中用来对现实世界进行抽象的工具,通过建立标准统一的数据模型,定义数据结构、数据操作、数据约束,可以有效保证采集的数据质量和数据表征的标准可控,图数据模型是基于图数据库开发的数据模型。
由于数据湖中数据库类型不同,数据表、数据列间关系复杂。医疗机构内的观测数据时间跨度大,普遍存在数据库文档信息缺失的现象。为了使得本发明提及的深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况,达到使用最小的元数据信息完成数据元自动化分类的目的,同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练,本发明基于数据湖内数据库的最小元数据信息,定义了一种基于最小元数据信息的医疗数据元图数据模型,为医疗大数据中心建立过程中医疗数据元的自动化分类提供了一种启发式的解决方案。
图数据模型采用有向属性图来建模,图由两种图元素构成:顶点Vertex和边Edge。其中顶点由标签和对应标签的属性组构成,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性。顶点的本体信息包含顶点类型及每类顶点对应的属性信息。
本发明定义的医疗数据元图数据模型的顶点的本体信息如下表所示:
表1 医疗数据元图数据模型的顶点的本体信息表
Figure 275533DEST_PATH_IMAGE092
其中vid为图中每一顶点的唯一索引id,可统一使用哈希散列编码。vector_embeddings为列向量表示模型预测的列向量表示结果。
在图数据模型中,边由边类型和边属性构成,每一条边均为有向边,有向边表明一个顶点(起点src)指向另一个顶点(终点dst)的关联关系。边的本体信息包含边类型及每类边对应的属性信息。
本发明定义的医疗数据元图数据模型的边的本体信息如下表所示:
表2 医疗数据元图数据模型的边的本体信息表
Figure 287351DEST_PATH_IMAGE093
图4为医疗数据元图数据模型的一个示例。
1.2多源异构数据元向医疗数据元图数据模型的映射
本发明的数据采集与关联映射过程,将来自多源异构的医疗数据从数据湖中采集,组成待筛选医疗数据元集合。使用元数据采集工具对数据湖中存储的元数据进行抓取。使用列向量生成器,对待筛选医疗数据元集合中各表各列中存储的数据进行遍历,利用列向量表示模型预测得到各表各列的列向量表示。最后通过图数据关联映射,将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射,得到待筛选医疗数据元图数据。参见图5,具体实现描述如下:
(1)元数据采集工具
a)数据库适配:由于医疗机构内数据湖通常包含不同类型数据库,元数据采集工具需针对不同类型数据库开发数据库适配模块实现适配。
b)解析配置:由于最终的关联映射目标为医疗数据元图数据模型,采集信息配置为仅采集元数据中的表格列信息、血缘关系信息和各列的外键信息;对于主键、约束、索引、权限、触发器等常见元数据则不在采集范围之内。
c)元数据抓取:针对解析配置情况,对数据湖内的各数据库执行元数据抓取操作。
d)数据关联:针对数据库适配情况,将不同类型数据库的字段类型统一映射到图数据库数据类型上。如oracle数据库的varchar2类型和MySQL数据库的varchar类型统一映射为图数据库的string类型,其他类型数据库同理。
(2)列向量生成器
列向量生成器以数据表中的单列作为一个数据元单位,使用列向量表示模型转化各列存储的数据,计算各列的向量表示;
a)列向量表示模型的训练
列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据,简称为标准分类列。
标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系。
获得医疗数据元图数据中列顶点向量表示的方法,是将对应医疗数据元集合中的列中存储的数据转化为文本数据,每列文本数据头尾分别加上[CLS]、[SEP]表示数据的开头和结束。
设标准分类医疗数据元图数据中列顶点集合为
Figure 642109DEST_PATH_IMAGE094
,其中
Figure 764786DEST_PATH_IMAGE002
表示列顶点 集合对应的标准分类列中第
Figure 521389DEST_PATH_IMAGE003
列,第
Figure 969688DEST_PATH_IMAGE004
行的数据,
Figure 280584DEST_PATH_IMAGE005
Figure 472531DEST_PATH_IMAGE006
为第
Figure 552482DEST_PATH_IMAGE004
行字符 总数,
Figure 906103DEST_PATH_IMAGE007
为构成数据
Figure 704295DEST_PATH_IMAGE002
的字符。通过文本表示模型
Figure 168774DEST_PATH_IMAGE008
计算得到字符
Figure 368811DEST_PATH_IMAGE007
的初始向量表示
Figure 627754DEST_PATH_IMAGE009
。文本表示模型
Figure 444401DEST_PATH_IMAGE008
可以采用基于Transformer模型的深度双向语言表示模型(BERT模 型)。在标准分类医疗数据元图数据的列顶点
Figure 446992DEST_PATH_IMAGE010
下随机抽取
Figure 501535DEST_PATH_IMAGE011
行数据
Figure 462538DEST_PATH_IMAGE012
,第
Figure 969743DEST_PATH_IMAGE004
行数据的向量表示为
Figure 510446DEST_PATH_IMAGE013
,根据自注意力机制(self-attention)计算 得到标准分类医疗数据元图数据中列顶点
Figure 685075DEST_PATH_IMAGE014
下各行数据的相关性,得到列顶点
Figure 816979DEST_PATH_IMAGE010
的列向 量表示
Figure 342638DEST_PATH_IMAGE015
,计算公式为:
Figure 687032DEST_PATH_IMAGE095
其中
Figure 716168DEST_PATH_IMAGE017
为列顶点
Figure 753394DEST_PATH_IMAGE014
的向量表示,
Figure 235191DEST_PATH_IMAGE018
Figure 383276DEST_PATH_IMAGE019
的维度,softmax为softmax函 数。
为获得更精确的列顶点向量表示,在积累了足够量的标准分类列作为训练数据的情况下,可以使用标准分类列数据对列向量表示模型进行进一步的迁移学习。以列为单位,随机覆盖对应列数据中15%的字符,使用[MASK]标签替带被覆盖字符。使用列向量表示模型预测被覆盖字符进一步训练和更新模型,这样得到的列向量表示模型更加匹配筛选有效数据元的任务。
b)列向量表示模型的预测
列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医 疗数据元集合,以列为遍历单元对待筛选医疗数据元集合进行遍历。为避免待筛选医疗数 据元集合中存在列数据量过大导致列向量生成器性能下降,在使用列向量表示模型计算列 向量表示过程中,可以使用随机抽样的方式(如随机抽取单列1000个数据,抽取100次),使 用列向量表示模型计算对列顶点
Figure 266918DEST_PATH_IMAGE010
进行第s次抽样的列向量表示
Figure 740625DEST_PATH_IMAGE096
。对预测的共
Figure 444138DEST_PATH_IMAGE097
次 抽样的列向量表示结果求平均值,作为
Figure 395914DEST_PATH_IMAGE010
最终的列向量表示
Figure 134063DEST_PATH_IMAGE098
, 存储
Figure 778671DEST_PATH_IMAGE099
在医疗数据元图数据模型列顶点
Figure 235060DEST_PATH_IMAGE010
的vector_embeddings属性内。
(3)图数据关联映射
将计算得到的待筛选医疗数据元集合中各列的列向量表示,以及元数据采集结果,分别关联映射为医疗数据元图数据模型中顶点和边对应的对象,入库到以医疗数据元图数据模型为数据标准的待筛选医疗数据元图数据中,对应的映射关系如下表所示。
表3图数据关联映射表
Figure 990526DEST_PATH_IMAGE100
二、快速、自动化筛选有效医疗数据元
医疗机构内数据湖存储的信息类型繁多,相比于标准数据模型的数据覆盖范围,通常存在大量信息冗余,为了快速、自动化筛选有效医疗数据元,在进行医疗数据元自动化分类任务之前,可以对待筛选医疗数据元集合中的数据元进行筛选,降低数据元分类任务的复杂度。本发明提出如下快速、自动化筛选有效医疗数据元的方法,包括以下两个步骤:(1)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度。(2)构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出其中的有效医疗数据元,组成待分类医疗数据元集合。
2.1基于列顶点向量表示计算列顶点在医疗数据元图数据模型中的重要度
待筛选医疗数据元图数据中存储的列顶点与待筛选医疗数据元集合中的列存在 一一对应关系。对于待筛选医疗数据元图数据中存储的列顶点
Figure 317602DEST_PATH_IMAGE010
,在除去
Figure 867532DEST_PATH_IMAGE014
的列顶点集合 中随机抽取
Figure 76797DEST_PATH_IMAGE020
个列顶点
Figure 370375DEST_PATH_IMAGE101
,通过计算列顶点
Figure 83116DEST_PATH_IMAGE010
与抽取的列顶点的相关性,计算
Figure 538368DEST_PATH_IMAGE014
在医疗数据元图数据模型中的重要度分数
Figure 969349DEST_PATH_IMAGE022
Figure 66618DEST_PATH_IMAGE022
定义为:
Figure 633866DEST_PATH_IMAGE102
其中
Figure 260019DEST_PATH_IMAGE024
为重要度函数。
2.2医疗数据元筛选模型的训练与预测
将根据标准数据元分类体系,人工分类和关联映射构建的标准分类医疗数据元集 合转换为标准分类医疗数据元图数据,设标准分类医疗数据元图数据中存储的列顶点集合 为
Figure 190016DEST_PATH_IMAGE025
,设构建标准分类医疗数据元集合过程中被人工筛选排除的列对应的列顶点 集合为
Figure 825396DEST_PATH_IMAGE103
训练时从集合
Figure 247150DEST_PATH_IMAGE027
中随机抽取
Figure 309784DEST_PATH_IMAGE028
个列顶点作为正样本集合
Figure 184199DEST_PATH_IMAGE029
,从集合
Figure 888850DEST_PATH_IMAGE030
中随机抽取
Figure 165111DEST_PATH_IMAGE028
个列顶点作为负样本集合
Figure 664225DEST_PATH_IMAGE031
;设样本
Figure 25936DEST_PATH_IMAGE032
的重要度分数为
Figure 3120DEST_PATH_IMAGE033
Figure 399466DEST_PATH_IMAGE104
表示第
Figure 803903DEST_PATH_IMAGE035
个列顶点,
Figure 918489DEST_PATH_IMAGE036
表示样本真实类别,则基于重要度分数计算医疗数 据元筛选模型的损失函数
Figure 433784DEST_PATH_IMAGE037
Figure 684637DEST_PATH_IMAGE105
通过Adam算法更新重要度函数,更新医疗数据元筛选模型。
医疗数据元筛选模型在预测时,通过计算阈值
Figure 525554DEST_PATH_IMAGE039
判断列顶点
Figure 861857DEST_PATH_IMAGE040
对应的待筛选医疗 数据元集合中的列是否为有效数据元,阈值
Figure 446422DEST_PATH_IMAGE039
计算公式:
Figure 551782DEST_PATH_IMAGE106
Figure 298021DEST_PATH_IMAGE042
,则说明列顶点
Figure 121620DEST_PATH_IMAGE040
为有效列顶点,对应的列为有效数据元。
最终由筛选后的有效列顶点集合关联组成待分类医疗数据元图数据,对应的筛选后的列集合组成待分类医疗数据元集合。
三、基于深度图匹配模型确定医疗数据元的类别
3.1从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合
待分类医疗数据元图数据中存储的列顶点与待分类医疗数据元集合中的列存在 一一对应关系。设由标准数据模型定义的标准数据元分类体系中所有标准分类集合为
Figure 244297DEST_PATH_IMAGE043
, 标准分类医疗数据元图数据中的列顶点集合为
Figure 204163DEST_PATH_IMAGE044
Figure 386882DEST_PATH_IMAGE045
在标准数据元分类体系中的分 类为
Figure 963357DEST_PATH_IMAGE046
;设待分类医疗数据元图数据中存储的列顶点集合为
Figure 889725DEST_PATH_IMAGE047
。则医疗数据元分类过 程可以抽象为在
Figure 704097DEST_PATH_IMAGE107
中找到与列顶点
Figure 57718DEST_PATH_IMAGE053
匹配度最高的列顶点
Figure 855910DEST_PATH_IMAGE049
,从而确定列顶点
Figure 320389DEST_PATH_IMAGE040
对 应的列的分类为
Figure 254847DEST_PATH_IMAGE108
,而医疗大数据中心开发过程中的数据分类与关联映射过程,可以抽象 为为标准数据元分类体系的所有分类
Figure 779369DEST_PATH_IMAGE108
找到匹配度最高的
Figure 64857DEST_PATH_IMAGE040
以标准数据模型为数据标准的标准数据库中有些列的数据的格式或内容会比较 统一,与之存在关联映射关系的标准分类医疗数据元集合的列的格式或内容也会比较统 一。如果首先为这些列对应的顶点定位到在待分类医疗数据元图数据中对应的顶点(称为 种子顶点),可以缩小深度图匹配模型的搜索空间,从而提高其效率。对于列顶点
Figure 67448DEST_PATH_IMAGE109
, 从
Figure 121992DEST_PATH_IMAGE049
对应的列中随机抽取
Figure 817416DEST_PATH_IMAGE051
个数据
Figure 59041DEST_PATH_IMAGE052
,对于待分类医疗数据元图数据中的列 顶点
Figure 865323DEST_PATH_IMAGE053
,同样从
Figure 39952DEST_PATH_IMAGE054
对应的列中随机抽取
Figure 640698DEST_PATH_IMAGE051
个数据
Figure 635199DEST_PATH_IMAGE055
,则
Figure 245172DEST_PATH_IMAGE049
Figure 8728DEST_PATH_IMAGE040
的匹配度
Figure 780375DEST_PATH_IMAGE056
为:
Figure 527752DEST_PATH_IMAGE110
其中
Figure 675836DEST_PATH_IMAGE058
代表数据
Figure 559478DEST_PATH_IMAGE059
的向量表示,则
Figure 767606DEST_PATH_IMAGE049
对应的种子顶点为与其匹配度最高的列顶 点
Figure 471120DEST_PATH_IMAGE060
,即:
Figure 422895DEST_PATH_IMAGE061
3.2基于种子顶点集合进行待分类医疗数据元图数据的子图切割
Figure 161044DEST_PATH_IMAGE062
表示待分类医疗数据元图数据中与
Figure 274494DEST_PATH_IMAGE060
存在父子关系的列顶点集合,以
Figure 465303DEST_PATH_IMAGE063
表示待分类医疗数据元图数据中与
Figure 220770DEST_PATH_IMAGE060
存在外键关系的列顶点集合,则基于种子顶 点
Figure 813425DEST_PATH_IMAGE060
切割得到的子图
Figure 628935DEST_PATH_IMAGE064
为:
Figure 307041DEST_PATH_IMAGE065
Figure 600619DEST_PATH_IMAGE066
表示标准分类医疗数据元图数据中与
Figure 47780DEST_PATH_IMAGE049
关联同一父顶点的列顶点集合, 则深度图匹配模型的目标是从子图
Figure 768612DEST_PATH_IMAGE111
中搜索合适的子图,使得搜索到的子图中的 列顶点与
Figure 934014DEST_PATH_IMAGE066
中的列顶点一一匹配,从而实现
Figure 31283DEST_PATH_IMAGE112
中列顶点对应的医疗数据元的 分类。
3.3利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类
医疗数据元分类过程包括以下步骤:
(1)结合图注意力机制,分别计算标准分类医疗数据元图数据中列顶点
Figure 332951DEST_PATH_IMAGE049
的向量 表示
Figure 224684DEST_PATH_IMAGE113
和待分类医疗数据元图数据的列顶点
Figure 142961DEST_PATH_IMAGE078
的向量表示
Figure 512763DEST_PATH_IMAGE114
;具体为:
根据图注意力机制,计算
Figure 200096DEST_PATH_IMAGE049
的向量表示
Figure 262730DEST_PATH_IMAGE115
为:
Figure 137145DEST_PATH_IMAGE116
其中
Figure 841796DEST_PATH_IMAGE072
Figure 118056DEST_PATH_IMAGE117
为从列顶点
Figure 351592DEST_PATH_IMAGE118
对应的列中随机抽取
Figure 978882DEST_PATH_IMAGE075
个数据;
Figure 690486DEST_PATH_IMAGE076
表示
Figure 86832DEST_PATH_IMAGE077
中的某一列顶点
Figure 491269DEST_PATH_IMAGE118
对于列顶点
Figure 605856DEST_PATH_IMAGE049
的权重函数,具体计算 方式为:
Figure 121150DEST_PATH_IMAGE119
其中
Figure 372003DEST_PATH_IMAGE120
为非线性激活函数,
Figure 212920DEST_PATH_IMAGE121
为训练得到的矩阵参数。
根据图注意力机制,计算
Figure 549224DEST_PATH_IMAGE078
的向量表示
Figure 133789DEST_PATH_IMAGE122
为:
Figure 239148DEST_PATH_IMAGE080
其中
Figure 250966DEST_PATH_IMAGE081
Figure 808987DEST_PATH_IMAGE123
为从列顶点
Figure 931664DEST_PATH_IMAGE124
对应的列中随机抽 取
Figure 157108DEST_PATH_IMAGE075
个数据;
Figure 339828DEST_PATH_IMAGE125
表示
Figure 916303DEST_PATH_IMAGE126
中的某一列顶点
Figure 108250DEST_PATH_IMAGE127
对于列顶点
Figure 922622DEST_PATH_IMAGE078
的权重函数,具 体计算方式为:
Figure 100462DEST_PATH_IMAGE128
其中
Figure 898654DEST_PATH_IMAGE129
为非线性激活函数,
Figure 97554DEST_PATH_IMAGE130
为训练得到的矩阵参数。
(2)计算所有
Figure 297591DEST_PATH_IMAGE086
Figure 822113DEST_PATH_IMAGE087
的匹配度,基于匹配度计算得到列 顶点
Figure 842022DEST_PATH_IMAGE083
的分类,对应得到待分类医疗数据元集合中
Figure 110192DEST_PATH_IMAGE083
对应列的分类结果。
标准分类医疗数据元图数据的列顶点
Figure 899157DEST_PATH_IMAGE074
和待分类医疗数据元图数据的列顶点
Figure 594580DEST_PATH_IMAGE083
的匹配度
Figure 101785DEST_PATH_IMAGE131
为:
Figure 908067DEST_PATH_IMAGE089
取与
Figure 817117DEST_PATH_IMAGE083
匹配度最高的列顶点
Figure 683442DEST_PATH_IMAGE090
,即:
Figure 677943DEST_PATH_IMAGE091
则说明待分类医疗数据元图数据中的列顶点
Figure 287915DEST_PATH_IMAGE083
对应的列的分类为
Figure 317051DEST_PATH_IMAGE090
对应的标准 数据元分类体系中的类别。
本发明实施例还提供一种基于深度图匹配的医疗数据元自动化分类系统,该系统包括:
多源异构数据元的规范化采集与映射模块:定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;该模块的实现可以参考上述步骤一。
有效医疗数据元筛选模块:计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,对应的列为有效医疗数据元,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;该模块的实现可以参考上述步骤二。
基于深度图匹配模型的医疗数据元分类模块:从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类;该模块的实现可以参考上述步骤三。
本发明提出的基于深度图匹配的医疗数据元自动化分类方法及系统的关键点如下:
1)基于医疗机构内数据湖的最小元数据信息,定义了一种基于最小元数据信息的医疗数据元图数据模型,使得深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况,达到使用最少的元数据信息完成数据元自动化分类的目的,同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练。
2)基于表示学习方法计算医疗数据元的向量表示,通过向量表示的分类,快速、自动化筛选有可能映射到标准数据模型的有效数据元。
3)基于图注意力机制计算列顶点的向量表示,构建深度图匹配模型完成医疗数据元的自动化分类。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种基于深度图匹配的医疗数据元自动化分类方法,其特征在于,包括:
(1)定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;
(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;
(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
2.根据权利要求1所述的方法,其特征在于,所述医疗数据元图数据模型采用有向属性图建模,图由顶点和边两种图元素构成;
所述顶点是由标签和对应标签的属性组构成的,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性;所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息,所述顶点类型包括数据库顶点、表顶点和列顶点,所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息,所述表顶点对应的属性信息包括表顶点索引,所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示;
所述边是由边类型和边属性构成的,每一条边均为有向边;所述边的本体信息包含边类型及每类边对应的属性信息,所述边类型包括起点为数据库顶点、终点为表顶点的父子关联,起点为表顶点、终点为列顶点的父子关联,以及起点和终点均为列顶点的外键,三种边类型对应的属性信息均为边索引。
3.根据权利要求1或2所述的方法,其特征在于,所述多源异构的数据元向医疗数据元图数据模型的映射,包括:
将来自多源异构的医疗数据从数据湖中采集,组成待筛选医疗数据元集合;
使用元数据采集工具对数据湖中存储的元数据进行抓取;
使用列向量生成器,对待筛选医疗数据元集合中各表各列中存储的数据进行遍历,利用列向量表示模型预测得到各表各列的列向量表示;
通过图数据关联映射,将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射,得到待筛选医疗数据元图数据。
4.根据权利要求3所述的方法,其特征在于,所述列向量生成器以数据表中的单列作为一个数据元单位,使用列向量表示模型转化各列存储的数据,计算各列的向量表示;
所述列向量表示模型的训练包括:列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据,记为标准分类列;标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系;
设标准分类医疗数据元图数据中列顶点集合为
Figure 57507DEST_PATH_IMAGE001
,其中
Figure 177909DEST_PATH_IMAGE002
表示列顶点集合 对应的标准分类列中第
Figure 160909DEST_PATH_IMAGE003
列,第
Figure 759381DEST_PATH_IMAGE004
行的数据,
Figure 42594DEST_PATH_IMAGE005
Figure 68319DEST_PATH_IMAGE006
为第
Figure 273036DEST_PATH_IMAGE004
行字符总 数,
Figure 675198DEST_PATH_IMAGE007
为构成数据
Figure 812918DEST_PATH_IMAGE002
的字符;通过文本表示模型
Figure 9544DEST_PATH_IMAGE008
计算得到字符
Figure 967136DEST_PATH_IMAGE009
的初始向量表示
Figure 172990DEST_PATH_IMAGE010
;在标准分类医疗数据元图数据的列顶点
Figure 899637DEST_PATH_IMAGE011
下随机抽取
Figure 544463DEST_PATH_IMAGE012
行数据
Figure 254930DEST_PATH_IMAGE013
, 第
Figure 733315DEST_PATH_IMAGE004
行数据的向量表示为
Figure 845628DEST_PATH_IMAGE014
,根据自注意力机制计算得到标准分类医 疗数据元图数据中列顶点
Figure 384057DEST_PATH_IMAGE015
下各行数据的相关性,得到列顶点
Figure 316241DEST_PATH_IMAGE011
的列向量表示
Figure 67159DEST_PATH_IMAGE016
,计 算公式为:
Figure 768399DEST_PATH_IMAGE017
其中
Figure 743308DEST_PATH_IMAGE018
为列顶点
Figure 162788DEST_PATH_IMAGE019
的向量表示,
Figure 248556DEST_PATH_IMAGE020
Figure 804302DEST_PATH_IMAGE021
的维度,softmax为softmax函数;
所述列向量表示模型的预测包括:列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合,以列为遍历单元对待筛选医疗数据元集合进行遍历;使用列向量表示模型计算对列顶点每次随机抽样的列向量表示;对预测的多次随机抽样的列向量表示结果求平均值,作为所述列顶点最终的列向量表示。
5.根据权利要求4所述的方法,其特征在于,所述计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度,包括:
对于待筛选医疗数据元图数据中存储的列顶点
Figure 215692DEST_PATH_IMAGE022
,在除去
Figure 856889DEST_PATH_IMAGE022
的列顶点集合中随机抽 取
Figure 215189DEST_PATH_IMAGE023
个列顶点
Figure 891021DEST_PATH_IMAGE024
,通过计算列顶点
Figure 473312DEST_PATH_IMAGE019
与抽取的列顶点的相关性,计算
Figure 601805DEST_PATH_IMAGE022
在医疗 数据元图数据模型中的重要度分数
Figure 29375DEST_PATH_IMAGE025
Figure 559714DEST_PATH_IMAGE025
定义为:
Figure 47327DEST_PATH_IMAGE026
其中
Figure 663116DEST_PATH_IMAGE027
为重要度函数。
6.根据权利要求1或2所述的方法,其特征在于,所述医疗数据元筛选模型的训练与预测具体为:
将根据标准数据元分类体系,人工分类和关联映射构建的标准分类医疗数据元集合转 换为标准分类医疗数据元图数据,设标准分类医疗数据元图数据中存储的列顶点集合为
Figure 894377DEST_PATH_IMAGE028
,设构建标准分类医疗数据元集合过程中被人工筛选排除的列对应的列顶点集 合为
Figure 544801DEST_PATH_IMAGE029
训练时从集合
Figure 937736DEST_PATH_IMAGE030
中随机抽取
Figure 306401DEST_PATH_IMAGE031
个列顶点作为正样本集合
Figure 810194DEST_PATH_IMAGE032
,从集合
Figure 315125DEST_PATH_IMAGE033
中随机 抽取
Figure 878962DEST_PATH_IMAGE031
个列顶点作为负样本集合
Figure 734922DEST_PATH_IMAGE034
;设样本
Figure 307986DEST_PATH_IMAGE035
的重要度分数为
Figure 401844DEST_PATH_IMAGE036
Figure 667740DEST_PATH_IMAGE037
表示第
Figure 479838DEST_PATH_IMAGE038
个列顶点,
Figure 856593DEST_PATH_IMAGE039
表示样本真实类别,则基于重要度分数计算医疗数据元筛选模 型的损失函数
Figure 336116DEST_PATH_IMAGE040
Figure 507334DEST_PATH_IMAGE041
所述医疗数据元筛选模型在预测时,通过计算阈值
Figure 72308DEST_PATH_IMAGE042
判断列顶点
Figure 721595DEST_PATH_IMAGE043
对应的待筛选医疗 数据元集合中的列是否为有效数据元,阈值
Figure 55624DEST_PATH_IMAGE042
计算公式:
Figure 397744DEST_PATH_IMAGE044
Figure 450014DEST_PATH_IMAGE045
,则说明列顶点
Figure 902992DEST_PATH_IMAGE043
为有效列顶点,对应的列为有效数据元;
由筛选后的有效列顶点集合关联组成待分类医疗数据元图数据,对应的筛选后的列集合组成待分类医疗数据元集合。
7.根据权利要求1或2所述的方法,其特征在于,所述从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合,包括:
设由标准数据模型定义的标准数据元分类体系中所有标准分类集合为
Figure 91528DEST_PATH_IMAGE046
,标准分类医 疗数据元图数据中的列顶点集合为
Figure 870128DEST_PATH_IMAGE047
Figure 144114DEST_PATH_IMAGE048
在标准数据元分类体系中的分类为
Figure 389065DEST_PATH_IMAGE049
; 设待分类医疗数据元图数据中存储的列顶点集合为
Figure 697686DEST_PATH_IMAGE050
;医疗数据元分类过程抽象为在
Figure 584871DEST_PATH_IMAGE047
中 找到与列顶点
Figure 814995DEST_PATH_IMAGE051
匹配度最高的列顶点
Figure 140934DEST_PATH_IMAGE052
,从而确定列顶点
Figure 772904DEST_PATH_IMAGE053
对应的列的分类为
Figure 362148DEST_PATH_IMAGE054
对于列顶点
Figure 610727DEST_PATH_IMAGE048
,从
Figure 209198DEST_PATH_IMAGE052
对应的列中随机抽取
Figure 961254DEST_PATH_IMAGE055
个数据
Figure 986978DEST_PATH_IMAGE056
,对于列顶点
Figure 926116DEST_PATH_IMAGE051
,从
Figure 593857DEST_PATH_IMAGE043
对应的列中随机抽取
Figure 200419DEST_PATH_IMAGE055
个数据
Figure 131466DEST_PATH_IMAGE057
,则
Figure 354637DEST_PATH_IMAGE052
Figure 294911DEST_PATH_IMAGE043
的匹配度
Figure 755979DEST_PATH_IMAGE058
为:
Figure 389086DEST_PATH_IMAGE059
其中
Figure 568395DEST_PATH_IMAGE060
代表数据
Figure 577939DEST_PATH_IMAGE061
的向量表示,则
Figure 159093DEST_PATH_IMAGE052
对应的种子顶点为与其匹配度最高的列顶点
Figure 963101DEST_PATH_IMAGE062
,即:
Figure 895285DEST_PATH_IMAGE063
8.根据权利要求7所述的方法,其特征在于,所述基于种子顶点集合进行待分类医疗数据元图数据的子图切割,包括:
Figure 177362DEST_PATH_IMAGE064
表示待分类医疗数据元图数据中与
Figure 878601DEST_PATH_IMAGE062
存在父子关系的列顶点集合,以
Figure 853511DEST_PATH_IMAGE065
表示待分类医疗数据元图数据中与
Figure 272991DEST_PATH_IMAGE062
存在外键关系的列顶点集合,则基于种子顶 点
Figure 358758DEST_PATH_IMAGE062
切割得到的子图
Figure 914505DEST_PATH_IMAGE066
为:
Figure 325894DEST_PATH_IMAGE067
Figure 967091DEST_PATH_IMAGE068
表示标准分类医疗数据元图数据中与
Figure 325392DEST_PATH_IMAGE052
关联同一父顶点的列顶点集合,则深 度图匹配模型的目标是从子图
Figure 266803DEST_PATH_IMAGE066
中搜索子图,使得搜索到的子图中的列顶点与
Figure 317935DEST_PATH_IMAGE069
中的列顶点一一匹配,实现
Figure 446428DEST_PATH_IMAGE066
中列顶点对应的医疗数据元的分类。
9.根据权利要求8所述的方法,其特征在于,所述利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,包括:
根据图注意力机制,计算标准分类医疗数据元图数据中列顶点
Figure 873999DEST_PATH_IMAGE052
的向量表示
Figure 669916DEST_PATH_IMAGE070
为:
Figure 157529DEST_PATH_IMAGE071
其中
Figure 38898DEST_PATH_IMAGE072
Figure 4580DEST_PATH_IMAGE073
为从列顶点
Figure 655004DEST_PATH_IMAGE074
对应的列中随机抽取
Figure 137737DEST_PATH_IMAGE075
个数 据;
Figure 240822DEST_PATH_IMAGE076
表示
Figure 10195DEST_PATH_IMAGE077
中的某一列顶点
Figure 515126DEST_PATH_IMAGE074
对于列顶点
Figure 344542DEST_PATH_IMAGE052
的权重函数;
根据图注意力机制,计算待分类医疗数据元图数据的列顶点
Figure 934923DEST_PATH_IMAGE078
的向量表示
Figure 507987DEST_PATH_IMAGE079
为:
Figure 133003DEST_PATH_IMAGE080
其中
Figure 133320DEST_PATH_IMAGE081
Figure 679839DEST_PATH_IMAGE082
为从列顶点
Figure 322173DEST_PATH_IMAGE083
对应的列中随机抽取
Figure 536117DEST_PATH_IMAGE075
个 数据;
Figure 707335DEST_PATH_IMAGE084
表示
Figure 272309DEST_PATH_IMAGE085
中的某一列顶点
Figure 921596DEST_PATH_IMAGE083
对于列顶点
Figure 521204DEST_PATH_IMAGE078
的权重函数;
列顶点
Figure 597745DEST_PATH_IMAGE086
和列顶点
Figure 650014DEST_PATH_IMAGE087
的匹配度
Figure 102993DEST_PATH_IMAGE088
为:
Figure 291528DEST_PATH_IMAGE089
取与
Figure 804549DEST_PATH_IMAGE083
匹配度最高的列顶点
Figure 344115DEST_PATH_IMAGE090
,即:
Figure 866363DEST_PATH_IMAGE091
待分类医疗数据元图数据中的列顶点
Figure 909406DEST_PATH_IMAGE083
对应的列的分类为
Figure 593328DEST_PATH_IMAGE090
对应的标准数据元分类 体系中的类别。
10.一种基于深度图匹配的医疗数据元自动化分类系统,其特征在于,包括:
多源异构数据元的规范化采集与映射模块:定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;
有效医疗数据元筛选模块:计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,对应的列为有效医疗数据元,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;
基于深度图匹配模型的医疗数据元分类模块:从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
CN202111649231.1A 2021-12-30 2021-12-30 基于深度图匹配的医疗数据元自动化分类方法及系统 Active CN114003791B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111649231.1A CN114003791B (zh) 2021-12-30 2021-12-30 基于深度图匹配的医疗数据元自动化分类方法及系统
PCT/CN2022/116971 WO2023124191A1 (zh) 2021-12-30 2022-09-05 基于深度图匹配的医疗数据元自动化分类方法及系统
JP2023536557A JP7432801B2 (ja) 2021-12-30 2022-09-05 デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111649231.1A CN114003791B (zh) 2021-12-30 2021-12-30 基于深度图匹配的医疗数据元自动化分类方法及系统

Publications (2)

Publication Number Publication Date
CN114003791A true CN114003791A (zh) 2022-02-01
CN114003791B CN114003791B (zh) 2022-04-08

Family

ID=79932292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111649231.1A Active CN114003791B (zh) 2021-12-30 2021-12-30 基于深度图匹配的医疗数据元自动化分类方法及系统

Country Status (3)

Country Link
JP (1) JP7432801B2 (zh)
CN (1) CN114003791B (zh)
WO (1) WO2023124191A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166698A (zh) * 2023-01-12 2023-05-26 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
WO2023124191A1 (zh) * 2021-12-30 2023-07-06 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统
CN117349401A (zh) * 2023-12-06 2024-01-05 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312435A (zh) * 2023-11-23 2023-12-29 首都信息发展股份有限公司 数据采集方法、装置及电子设备
CN117763129B (zh) * 2024-02-22 2024-05-28 神州医疗科技股份有限公司 基于生成式预训练模型的病历检索方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354266A (zh) * 2015-10-23 2016-02-24 北京航空航天大学 一种基于富图模型RichGraph的图数据管理方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎系统及实现方法
CN109471945A (zh) * 2018-11-12 2019-03-15 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110349639A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN111523003A (zh) * 2020-04-27 2020-08-11 北京图特摩斯科技有限公司 一种以时序动态图谱为核心的数据应用方法及平台
CN112185515A (zh) * 2020-10-12 2021-01-05 安徽动感智能科技有限公司 一种基于动作识别的病患辅助系统
US20210089880A1 (en) * 2019-09-25 2021-03-25 International Business Machines Corporation Systems and methods for training a model using a few-shot classification process
US20210158161A1 (en) * 2019-11-22 2021-05-27 Fraud.net, Inc. Methods and Systems for Detecting Spurious Data Patterns
CN113656604A (zh) * 2021-10-19 2021-11-16 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280886B2 (en) 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
US11625620B2 (en) 2018-08-16 2023-04-11 Oracle International Corporation Techniques for building a knowledge graph in limited knowledge domains
CN109948680B (zh) * 2019-03-11 2021-06-11 合肥工业大学 病历数据的分类方法及系统
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354266A (zh) * 2015-10-23 2016-02-24 北京航空航天大学 一种基于富图模型RichGraph的图数据管理方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎系统及实现方法
CN109471945A (zh) * 2018-11-12 2019-03-15 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110349639A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
US20210089880A1 (en) * 2019-09-25 2021-03-25 International Business Machines Corporation Systems and methods for training a model using a few-shot classification process
US20210158161A1 (en) * 2019-11-22 2021-05-27 Fraud.net, Inc. Methods and Systems for Detecting Spurious Data Patterns
CN111523003A (zh) * 2020-04-27 2020-08-11 北京图特摩斯科技有限公司 一种以时序动态图谱为核心的数据应用方法及平台
CN112185515A (zh) * 2020-10-12 2021-01-05 安徽动感智能科技有限公司 一种基于动作识别的病患辅助系统
CN113656604A (zh) * 2021-10-19 2021-11-16 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄承宁等: "基于图神经网络的医疗物资智能调度研究优化", 《计算机技术与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023124191A1 (zh) * 2021-12-30 2023-07-06 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统
CN116166698A (zh) * 2023-01-12 2023-05-26 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN116166698B (zh) * 2023-01-12 2023-09-01 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN117349401A (zh) * 2023-12-06 2024-01-05 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备
CN117349401B (zh) * 2023-12-06 2024-03-15 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备

Also Published As

Publication number Publication date
JP7432801B2 (ja) 2024-02-16
CN114003791B (zh) 2022-04-08
WO2023124191A1 (zh) 2023-07-06
JP2024502730A (ja) 2024-01-23

Similar Documents

Publication Publication Date Title
CN114003791B (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN111428053A (zh) 一种面向税务领域知识图谱的构建方法
Li et al. Database integration using neural networks: implementation and experiences
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN111488465A (zh) 一种知识图谱构建方法及相关装置
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN109657947A (zh) 一种面向企业行业分类的异常检测方法
CN110600121B (zh) 一种基于知识图谱病因初步诊断方法
CN113779272B (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
Jain et al. Query2vec: An evaluation of NLP techniques for generalized workload analytics
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN112463981A (zh) 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN113742396B (zh) 一种对象学习行为模式的挖掘方法及装置
CN116821376B (zh) 煤矿安全生产领域的知识图谱构建方法及系统
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN114064904A (zh) 一种用于医疗文本的聚类方法、系统及装置
Shao et al. An improved approach to the recovery of traceability links between requirement documents and source codes based on latent semantic indexing
JP6081609B2 (ja) データ分析システム及びその方法
CN117251605B (zh) 基于深度学习的多源数据查询方法及系统
Dahlke et al. Streamlining the identification of emerging tasks in the O* NET system using natural language processing (NLP): Technical summary
CN117668229A (zh) 一种元模型自动采集分类管理的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant