CN116469571A - 一种真实世界数据的专病图谱的构建方法及系统 - Google Patents
一种真实世界数据的专病图谱的构建方法及系统 Download PDFInfo
- Publication number
- CN116469571A CN116469571A CN202310410115.7A CN202310410115A CN116469571A CN 116469571 A CN116469571 A CN 116469571A CN 202310410115 A CN202310410115 A CN 202310410115A CN 116469571 A CN116469571 A CN 116469571A
- Authority
- CN
- China
- Prior art keywords
- data
- map
- patient
- disease
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 118
- 201000010099 disease Diseases 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010606 normalization Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 16
- 238000003908 quality control method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000005855 radiation Effects 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims abstract description 6
- 238000007418 data mining Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000003745 diagnosis Methods 0.000 claims description 48
- 239000003814 drug Substances 0.000 claims description 47
- 229940079593 drug Drugs 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 208000028659 discharge Diseases 0.000 claims description 17
- 238000009533 lab test Methods 0.000 claims description 15
- 238000007726 management method Methods 0.000 claims description 15
- 238000011160 research Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000003384 imaging method Methods 0.000 claims description 12
- 238000007689 inspection Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000005180 public health Effects 0.000 claims description 5
- 230000036541 health Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000036772 blood pressure Effects 0.000 claims description 3
- 230000036760 body temperature Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 230000001575 pathological effect Effects 0.000 claims description 3
- 208000024891 symptom Diseases 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims 7
- 238000001356 surgical procedure Methods 0.000 claims 1
- 201000001441 melanoma Diseases 0.000 description 4
- 230000001225 therapeutic effect Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种真实世界数据的专病图谱的构建方法及系统,属于医学信息采集技术领域,该方法的实现包括:真实世界数据资源构成,数据来源包括电子病历系统、医院信息系统、实验室信息管理系统、医学影像存档与通讯系统、放射信息管理系统;真实世界数据预处理,针对不同医院原始信息系统,预先制定统一的数据库通用模型,先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的处理流程,包括数据质控、结构化归一及数据挖掘;真实世界专病数据内容选取,以及真实世界专病数据图谱构建。本发明能够解决如何快速准确的完成一套以患者为核心的RWD体系全景数据构建的技术问题,形成患者维度、面向专科疾病的事件图谱。
Description
技术领域
本发明涉及医学信息采集技术领域,具体地说是一种真实世界数据的专病图谱的构建方法及系统。
背景技术
在医疗领域中,传统的医疗知识图谱一般是基于医学文献、书籍、临床指南、药品说明书等这类已经经过长时间累积,沉淀好的知识库进行构建。而由于各种因素影响,真实世界状况多样性,人们的身体状态也在不断变化,历史的医疗知识有些已经不能在现阶段的医疗领域中发挥很好的作用。
真实世界研究是起源于实用性的临床试验,特点是在较大的样本量基础上,根据患者的实际病情和意愿选择治疗措施,开展长期评价,并注重有意义的结局治疗。因此真实世界数据成为挖掘新医疗知识、最具价值、最大潜能的研究证据,不仅可以减少传统研究的限制,而且可以反映真实世界中治疗药物的临床疗效,为临床选择使用新治疗方案及新型设备提供客观的对比依据,是作为评价药物和医疗器械(药械)安全性和有效性以及更精准有效的治疗方案研究的重要组成部分,也是循证医学的重要组成部分。通过真实世界数据,可充分了解指南与实践的差距,为指南的制定与规范提供参考,还可平衡临床疗效和成本效益,为更多的临床问题提供答案及证据。
完整、准确、可利用、适用性的真实世界数据RWD,是获得高质量真实世界证据RWE的必要前提。目前,在各类医疗政策的支持下,RWD已成为我国开展临床研究的沃土。截至目前,国内大多医院的信息系统是由不同厂家的多个系统共同建设的,而由于历史原因,医疗信息化各个厂家的特点不同,患者信息存储在不同院内系统。
如何探索RWD体系可能存在的模式,并为开展高质量的RWD研究奠定基础,快速构建一套以患者为核心的RWD体系全景数据,是目前亟待解决的技术问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种真实世界数据的专病图谱的构建方法及系统,解决如何快速准确的完成一套以患者为核心的RWD体系全景数据构建的技术问题。
本发明解决其技术问题所采用的技术方案是:
一种真实世界数据的专病图谱的构建方法,该方法的实现包括:
真实世界数据资源构成,数据来源包括电子病历系统(EMR)、医院信息系统(HIS)、实验室信息管理系统(LIS)、医学影像存档与通讯系统(PACS)、放射信息管理系统(RIS);将不同来源的数据根据制定好数据库模型,进行统一的数据结构整合,构成以患者为中心包含全诊疗过程中所有信息的医疗全景数据;
真实世界数据预处理,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的处理流程,包括数据质控、结构化归一及数据挖掘;
真实世界专病数据内容选取,基于各指标对不同疾病影响的重要性不同,为使RWD体系更具权威更科学,根据不同的专科疾病,选取权重大的关系指标,构建相应的专科图谱;使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高;
真实世界专病数据图谱构建,采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型;以单个患者为中心节点,各个指标逐级索引,构建患者RWD全景数据图谱。
优选的,所述真实世界数据资源构成,数据包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据。
优选的,数据采集包含患者既往病史数据、当前诊疗数据、随访数据,包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据;
将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。
根据我国地域及人群就医特点分析,诸如大病重病多数人群选择辗转求医的特殊性,全国各地患者通过当地医生推荐或自己询问申请,多前往中心城市(上级医疗单位或者知名医院)接受诊疗,出院后或带药返回居住地,且在当地医疗机构完成后期随访。RWD不仅指患者一次就诊的院内医疗数据,而且包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据。
数据采集方式多为常规收集,数据来源于医疗机构(如EMR系统、实验室信息系统、影像和放射信息系统内的数据),这些平台基于管理或日常监测目的收集初始数据,在构建数据体系过程中,不需要额外再收集。但由于历史原因,各个厂家打造的医疗信息化特点各不相同,一个患者的信息可能会存储在不同的院内系统中,现如今,国内大多医院的信息系统是由不同厂家的多个系统共同建设的。要想使用分散在各处系统中的全部数据时,需要先经过严密的顶层设计建设一套统一的数据存储结构,对各个来源的数据进行聚合归一。将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。
优选的,所述真实世界数据预处理包括:
在患者信息维度,对数据进行脱敏处理,利用安全隐私加密类模型,对患者身份证号码、姓名进行加密处理,并标记一条人员唯一标识,便于在数据图谱中确定人员唯一性;
在数据内容上,对实体包括疾病、药物、手术、检验、检查进行统一归一化处理;
针对电子病历大段文本类数据,首先利用医疗文本解析类模型,针对电子病历中治疗方案、家族史、现病史、主诉细项解析场景,设计电子病历解析模型,该模型集成Bert+LSTM+CRF算法和分段卷积神经网络算法,识别电子病历中的实体,包括时间、数值、药品名称、临床所见、用药频次、亲属、健康状态、疾病名称、症状,并返回实体名称、实体位置及各实体之间存在的关系,完成电子病历解析任务;其次利用电子病历质控类模型,针对入院记录大段解析内容质量控制问题,研发主诉、现病史、既往史、个人史、婚育史、体格检查、初步诊断分类模型,该模型使用fasttext算法,实现基于语义的7类文本分类;将模型分类结果与实际解析结果进行比对,从而判断解析的正确性,完成电子病历解析结果的质控任务。
优选的,所述对患者身份证号码、姓名进行加密处理,并标记一条人员唯一标识,具体方法为:身份证号加特定字符串,利用MD5函数进行加密,返回加密字符串,使其达到可逆性。
优选的,所述对实体包括疾病、药物、手术、检验、检查进行统一归一化处理;
利用医学术语归一化模型,针对医院诊疗数据中的医学实体名称归一化问题,以医疗术语管理后的医疗术语库为基础,利用短文本相似度计算算法、知识推理算法或节点相似度算法研发医学实体归一化模型;该模型将原始数据中的医学实体名称映射为相应的标准名称,进而实现不同地域、不同厂商、不同医院之间医学术语的标准化。
优选的,基于真实世界专病数据内容选取,构建专病RWD图谱,针对专项疾病特征,从不同维度选取相应指标数据构建以单个患者为中心的专病RWD图谱本体模型,即图谱schema;
获取患某疾病的就诊人群,在该疾病患者基本信息维度,指标包括患者的性别、年龄、民族、家庭地址、职业类型、学历、婚姻状态;在就诊信息维度,指标包括诊断类型(门诊或住院)、就诊时间(住院考虑入院时间、出院时间)、就诊科室(住院考虑入院科室、出院科室)、诊断疾病名称;在选择用药信息维度,指标包括用药名称、用药方式、用药时间;在手术信息维度,指标包括手术名称、手术时间;在影像学检查信息维度,指标包括影像学检查类别、检查项目名称、检查时间、检查部位、检查结论、检查所见、检查结果是否异常;在实验室检验信息维度,指标包括实验室检验样本、检验类别名称、检验项目名称、检验时间、检验结果、检验结果是否异常;
除以上常规结构化数据类之外,在电子病历大段文本中,还包括完善相关检验检查项、本次就诊全流程治疗方案、出院诊断疾病名称、出院带药名称、病理内容、主诉内容、手术史、体温、血压指标。
优选的,所述真实世界专病数据图谱构建,
构建专病RWD图谱,首先需要构建图谱schema,限定待加入知识图谱数据的格式,相当于某个领域内的数据模型,schema是构建一个完整准确图谱的基础,包含了该领域内有意义的概念类型以及这些类型的属性,规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中;
构建数据图谱,数据图谱采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型,即图谱schema;再根据图谱schema以单个患者为中心节点,将不同系统、不同次就诊的信息,按照同一个患者、同一次就诊、同一次发病的维度进行融合;如一个肿瘤患者患病后会多次去医院就诊,其整体治疗方案需要将患者连续多次就诊的信息融合在一起才能计算出来,称之为一次发病;各个指标逐级索引,构建患者RWD全景数据图谱。
优选的,所述构建数据图谱,患者信息维度包含患者每一次的就诊事件索引,通过该索引关联到该次就诊维度信息、选择用药维度信息、手术维度信息、影像学检查维度信息、实验室检验维度信息、电子病历维度信息;
其中,在就诊事件中,包含每一项用药事件索引,通过该索引可将每一项药物与其用药时间、用药方式关联;包含每一次手术事件索引,通过该索引可将每一项手术名称与手术时间关联;包含每一项影像学检查事件索引,通过该索引可将每一项检查名称与检查类别、检查时间、检查部位、检查结论、检查所见、检查结果是否异常关联;包含每一类实验室检验事件索引,通过该索引可关联到实验室检验样本、检验项目名称、检验时间,在实验室检验事件中又包括检验报告索引,通过该索引可关联到每一项检验项目所对应的检验结果、检验结果是否异常信息。
本发明还要求保护一种真实世界数据的专病图谱的构建系统,包括真实世界数据资源构成模块、真实世界数据预处理模块、真实世界专病数据内容选取模块和真实世界专病数据图谱构建模块,
该系统通过上述的真实世界数据的专病图谱的构建方法实现真实世界数据的专病图谱构建。
本发明的一种真实世界数据的专病图谱的构建方法及系统与现有技术相比,具有以下有益效果:
提高医疗水平,促进医疗发展。基于患者为中心的真实世界全景数据和现有的医学知识构建疾病知识图谱后,可以将其应用在CDSS临床决策支持、医院病例搜索排序、智能问诊和深度学习结合的知识融合等场景。结合该图谱,对每个患者的全景数据进行进一步加工,抽取出临床诊疗事件,可形成患者维度、面向专科疾病的事件图谱。事件图谱可以用于专科诊疗视图、自动生成病历、事件搜索以及因果关系分析等。
基于该图谱,可挖掘患者经验和临床观察,将为疾病诊断和数据管理提供有力信息。原始的真实世界数据是无序的,构建该图谱可将真实世界数据转化为有益于医疗保健的深刻见解,将真实世界数据(RWD)进行分析,转化为真实世界证据(RWE)。
附图说明
图1是本发明实施例提供的真实世界数据专病图谱的构建流程示图;
图2是本发明实施例提供的真实世界数据专病图谱的schema图。
具体实施方式
本发明实施例提供一种真实世界数据的专病图谱的构建方法,该方法的实现包括:
真实世界数据资源构成,数据多选取直辖市或省会城市中的医疗数据,包含患者既往病史数据、当前诊疗数据、随访数据,具体数据来源包括电子病历系统(EMR)、医院信息系统(HIS)、实验室信息管理系统(LIS)、医学影像存档与通讯系统(PACS)、放射信息管理系统(RIS),包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据等;基于以上这些平台系统收集初始数据,是形成一套以专病患者为中心的多维度全疾病诊疗周期的RWD体系全景数据的基础;
真实世界数据预处理,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的数据质控、结构化归一及数据挖掘等处理流程;
真实世界专病数据内容选取,基于各指标对不同疾病影响的重要性不同,为使RWD体系更具权威更科学,根据不同的专科疾病,选取权重更大的关系指标,构建相应的专科图谱;使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高;
真实世界专病数据图谱构建,采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型,即图谱schema;以单个患者为中心节点,各个指标逐级索引,构建患者RWD全景数据图谱。
具体的RWD构建流程包括:
1、真实世界数据资源构成:
根据我国地域及人群就医特点分析,诸如大病重病多数人群选择辗转求医的特殊性,全国各地患者通过当地医生推荐或自己询问申请,多前往中心城市(上级医疗单位或者知名医院)接受诊疗,出院后或带药返回居住地,且在当地医疗机构完成后期随访。RWD不仅指患者一次就诊的院内医疗数据,而且包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据。
因此,采集的数据在地点分布上,从全国各地多汇集于直辖市或省会城市,呈现“放射状分布”,故选取直辖市或省会中心城市中的医疗数据;在时间分布上,选取一个患者从既往病史数据到当前就诊数据以及随访中的全景诊疗数据;在数据资源载体上,选取电子病历系统(EMR)、医院信息系统(HIS)、实验室信息管理系统(LIS)、医学影像存档与通讯系统(PACS)、放射信息管理系统(RIS)五大体系数据,包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据等。
数据采集方式多为常规收集,数据来源于医疗机构(如EMR系统、实验室信息系统、影像和放射信息系统内的数据),这些平台基于管理或日常监测目的收集初始数据,在构建数据体系过程中,不需要额外再收集。但由于历史原因,各个厂家打造的医疗信息化特点各不相同,一个患者的信息可能会存储在不同的院内系统中,现如今,国内大多医院的信息系统是由不同厂家的多个系统共同建设的。要想使用分散在各处系统中的全部数据时,需要先经过严密的顶层设计建设一套统一的数据存储结构,对各个来源的数据进行聚合归一。将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。
2、真实世界数据预处理:
由于RWD来源不同,产生环境复杂多样,数据结构及字段标准各不相同,将数据经过结构统一化集成后,形成数据库模型,该数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录。此外,还需对数据内容进行预处理,在将临床数据用于数据挖掘、管理等场景时,需要对数据进行脱敏和标准化。医院数据由于出自不同厂家的不同系统,存在数据质量差、表之间的关联不合理等问题,因此需要对数据质量进行控制,如疾病、药物、手术等实体归一化。此外,之前提到会有大量非结构化的文本描述,例如电子病历,多为大篇章的文本,其中包含现病史、家族史、入院记录、出院小结等,每家医院的电子病历内容还存在大同小异,因此需要根据不同医院的不同特点对文本类数据进行结构化和标准化(归一),并抽取出其中有价值的数据信息。以上这些处理都属于数据治理的范畴。
因此,对数据内容进行数据预处理具体包括:
(1)、在患者信息维度,需对数据进行脱敏处理,利用安全隐私加密类模型,对患者身份证号码、姓名进行加密处理,但需标记一条人员唯一标识,可在数据图谱中确定人员唯一性,具体方法可使用,身份证号加特定字符串,利用MD5函数进行加密,返回加密字符串,使其达到可逆性。
(2)、在数据内容上,需对疾病、药物、手术、检验、检查等实体进行统一归一化处理,利用医学术语归一化模型,针对医院诊疗数据中的医学实体名称归一化问题,以医疗术语管理后的医疗术语库为基础,利用短文本相似度计算算法、知识推理算法或节点相似度算法研发的医学实体归一化模型。该模型将原始数据中的医学实体名称映射为相应的标准名称,进而实现不同地域、不同厂商、不同医院之间医学术语的标准化。
(3)、针对电子病历大段文本类数据,首先利用医疗文本解析类模型,针对电子病历中治疗方案、家族史、现病史、主诉细项解析场景,设计电子病历解析模型,该模型集成Bert+LSTM+CRF算法和分段卷积神经网络算法,识别电子病历中的时间、数值、药品名称、临床所见、用药频次、亲属、健康状态、疾病名称、症状等实体,并返回实体名称、实体位置及各实体之间存在的关系,完成电子病历解析任务。其次利用电子病历质控类模型,针对入院记录大段解析内容质量控制问题,研发了主诉、现病史、既往史、个人史、婚育史、体格检查、初步诊断分类模型。该模型使用fasttext算法,实现基于语义的7类文本分类。将模型分类结果与实际解析结果进行比对,从而判断解析的正确性,完成电子病历解析结果的质控任务。
3、真实世界专病数据内容选取:
RWD数据来源广阔,数据内容复杂多样,信息量庞大,但若只针对某单独的一项疾病研究,过多的信息因素反而会造成负面影响,只有经过科学的数据资源评估、多学科交叉的缜密研究,才能构建出更精准的专病RWD体系。因此,基于各指标对不同疾病影响的重要性不同,为使RWD体系更具权威更科学,根据不同的专科疾病,选取权重更大的关系指标,构建相应的专科图谱,使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高。
对于构建专病RWD图谱,需要针对专项疾病特征,从不同维度研究考虑,排除干扰因素,选取重要性权重更高的相应指标数据构建以单个患者为中心的专病RWD图谱本体模型,即图谱schema。
例如,以黑素瘤专病为主,首先获取患有黑素瘤疾病的就诊人群,在黑素瘤患者基本信息维度,考虑患者的性别、年龄、民族、家庭地址、职业类型、学历、婚姻状态等指标;在就诊信息维度,考虑诊断类型(门诊或住院)、就诊时间(住院考虑入院时间、出院时间)、就诊科室(住院考虑入院科室、出院科室)、诊断疾病名称;在选择用药信息维度,考虑用药名称、用药方式、用药时间;在手术信息维度,考虑手术名称、手术时间;在影像学检查信息维度,考虑影像学检查类别、检查项目名称、检查时间、检查部位、检查结论、检查所见、检查结果是否异常;在实验室检验信息维度,考虑实验室检验样本、检验类别名称、检验项目名称、检验时间、检验结果、检验结果是否异常。除以上常规结构化数据类之外,在电子病历大段文本中,还需考虑完善相关检验检查项、本次就诊全流程治疗方案、出院诊断疾病名称、出院带药名称、病理内容、主诉内容、手术史、体温、血压等情况。
4、真实世界专病数据图谱构建:
构建专病RWD图谱,首先需要构建图谱schema,限定待加入知识图谱数据的格式,相当于某个领域内的数据模型,schema是构建一个完整准确图谱的基础,包含了该领域内有意义的概念类型以及这些类型的属性,规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中。
数据图谱采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型,即图谱schema。再根据图谱schema以单个患者为中心节点,将不同系统、不同次就诊的信息,按照同一个患者、同一次就诊、同一次发病等维度进行融合。如一个肿瘤患者患病后会多次去医院就诊,其整体治疗方案需要将患者连续多次就诊的信息融合在一起才能计算出来,称之为一次发病。各个指标逐级索引,构建患者RWD全景数据图谱。
以黑素瘤疾病为例:
第一步,构建RWD图谱schema,黑素瘤专病RWD图谱schema如下表1所示:
第二步,基于上步schema,构建数据图谱。其中,患者信息维度包含患者每一次的就诊事件索引,通过该索引关联到该次就诊维度信息、选择用药维度信息、手术维度信息、影像学检查维度信息、实验室检验维度信息、电子病历维度信息。其中,在就诊事件中,包含每一项用药事件索引,通过该索引可将每一项药物与其用药时间、用药方式关联;包含每一次手术事件索引,通过该索引可将每一项手术名称与手术时间关联;包含每一项影像学检查事件索引,通过该索引可将每一项检查名称与检查类别、检查时间、检查部位、检查结论、检查所见、检查结果是否异常关联;包含每一类实验室检验事件索引,通过该索引可关联到实验室检验样本、检验项目名称、检验时间,在实验室检验事件中又包括检验报告索引,通过该索引可关联到每一项检验项目所对应的检验结果、检验结果是否异常信息。
本发明实施例还提供一种真实世界数据的专病图谱的构建系统,包括真实世界数据资源构成模块、真实世界数据预处理模块、真实世界专病数据内容选取模块和真实世界专病数据图谱构建模块,
真实世界数据资源构成模块,数据多选取直辖市或省会城市中的医疗数据,包含患者既往病史数据、当前诊疗数据、随访数据,具体数据来源包括电子病历系统(EMR)、医院信息系统(HIS)、实验室信息管理系统(LIS)、医学影像存档与通讯系统(PACS)、放射信息管理系统(RIS),包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据等;基于以上这些平台系统收集初始数据,是形成一套以专病患者为中心的多维度全疾病诊疗周期的RWD体系全景数据的基础;
真实世界数据预处理模块,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的数据质控、结构化归一及数据挖掘等处理流程;
真实世界专病数据内容选取模块,基于各指标对不同疾病影响的重要性不同,为使RWD体系更具权威更科学,根据不同的专科疾病,选取权重更大的关系指标,构建相应的专科图谱;使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高;
真实世界专病数据图谱构建模块,采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型,即图谱schema;以单个患者为中心节点,各个指标逐级索引,构建患者RWD全景数据图谱。
该系统通过上述实施例所述的真实世界数据的专病图谱的构建方法实现真实世界数据的专病图谱构建。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (10)
1.一种真实世界数据的专病图谱的构建方法,其特征在于,该方法的实现包括:
真实世界数据资源构成,数据来源包括电子病历系统、医院信息系统、实验室信息管理系统、医学影像存档与通讯系统、放射信息管理系统;
真实世界数据预处理,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的处理流程,包括数据质控、结构化归一及数据挖掘;
真实世界专病数据内容选取,基于各指标对不同疾病影响的重要性不同,根据不同的专科疾病,选取权重大的关系指标,构建相应的专科图谱;
真实世界专病数据图谱构建,采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型;以单个患者为中心节点,各个指标逐级索引,构建患者RWD全景数据图谱。
2.根据权利要求1所述的一种真实世界数据的专病图谱的构建方法,其特征在于,所述真实世界数据资源构成,数据包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据。
3.根据权利要求1或2所述的一种真实世界数据的专病图谱的构建方法,其特征在于,数据采集包含患者既往病史数据、当前诊疗数据、随访数据,包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据;
将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。
4.根据权利要求1所述的一种真实世界数据的专病图谱的构建方法,其特征在于,所述真实世界数据预处理包括:
在患者信息维度,对数据进行脱敏处理,利用安全隐私加密类模型,对患者身份证号码、姓名进行加密处理,并标记一条人员唯一标识,便于在数据图谱中确定人员唯一性;
在数据内容上,对实体包括疾病、药物、手术、检验、检查进行统一归一化处理;
针对电子病历大段文本类数据,首先利用医疗文本解析类模型,针对电子病历中治疗方案、家族史、现病史、主诉细项解析场景,设计电子病历解析模型,该模型集成Bert+LSTM+CRF算法和分段卷积神经网络算法,识别电子病历中的实体,包括时间、数值、药品名称、临床所见、用药频次、亲属、健康状态、疾病名称、症状,并返回实体名称、实体位置及各实体之间存在的关系,完成电子病历解析任务;其次利用电子病历质控类模型,针对入院记录大段解析内容质量控制问题,研发主诉、现病史、既往史、个人史、婚育史、体格检查、初步诊断分类模型,该模型使用fasttext算法,实现基于语义的7类文本分类;将模型分类结果与实际解析结果进行比对,从而判断解析的正确性,完成电子病历解析结果的质控任务。
5.根据权利要求4所述的一种真实世界数据的专病图谱的构建方法,其特征在于,所述对患者身份证号码、姓名进行加密处理,并标记一条人员唯一标识,具体方法为:身份证号加特定字符串,利用MD5函数进行加密,返回加密字符串,使其达到可逆性。
6.根据权利要求4所述的一种真实世界数据的专病图谱的构建方法,其特征在于,所述对实体包括疾病、药物、手术、检验、检查进行统一归一化处理;
利用医学术语归一化模型,针对医院诊疗数据中的医学实体名称归一化问题,以医疗术语管理后的医疗术语库为基础,利用短文本相似度计算算法、知识推理算法或节点相似度算法研发医学实体归一化模型;该模型将原始数据中的医学实体名称映射为相应的标准名称,进而实现不同地域、不同厂商、不同医院之间医学术语的标准化。
7.根据权利要求1所述的一种真实世界数据的专病图谱的构建方法,其特征在于,基于真实世界专病数据内容选取,构建专病RWD图谱,针对专项疾病特征,从不同维度选取相应指标数据构建以单个患者为中心的专病RWD图谱本体模型,即图谱schema;
获取患某疾病的就诊人群,在该疾病患者基本信息维度,指标包括患者的性别、年龄、民族、家庭地址、职业类型、学历、婚姻状态;在就诊信息维度,指标包括诊断类型、就诊时间、就诊科室、诊断疾病名称;在选择用药信息维度,指标包括用药名称、用药方式、用药时间;在手术信息维度,指标包括手术名称、手术时间;在影像学检查信息维度,指标包括影像学检查类别、检查项目名称、检查时间、检查部位、检查结论、检查所见、检查结果是否异常;在实验室检验信息维度,指标包括实验室检验样本、检验类别名称、检验项目名称、检验时间、检验结果、检验结果是否异常;
除以上常规结构化数据类之外,在电子病历大段文本中,还包括完善相关检验检查项、本次就诊全流程治疗方案、出院诊断疾病名称、出院带药名称、病理内容、主诉内容、手术史、体温、血压指标。
8.根据权利要求1或7所述的一种真实世界数据的专病图谱的构建方法,其特征在于,所述真实世界专病数据图谱构建,
构建专病RWD图谱,首先需要构建图谱schema,限定待加入知识图谱数据的格式,schema是构建一个完整准确图谱的基础,包含了该领域内有意义的概念类型以及这些类型的属性,规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中;
构建数据图谱,数据图谱采用单向三元组数据模式构建方法,首先构建专病RWD图谱数据本体模型,即图谱schema;再根据图谱schema以单个患者为中心节点,将不同系统、不同次就诊的信息,按照同一个患者、同一次就诊、同一次发病的维度进行融合;各个指标逐级索引,构建患者RWD全景数据图谱。
9.根据权利要求8所述的一种真实世界数据的专病图谱的构建方法,其特征在于,所述构建数据图谱,患者信息维度包含患者每一次的就诊事件索引,通过该索引关联到该次就诊维度信息、选择用药维度信息、手术维度信息、影像学检查维度信息、实验室检验维度信息、电子病历维度信息;
其中,在就诊事件中,包含每一项用药事件索引,通过该索引可将每一项药物与其用药时间、用药方式关联;包含每一次手术事件索引,通过该索引可将每一项手术名称与手术时间关联;包含每一项影像学检查事件索引,通过该索引可将每一项检查名称与检查类别、检查时间、检查部位、检查结论、检查所见、检查结果是否异常关联;包含每一类实验室检验事件索引,通过该索引可关联到实验室检验样本、检验项目名称、检验时间,在实验室检验事件中又包括检验报告索引,通过该索引可关联到每一项检验项目所对应的检验结果、检验结果是否异常信息。
10.一种真实世界数据的专病图谱的构建系统,其特征在于,包括真实世界数据资源构成模块、真实世界数据预处理模块、真实世界专病数据内容选取模块和真实世界专病数据图谱构建模块,
该系统通过权利要求1至9任一项所述的真实世界数据的专病图谱的构建方法实现真实世界数据的专病图谱构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410115.7A CN116469571A (zh) | 2023-04-18 | 2023-04-18 | 一种真实世界数据的专病图谱的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410115.7A CN116469571A (zh) | 2023-04-18 | 2023-04-18 | 一种真实世界数据的专病图谱的构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116469571A true CN116469571A (zh) | 2023-07-21 |
Family
ID=87178457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310410115.7A Pending CN116469571A (zh) | 2023-04-18 | 2023-04-18 | 一种真实世界数据的专病图谱的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469571A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012374A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 一种融合事件图谱和深度强化学习的医疗随访系统及方法 |
CN117151695A (zh) * | 2023-09-19 | 2023-12-01 | 武汉华康世纪医疗股份有限公司 | 一种基于关系图谱与时空轨迹的医院节能方法及系统 |
CN117577340A (zh) * | 2023-10-26 | 2024-02-20 | 杭州乐九医疗科技有限公司 | 一种基于数据融合的科研数据采集配置方法及系统 |
-
2023
- 2023-04-18 CN CN202310410115.7A patent/CN116469571A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151695A (zh) * | 2023-09-19 | 2023-12-01 | 武汉华康世纪医疗股份有限公司 | 一种基于关系图谱与时空轨迹的医院节能方法及系统 |
CN117151695B (zh) * | 2023-09-19 | 2024-05-10 | 武汉华康世纪医疗股份有限公司 | 一种基于关系图谱与时空轨迹的医院节能方法及系统 |
CN117012374A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 一种融合事件图谱和深度强化学习的医疗随访系统及方法 |
CN117012374B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种融合事件图谱和深度强化学习的医疗随访系统及方法 |
CN117577340A (zh) * | 2023-10-26 | 2024-02-20 | 杭州乐九医疗科技有限公司 | 一种基于数据融合的科研数据采集配置方法及系统 |
CN117577340B (zh) * | 2023-10-26 | 2024-04-16 | 杭州乐九医疗科技有限公司 | 一种基于数据融合的科研数据采集配置方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Raja et al. | A systematic review of healthcare big data | |
US20130197938A1 (en) | System and method for creating and using health data record | |
Kaur et al. | AI based healthcare platform for real time, predictive and prescriptive analytics using reactive programming | |
US20070088559A1 (en) | Method for computerising and standardizing medical information | |
CN116469571A (zh) | 一种真实世界数据的专病图谱的构建方法及系统 | |
Brazhnik et al. | Anatomy of data integration | |
Qureshi | Towards a digital ecosystem for predictive healthcare analytics | |
Sarkar et al. | A conceptual distributed framework for improved and secured healthcare system | |
Khan et al. | Towards development of health data warehouse: Bangladesh perspective | |
Khan et al. | Development of national health data warehouse for data mining. | |
Mia et al. | A privacy-preserving national clinical data warehouse: Architecture and analysis | |
Begoli et al. | Towards a heterogeneous, polystore-like data architecture for the US Department of Veteran Affairs (VA) enterprise analytics | |
Condry | Using requirements for health data organization and management | |
CA2616111C (en) | Method and system for generating individual electronic medical record | |
Kiourtis et al. | Indexing of Cloud Stored Electronic Health Records for Consented Third Party Accessing | |
Machado et al. | Applying Business Intelligence to Clinical and Healthcare Organizations | |
Batra et al. | Mining standardized semantic interoperable electronic healthcare records | |
Mandell et al. | Development of a visualization tool for healthcare decision-making using electronic medical records: A systems approach to viewing a patient record | |
Prasad et al. | Artificial intelligence applications for IoMT | |
Yee et al. | Big data: Its implications on healthcare and future steps | |
Charitha et al. | Big Data Analysis and Management in Healthcare | |
Ramírez et al. | Big data in healthcare | |
Kanade et al. | Mapping of Disease Names to Standard Codes for Effective EHR System in India | |
Park et al. | Development of medical imaging data standardization for imaging-based observational research: OMOP common data model extension | |
Kumar et al. | 7 Big Data and Healthcare |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |