CN110415791A - 一种病种库建立系统及方法 - Google Patents
一种病种库建立系统及方法 Download PDFInfo
- Publication number
- CN110415791A CN110415791A CN201910089992.2A CN201910089992A CN110415791A CN 110415791 A CN110415791 A CN 110415791A CN 201910089992 A CN201910089992 A CN 201910089992A CN 110415791 A CN110415791 A CN 110415791A
- Authority
- CN
- China
- Prior art keywords
- information
- clinical
- data
- text
- sign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Radiology & Medical Imaging (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开一种病种库建立系统及方法,包括:数据挖掘模块,用于从预定的医疗子系统中搜集目标病种的临床医疗信息;临床医疗信息包括临床文本信息和/或临床影像信息;文本转化模块,用于将数据挖掘模块搜集到的临床文本信息转化为预定结构的文本信息,获取规范化文本数据;文本转化模块包括训练后的长短记忆型递归神经网络;影像信息提取模块,用于提取临床影像信息中的预定信息,获取结构化影像数据;影像信息提取模块包括训练后的卷积神经网络;数据库,用于获取并存储规范化文本数据和结构化影像数据。本发明提供的技术方案,能够自动建立起全周期、多维度数据的病种库,从而大大扩展了现有病种库的数据完整性和科研可用性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种病种库建立系统及方法。
背景技术
在目前的医院信息管理中,是将一个患者的临床信息和检查结果按照类别分别存储到不同的医疗子系统中,例如,医院信息系统(Hospital Information System,HIS)、放射科信息系统/医学图像实时传输查询归档系统(Radiology Information System,RIS/Picture Archiving and Communication System,PACS)、实验室检验信息系统(Laboratory Information System,LIS)、病理信息管理系统(Pathological InformationSystem,PIS)等。这些医疗子系统相互独立,保存的信息无法实时共享,当需要用到其它系统的数据时,需要重新登录访问,这种繁琐的操作使得医生的诊断、研究工作均受到局限。因此,针对某一疾病,需要建立一种专门保存该疾病临床信息的数据库,称为病种数据库或病种库。
现有的病种库建立方法为:分别登录上述各医疗子系统提取所需要的信息,并且在提取信息时,主要采用人工和/或传统机器学习的方式,这种方式不仅效率低下,而且传统的机器学习只能提取规范的文本信息,对于书写不规范的文本信息,就会淹没在海量的病例资料中。因此,采用现有的方法建立起来的病种库数据不全、质量不高,严重影响医生的临床研究工作。
发明内容
本发明旨在提供一种病种库建立系统及方法,能够自动建立起全周期、多维度数据的病种库,从而大大扩展了现有病种库的数据完整性和科研可用性。
为达到上述目的,本发明采用的技术方案如下:
一种病种库建立系统,包括:数据挖掘模块,用于从预定的医疗子系统中搜集目标病种的临床医疗信息;所述临床医疗信息包括临床文本信息和/或临床影像信息;文本转化模块,用于将所述数据挖掘模块搜集到的所述临床文本信息转化为预定结构的文本信息,获取规范化文本数据;所述文本转化模块包括预先训练的长短记忆型递归神经网络;影像信息提取模块,用于提取由所述数据挖掘模块搜集到的所述临床影像信息中的预定信息,获取结构化影像数据;所述影像信息提取模块包括预先训练的卷积神经网络;数据库,用于获取并存储所述规范化文本数据和所述结构化影像数据。
优选地,所述目标病种为肺癌;所述预定的医疗子系统包括:HIS,RIS,PACS,LIS,PIS。
优选地,所述临床文本信息包括:就诊记录、检验检查、影像学检查、病理报告、肺功能、手术记录、化疗方案。
优选地,所述临床影像信息中的预定信息包括:所述临床影像信息的特征、密度、长短径、体积倍增时间、继发性改变;所述特征包括分叶征、毛刺征、空泡征、胸膜凹陷征、含气支气管征、血管集束征、微血管征、钙化征;所述密度包括磨玻璃性、实性、混合性;所述继发性改变包括阻塞性肺不张、阻塞性肺气肿、阻塞性肺炎。
一种病种库建立方法,包括:从预定的医疗子系统中搜集目标病种的临床医疗信息;所述临床医疗信息包括临床文本信息和/或临床影像信息;采用预先训练的长短记忆型递归神经网络将所述临床文本信息转化为预定结构的文本信息,获取规范化文本数据;采用预先训练的卷积神经网络提取所述临床影像信息中的预定信息,获取结构化影像数据;将所述规范化文本数据和所述结构化影像数据存储于预先建立的数据库中,得到病种库。
优选地,所述目标病种为肺癌;所述预定的医疗子系统包括:HIS,RIS,PACS,LIS,PIS。
优选地,所述临床文本信息包括:就诊记录、检验检查、影像学检查、病理报告、肺功能、手术记录、化疗方案;所述临床影像信息中的预定信息包括:所述临床影像信息的特征、密度、长短径、体积倍增时间、继发性改变;所述特征包括分叶征、毛刺征、空泡征、胸膜凹陷征、含气支气管征、血管集束征、微血管征、钙化征;所述密度包括磨玻璃性、实性、混合性;所述继发性改变包括阻塞性肺不张、阻塞性肺气肿、阻塞性肺炎。
本发明实施例提供的病种库建立系统及方法,采用数据挖掘模块自动地从各个医疗子系统中搜集目标病种的临床医疗信息,采用预先训练的长短记忆型递归神经网络自动将临床文本信息转化为规范化文本数据,采用预先训练的卷积神经网络自动获取结构化影像数据,并将上述规范化文本数据和结构化影像数据自动存储到预建的数据库中,采用上述方案得到的病种库,与现有的采用人工搜集信息或采用传统机器学习的方式相比,明显能够获得数据量更大、数据更全面的全周期、多维度临床信息,从而大大扩展了现有病种库的数据完整性和科研可用性。
附图说明
图1为本发明实施例的系统结构图;
图2为本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
图1为本发明实施例的系统结构图,包括:数据挖掘模块,用于从预定的医疗子系统中搜集目标病种的临床医疗信息;所述临床医疗信息包括临床文本信息和/或临床影像信息;文本转化模块,用于将所述数据挖掘模块搜集到的所述临床文本信息转化为预定结构的文本信息,获取规范化文本数据;所述文本转化模块包括预先训练的长短记忆型递归神经网络;影像信息提取模块,用于提取由所述数据挖掘模块搜集到的所述临床影像信息中的预定信息,获取结构化影像数据;所述影像信息提取模块包括预先训练的卷积神经网络;数据库,用于获取并存储所述规范化文本数据和所述结构化影像数据。本实施例中,所述目标病种为肺癌;所述预定的医疗子系统包括:HIS,RIS,PACS,LIS,PIS。
本发明实施例建立全周期、多维度肺癌病种库,结合医院HIS、RIS/PACS、LIS、PIS系统中的临床信息,构建数据规模庞大、结构科学、维度丰富、内容精准的肺癌病种库。运用深度学习技术不断用经过标注的临床信息对神经网络训练和优化,开发出高准确率、高完整度的数据结构化转化神经网络,自动化提取医院系统中临床信息,表述归一化存储科研级数据,建成面向科研与临床的肺癌病种库。
本发明实施例直接获取医院HIS系统、RIS/PACS系统、LIS系统、PIS系统中肺癌病人的临床信息,采用schema模式设计病种库框架;利用深度学习技术实现临床信息复杂文本结构化转化,影像数据自动提取,表述标准化归一存储于病种库。以下分别对本系统的各个模块进行描述:
(1)数据挖掘模块,用于搜集患者存储于医院HIS系统、RIS/PACS系统、LIS系统、PIS系统的肺癌临床信息。HIS系统的临床信息包括电子病历,该电子病例包括既往史,个人史和家族史;既往史包括既往重大疾病史,合并症史;个人史包括吸烟史,嗜酒史;家族史包括肺癌肿瘤家族史,非肺癌肿瘤家族史。RIS/PACS系统的临床信息包括影像数据和影像报告;影像数据包括三维重建CT影像,PET-CT影像,MRI影像。LIS系统的临床信息包括肿瘤标志物,肿瘤循环DNA,基因测序检查结果;肿瘤标志物包括癌胚抗原,神经元特异性烯醇化酶,细胞角蛋白片段19,鳞状细胞抗原;基因测序包括EGFR基因,KRAS基因,ALK基因。PIS系统的临床信息包括患者历次病理检查原始数据,最终报告。
(2)数据库,采用schema模式设计用于存储3万例肺癌患者全周期、多维度的临床信息。schema模式包括字段集,组织关系,取值标准化约束,取值冲突解决方法。
(3)文本转化模块,用于将数据挖掘模块搜集到的临床文本信息转化为预定结构的文本信息,获取规范化文本数据。具体来说,采用预先训练的LSTM(Long Short-TermMemory,长短记忆型)递归神经网络,来解决HIS系统、LIS系统、PIS系统临床信息中复杂文本的结构化提取与表述标准化归一的问题。LSTM神经网络的训练样本包括标注的HIS、LIS、PIS系统的临床信息。上述复杂文本包括长句多、语素指代多、用于标准化程度参差不齐、中英文术语混杂、语法结构复杂的文本段落。采用1000例经过标注的临床信息反复对上述LSTM神经网络进行训练,在有专家监督的学习下,对LSTM神经网络参数进行反复调整,优化LSTM神经网络模型,采用另外1000例上述数据来进行该神经网络的验证,得到高准确率的数据结构化转化神经网络。
(4)影像信息提取模块,用于提取由数据挖掘模块搜集到的临床影像信息中的预定信息,获取结构化影像数据。具体来说,采用预先训练的卷积神经网络对影像进行特征自动化提取、转化为结构化科研数据,以及具体的结构化信息设计。上述卷积神经网络的训练样本包括标注的影像数据,以及该标注的影像数据对应的数据标签。影像特征包括特征、密度、长短径、体积倍增时间、继发性改变;所述密度的具体结构化信息包括磨玻璃性、实性、混合性;所述特征的具体结构化信息包括分叶征、毛刺征、空泡征、胸膜凹陷征、含气支气管征、血管集束征、微血管征、钙化征;所述继发性改变的具体结构化信息包括阻塞性肺不张、阻塞性肺气肿、阻塞性肺炎。采用4000例标注的影像数据和其对应的数据标签进行该神经网络的训练,采用另外4000例上述数据来进行该神经网络的验证,以进一步完善该卷积神经网络。
本发明还公开一种病种库建立方法,如图2所示,包括:从预定的医疗子系统中搜集目标病种的临床医疗信息;所述临床医疗信息包括临床文本信息和/或临床影像信息;采用预先训练的长短记忆型递归神经网络将所述临床文本信息转化为预定结构的文本信息,获取规范化文本数据;采用预先训练的卷积神经网络提取所述临床影像信息中的预定信息,获取结构化影像数据;将所述规范化文本数据和所述结构化影像数据存储于预先建立的数据库中,得到病种库。
病种库建立方法的原理及其采集的参数均与上述病种库建立系统相同,此处不再赘述。
本发明的有益效果如下:(1)本发明全周期多维度建立的肺癌病种库实现了从风险因素到就诊过程,从实验室检验到影像检查再到病理,从诊疗方案到预后信息在一个病种库中的集成,打破信息化系统的界限,突破信息壁垒。(2)影像数据和报告的特征提取及转化为结构化科研数据。把传统意义上由于难度问题和工作量问题而难以纳入科研数据库的影像数据进行结构化的表达设计,并通过卷积神经网络模型实现自动化提取,使得大规模医学影像数据自动转化为结构化科研数据,大大提升临床影像数据的科研可用性。(3)全面跃升数据制备效率。对文本数据和影像数据构建人工智能信息提取模型,替代人工数据提取,万量级患者的全维度提取工作量从年级别压缩到月级别。特别是对于影像类高维数据通过深度学习算法进行结构化信息提取,使得人工难以实现的工作量变得可控且高效。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种病种库建立系统,其特征在于,包括:
数据挖掘模块,用于从预定的医疗子系统中搜集目标病种的临床医疗信息;所述临床医疗信息包括临床文本信息和/或临床影像信息;
文本转化模块,用于将所述数据挖掘模块搜集到的所述临床文本信息转化为预定结构的文本信息,获取规范化文本数据;所述文本转化模块包括预先训练的长短记忆型递归神经网络;
影像信息提取模块,用于提取由所述数据挖掘模块搜集到的所述临床影像信息中的预定信息,获取结构化影像数据;所述影像信息提取模块包括预先训练的卷积神经网络;
数据库,用于获取并存储所述规范化文本数据和所述结构化影像数据。
2.根据权利要求1所述的病种库建立系统,其特征在于,所述目标病种为肺癌;所述预定的医疗子系统包括:HIS,RIS,PACS,LIS,PIS。
3.根据权利要求2所述的病种库建立系统,其特征在于,所述临床文本信息包括:就诊记录、检验检查、影像学检查、病理报告、肺功能、手术记录、化疗方案。
4.根据权利要求2所述的病种库建立系统,其特征在于,所述临床影像信息中的预定信息包括:所述临床影像信息的特征、密度、长短径、体积倍增时间、继发性改变;所述特征包括分叶征、毛刺征、空泡征、胸膜凹陷征、含气支气管征、血管集束征、微血管征、钙化征;所述密度包括磨玻璃性、实性、混合性;所述继发性改变包括阻塞性肺不张、阻塞性肺气肿、阻塞性肺炎。
5.一种病种库建立方法,其特征在于,包括:
从预定的医疗子系统中搜集目标病种的临床医疗信息;所述临床医疗信息包括临床文本信息和/或临床影像信息;
采用预先训练的长短记忆型递归神经网络将所述临床文本信息转化为预定结构的文本信息,获取规范化文本数据;
采用预先训练的卷积神经网络提取所述临床影像信息中的预定信息,获取结构化影像数据;
将所述规范化文本数据和所述结构化影像数据存储于预先建立的数据库中,得到病种库。
6.根据权利要求5所述的病种库建立方法,其特征在于,所述目标病种为肺癌;所述预定的医疗子系统包括:HIS,RIS,PACS,LIS,PIS。
7.根据权利要求6所述的病种库建立方法,其特征在于,所述临床文本信息包括:就诊记录、检验检查、影像学检查、病理报告、肺功能、手术记录、化疗方案;所述临床影像信息中的预定信息包括:所述临床影像信息的特征、密度、长短径、体积倍增时间、继发性改变;所述特征包括分叶征、毛刺征、空泡征、胸膜凹陷征、含气支气管征、血管集束征、微血管征、钙化征;所述密度包括磨玻璃性、实性、混合性;所述继发性改变包括阻塞性肺不张、阻塞性肺气肿、阻塞性肺炎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910089992.2A CN110415791A (zh) | 2019-01-29 | 2019-01-29 | 一种病种库建立系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910089992.2A CN110415791A (zh) | 2019-01-29 | 2019-01-29 | 一种病种库建立系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110415791A true CN110415791A (zh) | 2019-11-05 |
Family
ID=68357486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910089992.2A Pending CN110415791A (zh) | 2019-01-29 | 2019-01-29 | 一种病种库建立系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110415791A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831339A (zh) * | 2023-02-21 | 2023-03-21 | 四川大学华西医院 | 基于深度学习的医疗系统风险管控事前预测方法、系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361222A (zh) * | 2014-10-31 | 2015-02-18 | 上海申康医院发展中心 | 医联多病种影像特征库的构建方法 |
CN107463786A (zh) * | 2017-08-17 | 2017-12-12 | 王卫鹏 | 基于结构化报告模板的医学影像知识库建立方法 |
CN107729392A (zh) * | 2017-09-19 | 2018-02-23 | 广州市妇女儿童医疗中心 | 文本结构化方法、装置、系统和非易失性存储介质 |
CN108764329A (zh) * | 2018-05-24 | 2018-11-06 | 复旦大学附属华山医院北院 | 一种肺癌病理图像数据集的构建方法 |
CN108876779A (zh) * | 2018-06-22 | 2018-11-23 | 中山仰视科技有限公司 | 基于深度学习的肺癌早期预测方法、电子设备 |
-
2019
- 2019-01-29 CN CN201910089992.2A patent/CN110415791A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361222A (zh) * | 2014-10-31 | 2015-02-18 | 上海申康医院发展中心 | 医联多病种影像特征库的构建方法 |
CN107463786A (zh) * | 2017-08-17 | 2017-12-12 | 王卫鹏 | 基于结构化报告模板的医学影像知识库建立方法 |
CN107729392A (zh) * | 2017-09-19 | 2018-02-23 | 广州市妇女儿童医疗中心 | 文本结构化方法、装置、系统和非易失性存储介质 |
CN108764329A (zh) * | 2018-05-24 | 2018-11-06 | 复旦大学附属华山医院北院 | 一种肺癌病理图像数据集的构建方法 |
CN108876779A (zh) * | 2018-06-22 | 2018-11-23 | 中山仰视科技有限公司 | 基于深度学习的肺癌早期预测方法、电子设备 |
Non-Patent Citations (2)
Title |
---|
WWW.SCU.EDU.CN/INFO/1203/3587.HTM: "华西医院肺癌科研病种库建设实现重大突破", 《WWW.SCU.EDU.CN/INFO/1203/3587.HTM》 * |
汪鹏等: "医疗大数据应用需求分析与平台建设构想", 《中国医院管理》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831339A (zh) * | 2023-02-21 | 2023-03-21 | 四川大学华西医院 | 基于深度学习的医疗系统风险管控事前预测方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459287B (zh) | 来自医学文本报告的结构化报告数据 | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN112101451B (zh) | 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法 | |
CN107463786A (zh) | 基于结构化报告模板的医学影像知识库建立方法 | |
CN107247881A (zh) | 一种多模态智能分析方法及系统 | |
CN106682411A (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
CN106407443A (zh) | 一种结构化医疗数据生成方法及装置 | |
CN117744654A (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN110600121B (zh) | 一种基于知识图谱病因初步诊断方法 | |
TWI723868B (zh) | 一種抽樣後標記應用在類神經網絡訓練模型之方法 | |
Humayun et al. | Framework for detecting breast cancer risk presence using deep learning | |
Nasir et al. | IoMT-based osteosarcoma cancer detection in histopathology images using transfer learning empowered with blockchain, fog computing, and edge computing | |
Sun et al. | Breast mass detection in mammography based on image template matching and CNN | |
CN106897572A (zh) | 基于流形学习的肺结节病例匹配辅助检测系统及其工作方法 | |
Ibrokhimov et al. | Two-stage deep learning method for breast cancer detection using high-resolution mammogram images | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
Guo et al. | DeepLN: an artificial intelligence-based automated system for lung cancer screening | |
Zhao et al. | Application of deep learning in histopathology images of breast cancer: a review | |
Khan et al. | IoMT-enabled computer-aided diagnosis of pulmonary embolism from computed tomography scans using deep learning | |
CN110415791A (zh) | 一种病种库建立系统及方法 | |
Maulana et al. | The Scientific Progress and Prospects of Artificial Intelligence for Cancer Detection: A Bibliometric Analysis | |
Wang et al. | Deep learning based nodule detection from pulmonary CT images | |
CN111145854B (zh) | 一种基于主题模型的胸部x光片诊断报告异常检测方法 | |
CN109192312A (zh) | 一种心力衰竭患者不良事件智能管理系统及方法 | |
Sridhar et al. | Detection of liver tumour using deep learning based segmentation with coot extreme learning model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |
|
RJ01 | Rejection of invention patent application after publication |