CN110660055A - 疾病数据预测方法、装置、可读存储介质及电子设备 - Google Patents

疾病数据预测方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN110660055A
CN110660055A CN201910912923.7A CN201910912923A CN110660055A CN 110660055 A CN110660055 A CN 110660055A CN 201910912923 A CN201910912923 A CN 201910912923A CN 110660055 A CN110660055 A CN 110660055A
Authority
CN
China
Prior art keywords
data
disease
image
pathological
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910912923.7A
Other languages
English (en)
Other versions
CN110660055B (zh
Inventor
付钰
胡飞
王方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qing Yan Xiangyun Technology Co Ltd
Original Assignee
Beijing Qing Yan Xiangyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qing Yan Xiangyun Technology Co Ltd filed Critical Beijing Qing Yan Xiangyun Technology Co Ltd
Priority to CN201910912923.7A priority Critical patent/CN110660055B/zh
Publication of CN110660055A publication Critical patent/CN110660055A/zh
Application granted granted Critical
Publication of CN110660055B publication Critical patent/CN110660055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Primary Health Care (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种疾病数据预测方法、装置、可读存储介质及电子设备,所述方法包括:获取疾病检查数据,疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,疾病数据为基因突变位点数据、病理特征描述信息或病理图像;根据疾病检查数据和映射关系,获得疾病数据集合中,与疾病检查数据对应的至少一个其他类别的疾病数据。只要获得其中一个疾病检查数据,就可以根据该疾病检查数据获得其他的疾病数据,快速获得患者的所有疾病数据,患者只需要做其中一项检查就可以获得多项疾病检查数据,进而可以获得准确的治疗方案,而不需要做多项检查。

Description

疾病数据预测方法、装置、可读存储介质及电子设备
技术领域
本申请涉及医疗技术领域,具体而言,涉及一种疾病数据预测方法、装置、可读存储介质及电子设备。
背景技术
随着科技的发展,通过结节CT图像预测发生基因突变的基因以预测人体的病症是辅助医生诊断疾病的一种方式。但是现今只能做到预测某几个基因,而不能精准预测到所有基因位点,即不能预测到具体是哪些基因发生了突变。
上述通过结节CT图像预测发生基因突变的基因的方式,仅仅对专业的经验丰富的医生有帮助,而对于不了解基因突变技术的人来说,就算拿到了发生突变的基因位点信息,也不清楚患者具体病症是什么,无法针对性地对患者采用合理的救治方案。当要获得准确的救治方案时,需要针对救治方案涉及的项目进行数据采集,对于患者来说,要进行这些检查以获得需要采集的数据,一方面费用昂贵,一方面检查过程繁琐,一方面可能消耗时间长错过最佳救治时间。
因此,一种快速获得患者的所有疾病数据的方式为人们所需。
发明内容
本发明的目的在于提供一种疾病数据预测方法、装置、可读存储介质及电子设备,其旨在改善现有技术中存在的上述不足。
第一方面,本发明实施例提供了一种疾病数据预测方法,所述方法包括:
获取疾病检查数据,所述疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,所述疾病数据为基因突变位点数据、病理特征描述信息或病理图像;
根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据。
可选的,所述根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据,包括:
当所述疾病检查数据是基因突变位点数据时,以所述基因突变位点数据作为第一模型的输入,以所述第一模型的输出作为所述基因突变位点数据对应的病理特征描述信息;所述第一模型表征从所述基因突变位点数据到所述病理特征描述信息的映射关系;
和\或,以所述基因突变位点数据作为第二模型的输入,以所述第二模型的输出作为所述基因突变位点数据对应的病理图像;所述第二模型表征从所述基因突变位点数据到所述病理图像的映射关系。
可选的,所述根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据,还包括:
当所述疾病检查数据是病理特征描述信息时,以所述病理特征描述信息作为第三模型的输入,以所述第三模型的输出作为所述病理特征描述信息对应的基因突变位点数据;所述第三模型表征从所述病理特征描述信息到所述基因突变位点数据的映射关系;
和\或,以所述病理特征描述信息作为第四模型的输入,以所述第四模型的输出作为所述病理特征描述信息对应的病理图像;所述第四模型表征从所述病理特征描述信息到所述病理图像的映射关系。
可选的,所述根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据,还包括:
当所述疾病检查数据是病理图像时,以所述病理图像作为第五模型的输入,以所述第五模型的输出作为所述病理图像对应的基因突变位点数据;所述第五模型表征从所述病理图像到所述基因突变位点数据的映射关系;
和\或,以所述病理图像为第六模型的输入,以所述第六模型的输出作为与所述病理图像对应的病理特征描述信息;所述第六模型表征从所述病理图像到所述病理特征描述信息的映射关系。
可选的,所述第五模型的训练方法包括:
获得训练样本,所述训练样本包括多张训练病理图像以及所述训练病理图像的基因突变位点标识,所述基因突变位点标识表征所述训练病理图像中的疾病信息,所述基因突变位点标识与基因突变位点数据对应;
基于所述训练样本训练所述第五模型,以使所述第五模型输出所述基因突变位点标识对应的基因突变位点数据。
可选的,所述获得训练样本包括:
获得结节的CT图像;
针对每个结节,根据多个识别框识别出所述CT图像中的所述结节的图像,获得多张结节图像,其中,每张结节图像的尺寸不同;
将所述多张结节图像归一化,获得多张训练病理图像,所述多张训练病理图像的尺寸相同;
识别所述训练病理图像中的疾病信息,标注所述训练病理图像的基因突变位点标识。
可选的,所述结节图像包括第一图像和第二图像;
所述根据多个识别框识别出所述CT图像中的所述结节的图像,获得多张结节图像,包括:
基于多个识别框识别出所述CT图像中的结节的图像,获得多张所述第一图像,所述识别框与所述第一图像一一对应;
针对每个识别框,对所述识别框进行变换,获得变换识别框;
基于所述变换识别框识别出所述CT图像中的结节的图像,获得所述第二图像。
第二方面,本发明实施例提供了一种疾病数据预测装置,所述装置包括:
获取模块,用于获取疾病检查数据,所述疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,所述疾病数据为基因突变位点数据、病理特征描述信息或病理图像;
预测模块,用于根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据。
第三方面,本发明实施例提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
第四方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
相对现有技术,本发明具有以下有益效果:
本发明实施例提供了一种疾病数据预测方法、装置、可读存储介质及电子设备,所述方法包括:获取疾病检查数据,疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,疾病数据为基因突变位点数据、病理特征描述信息或病理图像;根据疾病检查数据和映射关系,获得疾病数据集合中,与疾病检查数据对应的至少一个其他类别的疾病数据。只要获得其中一个疾病检查数据,就可以根据该疾病检查数据获得其他的疾病数据,快速获得患者的所有疾病数据,患者只需要做其中一项检查就可以获得多项疾病检查数据,进而可以获得准确的治疗方案,而不需要做多项检查。
本发明实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种疾病数据预测方法的流程图。
图2示出了本发明实施例提供的一种获得训练样本方法的流程图。
图3示出了本发明实施例提供的一种疾病数据预测装置200的方框结构示意图。
图4示出了本发明实施例提供的一种电子设备的方框结构示意图。
图标:200-疾病数据预测装置;210-获取模块;220-预测模块;500-总线;501-接收器;502-处理器;503-发送器;504-存储器;505-总线接口。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例
请参阅图1,图1示出了本发明实施例提供的一种疾病数据预测方法的流程图。疾病数据预测方法包括图1中的S101和S102。
S101:获取疾病检查数据。
其中,疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,疾病数据为基因突变位点数据、病理特征描述信息或病理图像。
S102:根据疾病检查数据和映射关系,获得疾病数据集合中,与疾病检查数据对应的至少一个其他类别的疾病数据。
通过以上方案,只要获得其中一个疾病检查数据,就可以根据该疾病检查数据获得其他的疾病数据,快速获得患者的所有疾病数据,患者只需要做其中一项检查就可以获得多项疾病检查数据,进而可以获得准确的治疗方案,而不需要做多项检查。
其中,基因突变位点数据表征发生基因突变的位置信息。病理特征描述信息描述了发生基因突变的位置对应的结节的形状、特性等信息,例如分叶征、毛刺征、棘状突起、空泡征、偏心空洞、胸膜凹陷征、血管集束征、气道阻塞征、无分叶、尖叫活纤维索条、胸膜增厚、支气管充气征等。病理图像是发生基因突变的位置对应的结节的图像信息。
针对S102中,根据疾病检查数据和所述映射关系,获得疾病数据集合中,与疾病检查数据对应的至少一个其他类别的疾病数据,具体可以是:
当疾病检查数据是基因突变位点数据时,以基因突变位点数据作为第一模型的输入,以第一模型的输出作为基因突变位点数据对应的病理特征描述信息,和\或,以基因突变位点数据作为第二模型的输入,以第二模型的输出作为基因突变位点数据对应的病理图像。
当疾病检查数据是病理特征描述信息时,以病理特征描述信息作为第三模型的输入,以第三模型的输出作为病理特征描述信息对应的基因突变位点数据,和\或,以病理特征描述信息作为第四模型的输入,以第四模型的输出作为病理特征描述信息对应的病理图像。
当疾病检查数据是病理图像时,以病理图像作为第五模型的输入,以第五模型的输出作为病理图像对应的基因突变位点数据,和\或,以病理图像为第六模型的输入,以第六模型的输出作为与病理图像对应的病理特征描述信息。
其中,第一模型表征从基因突变位点数据到病理特征描述信息的映射关系,第二模型表征从基因突变位点数据到病理图像的映射关系,第三模型表征从病理特征描述信息到基因突变位点数据的映射关系,第四模型表征从病理特征描述信息到病理图像的映射关系,第五模型表征从病理图像到基因突变位点数据的映射关系,第六模型表征从病理图像到病理特征描述信息的映射关系。
第一模型的训练方法包括:获得第一基因突变位点训练数据,第一基因突变位点训练数据包括多个训练基因突变位点数据以及每个训练基因突变位点数据对应的病理类型,其中,病理类型与病理特性描述信息有对应关系。基于第一基因突变位点训练数据训练第一模型,以使第一模型输出训练基因突变位点数据的病理类型对应的病理特性描述信息。
第二模型的训练方法包括:获得第二基因突变位点训练数据,第二基因突变位点训练数据包括多个训练基因突变位点数据以及每个训练基因突变位点数据对应的图像类型,其中,图像类型与病理图像有对应关系。基于第二基因突变位点训练数据训练第二模型,以使第二模型输出训练基因突变位点数据的图像类型对应的病理图像。
第三模型的训练方法包括:获得第一病理特征训练数据,第一病理特征训练数据包括多个训练病理特征描述信息和每个训练病理特征描述信息对应的点位类型,点位类型与基因突变位点数据具有对应关系。基于第一病理特征训练数据训练第三模型,以使第三模型输出训练病理特征描述信息的点位类型对应的基因突变位点数据。
第四模型的训练方法包括:获得第二病理特征训练数据,第二病理特征训练数据包括多个训练病理特征描述信息和每个训练病理特征描述信息对应的图像类型,图像类型与病理图像具有对应关系。基于第二病理特征训练数据训练第四模型,以使第四模型输出训练病理特征描述信息的图像类型对应的病理图像。
第五模型的训练方法包括:获得训练样本,训练样本包括多张训练病理图像以及训练病理图像的基因突变位点标识,基因突变位点标识表征训练病理图像中的疾病信息,基因突变位点标识与基因突变位点数据对应。基于训练样本训练第五模型,以使第五模型输出基因突变位点标识对应的基因突变位点数据。
其中,获得训练样本的具体方式如图2中的S201~S204。以下结合图2对S201~S204进行阐述。
S201:获得结节的CT图像。
S202:针对每个结节,根据多个识别框识别出CT图像中的结节的图像,获得多张结节图像。
其中,每张结节图像的尺寸不同。
S203:将多张结节图像归一化,获得多张训练病理图像。
其中,多张训练病理图像的尺寸相同,且多张训练病理图像具有统一的窗宽、窗位、纵向的分辨率和横向的分辨率。
S204:识别训练病理图像中的疾病信息,标注训练病理图像的基因突变位点标识。
其中,基因突变位点标识与疾病信息相对应。
通过采用以上方案,将训练病理图像进行归一化(统一操作),使得多张训练病理图像的尺寸相同,且多张训练病理图像具有统一的窗宽、窗位、纵向的分辨率和横向的分辨率,提高了第五模型对训练病理图像的适应性,进而提高了以病理图像作为第五模型的输入,获得基因突变位点数据的准确性。
为了更进一步地提高获得基因突变位点数据的准确性,结节图像包括第一图像和第二图像,根据多个识别框识别出CT图像中的所述结节的图像,获得多张结节图像的具体实施方式可以是:基于多个识别框识别出CT图像中的结节的图像,获得多张第一图像,识别框与第一图像一一对应。针对每个识别框,对识别框进行变换,获得变换识别框。基于变换识别框识别出CT图像中的结节的图像,获得第二图像。
其中,对识别框进行变换具体为:对识别框进行旋转、镜像翻转、增强、颜色抖动、随机扭曲操作。
通过采用以上方案,对于同一个结节,可以获得该结节不同方位,不同尺寸的训练病理图像,提高了识别训练病理图像中的疾病信息的准确性和全面性。
第六模型的训练方法为:获得训练数据,训练数据包括多张训练病理图像以及训练病理图像的特征类型,特征类型表征训练病理图像中的疾病信息的特征,特征类型与病理特征描述信息对应。基于训练数据训练第六模型,以使第六模型输出特征类型对应的病理特征描述信息,进而获得与训练病理图像对应的病理特征描述信息。
其中,获得训练数据的具体实施方式与获得训练样本的具体实施方式类似,即获得结节的CT图像。针对每个结节,根据多个识别框识别出CT图像中的结节的图像,获得多张结节图像。将多张结节图像归一化,获得多张训练病理图像。识别训练病理图像中的疾病信息,标注训练病理图像的特征类型。同样的需要基于多个识别框识别出CT图像中的结节的图像,获得多张第一图像,识别框与第一图像一一对应。针对每个识别框,对识别框进行变换,获得变换识别框。基于变换识别框识别出CT图像中的结节的图像,获得第二图像。对识别框进行变换具体为:对识别框进行旋转、镜像翻转、增强、颜色抖动、随机扭曲操作。
为了保证第一模型、第二模型、第三模型、第四模型、第五模型和第六模型的性能,需要对训练后的第一模型、第二模型、第三模型、第四模型、第五模型和第六模型进行验证和测试。
作为一种可选的实施例,针对第一模型(基因突变位点预测结节影像特征),共有含有基因检测与影像的病例数据3000例,将60%作为训练数据,20%作为验证数据,20%作为测试数据。
将图像进行预处理,首先统一窗宽,窗位,将原始图像进行归一化处理,并且将图像纵向(即z轴)的分辨率与横向进行统一。将数据集进行数据增强等操作,包括随机抠取(边长按照原始边长的100%-120%随机抠取),90度随机旋转,镜像翻转等操作。将所有病例统一层厚,每个结节从原图中从中间页起上取8页,下取7页,共16页,将结节从原图中抠出。并统一到32*32*16大小。
为模型设置L2正则化,使用SGD作为优化器,将数据送入3D卷积神经网络RESNET32中训练,当在五个连续周期内增长停止时,使用early stop技巧停止训练。在测试集上得到85%以上准确率。
使用基因检测的数据作为输入,结节的影像特征作为输出。将3000例病例的影像数据请医生进行标注,标注内容为结节的影像特征,包括分叶征,毛刺征,棘状突起,空泡征,偏心空洞,胸膜凹陷征,血管集束征,气道阻塞征,无分叶,尖叫活纤维索条,胸膜增厚,支气管充气征。采用双盲标注法,每一条由两个初级医生进行标注,当两位医生的标注不一致的时候转到第三位主治医生处进行最后的判断,将3000例数据全部标注到结节的特征。
使用岭回归的方法,将基因检测的位点数据作为输入数据,结节的特征数据作为输出,进行模型训练,最终在测试集上的达到不低于85%准确率。
针对第三模型(结节影像特征预测基因突变位点),共有含有基因检测及影像的病例数据3000例,将60%作为训练数据,20%作为验证数据,20%作为测试数据。
将所有病例统一层厚,每个结节从原图中从中间页起上取8页,下取7页,共16页。经过常规预处理,包括统一窗宽,窗位,统一纵向的分辨率和横向统一,进行归一化等操作。将数据集进行数据增强等操作,包括随机旋转,镜像翻转,颜色抖动,随机扭曲等操作。将数据统一到128*128大小,送入3D卷积神经网络DPN26中训练,得到85%以上准确率。
使用该算法模型对于输入的结节数据,进行基因检测的预测。该算法模型可实现结节影像数据和基因检测的互相预测。该项发明特别适合辅助诊断类产品。
针对第五模型(病理图像预测基因突变位点),共有含有基因检测及病理的病例数据3000例,将病理数据裁成小图,通过人工选取的方式,在统一的80x分辨率下,选出其中可以明显看出存在癌症的细胞簇图片,将60%作为训练数据,20%作为验证数据,20%作为测试数据。
采用双盲标注法,每一条由两个初级医生进行标注,当两位医生的标注不一致的时候转到第三位主治医生处进行最后的判断,将3000例数据全部标注到细胞簇的名称。
将图像进行预处理,首先统一大小到224*224,将原始图像进行归一化处理。将数据集进行数据增强等操作,随机旋转,镜像翻转,颜色抖动,随机扭曲等操作。使用基因检测的位点数据作为图像的标注。
针对(病理图像预测基因突变位点),共采集30000张图片数据,使用原始图像数据作为输入,使用2D卷积神经网络Resnet18训练模型,预突变的位点,使用weight decay作为正则化,防止过拟合,在测试集上得到85%以上准确率。
采用双盲标注法,将3000例数据进行标注,标注其病理亚型,共7个。使用机器学习的方法,训练线性模型,将基因检测的位点数据作为输入数据,结节的特征数据作为输出,进行模型训练,最终在测试集上的达到不低于85%准确率。在最高分辨率上,采用滑动窗口的方式,对于整张病理扫描切片上进行滑动,标记出存在癌细胞的细胞簇块,即可通过整张图像预测影像的特征。
针对第六模型(病理图像预测结节影像特征),共有含有基因检测及病理的病例数据3000例,将病理数据裁成小图,通过人工选取的方式,在统一的80x分辨率下,选出其中可以明显看出存在癌症的细胞簇图片,将60%作为训练数据,20%作为验证数据,20%作为测试数据。
采用双盲标注法,即每一条由两个初级医生进行标注,当两位医生的标注不一致的时候转到第三位主治医生处进行最后的判断。分别标注病理的细胞簇名称(等同于病理亚型),以及结节的影像特征,包括分叶征,毛刺征,棘状突起,空泡征,偏心空洞,胸膜凹陷征,血管集束征,气道阻塞征,无分叶,尖叫活纤维索条,胸膜增厚,支气管充气征。分别完成这两种数据的标注。
在最高分辨率下,共采集30000张图片数据,使用原始图像数据作为输入,使用2D卷积神经网络Resnet18训练模型,预突变的位点,使用weight decay作为正则化,防止过拟合,在测试集上得到85%以上准确率。
针对(结节影像预测病理亚型),将图像进行预处理,首先统一窗宽,窗位,将原始图像进行归一化处理,并且将图像纵向(即z轴)的分辨率与横向进行统一。采用双线性插值的方式,将所有病例统一层厚,选取影像数据的上下两页,共三页,作为输入。使用有病理数据的,将病理亚型作为标签。
采用双盲标注法,每一条由两个初级医生进行标注,当两位医生的标注不一致的时候转到第三位主治医生处进行最后的判断,将3000例数据全部标注到细胞簇的名称。
经过统一的预处理,进行归一化处理,将结节从原图中抠出,将图像统一到224*224大小,采集上下连续的三页,即在原始标注页的基础上,上采一页,下采一页,作为输入数据。并进行数据增强,包括随机抠取(边长按照原始边长的100%-120%随机抠取),90度随机旋转,镜像翻转等操作。
为模型设置L2正则化,使用SGD作为优化器,将数据送入3D卷积神经网络RESNET32中训练,当在五个连续周期内增长停止时,使用early stop技巧停止训练。在测试集上得到85%以上准确率。
其中,第二模型和第四模型、第五模型的实施方式与第一模型、第三模型、第五模型和第六模型的实施方式类似,再次不再赘述。
通过采用以上方案,可以预测到基因及其位点,且针对于所有基因,检测和预测更为精准且更为全面。可以为医生提供更为丰富的信息,且效率高,无伤害,成本低。病人只需做其中一种检查,即可获得所有的疾病检查数据,省时、省力、省钱、省时间。
基于上述提供的一种疾病数据预测方法,本发明实施例还对应提供一种用于执行上述的步骤的执行主体,该执行主体可以为图3所示的疾病数据预测装置200。请参考图3,该装置包括:
获取模块210,用于获取疾病检查数据,所述疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,所述疾病数据为基因突变位点数据、病理特征描述信息或病理图像;
预测模块220,用于根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据。
作为一种可选的实施方式,预测模块220还用于:
当所述疾病检查数据是基因突变位点数据时,以所述基因突变位点数据作为第一模型的输入,以所述第一模型的输出作为所述基因突变位点数据对应的病理特征描述信息;所述第一模型表征从所述基因突变位点数据到所述病理特征描述信息的映射关系;
和\或,以所述基因突变位点数据作为第二模型的输入,以所述第二模型的输出作为所述基因突变位点数据对应的病理图像;所述第二模型表征从所述基因突变位点数据到所述病理图像的映射关系。
作为一种可选的实施方式,预测模块220还用于:
当所述疾病检查数据是病理特征描述信息时,以所述病理特征描述信息作为第三模型的输入,以所述第三模型的输出作为所述病理特征描述信息对应的基因突变位点数据;所述第三模型表征从所述病理特征描述信息到所述基因突变位点数据的映射关系;
和\或,以所述病理特征描述信息作为第四模型的输入,以所述第四模型的输出作为所述病理特征描述信息对应的病理图像;所述第四模型表征从所述病理特征描述信息到所述病理图像的映射关系。
作为一种可选的实施方式,预测模块220还用于:
当所述疾病检查数据是病理图像时,以所述病理图像作为第五模型的输入,以所述第五模型的输出作为所述病理图像对应的基因突变位点数据;所述第五模型表征从所述病理图像到所述基因突变位点数据的映射关系;
和\或,以所述病理图像为第六模型的输入,以所述第六模型的输出作为与所述病理图像对应的病理特征描述信息;所述第六模型表征从所述病理图像到所述病理特征描述信息的映射关系。
作为一种可选的实施方式,预测模块220还用于:
获得训练样本,所述训练样本包括多张训练病理图像以及所述训练病理图像的基因突变位点标识,所述基因突变位点标识表征所述训练病理图像中的疾病信息,所述基因突变位点标识与基因突变位点数据对应;
基于所述训练样本训练所述第五模型,以使所述第五模型输出所述基因突变位点标识对应的基因突变位点数据。
作为一种可选的实施方式,预测模块220还用于:
获得结节的CT图像;
针对每个结节,根据多个识别框识别出所述CT图像中的所述结节的图像,获得多张结节图像,其中,每张结节图像的尺寸不同;
将所述多张结节图像归一化,获得多张训练病理图像,所述多张训练病理图像的尺寸相同;
识别所述病理图像中的疾病信息,标注所述训练病理图像的基因突变位点标识。
作为一种可选的实施方式,预测模块220还用于:
所述结节图像包括第一图像和第二图像;
所述根据多个识别框识别出所述CT图像中的所述结节的图像,获得多张结节图像,包括:
基于多个识别框识别出所述CT图像中的结节的图像,获得多张所述第一图像,所述识别框与所述第一图像一一对应;
针对每个识别框,对所述识别框进行变换,获得变换识别框;
基于所述变换识别框识别出所述CT图像中的结节的图像,获得所述第二图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述。
本发明实施例还提供了一种电子设备,如图4所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现前文所述疾病数据预测方法的步骤。
其中,在图4中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口505在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述疾病数据预测方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

Claims (10)

1.一种疾病数据预测方法,其特征在于,所述方法包括:
获取疾病检查数据,所述疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,所述疾病数据为基因突变位点数据、病理特征描述信息或病理图像;
根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据,包括:
当所述疾病检查数据是基因突变位点数据时,以所述基因突变位点数据作为第一模型的输入,以所述第一模型的输出作为所述基因突变位点数据对应的病理特征描述信息;所述第一模型表征从所述基因突变位点数据到所述病理特征描述信息的映射关系;
和\或,以所述基因突变位点数据作为第二模型的输入,以所述第二模型的输出作为所述基因突变位点数据对应的病理图像;所述第二模型表征从所述基因突变位点数据到所述病理图像的映射关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据,还包括:
当所述疾病检查数据是病理特征描述信息时,以所述病理特征描述信息作为第三模型的输入,以所述第三模型的输出作为所述病理特征描述信息对应的基因突变位点数据;所述第三模型表征从所述病理特征描述信息到所述基因突变位点数据的映射关系;
和\或,以所述病理特征描述信息作为第四模型的输入,以所述第四模型的输出作为所述病理特征描述信息对应的病理图像;所述第四模型表征从所述病理特征描述信息到所述病理图像的映射关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据,还包括:
当所述疾病检查数据是病理图像时,以所述病理图像作为第五模型的输入,以所述第五模型的输出作为所述病理图像对应的基因突变位点数据;所述第五模型表征从所述病理图像到所述基因突变位点数据的映射关系;
和\或,以所述病理图像为第六模型的输入,以所述第六模型的输出作为与所述病理图像对应的病理特征描述信息;所述第六模型表征从所述病理图像到所述病理特征描述信息的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述第五模型的训练方法包括:
获得训练样本,所述训练样本包括多张训练病理图像以及所述训练病理图像的基因突变位点标识,所述基因突变位点标识表征所述训练病理图像中的疾病信息,所述基因突变位点标识与基因突变位点数据对应;
基于所述训练样本训练所述第五模型,以使所述第五模型输出所述基因突变位点标识对应的基因突变位点数据。
6.根据权利要求5所述的方法,其特征在于,所述获得训练样本包括:
获得结节的CT图像;
针对每个结节,根据多个识别框识别出所述CT图像中的所述结节的图像,获得多张结节图像,其中,每张结节图像的尺寸不同;
将所述多张结节图像归一化,获得多张训练病理图像,所述多张训练病理图像的尺寸相同;
识别所述训练病理图像中的疾病信息,标注所述训练病理图像的基因突变位点标识。
7.根据权利要求6所述的方法,其特征在于,所述结节图像包括第一图像和第二图像;
所述根据多个识别框识别出所述CT图像中的所述结节的图像,获得多张结节图像,包括:
基于多个识别框识别出所述CT图像中的结节的图像,获得多张所述第一图像,所述识别框与所述第一图像一一对应;
针对每个识别框,对所述识别框进行变换,获得变换识别框;
基于所述变换识别框识别出所述CT图像中的结节的图像,获得所述第二图像。
8.一种疾病数据预测装置,其特征在于,所述装置包括:
获取模块,用于获取疾病检查数据,所述疾病检查数据属于疾病数据集合中的任意一类别疾病数据,不同类别疾病数据之间具有映射关系,所述疾病数据为基因突变位点数据、病理特征描述信息或病理图像;
预测模块,用于根据所述疾病检查数据和所述映射关系,获得所述疾病数据集合中,与所述疾病检查数据对应的至少一个其他类别的疾病数据。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN201910912923.7A 2019-09-25 2019-09-25 疾病数据预测方法、装置、可读存储介质及电子设备 Active CN110660055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912923.7A CN110660055B (zh) 2019-09-25 2019-09-25 疾病数据预测方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912923.7A CN110660055B (zh) 2019-09-25 2019-09-25 疾病数据预测方法、装置、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110660055A true CN110660055A (zh) 2020-01-07
CN110660055B CN110660055B (zh) 2022-11-29

Family

ID=69039114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912923.7A Active CN110660055B (zh) 2019-09-25 2019-09-25 疾病数据预测方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110660055B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827994A (zh) * 2020-01-13 2020-02-21 四川大学华西医院 心梗预警方法、装置及设备、存储介质
CN111161879A (zh) * 2020-02-24 2020-05-15 梅里医疗科技(洋浦)有限责任公司 一种基于大数据的疾病预测系统
CN111369534A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种预测肺癌病理图像中基因突变的辅助系统及方法
CN111755076A (zh) * 2020-07-01 2020-10-09 北京小白世纪网络科技有限公司 基于空间可分离性的利用基因检测的疾病预测方法及系统
CN111986802A (zh) * 2020-08-14 2020-11-24 上海市肺科医院 一种肺腺癌病理分化等级的辅助判定系统及方法
CN114999571A (zh) * 2022-06-06 2022-09-02 哈尔滨工业大学 一种诊断早期结肠癌的突变基因筛选方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
CN106021982A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种基于功能网络多疾病变异位点分析方法
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及系统
CN107103207A (zh) * 2017-04-05 2017-08-29 浙江大学 基于病例多组学变异特征的精准医学知识搜索系统及实现方法
CN108959856A (zh) * 2018-06-29 2018-12-07 迈凯基因科技有限公司 一种疾病基因变异及药物解读多数据库交互系统及方法
CN109215771A (zh) * 2018-05-29 2019-01-15 平安医疗健康管理股份有限公司 医疗映射关系库建立方法、装置、计算机设备和存储介质
CN109599168A (zh) * 2018-10-15 2019-04-09 平安科技(深圳)有限公司 医疗服务方法、装置、计算机设备及存储介质
CN109685102A (zh) * 2018-11-13 2019-04-26 平安科技(深圳)有限公司 胸部病灶图像分类方法、装置、计算机设备及存储介质
CN110009623A (zh) * 2019-04-10 2019-07-12 腾讯科技(深圳)有限公司 一种图像识别模型训练及图像识别方法、装置及系统
CN110084809A (zh) * 2019-05-06 2019-08-02 成都医云科技有限公司 糖尿病视网膜疾病数据处理方法、装置及电子设备
CN110136103A (zh) * 2019-04-24 2019-08-16 平安科技(深圳)有限公司 医学影像解释方法、装置、计算机设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
CN106021982A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种基于功能网络多疾病变异位点分析方法
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及系统
CN107103207A (zh) * 2017-04-05 2017-08-29 浙江大学 基于病例多组学变异特征的精准医学知识搜索系统及实现方法
CN109215771A (zh) * 2018-05-29 2019-01-15 平安医疗健康管理股份有限公司 医疗映射关系库建立方法、装置、计算机设备和存储介质
CN108959856A (zh) * 2018-06-29 2018-12-07 迈凯基因科技有限公司 一种疾病基因变异及药物解读多数据库交互系统及方法
CN109599168A (zh) * 2018-10-15 2019-04-09 平安科技(深圳)有限公司 医疗服务方法、装置、计算机设备及存储介质
CN109685102A (zh) * 2018-11-13 2019-04-26 平安科技(深圳)有限公司 胸部病灶图像分类方法、装置、计算机设备及存储介质
CN110009623A (zh) * 2019-04-10 2019-07-12 腾讯科技(深圳)有限公司 一种图像识别模型训练及图像识别方法、装置及系统
CN110136103A (zh) * 2019-04-24 2019-08-16 平安科技(深圳)有限公司 医学影像解释方法、装置、计算机设备及存储介质
CN110084809A (zh) * 2019-05-06 2019-08-02 成都医云科技有限公司 糖尿病视网膜疾病数据处理方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827994A (zh) * 2020-01-13 2020-02-21 四川大学华西医院 心梗预警方法、装置及设备、存储介质
CN111161879A (zh) * 2020-02-24 2020-05-15 梅里医疗科技(洋浦)有限责任公司 一种基于大数据的疾病预测系统
CN111161879B (zh) * 2020-02-24 2020-10-09 吾征智能技术(北京)有限公司 一种基于大数据的疾病预测系统
CN111369534A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种预测肺癌病理图像中基因突变的辅助系统及方法
CN111755076A (zh) * 2020-07-01 2020-10-09 北京小白世纪网络科技有限公司 基于空间可分离性的利用基因检测的疾病预测方法及系统
CN111986802A (zh) * 2020-08-14 2020-11-24 上海市肺科医院 一种肺腺癌病理分化等级的辅助判定系统及方法
CN114999571A (zh) * 2022-06-06 2022-09-02 哈尔滨工业大学 一种诊断早期结肠癌的突变基因筛选方法及系统
CN114999571B (zh) * 2022-06-06 2024-03-29 哈尔滨工业大学 一种诊断早期结肠癌的突变基因筛选方法及系统

Also Published As

Publication number Publication date
CN110660055B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN110660055B (zh) 疾病数据预测方法、装置、可读存储介质及电子设备
Richardson et al. Noninterpretive uses of artificial intelligence in radiology
US8335359B2 (en) Systems, apparatus and processes for automated medical image segmentation
US11972567B2 (en) System and method for analyzing medical images to detect and classify a medical condition using machine-learning and a case pertinent radiology atlas
CN111932547B (zh) 图像中目标物的分割方法、装置、电子设备及存储介质
CN112365980A (zh) 脑肿瘤多靶点辅助诊断与前瞻性治疗演化可视化方法及系统
CN110619947A (zh) 基于轻量级深度学习的肺部ct辅助筛查系统及筛查方法
CN113065609B (zh) 图像分类方法、装置、电子设备及可读存储介质
CN101551855A (zh) 自适应核匹配追踪辅助诊断系统及其辅助诊断方法
CN110414607A (zh) 胶囊内窥镜图像的分类方法、装置、设备及介质
CN113724185B (zh) 用于图像分类的模型处理方法、装置及存储介质
CN112381164A (zh) 一种基于多分支注意力机制的超声图像分类方法和装置
CN115423754A (zh) 一种图像分类方法、装置、设备及存储介质
CN113705595A (zh) 异常细胞转移程度的预测方法、装置和存储介质
Kaliyugarasan et al. Pulmonary nodule classification in lung cancer from 3D thoracic CT scans using fastai and MONAI
CN106202930B (zh) 一种基于ss-elm的肺结节患病风险预测系统
CN114283406A (zh) 细胞图像识别方法、装置、设备、介质及计算机程序产品
CN113435469A (zh) 一种基于深度学习的肾肿瘤增强ct图像自动识别系统及其训练方法
Singh et al. Preprocessing of Medical Images using Deep Learning: A Comprehensive Review
CN1820274A (zh) 使用机器学习来利用cad系统的常规使用期间所收集到的知识适配cad过程以对医学成像提供cad(计算机辅助决策 )支持
CN115311491A (zh) 一种基于课程学习及空间注意力的骨折假阳性筛除方法
CN113796850A (zh) 甲状旁腺mibi图像分析系统、计算机设备及存储介质
CN113822917A (zh) 一种肝癌影像组学图像精确配准方法
EP4022561A1 (en) Methods for analyzing and reducing inter/intra site variability using reduced reference images and improving radiologist diagnostic accuracy and consistency
CN111709946A (zh) 一种影像数据分析方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant