CN112164448B - 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 - Google Patents

免疫治疗疗效预测模型训练方法、预测系统及方法和介质 Download PDF

Info

Publication number
CN112164448B
CN112164448B CN202011020742.2A CN202011020742A CN112164448B CN 112164448 B CN112164448 B CN 112164448B CN 202011020742 A CN202011020742 A CN 202011020742A CN 112164448 B CN112164448 B CN 112164448B
Authority
CN
China
Prior art keywords
information
time
time series
prediction
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011020742.2A
Other languages
English (en)
Other versions
CN112164448A (zh
Inventor
陆舜
杨健程
陈嘉骏
葛亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Diannei Shanghai Biotechnology Co ltd
Shanghai Chest Hospital
Original Assignee
Diannei Shanghai Biotechnology Co ltd
Shanghai Chest Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Diannei Shanghai Biotechnology Co ltd, Shanghai Chest Hospital filed Critical Diannei Shanghai Biotechnology Co ltd
Priority to CN202011020742.2A priority Critical patent/CN112164448B/zh
Publication of CN112164448A publication Critical patent/CN112164448A/zh
Application granted granted Critical
Publication of CN112164448B publication Critical patent/CN112164448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及免疫治疗疗效预测模型的训练方法、预测系统及方法和介质,预测模型训练方法包括:获取病人历史基本临床信息、检验检测信息及治疗过程中专家进行的疗效评估信息;对只采集一次的基本临床信息进行编码处理,对采集了多次的时间序列信息进行归一化处理;将处理后的时间序列特征在时间维度进行降维,与处理后的基本临床信息结构化特征进行拼接,得到总特征,再使用多层感知机处理总特征,进行未来时间点特征预测,得到预测结果;结合预测结果在该未来时间点疗效评估信息计算损失,训练预测模型。本发明融合多模态数据进行建模,模型表达能力相比于单模态模型大大增强,通过结合历史数据,得到更准确的预测结果。

Description

免疫治疗疗效预测模型训练方法、预测系统及方法和介质
技术领域
本发明涉及一种智能信息预测技术,具体涉及一种免疫治疗疗效的预测模型的训练方法、使用该预测模型的预测系统和预测方法和介质,属于人工智能技术领域。
背景技术
近年来,智能分析处理已经渗透到各个技术领域,并逐渐应用到临床医学中,被人们称之为智能疾病诊断分析,而在实际智能疾病诊断分析中经常会碰到需要处理多模态的情形,而临床医学诊断正是这样的多模态情形,目前已有的多源多模态智能分析方法和系统,但是时序通常都是同步的序列,例如有些多源多模态智能分析针对诸如心电图或脑电图等同步序列的进行处理分析,如公开号为CN107247881A的中国发明专利申请,其披露了一种多模态智能分析方法及系统,并具体公开了一种对文字数据,时间序列信号数据和视觉数据进行处理和诊断导航和诊断决策的系统及方法,通过模型训练,利用循环神经网络和卷积神经网络进行诊断导航和决策。但是上述专利虽然涉及多模态的时间序列,但是其主要是针对同步时序,比如脑电图和心电图这种同步时序的智能分析场景。
当前,在临床医学上面临着众多的异步时间序列,而分析处理异步时间序列的方法和系统相对较少,但是在实践中却存在着迫切的需求,这也是现代临床医学经常碰到的技术问题。
发明内容
为了克服现有技术不能处理免疫治疗过程中的异步时间序列信息的不足,本发明提出了一种能够对免疫治疗过程中的异步时间序列信息进行处理/预测的系统,及使用该系统对多种临床信息的异步时间序列信息进行预后疗效智能预测的方法,以及所述系统和方法中使用的预测模型的训练方法,以更加准确地针对多源异步时间序列信息进行处理与预测。
为实现上述目的,一方面,本发明提供了一种免疫治疗疗效预测模型的训练方法,包括:
搜集基本临床信息、不同时间拍摄的CT影像以及专家标注的针对每一个影像中主病灶的分割结果即专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息,并将搜集到的信息划分为训练集、验证集与测试集;
对上述搜集到的数据集进行预处理,其中,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT 影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;对疗效评估信息进行编码处理;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合,将时间维度降至一维,与预处理后的基本临床信息结构化特征进行拼接,得到总特征,对总特征进行建模,进行某时间点特征预测,得到预测结果;
结合预测结果在该时间点疗效评估信息计算损失,在训练集上训练预测模型;在验证集上,将处理后的验证集输入训练后的预测模型,得到该时间点预测结果,并与该该时间点疗效评估信息对比计算并评估模型性能,使用在验证集上具有最低损失的模型作为预测模型;在测试集上,将处理后的测试集输入验证后的预测模型,得到模型的测试性能,采用与验证结果可比的模型作为训练好的预测模型。如果测试集上的结果与验证结果不可比,则需要重新对模型进行训练,直到测试集上的结果与验证结果可比,再将对应的训练好的模型用于真实世界数据预测。
本发明中,对预处理后的异步时间序列特征在时间维度进行融合降维处理,除可采用现有的在时间维度降维的机器学习模型外,如循环神经网络,本发明还提出了一种新的时序注意力模型在时间维度融合降维,该时序注意力模型针对异步时间序列进行处理,将预处理后的异步时间序列特征在时间维度进行融合降维,具体步骤为:在所述将处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维的步骤中,(1)首先采用一个可利用反向传播算法优化的模型,如多层感知机、线性回归模型等,将一个预处理后的异步时间序列特征
Figure BDA0002700528370000021
作为输入转换成
Figure BDA0002700528370000022
其中T表示时间序列中时间点的数量,c0表示每一个时间点中特征的维度,c1是转换后时间序列中每一个时间点特征的维度,用
Figure BDA0002700528370000031
表示X1中每一个时间点的特征,用
Figure BDA0002700528370000032
表示T个时间点中相邻时间点的时间间隔;(2)对于转换后的异步时间序列特征X1,重复k次以下操作:
Figure BDA0002700528370000033
Figure BDA0002700528370000034
转换成
Figure BDA0002700528370000035
其中λ和β是可学习的参数,k为可调整的超参数,softmax的定义为:
Figure BDA0002700528370000036
其中,n=T,x指任意的n维向量输入;本领域技术人员可以理解,k=1时,X2 (1)… X2 (T-1)为无用项,无需计算,只需计算X2 (T);(3)最后,取
Figure BDA0002700528370000037
再将时间序列中最后一个时间戳与目标日期的时间差拼接至X3,得到
Figure BDA0002700528370000038
完成 X1的融合降维,若数据集中后一个时间戳与目标日期的时间差均一致,则不需要拼接此特征至X3,此情况下
Figure BDA0002700528370000039
将其他预处理后的异步时间序列特征通过前述步骤(1)、(2)和(3)逐一进行处理;将降维后的异步时间序列特征与预处理后的基本临床信息结构化特征进行拼接,得到总特征
Figure BDA00027005283700000310
其中cs表示预处理后的基本临床信息结构化特征维度,cts表示经降维处理后的异步时间序列特征维度;对总特征进行建模,得到预测结果。所述对总特征进行建模可采用卷积神经网络、循环神经网络、支持向量机、随机森林或多层感知机等机器学习模型,也可采用先验函数,如指数函数、对数函数等进行建模。
另一方面,本发明还提供一种免疫治疗疗效预测系统,包括以下模块:
模块1:用于收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
模块2:用于将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
模块3:将模块2中预处理后的信息输入预行训练好的预测模型,对待预测对象进行某时间点特征预测,得到治疗效果的预测结果。
本发明还提供了一种免疫治疗疗效预测方法,包括以下步骤:
步骤1,收集待预测未来时间点疗效的对象的基本临床信息、不同时间拍摄的 CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
步骤2,将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于 CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
步骤3:将步骤2中处理后的信息输输入预先训练好的预测模型,对待预测对象进行某时间点特征预测,得到治疗效果的预测结果。
本发明还提供了一种计算机程序,包括计算机可执行指令,所述计算机可执行指令在被执行时使处理器执行本发明所述的模型训练方法。
本发明还提供了一种计算机设备,包括处理器、与所述处理器耦合的存储器,所述存储器用于存储指令,当所述指令被所述处理器执行时,使得所述处理器执行本发明所述的模型训练方法。
本发明所提供的系统和方法可以在免疫治疗临床干预开始之前预测患者预后,为临床医生的干预方案选择给出参考。本发明相比较现有技术有着显著提升的技术效果,具体如下:
1.本发明融合多模态数据进行建模,模型表达能力相比于单模态模型大大增强;
2.模型预测除了基于当前数据,还会结合历史数据,得到更准确的结果;
3.由于医疗数据的时间序列绝大多数都是非同步的,本发明所提供的方法可以处理此类数据,而传统时间序列数据处理方法仅能处理同步时间序列;
4.本系统采用深度学习,模型高度的非线性得到更佳结果;
5.本发明在肺癌二线免疫治疗中的疗效预测结果与病人的总体生存明显相关,使临床医生可以直接以生存为病人获益指标进行干预方案选择。
附图说明
图1是本发明一个实施例的模型训练方法的流程图;
图2是本发明一个实施例的多源异步时间序列处理模型原理图;
图3是本发明一个实施例的预测系统的模块图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
1.训练免疫治疗疗效预测模型
图1为一个示例性的预测模型训练过程。
搜集使用PD-1抑制剂治疗的肺癌患者的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息,并将其划分为训练集、验证集与测试集;
本发明中,所述基本临床信息指仅采集过一次的信息,主要包括病人性别、年龄、吸烟史、肿瘤家族史等;对于有的病人,在基线点采集了的血生化指标,也属于采集了一次的基本临床信息。对于在不同时间点采集了多次的数据外加采集时间的时间戳信息为时间序列信息,CT影像以及对应的专家分割标注和实验室检验信息均为采集了多次的信息,比如在给药治疗前后不同时间拍摄CT影像和专家对其进行的分割标注,为时间序列信息。临床干预状态信息,包括干预的时间和干预的种类,干预的种类包括在临床上的治疗信息,比如给药数据,包括给药种类、给药时间点等;治疗过程中专家进行的疗效评估信息,即真实特征信息。异步时间序列指时间间隔不定长的时间序列。
在一个实施例中,搜集了99例肺癌二线病人使用PD-1抑制剂进行免疫治疗前及过程中的基本临床信息(包括病人性别、年龄、吸烟史、肿瘤家族史、放疗史、病理类型、癌症分期)、多次不同时间拍摄的CT影像及专家分割标注(由影像科医生根据病历标注CT上的主病灶精准分割,并由高年资肿瘤科医生确认标注)、实验室检验信息、免疫治疗给药时间以及治疗过程中专家进行的疗效评估信息和对于每一个病人的免疫治疗开始时间以及结束时间,如果治疗没有结束,则将结束时间设定为当日后一日,得到临床干预时间段[Tstart,Tend]。将病人按照3:1:1的比例划分为训练集、验证集和测试集3个数据集。
对搜集到的数据集进行预处理,其中,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;对疗效评估信息进行编码处理;记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳;
本发明中,对类别信息进行编码处理,对连续值进行归一化处理。基本临床信息中包括类别信息和/或连续值,本领域技术人员可以理解,所述类别信息即是指离散数据,所述连续值即是指非离散数据,比如病人性别、吸烟史、肿瘤家族史、放疗史、病理类型、癌症分期为类别信息,进行编码处理;年龄是连续值,进行归一化处理;将编码处理和归一化处理后的特征拼接;时间序列信息也包括类别信息和/ 或连续值,对于时间序列信息中的类别信息也进行编码处理,对于其中的连续值进行归一化,将编码处理和归一化处理后的特征拼接;除影像组学时间序列和实验室检验信息时间序列外,还有其他时间序列,如多次采集的血生化指标及对应时间戳为时间序列信息,这几个时间序列都是连续值,因此均进行归一化处理。
在一个实施例中,使用PyRadiomics(Python 3.7.3,PyRadiomics 2.2.0)提取CT影像中专家分割标注区域的影像组学时间序列特征信息,针对每套CT得到107维的影像组学时间序列特征
Figure BDA0002700528370000072
统计训练集中所有影像组学时间序列特征的均值和方差,对所有数据集中的所有影像组学时间序列特征进行归一化处理:
Figure BDA0002700528370000071
其中
Figure BDA0002700528370000073
为训练集上所有时间序列特征均值,
Figure BDA0002700528370000074
为训练集上所有时间序列特征标准差。然后对于每套CT是否在对应病人的治疗时间段即临床干预时间段内增加一维特征,如果在治疗过程中,在
Figure BDA0002700528370000075
上新增一维数据1,如果不在治疗过程中,在
Figure BDA0002700528370000076
上新增一维数据0,最终得到108维的处理后的影像组学时间序列特征。将每一个病人的108维的处理后的影像组学时间序列特征按时间从最近到最远排序,得到病人的处理后总影像组学时间序列特征
Figure BDA0002700528370000077
并记录时间序列数据点中两两数据点间的时间间隔
Figure BDA0002700528370000078
和时间序列数据中每个时间点的时间戳
Figure BDA0002700528370000079
其中Trad表示该病人影像组学时间序列中时间点的数量。
统计训练集中所有实验室检验信息的均值和方差,对所有实验室检验信息特征
Figure BDA00027005283700000710
进行归一化,归一化方法与上述影像组学特征处理中的归一化方法相同,只是将所有影像组学时间序列特征替换为实验室检验信息时间序列特征进行归一化。然后对于每次实验室检验时间点是否在对应病人的治疗时间段内增加一维特征,如果在治疗过程中,在
Figure BDA00027005283700000711
上新增一维数据1,如果不在治疗过程中,在
Figure BDA00027005283700000712
上新增一维数据0,最终得到处理后的实验室检验信息时间序列特征
Figure BDA00027005283700000713
将每一个病人的处理后的实验室检验信息时间序列特征
Figure BDA00027005283700000714
按时间从最近到最远排序,得到病人的处理后的总实验室检验信息特征
Figure BDA00027005283700000715
并记录时间序列数据点中两两数据点间的时间间隔
Figure BDA0002700528370000081
和时间序列数据中每个时间点的时间戳
Figure BDA0002700528370000082
其中Tlab表示该病人实验室检验信息时间序列中时间点的数量。
对疗效评估信息进行one-hot编码,每一个病人得到疗效评估信息时间序列特征
Figure BDA0002700528370000083
疗效评估点的时间戳
Figure BDA0002700528370000084
以及疗效评估点间两两时间间隔
Figure BDA0002700528370000085
将基本临床信息中类别信息(男/女,是/否有吸烟史,是/否有肿瘤家族史,是/ 否进行过放疗,病理类型,癌症分期)进行one-hot编码处理;对于连续值信息(年龄)统计在训练集上的均值和方差,进行归一化,归一化方法与上述影像组学特征处理中的归一化方法相同,只是将所有影像组学时间序列特征替换为基本临床信息特征进行归一化,拼接类别信息和连续值信息得到病人的基本临床信息结构化特征
Figure BDA0002700528370000086
将处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合,将时间维度降至一维,与预处理后的基本临床信息结构化特征进行拼接,得到总特征,通过对总特征进行建模,进行未来某时间点特征预测,得到预测结果;结合预测结果在该未来时间点疗效评估信息计算损失,在训练集上训练预测模型;
在一个实施例中,利用循环神经网络训练得到预测模型,本领域技术人员可以理解利用循环神经网络训练得到预测模型的具体过程,在此不再赘述。在一个实施例中,针对本发明提出的多源异步时间序列处理模型的处理过程进行了详细说明,所述多源异步时间序列处理模型的原理如图2所示,利用异步时间序列处理模型对处理后的影像组学时间序列特征及时间信息(
Figure BDA0002700528370000087
Figure BDA0002700528370000088
实验室检验信息时间序列特征及时间信息(
Figure BDA0002700528370000089
Figure BDA00027005283700000810
基本临床信息结构化特征(
Figure BDA00027005283700000811
进行处理并训练模型,处理和训练过程如下:
使用时序注意力模型SimTArad处理影像组学时间序列特征:使用无隐藏层的 MLP将输入的影像组学时间序列特征
Figure BDA00027005283700000812
转换成
Figure BDA00027005283700000813
对于转换后的异步时间序列特征X′rad,通过1次以下操作:
Figure BDA0002700528370000091
Figure BDA0002700528370000092
其中n=T,x指任意的n维向量输入,T表示时间序列中时间点的数量;得到变换后的特征
Figure BDA0002700528370000096
其中τ(1),...,τ(T-1)为Δtrad中的元素,即T个时间点中相邻时间点的时间间隔,其中λ和β是可学习的参数,计算时间差:
Figure BDA0002700528370000093
将时间差δtrad拼接至X″rad得到
Figure BDA0002700528370000097
Figure BDA0002700528370000098
为trad中最近的时间点时间;
使用时序注意力模型SimTAlab处理实验室检验信息特征:使用无隐藏层的MLP 将输入的实验室检验信息时间序列特征
Figure BDA0002700528370000099
转换成
Figure BDA00027005283700000910
对于转换后的异步时间序列X′lab,通过1次以下操作:
Figure BDA0002700528370000094
得到变换后的特征
Figure BDA00027005283700000911
其中τ(1),...,τ(T-1)为Δtlab中的元素,计算时间差
Figure BDA0002700528370000095
将δtlab拼接至X″lab得到
Figure BDA00027005283700000912
其中
Figure BDA00027005283700000913
为tlab中最近的时间点时间;
然后,拼接X″′rad、x″′lab以及Xbasic,得到
Figure BDA00027005283700000914
使用无隐藏层的MLP处理 Xall得到输出结果
Figure BDA00027005283700000915
本实施例中ccls=2,代表预测治疗有效、无效2类分类。最后使用softmax激活函数,使Sum(Ocls)=1。
在预处理过的训练集上,采样每一个疗效评估时间点疗效评估信息为一个训练数据真值点yt=Xeval (t),其中t是Xeval上的索引,取此时间点往前推δt天的日期 tsample=teval-δt,在此实施例中,δt=90。取tsample当天及以前所有的影像组学特征信息、实验室检验信息作为输入特征Xrad、Xlab,如果影像组学特征信息或实验室检验信息在tsample当天及以前无数据点,则取相应信息距离tsample最近的数据点作为输入特征,使用Xrad、Xlab以及Xbasic作为输入进入多源异步时间序列处理模型,得到预测分类结果Ocls。使用交叉熵作为分类损失函数计算Ocls对于yt的损失Lcls,训练多源异步时间序列处理模型。
用前述预处理过的验证集/测试集,输入上述训练集训练后的多源异步时间序列处理模型处理,得到分类结果,并针对该预测的分类结果,在验证集/测试集上进行 ROC(Receiver operating characteristic,接收者操作特征曲线)分析来分析本系统性能。使用在验证集上最高的AUC来确定最佳模型用来在测试集上做分类。在一个实施例中,验证集AUC是0.809,测试集ROC曲线下面积(AUC)达到0.790;另外在测试集中,还根据预测结果,将病人分为两组:预测有效及预测无效,分别绘制病人的中位无进展时间(PFS)以及总体生存时间(OS)的Kaplan-Meier(K-M)曲线,分别计算曲线的p值,确认模型预测能很好区分预测有效/预测无效两组病人的生存状态;在一个实施例中,测试集的PFS K-M曲线p值以及OSK-M曲线p值均小于 0.001,本领域中,p值小于0.05即可视为模型很好地区分了两组病人的生存状态,表明该训练过的模型可以用于预测,从而得到预测模型。
2.用训练好的预测模型对病人进行免疫治疗疗效预测的方法
步骤1,收集待预测未来时间点PD-1治疗疗效的肺癌患者病人的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
步骤2,将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于 CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳;
步骤3:将步骤2中处理后的信息输入本发明预先训练过的预测模型,对待预测病人进行未来时间点治疗疗效预测,得到疗效预测结果Ocls
本发明进一步采用三种现有模型与多源异步时间序列处理模型进行对比,分别为RNN(无时间间隔信息,AUC0.70)、仅使用基线影像数据建模(AUC0.60)、仅使用基线实验室检验信息建模(AUC0.44);在一个实施例中,多源异步时间序列处理模型测试集AUC为0.79,对比方法AUC分别为0.70、0.60和0.44,多源异步时间序列处理模型显著优于现有其他模型预测的结果。将该测试集AUC为0.79的多源异步时间序列处理模型用于病人PD-1治疗疗效结果的预测。
上述对比结果可以看出:(1)对于单组学/单时间点来说,多组学多时间点更好。(2)同样对于多组学/多时间点建模,多源异步时间序列处理模型效果更好。
3.用训练好的预测模型对病人进行免疫治疗疗效预测的系统
图3为一个示例性的免疫治疗疗效预测系统示意图,该预测系统包括:
数据收集模块:用于收集待预测未来时间点PD-1免疫治疗疗效的肺癌病人的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;其中,所述临床干预状态信息为免疫治疗给药数据。
预处理模块:用于将上述收集到的信息进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳;
预测模块:将预处理模块处理后的信息输入预先训练过的预测模型,对待预测病人进行未来时间点疗效预测,得到疗效预测结果。
对应于图1中的预测模型训练方法,本发明实施例还提供了一种计算机设备,该设备包括处理器、与所述处理器耦合的存储器及存储在该存储器并可在该处理器上运行的指令,所述指令为计算机程序,其中,上述处理器执行上述计算机程序时实现上述预测模型训练方法的步骤。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员在不脱离本发明的精神和范围内,均可做出各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
以上本发明所提供的实施例仅为示例性的,而其仅仅是为了举例说明,而非限制性地,任何以本发明精神为核心的实施方式/变形/组合都是落入本发明的保护范围。

Claims (6)

1.免疫治疗疗效预测模型的训练方法,其特征在于,包括:
搜集基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息,并将其划分为训练集、验证集与测试集;
对上述搜集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;对疗效评估信息进行编码处理;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维,与预处理后的基本临床信息结构化特征进行拼接,得到总特征,对总特征进行建模,进行某时间点特征预测,得到预测结果;
结合预测结果在该时间点疗效评估信息计算损失,在训练集上训练预测模型;在验证集上,将处理后的验证集输入训练后的预测模型,得到该时间点预测结果,并与该时间点疗效评估信息对比计算并评估模型性能,使用在验证集上具有最低损失的模型作为预测模型;在测试集上,将处理后的测试集输入验证后的预测模型,得到模型的测试性能,采用与验证结果可比的模型作为预测模型。
2.根据权利要求1所述的免疫治疗疗效预测模型的训练方法,其特征在于,所述将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维的步骤为:(1)首先利用一个可利用反向传播算法优化的模型,将一个预处理后的异步时间序列特征作为输入转换成X1,对于转换后的异步时间序列特征X1,用
Figure DEST_PATH_IMAGE002
表示其中每一个时间点的特征,用
Figure DEST_PATH_IMAGE004
表示T个时间点中相邻时间点的时间间隔,其中c1是异步时间序列中每一个时间点特征的维度,T表示时间序列中时间点的数量;(2)重复k次以下操作:
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
……
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
转换成
Figure DEST_PATH_IMAGE016
,其中λ和β是可学习的参数,k为可调整的超参数,softmax的定义为:
Figure DEST_PATH_IMAGE018
其中n=T,x指任意的n维向量输入;(3)最后,取
Figure DEST_PATH_IMAGE020
,再将时间序列中最后一个时间戳与目标日期的时间差拼接至X3,得到
Figure DEST_PATH_IMAGE022
;其他预处理后的时间序列特征通过前述步骤(1)、(2)和(3)逐一进行处理,将时间维度降至一维。
3.一种免疫治疗疗效预测系统,其特征在于,包括以下模块:
模块1:用于收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
模块2:用于将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
模块3:将模块2中预处理后的信息输入权利要求1或2所述的预测模型,对待预测对象进行某时间点疗效预测,得到疗效预测结果。
4.一种免疫治疗疗效预测方法,其特征在于,包括以下步骤:
步骤1,收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
步骤2,将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
步骤3:将步骤2中处理后的信息输入权利要求1或2所述的预测模型,对待预测对象进行某时间点疗效预测,得到疗效预测结果。
5.一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令在被执行时使处理器执行如权利要求1或2所述的方法。
6.一种计算机设备,包括处理器、与所述处理器耦合的存储器,所述存储器用于存储指令,当所述指令被所述处理器执行时,使得所述处理器执行如权利要求1或2所述的方法。
CN202011020742.2A 2020-09-25 2020-09-25 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 Active CN112164448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011020742.2A CN112164448B (zh) 2020-09-25 2020-09-25 免疫治疗疗效预测模型训练方法、预测系统及方法和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011020742.2A CN112164448B (zh) 2020-09-25 2020-09-25 免疫治疗疗效预测模型训练方法、预测系统及方法和介质

Publications (2)

Publication Number Publication Date
CN112164448A CN112164448A (zh) 2021-01-01
CN112164448B true CN112164448B (zh) 2021-06-22

Family

ID=73863796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011020742.2A Active CN112164448B (zh) 2020-09-25 2020-09-25 免疫治疗疗效预测模型训练方法、预测系统及方法和介质

Country Status (1)

Country Link
CN (1) CN112164448B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192598A (zh) * 2021-02-02 2021-07-30 中国中医科学院针灸研究所 taVNS疗法的疗效预测方法及系统
CN113066549B (zh) * 2021-04-06 2022-07-26 青岛瑞斯凯尔生物科技有限公司 基于人工智能的医疗器械的临床有效性评估方法及系统
CN113380410A (zh) * 2021-06-11 2021-09-10 广州医科大学附属中医医院 一种基于蚕食法和脉复生的tao疗效预测系统
CN115036002B (zh) * 2021-11-12 2023-07-18 广州医科大学附属第一医院(广州呼吸中心) 一种基于多模态融合模型的治疗效果预测方法及终端设备
CN114334162A (zh) * 2022-01-11 2022-04-12 平安科技(深圳)有限公司 疾病患者智能预后预测方法、装置、存储介质及设备
WO2023211476A1 (en) * 2022-04-26 2023-11-02 Ge Healthcare Limited Model generation apparatus for therapeutic prediction and associated methods and models
CN117809858A (zh) * 2024-03-01 2024-04-02 北京肿瘤医院(北京大学肿瘤医院) 免疫治疗效果预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009042686A1 (en) * 2007-09-27 2009-04-02 Perlegen Sciences, Inc. Methods for genetic analysis
CN107247881A (zh) * 2017-06-20 2017-10-13 北京大数医达科技有限公司 一种多模态智能分析方法及系统
CN109493979A (zh) * 2018-10-23 2019-03-19 平安科技(深圳)有限公司 一种基于智能决策的疾病预测方法和装置
CN109598266A (zh) * 2018-10-24 2019-04-09 深圳大学 基于机器学习的下肢深静脉血栓溶栓疗效预测方法及系统
CN110604550A (zh) * 2019-09-24 2019-12-24 广州医科大学附属肿瘤医院 一种肿瘤放疗后正常组织器官并发症的预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104685360B (zh) * 2012-06-26 2018-02-13 比奥德希克斯股份有限公司 用于选择和去选择用产生免疫应答的疗法治疗的癌症患者的质谱方法
CN113421652B (zh) * 2015-06-02 2024-06-28 推想医疗科技股份有限公司 对医疗数据进行分析的方法、训练模型的方法及分析仪
CN107194137B (zh) * 2016-01-31 2023-05-23 北京万灵盘古科技有限公司 一种基于医疗数据建模的坏死性小肠结肠炎分类预测方法
CN111640503B (zh) * 2020-05-29 2023-09-26 上海市肺科医院 一种晚期肺癌患者的肿瘤突变负荷的预测系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009042686A1 (en) * 2007-09-27 2009-04-02 Perlegen Sciences, Inc. Methods for genetic analysis
CN107247881A (zh) * 2017-06-20 2017-10-13 北京大数医达科技有限公司 一种多模态智能分析方法及系统
CN109493979A (zh) * 2018-10-23 2019-03-19 平安科技(深圳)有限公司 一种基于智能决策的疾病预测方法和装置
CN109598266A (zh) * 2018-10-24 2019-04-09 深圳大学 基于机器学习的下肢深静脉血栓溶栓疗效预测方法及系统
CN110604550A (zh) * 2019-09-24 2019-12-24 广州医科大学附属肿瘤医院 一种肿瘤放疗后正常组织器官并发症的预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度卷积神经网络的医学影像诊断关键技术研究";庞浩;《中国博士学位论文全文数据库(信息科技辑)》;20190915;第I138-22页 *

Also Published As

Publication number Publication date
CN112164448A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112164448B (zh) 免疫治疗疗效预测模型训练方法、预测系统及方法和介质
US20200337580A1 (en) Time series data learning and analysis method using artificial intelligence
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
Xiao et al. Heart coronary artery segmentation and disease risk warning based on a deep learning algorithm
Ukwuoma et al. Deep learning framework for rapid and accurate respiratory COVID-19 prediction using chest X-ray images
CN117598700B (zh) 智能化血氧饱和度检测系统及方法
KR102483693B1 (ko) 설명 가능한 다중 심전도 부정맥 진단 장치 및 방법
CN112784856A (zh) 胸部x射线图像的通道注意力特征提取方法和识别方法
CN111915024A (zh) 一种序列预测模型训练方法、预测系统及预测方法和介质
Chandrasekaran et al. Fuzzy KNN Implementation for Early Parkinson's Disease Prediction
Hu et al. Graph fusion network-based multimodal learning for freezing of gait detection
Al-Ma’aitah et al. Enhanced computational model for gravitational search optimized echo state neural networks based oral cancer detection
US20220284581A1 (en) Systems and methods for evaluating the brain after onset of a stroke using computed tomography angiography
Bhaskar et al. A computationally efficient correlational neural network for automated prediction of chronic kidney disease
Gao et al. Deep model-based semi-supervised learning way for outlier detection in wireless capsule endoscopy images
Chen et al. Automated Alzheimer's disease classification using deep learning models with Soft-NMS and improved ResNet50 integration
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
Sengupta et al. Analyzing historical diagnosis code data from NIH N3C and RECOVER Programs using deep learning to determine risk factors for Long Covid
Khachnaoui et al. Enhanced Parkinson’s Disease Diagnosis Through Convolutional Neural Network Models Applied to SPECT DaTSCAN Images
Liu et al. Automated Machine Learning for Epileptic Seizure Detection Based on EEG Signals.
CN116469570A (zh) 一种基于电子病历的恶性肿瘤并发症分析方法
Mohapatra et al. Automated invasive cervical cancer disease detection at early stage through deep learning
Huang et al. Parkinson's severity diagnosis explainable model based on 3D multi-head attention residual network
Joshi et al. A Review on Application of Machine Learning in Medical Diagnosis
JP2023545704A (ja) エクスポソーム臨床応用のためのシステム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant