CN112164448B - 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 - Google Patents
免疫治疗疗效预测模型训练方法、预测系统及方法和介质 Download PDFInfo
- Publication number
- CN112164448B CN112164448B CN202011020742.2A CN202011020742A CN112164448B CN 112164448 B CN112164448 B CN 112164448B CN 202011020742 A CN202011020742 A CN 202011020742A CN 112164448 B CN112164448 B CN 112164448B
- Authority
- CN
- China
- Prior art keywords
- time
- information
- features
- time series
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 title claims abstract description 38
- 238000009169 immunotherapy Methods 0.000 title claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000009533 lab test Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 46
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 20
- 238000010200 validation analysis Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract 1
- 238000012795 verification Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 201000005202 lung cancer Diseases 0.000 description 5
- 208000020816 lung neoplasm Diseases 0.000 description 5
- 230000004083 survival effect Effects 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000000391 smoking effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 102100023990 60S ribosomal protein L17 Human genes 0.000 description 3
- 101710089372 Programmed cell death protein 1 Proteins 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000001647 drug administration Methods 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 238000001959 radiotherapy Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 239000012270 PD-1 inhibitor Substances 0.000 description 2
- 239000012668 PD-1-inhibitor Substances 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229940121655 pd-1 inhibitor Drugs 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Radiology & Medical Imaging (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及免疫治疗疗效预测模型的训练方法、预测系统及方法和介质,预测模型训练方法包括:获取病人历史基本临床信息、检验检测信息及治疗过程中专家进行的疗效评估信息;对只采集一次的基本临床信息进行编码处理,对采集了多次的时间序列信息进行归一化处理;将处理后的时间序列特征在时间维度进行降维,与处理后的基本临床信息结构化特征进行拼接,得到总特征,再使用多层感知机处理总特征,进行未来时间点特征预测,得到预测结果;结合预测结果在该未来时间点疗效评估信息计算损失,训练预测模型。本发明融合多模态数据进行建模,模型表达能力相比于单模态模型大大增强,通过结合历史数据,得到更准确的预测结果。
Description
技术领域
本发明涉及一种智能信息预测技术,具体涉及一种免疫治疗疗效的预测模型的训练方法、使用该预测模型的预测系统和预测方法和介质,属于人工智能技术领域。
背景技术
近年来,智能分析处理已经渗透到各个技术领域,并逐渐应用到临床医学中,被人们称之为智能疾病诊断分析,而在实际智能疾病诊断分析中经常会碰到需要处理多模态的情形,而临床医学诊断正是这样的多模态情形,目前已有的多源多模态智能分析方法和系统,但是时序通常都是同步的序列,例如有些多源多模态智能分析针对诸如心电图或脑电图等同步序列的进行处理分析,如公开号为CN107247881A的中国发明专利申请,其披露了一种多模态智能分析方法及系统,并具体公开了一种对文字数据,时间序列信号数据和视觉数据进行处理和诊断导航和诊断决策的系统及方法,通过模型训练,利用循环神经网络和卷积神经网络进行诊断导航和决策。但是上述专利虽然涉及多模态的时间序列,但是其主要是针对同步时序,比如脑电图和心电图这种同步时序的智能分析场景。
当前,在临床医学上面临着众多的异步时间序列,而分析处理异步时间序列的方法和系统相对较少,但是在实践中却存在着迫切的需求,这也是现代临床医学经常碰到的技术问题。
发明内容
为了克服现有技术不能处理免疫治疗过程中的异步时间序列信息的不足,本发明提出了一种能够对免疫治疗过程中的异步时间序列信息进行处理/预测的系统,及使用该系统对多种临床信息的异步时间序列信息进行预后疗效智能预测的方法,以及所述系统和方法中使用的预测模型的训练方法,以更加准确地针对多源异步时间序列信息进行处理与预测。
为实现上述目的,一方面,本发明提供了一种免疫治疗疗效预测模型的训练方法,包括:
搜集基本临床信息、不同时间拍摄的CT影像以及专家标注的针对每一个影像中主病灶的分割结果即专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息,并将搜集到的信息划分为训练集、验证集与测试集;
对上述搜集到的数据集进行预处理,其中,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT 影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;对疗效评估信息进行编码处理;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合,将时间维度降至一维,与预处理后的基本临床信息结构化特征进行拼接,得到总特征,对总特征进行建模,进行某时间点特征预测,得到预测结果;
结合预测结果在该时间点疗效评估信息计算损失,在训练集上训练预测模型;在验证集上,将处理后的验证集输入训练后的预测模型,得到该时间点预测结果,并与该该时间点疗效评估信息对比计算并评估模型性能,使用在验证集上具有最低损失的模型作为预测模型;在测试集上,将处理后的测试集输入验证后的预测模型,得到模型的测试性能,采用与验证结果可比的模型作为训练好的预测模型。如果测试集上的结果与验证结果不可比,则需要重新对模型进行训练,直到测试集上的结果与验证结果可比,再将对应的训练好的模型用于真实世界数据预测。
本发明中,对预处理后的异步时间序列特征在时间维度进行融合降维处理,除可采用现有的在时间维度降维的机器学习模型外,如循环神经网络,本发明还提出了一种新的时序注意力模型在时间维度融合降维,该时序注意力模型针对异步时间序列进行处理,将预处理后的异步时间序列特征在时间维度进行融合降维,具体步骤为:在所述将处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维的步骤中,(1)首先采用一个可利用反向传播算法优化的模型,如多层感知机、线性回归模型等,将一个预处理后的异步时间序列特征作为输入转换成其中T表示时间序列中时间点的数量,c0表示每一个时间点中特征的维度,c1是转换后时间序列中每一个时间点特征的维度,用表示X1中每一个时间点的特征,用表示T个时间点中相邻时间点的时间间隔;(2)对于转换后的异步时间序列特征X1,重复k次以下操作:
其中,n=T,x指任意的n维向量输入;本领域技术人员可以理解,k=1时,X2 (1)… X2 (T-1)为无用项,无需计算,只需计算X2 (T);(3)最后,取再将时间序列中最后一个时间戳与目标日期的时间差拼接至X3,得到完成 X1的融合降维,若数据集中后一个时间戳与目标日期的时间差均一致,则不需要拼接此特征至X3,此情况下将其他预处理后的异步时间序列特征通过前述步骤(1)、(2)和(3)逐一进行处理;将降维后的异步时间序列特征与预处理后的基本临床信息结构化特征进行拼接,得到总特征其中cs表示预处理后的基本临床信息结构化特征维度,cts表示经降维处理后的异步时间序列特征维度;对总特征进行建模,得到预测结果。所述对总特征进行建模可采用卷积神经网络、循环神经网络、支持向量机、随机森林或多层感知机等机器学习模型,也可采用先验函数,如指数函数、对数函数等进行建模。
另一方面,本发明还提供一种免疫治疗疗效预测系统,包括以下模块:
模块1:用于收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
模块2:用于将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
模块3:将模块2中预处理后的信息输入预行训练好的预测模型,对待预测对象进行某时间点特征预测,得到治疗效果的预测结果。
本发明还提供了一种免疫治疗疗效预测方法,包括以下步骤:
步骤1,收集待预测未来时间点疗效的对象的基本临床信息、不同时间拍摄的 CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
步骤2,将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于 CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
步骤3:将步骤2中处理后的信息输输入预先训练好的预测模型,对待预测对象进行某时间点特征预测,得到治疗效果的预测结果。
本发明还提供了一种计算机程序,包括计算机可执行指令,所述计算机可执行指令在被执行时使处理器执行本发明所述的模型训练方法。
本发明还提供了一种计算机设备,包括处理器、与所述处理器耦合的存储器,所述存储器用于存储指令,当所述指令被所述处理器执行时,使得所述处理器执行本发明所述的模型训练方法。
本发明所提供的系统和方法可以在免疫治疗临床干预开始之前预测患者预后,为临床医生的干预方案选择给出参考。本发明相比较现有技术有着显著提升的技术效果,具体如下:
1.本发明融合多模态数据进行建模,模型表达能力相比于单模态模型大大增强;
2.模型预测除了基于当前数据,还会结合历史数据,得到更准确的结果;
3.由于医疗数据的时间序列绝大多数都是非同步的,本发明所提供的方法可以处理此类数据,而传统时间序列数据处理方法仅能处理同步时间序列;
4.本系统采用深度学习,模型高度的非线性得到更佳结果;
5.本发明在肺癌二线免疫治疗中的疗效预测结果与病人的总体生存明显相关,使临床医生可以直接以生存为病人获益指标进行干预方案选择。
附图说明
图1是本发明一个实施例的模型训练方法的流程图;
图2是本发明一个实施例的多源异步时间序列处理模型原理图;
图3是本发明一个实施例的预测系统的模块图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
1.训练免疫治疗疗效预测模型
图1为一个示例性的预测模型训练过程。
搜集使用PD-1抑制剂治疗的肺癌患者的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息,并将其划分为训练集、验证集与测试集;
本发明中,所述基本临床信息指仅采集过一次的信息,主要包括病人性别、年龄、吸烟史、肿瘤家族史等;对于有的病人,在基线点采集了的血生化指标,也属于采集了一次的基本临床信息。对于在不同时间点采集了多次的数据外加采集时间的时间戳信息为时间序列信息,CT影像以及对应的专家分割标注和实验室检验信息均为采集了多次的信息,比如在给药治疗前后不同时间拍摄CT影像和专家对其进行的分割标注,为时间序列信息。临床干预状态信息,包括干预的时间和干预的种类,干预的种类包括在临床上的治疗信息,比如给药数据,包括给药种类、给药时间点等;治疗过程中专家进行的疗效评估信息,即真实特征信息。异步时间序列指时间间隔不定长的时间序列。
在一个实施例中,搜集了99例肺癌二线病人使用PD-1抑制剂进行免疫治疗前及过程中的基本临床信息(包括病人性别、年龄、吸烟史、肿瘤家族史、放疗史、病理类型、癌症分期)、多次不同时间拍摄的CT影像及专家分割标注(由影像科医生根据病历标注CT上的主病灶精准分割,并由高年资肿瘤科医生确认标注)、实验室检验信息、免疫治疗给药时间以及治疗过程中专家进行的疗效评估信息和对于每一个病人的免疫治疗开始时间以及结束时间,如果治疗没有结束,则将结束时间设定为当日后一日,得到临床干预时间段[Tstart,Tend]。将病人按照3:1:1的比例划分为训练集、验证集和测试集3个数据集。
对搜集到的数据集进行预处理,其中,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;对疗效评估信息进行编码处理;记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳;
本发明中,对类别信息进行编码处理,对连续值进行归一化处理。基本临床信息中包括类别信息和/或连续值,本领域技术人员可以理解,所述类别信息即是指离散数据,所述连续值即是指非离散数据,比如病人性别、吸烟史、肿瘤家族史、放疗史、病理类型、癌症分期为类别信息,进行编码处理;年龄是连续值,进行归一化处理;将编码处理和归一化处理后的特征拼接;时间序列信息也包括类别信息和/ 或连续值,对于时间序列信息中的类别信息也进行编码处理,对于其中的连续值进行归一化,将编码处理和归一化处理后的特征拼接;除影像组学时间序列和实验室检验信息时间序列外,还有其他时间序列,如多次采集的血生化指标及对应时间戳为时间序列信息,这几个时间序列都是连续值,因此均进行归一化处理。
在一个实施例中,使用PyRadiomics(Python 3.7.3,PyRadiomics 2.2.0)提取CT影像中专家分割标注区域的影像组学时间序列特征信息,针对每套CT得到107维的影像组学时间序列特征统计训练集中所有影像组学时间序列特征的均值和方差,对所有数据集中的所有影像组学时间序列特征进行归一化处理:
其中为训练集上所有时间序列特征均值,为训练集上所有时间序列特征标准差。然后对于每套CT是否在对应病人的治疗时间段即临床干预时间段内增加一维特征,如果在治疗过程中,在上新增一维数据1,如果不在治疗过程中,在上新增一维数据0,最终得到108维的处理后的影像组学时间序列特征。将每一个病人的108维的处理后的影像组学时间序列特征按时间从最近到最远排序,得到病人的处理后总影像组学时间序列特征并记录时间序列数据点中两两数据点间的时间间隔和时间序列数据中每个时间点的时间戳其中Trad表示该病人影像组学时间序列中时间点的数量。
统计训练集中所有实验室检验信息的均值和方差,对所有实验室检验信息特征进行归一化,归一化方法与上述影像组学特征处理中的归一化方法相同,只是将所有影像组学时间序列特征替换为实验室检验信息时间序列特征进行归一化。然后对于每次实验室检验时间点是否在对应病人的治疗时间段内增加一维特征,如果在治疗过程中,在上新增一维数据1,如果不在治疗过程中,在上新增一维数据0,最终得到处理后的实验室检验信息时间序列特征将每一个病人的处理后的实验室检验信息时间序列特征按时间从最近到最远排序,得到病人的处理后的总实验室检验信息特征并记录时间序列数据点中两两数据点间的时间间隔和时间序列数据中每个时间点的时间戳其中Tlab表示该病人实验室检验信息时间序列中时间点的数量。
将基本临床信息中类别信息(男/女,是/否有吸烟史,是/否有肿瘤家族史,是/ 否进行过放疗,病理类型,癌症分期)进行one-hot编码处理;对于连续值信息(年龄)统计在训练集上的均值和方差,进行归一化,归一化方法与上述影像组学特征处理中的归一化方法相同,只是将所有影像组学时间序列特征替换为基本临床信息特征进行归一化,拼接类别信息和连续值信息得到病人的基本临床信息结构化特征
将处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合,将时间维度降至一维,与预处理后的基本临床信息结构化特征进行拼接,得到总特征,通过对总特征进行建模,进行未来某时间点特征预测,得到预测结果;结合预测结果在该未来时间点疗效评估信息计算损失,在训练集上训练预测模型;
在一个实施例中,利用循环神经网络训练得到预测模型,本领域技术人员可以理解利用循环神经网络训练得到预测模型的具体过程,在此不再赘述。在一个实施例中,针对本发明提出的多源异步时间序列处理模型的处理过程进行了详细说明,所述多源异步时间序列处理模型的原理如图2所示,利用异步时间序列处理模型对处理后的影像组学时间序列特征及时间信息( 实验室检验信息时间序列特征及时间信息( 基本临床信息结构化特征(进行处理并训练模型,处理和训练过程如下:
其中n=T,x指任意的n维向量输入,T表示时间序列中时间点的数量;得到变换后的特征其中τ(1),...,τ(T-1)为Δtrad中的元素,即T个时间点中相邻时间点的时间间隔,其中λ和β是可学习的参数,计算时间差:
然后,拼接X″′rad、x″′lab以及Xbasic,得到使用无隐藏层的MLP处理 Xall得到输出结果本实施例中ccls=2,代表预测治疗有效、无效2类分类。最后使用softmax激活函数,使Sum(Ocls)=1。
在预处理过的训练集上,采样每一个疗效评估时间点疗效评估信息为一个训练数据真值点yt=Xeval (t),其中t是Xeval上的索引,取此时间点往前推δt天的日期 tsample=teval-δt,在此实施例中,δt=90。取tsample当天及以前所有的影像组学特征信息、实验室检验信息作为输入特征Xrad、Xlab,如果影像组学特征信息或实验室检验信息在tsample当天及以前无数据点,则取相应信息距离tsample最近的数据点作为输入特征,使用Xrad、Xlab以及Xbasic作为输入进入多源异步时间序列处理模型,得到预测分类结果Ocls。使用交叉熵作为分类损失函数计算Ocls对于yt的损失Lcls,训练多源异步时间序列处理模型。
用前述预处理过的验证集/测试集,输入上述训练集训练后的多源异步时间序列处理模型处理,得到分类结果,并针对该预测的分类结果,在验证集/测试集上进行 ROC(Receiver operating characteristic,接收者操作特征曲线)分析来分析本系统性能。使用在验证集上最高的AUC来确定最佳模型用来在测试集上做分类。在一个实施例中,验证集AUC是0.809,测试集ROC曲线下面积(AUC)达到0.790;另外在测试集中,还根据预测结果,将病人分为两组:预测有效及预测无效,分别绘制病人的中位无进展时间(PFS)以及总体生存时间(OS)的Kaplan-Meier(K-M)曲线,分别计算曲线的p值,确认模型预测能很好区分预测有效/预测无效两组病人的生存状态;在一个实施例中,测试集的PFS K-M曲线p值以及OSK-M曲线p值均小于 0.001,本领域中,p值小于0.05即可视为模型很好地区分了两组病人的生存状态,表明该训练过的模型可以用于预测,从而得到预测模型。
2.用训练好的预测模型对病人进行免疫治疗疗效预测的方法
步骤1,收集待预测未来时间点PD-1治疗疗效的肺癌患者病人的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
步骤2,将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于 CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳;
步骤3:将步骤2中处理后的信息输入本发明预先训练过的预测模型,对待预测病人进行未来时间点治疗疗效预测,得到疗效预测结果Ocls。
本发明进一步采用三种现有模型与多源异步时间序列处理模型进行对比,分别为RNN(无时间间隔信息,AUC0.70)、仅使用基线影像数据建模(AUC0.60)、仅使用基线实验室检验信息建模(AUC0.44);在一个实施例中,多源异步时间序列处理模型测试集AUC为0.79,对比方法AUC分别为0.70、0.60和0.44,多源异步时间序列处理模型显著优于现有其他模型预测的结果。将该测试集AUC为0.79的多源异步时间序列处理模型用于病人PD-1治疗疗效结果的预测。
上述对比结果可以看出:(1)对于单组学/单时间点来说,多组学多时间点更好。(2)同样对于多组学/多时间点建模,多源异步时间序列处理模型效果更好。
3.用训练好的预测模型对病人进行免疫治疗疗效预测的系统
图3为一个示例性的免疫治疗疗效预测系统示意图,该预测系统包括:
数据收集模块:用于收集待预测未来时间点PD-1免疫治疗疗效的肺癌病人的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;其中,所述临床干预状态信息为免疫治疗给药数据。
预处理模块:用于将上述收集到的信息进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳;
预测模块:将预处理模块处理后的信息输入预先训练过的预测模型,对待预测病人进行未来时间点疗效预测,得到疗效预测结果。
对应于图1中的预测模型训练方法,本发明实施例还提供了一种计算机设备,该设备包括处理器、与所述处理器耦合的存储器及存储在该存储器并可在该处理器上运行的指令,所述指令为计算机程序,其中,上述处理器执行上述计算机程序时实现上述预测模型训练方法的步骤。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员在不脱离本发明的精神和范围内,均可做出各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
以上本发明所提供的实施例仅为示例性的,而其仅仅是为了举例说明,而非限制性地,任何以本发明精神为核心的实施方式/变形/组合都是落入本发明的保护范围。
Claims (6)
1.免疫治疗疗效预测模型的训练方法,其特征在于,包括:
搜集基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息,并将其划分为训练集、验证集与测试集;
对上述搜集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;对疗效评估信息进行编码处理;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维,与预处理后的基本临床信息结构化特征进行拼接,得到总特征,对总特征进行建模,进行某时间点特征预测,得到预测结果;
结合预测结果在该时间点疗效评估信息计算损失,在训练集上训练预测模型;在验证集上,将处理后的验证集输入训练后的预测模型,得到该时间点预测结果,并与该时间点疗效评估信息对比计算并评估模型性能,使用在验证集上具有最低损失的模型作为预测模型;在测试集上,将处理后的测试集输入验证后的预测模型,得到模型的测试性能,采用与验证结果可比的模型作为预测模型。
2.根据权利要求1所述的免疫治疗疗效预测模型的训练方法,其特征在于,所述将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维的步骤为:(1)首先利用一个可利用反向传播算法优化的模型,将一个预处理后的异步时间序列特征作为输入转换成X1,对于转换后的异步时间序列特征X1,用表示其中每一个时间点的特征,用表示T个时间点中相邻时间点的时间间隔,其中c1是异步时间序列中每一个时间点特征的维度,T表示时间序列中时间点的数量;(2)重复k次以下操作:
……
3.一种免疫治疗疗效预测系统,其特征在于,包括以下模块:
模块1:用于收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
模块2:用于将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
模块3:将模块2中预处理后的信息输入权利要求1或2所述的预测模型,对待预测对象进行某时间点疗效预测,得到疗效预测结果。
4.一种免疫治疗疗效预测方法,其特征在于,包括以下步骤:
步骤1,收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的CT影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息;
步骤2,将上述收集到的数据集进行预处理,对基本临床信息中的类别信息进行编码处理,对连续值进行归一化处理,拼接得到基本临床信息结构化特征;对于CT影像,提取每一次CT影像中专家分割标注的影像组学时间序列特征,进行归一化处理,同时记录该影像组学时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征;对实验室检验信息的时间序列特征,进行归一化处理,同时记录该时间序列特征中每一个时间点的临床干预状态,得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征;记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳;
步骤3:将步骤2中处理后的信息输入权利要求1或2所述的预测模型,对待预测对象进行某时间点疗效预测,得到疗效预测结果。
5.一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令在被执行时使处理器执行如权利要求1或2所述的方法。
6.一种计算机设备,包括处理器、与所述处理器耦合的存储器,所述存储器用于存储指令,当所述指令被所述处理器执行时,使得所述处理器执行如权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011020742.2A CN112164448B (zh) | 2020-09-25 | 2020-09-25 | 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011020742.2A CN112164448B (zh) | 2020-09-25 | 2020-09-25 | 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164448A CN112164448A (zh) | 2021-01-01 |
CN112164448B true CN112164448B (zh) | 2021-06-22 |
Family
ID=73863796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011020742.2A Active CN112164448B (zh) | 2020-09-25 | 2020-09-25 | 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164448B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192598A (zh) * | 2021-02-02 | 2021-07-30 | 中国中医科学院针灸研究所 | taVNS疗法的疗效预测方法及系统 |
CN113724187B (zh) * | 2021-03-16 | 2025-06-27 | 腾讯科技(深圳)有限公司 | 医疗影像处理方法、装置、电子设备和存储介质 |
CN113066549B (zh) * | 2021-04-06 | 2022-07-26 | 青岛瑞斯凯尔生物科技有限公司 | 基于人工智能的医疗器械的临床有效性评估方法及系统 |
CN113380410A (zh) * | 2021-06-11 | 2021-09-10 | 广州医科大学附属中医医院 | 一种基于蚕食法和脉复生的tao疗效预测系统 |
CN115036002B (zh) * | 2021-11-12 | 2023-07-18 | 广州医科大学附属第一医院(广州呼吸中心) | 一种基于多模态融合模型的治疗效果预测方法及终端设备 |
CN114334162A (zh) * | 2022-01-11 | 2022-04-12 | 平安科技(深圳)有限公司 | 疾病患者智能预后预测方法、装置、存储介质及设备 |
WO2023211476A1 (en) * | 2022-04-26 | 2023-11-02 | Ge Healthcare Limited | Model generation apparatus for therapeutic prediction and associated methods and models |
CN117809858A (zh) * | 2024-03-01 | 2024-04-02 | 北京肿瘤医院(北京大学肿瘤医院) | 免疫治疗效果预测方法及装置 |
CN119170284A (zh) * | 2024-09-02 | 2024-12-20 | 四川大学华西医院 | 基于循环神经网络的koa康复治疗效果模拟方法及系统 |
CN119274729B (zh) * | 2024-09-23 | 2025-06-17 | 南京中医药大学 | 一种基于多模态驱动的知识图谱疗效辅助监管系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009042686A1 (en) * | 2007-09-27 | 2009-04-02 | Perlegen Sciences, Inc. | Methods for genetic analysis |
CN107247881A (zh) * | 2017-06-20 | 2017-10-13 | 北京大数医达科技有限公司 | 一种多模态智能分析方法及系统 |
CN109493979A (zh) * | 2018-10-23 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于智能决策的疾病预测方法和装置 |
CN109598266A (zh) * | 2018-10-24 | 2019-04-09 | 深圳大学 | 基于机器学习的下肢深静脉血栓溶栓疗效预测方法及系统 |
CN110604550A (zh) * | 2019-09-24 | 2019-12-24 | 广州医科大学附属肿瘤医院 | 一种肿瘤放疗后正常组织器官并发症的预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX365418B (es) * | 2012-06-26 | 2019-06-03 | Biodesix Inc | Metodo por espectros de masa para la seleccion y descarte de pacientes de cancer para el tratamiento con terapias generadoras de respuestas inmunitarias. |
CN104866727A (zh) * | 2015-06-02 | 2015-08-26 | 陈宽 | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 |
CN107194137B (zh) * | 2016-01-31 | 2023-05-23 | 北京万灵盘古科技有限公司 | 一种基于医疗数据建模的坏死性小肠结肠炎分类预测方法 |
CN111640503B (zh) * | 2020-05-29 | 2023-09-26 | 上海市肺科医院 | 一种晚期肺癌患者的肿瘤突变负荷的预测系统及方法 |
-
2020
- 2020-09-25 CN CN202011020742.2A patent/CN112164448B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009042686A1 (en) * | 2007-09-27 | 2009-04-02 | Perlegen Sciences, Inc. | Methods for genetic analysis |
CN107247881A (zh) * | 2017-06-20 | 2017-10-13 | 北京大数医达科技有限公司 | 一种多模态智能分析方法及系统 |
CN109493979A (zh) * | 2018-10-23 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于智能决策的疾病预测方法和装置 |
CN109598266A (zh) * | 2018-10-24 | 2019-04-09 | 深圳大学 | 基于机器学习的下肢深静脉血栓溶栓疗效预测方法及系统 |
CN110604550A (zh) * | 2019-09-24 | 2019-12-24 | 广州医科大学附属肿瘤医院 | 一种肿瘤放疗后正常组织器官并发症的预测方法 |
Non-Patent Citations (1)
Title |
---|
"基于深度卷积神经网络的医学影像诊断关键技术研究";庞浩;《中国博士学位论文全文数据库(信息科技辑)》;20190915;第I138-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112164448A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164448B (zh) | 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 | |
US20200337580A1 (en) | Time series data learning and analysis method using artificial intelligence | |
Ukwuoma et al. | Deep learning framework for rapid and accurate respiratory COVID-19 prediction using chest X-ray images | |
Subanya et al. | Feature selection using Artificial Bee Colony for cardiovascular disease classification | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
Xiao et al. | Heart coronary artery segmentation and disease risk warning based on a deep learning algorithm | |
Chen et al. | Automated Alzheimer's disease classification using deep learning models with Soft-NMS and improved ResNet50 integration | |
Alkhasawneh | Hybrid cascade forward neural network with Elman neural network for disease prediction | |
Hu et al. | Graph fusion network-based multimodal learning for freezing of gait detection | |
CN113421652A (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
Bhaskar et al. | A computationally efficient correlational neural network for automated prediction of chronic kidney disease | |
Mutlu et al. | Prediction of maternal health risk with traditional machine learning methods | |
CN113855038A (zh) | 基于多模型集成的心电信号危急值的预测方法及装置 | |
CN111915024A (zh) | 一种序列预测模型训练方法、预测系统及预测方法和介质 | |
Gao et al. | Deep model-based semi-supervised learning way for outlier detection in wireless capsule endoscopy images | |
Kirubakaran et al. | Echo state learned compositional pattern neural networks for the early diagnosis of cancer on the internet of medical things platform | |
CN115896242A (zh) | 一种基于外周血免疫特征的癌症智能筛查模型及方法 | |
CN114191665A (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
Hassan et al. | Lung disease detection using EasyNet | |
Fischer et al. | End-to-end learning with interpretation on electrohysterography data to predict preterm birth | |
Thompson et al. | Detection of Obstructive Sleep Apnoea Using Features Extracted From Segmented Time-Series ECG Signals With a One Dimensional Convolutional Neural Network | |
Zhou et al. | Use of disease embedding technique to predict the risk of progression to end-stage renal disease | |
Liu et al. | Automated Machine Learning for Epileptic Seizure Detection Based on EEG Signals. | |
Seo et al. | A Deep Neural Network Based Wake-After-Sleep-Onset Time Aware Sleep Apnea Severity Estimation Scheme Using Single-Lead ECG Data | |
Mohapatra et al. | Automated invasive cervical cancer disease detection at early stage through deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |