CN113270189A - 一种基于强化学习的肿瘤治疗辅助决策方法 - Google Patents
一种基于强化学习的肿瘤治疗辅助决策方法 Download PDFInfo
- Publication number
- CN113270189A CN113270189A CN202110546178.6A CN202110546178A CN113270189A CN 113270189 A CN113270189 A CN 113270189A CN 202110546178 A CN202110546178 A CN 202110546178A CN 113270189 A CN113270189 A CN 113270189A
- Authority
- CN
- China
- Prior art keywords
- treatment
- patient
- tumor
- reinforcement learning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011282 treatment Methods 0.000 title claims abstract description 144
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 98
- 230000002787 reinforcement Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005284 excitation Effects 0.000 claims abstract description 38
- 230000000694 effects Effects 0.000 claims abstract description 28
- 230000007704 transition Effects 0.000 claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 238000003745 diagnosis Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000003384 imaging method Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 12
- 230000000306 recurrent effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000002560 therapeutic procedure Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000011470 radical surgery Methods 0.000 claims description 11
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 206010017758 gastric cancer Diseases 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 201000011549 stomach cancer Diseases 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 238000011275 oncology therapy Methods 0.000 claims description 7
- 238000002512 chemotherapy Methods 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 4
- 229940079593 drug Drugs 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 4
- 238000001959 radiotherapy Methods 0.000 claims description 4
- 238000011269 treatment regimen Methods 0.000 claims description 4
- 238000002483 medication Methods 0.000 claims description 3
- 238000011499 palliative surgery Methods 0.000 claims description 3
- 230000000391 smoking effect Effects 0.000 claims description 3
- 238000001356 surgical procedure Methods 0.000 claims description 3
- 238000001794 hormone therapy Methods 0.000 claims description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000003187 abdominal effect Effects 0.000 description 3
- 150000001720 carbohydrates Chemical class 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 206010027476 Metastases Diseases 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010036067 polydipsia Diseases 0.000 description 2
- YXTKHLHCVFUPPT-YYFJYKOTSA-N (2s)-2-[[4-[(2-amino-5-formyl-4-oxo-1,6,7,8-tetrahydropteridin-6-yl)methylamino]benzoyl]amino]pentanedioic acid;(1r,2r)-1,2-dimethanidylcyclohexane;5-fluoro-1h-pyrimidine-2,4-dione;oxalic acid;platinum(2+) Chemical compound [Pt+2].OC(=O)C(O)=O.[CH2-][C@@H]1CCCC[C@H]1[CH2-].FC1=CNC(=O)NC1=O.C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 YXTKHLHCVFUPPT-YYFJYKOTSA-N 0.000 description 1
- 102100023635 Alpha-fetoprotein Human genes 0.000 description 1
- 108010008629 CA-125 Antigen Proteins 0.000 description 1
- 102000007269 CA-125 Antigen Human genes 0.000 description 1
- 102100025475 Carcinoembryonic antigen-related cell adhesion molecule 5 Human genes 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010061876 Obstruction Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001093 anti-cancer Effects 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000002575 gastroscopy Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法,所述方法构建并训练患者状态转移模型与治疗决策模型,所述患者状态转移模型通过循环神经网络对肿瘤患者的状态变化进行建模,利用实际诊疗中获取到的诊疗方案与检查指标作为数据来源,模拟肿瘤患者在某种诊疗方案下的状态变化;所述治疗决策模型通过强化学习对治疗肿瘤患者的过程进行建模,利用患者状态转移模型作为数据来源,构建深层Q网络(DQN)作为策略网络,以RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准为基础构造激励函数,进行迭代训练。本发明可在一定程度上减轻肿瘤专科医生的工作量,模型所预测的治疗手段可作为决策参考而减少医生的决策失误,辅助医生指定可行的治疗方案。
Description
技术领域
本发明属于医疗领域,涉及一种医疗用计算机辅助决策方法,尤其涉及一种基于强化学习的肿瘤治疗的辅助决策方法。
背景技术
强化学习是机器学习的一个重要分支,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其基本原理是:如果智能体的某个行为策略导致环境正的奖励信号,那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。比如围棋的局面是状态,智能体要学习的就是每一种局面应该如何落子。
肿瘤是机体在各种致癌因素作用下,局部组织的某一个细胞在基因水平上失去对其生长的正常调控,导致其克隆性异常增生而形成的新生物。肿瘤分为良性肿瘤和恶性肿瘤,良性肿瘤对机体的影响较小,主要表现为局部压迫和阻塞症状,其影响主要与发生部位和后续变化有关;恶性肿瘤由于分化不成熟、生长较快,浸润破坏器官的结构和功能,并可发生转移,因而对机体影响严重。
对于肿瘤的治疗与患者的生命安全息息相关,而对肿瘤治疗做出决策的肿瘤专科医生工作繁重、压力巨大,对于病情容易误判或漏判,从而做出不适当的治疗决策。
发明内容
为克服现存的肿瘤治疗手段决策过程中存在的肿瘤专科医生工作量大,易做出不适当决策的缺陷,本发明公开了一种基于强化学习的肿瘤治疗辅助决策方法。
本发明所述基于强化学习的肿瘤治疗辅助决策方法,包括通过循环神经网络训练得到患者状态转移模型,并将所述患者状态转移模型作为强化学习的环境,训练得到治疗决策模型。由于强化学习的训练过程中做出的决策并不都是正确的,不可能为了获取错误决策下患者的反应而事实上对患者进行决策所对应的治疗,因此需要一个模型来模拟患者在不同状态下经受不同治疗手段后状态的变化,即本发明所述患者状态转移模型。治疗决策模型以前者为基础,模拟推断诊疗方案对患者的效果,从而找到理论最佳的诊疗方案。
本发明采用以下技术方案:
一种基于强化学习的肿瘤治疗辅助决策方法,其特征在于,包括如下步骤:
S1:将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型;
S2:将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型;
S3:通过治疗决策模型输出预测的治疗方案。
所述步骤S1中的患者历史诊疗信息包括患者基础信息和治疗方案。
所述步骤S1中,将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型包括如下步骤:
S11:初始化患者状态向量h0,计算公式如下:
h0=σh(Aκ+b0)
其中,σh是激活函数;A是线性空间变换矩阵;κ是患者基础信息向量;b0是偏移向量;
S12:求出时间步i的输入向量xi,计算公式如下:
S13:将患者状态向量h0和输入向量xi输入循环神经网络RNN,在循环神经网络中计算得到时间步i的患者状态向量hi,计算公式如下:
hi=σh(Whxt+Uhht-1+bh)
其中,σh是激活函数,Wh和Uh是线性空间变换矩阵,bh是偏移向量;
其中,σy是激活函数,Wy是线性空间变换矩阵,by是偏移向量;
S15:计算损失函数loss,计算公式如下:
其中,t是时间步数;n是yi的长度;yij代表取向量yi的第j个标量,cross_entrophy为交叉熵,用于衡量yj与的差异大小;部分j为空,时间步间隔为一个月,当前是第t个时间步,当且仅当t被3整除的时候,TNM肿瘤影像学分期标准的yj对应值不为空;当且仅当t被12整除的时候,RECIST实体瘤疗效评价标准的yj对应值不为空;
S16:构建RNN网络,训练得到所述患者状态转移模型。
所述步骤S2中,将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型的过程包括如下步骤:
S21:输入所述环境输出的状态,所述状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策;所述状态嵌入成向量,记作st;
S22:通过策略网络对状态st进行分类;将第i种治疗方案记作ai,则策略网络输出为当前状态下使用不同治疗方案的概率P(ai|st);具体公式可表示如下:
P(ai|st)=DQN(F1(st))
F1=Relu(w1*st+b1)
其中Relu为线性整流函数,w1是线性空间变换矩阵,b1是偏移向量;
S23:针对n种治疗方案,通过策略网络计算当前状态下采取每一种治疗方案的概率,具体表示如下:
P=(P(a1|st),P(a2|st)...P(an|st))
S24:将t-1时刻的患者状态以及t时刻的诊疗方案输入所述环境,输出预测的t时刻的患者状态;
S25:重复步骤S21-S24,直至诊疗模型预测出患者的检查指标为止,称为采样一轮,如此重复N轮,便得到策略网络所需要的训练数据X:
X=(τ1,τ2,τ3...τN)
其中τi的每一对数据分别是时间步i-1时的策略网络状态和与之对应的预测出的时间步i所选择的治疗方案且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准;
S26:根据RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准指标偏离正常指标的程度计算出决策所对应的激励;治疗后的各项指标相比于治疗之前,愈趋近于正常指标,则激励愈高,反之亦然,公式如下:
R=(r1,r2)
其中,RECISTti根据当前时间步模型输出的RECIST指标进行赋值:若所述RECIST指标为CR,则激励为10;若所述RECIST指标为PR,则激励为5;若所述RECIST指标为SD,则激励为0;若所述RECIST指标为PD,则激励为-5。TNMstageti为当前时间步模型输出的TNM指标:若所述TNM指标中的指标M从0转1,则激励为-20;若M不变,将激励预设为0,再根据所述TNM指标中的指标T与N的变化来改变激励的值,T或N每减小1,激励增加5,每增加1,激励减少5;
S27:通过上述建模、采样后,计算最大化激励,计算公式为:
S28:构建强化学习网络,训练得到治疗决策模型。
所述环境输出的状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策;
所述步骤S3中,通过治疗决策模型输出预测的治疗方案的过程具体如下:
将患者当前的状态与历史治疗决策输入治疗决策模型,所述治疗决策模型输出下个时间步所需做出的治疗决策。
若所述患者是胃癌患者,所述治疗方案包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗。
所述患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。
所述策略网络可以是深层Q网络(DQN)。
综上所述,本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法,其中患者状态转移模型经训练后可以模拟患者在不同状态下接受不同治疗后的状态变化,治疗决策模型经训练后可以根据患者的当前状态预测可行的治疗方案,辅助医生指定真实治疗方案,以减轻患者痛苦。采用本发明所述的肿瘤治疗辅助决策方法,根据患者当前状态预测可行的治疗方案,能够大幅提高肿瘤医生的诊疗效率并提升肿瘤治疗方案选择的稳定性,对肿瘤医生判断肿瘤进一步的治疗方案有较好的辅助决策效果。
附图说明
图1示出依据本发明的实施方式,基于强化学习的肿瘤治疗辅助决策方法的患者状态转移模型的流程框图。
图2示出依据本发明的实施方式,基于强化学习的肿瘤治疗辅助决策方法的治疗决策模型的流程框图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点与功效。本发明亦可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰和变更。
本发明采用以下技术方案:
一种基于强化学习的肿瘤治疗辅助决策方法,其特征在于,包括如下步骤:
S1:构建并训练患者状态转移模型,此模型通过循环神经网络对肿瘤患者的状态变化进行建模,并利用实际诊疗中获取到的诊疗方案与检查指标作为数据来源,旨在模拟肿瘤患者在某种诊疗方案下的身体变化;
S2:构建并训练治疗决策模型,此模型通过强化学习对治疗肿瘤患者的过程进行建模,并利用患者状态转移模型作为数据来源,旨在辅助医生指定可行的治疗方案,以减轻患者痛苦;
S3:通过治疗决策模型输出预测的治疗方案。
如图1所示,步骤S1中的患者状态转移模型的具体构建流程,包括如下步骤:
S11:初始化患者状态向量h0,计算方式如下:
h0=σh(Aκ+b0)
其中,σh是激活函数;A是线性空间变换矩阵;κ是患者基础信息向量;b0是偏移向量。患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。
参数中肿瘤五项标志物具体为:AFP甲胎蛋白,CEA癌胚抗原,CA199糖类扼原,CA125糖类抗原,CA724糖类抗原。
参数中KPS卡氏评分是一种功能状态评分标准。KPS得分越高,健康状况越好,越能忍受治疗给身体带来的副作用,因而也就有可能接受彻底的治疗。一般认为80分以上为非依赖级(independent),即生活自理级。50~70分为半依赖级(semi-independent),即生活半自理。50分以下为依赖级(dependent),即生活需要别人帮助。大于80分者术后状态较好,存活期较长;而低于60分的话,许多有效的抗肿瘤治疗就无法实施;
S12:求出时间步i的输入向量xi,计算方式如下:
其中,是激活函数;B是线性空间变换矩阵;xi是治疗方案向量;b1是偏移向量。治疗方案以胃癌为例,包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗等。而每种治疗方案又有进一步的细分,以胃癌根治性手术和化疗为例,胃癌根治性手术分为开腹D1根治术、腹腔镜D1根治术、开腹D1+根治术、腹腔镜D1+根治术、开腹D2根治术、腹腔镜D2根治术等;化疗方式分为CapeOX、S-1、FOLFOX、SOX、XP等;
S13:计算得到时间步i的患者状态向量hi,计算方式如下:
hi=σh(Whxt+Uhht-1+bh)
其中,σh是激活函数,Wh和Uh是线性空间变换矩阵,bh是偏移向量;
RECIST实体瘤疗效评价标准是一种通过肿瘤缩小量来评估疗效的评价方法,它在WHO疗效评价标准的基础上进行了必要的修改和补充,采用简易精确的单径测量代替传统的双径测量方法,并保留了WHO标准中的CP(完全缓解)、PR(部分缓解)、SD(疾病进展)、PD(疾病稳定)。
TNM分期法国际抗癌协会对各种常见肿瘤进行统一分期,便于设计治疗方案和评价疗效,以探讨治疗规律,能客观地评价肿瘤治疗结果。简单来说,TNM表示肿瘤范围,即T(原发肿瘤),N(区域淋巴结),M(远处转移);
S15:模型的优化目标,即损失函数loss,计算方式如下:
其中,t是时间步数;n是yi的长度;yij代表取向量yi的第j个标量,cross_entrophy为交叉熵,用于衡量yj与的差异大小;square error为平方误差函数;部分j为空,因为某些时间步中不包含全部数据,时间步间隔是一个月,假设当前是第t个时间步,当且仅当t被3整除的时候,TNM肿瘤影像学分期标准的yj对应值不为空;当且仅当t被12整除的时候,RECIST实体瘤疗效评价标准的yj对应值不为空;
S16:构建RNN网络,用适量患者历史诊疗信息做训练,即可得到所述患者状态转移模型,其具体效用为:输入患者初始状态与各时间步诊疗方案,输出患者各个时间步的状态向量与检查指标。
本治疗决策模型属于强化学习,通用的强化学习有五个重要组成部分:状态、环境、决策网络、行为以及激励。其中状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策。在实际模型中,将患者的状态嵌入成向量。整个模型使用状态作为输入,旨在预测当前状态下应采取的最佳治疗措施。
如图2所示,步骤S2中的治疗决策模型的具体构建流程,包括如下步骤:
S21:输入所述环境输出的状态,所述状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策;所述状态嵌入成向量,记作st;
S22:本治疗决策模型的决策网络所解决的问题可以抽象为一个多分类问题,输入患者当前时间步的状态es,通过强化学习领域常用的深层Q网络(DQN)进行分类。将第i种治疗方案记作ai,则策略网络输出为当前状态下使用不同治疗方案的概率P(ai|st);具体公式可表示如下:
P(a|st)=DQN(F1(st))
F1=Relu(w1*st+b1)
其中Relu为线性整流函数,w1是线性空间变换矩阵,b1是偏移向量;
S23:本治疗决策模型的行为:即医生可采取的治疗手段,同上所述,以胃癌为例,包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗等;通过策略网络可以得到当前状态下采取每一种治疗方案的概率,一共有n种治疗方案,表示如下:
P=(P(a1|st),P(a2|st)...P(an|st))
S24:本治疗决策模型的环境:使用之前建立的患者状态转移模型作为本模型的环境。患者状态转移模型本质上为一个循环神经网络,输入t-1时刻的患者状态以及t时刻的诊疗方案,得到预测的t时刻的患者状态。在该模型效果较好的基础上,可以近似认为该模型刻画了真实环境下诊疗方案对于患者的改善情况;
S25:通过策略网络预测患者当前状态下应采取的诊疗方案,同时利用患者状态转移模型产生该诊疗方案下患者下一步的状态,再带入策略网络中。重复步骤S21-S24,直至诊疗模型预测出患者的检查指标为止,称为采样一轮,如此重复N轮,便得到策略网络所需要的训练数据X:
X=(τ1,τ2,τ3...τN)
其中τi的每一对数据分别是时间步i-1时的策略网络状态和与之对应的预测出的时间步i所选择的治疗方案且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准;
S26:本治疗决策模型的激励:重点关注患者各检查指标的变化,因此激励指标为经过一系列治疗决策后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准的变化。具体来讲,采样过程中会保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准,根据各项指标偏离正常指标的程度计算出该系列决策所对应的激励;治疗后的各项指标相比于治疗之前,愈趋近于正常指标,则激励愈高,反之亦然,例如:相比于治疗之前,患者的肿瘤病灶半径减少30%,RECIST指标即为PR(部分缓解),TNM分期也从T3N1M0转为T2N1M0,则两项指标均显示此次治疗有良好成效,则激励为正值,鼓励治疗决策模型在下次遇到相同的病例时做出同样的治疗决策。激励的公式可以表示如下:
R=(r1,r2)
其中,RECISTti根据当前时间步模型输出的RECIST指标进行赋值:若所述RECIST指标为CR,则激励为10;若所述RECIST指标为PR,则激励为5;若所述RECIST指标为SD,则激励为0;若所述RECIST指标为PD,则激励为-5。TNMstageti为当前时间步模型输出的TNM指标:若所述TNM指标中的指标M从0转1,则激励为-20;若M不变,将激励预设为0,再根据所述TNM指标中的指标T与N的变化来改变激励的值,T或N每减小1,激励增加5,每增加1,激励减少5;
S27:通过上述建模、采样后,优化目标为最大化激励,具体为:
S28:构建强化学习网络,用前述患者状态转移模型作为状态输入,即可迭代训练得到治疗决策模型。
步骤S3中,通过治疗决策模型输出预测的治疗方案的过程具体如下:
训练好的治疗决策模型通过输入患者当前的状态与历史治疗决策,即可输出下个时间步所需做出的治疗决策。达到辅助医生指定可行的治疗方案,以减轻患者痛苦的目的。
综上所述,本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法,其中患者状态转移模型经训练后可以模拟患者在不同状态下接受不同治疗后的状态变化,治疗决策模型经训练后可以根据患者的当前状态预测可行的治疗方案,辅助医生指定真实治疗方案,以减轻患者痛苦。采用本发明所述的肿瘤治疗辅助决策方法,根据患者当前状态预测可行的治疗方案,能够大幅提高肿瘤医生的诊疗效率并提升肿瘤治疗方案选择的稳定性,对肿瘤医生判断肿瘤进一步的治疗方案有较好的辅助决策效果。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.一种基于强化学习的肿瘤治疗辅助决策方法,其特征在于,包括如下步骤:
S1:将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型;
S2:将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型;
S3:通过治疗决策模型输出预测的治疗方案。
2.如权利要求1所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于:所述步骤S1中的患者历史诊疗信息包括患者基础信息和治疗方案。
3.如权利要求2所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于:所述步骤S1中,将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型包括如下步骤:
S11:初始化患者状态向量h0,计算公式如下:
h0=σh(Aκ+b0)
其中,σh是激活函数;A是线性空间变换矩阵;κ是患者基础信息向量;b0是偏移向量;
S12:求出时间步i的输入向量xi,计算公式如下:
S13:将患者状态向量h0和输入向量xi输入循环神经网络RNN,在循环神经网络中计算得到时间步i的患者状态向量hi,计算公式如下:
hi=σh(Whxt+Uhht-1+bh)
其中,σh是激活函数,Wh和Uh是线性空间变换矩阵,bh是偏移向量;
其中,σy是激活函数,Wy是线性空间变换矩阵,by是偏移向量;
S15:计算损失函数loss,计算公式如下:
其中,t是时间步数;n是yi的长度;yij代表取向量yi的第j个标量,cross_entrophy为交叉熵,用于衡量yj与的差异大小;部分j为空,时间步间隔为一个月,当前是第t个时间步,当且仅当t被3整除的时候,TNM肿瘤影像学分期标准的yj对应值不为空;当且仅当t被12整除的时候,RECIST实体瘤疗效评价标准的yj对应值不为空;
S16:构建RNN网络,训练得到所述患者状态转移模型。
4.如权利要求3所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述步骤S2中,将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型的过程包括如下步骤:
S21:输入所述环境输出的状态,所述状态嵌入成向量,记作st;
S22:通过策略网络对状态st进行分类;将第i种治疗方案记作ai,则策略网络输出为当前状态下使用不同治疗方案的概率P(ai|st);具体公式可表示如下:
P(ai|st)=DQN(F1(st))
F1=Relu(w1*st+b1)
其中Relu为线性整流函数,w1是线性空间变换矩阵,b1是偏移向量;
S23:针对n种治疗方案,通过策略网络计算当前状态下采取每一种治疗方案的概率,具体表示如下:
P=(P(a1|st),P(a2|st)...P(an|st))
S24:将t-1时刻的患者状态以及t时刻的诊疗方案输入所述环境,输出预测的t时刻的患者状态;
S25:重复步骤S21-S24,直至诊疗模型预测出患者的检查指标为止,称为采样一轮,如此重复N轮,便得到策略网络所需要的训练数据x:
x=(τ1,τ2,τ3…τN)
其中τi的每一对数据分别是时间步i-1时的策略网络状态和与之对应的预测出的时间步i所选择的治疗方案且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准;
S26:根据RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准指标偏离正常指标的程度计算出决策所对应的激励;治疗后的各项指标相比于治疗之前,愈趋近于正常指标,则激励愈高,反之亦然,公式如下:
R=(r1,r2)
其中,RECISTti根据当前时间步模型输出的RECIST指标进行赋值:若所述RECIST指标为CR,则激励为10;若所述RECIST指标为PR,则激励为5;若所述RECIST指标为SD,则激励为0;若所述RECIST指标为PD,则激励为-5。TNMstageti为当前时间步模型输出的TNM指标:若所述TNM指标中的指标M从0转1,则激励为-20;若M不变,将激励预设为0,再根据所述TNM指标中的指标T与N的变化来改变激励的值,T或N每减小1,激励增加5,每增加1,激励减少5;
S27:通过上述建模、采样后,计算最大化激励,计算公式为:
S28:构建强化学习网络,训练得到治疗决策模型。
5.如权利要求3所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述环境输出的状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策。
6.如权利要求5所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述步骤S3中,通过治疗决策模型输出预测的治疗方案的过程具体如下:
将患者当前的状态与历史治疗决策输入治疗决策模型,所述治疗决策模型输出下个时间步所需做出的治疗决策。
7.如权利要求6所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,若所述患者是胃癌患者,所述治疗方案包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗。
8.如权利要求7所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。
10.如权利要求4-9中任一项所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述策略网络可以是深层Q网络(DQN)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110546178.6A CN113270189B (zh) | 2021-05-19 | 2021-05-19 | 一种基于强化学习的肿瘤治疗辅助决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110546178.6A CN113270189B (zh) | 2021-05-19 | 2021-05-19 | 一种基于强化学习的肿瘤治疗辅助决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113270189A true CN113270189A (zh) | 2021-08-17 |
CN113270189B CN113270189B (zh) | 2023-08-18 |
Family
ID=77232155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110546178.6A Active CN113270189B (zh) | 2021-05-19 | 2021-05-19 | 一种基于强化学习的肿瘤治疗辅助决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270189B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083555A (zh) * | 2022-08-22 | 2022-09-20 | 四川省医学科学院·四川省人民医院 | 一种社区慢性病辅助决策系统 |
CN115423054A (zh) * | 2022-11-07 | 2022-12-02 | 北京智精灵科技有限公司 | 基于认知障碍患者人格特征的不定时训练激励方法及系统 |
WO2023050668A1 (zh) * | 2021-09-30 | 2023-04-06 | 平安科技(深圳)有限公司 | 基于因果推断的分群模型构建方法和医疗数据处理方法 |
CN117275661A (zh) * | 2023-11-23 | 2023-12-22 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851464A (zh) * | 2015-08-17 | 2018-03-27 | 西门子保健有限责任公司 | 用于针对个体患者进行疾病进展建模和疗法优化的方法和系统 |
US20180314938A1 (en) * | 2017-04-28 | 2018-11-01 | SparkCognition, Inc. | Pre-processing for data-driven model creation |
CN109378065A (zh) * | 2018-10-30 | 2019-02-22 | 医渡云(北京)技术有限公司 | 医疗数据处理方法及装置、存储介质、电子设备 |
CN110297908A (zh) * | 2019-07-01 | 2019-10-01 | 中国医学科学院医学信息研究所 | 诊疗方案预测方法及装置 |
CN110349668A (zh) * | 2019-07-11 | 2019-10-18 | 四川大学 | 一种基于bp神经网络的治疗方案辅助决策方法及其系统 |
CN111353998A (zh) * | 2020-05-13 | 2020-06-30 | 温州医科大学附属第一医院 | 一种基于人工智能的肿瘤诊疗预测模型及装置 |
CN111477320A (zh) * | 2020-03-11 | 2020-07-31 | 北京大学第三医院(北京大学第三临床医学院) | 治疗效果预测模型的构建系统、治疗效果预测系统及终端 |
-
2021
- 2021-05-19 CN CN202110546178.6A patent/CN113270189B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851464A (zh) * | 2015-08-17 | 2018-03-27 | 西门子保健有限责任公司 | 用于针对个体患者进行疾病进展建模和疗法优化的方法和系统 |
US20180314938A1 (en) * | 2017-04-28 | 2018-11-01 | SparkCognition, Inc. | Pre-processing for data-driven model creation |
CN109378065A (zh) * | 2018-10-30 | 2019-02-22 | 医渡云(北京)技术有限公司 | 医疗数据处理方法及装置、存储介质、电子设备 |
CN110297908A (zh) * | 2019-07-01 | 2019-10-01 | 中国医学科学院医学信息研究所 | 诊疗方案预测方法及装置 |
CN110349668A (zh) * | 2019-07-11 | 2019-10-18 | 四川大学 | 一种基于bp神经网络的治疗方案辅助决策方法及其系统 |
CN111477320A (zh) * | 2020-03-11 | 2020-07-31 | 北京大学第三医院(北京大学第三临床医学院) | 治疗效果预测模型的构建系统、治疗效果预测系统及终端 |
CN111353998A (zh) * | 2020-05-13 | 2020-06-30 | 温州医科大学附属第一医院 | 一种基于人工智能的肿瘤诊疗预测模型及装置 |
Non-Patent Citations (1)
Title |
---|
郑阳: "医疗人工智能的关键技术及应用", 医学信息, vol. 34, no. 2, pages 19 - 22 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023050668A1 (zh) * | 2021-09-30 | 2023-04-06 | 平安科技(深圳)有限公司 | 基于因果推断的分群模型构建方法和医疗数据处理方法 |
CN115083555A (zh) * | 2022-08-22 | 2022-09-20 | 四川省医学科学院·四川省人民医院 | 一种社区慢性病辅助决策系统 |
CN115423054A (zh) * | 2022-11-07 | 2022-12-02 | 北京智精灵科技有限公司 | 基于认知障碍患者人格特征的不定时训练激励方法及系统 |
CN117275661A (zh) * | 2023-11-23 | 2023-12-22 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
CN117275661B (zh) * | 2023-11-23 | 2024-02-09 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113270189B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113270189A (zh) | 一种基于强化学习的肿瘤治疗辅助决策方法 | |
Carpenter et al. | ARTMAP-IC and medical diagnosis: Instance counting and inconsistent cases | |
Ayer et al. | Comparison of logistic regression and artificial neural network models in breast cancer risk estimation | |
Orr | Use of a probabilistic neural network to estimate the risk of mortality after cardiac surgery | |
EP1534122B1 (en) | Medical decision support systems utilizing gene expression and clinical information and method for use | |
KR20190021471A (ko) | 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램 | |
WO2004006041A2 (en) | Method for training a learning-capable system | |
Samuel et al. | A new technique for the prediction of heart failure risk driven by hierarchical neighborhood component-based learning and adaptive multi-layer networks | |
EP3564862A1 (en) | Determining influence of attributes in recurrent neural networks trained on therapy prediction | |
Al-Shayea et al. | Urinary system diseases diagnosis using artificial neural networks | |
Vukicevic et al. | Evolutionary assembled neural networks for making medical decisions with minimal regret: Application for predicting advanced bladder cancer outcome | |
CN110349668A (zh) | 一种基于bp神经网络的治疗方案辅助决策方法及其系统 | |
Kuris et al. | Predicting readmission after anterior, posterior, and posterior interbody lumbar spinal fusion: a neural network machine learning approach | |
Singh et al. | Leveraging hierarchy in medical codes for predictive modeling | |
Carrara et al. | Development of a ready-to-use graphical tool based on artificial neural network classification: application for the prediction of late fecal incontinence after prostate cancer radiation therapy | |
Yan et al. | Kidney stone detection using an optimized Deep Believe network by fractional coronavirus herd immunity optimizer | |
Dusenberry et al. | Artificial neural networks: Predicting head CT findings in elderly patients presenting with minor head injury after a fall | |
Dutta et al. | Breast cancer prediction using stacked GRU-LSTM-BRNN | |
Zhang et al. | Evidence integration credal classification algorithm versus missing data distributions | |
Fletcher et al. | Use of Convolutional neural nets and transfer learning for prediction of surgical site infection from color images | |
Gangurde et al. | [Retracted] Developing an Efficient Cancer Detection and Prediction Tool Using Convolution Neural Network Integrated with Neural Pattern Recognition | |
Vukicevic et al. | Automated development of artificial neural networks for clinical purposes: Application for predicting the outcome of choledocholithiasis surgery | |
Baucum et al. | Adapting reinforcement learning treatment policies using limited data to personalize critical care | |
Skrøvseth et al. | Data-driven approach for assessing utility of medical tests using electronic medical records | |
WO2005048185A1 (en) | Transductive neuro fuzzy inference method for personalised modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |