CN113270189A - 一种基于强化学习的肿瘤治疗辅助决策方法 - Google Patents

一种基于强化学习的肿瘤治疗辅助决策方法 Download PDF

Info

Publication number
CN113270189A
CN113270189A CN202110546178.6A CN202110546178A CN113270189A CN 113270189 A CN113270189 A CN 113270189A CN 202110546178 A CN202110546178 A CN 202110546178A CN 113270189 A CN113270189 A CN 113270189A
Authority
CN
China
Prior art keywords
treatment
patient
tumor
reinforcement learning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110546178.6A
Other languages
English (en)
Other versions
CN113270189B (zh
Inventor
王奕
张志远
翟洁
黄宗浩
李渊
张晖
朱敏俊
厉励
张逸鲁
高宇
戴梅
黄麒玮
蔡云飞
曹斌
石强
王正源
王骏杰
于镆铘
崔敏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University Shanghai Cancer Center
Original Assignee
Fudan University Shanghai Cancer Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University Shanghai Cancer Center filed Critical Fudan University Shanghai Cancer Center
Priority to CN202110546178.6A priority Critical patent/CN113270189B/zh
Publication of CN113270189A publication Critical patent/CN113270189A/zh
Application granted granted Critical
Publication of CN113270189B publication Critical patent/CN113270189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法,所述方法构建并训练患者状态转移模型与治疗决策模型,所述患者状态转移模型通过循环神经网络对肿瘤患者的状态变化进行建模,利用实际诊疗中获取到的诊疗方案与检查指标作为数据来源,模拟肿瘤患者在某种诊疗方案下的状态变化;所述治疗决策模型通过强化学习对治疗肿瘤患者的过程进行建模,利用患者状态转移模型作为数据来源,构建深层Q网络(DQN)作为策略网络,以RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准为基础构造激励函数,进行迭代训练。本发明可在一定程度上减轻肿瘤专科医生的工作量,模型所预测的治疗手段可作为决策参考而减少医生的决策失误,辅助医生指定可行的治疗方案。

Description

一种基于强化学习的肿瘤治疗辅助决策方法
技术领域
本发明属于医疗领域,涉及一种医疗用计算机辅助决策方法,尤其涉及一种基于强化学习的肿瘤治疗的辅助决策方法。
背景技术
强化学习是机器学习的一个重要分支,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其基本原理是:如果智能体的某个行为策略导致环境正的奖励信号,那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。比如围棋的局面是状态,智能体要学习的就是每一种局面应该如何落子。
肿瘤是机体在各种致癌因素作用下,局部组织的某一个细胞在基因水平上失去对其生长的正常调控,导致其克隆性异常增生而形成的新生物。肿瘤分为良性肿瘤和恶性肿瘤,良性肿瘤对机体的影响较小,主要表现为局部压迫和阻塞症状,其影响主要与发生部位和后续变化有关;恶性肿瘤由于分化不成熟、生长较快,浸润破坏器官的结构和功能,并可发生转移,因而对机体影响严重。
对于肿瘤的治疗与患者的生命安全息息相关,而对肿瘤治疗做出决策的肿瘤专科医生工作繁重、压力巨大,对于病情容易误判或漏判,从而做出不适当的治疗决策。
发明内容
为克服现存的肿瘤治疗手段决策过程中存在的肿瘤专科医生工作量大,易做出不适当决策的缺陷,本发明公开了一种基于强化学习的肿瘤治疗辅助决策方法。
本发明所述基于强化学习的肿瘤治疗辅助决策方法,包括通过循环神经网络训练得到患者状态转移模型,并将所述患者状态转移模型作为强化学习的环境,训练得到治疗决策模型。由于强化学习的训练过程中做出的决策并不都是正确的,不可能为了获取错误决策下患者的反应而事实上对患者进行决策所对应的治疗,因此需要一个模型来模拟患者在不同状态下经受不同治疗手段后状态的变化,即本发明所述患者状态转移模型。治疗决策模型以前者为基础,模拟推断诊疗方案对患者的效果,从而找到理论最佳的诊疗方案。
本发明采用以下技术方案:
一种基于强化学习的肿瘤治疗辅助决策方法,其特征在于,包括如下步骤:
S1:将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型;
S2:将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型;
S3:通过治疗决策模型输出预测的治疗方案。
所述步骤S1中的患者历史诊疗信息包括患者基础信息和治疗方案。
所述步骤S1中,将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型包括如下步骤:
S11:初始化患者状态向量h0,计算公式如下:
h0=σh(Aκ+b0)
其中,σh是激活函数;A是线性空间变换矩阵;κ是患者基础信息向量;b0是偏移向量;
S12:求出时间步i的输入向量xi,计算公式如下:
Figure BDA0003073594550000021
其中,
Figure BDA0003073594550000022
是激活函数;B是线性空间变换矩阵;xi是治疗方案向量;b1是偏移向量;
S13:将患者状态向量h0和输入向量xi输入循环神经网络RNN,在循环神经网络中计算得到时间步i的患者状态向量hi,计算公式如下:
hi=σh(Whxt+Uhht-1+bh)
其中,σh是激活函数,Wh和Uh是线性空间变换矩阵,bh是偏移向量;
S14:由RNN神经网络预测得到检查向量
Figure BDA0003073594550000023
Figure BDA0003073594550000031
其中,σy是激活函数,Wy是线性空间变换矩阵,by是偏移向量;
S15:计算损失函数loss,计算公式如下:
Figure BDA0003073594550000032
Figure BDA0003073594550000033
其中,t是时间步数;n是yi的长度;yij代表取向量yi的第j个标量,cross_entrophy为交叉熵,用于衡量yj
Figure BDA0003073594550000034
的差异大小;部分j为空,时间步间隔为一个月,当前是第t个时间步,当且仅当t被3整除的时候,TNM肿瘤影像学分期标准的yj对应值不为空;当且仅当t被12整除的时候,RECIST实体瘤疗效评价标准的yj对应值不为空;
S16:构建RNN网络,训练得到所述患者状态转移模型。
所述步骤S2中,将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型的过程包括如下步骤:
S21:输入所述环境输出的状态,所述状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策;所述状态嵌入成向量,记作st
S22:通过策略网络对状态st进行分类;将第i种治疗方案记作ai,则策略网络输出为当前状态下使用不同治疗方案的概率P(ai|st);具体公式可表示如下:
P(ai|st)=DQN(F1(st))
F1=Relu(w1*st+b1)
其中Relu为线性整流函数,w1是线性空间变换矩阵,b1是偏移向量;
S23:针对n种治疗方案,通过策略网络计算当前状态下采取每一种治疗方案的概率,具体表示如下:
P=(P(a1|st),P(a2|st)...P(an|st))
Figure BDA0003073594550000041
S24:将t-1时刻的患者状态以及t时刻的诊疗方案输入所述环境,输出预测的t时刻的患者状态;
S25:重复步骤S21-S24,直至诊疗模型预测出患者的检查指标为止,称为采样一轮,如此重复N轮,便得到策略网络所需要的训练数据X:
X=(τ1,τ2,τ3...τN)
Figure BDA0003073594550000042
其中τi的每一对数据分别是时间步i-1时的策略网络状态
Figure BDA0003073594550000043
和与之对应的预测出的时间步i所选择的治疗方案
Figure BDA0003073594550000044
且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准;
S26:根据RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准指标偏离正常指标的程度计算出决策所对应的激励;治疗后的各项指标相比于治疗之前,愈趋近于正常指标,则激励愈高,反之亦然,公式如下:
R=(r1,r2)
Figure BDA0003073594550000045
Figure BDA0003073594550000046
其中,RECISTti根据当前时间步模型输出的RECIST指标进行赋值:若所述RECIST指标为CR,则激励为10;若所述RECIST指标为PR,则激励为5;若所述RECIST指标为SD,则激励为0;若所述RECIST指标为PD,则激励为-5。TNMstageti为当前时间步模型输出的TNM指标:若所述TNM指标中的指标M从0转1,则激励为-20;若M不变,将激励预设为0,再根据所述TNM指标中的指标T与N的变化来改变激励的值,T或N每减小1,激励增加5,每增加1,激励减少5;
S27:通过上述建模、采样后,计算最大化激励,计算公式为:
Figure BDA0003073594550000051
S28:构建强化学习网络,训练得到治疗决策模型。
所述环境输出的状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策;
所述步骤S3中,通过治疗决策模型输出预测的治疗方案的过程具体如下:
将患者当前的状态与历史治疗决策输入治疗决策模型,所述治疗决策模型输出下个时间步所需做出的治疗决策。
若所述患者是胃癌患者,所述治疗方案包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗。
所述患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。
所述检查向量
Figure BDA0003073594550000052
包括但不限于RECIST实体瘤疗效评价标准、TNM肿瘤影像学分期标准。
所述策略网络可以是深层Q网络(DQN)。
综上所述,本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法,其中患者状态转移模型经训练后可以模拟患者在不同状态下接受不同治疗后的状态变化,治疗决策模型经训练后可以根据患者的当前状态预测可行的治疗方案,辅助医生指定真实治疗方案,以减轻患者痛苦。采用本发明所述的肿瘤治疗辅助决策方法,根据患者当前状态预测可行的治疗方案,能够大幅提高肿瘤医生的诊疗效率并提升肿瘤治疗方案选择的稳定性,对肿瘤医生判断肿瘤进一步的治疗方案有较好的辅助决策效果。
附图说明
图1示出依据本发明的实施方式,基于强化学习的肿瘤治疗辅助决策方法的患者状态转移模型的流程框图。
图2示出依据本发明的实施方式,基于强化学习的肿瘤治疗辅助决策方法的治疗决策模型的流程框图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点与功效。本发明亦可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰和变更。
本发明采用以下技术方案:
一种基于强化学习的肿瘤治疗辅助决策方法,其特征在于,包括如下步骤:
S1:构建并训练患者状态转移模型,此模型通过循环神经网络对肿瘤患者的状态变化进行建模,并利用实际诊疗中获取到的诊疗方案与检查指标作为数据来源,旨在模拟肿瘤患者在某种诊疗方案下的身体变化;
S2:构建并训练治疗决策模型,此模型通过强化学习对治疗肿瘤患者的过程进行建模,并利用患者状态转移模型作为数据来源,旨在辅助医生指定可行的治疗方案,以减轻患者痛苦;
S3:通过治疗决策模型输出预测的治疗方案。
如图1所示,步骤S1中的患者状态转移模型的具体构建流程,包括如下步骤:
S11:初始化患者状态向量h0,计算方式如下:
h0=σh(Aκ+b0)
其中,σh是激活函数;A是线性空间变换矩阵;κ是患者基础信息向量;b0是偏移向量。患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。
参数中肿瘤五项标志物具体为:AFP甲胎蛋白,CEA癌胚抗原,CA199糖类扼原,CA125糖类抗原,CA724糖类抗原。
参数中KPS卡氏评分是一种功能状态评分标准。KPS得分越高,健康状况越好,越能忍受治疗给身体带来的副作用,因而也就有可能接受彻底的治疗。一般认为80分以上为非依赖级(independent),即生活自理级。50~70分为半依赖级(semi-independent),即生活半自理。50分以下为依赖级(dependent),即生活需要别人帮助。大于80分者术后状态较好,存活期较长;而低于60分的话,许多有效的抗肿瘤治疗就无法实施;
S12:求出时间步i的输入向量xi,计算方式如下:
Figure BDA0003073594550000071
其中,
Figure BDA0003073594550000072
是激活函数;B是线性空间变换矩阵;xi是治疗方案向量;b1是偏移向量。治疗方案以胃癌为例,包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗等。而每种治疗方案又有进一步的细分,以胃癌根治性手术和化疗为例,胃癌根治性手术分为开腹D1根治术、腹腔镜D1根治术、开腹D1+根治术、腹腔镜D1+根治术、开腹D2根治术、腹腔镜D2根治术等;化疗方式分为CapeOX、S-1、FOLFOX、SOX、XP等;
S13:计算得到时间步i的患者状态向量hi,计算方式如下:
hi=σh(Whxt+Uhht-1+bh)
其中,σh是激活函数,Wh和Uh是线性空间变换矩阵,bh是偏移向量;
S14:由RNN神经网络预测得到检查向量
Figure BDA0003073594550000073
Figure BDA0003073594550000074
其中,σy是激活函数,Wy是线性空间变换矩阵,by是偏移向量。检查向量
Figure BDA0003073594550000075
包括但不限于RECIST实体瘤疗效评价标准、TNM肿瘤影像学分期标准。
RECIST实体瘤疗效评价标准是一种通过肿瘤缩小量来评估疗效的评价方法,它在WHO疗效评价标准的基础上进行了必要的修改和补充,采用简易精确的单径测量代替传统的双径测量方法,并保留了WHO标准中的CP(完全缓解)、PR(部分缓解)、SD(疾病进展)、PD(疾病稳定)。
TNM分期法国际抗癌协会对各种常见肿瘤进行统一分期,便于设计治疗方案和评价疗效,以探讨治疗规律,能客观地评价肿瘤治疗结果。简单来说,TNM表示肿瘤范围,即T(原发肿瘤),N(区域淋巴结),M(远处转移);
S15:模型的优化目标,即损失函数loss,计算方式如下:
Figure BDA0003073594550000081
Figure BDA0003073594550000082
其中,t是时间步数;n是yi的长度;yij代表取向量yi的第j个标量,cross_entrophy为交叉熵,用于衡量yj
Figure BDA0003073594550000083
的差异大小;square error为平方误差函数;部分j为空,因为某些时间步中不包含全部数据,时间步间隔是一个月,假设当前是第t个时间步,当且仅当t被3整除的时候,TNM肿瘤影像学分期标准的yj对应值不为空;当且仅当t被12整除的时候,RECIST实体瘤疗效评价标准的yj对应值不为空;
S16:构建RNN网络,用适量患者历史诊疗信息做训练,即可得到所述患者状态转移模型,其具体效用为:输入患者初始状态与各时间步诊疗方案,输出患者各个时间步的状态向量与检查指标。
本治疗决策模型属于强化学习,通用的强化学习有五个重要组成部分:状态、环境、决策网络、行为以及激励。其中状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策。在实际模型中,将患者的状态嵌入成向量。整个模型使用状态作为输入,旨在预测当前状态下应采取的最佳治疗措施。
如图2所示,步骤S2中的治疗决策模型的具体构建流程,包括如下步骤:
S21:输入所述环境输出的状态,所述状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策;所述状态嵌入成向量,记作st
S22:本治疗决策模型的决策网络所解决的问题可以抽象为一个多分类问题,输入患者当前时间步的状态es,通过强化学习领域常用的深层Q网络(DQN)进行分类。将第i种治疗方案记作ai,则策略网络输出为当前状态下使用不同治疗方案的概率P(ai|st);具体公式可表示如下:
P(a|st)=DQN(F1(st))
F1=Relu(w1*st+b1)
其中Relu为线性整流函数,w1是线性空间变换矩阵,b1是偏移向量;
S23:本治疗决策模型的行为:即医生可采取的治疗手段,同上所述,以胃癌为例,包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗等;通过策略网络可以得到当前状态下采取每一种治疗方案的概率,一共有n种治疗方案,表示如下:
P=(P(a1|st),P(a2|st)...P(an|st))
Figure BDA0003073594550000091
S24:本治疗决策模型的环境:使用之前建立的患者状态转移模型作为本模型的环境。患者状态转移模型本质上为一个循环神经网络,输入t-1时刻的患者状态以及t时刻的诊疗方案,得到预测的t时刻的患者状态。在该模型效果较好的基础上,可以近似认为该模型刻画了真实环境下诊疗方案对于患者的改善情况;
S25:通过策略网络预测患者当前状态下应采取的诊疗方案,同时利用患者状态转移模型产生该诊疗方案下患者下一步的状态,再带入策略网络中。重复步骤S21-S24,直至诊疗模型预测出患者的检查指标为止,称为采样一轮,如此重复N轮,便得到策略网络所需要的训练数据X:
X=(τ1,τ2,τ3...τN)
Figure BDA0003073594550000101
其中τi的每一对数据分别是时间步i-1时的策略网络状态
Figure BDA0003073594550000102
和与之对应的预测出的时间步i所选择的治疗方案
Figure BDA0003073594550000103
且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准;
S26:本治疗决策模型的激励:重点关注患者各检查指标的变化,因此激励指标为经过一系列治疗决策后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准的变化。具体来讲,采样过程中会保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准,根据各项指标偏离正常指标的程度计算出该系列决策所对应的激励;治疗后的各项指标相比于治疗之前,愈趋近于正常指标,则激励愈高,反之亦然,例如:相比于治疗之前,患者的肿瘤病灶半径减少30%,RECIST指标即为PR(部分缓解),TNM分期也从T3N1M0转为T2N1M0,则两项指标均显示此次治疗有良好成效,则激励为正值,鼓励治疗决策模型在下次遇到相同的病例时做出同样的治疗决策。激励的公式可以表示如下:
R=(r1,r2)
Figure BDA0003073594550000104
Figure BDA0003073594550000105
其中,RECISTti根据当前时间步模型输出的RECIST指标进行赋值:若所述RECIST指标为CR,则激励为10;若所述RECIST指标为PR,则激励为5;若所述RECIST指标为SD,则激励为0;若所述RECIST指标为PD,则激励为-5。TNMstageti为当前时间步模型输出的TNM指标:若所述TNM指标中的指标M从0转1,则激励为-20;若M不变,将激励预设为0,再根据所述TNM指标中的指标T与N的变化来改变激励的值,T或N每减小1,激励增加5,每增加1,激励减少5;
S27:通过上述建模、采样后,优化目标为最大化激励,具体为:
Figure BDA0003073594550000111
S28:构建强化学习网络,用前述患者状态转移模型作为状态输入,即可迭代训练得到治疗决策模型。
步骤S3中,通过治疗决策模型输出预测的治疗方案的过程具体如下:
训练好的治疗决策模型通过输入患者当前的状态与历史治疗决策,即可输出下个时间步所需做出的治疗决策。达到辅助医生指定可行的治疗方案,以减轻患者痛苦的目的。
综上所述,本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法,其中患者状态转移模型经训练后可以模拟患者在不同状态下接受不同治疗后的状态变化,治疗决策模型经训练后可以根据患者的当前状态预测可行的治疗方案,辅助医生指定真实治疗方案,以减轻患者痛苦。采用本发明所述的肿瘤治疗辅助决策方法,根据患者当前状态预测可行的治疗方案,能够大幅提高肿瘤医生的诊疗效率并提升肿瘤治疗方案选择的稳定性,对肿瘤医生判断肿瘤进一步的治疗方案有较好的辅助决策效果。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于强化学习的肿瘤治疗辅助决策方法,其特征在于,包括如下步骤:
S1:将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型;
S2:将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型;
S3:通过治疗决策模型输出预测的治疗方案。
2.如权利要求1所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于:所述步骤S1中的患者历史诊疗信息包括患者基础信息和治疗方案。
3.如权利要求2所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于:所述步骤S1中,将患者历史诊疗信息输入循环神经网络RNN,训练得到患者状态转移模型包括如下步骤:
S11:初始化患者状态向量h0,计算公式如下:
h0=σh(Aκ+b0)
其中,σh是激活函数;A是线性空间变换矩阵;κ是患者基础信息向量;b0是偏移向量;
S12:求出时间步i的输入向量xi,计算公式如下:
Figure FDA0003073594540000011
其中,
Figure FDA0003073594540000012
是激活函数;B是线性空间变换矩阵;
Figure FDA0003073594540000013
是治疗方案向量;b1是偏移向量;
S13:将患者状态向量h0和输入向量xi输入循环神经网络RNN,在循环神经网络中计算得到时间步i的患者状态向量hi,计算公式如下:
hi=σh(Whxt+Uhht-1+bh)
其中,σh是激活函数,Wh和Uh是线性空间变换矩阵,bh是偏移向量;
S14:由RNN神经网络预测得到检查向量
Figure FDA0003073594540000016
Figure FDA0003073594540000014
其中,σy是激活函数,Wy是线性空间变换矩阵,by是偏移向量;
S15:计算损失函数loss,计算公式如下:
Figure FDA0003073594540000015
Figure FDA0003073594540000021
其中,t是时间步数;n是yi的长度;yij代表取向量yi的第j个标量,cross_entrophy为交叉熵,用于衡量yj
Figure FDA0003073594540000022
的差异大小;部分j为空,时间步间隔为一个月,当前是第t个时间步,当且仅当t被3整除的时候,TNM肿瘤影像学分期标准的yj对应值不为空;当且仅当t被12整除的时候,RECIST实体瘤疗效评价标准的yj对应值不为空;
S16:构建RNN网络,训练得到所述患者状态转移模型。
4.如权利要求3所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述步骤S2中,将患者状态转移模型作为强化学习的环境,通过强化学习训练得到治疗决策模型的过程包括如下步骤:
S21:输入所述环境输出的状态,所述状态嵌入成向量,记作st
S22:通过策略网络对状态st进行分类;将第i种治疗方案记作ai,则策略网络输出为当前状态下使用不同治疗方案的概率P(ai|st);具体公式可表示如下:
P(ai|st)=DQN(F1(st))
F1=Relu(w1*st+b1)
其中Relu为线性整流函数,w1是线性空间变换矩阵,b1是偏移向量;
S23:针对n种治疗方案,通过策略网络计算当前状态下采取每一种治疗方案的概率,具体表示如下:
P=(P(a1|st),P(a2|st)...P(an|st))
Figure FDA0003073594540000023
S24:将t-1时刻的患者状态以及t时刻的诊疗方案输入所述环境,输出预测的t时刻的患者状态;
S25:重复步骤S21-S24,直至诊疗模型预测出患者的检查指标为止,称为采样一轮,如此重复N轮,便得到策略网络所需要的训练数据x:
x=(τ1,τ2,τ3…τN)
Figure FDA0003073594540000034
其中τi的每一对数据分别是时间步i-1时的策略网络状态
Figure FDA0003073594540000035
和与之对应的预测出的时间步i所选择的治疗方案
Figure FDA0003073594540000036
且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准;
S26:根据RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准指标偏离正常指标的程度计算出决策所对应的激励;治疗后的各项指标相比于治疗之前,愈趋近于正常指标,则激励愈高,反之亦然,公式如下:
R=(r1,r2)
Figure FDA0003073594540000031
Figure FDA0003073594540000032
其中,RECISTti根据当前时间步模型输出的RECIST指标进行赋值:若所述RECIST指标为CR,则激励为10;若所述RECIST指标为PR,则激励为5;若所述RECIST指标为SD,则激励为0;若所述RECIST指标为PD,则激励为-5。TNMstageti为当前时间步模型输出的TNM指标:若所述TNM指标中的指标M从0转1,则激励为-20;若M不变,将激励预设为0,再根据所述TNM指标中的指标T与N的变化来改变激励的值,T或N每减小1,激励增加5,每增加1,激励减少5;
S27:通过上述建模、采样后,计算最大化激励,计算公式为:
Figure FDA0003073594540000033
S28:构建强化学习网络,训练得到治疗决策模型。
5.如权利要求3所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述环境输出的状态包括:当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策。
6.如权利要求5所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述步骤S3中,通过治疗决策模型输出预测的治疗方案的过程具体如下:
将患者当前的状态与历史治疗决策输入治疗决策模型,所述治疗决策模型输出下个时间步所需做出的治疗决策。
7.如权利要求6所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,若所述患者是胃癌患者,所述治疗方案包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗。
8.如权利要求7所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。
9.如权利要求8所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述检查向量
Figure FDA0003073594540000041
包括但不限于RECIST实体瘤疗效评价标准、TNM肿瘤影像学分期标准。
10.如权利要求4-9中任一项所述的基于强化学习的肿瘤治疗辅助决策方法,其特征在于,所述策略网络可以是深层Q网络(DQN)。
CN202110546178.6A 2021-05-19 2021-05-19 一种基于强化学习的肿瘤治疗辅助决策方法 Active CN113270189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110546178.6A CN113270189B (zh) 2021-05-19 2021-05-19 一种基于强化学习的肿瘤治疗辅助决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110546178.6A CN113270189B (zh) 2021-05-19 2021-05-19 一种基于强化学习的肿瘤治疗辅助决策方法

Publications (2)

Publication Number Publication Date
CN113270189A true CN113270189A (zh) 2021-08-17
CN113270189B CN113270189B (zh) 2023-08-18

Family

ID=77232155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110546178.6A Active CN113270189B (zh) 2021-05-19 2021-05-19 一种基于强化学习的肿瘤治疗辅助决策方法

Country Status (1)

Country Link
CN (1) CN113270189B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083555A (zh) * 2022-08-22 2022-09-20 四川省医学科学院·四川省人民医院 一种社区慢性病辅助决策系统
CN115423054A (zh) * 2022-11-07 2022-12-02 北京智精灵科技有限公司 基于认知障碍患者人格特征的不定时训练激励方法及系统
WO2023050668A1 (zh) * 2021-09-30 2023-04-06 平安科技(深圳)有限公司 基于因果推断的分群模型构建方法和医疗数据处理方法
CN117275661A (zh) * 2023-11-23 2023-12-22 太原理工大学 一种基于深度强化学习的肺癌患者用药预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851464A (zh) * 2015-08-17 2018-03-27 西门子保健有限责任公司 用于针对个体患者进行疾病进展建模和疗法优化的方法和系统
US20180314938A1 (en) * 2017-04-28 2018-11-01 SparkCognition, Inc. Pre-processing for data-driven model creation
CN109378065A (zh) * 2018-10-30 2019-02-22 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110349668A (zh) * 2019-07-11 2019-10-18 四川大学 一种基于bp神经网络的治疗方案辅助决策方法及其系统
CN111353998A (zh) * 2020-05-13 2020-06-30 温州医科大学附属第一医院 一种基于人工智能的肿瘤诊疗预测模型及装置
CN111477320A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851464A (zh) * 2015-08-17 2018-03-27 西门子保健有限责任公司 用于针对个体患者进行疾病进展建模和疗法优化的方法和系统
US20180314938A1 (en) * 2017-04-28 2018-11-01 SparkCognition, Inc. Pre-processing for data-driven model creation
CN109378065A (zh) * 2018-10-30 2019-02-22 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110349668A (zh) * 2019-07-11 2019-10-18 四川大学 一种基于bp神经网络的治疗方案辅助决策方法及其系统
CN111477320A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111353998A (zh) * 2020-05-13 2020-06-30 温州医科大学附属第一医院 一种基于人工智能的肿瘤诊疗预测模型及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑阳: "医疗人工智能的关键技术及应用", 医学信息, vol. 34, no. 2, pages 19 - 22 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050668A1 (zh) * 2021-09-30 2023-04-06 平安科技(深圳)有限公司 基于因果推断的分群模型构建方法和医疗数据处理方法
CN115083555A (zh) * 2022-08-22 2022-09-20 四川省医学科学院·四川省人民医院 一种社区慢性病辅助决策系统
CN115423054A (zh) * 2022-11-07 2022-12-02 北京智精灵科技有限公司 基于认知障碍患者人格特征的不定时训练激励方法及系统
CN117275661A (zh) * 2023-11-23 2023-12-22 太原理工大学 一种基于深度强化学习的肺癌患者用药预测方法及装置
CN117275661B (zh) * 2023-11-23 2024-02-09 太原理工大学 一种基于深度强化学习的肺癌患者用药预测方法及装置

Also Published As

Publication number Publication date
CN113270189B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN113270189A (zh) 一种基于强化学习的肿瘤治疗辅助决策方法
Carpenter et al. ARTMAP-IC and medical diagnosis: Instance counting and inconsistent cases
Ayer et al. Comparison of logistic regression and artificial neural network models in breast cancer risk estimation
Orr Use of a probabilistic neural network to estimate the risk of mortality after cardiac surgery
EP1534122B1 (en) Medical decision support systems utilizing gene expression and clinical information and method for use
KR20190021471A (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
WO2004006041A2 (en) Method for training a learning-capable system
Samuel et al. A new technique for the prediction of heart failure risk driven by hierarchical neighborhood component-based learning and adaptive multi-layer networks
EP3564862A1 (en) Determining influence of attributes in recurrent neural networks trained on therapy prediction
Al-Shayea et al. Urinary system diseases diagnosis using artificial neural networks
Vukicevic et al. Evolutionary assembled neural networks for making medical decisions with minimal regret: Application for predicting advanced bladder cancer outcome
CN110349668A (zh) 一种基于bp神经网络的治疗方案辅助决策方法及其系统
Kuris et al. Predicting readmission after anterior, posterior, and posterior interbody lumbar spinal fusion: a neural network machine learning approach
Singh et al. Leveraging hierarchy in medical codes for predictive modeling
Carrara et al. Development of a ready-to-use graphical tool based on artificial neural network classification: application for the prediction of late fecal incontinence after prostate cancer radiation therapy
Yan et al. Kidney stone detection using an optimized Deep Believe network by fractional coronavirus herd immunity optimizer
Dusenberry et al. Artificial neural networks: Predicting head CT findings in elderly patients presenting with minor head injury after a fall
Dutta et al. Breast cancer prediction using stacked GRU-LSTM-BRNN
Zhang et al. Evidence integration credal classification algorithm versus missing data distributions
Fletcher et al. Use of Convolutional neural nets and transfer learning for prediction of surgical site infection from color images
Gangurde et al. [Retracted] Developing an Efficient Cancer Detection and Prediction Tool Using Convolution Neural Network Integrated with Neural Pattern Recognition
Vukicevic et al. Automated development of artificial neural networks for clinical purposes: Application for predicting the outcome of choledocholithiasis surgery
Baucum et al. Adapting reinforcement learning treatment policies using limited data to personalize critical care
Skrøvseth et al. Data-driven approach for assessing utility of medical tests using electronic medical records
WO2005048185A1 (en) Transductive neuro fuzzy inference method for personalised modelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant