CN113270189A

CN113270189A - 一种基于强化学习的肿瘤治疗辅助决策方法

Info

Publication number: CN113270189A
Application number: CN202110546178.6A
Authority: CN
Inventors: 王奕; 张志远; 翟洁; 黄宗浩; 李渊; 张晖; 朱敏俊; 厉励; 张逸鲁; 高宇; 戴梅; 黄麒玮; 蔡云飞; 曹斌; 石强; 王正源; 王骏杰; 于镆铘; 崔敏杰
Original assignee: Fudan University Shanghai Cancer Center
Current assignee: Fudan University Shanghai Cancer Center
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-17
Anticipated expiration: 2041-05-19
Also published as: CN113270189B

Abstract

本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法，所述方法构建并训练患者状态转移模型与治疗决策模型，所述患者状态转移模型通过循环神经网络对肿瘤患者的状态变化进行建模，利用实际诊疗中获取到的诊疗方案与检查指标作为数据来源，模拟肿瘤患者在某种诊疗方案下的状态变化；所述治疗决策模型通过强化学习对治疗肿瘤患者的过程进行建模，利用患者状态转移模型作为数据来源，构建深层Q网络(DQN)作为策略网络，以RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准为基础构造激励函数，进行迭代训练。本发明可在一定程度上减轻肿瘤专科医生的工作量，模型所预测的治疗手段可作为决策参考而减少医生的决策失误，辅助医生指定可行的治疗方案。

Description

一种基于强化学习的肿瘤治疗辅助决策方法

技术领域

本发明属于医疗领域，涉及一种医疗用计算机辅助决策方法，尤其涉及一种基于强化学习的肿瘤治疗的辅助决策方法。

背景技术

强化学习是机器学习的一个重要分支，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其基本原理是：如果智能体的某个行为策略导致环境正的奖励信号，那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。比如围棋的局面是状态，智能体要学习的就是每一种局面应该如何落子。

肿瘤是机体在各种致癌因素作用下，局部组织的某一个细胞在基因水平上失去对其生长的正常调控，导致其克隆性异常增生而形成的新生物。肿瘤分为良性肿瘤和恶性肿瘤，良性肿瘤对机体的影响较小，主要表现为局部压迫和阻塞症状，其影响主要与发生部位和后续变化有关；恶性肿瘤由于分化不成熟、生长较快，浸润破坏器官的结构和功能，并可发生转移，因而对机体影响严重。

对于肿瘤的治疗与患者的生命安全息息相关，而对肿瘤治疗做出决策的肿瘤专科医生工作繁重、压力巨大，对于病情容易误判或漏判，从而做出不适当的治疗决策。

发明内容

为克服现存的肿瘤治疗手段决策过程中存在的肿瘤专科医生工作量大，易做出不适当决策的缺陷，本发明公开了一种基于强化学习的肿瘤治疗辅助决策方法。

本发明所述基于强化学习的肿瘤治疗辅助决策方法，包括通过循环神经网络训练得到患者状态转移模型，并将所述患者状态转移模型作为强化学习的环境，训练得到治疗决策模型。由于强化学习的训练过程中做出的决策并不都是正确的，不可能为了获取错误决策下患者的反应而事实上对患者进行决策所对应的治疗，因此需要一个模型来模拟患者在不同状态下经受不同治疗手段后状态的变化，即本发明所述患者状态转移模型。治疗决策模型以前者为基础，模拟推断诊疗方案对患者的效果，从而找到理论最佳的诊疗方案。

本发明采用以下技术方案：

一种基于强化学习的肿瘤治疗辅助决策方法，其特征在于，包括如下步骤：

S1：将患者历史诊疗信息输入循环神经网络RNN，训练得到患者状态转移模型；

S2：将患者状态转移模型作为强化学习的环境，通过强化学习训练得到治疗决策模型；

S3：通过治疗决策模型输出预测的治疗方案。

所述步骤S1中的患者历史诊疗信息包括患者基础信息和治疗方案。

所述步骤S1中，将患者历史诊疗信息输入循环神经网络RNN，训练得到患者状态转移模型包括如下步骤：

S11：初始化患者状态向量h₀，计算公式如下：

h₀＝σ_h(Aκ+b₀)

其中，σ_h是激活函数；A是线性空间变换矩阵；κ是患者基础信息向量；b₀是偏移向量；

S12：求出时间步i的输入向量xi，计算公式如下：

其中，

是激活函数；B是线性空间变换矩阵；x_i是治疗方案向量；b₁是偏移向量；

S13：将患者状态向量h0和输入向量xi输入循环神经网络RNN，在循环神经网络中计算得到时间步i的患者状态向量h_i，计算公式如下：

h_i＝σ_h(W_hx_t+U_hh_t-1+b_h)

其中，σ_h是激活函数，W_h和U_h是线性空间变换矩阵，b_h是偏移向量；

S14：由RNN神经网络预测得到检查向量

其中，σ_y是激活函数，W_y是线性空间变换矩阵，b_y是偏移向量；

S15：计算损失函数loss，计算公式如下：

其中，t是时间步数；n是y_i的长度；y_ij代表取向量y_i的第j个标量，cross_entrophy为交叉熵，用于衡量y_j与

的差异大小；部分j为空，时间步间隔为一个月，当前是第t个时间步，当且仅当t被3整除的时候，TNM肿瘤影像学分期标准的y_j对应值不为空；当且仅当t被12整除的时候，RECIST实体瘤疗效评价标准的y_j对应值不为空；

S16：构建RNN网络，训练得到所述患者状态转移模型。

所述步骤S2中，将患者状态转移模型作为强化学习的环境，通过强化学习训练得到治疗决策模型的过程包括如下步骤：

S21：输入所述环境输出的状态，所述状态包括：当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策；所述状态嵌入成向量，记作s_t；

S22：通过策略网络对状态s_t进行分类；将第i种治疗方案记作a_i，则策略网络输出为当前状态下使用不同治疗方案的概率P(a_i|s_t)；具体公式可表示如下：

P(a_i|s_t)＝DQN(F₁(s_t))

F₁＝Relu(w₁*s_t+b₁)

其中Relu为线性整流函数，w₁是线性空间变换矩阵，b₁是偏移向量；

S23：针对n种治疗方案，通过策略网络计算当前状态下采取每一种治疗方案的概率，具体表示如下：

P＝(P(a₁|s_t)，P(a₂|s_t)...P(a_n|s_t))

S24：将t-1时刻的患者状态以及t时刻的诊疗方案输入所述环境，输出预测的t时刻的患者状态；

S25：重复步骤S21-S24，直至诊疗模型预测出患者的检查指标为止，称为采样一轮，如此重复N轮，便得到策略网络所需要的训练数据X：

X＝(τ₁，τ₂，τ₃...τ_N)

其中τ_i的每一对数据分别是时间步i-1时的策略网络状态

和与之对应的预测出的时间步i所选择的治疗方案

且采样过程中保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准；

S26：根据RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准指标偏离正常指标的程度计算出决策所对应的激励；治疗后的各项指标相比于治疗之前，愈趋近于正常指标，则激励愈高，反之亦然，公式如下：

R＝(r₁，r₂)

其中，RECIST_ti根据当前时间步模型输出的RECIST指标进行赋值：若所述RECIST指标为CR，则激励为10；若所述RECIST指标为PR，则激励为5；若所述RECIST指标为SD，则激励为0；若所述RECIST指标为PD，则激励为-5。TNMstage_ti为当前时间步模型输出的TNM指标：若所述TNM指标中的指标M从0转1，则激励为-20；若M不变，将激励预设为0，再根据所述TNM指标中的指标T与N的变化来改变激励的值，T或N每减小1，激励增加5，每增加1，激励减少5；

S27：通过上述建模、采样后，计算最大化激励，计算公式为：

S28：构建强化学习网络，训练得到治疗决策模型。

所述环境输出的状态包括：当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策；

所述步骤S3中，通过治疗决策模型输出预测的治疗方案的过程具体如下：

将患者当前的状态与历史治疗决策输入治疗决策模型，所述治疗决策模型输出下个时间步所需做出的治疗决策。

若所述患者是胃癌患者，所述治疗方案包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗。

所述患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。

所述检查向量

包括但不限于RECIST实体瘤疗效评价标准、TNM肿瘤影像学分期标准。

所述策略网络可以是深层Q网络(DQN)。

综上所述，本发明提出了一种基于强化学习的肿瘤治疗辅助决策方法，其中患者状态转移模型经训练后可以模拟患者在不同状态下接受不同治疗后的状态变化，治疗决策模型经训练后可以根据患者的当前状态预测可行的治疗方案，辅助医生指定真实治疗方案，以减轻患者痛苦。采用本发明所述的肿瘤治疗辅助决策方法，根据患者当前状态预测可行的治疗方案，能够大幅提高肿瘤医生的诊疗效率并提升肿瘤治疗方案选择的稳定性，对肿瘤医生判断肿瘤进一步的治疗方案有较好的辅助决策效果。

附图说明

图1示出依据本发明的实施方式，基于强化学习的肿瘤治疗辅助决策方法的患者状态转移模型的流程框图。

图2示出依据本发明的实施方式，基于强化学习的肿瘤治疗辅助决策方法的治疗决策模型的流程框图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点与功效。本发明亦可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰和变更。

本发明采用以下技术方案：

S1：构建并训练患者状态转移模型，此模型通过循环神经网络对肿瘤患者的状态变化进行建模，并利用实际诊疗中获取到的诊疗方案与检查指标作为数据来源，旨在模拟肿瘤患者在某种诊疗方案下的身体变化；

S2：构建并训练治疗决策模型，此模型通过强化学习对治疗肿瘤患者的过程进行建模，并利用患者状态转移模型作为数据来源，旨在辅助医生指定可行的治疗方案，以减轻患者痛苦；

S3：通过治疗决策模型输出预测的治疗方案。

如图1所示，步骤S1中的患者状态转移模型的具体构建流程，包括如下步骤：

S11：初始化患者状态向量h₀，计算方式如下：

h₀＝σ_h(Aκ+b₀)

其中，σ_h是激活函数；A是线性空间变换矩阵；κ是患者基础信息向量；b₀是偏移向量。患者基础信息包括但不限于年龄、性别、BMI、家族肿瘤史、激素治疗史、吸烟史、过度饮酒、肿瘤标志物五项指标、KPS卡氏评分、ECOG体力状况评分标准。

参数中肿瘤五项标志物具体为：AFP甲胎蛋白，CEA癌胚抗原，CA199糖类扼原，CA125糖类抗原，CA724糖类抗原。

参数中KPS卡氏评分是一种功能状态评分标准。KPS得分越高，健康状况越好，越能忍受治疗给身体带来的副作用，因而也就有可能接受彻底的治疗。一般认为80分以上为非依赖级(independent)，即生活自理级。50～70分为半依赖级(semi-independent)，即生活半自理。50分以下为依赖级(dependent)，即生活需要别人帮助。大于80分者术后状态较好，存活期较长；而低于60分的话，许多有效的抗肿瘤治疗就无法实施；

S12：求出时间步i的输入向量x_i，计算方式如下：

其中，

是激活函数；B是线性空间变换矩阵；x_i是治疗方案向量；b₁是偏移向量。治疗方案以胃癌为例，包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗等。而每种治疗方案又有进一步的细分，以胃癌根治性手术和化疗为例，胃癌根治性手术分为开腹D1根治术、腹腔镜D1根治术、开腹D1+根治术、腹腔镜D1+根治术、开腹D2根治术、腹腔镜D2根治术等；化疗方式分为CapeOX、S-1、FOLFOX、SOX、XP等；

S13：计算得到时间步i的患者状态向量hi，计算方式如下：

h_i＝σ_h(W_hx_t+U_hh_t-1+b_h)

S14：由RNN神经网络预测得到检查向量

其中，σ_y是激活函数，W_y是线性空间变换矩阵，b_y是偏移向量。检查向量

RECIST实体瘤疗效评价标准是一种通过肿瘤缩小量来评估疗效的评价方法，它在WHO疗效评价标准的基础上进行了必要的修改和补充，采用简易精确的单径测量代替传统的双径测量方法，并保留了WHO标准中的CP(完全缓解)、PR(部分缓解)、SD(疾病进展)、PD(疾病稳定)。

TNM分期法国际抗癌协会对各种常见肿瘤进行统一分期，便于设计治疗方案和评价疗效，以探讨治疗规律，能客观地评价肿瘤治疗结果。简单来说，TNM表示肿瘤范围，即T(原发肿瘤)，N(区域淋巴结)，M(远处转移)；

S15：模型的优化目标，即损失函数loss，计算方式如下：

的差异大小；square error为平方误差函数；部分j为空，因为某些时间步中不包含全部数据，时间步间隔是一个月，假设当前是第t个时间步，当且仅当t被3整除的时候，TNM肿瘤影像学分期标准的y_j对应值不为空；当且仅当t被12整除的时候，RECIST实体瘤疗效评价标准的y_j对应值不为空；

S16：构建RNN网络，用适量患者历史诊疗信息做训练，即可得到所述患者状态转移模型，其具体效用为：输入患者初始状态与各时间步诊疗方案，输出患者各个时间步的状态向量与检查指标。

本治疗决策模型属于强化学习，通用的强化学习有五个重要组成部分：状态、环境、决策网络、行为以及激励。其中状态包括：当前时间步病人在状态转移模型中的状态向量、当前时间步病人的RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准、各个时间步的历史治疗决策。在实际模型中，将患者的状态嵌入成向量。整个模型使用状态作为输入，旨在预测当前状态下应采取的最佳治疗措施。

如图2所示，步骤S2中的治疗决策模型的具体构建流程，包括如下步骤：

S22：本治疗决策模型的决策网络所解决的问题可以抽象为一个多分类问题，输入患者当前时间步的状态e_s，通过强化学习领域常用的深层Q网络(DQN)进行分类。将第i种治疗方案记作a_i，则策略网络输出为当前状态下使用不同治疗方案的概率P(a_i|s_t)；具体公式可表示如下：

P(a|s_t)＝DQN(F₁(s_t))

F₁＝Relu(w₁*s_t+b₁)

S23：本治疗决策模型的行为：即医生可采取的治疗手段，同上所述，以胃癌为例，包括但不限于各种胃癌用药、胃镜手术、根治性手术、姑息性手术、化疗、放疗等；通过策略网络可以得到当前状态下采取每一种治疗方案的概率，一共有n种治疗方案，表示如下：

P＝(P(a₁|s_t)，P(a₂|s_t)...P(a_n|s_t))

S24：本治疗决策模型的环境：使用之前建立的患者状态转移模型作为本模型的环境。患者状态转移模型本质上为一个循环神经网络，输入t-1时刻的患者状态以及t时刻的诊疗方案，得到预测的t时刻的患者状态。在该模型效果较好的基础上，可以近似认为该模型刻画了真实环境下诊疗方案对于患者的改善情况；

S25：通过策略网络预测患者当前状态下应采取的诊疗方案，同时利用患者状态转移模型产生该诊疗方案下患者下一步的状态，再带入策略网络中。重复步骤S21-S24，直至诊疗模型预测出患者的检查指标为止，称为采样一轮，如此重复N轮，便得到策略网络所需要的训练数据X：

X＝(τ₁，τ₂，τ₃...τ_N)

其中τ_i的每一对数据分别是时间步i-1时的策略网络状态

和与之对应的预测出的时间步i所选择的治疗方案

S26：本治疗决策模型的激励：重点关注患者各检查指标的变化，因此激励指标为经过一系列治疗决策后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准的变化。具体来讲，采样过程中会保存患者初始RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准以及预测模型预测的治疗后RECIST实体瘤疗效评价标准与TNM肿瘤影像学分期标准，根据各项指标偏离正常指标的程度计算出该系列决策所对应的激励；治疗后的各项指标相比于治疗之前，愈趋近于正常指标，则激励愈高，反之亦然，例如：相比于治疗之前，患者的肿瘤病灶半径减少30％，RECIST指标即为PR(部分缓解)，TNM分期也从T3N1M0转为T2N1M0，则两项指标均显示此次治疗有良好成效，则激励为正值，鼓励治疗决策模型在下次遇到相同的病例时做出同样的治疗决策。激励的公式可以表示如下：

R＝(r₁，r₂)

S27：通过上述建模、采样后，优化目标为最大化激励，具体为：

S28：构建强化学习网络，用前述患者状态转移模型作为状态输入，即可迭代训练得到治疗决策模型。

步骤S3中，通过治疗决策模型输出预测的治疗方案的过程具体如下：

训练好的治疗决策模型通过输入患者当前的状态与历史治疗决策，即可输出下个时间步所需做出的治疗决策。达到辅助医生指定可行的治疗方案，以减轻患者痛苦的目的。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。