CN117649949A

CN117649949A - 基于强化学习的临床思维数据生成系统及方法

Info

Publication number: CN117649949A
Application number: CN202410115580.2A
Authority: CN
Inventors: 田雨; 李配贤; 池胜强; 李杜白; 周天舒; 李劲松
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-03-05
Anticipated expiration: 2044-01-29
Also published as: CN117649949B

Abstract

本发明公开了一种基于强化学习的临床思维数据生成系统及方法，该系统包括模态标识模块、模态决策模块、大模型诊断模块、奖励反馈模块和临床思维修饰模块。本发明利用强化学习方法生成多模态医疗数据输入的临床思维数据，依据生成过程中的状态、决策和奖励，优化生成策略，训练得到最优的临床思维数据的生成策略。通过本发明中的临床思维数据生成策略，能够对临床诊断过程中产生的临床诊断数据进行思维语义空间拓展，归纳其中的临床逻辑，解决临床诊断数据中无医务人员思维过程记录的问题。同时，融合多模态数据，保证了临床可信性，增强了临床诊断数据的临床可解释性。

Description

基于强化学习的临床思维数据生成系统及方法

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种基于强化学习的临床思维数据生成系统及方法。

背景技术

临床思维是指医务人员在进行疾病诊断时所使用的一种系统性、综合性的思考过程。医务人员对收集到的临床表现、实验室检查、影像学资料等信息进行综合分析，确定患者可能患有的疾病，并制定相应的治疗计划，需要扎实的医学知识、丰富的临床经验以及良好的分析能力和判断力。相同疾病的不同患者，其临床表现和医学检查检验结果也会存在较大差别，往往无法仅根据临床指南进行诊断，需要医务人员综合医学知识和临床经验，进行全面的分析判断。电子病历系统中虽然记录了患者的疾病信息，但是没有记录医务人员的临床诊断思维。医务人员的临床诊断思维数据，尤其是高年资临床专家的临床思维数据，可以给缺少临床经验的医务人员提供丰富的学习资源。

临床思维数据，即反映医务人员做出疾病诊断的临床思维的信息，应该记录医务人员进行临床诊断所依据的疾病信息及分析顺序、相互作用关系和对应权重。然而，临床思维数据一直没有被记录，也极少被研究者和技术人员关注，主要原因有：（1）医务人员在诊疗过程中，书写包含患者疾病信息的电子病历就已经是极大的工作量，不可能专门撰写自己诊断决策的过程以及依据。（2）信息化技术尚不能完全自动捕获临床思维数据。在电子病历系统中，对医务人员的操作路径进行记录和分析，是尝试挖掘医务人员诊疗行为的一种方式。但是，这种方式无法区分与诊断过程无关的行为记录，无法获取不同模态信息的相互作用和对应权重。

大语言模型技术的出现为解决上述问题提供了帮助，它具有巨大的知识储备和优秀的自然语言生成能力。通过知识蒸馏、指令微调等技术，使用医学相关语料对预训练大模型进行下游任务训练，能够得到具备一定医学专业知识和临床诊断能力的医疗大模型，例如由谷歌大模型实验室开发的Med-PaLM医疗大模型、香港中文大学团队开发的华佗GPT医疗大模型。对于医学领域微调训练过的大模型，虽然能广泛的胜任相对简单的医疗诊断问题，但面对临床诊断信息模态多样、诊断情况复杂的场景，仍然难以摆脱解释性差的模型“黑盒”问题，无法做出具有临床思维的诊断结果。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于强化学习的临床思维数据生成系统及方法。

本发明的目的是通过以下技术方案来实现的：

根据本说明书的第一方面，提供一种基于强化学习的临床思维数据生成系统，该系统包括：

模态标识模块，用于对多模态医疗数据输入进行类别标签匹配，得到若干类别标签-数据键值对，形成模态标识组；

模态决策模块，将模态标识组中当前用于诊断的医疗数据输入作为状态，选择类别标签作为决策，计算选择的类别标签对应的医疗数据输入进行诊断行为的奖励，基于强化学习方法训练状态-决策表，所述状态-决策表记录当前状态做出不同决策的置信度，训练目标是根据当前状态做出决策所对应的奖励，优化状态-决策表做出决策所使用的置信度；利用状态-决策表依据模态标识组生成临床决策数据和临床决策置信度；

大模型诊断模块，用于对大模型发起对话，接收模态决策模块输出的临床决策，查询其在模态标识组中对应的输入，在多轮次对话场景下请求大模型做出临床诊断，得到疾病-症状-模态三元组集合形式的临床诊断结果；

奖励反馈模块，用于构建疾病-症状-模态奖励矩阵，接收大模型诊断模块输出的临床诊断结果，在疾病-症状-模态奖励矩阵中查询所有三元组对应的奖励值，计算临床诊断结果中疾病诊断结果的奖励值，得到临床决策的奖励值，返回给模态决策模块；

临床思维修饰模块，用于对多模态医疗数据输入的临床决策数据进行修饰，形成能够体现临床诊断决策过程的临床思维数据。

进一步地，所述模态标识模块中，对于多模态医疗数据输入，通过利用提示词对大模型询问实现类别标签匹配。

进一步地，所述模态决策模块中，构建与状态-决策表结构相同的优化矩阵，记录优化前的置信度，在训练开始前状态-决策表所有的置信度均初始化为零，训练过程中，根据当前状态做出决策所对应的奖励、状态-决策表做出决策所使用的置信度以及新状态对应的所有置信度的最大值，计算新的置信度并替换状态-决策表中原本的置信度，同时将原本的置信度记录到优化矩阵中，单次训练完成后计算优化值，反复训练直到优化值稳定，得到最优状态-决策表。

进一步地，所述模态决策模块中临床决策数据的生成包括：依据模态标识组初始化当前状态，检索状态-决策表中当前状态对应的所有决策的置信度，选择置信度最高的决策并进行记录，当前状态因选择的决策转变为新的状态，新的状态会产生新的决策；做出临床决策直至用完模态标识组中所有的类别标签-数据键值对，得到模态标识组的临床决策数据及临床决策置信度。

进一步地，所述大模型诊断模块中，对大模型发起对话，要求大模型按照提示词对接下来每一轮输入的临床决策做出临床诊断，并以二元组的形式返回可能的诊断结果，所述二元组中的元素为疾病和相关症状，所述二元组与临床决策构成疾病-症状-模态三元组，将所有三元组的集合作为临床诊断结果。

进一步地，所述奖励反馈模块中，所述疾病-症状-模态奖励矩阵记录临床诊断结果中的三元组对应的奖励值，具体构建方法如下：

使用知识图谱构建疾病-症状表，知识图谱的节点包含症状和疾病，关系反映两者之间的关联程度，对知识图谱中的每个疾病-症状关系进行赋值，得到疾病和症状对应的奖励值；

基于知识蒸馏方法构建疾病-模态表，所述疾病-模态表为疾病-模态奖励值矩阵，模态维度为所有类别标签，疾病维度为使用的知识图谱中所有疾病节点中的疾病，利用提示词让医疗大模型为每个奖励值赋值；

基于知识蒸馏方法构建症状-模态表，所述症状-模态表为症状-模态奖励值矩阵，模态维度为所有类别标签，症状维度为使用的知识图谱中所有症状节点中的症状，利用提示词让医疗大模型为每个奖励值赋值；

依据所述疾病-症状表、疾病-模态表和症状-模态表，得到疾病-症状-模态奖励矩阵。

进一步地，所述奖励反馈模块中，计算临床诊断结果中疾病诊断结果的奖励值，即计算疾病诊断结果与模态标识组对应的多模态医疗数据输入的疾病诊断标签的匹配程度，通过临床诊断结果中涉及的单个疾病诊断结果在所有疾病诊断结果中的可信度计算得到。

进一步地，所述奖励反馈模块中，所述临床决策的奖励值的计算包括：对于临床诊断结果中的每个三元组，通过疾病-症状-模态奖励矩阵检索其对应的奖励值，计算奖励均值；对于临床诊断结果中涉及的疾病，计算与疾病诊断标签的匹配程度，累加后与对齐系数相乘，保证匹配程度和奖励均值对齐。

进一步地，所述临床思维修饰模块中，模态标识组的每个临床决策对应一个诊断思维块，所述诊断思维块包含：当前诊断思维使用的模态信息、当前诊断思维关注的症状及对应的可信度、症状指向的疾病及对应的可信度、诊断思维块对最终诊断思维的贡献度；所述诊断思维块对最终诊断思维的贡献度为诊断思维块对应的临床决策的奖励值与临床决策数据对应的所有奖励值之和的比值；将模态标识组的所有诊断思维块组合，得到临床思维数据。

根据本说明书的第二方面，提供一种基于强化学习的临床思维数据生成方法，该方法包括：

对多模态医疗数据输入进行类别标签匹配，得到若干类别标签-数据键值对，形成模态标识组；

将模态标识组中当前用于诊断的医疗数据输入作为状态，选择类别标签作为决策，计算选择的类别标签对应的医疗数据输入进行诊断行为的奖励，基于强化学习方法训练状态-决策表，所述状态-决策表记录当前状态做出不同决策的置信度，训练目标是根据当前状态做出决策所对应的奖励，优化状态-决策表做出决策所使用的置信度；利用状态-决策表依据模态标识组生成临床决策数据和临床决策置信度；

对大模型发起对话，查询临床决策在模态标识组中对应的输入，在多轮次对话场景下请求大模型做出临床诊断，得到疾病-症状-模态三元组集合形式的临床诊断结果；

构建疾病-症状-模态奖励矩阵，在疾病-症状-模态奖励矩阵中查询临床诊断结果中所有三元组对应的奖励值，计算临床诊断结果中疾病诊断结果的奖励值，得到临床决策的奖励值；

本发明的有益效果是：本发明利用知识蒸馏方法提炼大模型内关于临床诊断过程中模态与疾病、模态与症状之间关系的知识，这些知识将用于强化学习的训练过程；本发明利用强化学习方法生成多模态医疗数据输入的临床思维数据，依据生成过程中的状态、决策和奖励，优化生成策略，训练得到最优的临床思维数据的生成策略。通过本发明中的临床思维数据生成策略，能够对临床诊断过程中产生的临床诊断数据进行思维语义空间拓展，归纳其中的临床逻辑，解决临床诊断数据中无医务人员思维过程记录的问题。同时，融合多模态数据，并基于临床思维对文字模态的诊断信息进行模态标识，保证了临床可信性，增强了临床诊断数据的临床可解释性，极大程度的解决其在应用中的“黑盒”问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于强化学习的临床思维数据生成系统结构图；

图2为本发明实施例提供的模态标识模块实现示意图；

图3为本发明实施例提供的状态-决策表QAT训练流程；

图4为本发明实施例提供的临床决策数据生成过程；

图5为本发明实施例提供的疾病-症状-模态奖励矩阵DSM的组成；

图6为本发明实施例提供的临床思维数据CTD的生成示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明提供一种基于强化学习的临床思维数据生成系统，如图1所示，该系统包括模态标识模块、模态决策模块、大模型诊断模块、奖励反馈模块和临床思维修饰模块。本发明部署合适的可替换的医疗大模型，满足本发明中利用提示词对大模型做出提问的需求，利用其医学知识储备和医学问答能力，完成临床思维数据的生成方法及系统架构。在以下实施例中，详细说明每个模块的实现过程。

一、模态标识模块，模态标识模块完成如下步骤：

本模块基于来源于电子病历或使用者即时询问产生的多模态医疗数据输入，对其进行类别标签匹配，最后得到标识后的多模态医疗数据输入，记为模态标识组M。

本模块实现流程图如图2所示，包括多模态医疗数据输入、类别标签匹配和模态标识组组合等步骤。

(1)多模态医疗数据输入。模态标识模块直接接收多模态医疗数据输入，通常会涉及到影像、信号、文字、语音等模态。对于每种模态数据输入，会赋予匹配的类别标签，形成类别标签-数据键值对，定义为：，其中/>

为类别标签-数据键值对，i取值为1到，/>为所有可能的键值对组合的个数；/>为类别标签，/>为匹配的医疗数据输入。本发明对类别标签进行了设计：医学影像赋予的类别标签记录造影部位和影像类别，生理信号赋予的类别标签记录信号的类别，文字记录赋予的类别标签记录文字信息所属的临床诊断记录类别。举例如下：医学影像类别标签包括颅脑MRI、肺部CT、腹部超声、骨骼X射线等，生理信号类别标签包括心电图、脑电图、呼吸波形等，文字记录类别标签包括主诉、现病史、既往史、个人史、家族史、体格检查等。

(2)类别标签匹配。对于多模态医疗数据输入，会将其按照所属的模态分类，并赋予匹配的类别标签，从而完成匹配过程。这是通过利用提示词对大模型询问实现的。使用的提示词模板应涉及三个方面，即向大模型提出规范分类的要求、提供待分类的内容、提供预设的类别标签。提示词举例如下：“请依据下方提供的类别标签对提供的输入进行分类，并将其组成键值对输出。其中，键为类别标签，值为对应的输入内容。输入：[上文中无类别标签的输入]。类别标签：[上文中预设的类别标签]”。

(3)模态标识组组合。将本次多模态医疗数据输入的所有信息赋予类别标签后，合并组成字典形式的模态标识组，定义为：，M由类别标签-数据键值对构成，其中/>为本次多模态医疗数据输入被标识后的所有键值对个数。

模态决策模块、大模型诊断模块和奖励反馈模块，详细介绍了基于强化学习方法的临床决策数据生成模型的训练过程。其中，以下描述均为针对单条数据样本(即模态标识组M)的操作，重复即可对总训练集中所有的数据样本进行训练，最终完成临床思维数据生成模型的训练过程。使用表示状态(即当前可用于诊断的医疗数据输入的合集)，定义为，/>为状态/>中类别标签-数据键值对的总数，/>指的是任意一个状态，取值为1到/>的所有整数；使用/>表示决策(即选择用于接下来诊断的类别标签)，定义为/>，/>指的是状态/>中任意的一个类别标签-数据键值对，取值为1到的所有整数；使用/>表示奖励(即在当前可用于诊断的医疗数据输入的合集的情况下，选择一个类别标签对应模态的医疗数据输入进行接下来诊断的奖励值计算)，为一个实数。当/>时，/>。综上所述，基于模态标识组M初始化状态/>，对状态/>做出决策/> (选择/>中的一个类别标签-数据键值对交给大模型进行诊断，并在/>中将其移除)，会计算得到此次行动的奖励/>，并使状态/>变为/>。重复决策直到状态/>，此时用光了模态标识组M中所有的类别标签-数据键值对。

在大模型诊断模块和奖励反馈模块部分，借由知识图谱引入了疾病和症状的概念，定义如下。疾病的集合，记为/>，其中/>为选用的知识图谱中所有的疾病节点的个数；症状/>的集合，记为，其中/>为选用的知识图谱中所有的症状节点的个数。

二、模态决策模块，模态决策模块完成如下步骤：

本模块基于强化学习方法训练状态-决策表QAT，并说明了如何利用状态-决策表QAT完成依据模态标识组M生成临床决策数据A的过程。

以下对尚未定义的符号做出解释说明。状态-决策表QAT是置信度矩阵，记录着当前状态做出不同决策的置信度，QAT的维度大小为/>，/>为类别标签/>的所有可能的排列组合的情况，/>为所有排列组合的个数，/>为所有类别标签的个数。优化矩阵OAT与状态-决策表QAT结构相同，记录着优化前的置信度/>。/>可以简记为/>。依据状态-决策表QAT做出决策，使得每一个决策/>都具有与之对应的置信度。决策/>的集合，记为/>。置信度/>的集合，记为。

状态-决策表QAT的训练流程图如图3所示。训练开始前，QAT中所有的置信度均初始化为0，OAT中所有的置信度初始化为一个较大值，例如9999。训练的目标是，根据当前状态做出决策/>所对应的奖励/> (由奖励反馈模块产生)，优化状态-决策表QAT做出/>决策所使用的置信度/>的值。优化使用的公式如下：

其中，表示更新后的置信度值，/>表示新状态/>对应的所有置信度的最大值。/>和/>均为取值在0到1之间的超参数，/>控制置信度/>的更新速率，/>控制未来的长期/短期奖励对/>值的影响。

依据一次决策的、/>、/>，计算新的置信度/>，替代状态-决策表QAT中原本的/>。同时，原本的/>会被记录到优化矩阵中，即。单次训练完成后会计算本次的优化值/>，计算公式如下：

反复训练直至优化值持续减少至没有明显波动，表明QAT中所有的置信度收敛，得到最优的状态-决策表。

临床决策数据的生成过程如图4所示。首先，依据模态标识组M初始化当前状态。检索状态-决策表QAT中状态/>对应的所有决策的置信度，选择置信度最高的决策/>并记录置信度/>，当前状态/>因决策/>转变为/>。每次对状态/>做出决策/>后，新的状态/>会产生新的决策/>。做出临床决策直至状态/>为空集，即/>时，认为用光了模态标识组M中所有的类别标签-数据键值对，做出了全部决策。/>即为模态标识组/>的临床决策数据/>，/>即为模态标识组M的临床决策置信度Q。

三、大模型诊断模块，大模型诊断模块完成如下步骤：

本模块首先对大模型发起对话。然后，接收模态决策模块输入的临床决策，查询其在模态标识组M中对应的输入，在多轮次对话场景下请求大模型做出固定格式的临床诊断/>，传递给奖励反馈模块。详细流程如下：

(1)发起对话。在对一个模态标识组M做出决策前，向大模型发起新的对话。要求其按照提示词对接下来每一轮的输入做出临床诊断，并以二元组的形式返回可能的诊断结果。二元组中的元素为疾病和相关症状/>。使用的提示词应涉及两个方面，即对大模型的多轮对话的假设、输出内容和格式的要求。提示词举例如下：“我希望你扮演一名全科医生，用中文回应，对接下来的多模态医疗数据输入做出诊断。当有新的输入时，需要结合之前的输入和诊断结果，再次做出临床诊断。每一次的诊断结果以二元组的形式输出，其中的元素为‘疾病’和‘得出此疾病相关的症状’。”。

(2)询问诊断结果。面对决策过程中的，获取其中的类别标签在模态标识组M中对应的类别标签-数据键值对，把值输入大模型，得到大模型诊断产生的/>个二元组。

(3)组合诊断结果。将与每个二元组组合，得到疾病-症状-模态三元组，三元组中的元素为疾病、相关症状、诊断模态。单个三元组定义为/>，其中/>，j为1到/>内的整数。所有三元组的集合即为临床诊断结果/>，记为。

四、奖励反馈模块，奖励反馈模块完成如下步骤：

本模块接收大模型诊断模块输入的临床诊断结果，在疾病-症状-模态奖励矩阵DSM中查询所有三元组对应的奖励值，计算与诊断结果中疾病标签的匹配程度，得到临床决策/>的奖励值/>，返回给模态决策模块。

疾病-症状-模态奖励矩阵DSM的结构如图5所示。疾病-症状-模态奖励矩阵DSM是奖励值矩阵，记录诊断结果中的三元组对应的奖励值，DSM的维度大小为。疾病-症状-模态三元组会对应奖励值r，r的计算公式如下：

其中，rx是症状-模态表SM中症状和模态对应的奖励值，ry是疾病-模态表DM中疾病和模态对应的奖励值，rz是疾病-症状表DS中疾病和症状对应的奖励值。因此，如何构建奖励矩阵DSM取决于如何构建症状-模态表SM、疾病-模态表DM和疾病-症状表DS。本发明设计了基于知识图谱和知识蒸馏的方法构建三个表，具体流程如下：

(1)使用知识图谱构建疾病-症状表DS。知识图谱由节点和节点之间的关系组成，节点包含症状和疾病，关系反映两者之间的关联程度。对知识图谱中的每个疾病-症状关系进行赋值，例如：若为强相关，赋值2；相关，赋值1；无关，赋值0。由此形成疾病-症状表DS，DS是疾病-症状奖励值矩阵，维度大小为，其中的奖励值rz为0到2区间内的整数。

(2)基于知识蒸馏方法构建疾病-模态表DM。DM是疾病-模态奖励值矩阵，维度大小为。模态维度为所有类别标签/>，疾病维度为使用的知识图谱中所有疾病节点中的疾病。由此可以初始化疾病-模态表DM，然后利用提示词让医疗大模型为其中的每个奖励值ry进行赋值，例如：进行0到10区间内的赋值，0为无关，10为完全相关。

(3)基于知识蒸馏方法构建症状-模态表SM。SM是症状-模态奖励值矩阵，维度大小为。模态维度同上，症状维度为使用的知识图谱中所有症状节点中的症状。由此可以初始化症状-模态表SM，然后利用提示词让医疗大模型为其中的每个奖励值rx进行赋值，例如：进行0到10区间内的赋值，0为无关，10为完全相关。面向大模型进行知识蒸馏过程中，使用的提示词模板应涉及三个方面，即对大模型的要求、赋值的范围及说明、待赋值的表。提示词举例如下：“请依据你的医学知识，为输入的矩阵中的所有元素，在0到10的区间内赋值，0代表着此元素的两个索引完全无关，10代表着完全相关。输入矩阵[待赋值的表]。”。

同时，本发明还评价了临床诊断结果中的疾病诊断结果PL的奖励值，即计算其与模态标识组M对应的多模态医疗数据输入的疾病诊断标签L的匹配程度。需要指出的是，只有训练过程中的多模态医疗数据输入含有疾病诊断标签L。疾病诊断标签L定义为，其中/>为临床医生对此多模态医疗数据输入做出的疾病诊断结果，/>为临床医生做出的诊断结果的数量。通常，临床医生会得到一个确切的疾病诊断结果，即/>。临床诊断结果/>中的疾病诊断结果PL定义为，其中/>取值0或1，表示临床诊断结果/>中所有三元组涉及的疾病诊断结果是否存在于L中，1表示存在，0表示不存在，/>为/>中涉及的疾病DIS的个数。对于/>中涉及的所有的疾病，会计算其可信度系数DR，定义为，其中/>为取值0到1之间的概率值，且，表示疾病诊断结果/>在所有疾病诊断结果中的可信度。/>的计算公式如下：

其中，表示三元组/>在疾病-症状-模态奖励矩阵DSM中对应的奖励值。由于/>中的模态维度已经固定(即决策/>)，因此在疾病/>固定的情况下，遍历相加与疾病/>维度对应的所有症状/>维度的奖励值，即/>个奖励值，得到疾病/>对应的总奖励值；遍历相加/>所有三元组的奖励值，得到临床诊断结果/>的总奖励值。两者相比得到的值即为单个疾病诊断结果/>在所有疾病诊断结果中的可信度/>。

综上所述，可以得到疾病-症状-模态奖励矩阵DSM，本实施例中的奖励值r在0到200之间取值；可以即时计算临床诊断结果中，每个疾病诊断结果与疾病诊断标签的匹配程度。由此可以计算临床诊断结果/>对应的奖励值/>，计算公式如下：

对于临床诊断结果中的每个三元组，会检索其对应的奖励值，计算奖励均值。对于临床诊断结果/>中涉及的疾病，会计算与疾病诊断标签的匹配程度/>，累加后与对齐系数/>相乘，保证匹配程度和奖励均值的对齐，其中/>为大于0的有理数。

五、临床思维修饰模块，临床思维修饰模块完成如下步骤：

本模块接收上述模块中产生的诊断过程数据，对多模态医疗数据输入的临床决策数据进行修饰，形成能够体现临床诊断决策过程的临床思维数据，如图6所示。

一个模态标识组M的临床思维数据CTD由诊断思维块组成，定义为。每一个临床决策/>都对应一个诊断思维块/>。本发明中设计的单个诊断思维块/>包含四部分内容，分别是当前诊断思维使用的模态信息、当前诊断思维关注的症状/>及对应的可信度/>、症状指向的疾病/>及对应的可信度/>、本诊断思维块对最终诊断思维的贡献度/>。其中，可信度/>为取值0到1之间的概率值，且/>，表示对应症状/>

在所有三元组涉及的症状中的可信度，为/>中涉及的症状SYM的个数。/>的计算公式如下：

其中，表示三元组/>在疾病-症状-模态奖励矩阵DSM中对应的奖励值。由于/>中的模态维度已经固定(即决策/>)，因此在症状/>固定的情况下，遍历相加与症状/>维度对应的所有疾病/>维度的奖励值，即/>个奖励值，得到症状/>的总奖励值；遍历相加/>所有三元组的奖励值，得到临床诊断结果/>的总奖励值。两者相比得到的值即为对应症状/>在所有三元组症状中的可信度/>。

诊断思维块对临床思维数据CTD的贡献度/>计算公式如下：

其中为临床决策/>的奖励值。遍历相加临床决策数据A对应的/>个奖励值，两者相比得到贡献度/>，为取值0到1之间的概率值，且/>。

单个诊断思维块中仅会展示最高可信度/>和/>对应的症状/>和疾病。举例如下：“当前诊断思维块/>：诊断依据/>，关注的症状(可信度)为/>，指向的疾病(可信度)为/>。本诊断思维块对临床思维数据的贡献度为/>。”，将一个模态标识组M的所有诊断思维块组合，得到临床思维数据CTD。

本发明实施例还提供一种基于强化学习的临床思维数据生成方法，该方法包括以下步骤：

具体实现流程可参照前述基于强化学习的临床思维数据生成系统中的各模块。

本发明生成的临床思维数据可以用于医学领域中的各个场景，例如：医疗诊断场景，临床思维数据可以帮助医疗人员准确、及时的评估医疗诊断状况；医学教育场景，专业的临床思维数据能够高效的培养医学学生和医师，提高疾病诊断能力；临床决策模型优化场景，使用临床思维数据对已有的临床决策支持系统进行模型优化训练，能够在新的角度提升模型的辅助诊断性能。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于强化学习的临床思维数据生成系统，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述模态标识模块中，对于多模态医疗数据输入，通过利用提示词对大模型询问实现类别标签匹配。

3.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述模态决策模块中，构建与状态-决策表结构相同的优化矩阵，记录优化前的置信度，在训练开始前状态-决策表所有的置信度均初始化为零，训练过程中，根据当前状态做出决策所对应的奖励、状态-决策表做出决策所使用的置信度以及新状态对应的所有置信度的最大值，计算新的置信度并替换状态-决策表中原本的置信度，同时将原本的置信度记录到优化矩阵中，单次训练完成后计算优化值，反复训练直到优化值稳定，得到最优状态-决策表。

4.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述模态决策模块中临床决策数据的生成包括：依据模态标识组初始化当前状态，检索状态-决策表中当前状态对应的所有决策的置信度，选择置信度最高的决策并进行记录，当前状态因选择的决策转变为新的状态，新的状态会产生新的决策；做出临床决策直至用完模态标识组中所有的类别标签-数据键值对，得到模态标识组的临床决策数据及临床决策置信度。

5.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述大模型诊断模块中，对大模型发起对话，要求大模型按照提示词对接下来每一轮输入的临床决策做出临床诊断，并以二元组的形式返回可能的诊断结果，所述二元组中的元素为疾病和相关症状，所述二元组与临床决策构成疾病-症状-模态三元组，将所有三元组的集合作为临床诊断结果。

6.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述奖励反馈模块中，所述疾病-症状-模态奖励矩阵记录临床诊断结果中的三元组对应的奖励值，具体构建方法如下：

7.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述奖励反馈模块中，计算临床诊断结果中疾病诊断结果的奖励值，即计算疾病诊断结果与模态标识组对应的多模态医疗数据输入的疾病诊断标签的匹配程度，通过临床诊断结果中涉及的单个疾病诊断结果在所有疾病诊断结果中的可信度计算得到。

8.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述奖励反馈模块中，所述临床决策的奖励值的计算包括：对于临床诊断结果中的每个三元组，通过疾病-症状-模态奖励矩阵检索其对应的奖励值，计算奖励均值；对于临床诊断结果中涉及的疾病，计算与疾病诊断标签的匹配程度，累加后与对齐系数相乘，保证匹配程度和奖励均值对齐。

9.根据权利要求1所述的基于强化学习的临床思维数据生成系统，其特征在于，所述临床思维修饰模块中，模态标识组的每个临床决策对应一个诊断思维块，所述诊断思维块包含：当前诊断思维使用的模态信息、当前诊断思维关注的症状及对应的可信度、症状指向的疾病及对应的可信度、诊断思维块对最终诊断思维的贡献度；所述诊断思维块对最终诊断思维的贡献度为诊断思维块对应的临床决策的奖励值与临床决策数据对应的所有奖励值之和的比值；将模态标识组的所有诊断思维块组合，得到临床思维数据。

10.一种基于强化学习的临床思维数据生成方法，其特征在于，包括：