CN117542538A

CN117542538A - 一种基于强化学习的医疗多模态内容分析及生成方法

Info

Publication number: CN117542538A
Application number: CN202410036713.7A
Authority: CN
Inventors: 宋彦
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-02-09

Abstract

本发明公开了一种基于强化学习的医疗多模态内容分析及生成方法，将给定图像输送到目标检测模型中，生成与给定图像相匹配的文本报告；目标检测模型的训练过程如下：S1：构建训练集，将训练集中图像输送到目标检测模型中；S2：提取图像的视觉特征，同时获取目标检测模型中已生成文本的文本特征；S3：对视觉特征和文本特征进行建模，得到视觉特征的记忆对应向量组以及文本特征的记忆对应向量组；S4：对视觉特征的记忆对应向量组进行编码，得到输出矩阵；S5：对输出矩阵和文本特征的记忆对应向量组进行解码，输出当前时间步的预测文本；该医疗多模态内容分析及生成方法有利于放射学影像报告的生成。

Description

一种基于强化学习的医疗多模态内容分析及生成方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于强化学习的医疗多模态内容分析及生成方法。

背景技术

放射学报告生成方法需要处理的医疗数据是多模态的，既需要处理放射学影像，又需要处理报告文本。此外，在该类医疗数据中，文本报告中的每一条诊断信息都与放射学影像中的一定图像区域相对应。考虑到影像与文本之间的这种对齐关系对生成文本的重要性，模型学习这种对齐关系的能力是实现卓越性能的关键。现有的技术在有监督模式下通过共同注意力机制促进不同模态之间的特征对齐，但由于缺乏对这种对齐关系的标注，不足以实现有效和准确的对应关系学习，使得最终得到的文本报告不准确。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于强化学习的医疗多模态内容分析及生成方法，提高了文本报告的生成准确性。

本发明提出的一种基于强化学习的医疗多模态内容分析及生成方法，将给定图像输送到目标检测模型中，生成与给定图像相匹配的文本报告；

所述目标检测模型的训练过程如下：

S1：构建训练集，并将训练集中图像输送到目标检测模型中；

S2：提取图像的视觉特征/>，同时获取目标检测模型中已生成文本/>的文本特征/>；

S3：对视觉特征和文本特征/>进行建模，得到视觉特征的记忆对应向量组/>以及文本特征的记忆对应向量组/>；

S4：对视觉特征的记忆对应向量组进行编码，得到输出矩阵/>；

S5：对输出矩阵和文本特征的记忆对应向量组/>进行解码处理，输出当前时间步的预测文本。

进一步地，在步骤S3中，基于跨模态记忆模块对视觉特征和文本特征/>进行建模，得到视觉特征的记忆对应向量组/>以及文本特征的记忆对应向量组/>，跨模态记忆模块包括一个用于对齐视觉特征/>和文本特征/>的记忆矩阵/>，跨模态记忆模块含有多个线程，每个线程遵循相同的对齐方式；其中，视觉特征的记忆对应向量组/>生成过程如下：

将视觉特征、文本特征/>以及记忆特征/>分别映射到对齐空间，得到视觉特征向量/>、文本特征向量/>以及记忆特征向量/>，/>，/>，/>，/>分别表示向量序号，/>为视觉特征的总个数，/>，/>为已生成文本特征的总个数，/>，为记忆矩阵/>中记忆特征的总个数，/>，/>表示第/>个记忆特征；

在对齐空间中，计算每一个视觉特征向量与记忆特征向量/>之间的距离/>并按/>升序排列，选择前/>个记忆特征向量/>，/>，/>表示记忆特征向量序号；

在记忆矩阵中选择与记忆特征向量/>对应的记忆特征/>，将记忆特征/>映射为对应的视觉向量/>；

计算视觉向量的加权和输出向量/>；

将所有线程输出的向量连接以生成视觉特征的记忆对应向量组/>。

进一步地，视觉特征向量、文本特征向量/>以及记忆特征向量/>计算如下：

其中，、/>以及/>是三个可学习的参数矩阵；

距离的计算如下：

视觉向量生成如下：

其中，是一个可学习的参数矩阵；

向量的计算如下：

其中，表示权重，/>表示选取的记忆特征向量总数，/>表示乘积。

进一步地，在目标检测模型训练过程中，基于输出多个当前时间步的预测文本生成图像对应的完整报告；通过评测指标向目标检测模型中已生成文本/>生成奖励/>，并通过强化学习算法来引导视觉和文本的跨模态对齐。

强化学习算法包括基于Transformer的价值网络，基于价值网络计算已生成文本的价值/>，优势函数/>如下：

其中，为已生成文本/>通过评测指标生成的奖励，/>表示已生成文本/>经过步骤S1至S5的一个时间步后得到的已生成文本，/>表示/>的价值；强化学习通过梯度上升最大化优势函数/>的期望值实现对目标检测模型的训练，价值网络的更新通过最小化实现。

本发明提供的一种基于强化学习的医疗多模态内容分析及生成方法的优点在于：本发明结构中提供的一种基于强化学习的医疗多模态内容分析及生成方法，利用跨模态记忆模块，目标检测模型可以更好地对视觉特征和文本特征进行对齐，从而有利于放射学影像报告的生成。同时在目标检测模型中加入强化学习的思想，以解决先前工作中存在的没有对齐标注来指导对齐关系准确的学习的问题，使得最终输出的文本报告与目标图像区域一一对应。

附图说明

图1为本发明的结构示意图；

图2为目标检测模型的训练流程图。

具体实施方式

下面，通过具体实施例对本发明的技术方案进行详细说明，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

如图1和2所示，本发明提出的一种基于强化学习的医疗多模态内容分析及生成方法，将给定图像输送到目标检测模型中，生成与给定图像相匹配的文本报告；

所述目标检测模型包括视觉提取器、跨模态记忆模块、编辑器和解码器；目标检测模型的训练过程如下步骤S1至S5：

S1：构建训练集，并将训练集中图像输送到目标检测模型中。

利用视觉提取器提取图像的视觉特征/>，记为/>，其中第/>个视觉特征记为，/>为视觉特征的总个数。已生成文本/>的文本特征/>，记为/>，其中第/>个文本特征记为/>，/>为已生成文本特征的总个数。可以理解的是，目标检测模型中已生成文本/>为历史数据，也就是说已生成文本/>是每次目标检测模型训练过程中生成的文本，该文本被文本储存模块进行储存作为历史数据，加入新一轮的训练过程。

基于跨模态记忆模块对视觉特征和文本特征/>进行建模，得到视觉特征的记忆对应向量组/>以及文本特征的记忆对应向量组/>；跨模态记忆模块包括一个记忆矩阵/>，记忆矩阵/>用于对齐视觉特征/>和文本特征/>，记为/>，其中第/>个记忆特征记为/>，/>为记忆特征的总个数。

跨模态记忆模块含有多个线程，每个线程遵循相同的对齐方式；其中，视觉特征的记忆对应向量组生成过程如下步骤S31至S35：

S31：将视觉特征、文本特征/>以及记忆特征/>分别映射到对齐空间，得到视觉特征向量/>、文本特征向量/>以及记忆特征向量/>，/>，/>，/>，/>，/>分别表示向量序号，/>为视觉特征的总个数，/>，/>为已生成文本特征的总个数，，/>为记忆矩阵/>中记忆特征的总个数。

视觉特征向量、文本特征向量/>以及记忆特征向量/>计算如下：

其中，、/>以及/>是三个可学习的参数矩阵。

S32：在对齐空间中，计算每一个视觉特征向量与记忆特征向量/>之间的距离并按/>升序排列，选择前/>个记忆特征向量/>，/>，/>表示记忆特征向量序号；

距离的计算如下：

S33：在记忆矩阵中选择与记忆特征向量/>对应的记忆特征/>，将记忆特征映射为对应的视觉向量/>；

视觉向量生成如下：

其中，是一个可学习的参数矩阵。

S34：计算视觉向量的加权和输出向量/>；

向量计算如下：

S35：将所有线程输出的向量连接以生成视觉特征的记忆对应向量组/>。

文本特征的记忆对应向量组的计算过程与视觉特征的记忆对应向量组/>类似，以下简略说明，具体详见步骤S31至S35。

在步骤S31基础上，在对齐空间中，计算每一个文本特征向量与记忆特征向量/>之间的距离/>并按/>升序排列，选择前/>个记忆特征向量/>；

在记忆矩阵中选择与记忆特征向量/>对应的记忆特征/>，将记忆特征/>映射为对应的文本向量/>；

计算文本向量的加权和输出向量/>；

将所有线程输出的向量连接以生成文本特征的记忆对应向量组/>。

其中涉及到的、/>、/>等公式类比到步骤S31至S35中的对应公式即可。

本实施例采用基于Transformer的编码器对进行编码。

S5：对输出矩阵和文本特征的记忆对应向量组/>进行解码处理，输出当前时间步的预测文本；

本实施例采用基于Transformer的解码器对和/>进行解码，具体为：将/>和/>输入到基于Transformer的解码器中，从而输出当前时间步的预测文本。

通过步骤S1至S5输出不同时间步的预测文本，将图像对应的输出预测文本进行拼接，以生成图像/>对应的完整报告。

基于BLEU、METEOR以及ROUGE等评测指标，通过评测指标向目标检测模型中已生成文本生成奖励/>，并通过强化学习算法来引导视觉和文本的跨模态对齐。

强化学习算法具体为：具体使用A3C（Asynchronous Advantage Actor-Critic）强化学习算法。该算法包括一个基于Transformer的价值网络（Critic），该价值网络可以参考现有网络。通过价值网络计算当前已生成文本的价值/>，基于/>和奖励/>计算优势函数：

其中，为已生成文本/>通过评测指标生成的奖励，/>表示已生成文本/>经过步骤S1至S5的一个时间步后得到的已生成文本，/>表示/>的价值，其中，/>为已生成文本/>经过步骤S1至S5后输出的当前时间步的预测文本，将当前时间步的预测文本作为已生成文本在目标检测模型中储存，并作为下一个时间步计算的已生成文本，在进行下一个时间步的文本时，已生成文本为当前时间步的文本集合，奖励/>也是当前时间步的文本集合对应的奖励；也就是说已生成文本以及对应的奖励随着目标检测模型的训练是一个不断变化的集合，经过对这个集合中的元素进行优化，可以实现对目标检测模型的训练优化。

强化学习通过梯度上升最大化的期望值实现对目标检测模型的训练。价值网络的更新则是通过最小化/>实现的。

在本实施例中，利用跨模态记忆模块，目标检测模型可以更好地对视觉特征和文本特征进行对齐，从而有利于放射学影像报告的生成。同时在目标检测模型中加入强化学习的思想，以解决先前工作中存在的没有对齐标注来指导对齐关系准确的学习的问题，使得最终输出的文本报告与目标图像区域一一对应，提高了文本报告的准确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习的医疗多模态内容分析及生成方法，其特征在于，将给定图像输送到目标检测模型中，生成与给定图像相匹配的文本报告；

所述目标检测模型的训练过程如下：

2.根据权利要求1所述的基于强化学习的医疗多模态内容分析及生成方法，其特征在于，在步骤S3中，基于跨模态记忆模块对视觉特征和文本特征/>进行建模，得到视觉特征的记忆对应向量组/>以及文本特征的记忆对应向量组/>，跨模态记忆模块包括一个用于对齐视觉特征/>和文本特征/>的记忆矩阵/>，跨模态记忆模块含有多个线程，每个线程遵循相同的对齐方式；其中，视觉特征的记忆对应向量组/>生成过程如下：

将视觉特征、文本特征/>以及记忆特征/>分别映射到对齐空间，得到视觉特征向量、文本特征向量/>以及记忆特征向量/>，/>，/>，/>，/>分别表示向量序号，/>为视觉特征的总个数，/>，/>为已生成文本特征的总个数，/>，，/>为记忆矩阵/>中记忆特征的总个数；

在对齐空间中，计算每一个视觉特征向量与记忆特征向量/>之间的距离/>并按升序排列，选择前/>个记忆特征向量/>，/>，/>表示记忆特征向量序号；

计算视觉向量的加权和输出向量/>；

3.根据权利要求2所述的基于强化学习的医疗多模态内容分析及生成方法，其特征在于，视觉特征向量、文本特征向量/>以及记忆特征向量/>计算如下：

其中，、/>以及/>是三个可学习的参数矩阵；

距离的计算如下：

视觉向量生成如下：

其中，是一个可学习的参数矩阵；

向量的计算如下：

4.根据权利要求1所述的基于强化学习的医疗多模态内容分析及生成方法，其特征在于，在目标检测模型训练过程中，基于输出多个当前时间步的预测文本生成图像对应的完整报告；

通过评测指标向目标检测模型中已生成文本生成奖励/>，并通过强化学习算法来引导视觉和文本的跨模态对齐；

其中，为已生成文本/>通过评测指标生成的奖励，/>表示已生成文本/>经过步骤S1至S5的一个时间步后得到的已生成文本，/>表示/>的价值；

强化学习通过梯度上升最大化优势函数的期望值实现对目标检测模型的训练，价值网络的更新通过最小化/>实现。