CN116631566A

CN116631566A - 一种基于大数据的医学影像报告智能生成方法

Info

Publication number: CN116631566A
Application number: CN202310582362.5A
Authority: CN
Inventors: 王进; 林兴; 袁鑫浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guangzhou Hehao Medical Technology Co ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-22
Anticipated expiration: 2043-05-23
Also published as: CN116631566B

Abstract

本发明属于计算机视觉与自然语言处理交叉领域，具体涉及一种基于大数据的医学影像报告智能生成方法，包括：将待处理的医学影像图片经预处理后输入到图像编码模型提取关键的图像特征；将提取的图像特征输入文本生成模型自动的生成诊断报告；其中，所述图像编码模型基于ViT神经网络模型，所述文本生成模型基于预训练语言模型GPT模型和分类器，通过设计损失函数FD‑CE和对比损失函数对医学影像报告智能生成模型进行优化，实现图像编码模型和文本生成模型之间的语义对齐和交互，本发明方法不仅使用方便，其生成的诊断报告更具有真实性和可靠性，可辅助医生进行诊断，从而提高诊断效率。

Description

一种基于大数据的医学影像报告智能生成方法

技术领域

本发明属于计算机视觉与自然语言处理的交叉领域领域，特别是涉及一种基于大数据的医学影像报告智能生成方法。

背景技术

图像描述是一种结合了计算机视觉和自然语言处理技术的人工智能技术，其目的是自动地对一张图片进行描述生成，通常生成的描述是自然语言文本形式的。首先利用计算机视觉技术对输入的图像进行特征提取，然后将这些特征传入到一个自然语言处理模型中，该模型根据图像特征生成与图片相关的自然语言文本描述。

近年来，医学影像技术(如CT影像、核磁共振影像)的快速发展大大提高了医疗水平，医学影像已成为病情诊断的重要依据之一。通过医学影像得出诊断报告是一项专业性极强的工作，同时也要消耗较多的时间与精力，而专业医生数量的增长远远跟不上影像数量的增长。越来越多的医学影像需要处理，这降低了医生的诊断效率，而且容易导致疲劳和注意力不集中，从而增加误诊和漏诊的风险。因此，为提高医生的工作效率和诊断准确性，急需一种先进的大数据技术来辅助医生理解这些医疗影像报告。这种技术可以通过自动化的方式对医疗影像进行理解和分析，提取关键信息并自动生成相应的诊断报告，从而减轻医生的负担，节省时间和精力，降低误诊和漏诊的风险，有助于提高医疗水平和质量。

与传统的图像描述任务不同，医学影像诊断报告内容具有专业性、明确性和离散性，因此也需要针对性的算法与模型设计。利用大数据技术处理该任务过程中，图像中的语义信息与自然语言之间进行对齐是非常重要的，某一图像区域及其对应的文本描述在嵌入向量空间中应具有相似的表示，否则生成的报告可能会失去精度和可信度。因此，如何在训练过程中让模型从大量医学影像数据中捕捉到图像与文本的对应关系是一个挑战。

发明内容

为了解决背景技术中存在的问题，本发明提供一种基于大数据的医学影像报告智能生成方法，该方法包括：

将待处理的医学影像图片进行预处理后输入训练好的医学影像报告智能生成模型自动的生成诊断报告；其中，所述医学影像报告智能生成模型包括：图像编码模型和文本生成模型；所述图像编码模型基于ViT神经网络模型，所述文本生成模型包括：预训练语言模型GPT模型和分类器；

所述医学影像报告智能生成模型的训练过程包括：

S1：获取原始医学影像报告数据集并进行预处理，所述原始医学影像报告数据包括：原始医学影像图片和原始医学影像图片对应的真实诊断报告文本；

S2：将原始医学影像图片输入图像编码模型进行编码得到原始图像特征；

S3：将原始图像特征输入预训练语言模型GPT进行编码得到文本编码向量，将文本编码向量输入分类器进行分类得到诊断报告文本；

S4：根据诊断报告文本与真实诊断报告文本计算FD-CE损失函数；根据图像编码向量和文本编码向量计算对比损失函数；根据FD-CE损失函数和对比损失函数构建医学影像报告智能生成模型的损失函数；

S5：以最小化医学影像报告智能生成模型的损失函数为优化目标利用梯度下降算法通过反向传播机制对医学影像报告智能生成模型的参数进行更新，医学影像报告智能生成模型的损失函数收敛后得到训练好的医学影像报告智能生成模型。

优选地，所述分类器基于Softmax函数进行分类处理，例如具有Softmax函数的全连接层、Softmax函数等。

进一步地，对原始医学影像图片或待处理的医学影像图片进行预处理包括：将原始医学影像图片或待处理的医学影像图片调整到固定的224x224像素大小，再切分为14×14个Patch，以确保图像编码模型能够接收相同大小的输入。

进一步地，对原始医学影像图片对应的真实诊断报告文本进行预处理包括：去除真实诊断报告文本中的无用字符、空格和特殊符号，再将文本转换成Prompt格式。

进一步地，所述FD-CE损失函数包括：

其中，V表示为词表；Y表示真实诊断报告文本；y_i∈Y；w_i表示真实诊断报告文本中第i个字对应的动态损失权重；/>为上一轮文本生成模型训练完的生成的诊断报告文本；/>为y_i在真实诊断报告文本中的tfidf值，y_i,k表示y_i中的第k个值，y_i表示真实诊断报告文本中的第i个字，/>表示文本生成模型生成的诊断报告文本中的第i个字，/>表示文本生成模型生成的诊断报告文本，文本生成模型生成的诊断报告文本和真实诊断报告文本用one-hot向量表示，M表示最大权重参数，L_FD-CE表示FD-CE损失函数。

进一步地，所述对比损失函数包括：

其中，H_g,i为原始图像特征中的第j个值，H_t,i表示文本编码向量中的第i个值，AVG表示平均聚合函数，sim表示相似度函数，N表示训练样本的数量，n表示原始图像特征或文本编码向量中元素的个数。

进一步地，所述医学影像报告智能生成模型的损失函数包括：

loss＝α*L+(1-α)*L_FD-CE

其中，L表示对比损失函数，L_FD-CE表示FD-CE损失函数，α为损失的平衡因子超参数。

本发明至少具有以下有益效果

本发明将对比学习和大模型技术应用到医疗影像诊断报告生成领域中，采用对比学习使图像与自然语言在向量空间内对齐，捕捉到图像与文本的对应关系，加快微调速度；采用模板构建和加权学习的方式，减小生成模型的学习难度，提升整体生成效果；采用端到端的建模方式，使用简便，易于维护。

附图说明

图1为本发明的方法流程示意图；

图2为本发明模型结构流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1，本发明提供一种基于大数据的医学影像报告智能生成方法，该方法包括：

将待处理的医学影像图片进行预处理后输入训练好的医学影像报告智能生成模型自动的生成诊断报告；其中，所述医学影像报告智能生成模型包括：图像编码模型和文本生成模型；所述图像编码模型基于ViT(Vision Transformer)神经网络模型，所述文本生成模型包括：预训练语言模型GPT模型和分类器；

请参阅图2，所述医学影像报告智能生成模型的训练过程包括：

设分成14×14个排列patch的图像为X，即X＝[patch₁,patch₂,...,patch_n]，将每个进行patch线性投影，得到196长度的隐藏patch序列Z＝[z₁,z₂,...,z₁₉₆]，z_i＝W_patchpatch_i,其中W_patch为可学习的投影矩阵参数，且序列中每个元素z_i的维度为768；将Z输入到ViT模型进行编码，得到图像的编码表示H_g,其中H_g＝Vit(Z)，维度与Z保持一致；

设图像X对应的真实诊断报告文本序列为Y，将Y右移一位后得到生成模块文本输入Y_shift，将图像特征H_g和Y_shift输入GPT生成模块得到文本特征向量：H_t＝GPT(Y_shift,H_g)；将文本特征向量输入到分类器进行分类，得到生成文本序列为生成的第i个字符，计算公式如下：

其中，h_t ⁱ∈H_t，h_t ⁱ为第i个字符的文本向量，W和b为可学习参数。

通过将文本转换成统一的规范化模板(Prompt)格式，可以让预训练语言模型更好地理解和处理文本内容，从而更准确地生成诊断报告。以充分利用预训练语言模型GPT(Generative Pre-trained Transformer)的知识。模板构建细节如下表所示：

进一步地，所述FD-CE损失函数包括：

采用生成诊断报告内容与真实诊断报告内容Y计算损失函数过程中，为聚焦当前模型生成文本，动态赋予难生成样本更高的权重，使其在下一轮训练中得到更多的关注。

进一步地，所述对比损失函数包括：

其中，H_g,i为原始图像特征中的第j个值，H_t,i表示文本编码向量中的第i个值，AVG表示平均聚合函数，sim表示相似度函数，N表示训练样本的数量，n表示原始图像特征或文本编码向量中元素的个数，在训练样本量为N的mini-batch中表示第i个图文样本对，采用对比学习的方法拉近图像与其诊断文本的距离，增大图像与非对应诊断文本的距离，以使图像中的语义信息与自然语言之间进行对齐。

loss＝α*L+(1-α)*L_FD-CE

本发明将对比学习和大模型技术应用到医疗影像诊断报告生成领域中，采用对比学习使图像与自然语言在向量空间内对齐，加快微调速度；采用模板构建和加权学习的方式，减小生成模型的学习难度，提升整体生成效果；采用端到端的建模方式，使用简便，易于维护。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据的医学影像报告智能生成方法，其特征在于，包括：将待处理的医学影像图片进行预处理后输入训练好的医学影像报告智能生成模型自动的生成诊断报告；其中，所述医学影像报告智能生成模型包括：图像编码模型和文本生成模型；所述图像编码模型基于ViT神经网络模型，所述文本生成模型包括：预训练语言模型GPT模型和分类器；

所述医学影像报告智能生成模型的训练过程包括：

2.根据权利要求1所述的一种基于大数据的医学影像报告智能生成方法，其特征在于，对原始医学影像图片或待处理的医学影像图片进行预处理包括：将原始医学影像图片或待处理的医学影像图片调整到固定的224x224像素大小，再切分为14×14个Patch，以确保图像编码模型能够接收相同大小的输入。

3.根据权利要求1所述的一种基于大数据的医学影像报告智能生成方法，其特征在于，对原始医学影像图片对应的真实诊断报告文本进行预处理包括：去除真实诊断报告文本中的无用字符、空格和特殊符号，再将文本转换成Prompt格式。

4.根据权利要求1所述的一种基于大数据的医学影像报告智能生成方法，其特征在于，

所述FD-CE损失函数包括：

其中，V表示为词表；Y表示真实诊断报告文本；y_i∈Y；w_i表示真实诊断报告文本中第i个字对应的动态损失权重；/>为上一轮文本生成模型训练完的生成的诊断报告文本；tfidf_yi为y_i在真实诊断报告文本中的tfidf值，y_i,k表示y_i中的第k个值，y_i表示真实诊断报告文本中的第i个字，/>表示文本生成模型生成的诊断报告文本中的第i个字，/>表示文本生成模型生成的诊断报告文本，文本生成模型生成的诊断报告文本和真实诊断报告文本用one-hot向量表示，M表示最大权重参数L_FD-CE表示FD-CE损失函数。

5.根据权利要求1所述的一种基于大数据的医学影像报告智能生成方法，其特征在于，所述对比损失函数包括：

6.根据权利要求1所述的一种基于大数据的医学影像报告智能生成方法，其特征在于，所述医学影像报告智能生成模型的损失函数包括：

loss＝α*L+(1-α)*L_FD-CE