CN117352121A

CN117352121A - 一种医学影像报告的生成方法及装置

Info

Publication number: CN117352121A
Application number: CN202311451375.5A
Authority: CN
Inventors: 余龙龙; 曲昭伟; 王晓茹; 马晨阳; 邓博文; 刘明时; 李梅芳; 卞德昕
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-05

Abstract

本申请实施例公开了一种医学影像报告的生成方法及装置。在该方法中，将医学影像视图输入视觉语言预训练模型提取视觉特征；基于视觉特征构建医学文本标签；将医学文本标签输入预训练语言模型进行编码，得到文本特征；将文本特征和视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征：对多模态特征进行解码，得到医学影像报告。由此可见，利用本申请实施例提供的方案，采用多模态预训练模型提取视觉特征，实现高级语义信息的捕捉，从而提高医学影像报告的准度；采用预训练语言模型对医学文本标签进行编码，能够提供医学影像报告中医学术语的充实性和准确度；采用多模态交叉融合模块弥补特征间差异，从而提高生成的医学影像报告的质量。

Description

一种医学影像报告的生成方法及装置

技术领域

本申请涉及医学领域，尤其涉及一种医学影像报告的生成方法及装置。

背景技术

随着医学技术的发展，医学影像技术的快速发展大大提高了医疗水平，医生可以通过各种医学影像设备对人体进行扫描，根据医学影像视图生成医学放射学影像报告，医学影像报告已成为病情诊断的重要依据之一。

现有技术中在使用卷积神经网络提取医学影像特征时，欠缺融合高级语义信息的能力。因此，使用卷积神经网络提取图像特征用于报告生成，缺少了高级语义特征，由于视觉和文本模态天然的语义鸿沟，在生成医学影像报告时，缺乏语言表达的灵活性，并会导致医学影像报告准度低。

发明内容

本申请实施例提供了一种医学影像报告的生成方法及装置，可以使医学影像报告的语言表达具有灵活性，提高医学影像报告的准度。

本申请第一方面提供了一种医学影像报告的生成方法，包括：

将医学影像视图输入视觉语言预训练模型提取视觉特征；

基于所述视觉特征构建医学文本标签；

将所述医学文本标签输入预训练语言模型进行编码，得到文本特征；

将所述文本特征和所述视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征：

对所述多模态特征进行解码，得到医学影像报告。

可选地，所述基于所述视觉特征构建医学文本标签，包括：

基于所述视觉特征进行医学分类任务，得到分类结果；

根据所述分类结果诊断病灶，得到疾病关键词；

根据所述疾病关键词构建所述医学文本标签。

可选地，所述通过预设的多模态交叉融合模块将文本特征和视觉特征进行融合前，所述方法，还包括：

将所述文本特征和所述视觉特征通过线性投影层映射到多模态特征空间，得到特征维度相同的映射后的文本特征和映射后的视觉特征；

将所述映射后的文本特征和所述映射后的视觉特征作为源序列输入所述多模态交叉融合模块。

可选地，所述通过预设的多模态交叉融合模将文本特征和视觉特征进行融合，得到多模态特征，包括：

通过多模态交叉融合模块将所述映射后的视觉特征与与所述映射后的文本特征对齐，得到融合后的特征；

采用前馈神经网络对所述融合后的特征进行额外处理，得到处理后的特征；

利用残差连接和层归一化，基于所述处理后的特征生成所述多模态特征。

可选地，所述对所述多模态特征进行解码，得到医学影像报告，包括：

将所述多模态特征作为输入解码器的隐状态，通过所述解码器对所述隐状态进行解码，得到所述医学影像报告。

本申请第二方面提供了一种医学影像报告的生成装置，包括：

提取单元，用于将医学影像视图输入视觉语言预训练模型提取视觉特征；

构建单元，用于基于所述视觉特征构建医学文本标签；

编码单元，用于将所述医学文本标签输入预训练语言模型进行编码，得到文本特征；

融合单元，用于将所述文本特征和所述视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征：

生成单元，用于对所述多模态特征进行解码，生成医学影像报告。

可选地，所述构建单元，具体用于：

基于所述视觉特征进行医学分类任务，得到分类结果；

根据所述分类结果诊断病灶，得到疾病关键词；

根据所述疾病关键词构建所述医学文本标签。

可选地，所述装置，还包括：

映射单元，用于将所述文本特征和所述视觉特征通过线性投影层映射到多模态特征空间，得到特征维度相同的映射后的文本特征和映射后的视觉特征；将所述映射后的文本特征和所述映射后的视觉特征作为源序列输入所述多模态交叉融合模块。

可选地，所述融合单元，具体用于：

可选地，所述生成单元，具体用于：

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种医学影像报告的生成方法的流程示意图；

图2为本申请实施例提供的一种医学影像报告的生成方法的框架示意图；

图3为本申请实施例提供的一种医学影像报告的生成装置的结构示意图。

具体实施方式

为方便理解，首先对本申请实施例的应用场景进行介绍。

现有技术中，在使用卷积神经网络提取视觉特征时，欠缺融合高级语义信息的能力。传统的卷积神经网络在图像处理领域应用广泛且效果显著，但在报告生成技术里，需要根据图像生成文字报告，这涉及图像到文字的跨模态转化。因此，仅使用卷积神经网络提取图像特征用于报告生成，缺少了高级语义特征，由于视觉和文本模态天然的语义鸿沟，在生成报告时，会降低准度。

并且，现有技术中的方案更易生成正常的描述，对于有疾病的图像，不能很好的生成连贯的报告。目前的医学报告自动生成技术大多从图像字幕(即给一张自然图像，生成一个简短的标题)的基础结构发展而来，近几年随着Transformer的发展，报告生成技术也开始尝试基于Transformer生成更加多样性的句子。但是不论哪种结构，由于模型需要使用公开数据集进行预训练，而所有数据集中正常影像或正常描述的比例都远高于异常影像或异常区域的描述，因此最终生成的报告多以正面描述为主，而忽略了更应该关注的异常区域的描述，或者缺少负面词汇(医学影响报告生成的目的是为了诊断病灶，医生在观察医学影像时，即使有正常区域，也不会过分关注，而是更关注哪里有问题)，也就是说，正面描述应该作为最终生成的医学影像报告完整性的考量，而不应该作为医学影像报告报告的主要部分。

因此，本申请实施例提供了一种医学影像报告的生成方法，针对卷积神经网络无法捕捉高级语义信息导致生成报告准度低的问题，采用多模态预训练模型(多模态表示语言和图像)作为视觉编码器提取视觉特征；针对视觉和文本模态之间天然存在的语义鸿沟而导致生成报告质量差的问题，采用多模态交叉融合模块弥补特征间差异，这比单独使用自注意力或简单拼接具有更优的下游性能；针对正面描述占据主导地位，缺少对异常区域的描述的问题，采用预训练语言模型对医学文本标签进行编码，与其它模块相互作用，解决报告中医学术语匮乏问题。

参见图1，该图为本申请实施例提供的一种医学影像报告的生成方法的流程示意图。本申请实施例提供的医学影像报告的生成方法，例如可以通过如下步骤S101-S105实现。

S101：将医学影像视图输入视觉语言预训练模型提取视觉特征。

在本申请实施例中，将医学影像视图包括正面视图和侧面视图，将正面视图和侧面视图传入视觉语言预训练模型，提取视觉特征。

具体的，本申请实施例中的视觉语言预训练模型为结合了对比语言-图像预训练(Contrastive Language-Image Pre-training，CLIP)和视觉变压器(VisionTransformer，ViT)两种神经网络架构构成的CLIP-ViT模型，同时具有理解文本与图像的能力。

提取得到视觉特征其中，d_V表示视觉特征的维度；R是代表实数集的集合符号，表示v_i是d_V维度空间里中的实数之一；N_V表示视觉特征的个数，N_V为正整数。

CLIP可以作为特征提取器提取视觉特征，CLIP可以同时理解图像和文本，并将它们映射到共享的表示空间中，使得CLIP在多种视觉和语言任务上表现出色。因此，本申请实施例通过CLIP提取的视觉特征不仅仅具有视觉空间的维度特征，而且具有文本空间的维度特征，这使得在特征融合阶段和最终生成阶段都可以提升模型效果。

在本申请实施例的一种实现方式中，在预先进行模型训练时，使用的损失函数为交叉熵损失，将生成结果与真实结果进行对比求交叉熵。

S102：基于视觉特征构建医学文本标签。

在本申请实施例中，基于视觉特征进行医学分类任务，得到分类结果；根据分类结果诊断病灶，得到疾病关键词；根据疾病关键词构建医学文本标签。

具体的，基于视觉语言预训练模型提取出的视觉特征完成医学分类任务，得到分类结果。医学分类任务主要有两个目的：第一，根据分类结果可以快速诊断病灶，列举疾病关键词；第二，根据诊断出的病灶的疾病关键词构建医学文本标签，作为文本侧的原始输入数据，弥补了文本模态的空缺，解决报告中医学术语匮乏问题。医生经过多年的诊断治病，经验丰富，想要人工智能像医生一样撰写生成高质量的医学诊断报告，则人工智能也需要丰富的经验，在模型设计中，将其称为先验知识，而这些文本医学标签就是模型的先验知识。有了这些先验知识，模型在“观察”影像时则会更加关注与先验知识有关的区域，即更加关注与病灶有关的区域，最终生成的报告中才会生成更多关于异常区域的描述。

S103：将医学文本标签输入预训练语言模型进行编码，得到文本特征。

在本申请实施例中，使用医学领域的预训练语言模型可以为基于变压器的生物医学领域双向编码器表示(biological-clinical Bidirectional EncoderRepresentations from Transformers，Bio_Clinical BERT)，是使用生物医学文本数据预训练和微调的BERT模型。将Bio_Clinical BERT作为文本编码器对上一步构建的医学文本标签进行编码初始化，将由医学概念构建的文本标签编码为文本特征向量其中，d_T表示文本特征的维度；R是代表实数集的集合符号，表示t_i是d_T维度空间里中的实数之一；N_T表示视觉特征的个数，N_T为正整数。

S104：将文本特征和视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征。

具体的，将文本特征和视觉特征输入预设的多模态交叉融合模块(MultimodalCross-Fusion Module)，通过多模态交叉融合模块，视觉特征融合文本特征，实现视觉特征与文本特征对齐，即融合后模型将更关注与疾病标签相关的异常区域。

在本申请实施例的一种实现方式中，将文本特征和视觉特征通过线性投影层映射到多模态特征空间，得到特征维度相同的映射后的文本特征和映射后的视觉特征；将映射后的文本特征和映射后的视觉特征作为源序列输入多模态交叉融合模块。

通过多模态交叉融合模块将映射后的视觉特征与与映射后的文本特征对齐，得到融合后的特征；采用前馈神经网络对融合后的特征进行额外处理，得到处理后的特征；利用残差连接和层归一化，基于处理后的特征生成多模态特征。

具体的，为了使文本特征和视觉特征实现有效融合，首先将文本特征和视觉特征经过一层线性投影层，映射到相同的多模态特征空间(例如设置为768维，仅为距离，不做具体的限制)，然后作为源序列被传入多模态交叉融合模块。

在pytorch中有一个组件是nn.Linear，可以用来实现由一个维度向另一个维度的转换，源码是text_embed_transform＝nn.Linear(input_text_embed_size,embed_size)，其中input_text_embed_size是输入向量的维度，embed_size是输出向量的维度，映射过程是一种全连接的过程。映射后得到的是特征的另一个维度的表示方式，本质上都是表示特征。因为需要统一图像侧的特征和文本侧的特征，才能进行后续矩阵计算，比如图像侧的视觉特征的维度是1024*1，文本侧的文本特征的维度是768*1，那么就需要线性映射将两者都统一到768*1，以便。进行后续的矩阵计算。

通过多模态交叉融合模块，初步编码的视觉特征融合文本特征，实现视觉特征与文本特征对齐，即融合后模型将更关注与疾病标签相关的异常区域。具体来说，基于多层自注意力机制与交叉注意力机制实现跨模态融合，这比单独使用自注意力机制或交叉注意力机制更深入的探索跨模态特征之间的关联，进而提高模型的生成能力。该过程可以用如下表达式表示：

其中，V^l、T^l分别表示第l层视觉编码与文本编码,因为多模态交叉融合模块使用是经过了多层计算得到的，例如，本申请实施例采用3层，即第一层经过自注意力、交叉注意力、前馈神经网络后生成第二层的V和T，然后又作为输入再计算一次自注意力、交叉注意力、前馈神经网络，最后送到层归一化层得到该最终的输出隐状态(多模态特征)；self_attention表示自注意力模块函数；cross_attention表示交叉注意力模块函数；表示视觉特征经过自注意力模块计算后的结果；/>表示文本特征经过自注意力模块计算后的结果，/>表示视觉特征经过交叉注意力模块计算后的结果；/>表示文本特征经过交叉注意力模块计算后的结果。

然后，采用最后的前馈神经网络(Feedforward neural network,FFN)对融合后的特征进行额外处理：

其中，f(·)代表相加函数；V^l+1表示第l+1层图像特征；T^l+1表示第l+1层文本特征。

最后，利用残差连接和层归一化生成多模态特征作为解码器隐状态输入：

hidden_states＝LayerNorm(concat(V^l+1,T^l+1,V))；

其中，LayerNorm表示层归一化函数；concat表示拼接函数；hidden_states表示隐状态，是神经网络中的一种中间状态。

S105：对多模态特征进行解码，得到医学影像报告。

在本申请实施例中，将多模态特征作为输入解码器的隐状态，通过解码器对隐状态进行解码，得到医学影像报告。

具体的，使用内存驱动的Transformer作为解码器的主干，对隐状态解码生成最终报告。每个时间步的解码过程可以形式化为：

m_t＝RM(m_t,y₁,...,y_t-1)；

y_t＝Decoder(hidden_states,y₁,...,y_t-1)；

其中，m表示关系内存(用于记忆一些经常出现的信息)；RM用于计算关系内存值；y₁,...,y_t-1表示前面已经生成过的词；m_t表示更新后的关系内存；y_t表示新生成的词。

递归上述过程以获得目标文本序列表示生成的token，token表示生成的每个词的概率，单个y的维度是30522*1，是一个30522的一维矩阵，矩阵的每一个位置表示这个词的概率，即一共30522个词，训练时计算损失不需要将token精确到最终的每个词，在生成报告时会使用通用的采样策略得到每个单词，组成最后的报告，C表示目标词典大小，N_R表示生成的文本序列长度。

在本申请实施例的一种实现方式中，本申请实施例采用被广泛使用的自然语言生成(NLG)指标对模型进行评估，如BLEU、CIDEr、METEOR、ROUGE-L。这些指标分别侧重了模型性能的不同方面，如BLEU侧重于生成结果的精度，CIDEr侧重于人工共识度，METEOR侧重于基于整个语料库的准确率和召回率而得到的测度，ROUGE侧重于生成结果与真实文本的共现概率。所有评价指标均采用标准评估计算工具包计算得来。

现结合图2对本申请实施例进行说明，本申请实施例在服务器运行，模型在部署或更新之前需要训练。需要支持cuda和cudnn的显卡，训练所需显存根据具体实验场景而定，对于操作系统不进行具体限。在实际应用中，首先需要利用现有的放射医学影像和相应报告对模型进行训练，训练结束后将新的放射学医学影像输入模型即可生成相应的医学影像报告。

如图2所示，将胸部X光片的正面影像(Front Image)和侧面影像(Lateral Image)输入视觉语言预训练模型(CLIP-VLP)以提取视觉特征，首先根据医学分类任务构建医学文本标签(Labels)，并使用预训练语言模型(Bio_ClinicalBERT)提取文本特征。并将视觉特征和文本特征映射到特定的维度，得到源序列，然后将源序列输入到多模态交叉融合模块(Multimodal Cross-Fusion Module)，以产生跨模态表示。最后，将改进后的跨模态表示输入基于Transformer的解码器(Transformer Decoder)，将解码后的特征通过线性投影层(Linear)和激活函数层(softmax)得到医学影像报告(Generated Report)，线性投影层，由神经网络中的全连接层组成，目的是将输入数据的表示或特征转换到另一个表示空间，是一种线性变换。神经网络的一个组件，是一种激活函数层，通过激活函数层可以将输出归一化为概率，可以将原始分数转换为概率分布。其中，将目标报告(Target Report)转换为输出嵌入(Output Embeddings)，输出嵌入是一种报告的矩阵表示，需要把文本表示转换成模型可以识别和计算的矩阵表示。

基于以上实施例提供的方法，本申请实施例还提供了一种医学影像报告的生成装置，以下结合附图介绍该医学影像报告的生成装置。

参见图3，该图为本申请实施例提供的一种医学影像报告的生成装置的结构示意图。

本申请实施例提供的医学影像报告的生成装置300，包括：提取单元301、构建单元302、编码单元303、融合单元304和生成单元305。

提取单元301，用于将医学影像视图输入视觉语言预训练模型提取视觉特征；

构建单元302，用于基于视觉特征构建医学文本标签；

编码单元303，用于将医学文本标签输入预训练语言模型进行编码，得到文本特征；

融合单元304，用于将文本特征和视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征：

生成单元305，用于对多模态特征进行解码，生成医学影像报告。

在一种可能的实现方式中，构建单元302，具体用于：

基于视觉特征进行医学分类任务，得到分类结果；

根据分类结果诊断病灶，得到疾病关键词；

根据疾病关键词构建医学文本标签。

在一种可能的实现方式中，该装置，还包括：

映射单元，用于将文本特征和视觉特征通过线性投影层映射到多模态特征空间，得到特征维度相同的映射后的文本特征和映射后的视觉特征；将映射后的文本特征和映射后的视觉特征作为源序列输入多模态交叉融合模块。

在一种可能的实现方式中，融合单元304，具体用于：

通过多模态交叉融合模块将映射后的视觉特征与与映射后的文本特征对齐，得到融合后的特征；

采用前馈神经网络对融合后的特征进行额外处理，得到处理后的特征；

利用残差连接和层归一化，基于处理后的特征生成多模态特征。

在一种可能的实现方式中，生成单元305，具体用于：

将多模态特征作为输入解码器的隐状态，通过解码器对隐状态进行解码，得到医学影像报告。

由于装置300是与以上方法实施例提供的医学影像报告的生成方法对应的装置，装置300的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于装置300的各个单元的具体实现，可以参考以上方法实施例关于医学影像报告的生成方法的描述部分，此处不再赘述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑业务划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各业务单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件业务单元的形式实现。

集成的单元如果以软件业务单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的业务可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些业务存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种医学影像报告的生成方法，其特征在于，所述方法包括：

将医学影像视图输入视觉语言预训练模型提取视觉特征；

基于所述视觉特征构建医学文本标签；

将所述文本特征和所述视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征；

对所述多模态特征进行解码，得到医学影像报告。

2.根据权利要求1所述的方法，其特征在于，所述基于所述视觉特征构建医学文本标签，包括：

基于所述视觉特征进行医学分类任务，得到分类结果；

根据所述分类结果诊断病灶，得到疾病关键词；

根据所述疾病关键词构建所述医学文本标签。

3.根据权利要求1所述的方法，其特征在于，所述通过预设的多模态交叉融合模块将文本特征和视觉特征进行融合前，所述方法，还包括：

4.根据权利要求3所述的方法，其特征在于，所述通过预设的多模态交叉融合模将文本特征和视觉特征进行融合，得到多模态特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述多模态特征进行解码，得到医学影像报告，包括：

6.一种医学影像报告的生成装置，其特征在于，所述装置包括：

构建单元，用于基于所述视觉特征构建医学文本标签；

融合单元，用于将所述文本特征和所述视觉特征输入预设的多模态交叉融合模块进行融合，得到多模态特征；

7.根据权利要求6所述的方法，其特征在于，所述构建单元，具体用于：

基于所述视觉特征进行医学分类任务，得到分类结果；

根据所述分类结果诊断病灶，得到疾病关键词；

根据所述疾病关键词构建所述医学文本标签。

8.根据权利要求6所述的方法，其特征在于，所述装置，还包括：

9.根据权利要求8所述的方法，其特征在于，所述融合单元，具体用于：

10.根据权利要求6所述的方法，其特征在于，所述生成单元，具体用于：