CN116664929A

CN116664929A - 一种基于多模态信息融合的喉镜图像多属性分类方法

Info

Publication number: CN116664929A
Application number: CN202310606272.5A
Authority: CN
Inventors: 廖阔; 卜志纯; 潘启迪; 陈思情; 彭曙鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-29

Abstract

本发明属于医学图像分类领域，具体涉及一种基于多模态信息融合的喉镜图像多属性分类方法。本发明的方法包含文本特征提取模块、图像特征提取模块、内联特征挖掘模块和逆映射输出模块。首先，使用配对的喉镜图像和报告建立自己的多模态数据集，通过文本特征提取模块实现从诊断报告中自动获取目标属性标签；然后，通过图像特征提取模块获得图像的特征表示；之后，提出了内联特征挖掘模块，该模块融合了文本特征和图像特征，挖掘各个属性的内部关联性，从而实现疾病自动分类；最后，逆映射输出模块实现自动生成包含多个表征属性和最终诊断结论的报告。

Description

一种基于多模态信息融合的喉镜图像多属性分类方法

技术领域

本发明属于医学图像分类领域，具体涉及一种基于多模态信息融合的喉镜图像多属性分类方法。

背景技术

纤维电子鼻咽喉镜，作为一种无创检查，可清晰显示咽喉部解剖结构以及病变，在临床上获得了广泛的应用。常见的喉镜图像有标准内窥镜的白光(White Light,WL)图像和窄带成像(Narrow Band Imaging，NBI)两种。喉镜图像所呈现出的喉部形态，是对喉疾病做出诊断的重要依据。但是息肉、白斑、早期喉癌等病变组织在喉镜下的图像表现形态具有较大的相似性，诊断多依赖于医生主观判断。近年来，深度学习技术与临床医学相结合的智慧医疗技术得到了广泛的关注与研究。然而，目前大部分的方法都主要集中在利用WL图像进行简单的疾病类型分类。喉部的粘膜光滑度，坏死，颜色等是临床医生给出诊断并制定后续治疗方案的重要依据。而目前尚未见有针对病变部位的状态进行自动判断的方法，同时需要建立同时能适应WL和NBI图像的诊断模型以适应两者相结合的检查手段。另外，现有的方法通常依赖有经验的医生来对图像进行人工标注，这无疑是一个耗时耗力的过程。若能实现自动图像标注、自动疾病识别的同时，对病变部位进行定位、定性并自动生成诊断报告，有助于提高准确性，并节省人力成本。

发明内容

针对上述问题，本发明提出了一个喉镜图像多属性分类及报告自动生成方法，该方法能够通过文本映射自动获取图像中病变部位的多重属性标签，实现文本与图像的多模态特征提取、特征内联信息挖掘，最后实现精确的喉部病变识别，并自动生成诊断报告。

本发明以实现喉部疾病智能分类诊断为背景，针对人工标注图像费时费力、病变状态属性判别和不同病变类型的喉镜图像存在数量不平衡的问题，提出了一种基于多模态信息融合的喉镜图像多属性分类及报告自动生成方法。该方法包含文本特征提取模块、图像特征提取模块、内联特征挖掘模块和逆映射输出模块。首先，使用配对的喉镜图像和报告建立自己的多模态数据集，通过文本特征提取模块实现从诊断报告中自动获取目标属性标签；然后，通过图像特征提取模块获得图像的特征表示；之后，提出了内联特征挖掘模块，该模块融合了文本特征和图像特征，挖掘各个属性的内部关联性，从而实现疾病自动分类；最后，逆映射输出模块实现自动生成包含多个表征属性和最终诊断结论的报告。

本发明的技术方案为：

一种基于多模态信息融合的喉镜图像多属性分类方法，从文本报告中自动获取图像中病变部位的多重属性标签，实现文本与图像的多模态特征提取、特征内联信息挖掘，最后实现精确的喉部病变识别和多个属性识别，并自动生成诊断报告。包括以下步骤：

S1、获取原始喉镜图像记为i₀＝1,2,...,a，a为获取的原始喉镜图像数量，h₀，w₀是原始喉镜图像的高度和宽度；对原始喉镜图像进行处理，获得大小格式统一的喉镜图像，表示为x_i∈R^3×h×w，i＝1,2,...a，h，w是原始喉镜图像重新调整大小之后的高度和宽度；

同时获取与原始喉镜图像对应的文本格式的诊断报告，记为x_t,t＝1,2,...,a，其中，a表示诊断报告样本的数量，诊断报告与喉镜图像是一一对应匹配的，获得训练数据[x_i,x_t]；

S2、构建神经网络，包括文本特征提取模块、图像特征提取模块、内联特征挖掘模块、逆映射输出模块；

所述文本特征提取模块的输入为诊断报告，用于从诊断报告中提取感兴趣信息作为图像的多属性标签，对于x_t，采用文本映射函数f(I,x_t)进行推理，推理函数作用于输入x_t和感兴趣信息列表I，I是由内镜医生确定的n项医学感知结果作为需要获取的属性信息，表示为I＝[I₁,I₂,I₃,...,I_n]，输出x_t与I的匹配信息：L＝f(I,x_t)＝[l₁,l₂,l₃,...,l_n]，其中，l_i表示第i个感兴趣信息与x_t的相似度；最后通过词级嵌入函数E(x)获得医学感知结果的文本特征其中，channels表示特征维数；

所述图像特征提取模块用于对喉镜图像x_i进行特征提取，具体为采用ResNet50网络，从ResNet50网络的5个输出层C₁,C₂,C₃,C₄,C₅中选取C₅的输出作为ResNet50的输出，得到提取的图像特征为其中，channels是输出特征的通道数，与前述特征维数channels相同，h′和w′分别是输出特征的高度和宽度；

所述内联特征挖掘模块由M个增强型Transformer编码器组成，将文本特征提取模块输出的文本特征与图像特征提取模块输出的图像特征进行拼接融合，具体为先通过view函数对图像特征降维，将第二维和第三维展平获得一个新的维度，即

然后通过拼接获得作为增强型Transformer编码器的输入集，在编码器中，通过自我注意力机制计算输入集元素s_i∈S和s_j∈S之间的注意力系数：

其中，W_q和W_k分别是query和key权重矩阵，是比例因子；通过加权和操作将s_i更新为s_i：

其中W_v为value权重矩阵，再引入变换矩阵W_t、W_f和偏差向量b₁、b₂，经过ReLu激活函数得到更新后的：

最后经过卷积层来增强局部信息的学习，将更新过程重复M次，从而将增强的局部信息与多头自我注意机制的全局信息相融合，减少不相关属性之间的相关系数，而增加相关属性之间的相关系数；

编码器输出学习后的融合特征表示：cat＝m+n，其中channels为融合后特征的通道数，cat为融合后特征的大小；

所述逆映射输出模块用于通过多分支输出结构预测喉镜图像的类别和属性，进而经过逆映射函数输出最终的诊断报告，具体为利用内联特征挖掘模块输出的融合特征，利用多个前馈神经网络FFN实现属性的预测，表示为：

其中，f_i表示预测第i个属性所用的FFN及其参数，T表示转置操作，n表示属性的总数，s_i′为S′中的元素；针对互斥属性，预测概率较大的属性将作为最终预测属性；针对非互斥属性，确定阈值th_i，阈值以下的属性将被丢弃，根据预测得到的属性结果，通过逆映射函数生成诊断报告，诊断报告包含疾病诊断结果与病变属性状态的预测结果；

S3、利用S1得到的训练数据[x_i,x_t]对S2构建神经网络进行训练，其中图像特征提取模块部分在ImageNet数据集上先进行预训练，将通过预训练得到的参数作为ResNet50的初始参数，训练采用的损失函数为非对称损失：

其中，a₊，a_-是聚焦参数，y是网络的输出概率，概率参数z≥0是一个可调整的超参数，通过神经网络的反向传播机制，修正网络的参数，直至网络基本收敛得到训练好的神经网络；

S4、采用训练好的网络对喉镜图像进行属性预测和诊断报告的生成：

选择需要分类的喉镜图像，将其送入图像特征提取模块，得到的特征图经过前向反馈网络，获得关于喉镜图像的病变类别预测和相应的属性预测，最后通过逆映射函数获得预测的诊断报告。

本发明的有益效果为：本发明开创性的提出了获取图像中病灶部位的多重属性信息，然后利用不同属性间的内在关联性实现对疾病类型的更精确的分类的思路和方法，最后还以多重属性及疾病类型识别结果为基础自动生成了诊断报告。该方法具有较强的实用性和可靠性，将作为辅助信息减轻专业医生的负担。

附图说明

图1是网络整体模型示意图。

图2是网络详细结构示意图。

具体实施方式

下面结合附图对本发明进行详细描述。

如图1所述，本发明包括以下步骤：

S1:数据预处理：

从多个医疗中心的多个电子喉镜设备采集1867张WL和NBI喉镜图像，从数百名患者的喉镜视频中随机抓取高质量的图像，即声带为打开状态且大致位于图片中央、清晰显示喉部结构和病变的原始图像。同时收集1867份文本格式的喉镜诊断报告，与1867张喉镜图像是配对关系。按照6:2:2的比例将图像和配对的诊断报告随机分配到训练集、验证集和测试集。

对于输入的喉镜图像，记为i＝1,2,...,a，其中，a表示图像样本的数量，即为1867，h₀，w₀是原始喉镜图像的高度和宽度。由于喉镜图像的大小不统一，要统一使用resize函数将图像缩放到适应特征提取网络的输入大小640×640。然后，由于喉镜图像声带位置通常位于中间部位，因此再将图像随机中心裁剪成576×576大小，以减少边缘无关区域的干扰，最终输入到特征提取网络的图像表示为：x_i∈R^3×h×w，i＝1,2,...n，h，w是喉镜图像重新调整大小之后的高度和宽度，即分别为576，576。

对于输入的文本格式的诊断报告，记为x_t,t＝1,2,...,a，其中，a表示报告样本的数量。在输入在文本特征提取模块之前，需要由专业内镜医生确定n项医学感知结果作为我们需要获取的属性信息，记为感兴趣信息列表：I＝[I₁,I₂,I₃,...,I_n]。本发明重点关注的属性信息包含疾病类别、光滑度、是否颜色污秽、是否坏死、病变位置信息，确定n＝13项医学感知结果，分别为[白斑，息肉，癌变，正常，光滑，不光滑，颜色污秽，颜色正常，坏死，未坏死，左侧声带，右侧声带，两侧声带]。

S2：构建神经网络，包括文本特征提取模块、图像特征提取模块、内联特征挖掘模块、逆映射输出模块。

S2.1：文本特征提取模块：

该模块是从文本格式的报告x_t中提取感兴趣信息作为图像的多属性标签。对于输入的文本报告x_t，如图2所示，采用文本映射函数f(I,x_t)在由多个句子组成的报告上进行推理。该推理函数作用于输入x_t和感兴趣信息列表I，输出x_t与I的匹配信息：L＝f(I,x_t)＝[l₁,l₂,l₃,...,l_n]。其中，l_i表示第i个感兴趣信息与x_t的相似度。接下来，通过词级嵌入函数E(x)获得医学感知结果的特征向量其中，channels表示与图像特征提取模块输出的相一致的通道数。

S2.2：图像特征提取模块：

图像特征提取模块是对喉镜图像进行特征提取。将预处理之后的喉镜图像x_i∈R³ ^×h×w，i＝1,2,...n送入图像特征提取模块来学习图像的特征表示，如图2所示。该模块是由ResNet50组成，其有5个输出层C₁,C₂,C₃,C₄,C₅，逐层挖掘深层次特征，最终取C₅的输出作为ResNet50的输出。由于样本存在数量不足的问题，因为采用迁移学习的思路，先将ResNet模型在ImageNet数据集上进行预训练，利用模型预训练得到的参数为ResNet50的初始参数，再用采集的喉镜图像数据对ResNet50微调参数。ResNet50的5个输出层的参数如表1所示。最后得到其中，channels是图像特征提取模块输出特征的通道数，为2048，h′和w′分别是输出特征的高度和宽度，分别为18，18。

表1ResNet50输出层的参数

S2.3：内联特征挖掘模块：

内联特征挖掘模块主要由M个增强型Transformer编码器组成，挖掘不同属性之间的关系。基于配对输入[x_i,x_t]经过特征提取模块获得的特征表示，为了能够将文本特征与图像特征/>拼接融合，首先通过view函数对图像特征降维，将第二维和第三维展平获得一个新的维度，即

通过拼接获得作为增强型Transformer编码器的输入集。在编码器中，首先通过自我注意力机制计算输入集元素s_i∈S和s_i∈S之间的注意力系数：

其中，W_q和W_k分别是query和key权重矩阵，是比例因子，取d＝64。然后加权和操作将s_i更新为/>

其中W_v为value权重矩阵。进而再引入变换矩阵W_t、W_f和偏差向量b₁、b₂，经过ReLu激活函数得到更新后的：

最后经过卷积层来增强局部信息的学习。将上述更新过程重复M＝3次，就可以将增强的局部信息与多头自我注意机制的全局信息相融合，多头注意力为4。该过程减少不相关属性之间的相关系数，而增加相关属性之间的相关系数。例如，在有癌性病变的喉镜图像中，“坏死”和“颜色污秽”的特征将被赋予更高的关注权重。这意味着在特征图中会得到更突出这两个属性，从而让模块关注不同属性之间的关联。

编码器输出学习后的特征表示：cat＝m+n，其中channels为融合后特征的通道数，为2048，cat为融合后特征的大小，为337。

S2.4：逆映射输出模块：

该模块主要是通过多分支输出结构预测喉镜图像的类别和属性，进而经过逆映射函数输出最终的诊断报告。首先，基于内联特征挖掘模块对图像特征和属性信息的融合学习，利用多个前馈神经网络(FFN)实现属性的预测，即，通过一个线性层f，预测出图像中存在的对象、属性相对应的一组属性:

其中，f_i表示预测第i个属性所用的FFN及其参数，T表示转置操作，n表示属性的总数，s_i′为内联特征挖掘模块输出的特征表示S′中的元素。

然后，针对互斥属性，预测概率较大的属性将作为最终预测属性。针对非互斥属性，确定阈值th_i为0.5，阈值以下的属性将被丢弃。

最后，根据预测得到的属性结果，通过逆映射函数生成诊断报告，该报告包含疾病诊断结果与4个病变属性(光滑度、颜色污秽度、坏死度、位置)。例如，假设/>代表已经坏死的属性，若/>则/>得到“该喉镜图像的病变部位存在坏死迹象”的文本描述。

S3：对构建的神经网络进行训练：

输入的数据为配对的诊断报告和喉镜图像[x_i,x_t]，加载网络模型的预训练权重，使用喉镜数据对模型微调参数。由于图像类别数量不平衡，损失函数采用非对称损失(Asymmetric Loss)：

其中，a₊，a-是聚焦参数，y是网络的输出概率，概率参数z≥0是一个可调整的超参数。通过神经网络的反向传播机制，修正网络的参数，直至网络基本收敛。训练过程中的实验参数设置如表2所示。

表2：训练过程中的实验参数设置

S4：采用训练好的网络对喉镜图像进行属性预测和诊断报告的生成：

选择需要测试的喉镜图像，将其送入图像特征提取模块，得到的特征图经过前向反馈网络，获得关于喉镜图像的病变类别预测和相应的属性预测，最后通过逆映射函数获得预测的诊断报告。最终，测试集在模型上预测的性能如表3所示。

表3测试集上的mAP，敏感性、特异性、报告准确率指标

Claims

1.一种基于多模态信息融合的喉镜图像多属性分类方法，其特征在于，包括以下步骤：

S1、获取原始喉镜图像记为a为获取的原始喉镜图像数量，h₀，w₀是原始喉镜图像的高度和宽度；对原始喉镜图像进行处理，获得大小格式统一的喉镜图像，表示为x_i∈R^3×h×w，i＝1,2,...a，h，w是原始喉镜图像重新调整大小之后的高度和宽度；

其中，W_q和W_k分别是query和key权重矩阵，是比例因子；通过加权和操作将s_i更新为/>

其中，f_i表示预测第i个属性所用的FFN及其参数，T表示转置操作，n表示属性的总数，s′_i为S′中的元素；针对互斥属性，预测概率较大的属性将作为最终预测属性；针对非互斥属性，确定阈值th_i，阈值以下的属性将被丢弃，根据预测得到的属性结果，通过逆映射函数生成诊断报告，诊断报告包含疾病诊断结果与病变属性状态的预测结果；