CN109978882A

CN109978882A - 一种基于多模态融合的医疗影像目标检测方法

Info

Publication number: CN109978882A
Application number: CN201910281454.3A
Authority: CN
Inventors: 柳振宇; 张璐; 杨旭; 汪娟英; 叶晓龙; 袁野
Original assignee: Zhongkang Longma (beijing) Medical And Health Technology Co Ltd
Current assignee: Zhongkang Longma (beijing) Medical And Health Technology Co Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-07-05

Abstract

本发明公开了一种基于多模态融合的医疗影像目标检测方法，具体涉及多模态融合与模式识别领域，包括以下步骤：步骤A1、获取成对的多模态原始待检测图像；步骤A2、对原始的待检测图像进行像素值归一化，得到预处理后的待检图像；步骤A3、将预处理后的待检测图像输入目标检测网络进行检测，模态间使用自适应方法进行中间特征的融合，最后得到目标的包围框和属于各类别的概率；步骤A4、根据包围框和属于各类别的概率，采用改进的非极大值抑制算法得到目标物体的包围框和所属类别。本发明采用基于特征的融合方式，提出一种高效的自适应融合方法，以实现更加细分的特征加权，提高检测的精度。

Description

一种基于多模态融合的医疗影像目标检测方法

技术领域

本发明涉及多模态融合与模式识别技术领域，更具体地说，本发明涉及一种基于多模态融合的医疗影像目标检测方法。

背景技术

目标检测是一种从包含目标的序列图像中检测、识别目标的技术，是多种高层次视觉处理和分析任务的前提，应用领域包括智能视频监控、机器人导航、医学影像在的病灶检测等。

实际应用中，由于目标所处场景的复杂性，图片成像质量差、遮挡、光照以及尺度的变化等等都提升了检测任务的难度。尤其在医疗影像中，传统的RGB成像方法具有明显的劣势，因此需要其他模态的图像信息进行弥补，如超声成像、多光谱成像等。因此，一种高效的多模态融合医疗影像目标检测技术对该类任务有着重要的实际意义。

传统的目标检测方法的一般流程为：

(1)扫描图像。使用滑窗法，在待检测的窗口中不断移位滑动。

(2)特征提取。如Haar特征、局部二值模式(Local Binary Pattern，LBP)特征、方向梯度直方图(Histogram of Oriented Gradient，HOG)特征和SIFT特征等。每种特征的适用情况各有不同，特征的选取要视检测的目标而定。

(3)使用分类器进行分类。一般使用支持向量机或AdaBoost算法对目标的特征进行分类。

近年来，深度学习方法兴起，基于卷积神经网络的方法在简单视觉问题如分类问题上取得了优异的表现。由图像分类等问题中取得的大幅进展可知，卷积神经网络具有很强的图像特征提取能力，其内在的层次结构在一定程度上模仿了人类的视觉认知机制，体现了变量间的组合关系。2014年，Ross Girshick等人首次将卷积神经网络引入目标检测任务，得到的结果效果较传统的目标检测方法得到了很大提升。

与传统的单张图像目标检测任务相比，多模态信息的融合为检测任务带来了信息源层面的巨大的优势。而多模态任务的重要特点在于模态之间的有效融合，即充分利用模态的互补信息，以提升检测的精度。

目前，多模态目标检测的融合过程大致分为三类：

(1)像素级融合方法，也称为数据融合；具体流程为，将两张或两张以上的图像信息的融合到单张图像上，使得融合的图像含有更多的信息、能够更方便人来观察或者计算机处理，是一种底层图像处理的操作，涉及图像预处理、图像配准、图像后处理等技术。像素级融合中有空间域算法和变换域算法，如空间域算法中的逻辑滤波法，灰度加权平均法，对比调制法等；以及变换域方法中的金字塔分解融合法，小波变换法。

(2)特征级融合方法；包括直接融合方法，即对提取到的特征直接进行融合操作；加权融合方法，根据重要性对不同模态的特征进行衡量，并进行加权融合。

(3)决策级融合方法；这种方法一般通过主观要求，利用先验规则进行分数的融合，得到最后的预测分数，即最终决策。

基于像素级的方法较为直接，除了图像配准外，其他处理过程耗时较低，但在融合过程中天然缺乏了高层的语义信息；

基于决策的融合方法可解释性较强，但决策的产生需要，线性提升了模型的复杂度；

基于特征的融合方法是一种较为折中高效的选择，对中间特征层进行融合，降低了后续处理的模型复杂度，在许多任务中取得了最好的检测结果。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于多模态融合的医疗影像目标检测方法，通过采用基于特征的融合方式，提出一种高效的自适应融合方法，以实现更加细分的特征加权，提高检测的精度。

为实现上述目的，本发明提供如下技术方案：一种基于多模态融合的医疗影像目标检测方法，包括以下步骤：

步骤A1、获取成对的多模态原始待检测图像；

步骤A2、对所述原始的待检测图像进行统一的像素值归一化，得到预处理后的多模态待检图像，并在图像上均匀预设检测锚点；

步骤A3、将A2所述预处理后的待检测多模态图像对分别输入目标检测网络进行特征提取，得到多模态图像特征金字塔；根据得到的图像金字塔的高层信息，将两种模态的特征进行合并，作为多模态输入的全局信息；并利用全局信息，对中间特征图的通道进行自适应加权，得到融合后的特征；

步骤A4、包围框的分类以及位置偏差回归；对上一步得到的特征表示进行分类处理，并通过偏差回归精细化包围框的位置，最后通过改进的非极大值抑制方法得到最终的检测结果；

其中，所述改进的非极大值抑制算法包括：

步骤A41、根据所有所述锚点属于各目标类别的概率，选择其中最大概率值对应的包围框，作为评分最高的包围框M；

步骤A42、根据下式的方法，对除包围框M以外的其他包围框进行重新评分：

其中，s_i代表第i个包围框的评分值，初值为该包围框属于各目标类别的概率中最大概率值；b_i代表第i个包围框，且不等于M；iou(M,b_i)代表包围框M与b_i的重叠度；N₁代表第一重叠度阈值；

步骤A43、遍历其他包围框，对所有与M的重叠度大于第二重叠度阈值N₂的包围框进行删除操作；将包围框M作为一个目标物体的包围框，将该包围框的属于各目标类别的概率中最大概率值对应的目标类别作为该目标物体的类别；

步骤A44、从余下的包围框中选择评分最高的包围框M，并转至步骤A42，直到处理完所有的包围框。

在一个优选地实施方式中，所述步骤A3中，目标检测网络的构建与训练方法包括：

步骤S10、构建检测器网络，所述检测器网络包括：双流基础卷积神经网络、通道权重预测网络、级联层、第一全连接层、第二全连接层、卷积网络预测层、第一预测卷积层、第二预测卷积层、softmax层；

步骤S20、输入一对多模态训练样本图像；

步骤S30、基于双流卷积神经网络对所述训练样本图像进行特征图提取；

步骤S40、根据提取的所述特征图，基于全局特征进行各模态通道权重预测；将中间特征图通道校准后自适应加权融合，并使用融合后的特征图进行后续目标检测；

步骤S50、预测检测输出，并计算多任务损失函数；若所述多任务损失函数未收敛，则修改所述检测器网络的参数并转至步骤S20，否则转至步骤S60；

步骤S60、使用剪枝方法对所述检测器网络进行稀疏化处理，得到所述目标检测网络。

在一个优选地实施方式中，所述步骤S20中，在“输入一对多模态训练样本图像”之前，所述方法还包括：

获取训练用的原始图像样本集；

对所述样本集进行数据增广与像素值归一化，得到所述训练样本图像的集合。

在一个优选地实施方式中，所述步骤S40中，“根据提取的所述特征图，基于全局特征进行各模态通道权重预测”具体包括：

步骤S41，根据提取的所述特征图，选取全局特征，并通过级联层得到跨模态的全局特征；

步骤S42，根据提取的全局特征，通过全连接层以及Sigmoid激活函数得到特征通道的权重预测，该层的编码函数定义为：

F_encode:v→u,v∈R^2C,u∈R^C

其中，v代表全局特征向量，u代表重要性特征向量；

步骤S43，计算各个模态的重要性特征向量，用于后续以逐通道的形式将重要性特征向量用于校正各个模态中间特征的响应。

在一个优选地实施方式中，步骤S50中，“预测检测输出，并计算多任务损失函数”具体包括：

步骤S51，通过第一预测卷积层对各锚点进行分类处理；根据所述分类处理的结果，通过softmax层计算每个锚点属于各目标类别的概率；

步骤S52，根据所述锚点的特征表示，通过第二预测卷积对包围框的位置偏差进行回归得到偏差值；

回归得到的偏差值为：

x、y分别表示包围框的横、纵坐标值；w、h分别表示包围框的宽和高；k表示目标类别的序号，k＝1,2,...,K；分别表示类别为k的包围框的x、y、w、h值偏差；

所述锚点属于各目标类别的概率为：

c＝(c₀,...,c_K)

K表示待检测目标的类别总数，c₀表示锚点属于背景类别的概率值，c₁、...、c_K分别表示锚点属于第1、...、K类目标的概率。

在一个优选地实施方式中，所述步骤S50中，多任务损失函数为：

L(c,u,t^u,v)＝L_cls(c,u)+λ[u≥1]L_loc(t^u,v)

其中，c表示锚点的离散概率分布；u表示锚点的真实类别标签；t^u表示回归得到的偏差值，v表示包围框的真实回归值标签，v＝(v_x,v_y,v_w,v_h)；第一项L_cls(c,u)＝-logc_u，为c在真实类别u处的softmax值的负对数；[u≥1]为指示函数，当u＝0时，锚点属于背景类别，不需要计算第二项λ[u≥1]L_loc(t^u,v)；权重λ为超参数，用于平衡两个任务间的损失值；

本发明还包括一种基于多模融合的医疗影像目标检测系统，所述系统包括图像获取模块、预处理模块、目标检测网络、抑制模块；

所述图像获取模块用于获取原始的多模态待检测图像；

所述预处理模块用于对所述原始的多模态待检测图像进行像素值归一化，得到预处理后的多模态待检图像；

所述目标检测网络用于根据所述预处理后的多模态待检测图像检测目标物体；

所述抑制模块配置为：根据所述锚点的包围框和属于各目标类别的概率，采用改进的非极大值抑制算法得到目标物体的包围框和所属类别；

所述抑制模块包括选择单元、再评分单元、非极大值抑制单元、循环控制单元；

所述选择单元配置为：根据所有所述锚点属于各目标类别的概率，选择其中最大概率值对应的包围框，作为评分最高的包围框；

所述再评分单元配置为：根据下式的方法，对除包围框M以外的其他包围框进行重新评分：

其中，s_i代表第i个包围框的评分值，初值为该包围框属于各目标类别的概率中的最大概率值；b_i代表第i个包围框，且不等于M；iou(M,b_i)代表包围框M与b_i的重叠度；N₁代表第一重叠度阈值；

所述非极大值抑制单元配置为：遍历其他包围框，对所有与M的重叠度大于第二重叠度阈值N₂的包围框进行删除操作；将包围框M作为一个目标物体的包围框，将该包围框属于各目标类别的概率中最大概率值对应的目标类别作为该目标物体的类别；

所述循环控制单元配置为：调用所述选择单元从余下的包围框中选择评分最高的包围框M，并依次调用所述再评分单元、所述非极大值抑制单元，直到处理完所有的包围框。

在一个优选地实施方式中，所述系统还包括目标检测网络构建模块，所述目标检测网络构建模块用于构建和训练所述目标检测网络；所述目标检测网络构建模块包括构建单元、输入单元、特征图提取单元、目标检测单元、损失函数计算单元、控制单元、稀疏化处理单元。

本发明的技术效果和优点：

本发明采用以下四个步骤：获取成对的多模态原始待检测图像；对原始的待检测图像进行像素值归一化，得到预处理后的待检图像；将预处理后的待检测图像输入目标检测网络进行检测，模态间使用自适应方法进行中间特征的融合，最后得到目标的包围框和属于各类别的概率；根据包围框和属于各类别的概率，采用改进的非极大值抑制算法得到目标物体的包围框和所属类别；采用基于特征的融合方式，提出一种高效的自适应融合方法，以实现更加细分的特征加权，提高检测的精度，解决了现有的医学图像检测系统不够高效精准、多模态信息利用不够充分的问题。

附图说明

图1为本发明实施例中整体步骤示意图。

图2为本发明实施例中目标检测网络的构建与训练方法步骤示意图。

附图标记为：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

根据图1-2所示的一种基于多模态融合的医疗影像目标检测方法，包括以下步骤：

步骤A1、获取成对的多模态原始待检测图像；

目标检测网络的构建与训练方法包括：

步骤S20、输入一对多模态训练样本图像，在此之前，所述方法还包括：

获取训练用的原始图像样本集；

对所述样本集进行数据增广与像素值归一化，得到所述训练样本图像的集合；

步骤S40、根据提取的所述特征图，基于全局特征进行各模态通道权重预测，具体包括：

F_encode:v→u,v∈R^2C,u∈R^C

其中，v代表全局特征向量，u代表重要性特征向量；

步骤S43，计算各个模态的重要性特征向量，用于后续以逐通道的形式将重要性特征向量用于校正各个模态中间特征的响应；

将中间特征图通道校准后自适应加权融合，并使用融合后的特征图进行后续目标检测；

步骤S50、预测检测输出，并计算多任务损失函数，具体包括：

回归得到的偏差值为：

所述锚点属于各目标类别的概率为：

c＝(c₀,...,c_K)

K表示待检测目标的类别总数，c₀表示锚点属于背景类别的概率值，c₁、...、c_K分别表示锚点属于第1、...、K类目标的概率；

若所述多任务损失函数未收敛，则修改所述检测器网络的参数并转至步骤S20，否则转至步骤S60；

其中，多任务损失函数为：

L(c,u,t^u,v)＝L_cls(c,u)+λ[u≥1]L_loc(t^u,v)

步骤S60、使用剪枝方法对所述检测器网络进行稀疏化处理，得到所述目标检测网络；

其中，所述改进的非极大值抑制算法包括：

实施例2：

本发明还包括一种基于多模融合的医疗影像目标检测系统，所述系统包括图像获取模块、预处理模块、目标检测网络、抑制模块，分别用于支撑实施例1中步骤A1-A4的具体操作；

所述图像获取模块用于获取原始的多模态待检测图像；

所述循环控制单元配置为：调用所述选择单元从余下的包围框中选择评分最高的包围框M，并依次调用所述再评分单元、所述非极大值抑制单元，直到处理完所有的包围框；

所述系统还包括目标检测网络构建模块，所述目标检测网络构建模块用于构建和训练所述目标检测网络；所述目标检测网络构建模块包括构建单元、输入单元、特征图提取单元、目标检测单元、损失函数计算单元、控制单元、稀疏化处理单元，分别用于支撑实施例1中步骤A3的步骤S10-S60的具体操作。

实施例3：

本发明提出一种水下机器人的目标检测方法，具体实施方案包括以下步骤：

步骤1：获取样本；采用数据增广的方式扩充样本数据集；由于样本图片是在自然场景下拍摄，图片信息大多不对称，在训练时以0.5的概率将图片进行水平翻转、随机裁剪和光照对比度干扰，图片对应的标签信息也相应进行调整；同时，使用PCA Jittering方法，对每一张训练图片，在图像矩阵[I^R,I^G,I^B]的基础上，计算出PCA得到的主成分，并乘以其对应特征值和0均值0.1标准差的高斯噪声；即对每个图像矩阵，我们添加以下值：

[p₁,p₂,p₃][α₁λ₁,α₂λ₂,α₃λ₃]^T

其中，是图像RGB像素值的3×3协方差矩阵的第i个特征值和特征向量，是高斯噪声，对每个图像，本发明都重新采样一个新的高斯噪声值；随机图像增广可以增强模型的鲁棒性，提高其泛化能力；

步骤2：图像预处理；为了防止输入网络的数据表现出较大差异的分布，对所有的图像数据进行归一化操作，使得归一化后的数据均值为0，方差为1；训练图片和测试图片在送入网络前，都需进行该操作；

步骤3：特征提取；本发明采用双流卷积神经网络对多模态输入图像分别进行特征提取；其中，全局特征的提取为第八卷积层，中间特征的提取为第四卷积层；

步骤4：自适应特征融合；根据步骤3得到的图像金字塔的高层信息，将两种模态的特征进行合并，作为多模态输入的全局信息；并利用全局信息，对中间特征图的通道进行自适应加权，得到融合后的特征；

具体为，选取全局特征，并通过级联层得到跨模态的全局特征；根据提取的全局特征，通过全连接层以及Sigmoid激活函数得到特征通道的权重预测，该层的编码函数定义为：

F_encode:v→u,v∈R^2C,u∈R^C

其中，v代表全局特征向量，u代表重要性特征向量；

计算各个模态的重要性特征向量，用于后续以逐通道的形式将重要性特征向量用于校正各个模态中间特征的响应，具体计算步骤为：

u_c＝F_encode(v_g,W_c)＝δ(W_c·v_g)

u_t＝F_encode(v_g,W_t)＝δ(W_t·v_g)

其中，表示sigmoid激活函数，W_c,W_t∈R^C×2C，根据实际情况，在实验中设置常数C＝1024；

为了强调信息性特征和抑制信息不强的特征，利用重要性特征向量u_c，u_t，通过通道式点积运算对两种模态的第四层卷积网络进行重新校准，这种基于注意力机制的重新校准可以明确地模拟颜色和热模式的交互作用，以充分利用互补性，减少模态间信息矛盾，最终提高特征融合的质量；

步骤5：包围框(bounding box)的分类以及位置偏差回归；对上一步得到的归一化锚点特征表示，通过全连接层进行分类处理，并通过偏差回归精细化包围框的位置；其中，回归得到的偏差值包括位置偏差(包围框的坐标值)和对数尺度偏差(包围框的宽和高值)，上述偏差值记做同时，每个锚点都会通过softmax方式输出K+1类离散概率分布，记做p＝(p₀,...,p_K)；

步骤6：对神经网络先进行前向传播得到输出值，然后进行后向传播的训练；前向传播时，对于每个锚点，我们得到步骤6所述的t_k和p，同时每个锚点都有真实的所属类别u和包围框回归值v的标签；训练过程使用多任务损失函数，公式如下：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)

其中，第一项L_cls(p,u)＝-logp_u，即p在真实类别u处的softmax值的负对数，[u≥1]为指示函数，当u＝0的时候，指示函数也为0，意味着当锚点属于背景类别时，不关心包围框的回归值，不需要计算第二项；对于包围框回归，使用如下对外点相对不敏感的smoothL1损失函数：

上式中的权重λ为超参数，用于平衡两个任务间的损失值，实验中设定λ＝1。

训练结束后，使用剪枝方法对网络进行稀疏化处理，以此网络为基础，按以上步骤前向转播进行测试，使用改进的非极大值抑制(NMS)技术对网络输出进行后处理；进行非极大值抑制时，不再简单丢弃被抑制的包围框，而是通过如下公式，将非极大值抑制视为一个再次评分、再次排序的过程：(IOU)

其中M代表当前得分最高的包围框，s代表评分值，下标i代表除了M外其他包围框的标号；通过上述公式，对与M的重叠区域较高的包围框进行了一定程度上的抑制；一轮抑制完成后，该M被保留并送入候选框中，此后再进行排序寻找下一个得分最高的M；算法迭代进行上述步骤，得到最后的检测结果。

最后应说明的几点是：本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围；

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多模态融合的医疗影像目标检测方法，其特征在于：包括以下步骤：

步骤A1、获取成对的多模态原始待检测图像；

其中，所述改进的非极大值抑制算法包括：

2.根据权利要求1所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：所述步骤A3中，目标检测网络的构建与训练方法包括：

步骤S20、输入一对多模态训练样本图像；

3.根据权利要求2所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：所述步骤S20中，在“输入一对多模态训练样本图像”之前，所述方法还包括：

获取训练用的原始图像样本集；

4.根据权利要求2所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：所述步骤S40中，“根据提取的所述特征图，基于全局特征进行各模态通道权重预测”具体包括：

F_encode:v→u,v∈R^2C,u∈R^C

其中，v代表全局特征向量，u代表重要性特征向量；

5.根据权利要求2所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：步骤S50中，“预测检测输出，并计算多任务损失函数”具体包括：

回归得到的偏差值为：

所述锚点属于各目标类别的概率为：

c＝(c₀,...,c_K)

6.根据权利要求2所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：所述步骤S50中，多任务损失函数为：

L(c,u,t^u,v)＝L_cls(c,u)+λ[u≥1]L_loc(t^u,v)

7.根据权利要求1所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：还包括一种基于多模融合的医疗影像目标检测系统，所述系统包括图像获取模块、预处理模块、目标检测网络、抑制模块；

所述图像获取模块用于获取原始的多模态待检测图像；

8.根据权利要求7所述的一种基于多模态融合的医疗影像目标检测方法，其特征在于：所述系统还包括目标检测网络构建模块，所述目标检测网络构建模块用于构建和训练所述目标检测网络；所述目标检测网络构建模块包括构建单元、输入单元、特征图提取单元、目标检测单元、损失函数计算单元、控制单元、稀疏化处理单元。