CN110991254B

CN110991254B - 超声图像视频分类预测方法及系统

Info

Publication number: CN110991254B
Application number: CN201911087843.9A
Authority: CN
Inventors: 汪天富; 孔沛瑶; 倪东; 雷柏英; 陈思平
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-07-04
Anticipated expiration: 2039-11-08
Also published as: CN110991254A

Abstract

本发明公开了超声图像视频分类预测方法及系统。涉及图像处理领域，其中，方法通过获取包含时间维度、图像宽度、图像高度的原始视频图像，利用特征提取网络提取原始视频图像的特征，对特征利用时序上采样输出分类预测结果，其分类预测结果包括标准切面和非标准切面。利用特征提取网络高效的学习原始视频图像的时时序信息，通过时序上采样输出视频片段每帧的分类预测结果，提高预测效率，当用于超声视频数据时，能够提高超声诊断效率，减轻医生负担，而且有助于缓解医疗资源不足的问题。可广泛应用于视频图像预测领域。

Description

超声图像视频分类预测方法及系统

技术领域

本发明涉及图像处理领域，尤其是涉及一种超声图像视频分类预测方法及系统。

背景技术

如今利用超声设备获取用户的医学视频图像，并确定诊疗方案越来越普遍，例如通过产前超声进行畸形筛查，保障新生儿健康。通常产前超声检查可大致分为三个过程。首先，医师控制设备扫描胎儿特定的身体区域，然后超声医师需要在操作超声探头的同时从连续扫描视频中搜索标准切面，最后在标准切面上，观察组织结构或测量生物学参数，以确定胎儿是否存在生理异常并评估胎儿的生长发育和健康状况。因此，预测胎儿超声影像标准切面作为产前超声检查的关键步骤，是后续参数测量和异常诊断的前提。

然而，预测标准切面是一项高度专业化的任务，需要深厚的专业知识和临床经验，而且标准切面的筛选耗时且费力，一次完整的产前超声检查通常需要40分钟到一个多小时。由于超声扫描视图的连续性在动态视频中标准切面与相邻帧的非标准切面之间仅存在细微差别。此外，与一般视频分析任务相比，超声成像通常受到噪声和伪影的影响，无论对于人工还是智能算法，都是十分具有挑战性的任务。

因此需要提出一种能够对视频图像(例如超声视频图像)进行分类预测的方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种超声图像视频分类预测方法，能够对视频的每帧图像进行分类预测并输出分类预测结果。

第一方面，本发明的一个实施例提供了一种超声图像视频分类预测方法，包括：

获取原始视频图像；

利用特征提取网络提取所述原始视频图像的特征；

对所述特征利用时序上采样输出每帧的分类预测结果；

所述特征提取网络和所述时序上采样构成分类预测网络。

进一步地，所述特征提取网络为三维卷积残差网络，包括：1个卷积层和至少1个残差块。

进一步地，所述时序上采样由对应于所述残差块数量的反卷积层进行上采样，同时所述特征提取网络中间层特征经空间最大池化操作后与上采样后的时序特征进行通道融合。

进一步地，还包括对所述原始视频图像进行预处理，所述预处理包括：调整图像大小和图像归一化。

进一步地，所述分类预测网络的损失函数为焦点损失函数，具体表示为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，FL(p_t)表示焦点损失值，p_t表示输出预测概率，α_t表示分类预测结果的权重，γ表示平衡参数，(1-p_t)^γ表示平衡因子。

进一步地，所述分类预测网络的优化器为Adam算法优化器。

第二方面，本发明的一个实施例提供了一种超声图像视频分类预测系统，包括：

获取模块：用于获取原始视频图像；

特征提取模块：用于利用特征提取网络提取所述原始视频图像的特征；

输出模块：用于对所述特征利用时序上采样输出分类预测结果。

第三方面，本发明的一个实施例提供了提供一种超声图像视频分类预测设备，包括：

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。

本发明的有益效果是：

本发明通过获取包含时间维度、图像宽度、图像高度的原始视频图像，利用特征提取网络提取原始视频图像的特征，对特征利用时序上采样输出分类预测结果，其分类预测结果包括标准切面和非标准切面。利用特征提取网络高效的学习原始视频图像的时时序信息，通过时序上采样输出视频片段每帧的分类预测结果，提高预测效率，当用于超声视频数据时，能够提高超声诊断效率，减轻医生负担，而且有助于缓解医疗资源不足的问题。可广泛应用于视频图像预测领域。

附图说明

图1～图3为产前超声视频图像示意图；

图4是产前超声视频图像标注示意图；

图5是本发明实施例中超声图像视频分类预测方法的一具体实施例实现流程图；

图6是本发明实施例中超声图像视频分类预测方法的一具体实施例整体示意图；

图7是本发明实施例中超声图像视频分类预测方法的一具体实施例平衡参数不同取值的损失函数示意图；

图8是本发明实施例中超声图像视频分类预测系统的一具体实施例结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一：

本发明实施例一提供一种超声图像视频分类预测方法，能够广泛应用于视频数据帧级别分类，本实施例以产前超声数据为例说明本实施例的超声图像视频分类预测方法详细预测过程，但并不代表本实施例仅限于超声视频数据。

产前超声主要用于进行新生儿筛查，很多地区由于缺少自动分析超声图像的方法和设备，极大地限制了产前超声检查的效率。特别是在一些欠发达地区，因为缺乏经验丰富的医生，情况尤为严重。

如图1～图3所示，为产前超声视频图像示意图，分别是：图1表示腹围切面，含有胃泡(SB)，脐静脉(UV)和脊柱(SP)；图2表示双眼球横切面，包含鼻骨，眼球和晶状体；图3表示心脏四腔切面，包含左心房(LA)，右心房(RA)，左心室(LV)，右心室(RV)和降主动脉(DAO)，其中第一行是标准切面图像，第二行是对应于不同区域的非标准切面图像，对于非专业人士而言，很难看到它们之间的明显差异。在标准切面定义中，要求画面中必须清楚地看到一些关键结构。例如，在双眼球横切面中，必须清楚地看到鼻骨，双侧眼球以及两侧的晶状体，像晶状体这样细微的结构，在图像中可能只占据几个像素，很难被算法识别出来，但它对于出生缺陷诊断来说又非常重要。

图4为产前超声视频图像标注示意图，部分显示了胎儿心脏四腔标准切面分类预测任务的一个视频标注示例，该视频共包含49帧，图中选取显示了其中的8帧超声图像，其中最右边的数字0代表非标准切面，1代表标准切面，虚线代表标准切面，实线代表非标准切面，从图中可以看到标签是不连续的，即标准切面出现的片段很短，在某些情况下，两个标准切面之间也可能出现非标准切面，这主要是因为探头移动、背景噪音以及器官运动的原因，因此视频分析中常用的基于片段候选的预测算法并不适用于标准切面预测任务，本实施例提供一种针对帧级任务的方法来实时生成细粒度和密集的时序分类预测结果。

图5为本发明实施例提供的一种超声图像视频分类预测方法的实现流程图，如图5所示，该方法包括以下步骤：

S1：获取原始视频图像，对于输入原始视频图像序列片段，其大小可以表示为L×W×H×T，其中H和W表示每帧图片的高和宽，L表示序列片段的帧数，T则为图片的通道数。

S2：对原始视频图像进行预处理，本实施例中，预处理包括：调整图像大小和图像归一化，进行预处理的目的是为了统一输入原始视频图像的格式，提高运算效率。

S3：利用特征提取网络提取原始视频图像的特征。

S4：对特征利用时序上采样输出每帧的分类预测结果。

如图6所示，为本实施例的超声图像视频分类预测方法整体示意图，从图中可见输入的原始视频图像为包含时序特征的帧图像(L×W×H)，经过特征提取网络输出特征，之后进行时序上采样得到分类预测结果。

具体的，步骤S3中，特征提取网络为三维卷积残差网络(本实施例中表示为3DResNet)，包括：1个卷积层conv1和至少一个残差块Layer模块，卷积层为1×1的卷积核，Layer模块指的是ResNet中的基本块BasicBlocks，由两个输出通道数相同的3×3卷积组成，进一步地，残差块为4个。

其中，ResNet(Residual Network)针对训练卷积神经网络时加深网络导致准确度下降的问题，在已有设计思路的基础上，引入了残差块。每个残差块包含两条路径，其中一条路径是输入特征的直连通路，另一条路径对该特征做两到三次卷积操作得到该特征的残差，最后再将两条路径上的特征相加。

在训练时随着网络的加深，特征的时间和空间的维度逐渐缩小，随之通道数量不断增多，低级别的像素信息逐渐提炼为与分类预测标签相关的高级语义信息。当特征每次通过Layer层时，时间维度都会减少一半，最后Layer4输出特征的时间维度减小到原始长度的1/16，在一种具体实施方式中，其变化过程示意为：(1)输入[64,L,112,112]-->(2)Layer1输出[64,L/2,56,56]-->(3)Layer2输出[128,L/4,28,28]-->(4)Layer3输出[256,L/8,14,14]-->(5)Layer4输出[512,L/16,7,7]，其中64、128、256和512表示通道数，因此给定输入为时间长度L的视频片段，其输出特征为[512,L/16,7,7]。

具体的，步骤S4中，由于在帧级分类任务中，需要对视频中的每帧进行分类，因此，需要通过时序上采样将特征的时序维度重新采样回原始长度。但是直接将特征上采样到完整的尺寸将会失去很多细节信息，因此本实施例中，时序上采样由对应于残差块数量的反卷积层进行上采样，每次做两倍上采样逐渐恢复到原始视频长度，此外，在每次上采样之后，加入来自特征提取网络中间层的特征，将它融合到上采样特征流中，这种特征提取网络中间层和上采样流之间的流动通路结合了来自浅层的低级特征和来自深层的高级特征，这使得时序恢复的过程更加准确和包含更多的细节。

参照图6，上采样后的时序特征加入特征提取网络输出的相同通道数的特征进行通道融合，即特征提取网络中间层特征经空间最大池化操作后与上采样后的时序特征进行通道融合，具体的是在每个Layer模块后，使用空间池来压缩三维特征的空间维度并将其提炼为一维时间特征，进一步地，空间池化使用的是最大池化层，其中时间维度的内核大小为1，空间维度的内核大小与输入原始图像数据特征的H和W相同，即可获得不同分辨率L/2，L/4，L/8和L/16的时序特征与上采样后得到的数据进行通道融合。

由于在特征提取网络中执行了4次向下采样，因此通过四个一维反卷积进行时序上采样，反卷积大小的计算公式表示为：

N_out＝(N_in-1)×s+k-2p (1)

其中，s，k和p分别表示步长，内核大小和填充大小。

在二倍上采样(即图6中所示的Deconv1～4)中，可选的，设置参数s＝2，k＝2，p＝0。以Deconv1为例，其输入的图像表示为[512,L/16]，输出为[256,L/8]，其时序维度增加，而通道数减少，将其与来自第Layer3的中间层特征[256,L/8]进行通道融合，这两个特征在通道上堆叠在一起融合后特征形状为[512，L/8]的融合特征，这种融合方式连接了3D特征网络的中间层，而且上采样流可以有效地使用中间层信息，使得网络可以将中间层的时序信息传播到更高分辨率的层。然后以相同的方式，上采样流依次通过每个反卷积层，直到Deconv4的输出形状[256，L]重新回到与输入的原始视频图像相同的长度。

最后是两个一维卷积层，作为分类器用以输出最终分类预测结果，其中第一个卷积层Convk3(可选的，k＝3，s＝1，p＝1)，内核大小为3是为了对上采样输出的特征进行进一步学习和细化，填充大小为1是为了使卷积后的特征大小不变，然后是Convk1(可选的，k＝1，s＝1，p＝0)，它的作用是减少特征维度和输出最后不同分类的类别得分，本实施例中，将标准切面检测看作是对每一帧的二分类问题，例如，在经过softmax后最后输出的类别得分是[L,1]。

本实施例中，特征提取网络和时序上采样共同构成分类预测网络。

在一种具体实施场景中，使用的所有超声数据均由具有五年以上临床经验的专业超声医师采集和标注，并且所有数据采集程序严格按照产前超声质量控制协议进行，数据集中，受试者的孕龄范围为18～40周，包含了大多数常规产前检查病例的情况。总的来说，数据集总共有1081个视频(共44,457帧)，包括三个类别：心脏四腔切面，双眼球横切面和腹围切面，视频长度大约为17～50帧，每段视频中仅包含一种类型的标准平面。数据集的详细组成如下表1所示。

表1数据集组成示意

表1中显示数据集中样本分布情况如下表2所示。

数据集	总帧数	非标准切面	标准切面	比例
					心脏四腔切面	15369	12367	3002	19.5％
双眼球横切面	14593	12661	1932	13.2％
					腹围切面	14495	11064	3431	23.7％
总数	44457	36092	8365	18.8％

表2表1中数据集样本分布情况

从表2可以看出标准切面仅占总帧数的约19％，存在严重的类间不平衡问题，这种不平衡会导致分类预测网络训练过程更偏向于数据量大的分类类别(如非标准切面)，而忽略具有样本较少的分类类别(如标准切面)。

解决类别不平衡问题，以往研究中最常采用的是数据增强或数据欠采样的策略，这些方法通过直接改变输入样本的数据分布来实现平衡，但是在帧级任务中，无论是人为增加少数类的数量或降低多数类的采样率都会直接改变视频数据中原有的时空关联性，破坏原始时序的帧间连续性。

由于数据增加和数据欠采样等方法直接改变了样本分布，可称这种方法为硬平衡，本实施例中通过改进损失函数(即改变不同分类类别的错误分类成本)用以平衡训练过程，可称之为软平衡，与硬平衡相比，本实施例的软平衡不会改变视频数据中原始帧的分布和关联，因此更适合于帧级任务。

本实施例中，对于二分类问题，用y∈{±1}表示分类类别标签真值，分类预测网络输出的预测概率p_t定义为：

其中p∈[0,1]表示预测分类类别标签为1的概率，最简单的软平衡方法是在损失函数上添加一个平衡因子α，α∈[0,1]是分类类别标签为1时的权重，而类别为-1时权重等于1-α，表示为α_t。

当采用交叉熵损失函数时，即使对于分类器来说易分类的样本(如p_t＞＞0.5)，虽然它们对函数的损失值影响很小，但在训练过程中后期存在大量简单样本时，这些小的损失值将垄断梯度方向并淹没少数困难样本，使分类器的优化方向偏离想要的方向。例如在标准切面分类检测任务中，标准切面的图像帧前后的几个关键帧是分类的难点，而大量非标准平面可以看作是简单样本。因此本实施例采用焦点损失函数(Focal loss)，能够解决物体检测问题中背景和目标样本之间的不平衡问题，焦点损失函数，具体表示为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (3)

其中，FL(p_t)表示焦点损失值，p_t表示输出预测概率，α_t表示分类预测结果的权重，γ表示平衡参数，γ∈[0,5]，(1-p_t)^γ表示平衡因子。

焦点损失函数在交叉熵损失函数上添加平衡因子(1-p_t)^γ。如图7所示，为平衡参数不同取值的损失函数示意图，从图中可以看出当γ＝0时，焦点损失函数可以等价于交叉熵损失函数，当γ大于0时，可以相对减少简单样品的损失值，用以挖掘困难样本实例，使分类器更加关注错误分类的样品，无论是标准切面还是非标准切面，预测概率p_t越大，相应的平衡因子(1-p_t)^γ就越小，因此简单样本被平衡因子抑制，相应地促使分类器可以正确地识别关键帧。

在一种具体实施场景中，采用了时间滑动窗的方式生成输入原始视频图像。因为分类检测网络中不包含全连接层，理论上可以输入任意长度视频，但考虑到GPU显存容量的限制，实际应用中可选的将输出片段长度设置为16帧，这样分类检测网络既具有足够长的时间序列来学习关键时序信息，同时可以在训练阶段使用较大的批处理参数batch_size(例如在12GB显存情况下设置batch_size为8)。对于焦点损失函数的分类预测结果的权重α_t(可选的，将负样本和正样本的权重分别设置为[0.2,0.8])，随后固定α_t研究γ取不同值时的影响，根据实验结果统计，发现对于标准切面检测任务来说，当γ＝1时效果最好，同时使用Adam算法作为优化器，初始学习率设置为0.001，并使用了学习率衰减策略，在验证损失连续10个迭代过程没有降低时学习率自动减小10倍，同时在损失函数上添加了L2正则化项用以抑制过拟合，并将权重衰减系数设置为0.005。

本实施例中，当整个视频通过分类预测网络之后，能够得到每一帧图像的预测结果，在训练过程中，将分类预测概率分数较高的类别下标作为每帧的分类预测结果。

进一步地，为了给使用者提供更直观的参考，可以设置在超声检查过程中实时显示当前画面是标准切面的预测概率，并通过不同颜色进行标识，例如在最终检测结果中，用橙色线表示网络预测的每帧为标准切面的概率，分类预测标签则用绿线表示等。

实施例二：

本实施例提供一种超声图像视频分类预测系统，用于执行如实施例所述的方法，如图8所示，为本实施例的超声图像视频分类预测系统结构框图，包括：

获取模块100：用于获取原始视频图像；

特征提取模块200：用于利用特征提取网络提取原始视频图像的特征；

输出模块300：用于对特征利用时序上采样输出分类预测结果。

上述中超声图像视频分类预测系统模块的具体细节已经在实施例一对应的超声图像视频分类预测方法中进行了详细的描述，因此此处不再赘述。

另外，本发明还提供超声图像视频分类预测设备，包括：

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如实施例一所述的方法。计算机程序即程序代码，当程序代码在超声图像视频分类预测设备上运行时，程序代码用于使超声图像视频分类预测设备执行本说明书上述实施例一部分描述的超声图像视频分类预测方法中的步骤。

另外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，其中计算机可执行指令用于使计算机执行如实施例一所述的方法。

以上各实施例仅用以说明本发明的技术方案，而非对其限制，尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种超声图像视频分类预测方法，其特征在于，包括：

获取原始视频图像；

利用特征提取网络提取所述原始视频图像的特征；

对所述特征利用时序上采样输出每帧的分类预测结果；

所述特征提取网络和所述时序上采样构成分类预测网络；

所述分类预测网络的损失函数为焦点损失函数，具体表示为：

其中，

表示焦点损失值，/>

表示输出预测概率，/>

表示分类预测结果的权重，/>

表示平衡参数，/>

表示平衡因子；

所述特征提取网络为三维卷积残差网络，包括：1个卷积层和4个残差块，所述时序上采样由对应于残差块数量的反卷积层进行上采样，同时所述特征提取网络的中间层特征经空间最大池化操作后与上采样后的时序特征进行通道融合；

所述时序上采样由对应于残差块数量的反卷积层进行上采样；所述时序上采样为二倍上采样；针对所述反卷积层，第一个所述反卷积层的输入的图像大小为[512,L/16]，L表示帧数，经过所述二倍上采样得到输出的图像大小为[256,L/8]，其时序维度增加而通道数减少，将输出与来自中间层的特征[256,L/8]进行通道融合得到融合特征，所述融合特征的大小为[512，L/8]，利用所述融合特征连接所述特征提取网络的中间层，并且上采样流使用中间层信息，使得所述特征提取网络将中间层的时序信息传播到更高分辨率的层；上采样流依次通过每个反卷积层，直到最后一个反卷积层的输出与输入的所述原始视频图像具有相同的长度，所述原始视频图像的图像大小为[256，L]；

所述特征提取网络还包括两个一维卷积层，用以输出最终分类预测结果，其中，第一个一维卷积层的内核大小为3，填充大小为1，用于对上采样输出的特征进行学习并且使卷积后的特征大小不变，第二个一维卷积层的内核大小为1，用于减少特征维度，以及输出所述最终分类预测结果，所述最终分类预测结果为不同分类的类别得分。

2.根据权利要求1所述的一种超声图像视频分类预测方法，其特征在于，还包括对所述原始视频图像进行预处理，所述预处理包括：调整图像大小和图像归一化。

3.根据权利要求1至2任一项所述的一种超声图像视频分类预测方法，其特征在于，所述分类预测网络的优化器为Adam算法优化器。

4.一种超声图像视频分类预测系统，其特征在于，包括：

获取模块：用于获取原始视频图像；

输出模块：用于对所述特征利用时序上采样输出分类预测结果；

所述特征提取网络和所述时序上采样构成分类预测网络；所述分类预测网络的损失函数为焦点损失函数，具体表示为：