自动获取胎儿关键切面超声视频中心动周期视频的方法
技术领域
本发明属于产前超声检查技术领域,特别是涉及一种自动获取胎儿关键切面超声视频中心动周期视频的方法。
背景技术
目前,胎儿心脏超声检查是中期妊娠筛查先天性心脏病的最重要的手段。基于胎儿心脏超声检查的结果,能够减少许多严重复杂畸形胎儿的出生,同时针对检查结果中心脏异常较轻的胎儿,如果产前能得到诊断并作出必要的保障措施,出生后的新生儿的心脏异常便能得到及时救治。
在胎儿心脏超声检查过程中,从胎儿关键切面(包括四腔心、左室流出道、右室流出道、3VT切面等)视频中获取的心动周期视频是对心脏发育状况进行评估、以及对心脏疾病进行诊断的关键数据,其中心动周期视频,指的是心动周期内相邻两个收缩末期帧(或舒张末期帧)采样所得到的视频。
现有获取胎儿关键切面视频中心动周期视频的方法,主要是首先通过超声设备获取视频数据,然后借助超声医师其专业技能从这些视频数据中手动获取心动周期视频。然而,该方法存在一些不可忽略的缺陷:第一,该方法需要采集大量的视频数据,相当占用存储资源;第二,该视频数据中包括多个心动周期视频和干扰帧,因此从中筛选并确定心动周期视频的工作量巨大,且极其费时;第三,该方法需要基于专业技能高超的超声医师才能获得最准确的胎儿超声心动周期,因此在超声医师水平相对较低的县乡医院、以及超声医师缺乏的老少边穷地区,该方法无法得到普及应用。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种自动获取胎儿关键切面超声视频中心动周期视频的方法,其目的在于:结合深度学习的图像与视频分析处理技术,智能提取胎儿关键切面(四腔心、左室流出道、右室流出道、3VT切面等等)超声视频中的心动周期视频片段,并解决现有人工获取代表性的心动周期视频的方法中由于需要采集大量的视频数据所导致的占用硬盘存储资源的技术问题,以及对视频数据中的大量心动周期视频和干扰帧进行筛选导致工作量巨大、极其费时的技术问题,以及由于对超声医师专业水平要求过高导致的普适性差的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种自动获取胎儿关键切面超声视频中心动周期视频的方法,包括以下步骤:
(1)从超声仪器实时采集胎儿关键切面下的超声视频,将该胎儿关键切面下的超声视频输入已经训练好的目标跟踪模型SiamRPN++,以定位心脏部位;
(2)将步骤(1)得到的心脏部位输入组成目标跟踪模型SiamRPN++的ResNet-50骨干网络,以提取图像特征,将提取的图像特征输入单分类SVM(即One-class SVM),以获取多个心脏收缩末期帧(或舒张末期帧),并根据获取的多个心脏收缩末期帧(或舒张末期帧)得到多个目标搜索视频片段;
(3)使用视频再定位模型将步骤(2)得到的多个目标搜索视频片段与标准模板视频片段进行语义匹配,以从多个目标搜索视频片段中获取与标准模板视频片段最匹配的视频片段,该视频片段即为胎儿关键切面超声视频中的心动周期视频。
优选地,目标图像和搜索图像首先通过前8个卷积层后,输出提取的特征图,然后进入目标跟踪模型SiamRPN++中最左边一级的SiameseRPN模块,输出两组维度相同的得分图;这两组得分图又跟目标对象和搜索图像经过之后的6个卷积层中的中间卷积层提取的特征图进行加权融合,作为中间一级的SiameseRPN模块的输入,随后该中间一级的SiameseRPN模块也输出两组维度相等的得分图,再跟目标对象和搜索图像经过上述3个卷积层中最后一个卷积层提取的得分图分别进行加权融合,作为最右边一级的SiameseRPN模块的输入,最后,最右边一级的SiameseRPN模块输出两组维度相等的得分图,并分别通过分类分支和回归分支输出分类结果和回归结果。
优选地,目标跟踪模型SiamRPN++是通过以下步骤训练得到的:
(1-1)利用COCO、ImageNet DET、ImageNet 2015-VID和Youtube边界框数据集对目标跟踪模型SiamRPN++进行预训练;
(1-2)利用已经标记的胎儿超声心动视频对预训练后的目标跟踪模型SiamRPN++的参数做微调训练。
优选地,步骤(1-1)具体为,首先从网络下载组成目标跟踪模型SiamRPN++的ResNet-50骨干网络的预训练模型,并冻结其参数,然后利用COCO、ImageNet DET、ImageNet2015-VID和YouTube-Bounding Boxes训练数据集来训练目标跟踪模型SiamRPN++中除了ResNet-50以外的其他部分。
优选地,胎儿超声心动视频包括四腔心、左室流出道、右室流出道、三血管气管3VT这4个关键切面心动视频,以及其他非关键切面下的心动视频。
优选地,通过将心脏收缩末期帧或心脏舒张末期帧作为基准帧,在超声视频中往前取与该基准帧相邻的多帧,然后往后取与该基准帧相邻的多帧,该基准帧、向前取的多帧、以及向后取的多帧共同构成目标搜索视频。
优选地,单分类SVM是通过以下步骤训练得到的:
(2-1)获取四腔心切面收缩末期帧或舒张末期帧样本集,根据标记框对四腔心切面收缩末期帧或舒张末期帧样本集中的每一帧进行裁剪,以得到裁剪后的四腔心切面收缩末期帧或舒张末期帧图像;
(2-2)对步骤(2-1)裁剪后的每一帧四腔心切面收缩末期帧或舒张末期帧图像进行灰度化处理,以得到灰度处理后的灰度图像;
(2-3)将步骤(2-2)得到的每一幅灰度图像进行统一放缩处理,以得到放缩后的统一尺寸的灰度图像;
(2-4)对步骤(2-3)所得的尺寸统一的灰度图像进行数据增广处理,以得到处理后的心脏收缩末期帧或舒张末期帧心脏部位图像;
(2-5)对步骤(2-4)数据增广所得的每一幅心脏收缩末期帧或舒张末期帧心脏部位图像进行归一化处理,以得到归一化的图像;
(2-6)将步骤(2-5)得到的归一化的图像输入目标跟踪模型SiamRPN++的RestNet-50模型中提取特征,并将提取的特征输入单分类SVM进行单分类训练。
优选地,视频再定位模型是通过以下步骤训练得到的:
(3-1)利用基于ActivityNet的视频集对视频再定位模型进行预训练;
(3-2)使用胎儿超声心动视频中的四腔心心动视频片段对预训练后的视频再定位模型进行训练。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明由于采用了步骤(1),其自动跟踪定位到胎儿心脏部位,排除了众多无用信息的干扰,十分利于对心脏标准切面的识别与分类,使得经验欠缺的超声医师更容易定位到关键切面,有利于高质量超声技术的普及。
2、本发明由于采用了步骤(4),其基于视频语义匹配的方式来定位完整心动周期视频所对应的帧。因此与周期模板视频片段做匹配运算便可以寻找到语义精确匹配的完整周期片段,这进一步减少了胎儿个体之间的差异性所带来的识别困难。
3、本发明将深度学习技术应用于超声心动周期视频的自动化截取工作,实现了超声心动关键性数据—关键切面超声视频中胎儿心动周期视频的自动标准化采集,因此只需存储极具代表性的心动周期视频片段,这大大减少了资源保存的冗余,并大大节省存储空间。
4、本发明自动化程度高,自动识别四腔心标准切面(也包括其他重要切面如左室流出道切面、右室流出道切面、3VT切面)下的收缩末期状态帧或舒张末期状态帧,并能提示医师,之后自动提取基于此标准切面的心动周期视频,减少人工筛选带来的及其费时性问题,大大节省人工成本,且标准是统一的。
5、本发明属于辅助自动化工具,能简化超声医师的工作量,简化原有的工作流程,可广泛应用于各个医院的胎儿超声心动图检查,因此特别有利于具有专家水准的超声检测技术在超声医师水平相对较低的县乡医院、以及超声医师缺乏的偏远地区的普及应用。
附图说明
图1是本发明自动获取胎儿关键切面超声视频中胎儿心动周期视频的方法的整体流程图;
图2是本发明方法的步骤(1)中使用的目标跟踪模型SiamRPN++的结构图;
图3是本发明方法的步骤(2)的实现示意图;
图4是本发明方法(2)中根据心脏收缩末期帧或舒张末期帧得到目标搜索视频片段的示意图;
图5是本发明步骤(3)中语义匹配与查找匹配过程的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明基于视频片段定位技术的胎儿心脏关键切面(四腔心、左室流出道、右室流出道、三血管气管等等)动态周期视频片段的自动获取,指导年轻基层超声医师对二维超声心动周期视频数据采集的规范化、最小化以及有效化,节省硬盘资源的同时,也为后续的人工诊断、远程会诊、超声医师培训与智能分析与诊断提供最有效最精简的材料。
本发明的基本思路在于,提供一种基于视频片段定位技术的胎儿关键切面二维超声视频中自动截取胎儿超声心动周期视频的方法。具体是先使用目标跟踪技术定位到不断发生形变的心脏部位,然后使用单分类方法初步识别出心脏周期分界帧(实施用例中将收缩末期当做分界帧),这样便得到了大致的心脏周期分界帧(实施用例中将收缩末期当做分界帧),并以此截断出只包含一个周期的视频片段,缩小下一步语义匹配查找的范围;最后,使用一种交叉门控双线性匹配模型,用以检验并精细定位上一步得到的只包含一个心动周期的视频片段中与标准视频匹配的片段,这样便能缩小查找范围并结合中间的动态匹配,更为精准地匹配到相关标准切面下的完整心动周期视频。本发明旨在利用深度学习智能自动地从超声视频中截取胎儿心动周期视频,为后续的智能诊断提供最直接有效的依据。
如图1所示,本发明自动获取胎儿关键切面下超声视频中心动周期视频的方法包括以下步骤:
(1)从超声仪器实时采集胎儿关键切面超声视频,将该胎儿关键切面超声视频输入已经训练好的目标跟踪模型SiamRPN++,以定位心脏部位;
由于超声影像干扰性很强,且心脏却一直在发生形变(当然其位置相对没有发生改变),所以使用当前效果最好的目标跟踪模型SiamRPN++对心脏部位进行目标跟踪。
图2所示为本步骤中使用的目标跟踪模型SiamRPN++,为了整合不同尺度(scale)、语义(semantic)和分辨率(resolution ratio)等特征,SiamRPN++在架构上采用了多级级联的方式,融合来自不同卷积层输出的特征图(feature map):目标图像和搜索图像首先通过前8个卷积层后,输出提取的特征图,然后进入最左边一级的SiameseRPN模块,输出两组维度相同的得分图(score map);这两组得分图又跟目标对象和搜索图像经过之后的6个卷积层中的中间卷积层提取的特征图进行加权融合,作为中间一级的SiameseRPN模块的输入,随后该中间一级的SiameseRPN模块也输出两组维度相等的得分图,再跟目标对象和搜索图像经过上述3个卷积层中最后一个卷积层提取的得分图分别进行加权融合,作为最右边一级的SiameseRPN模块的输入,最后,最右边一级的SiameseRPN模块输出两组维度相等的得分图,并分别通过分类分支(Classification,CLS)和回归分支(BBox Regression)输出分类结果和回归结果。
以上的特征图融合流程称为分层聚合(layer-wise aggregation),其中使用了空洞卷积(Dilated Convolutions)扩大感受野,同时减小了步长(stride),以获取更精细的定位能力。
通过利用目标跟踪模型SiamRPN++,便可在视频中跟踪到动态的心脏部位,之后将心脏部位图像送入下一分类器模块对收缩末期进行初步识别定位,可以大大提高识别准确率。
本步骤中使用的目标跟踪模型SiamRPN++是通过以下步骤训练得到的:
(1-1)利用COCO、ImageNet DET、ImageNet 2015-VID和Youtube边界框(YouTube-Bounding Boxes)数据集对目标跟踪模型SiamRPN++进行预训练;
具体而言,由于医学图像标注困难,量少,而深度学习网络需要庞大的训练数据做支撑,所以这里采用先预训练,再微调的方式进行。
本步骤具体为,首先从网络下载组成目标跟踪模型SiamRPN++的ResNet-50骨干网络(即图2中的最上面和最下面的网络,它们是两个相同的多尺度特征提取网络)的预训练模型,并冻结其参数,然后利用COCO、ImageNet DET、ImageNet 2015-VID和YouTube-Bounding Boxes训练数据集来训练图2所示目标跟踪模型SiamRPN++中除了ResNet-50以外的其他部分(此时ResNet-50模型参数已被冻结),学习如何去度量一般的视觉跟踪对象之间的相似性,根据准确的相似性度量便能实现目标跟踪。
(1-2)利用已经标记的胎儿超声心动视频(该胎儿超声心动视频包括非四腔心、左室流出道、右室流出道、三血管气管这4个关键切面以及其他非关键切面下的心动视频,因为此处训练的目的是跟踪所有超声切面下的心脏部位)对预训练后的目标跟踪模型SiamRPN++的参数做微调(Fine-tune)训练。
这里的胎儿心动视频中每一帧的标记信息包括(si,di,bi),其中si标记四腔心、左室流出道、右室流出道、3VT等关键切面下收缩末期帧(或舒张末期帧),di为四腔心、左室流出道、右室流出道、3VT切面下的心动周期视频ID,从1开始标号,bi为目标框,用于框选心脏部位。
其实本步骤中目标跟踪模型的训练只需要bi信息,统一标注是为了样本的重复使用,在步骤(3)中同样需要大量标注的训练样本。
(2)将步骤(1)得到的心脏部位输入组成目标跟踪模型SiamRPN++的ResNet-50骨干网络,以提取图像特征,将提取的图像特征输入单分类SVM(即One-class SVM),以获取多个心脏收缩末期帧(或舒张末期帧),并根据获取的多个心脏收缩末期帧(或舒张末期帧)得到多个目标搜索视频片段(每个目标搜索视频片段只包含一个完整心动周期视频);
本步骤的目的,主要是为了分类找到胎儿关键切面下的心脏收缩末期帧(或舒张末期帧)及其附近的帧,即大致定位到心脏收缩末期帧(或舒张末期帧)。此分类器架构可以设计为区分2类,四腔心切面收缩末期帧(或舒张末期帧)以及其他情况。考虑到这两类样本十分不平衡,因为其他情况的样本明显多于收缩末期帧(或舒张末期帧),故此考虑使用单分类(one-class classification)方法。这里使用深度学习网络与单分类SVM结合的方式,如图3所示,先利用ResNet-50骨干网络提取心脏部位的图像特征,然后使用单分类SVM进行单分类。
特别地,由于心脏收缩末期帧(或舒张末期帧)的状态需要动态判断,也即需要考虑前后多帧才能确定,训练时将心脏收缩末期帧(或舒张末期帧)前后的多帧都看作收缩末期(或舒张末期),所以测试推断时,会分类判别连续多帧都为收缩末期(或舒张末期),此时取最中间一帧作为心脏收缩末期帧(或舒张末期帧)是比较合理的做法。
通过以当前步骤初步定位的心脏收缩末期帧(或舒张末期帧)为基准帧,在超声视频中往前取与该基准帧相邻的多帧(在本实施方式中取10帧),然后往后取与该基准帧相邻的多帧(在本实施方式中取10帧),这样便得到一段目标搜索视频。同样地,在本步骤识别出所有心脏收缩末期帧(或舒张末期帧)后,便可将整个超声视频分为多个目标搜索视频片段(并不是截断,因为有些帧会重复使用),大大减少了下一步的搜索范围,此过程如图4所示。
本步骤中使用的单分类SVM是通过以下步骤训练得到的:
(2-1)获取四腔心切面收缩末期帧或舒张末期帧样本集,根据标记框对四腔心切面收缩末期帧(或舒张末期帧)样本集中的每一帧进行裁剪,以得到裁剪后的四腔心切面收缩末期帧或舒张末期帧图像;
(2-2)对步骤(2-1)裁剪后的每一帧四腔心切面收缩末期帧(或舒张末期帧)图像进行灰度化处理,以得到灰度处理后的灰度图像;
(2-3)将步骤(2-2)得到的每一幅灰度图像进行统一放缩处理,以得到放缩后的统一尺寸的灰度图像;
具体而言,缩放后的图像尺寸为256*256,缩放处理的目的是为了后续神经网络的处理;
(2-4)对步骤(2-3)所得的尺寸统一的灰度图像进行数据增广(Dataaugmentation)处理,以得到处理后的心脏收缩末期帧(或舒张末期帧)心脏部位图像;
具体而言,本步骤中的增广处理包括诸如明暗度调节、随机裁剪/随机旋转/水平反转/竖直反转、加入高斯噪声等,目的是为了有效防止过拟合(这会让神经网络不能拟合输入图像的所有特征,而是找到真正与分类相关的特征)。
(2-5)对步骤(2-4)数据增广所得的每一幅心脏收缩末期帧(或舒张末期帧)心脏部位图像进行归一化处理,以得到归一化的图像(张量形式表示);
本步骤就是将所有像素点值从[0,255]被归一化到[-1,1],利于深度学习模型训练收敛;
(2-6)将步骤(2-5)得到的归一化的图像(即张量数据)输入目标跟踪模型SiamRPN++的RestNet-50模型中提取特征,并将提取的特征输入单分类SVM进行单分类训练;
(3)使用视频再定位模型将步骤(2)得到的多个目标搜索视频片段(只包含一个完整心动周期视频以及附近少数其他周期的帧)与标准模板视频片段进行语义匹配,以从多个目标搜索视频片段中获取与标准模板视频片段最匹配的视频片段,该视频片段即为胎儿关键切面下超声视频中的心动周期视频。
本步骤所使用的视频再定位模型如图5所示,其是由罗切斯特大学在读博士、腾讯AI实验室实习生Yang Feng等人提出,其功能是输入多个目标搜索视频片段和标准模板视频片段,在多个目标搜索视频片段中获取与标准模板视频片段最匹配的视频片段。
具体地,视频再定位模型主要包括视频特征聚合模块、交叉选通双线性匹配(Cross Gated Bilinear Matching)模块、以及定位模块,其中的视频特征聚合模块是为了有效地表示视频内容,捕捉到视频中所关注的语义信息。为了融合长段视频的上下文信息,这里使用了长短期记忆(Long Short Term Memory,LSTM)来聚合提取的特征。由LSTM模块生成的隐藏状态与可以分别看做是目标搜索视频与模板视频新的表示,因为LSTM对序列数据的天然的建模能力,隐藏状态能编码并聚合之前的上下文信息;其中的交叉选通双线性匹配模块(Cross Gated Bilinear Matching)包含3个子模块:交叉门控(crossgating)、双线性匹配(bilinear matching)和匹配聚合(matching aggregation)。在每个时间步,都会基于之前获取的聚合的视频表示:与进行目标搜索视频片段与模板视频片段的语义匹配。其中的定位(Localization)模块根据视频匹配结果,预测备选视频当中每个时间点是开始点和结束点的概率。除此之外,还预测了一个时间点对应的帧是在所查询的相关视频片段之内或之外的概率。如图5所示,在模板视频的每个时间步中,定位层都会预测此时间步属于以下四类之一的概率:起点、终点、内点和外点。
在视频再定位模型经过适当的训练后,可以针对一对目标搜索视频和模板视频按照图5模型执行视频定位,目标搜索视频(被查询的视频片段)中联合概率最大的分段则是此时最优定位。
本步骤中使用的视频再定位模型是通过以下步骤训练得到的:
(3-1)利用基于ActivityNet的视频集对视频再定位模型进行预训练;
这样预训练之后,视频再定位模型便具有了强大的匹配ActivityNet视频集的能力。
(3-2)使用胎儿超声心动视频中的四腔心心动视频片段对预训练后的视频再定位模型进行训练;
特别地,训练所用的每个四腔心心动视频片段都只包含一个完整的心动周期视频,重复的动作会给定位带来困难,所以需要上述步骤(2)实现定位。
提出的视频再定位模型使用加权交叉熵损失来训练。在每个时间步为参考视频(被查询视频片段)生成一个标签向量。对于包含真实片段[s,e]的参考视频,假设1<=s<=e<=r。其中s和e分别表示模板视频片段中的第一帧和最后一帧,r表示目标搜索视频片段中的最后一帧,属于[1,s)和(e,r]的时间步都在真实片段的外部,所对应的概率标签是gi=[0,0,0,1],第s个时间步就是起始时间步,此时被赋予的概率标签为gi=[1/2,0,1/2,0]。同样的,第e个时间步的概率标签为gi=[0,1/2,1/2,0]。在(s,e)内部的时间步被标记为[0,0,1,0]。当片段太短且在一个时间步内,s将等于e,在这种情况下,这个时间步的概率标签为[1/3,1/3,1/3,0]。
通过此步骤后输出的是每一帧的概率标签,以此信息便能获取最终的心动周期视频帧的定位。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。