CN112908465B

CN112908465B - 基于异常检测和半监督的超声关键帧自主识别方法

Info

Publication number: CN112908465B
Application number: CN202110010282.3A
Authority: CN
Inventors: 黄庆华; 习佳宁; 李学龙
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2023-06-02
Anticipated expiration: 2041-01-04
Also published as: CN112908465A

Abstract

本发明提供了一种基于异常检测和半监督的超声关键帧自主识别方法，用于识别医学超声扫查视频帧中的标准切面关键帧。首先，构建常见超声扫查部位的超声视频帧数据集；然后，采用变分自编码器对超声视频帧进行满足正态分布的编码向量提取；接着，通过无监督离群点检测方式进行超声关键帧预筛选；最后，通过标注约束相似图半监督学习方法进行视频帧低秩分解和视频帧编码向量低秩伪逆的关键帧自主识别。本发明能够解决现有关键帧识别方法对医学超声有标注数据依赖过大的问题，实现仅需少量标注视频帧的超声关键帧自主识别。

Description

基于异常检测和半监督的超声关键帧自主识别方法

技术领域

本发明属计算机辅助诊断技术领域，具体涉及一种基于异常检测和半监督的超声关键帧自主识别方法，用于识别医学超声扫查视频帧中的标准切面关键帧。

背景技术

医疗超声是四大医学影像模态之一，鉴于医学超声的实时性、无创伤、无辐射、成本低等优势，目前已用于患者的大规模筛查。在扫查中，超声探头所获得的影像会被逐帧记录，以供医生选取符合扫查部位标准切面的关键帧，从而为患者的后续诊断提供参考。然而，现有诊查中，对含病灶的超声关键帧主要采用人工判别，但在对于庞大规模的患者诊查中，由于有经验医生人数有限，因而多数患者的超声关键帧需耗费大量时间，严重限制了诊断的时效性。为提升大规模超声筛查的时效性，现阶段的主要方式是通过计算机辅助诊断技术，对逐帧记录中的超声关键帧进行自主识别，进而为医生提供参考，减少医生在诊查中的人工判断耗时。

在医学超声标准切面的关键帧自主识别研究中，早期方法主要采用手工设计图像特征的方法，进而通过分类器对符合超声标准切面的图像进行判别，如文献"Abuhamad A,Falkensammer P,Reichartseder F,et al.Automated retrieval of standarddiagnostic fetal cardiac ultrasound planes in the second trimester ofpregnancy:a prospective evaluation of software[J].Ultrasound in Obstetricsand Gynecology:The Official Journal of the International Society ofUltrasound in Obstetrics and Gynecology,2008,31(1):30-36."。随后，Ni等人在文献"Ni D,Yang X,Chen X,et al.Standard plane localization in ultrasound by radialcomponent model and selective search[J].Ultrasound in medicine&biology,2014,40(11):2728-2742."中通过基于径向分量模型的选择性搜索方法，自动定位超声图像中胎儿腹部的标准切面。对于胎儿面部的标准切面，Lei等人在文献"Lei B,Tan E L,Chen S,etal.Automatic recognition of fetal facial standard plane in ultrasound imagevia fisher vector[J].PloS one,2015,10(5):e0121838."中进一步通过Fisher vector对超声图像特征进行提取，实现对胎儿面部标准切面的自动识别。然而，上述方法均要求对超声图像特征进行手工设计，在实现过程中对专家知识具有过高的依赖性，在个体差异较大的众多产检对象中难以推广。

为克服超声标准切面自动提取模型对专家知识的高度依赖性，近期研究逐渐通过基于有标注数据的数据驱动模式，采取深度学习方法构建超声标准切面自主判别模型。其中，Chen等人在文献"Chen H,Ni D,Qin J,et al.Standard plane localization infetal ultrasound via domain transferred deep neural networks[J].IEEE journalof biomedical and health informatics,2015,19(5):1627-1636."中通过大量标注完好的关键帧数据，构建了深度卷积神经网络，作为孕妇胎儿腹部的标准切面自动提取方法。同时，Yu等人在文献"Yu Z,Tan E L,Ni D,et al.A deep convolutional neural network-based framework for automatic fetal facial standard plane recognition[J].IEEEjournal of biomedical and health informatics,2017,22(3):874-885."中同样采用完整标注的关键帧数据进行深度卷积神经网络的构建，初步实现了孕妇胎儿面部的标准切面关键帧提取方法。近期研究中，Chen等人在文献"Chen H,Wu L,Dou Q,et al.Ultrasoundstandard plane detection using a composite neural network framework[J].IEEEtransactions on cybernetics,2017,47(6):1576-1586."中进一步通过联合卷积神经网络与循环神经网络，对超声图像的标准切面进行识别。鉴于目前超声标准切面自动识别模型距离实用化仍有一段距离，Baumgartner等人在文献"Baumgartner C F,Kamnitsas K,Matthew J,et al.SonoNet:real-time detection and localisation of fetalstandard scan planes in freehand ultrasound[J].IEEE transactions on medicalimaging,2017,36(11):2204-2215."中设计深度学习模型时进一步考虑了运行速率，提出具有实时性的标准切面自动识别算法。

总的来说，上述方法对已标注超声图像数量的需求极高，需收集海量超声数据并进行逐个标注，会耗费超声医生在工作之外的大量时间精力。例如，现有基于深度学习的超声标准切面判别研究"Chen H,Wu L,Dou Q,et al.Ultrasound standard planedetection using a composite neural network framework[J].IEEE transactions oncybernetics,2017,47(6):1576-1586."中，对超声图像的标注需求高达50000余张，在实际临床中对医生造成严重的数据标注负担。在扫查过程中，超声探头所获取的超声影像视频含有海量的视频帧，若由医生对巨大数量的视频帧进行整体逐张标注，会对医生造成不切实际的标注工作强度。如果对直接减少关键帧的标注数量，则会引入上述关键帧识别方法能力下降的风险。此外，在整个视频帧中，关键帧整体占比较低，而多数视频帧则是未达到标准切面的平凡帧，这种不平衡不仅会对关键帧的识别方法带来额外干扰，还严重造成了医生对关键帧的标注低效。因此，亟需一种减少医生标注强度的关键帧的有效自主识别方法。

发明内容

为了克服现有技术的不足，本发明提供一种基于异常检测和半监督的超声关键帧自主识别方法。主要解决了现有关键帧识别方法对医学超声有标注数据依赖过大的问题，实现了仅需少量标注视频帧的超声关键帧自主识别。首先，构建常见超声扫查部位的超声视频帧数据集；然后，采用变分自编码器对超声视频帧进行满足正态分布的编码向量提取；接着，通过无监督离群点检测方式进行超声关键帧预筛选；最后，通过标注约束相似图半监督学习方法进行视频帧低秩分解和视频帧编码向量低秩伪逆的关键帧自主识别。本发明采用变分自编码器的无监督离群点检测方式，在完全无标注情况对海量视频帧进行预筛选，能够大幅减少医生对视频帧的标注强度；针对关键帧整体占比较低的不平衡问题，通过无监督离群点检测的预筛选对大量平凡帧进行排除，缓解后续关键帧识别的数据不平衡现象；通过标注约束相似图半监督学习方法，对预筛选后的视频帧在非完全标注情况下进行关键帧识别，进一步降低方法对数据标注的需求。

一种基于异常检测和半监督的超声关键帧自主识别方法，其特征在于步骤如下：

步骤1，构建超声视频帧数据集：利用超声探头对人体不同组织区域进行视频帧采集，得到带位置坐标的超声视频数据集X＝[x₁,x₂,...,x_n]，其中，x_i表示第i个超声视频帧，i＝1,2…,n，n为数据集包括的视频帧总数；所述的组织区域包括脖子、胸部、手臂、腹部、后背、腰部和大腿；

步骤2，变分自编码器对超声帧的正态编码向量提取：首先，根据无监督方式的变分自编码器VAE的框架，分别构建编码网络和解码网络，其中，编码网络由三层神经网络构成，其输入为超声视频帧x_i，以及从m维的标准正态分布N(0,I_m)随机采样的相应随机向量ε_i，I_m为m维单位矩阵，m由用户预设的正整数，取值范围为[2000,10000]，i∈[1,…,n]，设编码网络的网络参数集合为φ；编码网络的输出为超声视频帧x_i为所对应的编码向量z_i，

(μ_φ)_i为编码向量z_i的均值，维度为m×1，(Σ_φ)_i为编码向量z_i的协方差矩阵，维度为m×m，正态分布函数N((μ_φ)_i,(Σ_φ)_i)构成编码向量z_i的后验概率函数q_φ(z_i|x_i)；解码网络也由三层神经网络构成，其输入为编码向量z_i，输出为通过编码向量z_i对超声视频帧x_i进行重建的重建似然函数p_θ(x_i|z_i)，i∈[1,…,n]，θ表示解码网络的网络参数集合；

然后，通过随机梯度下降法对下式进行优化，得到编码器网络和解码器网络参数φ和θ以及各超声视频帧的编码向量z_i，i∈[1,…,n]：

其中，

表示似然函数p_θ(x_i|z_i)的对数关于后验概率函数q_φ(z_i|x_i)＝N((μ_φ)_i,(Σ_φ)_i)的期望值，D_KL{q_φ(z_i|x_i)||N(0,I_m)}表示q_φ(z_i|x_i)和N(0,I_m)的KL散度；

步骤3，无监督离群点检测方式的超声关键帧预筛选：设定分位数α＝0.05，对于数据集中的超声视频帧x_i，i＝1,2…,n，当其重建概率p_i小于分位数α时，判定该视频帧为离群点，并将其作为候选关键帧；否则，判定该输入帧为平凡帧；

所述的重建概率p_i按以下过程计算得到：从m维的标准正态分布N(0,I_m)进行K次采样，得到超声视频帧x_i的相应随机向量

j∈[1,…,K]，K在[1000,10000]内取值；将x_i和

作为输入，通过步骤2的编码网络，得到均值(μ_φ)_i、协方差矩阵(Σ_φ)_i和编码向量

再将每个编码向量/>

代入解码网络，计算出相应的重建似然函数

j＝1,2,…,K，得到所有K个重建概率；将这K个重建概率的均值，作为超声视频帧x_i最终的重建概率，即/>

步骤4，标注约束相似图半监督学习视频帧低秩分解：首先，对于步骤3从n个超声视频帧中所筛选出的L个候选关键帧，从中随机选择l个帧进行标注，得到关系记录矩阵C_l×c，其中，l<L，关系记录矩阵的第i行j列元素[C_l×c]_i,j＝1表示所选择的第i个候选关键帧属于第j类关键帧，[C_l×c]_i,j＝0表示所选择的第i个候选关键帧不属于第j类，i＝1,2…,l，j＝1,2…,c，前c-1个类为不同类型的关键帧类别，第c类为平凡帧类别；

然后，按下式构建用于描述半监督学习标注关系的标注约束矩阵Y：

其中，I_n-l表示(n-l)维单位矩阵；

接着，构建标注约束低秩分解的半监督学习优化函数如下：

其中，矩阵Z＝[z₁,z₂,...,z_n]为由n个超声视频帧通过步骤2得到的编码向量所构成的编码向量矩阵，维度为m×n，矩阵U为从原始m维编码向量特征到k维低秩特征的线性映射矩阵，维度为m×k；矩阵V为潜变量矩阵，

其中，v_i为k维的非负向量，向量v_i中元素的初始值为(0,1)区间内等概率随机产生，i＝1,2…,c+(n-l)，k是由用户预设的正整数，在[100,2000]内取值；W为n×n维的相似性矩阵，其对角线元素取值均设置为1，非对角线元素w_ij为第i个编码向量z_i和第j个编码向量z_j的热核函数权重，按照w_ij＝exp{-||z_i-z_j||²/σ}计算得到，σ为扩散系数，由用户设定，取值范围为(0,+∞)；D为度矩阵，是以相似性矩阵W的每行之和分别作为对角线元素的对角矩阵；λ是相似性正则化项的调谐参数，取值由用户设定，取值范围为(0,+∞)；β是线性映射矩阵正则化项的调谐参数，取值由用户设定，取值范围为(0,+∞)；

采用交替方向乘子法求解上述半监督学习优化函数，得到矩阵U和V；

步骤5，视频帧编码向量低秩伪逆的关键帧自主识别：对于新获取的超声视频帧x_n+1，按照下式得到其预测向量

其中，z_n+1为按照步骤2方法获得的该视频帧的编码向量；

记录预测向量

中最大元素值的位置序号i_n+1，再记录步骤4所得的标注约束矩阵Y中第i_n+1行中元素值为1的列序号j_n+1；若j_n+1属于[1,c-1]之内，则将超声视频帧x_n+1视为第j_n+1类关键帧；若j_n+1＝c，则将超声视频帧x_n+1视为平凡帧。

本发明的有益效果是：(1)针对现有方法对已标注超声图像数量要求极高的问题，采用变分自编码器的无监督离群点检测方式，在完全无标注情况对海量视频帧进行预筛选，大幅减少医生对视频帧的标注强度；(2)针对关键帧整体占比较低的不平衡对关键帧识别所造成的干扰，通过无监督离群点检测的预筛选对大量平凡帧进行排除，缓解后续关键帧识别的数据不平衡现象；(3)为进一步降低医生对关键帧的标注强度，通过标注约束相似图的低秩分解半监督学习，对预筛选后的视频帧在非完全标注情况下进行关键帧识别，从而在标注稀少的情况实现关键帧识别。

附图说明

图1是本发明的基于异常检测和半监督的超声关键帧自主识别方法流程图；

图2是本发明方法原理示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1和2所示，本发明提供了一种基于异常检测和半监督的超声关键帧自主识别方法，其具体实现过程如下：

步骤1：构建常见超声扫查部位的超声视频帧数据集。鉴于机器人在深入诊断前需对病患人体部位中的目标区域进行快速有效的探寻，本发明拟通过超声探头所获取的海量超声视频帧，作为人体目标区域探寻的主要依据。通过招募大量受试者，对每位受试者，通过超声探头对主要扫查的组织区域，包括脖子，胸部，手臂，腹部，后背，腰部和大腿进行超声视频帧采集，设采集得到带位置坐标的超声视频数据集为X＝[x₁,x₂,...,x_n]，其中，x_i表示第i个超声视频帧，i＝1,2…,n，n为数据集包括的视频帧总数。这些视频帧将作为后续超声关键帧自主识别的输入训练数据。

步骤2：变分自编码器对超声视频帧分布的正态拟合。对于n个输入的带位置坐标的超声视频帧X＝[x₁,x₂,...,x_n]，为通过无监督方式的变分自编码器(VariationalAutoEncoder,VAE)，提取每个视频帧的编码向量Z＝[z₁,z₂,...,z_n]，且使所得的编码向量z_i服从正态分布。其中，当输入的超声视频帧x_i固定时，通过构建编码网络(记编码网络的网络参数集合为φ)可计算出相应编码向量z_i的后验概率函数q_φ(z|x)；同时，当视频帧相应的编码向量z_i固定时，通过构建解码网络(记解码网络的网络参数集合为θ)可计算出对原始超声视频帧x_i进行重建的似然函数p_θ(x|z)。当两者概率越接近时，则说明通过编码和解码网络所得到的重建效果越好。因此，通过最小化两者之间的Kullback-Leibler散度(KL散度)可以实现q_φ(z|x)和p_θ(x|z)的拟合：

进而，得到超声视频帧x_i边缘概率的对数结果：

logp(x)＝D_KL{q_φ(z|x)||p_θ(x|z)}+L_VAE{φ,θ；x} (6)

此处L_VAE{φ,θ；x}为VAE变分下界，其具体的计算方式为：

鉴于所输入的原始超声视频帧x早已确定，因此式(5)中对两者KL散度的最小化，等价于对VAE变分下界的最大化。通过进一步推导约简，可得VAE变分下界的最大化优化函数：

此处的p_θ(z)为编码向量z的先验概率。当将编码向量z的先验概率p_θ(z)设为标准正态分布N(0,1)时，在上式优化函数中，KL散度项可使得后验概率q_φ(z|x)也尽可能逼近标准正态分布，右侧的对数概率期望最大化可使得编码向量z对原始超声帧的重建误差尽可能小。通过上式的优化，可以使得每个超声帧对于VAE网络所得的编码向量，所有向量所对应点共同构成的分布近似服从标准正态分布。

基于上述分析，首先，根据无监督方式的变分自编码器VAE的框架，分别构建编码网络和解码网络，其中，编码网络由三层神经网络构成，其输入为超声视频帧x_i，以及从m维的标准正态分布N(0,I_m)随机采样的相应随机向量ε_i，I_m为m维单位矩阵，m由用户预设的正整数，取值范围为[2000,10000]，i∈[1,…,n]，设编码网络的网络参数集合为φ；编码网络的输出为超声视频帧x_i为所对应的编码向量z_i，

其中，

表示似然函数p_θ(x_i|z_i)的对数关于后验概率函数q_φ(z_i|x_i)＝N((μ_φ)_i,(Σ_φ)_i)的期望值，D_KL{q_φ(z_i|x_i)||N(0,I_m)}表示q_φ(z_i|x_i)和N(0,I_m)的KL散度。

公式(9)优化完成时，即得到每个超声视频帧的编码向量z_i(i∈[1,…,n])，以及编码器网络和解码器网络参数φ和θ。

步骤3：无监督离群点检测方式的超声关键帧预筛选。对于每个待测的输入超声帧x_i，为判别该输入帧是否为离群点，首先设置判定离群点的分位数α(设为0.05)，即当所输入超声帧的重建概率p_i小于该分位数α时，则判定该输入帧为离群点，进而作为关键帧候选；否则，将该输入帧视为平凡帧。

具体地，超声帧x_i的重建概率p_i按以下过程计算得到：首先，从m维的标准正态分布N(0,I_m)进行K次采样，得到超声视频帧x_i的相应随机向量

j∈[1,…,K]，K在[1000,10000]内取值；将x_i和/>

作为输入，通过步骤2的编码网络，得到均值(μ_φ)_i、协方差矩阵(Σ_φ)_i和编码向量/>

再将每个编码向量/>

代入解码网络，计算出相应的重建似然函数/>

通过上述方式，可在完全无标注的情况下对关键帧做出预筛选。由于关键帧和平凡帧的占比严重不平衡，所得到的关键帧候选构成关键帧候选集合，在占比上也远小于总体的数据量。因此，仅对关键帧候选集合进行标注，可以极大程度上缓解医生的标注工作强度。

步骤4：标注约束相似图半监督学习视频帧低秩分解。为进一步减轻医生的标注工作量，拟采用半监督学习的方式进行关键帧识别的模型训练。此处，医生仅需从关键帧候选集合中，挑选其中的l张超声视频帧进行标注即可，l<L，L为候选关键帧个数。将l帧对总共c类(包括c-1类关键帧类型和1个平凡帧类型)的从属关系记录至矩阵C_l×c中，即当第i个帧属于第j类标注时[C_l×c]_i,j＝1，否则为0。进而，结合(n-l)维的单位矩阵，构建用于描述半监督学习标注关系的标注约束矩阵Y：

其次，对于标注约束矩阵的c+(n-l)个类，对每个类的标注分别引入潜变量

其中v_i为k维的非负向量。同时，构建从原始m维特征到k维低秩特征的线性映射矩阵U，维度为m×k。

为确保所学的半监督模型对相似帧的结果具有一致性，针对所有帧的在步骤2所得的编码向量Z＝[z₁,z₂,...,z_n]，计算各帧的编码向量之间的余弦相似性，构建各帧之间的相似图，图的各节点代表各帧，图的邻边为各帧之间的相似性。由于两两之间相似性所占的存储空间过多，此处仅保留余弦相似性高于0.5的邻边，从而确保相似性矩阵W所描述的相似图的邻边相对稀疏，从而易于计算。将矩阵W的每行之和分别作为对角元素，构成对角阵形式的度矩阵D，两者之差D-W则构成了图拉普拉斯矩阵。通过限制含有标注约束的潜变量YV关于相似性矩阵的拉普拉斯项的大小Tr{V^TY^T(D-W)YV}，可实现所学模型对相似帧的结果一致性保持。

根据上述考虑，采用以下优化函数实现标注约束低秩分解的半监督学习：

采用交替方向乘子法求解上述半监督学习优化函数，对变量U和V引入拉格朗日乘子Ψ和Φ，并对拉格朗日函数L分别对变量U和V进行求导：

利用性质

和/>

(此处/>

符合代表两个矩阵的点对点相乘)消除Ψ和Φ，并得到以下的迭代优化求解：

当迭代收敛时，可获得半监督模型的参数矩阵U和V。

步骤5：视频帧编码向量低秩伪逆的关键帧自主识别。根据上述在实际扫查中，当获得新的超声视频帧时，通过步骤2中所提到的VAE方法获得该帧的编码向量z_n+1，并通过步骤4中所得的矩阵UV^T相乘结果的伪逆(VU^TUV^T)VU^T，获得该帧的标注估计

最终寻找出向量

中最大元素所对应的标注，若该标注为某类关键帧，则判定新帧为此类关键帧，否则为平凡帧。具体为：记录预测向量/>

通过上述方式，可有效实现标注稀少情况的标注约束低秩分解的半监督学习关键帧识别，从而在扫查过程中自主判别各帧是否为含有标准切面的超声关键帧。