CN112908465B - 基于异常检测和半监督的超声关键帧自主识别方法 - Google Patents
基于异常检测和半监督的超声关键帧自主识别方法 Download PDFInfo
- Publication number
- CN112908465B CN112908465B CN202110010282.3A CN202110010282A CN112908465B CN 112908465 B CN112908465 B CN 112908465B CN 202110010282 A CN202110010282 A CN 202110010282A CN 112908465 B CN112908465 B CN 112908465B
- Authority
- CN
- China
- Prior art keywords
- ultrasonic
- matrix
- frame
- video frame
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 76
- 238000002604 ultrasonography Methods 0.000 claims abstract description 44
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 10
- 238000013450 outlier detection Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 10
- 239000000523 sample Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 210000001015 abdomen Anatomy 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 210000000689 upper leg Anatomy 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 claims description 2
- 230000001605 fetal effect Effects 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于异常检测和半监督的超声关键帧自主识别方法,用于识别医学超声扫查视频帧中的标准切面关键帧。首先,构建常见超声扫查部位的超声视频帧数据集;然后,采用变分自编码器对超声视频帧进行满足正态分布的编码向量提取;接着,通过无监督离群点检测方式进行超声关键帧预筛选;最后,通过标注约束相似图半监督学习方法进行视频帧低秩分解和视频帧编码向量低秩伪逆的关键帧自主识别。本发明能够解决现有关键帧识别方法对医学超声有标注数据依赖过大的问题,实现仅需少量标注视频帧的超声关键帧自主识别。
Description
技术领域
本发明属计算机辅助诊断技术领域,具体涉及一种基于异常检测和半监督的超声关键帧自主识别方法,用于识别医学超声扫查视频帧中的标准切面关键帧。
背景技术
医疗超声是四大医学影像模态之一,鉴于医学超声的实时性、无创伤、无辐射、成本低等优势,目前已用于患者的大规模筛查。在扫查中,超声探头所获得的影像会被逐帧记录,以供医生选取符合扫查部位标准切面的关键帧,从而为患者的后续诊断提供参考。然而,现有诊查中,对含病灶的超声关键帧主要采用人工判别,但在对于庞大规模的患者诊查中,由于有经验医生人数有限,因而多数患者的超声关键帧需耗费大量时间,严重限制了诊断的时效性。为提升大规模超声筛查的时效性,现阶段的主要方式是通过计算机辅助诊断技术,对逐帧记录中的超声关键帧进行自主识别,进而为医生提供参考,减少医生在诊查中的人工判断耗时。
在医学超声标准切面的关键帧自主识别研究中,早期方法主要采用手工设计图像特征的方法,进而通过分类器对符合超声标准切面的图像进行判别,如文献"Abuhamad A,Falkensammer P,Reichartseder F,et al.Automated retrieval of standarddiagnostic fetal cardiac ultrasound planes in the second trimester ofpregnancy:a prospective evaluation of software[J].Ultrasound in Obstetricsand Gynecology:The Official Journal of the International Society ofUltrasound in Obstetrics and Gynecology,2008,31(1):30-36."。随后,Ni等人在文献"Ni D,Yang X,Chen X,et al.Standard plane localization in ultrasound by radialcomponent model and selective search[J].Ultrasound in medicine&biology,2014,40(11):2728-2742."中通过基于径向分量模型的选择性搜索方法,自动定位超声图像中胎儿腹部的标准切面。对于胎儿面部的标准切面,Lei等人在文献"Lei B,Tan E L,Chen S,etal.Automatic recognition of fetal facial standard plane in ultrasound imagevia fisher vector[J].PloS one,2015,10(5):e0121838."中进一步通过Fisher vector对超声图像特征进行提取,实现对胎儿面部标准切面的自动识别。然而,上述方法均要求对超声图像特征进行手工设计,在实现过程中对专家知识具有过高的依赖性,在个体差异较大的众多产检对象中难以推广。
为克服超声标准切面自动提取模型对专家知识的高度依赖性,近期研究逐渐通过基于有标注数据的数据驱动模式,采取深度学习方法构建超声标准切面自主判别模型。其中,Chen等人在文献"Chen H,Ni D,Qin J,et al.Standard plane localization infetal ultrasound via domain transferred deep neural networks[J].IEEE journalof biomedical and health informatics,2015,19(5):1627-1636."中通过大量标注完好的关键帧数据,构建了深度卷积神经网络,作为孕妇胎儿腹部的标准切面自动提取方法。同时,Yu等人在文献"Yu Z,Tan E L,Ni D,et al.A deep convolutional neural network-based framework for automatic fetal facial standard plane recognition[J].IEEEjournal of biomedical and health informatics,2017,22(3):874-885."中同样采用完整标注的关键帧数据进行深度卷积神经网络的构建,初步实现了孕妇胎儿面部的标准切面关键帧提取方法。近期研究中,Chen等人在文献"Chen H,Wu L,Dou Q,et al.Ultrasoundstandard plane detection using a composite neural network framework[J].IEEEtransactions on cybernetics,2017,47(6):1576-1586."中进一步通过联合卷积神经网络与循环神经网络,对超声图像的标准切面进行识别。鉴于目前超声标准切面自动识别模型距离实用化仍有一段距离,Baumgartner等人在文献"Baumgartner C F,Kamnitsas K,Matthew J,et al.SonoNet:real-time detection and localisation of fetalstandard scan planes in freehand ultrasound[J].IEEE transactions on medicalimaging,2017,36(11):2204-2215."中设计深度学习模型时进一步考虑了运行速率,提出具有实时性的标准切面自动识别算法。
总的来说,上述方法对已标注超声图像数量的需求极高,需收集海量超声数据并进行逐个标注,会耗费超声医生在工作之外的大量时间精力。例如,现有基于深度学习的超声标准切面判别研究"Chen H,Wu L,Dou Q,et al.Ultrasound standard planedetection using a composite neural network framework[J].IEEE transactions oncybernetics,2017,47(6):1576-1586."中,对超声图像的标注需求高达50000余张,在实际临床中对医生造成严重的数据标注负担。在扫查过程中,超声探头所获取的超声影像视频含有海量的视频帧,若由医生对巨大数量的视频帧进行整体逐张标注,会对医生造成不切实际的标注工作强度。如果对直接减少关键帧的标注数量,则会引入上述关键帧识别方法能力下降的风险。此外,在整个视频帧中,关键帧整体占比较低,而多数视频帧则是未达到标准切面的平凡帧,这种不平衡不仅会对关键帧的识别方法带来额外干扰,还严重造成了医生对关键帧的标注低效。因此,亟需一种减少医生标注强度的关键帧的有效自主识别方法。
发明内容
为了克服现有技术的不足,本发明提供一种基于异常检测和半监督的超声关键帧自主识别方法。主要解决了现有关键帧识别方法对医学超声有标注数据依赖过大的问题,实现了仅需少量标注视频帧的超声关键帧自主识别。首先,构建常见超声扫查部位的超声视频帧数据集;然后,采用变分自编码器对超声视频帧进行满足正态分布的编码向量提取;接着,通过无监督离群点检测方式进行超声关键帧预筛选;最后,通过标注约束相似图半监督学习方法进行视频帧低秩分解和视频帧编码向量低秩伪逆的关键帧自主识别。本发明采用变分自编码器的无监督离群点检测方式,在完全无标注情况对海量视频帧进行预筛选,能够大幅减少医生对视频帧的标注强度;针对关键帧整体占比较低的不平衡问题,通过无监督离群点检测的预筛选对大量平凡帧进行排除,缓解后续关键帧识别的数据不平衡现象;通过标注约束相似图半监督学习方法,对预筛选后的视频帧在非完全标注情况下进行关键帧识别,进一步降低方法对数据标注的需求。
一种基于异常检测和半监督的超声关键帧自主识别方法,其特征在于步骤如下:
步骤1,构建超声视频帧数据集:利用超声探头对人体不同组织区域进行视频帧采集,得到带位置坐标的超声视频数据集X=[x1,x2,...,xn],其中,xi表示第i个超声视频帧,i=1,2…,n,n为数据集包括的视频帧总数;所述的组织区域包括脖子、胸部、手臂、腹部、后背、腰部和大腿;
步骤2,变分自编码器对超声帧的正态编码向量提取:首先,根据无监督方式的变分自编码器VAE的框架,分别构建编码网络和解码网络,其中,编码网络由三层神经网络构成,其输入为超声视频帧xi,以及从m维的标准正态分布N(0,Im)随机采样的相应随机向量εi,Im为m维单位矩阵,m由用户预设的正整数,取值范围为[2000,10000],i∈[1,…,n],设编码网络的网络参数集合为φ;编码网络的输出为超声视频帧xi为所对应的编码向量zi,(μφ)i为编码向量zi的均值,维度为m×1,(Σφ)i为编码向量zi的协方差矩阵,维度为m×m,正态分布函数N((μφ)i,(Σφ)i)构成编码向量zi的后验概率函数qφ(zi|xi);解码网络也由三层神经网络构成,其输入为编码向量zi,输出为通过编码向量zi对超声视频帧xi进行重建的重建似然函数pθ(xi|zi),i∈[1,…,n],θ表示解码网络的网络参数集合;
然后,通过随机梯度下降法对下式进行优化,得到编码器网络和解码器网络参数φ和θ以及各超声视频帧的编码向量zi,i∈[1,…,n]:
其中,表示似然函数pθ(xi|zi)的对数关于后验概率函数qφ(zi|xi)=N((μφ)i,(Σφ)i)的期望值,DKL{qφ(zi|xi)||N(0,Im)}表示qφ(zi|xi)和N(0,Im)的KL散度;
步骤3,无监督离群点检测方式的超声关键帧预筛选:设定分位数α=0.05,对于数据集中的超声视频帧xi,i=1,2…,n,当其重建概率pi小于分位数α时,判定该视频帧为离群点,并将其作为候选关键帧;否则,判定该输入帧为平凡帧;
所述的重建概率pi按以下过程计算得到:从m维的标准正态分布N(0,Im)进行K次采样,得到超声视频帧xi的相应随机向量j∈[1,…,K],K在[1000,10000]内取值;将xi和作为输入,通过步骤2的编码网络,得到均值(μφ)i、协方差矩阵(Σφ)i和编码向量再将每个编码向量/>代入解码网络,计算出相应的重建似然函数j=1,2,…,K,得到所有K个重建概率;将这K个重建概率的均值,作为超声视频帧xi最终的重建概率,即/>
步骤4,标注约束相似图半监督学习视频帧低秩分解:首先,对于步骤3从n个超声视频帧中所筛选出的L个候选关键帧,从中随机选择l个帧进行标注,得到关系记录矩阵Cl×c,其中,l<L,关系记录矩阵的第i行j列元素[Cl×c]i,j=1表示所选择的第i个候选关键帧属于第j类关键帧,[Cl×c]i,j=0表示所选择的第i个候选关键帧不属于第j类,i=1,2…,l,j=1,2…,c,前c-1个类为不同类型的关键帧类别,第c类为平凡帧类别;
然后,按下式构建用于描述半监督学习标注关系的标注约束矩阵Y:
其中,In-l表示(n-l)维单位矩阵;
接着,构建标注约束低秩分解的半监督学习优化函数如下:
其中,矩阵Z=[z1,z2,...,zn]为由n个超声视频帧通过步骤2得到的编码向量所构成的编码向量矩阵,维度为m×n,矩阵U为从原始m维编码向量特征到k维低秩特征的线性映射矩阵,维度为m×k;矩阵V为潜变量矩阵,其中,vi为k维的非负向量,向量vi中元素的初始值为(0,1)区间内等概率随机产生,i=1,2…,c+(n-l),k是由用户预设的正整数,在[100,2000]内取值;W为n×n维的相似性矩阵,其对角线元素取值均设置为1,非对角线元素wij为第i个编码向量zi和第j个编码向量zj的热核函数权重,按照wij=exp{-||zi-zj||2/σ}计算得到,σ为扩散系数,由用户设定,取值范围为(0,+∞);D为度矩阵,是以相似性矩阵W的每行之和分别作为对角线元素的对角矩阵;λ是相似性正则化项的调谐参数,取值由用户设定,取值范围为(0,+∞);β是线性映射矩阵正则化项的调谐参数,取值由用户设定,取值范围为(0,+∞);
采用交替方向乘子法求解上述半监督学习优化函数,得到矩阵U和V;
其中,zn+1为按照步骤2方法获得的该视频帧的编码向量;
记录预测向量中最大元素值的位置序号in+1,再记录步骤4所得的标注约束矩阵Y中第in+1行中元素值为1的列序号jn+1;若jn+1属于[1,c-1]之内,则将超声视频帧xn+1视为第jn+1类关键帧;若jn+1=c,则将超声视频帧xn+1视为平凡帧。
本发明的有益效果是:(1)针对现有方法对已标注超声图像数量要求极高的问题,采用变分自编码器的无监督离群点检测方式,在完全无标注情况对海量视频帧进行预筛选,大幅减少医生对视频帧的标注强度;(2)针对关键帧整体占比较低的不平衡对关键帧识别所造成的干扰,通过无监督离群点检测的预筛选对大量平凡帧进行排除,缓解后续关键帧识别的数据不平衡现象;(3)为进一步降低医生对关键帧的标注强度,通过标注约束相似图的低秩分解半监督学习,对预筛选后的视频帧在非完全标注情况下进行关键帧识别,从而在标注稀少的情况实现关键帧识别。
附图说明
图1是本发明的基于异常检测和半监督的超声关键帧自主识别方法流程图;
图2是本发明方法原理示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1和2所示,本发明提供了一种基于异常检测和半监督的超声关键帧自主识别方法,其具体实现过程如下:
步骤1:构建常见超声扫查部位的超声视频帧数据集。鉴于机器人在深入诊断前需对病患人体部位中的目标区域进行快速有效的探寻,本发明拟通过超声探头所获取的海量超声视频帧,作为人体目标区域探寻的主要依据。通过招募大量受试者,对每位受试者,通过超声探头对主要扫查的组织区域,包括脖子,胸部,手臂,腹部,后背,腰部和大腿进行超声视频帧采集,设采集得到带位置坐标的超声视频数据集为X=[x1,x2,...,xn],其中,xi表示第i个超声视频帧,i=1,2…,n,n为数据集包括的视频帧总数。这些视频帧将作为后续超声关键帧自主识别的输入训练数据。
步骤2:变分自编码器对超声视频帧分布的正态拟合。对于n个输入的带位置坐标的超声视频帧X=[x1,x2,...,xn],为通过无监督方式的变分自编码器(VariationalAutoEncoder,VAE),提取每个视频帧的编码向量Z=[z1,z2,...,zn],且使所得的编码向量zi服从正态分布。其中,当输入的超声视频帧xi固定时,通过构建编码网络(记编码网络的网络参数集合为φ)可计算出相应编码向量zi的后验概率函数qφ(z|x);同时,当视频帧相应的编码向量zi固定时,通过构建解码网络(记解码网络的网络参数集合为θ)可计算出对原始超声视频帧xi进行重建的似然函数pθ(x|z)。当两者概率越接近时,则说明通过编码和解码网络所得到的重建效果越好。因此,通过最小化两者之间的Kullback-Leibler散度(KL散度)可以实现qφ(z|x)和pθ(x|z)的拟合:
进而,得到超声视频帧xi边缘概率的对数结果:
logp(x)=DKL{qφ(z|x)||pθ(x|z)}+LVAE{φ,θ;x} (6)
此处LVAE{φ,θ;x}为VAE变分下界,其具体的计算方式为:
鉴于所输入的原始超声视频帧x早已确定,因此式(5)中对两者KL散度的最小化,等价于对VAE变分下界的最大化。通过进一步推导约简,可得VAE变分下界的最大化优化函数:
此处的pθ(z)为编码向量z的先验概率。当将编码向量z的先验概率pθ(z)设为标准正态分布N(0,1)时,在上式优化函数中,KL散度项可使得后验概率qφ(z|x)也尽可能逼近标准正态分布,右侧的对数概率期望最大化可使得编码向量z对原始超声帧的重建误差尽可能小。通过上式的优化,可以使得每个超声帧对于VAE网络所得的编码向量,所有向量所对应点共同构成的分布近似服从标准正态分布。
基于上述分析,首先,根据无监督方式的变分自编码器VAE的框架,分别构建编码网络和解码网络,其中,编码网络由三层神经网络构成,其输入为超声视频帧xi,以及从m维的标准正态分布N(0,Im)随机采样的相应随机向量εi,Im为m维单位矩阵,m由用户预设的正整数,取值范围为[2000,10000],i∈[1,…,n],设编码网络的网络参数集合为φ;编码网络的输出为超声视频帧xi为所对应的编码向量zi,(μφ)i为编码向量zi的均值,维度为m×1,(Σφ)i为编码向量zi的协方差矩阵,维度为m×m,正态分布函数N((μφ)i,(Σφ)i)构成编码向量zi的后验概率函数qφ(zi|xi);解码网络也由三层神经网络构成,其输入为编码向量zi,输出为通过编码向量zi对超声视频帧xi进行重建的重建似然函数pθ(xi|zi),i∈[1,…,n],θ表示解码网络的网络参数集合;
然后,通过随机梯度下降法对下式进行优化,得到编码器网络和解码器网络参数φ和θ以及各超声视频帧的编码向量zi,i∈[1,…,n]:
其中,表示似然函数pθ(xi|zi)的对数关于后验概率函数qφ(zi|xi)=N((μφ)i,(Σφ)i)的期望值,DKL{qφ(zi|xi)||N(0,Im)}表示qφ(zi|xi)和N(0,Im)的KL散度。
公式(9)优化完成时,即得到每个超声视频帧的编码向量zi(i∈[1,…,n]),以及编码器网络和解码器网络参数φ和θ。
步骤3:无监督离群点检测方式的超声关键帧预筛选。对于每个待测的输入超声帧xi,为判别该输入帧是否为离群点,首先设置判定离群点的分位数α(设为0.05),即当所输入超声帧的重建概率pi小于该分位数α时,则判定该输入帧为离群点,进而作为关键帧候选;否则,将该输入帧视为平凡帧。
具体地,超声帧xi的重建概率pi按以下过程计算得到:首先,从m维的标准正态分布N(0,Im)进行K次采样,得到超声视频帧xi的相应随机向量j∈[1,…,K],K在[1000,10000]内取值;将xi和/>作为输入,通过步骤2的编码网络,得到均值(μφ)i、协方差矩阵(Σφ)i和编码向量/>再将每个编码向量/>代入解码网络,计算出相应的重建似然函数/>j=1,2,…,K,得到所有K个重建概率;将这K个重建概率的均值,作为超声视频帧xi最终的重建概率,即/>
通过上述方式,可在完全无标注的情况下对关键帧做出预筛选。由于关键帧和平凡帧的占比严重不平衡,所得到的关键帧候选构成关键帧候选集合,在占比上也远小于总体的数据量。因此,仅对关键帧候选集合进行标注,可以极大程度上缓解医生的标注工作强度。
步骤4:标注约束相似图半监督学习视频帧低秩分解。为进一步减轻医生的标注工作量,拟采用半监督学习的方式进行关键帧识别的模型训练。此处,医生仅需从关键帧候选集合中,挑选其中的l张超声视频帧进行标注即可,l<L,L为候选关键帧个数。将l帧对总共c类(包括c-1类关键帧类型和1个平凡帧类型)的从属关系记录至矩阵Cl×c中,即当第i个帧属于第j类标注时[Cl×c]i,j=1,否则为0。进而,结合(n-l)维的单位矩阵,构建用于描述半监督学习标注关系的标注约束矩阵Y:
为确保所学的半监督模型对相似帧的结果具有一致性,针对所有帧的在步骤2所得的编码向量Z=[z1,z2,...,zn],计算各帧的编码向量之间的余弦相似性,构建各帧之间的相似图,图的各节点代表各帧,图的邻边为各帧之间的相似性。由于两两之间相似性所占的存储空间过多,此处仅保留余弦相似性高于0.5的邻边,从而确保相似性矩阵W所描述的相似图的邻边相对稀疏,从而易于计算。将矩阵W的每行之和分别作为对角元素,构成对角阵形式的度矩阵D,两者之差D-W则构成了图拉普拉斯矩阵。通过限制含有标注约束的潜变量YV关于相似性矩阵的拉普拉斯项的大小Tr{VTYT(D-W)YV},可实现所学模型对相似帧的结果一致性保持。
根据上述考虑,采用以下优化函数实现标注约束低秩分解的半监督学习:
采用交替方向乘子法求解上述半监督学习优化函数,对变量U和V引入拉格朗日乘子Ψ和Φ,并对拉格朗日函数L分别对变量U和V进行求导:
当迭代收敛时,可获得半监督模型的参数矩阵U和V。
步骤5:视频帧编码向量低秩伪逆的关键帧自主识别。根据上述在实际扫查中,当获得新的超声视频帧时,通过步骤2中所提到的VAE方法获得该帧的编码向量zn+1,并通过步骤4中所得的矩阵UVT相乘结果的伪逆(VUTUVT)VUT,获得该帧的标注估计
最终寻找出向量中最大元素所对应的标注,若该标注为某类关键帧,则判定新帧为此类关键帧,否则为平凡帧。具体为:记录预测向量/>中最大元素值的位置序号in+1,再记录步骤4所得的标注约束矩阵Y中第in+1行中元素值为1的列序号jn+1;若jn+1属于[1,c-1]之内,则将超声视频帧xn+1视为第jn+1类关键帧;若jn+1=c,则将超声视频帧xn+1视为平凡帧。
通过上述方式,可有效实现标注稀少情况的标注约束低秩分解的半监督学习关键帧识别,从而在扫查过程中自主判别各帧是否为含有标准切面的超声关键帧。
Claims (1)
1.一种基于异常检测和半监督的超声关键帧自主识别方法,其特征在于步骤如下:
步骤1,构建超声视频帧数据集:利用超声探头对人体不同组织区域进行视频帧采集,得到带位置坐标的超声视频数据集X=[x1,x2,...,xn],其中,xi表示第i个超声视频帧,i=1,2…,n,n为数据集包括的视频帧总数;所述的组织区域包括脖子、胸部、手臂、腹部、后背、腰部和大腿;
步骤2,变分自编码器对超声帧的正态编码向量提取:首先,根据无监督方式的变分自编码器VAE的框架,分别构建编码网络和解码网络,其中,编码网络由三层神经网络构成,其输入为超声视频帧xi,以及从m维的标准正态分布N(0,Im)随机采样的相应随机向量εi,Im为m维单位矩阵,m由用户预设的正整数,取值范围为[2000,10000],i∈[1,…,n],设编码网络的网络参数集合为φ;编码网络的输出为超声视频帧xi为所对应的编码向量zi,(μφ)i为编码向量zi的均值,维度为m×1,(Σφ)i为编码向量zi的协方差矩阵,维度为m×m,正态分布函数N((μφ)i,(Σφ)i)构成编码向量zi的后验概率函数qφ(zi|xi);解码网络也由三层神经网络构成,其输入为编码向量zi,输出为通过编码向量zi对超声视频帧xi进行重建的重建似然函数pθ(xi|zi),i∈[1,…,n],θ表示解码网络的网络参数集合;
然后,通过随机梯度下降法对下式进行优化,得到编码器网络和解码器网络参数φ和θ以及各超声视频帧的编码向量zi,i∈[1,…,n]:
其中,表示似然函数pθ(xi|zi)的对数关于后验概率函数qφ(zi|xi)=N((μφ)i,(Σφ)i)的期望值,DKL{qφ(zi|xi)||N(0,Im)}表示qφ(zi|xi)和N(0,Im)的KL散度;
步骤3,无监督离群点检测方式的超声关键帧预筛选:设定分位数α=0.05,对于数据集中的超声视频帧xi,i=1,2…,n,当其重建概率pi小于分位数α时,判定该视频帧为离群点,并将其作为候选关键帧;否则,判定该输入帧为平凡帧;
所述的重建概率pi按以下过程计算得到:从m维的标准正态分布N(0,Im)进行K次采样,得到超声视频帧xi的相应随机向量K在[1000,10000]内取值;将xi和/>作为输入,通过步骤2的编码网络,得到均值(μφ)i、协方差矩阵(Σφ)i和编码向量再将每个编码向量/>代入解码网络,计算出相应的重建似然函数得到所有K个重建概率;将这K个重建概率的均值,作为超声视频帧xi最终的重建概率,即/>
步骤4,标注约束相似图半监督学习视频帧低秩分解:首先,对于步骤3从n个超声视频帧中所筛选出的L个候选关键帧,从中随机选择l个帧进行标注,得到关系记录矩阵Cl×c,其中,l<L,关系记录矩阵的第i行j列元素[Cl×c]i,j=1表示所选择的第i个候选关键帧属于第j类关键帧,[Cl×c]i,j=0表示所选择的第i个候选关键帧不属于第j类,i=1,2…,l,j=1,2…,c,前c-1个类为不同类型的关键帧类别,第c类为平凡帧类别;
然后,按下式构建用于描述半监督学习标注关系的标注约束矩阵Y:
其中,In-l表示(n-l)维单位矩阵;
接着,构建标注约束低秩分解的半监督学习优化函数如下:
其中,矩阵Z=[z1,z2,...,zn]为由n个超声视频帧通过步骤2得到的编码向量所构成的编码向量矩阵,维度为m×n,矩阵U为从原始m维编码向量特征到k维低秩特征的线性映射矩阵,维度为m×k;矩阵V为潜变量矩阵,其中,vi为k维的非负向量,向量vi中元素的初始值为(0,1)区间内等概率随机产生,i=1,2…,c+(n-l),k是由用户预设的正整数,在[100,2000]内取值;W为n×n维的相似性矩阵,其对角线元素取值均设置为1,非对角线元素wij为第i个编码向量zi和第j个编码向量zj的热核函数权重,按照wij=exp{-||zi-zj||2/σ}计算得到,σ为扩散系数,由用户设定,取值范围为(0,+∞);D为度矩阵,是以相似性矩阵W的每行之和分别作为对角线元素的对角矩阵;λ是相似性正则化项的调谐参数,取值由用户设定,取值范围为(0,+∞);β是线性映射矩阵正则化项的调谐参数,取值由用户设定,取值范围为(0,+∞);
采用交替方向乘子法求解上述半监督学习优化函数,得到矩阵U和V;
其中,zn+1为按照步骤2方法获得的该视频帧的编码向量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010282.3A CN112908465B (zh) | 2021-01-04 | 2021-01-04 | 基于异常检测和半监督的超声关键帧自主识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010282.3A CN112908465B (zh) | 2021-01-04 | 2021-01-04 | 基于异常检测和半监督的超声关键帧自主识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908465A CN112908465A (zh) | 2021-06-04 |
CN112908465B true CN112908465B (zh) | 2023-06-02 |
Family
ID=76112188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110010282.3A Active CN112908465B (zh) | 2021-01-04 | 2021-01-04 | 基于异常检测和半监督的超声关键帧自主识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908465B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021204020B3 (de) * | 2021-04-22 | 2022-08-25 | Siemens Healthcare Gmbh | Verfahren zum Übertragen einer Mehrzahl von medizinischen Bildern |
CN115527151B (zh) * | 2022-11-04 | 2023-07-11 | 南京理工大学 | 一种视频异常检测方法、系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1793350A1 (en) * | 2005-12-01 | 2007-06-06 | Medison Co., Ltd. | Ultrasound imaging system and method for forming a 3D ultrasound image of a target object |
CN103678483A (zh) * | 2013-10-24 | 2014-03-26 | 江苏大学 | 基于自适应概率超图和半监督学习的视频语义分析方法 |
WO2017074562A1 (en) * | 2015-10-28 | 2017-05-04 | Intel Corporation | Automatic video summarization |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110413838A (zh) * | 2019-07-15 | 2019-11-05 | 上海交通大学 | 一种无监督视频摘要模型及其建立方法 |
CN111539445A (zh) * | 2020-02-26 | 2020-08-14 | 江苏警官学院 | 一种半监督特征融合的对象分类方法及系统 |
-
2021
- 2021-01-04 CN CN202110010282.3A patent/CN112908465B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1793350A1 (en) * | 2005-12-01 | 2007-06-06 | Medison Co., Ltd. | Ultrasound imaging system and method for forming a 3D ultrasound image of a target object |
CN103678483A (zh) * | 2013-10-24 | 2014-03-26 | 江苏大学 | 基于自适应概率超图和半监督学习的视频语义分析方法 |
WO2017074562A1 (en) * | 2015-10-28 | 2017-05-04 | Intel Corporation | Automatic video summarization |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110413838A (zh) * | 2019-07-15 | 2019-11-05 | 上海交通大学 | 一种无监督视频摘要模型及其建立方法 |
CN111539445A (zh) * | 2020-02-26 | 2020-08-14 | 江苏警官学院 | 一种半监督特征融合的对象分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
"Key Frame Extraction in the Summary Space";Xuelong Li 等;《IEEE TRANSACTIONS ON CYBERNETICS》;第第48卷卷(第第6期期);全文 * |
基于顺序验证提取关键帧的行为识别;张舟;吴克伟;高扬;;智能计算机与应用(03);全文 * |
深度学习视角下视频关键帧提取与视频检索研究;苏筱涵;;网络安全技术与应用(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112908465A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Tensorizing GAN with high-order pooling for Alzheimer’s disease assessment | |
Pu et al. | Fetal cardiac cycle detection in multi-resource echocardiograms using hybrid classification framework | |
Ahirwar | Study of techniques used for medical image segmentation and computation of statistical test for region classification of brain MRI | |
CN107578416B (zh) | 一种由粗到精级联深度网络的心脏左心室全自动分割方法 | |
CN103714536B (zh) | 基于稀疏表示的多模态磁共振图像的分割方法及装置 | |
Sridar et al. | Decision fusion-based fetal ultrasound image plane classification using convolutional neural networks | |
Stier et al. | Deep learning of tissue fate features in acute ischemic stroke | |
CN112908465B (zh) | 基于异常检测和半监督的超声关键帧自主识别方法 | |
Hussain et al. | Cascaded regression neural nets for kidney localization and segmentation-free volume estimation | |
CN104881680A (zh) | 一种基于二维特征和三维特征融合的阿尔茨海默病及轻度认知功能障碍识别方法 | |
Chen et al. | Computer‐Aided Diagnosis and Quantification of Cirrhotic Livers Based on Morphological Analysis and Machine Learning | |
Wang et al. | Joint segmentation and landmark localization of fetal femur in ultrasound volumes | |
Jahren et al. | Estimation of end-diastole in cardiac spectral doppler using deep learning | |
Song et al. | Feature extraction processing method of medical image fusion based on neural network algorithm | |
Hu et al. | Automatic detection of melanins and sebums from skin images using a generative adversarial network | |
JP7244974B1 (ja) | 特徴分離に基づく病理画像特徴抽出器の訓練方法、訓練装置、電子機器、記憶媒体及び病理画像分類システム | |
Kulkarni et al. | Fully automatic segmentation of LV from echocardiography images and calculation of ejection fraction using deep learning | |
Mandour | An Exhaustive Review of Neutrosophic Logic in Addressing Image Processing Issues | |
CN115471512A (zh) | 一种基于自监督对比学习的医学影像分割方法 | |
Dong et al. | Segmentation of pulmonary nodules based on improved UNet++ | |
Mehrotra et al. | Neural network and wavelet-based study on classification and analysis of brain tumor using MR images | |
Liu et al. | Pool-UNet: Ischemic Stroke Segmentation from CT Perfusion Scans Using Poolformer UNet | |
Dai et al. | Multimodal Brain Disease Classification with Functional Interaction Learning from Single fMRI Volume | |
Rezaei et al. | Deep learning for medical image analysis | |
Ramya et al. | Classification of Amniotic Fluid Level Using Bi-LSTM with Homomorphic filter and Contrast Enhancement Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Huang Qinghua Inventor after: Xi Jianing Inventor after: Li Xuelong Inventor before: Xi Jianing Inventor before: Huang Qinghua Inventor before: Li Xuelong |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |