CN110188754B - 图像分割方法和装置、模型训练方法和装置 - Google Patents

图像分割方法和装置、模型训练方法和装置 Download PDF

Info

Publication number
CN110188754B
CN110188754B CN201910455150.4A CN201910455150A CN110188754B CN 110188754 B CN110188754 B CN 110188754B CN 201910455150 A CN201910455150 A CN 201910455150A CN 110188754 B CN110188754 B CN 110188754B
Authority
CN
China
Prior art keywords
affine transformation
sample
video frame
information
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910455150.4A
Other languages
English (en)
Other versions
CN110188754A (zh
Inventor
陈思宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910455150.4A priority Critical patent/CN110188754B/zh
Publication of CN110188754A publication Critical patent/CN110188754A/zh
Priority to PCT/CN2020/092356 priority patent/WO2020238902A1/zh
Application granted granted Critical
Publication of CN110188754B publication Critical patent/CN110188754B/zh
Priority to US17/395,388 priority patent/US11900613B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T3/02
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30048Heart; Cardiac

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像分割方法和装置、模型训练方法和装置,其中图像分割方法包括:获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。本申请提供的方案可以提高图像分割准确性。

Description

图像分割方法和装置、模型训练方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像分割方法和装置、模型训练方法和装置。
背景技术
对图像或视频进行语义分割(semantic segmentation)是计算机视觉研究领域的热点之一,语义分割技术是指计算机设备将图片中属于一大类的区域都分割出来并给出其类别信息。
传统的对视频进行语义分割的方式,需要对视频的每一帧进行关键点预测,通过模板,根据每一帧的关键点计算每一帧图像与模板的差异来获取变换参数,基于该变换参数进行仿射(Affine)变换得到ROI(region of interest,感兴趣区域),随后在ROI上进行目标分割。然而,目前的语义分割方式,在后的视频帧的关键点的预测依赖于在前的视频帧的目标分割结果,首帧的预测偏差会直接导致后续一系列视频帧的定位偏移,导致对目标对象的语义分割准确性低。
发明内容
基于此,有必要针对对目标对象进行语义分割的准确性低的技术问题,提供一种目标分割方法和装置、模型训练方法和装置。
一种图像分割方法,包括:
获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;
依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;
对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;
根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
一种图像分割装置,所述装置包括:
获取模块,用于获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;
仿射变换模块,用于依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;
特征提取模块,用于对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
语义分割模块,用于基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;
参数修正模块,用于根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;
依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;
对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;
根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;
依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;
对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;
根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
上述图像分割方法、装置、计算机可读存储介质和计算机设备,依据在前的视频帧所传递的历史仿射变换信息,对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。在前的视频帧所传递的历史仿射变换信息是经过修正后的参数,这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割,可以准确得到当前帧中的目标对应的分割结果。并且,根据该特征图对历史仿射变换信息进行修正,将修正后的仿射变换信息传递至在后的视频帧,以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用,减少了错误定位给后续的分割处理所带来误差,大大提高了对视频进行语义分割处理的准确性。
一种模型训练方法,包括:
获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
一种模型训练装置,所述装置包括:
样本获取模块,用于获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
确定模块,用于将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
构建模块,用于依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
输出模块,用于通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
所述确定模块还用于根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
所述构建模块还用于依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
所述构建模块还用于根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
模型参数调整模块,用于依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
上述模型训练方法、装置、计算机可读存储介质和计算机设备,在模型训练过程中一方面引入仿射变换监督信息,也就是标准仿射变换信息,以提高方位预测的准确性;另一方面可通过对预测仿射变换信息进行纠正训练,从而减少错误定位带来的分割误差。训练时将仿射损失函数、仿射变换信息修正损失函数、及分割损失函数叠加一起优化,使得各个部分在训练过程中相互影响,相互提升,这样训练得到的目标分割模型具有准确的视频语义分割性能。
附图说明
图1为一个实施例中目标分割方法和/或模型训练方法的应用环境图;
图2为一个实施例中图像分割方法的流程示意图;
图3为一个实施例中视频帧序列的结构示意图;
图4为一个实施例中获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息步骤的流程示意图;
图5(a)为一个实施例中目标分割模型的整体框架图;
图5(b)为一个实施例中对心脏超声检测视频中的左心室进行目标分割的目标分割模型的架构示意图;
图6为一个实施例中目标分割模型的训练步骤的流程示意图;
图7为一个实施例中模板的获取流程图;
图8为一个实施例中模型训练方法的流程示意图;
图9为一个实施例中在模型训练过程中目标分割模型的架构示意图;
图10为一个具体实施例中图像分割方法的流程示意图;
图11为一个实施例中图像分割装置的结构框图;
图12为另一个实施例中图像分割装置的结构框图;
图13为一个实施例中模型训练装置的结构框图;
图14为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中图像分割方法和/或模型训练方法的应用环境图。参照图1,该图像分割方法和/或模型训练方法应用于语义分割系统。该语义分割系统包括采集器110和计算机设备120。采集器110和计算机设备120可以通过网络连接,也可以通过传输线连接。计算机设备120具体可以是终端或服务器,其中,终端具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
采集器110可以实时采集视频,将视频传输至计算机设备120,计算机设备120可以获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;依据历史仿射变换信息对当前帧进行仿射变换,得到与当前帧对应的候选区域图像;对候选区域图像进行特征提取,得到候选区域图像对应的特征图;基于特征图进行语义分割,得到当前帧中的目标对应的分割结果;根据特征图对历史仿射变换信息进行修正,得到更新的仿射变换信息,并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
需要说明的是,上述的应用环境只是一个示例,在一些实施例中,计算机设备120可以直接获取视频,对视频对应的视频帧序列中的各个视频帧按照上述步骤进行目标分割。
如图2所示,在一个实施例中,提供了一种图像分割方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图2,该图像分割方法具体包括如下步骤:
S202,获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息。
其中,视频帧序列是多于一帧的视频帧按各视频帧所对应的生成时序而构成的序列。视频帧是构成视频的基本单位,一段视频可以包括多个视频帧。视频帧序列具体可以是实时采集的视频帧所构成的序列,例如可以是通过采集器的摄像头实时获取的视频帧序列,也可以是存储的视频对应的视频帧序列。当前帧是当前处理的视频帧;在前的视频帧是生成时间在当前帧之前的视频帧,具体可以是当前帧的前一帧或当前帧的第前几帧的视频帧,也可称作当前帧的历史视频帧。
历史仿射变换信息是在前的视频帧所传递的用于当前帧进行仿射变换的仿射变换信息。仿射变换,又称仿射映射,是指对一个空间向量矩阵进行线性变换后再进行平移变换得到另一个空间向量矩阵的过程,线性变换包括卷积运算。仿射变换信息是用于进行仿射变换所需的信息,具体可以是仿射变换参数、或用于指示如何进行仿射变换的指令。其中,仿射变换参数是指图像进行线性变换或平移变换所需的参考参数,比如旋转角度(angle)、横轴方向的平移像素(Shiftx),纵轴方向的平移像素(Shifty)以及缩放系数(Scale)等信息。
具体地,计算机设备可以在对视频进行检测的过程中,获取当前要处理的当前帧以及在前的视频帧所传递的历史仿射变换信息。其中,在前的视频帧所传递的历史仿射变换信息,是指依据对在前的视频帧执行该图像分割方法时所得到的已经修正的、且用于当前帧进行仿射变换的参数。计算机设备具体可通过以下方式得到历史仿射变换信息:计算机设备在对在前的视频帧进行目标分割时,可根据在前的视频帧所对应的特征图,对在前的视频帧对应的仿射变换信息进行修正,得到更新的仿射变换信息,该更新的仿射变换信息即可作为当前帧的历史仿射变换信息。
可以理解,在对整个视频帧序列进行目标分割的过程中,计算机设备对当前帧执行图像分割方法时,同样可根据当前帧的特征图对该历史仿射变换信息进行修正,得到更新的仿射变换信息,并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。这样,在对视频帧序列进行目标分割时,可不断修正并传递仿射变换信息。这样可对当前帧的定位起到纠正作用,减少了错误定位给后续的分割处理所带来误差,以提高对视频进行语义分割处理的准确性。
可以理解,本申请所使用的“当前帧”用于描述当前本方法所处理的视频帧,“当前帧”是一个相对变化的视频帧,比如在处理当前帧的下一个视频帧时,则可以将该下一个视频帧作为新的“当前帧”。
在一个实施例中,计算机设备可将当前帧的前一帧所传递的历史仿射变换信息作为当前帧对应的仿射变换信息,以进行仿射变换。相应的,下一帧视频帧可将当前帧所传递的历史仿射变换信息作为下一帧对应的仿射变换信息。依次类推,每一帧视频帧均可将前一帧所传递的历史仿射变换信息作为该帧对应的仿射变换信息以进行仿射变换。
可以理解,在另一些实施例中,计算机设备还可将当前帧的前第N(N为正整数,且N大于1)帧所传递的历史仿射变换信息作为当前帧对应的仿射变换信息,以进行仿射变换。相应的,下一帧视频帧可将当前帧的前第N-1帧所传递的历史仿射变换信息作为下一帧对应的仿射变换信息。依次类推,每一帧视频帧均可将前第N帧所传递的历史仿射变换信息作为该帧对应的仿射变换信息以进行仿射变换。
举例说明,参考图3,对于视频帧序列[F1,F2,F3,F4,F5,F6],计算机设备当前所处理的当前帧为F4,那么当前帧F4可使用在前的视频帧F1所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换;那么当前帧F4可使用在前的视频帧F1所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换;视频帧F5可使用在前的视频帧F2所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换;视频帧F6可使用在前的视频帧F3所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换等等依次类推。
在一个实施例中,当当前帧为初始视频帧时,步骤S202,也就是获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息的步骤具体包括以下步骤:
S402,获取视频帧序列中的初始视频帧。
其中,初始视频帧是视频帧序列中开始的视频帧。初始视频帧具体可以是视频帧序列中的第一帧视频帧,也可以是视频帧序列中最靠前的前N(N为正整数,且N大于1)帧视频帧。
可以理解,当计算机设备在执行该图像分割方法,每后一视频帧的仿射变换信息会参考前一帧视频帧所传递的仿射变换信息时,则该初始视频帧为视频帧序列中最开始的视频帧。当计算机设备在执行该图像分割方法,计算机设备将当前帧的前第N(N为正整数,且N大于1)帧所传递的历史仿射变换信息作为当前帧对应的仿射变换信息时,则从该视频帧序列的第一帧开始至前第N帧视频帧均可称作初始视频帧。
S404,通过第一卷积神经网络提取初始视频帧的图像特征。
其中,卷积神经网络(Convolutional Neural Network,简称CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。卷积神经网络中的隐含层内的卷积核参数共享和层间连接的稀疏性的特定,使得卷积神经网络能够以较小的计算量对格点化特征(例如像素和音频)进行学习。卷积神经网络通常包括卷积层和池化层,可对输入的图像进行卷积和池化处理,以将原始数据映射到隐层特征空间。而图像特征是通过卷积神经网络处理后所得到的能够表示该初始视频帧的图像信息的空间向量矩阵。
具体地,该图像分割方法通过目标分割模型执行,计算机设备可将视频帧序列输入至目标分割模型中,通过目标分割模型中的第一卷积神经网络对初始视频帧进行处理,提取初始视频帧中的特征,得到相应的图像特征。S406,将图像特征输入至包括至少一个输出通道的第一全连接网络,并通过第一全连接网络对图像特征进行处理,通过至少一个输出通道输出仿射变换信息。
全连接网络(Fully Connected Netwok)也可称作全连接层(fully connectedlayers,FC),全连接层在整个卷积神经网络中起到“分类器”的作用。全连接层可将卷积层和池化层所学到的图像特征映射到样本标记空间。
具体地,计算机设备可将图像特征输入至包括至少一个输出通道的第一全连接网络,并通过该第一全连接网络对图像特征进行处理,通过至少一个输出通道输出仿射变换信息。
在一个实施例中,目标分割模型包括区域仿射网络(Region Affine Networks,简称RAN),该RAN网络包括卷积神经网络和全连接网络。具体地,计算机设备可在RAN网络中输入视频帧序列中的初始视频帧,通过轻量级MobileNet-V2网络(轻量化网络)作为Generator(网络生成器)抽取初始视频帧的图像特征,再通过一个输出通道(channel)为4的全连接网络回归出出4个仿射变换参数,这4个参数分别为旋转角度、横轴方向的平移像素,纵轴方向的平移像素以及缩放系数。
S408,将输出的仿射变换信息作为初始视频帧对应的历史仿射变换信息。
具体地,计算机设备可将第一全连接网络所输出的仿射变换信息作为该初始视频帧所对应的仿射变换信息,并依据该仿射变换信息进行仿射变换,得到与初始视频帧对应的候选区域图像。
可以理解,对于初始视频帧而言,初始视频帧并不存在与之对应的可参考的在前的视频帧,因而也没有在前的视频帧所传递的历史仿射变换信息供其使用。对于如何确定初始视频帧的仿射变换信息是非常重要的,只有初始视频帧的仿射变换信息准确了,由初始视频帧向后传递的历史仿射变换信息的准确性才会高。
在一个实施例中,目标分割模型在训练时可引入与仿射变换信息对应的监督信息作为训练样本进行模型训练。其中,与仿射变换对应的监督信息具体可以是与视频帧样本对应的标准仿射变换信息。该标准仿射变换信息是指将视频帧样本转换成模板(Template)所需要的仿射变换信息。该标准仿射变换信息具体可通过视频帧样本所包括的样本关键点位置信息和模板所包括的模板关键点位置信息进行反射相似度计算所得到。其中,具体关于该模板是如何获得的、以及目标分割模型的具体训练过程,在后续的模型训练方法中会进行详细的介绍。
这样,通过引入与仿射变换信息对应的监督信息来训练目标分割模型,可使得该目标分割模型中的区域仿射网络学习到模板的信息,从而可准确地回归出初始视频帧相对于模板的仿射变换信息。
上述实施例中,通过卷积神经网络提取初始视频帧的图像特征,并通过第一全连接网络对图像特征进行处理,可预测出与初始视频帧对应的、且准确性更高的仿射变换信息,从而有助于提高后续处理中对目标进行分割的准确性。
S204,依据历史仿射变换信息对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。
具体地,计算机设备依据历史仿射变换信息对当前帧进行仿射变换,具体可以是依据仿射变换信息对当前帧中的目标所对应的位置、尺寸及方位等进行了纠正,得到对应的候选区域图像。其中,候选区域图像也可称作感兴趣区域ROI。
在一个实施例中,计算机设备可将视频帧序列输入至目标分割网络,通过该目标分割模型执行该图像分割方法。其中,目标分割模型是用于对视频中的目标对象进行语义分割的模型,具体可以是机器学习模型。该目标分割模型可包括多个网络结构,不同的网络结构包括各自网络所对应的模型参数,不同的网络结构用于执行不同的动作。
在一个实施例中,计算机设备可将视频帧序列输入至目标分割模型中,通过目标分割模型所包括的RAN网络,依据历史仿射变换信息对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。
S206,对候选区域图像进行特征提取,得到候选区域图像对应的特征图。
其中,特征图又称feature map,是通过卷积神经网络对图像进行卷积和/或池化处理后所得到的空间向量矩阵,可用于表示该图像的图像信息。具体地,计算机设备可对候选区域图像进行特征提取,得到候选区域图像对应的特征图。
在一个实施例中,计算机设备可通过目标分割模型中的第二卷积神经网络,对候选区域图像进行特征提取,得到候选区域图像对应的特征图。该卷积神经网络具体可以是MobileNet-V2、VGG(Visual Geometry Group视觉集合组)网络、或ResNet(能效评估系统)网络等。
其中,第二卷积神经网络可以和第一卷积神经网络共享参数,因而可以认为是相同的卷积神经网络,此处用“第一”“第二”主要是用于区分处于目标分割模型中的不同位置处、且用于处理不同数据的卷积神经网络。
在一个实施例中,对候选区域图像进行特征提取所得到的特征图融合了视频帧序列所包括的光流信息。
其中,光流信息是图像的运动变化信息,在本申请实施例中可用于表示视频帧序列中各像素点在视频帧中移动的信息,包括视频画面中待检测目标的运动变化信息。在本申请实施例中,前一帧视频帧所对应的光流信息具体可通过前一帧视频帧中的各像素所对应的位置、及当前帧中各像素所对应的位置来确定。
在一个实施例中,可假定相邻两帧视频帧中目标对应的变化是较为微小的,因而当前帧中目标对象所在的目标分割区域可以通过前一帧视频帧所对应的光流信息确定。比如,当前帧中目标对象所在的目标分割区域,可根据光流信息,以及前一帧视频帧中目标对象所在的目标分割区域共同预测。
为使得目标分割模型中的卷积神经网络在对候选区域图像进行特征提取时,可以融合对应的光流信息,使得提取出的特征图融合光流信息,那么在对目标分割模型的卷积神经网络进行训练时,可引入对抗网络(discriminator)来共同训练。
在模型训练阶段,对于当前帧所对应的特征图应该有两种特征形式:一种是通过第二卷积神经网络基于当前帧所对应的候选区域图像而提取的特征图,可称作CNN特征;另一种是通过光流信息基于上一帧视频帧的特征图进行变换而得到的特征图,可称作光流特征。为此,可设计对抗网络将这两种信息同时引入。也就是说,在模型训练过程中,可分别将CNN特征和光流特征中的任意一种输入至对抗网络中,对抗网络判断当前输入的特征是属于光流特征还是CNN特征。通过不断调整第二卷积神经网络的参数和对抗网络的参数,使得对抗网络无法分辨CNN特征和光流特征的区别,那么此时的第二卷积神经网络就可以生成融合了光流信息的特征图了。其中,关于对抗网络和第二卷积神经网络之间更详细的训练过程,在模型训练阶段的实施例中将会有详细的描述。
上述实施例中,对候选区域图像进行特征提取所得到的特征图融合了视频帧序列所包括的光流信息,可避免分割结果出现误差,从而产生具有时序渐进性的合理分割结果。
S208,基于特征图进行语义分割,得到当前帧中的目标对应的分割结果。
其中,语义分割是指计算机设备将图片中属于一大类的区域都分割出来并给出其类别信息。分割结果具体可以是当前帧中属于目标对象的像素点构成的目标分割区域。
具体地,计算机设备可对特征图进行像素维度的检测,也就是基于候选区域图像所对应的特征图,对候选区域图像中每个像素进行检测,输出当前帧中的目标对应的检测结果。在一个实施例中,计算机设备可识别候选区域图像中各个像素各自所对应的类别,根据对应目标类别的各像素点构成目标区域。也就是将目标对象从候选区域图像中区分开来。
在一个实施例中,计算机设备可以通过目标分割模型中的全卷积神经网络对候选区域图像特征进行语义分割,输出当前帧中的目标对应的检测结果。
在一个实施例中,步骤S208,也就是基于特征图进行语义分割,得到当前帧中的目标对应的分割结果的步骤具体包括:通过全卷积神经网络对特征图进行上采样处理,得到中间图像;通过全卷积神经网络对中间图像中的各像素分别进行像素级分类,得到各像素所对应的类别;依据各像素所对应的类别,输出对当前帧中的目标进行语义分割的分割结果。
其中,全卷积神经网络(Fully Convolutional Networks,简称FCN)通常用于对输入图像进行逐像素分类。全卷积神经网络通常可采用反卷积层对最后一个卷积层的feature map进行上采样(Upsample),使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
像素级是指像素维度;像素级分类是指在像素维度上进行分类处理,是一种精细的分类方式。对中间图像中的各像素分别进行像素级分类,也可称作对中间图像进行像素级的分类,是对中间图像中的每个像素都产生一个预测,进而得到中间图像中每个像素各自所对应的类别。
具体地,计算机设备可通过目标分割模型中的全卷积神经网络对当前帧所对应的特征图进行上采样处理,得到中间图像,通过全卷积神经网络对中间图像中的各像素分别进行像素级分类,得到各像素所对应的类别。比如若候选区域图像中属于目标对象的像素点的类别为1,不属于目标对象的像素点的类别为0,则候选区域图像所有类别为1的像素点所构成的区域为目标分割区域,据此可将目标区域从候选区域图像中分割出来。比如通过红色或绿色突出显示目标分割区域。
在一个实施例中,依据各像素所对应的类别,输出对当前帧中的目标进行语义分割的分割结果的步骤具体包括:确定中间图像中对应目标类别的像素;从中间图像中,分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。
在一个实施例中,在对该目标分割模型的全卷积神经网络进行训练时,可依据视频帧样本、及对视频帧样本中的目标对象进行标注的样本标注信息来训练该全卷积神经网络,训练得到的该全卷积神经网络具备对像素进行分类的能力。其中,对视频帧样本中的目标对象进行标注的样本标注信息,具体可以是将对应目标对象的像素标记为“1”,将其他的像素标记为“0”,以此来区分目标对象个非目标对象。
在一个实施例中,计算机设备可通过目标分割模型中的全卷积神经网络确定中间图像中对应目标类别的像素。并对属于目标类别的像素进行标注,比如将标注成红色或绿色等,以此从中间图像中,分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。这样可实现在当前帧中准确地定位到目标对象,并可以准确地确定目标对象在当前帧中所占的面积大小。
在一个实施例中,计算机设备可以根据每一个视频帧的检测结果在视频帧中分割显示目标对象,以实现在连续的视频帧构成的视频中对目标进行自动分割的效果。
上述实施例中,通过全卷积神经网络对特征图进行像素级分类,可得到各像素各自所对应的类别,从而依据各像素所对应的类别,可从像素级别准确地确定出当前帧中的目标所在的目标分割区域,大大提高了对目标对象的分割能力。
S210,根据特征图对历史仿射变换信息进行修正,得到更新的仿射变换信息,并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
其中,对历史仿射变换信息进行修正是指调整历史仿射变换参数,得到更新的仿射变换参数。具体地,计算机设备可根据特征图对历史仿射变换信息进行修正,得到更新的仿射变换信息,该更新的仿射变换信息可作为视频帧序列中在后的视频帧所对应的仿射变换信息。
在一个实施例中,计算机设备可通过目标分割模型所包括的第二全连接网络,对当前帧所对应的特征图进行处理,对该仿射变换信息进行修正,得到更新的仿射变换信息。
在一个实施例中,该目标分割模型所包括的第二全连接网络可被训练成输出仿射变换差异结果,再依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息。计算机设备则可直接将该更新的仿射变换信息传递至在后的视频帧,供在后的视频帧进行仿射变换使用。
在一个实施例中,步骤S210,也就是根据特征图对历史仿射变换信息进行修正,得到更新的仿射变换信息,并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息的步骤具体包括以下步骤:通过包括至少一个输出通道的第二全连接网络,对特征图进行处理,通过至少一个输出通道输出仿射变换差异结果;依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息;将当前帧所传递的更新的仿射变换信息,作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
其中,第二全连接网络和第一全连接网络可以是相同的全连接网络也可以是不同的全连接网络。其中,相同的全连接网络是指第一全连接网络和第二全连接网络的参数共享;不同的全连接网络是指第一全连接网络和第二全连接网络的具有各自的模型参数。
具体地,该目标分割模型所包括的第二全连接网络可被训练成输出仿射变换差异结果。在这种情况下,可通过目标分割模型中的第二全连接网络对与当前帧对应的特征图进行处理,回归出仿射变换差异结果。该差异结果具体可以是进行归一化处理后的差异率。
进一步地,计算机设备可依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息。比如,当仿射变换信息为仿射变换参数时,计算机设备可通过以下公式计算得到更新的仿射变换信息:
Figure BDA0002076378290000171
其中,
Figure BDA0002076378290000172
表示当前帧所传递的更新的仿射变换参数;
Figure BDA0002076378290000173
表示仿射变换差异结果;
Figure BDA0002076378290000174
表示当前帧所对应的仿射变换参数,也就是在前的视频帧所传递的历史仿射变换参数。
进而,计算机设备可将计算得到的更新的仿射变换信息,作为当前帧所传递的历史仿射变换信息,也就是将该更新的仿射变换信息传递至视频帧序列中在后的视频帧,以供在后的视频帧依据该更新的仿射变换信息进行仿射变换。
可以理解,当目标分割模型所包括的第二全连接网络被训练成输出仿射变换差异结果时,该第二全连接网络在训练过程中的监督信息具体可以是标准仿射变换信息和当前帧所对应的仿射变换信息的差异信息。
上述实施例中,通过第二全连接网络对特征图进行处理,以纠正当前帧所使用的仿射变换信息,得到更新的仿射变换信息。更新的仿射变换信息用于向后传递,这样可对当前帧的定位起到纠正作用,减少了错误定位带来的分割误差。
在一个实施例中,该目标分割模型所包括的第二全连接网络可被训练成输出经纠正过的更新的仿射变换信息。计算机设备则可直接将该更新的仿射变换信息传递至在后的视频帧,供在后的视频帧进行仿射变换使用。
可以理解,当目标分割模型所包括的第二全连接网络被训练成输出经纠正过的更新的仿射变换信息时,该第二全连接网络在训练过程中的监督信息具体可以是当前帧所对应的标准仿射变换信息。
上述图像分割方法,依据在前的视频帧所传递的历史仿射变换信息,对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。在前的视频帧所传递的历史仿射变换信息是经过修正后的参数,这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割,可以准确得到当前帧中的目标对应的分割结果。并且,根据该特征图对历史仿射变换信息进行修正,将修正后的仿射变换信息传递至在后的视频帧,以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用,减少了错误定位给后续的分割处理所带来误差,大大提高了对视频进行语义分割处理的准确性。
在一个实施例中,该图像分割方法通过目标分割模型执行,该图像分割方法具体包括以下步骤:获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;通过目标分割模型中的区域仿射网络,并依据历史仿射变换信息对当前帧进行仿射变换,得到与当前帧对应的候选区域图像;通过目标分割模型中的第二卷积神经网络,对候选区域图像进行特征提取,得到候选区域图像对应的特征图;通过目标分割模型中的全卷积神经网络,对特征图进行语义分割处理,得到当前帧中的目标对应的分割结果;通过目标分割模型中的第二全连接网络对历史仿射变换信息进行修正,得到更新的仿射变换信息,并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
这样,通过已训练好的目标分割模型可自动化、且准确的分割出视频中的目标对象,具有极强的实时性。并且端到端网络工程化程度高,极易迁移到移动设备中,自适应能力高。
如图5(a)所示,为一个实施例中目标分割模型的整体框架图。参照图5(a),整体框架图包括区域仿射网络(RAN)510、第二卷积神经网络(generator)520、全卷积神经网络530以及第二全连接网络540。其中区域仿射网络510包括第一卷积神经网络(generator)512和第一全连接网络514。
在对视频中的目标对象进行目标分割时,按帧输入视频帧序列中的各个视频帧,若当前帧为初始视频帧,则通过第一卷积神经网络512对初始视频帧进行特征提取,得到图像特征,并将图像特征输入至第一全连接网络514中回归出当前的仿射变换信息。通过区域仿射网络510依据当前的仿射变换信息对初始视频帧进行仿射变换,得到对应的候选区域图像(ROI)。再通过第二卷积神经网络520对候选区域图像进行特征提取,得到候选区域图像对应的特征图。该特征图进入两个任务分支,在分割任务分支中,通过全卷积神经网络530进行上采样处理后得到分割预测图,输出分割结果;在定位任务分支中,通过第二全连接网络回归出仿射变换差异结果。再依据仿射变换差异结果纠正当前帧所对应的仿射变换信息,得到更新的仿射变换信息,将该更新的仿射变换信息传递至下一帧。
如图5(a)所示,在下一帧视频帧中,RAN网络依据更新的仿射变换信息对下一帧视频帧进行仿射变换,得到下一帧视频帧所对应的ROI区域,并通过第二卷积神经网络520对候选区域图像进行特征提取,得到候选区域图像对应的特征图。该特征图进入两个任务分支,在分割任务分支中,通过全卷积神经网络530进行上采样处理后得到分割预测图,输出分割结果;在定位任务分支中,通过第二全连接网络回归出仿射变换差异结果。再依据仿射变换差异结果纠正下一帧视频帧帧所对应的仿射变换信息,得到更新的仿射变换信息,将该更新的仿射变换信息传递至在后的视频帧。依次类推,最终实现对视频中的目标进行分割的效果。
在一个实施例中,视频帧序列属于对生物组织进行医学检测得到的检测视频,比如可以是心脏超声检测视频。视频帧中的目标为左心室,检测结果为分割出视频帧中的左心室。
如图5(b)所示,图5(b)为一个实施例中对心脏超声检测视频中的左心室进行目标分割的架构示意图。在该示意图中,前一帧为t-1帧;当前帧为t帧。参照图5(b),对心脏超声检测视频进行目标分割,对于前一帧视频帧,可通过RAN网络中的网络生成器和全连接网络生成预测的仿射变换信息
Figure BDA0002076378290000191
再依据仿射变换信息
Figure BDA0002076378290000192
进行仿射变换
Figure BDA0002076378290000193
得到前一帧视频帧的候选区域图像ROI。再通过网络生成器提取图像特征后分别进入分割任务分支和定位任务分支,得到分割结果t-1、及仿射变换差异参数
Figure BDA0002076378290000194
该仿射变换差异参数传递到当前帧,区域仿射网络依据仿射变换差异参数
Figure BDA0002076378290000195
和预测的仿射变换信息
Figure BDA0002076378290000196
来对当前帧进行仿射变换,如
Figure BDA0002076378290000197
得到候选区域图像ROI。再通过网络生成器提取图像特征后分别进入分割任务分支和定位任务分支,得到分割结果t、及仿射变换差异参数
Figure BDA0002076378290000198
以此循环类推,从而实现了对心脏超声检测视频中的左心室进行标注分割。
参考图6,在一个实施例中,该图像分割方法通过目标分割模型执行,该目标分割模型的训练步骤包括:
S602,获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息。
其中,视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息为训练数据。视频帧样本对应的样本标注信息具体可以是对视频帧样本中的关键点进行标注的样本关键点位置信息、及对视频帧样本中的目标对象进行标注的样本区域位置信息。其中,视频帧样本中的关键点是用于确定目标对象的关键点,关键点的数量具体可以是3个、4个或其他数量等。
以心脏超声检测视频为例,视频帧序列中的目标对象为左心室,那么相应的视频帧样本中的关键点具体可以是左心室尖端、及左心室二尖瓣膜两端,样本关键点位置信息具体可以是左心室尖端、及左心室二尖瓣膜两端对位置信息;样本区域位置信息具体可以是视频帧样本中左心室所在的区域的位置信息;。
标准仿射变换信息是视频帧样本相对于模版的仿射变换信息,也就是说视频帧样本依据该标准仿射变换信息,可进行仿射变换得到模板。其中,模板是依据多个视频帧样本统计出的可以代表标准视频帧的图像。
在一个实施例中,步骤S602,也就是获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息对步骤具体包括以下步骤:获取视频帧样本和相应的样本标注信息;样本标注信息包括样本关键点位置信息和样本区域位置信息;根据视频帧样本、样本关键点位置信息和样本区域位置信息,确定模板图像及模板图像对应的模板关键点位置信息;根据样本关键点位置信息和模板关键点位置信息,计算得到与视频帧样本对应的标准仿射变换信息。
具体地,计算机设备可从本地或其他计算机设备处获取多个视频帧样本。并对该视频帧样本采用人工标注或机器标注的方式标注出样本关键点和目标对象在视频帧样本中的位置区域。
进而计算机设备可根据多个包括样本标注信息的视频帧样本,确定模板、以及模板中的模板关键点位置信息。具体地,计算机设备可对多个视频帧样本中的关键点位置信息求平均后得到模板关键点位置信息。
比如,计算机设备可依据对每个视频帧样本中的关键点确定包括有目标对象的区域框,将该区域框外扩一定的范围,得到这个视频帧样本的ROI。再计算所有视频帧样本对应的ROI的平均尺寸,并将所有视频帧样本对应的ROI调整到平均尺寸。对所有调整到平均尺寸的ROI图像求平均即可得到模板。各个ROI图像中的关键点的位置信息求平均即可得到模板的关键点位置信息。
下面以心脏超声检测视频为例详细说明书模板的获取步骤,参考图7,图7为一个实施例中模板的获取流程图。如图7所示,计算机设备可预先通过采集器采集多种标准的心脏切面,比如A2C(apical-2-chamber,A2C,二腔切面)、A3C(apical-3-chamber,A3C,三腔切面)、A4C(apical-4-chamber,A4C,四腔切面)、A5C(apical-5-chamber,A5C,五腔切面)等作为原始图片,也就是作为视频帧样本,再将每张切面图中的3个关键点紧密外扩得到区域框,考虑到各种标准切面中的左心室都在右上方位置,为了获得更多心脏结构信息,可将区域框往左边、往下边各外扩一定比例,比如长宽的50%。最后,区域框四周在这个框基础上外扩一定比例,比如长宽的5%,得到这张切面图的ROI。所有切面图的ROI调整尺寸到一个尺度(该尺寸为所有ROI的平均尺寸),求平均则得到模板。
进一步地,计算机设备可依据各个视频帧样本的尺寸、关键点位置信息,以及模板的尺寸、模板关键点位置信息,进行反射相似度计算,得到变换矩阵,该变换矩阵中包括仿射变换信息,通过该方法计算得到的仿射变换信息即为与该视频帧样本对应的标准仿射变换信息。
上述实施例中,根据视频帧样本、样本关键点位置信息和样本区域位置信息,可确定模板图像及模板图像对应的模板关键点位置信息。从而可将每张视频帧样本均与模板进行比较,以确定标准仿射变换信息,该标准仿射变换信息可作为后续模型训练的监督信息,用以使得目标分割模型可学习到模板的信息,从而大大提高仿射变换信息的预测准确性。
S604,将视频帧样本输入至目标分割模型中进行训练,通过目标分割模型,确定与视频帧样本对应的预测仿射变换信息。
具体地,计算机设备可将视频帧样本输入到目标分割模型中,根据目标分割模型执行前述的图像分割方法,通过RAN网络获取与视频帧样本对应的预测仿射变换信息。
S606,依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。
其中,仿射损失函数用于评估预测仿射变换信息和标准仿射变换信息之间的差异程度。仿射损失函数承担了训练得到好的RAN网络的责任,使目标分割模型中的RAN网络可以生成相对于模板来说准确的仿射变换信息,这样引入仿射监督信息的使得仿射参数预测更加准确。
具体地,计算机设备可依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。在一个实施例中,计算机设备可通过距离函数,比如L1-Norm(L1-范数,又称曼哈顿距离)函数来计算预测仿射变换信息和标准仿射变换信息的损失,也就是基于L1-Norm函数来构建预测仿射变换信息和标准仿射变换信息的仿射损失函数。可以理解,在本申请实施例中,也可采用其他的函数来构建损失函数,只要该函数可以用来衡量预测仿射变换信息和标准仿射变换信息之间的差异程度即可,比如L2-Norm(又称欧几里德距离)函数等。
S608,通过目标分割模型,输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果。
具体地,计算机设备可将视频帧样本输入到目标分割模型中,根据目标分割模型执行前述的图像分割方法,输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果。
在一个实施例中,计算机设备可通过目标分割模型中的RAN网络,依据预测仿射变换信息对视频帧样本进行仿射变换,得到对应的样本候选区域图像。通过目标分割模型中的第二卷积神经网络并对样本候选区域图像进行特征提取,得到对应的样本特征图。通过目标分割模型中的全卷积神经网络,对样本特征图进行语义分割,得到视频帧样本中的目标对应的预测分割结果。通过目标分割模型中的第二全连接网络,基于样本特征图对预测仿射变换信息进行修正,得到与视频帧样本对应的预测仿射变换差异信息。
S610,根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息。
其中,标准仿射变换差异信息是作为目标分割模型中仿射变换修正模块的监督信息,也就是作为第二全连接网络在训练过程中的监督信息。具体地,计算机设备可根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息。比如,当仿射变换信息为仿射变换参数时,计算机设备可通过以下公式计算标准仿射变换差异信息:
Figure BDA0002076378290000231
Figure BDA0002076378290000232
其中,
Figure BDA0002076378290000233
标准表示标准仿射变换差异参数;
Figure BDA0002076378290000234
表示当前帧所对应的仿射变换参数,也就是预测仿射变换参数;θt表示标准仿射变换参数。
S612,依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数。
其中,仿射变换信息修正损失函数用于评估预测仿射变换差异信息和标准仿射变换差异信息之间的差异程度。仿射变换信息修正损失函数承担了训练得到好的第二全连接网络的责任,使目标分割模型中的第二全连接网络可以生成对预测仿射变换信息进行修正后的仿射变换差异信息。
具体地,计算机设备可依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数。在一个实施例中,计算机设备可通过距离函数,比如L1-Norm函数来计算标准仿射变换差异信息和预测仿射变换差异信息的损失,也就是基于L1-Norm函数来构建仿射变换信息修正损失函数。可以理解,在本申请实施例中,也可采用其他的函数来构建仿射变换信息修正损失函数,只要该函数可以用来衡量标准仿射变换差异信息和预测仿射变换差异信息之间的差异程度即可,比如L2-Norm函数等。
可以理解,该预测仿射变换差异信息用于确定更新的仿射变换信息,并传递至视频帧序列中在后的视频帧。当仿射变换信息为仿射变换参数时,具体可通过以下公式计算更新的仿射变换参数:
Figure BDA0002076378290000235
其中,
Figure BDA0002076378290000236
表示当前帧所传递的更新的仿射变换参数;
Figure BDA0002076378290000237
表示预测仿射变换差异参数;
Figure BDA0002076378290000238
表示预测仿射变换参数。
S614,根据预测分割结果和样本标注信息,确定分割损失函数。
其中,分割损失函数用于评估预测分割结果和样本标注信息之间的差异程度。分割损失函数承担了训练得到好的全卷积神经网络的责任,使目标分割模型中的全卷积神经网络可以准确地从输入的视频帧中分割出目标对象。具体地,计算机设备可根据预测分割结果和样本标注信息,确定分割损失函数。
S616,依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数,调整目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的目标分割模型的性能指标达到预设指标。调整目标分割模型的模型参数,是对目标分割模型的模型参数进行调整。
具体地,计算机设备可依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数,共同调整目标分割模型中各个网络结构的模型参数并继续训练,直至满足训练停止条件时停止训练。
可以理解,对于每个损失函数,计算机设备可朝着减小相应的预测结果和参考参数之间的差异的方向,调整模型参数。这样,通过不断的输入视频帧样本,得到预测仿射变换信息、预测仿射变换差异信息、及预测分割结果,根据预测仿射变换信息与标准仿射变换信息之间的差异、预测仿射变换差异信息与标准仿射变换差异信息之间的差异、及预测分割结果和样本标注信息之间的差异调整模型参数,以训练目标分割模型,得到训练好的目标分割模型。
上述实施例中,在模型训练过程中一方面引入仿射变换监督信息,也就是标准仿射变换信息,以提高方位预测的准确性;另一方面可通过对预测仿射变换信息进行纠正训练,从而减少错误定位带来的分割误差。训练时将仿射损失函数、仿射变换信息修正损失函数、及分割损失函数叠加一起优化,使得各个部分在训练过程中相互影响,相互提升,这样训练得到的目标分割模型具有准确的视频语义分割性能。
参考图8,在一个实施例中,该模型训练方法具体包括以下步骤:
S802,获取第一视频帧样本和第二视频帧样本;第一视频帧样本为第二视频帧样本在前的视频帧。
其中,第一视频帧样本和第二视频帧样本是不同的视频帧样本。第一视频帧样本为第二视频帧样本在前的视频帧,也就是说第一视频帧样本的生成时间在第二视频帧之前。在一个实施例中,第一视频帧样本和第二视频帧样本具体可以是相邻的视频帧。
S804,分别获取与第一视频帧样本及第二视频帧样本各自对应的样本标注信息、及与第一视频帧样本对应的标准仿射变换信息。
具体地,计算机设备可分别获取与第一视频帧样本及第二视频帧样本各自对应的样本标注信息、及与第一视频帧样本对应的标准仿射变换信息。其中,样本标注信息具体可包括样本关键点位置信息和样本区域位置信息。标准仿射变换信息的获取步骤可参考前述实施例中所描述的获取步骤。
S806,将第一视频帧样本和第二视频帧样本作为样本对输入至目标分割模型中进行训练,通过目标分割模型对第一视频帧样本进行处理,得到与第一视频帧样本对应的预测仿射变换信息。
具体地,参考图9,图9为一个实施例中在模型训练过程中目标分割模型的架构示意图。如图9所示,计算机设备可将相邻的前后两帧视频帧样本作为样本对输入至目标分割模型中。通过目标分割模型对第一视频帧样本进行处理,得到与第一视频帧样本对应的预测仿射变换信息
Figure BDA0002076378290000251
S808,依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。
具体地,计算机设备可依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。在一个实施例中,计算机设备可通过距离函数,比如L1-Norm函数来计算预测仿射变换信息和标准仿射变换信息的损失,也就是基于L1-Norm函数来构建预测仿射变换信息和标准仿射变换信息的仿射损失函数。可以理解,在本申请实施例中,也可采用其他的函数来构建损失函数,只要该函数可以用来衡量预测仿射变换信息和标准仿射变换信息之间的差异程度即可,比如L2-Norm函数等。
S810,依据预测仿射变换信息对第一视频帧样本进行仿射变换,得到第一样本候选区域图像,并对第一样本候选区域图像进行特征提取,得到第一样本特征图。
具体地,参考图9上半部分,计算机设备可依据预测仿射变换信息对第一视频帧样本进行仿射变换,得到第一样本候选区域图像,并通过Generator(网络生成器,可通过卷积神经网络实现)对第一样本候选区域图像进行特征提取,得到与第一视频帧样本对应的第一样本特征图。
S812,基于第一样本特征图进行语义分割,得到第一视频帧样本中的目标对应的预测分割结果。
具体地,参考图9,该第一样本特征图进行两个任务分支,其中一个任务分支是分割任务分支。目标分割模型可通过全卷积神经网络对第一样本特征图进行语义分割处理,通过全卷积神经网络进行两次上采样处理后,基于各个像素预测,得到第一视频帧样本中的目标对应的预测分割结果。
S814,根据第一样本特征图对预测仿射变换信息进行修正,得到与第一视频帧样本对应的预测仿射变换差异信息。
具体地,参考图9,第二个任务分支就是定位任务分支,在定位任务分支中,第一样本特征图通过channel为4的全连接层回归出新的仿射变换差异参数,也就是预测仿射变换差异信息。
S816,根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息。
具体地,计算机设备可根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息。比如,当仿射变换信息为仿射变换参数时,计算机设备可通过以下公式计算标准仿射变换差异信息:
Figure BDA0002076378290000261
Figure BDA0002076378290000262
其中,
Figure BDA0002076378290000263
标准表示标准仿射变换差异信息;
Figure BDA0002076378290000264
表示当前帧所对应的仿射变换参数,也就是预测仿射变换参数;θt表示标准仿射变换参数。
S818,依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数。
具体地,计算机设备可依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数。在一个实施例中,计算机设备可通过距离函数,比如L1-Norm函数来计算标准仿射变换差异信息和预测仿射变换差异信息的损失,也就是基于L1-Norm函数来构建仿射变换信息修正损失函数。可以理解,在本申请实施例中,也可采用其他的函数来构建仿射变换信息修正损失函数,只要该函数可以用来衡量标准仿射变换差异信息和预测仿射变换差异信息之间的差异程度即可,比如L2-Norm函数等。
可以理解,该预测仿射变换差异信息用于确定更新的仿射变换信息,并传递至视频帧序列中在后的视频帧。当仿射变换信息为仿射变换参数时,具体可通过以下公式计算更新的仿射变换信息:
Figure BDA0002076378290000271
其中,
Figure BDA0002076378290000272
表示当前帧所传递的更新的仿射变换信息;
Figure BDA0002076378290000273
表示预测仿射变换差异参数;
Figure BDA0002076378290000274
表示预测仿射变换参数。
S820,根据第一视频帧样本和第二视频帧样本,确定对应的光流信息,并依据光流信息和第一样本特征图,确定光流特征图。
具体地,计算机设备可根据第一视频帧样本和第二视频帧样本,确定对应的光流信息。比如,计算机设备可通过Lucas-kanade(是一种两帧差分的光流计算方法)光流方法计算第一视频帧样本所对应的光流信息。进而,计算机设备可依据光流信息和第一样本特征图,计算得到光流特征图。其中,该光流特征图可认为是融合了光流信息的、通过第一视频帧样本所预测的第二视频帧样本对应的特征图。
S822,将光流特征图和第二样本特征图作为目标分割模型中对抗网络的样本输入,并通过对抗网络对样本输入进行分类处理,得到样本输入的预测类别。
具体地,该目标分割网络在模型训练阶段还包括对抗网络(Discriminator)。计算机设备可将光流特征图和第二样本特征图作为目标分割模型中对抗网络的样本输入,输入两种中的任意一种,通过Discriminator判断输入的特征是光流特征图还是第二样本特征图。其中,第二样本特征图是第二视频帧样本所对应的样本特征图,也可称作CNN特征图。
S824,依据预测类别及样本输入所对应的参考类别,构建对抗损失函数。
其中,样本输入所对应的参考类别具体可以是光流特征图和第二样本特征图分别对应的类别,比如光流类别和特征类别。Discriminator本质是一个二分类网络,计算机设备可使用二分类交叉熵(cross entropy)作为Discriminator的损失函数,以判断样本输入是否为光流特征图。也就是,根据预测类别及样本输入所对应的参考类别,依据交叉熵函数构建目标分割模型的对抗损失函数。
S826,依据光流特征图、第二样本特征图、及参考特征图,构建分割损失函数;参考特征图为对第二视频帧样本中的目标进行特征提取所得到的特征图。
具体地,计算机设备可对第二视频帧样本中的目标进行特征提取,得到参考特征图。进而计算机设备可依据光流特征图、第二样本特征图、及参考特征图,构建分割损失函数。
在一个实施例中,计算机设备可通过以下公式构建分割损失函数:
Figure BDA0002076378290000281
其中,F′CNN,F′OF分别代表第二样本特征图和通过光流获取的光流特征图。FCNN代表参考特征图。fdice,fbce,fmse分别表示Dice计算公式,二分类交叉熵计算公式,均方差(meansquare error)计算公式。其中,fmse越大,表示第二样本特征图和光流特征图的差距越大,从而加重惩罚Generator完成参数更新,使得Generator产生更加符合光流特征的特征图。fdice和fbce则是促使Generator产生更加贴合人工标注信息的特征图。
S828,依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数,调整目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
具体地,计算机设备可依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数,共同调整目标分割模型中各个网络结构的模型参数并继续训练,直至满足训练停止条件时停止训练。
在一个实施例中,目标分割模型在训练时,可采用交叉训练和共同训练相结合的方式进行训练。比如,参考图9,计算机设备可先训练Generator一段时间后,冻住训练得到的参数,不回传。再训练Discriminator,之后再固定Discriminator的参数,进而再训练Generator,等训练结果稳定后再结合各个网络结构一起训练。那么此时的训练停止条件,也可认为是收敛条件,具体可以是,Discriminator的损失函数不再下降,Discriminator的输出稳定在(0.5,0.5)左右,Discriminator无法分辨出光流特征图和CNN特征图的区别。
可以理解,当Generator和Discriminator两者抗衡之后,整个网络达到收敛状态,Generator最终将产生CNN特征和光流信息共有部分的特征,而Discriminator将分不清光流特征和CNN特征的区别。在模型的使用阶段,可移除Discriminator模块,此时Generator将产生融合了光流信息的特征图。
在一个实施例中,目标分割模型中的各个Generator可共享参数。也就是上,上述图9中的三个Generator可认为是相同的Generator。
上述实施例中,在模型训练过程中一方面引入仿射变换监督信息,也就是标准仿射变换信息,以提高方位预测的准确性;另一方面可通过对预测仿射变换信息进行纠正训练,从而减少错误定位带来的分割误差。再者,采用了带有光流信息的对抗学习方式实现网络在时序上的一致性,使得训练时针对性更强,性能更佳。这样,训练时依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数叠加一起优化,使得各个部分在训练过程中相互影响,相互提升,这样训练得到的目标分割模型可以准确且平滑地从视频中分割出目标对象。
在一个实施例中,提供了一种模型训练方法。本实施例主要以该方法应用于图1中的计算机设备来举例说明,该模型训练方法包括以下步骤:获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息;将视频帧样本输入至目标分割模型中进行训练,通过目标分割模型,确定与视频帧样本对应的预测仿射变换信息;依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数;通过目标分割模型,输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果;根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息;依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数;根据预测分割结果和样本标注信息,确定分割损失函数;依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数,调整目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
关于模型训练方法中各个步骤的详细说明可参考前述实施例中机器翻译模型的模型训练步骤的说明,训练方式是一致的,在此不做重复说明。
在一个实施例中,以心脏超声检测视频为例,详细说明该目标分割模型的训练过程。参考图9,在训练时,可将前后两帧视频帧样本作为样本对输入到RAN网络中。第一阶段中,当前帧经过RAN网络的仿射变换对目标位置、尺寸以及方位进行了纠正,得到与模板分布相似的ROI图像,经过纠正的ROI图像减少了很多干扰,如其他心腔与左心室的相似性,图像标记以及伪影等带来的影响等。第二阶段中,再次使用Generator对ROI图像进行特征抽取,输出的特征进入两个任务分支,在分割任务分支中,输出的特征通过两次上采样后得到分割预测图,输出分割结果;在定位任务分支中,特征通过channel为4的全连接层回归出新的仿射变换差异结果。第二阶段通过回归差值的方式对第一阶段产生的仿射变换信息起二次修正作用。
其中,当仿射变换信息为仿射变换参数时,第二阶段的仿射变换差异结果的监督信息具体可通过下列公式计算:
Figure BDA0002076378290000301
Figure BDA0002076378290000302
其中,
Figure BDA0002076378290000303
标准表示标准仿射变换差异信息;
Figure BDA0002076378290000304
表示当前帧所对应的仿射变换参数,也就是预测仿射变换参数;θt表示标准仿射变换参数。
由于该差值较小,为了加速网络收敛,可以使用L1-Norm函数算损失值。当前帧在第二阶段预测的仿射变换差异参数将用于计算更新的仿射变换信息并传播到下一帧视频帧中,下一帧视频帧根据上述参数直接进行仿射变换得到ROI,同理,ROI经过Generator提取特征,再次预测出分割结果和仿射变换差异结果。以第一阶段为基础,第二阶段进行二次仿射变换信息修正,如上面公式所示。第二阶段预测出相对于第一阶段的仿射变换信息变化值,这里同样以L1-Norm函数计算损失值。当前帧第二阶段预测的仿射变换差异参数将传播到下一帧中,下一帧根据下述公式计算得到更新的仿射变换信息:
Figure BDA0002076378290000305
Figure BDA0002076378290000306
其中,
Figure BDA0002076378290000307
表示当前帧所传递的更新的仿射变换信息;
Figure BDA0002076378290000308
表示预测仿射变换差异参数;
Figure BDA0002076378290000309
表示预测仿射变换参数。同理,下一帧的视频帧所对应的ROI经过Generator提取特征,再次预测出分割结果和仿射变换差异结果。除此之外,渐进式变化是视频中目标变化的重要特征。在心脏超声检测视频帧中,左心室会随着时间逐渐扩大或者缩小,基本不存在突然变化的情况。然而,由于分割目标边界信息模糊以及伪影的干扰,尽管加入了时序、方位以及结构等先验信息,在某些视频帧上仍然会出现由于误分割引起的左心室容积突变。针对这种情况,在模型训练时可引入光流信息。假定,左心室中相邻两帧的变化是较为微小的,下一帧视频帧可以通过上一帧视频帧的光流信息计算得到。在训练时,对于当前帧应该有两种特征形式:一种是通过CNN网络基于当前帧提取的特征,另一种是通过光流信息基于上一帧的特征变换而来的特征。为此,可设计对抗网络将这两种信息同时引入。如图9所示,对抗网络(Discriminator)的输入有两种:一种来源于Generator对下一帧ROI提取的特征,一种来源于利用光流信息基于当前帧ROI特征变换而来的下一帧ROI特征,输入两种中的任意一种,Discriminator判断输入的特征属于光流变换的特征(Flow Field)还是CNN特征。这样,引入对抗网络Discriminator促使Generator产生具备光流信息和CNN本帧信息的分割特征。因此,分割任务分支可采用如下损失函数:
Figure BDA0002076378290000311
Figure BDA0002076378290000312
其中,F′CNN,F′OF分别代表第二样本特征图和通过光流获取的光流特征图。FCNN代表参考特征图。fdice,fbce,fmse分别表示Dice计算公式,二分类交叉熵计算公式,均方差计算公式。其中,fmse越大,表示第二样本特征图和光流特征图的差距越大,从而加重惩罚Generator完成参数更新,使得Generator产生更加符合光流特征的特征图。fdice和fbce则是促使Generator产生更加贴合人工标注信息的特征图。
此外,对于Discriminator,使用二分类交叉熵作为损失函数用于判断输入是否为光流特征。两者抗衡之后,当整个网络达到收敛状态,Generator最终将产生CNN特征和光流信息共有部分的特征,而Discriminator将分不清光流特征和CNN特征的区别。模型使用时,Discriminator模块将被移除,Generator将产生融合了光流信息的特征图。
下面结合具体应用场景,比如心脏早期筛查场景,对心脏超声检测视频中的左心室作为目标,通过该图像分割方法实现对左心室的分割来进行详细说明:
临床中,心脏早期筛查是预防以及诊断心脏疾病的重要措施。鉴于其筛查快速,价格低廉,信息丰富的优势,心脏B型超声是目前普遍性较高的早期筛查手段。在心脏超声检测中,临床上常以心动周期超声中左心室在四腔切面和二腔切面的面积,配合Simpson法(辛普森法)估量射血分数,作为诊断心功能的一个重要信息来源。而基于计算机辅助的左心室自动分割是计算心功能指标(如射血分数)的重要依据。然而,左心室物体边界模糊,且容易受伪影影像造成边缘缺失,严重影响了分割准确性。同时,左心室的变化和时间强烈相关,预测错误带来的左心室轮廓突变极容易导致临床指标的误计算。同时,超声视频筛查的落地对网络大小、实时性有很大的需求。
考虑到上述困难,本申请实施例中提出了基于Region Affine Networks的端到端视频目标分割模型,将在前的视频帧帧的目标结构信息(也就是在前的视频帧所传递的历史仿射变换信息)引入到当前帧,提升了分割性能;同时Region Affine Networks是有监督信息的可学习仿射变换信息的预测网络,仿射监督信息的引入使得仿射变化参数预测更加准确。并且,基于二阶段定位网络能够二次纠正在前的视频帧所传递的变换错误,增加网络鲁棒性,减少因为仿射变换信息错误带来的分割误差。同时,基于光流信息的对抗学习网络,在训练时可促使分割结果贴近时序变换渐进性,使得分割结果更加合理。整个网络端到端训练,各个部分相辅相成,相互提高。目标结构信息的引入减少噪声干扰,降低分割难度,使用轻量级的编码网络即可得到优异的分割结果。同时,视频的时序分析、时间平滑处理全部集中在训练阶段,减少了模型在使用过程中的操作处理,大大减少了目标分割的耗时,提高了效率。
本申请实施例所提供的图像分割方法可以用于临床中心脏超声检测配合Simpson法筛查心脏疾病,可以解放医师的双手,减少医师标注带来的重复劳动以及主观差异。由于实现该目标分割模型的各个网络结构小、实时性好,端到端网络工程化程度高,极易迁移到移动设备中。
本申请实施例中对心脏超声检测视频中的左心室进行分割所得到的分割结果,可作为临床上心脏B型超声结合Simpson法测量射血分数的自动化方案;专为视频单物体设计的端到端网络,引入了时序信息、目标的结构位置信息,能得到更加符合视频规律的分割结果;对抗学习网络自适应地增加了视频分割的平滑度,使得分割结果更加合理;该图像分割方法实现了高分割性能的轻量级网络,实时性极强,工程化程度高。
在一个具体实施例中,如图10所示,该图像分割方法具体包括以下步骤:
S1002,当当前帧为初始视频帧时,获取视频帧序列中的初始视频帧。
S1004,通过第一卷积神经网络提取初始视频帧的图像特征。
S1006,将图像特征输入至包括至少一个输出通道的第一全连接网络,并通过第一全连接网络对图像特征进行处理,通过至少一个输出通道输出仿射变换信息。
S1008,将输出的仿射变换信息作为初始视频帧对应的历史仿射变换信息。
S1010,依据历史仿射变换信息对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。
S1012,通过目标分割模型中的第二卷积神经网络,对候选区域图像进行特征提取,得到候选区域图像对应的特征图;特征图融合了视频帧序列所包括的光流信息。
S1014,通过全卷积神经网络对特征图进行上采样处理,得到中间图像。
S1016,通过全卷积神经网络对中间图像中的各像素分别进行像素级分类,得到各像素所对应的类别。
S1018,确定中间图像中对应目标类别的像素。
S1020,从中间图像中,分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。
S1022,通过包括至少一个输出通道的第二全连接网络,对特征图进行处理,通过至少一个输出通道输出仿射变换差异结果。
S1024,依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息。
S1026,将当前帧所传递的更新的仿射变换信息,作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
上述图像分割方法,依据在前的视频帧所传递的历史仿射变换信息,对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。在前的视频帧所传递的历史仿射变换信息是经过修正后的参数,这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割,可以准确得到当前帧中的目标对应的分割结果。并且,根据该特征图对历史仿射变换信息进行修正,将修正后的仿射变换信息传递至在后的视频帧,以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用,减少了错误定位给后续的分割处理所带来误差,大大提高了对视频进行语义分割处理的准确性。
图10为一个实施例中图像分割方法的流程示意图。应该理解的是,虽然图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图10中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图11所示,在一个实施例中,提供了图像分割装置1100,包括获取模块1101、仿射变换模块1102、特征提取模块1103、语义分割模块1104和参数修正模块1105。
获取模块1101,用于获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息。
仿射变换模块1102,用于依据历史仿射变换信息对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。
特征提取模块1103,用于对候选区域图像进行特征提取,得到候选区域图像对应的特征图。
语义分割模块1104,用于基于特征图进行语义分割,得到当前帧中的目标对应的分割结果。
参数修正模块1105,用于根据特征图对历史仿射变换信息进行修正,得到更新的仿射变换信息,并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
在一个实施例中,当当前帧为初始视频帧时,获取模块1101还用于获取视频帧序列中的初始视频帧;通过第一卷积神经网络提取初始视频帧的图像特征;将图像特征输入至包括至少一个输出通道的第一全连接网络,并通过第一全连接网络对图像特征进行处理,通过至少一个输出通道输出仿射变换信息;将输出的仿射变换信息作为初始视频帧对应的历史仿射变换信息。
在一个实施例中,对候选区域图像进行特征提取所得到的特征图融合了视频帧序列所包括的光流信息。
在一个实施例中,语义分割模块1104还用于通过全卷积神经网络对特征图进行上采样处理,得到中间图像;通过全卷积神经网络对中间图像中的各像素分别进行像素级分类,得到各像素所对应的类别;依据各像素所对应的类别,输出对当前帧中的目标进行语义分割的分割结果。
在一个实施例中,语义分割模块1104还用于确定中间图像中对应目标类别的像素;从中间图像中,分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。
在一个实施例中,参数修正模块1105还用于通过包括至少一个输出通道的第二全连接网络,对特征图进行处理,通过至少一个输出通道输出仿射变换差异结果;依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息;将当前帧所传递的更新的仿射变换信息,作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。
在一个实施例中,特征提取模块1103还用于通过目标分割模型中的第二卷积神经网络,对候选区域图像进行特征提取,得到候选区域图像对应的特征图。语义分割模块1104还用于通过目标分割模型中的全卷积神经网络,对特征图进行语义分割处理,得到当前帧中的目标对应的分割结果。参数修正模块1105还用于通过目标分割模型中的第二全连接网络对历史仿射变换信息进行修正,得到更新的仿射变换信息。
如图12所示,在一个实施例中,该图像分割装置还包括模型训练模块1106,用于获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息;将视频帧样本输入至目标分割模型中进行训练,通过目标分割模型,获取与视频帧样本对应的预测仿射变换信息;依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数;通过目标分割模型,输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果;根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息;依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数;根据预测分割结果和样本标注信息,确定分割损失函数;依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数,调整目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
上述图像分割装置,依据在前的视频帧所传递的历史仿射变换信息,对当前帧进行仿射变换,得到与当前帧对应的候选区域图像。在前的视频帧所传递的历史仿射变换信息是经过修正后的参数,这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割,可以准确得到当前帧中的目标对应的分割结果。并且,根据该特征图对历史仿射变换信息进行修正,将修正后的仿射变换信息传递至在后的视频帧,以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用,减少了错误定位给后续的分割处理所带来误差,大大提高了对视频进行语义分割处理的准确性。
如图13所示,在一个实施例中,提供了模型训练装置1300,包括样本获取模块1301、确定模块1302、构建模块1303、输出模块1304和模型参数调整模块1305。
样本获取模块1301,用于获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息。
确定模块1302,用于将视频帧样本输入至目标分割模型中进行训练,通过目标分割模型,确定与视频帧样本对应的预测仿射变换信息。
构建模块1303,用于依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。
输出模块1304,用于通过目标分割模型,输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果。
确定模块1302还用于根据预测仿射变换信息和标准仿射变换信息间的差异,确定标准仿射变换差异信息。
构建模块1303还用于依据标准仿射变换差异信息和预测仿射变换差异信息,构建仿射变换信息修正损失函数。
构建模块1303还用于根据预测分割结果和样本标注信息,确定分割损失函数。
模型参数调整模块1305,用于依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数,调整目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
在一个实施例中,样本获取模块1301还用于获取视频帧样本和相应的样本标注信息;样本标注信息包括样本关键点位置信息和样本区域位置信息;根据视频帧样本、样本关键点位置信息和样本区域位置信息,确定模板图像及模板图像对应的模板关键点位置信息;根据样本关键点位置信息和模板关键点位置信息,计算得到与视频帧样本对应的标准仿射变换信息。
在一个实施例中,样本获取模块1301还用于获取第一视频帧样本和第二视频帧样本;第一视频帧样本为第二视频帧样本在前的视频帧;分别获取与第一视频帧样本及第二视频帧样本各自对应的样本标注信息、及与第一视频帧样本对应的标准仿射变换信息。确定模块1302还用于将第一视频帧样本和第二视频帧样本作为样本对输入至目标分割模型中进行训练,通过目标分割模型对第一视频帧样本进行处理,得到与第一视频帧样本对应的预测仿射变换信息。输出模块1304还用于依据预测仿射变换信息对第一视频帧样本进行仿射变换,得到第一样本候选区域图像,并对第一样本候选区域图像进行特征提取,得到第一样本特征图;基于第一样本特征图进行语义分割,得到第一视频帧样本中的目标对应的预测分割结果;根据第一样本特征图对预测仿射变换信息进行修正,得到与第一视频帧样本对应的预测仿射变换差异信息。该模型训练装置还包括对抗模块1306,用于根据第一视频帧样本和第二视频帧样本,确定对应的光流信息,并依据光流信息和第一样本特征图,确定光流特征图;将光流特征图和第二样本特征图作为目标分割模型中对抗网络的样本输入,并通过对抗网络对样本输入进行分类处理,得到样本输入的预测类别。构建模块1303还用于依据预测类别及样本输入所对应的参考类别,构建对抗损失函数;依据光流特征图、第二样本特征图、及参考特征图,构建分割损失函数;参考特征图为对第二视频帧样本中的目标进行特征提取所得到的特征图。模型参数调整模块1305还用于依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数,调整目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
上述模型训练装置,在模型训练过程中一方面引入仿射变换监督信息,也就是标准仿射变换信息,以提高方位预测的准确性;另一方面可通过对预测仿射变换信息进行纠正训练,从而减少错误定位带来的分割误差。训练时将仿射损失函数、仿射变换信息修正损失函数、及分割损失函数叠加一起优化,使得各个部分在训练过程中相互影响,相互提升,这样训练得到的目标分割模型具有准确的视频语义分割性能。
图14示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的计算机设备。如图14所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现图像分割方法和/或模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行图像分割方法和/或模型训练方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的图像分割装置和或/模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像分割装置的各个程序模块,比如,图11所示的获取模块、仿射变换模块、特征提取模块、语义分割模块和参数修正模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像分割方法中的步骤。还比如,图13所示的样本获取模块、确定模块、构建模块、输出模块和模型参数调整模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型训练方法中的步骤。
例如,图14所示的计算机设备可以通过如图11所示的图像分割装置中的获取模块执行步骤S202。计算机设备可通过仿射变换模块执行步骤S204。计算机设备可通过特征提取模块执行步骤S206。计算机设备可通过语义分割模块执行步骤S208。计算机设备可通过参数修正模块执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述XX方法的步骤。此处XX方法的步骤可以是上述各个实施例的XX方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述图像分割方法和/或模型训练方法的步骤。此处图像分割方法和/或模型训练方法的步骤可以是上述各个实施例的图像分割方法和/或模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (24)

1.一种图像分割方法,包括:
获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;所述历史仿射变换信息是对在前的视频帧执行图像分割操作时所得到的已经修正的、且用于当前帧进行仿射变换的信息;
依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;
对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;
根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
2.根据权利要求1所述的方法,其特征在于,当所述当前帧为初始视频帧时,所述获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息,包括:
获取视频帧序列中的初始视频帧;
通过第一卷积神经网络提取所述初始视频帧的图像特征;
将所述图像特征输入至包括至少一个输出通道的第一全连接网络,并通过所述第一全连接网络对所述图像特征进行处理,通过所述至少一个输出通道输出仿射变换信息;
将输出的所述仿射变换信息作为所述初始视频帧对应的历史仿射变换信息。
3.根据权利要求1所述的方法,其特征在于,对所述候选区域图像进行特征提取所得到的特征图融合了所述视频帧序列所包括的光流信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果,包括:
通过全卷积神经网络对所述特征图进行上采样处理,得到中间图像;
通过所述全卷积神经网络对所述中间图像中的各像素分别进行像素级分类,得到各像素所对应的类别;
依据各像素所对应的类别,输出对所述当前帧中的目标进行语义分割的分割结果。
5.根据权利要求4所述的方法,其特征在于,所述依据各像素所对应的类别,输出对所述当前帧中的目标进行语义分割的分割结果,包括:
确定所述中间图像中对应目标类别的像素;
从所述中间图像中,分割出由对应所述目标类别的各所述像素所组成的、且包括目标对象的目标分割区域。
6.根据权利要求1所述的方法,其特征在于,所述根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息,包括:
通过包括至少一个输出通道的第二全连接网络,对所述特征图进行处理,通过所述至少一个输出通道输出仿射变换差异结果;
依据所述仿射变换差异结果和所述在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息;
将所述当前帧所传递的更新的仿射变换信息,作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
7.根据权利要求1所述的方法,其特征在于,所述方法通过目标分割模型执行;所述对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图,包括:
通过所述目标分割模型中的第二卷积神经网络,对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
所述基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果,包括:
通过所述目标分割模型中的全卷积神经网络,对所述特征图进行语义分割处理,得到所述当前帧中的目标对应的分割结果;
所述根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,包括:
通过所述目标分割模型中的第二全连接网络对所述历史仿射变换信息进行修正,得到更新的仿射变换信息。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法通过目标分割模型执行,所述目标分割模型的训练步骤包括:
获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
9.一种模型训练方法,包括:
获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
10.根据权利要求9所述的方法,其特征在于,所述获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息,包括:
获取视频帧样本和相应的样本标注信息;所述样本标注信息包括样本关键点位置信息和样本区域位置信息;
根据所述视频帧样本、所述样本关键点位置信息和样本区域位置信息,确定模板图像及所述模板图像对应的模板关键点位置信息;
根据所述样本关键点位置信息和所述模板关键点位置信息,计算得到与所述视频帧样本对应的标准仿射变换信息。
11.根据权利要求9或10中任一项所述的方法,其特征在于,所述获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息,包括:
获取第一视频帧样本和第二视频帧样本;所述第一视频帧样本为所述第二视频帧样本在前的视频帧;
分别获取与所述第一视频帧样本及所述第二视频帧样本各自对应的样本标注信息、及与所述第一视频帧样本对应的标准仿射变换信息;
所述将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息,包括:
将所述第一视频帧样本和所述第二视频帧样本作为样本对输入至目标分割模型中进行训练,通过所述目标分割模型对所述第一视频帧样本进行处理,得到与所述第一视频帧样本对应的预测仿射变换信息;
所述通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果,包括:
依据所述预测仿射变换信息对所述第一视频帧样本进行仿射变换,得到第一样本候选区域图像,并对所述第一样本候选区域图像进行特征提取,得到第一样本特征图;
基于所述第一样本特征图进行语义分割,得到所述第一视频帧样本中的目标对应的预测分割结果;
根据所述第一样本特征图对所述预测仿射变换信息进行修正,得到与所述第一视频帧样本对应的预测仿射变换差异信息;
所述方法还包括:
根据所述第一视频帧样本和第二视频帧样本,确定对应的光流信息,并依据所述光流信息和所述第一样本特征图,确定光流特征图;
将所述光流特征图和第二样本特征图作为所述目标分割模型中对抗网络的样本输入,并通过所述对抗网络对所述样本输入进行分类处理,得到所述样本输入的预测类别;其中,所述第二样本特征图是通过对所述第二视频帧样本所对应的样本候选区域进行特征提取得到,所述第二视频帧样本所对应的样本候选区域,是根据所述预测仿射变换信息和所述预测仿射变换差异信息对所述第二视频帧样本进行仿射变换后得到;
依据所述预测类别及所述样本输入所对应的参考类别,构建对抗损失函数;
所述根据所述预测分割结果和所述样本标注信息,确定分割损失函数包括:
依据所述光流特征图、所述第二样本特征图、及参考特征图,构建分割损失函数;所述参考特征图为对所述第二视频帧样本中的目标进行特征提取所得到的特征图;
所述依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练,包括:
依据所述仿射损失函数、所述仿射变换信息修正损失函数、所述对抗损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
12.一种图像分割装置,其特征在于,所述装置包括:
获取模块,用于获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息;所述历史仿射变换信息是对在前的视频帧执行图像分割操作时所得到的已经修正的、且用于当前帧进行仿射变换的信息;
仿射变换模块,用于依据所述历史仿射变换信息对所述当前帧进行仿射变换,得到与所述当前帧对应的候选区域图像;
特征提取模块,用于对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
语义分割模块,用于基于所述特征图进行语义分割,得到所述当前帧中的目标对应的分割结果;
参数修正模块,用于根据所述特征图对所述历史仿射变换信息进行修正,得到更新的仿射变换信息,并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
13.根据权利要求12所述的装置,其特征在于,当所述当前帧为初始视频帧时,所述获取模块,还用于获取视频帧序列中的初始视频帧;通过第一卷积神经网络提取所述初始视频帧的图像特征;将所述图像特征输入至包括至少一个输出通道的第一全连接网络,并通过所述第一全连接网络对所述图像特征进行处理,通过所述至少一个输出通道输出仿射变换信息;将输出的所述仿射变换信息作为所述初始视频帧对应的历史仿射变换信息。
14.根据权利要求12所述的装置,其特征在于,对所述候选区域图像进行特征提取所得到的特征图融合了所述视频帧序列所包括的光流信息。
15.根据权利要求12所述的装置,其特征在于,所述语义分割模块,还用于通过全卷积神经网络对所述特征图进行上采样处理,得到中间图像;通过所述全卷积神经网络对所述中间图像中的各像素分别进行像素级分类,得到各像素所对应的类别;依据各像素所对应的类别,输出对所述当前帧中的目标进行语义分割的分割结果。
16.根据权利要求15所述的装置,其特征在于,所述语义分割模块,还用于确定所述中间图像中对应目标类别的像素;从所述中间图像中,分割出由对应所述目标类别的各所述像素所组成的、且包括目标对象的目标分割区域。
17.根据权利要求12所述的装置,其特征在于,所述参数修正模块,还用于通过包括至少一个输出通道的第二全连接网络,对所述特征图进行处理,通过所述至少一个输出通道输出仿射变换差异结果;依据所述仿射变换差异结果和所述在前的视频帧所传递的历史仿射变换信息,计算得到当前帧所传递的更新的仿射变换信息;将所述当前帧所传递的更新的仿射变换信息,作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
18.根据权利要求12所述的装置,其特征在于,所述特征提取模块,还用于通过所述目标分割模型中的第二卷积神经网络,对所述候选区域图像进行特征提取,得到所述候选区域图像对应的特征图;
所述语义分割模块,还用于通过所述目标分割模型中的全卷积神经网络,对所述特征图进行语义分割处理,得到所述当前帧中的目标对应的分割结果;
所述参数修正模块,还用于通过所述目标分割模型中的第二全连接网络对所述历史仿射变换信息进行修正,得到更新的仿射变换信息。
19.根据权利要求12至18中任一项所述的装置,其特征在于,所述装置还包括模型训练模块,用于获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;根据所述预测分割结果和所述样本标注信息,确定分割损失函数;依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
20.一种模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息;
确定模块,用于将所述视频帧样本输入至目标分割模型中进行训练,通过所述目标分割模型,确定与所述视频帧样本对应的预测仿射变换信息;
构建模块,用于依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数;
输出模块,用于通过所述目标分割模型,输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果;
所述确定模块还用于根据所述预测仿射变换信息和所述标准仿射变换信息间的差异,确定标准仿射变换差异信息;
所述构建模块还用于依据所述标准仿射变换差异信息和所述预测仿射变换差异信息,构建仿射变换信息修正损失函数;
所述构建模块还用于根据所述预测分割结果和所述样本标注信息,确定分割损失函数;
模型参数调整模块,用于依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
21.根据权利要求20所述的装置,其特征在于,所述样本获取模块,还用于获取视频帧样本和相应的样本标注信息;所述样本标注信息包括样本关键点位置信息和样本区域位置信息;根据所述视频帧样本、所述样本关键点位置信息和样本区域位置信息,确定模板图像及所述模板图像对应的模板关键点位置信息;根据所述样本关键点位置信息和所述模板关键点位置信息,计算得到与所述视频帧样本对应的标准仿射变换信息。
22.根据权利要求20或21中任一项所述的装置,其特征在于,所述装置还包括对抗模块,其中:
所述样本获取模块,还用于获取第一视频帧样本和第二视频帧样本;所述第一视频帧样本为所述第二视频帧样本在前的视频帧;分别获取与所述第一视频帧样本及所述第二视频帧样本各自对应的样本标注信息、及与所述第一视频帧样本对应的标准仿射变换信息;
所述确定模块,还用于将所述第一视频帧样本和所述第二视频帧样本作为样本对输入至目标分割模型中进行训练,通过所述目标分割模型对所述第一视频帧样本进行处理,得到与所述第一视频帧样本对应的预测仿射变换信息;
所述输出模块,还用于依据所述预测仿射变换信息对所述第一视频帧样本进行仿射变换,得到第一样本候选区域图像,并对所述第一样本候选区域图像进行特征提取,得到第一样本特征图;基于所述第一样本特征图进行语义分割,得到所述第一视频帧样本中的目标对应的预测分割结果;根据所述第一样本特征图对所述预测仿射变换信息进行修正,得到与所述第一视频帧样本对应的预测仿射变换差异信息;
所述对抗模块,还用于根据所述第一视频帧样本和第二视频帧样本,确定对应的光流信息,并依据所述光流信息和所述第一样本特征图,确定光流特征图;将所述光流特征图和第二样本特征图作为所述目标分割模型中对抗网络的样本输入,并通过所述对抗网络对所述样本输入进行分类处理,得到所述样本输入的预测类别;其中,所述第二样本特征图是通过对所述第二视频帧样本所对应的样本候选区域进行特征提取得到,所述第二视频帧样本所对应的样本候选区域,是根据所述预测仿射变换信息和所述预测仿射变换差异信息对所述第二视频帧样本进行仿射变换后得到;
所述构建模块,还用于依据所述预测类别及所述样本输入所对应的参考类别,构建对抗损失函数;依据所述光流特征图、所述第二样本特征图、及参考特征图,构建分割损失函数;所述参考特征图为对所述第二视频帧样本中的目标进行特征提取所得到的特征图;
所述模型参数调整模块,还用于依据所述仿射损失函数、所述仿射变换信息修正损失函数、所述对抗损失函数、及所述分割损失函数,调整所述目标分割模型的模型参数并继续训练,直至满足训练停止条件时停止训练。
23.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
24.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201910455150.4A 2019-05-29 2019-05-29 图像分割方法和装置、模型训练方法和装置 Active CN110188754B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910455150.4A CN110188754B (zh) 2019-05-29 2019-05-29 图像分割方法和装置、模型训练方法和装置
PCT/CN2020/092356 WO2020238902A1 (zh) 2019-05-29 2020-05-26 图像分割方法、模型训练方法、装置、设备及存储介质
US17/395,388 US11900613B2 (en) 2019-05-29 2021-08-05 Image segmentation method and apparatus, model training method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910455150.4A CN110188754B (zh) 2019-05-29 2019-05-29 图像分割方法和装置、模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN110188754A CN110188754A (zh) 2019-08-30
CN110188754B true CN110188754B (zh) 2021-07-13

Family

ID=67718434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910455150.4A Active CN110188754B (zh) 2019-05-29 2019-05-29 图像分割方法和装置、模型训练方法和装置

Country Status (3)

Country Link
US (1) US11900613B2 (zh)
CN (1) CN110188754B (zh)
WO (1) WO2020238902A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188754B (zh) * 2019-05-29 2021-07-13 腾讯科技(深圳)有限公司 图像分割方法和装置、模型训练方法和装置
CN110942463B (zh) * 2019-10-30 2021-03-16 杭州电子科技大学 一种基于生成对抗网络的视频目标分割方法
CN110838132B (zh) * 2019-11-15 2022-08-05 北京字节跳动网络技术有限公司 基于视频流的物体分割方法、装置、设备及存储介质
CN111027600B (zh) * 2019-11-25 2021-03-23 腾讯科技(深圳)有限公司 图像类别预测方法和装置
CN111177460B (zh) * 2019-12-20 2023-04-18 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN111210439B (zh) * 2019-12-26 2022-06-24 中国地质大学(武汉) 通过抑制非感兴趣信息的语义分割方法、设备及存储设备
CN113111684A (zh) * 2020-01-10 2021-07-13 字节跳动有限公司 神经网络模型的训练方法、装置和图像处理系统
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
CN111507997B (zh) * 2020-04-22 2023-07-25 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及计算机存储介质
CN111539439B (zh) * 2020-04-30 2021-01-05 宜宾电子科技大学研究院 一种图像语义分割方法
WO2021237649A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 图像处理方法及相关设备
CN111666905B (zh) * 2020-06-10 2022-12-02 重庆紫光华山智安科技有限公司 模型训练方法、行人属性识别方法和相关装置
CN111695512B (zh) * 2020-06-12 2023-04-25 嘉应学院 一种无人值守文物监测方法及装置
CN111915480B (zh) * 2020-07-16 2023-05-23 抖音视界有限公司 生成特征提取网络的方法、装置、设备和计算机可读介质
CN111968123B (zh) * 2020-08-28 2024-02-02 北京交通大学 一种半监督视频目标分割方法
CN112598645B (zh) * 2020-12-23 2022-07-01 深兰智能科技(上海)有限公司 轮廓检测方法、装置、设备及存储介质
CN112906463A (zh) * 2021-01-15 2021-06-04 上海东普信息科技有限公司 基于图像的火情检测方法、装置、设备及存储介质
CN113034580B (zh) * 2021-03-05 2023-01-17 北京字跳网络技术有限公司 图像信息检测方法、装置和电子设备
CN113223104B (zh) * 2021-04-16 2023-03-24 山东师范大学 一种基于因果关系的心脏mr图像插补方法及系统
CN113177483B (zh) * 2021-04-30 2023-07-11 北京百度网讯科技有限公司 视频目标分割方法、装置、设备以及存储介质
CN113361519B (zh) * 2021-05-21 2023-07-28 北京百度网讯科技有限公司 目标处理方法、目标处理模型的训练方法及其装置
CN113453032B (zh) * 2021-06-28 2022-09-30 广州虎牙科技有限公司 手势互动方法、装置、系统、服务器和存储介质
CN113570607B (zh) * 2021-06-30 2024-02-06 北京百度网讯科技有限公司 目标分割的方法、装置及电子设备
CN113435432B (zh) * 2021-08-27 2021-11-30 腾讯科技(深圳)有限公司 视频异常检测模型训练方法、视频异常检测方法和装置
CN113741459A (zh) * 2021-09-03 2021-12-03 阿波罗智能技术(北京)有限公司 确定训练样本的方法和自动驾驶模型的训练方法、装置
CN113923493B (zh) * 2021-09-29 2023-06-16 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备以及存储介质
CN114792106A (zh) * 2021-09-30 2022-07-26 上海商汤智能科技有限公司 视频语义分割方法、装置、电子设备及存储介质
CN114241407B (zh) * 2021-12-10 2023-05-23 电子科技大学 一种基于深度学习的近距离屏幕监控方法
CN114612979A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 一种活体检测方法及装置、电子设备、存储介质
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN115272165B (zh) * 2022-05-10 2023-09-26 推想医疗科技股份有限公司 图像的特征提取方法、图像分割模型的训练方法和装置
CN115474084B (zh) * 2022-08-10 2023-10-31 北京奇艺世纪科技有限公司 一种视频封面图像的生成方法、装置、设备和存储介质
CN115861393B (zh) * 2023-02-16 2023-06-16 中国科学技术大学 图像匹配方法、航天器着陆点定位方法及相关装置
CN116128715B (zh) * 2023-02-20 2023-07-18 中国人民解放军军事科学院系统工程研究院 一种图形仿射变换方法及装置
CN117078761B (zh) * 2023-10-07 2024-02-27 深圳爱博合创医疗机器人有限公司 细长型医疗器械自动定位方法、装置、设备以及介质
CN117132587B (zh) * 2023-10-20 2024-03-01 深圳微创心算子医疗科技有限公司 超声扫描导航方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383966A (zh) * 2007-09-05 2009-03-11 索尼株式会社 用于图像处理的装置和方法、以及计算机程序
CN101719279A (zh) * 2009-12-23 2010-06-02 西北工业大学 星空图像背景运动估计方法
CN102456225A (zh) * 2010-10-22 2012-05-16 深圳中兴力维技术有限公司 一种视频监控系统及其运动目标检测与跟踪方法
CN102740096A (zh) * 2012-07-13 2012-10-17 浙江工商大学 一种基于时空结合的动态场景立体视频匹配方法
CN108596184A (zh) * 2018-04-25 2018-09-28 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7654299B2 (en) 2004-08-20 2010-02-02 Lewis Hyman Inc. Window shade liner method and apparatus
US8073216B2 (en) * 2007-08-29 2011-12-06 Vanderbilt University System and methods for automatic segmentation of one or more critical structures of the ear
GB0818561D0 (en) 2008-10-09 2008-11-19 Isis Innovation Visual tracking of objects in images, and segmentation of images
CN101482923B (zh) * 2009-01-19 2012-05-23 刘云 视频监控中人体目标的检测与性别识别方法
US9232140B2 (en) * 2012-11-12 2016-01-05 Behavioral Recognition Systems, Inc. Image stabilization techniques for video surveillance systems
US9129399B2 (en) * 2013-03-11 2015-09-08 Adobe Systems Incorporated Optical flow with nearest neighbor field fusion
WO2015008279A1 (en) * 2013-07-15 2015-01-22 Tel Hashomer Medical Research Infrastructure And Services Ltd. Mri image fusion methods and uses thereof
CN108122234B (zh) * 2016-11-29 2021-05-04 北京市商汤科技开发有限公司 卷积神经网络训练及视频处理方法、装置和电子设备
CN107146239B (zh) * 2017-04-21 2020-01-07 武汉大学 卫星视频运动目标检测方法及系统
US10552962B2 (en) * 2017-04-27 2020-02-04 Intel Corporation Fast motion based and color assisted segmentation of video into region layers
CN108492297B (zh) * 2017-12-25 2021-11-19 重庆师范大学 基于深度级联卷积网络的mri脑肿瘤定位与瘤内分割方法
CN110188754B (zh) * 2019-05-29 2021-07-13 腾讯科技(深圳)有限公司 图像分割方法和装置、模型训练方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383966A (zh) * 2007-09-05 2009-03-11 索尼株式会社 用于图像处理的装置和方法、以及计算机程序
CN101719279A (zh) * 2009-12-23 2010-06-02 西北工业大学 星空图像背景运动估计方法
CN102456225A (zh) * 2010-10-22 2012-05-16 深圳中兴力维技术有限公司 一种视频监控系统及其运动目标检测与跟踪方法
CN102740096A (zh) * 2012-07-13 2012-10-17 浙江工商大学 一种基于时空结合的动态场景立体视频匹配方法
CN108596184A (zh) * 2018-04-25 2018-09-28 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Deep Video Inpainting";Dahun Kim.etc;《Arxiv》;20190505;全文 *

Also Published As

Publication number Publication date
US20210366126A1 (en) 2021-11-25
CN110188754A (zh) 2019-08-30
US11900613B2 (en) 2024-02-13
WO2020238902A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
CN110188754B (zh) 图像分割方法和装置、模型训练方法和装置
US11551333B2 (en) Image reconstruction method and device
CN110321920B (zh) 图像分类方法、装置、计算机可读存储介质和计算机设备
Sun et al. Deep RGB-D saliency detection with depth-sensitive attention and automatic multi-modal fusion
Sekuboyina et al. Btrfly net: Vertebrae labelling with energy-based adversarial learning of local spine prior
Mahapatra et al. Joint registration and segmentation of xray images using generative adversarial networks
CN109978037B (zh) 图像处理方法、模型训练方法、装置、和存储介质
US20210233244A1 (en) System and method for image segmentation using a joint deep learning model
CN111932561A (zh) 基于集成知识蒸馏的实时肠镜影像分割方法及装置
CN111260055A (zh) 基于三维图像识别的模型训练方法、存储介质和设备
WO2019218136A1 (zh) 图像分割方法、计算机设备和存储介质
WO2024021523A1 (zh) 基于图网络的大脑皮层表面全自动分割方法及系统
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
Sokooti et al. Hierarchical prediction of registration misalignment using a convolutional LSTM: Application to chest CT scans
CN113902945A (zh) 一种多模态乳腺磁共振图像分类方法及系统
CN114782384A (zh) 一种基于半监督方法的心脏腔室图像分割方法及装置
Sharma et al. A novel solution of using deep learning for left ventricle detection: enhanced feature extraction
CN111209946B (zh) 三维图像处理方法、图像处理模型训练方法及介质
Cheng et al. Contrastive learning for echocardiographic view integration
CN116824146A (zh) 一种小样本ct图像分割方法、系统、终端及存储介质
CN111582449A (zh) 一种目标域检测网络的训练方法、装置、设备及存储介质
Khosla et al. Detecting abnormalities in resting-state dynamics: an unsupervised learning approach
CN106709921B (zh) 一种基于空间Dirichlet混合模型的彩色图像分割方法
Xu et al. Calculation of anatomical and functional metrics using deep learning in cardiac MRI: Comparison between direct and segmentation-based estimation
Shi et al. Modified U-net architecture for ischemic stroke lesion segmentation and detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant