CN114821048A - 目标物分割方法和相关装置 - Google Patents
目标物分割方法和相关装置 Download PDFInfo
- Publication number
- CN114821048A CN114821048A CN202210371616.4A CN202210371616A CN114821048A CN 114821048 A CN114821048 A CN 114821048A CN 202210371616 A CN202210371616 A CN 202210371616A CN 114821048 A CN114821048 A CN 114821048A
- Authority
- CN
- China
- Prior art keywords
- object segmentation
- segmentation
- target object
- image
- feature information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 261
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000007499 fusion processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 15
- 230000004927 fusion Effects 0.000 description 8
- 230000007547 defect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种目标物分割方法和相关装置,该目标物分割方法包括:获取视频中包含目标物的输入图像;将输入图像输入至设定的目标物分割模型,经目标物分割模型分割输出第一目标物分割图,目标物分割模型为经训练后学习到目标物分割功能的神经网络;对输入图像进行目标物的轮廓分割得到第二目标物分割图;将第一目标物分割图和第二目标物分割图进行对应像素点的合并操作,得到最终目标物分割图;其中,若执行合并操作的两像素点中有一个为目标物像素点,则合并后在最终目标物分割图中对应位置的像素点呈现为目标物像素点。本公开能够提高视频中图像帧的目标物分割精度。
Description
技术领域
本公开涉及视频处理的技术领域,具体涉及一种目标物分割方法和相关装置。
背景技术
随着网络课堂的流行与普及,教学视频成为一种不可或缺的教育资源。教学视频是摄像设备拍摄教学场景得到的视频。教学场景中,教师会因讲课需求挡住板书,因而在从教学视频的图像帧中提取板书数据完整的板书图像时需要先进行人像分割,其中,需要被分割出的人像即为目标物,其余部分都作为背景。这里所说的目标物不仅包括教师人体部位还包括教师随身附带的物品。然而,目前的人像分割技术存在分割精度低、计算复杂度高、受环境影响大等问题,使得前景内容分割不完全,或者背景内容误分割。
发明内容
为了解决上述技术问题,本公开提供了一种目标物分割方法和相关装置,能够提高目标物分割精度。
根据本公开第一方面,提供了一种目标物分割方法,包括:
获取视频中包含目标物的输入图像;
将所述输入图像输入至设定的目标物分割模型,经所述目标物分割模型分割输出第一目标物分割图,所述目标物分割模型为经训练后学习到目标物分割功能的神经网络;
对所述输入图像进行目标物的轮廓分割得到第二目标物分割图;
将所述第一目标物分割图和所述第二目标物分割图进行对应像素点的合并操作,得到最终目标物分割图;
其中,若执行合并操作的两像素点中有一个为目标物像素点,则合并后在所述最终目标物分割图中对应位置的像素点呈现为目标物像素点。
可选地,所述目标物分割模型执行的步骤包括:
从所述输入图像中提取出低层语义特征信息和高层语义特征信息;
将所述低层语义特征信息和所述高层语义特征信息进行信息融合处理,得到融合后的特征信息;
将所述融合后的特征信息进行上采样处理,得到所述第一目标物分割图。
可选地,所述目标物分割模型通过执行如下步骤来从所述输入图像中提取出低层语义特征信息和高层语义特征信息:
从所述输入图像中提取出低层语义特征信息;
以及,从提取出的低层语义特征信息中提取出高层语义特征信息。
可选地,所述目标物分割模型还用于对提取出的高层语义特征信息进行调整,且调整后的高层语义特征信息作为信息融合处理用到的高层语义特征信息。
可选地,将所述输入图像输入至设定的目标物分割模型,包括:将所述输入图像缩放为所述目标物分割模型所处理图像的预定尺寸,并将缩放处理后的输入图像输入至所述目标物分割模型;
经所述目标物分割模型分割输出第一目标物分割图,包括:经所述目标物分割模型分割输出分割图像并将所述分割图像经所述缩放处理的反处理得到所述第一目标物分割图。
可选地,对所述输入图像进行目标物的轮廓分割得到第二目标物分割图,包括:根据所述视频中所述输入图像和前一帧之间的差异确定第二目标物分割图。
可选地,根据所述视频中所述输入图像和前一帧之间的差异确定第二目标物分割图,包括:
将所述输入图像进行灰度化处理,得到第一灰度图;
将所述输入图像的前一帧进行灰度化处理,得到第二灰度图;
将所述第一灰度图和所述第二灰度图进行对应像素点的作差取绝对值操作,得到差异灰度图;
将所述差异灰度图进行二值化处理,得到所述第二目标物分割图。
可选地,所述第一目标物分割图和所述第二目标物分割图皆是目标物为白色、背景为黑色,将所述第一目标物分割图和所述第二目标物分割图进行对应像素点的合并操作,包括:将所述第一目标物分割图和所述第二目标物分割图进行对应像素点的相加操作/相或操作。
可选地,所述目标物分割方法还包括:对所述最终目标物分割图进行图像膨胀处理以优化所述最终目标物分割图。
根据本公开第二方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现第一方面所述的任一种方法的步骤。
根据本公开第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现第一方面所述的任一种方法的步骤。
本公开的有益效果:
本公开所提供的目标物分割方法,将第一目标物分割图和第二目标物分割图进行对应像素点的合并操作来得到最终目标物分割图,这里执行合并操作的两像素点中有一个为目标物像素点,则合并后在最终目标物分割图中对应位置的像素点呈现为目标物像素点。其中,第一目标物分割图通过目标物分割模型得到,第二目标物分割图通过目标物的轮廓分割得到,因而,第一目标物分割图在细小物体的轮廓确定方面存在缺陷,而第二目标物分割图能够较好地弥补这一缺陷,从而得到的最终目标物分割图具有较高的目标物分割精度。
应当说明的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1示出根据本公开实施例提供的一种目标物分割方法的流程图;
图2示出根据本公开实施例提供的一种目标物分割模型;
图3示出根据本公开实施例提供的一种目标物分割模型所执行的步骤流程图;
图4示出根据本公开实施例提供的一种得到第二目标物分割图的方法流程图;
图5示出根据本公开实施例提供的另一种目标物分割方法的流程图;
图6示出由本公开实施例所提供目标物分割方法得到的一个示例性的目标物分割结果示意图;
图7示出根据本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了便于理解本公开,下面将参照相关附图对本公开进行更全面的描述。附图中给出了本公开的较佳实施例。但是,本公开可以通过不同的形式来实现,并不限于本文所描述的实施例。相反的,提供这些实施例的目的是使对本公开的公开内容的理解更加透彻全面。
图1所示为本公开实施例提供的一种目标物分割方法流程图。参照图1,该目标物分割方法包括:
步骤S110,获取视频中包含目标物的输入图像。
具体地,输入图像是视频内的一个包含目标物的图像帧。以视频为拍摄教学场景得到的视频为例,在从视频的图像帧提取板书图像的应用中目标物即教师人体部位和教师随身附带的物品,因而该示例中有教师出现的图像帧即可作为上述输入图像。
步骤S120,将输入图像输入至设定的目标物分割模型,经目标物分割模型粗略分割输出第一目标物分割图。
具体地,目标物分割模型为一种神经网络,该神经网络经训练后学习到目标物分割的功能,从而能够对输入图像进行目标物分割,即识别出输入图像内的各像素点是目标物像素点还是背景像素点。目标物分割模型输出的第一目标物分割图中,目标物和背景达到设定对比度。应当理解的是,第一目标物分割图具有和输入图像一样的尺寸。
步骤S130,对输入图像进行目标物的轮廓分割得到第二目标物分割图。
具体地,第二目标物分割图中目标物和背景同样达到设定对比度。并且,第二目标物分割图同样具有和输入图像一样的尺寸,因而第二目标物分割图的尺寸和第一目标物分割图的尺寸一致,二者的像素点在位置上具有一一对应的关系。在以下描述中,将第一目标物分割图和第二目标物分割图的处于同一位置的像素点称为第一目标物分割图和第二目标物分割图的对应像素点,例如,第一目标物分割图的处于第一排第二列的像素点和第二目标物分割图的处于第一排第二列的像素点为这两分割图的一组对应像素点。
需要说明的是,由于第一目标物分割图和第二目标物分割图通过不同的方法得到,因而二者的对应像素点可能不是同一物体包括的像素点,即一个为目标物像素点而另一个为背景像素点。
步骤S140,将第一目标物分割图和第二目标物分割图进行对应像素点的合并操作,得到最终目标物分割图。
具体地,若执行合并操作的两像素点中有一个为目标物像素点,则合并后在最终目标物分割图中对应位置的像素点呈现为目标物像素点。应当理解的是,最终目标物分割图的尺寸和第一目标物分割图的尺寸一致,和第二目标物分割图的尺寸一致,也和输入图像的尺寸一致。
下面对上述步骤进行详细说明。
图2所示为目标物分割模型的一种结构示意图,图3所示为目标物分割模型所执行的步骤。参照图2,目标物分割模型可以包括:特征提取模块(Feature extraction module)10、特征融合模块(Feature Fusion Module)20和上采样模块30。参照图3,一个可选的实施例中,目标物分割模型粗略分割输入图像的过程中,执行了如下步骤:
步骤S121,由特征提取模块10从输入图像中提取出低层语义特征信息flow和高层语义特征信息fhigh。
步骤S122,由特征融合模块20将低层语义特征信息flow和高层语义特征信息fhigh进行信息融合处理,得到融合后的特征信息f。
步骤S123,由上采样模块30将融合后的特征信息f进行上采样处理,得到第一目标物分割图。
具体地,上述特征提取模块10的核心结构为卷积层,卷积层提取的特征具有层次性,不同的卷积层具有不同的语义层次从而提取出不同语义层次的特征信息。示例性地,如图2所示,特征提取模块10包括的多个卷积层中一部分属于浅层特征提取单元11而另一部分属于深层特征提取单元12,且浅层特征提取单元11和深层特征提取单元12连接,步骤S121的执行过程如下:由浅层特征提取单元11从输入图像中提取出低层语义特征信息flow,以及,由深层特征提取单元12接收浅层特征提取单元11提取出的低层语义特征信息flow并从接收到的低层语义特征信息flow中提取出高层语义特征信息fhigh。
低层语义特征信息flow为局部特征信息,例如一些边/角等细小部位的特征信息,这类特征信息通常来自图片的视觉敏感区域;高层语义特征信息fhigh为全局特征信息,这类特征信息对图像的压缩率较高,区分力不强。低层语义特征信息flow和高层语义特征信息fhigh可以相互补充,上述融合后的特征信息f即低层语义特征信息flow和高层语义特征信息fhigh相互补充得到的信息。相较于低层语义特征信息flow和高层语义特征信息fhigh,融合后的特征信息f为输入图像更全面的特征信息。
步骤S121提取特征信息的过程会涉及到降采样处理,降采样处理使得图像分辨率降低,融合后的特征信息f针对的是分辨率降低后的图像,因而步骤S123对融合后的特征信息f进行上采样处理以恢复分辨率,从而使得最终得到的第一目标物分割图分辨率和输入图像的分辨率一致。
进一步,参照图2,目标物分割模型还可以包括注意力微调模块(AttentionRefine module)40。注意力微调模块40设置在特征提取模块10和特征融合模块20之间,用于对特征提取模块10传输给特征融合模块20的高层语义特征信息fhigh进行调整,即,目标物分割模型执行的步骤还包括:对特征提取模块10提取出的高层语义特征信息fhigh进行调整。高层语义特征信息fhigh经注意力微调模块40调整后,上述特征融合模块20是利用调整后的高层语义特征信息fhigh'进行信息融合处理,即特征融合模块20将低层语义特征信息flow和调整后的高层语义特征信息fhigh'进行信息融合处理从而得到融合后的特征信息f。相较于高层语义特征信息fhigh,调整后的高层语义特征信息fhigh'和低层语义特征信息flow进行信息融合处理的过程中神经网络对目标物区域具有更多关注,这有助于改善神经网络的执行效率,从而提高目标物分割模型输出第一目标物分割图的速率。
一些情况下,视频的图像帧并不是目标物分割模型所处理图像的预定尺寸。因而,步骤S120中,将输入图像输入至设定的目标物分割模型,包括:将输入图像缩放为目标物分割模型所处理图像的预定尺寸(例如896×512,即水平有896个像素点,竖直有512个像素点),并将缩放处理后的输入图像输入至目标物分割模型;步骤S120中,经目标物分割模型粗略分割输出第一目标物分割图,包括:经目标物分割模型粗略分割输出分割图像(分割图像的尺寸为目标物分割模型所处理图像的预定尺寸)并将该分割图像经缩放处理的反处理得到第一目标物分割图。
上述目标物分割模型作为一种神经网络,经训练后具有目标物分割的功能,但实现的是目标物的一种粗略分割,能粗略分割出人像,在细小物体的轮廓确定方面存在缺陷,类似眼镜、手指、马克笔这种相对教师显得比较细小的物体则较难在背景中将其轮廓确定出来。因而,第一目标物分割图的目标物可能不包括一些本来属于目标物的细小物体。
另一个可选的实施例中,步骤S130,对输入图像进行目标物的轮廓分割得到第二目标物分割图,是根据视频中输入图像和前一帧之间的差异确定第二目标物分割图。
进一步,在目标物为运动的人/物体而背景中物体皆静止的情况下,如图4所示,根据视频中输入图像和前一帧之间的差异确定第二目标物分割图,可以包括:
步骤S131,将输入图像进行灰度化处理,得到第一灰度图。
具体地,灰度化处理采用现有方式,例如有平均值法,即将输入图像中的三分量亮度求平均得到一个灰度值;又例如有加权平均法,即根据重要性及其它指标,将输入图像中的三分量以不同权重进行加权平均来得到灰度值。应当理解的是,灰度化处理并不改变图像尺寸,因而第一灰度图的尺寸和输入图像的尺寸一致。
步骤S132,将输入图像的前一帧进行灰度化处理,得到第二灰度图。
具体地,应用于前一帧的灰度化处理方式,与应用于输入图像的灰度化处理方式一致。同理,第二灰度图的尺寸和前一帧的尺寸一致。由于同一视频内的图像帧具有相同的尺寸,因而第二灰度图的尺寸和当前灰度图的尺寸一致。在以下描述中,将第一灰度图和第二灰度图的处于同一位置的像素点称为第一灰度图和第二灰度图的对应像素点。
步骤S133,将第一灰度图和第二灰度图进行对应像素点的作差取绝对值操作,得到差异灰度图。
具体地,若记第一灰度图为fn,第二灰度图为fn-1,则按照公式(1)得到差异灰度图Dn。
Dn(x,y)=|fn(x,y)-fn-1(x,y)| (1)
其中,Dn(x,y)表示差异灰度图Dn中第x行第y列的像素点的灰度值,fn(x,y)表示第一灰度图fn中第x行第y列的像素点的灰度值,fn-1(x,y)表示第二灰度图fn-1中第x行第y列的像素点的灰度值。
步骤S134,将差异灰度图进行二值化处理,得到第二目标物分割图。
具体地,设定阈值T,可以按公式(2)逐个对差异灰度图Dn的像素点进行二值化处理,得到第二目标物分割图M2 n。
其中,M2 n(x,y)表示第二目标物分割图M2 n中第x行第y列的像素点的灰度值,P1和P2不相等。
拍摄设备采集的视频的图像帧序列具有连续性的特点。如果现实场景内没有目标物这一运动目标,由于现实场景内的背景都静止,因而连续的图像帧变化很微弱;如果现实场景内存在目标物这一运动目标,由于目标物运动,因而连续的图像帧之间会有明显的变化。上述步骤S131至步骤S134就是基于这一思想区分出背景和目标物,从而得到了第二目标物分割图。当然,本申请不限定上述方法,只要能够精确分割出目标物的轮廓的解决方案都可以作为本申请保护的一部分。
上述步骤S131至步骤S134的执行需要用到输入图像的前一帧,因而输入图像为视频的除去第一帧的任一图像帧。对于视频的第一帧,可以将第一目标物分割图直接确定为最终目标物分割图。
本公开实施例中所执行步骤的计算量较小,能够快速检测出目标物,从而得到上述第二目标物分割图。结合目标物分割模型能够快速得到上述第一目标物分割图,因而本公开提供的上述目标物分割方法在实际应用中能够达到实时性的要求。
需要说明的是,一些情景中,目标物移动较为缓慢,目标物在连续图像帧之间的位置变化缓慢,目标物在相邻图像帧中相重叠的部分通过上述步骤S131至步骤S134很难检测出来,因而步骤S131至步骤S134的执行虽然能够准确地确定目标物轮廓但确定出的目标物有时并不完整,具体体现为第二目标物分割图的目标物轮廓内含有“空洞”(即目标物轮廓内存在本应为目标物像素点的背景像素点)。
又一个可选的实施例中,第一目标物分割图和第二目标物分割图中目标物皆为白色且背景皆为黑色,步骤S140,将第一目标物分割图和第二目标物分割图进行对应像素点的合并操作,包括:将第一目标物分割图和第二目标物分割图进行对应像素点的相加操作或相或操作。
具体地,相加操作,即将第一目标物分割图和第二目标物分割图的对应像素点进行像素值相加操作,若得到的和不小于255,则相加后在最终目标物分割图中对应位置的像素点呈现为白色,反之相加后在最终目标物分割图中对应位置的像素点呈现为黑色。
相或操作,即将第一目标物分割图和第二目标物分割图的对应像素点进行像素值的逻辑或操作,其中,第一目标物分割图和第二目标物分割图内的白色像素点对应逻辑值“1”,黑色像素点对应逻辑值“0”,因而若执行相或操作的两像素点中有一个为白色像素点,则相或操作后在最终目标物分割图中对应位置的像素点就为白色像素点;若执行相或操作的两像素点都为黑色像素点,则相或操作后在最终目标物分割图中对应位置的像素点为黑色像素点。
本公开实施例通过第一目标物分割图和第二目标物分割图进行对应像素点的相加操作或相或操作,实现了如下目的:若执行合并操作的两像素点中有一个为目标物像素点,则合并后在最终目标物分割图中对应位置的像素点呈现为目标物像素点。
综上所述,目标物分割模型在细小物体的轮廓确定方面存在缺陷,上述第一目标物分割图的目标物可能不包括一些本来属于目标物的细小物体,而目标物的轮廓分割能够准确地确定目标物轮廓,因而恰好弥补了上述缺陷,从而结合第一目标物分割图和第二目标物分割图得到的最终目标物分割图具有较高的目标物分割精度,且第二目标物分割图的“空洞”问题在第一目标物分割图的弥补下也得到缓解。
图5所示为本公开实施例提供的另一种目标物分割方法的流程图。参照图5,在一个可选的实施例中,目标物分割方法,还包括:步骤S150,将最终目标物分割图进行图像膨胀处理。图像膨胀处理后的最终目标物分割图作为本公开所提供目标物分割方法得到的目标物分割结果。
具体地,若最终目标物分割图中目标物为白色且背景为黑色,则上述图像膨胀处理过程为:考虑最终目标物分割图中某个像素点连带周围8个像素点,这9个像素点排列出一个3×3的格子阵,该格子阵中心像素点在其周围像素点有白色像素点的情况下变为白色像素点。可见,所谓的图像膨胀处理,其实就是在图像的边缘添加图像像素点,使得图像整体的像素扩张,进而达到图像膨胀效果。
本公开实施例中,图像膨胀处理的作用是在最终目标物分割图的目标物边缘添加目标物像素点。由于目标物分割模型在细小物体的轮廓确定方面存在缺陷,因而第一目标物分割图对第二目标物分割图中的细小物体内的“空洞”无法弥补,上述步骤S150能够弥补细小物体内的“空洞”,从而优化了最终目标物分割图,使得所得目标物分割结果具有更完整的目标物。
图6所示为由本公开实施例所提供目标物分割方法得到的一个示例性的目标物分割结果示意图。参照图6,目标物为人像,该目标物分割结果中人像包括眼睛边框(见图6中人像右侧边的靠头顶部分)这类细小物体,而且人像轮廓内不存在“空洞”。图6所示的目标物分割结果在实例上证明本公开所提供目标物分割方法具有较高的分割精度。
本公开实施例还提供了一种电子设备1300,如图7所示,包括存储器1310和处理器1320及存储在存储器1310上并可在处理器1320上运行的程序,该程序被处理器1320执行时可实现上述目标物分割方法中各实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。当然,该电子设备1300还可以包括电源组件1330、网络接口1340和输入输出接口1350等辅助子设备。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读的可读存储介质中,并由处理器进行加载和执行。为此,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序或指令,该计算机程序或指令被处理器执行时可实现上述目标物分割方法中各实施例的各个过程。其中,计算机可读存储介质,如U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
由于该可读存储介质中所存储的指令,可以执行本公开实施例所提供的任一种目标物分割方法中的步骤,因此,可以实现本公开实施例所提供的任一种目标物分割方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
需要说明的是,本说明书中在对各个实施例进行描述时,均重点说明的是与其他实施例的不同之处,而对于各个实施例之间相同或相似的部分可互相参考进行理解。对于系统实施例而言,由于其与方法实施例基本相似,因此相关之处可参考对方法实施例部分的说明。
此外,需要指出的是,在本公开的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本公开的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本公开所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本公开的保护范围之中。
Claims (11)
1.一种目标物分割方法,其特征在于,包括:
获取视频中包含目标物的输入图像;
将所述输入图像输入至设定的目标物分割模型,经所述目标物分割模型分割输出第一目标物分割图,所述目标物分割模型为经训练后学习到目标物分割功能的神经网络;
对所述输入图像进行目标物的轮廓分割得到第二目标物分割图;
将所述第一目标物分割图和所述第二目标物分割图进行对应像素点的合并操作,得到最终目标物分割图;
其中,若执行合并操作的两像素点中有一个为目标物像素点,则合并后在所述最终目标物分割图中对应位置的像素点呈现为目标物像素点。
2.根据权利要求1所述的目标物分割方法,其特征在于,所述目标物分割模型执行的步骤包括:
从所述输入图像中提取出低层语义特征信息和高层语义特征信息;
将所述低层语义特征信息和所述高层语义特征信息进行信息融合处理,得到融合后的特征信息;
将所述融合后的特征信息进行上采样处理,得到所述第一目标物分割图。
3.根据权利要求2所述的目标物分割方法,其特征在于,所述目标物分割模型通过执行如下步骤来从所述输入图像中提取出低层语义特征信息和高层语义特征信息:
从所述输入图像中提取出低层语义特征信息;
以及,从提取出的低层语义特征信息中提取出高层语义特征信息。
4.根据权利要求2所述的目标物分割方法,其特征在于,所述目标物分割模型还用于对提取出的高层语义特征信息进行调整,且调整后的高层语义特征信息作为信息融合处理用到的高层语义特征信息。
5.根据权利要求1所述的目标物分割方法,其特征在于,
将所述输入图像输入至设定的目标物分割模型,包括:将所述输入图像缩放为所述目标物分割模型所处理图像的预定尺寸,并将缩放处理后的输入图像输入至所述目标物分割模型;
经所述目标物分割模型分割输出第一目标物分割图,包括:经所述目标物分割模型分割输出分割图像并将所述分割图像经所述缩放处理的反处理得到所述第一目标物分割图。
6.根据权利要求1所述的目标物分割方法,其特征在于,对所述输入图像进行目标物的轮廓分割得到第二目标物分割图,包括:根据所述视频中所述输入图像和前一帧之间的差异确定第二目标物分割图。
7.根据权利要求6所述的目标物分割方法,其特征在于,根据所述视频中所述输入图像和前一帧之间的差异确定第二目标物分割图,包括:
将所述输入图像进行灰度化处理,得到第一灰度图;
将所述输入图像的前一帧进行灰度化处理,得到第二灰度图;
将所述第一灰度图和所述第二灰度图进行对应像素点的作差取绝对值操作,得到差异灰度图;
将所述差异灰度图进行二值化处理,得到所述第二目标物分割图。
8.根据权利要求1所述的目标物分割方法,其特征在于,所述第一目标物分割图和所述第二目标物分割图皆是目标物为白色、背景为黑色,将所述第一目标物分割图和所述第二目标物分割图进行对应像素点的合并操作,包括:将所述第一目标物分割图和所述第二目标物分割图进行对应像素点的相加操作/相或操作。
9.根据权利要求1所述的目标物分割方法,其特征在于,还包括:对所述最终目标物分割图进行图像膨胀处理以优化所述最终目标物分割图。
10.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371616.4A CN114821048A (zh) | 2022-04-11 | 2022-04-11 | 目标物分割方法和相关装置 |
US18/174,022 US20230326035A1 (en) | 2022-04-11 | 2023-02-24 | Target object segmentation method and related device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371616.4A CN114821048A (zh) | 2022-04-11 | 2022-04-11 | 目标物分割方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114821048A true CN114821048A (zh) | 2022-07-29 |
Family
ID=82533931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210371616.4A Pending CN114821048A (zh) | 2022-04-11 | 2022-04-11 | 目标物分割方法和相关装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230326035A1 (zh) |
CN (1) | CN114821048A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220230291A1 (en) * | 2021-01-18 | 2022-07-21 | Hon Hai Precision Industry Co., Ltd. | Method for detecting defects in images, apparatus applying method, and non-transitory computer-readable storage medium applying method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070708B (zh) * | 2020-08-21 | 2024-03-08 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备、存储介质 |
-
2022
- 2022-04-11 CN CN202210371616.4A patent/CN114821048A/zh active Pending
-
2023
- 2023-02-24 US US18/174,022 patent/US20230326035A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220230291A1 (en) * | 2021-01-18 | 2022-07-21 | Hon Hai Precision Industry Co., Ltd. | Method for detecting defects in images, apparatus applying method, and non-transitory computer-readable storage medium applying method |
Also Published As
Publication number | Publication date |
---|---|
US20230326035A1 (en) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
EP3951702A1 (en) | Method for training image processing model, image processing method, network device, and storage medium | |
CN110517246B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN107403130A (zh) | 一种字符识别方法及字符识别装置 | |
CN111681273A (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
CN114821048A (zh) | 目标物分割方法和相关装置 | |
CN110135446B (zh) | 文本检测方法及计算机存储介质 | |
US11720745B2 (en) | Detecting occlusion of digital ink | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN108447060B (zh) | 基于rgb-d图像的前后景分离方法及其前后景分离装置 | |
CN112927209A (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN111784624A (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN114627173A (zh) | 通过差分神经渲染进行对象检测的数据增强 | |
CN112101344B (zh) | 一种视频文本跟踪方法及装置 | |
CN114663665A (zh) | 基于梯度的对抗样本生成方法与系统 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
KR20190093752A (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN111931689A (zh) | 一种在线提取视频卫星数据鉴别特征的方法 | |
US20230135636A1 (en) | Method of reflection removal based on a generative adversarial network used for training of an adas camera of a vehicle | |
CN108776815A (zh) | 一种基于深度特征的显著性目标检测方法 | |
CN116523790B (zh) | 一种sar图像去噪优化方法、系统和存储介质 | |
Sun et al. | Offset flow-guide transformer network for semisupervised real-world video denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant after: Beijing ESWIN Computing Technology Co.,Ltd. Address before: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant before: Beijing yisiwei Computing Technology Co.,Ltd. |
|
CB02 | Change of applicant information |