CN108229290A - 视频物体分割方法和装置、电子设备、存储介质和程序 - Google Patents
视频物体分割方法和装置、电子设备、存储介质和程序 Download PDFInfo
- Publication number
- CN108229290A CN108229290A CN201710619408.0A CN201710619408A CN108229290A CN 108229290 A CN108229290 A CN 108229290A CN 201710619408 A CN201710619408 A CN 201710619408A CN 108229290 A CN108229290 A CN 108229290A
- Authority
- CN
- China
- Prior art keywords
- frame
- segmentation result
- frames
- object segmentation
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 230000011218 segmentation Effects 0.000 claims abstract description 629
- 230000005540 biological transmission Effects 0.000 claims description 59
- 238000012546 transfer Methods 0.000 claims description 40
- 238000004891 communication Methods 0.000 claims description 12
- 238000003709 image segmentation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000003287 optical effect Effects 0.000 description 80
- 238000001514 detection method Methods 0.000 description 53
- 238000013528 artificial neural network Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 20
- 238000012549 training Methods 0.000 description 16
- 230000003321 amplification Effects 0.000 description 13
- 238000003199 nucleic acid amplification method Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000013341 scale-up Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了视频物体分割方法和装置、电子设备、存储介质和程序,其中一种方法包括:在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果;确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧;以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果;将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧。本发明实施例提高了视频物体分割结果的准确率。
Description
技术领域
本发明涉及计算机视觉技术,尤其是一种视频物体分割方法和装置、电子设备、存储介质和程序。
背景技术
由于深度卷积神经网络具备强大的学习能力,并且具有大量标注好的数据供其学习,近年来,深度卷积神经网络在许多计算机视觉任务中已经取得了巨大的成功。
在计算机视觉领域中,视频中物体分割,是指将视频中各帧中像素按照不同物体进行分组(Grouping)/分割(Segmentation),从而将各帧细分为多个图像子区域(像素的集合)的过程。视频中的物体分割,在智能视频分析、安防监控、自动驾驶等很多领域均有重要应用。
发明内容
本发明实施例提供一种用于进行视频物体分割的技术方案。
根据本发明实施例的一个方面,提供的一种视频物体分割方法,包括:
在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果;
确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧;
以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果;
将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧。
可选地,在本发明上述各方法实施例中,所述参考帧包括:所述至少部分帧中的第一帧;所述自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,包括:将所述第一帧的物体分割结果在所述至少部分帧中沿时序正方向进行帧间传递,直至所述至少部分帧中的最后一帧;或者,
所述参考帧包括:所述至少部分帧中的最后一帧;所述自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,包括:将所述最后一帧的物体分割结果在所述至少部分帧中沿时序反方向进行帧间传递,直至所述至少部分帧中的第一帧;或者,
所述参考帧包括:所述至少部分帧中位于第一帧与最后一帧之间的中间一帧;所述自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,包括:将所述中间一帧的物体分割结果在所述至少部分帧中分别沿时序正方向和/或时序反方向进行帧间传递,直至所述至少部分帧中的第一帧和/或最后一帧。
可选地,在本发明上述各方法实施例中,所述自参考帧顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果,包括:
根据沿所述参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定所述传播方向上在后帧的物体分割结果,所述传播方向包括所述视频的时序正方向和/或时序反方向。
可选地,在本发明上述各方法实施例中,所述在先帧包括:所述在后帧在所述至少部分帧中沿时序正方向或时序反方向上的相邻帧或相邻关键帧。
可选地,在本发明上述各方法实施例中,根据沿所述参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定所述传播方向上在后帧的物体分割结果,包括:
从所述在后帧获取包括一物体的图像块;从所述在先帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;
至少根据所述图像块和所述概率图谱块,确定所述在后帧中所述物体的物体分割结果。
可选地,在本发明上述各方法实施例中,至少根据所述图像块和所述概率图谱块,确定所述在后帧中所述物体的物体分割结果,包括:
分别将所述图像块和所述概率图谱块放大至预设尺寸;
根据分别放大后的所述图像块和所述概率图谱块,获取所述在后帧中所述物体在所述预设尺寸下的物体分割结果;
根据所述图像块和所述概率图谱块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各方法实施例中,还包括:根据所述在先帧与所述在后帧之间的光流图获取所述物体对应的光流图块;
所述至少根据所述图像块和所述概率图谱块,确定所述在后帧中所述物体的物体分割结果,包括:根据所述图像块、所述概率图谱块和所述光流图块,获取所述在后帧中所述物体的物体分割结果。
可选地,在本发明上述各方法实施例中,根据所述图像块、所述概率图谱块和所述光流图块,确定所述在后帧中所述物体的物体分割结果,包括:
根据所述图像块和所述概率图谱块,获取所述在后帧中所述物体的第一物体分割结果;以及根据所述概率图谱块和所述光流图块,获取所述在后帧中所述物体的第二物体分割结果;
根据所述第一物体分割结果和所述第二物体分割结果,获取所述在后帧中所述物体的物体分割结果。
可选地,在本发明上述各方法实施例中,根据所述图像块、所述概率图谱块和所述光流图块,确定所述在后帧中所述物体的物体分割结果,包括:
分别将所述图像块、所述概率图谱块和所述光流图块放大至预设尺寸;
根据分别放大后的所述图像块、所述概率图谱块和所述光流图块,获取所述在后帧中所述物体在所述预设尺寸下的物体分割结果;
根据所述图像块、所述概率图谱块和所述光流图块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各方法实施例中,所述根据分别放大后的所述图像块、所述概率图谱块和所述光流图块,获取所述在后帧中所述物体在所述预设尺寸下的物体分割结果,包括:
根据分别放大后的所述图像块和所述概率图谱块,获取所述在后帧中所述物体的第三物体分割结果;以及根据分别放大后的所述概率图谱块和所述光流图块,获取所述在后帧中所述物体的第四物体分割结果;
根据所述第三物体分割结果和所述第四物体分割结果,确定所述在后帧中所述物体在所述预设尺寸下的物体分割结果。
可选地,在本发明上述各方法实施例中,所述图像块大于所述物体的物体候选框且小于所述在后帧的图像大小。
可选地,在本发明上述各方法实施例中,所述确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧,包括:
以所述至少部分帧中的帧任一其他帧作为当前帧,对所述当前帧进行物体检测,获得所述当前帧的物体候选框集;
将所述当前帧的物体检测框集包括的各物体候选框分别与所述参考帧的物体分割结果对应的物体后续框进行匹配;
根据匹配结果确定所述当前帧是否是相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各方法实施例中,将所述物体检测框集包括的各物体候选框与所述参考帧的物体分割结果对应的物体候选框进行匹配,包括:分别对所述物体检测框集包括的各物体候选框进行特征提取;将所述物体检测框集包括的各物体候选框的特征,与所述参考帧中的物体分割结果对应的物体候选框的特征进行匹配;
所述根据匹配结果确定所述当前帧是否是相对所述参考帧的物体分割结果丢失物体的其他帧,包括:根据匹配结果,确定所述物体检测框集包括的各物体候选框与所述参考帧中的物体分割结果对应的物体候选框中,是否存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;若存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框,确定所述当前帧是相对所述参考帧的物体分割结果丢失物体的其他帧;否则,确定所述当前帧不是相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各方法实施例中,所述确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧,包括:
分别对所述至少部分帧中的各其他帧进行物体检测,得到物体候选框集;
将所述物体检测框集包括的各物体候选框与所述参考帧的物体分割结果对应的物体候选框进行匹配;
根据匹配结果确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各方法实施例中,将所述物体检测框集包括的各物体候选框与所述参考帧的物体分割结果对应的物体候选框进行匹配,包括:分别对所述物体检测框集包括的各物体候选框进行特征提取;将所述物体检测框集包括的各物体候选框的特征,与所述参考帧中的物体分割结果对应的物体候选框的特征进行匹配;
所述根据匹配结果确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧,包括:根据匹配结果,获取所述物体检测框集包括的各物体候选框与所述参考帧中的物体分割结果对应的物体候选框中,特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;获取特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的所述物体检测框集中的物体候选框对应的帧为相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各方法实施例中,所述以确定的其他帧作为目标帧,包括:
若所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧包括多个,从相对所述参考帧的物体分割结果丢失物体的其他帧中选取一个其他帧作为目标帧。
可选地,在本发明上述各方法实施例中,将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧,包括:
获取所述至少部分帧中丢失所述丢失物体的连续帧;
将所述目标帧更新后的物体分割结果顺序传递到所述连续帧中的所述至少一其他帧。
可选地,在本发明上述各方法实施例中,所述至少一其他帧包括:所述连续帧中的第一帧;将所述目标帧更新后的物体分割结果顺序传递到所述连续帧中的所述至少一其他帧,包括:将所述目标帧更新后的物体分割结果在所述连续帧中沿时序正方向顺序传递到所述连续帧中的最后一帧;或者
所述至少一其他帧包括:所述连续帧中的最后一帧;将所述目标帧更新后的物体分割结果顺序传递到所述连续帧中的所述至少一其他帧,包括:将所述目标帧更新后的物体分割结果在所述连续帧中沿时序反方向顺序传递到所述连续帧中的第一帧;或者
所述至少一其他帧包括:所述连续帧中位于第一帧和最后一帧之间的中间帧;将所述目标帧更新后的物体分割结果顺序传递到所述连续帧中的所述至少一其他帧,包括:将所述目标帧更新后的物体分割结果在所述连续帧中沿时序正方向沿时序正方向顺序传递到所述连续帧中的最后一帧和/或沿时序反方向顺序传递到所述连续帧中的第一帧。
可选地,在本发明上述各方法实施例中,针对同一所述丢失物体,本次将所述目标帧更新后的物体分割结果传递到的其他帧,与之前将目标帧更新后的物体分割结果传递到的其他帧的范围不重叠。
根据本发明实施例的另一个方面,提供的另一种视频物体分割方法,包括:
从视频中的当前帧获取包括一物体的图像块;从所述当前帧的邻近帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;
至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果。
可选地,在本发明上述各另一种视频物体分割方法实施例中,所述至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果,包括:
分别将所述图像块和所述概率图谱块放大至预设尺寸;
根据分别放大后的所述图像块和所述概率图谱块,获取所述当前帧中所述物体在所述预设尺寸下的物体分割结果;
根据所述图像块和所述概率图谱块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各另一种视频物体分割方法实施例中,还包括:根据所述邻近帧与所述当前帧之间的光流图获取所述物体对应的光流图块;
所述至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果,包括:根据所述图像块、所述概率图谱块和所述光流图块,获取所述当前帧中所述物体的物体分割结果。
可选地,在本发明上述各另一种视频物体分割方法实施例中,根据所述图像块、所述概率图谱块和所述光流图块,确定所述当前帧中所述物体的物体分割结果,包括:
根据所述图像块和所述概率图谱块,获取所述当前帧中所述物体的第一物体分割结果;以及根据所述概率图谱块和所述光流图块,获取所述当前帧中所述物体的第二物体分割结果;
根据所述第一物体分割结果和所述第二物体分割结果,获取所述当前帧中所述物体的物体分割结果。
可选地,在本发明上述各另一种视频物体分割方法实施例中,根据所述图像块、所述概率图谱块和所述光流图块,确定所述当前帧中所述物体的物体分割结果,包括:
分别将所述图像块、所述概率图谱块和所述光流图块放大至预设尺寸;
根据分别放大后的所述图像块、所述概率图谱块和所述光流图块,获取所述当前帧中所述物体在所述预设尺寸下的物体分割结果;
根据所述图像块、所述概率图谱块和所述光流图块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各另一种视频物体分割方法实施例中,所述根据分别放大后的所述图像块、所述概率图谱块和所述光流图块,确定所述当前帧中所述物体在所述预设尺寸下的物体分割结果,包括:
根据分别放大后的所述图像块和所述概率图谱块,获取所述当前帧中所述物体的第三物体分割结果;以及根据分别放大后的所述概率图谱块和所述光流图块,获取所述当前帧中所述物体的第四物体分割结果;
根据所述第三物体分割结果和所述第四物体分割结果,确定所述当前帧中所述物体在所述预设尺寸下的物体分割结果。
可选地,在本发明上述各另一种视频物体分割方法实施例中,所述当前帧的邻近帧包括:所述视频中所述当前帧沿时序正方向或时序反方向上的相邻帧或相邻关键帧。
可选地,在本发明上述各另一种视频物体分割方法实施例中,所述图像块大于所述物体的物体候选框且小于所述在邻近帧的图像大小。
根据本发明实施例的又一个方面,提供的一种视频物体分割装置,包括:
所述传递网络,用于在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果;以及将物体再识别网络获得的目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧;
所述物体再识别网络,用于确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧;以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果。
可选地,在本发明上述各装置实施例中,所述参考帧包括:所述至少部分帧中的第一帧;所述传递网络具体用于将所述第一帧的物体分割结果在所述至少部分帧中沿时序正方向进行帧间传递,直至所述至少部分帧中的最后一帧;或者,
所述参考帧包括:所述至少部分帧中的最后一帧;所述传递网络具体用于将所述最后一帧的物体分割结果在所述至少部分帧中沿时序反方向进行帧间传递,直至所述至少部分帧中的第一帧;或者,
所述参考帧包括:所述至少部分帧中位于第一帧与最后一帧之间的中间一帧;所述传递网络具体用于将所述中间一帧的物体分割结果在所述至少部分帧中分别沿时序正方向和/或时序反方向进行帧间传递,直至所述至少部分帧中的第一帧和/或最后一帧。
可选地,在本发明上述各装置实施例中,所述传递网络自参考帧顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果时,具体用于:
根据沿所述参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定所述传播方向上在后帧的物体分割结果,所述传播方向包括所述视频的时序正方向和/或时序反方向;
所述在先帧包括:所述在后帧在所述至少部分帧中沿时序正方向或时序反方向上的相邻帧或相邻关键帧。
可选地,在本发明上述各装置实施例中,所述传递网络包括:
第一获取模块,用于从所述在后帧获取包括一物体的图像块;以及从所述在先帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;
确定模块,用于至少根据所述图像块和所述概率图谱块,确定所述在后帧中所述物体的物体分割结果。
可选地,在本发明上述各装置实施例中,所述确定模块包括:
第一缩放单元,用于分别将所述图像块和所述概率图谱块放大至预设尺寸;
第一神经网络,用于根据分别放大后的所述图像块和所述概率图谱块,获取所述在后帧中所述物体在所述预设尺寸下的物体分割结果;
第二缩放单元,用于根据所述图像块和所述概率图谱块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各装置实施例中,所述第一获取模块还用于根据所述在先帧与所述在后帧之间的光流图获取所述物体对应的光流图块;
所述确定模块具体用于:根据所述图像块、所述概率图谱块和所述光流图块,获取所述在后帧中所述物体的物体分割结果。
可选地,在本发明上述各装置实施例中,所述确定模块包括:
第一神经网络,用于根据所述图像块和所述概率图谱块,获取所述在后帧中所述物体的第一物体分割结果;
第二神经网络,用于根据所述概率图谱块和所述光流图块,获取所述在后帧中所述物体的第二物体分割结果;
计算单元,用于根据所述第一物体分割结果和所述第二物体分割结果,获取所述在后帧中所述物体的物体分割结果。
可选地,在本发明上述各装置实施例中,所述确定模块包括:
第一缩放单元,用于分别将所述图像块、所述概率图谱块和所述光流图块放大至预设尺寸;
获取单元,用于根据分别放大后的所述图像块、所述概率图谱块和所述光流图块,获取所述在后帧中所述物体在所述预设尺寸下的物体分割结果;
第二缩放单元,用于根据所述图像块、所述概率图谱块和所述光流图块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各装置实施例中,所述获取单元包括:
第一神经网络,用于根据分别放大后的所述图像块和所述概率图谱块,获取所述在后帧中所述物体的第三物体分割结果;
第二神经网络,用于根据分别放大后的所述概率图谱块和所述光流图块,获取所述在后帧中所述物体的第四物体分割结果;
计算单元,用于根据所述第三物体分割结果和所述第四物体分割结果,确定所述在后帧中所述物体在所述预设尺寸下的物体分割结果。
可选地,在本发明上述各装置实施例中,所述图像块大于所述物体的物体候选框且小于所述在后帧的图像大小。
可选地,在本发明上述各装置实施例中,所述物体再识别网络确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧时,具体用于:
以所述至少部分帧中的帧任一其他帧作为当前帧,对所述当前帧进行物体检测,获得所述当前帧的物体候选框集;
将所述当前帧的物体检测框集包括的各物体候选框分别与所述参考帧的物体分割结果对应的物体后续框进行匹配;
根据匹配结果确定所述当前帧是否是相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各装置实施例中,所述物体再识别网络将所述物体检测框集包括的各物体候选框与所述参考帧的物体分割结果对应的物体候选框进行匹配时,具体用于:分别对所述物体检测框集包括的各物体候选框进行特征提取;将所述物体检测框集包括的各物体候选框的特征,与所述参考帧中的物体分割结果对应的物体候选框的特征进行匹配;
所述物体再识别网络根据匹配结果确定所述当前帧是否是相对所述参考帧的物体分割结果丢失物体的其他帧时,具体用于:根据匹配结果,确定所述物体检测框集包括的各物体候选框与所述参考帧中的物体分割结果对应的物体候选框中,是否存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;若存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框,确定所述当前帧是相对所述参考帧的物体分割结果丢失物体的其他帧;否则,确定所述当前帧不是相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各装置实施例中,所述物体再识别网络确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧时,具体用于:
分别对所述至少部分帧中的各其他帧进行物体检测,得到物体候选框集;
将所述物体检测框集包括的各物体候选框与所述参考帧的物体分割结果对应的物体候选框进行匹配;
根据匹配结果确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各装置实施例中,所述物体再识别网络将所述物体检测框集包括的各物体候选框与所述参考帧的物体分割结果对应的物体候选框进行匹配时,具体用于:分别对所述物体检测框集包括的各物体候选框进行特征提取;将所述物体检测框集包括的各物体候选框的特征,与所述参考帧中的物体分割结果对应的物体候选框的特征进行匹配;
所述物体再识别网络根据匹配结果确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧时,具体用于:根据匹配结果,获取所述物体检测框集包括的各物体候选框与所述参考帧中的物体分割结果对应的物体候选框中,特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;获取特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的所述物体检测框集中的物体候选框对应的帧为相对所述参考帧的物体分割结果丢失物体的其他帧。
可选地,在本发明上述各装置实施例中,所述物体再识别网络以确定的其他帧作为目标帧时,具体用于:若所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧包括多个,从相对所述参考帧的物体分割结果丢失物体的其他帧中选取一个其他帧作为目标帧。
可选地,在本发明上述各装置实施例中,所述传递网络将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧时,具体用于:
获取所述至少部分帧中丢失所述丢失物体的连续帧;
将所述目标帧更新后的物体分割结果顺序传递到所述连续帧中的所述至少一其他帧。
可选地,在本发明上述各装置实施例中,所述至少一其他帧包括:所述连续帧中的第一帧;所述传递网络具体用于将所述目标帧更新后的物体分割结果在所述连续帧中沿时序正方向顺序传递到所述连续帧中的最后一帧;或者
所述至少一其他帧包括:所述连续帧中的最后一帧;所述传递网络具体用于:将所述目标帧更新后的物体分割结果在所述连续帧中沿时序反方向顺序传递到所述连续帧中的第一帧;或者
所述至少一其他帧包括:所述连续帧中位于第一帧和最后一帧之间的中间帧;所述传递网络具体用于:将所述目标帧更新后的物体分割结果在所述连续帧中沿时序正方向沿时序正方向顺序传递到所述连续帧中的最后一帧和/或沿时序反方向顺序传递到所述连续帧中的第一帧。
根据本发明实施例的再一个方面,提供的另一种视频物体分割装置,包括:
第一获取模块,用于从视频中的当前帧获取包括一物体的图像块;从所述当前帧的邻近帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;
确定模块,用于至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述确定模块包括:
第一缩放单元,用于分别将所述图像块和所述概率图谱块放大至预设尺寸;
第一神经网络,用于根据分别放大后的所述图像块和所述概率图谱块,获取所述当前帧中所述物体在所述预设尺寸下的物体分割结果;
第二缩放单元,用于根据所述图像块和所述概率图谱块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述第一获取模块还用于根据所述邻近帧与所述当前帧之间的光流图获取所述物体对应的光流图块;
所述确定模块具体用于:根据所述图像块、所述概率图谱块和所述光流图块,获取所述当前帧中所述物体的物体分割结果。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述确定模块包括:
第一神经网络,用于根据所述图像块和所述概率图谱块,获取所述当前帧中所述物体的第一物体分割结果;
第二神经网络,用于根据所述概率图谱块和所述光流图块,获取所述当前帧中所述物体的第二物体分割结果;
计算单元,用于根据所述第一物体分割结果和所述第二物体分割结果,获取所述当前帧中所述物体的物体分割结果。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述确定模块包括:
第一缩放单元,用于分别将所述图像块、所述概率图谱块和所述光流图块放大至预设尺寸;
获取单元,用于根据分别放大后的所述图像块、所述概率图谱块和所述光流图块,获取所述当前帧中所述物体在所述预设尺寸下的物体分割结果;
第二缩放单元,用于根据所述图像块、所述概率图谱块和所述光流图块的放大比例,将所述物体在所述预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述获取单元包括:
第一神经网络,用于根据分别放大后的所述图像块和所述概率图谱块,获取所述当前帧中所述物体的第三物体分割结果;
第二神经网络,用于根据分别放大后的所述概率图谱块和所述光流图块,获取所述当前帧中所述物体的第四物体分割结果;
计算单元,用于根据所述第三物体分割结果和所述第四物体分割结果,确定所述当前帧中所述物体在所述预设尺寸下的物体分割结果。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述当前帧的邻近帧包括:所述视频中所述当前帧沿时序正方向或时序反方向上的相邻帧或相邻关键帧。
可选地,在本发明上述各另一种视频物体分割装置实施例中,所述图像块大于所述物体的物体候选框且小于所述邻近帧的图像大小。
根据本发明实施例的再一个方面,提供的一种电子设备,包括上述任一实施例所述的视频物体分割装置、或者视频物体分割结果的传递装置。
根据本发明实施例的再一个方面,提供的另一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于与所述存储器通信以执行所述可执行指令从而完成本发明上述任一实施例所述方法的操作。
根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令被执行时实现本发明上述任一实施例所述方法的操作。
根据本发明实施例的再一个方面,提供的一种计算机程序,包括计算机可读取的指令,当所述计算机可读取的指令在设备中运行时,所述设备中的处理器执行用于实现本发明上述任一实施例所述方法中的步骤的可执行指令。
基于本发明实施例提供的一种视频物体分割方法和装置、电子设备、存储介质和程序,在视频的至少部分帧中,自参考帧开始顺序进行参考帧的物体分割结果的帧间传递,获得该至少部分帧中各其他帧的物体分割结果;确定该至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧,以确定的其他帧作为目标帧进行丢失物体的分割,以更新目标帧的物体分割结果;将目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧,以对该至少一其他帧的物体分割结果进行修正。基于本实施例,可以将参考帧的物体分割结果传递到视频的至少部分帧中的其他帧上,使得视频物体分割结果在时序上更加连续;对传递中丢失物体的目标帧进行丢失物体的分割、以更新该目标帧的物体分割结果,并将该目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧,对传递到的其他帧的物体分割结果进行修正,可以避免因为遮挡和物体姿态大幅度变化造成的该物体分割结果传递失败的问题、以及多个物体运动重叠再分开后,物体分割结果中会混淆或丢失部分物体的问题,提高了视频物体分割结果的准确率。
基于本发明实施例提供的另一种视频物体分割方法和装置、电子设备、存储介质和程序,从视频中的当前帧获取包括一物体的图像块,从当前帧的邻近帧的物体类别概率图谱获取物体对应物体类别的概率图谱块;至少根据该图像块和概率图谱块,确定当前帧中物体的物体分割结果。本发明本实施例,基于当前帧中包括物体的图像块和邻近帧的物体类别概率图谱中该物体对应物体类别的概率图谱块,来确定当前帧中物体的物体分割结果,可以有效捕获图像中的小尺寸物体和细节信息、避免图像中背景噪声的干扰,从而避免帧中任一物体尺寸较小、尺寸变化较大等原因导致的物体分割结果传递失败的问题,提高了视频物体分割结果的准确率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明视频物体分割方法一个实施例的流程图。
图2为本发明视频物体分割方法另一个实施例的流程图。
图3为应用本发明视频物体分割方法实施例对视频中物体进行分割的一个过程示意图。
图4为本发明视频物体分割方法又一个实施例的流程图。
图5为本发明视频物体分割方法再一个实施例的流程图。
图6为本发明实施例中将物体分割结果进行帧间传递的一个示例图。
图7为本发明视频物体分割装置一个实施例的结构示意图。
图8为本发明实施例中传递网络一个实施例的结构示意图。
图9为本发明实施例中传递网络另一个实施例的结构示意图。
图10为本发明实施例中传递网络又一个实施例的结构示意图。
图11为本发明实施例中传递网络再一个实施例的结构示意图。
图12为本发明电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明视频物体分割方法一个实施例的流程图。如图1所示,该实施例的视频物体分割方法包括:
102,在视频的至少部分帧中,自参考帧开始顺序进行参考帧的物体分割结果的帧间传递,获得该至少部分帧中各其他帧的物体分割结果。
其中,本发明各实施例中的帧即帧图像。根据应用需求,上述至少部分帧可以是整个视频中的帧,也可以是视频中其中一段视频包括的帧,或者从视频中每隔至少一帧提取出来的帧的集合,均可应用本发明实施例进行视频物体分割。
在其中一个可选示例中,上述参考帧可以是上述至少部分帧中的第一帧。相应地,该操作102中,具体将该第一帧的物体分割结果在上述至少部分帧中沿时序正方向进行帧间传递,直至该至少部分帧中的最后一帧。
在另一个可选示例中,上述参考帧可以是上述至少部分帧中的最后一帧。相应地,该操作102中,具体将该最后一帧的物体分割结果在该至少部分帧中沿时序反方向进行帧间传递,直至该至少部分帧中的第一帧。
在又一个可选示例中,上述参考帧可以是上述至少部分帧中位于第一帧与最后一帧之间的中间一帧。相应地,该操作102中,具体将该中间一帧的物体分割结果在该至少部分帧中分别沿时序正方向和/或时序反方向进行帧间传递,直至该至少部分帧中的第一帧和/或最后一帧。
在本发明各实施例的一个可选示例中,物体分割结果可以表示为物体的概率图谱。具体来说,每帧的物体分割结果可以表示为一个概率图谱,该概率图谱中各像素的取值表示该像素对应的帧中物体的物体类别。另外,每帧的物体分割结果也可以表示为多个概率图谱,每个概率图谱分别表示帧中一个物体类别的概率图谱,在每个概率图谱中,各像素对应的帧中物体的物体类别为该概率图谱表示的物体类别的,该像素点的取值可以为1;否则,各像素对应的帧中物体的物体类别不是该概率图谱表示的物体类别的,该像素点的取值可以为0。
104,确定上述至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧。
106,以确定的其他帧作为目标帧进行丢失物体的分割,以更新该目标帧的物体分割结果。
其中,目标帧可以是上述至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧中的一帧或多帧。
108,将该目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧。
在本发明实施例中,操作104-108可以仅执行一次,也可以是一个循环执行的操作执行多次,直至上述至少部分帧中相对参考帧的物体分割结果不存在丢失物体的其他帧。其中,操作102和108可以分别看作一个物体分割结果的传播过程,操作104和106可以看作一个物体再识别过程。即:本发明实施例中,操作104-108可以看作是物体分割结果的传播过程与物体再识别过程交替执行的循环过程。在循环过程中,可以将操作108中的目标帧作为参考帧,将目标帧更新后的物体分割结果作为参考帧的物体分割结果,在视频或其至少部分帧中进行帧间传递。
本发明的过程中,发明人通过研究发现,现有技术进行视频中物体分割时,主要是在对图像进行物体分割基础上加入时间连续性约束,因此至少存在以下问题:在物体运动比较剧烈时,物体分割结果容易产生漂移,逐帧的误差进行累积,会导致物体分割结果中会丢失该物体;当物体被遮挡之后再次出现,容易造成物体分割失败,无法获得正确的物体分割结果;多个物体运动重叠再分开后,物体分割结果中会混淆或丢失其中一个或部分物体。
基于本实施例,可以将参考帧的物体分割结果传递到视频的至少部分帧中的其他帧上,使得视频物体分割结果在时序上更加连续;对传递中丢失物体的目标帧进行丢失物体的分割、以更新该目标帧的物体分割结果,并将该目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧,对传递到的其他帧的物体分割结果进行修正,可以避免因为遮挡和物体姿态大幅度变化造成的该物体分割结果传递失败的问题、以及多个物体运动重叠再分开后,物体分割结果中会混淆或丢失部分物体的问题,提高了视频物体分割结果的准确率。
在图1所示实施例的再一个可选示例中,操作102中,自参考帧顺序进行参考帧的物体分割结果的帧间传递,获得至少部分帧中各其他帧的物体分割结果,可以通过如下方式实现:
根据沿参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定传播方向上在后帧的物体分割结果,其中的传播方向包括视频的时序正方向和/或时序反方向。
本发明实施例中,在先帧、在后帧是相对于传播方向的顺序而言的,具有相对性。其中的传播方向可以是视频的时序正方向或时序反方向。在传播方向上顺序靠前的帧为在先帧,在传播方向上顺序靠后的帧为在后帧。具体而言,在先帧可以是:在后帧在上述至少部分帧中沿时序正方向或时序反方向上的相邻帧或相邻关键帧,其中的关键帧可以是在上述至少部分帧中沿时序正方向或时序反方向上,与在后帧之间间隔在预设帧数范围内的帧。当传播方向变化时,在先帧与在后帧相应变化。
进一步示例性地,根据沿参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定传播方向上在后帧的物体分割结果,可以利用一个传递网络,执行如下操作实现:
从在后帧获取包括一物体的图像块;从在先帧的物体类别概率图谱获取该物体对应物体类别的概率图谱块;
至少根据上述图像块和概率图谱块,确定在后帧中该物体的物体分割结果。
在本发明实施例的进一步可选示例中,提取的包括物体的图像块的大小可以大于该物体的物体候选框且小于该在后帧的图像大小,以便后续可以从图像块中提取特征时可以提取到更多的上下文信息,有助于更准确的获取该物体的物体分割结果。
在其中一个可选示例中,至少根据图像块和概率图谱块,确定在后帧中物体的物体分割结果,可以利用一个传递网络,执行如下操作实现:
分别将上述图像块和概率图谱块放大至预设尺寸;
根据分别放大后的图像块和概率图谱块,获取在后帧中该物体在预设尺寸下的物体分割结果;
根据图像块和概率图谱块的放大比例,将该物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果,即:将该物体在预设尺寸下的物体分割结果进行与上述放大比例相对比例的缩小,获得该物体的物体分割结果。
在另一个可选示例中,根据沿参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定传播方向上在后帧的物体分割结果,还可以包括:根据在先帧与在后帧之间的光流图获取该物体对应的光流图块。其中,可以通过一个光流网络获取在先帧与在后帧之间的光流图。
相应地,该可选示例中,至少根据图像块和概率图谱块,确定在后帧中物体的物体分割结果,可以通过一个传递网络,执行如下操作实现:根据上述图像块、概率图谱块和光流图块,获取在后帧中该物体的物体分割结果。
其中,根据上述图像块、概率图谱块和光流图块,确定在后帧中物体的物体分割结果,可以示例性地通过如下方式实现:
根据上述图像块和概率图谱块,获取在后帧中该物体的第一物体分割结果,该操作可以通过传递网络中的第一神经网络实现;以及根据上述概率图谱块和光流图块,获取在后帧中该物体的第二物体分割结果,该操作可以通过传递网络中的第二神经网络实现;
根据上述第一物体分割结果和第二物体分割结果,获取在后帧中该物体的物体分割结果,该操作可以通过传递网络中的计算模块实现。例如,获取将上述第一物体分割结果和第二物体分割结果之和,作为在后帧中该物体的物体分割结果;或者,获取上述第一物体分割结果和第二物体分割结果的平均值,作为在后帧中该物体的物体分割结果。
另外,根据上述图像块、概率图谱块和光流图块,确定在后帧中物体的物体分割结果,也可以通过传递网络执行如下操作实现:
分别将上述图像块、概率图谱块和光流图块放大至预设尺寸,该操作可以通过传递网络中的第一缩放模块实现;
根据分别放大后的图像块、概率图谱块和光流图块,获取在后帧中该物体在预设尺寸下的物体分割结果;
根据上述图像块、概率图谱块和光流图块的放大比例,将物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果,即:将该物体在预设尺寸下的物体分割结果进行与上述放大比例相对比例的缩小,获得该物体的物体分割结果。该操作可以通过传递网络中的第二缩放模块实现
其中,根据分别放大后的图像块、概率图谱块和光流图块,获取在后帧中该物体在预设尺寸下的物体分割结果,可以示例性地通过如下方式实现:
利用传递网络中的第一神经网络,根据分别放大后的图像块和概率图谱块,获取在后帧中物体的第三物体分割结果;以及利用传递网络中的第二神经网络,根据分别放大后的概率图谱块和光流图块,获取在后帧中物体的第四物体分割结果;
利用传递网络中的计算模块,根据第三物体分割结果和第四物体分割结果,确定在后帧中物体在预设尺寸下的物体分割结果。
深度残差网络具有提取较强判的别性特征的作用,在本发明各方法实施例的其中一个示例中,上述第一神经网络和第二神经网络可以采用深度残差网络。
现有的深度残差网络通常有101个网络层,可以称为101层深度残差网络。另外,深度残差网络也可以有更多网络层,深度残差网络的网络层越多,输出结果的精度越高,但是需要的计算时间、占用的显存资源也越多,101层深度残差网络在输出结果精度和时间复杂度、空间复杂度上能达到一个较好的平衡点。常用的101层深度残差网络输出的概率图谱块为2048个通道,概率图谱块的尺寸为原图像大小的1/224,即:概率图谱块的尺寸为1*1。为提高概率图谱块的精度,本发明实施例中,可以采用更多网络层的深度残差网络第一卷积神经网络和第二卷积神经网络。另外,为了增大输出的概率图谱块的尺寸,更好的抓捕图像中的细节信息,可以101层深度残差网络做如下改进实现:降低101层深度残差网络中卷积层的卷积步长,并对卷积核进行膨胀操作以增大卷积核尺寸。
另外,在本发明上述各视频物体分割方法实施例中,操作104可以通过如下方式实现:
以上述至少部分帧中的任一其他帧作为当前帧,对该当前帧进行物体检测,获得当前帧的物体候选框集。其中,每个帧对应一个候选集,用于存放该帧中的所有物体候选框;
将当前帧的物体检测框集包括的各物体候选框分别与参考帧的物体分割结果对应的物体后续框进行匹配;
根据匹配结果确定当前帧是否是相对参考帧的物体分割结果丢失物体的其他帧。
在其中一个可选示例中,将当前帧的物体检测框集包括的各物体候选框与参考帧的物体分割结果对应的物体候选框进行匹配,可以包括:分别对当前帧的物体检测框集包括的各物体候选框进行特征提取;将物体检测框集包括的各物体候选框的特征,与参考帧中的物体分割结果对应的物体候选框的特征进行匹配。
相应地,根据匹配结果确定当前帧是否是相对参考帧的物体分割结果丢失物体的其他帧,可以包括:根据匹配结果,确定当前帧的物体检测框集包括的各物体候选框与参考帧中的物体分割结果对应的物体候选框中,是否存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;若存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框,确定当前帧是相对参考帧的物体分割结果丢失物体的其他帧;否则,确定当前帧不是相对参考帧的物体分割结果丢失物体的其他帧。
或者,在本发明上述各视频物体分割方法实施例中,操作104也可以通过如下方式实现:
分别对至少部分帧中的各其他帧进行物体检测,得到物体候选框集;
将该物体检测框集包括的各物体候选框与参考帧的物体分割结果对应的物体候选框进行匹配;
根据匹配结果确定至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧。
在其中一个可选示例中,将物体检测框集包括的各物体候选框与参考帧的物体分割结果对应的物体候选框进行匹配,可以包括:分别对物体检测框集包括的各物体候选框进行特征提取;将该物体检测框集包括的各物体候选框的特征,与参考帧中的物体分割结果对应的物体候选框的特征进行匹配。
相应地,根据匹配结果确定至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧,可以包括:
根据匹配结果,获取该物体检测框集包括的各物体候选框与参考帧中的物体分割结果对应的物体候选框中,特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;获取特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体检测框集中的物体候选框对应的帧为相对参考帧的物体分割结果丢失物体的其他帧。
则相应地,在操作106中,以确定的其他帧作为目标帧时,可以包括:
若该至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧包括多个,从相对参考帧的物体分割结果丢失物体的其他帧中,按照预设策略选取一个其他帧作为目标帧。
例如,从相对参考帧的物体分割结果丢失物体的其他帧中,随机选取一个其他帧作为目标帧;或者,从该物体检测框集包括的各物体候选框中,选取一个与参考帧中的物体分割结果对应的物体候选框的特征之间的相似度最高、且根据物体分割结果对应的物体类别不一致的物体候选框所在的其他帧为目标帧。
另外,在本发明上述各视频物体分割方法实施例中,操作108可以包括:
获取至少部分中丢失上述丢失物体的连续帧;
将目标帧更新后的物体分割结果顺序传递到该连续帧中的至少一其他帧。
示例性地,上述至少一其他帧可以是连续帧中的第一帧。相应地,将目标帧更新后的物体分割结果顺序传递到连续帧中的至少一其他帧时,具体将目标帧更新后的物体分割结果在连续帧中沿时序正方向顺序传递到连续帧中的最后一帧。
或者,上述至少一其他帧也可以是连续帧中的最后一帧。相应地,将目标帧更新后的物体分割结果顺序传递到连续帧中的至少一其他帧时,具体将目标帧更新后的物体分割结果在连续帧中沿时序反方向顺序传递到连续帧中的第一帧。
或者,上述至少一其他帧还可以是连续帧中位于第一帧和最后一帧之间的中间帧。相应地,将目标帧更新后的物体分割结果顺序传递到连续帧中的至少一其他帧时,具体将目标帧更新后的物体分割结果在连续帧中沿时序正方向顺序传递到连续帧中的最后一帧和/或沿时序反方向顺序传递到连续帧中的第一帧。
另外,在本发明上述各视频物体分割方法实施例的一个可选示例中,针对同一丢失物体,本次将目标帧更新后的物体分割结果传递到的其他帧,与之前将目标帧更新后的物体分割结果传递到的其他帧的范围不重叠。
在其中一个可选示例中,每次将该目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧时,可以在修正信息表中记录该丢失物体的物体信息与目标帧更新后的物体分割结果传递到的其他帧的帧序号。其中的物体信息可以是物体特征或者物体类别等。
在每次将该目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧时,可以查询修正信息表中是否包括丢失物体的物体信息;
若修正信息表中包括该丢失物体的物体信息,说明之前已经对该丢失物体的物体分割结果进行过修正,查询修正信息表中该丢失物体的物体信息对应的帧序号,获得之前基于该丢失物体的物体分割结果将目标帧更新后的物体分割结果传递到的视频中的其他帧,据此来确定本次将该目标帧更新后的物体分割结果顺序传递到的视频中的其他帧,以保障本次确定的其他帧与查询到的帧序号对应的其他帧不重复。
例如,之前对该丢失物体,将目标帧更新后的物体分割结果顺序传递到视频中的第21帧至第23帧,本次针对该丢失物体继续进行物体分割结果传递时,即使获取到视频中丢失该丢失物体的帧为第20帧至第27帧,由于上次基于该丢失物体已经对第21帧至第23帧的物体分割结果进行过修正,本次进行目标帧更新后的物体分割结果传递时,可以传递到视频中的第24帧至第27帧。
基于本实施例,可以避免针对同一丢失物体,在后一轮物体分割结果传递过程中对前一轮修正后的物体分割结果进行再次修正,从而导致本发明实施例的流程无限循环;并且,长距离传递物体分割结果可能导致物体分割结果准确性变差,基于本实施例可以避免以长距离传递导致准确性较差的物体分割结果修正某一帧上较为准确的物体分割结果,有效确保物体分割结果的准确性。
图2为本发明视频物体分割方法另一个实施例的流程图。如图2所示,该实施例的视频物体分割方法包括:
202,获取视频的至少部分帧中参考帧的物体分割结果。
作为本发明实施例的一种可选实现方式,该操作202可以是:接收参考帧的物体分割结果,该参考帧的物体分割结果可以预先获得。
另外,作为本发明实施例的另一种可选实现方式,该操作202也可以通过如下图像物体分割方法实现:对参考帧进行物体分割,获得该参考帧的物体分割结果。
例如,可以通过如下方式对参考帧进行物体分割,获得该参考帧的物体分割结果:
对参考帧进行特征提取,获得该参考帧的特征。示例性地,该参考帧的特征例如可以表示为一个特征向量或者特性图的形式;
根据该特征预测参考帧中各像素的物体类别,获得参考帧的物体分割结果。
204,在视频的至少部分帧中,自参考帧开始顺序进行参考帧的物体分割结果的帧间传递,获得该至少部分帧中各其他帧的物体分割结果。
具体地,可以针对该至少部分帧中,根据沿参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定传播方向上在后帧的物体分割结果,其中的传播方向包括视频的时序正方向和/或时序反方向。
本发明实施例中,在先帧、在后帧是相对于传播方向的顺序而言的,具有相对性。其中的传播方向可以是视频的时序正方向或时序反方向。在传播方向上顺序靠前的帧为在先帧,在传播方向上顺序靠后的帧为在后帧。具体而言,在先帧可以是:在后帧在上述至少部分帧中沿时序正方向或时序反方向上的相邻帧或相邻关键帧,其中的关键帧可以是在上述至少部分帧中沿时序正方向或时序反方向上,与在后帧之间间隔在预设帧数范围内的帧。当传播方向变化时,在先帧与在后帧相应变化。
其中,根据应用需求,上述至少部分帧可以是整个视频中的帧,也可以是视频中其中一段视频包括的帧,或者从视频中每隔至少一帧提取出来的帧的集合,均可应用本发明实施例进行视频物体分割。在其中一个可选示例中,上述参考帧可以是上述至少部分帧中的第一帧。相应地,该操作202中,具体将该第一帧的物体分割结果在上述至少部分帧中沿时序正方向进行帧间传递,直至该至少部分帧中的最后一帧。
在另一个可选示例中,上述参考帧可以是上述至少部分帧中的最后一帧。相应地,该操作202中,具体将该最后一帧的物体分割结果在该至少部分帧中沿时序反方向进行帧间传递,直至该至少部分帧中的第一帧。
在又一个可选示例中,上述参考帧可以是上述至少部分帧中位于第一帧与最后一帧之间的中间一帧。相应地,该操作202中,具体将该中间一帧的物体分割结果在该至少部分帧中分别沿时序正方向和/或时序反方向进行帧间传递,直至该至少部分帧中的第一帧和/或最后一帧。
在本发明各实施例的一个可选示例中,物体分割结果可以表示为物体的概率图谱。具体来说,每帧的物体分割结果可以表示为一个概率图谱,该概率图谱中各像素的取值表示该像素对应的帧中物体的物体类别。另外,每帧的物体分割结果可以表示为多个概率图谱,每个概率图谱分别表示帧中一个物体类别的概率图谱,在每个概率图谱中,各像素对应的帧中物体的物体类别为该概率图谱表示的物体类别的,该像素点的取值可以为1;否则,各像素对应的帧中物体的物体类别不是该概率图谱表示的物体类别的,该像素点的取值可以为0。
其中,操作204可以称为物体分割结果的传播过程。
206,确定上述至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧。
208,以确定的其他帧中的一帧作为目标帧进行丢失物体的分割,并更新该目标帧的物体分割结果。
其中,操作206-208可以称为物体再识别过程。
210,将该目标帧更新后的物体分割结果沿视频的时序正方向和/或时序反方向传递到视频中的至少一其他帧,以该目标帧作为参考帧,以该目标帧更新后的物体分割结果更新至物体分割结果传播方向上该目标帧的在后帧至上述至少一其他帧中各帧的物体分割结果。
其中,操作210可以称为物体分割结果的传播过程。
之后,再返回执行操作206,直至上述至少部分帧中不存在相对参考帧的物体分割结果丢失物体的其他帧。
如图3所示,为应用本发明视频物体分割方法实施例对视频中物体进行分割的一个过程示意图。如图3所示,第1行所示图片为一个视频中的至少部分帧,其包括82帧图像,图3中第1行示例性地标出了其中第1、8、20、37、52、64和82帧的帧序号。假设第1帧为参考帧,其物体分割结果可以预先获得,例如通过人工获取或者通过图像物体分割方法获得。
在步骤一中,从第1帧开始,将第1帧的物体的分割结果沿视频的时序正方向帧间传递,传递到最后1帧,即:第82帧,参见第2行图片;
在步骤二中,确定将第1帧的物体的分割结果传递至第82帧的过程中,相对第1帧的物体分割结果丢失物体的其他帧,假设包括第16-36帧;
在步骤三中,选取第21帧作为目标帧进行丢失物体的分割,并根据该丢失物体的分割结果更新该目标帧的物体分割结果,参见第3行图片;
在步骤四中,以第21帧作为参考帧,将该第21帧更新后的物体分割结果分别沿视频的时序正方向和时序反方向顺序进行帧间传递,以对第21帧沿视频的时序正方向和时序反方向上的邻近帧的物体分割结果进行更新,找回这些邻近帧中丢失该丢失物体的分割结果,参见第4行图片;
之后,返回重新执行步骤二至步骤四:
确定将第1帧的物体的分割结果传递至第82帧的过程中,相对第1帧的物体分割结果丢失物体的其他帧,假设包括第60-82帧;
选取第80帧作为目标帧进行丢失物体的分割,并根据该丢失物体的分割结果更新该目标帧的物体分割结果,参见第5行图片;
以第80帧作为参考帧,将该第80帧更新后的物体分割结果分别沿视频的时序正方向和时序反方向顺序进行帧间传递,以对第80帧沿视频的时序正方向和时序反方向上的邻近帧的物体分割结果进行更新,找回这些邻近帧中丢失该丢失物体的分割结果,参见第6行图;
之后,返回重新执行步骤二至步骤四,直至上述至少部分帧中相对第1帧的物体分割结果不存在丢失物体的其他帧。
图4为本发明视频物体分割方法又一个实施例的流程图。该实施例可以示例性地通过一个传递网络实现。如图4所示,该实施例的视频物体分割方法包括:
302,从视频中的当前帧获取包括一物体的图像块;从当前帧的邻近帧的物体类别概率图谱获取该物体对应物体类别的概率图谱块。
304,至少根据上述图像块和概率图谱块,确定当前帧中该物体的物体分割结果。
本发明本实施例,基于当前帧中包括物体的图像块和邻近帧的物体类别概率图谱中该物体对应物体类别的概率图谱块,来确定当前帧中物体的物体分割结果,相对于通过当前帧的整个图像确定当前帧中该物体的物体分割结果而言,可以有效捕获图像中的小尺寸物体和细节信息、避免图像中背景噪声的干扰,从而避免帧中任一物体尺寸较小、尺寸变化较大等原因导致的物体分割结果传递失败的问题,提高了视频物体分割结果的准确率。
在其中一个可选示例中,操作304可以包括:
分别将图像块和概率图谱块放大至预设尺寸;
根据分别放大后的图像块和概率图谱块,获取当前帧中该物体在预设尺寸下的物体分割结果;
根据上述图像块和概率图谱块的放大比例,将该物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
在另一个可选示例中,操作302中还可以包括:根据上述邻近帧与当前帧之间的光流图获取该物体对应的光流图块。相应地,操作304可以包括:根据图像块、概率图谱块和光流图块,获取当前帧中物体的物体分割结果。
在进一步示例中,根据图像块、概率图谱块和光流图块,获取当前帧中物体的物体分割结果,可以通过如下方式实现:
通过传递网络中的第一神经网络,根据图像块和概率图谱块,获取当前帧中物体的第一物体分割结果;以及通过传递网络中的第二神经网络,根据概率图谱块和光流图块,获取当前帧中物体的第二物体分割结果;
通过传递网络中的计算模块,根据第一物体分割结果和第二物体分割结果,获取当前帧中该物体的物体分割结果。
或者,在进一步示例中,根据图像块、概率图谱块和光流图块,获取当前帧中该物体的物体分割结果,可以通过如下方式实现:
通过传递网络中的第一缩放模块,分别将上述图像块、概率图谱块和光流图块放大至预设尺寸;
根据分别放大后的图像块、概率图谱块和光流图块,获取当前帧中该物体在预设尺寸下的物体分割结果。例如,通过传递网络中的第一神经网络,根据分别放大后的图像块和概率图谱块,获取当前帧中该物体的第三物体分割结果;以及通过传递网络中的第二神经网络,根据分别放大后的概率图谱块和光流图块,获取当前帧中物体的第四物体分割结果;通过传递网络中的计算模块,根据第三物体分割结果和第四物体分割结果,确定当前帧中物体在预设尺寸下的物体分割结果;
通过传递网络中的第二缩放模块,根据图像块、概率图谱块和光流图块的放大比例,将物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
其中,当前帧、邻近帧是相对于传播方向的顺序而言的,具有相对性。其中的传播方向可以是视频的时序正方向或时序反方向。在传播方向上顺序靠前的帧为邻近帧,在传播方向上顺序靠后的帧为当前帧。具体而言,邻近帧可以是:当前帧在视频中沿时序正方向或时序反方向上的相邻帧或相邻关键帧,其中的邻近帧可以是在视频中沿时序正方向或时序反方向上,与当前帧之间间隔在预设帧数范围内的帧。当传播方向变化时,邻近帧与在当前帧相应变化。
另外,在上述各实施例的操作302中,从当前帧获取的物体的图像块的大小可以大于该物体的物体候选框,以便后续可以从该图像块中提取特征时可以提取到更多的上下文信息,有助于更准确的获取该物体的物体分割结果。
图5为本发明视频物体分割方法再一个实施例的流程图。如图5所示,该实施例的视频物体分割方法包括:
402,从视频中的当前帧获取包括一物体的图像块;从当前帧的邻近帧的物体类别概率图谱获取该物体对应物体类别的概率图谱块;以及根据上述邻近帧与当前帧之间的光流图获取该物体对应的光流图块。
404,通过传递网络中的第一缩放模块,分别将上述图像块、概率图谱块和光流图块放大至预设尺寸。
406,通过传递网络中的第一神经网络,根据分别放大后的图像块和概率图谱块,获取当前帧中该物体的第三物体分割结果;以及通过传递网络中的第二神经网络,根据分别放大后的概率图谱块和光流图块,获取当前帧中该物体的第四物体分割结果。
408,通过传递网络中的计算模块,根据第三物体分割结果和第四物体分割结果,确定当前帧中该物体在预设尺寸下的物体分割结果。
410,通过传递网络中的第二缩放模块,根据图像块、概率图谱块和光流图块的放大比例,将该物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
本发明本实施例,基于从当前帧和光流图提取的一物体放大至预设尺寸的图像块、从邻近帧中提取的该物体放大至预设尺寸的概率图谱块获取当前帧的物体分割结果,可以有效捕获图像中的小尺寸物体和细节信息,更准确的获取当前帧的物体分割结果,从而实现精确物体分割结果的帧间传递,避免帧中物体尺寸较小、尺寸变化较大等原因导致的物体分割结果传递失败的问题,提高了视频物体分割结果的准确率。
图6为本发明实施例中将物体分割结果进行帧间传递的一个示例图。如图6所示,示出了本发明各视频物体分割方法实施例中,通过传递网络将邻近帧(在先帧)的物体分割结果传递至当前帧(在后帧)的一个过程。
在本发明上述各实施例的视频物体分割方法中,还可以包括:
基于样本视频对上述传递网络进行训练,其中的样本视频中的各帧标注有标注概率图谱。
在本发明各实施例的其中一个可选实现方式中,可以采用迭代训练法或梯度更新法,基于样本视频的标注概率图谱和传递网络输出的概率图谱,对上述传递网络进行训练,调整传递网络中各网络参数的参数值。
其中,采用迭代训练法,基于样本视频的标注概率图谱和传递网络输出的概率图谱对上述传递网络进行训练时,在满足预设条件时,完成训练,其中的预设条件例如可以是训练次数达到预设次数阈值,或者传递网络针对样本视频输出的概率图谱与该样本图像的标注概率图谱之间的差异满足预设差值。
采用梯度更新法,基于样本视频的标注概率图谱和传递网络输出的概率图谱对上述传递网络进行训练时,可以获取传递网络针对样本视频输出的概率图谱与该样本图像的标注概率图谱之间的差异,利用梯度更新法调整传递网络中各网络参数的参数值,使得传递网络针对样本视频输出的概率图谱与该样本图像的标注概率图谱之间的差异最小化。
在其中一个可选示例中,基于样本视频对传递网络进行训练的操作,可以包括:
基于样本视频对第一神经网络进行训练;以及基于样本视频对第二神经网络进行训练;
响应于第一神经网络和第二神经网络训练完成,基于样本视频对传递网络进行训练。
类似地,可以采用迭代训练法或梯度更新法,基于样本视频的标注概率图谱和待训练网络(第一神经网络、第二神经网络、和/或传递网络)输出的概率图谱,对各待训练网络进行训练,调整各待网络中各网络参数的参数值,此处不再赘述。对第一神经网络、第二神经网络、传递网络进行训练的方法可以相同,也可以不同。例如,可以采用迭代训练法对第一神经网络和第二神经网络进行训练,采用梯度更新法对传递网络进行训练。
基于该实施例,分别对第一神经网络和第二神经网络进行独立训练,在第一神经网络和第二神经网络训练完成后,再对包括第一神经网络和第二神经网络的整个传递网络进行训练,有助于提高传递网络的网络训练结果并提升网络训练效率。
图7为本发明视频物体分割装置一个实施例的结构示意图。该实施例的视频物体分割装置可用于实现本发明上述图1-3所示任一视频物体分割方法实施例。如图7所示,该实施例的视频物体分割装置包括:传递网络502和物体再识别网络504。其中:
传递网络502,用于在视频的至少部分帧中,自参考帧开始顺序进行参考帧的物体分割结果的帧间传递,获得该至少部分帧中各其他帧的物体分割结果;以及将物体再识别网络504获得的目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧。
其中,参考帧的物体分割结果,例如可以通过人工分割或者物体分割网络,预先获得并输入给传递网络502。在本发明各视频物体分割装置实施例中,物体分割结果可以表示为物体的概率图谱。具体来说,每帧的物体分割结果可以表示为一个概率图谱,该概率图谱中各像素的取值表示该像素对应的帧中物体的物体类别。另外,每帧的物体分割结果可以表示为多个概率图谱,每个概率图谱分别表示帧中一个物体类别的概率图谱,在每个概率图谱中,各像素对应的帧中物体的物体类别为该概率图谱表示的物体类别的,该像素点的取值可以为1;否则,各像素对应的帧中物体的物体类别不是该概率图谱表示的物体类别的,该像素点的取值可以为0。
在其中一个可选示例中,上述参考帧可以是上述至少部分帧中的第一帧。相应地,传递网络502具体用于将第一帧的物体分割结果在至少部分帧中沿时序正方向进行帧间传递,直至至少部分帧中的最后一帧。
在另一个可选示例中,上述参考帧可以是上述至少部分帧中的最后一帧。相应地,传递网络502具体用于将最后一帧的物体分割结果在至少部分帧中沿时序反方向进行帧间传递,直至至少部分帧中的第一帧。
在又一个可选示例中,上述参考帧可以是上述至少部分帧中位于第一帧与最后一帧之间的中间一帧。相应地,传递网络502具体用于将中间一帧的物体分割结果在至少部分帧中分别沿时序正方向和/或时序反方向进行帧间传递,直至至少部分帧中的第一帧和/或最后一帧。
物体再识别网络504,用于确定上述至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧,以确定的其他帧作为目标帧进行丢失物体的分割,以更新该目标帧的物体分割结果。
基于本实施例,可以将参考帧的物体分割结果传递到视频的至少部分帧中的其他帧上,使得视频物体分割结果在时序上更加连续;对传递中丢失物体的目标帧进行丢失物体的分割、以更新该目标帧的物体分割结果,并将该目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧,对传递到的其他帧的物体分割结果进行修正,可以避免因为遮挡和物体姿态大幅度变化造成的该物体分割结果传递失败的问题、以及多个物体运动重叠再分开后,物体分割结果中会混淆或丢失部分物体的问题,提高了视频物体分割结果的准确率。
在图7所示视频物体分割装置实施例的一个可选示例中,传递网络502自参考帧顺序进行参考帧的物体分割结果的帧间传递,获得至少部分帧中各其他帧的物体分割结果时,具体用于:根据沿参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定传播方向上在后帧的物体分割结果,其中的传播方向包括视频的时序正方向和/或时序反方向。其中的在先帧包括:该在后帧在至少部分帧中沿时序正方向或时序反方向上的相邻帧或相邻关键帧。
图8为本发明实施例中传递网络一个实施例的结构示意图。如图8所示,与图7所示实施例相比,该实施例中,传递网络502包括:
第一获取模块602,用于从在后帧获取包括一物体的图像块;以及从在先帧的物体类别概率图谱获取该物体对应物体类别的概率图谱块。
本发明各实施例中,上述图像块可以大于该物体的物体候选框且小于在后帧的图像大小,以便后续可以从图像块中提取更多的上下文信息,有助于更准确的获取该物体的概率图谱。
确定模块604,用于至少根据上述图像块和概率图谱块,确定在后帧中该物体的物体分割结果。
图9为本发明实施例中传递网络另一个实施例的结构示意图。如图9所示,在一个可选示例中,确定模块604可以包括:
第一缩放单元702,用于分别将第一获取模块602获取到的图像块和概率图谱块放大至预设尺寸.
第一神经网络704,用于根据分别放大后的图像块和概率图谱块,获取在后帧中该物体在预设尺寸下的物体分割结果。
第二缩放单元706,用于根据第一缩放单元702对图像块和概率图谱块的放大比例,将物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
在另一个可选示例中,第一获取模块602还用于根据在先帧与在后帧之间的光流图获取该物体对应的光流图块。相应地,该实施例中,确定模块604具体用于:根据第一获取模块602获取到的图像块、概率图谱块和光流图块,获取在后帧中物体的物体分割结果。如图10所示,为本发明实施例中传递网络又一个实施例的结构示意图。
再参见图10,与图8所示的实施例相比,该实施例中,确定模块604包括:
第一神经网络704,用于根据第一获取模块602获取到的图像块和概率图谱块,获取在后帧中该物体的第一物体分割结果;
第二神经网络708,用于根据第一获取模块602获取到的概率图谱块和光流图块,获取在后帧中该物体的第二物体分割结果;
计算单元710,用于根据上述第一物体分割结果和第二物体分割结果,获取在后帧中该物体的物体分割结果。
图11为本发明实施例中传递网络再一个实施例的结构示意图。如图11所示,与图8所示的实施例相比,在该实施例的传递网络502中,确定模块604包括:
第一缩放单元702,用于分别将第一获取模块602获取到的图像块、概率图谱块和光流图块放大至预设尺寸;
获取单元712,用于根据分别放大后的图像块、概率图谱块和光流图块,获取在后帧中该物体在预设尺寸下的物体分割结果;
第二缩放单元706,用于根据第一缩放单元702对图像块、概率图谱块和光流图块的放大比例,将该物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
进一步地,再参见图11,在其中一个可选示例中,获取单元712可以包括:
第一神经网络704,用于根据分别放大后的图像块和概率图谱块,获取在后帧中该物体的第三物体分割结果;
第二神经网络708,用于根据分别放大后的概率图谱块和光流图块,获取在后帧中该物体的第四物体分割结果;
计算单元710,用于根据上述第三物体分割结果和第四物体分割结果,确定在后帧中该物体在预设尺寸下的物体分割结果。
在本发明上述各视频物体分割装置实施例的一个可选示例中,物体再识别网络504确定至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧时,具体用于:
以至少部分帧中的帧任一其他帧作为当前帧,对当前帧进行物体检测,获得当前帧的物体候选框集;
将当前帧的物体检测框集包括的各物体候选框分别与参考帧的物体分割结果对应的物体后续框进行匹配;
根据匹配结果确定当前帧是否是相对参考帧的物体分割结果丢失物体的其他帧。
在进一步示例中,物体再识别网络504将物体检测框集包括的各物体候选框与参考帧的物体分割结果对应的物体候选框进行匹配时,具体用于:分别对物体检测框集包括的各物体候选框进行特征提取;将物体检测框集包括的各物体候选框的特征,与参考帧中的物体分割结果对应的物体候选框的特征进行匹配。
相应地,物体再识别网络504根据匹配结果确定当前帧是否是相对参考帧的物体分割结果丢失物体的其他帧时,具体用于:根据匹配结果,确定物体检测框集包括的各物体候选框与参考帧中的物体分割结果对应的物体候选框中,是否存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;若存在特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框,确定当前帧是相对参考帧的物体分割结果丢失物体的其他帧;否则,确定当前帧不是相对参考帧的物体分割结果丢失物体的其他帧。
在本发明上述各视频物体分割装置实施例的另一个可选示例中,物体再识别网络504确定至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧时,具体用于:
分别对至少部分帧中的各其他帧进行物体检测,得到物体候选框集;
将物体检测框集包括的各物体候选框与参考帧的物体分割结果对应的物体候选框进行匹配;
根据匹配结果确定至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧。
在进一步示例中,物体再识别网络504将物体检测框集包括的各物体候选框与参考帧的物体分割结果对应的物体候选框进行匹配时,具体用于:分别对物体检测框集包括的各物体候选框进行特征提取;将物体检测框集包括的各物体候选框的特征,与参考帧中的物体分割结果对应的物体候选框的特征进行匹配.
相应地,物体再识别网络504根据匹配结果确定至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧时,具体用于:根据匹配结果,获取物体检测框集包括的各物体候选框与参考帧中的物体分割结果对应的物体候选框中,特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体候选框;获取特征之间的相似度高于预设阈值、且根据物体分割结果对应的物体类别不一致的物体检测框集中的物体候选框对应的帧为相对参考帧的物体分割结果丢失物体的其他帧。
在上述另一个可选示例中,物体再识别网络504以确定的其他帧作为目标帧时,具体用于:若至少部分帧中相对参考帧的物体分割结果丢失物体的其他帧包括多个,可以从相对参考帧的物体分割结果丢失物体的其他帧中选取一个其他帧作为目标帧。
在本发明上述各视频物体分割装置实施例的又一个可选示例中,传递网络502将目标帧更新后的物体分割结果顺序传递到视频中的至少一其他帧时,具体用于:
获取至少部分帧中丢失上述丢失物体的连续帧;以及
将目标帧更新后的物体分割结果顺序传递到连续帧中的至少一其他帧。
其中,该至少一其他帧包括:连续帧中的第一帧,相应地,传递网络502具体用于将目标帧更新后的物体分割结果在连续帧中沿时序正方向顺序传递到连续帧中的最后一帧;或者
该至少一其他帧包括:连续帧中的最后一帧,相应地,传递网络502具体用于:将目标帧更新后的物体分割结果在连续帧中沿时序反方向顺序传递到连续帧中的第一帧;或者
该至少一其他帧包括:连续帧中位于第一帧和最后一帧之间的中间帧,相应地,传递网络502具体用于:将目标帧更新后的物体分割结果在连续帧中沿时序正方向沿时序正方向顺序传递到连续帧中的最后一帧和/或沿时序反方向顺序传递到连续帧中的第一帧。
第一缩放处理模块702,获取模块704和第二缩放处理模块706。其中:
第一缩放处理模块702,用于分别针对视频中当前帧中的任一物体,提取当前帧中包括任一物体的图像块并放大至预设尺寸,获得第一图像块;从当前帧的相邻上一帧的概率图谱中提取任一物体的概率图谱块并放大至预设尺寸,获得第一概率图谱块;以及提取相邻上一帧与当前帧之间的光流图像中包括任一物体的图像块并放大至预设尺寸,获得第二图像块。
获取模块704,用于基于第一概率图谱块、第一图像块和第二图像块,获取当前帧中任一物体在预设尺寸下的概率图谱,获得第二概率图谱块。
第二缩放处理模块706,用于根据从相邻上一帧的概率图谱中提取的任一物体的概率图谱块与第一概率图谱块之间的缩放比例,将第二概率图谱块恢复为从相邻上一帧的概率图谱中提取的任一物体的概率图谱块的大小,获得当前帧中任一物体的概率图谱。
本发明实施例还提供了另一种视频物体分割装置。作为另一种视频物体分割装置的其中一个实施例,可以参见图8所示结构,其包括第一获取模块602和确定模块604。其中:
第一获取模块602,用于从视频中的当前帧获取包括一物体的图像块;从当前帧的邻近帧的物体类别概率图谱获取该物体对应物体类别的概率图谱块。
其中,当前帧的邻近帧包括:视频中该当前帧沿时序正方向或时序反方向上的相邻帧或相邻关键帧。上述图像块可以大于该物体的物体候选框且小于在后帧的图像大小,以便后续可以从该图像块中提取更多的上下文信息,有助于更准确的获取该物体的概率图谱。
本发明本实施例,基于当前帧中包括物体的图像块和邻近帧的物体类别概率图谱中该物体对应物体类别的概率图谱块,来确定当前帧中物体的物体分割结果,可以有效捕获图像中的小尺寸物体和细节信息、避免图像中背景噪声的干扰,从而避免帧中任一物体尺寸较小、尺寸变化较大等原因导致的物体分割结果传递失败的问题,提高了视频物体分割结果的准确率。
确定模块604,用于至少根据上述图像块和概率图谱块,确定当前帧中该物体的物体分割结果。
参见图9,在该另一种视频物体分割装置实施例的其中一个可选示例中,确定模块604可以包括:
第一缩放单元702,用于分别将第一获取模块602获取到的图像块和概率图谱块放大至预设尺寸。
第一神经网络704,用于根据分别放大后的图像块和概率图谱块,获取当前帧中该物体在预设尺寸下的物体分割结果。
第二缩放单元706,用于根据第一缩放单元702对图像块和概率图谱块的放大比例,将该物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
本发明本实施例,基于从当前帧和光流图提取的一物体放大至预设尺寸的图像块、从邻近帧中提取的该物体放大至预设尺寸的概率图谱块获取当前帧的物体分割结果,可以有效捕获图像中的小尺寸物体和细节信息,更准确的获取当前帧的物体分割结果,从而实现精确物体分割结果的帧间传递,避免帧中物体尺寸较小、尺寸变化较大等原因导致的物体分割结果传递失败的问题,提高了视频物体分割结果的准确率。
在上述另一种视频物体分割装置实施例的另一个可选示例中,第一获取模块602还用于根据邻近帧与当前帧之间的光流图获取物体对应的光流图块。相应地,该实施例中,确定模块604具体用于:根据第一获取模块602获取到的图像块、概率图谱块和光流图块,获取当前帧中该物体的物体分割结果。
本发明本实施例,基于从当前帧和光流图提取的一物体放大至预设尺寸的图像块、从邻近帧中提取的该物体放大至预设尺寸的概率图谱块获取当前帧的物体分割结果,可以有效捕获图像中的小尺寸物体和细节信息,更准确的获取当前帧的物体分割结果,从而实现精确物体分割结果的帧间传递,避免帧中物体尺寸较小、尺寸变化较大等原因导致的物体分割结果传递失败的问题,提高了视频物体分割结果的准确率。
参见图10,在该另一个可选示例中,确定模块604可以包括:
第一神经网络704,用于根据第一获取模块602获取到的图像块和概率图谱块,获取当前帧中该物体的第一物体分割结果;
第二神经网络708,用于根据第一获取模块602获取到的概率图谱块和光流图块,获取当前帧中该物体的第二物体分割结果;
计算单元710,用于根据上述第一物体分割结果和第二物体分割结果,获取当前帧中该物体的物体分割结果。
参见图11,在上述另一个可选示例中,确定模块604可以包括:
第一缩放单元702,用于分别将第一获取模块602获取到的图像块、概率图谱块和光流图块放大至预设尺寸。
获取单元712,用于根据分别放大后的图像块、概率图谱块和光流图块,获取当前帧中该物体在预设尺寸下的物体分割结果。
第二缩放单元706,用于根据第一缩放单元702对图像块、概率图谱块和光流图块的放大比例,将该物体在预设尺寸下的物体分割结果恢复为原始尺寸下的物体分割结果。
其中,获取单元712可以包括:
第一神经网络704,用于根据分别放大后的图像块和概率图谱块,获取当前帧中该物体的第三物体分割结果。
第二神经网络706,用于根据分别放大后的概率图谱块和光流图块,获取当前帧中物体的第四物体分割结果。
计算单元710,用于根据上述第三物体分割结果和第四物体分割结果,确定当前帧中物体在预设尺寸下的物体分割结果。
本发明实施例还提供了一种电子设备,包括本发明上述任一实施例的视频物体分割装置。
本发明实施例提供的另一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于与存储器通信以执行可执行指令从而完成本发明上述任一实施例的视频物体分割方法的操作。
另外,本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,指令被执行时实现本发明上述任一实施例的视频物体分割方法的操作。
另外,本发明实施例还提供了一种计算机程序,包括计算机可读取的指令,当计算机可读取的指令在设备中运行时,设备中的处理器执行用于实现本发明上述任一实施例的视频物体分割方法。
图12为本发明电子设备一个应用实施例的结构示意图。下面参考图12,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图12所示,该电子设备包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)9001,和/或一个或多个图像处理器(GPU)9013等,处理器可以根据存储在只读存储器(ROM)9002中的可执行指令或者从存储部分9008加载到随机访问存储器(RAM)9003中的可执行指令而执行各种适当的动作和处理。通信部9012可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,处理器可与只读存储器9002和/或随机访问存储器9003中通信以执行可执行指令,通过总线9004与通信部9012相连、并经通信部9012与其他目标设备通信,从而完成本申请实施例提供的任一方法对应的操作,例如,在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果;确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧;以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果;将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧。再如,从视频中的当前帧获取包括一物体的图像块;从所述当前帧的邻近帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果。
此外,在RAM 9003中,还可存储有装置操作所需的各种程序和数据。CPU9001、ROM9002以及RAM9003通过总线9004彼此相连。在有RAM9003的情况下,ROM9002为可选模块。RAM9003存储可执行指令,或在运行时向ROM9002中写入可执行指令,可执行指令使处理器9001执行本发明上述任一方法对应的操作。输入/输出(I/O)接口9005也连接至总线9004。通信部9012可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口9005:包括键盘、鼠标等的输入部分9006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分9007;包括硬盘等的存储部分9008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分9009。通信部分9009经由诸如因特网的网络执行通信处理。驱动器9090也根据需要连接至I/O接口9005。可拆卸介质9090,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器9090上,以便于从其上读出的计算机程序根据需要被安装入存储部分9008。
需要说明的,如图12所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果的指令;确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧的指令;以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果的指令;将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧的指令。再如,从视频中的当前帧获取包括一物体的图像块的指令;从所述当前帧的邻近帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块的指令;至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果的指令。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置、设备等实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种视频物体分割方法,其特征在于,包括:
在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果;
确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧;
以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果;
将所述目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧。
2.根据权利要求1所述的方法,其特征在于,所述参考帧包括:所述至少部分帧中的第一帧;所述自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,包括:将所述第一帧的物体分割结果在所述至少部分帧中沿时序正方向进行帧间传递,直至所述至少部分帧中的最后一帧;或者,
所述参考帧包括:所述至少部分帧中的最后一帧;所述自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,包括:将所述最后一帧的物体分割结果在所述至少部分帧中沿时序反方向进行帧间传递,直至所述至少部分帧中的第一帧;或者,
所述参考帧包括:所述至少部分帧中位于第一帧与最后一帧之间的中间一帧;所述自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,包括:将所述中间一帧的物体分割结果在所述至少部分帧中分别沿时序正方向和/或时序反方向进行帧间传递,直至所述至少部分帧中的第一帧和/或最后一帧。
3.根据权利要求1或2所述的方法,其特征在于,所述自参考帧顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果,包括:
根据沿所述参考帧的物体分割结果传播方向的在先帧的图像分割结果,确定所述传播方向上在后帧的物体分割结果,所述传播方向包括所述视频的时序正方向和/或时序反方向。
4.一种视频物体分割方法,其特征在于,包括:
从视频中的当前帧获取包括一物体的图像块;从所述当前帧的邻近帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;
至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果。
5.一种视频物体分割装置,其特征在于,包括:传递网络和物体再识别网络;
所述传递网络,用于在视频的至少部分帧中,自参考帧开始顺序进行所述参考帧的物体分割结果的帧间传递,获得所述至少部分帧中各其他帧的物体分割结果;以及将物体再识别网络获得的目标帧更新后的物体分割结果顺序传递到所述视频中的至少一其他帧;
所述物体再识别网络,用于确定所述至少部分帧中相对所述参考帧的物体分割结果丢失物体的其他帧;以确定的其他帧作为目标帧进行丢失物体的分割,以更新所述目标帧的物体分割结果。
6.一种视频物体分割装置,其特征在于,包括:
第一获取模块,用于从视频中的当前帧获取包括一物体的图像块;从所述当前帧的邻近帧的物体类别概率图谱获取所述物体对应物体类别的概率图谱块;
确定模块,用于至少根据所述图像块和所述概率图谱块,确定所述当前帧中所述物体的物体分割结果。
7.一种电子设备,其特征在于,包括权利要求5或6所述的视频物体分割装置。
8.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及
处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-4任一所述方法的操作。
9.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求1-4任一所述方法的操作。
10.一种计算机程序,包括计算机可读取的指令,其特征在于,当所述计算机可读取的指令在设备中运行时,所述设备中的处理器执行用于实现权利要求1-4任一所述方法中的步骤的可执行指令。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710619408.0A CN108229290B (zh) | 2017-07-26 | 2017-07-26 | 视频物体分割方法和装置、电子设备、存储介质 |
PCT/CN2018/097106 WO2019020062A1 (zh) | 2017-07-26 | 2018-07-25 | 视频物体分割方法和装置、电子设备、存储介质和程序 |
US16/236,482 US11222211B2 (en) | 2017-07-26 | 2018-12-29 | Method and apparatus for segmenting video object, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710619408.0A CN108229290B (zh) | 2017-07-26 | 2017-07-26 | 视频物体分割方法和装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229290A true CN108229290A (zh) | 2018-06-29 |
CN108229290B CN108229290B (zh) | 2021-03-02 |
Family
ID=62655131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710619408.0A Active CN108229290B (zh) | 2017-07-26 | 2017-07-26 | 视频物体分割方法和装置、电子设备、存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11222211B2 (zh) |
CN (1) | CN108229290B (zh) |
WO (1) | WO2019020062A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019020062A1 (zh) * | 2017-07-26 | 2019-01-31 | 北京市商汤科技开发有限公司 | 视频物体分割方法和装置、电子设备、存储介质和程序 |
CN109493330A (zh) * | 2018-11-06 | 2019-03-19 | 电子科技大学 | 一种基于多任务学习的细胞核实例分割方法 |
CN109711354A (zh) * | 2018-12-28 | 2019-05-03 | 哈尔滨工业大学(威海) | 一种基于视频属性表示学习的目标跟踪方法 |
CN111901600A (zh) * | 2020-08-06 | 2020-11-06 | 中标慧安信息技术股份有限公司 | 一种损失较低的视频压缩方法 |
CN113298819A (zh) * | 2020-06-09 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种视频的处理方法、装置及电子设备 |
CN113570607A (zh) * | 2021-06-30 | 2021-10-29 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717701B (zh) * | 2018-05-24 | 2021-03-02 | 北京乐蜜科技有限责任公司 | 一种制作影片残影特效的方法、装置、电子设备及介质 |
CN109816611B (zh) * | 2019-01-31 | 2021-02-12 | 北京市商汤科技开发有限公司 | 视频修复方法及装置、电子设备和存储介质 |
KR20210061072A (ko) | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 비디오 세그먼테이션 방법 및 장치 |
KR20210067442A (ko) * | 2019-11-29 | 2021-06-08 | 엘지전자 주식회사 | 객체 인식을 위한 자동 레이블링 장치 및 방법 |
CN111178245B (zh) * | 2019-12-27 | 2023-12-22 | 佑驾创新(北京)技术有限公司 | 车道线检测方法、装置、计算机设备和存储介质 |
CN113963305B (zh) * | 2021-12-21 | 2022-03-11 | 网思科技股份有限公司 | 一种视频关键帧和特写片段提取方法 |
CN114429602A (zh) * | 2022-01-04 | 2022-05-03 | 北京三快在线科技有限公司 | 语义分割方法、装置、电子设备及存储介质 |
JP7391150B1 (ja) | 2022-08-02 | 2023-12-04 | 三菱電機株式会社 | 同定装置、同定方法及び同定プログラム |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6157677A (en) * | 1995-03-22 | 2000-12-05 | Idt International Digital Technologies Deutschland Gmbh | Method and apparatus for coordination of motion determination over multiple frames |
CN101299277A (zh) * | 2008-06-25 | 2008-11-05 | 北京中星微电子有限公司 | 一种黑白图像彩色化处理的方法和系统 |
CN101389037A (zh) * | 2008-09-28 | 2009-03-18 | 湖北科创高新网络视频股份有限公司 | 一种时空域分割多状态视频编码的方法和装置 |
CN102598673A (zh) * | 2009-11-06 | 2012-07-18 | 索尼公司 | 用于帧连续立体视频编码的动态参考帧重排序 |
CN102637253A (zh) * | 2011-12-30 | 2012-08-15 | 清华大学 | 基于视觉显著性和超像素分割的视频前景目标提取方法 |
CN103985114A (zh) * | 2014-03-21 | 2014-08-13 | 南京大学 | 一种监控视频人物前景分割与分类的方法 |
CN104361601A (zh) * | 2014-11-25 | 2015-02-18 | 上海电力学院 | 一种基于标记融合的概率图形模型图像分割方法 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN106897742A (zh) * | 2017-02-21 | 2017-06-27 | 北京市商汤科技开发有限公司 | 用于检测视频中物体的方法、装置和电子设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2576771B2 (ja) * | 1993-09-28 | 1997-01-29 | 日本電気株式会社 | 動き補償予測装置 |
US7725825B2 (en) * | 2004-09-28 | 2010-05-25 | Ricoh Company, Ltd. | Techniques for decoding and reconstructing media objects from a still visual representation |
CN101142593B (zh) * | 2005-03-17 | 2010-12-15 | 英国电讯有限公司 | 跟踪视频序列中的目标的方法 |
US10212462B2 (en) * | 2012-01-11 | 2019-02-19 | Videonetics Technology Private Limited | Integrated intelligent server based system for unified multiple sensory data mapped imagery analysis |
US20160111129A1 (en) * | 2013-05-28 | 2016-04-21 | Thomson Licensing | Image edits propagation to underlying video sequence via dense motion fields |
US9390511B2 (en) * | 2013-08-23 | 2016-07-12 | Futurewei Technologies, Inc. | Temporally coherent segmentation of RGBt volumes with aid of noisy or incomplete auxiliary data |
CN104134217B (zh) * | 2014-07-29 | 2017-02-15 | 中国科学院自动化研究所 | 一种基于超体素图割的视频显著物体分割方法 |
KR102153607B1 (ko) * | 2016-01-22 | 2020-09-08 | 삼성전자주식회사 | 영상에서의 전경 검출 장치 및 방법 |
US9756248B1 (en) * | 2016-03-02 | 2017-09-05 | Conduent Business Services, Llc | Methods and systems for camera drift correction |
US10475186B2 (en) * | 2016-06-23 | 2019-11-12 | Intel Corportation | Segmentation of objects in videos using color and depth information |
KR20210107185A (ko) * | 2016-06-30 | 2021-08-31 | 매직 립, 인코포레이티드 | 3d 공간에서의 포즈 추정 |
CN106447689A (zh) * | 2016-09-27 | 2017-02-22 | 微美光速资本投资管理(北京)有限公司 | 一种全息视频流的分割方法 |
CN108229290B (zh) * | 2017-07-26 | 2021-03-02 | 北京市商汤科技开发有限公司 | 视频物体分割方法和装置、电子设备、存储介质 |
-
2017
- 2017-07-26 CN CN201710619408.0A patent/CN108229290B/zh active Active
-
2018
- 2018-07-25 WO PCT/CN2018/097106 patent/WO2019020062A1/zh active Application Filing
- 2018-12-29 US US16/236,482 patent/US11222211B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6157677A (en) * | 1995-03-22 | 2000-12-05 | Idt International Digital Technologies Deutschland Gmbh | Method and apparatus for coordination of motion determination over multiple frames |
CN101299277A (zh) * | 2008-06-25 | 2008-11-05 | 北京中星微电子有限公司 | 一种黑白图像彩色化处理的方法和系统 |
CN101389037A (zh) * | 2008-09-28 | 2009-03-18 | 湖北科创高新网络视频股份有限公司 | 一种时空域分割多状态视频编码的方法和装置 |
CN102598673A (zh) * | 2009-11-06 | 2012-07-18 | 索尼公司 | 用于帧连续立体视频编码的动态参考帧重排序 |
CN102637253A (zh) * | 2011-12-30 | 2012-08-15 | 清华大学 | 基于视觉显著性和超像素分割的视频前景目标提取方法 |
CN103985114A (zh) * | 2014-03-21 | 2014-08-13 | 南京大学 | 一种监控视频人物前景分割与分类的方法 |
CN104361601A (zh) * | 2014-11-25 | 2015-02-18 | 上海电力学院 | 一种基于标记融合的概率图形模型图像分割方法 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN106897742A (zh) * | 2017-02-21 | 2017-06-27 | 北京市商汤科技开发有限公司 | 用于检测视频中物体的方法、装置和电子设备 |
Non-Patent Citations (3)
Title |
---|
HANQING JIANG 等: ""Spatio-Temporal Video Segmentation of Static Scenes and Its Applications"", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
李新梅: ""基于人脸视频跟踪算法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
程婷婷: ""基于高阶CRF的视频多目标自动分割技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019020062A1 (zh) * | 2017-07-26 | 2019-01-31 | 北京市商汤科技开发有限公司 | 视频物体分割方法和装置、电子设备、存储介质和程序 |
US11222211B2 (en) | 2017-07-26 | 2022-01-11 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for segmenting video object, electronic device, and storage medium |
CN109493330A (zh) * | 2018-11-06 | 2019-03-19 | 电子科技大学 | 一种基于多任务学习的细胞核实例分割方法 |
CN109711354A (zh) * | 2018-12-28 | 2019-05-03 | 哈尔滨工业大学(威海) | 一种基于视频属性表示学习的目标跟踪方法 |
CN113298819A (zh) * | 2020-06-09 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种视频的处理方法、装置及电子设备 |
CN111901600A (zh) * | 2020-08-06 | 2020-11-06 | 中标慧安信息技术股份有限公司 | 一种损失较低的视频压缩方法 |
CN111901600B (zh) * | 2020-08-06 | 2021-06-11 | 中标慧安信息技术股份有限公司 | 一种损失较低的视频压缩方法 |
CN113570607A (zh) * | 2021-06-30 | 2021-10-29 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
CN113570607B (zh) * | 2021-06-30 | 2024-02-06 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20190138816A1 (en) | 2019-05-09 |
WO2019020062A1 (zh) | 2019-01-31 |
US11222211B2 (en) | 2022-01-11 |
CN108229290B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229290B (zh) | 视频物体分割方法和装置、电子设备、存储介质 | |
CN108230359B (zh) | 目标检测方法和装置、训练方法、电子设备、程序和介质 | |
US20200364515A1 (en) | System and method for joint image refinement and perception | |
US10936911B2 (en) | Logo detection | |
US9471964B2 (en) | Non-local mean-based video denoising method and apparatus | |
US20200160065A1 (en) | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network | |
JP2019071056A (ja) | 映像イメージをセグメンテーションする方法及びこれを利用した装置 | |
CN111797976A (zh) | 神经网络的训练方法、图像识别方法、装置、设备及介质 | |
CN108229591A (zh) | 神经网络自适应训练方法和装置、设备、程序和存储介质 | |
US10929676B2 (en) | Video recognition using multiple modalities | |
US10674178B2 (en) | One-dimensional segmentation for coherent motion estimation | |
CN112396594B (zh) | 变化检测模型获取方法及装置、变化检测方法、计算机设备及可读存储介质 | |
US11875490B2 (en) | Method and apparatus for stitching images | |
CN115147418B (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN116664643A (zh) | 基于SuperPoint算法的铁路列车图像配准方法及设备 | |
CN111445388A (zh) | 一种图像超分辨重建模型训练方法、船只跟踪方法及装置 | |
CN111935484B (zh) | 一种视频帧压缩编码方法及装置 | |
CN108810319B (zh) | 图像处理装置和图像处理方法 | |
CN113610016A (zh) | 视频帧特征提取模型的训练方法、系统、设备及存储介质 | |
JP2016032265A (ja) | 画像処理装置 | |
CN116188535A (zh) | 基于光流估计的视频跟踪方法、装置、设备及存储介质 | |
CN113628192B (zh) | 图像模糊检测方法、装置、设备、存储介质及程序产品 | |
CN112634224B (zh) | 基于目标影像的病灶检测方法和装置 | |
CN114841870A (zh) | 图像处理方法、相关装置和系统 | |
CN109064485B (zh) | 一种基于cmt算法的特征库维护方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |