CN111583288B - 一种视频多目标关联与分割方法及系统 - Google Patents

一种视频多目标关联与分割方法及系统 Download PDF

Info

Publication number
CN111583288B
CN111583288B CN202010318375.8A CN202010318375A CN111583288B CN 111583288 B CN111583288 B CN 111583288B CN 202010318375 A CN202010318375 A CN 202010318375A CN 111583288 B CN111583288 B CN 111583288B
Authority
CN
China
Prior art keywords
target
video
segmentation
main
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010318375.8A
Other languages
English (en)
Other versions
CN111583288A (zh
Inventor
王乐
刘信伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Youjie Technology Co ltd
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010318375.8A priority Critical patent/CN111583288B/zh
Publication of CN111583288A publication Critical patent/CN111583288A/zh
Application granted granted Critical
Publication of CN111583288B publication Critical patent/CN111583288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频多目标关联与分割方法及系统,所述方法首先采用目标检测方法对视频的每一帧生成多个目标候选,结合注意力机制生成的视频感兴趣区域,筛选出视频主要目标;然后利用孪生网络计算不同目标之间的相似性,得到视频主要目标在时间上的一致性关系;最后利用目标分割网络得到视频主要目标的分割预测。本发明能够提升视频多目标分割的准确率。

Description

一种视频多目标关联与分割方法及系统
技术领域
本发明属于计算机视觉技术领域,特别涉及一种视频多目标关联与分割方法及系统。
背景技术
视频分割技术作为视频处理的关键步骤,对视频分析有很大的影响,在理论和实际应用中有重要的研究价值。
目前,传统的视频分割方法普遍存在以下问题:
(1)多数无监督式视频分割方法是针对视频中只有一个主要目标,而在许多现实视频中往往需要分析多个视频目标,现有方法不太适用;
(2)现有的无监督式视频多目标分割方法少之又少,并且都假设视频每一帧都包含目标,而这一假设在现实视频中是不成立的,目标往往会交替出入视野,而且常常有不包含目标的视频帧(噪声帧),现有方法在处理含有噪声帧的视频时分割准确度会降低。
综上,从实际应用情况出发,针对未剪辑长视频,亟需一种多目标数据关联与分割方法。
发明内容
本发明的目的在于提供一种视频多目标关联与分割方法及系统,以解决上述存在的一个或多个技术问题。本发明的方法,可在没有额外输入的条件下确定视频的主要目标,可在有噪声帧的情况下完成数据关联,能够更有效地对视频主要目标进行分割,提高分割结果的准确性。
为达到上述目的,本发明采用以下技术方案:
本发明的一种视频多目标关联与分割方法,包括以下步骤:
步骤1,用可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
步骤2,利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
步骤3,二值分割网络模型的生成,包括:
步骤3.1)采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
步骤3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
步骤3.3)将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于 0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
步骤3.4)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
步骤3.5)计算步骤3.4)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
步骤3.6)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
步骤4,将步骤1获得的视频主要目标输入步骤3训练好的二值分割网络模型,获得分割结果;将获得的分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
本发明的进一步改进在于,步骤1中,视频主要目标选择的表达式为,
Figure BDA0002460406610000031
式中,α、β是调节系数,
Figure BDA0002460406610000032
为视频帧中检测到的目标,
Figure BDA0002460406610000033
为视频帧中检测到的目标的置信度,
Figure BDA0002460406610000034
为视频帧中检测到的目标与视频主要目标所在区域R的距离,
Figure BDA0002460406610000035
是门控得分。
本发明的进一步改进在于,步骤1中,α、β的取值分别为0.8、0.2。
本发明的进一步改进在于,步骤2中,任意两个目标之间的相似性关系Ab的计算表达式为,
Figure BDA0002460406610000036
式中,F(·,·)表示两者之间的相似距离,
Figure BDA0002460406610000037
表示第t帧的第i个目标,
Figure BDA0002460406610000038
表示第t-1 帧的第j个目标。
本发明的进一步改进在于,步骤2中,匹配失败后,相似性Av计算表达式为,
Figure BDA0002460406610000039
式中,Zq表示第q个目标的检测框集合。
本发明的进一步改进在于,步骤3中,根据超度量轮廓图获得分割提议的计算表达式为,
Figure BDA0002460406610000041
式中,UCM是超度量轮廓图,S是目标分割块;
其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
本发明的一种视频多目标关联与分割系统,包括:
视频主要目标获取模块,用于通过可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
关联信息获取模块,用于利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
二值分割网络模型获取模块,包括:
图像获取模块,用于采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
分割提议获取模块,用于对每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
分割提议筛选填充模块,用于将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
分割提议排名模块,用于提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
伪标注信息获取模块,用于计算获得的排名后的分割提议与目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
二值分割网络模型训练模块,用于通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
多目标关联与分割模块,用于将视频主要目标获取模块获得的视频主要目标输入二值分割网络模型获取模块训练好的二值分割网络模型,获得分割结果;将获得的分割结果与关联信息获取模块获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
本发明的进一步改进在于,视频主要目标获取模块中,视频主要目标选择的表达式为,
Figure BDA0002460406610000051
式中,α、β是调节系数,
Figure BDA0002460406610000052
为视频帧中检测到的目标,
Figure BDA0002460406610000053
为视频帧中检测到的目标的置信度,
Figure BDA0002460406610000054
为视频帧中检测到的目标与视频主要目标所在区域R的距离,
Figure BDA0002460406610000055
是门控得分。
本发明的进一步改进在于,关联信息获取模块中,任意两个目标之间的相似性关系Ab的计算表达式为,
Figure BDA0002460406610000056
式中,F(·,·)表示两者之间的相似距离,
Figure BDA0002460406610000061
表示第t帧的第i个目标,
Figure BDA0002460406610000062
表示第t-1 帧的第j个目标;
匹配失败后,相似性Av计算表达式为,
Figure BDA0002460406610000063
式中,Zq表示第q个目标的检测框集合。
本发明的进一步改进在于,二值分割网络模型获取模块中,根据超度量轮廓图获得分割提议的计算表达式为,
Figure BDA0002460406610000064
式中,UCM是超度量轮廓图,S是目标分割块;
其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
与现有技术相比,本发明具有以下有益效果:
本发明的方法是一种未剪辑长视频中的多目标数据关联与分割方法,针对当前视频分割方法中存在的视频多目标分割算法少、大多数无监督式视频分割方法适用于视频单目标分割、数据集中噪声帧少等问题;本发明方法首先采用目标检测方法对视频的每一帧生成多个目标候选,结合注意力机制生成的视频感兴趣区域,筛选出多个视频主要目标,进一步解决视频多目标分割问题;然后利用孪生网络计算不同目标之间的相似性,得到视频主要目标在时间上的一致性关系,这种相似计算方法可以解决未剪辑长视频帧中出现的噪声帧等问题,视频主要目标在重现时便可以重新得到关联关系;最后利用目标分割网络得到视频主要目标的分割预测,提升了视频多目标分割的准确率。本发明使用检测与注意力机制相结合的方法自动确认视频主要目标,并计算不同目标之间的相似性来进行数据关联,再用全卷积网络对已确认目标进行分割,提升了分割性能。本发明的方法可以在没有人工额外输入的条件下自动确定视频的主要目标,并且在有噪声真的情况下完成数据关联,从而更有效的对视频主要目标进行分割,提高分割结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种多目标数据关联与分割方法的流程示意图;
图2是本发明实施例中的验证数据集示意图;其中,图2中的(a)为DAVIS2016数据集示意图,图2中的(b)为UNVOSeg数据集示意图;
图3是本发明实施例中,生成分割结果的示意图;
图4是本发明实施例中,多尺度超度量轮廓示意图;
图5是本发明实施例中,在UNVOSeg数据集上的验证结果示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种多目标数据关联与分割方法,是一种未剪辑长视频中的多目标关联与分割方法,包括如下步骤:
步骤1,视频主要目标生成,包括:
1.1)对未剪辑视频的每一帧用可变形的R-FCN网络进行目标检测,得到所述每一帧中所有的N个目标提议以及每个目标提议置信度分数;
1.2)利用注意力机制定位出视频主要目标所在区域R;其中,视频主要目标可以有多个;
1.3)用一个门控机制来计算每个目标提议是视频目标的置信度分数,选取得分大于一定阈值的目标作为视频主要目标,进行后续数据关联与分割。
步骤2,多目标的数据关联,包括:
2.1)利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;
2.2)将某一当前帧待匹配的视频主要目标和前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;通过计算两个视频主要目标之间的相似度Ab,判断当前帧待匹配的视频主要目标属于哪个实例,获得待匹配视频主要目标的关联信息;
2.3)若上一步中数据匹配失败,将当前帧待匹配的视频主要目标与已有的目标特征集进行匹配,计算相似度Av,判断当前帧待匹配的视频主要目标属于哪个实例,获得待匹配视频主要目标的关联信息。
步骤3,弱监督分割网络伪标注信息的生成,包括:
3.1)采集原始图片,用可变形的R-FCN网络进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;
3.3)利用超度量轮廓图获取图像的M个超像素,将每个超像素看成一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1 个分割提议;
3.4)从二叉树中分离P组分割提议;
3.5)将三张超度量轮廓图融合在一起,加上三张超度量轮廓图就可以得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
3.6)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
3.7)计算步骤3.6)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率;将重叠率最大值对应的分割提议作为伪标注信息。
步骤4,视频目标的分割,包括:
4.1)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;所述分割网络模型只区分前景背景;
4.2)将步骤1获得的视频主要目标,输入训练好的二值分割网络模型,获得分割结果,如图3所示;将分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输出。
本发明实施例中,步骤4.2)中的将分割结果与步骤2获得的关联信息相结合,具体可以是:将视频主要目标的关联信息映射为三维的RGB值,相同的实例具有相同的RGB值,用RGB 值代替二值分割结果的前景值,得到最终视频主要目标的分割结果。
本发明实施例中,步骤1中,对视频帧中检测到的目标
Figure BDA0002460406610000091
及其置信度
Figure BDA0002460406610000092
需要计算出该目标与视频目标所在区域R的距离
Figure BDA0002460406610000093
本发明实施例中,步骤1.3)中,对视频主要目标的选择如下:
Figure BDA0002460406610000094
其中,α、β是调节系数,
Figure BDA0002460406610000095
为视频帧中检测到的目标,
Figure BDA0002460406610000096
为视频帧中检测到的目标的置信度,
Figure BDA0002460406610000097
为视频帧中检测到的目标与视频主要目标所在区域R的距离,
Figure BDA0002460406610000098
是门控得分。
本发明实施例中,步骤2.2)中,任意两个目标之间的相似性关系Ab如下:
Figure BDA0002460406610000101
其中,F(·,·)表示两者之间的相似距离,
Figure BDA0002460406610000102
表示第t帧的第i个目标,
Figure BDA0002460406610000103
表示第t-1 帧的第j个目标。
本发明实施例中,所述步骤2.3)中,当目标重现时,其相似性Av计算如下:
Figure BDA0002460406610000104
其中,Zq表示第q个目标的检测框集合。
本发明实施例中,步骤3.3)中,由超度量轮廓图转化为分割候选的计算如下:
Figure BDA0002460406610000105
其中,UCM是超度量轮廓图,S是目标分割块,对每个层次进行迭代,就可以将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
综上,本发明实施例公开了一种未剪辑长视频中的多目标数据关联与分割方法,该方法针对包含较多噪声帧的视频,首先利用目标检测方法检测出视频帧中的所有目标,然后利用注意力机制找出视频目标主要出现的位置,二者结合过滤掉无关目标,确定视频主要目标,再利用孪生网络对视频序列中的目标进行数据关联,之后利用全卷积网络对检测的目标进行分割。该方法与现有方法进行对比,在DAVIS2016和UNVOSeg两个数据集上验证了视频多目标关联与分割算法的有效性和准确性。
本发明的具体实施例,图2中的(a)、(b)分别是验证本发明方法可行性的数据集:图2 中的(a)是DAVIS2016数据集中的部分视频帧示例,该数据集包含50个视频,每个视频都包含有目标,不含有噪声帧。图2中的(b)是UNVOSeg数据集中的部分视频帧示例,该数据集包含63个视频,视频的时长比较长而且视频中不包含目标的帧数较多。这两个示例中上面一行是视频中的部分视频帧,下面一行是其对应的真值。
参见图1,为本发明所述的未剪辑长视频中的多目标数据关联与分割方法流程图,本发明实施例的方法,具体包括步骤如下:
步骤1,视频目标生成,包括:
1.1)对未剪辑视频的每一帧用可变形的R-FCN网络进行目标检测,得到视频帧中检测到的目标及其置信度
Figure BDA0002460406610000111
1.2)利用注意力机制定位出视频目标所在区域R,计算出该目标与视频目标所在区域R 的距离
Figure BDA0002460406610000112
1.3)用一个门控机制来计算每个目标提议是视频目标的置信度分数,计算方法如下:
Figure BDA0002460406610000113
其中,α、β是调节系数,取值分别为0.8、0.2,
Figure BDA0002460406610000114
为视频帧中检测到的目标,
Figure BDA0002460406610000115
为视频帧中检测到的目标的置信度,
Figure BDA0002460406610000116
为视频帧中检测到的目标与视频主要目标所在区域R 的距离,
Figure BDA0002460406610000117
是门控得分。。
选取得分大于一定阈值的目标作为视频主要目标,进行后续数据关联与分割。
步骤2,多目标的数据关联:
2.1)利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络;
2.2)取步骤1中生成的相邻帧的视频目标,两两成对地输入孪生网络提取特征,通过计算两个目标之间的相似度来判断这两个视频目标是否属于同一实例,任意两个目标之间的相似性关系Ab如下:
Figure BDA0002460406610000118
其中,F(·,·)表示两者之间的相似距离,
Figure BDA0002460406610000121
表示第t帧的第i个目标,
Figure BDA0002460406610000122
表示第t-1 帧的第j个目标;
2.3)若上一步中数据匹配失败,将计算该目标与已有的目标特征集进行匹配,其相似性Av计算如下:
Figure BDA0002460406610000123
其中,Zq表示第q个目标的检测框集合;
步骤3,弱监督分割网络伪标注信息的生成,包括:
3.1)对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
3.2)对于每种分辨的图像,利用分水岭算法得到边缘概率映射的轮廓图,进一步生成这张图片的超度量轮廓图;
3.3)利用超度量轮廓图获取图像的M个超像素,由超度量轮廓图转化为分割候选的计算如下:
Figure BDA0002460406610000124
其中,UCM是超度量轮廓图,S是目标分割块,对每个层次进行迭代,就可以将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN},如图4所示。
将每个超像素看成一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,整个图片即为根节点,一共有2M-1个分割提议;
3.4)从二叉树中分离P组分割提议;
3.5)将三张超度量轮廓图融合在一起,加上三张超度量轮廓图就可以得到4P组分割提议,将这些分割候选重叠率大于0.95的筛选出来,进行孔填充,;
3.6)提取每个分割提议的2D特征,训练随机森林回归器对这些分割候选排名;
3.7)计算出步骤3.6)中分割候选与步骤3.1)中检测结果的重叠率,将最大值对应的分割候选作为伪标注信息。
步骤4,视频目标的分割,包括:
4.1)利用图像中的检测结果和伪标注信息训练一个只区分前景背景的二值分割网络;
4.2)对视频目标进行分割,结合关联信息确定视频目标的最终输出。
表1a、1b分别是视频多目标关联与分割方法的实验结果,表1a为在DAVIS2016数据集上的实验结果,表1b为在UNVOSeg数据集上的部分实验结果。
请参阅图5,图5为UNVOSeg数据集上部分视频帧的分割结果,从表1a、1b和图5中可以看出,本发明能够有效地提高视频目标分割的准确率
表1a.在DAVIS2016数据集上的实验结果
Figure BDA0002460406610000131
表1b.在UNVOSeg数据集上的部分实验结果
Figure BDA0002460406610000141
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种视频多目标关联与分割方法,其特征在于,包括以下步骤:
步骤1,用可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
步骤2,利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
步骤3,二值分割网络模型的生成,包括:
步骤3.1)采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
步骤3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
步骤3.3)将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
步骤3.4)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
步骤3.5)计算步骤3.4)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
步骤3.6)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
步骤4,将步骤1获得的视频主要目标输入步骤3训练好的二值分割网络模型,获得分割结果;将获得的分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
2.根据权利要求1所述的一种视频多目标关联与分割方法,其特征在于,步骤1中,视频主要目标选择的表达式为,
Figure FDA0002460406600000021
式中,α、β是调节系数,
Figure FDA0002460406600000022
为视频帧中检测到的目标,
Figure FDA0002460406600000023
为视频帧中检测到的目标的置信度,
Figure FDA0002460406600000024
为视频帧中检测到的目标与视频主要目标所在区域R的距离,
Figure FDA0002460406600000025
为门控得分。
3.根据权利要求2所述的一种视频多目标关联与分割方法,其特征在于,步骤1中,α、β的取值分别为0.8、0.2。
4.根据权利要求1所述的一种视频多目标关联与分割方法,其特征在于,步骤2中,任意两个目标之间的相似性关系Ab的计算表达式为,
Figure FDA0002460406600000026
式中,F(·,·)表示两者之间的相似距离,
Figure FDA0002460406600000031
表示第t帧的第i个目标,
Figure FDA0002460406600000032
表示第t-1帧的第j个目标。
5.根据权利要求4所述的一种视频多目标关联与分割方法,其特征在于,步骤2中,匹配失败后,相似性Av计算表达式为,
Figure FDA0002460406600000033
式中,Zq表示第q个目标的检测框集合。
6.根据权利要求1所述的一种视频多目标关联与分割方法,其特征在于,步骤3中,根据超度量轮廓图获得分割提议的计算表达式为,
Figure FDA0002460406600000034
式中,UCM是超度量轮廓图,S是目标分割块;
其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
7.一种视频多目标关联与分割系统,其特征在于,包括:
视频主要目标获取模块,用于通过可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
关联信息获取模块,用于利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
二值分割网络模型获取模块,包括:
图像获取模块,用于采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
分割提议获取模块,用于对每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
分割提议筛选填充模块,用于将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
分割提议排名模块,用于提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
伪标注信息获取模块,用于计算获得的排名后的分割提议与目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
二值分割网络模型训练模块,用于通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
多目标关联与分割模块,用于将视频主要目标获取模块获得的视频主要目标输入二值分割网络模型获取模块训练好的二值分割网络模型,获得分割结果;将获得的分割结果与关联信息获取模块获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
8.根据权利要求7所述的一种视频多目标关联与分割系统,其特征在于,视频主要目标获取模块中,视频主要目标选择的表达式为,
Figure FDA0002460406600000051
式中,α、β是调节系数,
Figure FDA0002460406600000052
为视频帧中检测到的目标,
Figure FDA0002460406600000053
为视频帧中检测到的目标的置信度,
Figure FDA0002460406600000054
为视频帧中检测到的目标与视频主要目标所在区域R的距离,
Figure FDA0002460406600000055
为门控得分。
9.根据权利要求7所述的一种视频多目标关联与分割系统,其特征在于,关联信息获取模块中,任意两个目标之间的相似性关系Ab的计算表达式为,
Figure FDA0002460406600000056
式中,F(·,·)表示两者之间的相似距离,
Figure FDA0002460406600000057
表示第t帧的第i个目标,
Figure FDA0002460406600000058
表示第t-1帧的第j个目标;
匹配失败后,相似性Av计算表达式为,
Figure FDA0002460406600000059
式中,Zq表示第q个目标的检测框集合。
10.根据权利要求7所述的一种视频多目标关联与分割系统,其特征在于,二值分割网络模型获取模块中,根据超度量轮廓图获得分割提议的计算表达式为,
Figure FDA00024604066000000510
式中,UCM是超度量轮廓图,S是目标分割块;
其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
CN202010318375.8A 2020-04-21 2020-04-21 一种视频多目标关联与分割方法及系统 Active CN111583288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318375.8A CN111583288B (zh) 2020-04-21 2020-04-21 一种视频多目标关联与分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318375.8A CN111583288B (zh) 2020-04-21 2020-04-21 一种视频多目标关联与分割方法及系统

Publications (2)

Publication Number Publication Date
CN111583288A CN111583288A (zh) 2020-08-25
CN111583288B true CN111583288B (zh) 2022-12-09

Family

ID=72112500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318375.8A Active CN111583288B (zh) 2020-04-21 2020-04-21 一种视频多目标关联与分割方法及系统

Country Status (1)

Country Link
CN (1) CN111583288B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191485B (zh) * 2018-08-29 2020-05-22 西安交通大学 一种基于多层超图模型的多视频目标协同分割方法
CN110097568B (zh) * 2019-05-13 2023-06-09 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110910391B (zh) * 2019-11-15 2023-08-18 安徽大学 一种双模块神经网络结构视频对象分割方法

Also Published As

Publication number Publication date
CN111583288A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN106875406B (zh) 图像引导的视频语义对象分割方法及装置
CN105184763B (zh) 图像处理方法和装置
Min et al. Joint histogram-based cost aggregation for stereo matching
CN110866896B (zh) 基于k-means与水平集超像素分割的图像显著性目标检测方法
Varnousfaderani et al. Weighted color and texture sample selection for image matting
CN109255357B (zh) 一种rgbd图像协同显著性检测方法
CN110210431B (zh) 一种基于点云语义标注和优化的点云分类方法
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
WO2019197021A1 (en) Device and method for instance-level segmentation of an image
CN110443257B (zh) 一种基于主动学习的显著性检测方法
CN109948533B (zh) 一种文本检测方法、装置、设备及可读存储介质
EP3973507B1 (en) Segmentation for holographic images
CN113111716B (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN113505670A (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
JP4926266B2 (ja) 学習データ作成装置、学習データ作成方法及びプログラム
CN106611030B (zh) 基于视频的对象相似度比较方法和检索方法及其系统
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
CN115147632A (zh) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN108966042B (zh) 一种基于最短路径的视频摘要生成方法及装置
CN111583288B (zh) 一种视频多目标关联与分割方法及系统
CN109299304B (zh) 目标图像检索方法及系统
CN116109649A (zh) 一种基于语义错误修正的3d点云实例分割方法
Dimiccoli et al. Hierarchical region-based representation for segmentation and filtering with depth in single images
CN115115847A (zh) 三维稀疏重建方法、装置及电子装置
Guo et al. Image saliency detection based on geodesic‐like and boundary contrast maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240516

Address after: 519099 Room 97, Building E, Shitao Yuan, Wailingding Island, Wanshan Management District, Zhuhai City, Guangdong Province

Patentee after: ZHUHAI YOUJIE TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 710049 No. 28 West Xianning Road, Shaanxi, Xi'an

Patentee before: XI'AN JIAOTONG University

Country or region before: China