CN106204597A - 一种基于自步式弱监督学习的视频物体分割方法 - Google Patents

一种基于自步式弱监督学习的视频物体分割方法 Download PDF

Info

Publication number
CN106204597A
CN106204597A CN201610551246.7A CN201610551246A CN106204597A CN 106204597 A CN106204597 A CN 106204597A CN 201610551246 A CN201610551246 A CN 201610551246A CN 106204597 A CN106204597 A CN 106204597A
Authority
CN
China
Prior art keywords
training
video image
segmentation
neutral net
frame video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610551246.7A
Other languages
English (en)
Other versions
CN106204597B (zh
Inventor
韩军伟
杨乐
张鼎文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Weizhi Zhongxiang Technology Co.,Ltd.
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201610551246.7A priority Critical patent/CN106204597B/zh
Publication of CN106204597A publication Critical patent/CN106204597A/zh
Application granted granted Critical
Publication of CN106204597B publication Critical patent/CN106204597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自步式弱监督学习的视频物体分割方法,将自步学习算法嵌入到深度神经网络中,在弱监督学习思想的指导下,整个系统按照由易到难的顺序对目标概念进行学习,随着训练过程的进行学习得到的网络由浅显变复杂,网络处理问题的能力逐渐增强,最终得到准确的视频物体分割结果。本发明综合利用了自步学习算法和深度神经网络模型的优点,具有更高的分割准确度,并且在处理不同场景的视频数据时表现出更好的鲁棒性。

Description

一种基于自步式弱监督学习的视频物体分割方法
技术领域
本发明属于计算机视觉算法研究领域,具体涉及一种在弱监督学习范畴下,将自步学习方法结合到深度神经网络中,完成视频物体分割任务的方法。
背景技术
近年来,社交媒体和视频共享网站的快速发展使得视频处理的需求越来越强烈,使用弱监督学习算法进行视频物体分割具有重大的应用价值。
已经有很多工作进行视频物体分割方法研究,如Yong Jae Lee等人在2011年提出的Key-Segments for Video Object Segmentation和Dong Zhang等人在2013年提出的Video Object Segmentation through Spatially Accurate and Temporally DenseExtraction of Primary Object Regions,这些已有方法一般遵循如下的工作框架:对于特定的分割任务,首先将视频数据分为正样例和负样例,并利用成熟的算法生成分割采样。然后,用生成的分割采样训练分割级别的分类器或者预测模型。最后,用分类器或者模型对测试数据进行预测,并进行一些后处理操作以得到精细的分割结果。
虽然上述框架已取得良好的效果,但它仍存在一些局限性:首先,在整体设计上,这类方法仅是由许多串联的处理单元构成,而不是对问题进行端对端的规划,这种设计方法过度依赖于研究者的专业知识和自身经验,有可能使系统的性能受到限制。其次,大部分已有方法在学习过程中对每帧视频单独处理,没有考虑到同一语义类别下其它视频帧所提供的信息。最后,上述框架在训练过程中需要使用负样例数据,负样例数据在数量和质量上的不确定性有可能导致方法最终性能的不稳定。
发明内容
要解决的技术问题
为了解决上述问题,本发明提出一种将自步学习算法结合到深度神经网络中的方法,完成弱监督学习视频物体分割任务。
本发明的基本思想是:输入一组视频数据,在初始准备阶段,本方法对每一帧视频图像产生分割采样,同时使用数据集预训练深度神经网络。接下来,在迭代中训练神经网络的参数。在迭代过程中,根据像素点损失值的大小,计算像素点对于训练网络参数的影响力。经过参数训练可以得到新的网络,用此网络在原始视频帧上测试可以得到新的分割结果,然后进行下一轮迭代。在训练过程中,优先选择显著性得分高的分割结果进行训练,每个分割结果中选择像素点用于训练网络时,优先选择损失值小的像素点。随着训练过程的进行,逐渐增加用于训练的分割结果和每帧视频图像中用于训练的像素点的比例,这种按照由易到难的顺序使用数据对神经网络进行训练的做法,即是自步学习的思想。在自步学习思想指导下,网络最终可以得到准确的视频物体分割结果。
技术方案
一种基于自步式弱监督学习的视频物体分割方法,其特征在于如下步骤:
步骤1:构建深度神经网络并进行预训练:将Nian Liu等人在2015年的工作Predicting Eye Fixations using Convolutional Neural Networks中提出的深度神经网络最后一层的Loss参数修改为“HingeLoss”,并设置norm参数为“L2”,得到修改过的深度神经网络;再利用MSRA 10K数据集对修改过的深度神经网络进行训练,得到预训练的神经网络;
步骤2:构建训练数据集,包括所有帧视频图像、初始权重矩阵集合和每帧视频图像的初始分割采样:所述的初始权重矩阵为大小与视频图像尺寸相同、元素全为1的矩阵,权重矩阵的个数与视频图像帧数相同;所述的每帧视频图像的初始分割采样的计算方法如下:
步骤a:利用Yong Jae Lee等人在2011年的工作Key-Segments for Video ObjectSegmentation中提出的Object-like Regions in Video方法对每帧视频图像提取分割采样,再使用Discovering Key-Segments Across Frames方法对每帧视频图像选择10个分割采样,得到每帧视频图像的分割采样集合{p1,…,pk,…,p10},1≤k≤10;
步骤b:利用公式计算每个分割采样pk的显著性得分sk
其中,SA为利用步骤1得到的预训练神经网络对视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;m为视频图像的行数,n为视频图像的列数,uk表示分割采样pk中前景物体像素点的数目,(i,j)表示像素位置为i行j列;
步骤c:利用公式计算得到每帧视频图像的初始分割采样op;其中,阈值Ts的取值范围为(0,1);
步骤3:进行网络训练得到优化后的神经网络:
步骤a:以训练数据集和上一次训练得到的神经网络为输入,在Caffe平台上对网络参数进行训练,得到优化后的神经网络;
其中,第一次训练时,“上一次训练得到的神经网络”为步骤1中预训练的神经网络;
步骤b:利用公式H(i,j)=max{0,1-F′(i,j)×F(i,j)}计算分割结果中所有像素点的铰链损失值H(i,j),将铰链损失值小于阈值T的像素点的权值记为0,将铰链损失值大于等于阈值T的像素点的权值记为1,得到每个分割结果所对应的权重矩阵;所有分割结果的权重矩阵构成权重矩阵集合;
其中,F′为利用本次训练得到的优化后的神经网络对每帧视频图像进行测试得到的分割结果,F为利用上次训练得到的优化后的神经网络对每帧视频图像进行测试得到的分割结果,第一次训练时,F为步骤2得到的初始分割采样;所述的分割结果为利用神经网络对视频图像进行测试,测试时设置参数Loss=“HingeLoss”,并将测试结果中小于0的值置为0,大于0的值置为255而得到;
所述的阈值T为:将所有像素点的铰链损失值按照由小到大的顺序排列,T的取值为前P%处像素点的损失值,其中,P的初始值为80,每训练一次,其值增加4,直至100,不再变化;
步骤c:利用公式计算分割结果的显著性得分s′;其中,SA′为利用本次训练得到的神经网络对每帧视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;u表示分割结果F′中前景物体像素点的数目;
步骤d:选择显著性得分s′高的前N%帧的视频图像及其分割结果和步骤b得到的权重矩阵集合构成新的训练数据集,重复步骤a-c,直至相邻两次视频语义物体分割结果的平均交并比大于阈值TIOU,得到最终优化后的神经网络;
其中,N的初始值为80,每训练一次,其值增加4,直至100,不再变化;交并比IOU的计算公式为IOU=(F∩F′)/(F∪F′),平均交并比IOU即为所有交并比的平均值;阈值TIOU的取值范围为(0,1);
步骤4:视频分割:
步骤a:利用步骤3得到的最终优化后的神经网络和Nian Liu等人在2015年的工作Predicting Eye Fixations using Convolutional Neural Networks中提出的测试方法,对所有帧视频图像进行测试,测试时设置参数Loss=“SigmoidCrossEntropyLoss”,得到测试显著图;
步骤b:利用Carsten Rother等人在2004年的工作Interactive ForegroundExtraction using Iterated Graph Cuts中提出的GrabCut方法对步骤a得到的测试显著图进行修正,得到最终视频物体分割结果。
有益效果
本发明将自步学习算法嵌入到深度神经网络中,提出自步式弱监督学习视频物体分割方法,在弱监督学习思想的指导下,综合利用自步学习算法和深度神经网络的优点,整个系统可以按照由易到难的顺序对目标概念进行学习,随着训练过程的进行学习得到的网络会逐渐由浅显变复杂,模型所能处理问题的能力会逐渐增强。
本发明是在给定输入和期望输出的情况下,让网络自动地学习目标物体概念,是一种端对端学习方式。同时,本发明中的方法使用相同语义类别下的所有视频帧进行网络参数的训练,考虑到视频帧之间所共有的信息。最后,本研究提出的方法不使用负样例数据,避免负样例数据可能导致系统性能不稳定的情况。
相比于已有的视频物体分割方法,本发明的方法具有更高的分割准确度,并且在处理不同场景的视频数据时表现出更好的鲁棒性。
附图说明
图1是本发明方法的流程图。
图2是部分训练数据的可视化图。
图3是本发明方法的实验结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
用于实施的计算机硬件环境是:因特尔Xeon E5-2600 v3@2.6GHz 8-核CPU处理器,64GB内存,配备GeForce GTX TITAN X GPU。运行的软件环境是:Linux 14.0464位操作系统。我们用Matlab R2015a软件实现发明中提出的方法。
参照图1的方法流程图,本发明具体实施如下:
1、构建深度神经网络并进行预训练。将Nian Liu等人在2015年工作Predictingeye fixations using convolutional neural networks[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2015:362-370.Predicting中提出的深度神经网络最后一层的Loss参数修改为“HingeLoss”,并设置norm参数为“L2”,得到本发明将要使用的深度神经网络;然后,利用MSRA 10K数据集对此深度神经网络进行训练,得到预训练的神经网络。本发明所使用的MSRA 10K数据集来源于http:// mmcheng.net/zh/msra10k/
2、构建训练数据集。初始训练数据集包括所有帧视频图像、初始权重矩阵集合和每帧视频图像的初始分割采样。本实施例中使用Youtube-Objects数据集进行实验,数据集来源于https://data.vision.ee.ethz.ch/cvl/youtube-objects/。此训练数据集共包含10类物体(如“猫”、“狗”等),如图2中的“图像”部分。每一类中包含不同场景中的多个视频(如“猫”共包含16个不同场景中的视频),利用本发明的方法对每一类的所有视频单独处理。
初始权重矩阵为大小与视频图像尺寸相同、元素全为1的矩阵,初始权重矩阵的个数与视频图像的帧数相同,所有初始权重矩阵构成初始权重矩阵集合。
每帧视频图像的初始分割采样按如下步骤计算:
步骤a:利用Yong Jae Lee等人在2011年的工作Key-segments for video objectsegmentation[C].International Conference on Computer Vision.IEEE,2011:1995-2002.中提出的Object-like Regions in Video方法对每帧视频图像提取分割采样(每帧视频图像大约产生1000个分割采样),再使用其工作中的Discovering Key-SegmentsAcross Frames方法对每帧视频图像选择10个分割采样,得到每帧视频图像的分割采样集合{p1,…,pk,…,p10},1≤k≤10。
步骤b:利用公式计算每个分割采样pk的显著性得分sk。其中,SA为利用步骤1得到的预训练神经网络对视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;m为视频图像的行数,n为视频图像的列数,uk表示分割采样pk中前景物体像素点的数目,(i,j)表示像素位置为i行j列;
步骤c:利用公式计算得到每帧视频图像的初始分割采样op;Ts的取值范围为(0,1),本实施例中Ts=0.5。
3、训练深度神经网络。在Caffe平台上对网络参数进行训练,本实施例中设置各个参数的数值为:学习率base_lr=5×10-7,迭代次数max_iter=5×本次训练图像数量,正则化系数momentum=0.9,权值衰减系数weight_decay=0.0005。
第一次训练时以前面构建的初始训练数据集和预训练的神经网络为输入,训练结束后,得到新的神经网络;利用得到的新的神经网络对每帧视频图像进行测试,测试时设置深度神经网络参数Loss=“HingeLoss”,并将测试结果中小于0的值置为0,大于0的值置为255,得到每帧视频图像的分割结果F′。
利用公式H(i,j)=max{0,1-F′(i,j)×F(i,j)}计算每个分割结果中所有像素点的铰链损失值H(i,j),将铰链损失值小于阈值T的像素点的权值记为0,将铰链损失值大于等于阈值T的像素点的权值记为1,得到每个分割结果所对应的新的权重矩阵,所有分割结果的权重矩阵构成权重矩阵集合。第一次训练时,F为步骤2得到的初始分割采样,从第二次训练开始F为利用上一次训练得到的神经网络对每帧视频图像进行测试得到的分割结果。阈值T的计算方式为:由所有分割结果中每个像素点的铰链损失值构成集合,将集合中全部像素点的铰链损失值按照由小到大的顺序排列,T取值于P%处像素点的损失值,第一次训练时P=80,每训练一次,其值增加4,直至100,不再变化。
利用公式计算每帧视频分割结果的显著性得分s'。其中,SA′为利用本次训练得到的神经网络对每帧视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”。u表示分割结果F′中前景物体像素点的数目。
选择显著性得分s′高的前N%帧的视频图像及其分割结果和每帧视频图像的新的权重矩阵构成新的训练数据集,其中,N的初始值为80,每训练一次,其值增加4,直至100,不再变化。
以新的训练数据集作为输入进行下一次训练,直至相邻两次视频语义物体分割结果的平均交并比大于TIOU,得到最终优化后的神经网络。其中,交并比IOU的计算公式为IOU=(F∩F′)/(F∪F′),平均交并比即为所有交并比的平均值;TIOU的取值范围为(0,1),本实施例中TIOU=0.5。
图2是第二次训练时部分训练数据的可视化图。其中,第一行为第二次训练时训练数据集中的部分视频帧图像,第二行是其对应的分割结果图,第三行是其对应的权重矩阵的可视化图。
4、视频分割。利用训练得到的最终优化后的神经网络和Nian Liu等人在2015年的工作Predicting eye fixations using convolutional neural networks[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015:362-370.Predicting中提出的测试方法,对所有帧视频图像进行测试,测试时设置参数Loss=“SigmoidCrossEntropyLoss”,得到测试显著图;再利用CarstenRother等人在2004年的工作Grabcut:Interactive foreground extraction usingiterated graph cuts[C].ACM transactions on graphics(TOG).ACM,2004,23(3):309-314.中提出的Grabcut方法对步骤a得到的测试显著图进行修正,得到最终视频分割结果。本实施例中使用Grabcut方法时,设置分割阈值为0.5,迭代修正次数设定为5,得到的视频分割结果如图3所示。

Claims (1)

1.一种基于自步式弱监督学习的视频物体分割方法,其特征在于如下步骤:
步骤1:构建深度神经网络并进行预训练:将Nian Liu等人在2015年的工作PredictingEye Fixations using Convolutional Neural Networks中提出的深度神经网络最后一层的Loss参数修改为“HingeLoss”,并设置norm参数为“L2”,得到修改过的深度神经网络;再利用MSRA 10K数据集对修改过的深度神经网络进行训练,得到预训练的神经网络;
步骤2:构建训练数据集,包括所有帧视频图像、初始权重矩阵集合和每帧视频图像的初始分割采样:所述的初始权重矩阵为大小与视频图像尺寸相同、元素全为1的矩阵,权重矩阵的个数与视频图像帧数相同;所述的每帧视频图像的初始分割采样的计算方法如下:
步骤a:利用Yong Jae Lee等人在2011年的工作Key-Segments for Video ObjectSegmentation中提出的Object-like Regions in Video方法对每帧视频图像提取分割采样,再使用Discovering Key-Segments Across Frames方法对每帧视频图像选择10个分割采样,得到每帧视频图像的分割采样集合{p1,…,pk,…,p10},1≤k≤10;
步骤b:利用公式计算每个分割采样pk的显著性得分sk
其中,SA为利用步骤1得到的预训练神经网络对视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;m为视频图像的行数,n为视频图像的列数,uk表示分割采样pk中前景物体像素点的数目,(i,j)表示像素位置为i行j列;
步骤c:利用公式计算得到每帧视频图像的初始分割采样op;其中,阈值Ts的取值范围为(0,1);
步骤3:进行网络训练得到优化后的神经网络:
步骤a:以训练数据集和上一次训练得到的神经网络为输入,在Caffe平台上对网络参数进行训练,得到优化后的神经网络;
其中,第一次训练时,“上一次训练得到的神经网络”为步骤1中预训练的神经网络;
步骤b:利用公式H(i,j)=max{0,1-F′(i,j)×F(i,j)}计算分割结果中所有像素点的铰链损失值H(i,j),将铰链损失值小于阈值T的像素点的权值记为0,将铰链损失值大于等于阈值T的像素点的权值记为1,得到每个分割结果所对应的权重矩阵;所有分割结果的权重矩阵构成权重矩阵集合;
其中,F′为利用本次训练得到的优化后的神经网络对每帧视频图像进行测试得到的分割结果,F为利用上次训练得到的优化后的神经网络对每帧视频图像进行测试得到的分割结果,第一次训练时,F为步骤2得到的初始分割采样;所述的分割结果为利用神经网络对视频图像进行测试,测试时设置参数Loss=“HingeLoss”,并将测试结果中小于0的值置为0,大于0的值置为255而得到;
所述的阈值T为:将所有像素点的铰链损失值按照由小到大的顺序排列,T的取值为前P%处像素点的损失值,其中,P的初始值为80,每训练一次,其值增加4,直至100,不再变化;
步骤c:利用公式计算分割结果的显著性得分s′;其中,SA′为利用本次训练得到的神经网络对每帧视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;u表示分割结果F′中前景物体像素点的数目;
步骤d:选择显著性得分s′高的前N%帧的视频图像及其分割结果和步骤b得到的权重矩阵集合构成新的训练数据集,重复步骤a-c,直至相邻两次视频语义物体分割结果的平均交并比大于阈值TIOU,得到最终优化后的神经网络;
其中,N的初始值为80,每训练一次,其值增加4,直至100,不再变化;交并比IOU的计算公式为IOU=(F∩F′)/(F∪F′),平均交并比即为所有交并比的平均值;阈值TIOU的取值范围为(0,1);
步骤4:视频分割:
步骤a:利用步骤3得到的最终优化后的神经网络和Nian Liu等人在2015年的工作Predicting Eye Fixations using Convolutional Neural Networks中提出的测试方法,对所有帧视频图像进行测试,测试时设置参数Loss=“SigmoidCrossEntropyLoss”,得到测试显著图;
步骤b:利用Carsten Rother等人在2004年的工作Interactive ForegroundExtraction using Iterated Graph Cuts中提出的GrabCut方法对步骤a得到的测试显著图进行修正,得到最终视频物体分割结果。
CN201610551246.7A 2016-07-13 2016-07-13 一种基于自步式弱监督学习的视频物体分割方法 Active CN106204597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610551246.7A CN106204597B (zh) 2016-07-13 2016-07-13 一种基于自步式弱监督学习的视频物体分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610551246.7A CN106204597B (zh) 2016-07-13 2016-07-13 一种基于自步式弱监督学习的视频物体分割方法

Publications (2)

Publication Number Publication Date
CN106204597A true CN106204597A (zh) 2016-12-07
CN106204597B CN106204597B (zh) 2019-01-11

Family

ID=57476653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610551246.7A Active CN106204597B (zh) 2016-07-13 2016-07-13 一种基于自步式弱监督学习的视频物体分割方法

Country Status (1)

Country Link
CN (1) CN106204597B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980817A (zh) * 2017-02-27 2017-07-25 南京邮电大学 一种基于Caffe框架的恐怖视频识别方法
CN107808389A (zh) * 2017-10-24 2018-03-16 上海交通大学 基于深度学习的无监督视频分割方法
CN108898618A (zh) * 2018-06-06 2018-11-27 上海交通大学 一种弱监督视频物体分割方法及装置
CN109902202A (zh) * 2019-01-08 2019-06-18 国家计算机网络与信息安全管理中心 一种视频分类方法及装置
CN109903291A (zh) * 2017-12-11 2019-06-18 腾讯科技(深圳)有限公司 图像处理方法及相关装置
CN113160233A (zh) * 2021-04-02 2021-07-23 易普森智慧健康科技(深圳)有限公司 利用稀疏标注数据集训练实例分割神经网络模型的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310195A (zh) * 2013-06-09 2013-09-18 西北工业大学 车辆高分遥感图像的基于llc特征的弱监督识别方法
CN103810503A (zh) * 2013-12-26 2014-05-21 西北工业大学 一种基于深度学习的自然图像中显著区域的检测方法
US20140241582A1 (en) * 2013-02-26 2014-08-28 Spinella Ip Holdings, Inc. Digital processing method and system for determination of object occlusion in an image sequence
CN104112138A (zh) * 2013-12-17 2014-10-22 深圳市华尊科技有限公司 物体颜色分类方法及装置
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140241582A1 (en) * 2013-02-26 2014-08-28 Spinella Ip Holdings, Inc. Digital processing method and system for determination of object occlusion in an image sequence
CN103310195A (zh) * 2013-06-09 2013-09-18 西北工业大学 车辆高分遥感图像的基于llc特征的弱监督识别方法
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN104112138A (zh) * 2013-12-17 2014-10-22 深圳市华尊科技有限公司 物体颜色分类方法及装置
CN103810503A (zh) * 2013-12-26 2014-05-21 西北工业大学 一种基于深度学习的自然图像中显著区域的检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CARSTEN ROTHER 等: ""GrabCut" — Interactive Foreground Extraction using Iterated Graph Cuts", 《ACM TRANSACTIONS ON GRAPHICS(TOG)》 *
DINGWEN ZHANG 等: "Weakly Supervised Learning for Target Detection in Remote Sensing Images", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》 *
DONG ZHANG 等: "Video Object Segmentation through Spatially Accurate and Temporally Dense Extraction of Primary Object Regions", 《2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
NIAN LIU 等: "Predicting Eye Fixations using Convolutional Neural Networks", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YONG JAE LEE 等: "Key-Segments for Video Object Segmentation", 《2011 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
赵立兴: "基于视频序列的运动目标滤波、分割与检测算法研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 *
郑馨: "自学习的白细胞图像分割算法研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980817A (zh) * 2017-02-27 2017-07-25 南京邮电大学 一种基于Caffe框架的恐怖视频识别方法
CN107808389A (zh) * 2017-10-24 2018-03-16 上海交通大学 基于深度学习的无监督视频分割方法
CN107808389B (zh) * 2017-10-24 2020-04-17 上海交通大学 基于深度学习的无监督视频分割方法
CN109903291A (zh) * 2017-12-11 2019-06-18 腾讯科技(深圳)有限公司 图像处理方法及相关装置
CN109903291B (zh) * 2017-12-11 2021-06-01 腾讯科技(深圳)有限公司 图像处理方法及相关装置
US11200680B2 (en) 2017-12-11 2021-12-14 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus
CN108898618A (zh) * 2018-06-06 2018-11-27 上海交通大学 一种弱监督视频物体分割方法及装置
CN108898618B (zh) * 2018-06-06 2021-09-24 上海交通大学 一种弱监督视频物体分割方法及装置
CN109902202A (zh) * 2019-01-08 2019-06-18 国家计算机网络与信息安全管理中心 一种视频分类方法及装置
CN113160233A (zh) * 2021-04-02 2021-07-23 易普森智慧健康科技(深圳)有限公司 利用稀疏标注数据集训练实例分割神经网络模型的方法

Also Published As

Publication number Publication date
CN106204597B (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN106204597A (zh) 一种基于自步式弱监督学习的视频物体分割方法
CN110969250B (zh) 一种神经网络训练方法及装置
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110807757B (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN105976400A (zh) 基于神经网络模型的目标跟踪方法及装置
CN109614874B (zh) 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统
CN109272509A (zh) 一种连续图像的目标检测方法、装置、设备及存储介质
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN112990222B (zh) 一种基于图像边界知识迁移的引导语义分割方法
CN107146237A (zh) 一种基于在线状态学习与估计的目标跟踪方法
CN106815563B (zh) 一种基于人体表观结构的人群数量预测方法
CN112437451B (zh) 一种基于生成对抗网络的无线网络流量预测方法和设备
CN113239875B (zh) 人脸特征的获取方法、系统、装置及计算机可读存储介质
CN111079507A (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN111008631A (zh) 图像的关联方法及装置、存储介质和电子装置
US20190220924A1 (en) Method and device for determining key variable in model
EP3973712A1 (en) Small and fast video processing networks via neural architecture search
CN109685805A (zh) 一种图像分割方法及装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
Mokhtar et al. Pedestrian wind factor estimation in complex urban environments
Acosta et al. City safety perception model based on visual content of street images
CN112037173B (zh) 染色体检测方法、装置及电子设备
CN112465847A (zh) 一种基于预测清晰边界的边缘检测方法、装置及设备
CN109859244B (zh) 一种基于卷积稀疏滤波的视觉跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240425

Address after: Room 531, 5th Floor, Building A3A4, Phase I of Chuanggu Science and Technology Park, No. 900 Wangjiang West Road, High tech Zone, Hefei City, Anhui Province, 230088

Patentee after: Hefei Weizhi Zhongxiang Technology Co.,Ltd.

Country or region after: China

Address before: 710072 No. 127 Youyi West Road, Shaanxi, Xi'an

Patentee before: Northwestern Polytechnical University

Country or region before: China

TR01 Transfer of patent right