CN111291663B - 一种利用时空信息的快速视频目标物体分割方法 - Google Patents
一种利用时空信息的快速视频目标物体分割方法 Download PDFInfo
- Publication number
- CN111291663B CN111291663B CN202010073352.5A CN202010073352A CN111291663B CN 111291663 B CN111291663 B CN 111291663B CN 202010073352 A CN202010073352 A CN 202010073352A CN 111291663 B CN111291663 B CN 111291663B
- Authority
- CN
- China
- Prior art keywords
- frame
- rnn
- neural network
- video
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用时空信息的快速视频目标物体分割方法,包括下述步骤:建立一个神经网络系统,在最前部为深度卷积神经网络CNN,对图像进行基本的特征提取,得到每一帧对应的特征图;连接一个循环神经网络RNN,该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息,以及视频在每一帧时间相关性上所包含的信息,并将这些隐含信息提取到特征中,从而得到视频对应每一帧包含时空信息的新的特征图;连接一个用以进行二分类的神经网络层,对特征图进行二分类,得到前景部分和背景部分,从而实现对视频每一帧的目标物体分割。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种利用时空信息的快速视频目标物体分割方法。
背景技术
视频目标物体分割是当今计算机视觉领域一个常见的任务,在我们日常生活中,也起着十分重要的作用。对于一个场景,如何将我们需要的目标物体和背景分割开来,是很多计算机视觉任务的第一步。
而在视频中,由于物体存在位移,变形,遮挡等等情况的存在,分割任务并不是十分简单,近年来的许多工作都使用光流来模拟整个时间内的像素一致性以获得平滑度。然而,光流标注是一项艰巨的任务,需要大量人力,此外光流估计非常难,因此光流估计的结果往往准确较差。少有的利用时空信息的方法提取隐含信息的能力还十分落后,提取出的信息还十分贫瘠。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种利用时空信息的快速视频目标物体分割方法,使得视频目标物体分割得以快速且准确。
为了达到上述目的,本发明采用以下技术方案:
一种利用时空信息的快速视频目标物体分割方法,包括下述步骤:
建立一个神经网络系统,在最前部为深度卷积神经网络CNN,对图像进行基本的特征提取,得到每一帧对应的特征图;
连接一个循环神经网络RNN,该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息,以及视频在每一帧时间相关性上所包含的信息,并将这些隐含信息提取到特征中,从而得到视频对应每一帧包含时空信息的新的特征图;
连接一个用以进行二分类的神经网络层,对特征图进行二分类,得到前景部分和背景部分,从而实现对视频每一帧的目标物体分割。
作为优选的技术方案,在连接一个循环神经网络RNN的步骤前,还包括下述步骤:
建立无向的循环信息传播图,所述无向的循环信息传播图可近似为4个方向信息传播图的合集Gu={Gse,Gsw,Gne,Gnw}。
作为优选的技术方案,在无向的循环信息传播图的基础上,循环神经网络RNN的公式化表示如下:
其中,分别代表第t帧的特征图中某像素vi,t在RNN中对应的连接顶点的输入和输出特征,代表在第t帧的特征图中某像素vi,t在RNN中对应的隐含层状态,K代表RNN中时间方向的传播参数,Kd代表RNN中空间方向的传播参数,Ud,Vd是转换输入特征和隐含层特征的参数,bd,c是偏置参数,表示组成该局部传播图的顶点的合集,f是激活函数。
作为优选的技术方案,还包括下述步骤:
在所述的无向的循环信息传播图中,将原来空间上各方向相邻节点之间连接,改为各方向每隔N-1个节点相互连接,即将空间上的传播距离由原始的一个单位扩展到N个单位。
作为优选的技术方案,还包括下述步骤:
对CNN网络和RNN网络模型参数进行训练,选取部分关键帧中的前景点为关键点集合A,部分寻常帧中的前景点为正样本点集合P,部分寻常帧中的背景点为负样本点集合N,利用如下的损失函数对网络模型中的参数进行训练优化:
其中,F()为对应点通过该网络中CNN以及RNN部分后提取输出的特征,α为避免分母为0的参数。
作为优选的技术方案,在对特征图进行二分类时,还包括下述步骤:
根据新的目标物体分割任务和视频,利用新问题的第一帧给出的标注,对框架的最后一层二分类层进行连接参数适应调整,形式化为对以下优化问题进行求解,得到参数调整结果:
L(W1)=L+(W1)+λ0L-(W1)
其中W1为需要适应参数调整的二分类层参数,和为两个还原损失分别对应第一帧中还原正样本点和负样本点。X+和X-分别表示第一帧中正样本和负样本抽取出的特征,Y+和Y-分别表示对应的一位有效编码形式,λ0用来控制两个还原损失的贡献比例,λ1为正则化参数。
作为优选的技术方案,还包括下述步骤:
在每一帧的分割结果得出之后,根据前一帧的结果,经过对如下优化问题的求解,对框架的最后一层二分类层进行连接参数适应调整,从而在线提高分割正确率:
L(Wt)=L+(Wt)+λ0L_(Wt)
Wt=Wt-1+ΔW
其中Wt为经过第t帧调整适应后,当前需要继续适应参数调整的二分类层参数,L+(Wt)和L_(Wt)为两个还原损失,分别对应第t帧最优分割结果中还原正样本点和负样本点,用来控制在线学习的参数差范围,α2是正则项参数。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明在训练模型和对新目标进行分类的过程中,都只需要使用原始的标注以及图片原有信息,无需进行其他标注,节省人力时间,且扩展性强。
2、本发明充分利用视频中每一帧所包含的空间信息,不仅通过常规的卷积神经网络CNN对局部空间特征进行提取,同时建立了循环神经网络中的空间传播信息流,能够对空间上包含的深层次信息进行提取,并整合到特征向量中。
3、本发明充分利用视频每一帧之间在时间层次上的信息,通过在循环神经网络的空间传播信息流基础上增加时间信息传播连接,能够对时间上包含的深层次信息进行提取,并整合到特征向量中。
4、本发明通过根据新的分割任务的第一帧标注,对网络参数进行适应性的更新,从而使得对不同新任务的分割效果都能有所提升。
5、本发明通过在对目标任务进行分割的过程中,实时根据当前已进行分割的帧的结果,对网络参数进行实时在线更新,从而使得分割效果进一步提升。
6、本发明在针对新的任务进行参数调整的过程中,只针对最后一层二分类层的参数进行调整,参数量低,速度快;同时实验显示所提出的时空循环网络在分割过程中所占用的时间也很短。即,本方法不仅目标分割效果好,速度也快,可以在二者之间取得很好的平衡。
7、本发明经实验验证,对于视频中有遮挡、变形、快速移动等情形的较难分割的目标,分割效果相对其他算法效果更好。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明的利用时空信息的快速视频目标物体分割方法流程图;
图2是本发明的神经网络系统的架构示意图;
图3是本发明的无向的循环信息传播图;
图4是本发明的时空传播RNN连接示意图;
图5是本发明的将空间上的传播距离由原始的一个单位扩展到N个单位的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1、图2所示,本实施例利用时空信息的快速视频目标物体分割方法,包括下述步骤:
S1、建立一个神经网络系统,在最前部为深度卷积神经网络CNN,对图像进行基本的特征提取,得到每一帧对应的特征图;
S2、连接一个循环神经网络RNN,该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息,以及视频在每一帧时间相关性上所包含的信息,并将这些隐含信息提取到特征中,从而得到视频对应每一帧包含时空信息的新的特征图;
S3、连接一个用以进行二分类的神经网络层,对特征图进行二分类,得到前景部分和背景部分,从而实现对视频每一帧的目标物体分割。
进一步的,根据图3所示,建立无向的循环信息传播图,这样的传播图可以近似为4个方向信息传播图的合集Gu={Gse,Gsw,Gne,Gnw}。
取其中一个传播方向为例,加上时间的连接,可以得到如图4所示的时空传播RNN连接示意图。
在此基础上,RNN模型的公式化表示如下
其中,分别代表第t帧的特征图中某像素vi,t在RNN中对应的连接顶点的输入和输出特征,代表在第t帧的特征图中某像素vi,t在RNN中对应的隐含层状态,K代表RNN中时间方向的传播参数,Kd代表RNN中空间方向的传播参数,Ud,Vd是转换输入特征和隐含层特征的参数,bd,c是偏置参数,表示组成该局部传播图的顶点的合集,f是激活函数。
可选的,由于长距离的传播会导致传播内容的减弱消逝,在本实施例的方案的基础上可以将空间上的传播距离由原始的一个单位扩展到N个单位,如图5所示。该优化方案并不影响之前的网络框架。
进一步的,在模型参数的训练过程中,选取部分关键帧中的前景点为关键点集合A,部分寻常帧中的前景点为正样本点集合P,部分寻常帧中的背景点为负样本点集合N。利用如下的损失函数对上述提出的网络模型中的参数进行训练优化:
其中,F()为对应点通过该网络中CNN以及RNN部分后提取输出的特征,α为避免分母为0的参数。
进一步的,根据新的目标物体分割任务和视频,利用新问题的第一帧给出的标注,对框架的最后一层二分类层进行连接参数适应调整。形式化为对以下优化问题进行求解,得到参数调整结果:
L(W1)=L+(W1)+λ0L-(W1)
其中W1为需要适应参数调整的二分类层参数,和为两个还原损失分别对应第一帧中还原正样本点和负样本点。X+和X-分别表示第一帧中正样本(前景)和负样本(背景)抽取出的特征,Y+和Y-分别表示对应的一位有效(one-hot)编码形式,λ0用来控制两个还原损失的贡献比例,λ1为正则化参数。
进一步的,在每一帧的分割结果得出之后,根据前一帧的结果,经过对如下优化问题的求解,对框架的最后一层二分类层进行连接参数适应调整,从而在线提高分割正确率:
L(Wt)=L+(Wt)+λ0L-(Wt)
Wt=Wt-1+ΔW
其中Wt为经过第t帧调整适应后,当前需要继续适应参数调整的二分类层参数,L+(Wt)和L_(Wt)为两个还原损失,分别对应第t帧最优分割结果中还原正样本点和负样本点,用来控制在线学习的参数差范围,α2是正则项参数。
通过本实施例的以上步骤,需要分割的视频的结果就得以快速的输出。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种利用时空信息的快速视频目标物体分割方法,其特征在于,包括下述步骤:
建立一个神经网络系统,在最前部为深度卷积神经网络CNN,对图像进行基本的特征提取,得到每一帧对应的特征图;
连接一个循环神经网络RNN,该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息,以及视频在每一帧时间相关性上所包含的信息,并将这些隐含信息提取到特征中,从而得到视频对应每一帧包含时空信息的新的特征图;
连接一个用以进行二分类的神经网络层,对特征图进行二分类,得到前景部分和背景部分,从而实现对视频每一帧的目标物体分割;
在连接一个循环神经网络RNN的步骤前,还包括下述步骤:
建立无向的循环信息传播图,所述无向的循环信息传播图可近似为4个方向信息传播图的合集Gu={Gse,Gsw,Gne,Gnw};
在无向的循环信息传播图的基础上,循环神经网络RNN的公式化表示如下:
其中,分别代表第t帧的特征图中某像素vi,t在RNN中对应的连接顶点的输入和输出特征,代表在第t帧的特征图中某像素vi,t在RNN中对应的隐含层状态,K代表RNN中时间方向的传播参数,Kd代表RNN中空间方向的传播参数,Ud,Vd是转换输入特征和隐含层特征的参数,bd,c是偏置参数,表示组成局部传播图的顶点的合集,f是激活函数;
在所述的无向的循环信息传播图中,将原来空间上各方向相邻节点之间连接,改为各方向每隔N-1个节点相互连接,即将空间上的传播距离由原始的一个单位扩展到N个单位。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010073352.5A CN111291663B (zh) | 2020-01-22 | 2020-01-22 | 一种利用时空信息的快速视频目标物体分割方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010073352.5A CN111291663B (zh) | 2020-01-22 | 2020-01-22 | 一种利用时空信息的快速视频目标物体分割方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111291663A CN111291663A (zh) | 2020-06-16 |
| CN111291663B true CN111291663B (zh) | 2023-06-20 |
Family
ID=71030710
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010073352.5A Active CN111291663B (zh) | 2020-01-22 | 2020-01-22 | 一种利用时空信息的快速视频目标物体分割方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111291663B (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112598049B (zh) * | 2020-12-18 | 2021-12-03 | 上海大学 | 一种基于深度学习的掩埋物体红外图像的目标检测方法 |
| EP4047553A1 (en) * | 2021-02-19 | 2022-08-24 | Aptiv Technologies Limited | Motion compensation and refinement in recurrent neural networks |
| US12205299B2 (en) * | 2021-08-06 | 2025-01-21 | Lemon Inc. | Video matting |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105898111A (zh) * | 2016-05-06 | 2016-08-24 | 西安理工大学 | 一种基于谱聚类的视频去雾方法 |
| CN108364068A (zh) * | 2018-01-05 | 2018-08-03 | 华南师范大学 | 基于有向图的深度学习神经网络构建方法和机器人系统 |
| CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
| CN110163873A (zh) * | 2019-05-20 | 2019-08-23 | 长沙理工大学 | 一种双边视频目标分割方法及系统 |
| CN110222595A (zh) * | 2019-05-20 | 2019-09-10 | 中国科学院大学 | 一种基于时空卷积神经网络的视频目标分割方法 |
| CN110413844A (zh) * | 2019-05-24 | 2019-11-05 | 浙江工业大学 | 基于时空注意力深度模型的动态链路预测方法 |
-
2020
- 2020-01-22 CN CN202010073352.5A patent/CN111291663B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105898111A (zh) * | 2016-05-06 | 2016-08-24 | 西安理工大学 | 一种基于谱聚类的视频去雾方法 |
| CN108364068A (zh) * | 2018-01-05 | 2018-08-03 | 华南师范大学 | 基于有向图的深度学习神经网络构建方法和机器人系统 |
| CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
| CN110163873A (zh) * | 2019-05-20 | 2019-08-23 | 长沙理工大学 | 一种双边视频目标分割方法及系统 |
| CN110222595A (zh) * | 2019-05-20 | 2019-09-10 | 中国科学院大学 | 一种基于时空卷积神经网络的视频目标分割方法 |
| CN110413844A (zh) * | 2019-05-24 | 2019-11-05 | 浙江工业大学 | 基于时空注意力深度模型的动态链路预测方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111291663A (zh) | 2020-06-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111368846B (zh) | 一种基于边界语义分割的道路积水识别方法 | |
| CN114037938B (zh) | 一种基于NFL-Net的低照度目标检测方法 | |
| CN112233129B (zh) | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 | |
| CN112561946B (zh) | 一种动态目标检测方法 | |
| CN110321937B (zh) | 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 | |
| CN106296728A (zh) | 一种基于全卷积网络的非限制场景中运动目标快速分割方法 | |
| CN111291663B (zh) | 一种利用时空信息的快速视频目标物体分割方法 | |
| CN114627269B (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
| CN111160407A (zh) | 一种深度学习目标检测方法及系统 | |
| CN114926760A (zh) | 基于时空卷积神经网络的视频显著性目标检测系统及方法 | |
| CN115082778B (zh) | 一种基于多分支学习的宅基地识别方法及系统 | |
| CN111310593A (zh) | 一种基于结构感知的超快速车道线检测方法 | |
| CN119478161B (zh) | 人物表情驱动方法、装置、存储介质及计算机设备 | |
| CN114529894A (zh) | 一种融合空洞卷积的快速场景文本检测方法 | |
| CN119152453B (zh) | 一种基于Mamba架构的红外高速公路异物检测方法 | |
| CN116681976A (zh) | 用于红外小目标检测的渐进式特征融合方法 | |
| CN115205518A (zh) | 一种基于YOLO v5s网络结构的目标检测方法及其系统 | |
| Ye et al. | SNR-prior guided trajectory-aware transformer for low-light video enhancement | |
| CN120656137A (zh) | 一种基于改进yolo11的雾霾环境车辆目标检测系统及方法 | |
| CN112200840A (zh) | 一种可见光和红外图像组合中的运动物体检测系统 | |
| CN116188555B (zh) | 一种基于深度网络与运动信息的单目室内深度估计算法 | |
| CN109033969B (zh) | 基于贝叶斯显著图计算模型的红外目标检测方法 | |
| CN116152699A (zh) | 用于水电厂视频监控系统的实时运动目标检测方法 | |
| Zhao et al. | Low-Illumination Lane Detection by Fusion of Multi-light Information | |
| CN118172390B (zh) | 一种基于深度学习的目标跟踪方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |
































