CN113888590A - 一种基于数据增强和孪生网络的视频目标跟踪方法 - Google Patents
一种基于数据增强和孪生网络的视频目标跟踪方法 Download PDFInfo
- Publication number
- CN113888590A CN113888590A CN202111066330.7A CN202111066330A CN113888590A CN 113888590 A CN113888590 A CN 113888590A CN 202111066330 A CN202111066330 A CN 202111066330A CN 113888590 A CN113888590 A CN 113888590A
- Authority
- CN
- China
- Prior art keywords
- data enhancement
- target
- video
- feature map
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000004044 response Effects 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于数据增强和孪生网络的视频目标跟踪方法,包括步骤:1)设置视频中的跟踪目标模板和待搜索区域;2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;5)获取响应图中响应值最大的位置预测目标位置。本发明利用数据增强模块增加视频中待跟踪目标的多样性后,利用孪生网络对视频序列中的目标进行跟踪,使得在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能。
Description
技术领域
本发明涉及图像模式识别与目标跟踪的技术领域,尤其是指一种基于数据增强和孪生网络的视频目标跟踪方法。
背景技术
目标跟踪是计算机视觉任务中的重要一环,在视频监控、无人驾驶等任务中有着广泛应用。由于目标检测算法往往存在实时性和稳定性的问题,需要具有较强鲁棒性的目标跟踪算法辅助获得稳定的检测目标。
随着深度学习的发展,基于孪生网络的跟踪凭借着快速性和优异的性能,在目标跟踪领域引起了极大的关注。然而,现有基于孪生网络的跟踪算法都存在一定局限性:某些计算机视觉任务中视频的分辨率有限,当分辨率过低的时候图像会损失部分特征,影响跟踪算法的性能。当跟踪目标出现较大形变、复杂背景的干扰等情况,跟踪性能通常会显著下降。因此设计一种在面对复杂情况时仍然能保持优异性能的跟踪方法有非常大的应用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于数据增强和孪生网络的视频目标跟踪方法,在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能,可靠性高。
为实现上述目的,本发明所提供的技术方案为:一种基于数据增强和孪生网络的视频目标跟踪方法,主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;
4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;
5)获取响应图中响应值最大的位置预测目标位置。
进一步,在步骤1)中,将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
进一步,在步骤2)中,利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
a、构建包含模板分支和搜索分支的孪生网络;模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
进一步,在步骤5)中,在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
本发明与现有技术相比,具有如下优点与有益效果:
现有的基于孪生网络的跟踪方法当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰时,性能往往会大幅度下降,而通过本发明方法,可以增强跟踪目标模板的多样性,当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能,可靠性高,具有实际应用价值,值得推广。
附图说明
图1为本发明方法整体框架图。
图2为数据增强模块的数据增强流程图。
图3为模板分支和搜索分支的网络结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所述的基于数据增强和孪生网络的视频目标跟踪方法,主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
本实施例中,通过反复实验以下参数能取得较好的效果,此时:a=127,b=255。
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
数据增强流程如图2所示,本实施例中,通过反复实验以下参数能取得较好的效果,此时:c=1.4,d=1,e=0.7。
a、构建包含模板分支和搜索分支的孪生网络;如图3所示,模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
在本实施例中,对模板分支和搜索分支用COCO数据集进行训练能取得较好的效果。
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
5)在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;
4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;
5)获取响应图中响应值最大的位置预测目标位置。
2.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤1)中,将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
3.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤2)中,利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
a、构建包含模板分支和搜索分支的孪生网络;模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
6.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤5)中,在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111066330.7A CN113888590B (zh) | 2021-09-13 | 2021-09-13 | 一种基于数据增强和孪生网络的视频目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111066330.7A CN113888590B (zh) | 2021-09-13 | 2021-09-13 | 一种基于数据增强和孪生网络的视频目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113888590A true CN113888590A (zh) | 2022-01-04 |
CN113888590B CN113888590B (zh) | 2024-04-16 |
Family
ID=79009038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111066330.7A Active CN113888590B (zh) | 2021-09-13 | 2021-09-13 | 一种基于数据增强和孪生网络的视频目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113888590B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570458A (zh) * | 2019-08-12 | 2019-12-13 | 武汉大学 | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 |
US20200051250A1 (en) * | 2018-08-08 | 2020-02-13 | Beihang University | Target tracking method and device oriented to airborne-based monitoring scenarios |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112509008A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
-
2021
- 2021-09-13 CN CN202111066330.7A patent/CN113888590B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200051250A1 (en) * | 2018-08-08 | 2020-02-13 | Beihang University | Target tracking method and device oriented to airborne-based monitoring scenarios |
CN110570458A (zh) * | 2019-08-12 | 2019-12-13 | 武汉大学 | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112509008A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113888590B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Spencer et al. | Defeat-net: General monocular depth via simultaneous unsupervised representation learning | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN109766887B (zh) | 一种基于级联沙漏神经网络的多目标检测方法 | |
CN110020692B (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN108154149B (zh) | 基于深度学习网络共享的车牌识别方法 | |
CN111368830A (zh) | 基于多视频帧信息和核相光滤波算法的车牌检测识别方法 | |
WO2020224221A1 (zh) | 跟踪方法、装置、电子设备及存储介质 | |
CN110276279B (zh) | 一种基于图像分割的任意形状场景文本探测方法 | |
CN111914698A (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN109166092A (zh) | 一种图像缺陷检测方法及系统 | |
CN112712500A (zh) | 一种基于深度神经网络的遥感图像目标提取方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN113888590A (zh) | 一种基于数据增强和孪生网络的视频目标跟踪方法 | |
CN114333023A (zh) | 基于角度估计的人脸步态多模态加权融合身份识别方法与系统 | |
CN111915645B (zh) | 影像匹配方法、装置、计算机设备及计算机可读存储介质 | |
CN110991440B (zh) | 一种像素驱动的手机操作界面文本检测方法 | |
CN114463800A (zh) | 基于广义交并比的多尺度特征融合人脸检测与分割方法 | |
CN105335717A (zh) | 基于智能移动终端视频抖动分析的人脸识别系统 | |
CN113610888B (zh) | 一种基于高斯平滑的孪生网络目标跟踪方法 | |
CN111709434B (zh) | 一种鲁棒的基于最近邻特征点匹配的多尺度模板匹配方法 | |
CN111178158B (zh) | 一种骑车人检测方法及系统 | |
CN111008555B (zh) | 一种无人机图像弱小目标增强提取方法 | |
Zhang et al. | Chinese license plate recognition using machine and deep learning models | |
CN113128461A (zh) | 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |