CN113888590A - 一种基于数据增强和孪生网络的视频目标跟踪方法 - Google Patents

一种基于数据增强和孪生网络的视频目标跟踪方法 Download PDF

Info

Publication number
CN113888590A
CN113888590A CN202111066330.7A CN202111066330A CN113888590A CN 113888590 A CN113888590 A CN 113888590A CN 202111066330 A CN202111066330 A CN 202111066330A CN 113888590 A CN113888590 A CN 113888590A
Authority
CN
China
Prior art keywords
data enhancement
target
video
feature map
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111066330.7A
Other languages
English (en)
Other versions
CN113888590B (zh
Inventor
田联房
余陆斌
杜启亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202111066330.7A priority Critical patent/CN113888590B/zh
Publication of CN113888590A publication Critical patent/CN113888590A/zh
Application granted granted Critical
Publication of CN113888590B publication Critical patent/CN113888590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于数据增强和孪生网络的视频目标跟踪方法,包括步骤:1)设置视频中的跟踪目标模板和待搜索区域;2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;5)获取响应图中响应值最大的位置预测目标位置。本发明利用数据增强模块增加视频中待跟踪目标的多样性后,利用孪生网络对视频序列中的目标进行跟踪,使得在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能。

Description

一种基于数据增强和孪生网络的视频目标跟踪方法
技术领域
本发明涉及图像模式识别与目标跟踪的技术领域,尤其是指一种基于数据增强和孪生网络的视频目标跟踪方法。
背景技术
目标跟踪是计算机视觉任务中的重要一环,在视频监控、无人驾驶等任务中有着广泛应用。由于目标检测算法往往存在实时性和稳定性的问题,需要具有较强鲁棒性的目标跟踪算法辅助获得稳定的检测目标。
随着深度学习的发展,基于孪生网络的跟踪凭借着快速性和优异的性能,在目标跟踪领域引起了极大的关注。然而,现有基于孪生网络的跟踪算法都存在一定局限性:某些计算机视觉任务中视频的分辨率有限,当分辨率过低的时候图像会损失部分特征,影响跟踪算法的性能。当跟踪目标出现较大形变、复杂背景的干扰等情况,跟踪性能通常会显著下降。因此设计一种在面对复杂情况时仍然能保持优异性能的跟踪方法有非常大的应用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于数据增强和孪生网络的视频目标跟踪方法,在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能,可靠性高。
为实现上述目的,本发明所提供的技术方案为:一种基于数据增强和孪生网络的视频目标跟踪方法,主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;
4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;
5)获取响应图中响应值最大的位置预测目标位置。
进一步,在步骤1)中,将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
进一步,在步骤2)中,利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
进一步,在步骤3)中,使用孪生网络提取数据增强后的目标模板的特征图
Figure BDA0003258549060000021
和提取待搜索区域的特征图
Figure BDA0003258549060000022
具体如下:
a、构建包含模板分支和搜索分支的孪生网络;模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
b、将数据增强后的目标模板z1和待搜索区域x分别输入到模板分支和搜索分支进行特征提取,得到提取数据增强后的目标模板的特征图
Figure BDA0003258549060000031
和待搜索区域的特征图
Figure BDA0003258549060000032
进一步,在步骤4)中,利用数据增强后的目标模板的特征图
Figure BDA0003258549060000033
和待搜索区域的特征图
Figure BDA0003258549060000034
进行匹配得到响应图f(z1,x),匹配公式如下:
Figure BDA0003258549060000035
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
进一步,在步骤5)中,在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
本发明与现有技术相比,具有如下优点与有益效果:
现有的基于孪生网络的跟踪方法当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰时,性能往往会大幅度下降,而通过本发明方法,可以增强跟踪目标模板的多样性,当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能,可靠性高,具有实际应用价值,值得推广。
附图说明
图1为本发明方法整体框架图。
图2为数据增强模块的数据增强流程图。
图3为模板分支和搜索分支的网络结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所述的基于数据增强和孪生网络的视频目标跟踪方法,主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
本实施例中,通过反复实验以下参数能取得较好的效果,此时:a=127,b=255。
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
数据增强流程如图2所示,本实施例中,通过反复实验以下参数能取得较好的效果,此时:c=1.4,d=1,e=0.7。
3)使用孪生网络提取数据增强后的目标模板的特征图
Figure BDA0003258549060000051
和提取待搜索区域的特征图
Figure BDA0003258549060000052
具体如下:
a、构建包含模板分支和搜索分支的孪生网络;如图3所示,模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
b、将数据增强后的目标模板z1和待搜索区域x分别输入到模板分支和搜索分支进行特征提取,得到提取数据增强后的目标模板的特征图
Figure BDA0003258549060000053
和待搜索区域的特征图
Figure BDA0003258549060000054
在本实施例中,对模板分支和搜索分支用COCO数据集进行训练能取得较好的效果。
4)利用数据增强后的目标模板的特征图
Figure BDA0003258549060000061
和待搜索区域的特征图
Figure BDA0003258549060000062
进行匹配得到响应图f(z1,x),匹配公式如下:
Figure BDA0003258549060000063
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
5)在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;
4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;
5)获取响应图中响应值最大的位置预测目标位置。
2.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤1)中,将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
3.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤2)中,利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
4.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤3)中,使用孪生网络提取数据增强后的目标模板的特征图
Figure FDA0003258549050000026
和提取待搜索区域的特征图
Figure FDA0003258549050000027
具体如下:
a、构建包含模板分支和搜索分支的孪生网络;模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
b、将数据增强后的目标模板z1和待搜索区域x分别输入到模板分支和搜索分支进行特征提取,得到提取数据增强后的目标模板的特征图
Figure FDA0003258549050000021
和待搜索区域的特征图
Figure FDA0003258549050000022
5.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤4)中,利用数据增强后的目标模板的特征图
Figure FDA0003258549050000023
和待搜索区域的特征图
Figure FDA0003258549050000024
进行匹配得到响应图f(z1,x),匹配公式如下:
Figure FDA0003258549050000025
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
6.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤5)中,在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
CN202111066330.7A 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法 Active CN113888590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111066330.7A CN113888590B (zh) 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111066330.7A CN113888590B (zh) 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113888590A true CN113888590A (zh) 2022-01-04
CN113888590B CN113888590B (zh) 2024-04-16

Family

ID=79009038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111066330.7A Active CN113888590B (zh) 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113888590B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570458A (zh) * 2019-08-12 2019-12-13 武汉大学 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
US20200051250A1 (en) * 2018-08-08 2020-02-13 Beihang University Target tracking method and device oriented to airborne-based monitoring scenarios
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112509008A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200051250A1 (en) * 2018-08-08 2020-02-13 Beihang University Target tracking method and device oriented to airborne-based monitoring scenarios
CN110570458A (zh) * 2019-08-12 2019-12-13 武汉大学 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112509008A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法

Also Published As

Publication number Publication date
CN113888590B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Spencer et al. Defeat-net: General monocular depth via simultaneous unsupervised representation learning
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN109766887B (zh) 一种基于级联沙漏神经网络的多目标检测方法
CN110020692B (zh) 一种基于印刷体模板的手写体分离与定位方法
CN108154149B (zh) 基于深度学习网络共享的车牌识别方法
CN111368830A (zh) 基于多视频帧信息和核相光滤波算法的车牌检测识别方法
WO2020224221A1 (zh) 跟踪方法、装置、电子设备及存储介质
CN110276279B (zh) 一种基于图像分割的任意形状场景文本探测方法
CN111914698A (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN109166092A (zh) 一种图像缺陷检测方法及系统
CN112712500A (zh) 一种基于深度神经网络的遥感图像目标提取方法
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN113888590A (zh) 一种基于数据增强和孪生网络的视频目标跟踪方法
CN114333023A (zh) 基于角度估计的人脸步态多模态加权融合身份识别方法与系统
CN111915645B (zh) 影像匹配方法、装置、计算机设备及计算机可读存储介质
CN110991440B (zh) 一种像素驱动的手机操作界面文本检测方法
CN114463800A (zh) 基于广义交并比的多尺度特征融合人脸检测与分割方法
CN105335717A (zh) 基于智能移动终端视频抖动分析的人脸识别系统
CN113610888B (zh) 一种基于高斯平滑的孪生网络目标跟踪方法
CN111709434B (zh) 一种鲁棒的基于最近邻特征点匹配的多尺度模板匹配方法
CN111178158B (zh) 一种骑车人检测方法及系统
CN111008555B (zh) 一种无人机图像弱小目标增强提取方法
Zhang et al. Chinese license plate recognition using machine and deep learning models
CN113128461A (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant