CN113888590B - 一种基于数据增强和孪生网络的视频目标跟踪方法 - Google Patents

一种基于数据增强和孪生网络的视频目标跟踪方法 Download PDF

Info

Publication number
CN113888590B
CN113888590B CN202111066330.7A CN202111066330A CN113888590B CN 113888590 B CN113888590 B CN 113888590B CN 202111066330 A CN202111066330 A CN 202111066330A CN 113888590 B CN113888590 B CN 113888590B
Authority
CN
China
Prior art keywords
data enhancement
target
convolution
video
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111066330.7A
Other languages
English (en)
Other versions
CN113888590A (zh
Inventor
田联房
余陆斌
杜启亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202111066330.7A priority Critical patent/CN113888590B/zh
Publication of CN113888590A publication Critical patent/CN113888590A/zh
Application granted granted Critical
Publication of CN113888590B publication Critical patent/CN113888590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于数据增强和孪生网络的视频目标跟踪方法,包括步骤:1)设置视频中的跟踪目标模板和待搜索区域;2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;5)获取响应图中响应值最大的位置预测目标位置。本发明利用数据增强模块增加视频中待跟踪目标的多样性后,利用孪生网络对视频序列中的目标进行跟踪,使得在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能。

Description

一种基于数据增强和孪生网络的视频目标跟踪方法
技术领域
本发明涉及图像模式识别与目标跟踪的技术领域,尤其是指一种基于数据增强和孪生网络的视频目标跟踪方法。
背景技术
目标跟踪是计算机视觉任务中的重要一环,在视频监控、无人驾驶等任务中有着广泛应用。由于目标检测算法往往存在实时性和稳定性的问题,需要具有较强鲁棒性的目标跟踪算法辅助获得稳定的检测目标。
随着深度学习的发展,基于孪生网络的跟踪凭借着快速性和优异的性能,在目标跟踪领域引起了极大的关注。然而,现有基于孪生网络的跟踪算法都存在一定局限性:某些计算机视觉任务中视频的分辨率有限,当分辨率过低的时候图像会损失部分特征,影响跟踪算法的性能。当跟踪目标出现较大形变、复杂背景的干扰等情况,跟踪性能通常会显著下降。因此设计一种在面对复杂情况时仍然能保持优异性能的跟踪方法有非常大的应用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于数据增强和孪生网络的视频目标跟踪方法,在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能,可靠性高。
为实现上述目的,本发明所提供的技术方案为:一种基于数据增强和孪生网络的视频目标跟踪方法,主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图;
4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图;
5)获取响应图中响应值最大的位置预测目标位置。
进一步,在步骤1)中,将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
进一步,在步骤2)中,利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
进一步,在步骤3)中,使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图/>具体如下:
a、构建包含模板分支和搜索分支的孪生网络;模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
b、将数据增强后的目标模板z1和待搜索区域x分别输入到模板分支和搜索分支进行特征提取,得到提取数据增强后的目标模板的特征图和待搜索区域的特征图
进一步,在步骤4)中,利用数据增强后的目标模板的特征图和待搜索区域的特征图/>进行匹配得到响应图f(z1,x),匹配公式如下:
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
进一步,在步骤5)中,在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
本发明与现有技术相比,具有如下优点与有益效果:
现有的基于孪生网络的跟踪方法当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰时,性能往往会大幅度下降,而通过本发明方法,可以增强跟踪目标模板的多样性,当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时,仍然能保证优异的性能,可靠性高,具有实际应用价值,值得推广。
附图说明
图1为本发明方法整体框架图。
图2为数据增强模块的数据增强流程图。
图3为模板分支和搜索分支的网络结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所述的基于数据增强和孪生网络的视频目标跟踪方法,主要是利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。
本实施例中,通过反复实验以下参数能取得较好的效果,此时:a=127,b=255。
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
数据增强流程如图2所示,本实施例中,通过反复实验以下参数能取得较好的效果,此时:c=1.4,d=1,e=0.7。
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图/>具体如下:
a、构建包含模板分支和搜索分支的孪生网络;如图3所示,模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
b、将数据增强后的目标模板z1和待搜索区域x分别输入到模板分支和搜索分支进行特征提取,得到提取数据增强后的目标模板的特征图和待搜索区域的特征图
在本实施例中,对模板分支和搜索分支用COCO数据集进行训练能取得较好的效果。
4)利用数据增强后的目标模板的特征图和待搜索区域的特征图/>进行匹配得到响应图f(z1,x),匹配公式如下:
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域。
5)在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:利用数据增强模块增加视频中待跟踪目标的多样性后,再利用孪生网络对视频序列中的目标进行跟踪,包括以下步骤:
1)设置视频中的跟踪目标模板和待搜索区域;
将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z,在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x;
2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板;
3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图/>具体如下:
a、构建包含模板分支和搜索分支的孪生网络;模板分支与搜索分支均为卷积神经网络,具体如下:
第一层为卷积层C1,使用11*11*96卷积核,步长为2,对输入图像进行卷积操作,然后使用3*3的最大池化操作和批标准化操作;
第二层为卷积层C2,使用5*5*256、步长为1的卷积核分别进行卷积操作,然后使用3*3的最大池化操作和批标准化操作来提取特征信息;
第三层为卷积层C3,使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作;
第四层为卷积层C4,使用3*3*192的卷积核分别进行操作并继续批标准化操作;
第五层为卷积层C5,仅使用3*3*128的卷积操作,最后输出256维的特征图;
b、将数据增强后的目标模板z1和待搜索区域x分别输入到模板分支和搜索分支进行特征提取,得到提取数据增强后的目标模板的特征图和待搜索区域的特征图/>
4)利用数据增强后的目标模板的特征图和待搜索区域的特征图/>进行匹配得到响应图f(z1,x),匹配公式如下:
式中,g为互相关卷积;z1代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板;x为搜索区域,代表后续视频中目标可能出现的区域;
5)获取响应图中响应值最大的位置预测目标位置;
在响应图f(z1,x)中寻找响应值最高的一点,该点在待搜索区域中的对应位置,就是预测的目标位置。
2.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法,其特征在于:在步骤2)中,利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z1;所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作;所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍,所述随机去除像素操作是将输入图像中所有像素以d%的概率替换为黑色像素,所述对比度调整操作是将输入图像的对比度变化为e,所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域,所述水平翻转操作是使输入图像按水平方向180°翻转。
CN202111066330.7A 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法 Active CN113888590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111066330.7A CN113888590B (zh) 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111066330.7A CN113888590B (zh) 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113888590A CN113888590A (zh) 2022-01-04
CN113888590B true CN113888590B (zh) 2024-04-16

Family

ID=79009038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111066330.7A Active CN113888590B (zh) 2021-09-13 2021-09-13 一种基于数据增强和孪生网络的视频目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113888590B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570458A (zh) * 2019-08-12 2019-12-13 武汉大学 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112509008A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272530B (zh) * 2018-08-08 2020-07-21 北京航空航天大学 面向空基监视场景的目标跟踪方法与装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570458A (zh) * 2019-08-12 2019-12-13 武汉大学 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112509008A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法

Also Published As

Publication number Publication date
CN113888590A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN111340844B (zh) 基于自注意力机制的多尺度特征光流学习计算方法
CN110399840B (zh) 一种快速的草坪语义分割及边界检测方法
CN110781773A (zh) 一种基于残差神经网络的道路提取方法
CN111914698A (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN113989604B (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN113888590B (zh) 一种基于数据增强和孪生网络的视频目标跟踪方法
CN101923637A (zh) 一种移动终端及其人脸检测方法和装置
CN112712500A (zh) 一种基于深度神经网络的遥感图像目标提取方法
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
Zhang et al. Development of image processing based on deep learning algorithm
CN113763427A (zh) 一种基于从粗到精遮挡处理的多目标跟踪方法
CN110276782B (zh) 一种结合空谱特征和相关滤波的高光谱目标跟踪方法
CN106778789B (zh) 一种多视点图像中的快速目标提取方法
Cho et al. Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation
CN110188752B (zh) 监控视频下模糊车牌的去模糊识别系统及去模糊识别方法
CN114463800A (zh) 基于广义交并比的多尺度特征融合人脸检测与分割方法
CN105335717A (zh) 基于智能移动终端视频抖动分析的人脸识别系统
CN111008555B (zh) 一种无人机图像弱小目标增强提取方法
CN115035397A (zh) 一种基于水下移动目标识别方法、装置
Xu et al. A novel method for detecting and tracking vehicles in traffic-image sequence
CN112598011B (zh) 一种基于多特征融合的相关滤波跟踪方法
CN117522827B (zh) 基于稀疏编码和低频重建的遥感基础模型构建方法及系统
CN116524420B (zh) 一种交通场景下的关键目标检测方法及系统
CN114331886B (zh) 一种基于深度特征的图像去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant