CN108596953A - 一种单目标跟踪模型的训练方法 - Google Patents

一种单目标跟踪模型的训练方法 Download PDF

Info

Publication number
CN108596953A
CN108596953A CN201810375104.9A CN201810375104A CN108596953A CN 108596953 A CN108596953 A CN 108596953A CN 201810375104 A CN201810375104 A CN 201810375104A CN 108596953 A CN108596953 A CN 108596953A
Authority
CN
China
Prior art keywords
model
training
training method
network
full articulamentum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810375104.9A
Other languages
English (en)
Inventor
乐毅
林峰
黄明飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Open Intelligent Machine (shanghai) Co Ltd
Original Assignee
Open Intelligent Machine (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Open Intelligent Machine (shanghai) Co Ltd filed Critical Open Intelligent Machine (shanghai) Co Ltd
Priority to CN201810375104.9A priority Critical patent/CN108596953A/zh
Publication of CN108596953A publication Critical patent/CN108596953A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及一种单目标跟踪模型的训练方法,应用于一内嵌式系统;包括:提供一预训练模型;预训练模型包括两个通道,每个通道包括五个依次连接的卷积替代层,每个卷积替代层包括依次连接的一压缩层和一扩张层;卷积替代层具有预设的网络超参数和网络权值;训练方法还包括:步骤S1,将预训练模型中的网络超参数的更新设置为关闭;步骤S2,加载具有网络超参数的网络权值的预训练模型;步骤S3,获取视频数据集,并根据预设的最大迭代次数对预训练模型进行训练,形成内嵌式的目标跟踪模型;能够形成适用于嵌入式环境的模型,消耗的计算资源少,计算功耗小。

Description

一种单目标跟踪模型的训练方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种单目标跟踪模型的训练方法。
背景技术
单目标跟踪技术是指在初始状态,给定任意待跟踪目标,在视频序列中识别和定位给定目标的技术。单目标跟踪技术一直是计算机视觉领域的研究热点,其能广泛应用在视频监控,无人驾驶和人机交互等多个领域,在节省大量人力物力的同时,带来巨大的经济效益。同时由于最近两年深度学习技术的兴起,越来越多的跟踪技术使用深度学习技术来实现,跟踪的精确度和鲁棒性有了很高的提升。但是,由于深度学习实现的算法模型非常大,参数量也很多,要求的计算资源也非常高,非常不利于在嵌入式端部署,使得人工智能领域的技术落地的成本很高,也不利于广泛应用。因此,如何在嵌入式环境中优化和使用单目标跟踪算法,是当前研究的重要方向,并具有非常高的应用价值。
在实现应用中,基于深度学习的单目标跟踪算法的模型文件是离线训练得到的,通常模型文件比较大,一般大小为几百兆字节,甚至更大。在嵌入式环境中,巨大的模型文件不仅意味着存储空间的要求,也对计算资源提出了挑战。由于嵌入式的资源有限,导致无法正常加载或运行基于深度学习技术的算法和模型,或者勉强能加载成功,但运行速度非常慢,当然也无法达到应用的价值。
发明内容
针对上述问题,本发明提出了一种单目标跟踪模型的训练方法,其中,应用于一内嵌式系统;包括:
提供一预训练模型;
所述预训练模型包括两个通道,每个所述通道包括五个依次连接的卷积替代层,每个所述卷积替代层包括依次连接的一压缩层和一扩张层;
两个所述通道的输出端分别连接首个全连接层,首个所述全连接层后还连接至少一个全连接层;
所述卷积替代层具有预设的网络超参数和网络权值;
所述训练方法还包括:
步骤S1,将所述预训练模型中的所述网络超参数的更新设置为关闭;
步骤S2,加载具有所述网络超参数的所述网络权值的所述预训练模型;
步骤S3,获取视频数据集,并根据预设的最大迭代次数对所述预训练模型进行训练,形成内嵌式的单目标跟踪模型。
上述的训练方法,其中,还包括:
步骤S4,生成与所述单目标跟踪模型相关的模型文件并上传至所述内嵌式系统中。
上述的训练方法,其中,所述步骤S2中,加载具有所述网络超参数的所述网络权值的所述预训练模型的同时,将首个所述全连接层的特征输出维度设置在一预设范围内。
上述的训练方法,其中,依次连接的所述全连接层的数量为3;
第二个所述全连接层的所述特征输出维度也设置在所述预设范围内。
上述的训练方法,其中,第三个所述全连接层的所述特征输出维度为4096。
上述的训练方法,其中,所述预设范围为1024~3072。
上述的训练方法,其中,所述最大迭代次数为1000000次。
上述的训练方法,其中,所述步骤S3中,对所述预训练模型进行训练还具有一基础学习率;
所述基础学习率为0.000001。
有益效果:本发明提出的一种单目标跟踪模型的训练方法,能够形成适用于嵌入式环境的模型,消耗的计算资源少,计算功耗小。
附图说明
图1为本发明一实施例中单目标跟踪模型的训练方法的步骤流程图。
具体实施方式
下面结合附图和实施例对本发明进行进一步说明。
在一个较佳的实施例中,如图1所示,提出了一种单目标跟踪模型的训练方法,其中,可以应用于一内嵌式系统;该训练方法可以包括:
提供一预训练模型;
所述预训练模型包括两个通道,每个所述通道包括五个依次连接的卷积替代层,每个所述卷积替代层包括依次连接的一压缩层和一扩张层;
两个所述通道的输出端分别连接首个全连接层,首个所述全连接层后还连接至少一个全连接层;
所述卷积替代层具有预设的网络超参数和网络权值;
所述训练方法还包括:
步骤S1,将所述预训练模型中的所述网络超参数的更新设置为关闭;
步骤S2,加载具有所述网络超参数的所述网络权值的所述预训练模型;
步骤S3,获取视频数据集,并根据预设的最大迭代次数对所述预训练模型进行训练,形成内嵌式的单目标跟踪模型。
上述技术方案中,压缩层是由1x1的卷积核组成;扩张层则由1x1和3x3的卷积核构成;网络超参数和网络权值是神经算法中常见的,是本领域的惯用技术手段,在此不再赘述;采用本发明中的技术方案形成的训练模型,测试结果可以达到2~3FPS(frame persecond每秒帧数,简称FPS);由于模型训练的过程可以不再内嵌式系统中进行,因此对内嵌式系统的算力资源的要求较低;本发明中的单目标跟踪模型是用于跟踪视频中每帧图像中的目标,目标可以是特定的人或物等。
在一个较佳的实施例中,还可以包括:
步骤S4,生成与单目标跟踪模型相关的模型文件并上传至内嵌式系统中。
上述技术方案中,模型文件可以包括多个文件,例如包括模型定义文件和模型数据文件等;模型文件的格式可以是文本格式,也可以是其他特定格式。
在一个较佳的实施例中,步骤S2中,加载具有网络超参数的网络权值的预训练模型的同时,将首个全连接层的特征输出维度设置在一预设范围内。
在一个较佳的实施例中,依次连接的全连接层的数量为3;
第二个全连接层的特征输出维度也设置在预设范围内。
上述实施例中,优选地,第三个全连接层的特征输出维度为4096。
上述实施例中,优选地,预设范围为1024~3072,典型地,首个和第二个全连接层的特征输出维度可以设置为2048。
在一个较佳的实施例中,最大迭代次数可以为1000000次。
在一个较佳的实施例中,步骤S3中,对预训练模型进行训练还具有一基础学习率;
该基础学习率为0.000001,表明了神经网络初始学习率的大小。
综上所述,本发明提出的一种单目标跟踪模型的训练方法,其中,应用于一内嵌式系统;包括:提供一预训练模型;预训练模型包括两个通道,每个通道包括五个依次连接的卷积替代层,每个卷积替代层包括依次连接的一压缩层和一扩张层;两个通道的输出端分别连接首个全连接层,首个全连接层后还连接至少一个全连接层;卷积替代层具有预设的网络超参数和网络权值;训练方法还包括:步骤S1,将预训练模型中的网络超参数的更新设置为关闭;步骤S2,加载具有网络超参数的网络权值的预训练模型;步骤S3,获取视频数据集,并根据预设的最大迭代次数对预训练模型进行训练,形成内嵌式的单目标跟踪模型;能够形成适用于嵌入式环境的模型,消耗的计算资源少,计算功耗小。
通过说明和附图,给出了具体实施方式的特定结构的典型实施例,基于本发明精神,还可作其他的转换。尽管上述发明提出了现有的较佳实施例,然而,这些内容并不作为局限。
对于本领域的技术人员而言,阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容,都应认为仍属本发明的意图和范围内。

Claims (8)

1.一种单目标跟踪模型的训练方法,其特征在于,应用于一内嵌式系统;包括:
提供一预训练模型;
所述预训练模型包括两个通道,每个所述通道包括五个依次连接的卷积替代层,每个所述卷积替代层包括依次连接的一压缩层和一扩张层;
两个所述通道的输出端分别连接首个全连接层,首个所述全连接层后还连接至少一个全连接层;
所述卷积替代层具有预设的网络超参数和网络权值;
所述训练方法还包括:
步骤S1,将所述预训练模型中的所述网络超参数的更新设置为关闭;
步骤S2,加载具有所述网络超参数的所述网络权值的所述预训练模型;
步骤S3,获取视频数据集,并根据预设的最大迭代次数对所述预训练模型进行训练,形成内嵌式的单目标跟踪模型。
2.根据权利要求1所述的训练方法,其特征在于,还包括:
步骤S4,生成与所述单目标跟踪模型相关的模型文件并上传至所述内嵌式系统中。
3.根据权利要求1所述的训练方法,其特征在于,所述步骤S2中,加载具有所述网络超参数的所述网络权值的所述预训练模型的同时,将首个所述全连接层的特征输出维度设置在一预设范围内。
4.根据权利要求1所述的训练方法,其特征在于,依次连接的所述全连接层的数量为3;
第二个所述全连接层的所述特征输出维度也设置在所述预设范围内。
5.根据权利要求4所述的训练方法,其特征在于,第三个所述全连接层的所述特征输出维度为4096。
6.根据权利要求3所述的训练方法,其特征在于,所述预设范围为1024~3072。
7.根据权利要求1所述的训练方法,其特征在于,所述最大迭代次数为1000000次。
8.根据权利要求1所述的训练方法,其特征在于,所述步骤S3中,对所述预训练模型进行训练还具有一基础学习率;
所述基础学习率为0.000001。
CN201810375104.9A 2018-04-24 2018-04-24 一种单目标跟踪模型的训练方法 Pending CN108596953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810375104.9A CN108596953A (zh) 2018-04-24 2018-04-24 一种单目标跟踪模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810375104.9A CN108596953A (zh) 2018-04-24 2018-04-24 一种单目标跟踪模型的训练方法

Publications (1)

Publication Number Publication Date
CN108596953A true CN108596953A (zh) 2018-09-28

Family

ID=63614647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810375104.9A Pending CN108596953A (zh) 2018-04-24 2018-04-24 一种单目标跟踪模型的训练方法

Country Status (1)

Country Link
CN (1) CN108596953A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328613A1 (en) * 2015-05-05 2016-11-10 Xerox Corporation Online domain adaptation for multi-object tracking
CN106886975A (zh) * 2016-11-29 2017-06-23 华南理工大学 一种可实时运行的图像风格化方法
CN106951395A (zh) * 2017-02-13 2017-07-14 上海客鹭信息技术有限公司 面向压缩卷积神经网络的并行卷积运算方法及装置
CN107918772A (zh) * 2017-12-10 2018-04-17 北京工业大学 基于压缩感知理论和gcForest的目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328613A1 (en) * 2015-05-05 2016-11-10 Xerox Corporation Online domain adaptation for multi-object tracking
CN106886975A (zh) * 2016-11-29 2017-06-23 华南理工大学 一种可实时运行的图像风格化方法
CN106951395A (zh) * 2017-02-13 2017-07-14 上海客鹭信息技术有限公司 面向压缩卷积神经网络的并行卷积运算方法及装置
CN107918772A (zh) * 2017-12-10 2018-04-17 北京工业大学 基于压缩感知理论和gcForest的目标跟踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FORREST N. IANDOLA ET AL.: "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB model size", 《ARXIV:1602.07360V1》 *
GUOKUN WANG ET AL.: "ROBUST VISUAL TRACKING WITH DEEP FEATURE FUSION", 《ICASSP 2017》 *
HUSSAM QASSIM ET AL.: "Residual Squeeze VGG16", 《ARXIV.ORG》 *
廖辉: "基于轻量级卷积神经网络的人脸检测算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
梁亮: "基于深度学习的单目标跟踪方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
WO2022012407A1 (zh) 一种用于神经网络的训练方法以及相关设备
CN107358293B (zh) 一种神经网络训练方法及装置
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN106485271B (zh) 一种基于多模态字典学习的零样本分类方法
Fan et al. Adaptive computationally efficient network for monocular 3d hand pose estimation
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
CN111125519B (zh) 用户行为预测方法、装置、电子设备以及存储介质
CN111527501B (zh) 芯片适配确定方法及相关产品
EP3786925A1 (en) Systems and methods for training a neural network to control an aircraft
CN109754359A (zh) 一种应用于卷积神经网络的池化处理的方法及系统
CN112232407A (zh) 病理图像样本的神经网络模型训练方法、装置
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
KR102152120B1 (ko) 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체
CN116156563A (zh) 基于数字孪生的异构任务与资源端边协同调度方法
CN113850012B (zh) 数据处理模型生成方法、装置、介质及电子设备
CN106295677A (zh) 一种联合拉斯正则项和特征自学习的水流图像分簇方法
CN106067889B (zh) 电子装置及其上传方法
CN108596953A (zh) 一种单目标跟踪模型的训练方法
Zhao et al. Modified object detection method based on YOLO
Tesfahunegn et al. Surrogate-based airfoil design with space mapping and adjoint sensitivity
KR102149184B1 (ko) 처음 보는 클래스의 설명 가능한 이미지를 생성하는 장치 및 방법
CN112529027A (zh) 数据处理方法、客户端、装置及计算机可读存储介质
CN111539519A (zh) 一种面向海量数据的卷积神经网络训练引擎方法及系统
CN108364067B (zh) 基于数据分割的深度学习方法以及机器人系统
KR102579003B1 (ko) 분류 기반 영상 측위 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928

RJ01 Rejection of invention patent application after publication