CN110458867B - 一种基于注意力循环网络的目标跟踪方法 - Google Patents
一种基于注意力循环网络的目标跟踪方法 Download PDFInfo
- Publication number
- CN110458867B CN110458867B CN201910753716.1A CN201910753716A CN110458867B CN 110458867 B CN110458867 B CN 110458867B CN 201910753716 A CN201910753716 A CN 201910753716A CN 110458867 B CN110458867 B CN 110458867B
- Authority
- CN
- China
- Prior art keywords
- target
- attention
- vector
- model
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明一种基于注意力循环网络的目标跟踪方法,通过在目标跟踪框架中引入局部位置注意力机制以及外观注意力机制,设立三个深度模型,并采用循环卷积神经网络进行时序预测,在跟踪框架中加入不确定度评估机制等技术手段,大大提高了基于计算机算法的视觉目标跟踪的效率和准确度,具有较高的可靠性和可推广价值,相较于其他的时序预测方法,参数量少,速度快,准确度较高;在跟踪过程中使用了不确定度评估机制,能够保证跟踪结果的质量,并在质量下降时及时初始化跟踪器或停止跟踪,避免给出过多错误的结果,具有更高的可靠性。
Description
技术领域
本发明涉及视觉目标跟踪算法技术领域,尤其是一种基于注意力循环网络的目标跟踪方法。
背景技术
目标跟踪是计算机视觉的重要问题之一,主要目的为跟踪视频画面中的多个目标,给出目标的运动轨迹;目标跟踪的典型场景为:对于连续的视频序列,人为给定一个或多个目标,在后续的视频帧中找到并区分标定的多个目标;
计算机视觉进行目标跟踪的算法模型主要分为生成模型与判别模型两种,其中:
①生成模型:学习数据的联合概率分布,通过求条件概率分布进行判断,能够学习数据生成的方式;
②判别模型:直接学习数据的条件概率分布进行判断;
对于目标跟踪而言,绝大多数的方法都为判别模型方法;判别模型在跟踪问题中可以具体为:已知跟踪模板,模型在视频帧中采样,判断采样图像与跟踪结构的相似程度,相似程度高的区域即可认作为跟踪目标;
计算机视觉中获取图像特征的常用模型通常采用卷积神经网络,该网络能够从原始图像中提取具有语义信息的特征向量;卷积神经网络具有层次结构,预先采用大量的数据训练得到模型参数,在提取特征向量时,原始图像以及与卷积神经网络的各层卷积核进行卷积运算,最终得到固定维度的特征向量;
现有技术中,存在一种基于孪生卷积网络的目标跟踪方法,例如公开号为:CN109829934A的发明专利,该方法确定跟踪模板后,将跟踪模板与视频帧分别输入到相同参数的卷积神经网络中,获取到两个不同尺寸的特征图;通过两个特征图之间的相似度比较,取相似度最大的区域作为跟踪目标预测区域;该方法虽然很好的解决了视觉目标跟踪计算难题,但仍存在如下不足:
缺点1:目标的时序特征为目标跟踪中的重要特征,目前绝大多数方法仅考虑目标的外观特征,且假设跟踪目标的外观特征不随时间变化,丢失了目标跟踪问题中的重要先验;
针对此缺点,本发明采用目标局部位置注意力机制与目标外观注意力机制,通过时序特征预测跟踪目标的位置及外观变化;
缺点2:部分引入时间信息的目标跟踪方法采用长短时记忆神经网络(LSTM)进行时序预测,参数量大,速度慢且不能预测图像信息;
针对此缺点,本发明采用循环卷积网络,通过卷积核进行时序预测,通过特征选择网络进行长时记忆选择,在能够进行时序预测的同时减少了参数,并能很好的处理图像时序信息;
缺点3:绝大多数目标跟踪方法没有跟踪结果评估机制,不能给出模型对预测结果的确信程度,很难在对可靠性要求较高的场合应用;
针对此缺点,本发明根据局部位置注意力向量及全局位置注意力向量的差异变化获取预测的不确定度,当不确定度低于阈值时重新初始化跟踪或放弃跟踪。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于注意力循环网络的目标跟踪方法,通过在目标跟踪框架中引入局部位置注意力机制以及外观注意力机制,并采用循环卷积神经网络进行时序预测,在跟踪框架中加入不确定度评估机制等技术手段,大大提高了基于计算机算法的视觉目标跟踪的效率和准确度,具有较高的可靠性和可推广价值。
一种基于注意力循环网络的目标跟踪方法,包括如下步骤:
步骤一、设立模型一:模型一为注意力孪生卷积网络,表示为f1,用于获取全局注意力位置向量及目标外观特征向量;
其中:上标i为目标编号,下标t为时间,跟踪目标初始化具体流程包括:
其中,x,y为目标初始位置在x轴,y轴的坐标,w,h为目标矩形表示框的宽度及长度;
作为一种举例说明,所述t为时间,代表时间变量,T代表时间变量的取值;
作为一种举例说明,所述是指模型一所拟合的函数形式;对于深度模型而言,深度模型本身可以视为函数,函数的具体形式由于深度模型的黑箱特性未知,深度模型的求解即函数的拟合采用大量数据监督的统计学习方法;在本发明中,此类公式只是为了方便理解模型的输入输出作用,并不是模型的解。
步骤三、设立模型二:模型二为局部位置注意力循环网络,通过共享参数的卷积核建立不同时刻跟踪目标局部位置向量的联系,预测下一时刻跟踪目标的局部位置;
每次输入的局部位置向量经过第二卷积神经网络处理后,得到下一时刻的位置预测;下一时刻的位置预测经过第一特征选择网络,丢弃不必要的长时信息,循环经过相同参数的第二卷积神经网络,共循环T-1次得到最终的局部位置预测结果;
根据T时刻前的T个有效目标局部位置注意力向量,根据所述模型二预测T时刻的目标局部位置注意力向量;
步骤五、设立模型三:模型三为目标外观注意力循环网络,通过循环卷积预测每个时间步的外观注意力矩阵,表征跟踪目标外观特征随时间的变化;
进一步的,所述模型三进行了T次有效预测,预测T时刻目标外观特征的过程;模型三依次输入0至T-1时刻的目标外观特征注意力向量至每次输入的外观特征注意力向量经过第三卷积神经网络,得到并输出下一时刻的外观特征注意力向量,通过第二特征选择网络丢弃不必要的长时信息后,进入下一次循环;
卷积网络循环T次得到T时刻的外观特征注意力向量结果;
作为一种举例说明,所述模型三与模型二的主要区别为:向量的维度不同,导致神经网络的结构有差异;同时由于训练数据不同,模型三与模型二参数不同;
根据T时刻前的T个有效目标外观特征注意力向量,根据模型三预测T时刻的目标外观特征注意力向量,T时刻前的目标外观特征注意力向量为t=0,...,T-1,每一个目标外观特征注意力向量均为3维张量,表示图像的特征图;
同时令T=0,重新初始化,失败计数器加1,若失败计数器大于阈值∈2,则跟踪失败;
有益效果:
1、本发明采用目标局部位置注意力机制与目标外观注意力机制,通过时序特征预测跟踪目标的位置及外观变化,对于线性运动的跟踪目标或外观随时间变化的跟踪目标有较好的效果;
2、本发明采用循环卷积神经网络进行预测,能够同时处理序列预测以及图像特征预测;相较于其他的时序预测方法,参数量少,速度快,准确度较高;
3、本发明在跟踪过程中使用了不确定度评估机制,能够保证跟踪结果的质量,并在质量下降时及时初始化跟踪器或停止跟踪,避免给出过多错误的结果,具有更高的可靠性。
附图说明
图1为本发明一种基于注意力循环网络的目标跟踪方法之注意力孪生卷积网络的原理结构图
图2为本发明一种基于注意力循环网络的目标跟踪方法之局部位置注意力循环网络的原理结构图
图3为本发明一种基于注意力循环网络的目标跟踪方法之目标外观注意力循环网络的原理结构图
具体实施方式
下面对本发明的技术方案进行具体阐述,需要指出的是,本发明的技术方案不限于实施例所述的实施方式,本领域的技术人员参考和借鉴本发明技术方案的内容,在本发明的基础上进行的改进和设计,应属于本发明的保护范围。
一种基于注意力循环网络的目标跟踪方法,包括如下步骤:
步骤一、设立模型一:模型一为注意力孪生卷积网络,表示为f1,用于获取全局注意力位置向量及目标外观特征向量;
其中:上标i为目标编号,下标t为时间,跟踪目标初始化具体流程包括:
其中,x,y为目标初始位置在x轴,y轴的坐标,w,h为目标矩形表示框的宽度及长度;
作为一种举例说明,所述是指模型一所拟合的函数形式;对于深度模型而言,模型本身可以视为函数,函数的具体形式由于深度模型的黑箱特性未知,模型的求解即函数的拟合采用大量数据监督的统计学习方法;在本发明中,此类公式只是为了方便理解模型的输入输出作用,并不是模型的解。
步骤三、设立模型二:模型二为局部位置注意力循环网络,通过共享参数的卷积核建立不同时刻跟踪目标局部位置向量的联系,预测下一时刻跟踪目标的局部位置;
每次输入的局部位置向量经过第二卷积神经网络处理后,得到下一时刻的位置预测;下一时刻的位置预测经过第一特征选择网络203,丢弃不必要的长时信息,循环经过相同参数的第二卷积神经网络204,共循环T-1次得到最终的局部位置预测结果;
根据T时刻前的T个有效目标局部位置注意力向量,根据所述模型二预测T时刻的目标局部位置注意力向量;
步骤五、设立模型三:模型三为目标外观注意力循环网络,通过循环卷积预测每个时间步的外观注意力矩阵,表征跟踪目标外观特征随时间的变化;
进一步的,所述模型三进行了T次有效预测,预测T时刻目标外观特征的过程;模型三依次输入0至T-1时刻的目标外观特征注意力向量至301,每次输入的外观特征注意力向量经过第三卷积神经网络302,得到并输出下一时刻的外观特征注意力向量,通过第二特征选择网络303丢弃不必要的长时信息后,进入下一次循环;
卷积网络循环T次得到T时刻的外观特征注意力向量结果;
作为一种举例说明,所述模型三与模型二的主要区别为:向量的维度不同,导致神经网络的结构有差异;同时由于训练数据不同,模型三与模型二参数不同;
步骤六、预测目标外观特征注意力向量(设时间t=T);根据T时刻前的T个有效目标外观特征注意力向量,根据模型三预测T时刻的目标外观特征注意力向量,T时刻前的目标外观特征注意力向量为t=0,...,T-1,每一个目标外观特征注意力向量均为3维张量,表示图像的特征图;
同时令T=0,重新初始化,失败计数器加1,若失败计数器大于阈值∈2,则跟踪失败;
作为一种举例说明,所述模型一、模型二与模型三均为深度模型;
本发明采用目标局部位置注意力机制与目标外观注意力机制,通过时序特征预测跟踪目标的位置及外观变化,对于线性运动的跟踪目标或外观随时间变化的跟踪目标有较好的效果;本发明采用循环卷积神经网络进行预测,能够同时处理序列预测以及图像特征预测;相较于其他的时序预测方法,参数量少,速度快,准确度较高;本发明在跟踪过程中使用了不确定度评估机制,能够保证跟踪结果的质量,并在质量下降时及时初始化跟踪器或停止跟踪,避免给出过多错误的结果,具有更高的可靠性。
以上所述的仅为本发明的优选实施例,所应理解的是,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,并不用于限定本发明的保护范围,凡在本发明的思想和原则之内所做的任何修改、等同替换等等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于注意力循环网络的目标跟踪方法,其特征在于,包括如下步骤:
步骤一、设立模型一:模型一为注意力孪生卷积网络,表示为f1,用于获取全局注意力位置向量及目标外观特征向量;
所述模型一的输入为跟踪模板bi、跟踪图像Bt、目标外观特征注意力向量输出全局位置注意力向量以及目标外观特征向量其中,所述跟踪模板bi及跟踪图像Bt经过共享参数的第一卷积神经网络,得到目标外观特征向量以及跟踪图像特征
步骤二、跟踪目标初始化:根据人为划定的跟踪目标进行初始化,获取目标局部位置注意力向量目标外观特征向量目标外观特征注意力向量全局位置注意力向量其中:上标i为目标编号,下标t为时间,跟踪目标初始化具体流程包括:
步骤三、设立模型二:模型二为局部位置注意力循环网络,通过共享参数的卷积核建立不同时刻跟踪目标局部位置向量的联系,预测下一时刻跟踪目标的局部位置;
每次输入的局部位置向量经过第二卷积神经网络处理后,得到下一时刻的位置预测;下一时刻的位置预测经过第一特征选择网络,丢弃不必要的长时信息,循环经过相同参数的第二卷积神经网络,共循环T-1次得到最终的局部位置预测结果;
根据T时刻前的T个有效目标局部位置注意力向量,根据所述模型二预测T时刻的目标局部位置注意力向量;
步骤五、设立模型三:模型三为目标外观注意力循环网络,通过循环卷积预测每个时间步的外观注意力矩阵,表征跟踪目标外观特征随时间的变化;
所述模型三进行了T次有效预测,预测T时刻目标外观特征的过程;模型三依次输入0至T-1时刻的目标外观特征注意力向量至每次输入的外观特征注意力向量经过第三卷积神经网络,得到并输出下一时刻的外观特征注意力向量,通过第二特征选择网络丢弃不必要的长时信息后,进入下一次循环;
卷积网络循环T次得到T时刻的外观特征注意力向量结果;
同时令T=0,重新初始化,失败计数器加1,若失败计数器大于阈值∈2,则跟踪失败;
2.根据权利要求1所述的一种基于注意力循环网络的目标跟踪方法,其特征在于,所述模型一、模型二及模型三均为深度模型。
5.根据权利要求2所述的一种基于注意力循环网络的目标跟踪方法,其特征在于,所述模型三与模型二的区别为:向量的维度不同,导致神经网络的结构有差异;同时由于训练数据不同,模型三与模型二参数不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910753716.1A CN110458867B (zh) | 2019-08-15 | 2019-08-15 | 一种基于注意力循环网络的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910753716.1A CN110458867B (zh) | 2019-08-15 | 2019-08-15 | 一种基于注意力循环网络的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458867A CN110458867A (zh) | 2019-11-15 |
CN110458867B true CN110458867B (zh) | 2020-07-24 |
Family
ID=68486801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910753716.1A Active CN110458867B (zh) | 2019-08-15 | 2019-08-15 | 一种基于注意力循环网络的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458867B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507719A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN116109670A (zh) * | 2022-12-31 | 2023-05-12 | 江苏中科贯微自动化科技有限公司 | 基于目标检测的动态包裹计数方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915970A (zh) * | 2015-06-12 | 2015-09-16 | 南京邮电大学 | 一种基于轨迹关联的多目标跟踪方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8581956B2 (en) * | 2011-04-29 | 2013-11-12 | Hewlett-Packard Development Company, L.P. | Methods and systems for communicating focus of attention in a video conference |
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
-
2019
- 2019-08-15 CN CN201910753716.1A patent/CN110458867B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915970A (zh) * | 2015-06-12 | 2015-09-16 | 南京邮电大学 | 一种基于轨迹关联的多目标跟踪方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110458867A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
CN112597883B (zh) | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 | |
US20190164312A1 (en) | Neural network-based camera calibration | |
CN112348828A (zh) | 基于神经网络的实例分割方法和装置以及存储介质 | |
Li et al. | Visual tracking via random walks on graph model | |
CN111797688A (zh) | 一种基于光流和语义分割的视觉slam方法 | |
CN110458867B (zh) | 一种基于注意力循环网络的目标跟踪方法 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
Wen et al. | End-to-end semi-supervised learning for differentiable particle filters | |
Tang et al. | Sparse2dense: From direct sparse odometry to dense 3-d reconstruction | |
CN115797735A (zh) | 目标检测方法、装置、设备和存储介质 | |
Wu et al. | Direct sparse odometry with planes | |
CN114387642A (zh) | 图像分割方法、装置、设备和存储介质 | |
CN114170558A (zh) | 用于视频处理的方法、系统、设备、介质和产品 | |
CN111950500A (zh) | 基于改进YOLOv3-tiny的工厂环境下实时行人检测方法 | |
CN115620082B (zh) | 模型训练方法、头部姿态估计方法、电子设备及存储介质 | |
Wu et al. | RSF: a novel saliency fusion framework for image saliency detection | |
CN113888603A (zh) | 基于光流跟踪和特征匹配的回环检测及视觉slam方法 | |
CN114943741A (zh) | 一种动态场景下基于目标检测和几何概率的视觉slam方法 | |
Wang et al. | Pmds-slam: Probability mesh enhanced semantic slam in dynamic environments | |
Abdulwahab et al. | Promising depth map prediction method from a single image based on conditional generative adversarial network | |
He et al. | A semantic segmentation algorithm for fashion images based on modified mask RCNN | |
CN113962846A (zh) | 图像对齐方法及装置、计算机可读存储介质及电子设备 | |
Li et al. | Spatial-temporal graph Transformer for object tracking against noise spoofing interference | |
Cheng et al. | A novel cell structure‐based disparity estimation for unsupervised stereo matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |