CN114820716B - 基于计算机视觉的目标跟踪方法及系统 - Google Patents
基于计算机视觉的目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN114820716B CN114820716B CN202210745595.8A CN202210745595A CN114820716B CN 114820716 B CN114820716 B CN 114820716B CN 202210745595 A CN202210745595 A CN 202210745595A CN 114820716 B CN114820716 B CN 114820716B
- Authority
- CN
- China
- Prior art keywords
- target
- neural network
- network model
- image frame
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000015654 memory Effects 0.000 claims abstract description 62
- 238000003062 neural network model Methods 0.000 claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 44
- 238000010845 search algorithm Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 21
- 210000002569 neuron Anatomy 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007787 long-term memory Effects 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于计算机视觉的目标跟踪方法及系统,该方法包括:获取目标视频的当前图像帧,采用改进的卷积神经网络模型对所述当前图像帧进行检测,输出目标位置;采用k邻域搜索算法,根据所述目标位置确定目标区域;采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度;将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框。本发明能够解决现有技术中,当跟踪的目标尺寸较小,且目标被遮挡时,目标跟踪的效果较差的技术问题。
Description
技术领域
本发明涉及图像数据处理技术领域,特别是涉及一种基于计算机视觉的目标跟踪方法及系统。
背景技术
目标跟踪是指在视频序列中对感兴趣的目标进行有效的跟踪,通过计算机获取到视频,并对视频信息进行处理和分析,在视频图像中找到独立的运动目标,在后续的视频序列中检测出运动目标区域位置并且标记出来,为后期对目标的轨迹、行为等信息进行分析做准备。目前计算机视觉技术已广泛应用于目标跟踪的实际应用中。
在民用领域中,目标跟踪主要用于海上交通管制、空中交通管制和卫星导航、定位与监视等方面。在军事领域中,目标跟踪的主要应用包括战场监视、海洋监视、防空、空中攻击和火力控制等方面。随着科学技术的不断发展,现代跟踪环境的显著变化,各种应用系统对多目标跟踪提出了日益复杂的要求。
现有技术中,当跟踪的目标尺寸较小,且目标被遮挡时,目标跟踪的效果较差,最终导致无法有效的对目标进行跟踪。
发明内容
为此,本发明的一个实施例提出一种基于计算机视觉的目标跟踪方法,以解决现有技术中,当跟踪的目标尺寸较小,且目标被遮挡时,目标跟踪的效果较差的技术问题。
根据本发明一实施例的基于计算机视觉的目标跟踪方法,包括:
获取目标视频的当前图像帧,采用改进的卷积神经网络模型对所述当前图像帧进行检测,输出目标位置,所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量,所述特征融合层通过目标卷积核先对特征图进行降维,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测;
采用k邻域搜索算法,根据所述目标位置确定目标区域;
采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度;
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框。
根据本发明实施例的基于计算机视觉的目标跟踪方法,采用改进的卷积神经网络模型对所述当前图像帧进行检测,改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,不含全连接层,而使用全局平均池化的方式产生长度固定的特征向量,此外,增加了特征融合层,能够对不同粒度的特征进行了融合,提升了对输入图像尺寸的敏感性,解决了因目标过小,导致特征丢失的问题;此外,在改进的卷积神经网络模型的基础上,引入k邻域搜索算法快速根据目标位置确定目标区域,并利用长短期记忆神经网络模型对时序空间信息的表达能力,选择性的保留目标的运动特征和语义特征,降低了目标跟踪时对特征提取器的依赖,提升了目标被遮挡情况下的跟踪性能。
另外,根据本发明上述实施例的基于计算机视觉的目标跟踪方法,还可以具有如下附加的技术特征:
进一步地,在本发明的一个实施例中,所述跟踪框和所述目标区域均为矩形;
采用k邻域搜索算法,根据所述目标位置确定目标区域的步骤中,所述目标区域满足以下条件式:
H1/W1=H2/W2=k;
其中,H1表示所述当前图像帧的上一图像帧对应的目标跟踪框的长,W1表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽,H2表示所述当前图像帧对应的目标区域的长,W2表示所述当前图像帧对应的目标区域的宽,k为预设的比例系数。
进一步地,在本发明的一个实施例中,k的取值范围为1<k≤4。
进一步地,在本发明的一个实施例中,所述长短期记忆神经网络模型的表达式如下:
h t =o t *tanh(f t *c t-1+i t *tanh(W o *[h t-1, x t ]+b o ))
其中,h t 表示t时刻的输出值,o t 表示所述长短期记忆神经网络模型中神经元的输出门的表达式,tanh表示tanh激活函数,f t 表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式,c t-1表示t-1时刻的候选向量,i t 表示所述长短期记忆神经网络模型中神经元的输入门的表达式,W o 表示输出门的权重,h t-1表示t-1时刻的输出值,x t 表示t时刻的输入值,b o 表示输出门的偏置参数。
进一步地,在本发明的一个实施例中,将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框的步骤包括:
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以得到目标跟踪框的顶点预测坐标值;
获取目标跟踪框的顶点坐标参考标准值;
判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内;
若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内,则输出并显示目标跟踪框。
本发明的另一个实施例提出一种基于计算机视觉的目标跟踪系统,以解决现有技术中,当跟踪的目标尺寸较小,且目标被遮挡时,目标跟踪的效果较差的技术问题。
一种目标跟踪系统,包括:
获取检测模块,用于获取目标视频的当前图像帧,采用改进的卷积神经网络模型对所述当前图像帧进行检测,输出目标位置,所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量,所述特征融合层通过目标卷积核先对特征图进行降维,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测;
目标确定模块,用于采用k邻域搜索算法,根据所述目标位置确定目标区域;
特征提取模块,用于采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度;
输入跟踪模块,用于将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框。
根据本发明实施例的目标跟踪系统,采用改进的卷积神经网络模型对所述当前图像帧进行检测,改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,不含全连接层,而使用全局平均池化的方式产生长度固定的特征向量,此外,增加了特征融合层,能够对不同粒度的特征进行了融合,提升了对输入图像尺寸的敏感性,解决了因目标过小,导致特征丢失的问题;此外,在改进的卷积神经网络模型的基础上,引入k邻域搜索算法快速根据目标位置确定目标区域,并利用长短期记忆神经网络模型对时序空间信息的表达能力,选择性的保留目标的运动特征和语义特征,降低了目标跟踪时对特征提取器的依赖,提升了目标被遮挡情况下的跟踪性能。
另外,根据本发明上述实施例的目标跟踪系统,还可以具有如下附加的技术特征:
进一步地,在本发明的一个实施例中,所述跟踪框和所述目标区域均为矩形;
所述目标确定模块采用k邻域搜索算法,根据所述目标位置确定目标区域的过程中,所述目标区域满足以下条件式:
H1/W1=H2/W2=k;
其中,H1表示所述当前图像帧的上一图像帧对应的目标跟踪框的长,W1表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽,H2表示所述当前图像帧对应的目标区域的长,W2表示所述当前图像帧对应的目标区域的宽,k为预设的比例系数。
进一步地,在本发明的一个实施例中,k的取值范围为1<k≤4。
进一步地,在本发明的一个实施例中,所述长短期记忆神经网络模型的表达式如下:
h t =o t *tanh(f t *c t-1+i t *tanh(W o *[h t-1, x t ]+b o ))
其中,h t 表示t时刻的输出值,o t 表示所述长短期记忆神经网络模型中神经元的输出门的表达式,tanh表示tanh激活函数,f t 表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式,c t-1表示t-1时刻的候选向量,i t 表示所述长短期记忆神经网络模型中神经元的输入门的表达式,W o 表示输出门的权重,h t-1表示t-1时刻的输出值,x t 表示t时刻的输入值,b o 表示输出门的偏置参数。
进一步地,在本发明的一个实施例中,所述输入跟踪模块具体用于:
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以得到目标跟踪框的顶点预测坐标值;
获取目标跟踪框的顶点坐标参考标准值;
判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内;
若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内,则输出并显示目标跟踪框。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明第一实施例的目标跟踪方法的流程图;
图2是图1中步骤S104的详细流程图;
图3是根据本发明第二实施例的目标跟踪系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提出的目标跟踪方法,所述方法包括步骤S101~S104:
S101,获取目标视频的当前图像帧,采用改进的卷积神经网络模型对所述当前图像帧进行检测,输出目标位置。
其中,现有技术中,一个完整的卷积神经网络模型通常由输入层、卷积层、池化层、全连接层和分类器组成,而本申请中改进的卷积神经网络模型删除了全连接层,并增加了特征融合层。
具体的,本申请中改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量,这使得多尺度训练的方式对模型进行训练成为可能,且提升了算法的鲁棒性和检测精度。
上述改进的卷积神经网络模型,相比传统的卷积神经网络模型,增加了特征融合层,所述特征融合层通过目标卷积核先对特征图进行降维,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测。在特征融合层中能够对不同粒度的特征进行融合,特征融合层通过目标卷积核先对特征图进行降维,目标卷积核是人工设置的、预设尺寸的卷积核,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测,例如生成16*16*2048维度的多粒度特征进行目标检测。
S102,采用k邻域搜索算法,根据所述目标位置确定目标区域。
其中,由于在目标跟踪过程中,被跟踪的目标的位置不会发生突变,相邻帧视频图像中目标的位置通常也相近。因此可以采用k邻域搜索算法,根据目标位置确定目标区域,本实施例中,所述跟踪框和所述目标区域均为矩形。
采用k邻域搜索算法,根据所述目标位置确定目标区域的步骤中,所述目标区域满足以下条件式:
H1/W1=H2/W2=k;
其中,H1表示所述当前图像帧的上一图像帧对应的目标跟踪框的长,W1表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽,H2表示所述当前图像帧对应的目标区域的长,W2表示所述当前图像帧对应的目标区域的宽,k为预设的比例系数。
具体实施时,可以根据实际的目标跟踪场景,设定k的值,来实现用户希望的目标区域的确定,优选的,k的取值范围为1<k≤4,能够在保证较小计算量的前提下,确保目标跟踪的准确性。
S103,采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度。
其中,采用步骤S101中提出的改进的卷积神经网络模型来提取目标区域的目标特征,并将所述目标特征融合为具有所述预设维度的特征图像。
S104,将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框。
其中,所述长短期记忆神经网络模型的表达式如下:
h t =o t *tanh(f t *c t-1+i t *tanh(W o *[h t-1, x t ]+b o ))
其中,h t 表示t时刻的输出值,o t 表示所述长短期记忆神经网络模型中神经元的输出门的表达式,tanh表示tanh激活函数,f t 表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式,c t-1表示t-1时刻的候选向量,i t 表示所述长短期记忆神经网络模型中神经元的输入门的表达式,W o 表示输出门的权重,h t-1表示t-1时刻的输出值,x t 表示t时刻的输入值,b o 表示输出门的偏置参数。
此外,请参阅图2,步骤S104,将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框的步骤包括步骤S1041~S1044:
S1041,将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以得到目标跟踪框的顶点预测坐标值。
S1042,获取目标跟踪框的顶点坐标参考标准值。
S1043,判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内。
S1044,若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内,则输出并显示目标跟踪框。
应当理解的,若顶点预测坐标值与所述顶点坐标参考标准值的差值超出了预设范围,则需要返回步骤S103重新进行目标特征的提取。
综上,根据本发明实施例的目标跟踪方法,采用改进的卷积神经网络模型对所述当前图像帧进行检测,改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,不含全连接层,而使用全局平均池化的方式产生长度固定的特征向量,此外,增加了特征融合层,能够对不同粒度的特征进行了融合,提升了对输入图像尺寸的敏感性,解决了因目标过小,导致特征丢失的问题;此外,在改进的卷积神经网络模型的基础上,引入k邻域搜索算法快速根据目标位置确定目标区域,并利用长短期记忆神经网络模型对时序空间信息的表达能力,选择性的保留目标的运动特征和语义特征,降低了目标跟踪时对特征提取器的依赖,提升了目标被遮挡情况下的跟踪性能。
请参阅图3,基于同一发明构思,本发明第二实施例提出的目标跟踪系统,包括:
获取检测模块,用于获取目标视频的当前图像帧,采用改进的卷积神经网络模型对所述当前图像帧进行检测,输出目标位置,所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量,所述特征融合层通过目标卷积核先对特征图进行降维,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测;
目标确定模块,用于采用k邻域搜索算法,根据所述目标位置确定目标区域;
特征提取模块,用于采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度;
输入跟踪模块,用于将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框。
本实施例中,所述跟踪框和所述目标区域均为矩形;
所述目标确定模块采用k邻域搜索算法,根据所述目标位置确定目标区域的过程中,所述目标区域满足以下条件式:
H1/W1=H2/W2=k;
其中,H1表示所述当前图像帧的上一图像帧对应的目标跟踪框的长,W1表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽,H2表示所述当前图像帧对应的目标区域的长,W2表示所述当前图像帧对应的目标区域的宽,k为预设的比例系数。
本实施例中,k的取值范围为1<k≤4。
本实施例中,所述长短期记忆神经网络模型的表达式如下:
h t =o t *tanh(f t *c t-1+i t *tanh(W o *[h t-1, x t ]+b o ))
其中,h t 表示t时刻的输出值,o t 表示所述长短期记忆神经网络模型中神经元的输出门的表达式,tanh表示tanh激活函数,f t 表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式,c t-1表示t-1时刻的候选向量,i t 表示所述长短期记忆神经网络模型中神经元的输入门的表达式,W o 表示输出门的权重,h t-1表示t-1时刻的输出值,x t 表示t时刻的输入值,b o 表示输出门的偏置参数。
本实施例中,所述输入跟踪模块具体用于:
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以得到目标跟踪框的顶点预测坐标值;
获取目标跟踪框的顶点坐标参考标准值;
判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内;
若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内,则输出并显示目标跟踪框。
根据本发明实施例的目标跟踪系统,采用改进的卷积神经网络模型对所述当前图像帧进行检测,改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,不含全连接层,而使用全局平均池化的方式产生长度固定的特征向量,此外,增加了特征融合层,能够对不同粒度的特征进行了融合,提升了对输入图像尺寸的敏感性,解决了因目标过小,导致特征丢失的问题;此外,在改进的卷积神经网络模型的基础上,引入k邻域搜索算法快速根据目标位置确定目标区域,并利用长短期记忆神经网络模型对时序空间信息的表达能力,选择性的保留目标的运动特征和语义特征,降低了目标跟踪时对特征提取器的依赖,提升了目标被遮挡情况下的跟踪性能。
此外,本发明的实施例还提出一种可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
此外,本发明的实施例还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种基于计算机视觉的目标跟踪方法,其特征在于,所述方法包括:
获取目标视频的当前图像帧以及当前图像帧的上一帧图像帧,采用改进的卷积神经网络模型对所述当前图像帧的上一帧图像帧进行检测,输出当前图像帧的上一帧图像帧的目标位置,所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量,所述特征融合层通过目标卷积核先对特征图进行降维,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测;
采用k邻域搜索算法,基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域;
采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度;
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框;
其中,所述跟踪框和所述目标区域均为矩形;
采用k邻域搜索算法,基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域的步骤中,所述目标区域满足以下条件式:
H1/W1=H2/W2=k;
其中,H1表示所述当前图像帧的上一图像帧对应的目标跟踪框的长,W1表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽,H2表示所述当前图像帧对应的目标区域的长,W2表示所述当前图像帧对应的目标区域的宽,k为预设的比例系数。
2.根据权利要求1所述的基于计算机视觉的目标跟踪方法,其特征在于,k的取值范围为1<k≤4。
3.根据权利要求1所述的基于计算机视觉的目标跟踪方法,其特征在于,所述长短期记忆神经网络模型的表达式如下:
h t =o t *tanh(f t *c t-1+i t *tanh(W o *[h t-1, x t ]+b o ))
其中,h t 表示t时刻的输出值,o t 表示所述长短期记忆神经网络模型中神经元的输出门的表达式,tanh表示tanh激活函数,f t 表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式,c t-1表示t-1时刻的候选向量,i t 表示所述长短期记忆神经网络模型中神经元的输入门的表达式,W o 表示输出门的权重,h t-1表示t-1时刻的输出值,x t 表示t时刻的输入值,b o 表示输出门的偏置参数。
4.根据权利要求1所述的基于计算机视觉的目标跟踪方法,其特征在于,将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框的步骤包括:
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以得到目标跟踪框的顶点预测坐标值;
获取目标跟踪框的顶点坐标参考标准值;
判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内;
若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内,则输出并显示目标跟踪框。
5.一种基于计算机视觉的目标跟踪系统,其特征在于,所述系统包括:
获取检测模块,用于获取目标视频的当前图像帧以及当前图像帧的上一帧图像帧,采用改进的卷积神经网络模型对所述当前图像帧的上一帧图像帧进行检测,输出当前图像帧的上一帧图像帧的目标位置,所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成,所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量,所述特征融合层通过目标卷积核先对特征图进行降维,再将不同特征图在通道上进行叠加,以生成预设维度的多粒度特征进行目标检测;
目标确定模块,用于采用k邻域搜索算法,基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域;
特征提取模块,用于采用所述改进的卷积神经网络模型提取所述目标区域的目标特征,并将所述目标特征融合为特征图像,所述特征图像具有所述预设维度;
输入跟踪模块,用于将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以输出并显示目标跟踪框;
其中,所述跟踪框和所述目标区域均为矩形;
所述目标确定模块采用k邻域搜索算法,基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域的过程中,所述目标区域满足以下条件式:
H1/W1=H2/W2=k;
其中,H1表示所述当前图像帧的上一图像帧对应的目标跟踪框的长,W1表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽,H2表示所述当前图像帧对应的目标区域的长,W2表示所述当前图像帧对应的目标区域的宽,k为预设的比例系数。
6.根据权利要求5所述的基于计算机视觉的目标跟踪系统,其特征在于,k的取值范围为1<k≤4。
7.根据权利要求5所述的基于计算机视觉的目标跟踪系统,其特征在于,所述长短期记忆神经网络模型的表达式如下:
h t =o t *tanh(f t *c t-1+i t *tanh(W o *[h t-1, x t ]+b o ))
其中,h t 表示t时刻的输出值,o t 表示所述长短期记忆神经网络模型中神经元的输出门的表达式,tanh表示tanh激活函数,f t 表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式,c t-1表示t-1时刻的候选向量,i t 表示所述长短期记忆神经网络模型中神经元的输入门的表达式,W o 表示输出门的权重,h t-1表示t-1时刻的输出值,x t 表示t时刻的输入值,b o 表示输出门的偏置参数。
8.根据权利要求5所述的基于计算机视觉的目标跟踪系统,其特征在于,所述输入跟踪模块具体用于:
将所述特征图像作为长短期记忆神经网络模型的输入,通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归,以得到目标跟踪框的顶点预测坐标值;
获取目标跟踪框的顶点坐标参考标准值;
判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内;
若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内,则输出并显示目标跟踪框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745595.8A CN114820716B (zh) | 2022-06-29 | 2022-06-29 | 基于计算机视觉的目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745595.8A CN114820716B (zh) | 2022-06-29 | 2022-06-29 | 基于计算机视觉的目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114820716A CN114820716A (zh) | 2022-07-29 |
CN114820716B true CN114820716B (zh) | 2022-09-13 |
Family
ID=82522614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210745595.8A Active CN114820716B (zh) | 2022-06-29 | 2022-06-29 | 基于计算机视觉的目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820716B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171752A (zh) * | 2017-12-28 | 2018-06-15 | 成都阿普奇科技股份有限公司 | 一种基于深度学习的海面船只视频检测与跟踪方法 |
CN109344725A (zh) * | 2018-09-04 | 2019-02-15 | 上海交通大学 | 一种基于时空关注度机制的多行人在线跟踪方法 |
CN110689557A (zh) * | 2019-09-21 | 2020-01-14 | 天津大学 | 一种基于kcf的改进型抗遮挡目标跟踪方法 |
CN111932583A (zh) * | 2020-06-05 | 2020-11-13 | 西安羚控电子科技有限公司 | 一种基于复杂背景下的时空信息一体化智能跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10957053B2 (en) * | 2018-10-18 | 2021-03-23 | Deepnorth Inc. | Multi-object tracking using online metric learning with long short-term memory |
-
2022
- 2022-06-29 CN CN202210745595.8A patent/CN114820716B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171752A (zh) * | 2017-12-28 | 2018-06-15 | 成都阿普奇科技股份有限公司 | 一种基于深度学习的海面船只视频检测与跟踪方法 |
CN109344725A (zh) * | 2018-09-04 | 2019-02-15 | 上海交通大学 | 一种基于时空关注度机制的多行人在线跟踪方法 |
CN110689557A (zh) * | 2019-09-21 | 2020-01-14 | 天津大学 | 一种基于kcf的改进型抗遮挡目标跟踪方法 |
CN111932583A (zh) * | 2020-06-05 | 2020-11-13 | 西安羚控电子科技有限公司 | 一种基于复杂背景下的时空信息一体化智能跟踪方法 |
Non-Patent Citations (3)
Title |
---|
Research of Moving Target Tracking Technology Based on LRCN;Jian Di et al.;《2017 International Conference on Computer Systems, Electronics and Control (ICCSEC)》;20171231;第789-792页 * |
基于卷积特征深度融合的海上目标跟踪算法;张永梅 等;《计算机工程与设计》;20200131;第41卷(第1期);第258-264页 * |
基于深度学习的多目标跟踪算法研究;陆平 等;《中兴通讯技术》;20170831;第23卷(第4期);第14-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114820716A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816701B (zh) | 一种目标跟踪方法及装置、存储介质 | |
CN109035304B (zh) | 目标跟踪方法、介质、计算设备和装置 | |
CN110349187B (zh) | 基于tsk模糊分类器的目标跟踪方法、装置及存储介质 | |
CN109145747B (zh) | 一种水面全景图像语义分割方法 | |
CN111709975A (zh) | 多目标跟踪方法、装置、电子设备及存储介质 | |
CN112184603B (zh) | 一种点云融合方法、装置、电子设备和计算机存储介质 | |
CN110572636B (zh) | 摄像头脏污检测方法、装置、存储介质及电子设备 | |
CN112784750B (zh) | 基于像素和区域特征匹配的快速视频物体分割方法和装置 | |
CN116486288A (zh) | 基于轻量级密度估计网络的航拍目标计数与检测方法 | |
WO2015186347A1 (ja) | 検出システム、検出方法及びプログラム記憶媒体 | |
CN113705375A (zh) | 一种船舶航行环境视觉感知设备及方法 | |
CN116740126A (zh) | 目标跟踪方法、高速相机及存储介质 | |
CN107578424B (zh) | 一种基于时空分类的动态背景差分检测方法、系统及装置 | |
JP2019164521A (ja) | 追尾装置 | |
CN114694109A (zh) | 车道线检测方法、装置、电子设备及计算机可读存储介质 | |
CN114596440A (zh) | 语义分割模型的生成方法、装置、电子设备及存储介质 | |
CN114820716B (zh) | 基于计算机视觉的目标跟踪方法及系统 | |
CN107452019B (zh) | 一种基于模型切换的目标检测方法、装置、系统及存储介质 | |
US7773771B2 (en) | Video data tracker | |
CN117372928A (zh) | 一种视频目标检测方法、装置及相关设备 | |
CN112184767A (zh) | 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质 | |
CN113689493A (zh) | 镜头附着物检测方法、装置、电子设备和存储介质 | |
CN116363628A (zh) | 标志检测方法、装置、非易失性存储介质及计算机设备 | |
US10719942B2 (en) | Real-time image processing system and method | |
CN115797164B (zh) | 固定视场中的图像拼接方法、装置、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 330000 No. 688, aixihu North Road, high tech Development Zone, Nanchang City, Jiangxi Province Patentee after: Nanchang Zhongzhan Shuzhi Technology Co.,Ltd. Address before: 330000 No. 688, aixihu North Road, high tech Development Zone, Nanchang City, Jiangxi Province Patentee before: ZTE software technology (Nanchang) Co.,Ltd. |
|
CP03 | Change of name, title or address |