CN114862913A - 基于人工智能网络的机器视觉目标定位方法 - Google Patents

基于人工智能网络的机器视觉目标定位方法 Download PDF

Info

Publication number
CN114862913A
CN114862913A CN202210534291.7A CN202210534291A CN114862913A CN 114862913 A CN114862913 A CN 114862913A CN 202210534291 A CN202210534291 A CN 202210534291A CN 114862913 A CN114862913 A CN 114862913A
Authority
CN
China
Prior art keywords
frame
positioning
image
video sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210534291.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202210534291.7A priority Critical patent/CN114862913A/zh
Publication of CN114862913A publication Critical patent/CN114862913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器视觉目标定位领域,具体涉及一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。包括(1)检测待定位目标,采集目标图像,将采集出的目标图像为样板图像,设样板图像帧作为视频序列的第一帧;(2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取;(3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归等。本发明根据目标前几帧视频图像轨迹变化,来预测下一帧目标定位范围的预测策略,以有效地缩小复杂情况下目标定位的范围,减少图像精度、对比度对目标定位造成的错误定位、丢失目标和定位漂移等影响,保证目标定位的鲁棒性。

Description

基于人工智能网络的机器视觉目标定位方法
技术领域
本发明属于机器视觉目标定位领域,具体涉及一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。
背景技术
随着国家基础设施建设水平的快速发展,复杂场景对跟踪定位的要求连续提高,人工智能的跟踪定位技术也随之长足发展。目标定位是人工智能机器视觉的重要组成部分,该技术是指利用视频、图像的逻辑信息,对目标的轨迹和轮廓特征信息进行建模,从而对目标定位进行预测和跟踪。随着人工智能机器深度学习在图像和目标检测中的系统化使用,大量使用在目标定位方法中。但是由于图像清晰度、对比度差、背景复杂度等因素,都不利于图像的高清处理,影响了图像特征的提取精度,提升目标定位的难度。所以在此领域为科研人员提出了如何进一步减低计算成本,提升定位精度和鲁棒性的技术问题。
近年来,由于深度特征对目标拥有极强的表征能力,因此在人工智能的目标定位方法中有极大比例是基于深度学习的。专利文献“一种基于图像系统的车辆特征深度学习识别轨迹跟踪方法”对于滤波方法进行了改进,但是有可能带来计算量增大但不能满足实时性需求的风险。专利文献“一种目标识别方法及装置”,涉及到通过深度学习神经网络来确定目标的方法,定位速度较慢,容易发生跟踪漂移。
针对环境复杂,图像清晰度和对比度差,工作时对于遮挡影响较大的问题,需要提出一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。
发明内容
本发明的目的在于提供一种解决目标定位正确率低的问题,并且降低定位成本,提高鲁棒性的基于人工智能网络的机器视觉目标定位方法。
本发明的目的是这样实现的,基于人工智能网络的机器视觉目标定位方法,包括如下步骤:
(1)检测待定位目标,采集目标图像,将采集出的目标图像为样板图像,设样板图像帧作为视频序列的第一帧;
(2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取;
(3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归;
(4)计算每帧视频序列的定位边界框相似度,根据定位边界框相似度进行排名,通过非极大值抑制得到每帧视频序列最后的定位边界框,如果每一帧视频序列最后的定位边界框的值都大于边界框阈值参数,则判定为定位成功,继续执行步骤(5);如果每一帧视频序列最后的定位边界框的值中至少有一个小于等于定位边界框阈值,则判定为定位不成功,重新执行步骤(3);
(5)检测视频序列的编号第G-a帧、第G-a+1帧、…、第G帧的视频序列中相邻两帧的定位边界框,判断定位边界框的几何中心点在xy坐标系下的平均位移变化,预测第G+1帧视频序列相对于第G帧视频序列的移动方向,以第G帧视频序列定位边界框的几何中心点坐标为中心进行放大,形成放大到视频序列的图像尺寸的图,第G帧视频序列图像和大后的图的重叠部分,判定为第G+1帧视频序列的图像的目标定位范围。
所述的孪生网络分为样板支路和检测支路,两个支路的权重参数相同;其中样板支路接收样板图像,输入标记为m;检测支路接收检测序列当前帧的图像,输入标记为k;样板图像和检测序列经过孪生网络后得到孪生网络特征输出为样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)。
所述的步骤(3)具体包括如下步骤:
(3.1)采用FAST-RCNN的损失函数对候选网络进行训练,分类支路的损失函数采用交叉熵损失函数,回归支路的损失函数采用回归损失函数smooth L1 loss;
(3.1.1)确认候选网络中锚箱的中心点坐标(Nx,Ny)、宽Nw和高Nh
(3.1.2)确认实际定位边界框的中心点坐标(Gx,Gy)、高Gh和宽Gw
(3.1.3)计算锚箱与定位边界框的标准化距离:
Figure BDA0003644179570000021
Figure BDA0003644179570000022
Figure BDA0003644179570000023
Figure BDA0003644179570000024
(3.1.4)构建smooth L1 loss函数:
Figure BDA0003644179570000025
v∈[0,1,2,3];
ζ为边界框阈值;
(3.1.5)回归支路的损失函数为:
Figure BDA0003644179570000031
(3.2)通过训练后的候选网络的两个卷积层将ι(m)扩展为样板图像孪生网络特征输出分类分支ι(m)cls和样板图像孪生网络特征输出回归分支ι(m)reg
(3.3)通过训练后的候选网络的两个卷积层将ι(k)扩展为检测序列孪生网络特征输出分类分支ι(k)cls和检测序列孪生网络特征输出回归分支ι(k)reg
(3.4)确认分类支路的通道向量个数为2X,确认回归支路的通道向量个数为4X;
(3.5)对分类支路进行卷积运算,运算结果为:
Figure BDA0003644179570000032
(3.6)对回归支路进行卷积运算,运算结果为:
Figure BDA0003644179570000033
所述步骤(4)具体包括:
(4.1)计算当前视频序列最后的定位边界框的高宽比e,以及上一帧视频序列最后的定位边界框的高宽比e",确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f";
f2=(Gh+c)(Gw+c);
Figure BDA0003644179570000034
(4.2)计算惩罚函数:
Figure BDA0003644179570000035
(4.3)计算分类支路评价值:
Figure BDA0003644179570000036
(4.4)计算定位边界框相似度pscore:
pscore=penalty×score。
所述的步骤(5)包括:
以定位边界框的左上角为原点建立xy坐标轴,记录从第G-a帧开始相邻两帧的定位边界框的几何中心点坐标沿x轴方向的位移变化Δxj=[Δx1,Δxa],j∈[1,a],沿y轴方向位移变化分别为Δyj=[Δy1,Δya],j∈[1,a],计算x轴方向和y轴方向的平均位移变化:
x轴方向平均位移变化为:
Figure BDA0003644179570000041
y轴方向平均位移变化为:
Figure BDA0003644179570000042
arg指的是复数的辐角主值;
当xp>0,预测第G+1帧位置是x轴正方向;否则,预测第G+1帧位置是x轴负方向;
当xp>0,预测第G+1帧位置是y轴正方向;否则,预测第G+1帧位置是y轴负方向;
然后以第G帧对应定位边界框的几何中心点坐标为中心向外扩充为第G帧图像大小,第G帧图像和扩充后的图像的重叠部分为第G+1帧目标定位范围。
本发明的有益效果在于:
与现有技术相比,本发明提出了一种适用于复杂环境下的基于人工智能网络的机器视觉目标定位方法。针对目前人工智能连续定位迫切需求,提出基于相似度的评价机制,以判别继续定位的必要性,根据目标前几帧视频图像轨迹变化,来预测下一帧目标定位范围的预测策略,以有效地缩小复杂情况下目标定位的范围,减少图像精度、对比度对目标定位造成的错误定位、丢失目标和定位漂移等影响,保证目标定位的鲁棒性。
附图说明
图1是定位流程图;
图2是定位示意图中第G-2帧的定位结果;
图3是定位示意图中第G-1帧的定位结果;
图4是定位示意图中第G帧的定位结果;
图5是定位示意图中第G+1帧的定位结果;
图6是连续定位图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
图1为定位流程图。首先检测待定位的目标,采集目标图像,将采集出的目标图像为样板图像,将样板图像帧作为视频序列的第一帧,作为样板支路的输入,并将所定位的视频序列逐帧作为检测支路的输入,通过孪生网络提取特征,提取后的特征图作为输入经过两个卷积层扩展成为分类分支和回归分支,进行相似度值得计算,若相似度值大于等于设定阈值参数,则认为定位成功,如果相似度值小于设定的阈值参数,则重新检测目标,且下一帧的定位范围相对于上一帧的定位范围要进行缩小,来提高定位的鲁棒性。本发明包括如下步骤:
(1)检测待定位目标,采集目标图像,将采集出的目标图像为样板图像,设样板图像帧作为视频序列的第一帧;
(2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取;
(3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归;
(4)计算每帧视频序列的定位边界框相似度,根据定位边界框相似度进行排名,通过非极大值抑制得到每帧视频序列最后的定位边界框,如果每一帧视频序列最后的定位边界框的值都大于边界框阈值参数,则判定为定位成功,继续执行步骤(5);如果每一帧视频序列最后的定位边界框的值中至少有一个小于等于定位边界框阈值,则判定为定位不成功,重新执行步骤(3);
(5)检测视频序列的编号第G-a帧、第G-a+1帧、…、第G帧的视频序列中相邻两帧的定位边界框,判断定位边界框的几何中心点在xy坐标系下的平均位移变化,预测第G+1帧视频序列相对于第G帧视频序列的移动方向,以第G帧视频序列定位边界框的几何中心点坐标为中心进行放大,形成放大到视频序列的图像尺寸的图,第G帧视频序列图像和大后的图的重叠部分,判定为第G+1帧视频序列的图像的目标定位范围。
1.本发明的区别特征1在于通过候选网络对特征进行分类回归,对定位边界框相似度进行排名,通过前帧图像的趋势变化预判图像的目标定位范围的发明思路,方法与现有技术相比能够效地缩小复杂情况下目标定位的范围。
所述的孪生网络分为样板支路和检测支路,两个支路的权重参数相同;其中样板支路接收样板图像,输入标记为m;检测支路接收检测序列当前帧的图像,输入标记为k;样板图像和检测序列经过孪生网络后得到孪生网络特征输出为样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)。
所述的步骤(3)具体包括如下步骤:
(3.1)采用FAST-RCNN的损失函数对候选网络进行训练,分类支路的损失函数采用交叉熵损失函数,回归支路的损失函数采用回归损失函数smooth L1 loss;
(3.1.1)确认候选网络中锚箱的中心点坐标(Nx,Ny)、宽Nw和高Nh
(3.1.2)确认实际定位边界框的中心点坐标(Gx,Gy)、高Gh和宽Gw
(3.1.3)计算锚箱与定位边界框的标准化距离:
Figure BDA0003644179570000061
Figure BDA0003644179570000062
Figure BDA0003644179570000063
Figure BDA0003644179570000064
(3.1.4)构建smooth L1 loss函数:
Figure BDA0003644179570000068
v∈[0,1,2,3];
ζ为边界框阈值;
(3.1.5)回归支路的损失函数为:
Figure BDA0003644179570000065
(3.2)通过训练后的候选网络的两个卷积层将ι(m)扩展为样板图像孪生网络特征输出分类分支ι(m)cls和样板图像孪生网络特征输出回归分支ι(m)reg
(3.3)通过训练后的候选网络的两个卷积层将ι(k)扩展为检测序列孪生网络特征输出分类分支ι(k)cls和检测序列孪生网络特征输出回归分支ι(k)reg
(3.4)确认分类支路的通道向量个数为2X,确认回归支路的通道向量个数为4X;
(3.5)对分类支路进行卷积运算,运算结果为:
Figure BDA0003644179570000066
(3.6)对回归支路进行卷积运算,运算结果为:
Figure BDA0003644179570000067
所述步骤(4)具体包括:
(4.1)计算当前视频序列最后的定位边界框的高宽比e,以及上一帧视频序列最后的定位边界框的高宽比e",确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f";
f2=(Gh+c)(Gw+c);
Figure BDA0003644179570000071
(4.2)计算惩罚函数:
Figure BDA0003644179570000072
(4.3)计算分类支路评价值:
Figure BDA0003644179570000073
(4.4)计算定位边界框相似度pscore:
pscore=penalty×score。
所述的步骤(5)包括:
以定位边界框的左上角为原点建立xy坐标轴,记录从第G-a帧开始相邻两帧的定位边界框的几何中心点坐标沿x轴方向的位移变化Δxj=[Δx1,Δxa],j∈[1,a],沿y轴方向位移变化分别为Δyj=[Δy1,Δya],j∈[1,a],计算x轴方向和y轴方向的平均位移变化:
x轴方向平均位移变化为:
Figure BDA0003644179570000074
y轴方向平均位移变化为:
Figure BDA0003644179570000075
arg指的是复数的辐角主值
当xp>0,预测第G+1帧位置是x轴正方向;否则,预测第G+1帧位置是x轴负方向;
当xp>0,预测第G+1帧位置是y轴正方向;否则,预测第G+1帧位置是y轴负方向;
然后以第G帧对应定位边界框的几何中心点坐标为中心向外扩充为第G帧图像大小,第G帧图像和扩充后的图像的重叠部分为第G+1帧目标定位范围。
2.本发明的区别特征2在于使用损失函数对候选网络进行训练,通过孪生网络利用分类支路的损失函数和回归支路的损失函数进行输出,并利用其计算定位边界框相似度并进行目标定位范围的确认。与现有技术相比,其能够进一步提高定位精度并避免环境干扰。
综上,本发明针对目标通过孪生网络对样板图像和定位的视频序列进行逐帧的特征提取,通过候选网络区分目标的环境变化,再对定位框回进行归定位,来提高目标定位的准确率;然后通过相似度比较制度,根据结果判断再次定位的必要性,来实现对移动目标的持续定位。本发明在环境影响较大,图像清晰度和对比度较差等干扰因素下提高目标定位的成功精度,保证了对复杂环境下目标持续长久定位。
实施例1
结合图1,本发明包括:
步骤(1),特征提取:首先采用目标识别算法检测和识别目标,例如待定位的汽车,将检测到的汽车图像作为样板图像,采用无填充全卷积网络孪生网络对样板图像和视频序列逐帧进行特征提取;孪生网络分为两个支路:样板支路和检测支路;样板支路接收样板图像,输入标记为m;检测支路接收当前帧的图像,输入标记为k。
样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)为孪生网络特征图的输出,两个网络输入不同,权重参数相同。
步骤(2)分类回归:采用候选网络的两个支路对目标定位进行分类回归。
候选网络选取多个锚箱的锚点进行枚举并共享卷积特征,该方法使本发明获得高精度的同时还提高了时间效率。由于环境分类和定位边界框回归的监测,使候选网络更精确的提取特征。候选网络分为两个支路:分类支路和回归支路。分类支路来区分图片中的环境信息;回归支路进行坐标回归,准确设置定位框的位置和大小。对于分类支路,如果特征图生成X个锚点,在候选网络中通道数上升了2X倍,X=4。对于回归支路,每个锚点输出边界框的四个坐标点信息,通道数上升了4X倍。通过两个卷积层将样板输出扩展成分类分支和回归分支,检测输出也被两个卷积层扩展成为分类分支和回归分支,对分类支路进行卷积运算,运算结果为:
Figure BDA0003644179570000081
对回归支路进行卷积运算,运算结果为:
Figure BDA0003644179570000082
Figure BDA0003644179570000083
还代表锚点对应原始图像的正激活和负激活;
Figure BDA0003644179570000084
还代表回归支路的卷积运算结果。采用FAST-RCNN的损失函数对候选网络进行训练,分类支路的损失函数采用交叉熵损失函数,回归支路的损失函数采用回归损失函数smooth L1 loss;对于回归支路的损失函数,首先将锚点的坐标标准化。计算锚箱与定位边界框的标准化距离:
Figure BDA0003644179570000085
Figure BDA0003644179570000086
Figure BDA0003644179570000091
Figure BDA0003644179570000092
smooth L1 loss函数为:
Figure BDA0003644179570000093
v∈[0,1,2,3];
ζ为边界框阈值;
回归支路的损失函数为:
Figure BDA0003644179570000094
步骤(3)相似度判断:计算当前视频序列最后的定位边界框的高宽比e,以及上一帧视频序列最后的定位边界框的高宽比e",确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f";
f2=(Gh+c)(Gw+c)
Figure BDA0003644179570000095
计算惩罚函数:
Figure BDA0003644179570000096
计算分类支路评价值:
Figure BDA0003644179570000097
计算定位边界框相似度pscore:
pscore=penalty×score。
将当前帧的分类支路评价值乘以惩罚函数,对当前帧的生成边界框评估,使用非最大抑制得到当前帧的最终定位边界框。若pscore>0.9,则认为定位成功,无需进行重新跟踪。此机制来判断目标定位是否需要接着进行,以提高跟踪的鲁棒性。
步骤(4)预测定位范围:在目标定位工作时,由于各种因素扰动导致图像质量下降,造成目标丢失、定位漂移、错误定位等情况的发生,为应对这些影响,根据前几帧的定位结果预测下一帧的定位范围,将目标下一帧的轨迹方向设定为与上一帧的运动方向一致,此定位策略可有效地缩小目标定位的范围。
由于定位目标运动的速度变化,帧与帧之间时间间隔很短,因此在图像范围内目标的位置变化会存在惯性效应,本方法根据前几帧对目标定位的结果,判断下一帧目标运动方向。以定位边界框的左上角为原点建立xy坐标轴,记录从第G-a帧开始相邻两帧的定位边界框的几何中心点坐标沿x轴方向的位移变化Δxj=[Δx1,Δxa],j∈[1,a],沿y轴方向位移变化分别为Δyj=[Δy1,Δya],j∈[1,a],计算x轴方向和y轴方向的平均位移变化:
x轴方向平均位移变化为:
Figure BDA0003644179570000101
y轴方向平均位移变化为:
Figure BDA0003644179570000102
arg指的是复数的辐角主值。
当xp>0,预测第G+1帧位置是x轴正方向;否则,预测第G+1帧位置是x轴负方向;
当xp>0,预测第G+1帧位置是y轴正方向;否则,预测第G+1帧位置是y轴负方向;
然后以第G帧对应定位边界框的几何中心点坐标为中心向外扩充为第G帧图像大小,第G帧图像和扩充后的图像的重叠部分为第G+1帧目标定位范围。
图2-5为定位效果示意图。其中图2、图3、图4和图5分别表示第G-2帧、第G-1帧、第G帧和第G+1帧的的定位结果。以视频序列中每一帧图像的左上角为原点建立坐标轴,由此判断在G+1帧时目标的位置在当前第G帧目标位置的左上方。以上一帧定位框的中心点,向外扩充为与当前帧的图像大小,两图重叠部分,即为下一帧目标定位的选择范围。图6为连续跟踪图,进一步表现了本方法在长时连续定位的效果。实验过程中,持续对凸点目标跟踪了300秒,共5700帧图片,其中每秒19帧图片。综上,本发明方法与现有技术相比区别明显,具有实质性的技术效果。

Claims (6)

1.基于人工智能网络的机器视觉目标定位方法,其特征在于,包括如下步骤:
(1)检测待定位目标,采集目标图像,将采集出的目标图像为样板图像,将样板图像帧作为视频序列的第一帧;
(2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取;
(3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归;
(4)计算每帧视频序列的定位边界框相似度,根据定位边界框相似度进行排名,通过非极大值抑制得到每帧视频序列最后的定位边界框,如果每一帧视频序列最后的定位边界框的值都大于边界框阈值参数,则判定为定位成功,继续执行步骤(5);如果每一帧视频序列最后的定位边界框的值中至少有一个小于等于定位边界框阈值,则判定为定位不成功,重新执行步骤(3);
(5)检测视频序列的编号第G-a帧、第G-a+1帧、…、第G帧的视频序列中相邻两帧的定位边界框,判断定位边界框的几何中心点在xy坐标系下的平均位移变化,预测第G+1帧视频序列相对于第G帧视频序列的移动方向,以第G帧视频序列定位边界框的几何中心点坐标为中心进行放大,形成放大到视频序列的图像尺寸的图,第G帧视频序列图像和大后的图的重叠部分,判定为第G+1帧视频序列的图像的目标定位范围。
2.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法,其特征在于,所述的孪生网络分为样板支路和检测支路,两个支路的权重参数相同;其中样板支路接收样板图像,输入标记为m;检测支路接收检测序列当前帧的图像,输入标记为k;样板图像和检测序列经过孪生网络后得到孪生网络特征输出为样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)。
3.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法,其特征在于,所述的步骤(3)具体包括如下步骤:
(3.1)采用FAST-RCNN的损失函数对候选网络进行训练,分类支路的损失函数采用交叉熵损失函数,回归支路的损失函数采用回归损失函数smooth L1 loss;
(3.2)通过训练后的候选网络的两个卷积层将ι(m)扩展为样板图像孪生网络特征输出分类分支ι(m)cls和样板图像孪生网络特征输出回归分支ι(m)reg
(3.3)通过训练后的候选网络的两个卷积层将ι(k)扩展为检测序列孪生网络特征输出分类分支ι(k)cls和检测序列孪生网络特征输出回归分支ι(k)reg
(3.4)确认分类支路的通道向量个数为2X,确认回归支路的通道向量个数为4X;
(3.5)对分类支路进行卷积运算,运算结果为:
Figure FDA0003644179560000011
(3.6)对回归支路进行卷积运算,运算结果为:
Figure FDA0003644179560000021
4.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法,其特征在于,所述的步骤(3.1)具体包括如下步骤:
(3.1.1)确认候选网络中锚箱的中心点坐标(Nx,Ny)、宽Nw和高Nh
(3.1.2)确认实际定位边界框的中心点坐标(Gx,Gy)、高Gh和宽Gw
(3.1.3)计算锚箱与定位边界框的标准化距离:
Figure FDA0003644179560000022
Figure FDA0003644179560000023
Figure FDA0003644179560000024
Figure FDA0003644179560000025
(3.1.4)构建smooth L1 loss函数:
Figure FDA0003644179560000026
ζ为边界框阈值;
(3.1.5)回归支路的损失函数为:
Figure FDA0003644179560000027
5.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法,其特征在于,所述步骤(4)具体包括:
(4.1)计算当前视频序列最后的定位边界框的高宽比e,以及上一帧视频序列最后的定位边界框的高宽比e",确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f";
f2=(Gh+c)(Gw+c);
Figure FDA0003644179560000028
(4.2)计算惩罚函数:
Figure FDA0003644179560000031
(4.3)计算分类支路评价值:
Figure FDA0003644179560000032
(4.4)计算定位边界框相似度pscore:
pscore=penalty×score。
6.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法,其特征在于,所述的步骤(5)包括:
以定位边界框的左上角为原点建立xy坐标轴,记录从第G-a帧开始相邻两帧的定位边界框的几何中心点坐标沿x轴方向的位移变化Δxj=[Δx1,Δxa],j∈[1,a],沿y轴方向位移变化分别为Δyj=[Δy1,Δya],j∈[1,a],计算x轴方向和y轴方向的平均位移变化:
x轴方向平均位移变化为:
Figure FDA0003644179560000033
y轴方向平均位移变化为:
Figure FDA0003644179560000034
arg指的是复数的辐角主值;
当xp>0,预测第G+1帧位置是x轴正方向;否则,预测第G+1帧位置是x轴负方向;
当xp>0,预测第G+1帧位置是y轴正方向;否则,预测第G+1帧位置是y轴负方向;
然后以第G帧对应定位边界框的几何中心点坐标为中心向外扩充为第G帧图像大小,第G帧图像和扩充后的图像的重叠部分为第G+1帧目标定位范围。
CN202210534291.7A 2022-05-15 2022-05-15 基于人工智能网络的机器视觉目标定位方法 Pending CN114862913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210534291.7A CN114862913A (zh) 2022-05-15 2022-05-15 基于人工智能网络的机器视觉目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210534291.7A CN114862913A (zh) 2022-05-15 2022-05-15 基于人工智能网络的机器视觉目标定位方法

Publications (1)

Publication Number Publication Date
CN114862913A true CN114862913A (zh) 2022-08-05

Family

ID=82637484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210534291.7A Pending CN114862913A (zh) 2022-05-15 2022-05-15 基于人工智能网络的机器视觉目标定位方法

Country Status (1)

Country Link
CN (1) CN114862913A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071566A (zh) * 2023-03-23 2023-05-05 广东石油化工学院 基于网格流去噪和多尺度目标网络的钢桶轨迹检测方法
CN116128981A (zh) * 2023-04-19 2023-05-16 北京元客视界科技有限公司 光学系统标定方法、装置和标定系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071566A (zh) * 2023-03-23 2023-05-05 广东石油化工学院 基于网格流去噪和多尺度目标网络的钢桶轨迹检测方法
CN116128981A (zh) * 2023-04-19 2023-05-16 北京元客视界科技有限公司 光学系统标定方法、装置和标定系统

Similar Documents

Publication Publication Date Title
CN111693972B (zh) 一种基于双目序列图像的车辆位置与速度估计方法
CN105405154B (zh) 基于颜色-结构特征的目标对象跟踪方法
Zhang et al. Ripple-GAN: Lane line detection with ripple lane line detection network and Wasserstein GAN
CN107452015B (zh) 一种具有重检测机制的目标跟踪系统
CN102609686B (zh) 一种行人检测方法
CN114862913A (zh) 基于人工智能网络的机器视觉目标定位方法
CN106845364B (zh) 一种快速自动目标检测方法
CN103886325B (zh) 一种分块的循环矩阵视频跟踪方法
CN102598057A (zh) 自动对象识别、然后根据对象形状进行对象跟踪的方法和系统
CN111160212B (zh) 一种基于YOLOv3-Tiny改进的跟踪学习检测系统及方法
CN111161309B (zh) 一种车载视频动态目标的搜索与定位方法
CN114220061B (zh) 一种基于深度学习的多目标跟踪方法
Huang et al. Siamsta: Spatio-temporal attention based siamese tracker for tracking uavs
CN113989604B (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN116402850A (zh) 一种面向智能驾驶的多目标跟踪方法
CN114708300A (zh) 一种可抗遮挡的自适应目标跟踪方法及系统
CN107247967B (zh) 一种基于r-cnn的车窗年检标检测方法
CN113344967A (zh) 一种复杂背景下的动态目标识别追踪方法
CN112258403A (zh) 一种在动态烟雾中提取疑似烟雾区域的方法
Gad et al. Real-time lane instance segmentation using SegNet and image processing
CN117011341A (zh) 基于目标追踪的车辆轨迹检测方法及系统
CN111862147A (zh) 视频中多车辆和多行人目标的跟踪方法
CN116665097A (zh) 一种结合上下文感知的自适应目标跟踪方法
CN111339824A (zh) 基于机器视觉的路面抛洒物检测方法
CN114820801A (zh) 一种空间目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination