CN111445496A - 一种水下图像识别跟踪系统及方法 - Google Patents
一种水下图像识别跟踪系统及方法 Download PDFInfo
- Publication number
- CN111445496A CN111445496A CN202010118383.8A CN202010118383A CN111445496A CN 111445496 A CN111445496 A CN 111445496A CN 202010118383 A CN202010118383 A CN 202010118383A CN 111445496 A CN111445496 A CN 111445496A
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- affine
- candidate
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 113
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000009466 transformation Effects 0.000 claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 46
- 238000005295 random walk Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000005286 illumination Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 3
- 238000000149 argon plasma sintering Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种水下图像识别跟踪系统及方法,涉及计算机视觉技术领域。本申请包括仿射变换模块、候选框生成模块、跟踪模块、训练模块;通过接收水下视频图像序列,对所接收的图像序列中的图像进行仿射变换,以在当前的图像帧上标记出仿射框;基于所述仿射框,利用随机游走模型将仿射变换形成M个候选框;将M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,其中M为大于1的整数;以及将得分最高的候选框确定为所要识别的对象,并在该当前帧中划出该候选框作为被识别跟踪的对象。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种水下图像识别跟踪系统及方法。
背景技术
近年来,水下机器人的出现进一步提高了我们认识和探索海洋的能力,它可代替人类在恶劣条件下完成任务。视觉系统是水下机器人应用的核心系统。但对于水下拍摄的视频图像,由于水体自身环境的复杂性、水下的不确定性动态因素、以及成像过程中水体对光线散射以及吸收效应产生的非线性影响都极大地降低了水下图像质量,导致图像对比度降低、纹理模糊。使得在陆地上行之有效的视觉检测与识别方法发挥的作用有限,目前还没有一种通用的方法可以处理所有场景下的图像。因此,研究开发一种高效地水下水下图像分类识别算法及系统,将具有重要的理论和应用价值。
发明内容
针对现有技术的不足,本发明提供一种水下图像识别跟踪系统及方法。针对水下图像的特点,通过训练CNN网络,能够实现水下图像的识别和跟踪功能。
为解决上述技术问题,本发明所采取的技术方案是:
一方面,本发明提供一种水下图像识别跟踪系统,包括仿射变换模块、候选框生成模块、跟踪模块、训练模块;
所述仿射变换模块用于接收水下视频图像序列,并对所接收的水下视频图像序列中的图像进行仿射变换,根据上一帧图像中标记出的仿射框而在当前帧上标记出当前帧中的仿射框;所述仿射变换模块在标记出各视频图像帧中的所述仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形;
所述候选框生成模块,基于所述仿射框,利用随机游走模型将仿射变换,形成M个候选框;
所述跟踪模块,将所述M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,其中M为大于1的整数,并将得分最高的候选框确定为所要识别的对象,以及在当前帧中划出该候选框作为被识别跟踪的对象;
所述训练模块用于对深度卷积神经元网络进行训练,从预定训练集中选择两个对象区域-标签对输入到所述深度卷积神经元网络;其中,所述两个对象区域-标签对包括:在光照充足的环境下拍摄的无噪声真值图像,以及在光照不足的环境下拍摄的含噪声训练图像;将所述含噪声训练图像用作初始图像以利用所述深度卷积神经元网络重建图像,将重建图像与所述无噪声真值图像进行比较以获得训练误差,以及将所述训练误差迭代反向传播经过所述深度卷积神经元网络以修正所述深度卷积神经元网络的参数,直至所述训练误差满足收敛条件。
另一方面,本发明还提供一种水下图像识别跟踪方法,采用上述的一种水下图像识别跟踪系统实现,该方法包括以下步骤:
步骤1:接收水下视频图像序列,对图像进行预处理,在对所述每一幅图像进行直方图均衡化之后,进行缩放、旋转、平移、剪裁等中的一个或多个操作;
步骤2:对所接收的水下视频图像序列中的图像进行仿射变换,以在当前的图像帧上标记出仿射框;
步骤2.1:根据上一帧图像中标记出的仿射框而在当前帧上标记出当前帧中的仿射框;
步骤2.2:在标记出各视频图像帧中的所述仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形。
步骤3:基于步骤2中所述仿射框,利用随机游走模型将仿射变换形成M个候选框;
步骤3.1:基于当前图像帧中的仿射框随机生成多维向量u;
步骤3.2:对随机生成的向量u进行标准化处理;
步骤3.3:将上一帧的仿射变换与通过随机生成的向量u进行标准化处理得到的向量之和确定为所述当前帧中的仿射变换;
步骤3.4:对下一帧进行步骤1,重复步骤1-3直到产生M个候选框。
所述多维向量u为6维向量。
步骤4:将M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,设计损失函数;
步骤4.1:将M个候选框所确定的候选图像区域输入到深度卷积神经元网络;
所述深度卷积神经元网络包括相互级联的卷积层、激活层、池化层和全连接层;
步骤4.2:对深度卷积神经元网络进行训练,通过所述深度卷积神经元网络,分别进行卷积操作、激活操作、池化操作获得所述M个得分。
所述深度卷积神经元网络的损失函数为:
其中,α为学习率;
tc表示是类别标签,其中tc=1表示目标,tc=1表示背景;
i表示正在计算损失的回归框的序号;
p表示类别属于目标或是背景的概率;其中L c (p,tc)=-logp tc 是类别tc的对数损失;
u i =(r1,r2,r3,r4,r5,r6)为真实目标区域的仿射参数元组;
其中x为实数。
所述对深度卷积神经元网络进行训练具体包括:
步骤S1:从预定训练集中选择两个对象区域-标签对输入到所述深度卷积神经元网络;其中,所述两个对象区域-标签对包括:在光照充足的环境下拍摄的无噪声真值图像,以及在光照不足的环境下拍摄的含噪声训练图像;
步骤S2:将所述含噪声训练图像用作所述初始图像以利用所述卷积神经网络重建图像;
步骤S3:将所述重建图像与所述无噪声真值图像进行比较以获得训练误差;
步骤S4:将所述训练误差迭代的反向传播经过所述卷积神经网络以修正所述卷积神经网络的参数,直至所述训练误差满足收敛条件。
步骤5:将得分最高的候选框确定为所要识别的对象,并在该当前帧中划出该候选框作为被识别跟踪的对象。
采用上述技术方案所产生的有益效果在于:
(1)最后一个卷积层用于获取编码对象的语义信息,其对目标的外观变化具有较强的鲁棒性。
(2)应用仿射变换预测目标的位置,从而更准确地预测动态几何变形。
(3)使用多任务损失,使仿射参数参与回归任务,能够进一步使目标定位更加准确。
(4)将仿射变换与最高卷积层相结合,同时应用语义和几何变形处理外形和几何变化变化大目标,实现稳定识别与跟踪。
附图说明
图1为本发明实施例的一种水下图像识别跟踪系统框图;
图2为本发明实施例的深度卷积神经元网络结构模块示意图;
图3本发明实施例的电子设备结构示意图;
图4为本发明实施例的一种水下图像识别跟踪方法流程图;
图5为本发明实施例的一种水下图像识别跟踪网络架构图;
图6所示为本发明实施例的水下图像识别跟踪结果图。
具体实施方式
下面结合附图对本发明具体实施方式加以详细的说明。
一方面,本发明提供一种水下图像识别跟踪系统,如图1所示,包括仿射变换模块201、候选框生成模块202和跟踪模块203。可选地,系统2000还可包括训练器204;
所述仿射变换模块201接收水下视频图像序列,并对所接收的图像序列中的图像进行仿射变换,以在当前的图像帧上标记出仿射框。水下图像可由高清摄像头动态随机获取。水下拍摄的视频图像,由于水体自身环境的复杂性、水下的不确定性动态因素、以及成像过程中水体对光线散射以及吸收效应产生的非线性影响都极大地降低了水下图像质量,导致图像对比度降低、纹理模糊。因此有必要对这些图像进行预处理,例如针对每一幅图像,进行图像增强处理,在直方图均衡化之后,进行缩放、旋转、平移、剪裁等中的一个或多个操作。本领域技术人员应该理解,这些与操作并不是必需的,而是可选的。接着,对所接收的图像序列中的图像进行仿射变换,以在当前的图像帧上标记初始仿射框。在这里,仿射框表示图像序列中要被追踪的目标。具体地,可以根据上一帧图像中画出的目标而在当前帧上标记初始仿射框,即,根据第t-1帧图像目标所在位置,在第t帧图像上,标记初始仿射框。在本实施例中,在标记出各视频图像帧中的仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形。仿射变换采用仿射变换矩阵的形式。
所述候选框生成模块202,基于所述仿射框,利用随机游走模型将仿射变换,形成M个候选框;
所述跟踪模块203,将所述M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,并将得分最高的候选框确定为所要识别的对象,以及在该当前帧中划出该候选框作为被识别跟踪的对象;
本实施例中,将M个候选框所确定的候选图像区域进行仿射变换成矩形区域,输入到深度卷积神经元网络,本实施例中的CNN网络为VGG-16网络,也可为其它常规的深度学习网络(CNN)。本CNN网络采用如图2所示的经典的深度网络结构。
将候选框输入如图2所示的深度卷积神经元网络,分别通过卷积层10、激活层20、池化层30,分别进行卷积操作、激活操作、池化操作并通过全连接层40输出M个得分score1,score2, ……scoreM。
CNN包括卷积层10。图2中作为示例给出了一层卷积层。然而,本领域技术人员可知,为了增强特征的表征能力,在CNN 2000中可包括多层卷积层。每个卷积层均可包括多个卷积核,卷积核由权重(Weight)和偏移量(Bias)构成。卷积核的数量也称为特征通道数量。每个卷积核仅对输入层的特定特征敏感,并可通过卷积操作提取这些特征。因此,卷积层2200也可称之为特征提取层。根据本申请实施方式的图像降噪方法1000可通过CNN 2000的特征提取层(例如,卷积层2200)对包含噪声的初始图像2100进行卷积操作以提取初级特征图。
一般地,卷积核的尺寸小于输入层的尺寸,因此,每个卷积核仅感知输入层的部分区域,这部分区域称之为感知域(Receptive Field)。然后,每个卷积核以特定的步长(Stride)滑动遍及整个输入层,直至提取输入层的全部信息。在这一过程中,通过权重共享,卷积核可将卷积核自身的权重和偏移量共享应用到对整个输入层的特征提取上,以大大降低计算负担。然而,权重共享并非适用于任何应用场景。对于一些图像,用户的关注区域集中在图像的某个区域(例如,中心区域),而且这一区域的图像特征与其它区域明显不同。在这种应用场景下,可通过局域连接层来对图像的特定区域进行特征提取,局域连接层的卷积核权重可不共享到对其它图像区域的特征提取中。
CNN还包括激活层20。如上所述,卷积核仅仅对初始图像进行线性变换。然而,线性变换对于图像特征的语义表征能力是不足的。为了增强对图像特征的语义表征能力,往往需要添加非线性的激活层。这样的非线性的激活层可以对初级特征图进行非线性变换,以获得具有较强的语义表征能力的次级特征图。可根据实际需求而为激活层配置不同的激活函数。例如,可采用sigmod函数来对特征进行激活。
根据本申请的一个实施例,CNN还包括池化(Pooling)层30。池化层30可以对其输入层进行下采样以降低数据尺寸。例如,池化层30可以对激活层20输出的特征图进行下采样。这种下采样操作在一方面可以降低输出尺寸以加快输出处理速度,在另一方面也可以减小过拟合现象。根据本申请的一个实施例,可以在每个下采样的过程中将特征通道数量翻倍。
池化层30选用多种池化操作。根据本申请的实施例,池化层30选用平均值池化(Average Pooling)。在平均值池化过程中,每个池可涵盖其输出层的N个像素值,每个池的输出值是这N个像素值的平均值。通过这种方式,数据尺寸降低为原尺寸的1/N。
根据本申请的实施例,池化层30选用最大值池化(Max Pooling)。在最大值池化过程中,每个池可涵盖其输出层的N个像素值,每个池的输出值是从这N个像素值中选出的最大值。通过这种方式,数据尺寸也降低为原尺寸的1/N。
CNN包括全连接层40。在全连接层40中,每一神经元连接至上一层的全部神经元。全连接层40可以对前几层卷积层提取的特征进行归纳和总结,以获得体现全局特征的特征图。
所述训练模块204用于对深度卷积神经元网络进行训练。具体地,从预定训练集中选择两个对象区域-标签对输入到所述深度卷积神经元网络;其中,所述两个对象区域-标签对包括:在光照充足的环境下拍摄的无噪声真值图像,以及在光照不足的环境下拍摄的含噪声训练图像;将所述含噪声训练图像用作所述初始图像以利用所述卷积神经网络重建图像。将所重建的重建图像与所述无噪声真值图像进行比较以获得训练误差,以及将所述训练误差迭代地反向传播经过所述卷积神经网络以修正所述卷积神经网络的参数,直至所述训练误差满足收敛条件。
如图3所示,表示了适于用实现本公开的实施例的电子设备600的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
另一方面,本发明还提供一种水下图像识别跟踪方法,其流程图如图4所示,网络架构图如图5所示,采用上述的一种水下图像识别跟踪系统实现,该方法包括以下步骤:
步骤1:接收水下视频图像序列,对图像进行预处理,在对所述每一幅图像进行直方图均衡化之后,进行缩放、旋转、平移、剪裁等中的一个或多个操作;
水下图像可由高清摄像头动态随机获取。水下拍摄的视频图像,由于水体自身环境的复杂性、水下的不确定性动态因素、以及成像过程中水体对光线散射以及吸收效应产生的非线性影响都极大地降低了水下图像质量,导致图像对比度降低、纹理模糊。因此有必要对这些图像进行预处理,例如针对每一幅图像,进行图像增强处理,在直方图均衡化之后,进行缩放、旋转、平移、剪裁等中的一个或多个操作。
步骤2:对所接收的水下视频图像序列中的图像进行仿射变换,以在当前的图像帧上标记出仿射框;
步骤2.1:根据上一帧图像中标记出的仿射框而在当前帧上标记出当前帧中的仿射框;
步骤2.2:在标记出各视频图像帧中的所述仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形。
对所接收的图像序列中的图像进行仿射变换,以在当前的图像帧上标记初始仿射框。在这里,仿射框表示图像序列中要被追踪的目标。具体地,根据上一帧图像中标记出的目标而在当前帧上标记初始仿射框,即,根据第t-1帧图像目标所在位置,在第t帧图像上,标记初始仿射框。
本实施例中,在标记出各视频图像帧中的仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形。仿射变换采用仿射变换矩阵的形式,例如仿射变换矩阵T(r) ,具有如下3维的李群结构:
当t=1时,初始化仿射变换参数S1=[r1,r2,r3,r4,r5,r6]。
步骤3:基于步骤2中所述仿射框,利用随机游走模型将仿射变换形成M个候选框;
步骤3.4:对下一帧进行步骤1,重复步骤1-3直到产生M个候选框。
则第t-1帧图像跟踪的仿射变换S t-1可表示为:
当前帧的仿射变换为上一帧的仿射变换与通过随机生成的向量u进行标准化处理得到的 u’之和。
为了清楚起见,下面以一个具体的例子进行说明。应该理解,所举之例仅仅是示意性的,而不是用来限定本发明。在本发明公开范围的教导下,本领域技术人员还可以预期其它的具体实例来实现本发明。
对于视频图像序列中的第一帧进行初始化处理,即,t=1时,初始化仿射变换参数S1=[0.05;0.002;0.002;0.05;5;5]。
对第t(t>1)帧图像,根据第t-1帧图像目标所在位置,在第t帧图像上,画出初始仿射框,确定出候选图像区域,即,要跟踪的目标。接着,将仿射变换利用随机游走模型,产生1000个候选框。
初始化k=1,当k<=1000时,随机生成一个(-1,1)之间的6维向量u=(u 1,u 2,u 3,u 4,u 5,u 6),对随机生成一个(-1,1)之间的6维向量u=(u 1,u 2,u 3,u 4,u 5,u 6),进行标准化处理得到。然后利用上述公式进行计算处理,其中S t-1为第t-1帧图像跟踪的
仿射变换。接着对下一帧进行处理,k=k+1重复上述步骤,直到产生1000个候选框。
步骤4:将M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,其中M为大于1的整数;
在本实施例中,将M个候选框所确定的候选图像区域进行仿射变换成矩形区域,输入到深度卷积神经元网络,该网络如图2所示。输将候选框输入如图2所示的深度卷积神经元网络,分别进行卷积操作、激活操作、池化操作并通过全连接层输出M个得分score1,score2, ……scoreM。其中,在进行上述操作过程中的损失函数可表示为:
其中,α为学习率;
tc表示是类别标签,其中tc=1表示目标,tc=1表示背景;
i表示正在计算损失的回归框的序号;
L c (p,tc)=-logp tc (6)
u i =(r1,r2,r3,r4,r5,r6)为真实目标区域的仿射参数元组;
其中x为实数。
步骤4.1:将M个候选框所确定的候选图像区域输入到深度卷积神经元网络;
所述深度卷积神经元网络包括相互级联的卷积层、激活层、池化层和全连接层;
步骤4.2:对深度卷积神经元网络进行训练,通过所述深度卷积神经元网络,分别进行卷积操作、激活操作、池化操作获得所述M个得分。
所述对深度卷积神经元网络进行训练具体包括:
步骤S1:从预定训练集中选择两个对象区域-标签对输入到所述深度卷积神经元网络;其中,所述两个对象区域-标签对包括:在光照充足的环境下拍摄的无噪声真值图像,以及在光照不足的环境下拍摄的含噪声训练图像;
步骤S2:将所述含噪声训练图像用作所述初始图像以利用所述卷积神经网络重建图像;
步骤S3:将所述重建图像与所述无噪声真值图像进行比较以获得训练误差;
步骤S4:将所述训练误差迭代的反向传播经过所述卷积神经网络以修正所述卷积神经网络的参数,直至所述训练误差满足收敛条件。
首先,向CNN输入训练数据集,以及对应类别的标签向量。针对每一幅图像,首先进行图像增强处理,在直方图均衡化之后,进行缩放、旋转、平移、剪裁操作,增大训练数据集中图像的数量。通过增加样本数量来获得较好的学习效果。初始图像的尺寸可不受限制。例如,初始图像可具有任意的分辨率和宽高比。初始图像可以是RGB图像并具有红色、绿色和蓝色三个颜色通道。每一颜色通道的图像均由位于各个像素点处的像素值来表示。这些像素值处于[0, 255]的数值范围内。
本发明实施例中,初始图像预先进行剪裁以符合特定宽高比。例如,初始图像可被剪裁为具有32像素×32像素的尺寸以匹配CIFAR-10数据集。或者,初始图像可剪裁为具有227像素×227像素的尺寸以匹配ImageNet数据集。再或者,初始图像2100可剪裁为具有224像素×224像素的尺寸以匹配VGG16和ResNet数据集。图像的剪裁可采用手工剪裁,例如,可使用Amazon Mechanical Turk (AMT)服务由大量在线人员根据图像的特点进行手工剪裁,以在保留拍摄对象的同时将图像剪裁为符合特定宽高比。此外,剪裁也可通过ROI(Regionof Interest,关注区域)提取层进行自动提取。例如,ROI提取层会自动生成框选出目标对象的边界框,并基于这一边界框自动调整和剪裁图像的尺寸以符合特定宽高比。ROI提取层的网络参数可以在训练过程中进行训练优化。
可选地,可以对初始图像进行归一化以将初始图像的像素值转换到特定数值范围内。例如,可将初始图像的每个颜色通道的像素值归一化到[0, 1]的数值范围内以方便后续处理。然而,本领域技术人员可理解,由于像素值一般已均处于固定幅度[0, 255]的数值范围内,因此归一化处理并非必要处理,而仅是一种优化的选择。
在本事实例中,上述向CNN输入数据的步骤包括:从预定训练集中选择两个对象区域-标签对,这两个对象区域-标签对是成对的对准的对象区域及其对应的对象身份标签。在一个实施方式中,可用属于同一物体或不同物体的相等的概率随机地选择这两个对象区域-标签对。例如,可在光照充足的环境下拍摄对象以获得无噪声真值图像,并且在光照不足的水下环境下拍摄对象以获得含噪声训练图像;
将含噪声训练图像用作初始图像以利用所述卷积神经网络重建获得所述重建图像;将所重建的重建图像与无噪声真值图像进行比较以获得训练误差,并将所述训练误差迭代地反向传播经过所述卷积神经网络以修正所述卷积神经网络的参数,直至所述训练误差满足收敛条件,例如直到得到测试准确率达到98%以上。
训练结束后,保存最后得到的训练模型,传送给识别跟踪系统。以上步骤可在数据集训练子系统中完成。
步骤5:将得分最高的候选框确定为所要识别的对象,并在该当前帧中划出该候选框作为被识别跟踪的对象。
计算得分最高者所在的候选框n可参照以下公式:
scorel表示M个得分,即score1,score2, ……scoreM;
在第t帧图像上画出该候选框,即完成第t帧图像的识别,并将第t帧图像的候选框位置保存下来。
当t+1小于视频总帧数时,算法进入第一步,进行第t+1帧图像的跟踪。直到所有视频帧跟踪完毕,算法结束。识别跟踪结果如图6所示。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (9)
1.一种水下图像识别跟踪系统,其特征在于:包括仿射变换模块、候选框生成模块、跟踪模块、训练模块;
所述仿射变换模块用于接收水下视频图像序列,并对所接收的水下视频图像序列中的图像进行仿射变换,根据上一帧图像中标记出的仿射框而在当前帧上标记出当前帧中的仿射框;所述仿射变换模块在标记出各视频图像帧中的所述仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形;
所述候选框生成模块,基于所述仿射框,利用随机游走模型将仿射变换,形成M个候选框;
所述跟踪模块,将所述M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,其中M为大于1的整数,并将得分最高的候选框确定为所要识别的对象,以及在当前帧中划出该候选框作为被识别跟踪的对象;
所述训练模块用于对深度卷积神经元网络进行训练,从预定训练集中选择两个对象区域-标签对输入到所述深度卷积神经元网络;其中,所述两个对象区域-标签对包括:在光照充足的环境下拍摄的无噪声真值图像,以及在光照不足的环境下拍摄的含噪声训练图像;将所述含噪声训练图像用作初始图像以利用所述深度卷积神经元网络重建图像,将重建图像与所述无噪声真值图像进行比较以获得训练误差,以及将所述训练误差迭代反向传播经过所述深度卷积神经元网络以修正所述深度卷积神经元网络的参数,直至所述训练误差满足收敛条件。
2.根据权利要求1所述的一种水下图像识别跟踪系统,其特征在于:
所述仿射变换模块采用仿射变换矩阵的形式进行仿射变换,所述仿射变换矩阵具有3维的李群结构。
3.一种水下图像识别跟踪方法,通过权利要求1所述一种水下图像识别跟踪系统实现,其特征在于,包括以下步骤:
步骤1:接收水下视频图像序列,对图像进行增强处理,在对所述每一幅图像进行直方图均衡化之后,进行缩放、旋转、平移、剪裁等中的一个或多个操作;
步骤2:对所接收的水下视频图像序列中的图像进行仿射变换,在当前的图像帧上标记出仿射框;
步骤3:基于步骤2中所述仿射框,利用随机游走模型将仿射变换形成M个候选框;
步骤4:将M个候选框所确定的候选图像区域输入到深度卷积神经元网络从而获得M个得分,设计损失函数;
步骤5:将得分最高的候选框确定为所要识别的对象,并在该当前帧中划出该候选框作为被识别跟踪的对象。
4.根据权利要求3所述的一种水下图像识别跟踪方法,其特征在于,所述步骤2具体包括:
步骤2.1:根据上一帧图像中标记出的仿射框而在当前帧上标记出当前帧中的仿射框;
步骤2.2:在标记出各视频图像帧中的所述仿射框时,采用仿射变换表示各个图像帧中的目标的几何变形。
5.根据权利要求3所述的一种水下图像识别跟踪方法,其特征在于,所述步骤3具体包括:
步骤3.1:基于当前图像帧中的仿射框随机生成多维向量u;
步骤3.2:对随机生成的向量u进行标准化处理;
步骤3.3:将上一帧的仿射变换与通过随机生成的向量u进行标准化处理得到的向量之和确定为所述当前帧中的仿射变换;
步骤3.4:对下一帧进行步骤3.1,重复步骤3.1-3.4直到产生M个候选框。
6.根据权利要求5所述的一种水下图像识别跟踪方法,其特征在于:所述多维向量u为6维向量。
7.根据权利要求3所述的一种水下图像识别跟踪方法,其特征在于,所述步骤4具体包括:
步骤4.1:将M个候选框所确定的候选图像区域输入到深度卷积神经元网络;
所述深度卷积神经元网络包括相互级联的卷积层、激活层、池化层和全连接层;
步骤4.2:对深度卷积神经元网络进行训练,通过所述深度卷积神经元网络,分别进行卷积操作、激活操作、池化操作获得所述M个得分。
8.根据权利要求3所述的一种水下图像识别跟踪方法,其特征在于,
步骤4中所述深度卷积神经元网络的损失函数为:
其中,α为学习率;
tc表示是类别标签,其中tc=1表示目标,tc=1表示背景;
i表示正在计算损失的回归框的序号;
u i =(r1,r2,r3,r4,r5,r6)为真实目标区域的仿射参数元组;
其中x为实数。
9.根据权利要求7所述的一种水下图像识别跟踪方法,其特征在于,所述步骤4.2中对深度卷积神经元网络进行训练具体包括:
步骤S1:从预定训练集中选择两个对象区域-标签对输入到所述深度卷积神经元网络;其中,所述两个对象区域-标签对包括:在光照充足的环境下拍摄的无噪声真值图像,以及在光照不足的环境下拍摄的含噪声训练图像;
步骤S2:将所述含噪声训练图像用作所述初始图像以利用所述卷积神经网络重建图像;
步骤S3:将所述重建图像与所述无噪声真值图像进行比较以获得训练误差;
步骤S4:将所述训练误差迭代的反向传播经过所述卷积神经网络以修正所述卷积神经网络的参数,直至所述训练误差满足收敛条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010118383.8A CN111445496B (zh) | 2020-02-26 | 2020-02-26 | 一种水下图像识别跟踪系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010118383.8A CN111445496B (zh) | 2020-02-26 | 2020-02-26 | 一种水下图像识别跟踪系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445496A true CN111445496A (zh) | 2020-07-24 |
CN111445496B CN111445496B (zh) | 2023-06-30 |
Family
ID=71652738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010118383.8A Active CN111445496B (zh) | 2020-02-26 | 2020-02-26 | 一种水下图像识别跟踪系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445496B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077048A (zh) * | 2021-04-09 | 2021-07-06 | 上海西井信息科技有限公司 | 基于神经网络的印章匹配方法、系统、设备及存储介质 |
TWI779334B (zh) * | 2020-08-21 | 2022-10-01 | 國立臺灣海洋大學 | 移動式水中生物自動標記方法及水中生物影像自動標記系統 |
CN116405626A (zh) * | 2023-06-05 | 2023-07-07 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170343481A1 (en) * | 2016-05-27 | 2017-11-30 | Purdue Research Foundation | Methods and systems for crack detection |
CN107844750A (zh) * | 2017-10-19 | 2018-03-27 | 华中科技大学 | 一种水面全景图像目标检测识别方法 |
CN107909082A (zh) * | 2017-10-30 | 2018-04-13 | 东南大学 | 基于深度学习技术的声呐图像目标识别方法 |
CN108171112A (zh) * | 2017-12-01 | 2018-06-15 | 西安电子科技大学 | 基于卷积神经网络的车辆识别与跟踪方法 |
CN108447074A (zh) * | 2018-02-02 | 2018-08-24 | 中国科学院西安光学精密机械研究所 | 基于双向自适应语义融合的水下目标识别方法 |
CN108537170A (zh) * | 2018-04-09 | 2018-09-14 | 电子科技大学 | 一种电力设备固件无人机巡检销钉缺失检测方法 |
CN108596030A (zh) * | 2018-03-20 | 2018-09-28 | 杭州电子科技大学 | 基于Faster R-CNN的声呐目标检测方法 |
CN108846323A (zh) * | 2018-05-28 | 2018-11-20 | 哈尔滨工程大学 | 一种面向水下目标识别的卷积神经网络优化方法 |
CN109100710A (zh) * | 2018-06-26 | 2018-12-28 | 东南大学 | 一种基于卷积神经网络的水下目标识别方法 |
CN109543585A (zh) * | 2018-11-16 | 2019-03-29 | 西北工业大学 | 基于卷积神经网络的水下光学目标检测与识别方法 |
CN110060248A (zh) * | 2019-04-22 | 2019-07-26 | 哈尔滨工程大学 | 基于深度学习的声呐图像水下管道检测方法 |
CN110119672A (zh) * | 2019-03-26 | 2019-08-13 | 湖北大学 | 一种嵌入式疲劳状态检测系统及方法 |
CN110765886A (zh) * | 2019-09-29 | 2020-02-07 | 深圳大学 | 一种基于卷积神经网络的道路目标检测方法及装置 |
WO2020030949A1 (en) * | 2018-08-08 | 2020-02-13 | Abyssal S.A. | System and method of operation for remotely operated vehicles for automatic detection of structure integrity threats |
-
2020
- 2020-02-26 CN CN202010118383.8A patent/CN111445496B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170343481A1 (en) * | 2016-05-27 | 2017-11-30 | Purdue Research Foundation | Methods and systems for crack detection |
CN107844750A (zh) * | 2017-10-19 | 2018-03-27 | 华中科技大学 | 一种水面全景图像目标检测识别方法 |
CN107909082A (zh) * | 2017-10-30 | 2018-04-13 | 东南大学 | 基于深度学习技术的声呐图像目标识别方法 |
CN108171112A (zh) * | 2017-12-01 | 2018-06-15 | 西安电子科技大学 | 基于卷积神经网络的车辆识别与跟踪方法 |
CN108447074A (zh) * | 2018-02-02 | 2018-08-24 | 中国科学院西安光学精密机械研究所 | 基于双向自适应语义融合的水下目标识别方法 |
CN108596030A (zh) * | 2018-03-20 | 2018-09-28 | 杭州电子科技大学 | 基于Faster R-CNN的声呐目标检测方法 |
CN108537170A (zh) * | 2018-04-09 | 2018-09-14 | 电子科技大学 | 一种电力设备固件无人机巡检销钉缺失检测方法 |
CN108846323A (zh) * | 2018-05-28 | 2018-11-20 | 哈尔滨工程大学 | 一种面向水下目标识别的卷积神经网络优化方法 |
CN109100710A (zh) * | 2018-06-26 | 2018-12-28 | 东南大学 | 一种基于卷积神经网络的水下目标识别方法 |
WO2020030949A1 (en) * | 2018-08-08 | 2020-02-13 | Abyssal S.A. | System and method of operation for remotely operated vehicles for automatic detection of structure integrity threats |
CN109543585A (zh) * | 2018-11-16 | 2019-03-29 | 西北工业大学 | 基于卷积神经网络的水下光学目标检测与识别方法 |
CN110119672A (zh) * | 2019-03-26 | 2019-08-13 | 湖北大学 | 一种嵌入式疲劳状态检测系统及方法 |
CN110060248A (zh) * | 2019-04-22 | 2019-07-26 | 哈尔滨工程大学 | 基于深度学习的声呐图像水下管道检测方法 |
CN110765886A (zh) * | 2019-09-29 | 2020-02-07 | 深圳大学 | 一种基于卷积神经网络的道路目标检测方法及装置 |
Non-Patent Citations (11)
Title |
---|
FENGQIANG XU;XUEYAN DING;JINJIA PENG;GUOLIANG YUAN;YAFEI WANG;JUN ZHANG;XIANPING FU: "Real-time Detecting Method of Marine Small Object with Underwater Robot Vision" * |
XUEMEI WU;JING LI;QIANG WU;JIANDE SUN: "Appearance-based gaze block estimation via CNN classification" * |
YUEMEI ZHU ETAL.: "Segmentation of underwater object in videos" * |
周浩: "样本不足条件下水下机器人小目标检测识别研究" * |
宋博扬等: "卷积神经网络在UUV上图像识别的应用" * |
徐梦洋: "基于深度学习的行人再识别研究综述" * |
曾文冠等: "基于卷积神经网络的声呐图像目标检测识别" * |
王冬丽等: "基于深度强化学习的视觉目标跟踪" * |
钮赛赛等: "基于深度卷积神经网络的空中红外目标识别分类技术" * |
闵召阳等: "基于卷积神经网络检测的单镜头多目标跟踪算法" * |
高强,鲁建华: "基于声呐图像的海洋目标矩特征提取方法性能分析" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI779334B (zh) * | 2020-08-21 | 2022-10-01 | 國立臺灣海洋大學 | 移動式水中生物自動標記方法及水中生物影像自動標記系統 |
CN113077048A (zh) * | 2021-04-09 | 2021-07-06 | 上海西井信息科技有限公司 | 基于神经网络的印章匹配方法、系统、设备及存储介质 |
CN116405626A (zh) * | 2023-06-05 | 2023-07-07 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法 |
CN116405626B (zh) * | 2023-06-05 | 2023-09-22 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111445496B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
WO2021048607A1 (en) | Motion deblurring using neural network architectures | |
WO2022134971A1 (zh) | 一种降噪模型的训练方法及相关装置 | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
Salem | A Survey on Various Image Inpainting Techniques. | |
US20220156891A1 (en) | Methods and systems for deblurring blurry images | |
Saleh et al. | Adaptive uncertainty distribution in deep learning for unsupervised underwater image enhancement | |
Rahman et al. | Diverse image enhancer for complex underexposed image | |
Jia et al. | Effective meta-attention dehazing networks for vision-based outdoor industrial systems | |
Song et al. | Multistage curvature-guided network for progressive single image reflection removal | |
CN116012255A (zh) | 一种基于循环一致性生成对抗网络的低光图像增强方法 | |
CN116934591A (zh) | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 | |
Polasek et al. | Vision UFormer: Long-range monocular absolute depth estimation | |
Soma et al. | An efficient and contrast-enhanced video de-hazing based on transmission estimation using HSL color model | |
Viriyavisuthisakul et al. | Parametric regularization loss in super-resolution reconstruction | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN114663937A (zh) | 模型训练及图像处理方法、介质、装置和计算设备 | |
Sanjay et al. | Haze removal using generative Adversarial Network | |
Agarwal et al. | Unmasking the potential: evaluating image inpainting techniques for masked face reconstruction | |
WO2022003537A1 (en) | System and method for image transformation | |
Wang et al. | RT-Deblur: Real-time image deblurring for object detection | |
Sharma et al. | Multilevel progressive recursive dilated networks with correlation filter (MPRDNCF) for image super-resolution | |
Cheng et al. | Single image reflection removal via attention model and SN-GAN | |
Verma et al. | F2UIE: feature transfer-based underwater image enhancement using multi-stackcnn |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |