CN113901247A - 一种光学图像目标检测的方法及计算设备 - Google Patents
一种光学图像目标检测的方法及计算设备 Download PDFInfo
- Publication number
- CN113901247A CN113901247A CN202111174215.1A CN202111174215A CN113901247A CN 113901247 A CN113901247 A CN 113901247A CN 202111174215 A CN202111174215 A CN 202111174215A CN 113901247 A CN113901247 A CN 113901247A
- Authority
- CN
- China
- Prior art keywords
- tensor
- optical image
- index
- target
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 59
- 230000003287 optical effect Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 83
- 230000006870 function Effects 0.000 claims abstract description 51
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims abstract description 8
- 238000003062 neural network model Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical group OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种光学图像目标检测的方法及相应的计算设备,涉及数字图像处理领域。其中,方法包括:基于动态极值匹配的损失函数,训练由卷积神经网络(CNN)、二维长短时记忆(2D‑LSTM)神经网络、以及全连接神经网络(FCN)构成的网络模型;输入光学图像,卷积神经网络提取得到图像特征图;2D‑LSTM将图像特征图编码为二维序列特征;二维序列特征展开后输入到全连接网络中,得到目标检测结果。本发明可端到端地检测光学图像目标,具有良好的可拓展性和实用性。
Description
技术领域
本发明涉及数字图像处理领域,特别是涉及一种光学图像目标检测的方法及计算设备。
背景技术
近年来,随着深度学习在数字图像处理领域里逐步应用,围绕着光学图像的目标检测技术,人们开展了大量的研发工作,相关的检测方法日新月异。基于深度学习的目标检测方法,从Fast R-CNN,发展到Faster R-CNN,然后到Mask R-CNN;从YOLO v1发展到YOLOv2,然后到YOLO v5的YOLO系列;从CornerNet,发展到ExtremeNet,再到CenterNet;另外还包括SSD,RetinaNet等不同类型的目标检测方法被不断提出。
现阶段主流的目标检测方法可以分为anchor-based和anchor-free两大类。anchor-base的方法对图像进行网格划分,然后以划分后的网格为锚点,回归出对应网格预测的目标检测框;anchor-free的方法跳过网格锚点的划分,直接回归出全图对应的目标检测框。
两大类方法在神经网络的输出上保持一致,均生成了大量的候选目标检测框,然后通过非极大值抑制(NMS)方法滤除重叠的目标检测框,获取最终的检测结果。然而,其中的NMS方法为基于CPU的后处理方法,其算法复杂度受目标图像中待检测的目标数量影响,故而在一些密集目标场景的检测时,检测效率会在一定程度下降。
发明内容
有鉴于此,本发明提供了一种光学图像目标检测的方法及计算设备,搭建一种由卷积神经网络(CNN)、二维长短时记忆(2D-LSTM)网络、以及全连接网络(FCN)所构成的神经网络模型,采用基于动态极值匹配的损失函数进行训练,并基于训练好的神经网络模型,对获取到的包含待检测目标的光学图像进行处理,端到端地输出最终的目标检测结果,可以有效的提升光学图像目标检测的性能。
本发明采用的技术方案如下:
根据本发明的一方面,提出了一种光学图像目标检测的方法:
首先,搭建神经网络模型,网络模型由CNN、2D-LSTM、以及FCN依次串接而成,然后采用基于动态极值匹配的损失函数进行模型训练。
公式(2)中,参数损失函数定义如下:
公式(3)中,Nt为真值张量中的目标数量,i为目标数量的索引,为索引i对应的真值张量的分量,pi为真值张量分量在输出张量y中对应的极值索引,为极值索引pi对应的输出张量的分量,lθ为输出张量分量与真值张量分量间的损失函数。
公式(3)中,极值索引pi计算公式为:
公式(4)中,i-1为i对应的上一个索引,pi-1索引i-1对应的上一个极值索引,s.t.为约束条件,约束条件为极值索引pi的数值大于或者等于极值索引pi-1的数值。
公式(4)中,真值张量由人工标注好的真实数据得到,其数据参数形式由标注的目标类别决定。
例如,对于二维矩形框数据,其参数形式可以设定为(u,v,h,w,c,ρ),其中参数分别为二维矩形框的中心点横坐标、中心点纵坐标、高度、宽度、类别以及置信度。此外,考虑二维旋转矩形框时,单个目标的参数形式可以设定为(u,υ,h,w,φ,c,ρ),即在矩形框基础参数上添加旋转角度参数φ。
同理,对于三维矩形框数据,单个矩形框的参数形式可以设定为(u,υ,r,h,w,d,φ,η,c,ρ)。其中,参数分别为三维矩形框的中心点横坐标、中心点纵坐标、中心点深度坐标、高度、宽度、深度、偏航角、俯仰角、类别以及置信度。
采用一般性描述指代上述目标参数,令Nt表示真值目标的数量,目标参数定义为如下:
公式(5)中,m∈[0,Nt-1]为目标参数θ的索引,Nθ为所述参数的维度。
对目标参数θ进行排序,然后构建真值向量。由于目标参数θ为多维向量,此处采用分级维度排序方法进行多维向量间的比较。
构建维度为的张量,对其张量置0初始化,然后依照先后顺序填充真值目标参数。其中,N为输出张量中的目标数量。对于两个不同的目标参数θp与θq,p,q∈[0,Nt-1]为参数维度的索引,则其先后顺序的比较方法如下:
公式(6)中,n∈[0,Nθ-1]为参数维度的索引,←表示θp次序优先,→表示θq次序优先,该比较方法依照参数维度逐级对比。
公式(6)描述了不同目标参数间的分级维度排序方法。以二维矩形框为例,假设A,B两个二维矩形框的参数分别θA=(uA,υA,hA,wA,cA,ρA)与θB=(uB,υB,hB,wB,cB,ρB),则两者间的优先度比较方法依照以下步骤执行:
a)比较uA与uB的大小,假如uA<uB,则输出θA←θB并结束,否则执行下一步骤;
b)比较υA与υB的大小,假如υA<vB,则输出θA←θB并结束,否则执行下一步骤;
c)依次比较hA,wA,cA,ρA与hB,wB,cB,ρB间的大小,假如前者小于后者,则输出θA←θB并结束,否则执行下一步骤;
d)输出θA→θB。
上述给出了参数损失函数的计算方式,对于公式(2)中的置信度损失函数,其定义如下:
在实际操作中,置信度的极小值由目标参数的取值范围决定。当取值范围为[0,1]时,极小值取0;当取值范围为[-1,1]时,极小值取-1。
上述给出了神经网络模型训练过程中,真值张量的构建过程,以及损失函数的详细定义。依照定义的损失函数,对所搭建的神经网络模型进行训练,训练数据来源于人工标注的真值图像数据,然后依据sgd或者adam优化函数进行训练,可得到优化好的神经网络模型。
此处,神经网络模型采用CNN、2D-LSTM、以及FCN串联的网络框架。其中,CNN网络对输入的目标图像提取低中高各级图像特征,2D-LSTM将图像特征编码为二维序列特征,展开二维序列特征后再经过FCN,得到解码后的检测目标的序列特征。以下,针对各层网络结构展开详细说明。
获取包含自然场景文本内容的目标图像,对目标图像执行letterbox尺寸标准化操作。假设目标图像颜色通道为RGB三通道,高度为Ht,宽度为Wt,调整后的输入图像高度为Hi,宽度为Wi。
此步骤中,卷积神经网络CNN对应着整个神经网络模型的主干网络(Backbone),主要功能为提炼出输入图像对应的各层级语义特征,常见的Back-bone包括VGG、ResNet、DenseNet、ShuffeNet、MobileNet、EffcientNet、CSP-Darknet53、Swin-Transformer等。
其中,CSPDarknet53网络在相对参数量较少的情况下,能够表现出较好的性能,在现阶段的算法工程中应用比较广泛。
CNN网络输出图像特征图Mf后,采用2D-LSTM神经网络进行序列特征编码。其中,2D-LSTM神经网络将Mf编码为二维序列特征。此处,二维序列特征为序列化后的在高度维度和宽度维度构成的二维平面上具有序列特性的特征矩阵。
2D-LSTM由2D-LSTM网络单元组成,其网络单元依据二维遍历路径在图像特征图Mf上循序运算,将Mf编码为维度的二维序列特征Ms。其中,Fs,Hs,Ws分别为为序列化后的特征维度、高度维度、宽度维度对应的维度大小。
上述二维遍历路径在Mf在高度维度和宽度维度所构成的二维平面上对Mf进行遍历,遍历路径包括两种方式:一种为沿着宽度维度进行逐行的水平遍历方式,一种为沿着高度维度进行逐列的垂直遍历方式。
遍历路径从图像特征图Mf的坐标点(h=0,w=0)出发,根据水平遍历方式或者垂直遍历方式依次遍历图像特征图Mf,得到坐标点(h=i,w=j)对应的图像特征信号,直至Mf上坐标点(h=Hf-1,w=Wf-1)结束。
其中,Hf为所述图像特征图的高度,Wf为所述图像特征图的宽度,i∈[0,Hf-1]以及j∈[0,Wf-1]。
本发明中的二维LSTM在常规LSTM上拓展,相对于常规LSTM只能处理一维序列数据,二维LSTM可以处理具有空间结构的二维序列数据。其中,二维LSTM网络单元由输入门Gi、输出门Go和遗忘门Gf组成,其网络单元的状态由控制状态Ψ和隐藏状态θ确定。
假设坐标点{(m,n)|m∈[0,Hf-1],n∈[0,Wf-1]}为Mf的高度-宽度坐标平面内的一点,则其四邻域点分别为(m-1,n),(m+1,n),(m,n-1),和(m,n+1),其八邻域点为在四邻域点的基础上加上(m±1,n±1)所指的四个顶点。
取Ωm,n为坐标点(m,n)对应的邻接坐标点的集合,坐标点Pk∈Ωm,n为邻接点集合Ωm,n中的任一坐标点。此时,对于坐标点(m,n),其对应的图像特征信号为Mf|m,n,隐藏状态变量为Ψm,n,控制状态变量为θm,n,邻接坐标点Pk对应的图像特征信号为隐藏状态变量为控制状态变量为
此时,坐标点(m,n)对应输入的图像特征信号为xm,n,计算公式如下:
公式(8)中,输入的图像特征信号xm,n为坐标点(m,n)和所有邻接坐标点Pk所对应的图像特征信号总和。
坐标点(m,n)对应输入的隐藏状态信号为μm,n,计算公式如下:
公式(9)中,输入的隐藏状态信号μm,n为坐标点(m,n)和所有邻接坐标点Pk所对应的隐藏状态信号总和。
坐标点(m,n)对应输入的控制状态信号为ζm,n,计算公式如下:
公式(10)中,输入的控制状态信号ζm,n为坐标点(m,n)和所有邻接坐标点Pk所对应的控制状态信号总和。
坐标点(m,n),所对应的图像特征信号与输入的隐藏状态信号拼接为输入特征信号χm,n:
χm,n=[xm,n,μm,n] (11)
公式(12)中,σ为sigmoid激活函数,ωi为LSTM网络单元中的输入门权重,bi为输入门偏置量。
公式(13)中,ωo为LSTM网络单元中的输出门权重,bo为输出门偏置量。
公式(14)中,ωf为LSTM网络单元中的遗忘门权重,bf为遗忘门偏置量。
其中,N为神经网络模型预测的目标数量,Fo为每个目标的特征向量,与真值目标参数θm维度相等。
FCN得到输出张量后,对其进行置信度滤除,取合适阈值,保留目标参数中置信度大于阈值的目标,得到所述待检测目标参数。
根据本发明的另一方面,提出了一种电子设备,该电子设备包括:
处理器;
以及用于存储计算机可执行指令的存储器;
以及计算机程序,其计算机程序存储在上述存储器中,由一个或多个处理器执行;
该计算机程序被所述处理执行时实现上述的任一方法。
根据本发明的再一方面,提出了一种计算机可读存储介质,该计算机可读存储介质上存储有可实现一种光学图像目标检测的方法的计算机程序,
该计算机程序被所述处理执行时实现上述的一种光学图像目标检测的方法中任一方法。
综上所述,根据本发明的方案,采用分级维度排序的方法构建真值数据集,基于动态极值匹配的损失函数训练目标检测神经网络。其中,目标检测神经网络采用CNN提取图像特征,2D-LSTM对图像特征序列编码,然后采用FCN对编码后的序列特征进行解码。
通过本发明中的目标检测神经网络,可以端到端地计算目标检测的最终结果,降低了对工程实现的要求,有助于提升光学图像目标检测的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一些实施例的光学图像目标检测方法的示意图。
图2示出了根据本发明一些实施例的动态极值匹配方法的示意图。
图3示出了根据本发明一些实施例的2D-LSTM遍历方法的示意图。
图4示出了根据本发明一些实施例的2D-LSTM单元结构的示意图。
图5示出了根据本发明一些实施例的计算设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明的实施例进行详细的描述说明。其描述涉及附图时,相同的附图标记通常表示相同或者相似的元素。
应当理解,本示例性实施例所描述的实施方式不应被本公开所阐述的实施例所限制,提供实施例是为了更透彻的理解本公开,并且能将本公开的范围完整的传达给本领域的技术人员。各种形式的实现方式仅是如所附权利要求书中所详述的,本公开的某些方面相一致的方法、装置或设备的样例。
随着神经网络技术的兴起,基于深度学习的光学图像目标检测方法在精度和效率上有了较大的提升。不同类型的网络结构被人们提出,并应用到各种场景中。
现阶段,主流的光学图像目标检测方法采用深度神经网络处理输入的光学图像,获取光学图像中候选的目标检测框,然后基于极大值抑制(NMS)方法滤除重叠多余的检测框,最终得到检测结果。其中,NMS方法为基于CPU的后处理操作,面向复杂多目标场景时,其处理性能会受到影响。
有鉴于此,本发明实施例提出了一种光学图像目标检测的方法及计算设备,相较于常规的目标检测框架,本发明引入了2D-LSTM提取目标场景的空间信息,并且提出了动态极值匹配的方法,用于解决真值数据与由2D-LSTM序列化后的输出数据之间的匹配问题。基于本发明示例,能够端到端的实现光学图像目标检测,在检测性能上有一定的提升。
以下结合附图,详细说明本发明各实施例提供的技术方案。
搭建由卷积神经网络(CNN)、二维长短时记忆(2D-LSTM)网络、以及全连接网络(FCN)构成的神经网络模型,采用图1所示的动态极值匹配100方法,基于分级维度排序方法构建损失函数进行训练,然后参照图2的流程图200所示,执行本发明实施例的目标检测流程。
公式(2)中,参数损失函数定义如下:
公式(3)中,Nt为真值张量120中的目标数量,i为目标数量的索引,为索引i对应的真值张量的分量,pi为真值张量分量在输出张量y中对应的极值索引,为极值索引pi对应的输出张量的分量,lθ为输出张量分量与真值张量分量间的损失函数。
公式(3)中,极值索引pi计算公式为:
公式(4)中,i-1为i对应的上一个索引,pi-1索引i-1对应的上一个极值索引,s.t.为约束条件,约束条件为极值索引pi的数值大于或者等于极值索引pi-1的数值。
公式(4)中,真值张量120由人工标注好的真实数据得到,其数据参数形式由标注的目标类别决定。
例如,对于二维矩形框数据,其参数形式可以设定为(u,v,h,w,c,ρ),其中参数分别为二维矩形框的中心点横坐标、中心点纵坐标、高度、宽度、类别以及置信度。此外,考虑二维旋转矩形框时,单个目标的参数形式可以设定为(u,υ,h,w,φ,c,ρ),即在矩形框基础参数上添加旋转角度参数φ。
同理,对于三维矩形框数据,单个矩形框的参数形式可以设定为(u,υ,r,h,w,d,φ,η,c,ρ)。其中,参数分别为三维矩形框的中心点横坐标、中心点纵坐标、中心点深度坐标、高度、宽度、深度、偏航角、俯仰角、类别以及置信度。
采用一般性描述指代上述目标参数,令Nt表示真值目标的数量,目标参数定义为如下:
公式(5)中,m∈[0,Nt-1]为目标参数θ的索引,Nθ为所述参数的维度。
对目标参数θ进行排序,然后构建真值向量。由于目标参数θ为多维向量,此处采用分级维度排序方法进行多维向量间的比较。
构建维度为的张量,对其张量置0初始化,然后依照先后顺序填充真值目标参数。其中,N为输出张量110中的目标数量。对于两个不同的目标参数θp与θq,p,q∈[0,Nt-1]为参数维度的索引,则其先后顺序的比较方法如下:
公式(6)中,n∈[0,Nθ-1]为参数维度的索引,←表示θp次序优先,→表示θq次序优先,该比较方法依照参数维度逐级对比。
公式(6)描述了不同目标参数间的分级维度排序方法。以二维矩形框为例,假设A,B两个二维矩形框的参数分别θA=(uA,υA,hA,wA,cA,ρA)与θB=(uB,υB,hB,wB,cB,ρB),则两者间的优先度比较方法依照以下步骤执行:
a)比较uA与uB的大小,假如uA<uB,则输出θA←θB并结束,否则执行下一步骤;
b)比较υA与υB的大小,假如υA<υB,则输出θA←θB并结束,否则执行下一步骤;
c)依次比较hA,wA,cA,ρA与hB,wB,cB,ρB间的大小,假如前者小于后者,则输出θA←θB并结束,否则执行下一步骤;
d)输出θA→θB。
上述给出了参数损失函数的计算方式,对于公式(2)中的置信度损失函数,其定义如下:
在实际操作中,置信度的极小值由目标参数的取值范围决定。当取值范围为[0,1]时,极小值取0;当取值范围为[-1,1]时,极小值取-1。
以下,结合上述公式,以图1为例,具体说明本发明实施例中的动态极值匹配方法。
图1中,输出张量110为[N=10,Nθ=6]的张量,真值张量120为[Nt=3,Nθ=6]的张量。该实施例中,采用二维检测框的参数作为示例,[Nθ=6]对应着(u,υ,h,w,c,ρ)一共6个维度,参数含义分别为二维矩形框的中心点横坐标、中心点纵坐标、高度、宽度、类别以及置信度,[Nt=3]表示该图像中,人工标注了3个真值二维矩形框。
依照前述方法,经过分级维度排序后得到真值张量120后,依次搜索真值120每一个二维矩形框参数,逐行计算该二维矩形框与输出张量110的每一行参数,从而定位出极小值损失函数对应的输出张量110索引。
如1所示,第一个真值二维检测框参数所匹配的输出张量110索引为p0=3;第二个真值二维检测框参数从索引p0=3开始逐行扫描,其匹配的输出张量110索引为p1=5;第三个真值二维检测框参数从索引p1=5开始逐行扫描,其匹配的输出张量110索引为p2=5。
依据上述流程,可依次得到三个真值检测框在输出张量110中所匹配的极值索引,并可依照极值索引计算得到真值张量120与输出张量110间的损失函数。
给出神经网络模型训练过程中,真值张量的构建过程,以及损失函数的详细定义后。依照定义的损失函数,对所搭建的神经网络模型进行训练,训练数据来源于人工标注的真值图像数据,然后依据sgd或者adam优化函数进行训练,可得到优化好的神经网络模型。
此处,神经网络模型采用CNN、2D-LSTM、以及FCN串联的网络框架。其中,CNN网络对输入的目标图像提取低中高各级图像特征,2D-LSTM将图像特征编码为二维序列特征,展开二维序列特征后再经过FCN,得到解码后的检测目标的序列特征。
基于训练好的神经网络模型,对获取到的包含待检测目标的光学图像进行处理,可端到端地输出最终的目标检测结果,具体的操作步骤参考图2所示。
步骤210中,获取包含自然场景文本内容的目标图像,对目标图像执行letterbox尺寸标准化操作。假设目标图像颜色通道为RGB三通道,高度为Ht,宽度为Wt,调整后的输入图像高度为Hi,宽度为Wi。
对于步骤220,卷积神经网络CNN对应着整个神经网络模型的主干网络(Backbone),主要功能为提炼出输入图像对应的各层级语义特征,常见的Back-bone包括VGG、ResNet、DenseNet、ShuffeNet、MobileNet、EffcientNet、CSP-Darknet53、Swin-Transformer等。
其中,CSPDarknet53网络在相对参数量较少的情况下,能够表现出较好的性能,在现阶段的算法工程中应用比较广泛。
对于步骤230,CNN网络输出图像特征图Mf后,采用2D-LSTM神经网络进行序列特征编码。其中,2D-LSTM神经网络将Mf编码为二维序列特征。此处,二维序列特征为序列化后的在高度维度和宽度维度构成的二维平面上具有序列特性的特征矩阵。
2D-LSTM由2D-LSTM网络单元组成,其网络单元依据二维遍历路径在图像特征图Mf上循序运算,将Mf编码为维度的二维序列特征Ms。其中,Fs,Hs,Ws分别为为序列化后的特征维度、高度维度、宽度维度对应的维度大小。
上述二维遍历路径在Mf在高度维度和宽度维度所构成的二维平面上对Mf进行遍历,遍历路径包括深度优先遍历、宽度优先遍历、水平线遍历、以及高度线遍历多种样式,本实施例在图3中示范两种遍历路径300:一种为沿着宽度维度进行逐行的水平遍历310方式;一种为沿着高度维度进行逐列的垂直遍历320方式。
遍历路径从图像特征图Mf的坐标点(h=0,w=0)出发,根据水平遍历方式或者垂直遍历方式依次遍历图像特征图Mf,得到坐标点(h=i,w=j)对应的图像特征信号,直至Mf上坐标点(h=Hf-1,w=Wf-1)结束。
其中,Hf为所述图像特征图的高度,Wf为所述图像特征图的宽度,i∈[0,Hf-1]以及j∈[0,Wf-1]。
具体到图3中所示,水平遍历310从坐标点(0,0)出发,逐行遍历,遍历到行尾时,跳转到第二行行首继续遍历,直至坐标点(3,4)。
垂直遍历320从坐标点(0,0)出发,逐列遍历,遍历到行尾时,跳转到第二列列首继续遍历,直至坐标点(3,4)。
本发明中的二维LSTM在常规LSTM上拓展,相对于常规LSTM只能处理一维序列数据,二维LSTM可以处理具有空间结构的二维序列数据。其中,二维LSTM网络单元二维LSTM单元400由输入门Gi、输出门Go和遗忘门Gf组成,其网络单元的状态由控制状态Ψ和隐藏状态θ确定,具体的单元结构如图4所示。
假设坐标点{(m,n)|m∈[0,Hf-1],n∈[0,Wf-1]}为Mf的高度-宽度坐标平面内的一点,则其四邻域点分别为(m-1,n),(m+1,n),(m,n-1),和(m,n+1),其八邻域点为在四邻域点的基础上加上(m±1,n±1)所指的四个顶点。
取Ωm,n为坐标点(m,n)对应的邻接坐标点的集合,坐标点Pk∈Ωm,n为邻接点集合Ωm,n中的任一坐标点。
此时,坐标点(m,n)对应输入的图像特征信号为xm,n,计算公式如下:
公式(8)中,输入的图像特征信号xm,n为坐标点(m,n)和所有邻接坐标点Pk所对应的图像特征信号总和。
坐标点(m,n)对应输入的隐藏状态信号为μm,n,计算公式如下:
公式(9)中,输入的隐藏状态信号μm,n为坐标点(m,n)和所有邻接坐标点Pk所对应的隐藏状态信号总和。
坐标点(m,n)对应输入的控制状态信号为ζm,n,计算公式如下:
公式(10)中,输入的控制状态信号ζm,n为坐标点(m,n)和所有邻接坐标点Pk所对应的控制状态信号总和。
坐标点(m,n),所对应的图像特征信号与输入的隐藏状态信号拼接为输入特征信号χm,n:
χm,n=[xm,n,μm,n] (11)
公式(12)中,σ为sigmoid激活函数,ωi为LSTM网络单元中的输入门权重,bi为输入门偏置量。
公式(13)中,ωo为LSTM网络单元中的输出门权重,bo为输出门偏置量。
公式(14)中,ωf为LSTM网络单元中的遗忘门权重,bf为遗忘门偏置量。
其中,N为神经网络模型预测的目标数量,Fo为每个目标的特征向量,与真值目标参数θm维度相等。
步骤240中,FCN处理得到输出张量后,继而执行步骤250对其进行置信度滤除,取合适阈值,保留目标参数中置信度大于阈值的目标,得到所述待检测目标参数。
图5是一种可以任选地用来执行本发明技术描述的一个或者多个方面的示例计算设备。计算设备500包括以下一个或者多个子系统:输入设备子系统510,输出设备子系统520,外存储器子系统530,处理器子系统550,主存储器子系统560,应用软件子系统570,通信设备子系统580,以及各子系统之间数据交换的总线子系统,包括I/O总线541,系统总线542和内存总线543。其中,计算设备500的应用软件570中包含执行根据本发明的上述方法的多条程序指令。
输入设备子系统510包括但不限于鼠标512、键盘511、触摸笔、触摸屏或触摸板、扫描器、用于获取图像视频的前置或者后置摄像头514、用于音频输入的麦克风513、各类信号传感器、和其他类型的输入设备。传感器包括并不限于光传感器(CMOS或CCD图像传感器)、加速度传感器、磁传感器、压力传感器或温度传感器。一般地,输入设备子系统由所有可能类型的设备部分或者自由组合所构成,该子系统旨在将外界信息经编码转换后输入到计算设备500中。
输出设备子系统520包括但不限于打印机、传真机、扫描机、用于显示视频图像的显示器521、用于音频输出的扬声器522、和其他类型的输出设备。显示器可包括阴极射线管(CRT)、液晶显示器(LCD)的平板设备、投影设备、或用于产生视频图像的其他设备。一般地,输出设备子系统由所有可能类型的设备部分或者自由组合所构成,该子系统旨在将计算设备500内的信息经转换后输出到用户或者外界环境中。
外存储器子系统530包括但不限于硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒、和其他磁盘532和磁盘控制器531等存储设备。一般地,外存储器子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在将计算设备500内的产生的信息存储到相关设备中,为程序和数据文件提供持久存储。
处理器子系统550包括但不限于处理器核551、高速缓存552、总线接口553、寄存器、和其他处理设备。处理器550可以被中央处理器(CPU)、图形处理器(GPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、微处理器(MPU)、控制器、微控制器或其他电子元件的部分或者自由组合实现。
处理器核551包括但不限于运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)、CUDA核或者它们的自由组合。高速缓存包括直接映射高速缓存、组相联高速缓存和全相联高速缓存,实现处理器核551与系统总线542之间的数据交换。总线接口553与系统总线542相连接。一般地,处理器子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在为计算设备500提供串行或者并行的信息处理能力。
主存储器子系统560包括但不限于在程序执行期间存储指令和数据的主随机存取存储器(SRAM,RAM)和存储有固定指令的只读存储器(ROM、EEP-ROM、PROM、闪存等)。主随机存储器和只读存储器均与内存总线543相连接。一般地,主存储器子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在将计算设备500内的产生的过程信息临时存储到相关设备中。
应用软件子系统570包括但不限于程序数据571、计算机程序572、操作系统573。这些软件模块一般地由处理器550进行执行。在一些实施方式中,应用软件570可以布置为在操作系统上由一个或多个处理器550利用计算机程序570执行指令。一般地,应用软件子系统由所有可能类型的计算机程序的部分或者自由组合所构成,该子系统旨在对处理器550子系统生成的信息进行逻辑加工处理,提供本文中所描述模块中的一些或全部的功能性的数据构造、加工和编程。
通信设备580子系统包括但不限于网络接口581。网络接口581提供与外部网络或者其他计算设备通信的接口及设备。通信设备580子系统可以接入基于通信标准的无线网络,如WiFi、4G、5G、6G,或它们的组合。网络通信通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频、微波、红外、激光或者其它无线介质在内的各种无线介质。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。一般地,通信设备子系统由所有可能类型的设备或者自由组合所构成,该子系统旨在将计算设备500内的信息通过通信网络输出到外部网络或者其他计算设备中。
总线子系统包括但不限于I/O总线541,系统总线542和内存总线543。各类总线通过I/O桥540进行桥接,基于540系统总线542连接总线接口553,内存总线543连接主存储器560,I/O总线541连接输入设备510、输出设备520、外存储器530、以及通信设备580。一般地,总线子系统由所有可能类型的总线设备或者自由组合所构成,该子系统旨在提供计算设备500内各个组件和子系统之间的内部信息通信,总线子系统的实施方式可选择使用多条总线。
计算设备500可具有各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群,或任何其它数据处理系统或计算设备。计算设备500也可以实现为小尺寸便携或者移动等微型电子设备的一部分,诸如蜂窝电话、数码照相机、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。由于计算机和网络的不断变化的性质,图5中描绘的计算设备500的描述仅旨在作为用于图示一些实施方式的目的的具体示例。计算设备500的许多其它配置可能具有比图5中描绘的计算设备更多或更少的组件。
在根据本发明的实施例中,计算设备500被配置为执行根据本发明的一种光学图像目标检测的方法。其中,计算设备500包含执行根据本发明的上述方法的多条程序指令。
本领域技术人员可以理解,为了详细描述本公开的技术特征,本公开提供了大量具体的实施细节,依据部分细节即可对一些实施例进行实践。同时,为了突出本公开的关键技术特征,一些实施例中,并未详尽地示出公知的实施细节。
本公开并不局限于已经描述并在附图中示出的具体特征,应该理解到,本领域技术人员可以依据本公开中所描述优点中的一个或者多个的技术特征,在不脱离其范围进行各种修改和改变,这样的变化或修改的每一个均被视为在本公开描述的实施方式的范围内。
本公开所述的一些实施例可以包括其它实施例中所包括的某些特征,不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。应当理解,本公开的实施方式涉及本文中描述的每个单独的设备、系统和方法,如果所描述的设备、系统和方法不相互矛盾,则两个或多个设备、系统和方法的任何组合都被包括在本公开的范围内。
应当理解的,本公开的示例中的设备模块、单元或组件可以布置在如实施例中所描述的设备中,或者可替换地布置在与示例设备不同的一个或多个设备中。示例中的模块可以组合为一个模块或者拆分为多个子模块。
应当理解的,本公开的示例中的系统可以由计算机系统的处理器或者相同功能的其他装置,以及实施方法或方法元素的组合构成。示例中的装置或方法元素可以自由组合,或者拆解装置为多个子模块,以及转化方法元素为近似元素。
应当理解的,本公开所描述的所有参数、结构和配置均为示例性的,并且实际的参数、结构和配置将取决于一个或多个具体的应用。
在本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,不能理解为对本发明的限制。
本领域技术人员可以理解,在本公开描述的本发明范围内,,可以设想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (14)
1.一种光学图像目标检测的方法,其特征在于,包括:
基于动态极值匹配的损失函数,训练由卷积神经网络(CNN)、二维长短时记忆(2D-LSTM)神经网络、以及全连接神经网络(FCN)构成神经网络模型;
获取包含待检测目标的光学图像,将所述光学图像输入到所述神经网络模型中,计算并输出得到所述光学图像中的所述待检测目标。
7.根据权利要求1所述的一种光学图像目标检测的方法,其特征在于:
所述的卷积神经网络(CNN)对尺寸标准化操作后的所述目标图像进行逐层卷积运算处理得到所述图像特征图,所述尺寸标准化操作为调整所述目标图像的尺寸大小,使得所述尺寸大小与所述卷积神经网络的输入尺寸一致,所述图像特征图为具有通道维度、高度维度和宽度维度的特征矩阵。
8.根据权利要求1或7所述的一种光学图像目标检测的方法,其特征在于:所述2D-LSTM神经网络由2D-LSTM网络单元构成,所述2D-LSTM网络单元依据二维遍历路径在所述图像特征图上循序运算,将所述图像特征图编码为二维序列特征;
所述二维序列特征为序列化后的在所述高度维度和所述宽度维度构成的二维平面上具有序列特性的特征矩阵。
9.根据权利要求8所述的一种光学图像目标检测的方法,其特征在于:所述二维遍历路径为沿着高度维度和宽度维度两个维度方向,在所述二维平面上对所述图像特征图进行处理的遍历路径;
所述遍历路径包括两种方式,一种为沿着所述宽度维度进行逐行的水平遍历方式,一种为沿着所述高度维度进行逐列的垂直遍历方式;
所述遍历路径从所述图像特征图的坐标点(h=0,w=0)出发,根据所述水平遍历方式或所述垂直遍历方式依次遍历所述图像特征图,得到所述坐标点对应的图像特征信号,直至所述图像特征图的坐标点(h=Hf-1,w=Wf-1)结束,其中,Hf为所述图像特征图的高度,Wf为所述图像特征图的宽度。
10.根据权利要求8所述的一种光学图像目标检测的方法,其特征在于:所述2D-LSTM网络单元由输入门、输出门和遗忘门组成,所述2D-LSTM网络单元的状态由控制状态和隐藏状态确定;
当前坐标节点下,所述图像特征信号与邻接节点下所述2D-LSTM网络单元的所述隐藏状态拼接为输入特征信号,所述输入特征信号经由所述输入门,所述输出门和所述遗忘门处理得到输入门信号、输出门信号和遗忘门信号;
所述当前坐标节点下,所述输入特征信号激活后得到所述控制状态信号的增量;
邻接坐标节点输入的所述控制状态信号与所述当前坐标节点的所述遗忘门信号相乘,并累加所述当前坐标节点的所述控制状态信号的增量与所述输入门信号的乘积,得到所述当前坐标节点的更新后的所述控制状态信号;
所述当前坐标节点下,所述更新后的控制状态信号耦合所述输出门信号得到更新后的所述隐藏状态信号并输出。
11.根据权利要求10所述的一种光学图像目标检测的方法,其特征在于:所述当前坐标节点下的所述输入特征信号及输入的所述控制状态信号均累加所有所述邻接坐标节点对应的信号;
其中,所述当前坐标节点下,输入的所述图像特征信号为所述当前坐标节点和所有所述邻接坐标节点下对应的图像特征信号总和;
当前坐标节点下,输入的所述隐藏状态信号为所述当前坐标节点和所有所述邻接坐标节点下对应的所述隐藏状态信号总和;
当前坐标节点下,输入的所述控制状态信号为所述当前坐标节点和所有所述邻接坐标节点下对应的所述控制状态信号总和。
12.根据权利要求1或2所述的一种光学图像目标检测的方法,其特征在于:
所述全连接网络(FCN)的输出为所述的输出张量,所述输出张量对应的所述参数包括所述待检测目标的置信度,取合适阈值,保留所述置信度大于所述阈值的所述参数,得到所述待检测目标。
13.一种电子设备,包括:
处理器;
以及用于存储计算机可执行指令的存储器;
计算机程序,所述计算机程序存储在所述存储器中,由所述一个或多个处理器执行;
所述计算机程序被所述处理执行时实现如权利要求1-12中任一项所述的一种光学图像目标检测的方法中任一方法。
14.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有可实现一种光学图像目标检测的方法的计算机程序,
所述计算机程序被所述处理执行时实现如权利要求1-12中任一项所述的一种光学图像目标检测的方法中任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111174215.1A CN113901247A (zh) | 2021-10-09 | 2021-10-09 | 一种光学图像目标检测的方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111174215.1A CN113901247A (zh) | 2021-10-09 | 2021-10-09 | 一种光学图像目标检测的方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901247A true CN113901247A (zh) | 2022-01-07 |
Family
ID=79190596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111174215.1A Pending CN113901247A (zh) | 2021-10-09 | 2021-10-09 | 一种光学图像目标检测的方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901247A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023191757A1 (en) * | 2022-03-30 | 2023-10-05 | Havelsan Hava Elektronik San. Ve Tic. A.S. | Detection of objects in digital images using a hybridized resnet and dense block architecture |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN110992238A (zh) * | 2019-12-06 | 2020-04-10 | 上海电力大学 | 一种基于双通道网络的数字图像篡改盲检测方法 |
CN111062448A (zh) * | 2019-12-24 | 2020-04-24 | 北京知道创宇信息技术股份有限公司 | 设备类型的识别模型训练方法、设备类型识别方法和装置 |
CN112861722A (zh) * | 2021-02-09 | 2021-05-28 | 中国科学院地理科学与资源研究所 | 一种半监督深度图卷积的遥感土地利用语义分割方法 |
-
2021
- 2021-10-09 CN CN202111174215.1A patent/CN113901247A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
US20200057805A1 (en) * | 2016-11-18 | 2020-02-20 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN110992238A (zh) * | 2019-12-06 | 2020-04-10 | 上海电力大学 | 一种基于双通道网络的数字图像篡改盲检测方法 |
CN111062448A (zh) * | 2019-12-24 | 2020-04-24 | 北京知道创宇信息技术股份有限公司 | 设备类型的识别模型训练方法、设备类型识别方法和装置 |
CN112861722A (zh) * | 2021-02-09 | 2021-05-28 | 中国科学院地理科学与资源研究所 | 一种半监督深度图卷积的遥感土地利用语义分割方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023191757A1 (en) * | 2022-03-30 | 2023-10-05 | Havelsan Hava Elektronik San. Ve Tic. A.S. | Detection of objects in digital images using a hybridized resnet and dense block architecture |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402143B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN110717851B (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
Zhang et al. | Image compressive sensing recovery via collaborative sparsity | |
CN110136056B (zh) | 图像超分辨率重建的方法和装置 | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
US20220230338A1 (en) | Depth image generation method, apparatus, and storage medium and electronic device | |
CN110838122B (zh) | 点云的分割方法、装置及计算机存储介质 | |
CN111192226B (zh) | 一种图像融合去噪方法及装置、系统 | |
CN107688783B (zh) | 3d图像检测方法、装置、电子设备及计算机可读介质 | |
CN113256529B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN108875903B (zh) | 图像检测的方法、装置、系统及计算机存储介质 | |
US20160232420A1 (en) | Method and apparatus for processing signal data | |
CN112488923A (zh) | 图像超分辨率重建方法、装置、存储介质及电子设备 | |
CN111862124A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN117597703A (zh) | 用于图像分析的多尺度变换器 | |
CN112907569A (zh) | 头部图像区域的分割方法、装置、电子设备和存储介质 | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
CN113901247A (zh) | 一种光学图像目标检测的方法及计算设备 | |
CN108986210B (zh) | 三维场景重建的方法和设备 | |
CN115115724A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113158970B (zh) | 一种基于快慢双流图卷积神经网络的动作识别方法与系统 | |
Xie et al. | GAGCN: Generative adversarial graph convolutional network for non‐homogeneous texture extension synthesis | |
CN114118367B (zh) | 增量式神经辐射场构建的方法及设备 | |
CN116597263A (zh) | 图像合成模型的训练方法及相关装置 | |
CN116363641A (zh) | 一种图像处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |