CN113901247A

CN113901247A - 一种光学图像目标检测的方法及计算设备

Info

Publication number: CN113901247A
Application number: CN202111174215.1A
Authority: CN
Inventors: 王骥; 熊文昌
Original assignee: Shanghai Maiyan Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Maiyan Artificial Intelligence Technology Co ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-07

Abstract

本发明公开了一种光学图像目标检测的方法及相应的计算设备，涉及数字图像处理领域。其中，方法包括：基于动态极值匹配的损失函数，训练由卷积神经网络(CNN)、二维长短时记忆(2D‑LSTM)神经网络、以及全连接神经网络(FCN)构成的网络模型；输入光学图像，卷积神经网络提取得到图像特征图；2D‑LSTM将图像特征图编码为二维序列特征；二维序列特征展开后输入到全连接网络中，得到目标检测结果。本发明可端到端地检测光学图像目标，具有良好的可拓展性和实用性。

Description

一种光学图像目标检测的方法及计算设备

技术领域

本发明涉及数字图像处理领域，特别是涉及一种光学图像目标检测的方法及计算设备。

背景技术

近年来，随着深度学习在数字图像处理领域里逐步应用，围绕着光学图像的目标检测技术，人们开展了大量的研发工作，相关的检测方法日新月异。基于深度学习的目标检测方法，从Fast R-CNN，发展到Faster R-CNN，然后到Mask R-CNN；从YOLO v1发展到YOLOv2，然后到YOLO v5的YOLO系列；从CornerNet，发展到ExtremeNet，再到CenterNet；另外还包括SSD，RetinaNet等不同类型的目标检测方法被不断提出。

现阶段主流的目标检测方法可以分为anchor-based和anchor-free两大类。anchor-base的方法对图像进行网格划分，然后以划分后的网格为锚点，回归出对应网格预测的目标检测框；anchor-free的方法跳过网格锚点的划分，直接回归出全图对应的目标检测框。

两大类方法在神经网络的输出上保持一致，均生成了大量的候选目标检测框，然后通过非极大值抑制(NMS)方法滤除重叠的目标检测框，获取最终的检测结果。然而，其中的NMS方法为基于CPU的后处理方法，其算法复杂度受目标图像中待检测的目标数量影响，故而在一些密集目标场景的检测时，检测效率会在一定程度下降。

发明内容

有鉴于此，本发明提供了一种光学图像目标检测的方法及计算设备，搭建一种由卷积神经网络(CNN)、二维长短时记忆(2D-LSTM)网络、以及全连接网络(FCN)所构成的神经网络模型，采用基于动态极值匹配的损失函数进行训练，并基于训练好的神经网络模型，对获取到的包含待检测目标的光学图像进行处理，端到端地输出最终的目标检测结果，可以有效的提升光学图像目标检测的性能。

本发明采用的技术方案如下：

根据本发明的一方面，提出了一种光学图像目标检测的方法：

首先，搭建神经网络模型，网络模型由CNN、2D-LSTM、以及FCN依次串接而成，然后采用基于动态极值匹配的损失函数进行模型训练。

假设x为神经网络模型的输入张量，y为神经网络模型的输出张量，网络模型的计算函数为

存在如下关系：

令

为公式(1)中输出张量y对应的真值张量，此时，基于动态极值匹配的损失函数定义如下：

其中，输出张量y中包含着待检测目标的参数，L为输出张量y和真值张量

间的损失函数，L_θ为输出张量y和真值张量

间的参数损失函数，L_c为输出张量y和真值张量

间的置信度损失函数，γ为置信度损失函数的系数。

公式(2)中，参数损失函数定义如下：

公式(3)中，N_t为真值张量中的目标数量，i为目标数量的索引，

为索引i对应的真值张量的分量，p_i为真值张量分量

在输出张量y中对应的极值索引，

为极值索引p_i对应的输出张量的分量，l_θ为输出张量分量与真值张量分量间的损失函数。

公式(3)中，极值索引p_i计算公式为：

公式(4)中，j为目标数量的索引，y_j为索引j对应的输出张量的分量，argmin为极小值运算符，当输出张量分量y_j与张量分量

间的损失函数最小时，获取y_j对应的所述索引j并赋值于极值索引p_i。

公式(4)中，i-1为i对应的上一个索引，p_i-1索引i-1对应的上一个极值索引，s.t.为约束条件，约束条件为极值索引p_i的数值大于或者等于极值索引p_i-1的数值。

公式(4)中，真值张量由人工标注好的真实数据得到，其数据参数形式由标注的目标类别决定。

例如，对于二维矩形框数据，其参数形式可以设定为(u,v,h,w,c,ρ)，其中参数分别为二维矩形框的中心点横坐标、中心点纵坐标、高度、宽度、类别以及置信度。此外，考虑二维旋转矩形框时，单个目标的参数形式可以设定为(u,υ,h,w,φ,c,ρ)，即在矩形框基础参数上添加旋转角度参数φ。

同理，对于三维矩形框数据，单个矩形框的参数形式可以设定为(u,υ,r,h,w,d,φ,η,c,ρ)。其中，参数分别为三维矩形框的中心点横坐标、中心点纵坐标、中心点深度坐标、高度、宽度、深度、偏航角、俯仰角、类别以及置信度。

采用一般性描述指代上述目标参数，令N_t表示真值目标的数量，目标参数定义为如下：

公式(5)中，m∈[0,N_t-1]为目标参数θ的索引，N_θ为所述参数的维度。

对目标参数θ进行排序，然后构建真值向量。由于目标参数θ为多维向量，此处采用分级维度排序方法进行多维向量间的比较。

构建维度为

的张量，对其张量置0初始化，然后依照先后顺序填充真值目标参数。其中，N为输出张量中的目标数量。对于两个不同的目标参数θ_p与θ_q，p,q∈[0,N_t-1]为参数维度的索引，则其先后顺序的比较方法如下：

公式(6)中，n∈[0,N_θ-1]为参数维度的索引，←表示θ_p次序优先，→表示θ_q次序优先，该比较方法依照参数维度逐级对比。

公式(6)描述了不同目标参数间的分级维度排序方法。以二维矩形框为例，假设A，B两个二维矩形框的参数分别θ_A＝(u_A,υ_A,h_A,w_A,c_A,ρ_A)与θ_B＝(u_B,υ_B,h_B,w_B,c_B,ρ_B)，则两者间的优先度比较方法依照以下步骤执行：

a)比较u_A与u_B的大小，假如u_A<u_B，则输出θ_A←θ_B并结束，否则执行下一步骤；

b)比较υ_A与υ_B的大小，假如υ_A<v_B，则输出θ_A←θ_B并结束，否则执行下一步骤；

c)依次比较h_A,w_A,c_A,ρ_A与h_B,w_B,c_B,ρ_B间的大小，假如前者小于后者，则输出θ_A←θ_B并结束，否则执行下一步骤；

d)输出θ_A→θ_B。

上述给出了参数损失函数的计算方式，对于公式(2)中的置信度损失函数，其定义如下：

其中，k为输出张量中的目标数量的索引，

为极值索引p_i构成的索引集合，

为输出张量中所述k对应的置信度，ε为置信度的极小值。

在实际操作中，置信度的极小值由目标参数的取值范围决定。当取值范围为[0,1]时，极小值取0；当取值范围为[-1,1]时，极小值取-1。

上述给出了神经网络模型训练过程中，真值张量的构建过程，以及损失函数的详细定义。依照定义的损失函数，对所搭建的神经网络模型进行训练，训练数据来源于人工标注的真值图像数据，然后依据sgd或者adam优化函数进行训练，可得到优化好的神经网络模型。

此处，神经网络模型采用CNN、2D-LSTM、以及FCN串联的网络框架。其中，CNN网络对输入的目标图像提取低中高各级图像特征，2D-LSTM将图像特征编码为二维序列特征，展开二维序列特征后再经过FCN，得到解码后的检测目标的序列特征。以下，针对各层网络结构展开详细说明。

获取包含自然场景文本内容的目标图像，对目标图像执行letterbox尺寸标准化操作。假设目标图像颜色通道为RGB三通道，高度为H_t，宽度为W_t，调整后的输入图像高度为H_i，宽度为W_i。

letterbox尺寸标准化操作对目标图像进行最大可能性的缩放，将目标图像尺寸

调整为尺寸

的输入图像

将输入图像转化为维度

的输入张量T_I后，通过CNN网络运算后，并交换通道维度和特征维度的顺序，得到张量维度

的图像特征图M_f。

此步骤中，卷积神经网络CNN对应着整个神经网络模型的主干网络(Backbone)，主要功能为提炼出输入图像对应的各层级语义特征，常见的Back-bone包括VGG、ResNet、DenseNet、ShuffeNet、MobileNet、EffcientNet、CSP-Darknet53、Swin-Transformer等。

其中，CSPDarknet53网络在相对参数量较少的情况下，能够表现出较好的性能，在现阶段的算法工程中应用比较广泛。

CNN网络输出图像特征图M_f后，采用2D-LSTM神经网络进行序列特征编码。其中，2D-LSTM神经网络将M_f编码为二维序列特征。此处，二维序列特征为序列化后的在高度维度和宽度维度构成的二维平面上具有序列特性的特征矩阵。

2D-LSTM由2D-LSTM网络单元组成，其网络单元依据二维遍历路径在图像特征图M_f上循序运算，将M_f编码为维度

的二维序列特征M_s。其中，F_s,H_s,W_s分别为为序列化后的特征维度、高度维度、宽度维度对应的维度大小。

上述二维遍历路径在M_f在高度维度和宽度维度所构成的二维平面上对M_f进行遍历，遍历路径包括两种方式：一种为沿着宽度维度进行逐行的水平遍历方式，一种为沿着高度维度进行逐列的垂直遍历方式。

遍历路径从图像特征图M_f的坐标点(h＝0,w＝0)出发，根据水平遍历方式或者垂直遍历方式依次遍历图像特征图M_f，得到坐标点(h＝i,w＝j)对应的图像特征信号，直至M_f上坐标点(h＝H_f-1,w＝W_f-1)结束。

其中，H_f为所述图像特征图的高度，W_f为所述图像特征图的宽度，i∈[0,H_f-1]以及j∈[0,W_f-1]。

本发明中的二维LSTM在常规LSTM上拓展，相对于常规LSTM只能处理一维序列数据，二维LSTM可以处理具有空间结构的二维序列数据。其中，二维LSTM网络单元由输入门G_i、输出门G_o和遗忘门G_f组成，其网络单元的状态由控制状态Ψ和隐藏状态θ确定。

假设坐标点{(m,n)|m∈[0,H_f-1],n∈[0,W_f-1]}为M_f的高度-宽度坐标平面内的一点，则其四邻域点分别为(m-1,n)，(m+1,n)，(m,n-1)，和(m,n+1)，其八邻域点为在四邻域点的基础上加上(m±1,n±1)所指的四个顶点。

取Ω_m,n为坐标点(m,n)对应的邻接坐标点的集合，坐标点P_k∈Ω_m,n为邻接点集合Ω_m,n中的任一坐标点。此时，对于坐标点(m,n)，其对应的图像特征信号为M_f|_m,n，隐藏状态变量为Ψ_m,n，控制状态变量为θ_m,n，邻接坐标点P_k对应的图像特征信号为

隐藏状态变量为

控制状态变量为

此时，坐标点(m,n)对应输入的图像特征信号为x_m,n，计算公式如下：

公式(8)中，输入的图像特征信号x_m,n为坐标点(m,n)和所有邻接坐标点P_k所对应的图像特征信号总和。

坐标点(m,n)对应输入的隐藏状态信号为μ_m,n，计算公式如下：

公式(9)中，输入的隐藏状态信号μ_m,n为坐标点(m,n)和所有邻接坐标点P_k所对应的隐藏状态信号总和。

坐标点(m,n)对应输入的控制状态信号为ζ_m,n，计算公式如下：

公式(10)中，输入的控制状态信号ζ_m,n为坐标点(m,n)和所有邻接坐标点P_k所对应的控制状态信号总和。

坐标点(m,n)，所对应的图像特征信号与输入的隐藏状态信号拼接为输入特征信号χ_m,n：

χ_m,n＝[x_m,n,μ_m,n] (11)

输入特征信号χ_m,n通过输入门G_i得到输入门信号

计算公式如下：

公式(12)中，σ为sigmoid激活函数，ω_i为LSTM网络单元中的输入门权重，b_i为输入门偏置量。

输入特征信号χ_m,n通过输出门G_o得到输出门信号

计算公式如下：

公式(13)中，ω_o为LSTM网络单元中的输出门权重，b_o为输出门偏置量。

输入特征信号χ_m,n通过遗忘门G_f得到遗忘门信号

计算公式如下：

公式(14)中，ω_f为LSTM网络单元中的遗忘门权重，b_f为遗忘门偏置量。

输入特征信号χ_m,n采用tanh激活函数激活后得到坐标点(m,n)对应LSTM网络单元内控制状态信号的增量

输入的控制状态信号ζ_m,n与遗忘门信号

相乘，并累加控制状态信号的增量

与输入门信号

的乘积，得到坐标点对应LSTM网络单元内更新后的控制状态信号

更新后的控制状态信号

采用激活函数激活后，与输出门信号

相乘得到更新后的隐藏状态信号：

依照二维LSTM处理图像特征图M_f得到维度为

的二维序列特征M_s后，对M_s进行一维展开为维度

过程序列矩阵

然后通过全连接网络(FCN)解码后得到维度为

输出张量M_o。

其中，N为神经网络模型预测的目标数量，F_o为每个目标的特征向量，与真值目标参数θ_m维度相等。

FCN得到输出张量后，对其进行置信度滤除，取合适阈值，保留目标参数中置信度大于阈值的目标，得到所述待检测目标参数。

根据本发明的另一方面，提出了一种电子设备，该电子设备包括：

处理器；

以及用于存储计算机可执行指令的存储器；

以及计算机程序，其计算机程序存储在上述存储器中，由一个或多个处理器执行；

该计算机程序被所述处理执行时实现上述的任一方法。

根据本发明的再一方面，提出了一种计算机可读存储介质，该计算机可读存储介质上存储有可实现一种光学图像目标检测的方法的计算机程序，

该计算机程序被所述处理执行时实现上述的一种光学图像目标检测的方法中任一方法。

综上所述，根据本发明的方案，采用分级维度排序的方法构建真值数据集，基于动态极值匹配的损失函数训练目标检测神经网络。其中，目标检测神经网络采用CNN提取图像特征，2D-LSTM对图像特征序列编码，然后采用FCN对编码后的序列特征进行解码。

通过本发明中的目标检测神经网络，可以端到端地计算目标检测的最终结果，降低了对工程实现的要求，有助于提升光学图像目标检测的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一些实施例的光学图像目标检测方法的示意图。

图2示出了根据本发明一些实施例的动态极值匹配方法的示意图。

图3示出了根据本发明一些实施例的2D-LSTM遍历方法的示意图。

图4示出了根据本发明一些实施例的2D-LSTM单元结构的示意图。

图5示出了根据本发明一些实施例的计算设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明的实施例进行详细的描述说明。其描述涉及附图时，相同的附图标记通常表示相同或者相似的元素。

应当理解，本示例性实施例所描述的实施方式不应被本公开所阐述的实施例所限制，提供实施例是为了更透彻的理解本公开，并且能将本公开的范围完整的传达给本领域的技术人员。各种形式的实现方式仅是如所附权利要求书中所详述的，本公开的某些方面相一致的方法、装置或设备的样例。

随着神经网络技术的兴起，基于深度学习的光学图像目标检测方法在精度和效率上有了较大的提升。不同类型的网络结构被人们提出，并应用到各种场景中。

现阶段，主流的光学图像目标检测方法采用深度神经网络处理输入的光学图像，获取光学图像中候选的目标检测框，然后基于极大值抑制(NMS)方法滤除重叠多余的检测框，最终得到检测结果。其中，NMS方法为基于CPU的后处理操作，面向复杂多目标场景时，其处理性能会受到影响。

有鉴于此，本发明实施例提出了一种光学图像目标检测的方法及计算设备，相较于常规的目标检测框架，本发明引入了2D-LSTM提取目标场景的空间信息，并且提出了动态极值匹配的方法，用于解决真值数据与由2D-LSTM序列化后的输出数据之间的匹配问题。基于本发明示例，能够端到端的实现光学图像目标检测，在检测性能上有一定的提升。

以下结合附图，详细说明本发明各实施例提供的技术方案。

搭建由卷积神经网络(CNN)、二维长短时记忆(2D-LSTM)网络、以及全连接网络(FCN)构成的神经网络模型，采用图1所示的动态极值匹配100方法，基于分级维度排序方法构建损失函数进行训练，然后参照图2的流程图200所示，执行本发明实施例的目标检测流程。

假设x为神经网络模型的输入张量，y为神经网络模型的输出张量110，网络模型的计算函数为

存在如下关系：

令

为公式(1)中输出张量y对应的真值张量120，此时，基于动态极值匹配100的损失函数定义如下：

间的损失函数，L_θ为输出张量y和真值张量

间的参数损失函数，L_c为输出张量y和真值张量

间的置信度损失函数，γ为置信度损失函数的系数。

公式(2)中，参数损失函数定义如下：

公式(3)中，N_t为真值张量120中的目标数量，i为目标数量的索引，

为索引i对应的真值张量的分量，p_i为真值张量分量

在输出张量y中对应的极值索引，

公式(3)中，极值索引p_i计算公式为：

公式(4)中，真值张量120由人工标注好的真实数据得到，其数据参数形式由标注的目标类别决定。

构建维度为

的张量，对其张量置0初始化，然后依照先后顺序填充真值目标参数。其中，N为输出张量110中的目标数量。对于两个不同的目标参数θ_p与θ_q，p,q∈[0,N_t-1]为参数维度的索引，则其先后顺序的比较方法如下：

b)比较υ_A与υ_B的大小，假如υ_A<υ_B，则输出θ_A←θ_B并结束，否则执行下一步骤；

d)输出θ_A→θ_B。

其中，k为输出张量110中的目标数量的索引，

为极值索引p_i构成的索引集合，

为输出张量110中k对应的置信度，ε为置信度的极小值。

以下，结合上述公式，以图1为例，具体说明本发明实施例中的动态极值匹配方法。

图1中，输出张量110为[N＝10,N_θ＝6]的张量，真值张量120为[N_t＝3,N_θ＝6]的张量。该实施例中，采用二维检测框的参数作为示例，[N_θ＝6]对应着(u,υ,h,w,c,ρ)一共6个维度，参数含义分别为二维矩形框的中心点横坐标、中心点纵坐标、高度、宽度、类别以及置信度，[N_t＝3]表示该图像中，人工标注了3个真值二维矩形框。

依照前述方法，经过分级维度排序后得到真值张量120后，依次搜索真值120每一个二维矩形框参数，逐行计算该二维矩形框与输出张量110的每一行参数，从而定位出极小值损失函数对应的输出张量110索引。

如1所示，第一个真值二维检测框参数所匹配的输出张量110索引为p₀＝3；第二个真值二维检测框参数从索引p₀＝3开始逐行扫描，其匹配的输出张量110索引为p₁＝5；第三个真值二维检测框参数从索引p₁＝5开始逐行扫描，其匹配的输出张量110索引为p₂＝5。

依据上述流程，可依次得到三个真值检测框在输出张量110中所匹配的极值索引，并可依照极值索引计算得到真值张量120与输出张量110间的损失函数。

给出神经网络模型训练过程中，真值张量的构建过程，以及损失函数的详细定义后。依照定义的损失函数，对所搭建的神经网络模型进行训练，训练数据来源于人工标注的真值图像数据，然后依据sgd或者adam优化函数进行训练，可得到优化好的神经网络模型。

此处，神经网络模型采用CNN、2D-LSTM、以及FCN串联的网络框架。其中，CNN网络对输入的目标图像提取低中高各级图像特征，2D-LSTM将图像特征编码为二维序列特征，展开二维序列特征后再经过FCN，得到解码后的检测目标的序列特征。

基于训练好的神经网络模型，对获取到的包含待检测目标的光学图像进行处理，可端到端地输出最终的目标检测结果，具体的操作步骤参考图2所示。

步骤210中，获取包含自然场景文本内容的目标图像，对目标图像执行letterbox尺寸标准化操作。假设目标图像颜色通道为RGB三通道，高度为H_t，宽度为W_t，调整后的输入图像高度为H_i，宽度为W_i。

调整为尺寸

的输入图像。

步骤220中，将输入图像转化为维度

的输入张量T_I后，通过CNN网络运算后，并交换通道维度和特征维度的顺序，得到张量维度。

的图像特征图M_f。

对于步骤220，卷积神经网络CNN对应着整个神经网络模型的主干网络(Backbone)，主要功能为提炼出输入图像对应的各层级语义特征，常见的Back-bone包括VGG、ResNet、DenseNet、ShuffeNet、MobileNet、EffcientNet、CSP-Darknet53、Swin-Transformer等。

对于步骤230，CNN网络输出图像特征图M_f后，采用2D-LSTM神经网络进行序列特征编码。其中，2D-LSTM神经网络将M_f编码为二维序列特征。此处，二维序列特征为序列化后的在高度维度和宽度维度构成的二维平面上具有序列特性的特征矩阵。

上述二维遍历路径在M_f在高度维度和宽度维度所构成的二维平面上对M_f进行遍历，遍历路径包括深度优先遍历、宽度优先遍历、水平线遍历、以及高度线遍历多种样式，本实施例在图3中示范两种遍历路径300：一种为沿着宽度维度进行逐行的水平遍历310方式；一种为沿着高度维度进行逐列的垂直遍历320方式。

具体到图3中所示，水平遍历310从坐标点(0,0)出发，逐行遍历，遍历到行尾时，跳转到第二行行首继续遍历，直至坐标点(3,4)。

垂直遍历320从坐标点(0,0)出发，逐列遍历，遍历到行尾时，跳转到第二列列首继续遍历，直至坐标点(3,4)。

本发明中的二维LSTM在常规LSTM上拓展，相对于常规LSTM只能处理一维序列数据，二维LSTM可以处理具有空间结构的二维序列数据。其中，二维LSTM网络单元二维LSTM单元400由输入门G_i、输出门G_o和遗忘门G_f组成，其网络单元的状态由控制状态Ψ和隐藏状态θ确定，具体的单元结构如图4所示。

取Ω_m,n为坐标点(m,n)对应的邻接坐标点的集合，坐标点P_k∈Ω_m,n为邻接点集合Ω_m,n中的任一坐标点。

此时，对于坐标点(m,n)，其对应的图像特征440信号为M_f|_m,n，隐藏状态变量为Ψ_m,n，控制状态变量为θ_m,n，邻接坐标点P_k对应的图像特征信号420为

隐藏状态变量430为

控制状态变量410为

χ_m,n＝[x_m,n,μ_m,n] (11)

输入特征信号χ_m,n通过输入门G_i得到输入门信号

计算公式如下：

输入特征信号χ_m,n通过输出门G_o得到输出门信号

计算公式如下：

输入特征信号χ_m,n通过遗忘门G_f得到遗忘门信号

计算公式如下：

输入的控制状态信号ζ_m,n与遗忘门信号

相乘，并累加控制状态信号的增量

与输入门信号

的乘积，得到坐标点对应LSTM网络单元内更新后的控制状态460信号

更新后的控制状态460信号

采用激活函数激活后，与输出门信号

相乘得到更新后的隐藏状态450信号：

依照二维LSTM处理图像特征图M_f得到维度为

的二维序列特征M_s后，对M_s进行一维展开为维度

过程序列矩阵

然后通过全连接网络(FCN)解码后得到维度为

输出张量M_o。

步骤240中，FCN处理得到输出张量后，继而执行步骤250对其进行置信度滤除，取合适阈值，保留目标参数中置信度大于阈值的目标，得到所述待检测目标参数。

图5是一种可以任选地用来执行本发明技术描述的一个或者多个方面的示例计算设备。计算设备500包括以下一个或者多个子系统：输入设备子系统510，输出设备子系统520，外存储器子系统530，处理器子系统550，主存储器子系统560，应用软件子系统570，通信设备子系统580，以及各子系统之间数据交换的总线子系统，包括I/O总线541，系统总线542和内存总线543。其中，计算设备500的应用软件570中包含执行根据本发明的上述方法的多条程序指令。

输入设备子系统510包括但不限于鼠标512、键盘511、触摸笔、触摸屏或触摸板、扫描器、用于获取图像视频的前置或者后置摄像头514、用于音频输入的麦克风513、各类信号传感器、和其他类型的输入设备。传感器包括并不限于光传感器(CMOS或CCD图像传感器)、加速度传感器、磁传感器、压力传感器或温度传感器。一般地，输入设备子系统由所有可能类型的设备部分或者自由组合所构成，该子系统旨在将外界信息经编码转换后输入到计算设备500中。

输出设备子系统520包括但不限于打印机、传真机、扫描机、用于显示视频图像的显示器521、用于音频输出的扬声器522、和其他类型的输出设备。显示器可包括阴极射线管(CRT)、液晶显示器(LCD)的平板设备、投影设备、或用于产生视频图像的其他设备。一般地，输出设备子系统由所有可能类型的设备部分或者自由组合所构成，该子系统旨在将计算设备500内的信息经转换后输出到用户或者外界环境中。

外存储器子系统530包括但不限于硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒、和其他磁盘532和磁盘控制器531等存储设备。一般地，外存储器子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在将计算设备500内的产生的信息存储到相关设备中，为程序和数据文件提供持久存储。

处理器子系统550包括但不限于处理器核551、高速缓存552、总线接口553、寄存器、和其他处理设备。处理器550可以被中央处理器(CPU)、图形处理器(GPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、微处理器(MPU)、控制器、微控制器或其他电子元件的部分或者自由组合实现。

处理器核551包括但不限于运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)、CUDA核或者它们的自由组合。高速缓存包括直接映射高速缓存、组相联高速缓存和全相联高速缓存，实现处理器核551与系统总线542之间的数据交换。总线接口553与系统总线542相连接。一般地，处理器子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在为计算设备500提供串行或者并行的信息处理能力。

主存储器子系统560包括但不限于在程序执行期间存储指令和数据的主随机存取存储器(SRAM，RAM)和存储有固定指令的只读存储器(ROM、EEP-ROM、PROM、闪存等)。主随机存储器和只读存储器均与内存总线543相连接。一般地，主存储器子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在将计算设备500内的产生的过程信息临时存储到相关设备中。

应用软件子系统570包括但不限于程序数据571、计算机程序572、操作系统573。这些软件模块一般地由处理器550进行执行。在一些实施方式中，应用软件570可以布置为在操作系统上由一个或多个处理器550利用计算机程序570执行指令。一般地，应用软件子系统由所有可能类型的计算机程序的部分或者自由组合所构成，该子系统旨在对处理器550子系统生成的信息进行逻辑加工处理，提供本文中所描述模块中的一些或全部的功能性的数据构造、加工和编程。

通信设备580子系统包括但不限于网络接口581。网络接口581提供与外部网络或者其他计算设备通信的接口及设备。通信设备580子系统可以接入基于通信标准的无线网络，如WiFi、4G、5G、6G，或它们的组合。网络通信通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频、微波、红外、激光或者其它无线介质在内的各种无线介质。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。一般地，通信设备子系统由所有可能类型的设备或者自由组合所构成，该子系统旨在将计算设备500内的信息通过通信网络输出到外部网络或者其他计算设备中。

总线子系统包括但不限于I/O总线541，系统总线542和内存总线543。各类总线通过I/O桥540进行桥接，基于540系统总线542连接总线接口553，内存总线543连接主存储器560，I/O总线541连接输入设备510、输出设备520、外存储器530、以及通信设备580。一般地，总线子系统由所有可能类型的总线设备或者自由组合所构成，该子系统旨在提供计算设备500内各个组件和子系统之间的内部信息通信，总线子系统的实施方式可选择使用多条总线。

计算设备500可具有各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群，或任何其它数据处理系统或计算设备。计算设备500也可以实现为小尺寸便携或者移动等微型电子设备的一部分，诸如蜂窝电话、数码照相机、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。由于计算机和网络的不断变化的性质，图5中描绘的计算设备500的描述仅旨在作为用于图示一些实施方式的目的的具体示例。计算设备500的许多其它配置可能具有比图5中描绘的计算设备更多或更少的组件。

在根据本发明的实施例中，计算设备500被配置为执行根据本发明的一种光学图像目标检测的方法。其中，计算设备500包含执行根据本发明的上述方法的多条程序指令。

本领域技术人员可以理解，为了详细描述本公开的技术特征，本公开提供了大量具体的实施细节，依据部分细节即可对一些实施例进行实践。同时，为了突出本公开的关键技术特征，一些实施例中，并未详尽地示出公知的实施细节。

本公开并不局限于已经描述并在附图中示出的具体特征，应该理解到，本领域技术人员可以依据本公开中所描述优点中的一个或者多个的技术特征，在不脱离其范围进行各种修改和改变，这样的变化或修改的每一个均被视为在本公开描述的实施方式的范围内。

本公开所述的一些实施例可以包括其它实施例中所包括的某些特征，不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。应当理解，本公开的实施方式涉及本文中描述的每个单独的设备、系统和方法，如果所描述的设备、系统和方法不相互矛盾，则两个或多个设备、系统和方法的任何组合都被包括在本公开的范围内。

应当理解的，本公开的示例中的设备模块、单元或组件可以布置在如实施例中所描述的设备中，或者可替换地布置在与示例设备不同的一个或多个设备中。示例中的模块可以组合为一个模块或者拆分为多个子模块。

应当理解的，本公开的示例中的系统可以由计算机系统的处理器或者相同功能的其他装置，以及实施方法或方法元素的组合构成。示例中的装置或方法元素可以自由组合，或者拆解装置为多个子模块，以及转化方法元素为近似元素。

应当理解的，本公开所描述的所有参数、结构和配置均为示例性的，并且实际的参数、结构和配置将取决于一个或多个具体的应用。

在本发明的描述中，需要理解的是，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，不能理解为对本发明的限制。

本领域技术人员可以理解，在本公开描述的本发明范围内，，可以设想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种光学图像目标检测的方法，其特征在于，包括：

基于动态极值匹配的损失函数，训练由卷积神经网络(CNN)、二维长短时记忆(2D-LSTM)神经网络、以及全连接神经网络(FCN)构成神经网络模型；

获取包含待检测目标的光学图像，将所述光学图像输入到所述神经网络模型中，计算并输出得到所述光学图像中的所述待检测目标。

2.根据权利要求1所述的一种光学图像目标检测的方法，其特征在于：所述基于动态极值匹配的损失函数定义如下：

其中，y为所述神经网络模型的输出张量，对应所述待检测目标的参数，

为所述输出张量对应的真值张量，L为所述输出张量y和所述真值张量

间的所述损失函数，L_θ为所述输出张量y和所述真值张量

间的参数损失函数，L_c为所述输出张量y和所述真值张量

间的置信度损失函数，γ为所述置信度损失函数的系数。

3.根据权利要求2所述的一种光学图像目标检测的方法，其特征在于：所述参数损失函数定义如下：

其中，N_t为所述真值张量中的目标数量，i为所述目标数量的索引，

为所述索引i对应的所述真值张量的分量，p_i为所述真值张量分量

在所述输出张量y中对应的极值索引，

为所述极值索引p_i对应的所述输出张量的分量，l_θ为所述输出张量分量与所述真值张量分量间的损失函数。

4.根据权利要求3所述的一种光学图像目标检测的方法，其特征在于：所述极值索引p_i计算公式为：

s.t.p_i≥p_i-1

其中，令N为所述输出张量中的目标数量，则j∈[0,N-1]为所述目标数量的索引，y_j为所述索引j对应的所述输出张量的分量，argmin为极小值运算符，当所述输出张量分量y_j与所述真值张量分量

间的所述损失函数最小时，获取所述y_j对应的所述索引j并赋值于所述极值索引p_i；

i-1为所述索引i对应的上一个索引，p_i-1所述索引i-1对应的上一个所述极值索引，s.t.为约束条件，所述约束条件为所述极值索引p_i的数值大于或者等于所述极值索引p_i-1的数值。

5.根据权利要求2所述的一种光学图像目标检测的方法，其特征在于：所述真值张量采用分级维度排序方法进行构建，所述分级维度排序方法如下：

m∈[0,N_t-1]为所述真值目标数量N_t的索引，其对应的所述参数为：

其中，N_θ为所述参数的维度，构建维度为

的张量，对所述张量置0，然后依照先后顺序填充所述真值目标参数，对于两个不同的所述参数θ_p与θ_q，p,q∈[0,N_t-1]为所述参数维度的索引，所述先后顺序的比较方法如下：

其中，n∈[0,N_θ-1]为所述参数维度的索引，←代表θ_p次序优先，→代表θ_q次序优先，所述比较方法依照所述参数维度逐级对比。

6.根据权利要求2或5所述的一种光学图像目标检测的方法，其特征在于：所述置信度损失函数定义如下：

其中，k为所述输出张量中的目标数量的索引，

为所述极值索引p_i构成的索引集合，

为所述输出张量中所述k对应的置信度，ε为所述置信度的极小值。

7.根据权利要求1所述的一种光学图像目标检测的方法，其特征在于：

所述的卷积神经网络(CNN)对尺寸标准化操作后的所述目标图像进行逐层卷积运算处理得到所述图像特征图，所述尺寸标准化操作为调整所述目标图像的尺寸大小，使得所述尺寸大小与所述卷积神经网络的输入尺寸一致，所述图像特征图为具有通道维度、高度维度和宽度维度的特征矩阵。

8.根据权利要求1或7所述的一种光学图像目标检测的方法，其特征在于：所述2D-LSTM神经网络由2D-LSTM网络单元构成，所述2D-LSTM网络单元依据二维遍历路径在所述图像特征图上循序运算，将所述图像特征图编码为二维序列特征；

所述二维序列特征为序列化后的在所述高度维度和所述宽度维度构成的二维平面上具有序列特性的特征矩阵。

9.根据权利要求8所述的一种光学图像目标检测的方法，其特征在于：所述二维遍历路径为沿着高度维度和宽度维度两个维度方向，在所述二维平面上对所述图像特征图进行处理的遍历路径；

所述遍历路径包括两种方式，一种为沿着所述宽度维度进行逐行的水平遍历方式，一种为沿着所述高度维度进行逐列的垂直遍历方式；

所述遍历路径从所述图像特征图的坐标点(h＝0,w＝0)出发，根据所述水平遍历方式或所述垂直遍历方式依次遍历所述图像特征图，得到所述坐标点对应的图像特征信号，直至所述图像特征图的坐标点(h＝H_f-1,w＝W_f-1)结束，其中，H_f为所述图像特征图的高度，W_f为所述图像特征图的宽度。

10.根据权利要求8所述的一种光学图像目标检测的方法，其特征在于：所述2D-LSTM网络单元由输入门、输出门和遗忘门组成，所述2D-LSTM网络单元的状态由控制状态和隐藏状态确定；

当前坐标节点下，所述图像特征信号与邻接节点下所述2D-LSTM网络单元的所述隐藏状态拼接为输入特征信号，所述输入特征信号经由所述输入门，所述输出门和所述遗忘门处理得到输入门信号、输出门信号和遗忘门信号；

所述当前坐标节点下，所述输入特征信号激活后得到所述控制状态信号的增量；

邻接坐标节点输入的所述控制状态信号与所述当前坐标节点的所述遗忘门信号相乘，并累加所述当前坐标节点的所述控制状态信号的增量与所述输入门信号的乘积，得到所述当前坐标节点的更新后的所述控制状态信号；

所述当前坐标节点下，所述更新后的控制状态信号耦合所述输出门信号得到更新后的所述隐藏状态信号并输出。

11.根据权利要求10所述的一种光学图像目标检测的方法，其特征在于：所述当前坐标节点下的所述输入特征信号及输入的所述控制状态信号均累加所有所述邻接坐标节点对应的信号；

其中，所述当前坐标节点下，输入的所述图像特征信号为所述当前坐标节点和所有所述邻接坐标节点下对应的图像特征信号总和；

当前坐标节点下，输入的所述隐藏状态信号为所述当前坐标节点和所有所述邻接坐标节点下对应的所述隐藏状态信号总和；

当前坐标节点下，输入的所述控制状态信号为所述当前坐标节点和所有所述邻接坐标节点下对应的所述控制状态信号总和。

12.根据权利要求1或2所述的一种光学图像目标检测的方法，其特征在于：

所述全连接网络(FCN)的输出为所述的输出张量，所述输出张量对应的所述参数包括所述待检测目标的置信度，取合适阈值，保留所述置信度大于所述阈值的所述参数，得到所述待检测目标。

13.一种电子设备，包括：

处理器；

以及用于存储计算机可执行指令的存储器；

计算机程序，所述计算机程序存储在所述存储器中，由所述一个或多个处理器执行；

所述计算机程序被所述处理执行时实现如权利要求1-12中任一项所述的一种光学图像目标检测的方法中任一方法。

14.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有可实现一种光学图像目标检测的方法的计算机程序，