CN113378976B

CN113378976B - 一种基于特征顶点组合的目标检测方法、可读存储介质

Info

Publication number: CN113378976B
Application number: CN202110740657.1A
Authority: CN
Inventors: 李杰明; 杨洋
Original assignee: Shenzhen Huahan Weiye Technology Co ltd
Current assignee: Shenzhen Huahan Weiye Technology Co ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2022-06-03
Anticipated expiration: 2041-07-01
Also published as: CN113378976A

Abstract

一种基于特征顶点组合的目标检测方法和可读存储介质，其中的方法将待检测图像输入预设的第一检测网络中得到特征顶点的信息，从第一检测网络中选择至少一个隐藏层输出的特征图和特征顶点的信息一起构造第二特征向量，将第二特征向量输入预设的第二检测网络中得到特征顶点的类别信息和姿态信息的校正量，使用姿态信息的校正量对特征顶点进行姿态校正，根据类别信息将特征顶点组成第一匹配结果，计算第一匹配结果相对于匹配模板的匹配分数以筛选得到第二匹配结果，根据第二匹配结果和匹配模板的几何变换关系补全其中缺失的特征顶点和连接关系，从而标识出目标物体。对有遮挡的物体和具有极端长宽比的物体，本方法有很好的检测准确度，且效率较高。

Description

一种基于特征顶点组合的目标检测方法、可读存储介质

技术领域

本发明涉及机器视觉技术领域，具体涉及一种基于特征顶点组合的目标检测方法、可读存储介质。

背景技术

近年来，人工智能和大数据成为了国内外各大领域关注的焦点。在计算机视觉领域，基于深度学习的图像处理算法有着广泛的应用。使用图像和与图像一一对应的标注信息来训练卷积神经网络，训练完成后的卷积神经网络能够完成图像分类、目标检测和语义分割等工作。其中，目标检测卷积神经网络(以下简称：目标检测网络)在工业上有许许多多的应用，如对流水线上的产品进行识别和计数等。现有的基于深度学习的目标检测网络有YOLO、SSD、RCNN等，这些目标检测网络基于CNN(Convolutional Neural Network，卷积神经网络)搭建，并用样本图像和相应的标注信息进行训练，训练完成后，将待检测图像输入至目标检测网络中，得到特征图，通过对特征图进行计算得出检测结果(物体的种类、外接矩形的中心坐标和长宽)。目前，目标检测卷积神经网络在对物体进行目标检测上仍然面临着许多难点，如有遮挡物体的识别、具有极端尺度和形状的物体的识别等。

在实际的应用中，识别有遮挡的物体是目标检测的难点之一。在已有的技术中，优化对有遮挡的物体的识别效果，主要采用如下技术：对训练集图像进行增强，如使用噪声随机覆盖图像中待检测物体的一部分，或随机将图像中待检测物体的一部分的像素设置为固定像素值(如0)。但该方法的缺点是可能对训练数据引入过多噪声，从而使目标检测网络的收敛更加困难，而且这种对训练集图像的处理方式不一定与物体实际被遮挡的方式相同，因此在进行检测时仍可能得到错误的检测结果。

实现多尺度目标检测的方法主要有：特征金字塔，特征金字塔通过融合不同尺度的特征图，获得多个感受野不同的特征图，再分别对这些特征图进行分类和方框回归，得到检测结果，从而能在一定程度上检测不同尺度和形状的物体。此方法的缺点是增加了计算量，且待检测物体的长宽比需要在一个适中的区间(一般为1:3到3:1之间)，难以实现对极端长宽比物体的检测。

发明内容

本申请提供一种基于特征顶点组合的目标检测方法和可读存储介质，以解决现有的目标检测方法识别有遮挡物体和极端长宽比物体效果不佳的问题。

根据第一方面，一种实施例中提供一种基于特征顶点组合的目标检测方法，用于检测待检测图像中的一个或多个目标物体，其特征在于，所述目标检测方法包括：

获取待检测图像；

将所述待检测图像输入预先构建的第一检测网络中，得到所述待检测图像中的特征顶点的信息，所述特征顶点代表目标物体的局部特征，所述特征顶点的信息包括特征顶点的姿态信息和特征顶点所代表的局部特征的类别，所述特征顶点的姿态信息包括特征顶点的坐标，和特征顶点的外接矩形的长度、宽度，和/或特征顶点的外包矩形的长度、宽度和角度，所述特征顶点的坐标为特征顶点所代表的局部特征的几何中心的坐标；

从所述第一检测网络中选择至少一个隐藏层输出的特征图，根据特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度和角度，在所选择的特征图上相应的位置截取出部分特征图，根据所述部分特征图构造第一特征向量，得到和特征顶点数量相同且一一对应的第一特征向量，将特征顶点的信息和对应的所述第一特征向量合并得到第二特征向量；

将所述第二特征向量输入预先构建的第二检测网络中，得到每个特征顶点的全局类别、局部类别和所属的目标物体，以及特征顶点的坐标校正量，特征顶点的外接矩形的长度校正量、宽度校正量，和/或特征顶点的外包矩形的长度校正量、宽度校正量和角度校正量；特征顶点根据全局类别和局部类别组成匹配结果，全局类别表示特征顶点所属的匹配结果的类别，局部类别表示特征顶点在其所属的匹配结果所有特征顶点中的排列序号；

使用特征顶点的坐标校正量进行坐标校正，使用特征顶点的外接矩形的长度校正量、宽度校正量对特征顶点的外接矩形进行长度校正、宽度校正，和/或使用特征顶点的外包矩形的长度校正量、宽度校正量、角度校正量对特征顶点的外包矩形进行长度校正、宽度校正、角度校正；将属于同一全局类别且属于同一目标物体的特征顶点按局部类别顺次连接，得到第一匹配结果；

计算所述第一匹配结果相对于预设的匹配模板的匹配分数，根据匹配分数对所述第一匹配结果进行筛选，得到第二匹配结果，其中所述匹配模板是由预先在目标物体上设置的若干特征顶点按预设的排列序号顺次连接得到，每个目标物体对应一个匹配模板；

根据所述第二匹配结果和所述匹配模板间的几何变换关系，补全所述第二匹配结果中缺失的特征顶点和连接关系，从而标识出所述待检测图像中的目标物体。

一种实施例中，所述第一检测网络包括特征提取网络、分类检测网络和方框回归网络，所述特征提取网络用于根据输入图像计算得到第一特征图，所述分类检测网络用于根据所述第一特征图计算得到特征顶点所代表的局部特征的类别，所述方框回归网络用于根据所述第一特征图计算得到特征顶点的姿态信息；

所述第一检测网络通过以下方式构建：

构造第一训练集，所述第一训练集中的训练数据为样本图像，数据标签为特征顶点的姿态信息、特征顶点所代表的局部特征的类别组成的向量；

使用所述第一训练集进行训练，迭代使损失函数的值小于第一阈值，得到所述第一检测网络。

一种实施例中，所述第二检测网络包括第一多层感知器、第二多层感知器和第三多层感知器；所述将所述第二特征向量输入预先构建的第二检测网络中，得到每个特征顶点的全局类别和局部类别，包括：

将所述第二特征向量输入所述第一多层感知器以得到第三特征向量，所述第三特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应；

对于所述第三特征向量的每一个维度，取该维度上的所有第三特征向量的元素的平均值或最大值，形成一个与所述第三特征向量维度相同的第四特征向量；

将所述第四特征向量分别和各第三特征向量合并，得到第五特征向量，所述第五特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应；

将所述第五特征向量输入所述第二多层感知器中以得到第六特征向量，将所述第五特征向量输入所述第三多层感知器中以得到第七特征向量，所述第六特征向量包括特征顶点所代表的局部特征的类别，特征顶点的全局类别、局部类别，以及特征顶点的坐标校正量，特征顶点的外接矩形的长度校正量、宽度校正量，和/或特征顶点的外包矩形的长度校正量、宽度校正量和角度校正量；所述第七特征向量用于表征特征顶点以进行距离计算，通过计算任意两个特征顶点的第七特征向量之间的距离，当两个特征顶点的第七特征向量的距离小于设定阈值时，则判断这两个特征顶点属于同一个目标物体，否则不属于同一个目标物体；

所述第六特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应，所述第七特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应。

一种实施例中，所述第二检测网络通过以下方式构建：

将样本图像输入已训练好的所述第一检测网络中，得到样本图像的特征顶点的信息；

从所述第一检测网络中选择至少一个隐藏层输出的特征图，根据样本图像的特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度和角度，在所选择的特征图上相应的位置截取出部分特征图，根据所述部分特征图构造第一特征向量，得到和特征顶点数量相同且一一对应的第一特征向量，将所述特征顶点的信息和对应的所述第一特征向量合并得到第二特征向量；

构造第二训练集，所述第二训练集中的训练数据为所述第二特征向量，数据标签为特征顶点所代表的局部特征的类别，特征顶点的全局类别、局部类别和所属的目标物体，以及特征顶点的坐标校正量，特征顶点的外接矩形的长度校正量、宽度校正量，和/或特征顶点的外包矩形的长度校正量、宽度校正量和角度校正量组成的向量；

将所述第二训练集中的训练数据输入所述第二检测网络以得到第六特征向量和第七特征向量；

根据所述第六特征向量和所述第二训练集中的数据标签构造第一损失函数，根据所述第七特征向量构造第二损失函数，根据所述第一损失函数和所述第二损失函数计算总损失函数；

根据所述总损失函数，并根据反向传播算法对所述第二检测网络的参数进行迭代更新，使所述总损失函数的值小于第二阈值，得到所述第二检测网络。

一种实施例中，所述第一损失函数为

其中，Z₁代表所述第六特征向量构成的集合，i代表第六特征向量，G代表所述第二训练集中的数据标签构成的集合，j代表与i对应的数据标签；

所述第二损失函数为

其中，Z₂代表所述第七特征向量构成的集合，M代表某一目标物体的特征顶点对应的第七特征向量构成的集合，N代表与M不同的另一目标物体的特征顶点对应的第七特征向量构成的集合，g和h代表同一目标物体的特征顶点对应的第七特征向量，u和v代表不同目标物体的特征顶点对应的第七特征向量，χ代表预设的阈值；

所述总损失函数为

L＝L₁+ξL₂，

其中ξ为预设的权重系数。

一种实施例中，在构造所述第一训练集和/或所述第二训练集时进行图像增强，所述图像增强包括对图像进行缩放和/或旋转。

一种实施例中，所述根据特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度和角度，在所选择的特征图上相应的位置截取出部分特征图，得到和特征顶点数量相同且一一对应的第一特征向量，包括：

以特征顶点的坐标为中心点，截取出在特征顶点的外接矩形或外包矩形范围内的特征图的部分特征图，对于每一个特征顶点，将与该特征顶点位置对应的部分特征图中各点处的特征向量进行拼接，得到和特征顶点数量相同且一一对应的第一特征向量，或者

对于每一个特征顶点，将与该特征顶点位置对应的每个部分特征图分别进行一个卷积核的卷积得到一个长度、宽度均为1的特征图，对这些长度、宽度均为1的特征图的像素按顺序排列，得到和特征顶点数量相同且一一对应的第一特征向量。

一种实施例中，所述计算所述第一匹配结果相对于预设的匹配模板的匹配分数，根据匹配分数对所述第一匹配结果进行筛选，得到第二匹配结果，包括：

根据以下公式计算由所述匹配模板到所述第一匹配结果的仿射变换矩阵H和反投影误差ε：

其中，M₁代表所述匹配模板，F₁代表所述第一匹配结果，p_c代表所述匹配模板中排列序号为c的特征顶点，q_c代表所述第一匹配结果中排列序号为c的特征顶点；

根据以下公式计算所述第一匹配结果相对于所述匹配模板的匹配分数μ：

其中，e为自然对数，|M₁|代表所述匹配模板内特征顶点的个数，|F₁|代表所述第一匹配结果内特征顶点的个数，γ代表缺失顶点的数量对匹配分数的影响系数；

将匹配分数μ和设定的分数阈值λ比较，选择μ＞λ的第一匹配结果作为所述第二匹配结果。

一种实施例中，所述根据所述第二匹配结果和所述匹配模板间的几何变换关系，补全所述第二匹配结果中缺失的特征顶点和连接关系，包括：

根据以下公式补全所述第二匹配结果中缺失的特征顶点：

t＝Hr(t∈T,r∈R)，

其中，H代表由所述匹配模板到所述第二匹配结果的仿射变换矩阵，T代表所述第二匹配结果缺失的特征顶点的集合，R代表T对应到所述匹配模板的特征顶点的集合，t代表所述第二匹配结果缺失的特征顶点，r代表t对应到所述匹配模板的特征顶点；

将补全后的所述第二匹配结果中的特征顶点按局部类别顺次连接，从而补全所述第二匹配结果中缺失的连接关系。

一种实施例中，所述匹配模板还包括预设的方向和旋转中心点，所述目标检测方法还包括：

根据关系式

联立方程组

求解得到所述第二匹配结果相对于所述匹配模板的旋转角度θ；其中，ψ₁₁、ψ₁₂、ψ₁₃、ψ₂₁、ψ₂₂、ψ₂₃、ψ₃₁、ψ₃₂、ψ₃₃为已求得的仿射变换矩阵H中的元素，τ为横坐标缩放系数，ρ为纵坐标缩放系数，υ为横坐标平移量，ν为纵坐标平移量；

根据所述第二匹配结果相对于所述匹配模板的旋转角度θ，以及所述匹配模板的方向和旋转中心点，得到所述第二匹配结果的方向。

一种实施例中，所述目标检测方法还包括预设的检测范围Ω，只有相对于所述匹配模板的变换在所述检测范围Ω内的所述第一匹配结果才会被输出，否则不被输出。

根据第二方面，一种实施例中提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现上述第一方面所述的方法。

依据上述实施例的基于特征顶点组合的目标检测方法和计算机可读存储介质，将待检测图像输入预先构建的第一检测网络中，得到待检测图像中的特征顶点的信息，从第一检测网络中选择至少一个隐藏层输出的特征图构造第一特征向量，将特征顶点的信息和对应的第一特征向量合并得到第二特征向量，将第二特征向量输入预先构建的第二检测网络中，得到每个特征顶点的全局类别、局部类别和所属的目标物体，以及姿态信息的校正量，使用姿态信息的校正量对特征顶点的姿态进行校正，将属于同一全局类别且属于同一目标物体的特征顶点按局部类别顺次连接，得到第一匹配结果，计算第一匹配结果相对于预设的匹配模板的匹配分数，根据匹配分数对第一匹配结果进行筛选，得到第二匹配结果，最后根据第二匹配结果和匹配模板间的几何变换关系，补全第二匹配结果中缺失的特征顶点和连接关系，从而标识出待检测图像中的目标物体。这样一来，就将检测大而复杂的物体转化为检测小而简单的局部特征，通过已检测出的特征顶点即可推断出其余未被检测出的特征顶点，从而实现对整体的检测，减少了计算量，提高了运行效率；对于有一部分被遮挡的物体，只需要识别至少三个特征顶点，就可以完成对物体整体的推断和检测；对于具有极端长宽比的物体，仅需要在此物体上选取长宽比适中的局部特征，便可检测此物体；对于需要同时检测的多种不同尺度的物体，只需要对物体分别选取尺度大小适当的局部特征，就可以在不采用特征金字塔的情况下同时检测多种不同尺度的物体，检测效果好且十分方便。

附图说明

图1为一种实施例的基于特征顶点组合的目标检测方法的流程图；

图2为一种实施例的第一检测网络的结构示意图；

图3为匹配结果的示意图；

图4为多层感知器的结构示意图；

图5为一种实施例的第二检测网络的结构示意图；

图6为对第三特征向量进行全局池化的示意图；

图7为一种实施例的第二检测网络的训练过程；

图8为属于同一全局类别但不属于同一目标物体的匹配结果的示意图；

图9为在表盘上设置特征顶点的示意图；

图10为构建关于表盘的匹配模板的示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

本申请提供一种基于特征顶点组合的目标检测方法，可以在待检测图像上检测出一个或多个目标物体，通过检测目标物体上的特征顶点来检测目标物体，以小见大，将检测大而复杂的物体转化为检测小而简单的局部特征，提高检测的准确度和效率。目标物体可以是流水线上的产品、物件箱内的机械零件或者操作台上的工具等，例如螺钉、钳子等；特征顶点需选择目标物体上有代表性的局部区域，以便能够反映目标物体的特征。本申请的技术方案首先在待检测图像中检测出特征顶点的信息和连接关系，据此由特征顶点形成匹配结果，再和预设的匹配模板进行匹配或者配准，计算两者间的变换关系，推断出匹配结果中未被检测出的顶点和匹配结果的角度，从而能在待检测图像上标识出目标物体的位置和角度，完成对目标物体的检测。下面对本申请的技术方案进行详细说明。

请参考图1，本申请提供的基于特征顶点组合的目标检测方法包括步骤110～170，下面具体说明。

步骤110：获取待检测图像。可以使用摄像机来对某些场景中的目标物体进行摄像，从而得到包含有目标物体的待检测图像，待检测图像中可能存在一个或多个目标物体。

步骤120：将待检测图像输入预先构建的第一检测网络中，得到待检测图像中的特征顶点的信息。

特征顶点代表目标物体的局部特征，局部特征包括但不限于：物体上能表征物体核心特征的凸凹形状、能表征物体核心特征的印刷图案等。这里得到的特征顶点的信息包括特征顶点的姿态信息和特征顶点所代表的局部特征的类别。以螺钉为例，其局部特征的类别可以是“螺帽”、“螺杆”等。特征顶点的姿态信息包括特征顶点的坐标，特征顶点的外接矩形的长度、宽度，和/或特征顶点的外包矩形的长度、宽度和角度，特征顶点的坐标为特征顶点所代表的局部特征的几何中心的坐标，例如重心的坐标。

第一检测网络可以利用卷积神经网络来构建，其具体的结构请参见图2。第一检测网络主要包括特征提取网络、分类检测网络和方框回归网络，其中特征提取网络为骨干网络。特征提取网络可以是现有网络模型的部分或全部，例如YOLO、SSD等，其中可包括卷积、激活函数和池化等操作，用于对输入的图像进行计算得到第一特征图。分类检测网络中也可包括卷积、激活函数和池化等操作，用于对所得到的第一特征图进行特征分类处理，得到待检测图像中特征顶点的分类信息特征图，从而得到特征顶点所代表的局部特征的类别。方框回归网络中也可包括卷积、激活函数和池化等操作，用于对所得到的第一特征图进行回归处理，得到关于特征顶点姿态信息的方框信息特征图，从而得到特征顶点的坐标、外接矩形和/或外包矩形。

第一检测网络采用第一训练集进行训练，第一训练集中的训练数据为样本图像，数据标签为特征顶点的信息。可以理解，样本图像中已将欲检测出的特征顶点及其信息标注出，特征顶点的信息可以包括特征顶点的姿态信息、特征顶点所代表的局部特征的类别，姿态信息可以包括特征顶点的坐标，特征顶点的外接矩形的长度、宽度，和/或特征顶点的外包矩形的长度、宽度和角度等，可视需要而定，第一检测网络能够检测出的信息与样本图像中标注出的特征顶点的信息有关系。根据反向传播算法对第一检测网络进行训练，在训练过程中网络的参数不断地迭代更新，使对应的损失函数趋于收敛，当损失函数的值小于预设的第一阈值时那么可认为网络已训练完成。

步骤130：从第一检测网络中选择至少一个隐藏层输出的特征图，根据特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度和角度，在所选择的特征图上相应的位置截取出部分特征图，根据部分特征图构造第一特征向量，得到和特征顶点数量相同且一一对应的第一特征向量，将特征顶点的信息和对应的第一特征向量合并得到第二特征向量，将第二特征向量用于后续进一步的检测中，使得能够利用更为丰富的特征信息进行检测，能够提高目标物体的检测准确度，得到更好的检测结果。可以理解，由于第一特征向量和特征顶点数量相同且一一对应，因此第二特征向量也和特征顶点数量相同且一一对应。

特征图可以选择一个或多个，可以选择第一检测网络中较高层的特征图和较低层的特征图进行融合构造第一特征向量，这样所得到的第一特征向量可以同时具有高级特征的信息和低级特征的信息，有利于提高检测性能。具体的构造方式，可以是以特征顶点的坐标为中心点，截取出在特征顶点的外接矩形或外包矩形范围内的特征图的部分特征图，对于每一个特征顶点，将与该特征顶点位置对应的部分特征图中各点处的特征向量进行拼接，得到和特征顶点数量相同且一一对应的第一特征向量；在有的实施例中，也可以是将与特征顶点位置对应的每个部分特征图分别进行一个卷积核的卷积得到一个长度、宽度均为1的特征图，对这些长度、宽度均为1的特征图的像素按顺序排列，从而得到和特征顶点数量相同且一一对应的第一特征向量，可以理解，对所截取出的部分特征图，若其大小为W×H×C(其中W为宽度，H为高度，C为通道数)，则进行上述操作后可以得到一个1×U的第一特征向量。

步骤140：将第二特征向量输入预先构建的第二检测网络中，得到每个特征顶点的全局类别、局部类别和所属的目标物体，以及特征顶点的坐标校正量，特征顶点的外接矩形的长度校正量、宽度校正量，和/或特征顶点的外包矩形的长度校正量、宽度校正量和角度校正量。特征顶点将根据全局类别、局部类别和所属的目标物体进行划分，组成匹配结果。全局类别表示特征顶点所属的匹配结果的类别，匹配结果的类别可以是目标物体的名称或类别，例如“螺钉”，那么全局类别可以标识所检测出的目标物体是何物。局部类别表示特征顶点在其所属的匹配结果所有特征顶点中的排列序号，属于同一全局类别且属于同一目标物体的特征顶点将按局部类别顺次连接，也就是说局部类别表示了特征顶点间的连接关系。

比如在图3中，特征顶点B、C、D组成了一个匹配结果B-C-D，特征顶点E、F、G、H组成了一个匹配结果E-F-G-H，这两个匹配结果的类别不同，因此特征顶点B、C、D的全局类别和特征顶点E、F、G、H的全局类别不同。同一匹配结果中每个特征顶点的局部类别都不相同，匹配结果B-C-D中B的局部类别为1，C的局部类别为2，D的局部类别为3；匹配结果E-F-G-H中，E的局部类别为1，F的局部类别为2，G的局部类别为3，H的局部类别为4。

第二检测网络可以基于多层感知器来构建，请参考图4，多层感知器是一种前向结构的人工神经网络，可以将一组输入向量映射至输出向量。多层感知器可以被看作一个有向图，由多个节点层所组成，每一个层都全连接至下一层，除了输入节点外，每个节点都是一个带有非线性激活函数的神经元，常常使用反向传播算法来训练多层感知器。

请参考图5，第二检测网络可以由三个多层感知器来构成，分别为第一多层感知器、第二多层感知器和第三多层感知器。第二检测网络的工作流程如下：

(1)将第二特征向量输入第一多层感知器以得到第三特征向量，可以理解，由于第二特征向量和特征顶点数量相同且一一对应，因此第三特征向量也和特征顶点数量相同且一一对应；由于第二特征向量是与特征顶点的信息和与特征顶点位置对应的特征图有关，因此第二特征向量表达的是局部特征，那么所得到的第三特征向量也表达的是局部特征。

(2)对第三特征向量进行全局池化操作。在全局池化操作中，输入若干个维度为v的特征向量，在每一个维度上选取所有特征向量的平均数(全局平均池化)或最大值(全局最大池化)，生成一个维度为v的新特征向量。请参考图6，在这里是对于第三特征向量的每一个维度，取该维度上的所有第三特征向量的元素的平均值或最大值，形成一个与第三特征向量维度相同的第四特征向量。可以理解，这里第四特征向量是由第三特征向量融合而得到，那么它具有表达全局特征的功能。

(3)将第四特征向量分别和各第三特征向量合并，得到第五特征向量，可以理解，第五特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应。第五特征向量融合了局部特征和全局特征，具有了更强的特征表达能力。

(4)将第五特征向量输入第二多层感知器中以得到第六特征向量，将第五特征向量输入第三多层感知器中以得到第七特征向量。第六特征向量用于对特征顶点进行分类和校正，其中可以包括特征顶点所代表的局部特征的类别，特征顶点的全局类别、局部类别，以及特征顶点的坐标校正量，特征顶点的外接矩形的长度校正量、宽度校正量，和/或特征顶点的外包矩形的长度校正量、宽度校正量和角度校正量。第七特征向量用于表征特征顶点以进行距离计算，通过计算任意两个特征顶点的第七特征向量之间的距离，当两个特征顶点的第七特征向量的距离小于设定阈值时，则判断这两个特征顶点属于同一个目标物体，否则不属于同一个目标物体，这将在构造训练第二检测网络的损失函数中得到运用。同样地，第六特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应，第七特征向量的数量和特征顶点的数量相同，且与特征顶点一一对应。

请参考图7，第二检测网络的训练过程具体包括以下步骤：

步骤141：将样本图像输入已训练好的第一检测网络中，得到样本图像的特征顶点的信息。

步骤142：从第一检测网络中选择至少一个隐藏层输出的特征图，根据样本图像的特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度和角度，在所选择的特征图上相应的位置截取出部分特征图，根据部分特征图构造第一特征向量，得到和特征顶点数量相同且一一对应的第一特征向量，将特征顶点的信息和对应的第一特征向量合并得到第二特征向量，这一过程可参考步骤103。

步骤143：构造第二训练集，第二训练集中的训练数据为步骤142中获得的第二特征向量，数据标签为特征顶点所代表的局部特征的类别，特征顶点的全局类别、局部类别和所属的目标物体，以及特征顶点的姿态信息的校正量组成的向量。姿态信息的校正量可以包括坐标校正量，特征顶点的外接矩形的长度校正量、宽度校正量，和/或特征顶点的外包矩形的长度校正量、宽度校正量和角度校正量等，可视需要而定，第二检测网络能够检测出的信息与此处数据标签中标注出的信息有关系。

步骤144：将第二训练集中的训练数据输入第二检测网络以得到第六特征向量和第七特征向量。

步骤145：根据第六特征向量和第二训练集中的数据标签构造第一损失函数，根据第七特征向量构造第二损失函数，根据第一损失函数和第二损失函数计算总损失函数。

在一种实施例中，第一损失函数如下：

其中，Z₁代表所述第六特征向量构成的集合，i代表第六特征向量，G代表所述第二训练集中的数据标签构成的集合，j代表与i对应的数据标签。第一损失函数可称为回归评价函数，可衡量第二检测网络输出的预测值与真实值(数据标签)之间的差异。

第二损失函数可以为：

其中，Z₂代表第七特征向量构成的集合，M代表某一目标物体的特征顶点对应的第七特征向量构成的集合，N代表与M不同的另一目标物体的特征顶点对应的第七特征向量构成的集合，g和h代表同一目标物体的特征顶点对应的第七特征向量，u和v代表不同目标物体的特征顶点对应的第七特征向量，χ代表预设的阈值。第二损失函数可称为度量评价函数，可衡量属于不同目标物体的特征顶点之间的差异，其中的阈值χ即为判断两个特征顶点是否属于同一目标物体的阈值。

需要注意的是，待检测图像中可能有多个属于同一类别的目标物体，因此特征顶点属于同一全局类别不一定代表其属于同一目标物体，需要加以分辨。如图8中，特征顶点a₁、a₂和a₃组成了一个匹配结果，特征顶点a₄、a₅和a₆组成了另一个匹配结果，这两个匹配结果分别检测出了两个目标物体，但这两个目标物体的类别是相同的，例如待检测图像中存在两个螺钉，这两个匹配结果都检测出了螺钉，然而检测出的是两个不同的螺钉，即两个不同的目标物体，因此特征顶点a₁、a₂、a₃、a₄、a₅和a₆的全局类别是相同的，但特征顶点a₁和a₂、a₃属于同一目标物体，特征顶点a₁和a₄、a₅、a₆属于不同的目标物体。第二损失函数可用于评价第二检测网络分辨不同目标物体的特征顶点的能力。

总损失函数可以是第一损失函数和第二损失函数的加权和，即

L＝L₁+ξL₂，

其中ξ为预设的权重系数。

步骤146：根据总损失函数，并根据反向传播算法对第二检测网络的参数进行迭代更新，使总损失函数趋于收敛，当总损失函数的值小于预设的第二阈值，则认为第二检测网络已训练完成。

为了降低过拟合风险，可以在构造第一训练集和/或第二训练集时进行图像增强，图像增强包括但不限于对图像进行缩放和/或旋转等操作。

步骤150：使用特征顶点的坐标校正量进行坐标校正，使用特征顶点的外接矩形的长度校正量、宽度校正量对特征顶点的外接矩形进行长度校正、宽度校正，和/或使用特征顶点的外包矩形的长度校正量、宽度校正量、角度校正量对特征顶点的外包矩形进行长度校正、宽度校正、角度校正；将属于同一全局类别且属于同一目标物体的特征顶点按局部类别顺次连接，得到第一匹配结果，参考图3和图8。可以理解，这里既然已经检测出了特征顶点，且将属于同一全局类别且属于同一目标物体的特征顶点按局部类别顺次连接，那么就已基本在待检测图像上标识出了目标物体，然而，由于物体表面可能存在部分遮挡、污点、损坏等情形，因此可能有部分特征顶点缺失，给检测完整的目标物体带来一定的困难。

步骤160：计算第一匹配结果相对于预设的匹配模板的匹配分数，根据匹配分数对第一匹配结果进行筛选，得到第二匹配结果。

匹配模板是由预先在目标物体上设置的若干特征顶点按预设的排列序号顺次连接得到，每个目标物体对应一个匹配模板。用于设置匹配模板的目标物体应该是无遮挡、无表面缺陷、无形变、姿态正常的目标物体，可通过摄像设备摄取该目标物体的图像，在图像上对特征顶点进行选择和标注，形成匹配模板。匹配模板可包括目标物体上所有特征顶点的信息及特征顶点间的连接关系，特征顶点间的连接关系可以用排列序号(即局部类别)来表示。用户可以选择目标物体表面有代表性的局部特征来作为特征顶点，需要注意的是，一旦选取了某一类局部特征，需将所有属于该类局部特征的特征顶点全部标注完成。每个特征顶点至少包括以下2个信息：特征顶点的坐标(包括横纵坐标)、所代表的局部特征的类别。当然，除了这2个信息，还可以选择增加其他信息以加快后续的匹配速度，一般可选的信息有：局部特征的最小外接矩形(即特征顶点的外接矩形，特征顶点的外接矩形的信息可包括矩形中心点的坐标、矩形的长度和宽度)、局部特征的外包矩形(即特征顶点的外包矩形，特征顶点的外包矩形的信息可包括矩形中心点的坐标、矩形的长度、宽度和方向，可指带旋转角度的标准矩形)。匹配模板还可以设置有方向和旋转中心点，以用于配准第一匹配结果的方向或角度，实现对目标物体方向上的识别。

匹配模板还可以设置有检测范围Ω，只有相对于匹配模板的变换在检测范围Ω内的第一匹配结果才会被输出，否则不被输出。检测范围Ω包括角度θ、横坐标x、纵坐标y的限定范围，可由用户设定。需要注意的是，在对第一训练集和/或第二训练集进行图像增强时，对图像增强的变换也必须在检测范围Ω以内。

比如图9和图10，若要对表盘进行检测，可选择一完好的表盘构建匹配模板，如图9所示。可选择表盘1上的一些显著局部特征作为特征顶点进行标注，比如大表盘中心处的特征顶点A1，小表盘中心处的特征顶点A2、A4，小表盘边缘数字处的特征顶点A3，按数字序号由小到大顺次连接这些特征顶点，那么利用这些特征顶点的标注信息可生成一个简单的匹配模板，具体参见图10中的A1-A2-A3-A4；在图10中，匹配模板的方向为L1、旋转中心点为L0。

在工业生产的很多情况下，待检测的目标物体的形状相对固定，这时候这些形状变化可以近似地视为仿射变换，这种情况多发生在金属零部件、塑料外壳等标准化产品的检测。可以通过计算由匹配模板到第一匹配结果的仿射变换矩阵H，将匹配模板和第一匹配结果变换到同一坐标系下，然后计算反投影误差，根据反投影误差来计算匹配分数。具体的，首先根据以下公式计算反投影误差ε：

其中，M₁代表匹配模板，F₁代表第一匹配结果，p_c代表匹配模板中排列序号为c的特征顶点，q_c代表第一匹配结果中排列序号为c的特征顶点。通过最小二乘法求解以上公式，仿射变换矩阵H也可一并被求出。

再根据以下公式计算第一匹配结果相对于匹配模板的匹配分数μ：

其中，e为自然对数，|M₁|代表匹配模板内特征顶点的个数，|F₁|代表第一匹配结果内特征顶点的个数，γ代表缺失顶点的数量对匹配分数的影响系数。

将匹配分数μ和设定的分数阈值λ比较，选择μ＞λ的第一匹配结果作为第二匹配结果，μ≤λ的第一匹配结果则可以被舍弃。

步骤170：根据第二匹配结果和匹配模板间的几何变换关系，补全第二匹配结果中缺失的特征顶点和连接关系，从而标识出待检测图像中的目标物体。

具体的，将推断出的第二匹配结果中缺失的特征顶点构成为第一集合T，将匹配模板中与第一集合T相对应的特征顶点构成为第二集合R。由于步骤160中已计算出仿射变换矩阵H，那么可依据仿射变换矩阵H，由匹配模板中的特征顶点推断出第二匹配结果中缺失的特征顶点，具体公式为：

t＝Hr(t∈T,r∈R)，

可以理解，公式中t代表第二匹配结果缺失的特征顶点，r代表t对应到匹配模板的特征顶点。

将补全后的第二匹配结果中的特征顶点按局部类别顺次连接，从而补全第二匹配结果中缺失的连接关系，这样一来，待检测图像中的目标物体就被第二匹配结果标识出来。

另外，对物体进行方向上的准确识别也是工业机器视觉的一大需求。识别物体方向主要采用如下方法：在原有的目标检测网络的基础上，增加一个或多个角度回归量，对训练集图像增加角度的标注，然后训练目标检测网络，从而使得目标检测网络可以识别物体方向。此方法的缺点是需要在对训练集图像进行标注时额外增加角度的标注，增加了标注的工作量，而且由于增加了角度的回归，使得网络的训练难度增大。

在本申请中，对匹配模板设置方向和旋转中心点，利用匹配模板和第二匹配结果之间的变换关系，即可非常方便地计算出第二匹配结果相对于匹配模板的旋转角度θ，从而得出第二匹配结果的方向。具体的，将仿射变换矩阵表示为

其中，ψ₁₁、ψ₁₂、ψ₁₃、ψ₂₁、ψ₂₂、ψ₂₃、ψ₃₁、ψ₃₂、ψ₃₃为已求得的仿射变换矩阵H中的元素，而仿射变换矩阵H的标准形式为

那么联立方程组可以得到

其中τ为横坐标缩放系数，ρ为纵坐标缩放系数，υ为横坐标平移量，ν为纵坐标平移量。可以计算出第二匹配结果相对匹配模板的旋转角度θ，结合匹配模板的方向，可以得出第二匹配结果的方向，从而目标物体的方向可得。

依据上述实施例的基于特征顶点组合的目标检测方法，可以将检测大而复杂的物体转化为检测小而简单的局部特征，通过设置匹配模板，利用匹配模板与匹配结果之间的变换关系，根据已检测出的特征顶点即可推断出其余未被检测出的特征顶点，从而实现对整体的检测，减少了计算量，提高了运行效率；使用基于多层感知器的后端处理，具有较强的稳定性，而且运算流程具有高度的并行性，有利于计算效率的优化；计算变换关系时综合考虑了旋转、缩放、平移等变换信息，有较强的稳定性，可以适应仿射变换的关系；对于有一部分被遮挡的物体，只需要识别至少三个特征顶点，就可以完成对物体整体的推断和检测；对于具有极端长宽比的物体，仅需要在此物体上选取长宽比适中的局部特征，便可检测此物体；对于需要同时检测的多种不同尺度的物体，只需要对物体分别选取尺度大小适当的局部特征，就可以在不采用特征金字塔的情况下同时检测多种不同尺度的物体；通过预设匹配模板及其方向，并计算匹配模板和匹配结果间的变换关系，可以推断目标物体的方向，检测效果好且十分方便。

本文参照了各种示范实施例进行说明。然而，本领域的技术人员将认识到，在不脱离本文范围的情况下，可以对示范性实施例做出改变和修正。例如，各种操作步骤以及用于执行操作步骤的组件，可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外，如本领域技术人员所理解的，本文的原理可以反映在计算机可读存储介质上的计算机程序产品中，该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用，包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器，使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行，这样存储在计算机可读存储器中的指令就可以形成一件制造品，包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上，从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程，使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

虽然在各种实施例中已经示出了本文的原理，但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。

前述具体说明已参照各种实施例进行了描述。然而，本领域技术人员将认识到，可以在不脱离本披露的范围的情况下进行各种修正和改变。因此，对于本披露的考虑将是说明性的而非限制性的意义上的，并且所有这些修改都将被包含在其范围内。同样，有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而，益处、优点、问题的解决方案以及任何能产生这些的要素，或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体，皆属于非排他性包含，这样包括要素列表的过程、方法、文章或设备不仅包括这些要素，还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外，本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。

具有本领域技术的人将认识到，在不脱离本发明的基本原理的情况下，可以对上述实施例的细节进行许多改变。因此，本发明的范围应仅由权利要求确定。

Claims

1.一种基于特征顶点组合的目标检测方法，用于检测待检测图像中的一个或多个目标物体，其特征在于，所述目标检测方法包括：

获取待检测图像；

从所述第一检测网络中选择至少一个隐藏层输出的特征图，根据特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度，在所选择的特征图上相应的位置截取出部分特征图，根据所述部分特征图构造第一特征向量，得到和特征顶点数量相同且一一对应的第一特征向量，将特征顶点的信息和对应的所述第一特征向量合并得到第二特征向量；

2.如权利要求1所述的目标检测方法，其特征在于，所述第一检测网络包括特征提取网络、分类检测网络和方框回归网络，所述特征提取网络用于根据输入图像计算得到第一特征图，所述分类检测网络用于根据所述第一特征图计算得到特征顶点所代表的局部特征的类别，所述方框回归网络用于根据所述第一特征图计算得到特征顶点的姿态信息；

所述第一检测网络通过以下方式构建：

3.如权利要求2所述的目标检测方法，其特征在于，所述第二检测网络包括第一多层感知器、第二多层感知器和第三多层感知器；将所述第二特征向量输入预先构建的第二检测网络中，得到每个特征顶点的全局类别和局部类别，包括：

4.如权利要求3所述的目标检测方法，其特征在于，所述第二检测网络通过以下方式构建：

从所述第一检测网络中选择至少一个隐藏层输出的特征图，根据样本图像的特征顶点的坐标，以及特征顶点的外接矩形的长度、宽度或外包矩形的长度、宽度，在所选择的特征图上相应的位置截取出部分特征图，根据所述部分特征图构造第一特征向量，得到和特征顶点数量相同且一一对应的第一特征向量，将所述特征顶点的信息和对应的所述第一特征向量合并得到第二特征向量；

5.如权利要求4所述的目标检测方法，其特征在于，所述第一损失函数为