CN111339975A

CN111339975A - 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法

Info

Publication number: CN111339975A
Application number: CN202010139477.3A
Authority: CN
Inventors: 唐漾; 钟伟民; 杜文莉; 钱锋
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-26
Anticipated expiration: 2040-03-03
Also published as: CN111339975B

Abstract

本发明涉及图像处理与计算机视觉领域，更具体的说，涉及一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法。本方法包括：S1采用中心尺度预测算法模型进行目标检测，标记所有目标；S2采用K最邻近算法模型对待检测图像进行目标识别，确定特定目标；S3采用全卷积孪生神经网络掩膜算法模型进行特定目标跟踪。本发明提出的方法，使用一种基于卷积神经网络的中心尺度预测方法进行行人检测，使用K最近邻方法进行行人识别，使用基于孪生神经网络的跟踪方法进行行人跟踪，完成行人的检测识别跟踪的完整过程，对检测环境不敏感，检测、识别和跟踪的精度、成功率较高。

Description

基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法

技术领域

本发明涉及图像处理与计算机视觉领域，更具体的说，涉及一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法。

背景技术

图像处理与计算机视觉领域的目标检测识别跟踪算法，特别是指行人检测、识别和跟踪算法。

行人检测是为了找出在当前帧中行人可能存在的区域，获得行人的位置以及尺度大小。

传统行人检测方法中常用的有背景减除法和基于形状的检测方法：

背景减除法将行人抽象为一类运动特征，通过滤掉背景将行人提取出来；

基于形状的检测方法通过判断提取的特征是否符合人形。

这类传统行人检测方法容易受到环境变化和图像分辨率的影响，前者需要从图像序列当中获取背景信息，不适用于对单帧图像当中的行人进行检测，后者对亮度的敏感度较大。

而基于学习特征的方法能够较好的处理这些问题。

YOLOv3(You Only Look Once version3，唯一观察)算法模型借鉴了FPN(特征金字塔网络)，采用多尺度对不同大小的目标进行检测，提高检测精度。

而Ren et al发表于2015年NIPS(神经信息处理系统大会)的文献《Towards Real-Time Object Detection with Region Proposal Networks》，提到Faster R-CNN算法模型采用卷积神经网络、ReLU(Rec-tified Linear Unit，线性修正单元)激活函数进行特征处理，并基于候选框方法实现行人检测。Faster R-CNN算法模型是上述论文中提出的概念，业界没有中文表述，均以Faster R-CNN指代，具体可见引用论文出处。

行人识别是指将采集到的行人信息与模板或者数据库相比对，获取行人的属性或者身份。

当前的行人识别算法一般有三类：特征表示学习，距离度量学习以及深度学习算法。

行人跟踪是指在一串图像序列中通过某种方法将指定目标的位置标记出来。

传统的跟踪方法有基于特征的方法、基于滤波的方法和基于学习特征的方法。

基于特征的方法：通过逐帧提取出跟模板相匹配的特征确定目标的位置，但是这种方法与传统的检测方法类似，对环境光度，图片清晰度的变化较为敏感。

基于滤波的方法跟上述方法相比的优势在于不需要模型的制作，计算效率较高，跟踪速度快，但是对于长时间遮挡的情况较难处理，例如核相关滤波(KCF)等。

基于学习特征的方法则能从图像当中提取出高级特征，其对环境的适应性比较好，例如卷积特征等等。

发明内容

本发明的目的是提供一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，解决现有技术对目标检测识别跟踪的精度低、成功率低、对检测环境较为敏感的技术问题。

为了实现上述目的，本发明提供了一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，包括：

S1采用中心尺度预测算法模型进行目标检测，标记所有目标；

S2采用K最邻近算法模型对待检测图像进行目标识别，确定特定目标；

S3采用全卷积孪生神经网络掩膜算法模型进行特定目标跟踪。

在一实施例中，所述步骤S1，进一步包括：

S11特征提取，基于卷积神经网络，提取图像特征来进行模型训练和检测；

S12目标中心与尺度检测，获取目标的位置和大小。

在一实施例中，所述步骤S11，进一步包括：

使用5层的卷积层进行特征的提取，获取5层不同分辨率的特征；

将第3，4，5层的特征进行L2归一化，通过反卷积方式将特征尺度调整到与第2层网络特征相同的大小，再进行特征拼接。

在一实施例中，所述步骤S12，进一步包括：

使用3*3的卷积层将特征的通道维度降到256维；

利用两个1*1维的并联卷积层，获得待检测图像的中心热图与尺度图；

设定目标的高度与宽度的比例值一定，通过图像分辨率与中心热图、尺度图的对应关系，获得图像中目标的位置和大小。

在一实施例中，所述中心尺度预测算法模型的损失函数L，包括中心热图损失L_C和尺度模型损失L_S满足以下关系：L＝L_C+L_S：

所述中心热图损失L_C为：

其中，

p_ij为当前位置是目标中心的概率，参数K为目标的个数，α_ij、γ为超参数，y_ij为真值标签，M为高斯掩模，β为惩罚系数，G为二维高斯分布函数，x_k、y_k为均值，σ_w、σ_h为方差，H为图像的高度，W为图像的宽度；

所述尺度模型损失函数L_S为：

其中，参数s_k和t_k为第k个正样本的网络预测值和真值，k∈(1，K)，K为目标个数。

在一实施例中，所述步骤S2，进一步包括：

S21检测图像预处理；

S22利用K最邻近算法模型进行目标分类。

在一实施例中，所述步骤S21，进一步包括：

S211、检测区域分割，采用感兴趣区域算法将检测目标分割；

S212、灰度图处理，将分割后的图像转化为灰度图；

S213、调整图像大小，采用双线性插值法将灰度图转化为指定像素大小的目标图像；

S214、转换成向量，将目标图像的特征矩阵转换为单维形式的目标特征向量。

在一实施例中，所述步骤S22中，K最邻近算法模型的训练过程为：将每个训练样本处理成向量，不同种类的样本贴上不同的标签，最终形成划分不同种类数据的算法模型。

在一实施例中，所述步骤S22中，将目标特征向量输入基于K最邻近算法模型的分类器，在K最邻近算法模型中获取与目标特征向量最相近的K个实例，根据K个实例中多数实例的类别，判定该目标特征向量的所属类别。

在一实施例中，所述步骤S3中的全卷积孪生神经网络掩膜模型，主体由两个参数相同的全卷积孪生神经网络构成，存在两个输入，通过两个枝节的全卷积孪生神经网络处理获得两个输入的相似度，根据相似度比较获得目标位置

在一实施例中，所述步骤S3中的全卷积孪生神经网络掩膜模型，使用纵深卷积方式，将待检测图像的每个通道有相对应的卷积核进行卷积，生成一个多通道响应图。

在一实施例中，所述全卷积孪生神经网络掩膜模型的损失函数L_sim为：

其中，y为真值标签，取值为1或-1，D为响应图区域，u为响应图区域中的点，v为单样本候选对的相应实际值。

本发明提出的一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，使用一种基于卷积神经网络的中心尺度预测方法进行行人检测，使用K最近邻方法进行行人识别，使用基于孪生神经网络的跟踪方法进行行人跟踪，完成行人的检测识别跟踪的完整过程，对检测环境不敏感，检测、识别和跟踪的精度、成功率较高。

附图说明

本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显，在附图中相同的附图标记始终表示相同的特征，其中：

图1揭示了根据本发明一实施例的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法流程图；

图2揭示了根据本发明一实施例的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法的完整流程图；

图3揭示了根据本发明一实施例的孪生神经网络算法模型的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释发明，并不用于限定发明。

本发明提出了一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，可以实现对行人的检测、识别、跟踪，可应用于全自动的目标检测识别跟踪领域。

行人的检测、识别、跟踪在机器人跟踪、视频处理方面有着广大的应用，本发明提出的方法不只适用于行人，同样可以适用于其他特定目标，如当前市场上的产品有跟踪行李箱，视频监控设备等。

本发明提出了一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，包括以下步骤：

S1采用中心尺度预测(Center and Scale Prediction，CSP)算法模型进行目标检测，标记所有目标；

S2采用K最邻近算法模型进行目标识别，确定特定目标；

图1和图2分别揭示了根据本发明一实施例的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法流程图和完整流程图，如图1和图2所示，本发明的方法对应于三个部分:行人检测，行人识别，行人跟踪。

下面分别对每一步骤进行详细的说明。

步骤S1、采用中心尺度预测(Center and Scale Prediction，CSP)算法模型进行目标检测，标记所有目标。

该步骤为行人检测步骤，采用中心和尺度预测算法进行初始图像当中的行人检测，用于后续步骤的识别与跟踪。

在一实施例中，在行人众多的步行街上，需要完成对特定目标的跟踪工作，而第一步行人检测的任务是将当前场景中的行人标记出来。

本发明跟踪框架采用CSP(Center and Scale Prediction，中心和尺度预测)检测算法进行检测的实现。

更进一步的，本步骤分以下两步：

S12目标中心与尺度检测，获取目标的位置和大小。

步骤S11，特征提取，用来获取适合的特征来进行模型训练和检测使用。

首先进行特征提取，本发明的CSP算法使用基于卷积神经网络的特征提取方法。

以一帧图像作为输入，在网络的每一层会产生不同分辨率的特征图，表示为：

φ_i＝f_i(φ_i-1)＝f_i(f_i-1(...f₂(f₁(I))))

其中，f是每一层卷积运算，φ_i是每层卷积层的输出特征。

所有卷积层的特征构成的特征集合可以表示为：

Φ＝{φ₁,φ₂,...,φ_N}

在现有技术的一些检测算法中，只有最后的特征层被利用来进行检测。

本发明步骤S1的CSP算法模型中对特征的检测进行了改进，使用基于卷积神经网络的特征提取方式，对多分辨率图像进行特征融合，以提高检测精度。本发明步骤S1改进方法如下：

步骤S111、使用5层的卷积层进行特征提取，获取5层不同分辨率的特征。

其中，浅层特征能提供更多的精确定位信息，深层特征包含更多语义信息，因而采取将多种分辨率特征融合的方式以囊括更多特征提高检测精度。

所述浅层特征是指靠近起始层的网络输出的特征，所述深层特征是指靠近最后一层的网络输出的特征。

步骤S112、将3，4，5层的特征先进行L2归一化。

L2归一化的方法如下所示：

假设某一层的特征向量为：(x₀,x₁,x₂,x₃...,xn)；

则其L2归一化为：

S113、利用反卷积方式将特征尺度调整到与第2层网络特征相同的大小，再进行特征拼接，完成特征的处理。

所述反卷积方式，是指反卷积层将特征根据所需维度大小扩充成稀疏矩阵，再进行卷积获得不同维度的特征。

所述特征拼接，将各层反卷积之后的同维特征向量首尾连接。

步骤S12、目标中心与尺度检测，用来获取行人的位置和大小。

利用一个3*3的卷积层，将特征的通道维度降到256维；

利用两个相并联的1*1卷积层，获得待检测图像的中心热图与尺度图；

根据中心热图与尺度图获得待检测图像当前帧的候选特定目标的位置。

中心热图上数值最大的点为出现目标的概率最高点，尺度图与行人目标在图像当中所占的像素高度相关。在本发明的CSP算法模型中，设定行人的高度与宽度的比例值一定，因而可以获得图像中行人的位置和大小。

本步骤中采用中心尺度预测(Center and Scale Prediction，CSP)算法模型进行目标检测。在实际目标检测过程中，先导入训练完的CSP算法模型，读入视频帧或者通过传感器读取一帧图像，经CSP算法模型处理之后获取目标的位置与尺度。

在CSP算法模型的损失函数L，包括中心热图损失L_C和尺度模型损失L_S满足以下关系：L＝L_C+L_S。

中心热图模型的损失函数L_C为：

其中：

p_ij为当前位置是目标中心的概率，参数K是目标的个数，α_ij、r和γ是超参数，y_ij是真值标签，M高斯是高斯掩模，用来调整负样本对结果的影响大小，β是惩罚系数。

由于目标中心很难用一个固定的权值来表示，因而将其表示为一个二维高斯分布的函数G，均值为x_k,y_k,方差为σ_w，σ_h，H，W是图像的高度和宽度。

尺度模型的损失函数L_S表示成：

其中，参数s_k和t_k是第k个正样本的网络预测值和真值，k∈(1，K)，K是目标个数。

本发明的步骤S1，采用的中心和尺度检测CSP算法模型，通过多层卷积特征的融合，适应环境以及背景的变化，利用中心热图与尺度图的方式检测目标，提高检测精度与准确性。

步骤S2、采用K最邻近算法模型进行目标识别，确定特定目标。

经过上一步骤S1行人检测，将所有行人标记出来，但是本发明的方法最终要对特定目标进行跟踪，因此需要从检测出的行人当中找出特定目标。

本步骤S2的行人识别过程，使用KNN算法模型对分割出的行人图像进行最近邻搜索，完成行人识别，以保证在图像视野中出现多个行人的时候能够跟踪正确的目标。

本步骤S2为行人识别步骤，采用KNN(K-NearestNeighbour，K最近邻)算法模型来寻找特定目标，利用预先训练的KNN算法模型对检测出来的行人进行分类，根据分类结果确定当前帧的特定目标。

更进一步的说，本步骤S2包括以下两步：

S21检测图像预处理；

S22利用K最邻近算法模型进行目标分类。

步骤S21检测图像预处理，对检测到若干行人的图像进行预处理，使其达到KNN算法模型所需的格式要求。

本发明的步骤S21，对检测到的若干行人进行图像分割，并将分割结果处理成与K最近邻方法的训练样本相同图像格式以及大小的检测样本，利用K最近邻算法原理获得待检测样本的类别，确定特定跟踪目标的位置。

所述步骤S21，进一步包括以下步骤：

S211、检测区域分割，采用感兴趣区域算法将检测目标分割；

S212、灰度图处理，将分割后的图像转化为灰度图；

步骤S211、检测区域分割。

将检测的出的行人进行分割，具体采用提取ROI(Region of Interest，感兴趣区域)算法模型来实现。

在一实施例中，检测区域分割通过以下ROI算法模型实现：

彩色图像在计算机中以长为640像素，宽为480像素的多通道矩阵进行存储，每一个矩阵元素代表一个像素点；

根据检测出来的行人的像素坐标范围，将多通道矩阵的对应区域提取出来，形成一个单独的矩阵，该矩阵就对应一个目标区域。

对图像中所有的检测目标执行该操作，便能分割出所有的行人检测结果。

步骤S212、灰度图处理。

在完成分割之后，需要将目标图像处理成与模型相一致的图像格式，转化成灰度图。

与彩色图像不同，灰度图在计算机中的存储方式是长为640像素，宽为480像素的单通道矩阵，因而，需要将多通道的彩色图像的各通道像素数值进行一定的换算放进单通道矩阵的相对应位置，其换算公式为：

其中，P为灰度图的像素值，分母上R，G，B为彩色图像的三通道像素数值。

S213、调整图像大小。

为了平衡后K-最近邻算法的精度与模型的大小，在训练模型时采用长宽像素合适图像。较佳的，合适图像的像素大小为长宽50像素。

在一实施例中，调整图像大小将上述步骤的灰度图转化为像素合适的图片，通过双线性插值法实现。

所述双线性插值法是指：根据目标图像和原图像两者长边之间的比值与短边之间的比值，找出在原图像当中与目标图像各个像素相对应的位置。该位置未必正好落在某个像素点上，因而将该位置周围最近的四个像素点的值进行加权计算来获得该位置的像素值，以这样一个映射关系获得缩小之后的图像。

在一实施例中，目标图像是像素大小为50*50的图像，原图像是640*480的图像。

S214：转换成向量

由于KNN算法模型当中的实例是以单维向量的方式进行存储，因而在识别过程中需要将目标图像转换为相同的单维向量格式。

原目标图像特征矩阵用数学表达式表示为：

转换成单维形式的目标特征向量为：[a₁₁ … a_1n … a_n1 … a_nn]。

在一实施例中，在图像大小调整过程当中，图像已经被转换成了像素为50*50的大小，也就是一个行列均为50维的方阵，将其从行的角度拆开，以第一行为起始，后续行与其相拼接，最终形成行列为1*2500大小的行向量。

本发明的步骤S22利用K最邻近算法模型进行目标分类。

KNN算法模型是一种基于实例的学习方法，其核心思想是在一个样本空间当中找出与测试样本最相近的K个样本，根据K个样本中的大多数样本的类别判定该样本也属于该类别，并且具有与训练样本相似的属性。

KNN算法模型假定所有的实例对应于n维空间中的点，将任意的实例表示为一个特征向量：

＜a₁(x),...a_n(x)＞

其中，a_i为特征向量的第i个元素，i为1至n。

根据欧式距离定义实例的距离，两个实例x_i和x_j的距离定义为：

d为两个特征向量之间的距离。

通过获取待检测样本与样本中欧式距离最相近的K个实例，判定待检测样本所属类别。

KNN算法模型训练过程：在进行模型训练时，将每个训练样本处理成向量，其中不同种类的样本贴上不同的标签，最终形成划分不同种类数据的模型文件。

实际KNN算法模型训练过程如下所示：

将检测过程中获得的若干样本分成两类，一类为目标，一类为非目标，并将所有样本用步骤S21的检测图像预处理方法处理成统一格式。

分别放入两个文件夹中，贴上类别标签。

训练时，模型标签共分两类，标签“0”类和标签“1”类，前者代表非目标行人，后者代表目标行人。在一实施例中，标签类“0”共采集并处理2774个样本，标签类“1”共采集处理577个样本。

将两类加标签的样本放入KNN算法模型训练器进行训练，生成“.xml”格式的KNN模型文件。

KNN算法模型测试的识别过程如下所示：

将检测过程获得的目标图像经步骤S21的检测图像预处理方法进行处理之后，获得单维向量格式。在一实施例中，特征向量维度为1*2500。

将该特征向量送进KNN算法模型的分类器当中，与KNN算法模型相比对，在KNN算法模型中获取与其最相近的K个实例，判断K个实例当中多数实例属于哪一类，该类即为当前图像的分类结果，根据分类结果判断该行人是否为选定目标。其中，K为设定参数，为搜索的KNN算法模型当中的最近样本的个数。

为了能让人物选择选择更加丰富，可以在训练KNN算法模型时将类别标签分的更加具体，以跟踪不同的选定目标。

本发明的步骤S2，采用的K最近邻算法属于距离度量算法，其计算量小，效率高，样本量的需求较少，对于目标不确定的情况，可以较容易的改变识别目标的选择，并且对于行人分割较为清晰的情况下，具有较高的识别正确率。

S3：采用全卷积孪生神经网络掩膜算法模型进行特定目标跟踪。

经过上述步骤S2确定了当前场景中正确的特定跟踪目标以及位置，需要对后续图像帧中的特定目标进行位置标记。

本步骤S3的行人跟踪过程，使用基于孪生神经网络的SiamMask(全卷积孪生神经网络掩膜)算法模型进行跟踪的实现，由卷积神经网络构成孪生神经网络的主体(又称全卷积孪生神经网络)，并根据输出的相似度值的比较结果获得目标的位置，实现视频序列的目标跟踪。

孪生神经网络又可称为Siamese网络，主体由两个参数相同的神经网络构成，Siamese网络有两个输入，通过两个枝节的神经网络处理，获得两个输入的相似度。

SiamMask算法模型是Siamese网络的改进模型。在SiamMask算法模型当中，两个枝节的神经网络均为CNN卷积神经网络，又称为全卷积孪生神经网络。SiamMask算法模型的结构如图所示。

图3揭示了根据本发明一实施例的孪生神经网络算法模型的结构图，如图3所示，SiamMask算法模型的输入1为当前帧图像当中目标的位置图像，输入2为下一帧的区域采样图像。

最后输出两者之间的相似度为：

g_θ(z,x)＝fθ(z)*f_θ(x)

其中z，x是两个网络枝节的输入，f为卷积网络对应的映射，g为相似度值。

在当前帧当中会采样n个候选区域输入网络，获得n个候选区域的相似度，该操作称为获取每个候选区域的响应(RoW：response of a candidate window)。候选区域是当前帧中以上一帧目标坐标为中心的采样区域，RoW响应可以给出当前候选区域与上一帧当中目标的相似度。

在SiamMask算法模型当中，为了使跟踪结果更加精确，使用depth-wise(纵深)卷积方式，提取多通道特征，生成一个多通道响应图，反映候选区域与上一帧各通道特征之间的相似程度。

所述depth-wise卷积方式，图像的每个通道有相对应的卷积核进行卷积，不同于一般卷积当中相同卷积核对所有通道进行操作。

在测试过程中采用预先训练的SiamMask算法模型，SiamMask算法模型训练的损失函数L_sim为：

其中，y为真值标签，取值为1或-1，D为响应图区域，u为响应图区域当中的点，v为单样本候选对的相应实际值。

SiamMask算法模型的跟踪过程如下所示：

S31导入SiamMask算法模型；

S32将步骤S2的识别结果作为SiamMask算法模型的输入1；

S33对下一帧进行候选区域采样，将采样结果作为网络的输入2，计算获得两者的相似度，通过相似度比较获得下一帧的目标位置；

S34将下一帧的目标结果作为SiamMask算法模型的输入1，将其后视频帧当中的采样候选区域作为输入2，获得跟踪目标位置。

本发明的步骤S3利用SiamMask算法实现行人的跟踪环节，并且完成对跟踪目标的区分，整个过程具有较高的跟踪效率以及准确性。

本发明使用的全卷积孪生神经网络掩膜(SiamMask)方法是基于卷积特征的目标跟踪，利用孪生神经网络求取图片相似度，具有有较高的准确性。

下面通过实际测试，对采用本发明方法的行人检测、识别与跟踪进行性能指标评估。

首先定义以下测试指标，检测环节当中计算检测率、识别环节计算识别成功率和行人跟踪准确率。

检测环节当中计算检测率：

识别环节计算识别成功率：

行人跟踪准确率：

本次测试以及训练图片均来自ETH行人数据集，ETH行人数据集是一个包含行人的视频数据，可用以进行行人检测和识别等机器视觉任务。

表1检测率

图片数量	总行人数	检测数	漏检数	检测率
					284	1964	1792	172	91.2％

从表1可以得到，将数据集的另外284张图片作为测试图片，在284张测试图片当中，前后共有1964个行人，共检出1792个行人，漏检172个行人，检测率为91.2％。

表2识别成功率

表2中参数K是求取最近邻实例的个数，类别1是选定为目标的类型。

表3跟踪成功率

测试帧数	成功跟踪帧数	丢失帧数	帧率	成功率
					685	640	45	29.6fps	93.4％

表3中跟踪成功率为93.4％，总共测试帧数685帧，丢失45帧，丢失原因均是因为环境或者其他行人对目标产生了遮挡。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的，熟悉本领域的人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。

Claims

1.一种基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，包括：

2.根据权利要求1所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述步骤S1，进一步包括：

S12目标中心与尺度检测，获取目标的位置和大小。

3.根据权利要求2所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，

所述步骤S11，进一步包括：

所述步骤S12，进一步包括：

使用3*3的卷积层将特征的通道维度降到256维；

利用两个1*1维的并联卷积层，获得待检测图像的中心热图和尺度图；

4.根据权利要求1所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述中心尺度预测算法模型的损失函数L，包括中心热图损失L_C和尺度模型损失L_S满足以下关系：L＝L_C+L_S：

所述中心热图损失L_C为：

其中，

所述尺度模型损失函数L_S为：

5.根据权利要求1所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述步骤S2，进一步包括：

S21检测图像预处理；

S22利用K最邻近算法模型进行目标分类。

6.根据权利要求5所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述步骤S21，进一步包括：

S211、检测区域分割，采用感兴趣区域算法将检测目标分割；

S212、灰度图处理，将分割后的图像转化为灰度图；

7.根据权利要求5所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述步骤S22中，K最邻近算法模型的训练过程为：将每个训练样本处理成向量，不同种类的样本贴上不同的标签，最终形成划分不同种类数据的算法模型。

8.根据权利要求5所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述步骤S22中，将目标特征向量输入基于K最邻近算法模型的分类器，在K最邻近算法模型中获取与目标特征向量最相近的K个实例，根据K个实例中多数实例的类别，判定该目标特征向量的所属类别。

9.根据根据权利要求1所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述步骤S3中的全卷积孪生神经网络掩膜模型，主体由两个参数相同的全卷积孪生神经网络构成，存在两个输入，通过两个枝节的全卷积孪生神经网络处理获得两个输入的相似度，根据相似度比较获得目标位置。

10.根据根据权利要求1所述的基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法，其特征在于，所述全卷积孪生神经网络掩膜模型的损失函数L_sim为：

l(y,v)＝log(1+exp(-yv))