CN115546705B

CN115546705B - 目标识别方法、终端设备及存储介质

Info

Publication number: CN115546705B
Application number: CN202211504100.9A
Authority: CN
Inventors: 徐显杰; 马玉珍; 窦汝振; 包永亮
Original assignee: Tianjin Soterea Automotive Technology Co Ltd
Current assignee: Tianjin Soterea Automotive Technology Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-05-02
Anticipated expiration: 2042-11-29
Also published as: CN115546705A

Abstract

本发明提供了一种目标识别方法、终端设备及存储介质，首先获取待识别的视频图像；然后根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标；再根据多个预设指标对每个候选目标进行评价，得到每个候选目标的评价值；其中，多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值；最终将评价值大于预设目标阈值的候选目标识别为最终目标。通过从多个角度对识别的目标进行综合评价，能够有效避免外部因素对评价结果的影响，从而有效分辨并剔除识别的虚假目标，保证识别得到的目标都是最终目标，提高目标识别的准确性。

Description

目标识别方法、终端设备及存储介质

技术领域

本申请属于计算机视觉技术领域，尤其涉及一种目标识别方法、终端设备及存储介质。

背景技术

多目标跟踪(Multiple Object Tracking，MOT)，广泛应用于视频监控、人机交互、虚拟现实、智能交通、医学图像等领域。多目标跟踪的效果依赖于计算机视觉技术的目标识别精度，其中，计算机视觉技术主要基于单帧图像，通过卷积网络，给出目标识别结果。

现有技术中，通常是在识别目标之后基于目标位置自动输出识别目标的置信度来评估识别的目标是否有效，去除虚假目标。但输出的置信度过于依赖网络架构和训练样本的丰富程度，由于光线、场景复杂度、目标拍摄的角度、单帧目标特征辨识度等外部条件的影响，使用置信度对识别的目标的有效性进行评价时，置信度随外部条件的不断变化，难以得到稳定的评价结果，从而导致目标识别的效果变差。

发明内容

有鉴于此，本发明提供了一种目标识别方法、终端设备及存储介质，旨在解决现有技术使用置信度对识别的目标的有效性进行评价时，评价结果不够稳定导致目标识别效果差的问题。

本发明实施例的第一方面提供了一种目标识别方法，包括：

获取待识别的视频图像；

根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标；

根据多个预设指标对每个候选目标进行评价，得到每个候选目标的评价值；其中，多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值；

将评价值大于预设目标阈值的候选目标识别为最终目标。

本发明实施例的第二方面提供了一种目标识别方法，包括：

识别模块，用于根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标；

评价模块，用于根据多个预设指标对每个候选目标进行评价，得到每个候选目标的评价值；其中，多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值；

确定模块，用于将评价值大于预设目标阈值的候选目标识别为最终目标。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上第一方面的目标识别方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上第一方面的目标识别方法的步骤。

本发明实施例提供的目标识别方法、终端设备及存储介质，首先获取待识别的视频图像；然后根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标；再根据多个预设指标对每个候选目标进行评价，得到每个候选目标的评价值；其中，多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值；最终将评价值大于预设目标阈值的候选目标识别为最终目标。通过从多个角度对识别的目标进行综合评价，能够有效避免外部因素对评价结果的影响，从而有效分辨并剔除识别的虚假目标，保证识别得到的目标都是最终目标，提高目标识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的目标识别方法的应用场景图；

图2是本发明实施例提供的目标识别方法的实现流程图；

图3是预测目标的横坐标的残差示意图；

图4是预测目标的横坐标的残差正态分布拟合图；

图5是预测目标的纵坐标的残差示意图；

图6是预测目标的纵坐标的残差正态分布拟合图；

图7是本发明实施示例提供的目标识别方法的实现流程图；

图8是本发明实施例提供的目标识别装置的结构示意图；

图9是本发明实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1是本发明实施例提供的目标识别方法的应用场景图。如图1所示，本发明实施例提供的目标识别方法可以包括但不限于应用于该应用场景。在该发明实施例中，目标识别系统可以应用的场景包括但不限于视频监控、人机交互、虚拟现实、智能交通、医学图像。目标识别系统包括：摄像设备11以及终端设备12。

摄像设备11用于采集拍摄当前场景的图像，并上传给终端设备12。终端设备12在接收到拍摄的图像后，对多帧的拍摄图像分别进行目标识别，剔除其中的虚假目标，实现对最终目标的识别。

摄像机可以是手机内置摄像头、车载摄像机、路侧摄像单元等，在此不作限定。终端设备12可以是车载终端、手机、笔记本、智能机器人终端、无人机终端等，在此不作限定。

图2是本发明实施例提供的目标识别方法的实现流程图。如图2所示，在一些实施例中，目标识别方法，应用于图1中所示的终端设备12，该方法包括：

S210，根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标。待识别的视频图像包括多帧连续的图像。

在本发明实施例中，目标识别网络Faster R-CNN(Region-based ConvolutionalNeural Networks Created，基于区域创建的卷积神经网络)和FPN(Feature PyramidNetworks，特征金字塔)等单一网络，也可以是由两个以上的网络组成的混合网络，在此不作限定。

S220，根据多个预设指标对每个候选目标进行评价，得到每个候选目标的评价值；其中，多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值。

由于光线、场景复杂度、目标拍摄的角度和单帧目标特征辨识度等外部条件的影响，在网络架构和训练样本的丰富程度较低时，目标识别网络容易出现识别错误，因此需要对识别的目标进行评价，在本发明实施例中，给出了置信度、残差统计值、匹配度统计值、目标出现位置统计值进行识别目标的综合评价，每当目标识别网络输出一个目标时，都会相应输出该目标的一组指标值序列，然后根据指标值序列计算该目标的评价值。

S230，将评价值大于预设目标阈值的候选目标识别为最终目标。

在本发明实施例中，预设目标阈值可以根据数据统计得到。

在本发明实施例中，通过从多个角度对识别的目标进行综合评价，能够有效避免外部因素对评价结果的影响，从而有效分辨并剔除识别的虚假目标，保证识别得到的目标都是最终目标，提高目标识别的准确性。

在一些实施例中，S220可以包括：计算候选目标在每个预设指标下的指标值，得到每个候选目标的指标值序列；根据预先设置的多个预设指标各自的第一预设权重和每个候选目标的指标值序列，确定每个候选目标的评价值。

在本发明实施例中，各预设指标的权重可以相同，也可以不同，在此不作限定。对于某一个目标，将该目标的各指标值分别与其对应的第一预设权重相乘，再求和，即可得到该目标的评价值。

在一些实施例中，目标识别方法还包括：若候选目标的任一预设指标的指标值小于任一预设指标的预设指标阈值，则增加预设指标的第一预设权重。

上述实施例中设置权重的方式虽然能够多方面考虑所识别的目标的情况，但权重在一定程度上削弱了各指标的特性，主要考虑的是综合特性。例如在计算得到的置信度非常低，而其他指标较高时，所得到的评价值必然是一个较高的值，但由于置信度很低，所识别的目标很可能也是无效的。因此设置权重的方式也可能导致目标的错误识别。

在本发明实施例中，可以分别对各指标设置一个指标阈值，在某个指标的指标值低于指标阈值时，增大该指标的权重，这样既可以体现多指标的优越的综合性能，又能体现每个指标的特性。例如，在候选目标的置信度、残差统计值、匹配度统计值、目标出现位置统计值分别为 a ₁、 a ₂、 a ₃、 a ₄，假设其指标阈值均为 a ₀，其中， a ₀为一个非常小的值。在所有指标均大于 a ₀时，可以按照各自的第一预设权重计算评价值，例如按照一比一加权。但在 a ₁< a ₀时，表示候选目标的置信度非常低，但若其他指标相对较高，有可能导致评价值仍未一个较高的值，造成虚假目标的误识别，因此对于指标值非常小的指标，应适当提高其权重，来提高识别的准确度。

在一些实施例中，目标识别网络包括目标检测网络和语义分割网络。相应的，S210可以包括：根据目标检测网络，从待识别的视频图像中检测得到多个检测目标；根据语义分割网络和待识别的视频图像，得到待识别的视频图像中的多个语义目标；根据分割结果图，判断每个检测目标所在的目标框内的语义目标的像素占比是否大于预设比例；将像素占比大于预设比例的检测目标和该检测目标所在目标框内的语义目标融合为所述候选目标。

在本发明实施例中，可以用目标检测网络输出的目标与语义分割网络输出的分割结果图进行映射，也就是对目标检测网络的目标识别框内的识别结果与分割结果进行匹配。例如，如果目标识别结果为行人，且目标框内行人像素占比>30%，则此目标为融合目标(即上述实施例中的候选目标)。如果目标检测结果为骑手，则在目标框内检测骑手和两轮车的像素，两者像素总和占比>30%，则此目标为融合目标。

在一些实施例中，置信度包括由目标检测网络输出的目标置信度。相应的，计算候选目标在每个预设指标下的指标值，包括：根据目标检测网络，从待识别的视频图像的每帧图像中检测得到多个候选目标，并输出每帧图像下各候选目标的置信度值；根据每帧图像下各候选目标的置信度值，计算多个候选目标的目标置信度的指标值。

在本发明实施例中，单帧图像目标检测网络输出的目标包含目标的置信度信息，此信息可在目标跟踪过程中进行累计统计，并求出平均值，作为当前跟踪的检测目标的置信度值。然后可以对检测目标在各帧图像下的置信度值进行加权，得到检测目标的目标置信度的指标值。或者进行局部或者全局卷积，根据与当前帧的间隔帧数，设置权重比例，并将权重比例组成的卷积和与实际的检测目标的置信度值组成的跟踪置信度序列相乘，得到检测目标的目标置信度的指标值。

在一些实施例中，置信度还包括由目标检测网络和语义分割网络确定的融合置信度。相应的，计算候选目标在每个预设指标下的指标值，包括：当检测目标和语义目标在某帧图像下融合为候选目标时，根据检测目标与语义目标之间的重合面积，确定每个候选目标的融合度；计算在多帧图像下候选目标的融合度大于零的概率，并将其作为候选目标的融合率；根据多帧图像下候选目标的融合度的均值和候选目标的融合率，确定候选目标的融合置信度的指标值。

在本发明实施例中，在每得到一个候选目标时，都要计算其融合度，其中，检测目标与语义目标之间的重合面积越大，融合度越高。然后对多帧图像下候选目标的融合度进行统计，计算融合度的平均值作为候选目标的最终的融合度。其中，设置单帧图像下没有融合得到候选目标时的融合度为零。

在本发明实施例中，可以对多帧图像下的检测目标与语义目标是否融合进行统计，即对候选目标的融合次数进行统计，由此可以得到候选目标的融合率。

在本发明实施例中，在得到候选目标的融合度和融合率之后，可以进行加权，得到候选目标的融合置信度的指标值。

在一些实施例中，S220可以包括：根据卡尔曼模型确定各个候选目标在每帧图像下的残差；根据多帧图像下残差的平均值和预设残差比例系数，计算残差统计值。

在本发明实施例中，卡尔曼跟踪器具体模型与算法如下。跟踪模型基于匀速模型，建模如下：

(1)

(2)

其中，公式(1)为系统方程， X _k为系统状态量，， F为状态转移矩阵， V _k为系统噪声，其符合正态分布 V _k~ N(0, Q)。y和x分别为目标的纵坐标与横坐标， v _y为纵向速度， v _x为横向速度。

公式(2)为系统观测方程， W _k为测量噪声，其符合正态分布 W _k~ N(0, R)。

卡尔曼跟踪的过程如下：

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

其中，为状态预测值，为上一时刻的系统状态值，为预测的协方差，为预测的协方差， K _k为卡尔曼增益，为状态估计值， P _k为估计协方差更新值， e _k为滤波器残差， S _k为协方差矩阵更新值，F、Q、R、H为卡尔曼跟踪器的参数。

其中， Z _k为测量矩阵，为二维向量，如下式所示：

(11)

在建立卡尔曼跟踪器之后，需要进行卡尔曼预测参数初始化：

(12)

(13)

(14)

(15)

其中，T为数据更新周期，BSD数据更新周期根据系统时钟计算所得，所以在预测时，需要实时读取时间戳之差来判断周期T。然后在每次匹配完成之后，根据匹配的目标对上述的F、Q、R、H进行更新。

本发明实施例中，可以对采样周期为T的目标样本进行残差分析。

可以通过对模型残差 e _k进行正态分布拟合来创建正态分布对象，得到：

(16)

图3是预测目标的横坐标的残差示意图。其中横轴为预测目标的横坐标值，纵轴为残差。图4是预测目标的横坐标的残差正态分布拟合图。其中横轴为偏离平均值的差值，纵轴为概率密度。如图3和图4所示，横坐标 x的残差值 ex _k的期望和方差分别为： μ=-0.0140134， σ=0.473055。

图5是预测目标的纵坐标的残差示意图。其中横轴为预测目标的纵坐标值，纵轴为残差。图6是预测目标的纵坐标的残差正态分布拟合图。其中横轴为偏离平均值的差值，纵轴为概率密度。如图5和图6所示，纵坐标 y的值残差 ey _k的期望和方差分别为： μ=-0.263873， σ=0.948626。

可以得出， ex _k残差值落在范围内的概率：， ey _k残差值落在范围内的概率：。

本发明实施例中，通过残差分析可以对卡尔曼跟踪器的参数Q和R进行优化。

本发明实施例中，可以对整个跟踪过程的多帧图像中的某一目标持续进行残差统计，得到该目标的残差序列，然后计算残差序列的均值，从而计算残差统计值。可选的，残差统计值的计算方式可以为：所识别的目标的残差统计值=1-残差均值*残差比例系数

本发明实施例中，由于残差越大证明目标跟踪越不稳定，所以上式对残差的均值进行了量化，并对其取反，可使残差的均值与实际的残差统计值成反比。

在一些实施例中，S220可以包括：根据卡尔曼模型确定在每帧图像下的预测目标；计算预测目标与候选目标之间的距离方差关联值、重叠度关联值以及相似度关联值；根据距离方差关联值、重叠度关联值和相似度关联值，确定候选目标的匹配度统计值。

在本发明实施例中，距离关联关系可以为马氏距离、距离方差关联关系等，在此不作限定。重叠度关联关系可以是IoU(Intersection over Union，交并比)、GIoU(Generalized-IoU，广义交并比)、DIoU(Complete-IoU，考虑了中心点距离的交并比)、CIoU(Distance-IoU，考虑了中心点重合的交并比)。

其中，在计算距离方差关联关系时，可以先选择椭圆二维关联。然后可以进行归一化统计距离 D的计算： D ²= EP ^-1 E ^T。其中， E为滤波器残差(测量值与预测值之差)， P为残差的协方差矩阵。若目标已经进行跟踪后，则使用更新后的误差协方差，否则利用初始的协方差矩阵计算 P。二维椭圆关联门的计算方法如下：

(17)

其中， δ为各参数分布的标准差,x_（2）和y_（2）为本周期的测量值，x_（1）和y_（1）为上周期的预测值。

当各参数的差呈正态分布时， D ²= x符合自由度为2的 χ ²分布。实际上关联问题就是就变成了统一检验的问题。若 D ²< χ ²，则认为实验成功。第二个点落入关联门限的概率为：

(18)

随机变量不在关联门限内的概率为：

(19)

这样就把波门与P联系起来，对于单传感器来说 D ²< χ ²就意味着两个目标点关联成功，其中， χ ²为临界值，然后根据临界值可得到关联概率(相似度)。此时，关联问题就是就变成了统一检验的问题。可以设定关联概率后便可以进行将前后两个周期的数据进行概率关联，选定目标后作为测量数据输入卡尔曼跟踪器进行估计。若对于关联概率的选择（相似度）拟选定为 A%，可以得到 D ²< B时目标间存在关联关系，关系值的大小，其中， B为累计误差，可以通过试验确定。

其中，在计算重叠度关联关系时，可以计算已跟踪上目标集的预测框与新目标集的测量框的IoU，并返回IoU的关系值。如果IoU像素个数非零，则返回目标间存在关联关系。，其中为IoU关联系数，为IoU包含的像素个数，为两关联目标框中的并集。其中， w为目标框的宽度，h为目标框的高度。

在本发明实施例中，跟踪目标的匹配度=（1-（目标预测值与新目标集新目标的实际距离/0.21））*(1/2)+IOU*(1/2)。

在一些实施例中，S220可以包括：根据每帧图像下候选目标的位置和预设盲区中心点的距离，确定候选目标的目标出现位置统计值。

在本发明实施例中，基于目标不能凭空出现在路上的基本原则，对目标出现位置进行了限定，可以以盲区中心点为基准点，计算目标出现位置与盲区中心点的距离，量化后取相反数，可得目标出现位置的统计值。

下面提供了一个实施示例对本发明的方法进行说明，但并不作为限定。图7是本发明实施示例提供的目标识别方法的实现流程图。如图7所示，在该实施示例中，目标识别方法的步骤具体为：

1.获取待识别的视频图像。

2.将待识别的视频图像输入到目标检测网络和语义分割网络中，得到多个检测目标和多个语义目标。

3.将多个检测目标和多个语义目标进行融合，得到多个融合目标。

4.根据多帧图像对多个检测目标和多个语义目标进行卡尔曼跟踪，以确定多个检测目标和多个语义目标的轨迹，并且对于每帧图像都进行上述步骤1-3的识别过程，得到最终的多个候选目标。

5.计算各个候选目标的目标置信度、融合置信度、残差统计值、匹配度统计值和目标出现位置统计值，然后加权得到各个候选目标的评价得分。

6.将评价得分小于预设评分的候选目标删除，其余的候选目标作为最终目标。

综上，本发明的有益效果为：通过从多个角度对识别的目标进行综合评价，能够有效避免外部因素对评价结果的影响，从而有效分辨并剔除识别的虚假目标，保证识别得到的目标都是最终目标，提高目标识别的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图8是本发明实施例提供的目标识别装置的结构示意图。如图8所示，在一些实施例中，目标识别装置8，包括：

识别模块810，用于根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标。

评价模块820，用于根据多个预设指标对每个候选目标进行评价，得到每个候选目标的评价值；其中，多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值。

确定模块830，用于将评价值大于预设目标阈值的候选目标识别为最终目标。

可选的，评价模块820，具体用于：计算候选目标在每个预设指标下的指标值，得到每个候选目标的指标值序列；根据预先设置的多个预设指标各自的第一预设权重和每个候选目标的指标值序列，确定每个候选目标的评价值。

可选的，目标识别装置8还包括：调整模块，用于若候选目标的某个预设指标的指标值小于预设指标值，则将预设指标的第一预设权重增加至预设权重值。

可选的，目标识别网络包括目标检测网络和语义分割网络。相应的，识别模块810，具体用于：根据目标检测网络，从待识别的视频图像中检测得到多个检测目标；根据语义分割网络和待识别的视频图像，得到待识别的视频图像中的多个语义目标；根据分割结果图，判断每个检测目标所在的目标框内的语义目标的像素占比是否大于预设比例；将像素占比大于预设比例的检测目标和该检测目标所在目标框内的语义目标融合为所述候选目标。

可选的，置信度包括由目标检测网络输出的目标置信度。相应的，评价模块820，具体用于：根据目标检测网络，从待识别的视频图像的每帧图像中检测得到多个候选目标，并输出每帧图像下各候选目标的置信度值；根据每帧图像下各候选目标的置信度值，计算多个候选目标的目标置信度的指标值。

可选的，置信度还包括由目标检测网络和语义分割网络确定的融合置信度。相应的，评价模块820，具体用于当检测目标和语义目标在一帧图像下融合为候选目标时，根据检测目标与语义目标之间的重合面积，确定每个候选目标的融合度；计算在多帧图像下候选目标的融合度大于零的概率，并将其作为候选目标的融合率；根据多帧图像下候选目标的融合度的均值和候选目标的融合率，确定候选目标的融合置信度的指标值。

可选的，评价模块820，具体用于根据卡尔曼模型确定各个候选目标在每帧图像下的残差；根据多帧图像下残差的平均值和预设残差比例系数，计算残差统计值。

可选的，评价模块820，具体用于根据卡尔曼模型确定在每帧图像下的预测目标；计算预测目标与候选目标之间的距离方差关联值、重叠度关联值以及相似度关联值；根据距离方差关联值、重叠度关联值和相似度关联值，确定候选目标的匹配度统计值。

可选的，评价模块820，具体用于根据每帧图像下候选目标的位置和预设盲区中心点的距离，确定候选目标的目标出现位置统计值。

本实施例提供的目标识别装置，可用于执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图9是本发明实施例提供的终端设备的示意图。如图9所示，本发明的一个实施例提供的终端设备9，该实施例的终端设备9包括：处理器90、存储器91以及存储在存储器91中并可在处理器90上运行的计算机程序92。处理器90执行计算机程序92时实现上述各个目标识别方法实施例中的步骤，例如图2所示的S210至S230。或者，处理器90执行计算机程序92时实现上述各系统实施例中各模块/单元的功能，例如图8所示识别模块810至确定模块830的功能。

示例性的，计算机程序92可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器91中，并由处理器90执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序92在终端设备9中的执行过程。

终端设备9可以是物理终端设备、云终端设备、终端设备集群等，在此不作限定。终端可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图9仅仅是终端设备9的示例，并不构成对终端设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器91可以是终端设备9的内部存储单元，例如终端设备9的硬盘或内存。存储器91也可以是终端设备9的外部存储设备，例如终端设备9上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器91还可以既包括终端设备9的内部存储单元也包括外部存储设备。存储器91用于存储计算机程序以及终端所需的其他程序和数据。存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述目标识别方法实施例中的步骤。

计算机可读存储介质存储有计算机程序92，计算机程序92包括程序指令，程序指令被处理器90执行时实现上述实施例方法中的全部或部分流程，也可以通过计算机程序92来指令相关的硬件来完成，计算机程序92可存储于一计算机可读存储介质中，该计算机程序92在被处理器90执行时，可实现上述各个方法实施例的步骤。其中，计算机程序92包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

计算机可读存储介质可以是前述任一实施例的终端的内部存储单元，例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种目标识别方法，其特征在于，包括：

根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到所述待识别的视频图像中的至少一个候选目标；

根据多个预设指标对每个候选目标进行评价并对评价结果加权求和，得到每个候选目标的评价值；其中，所述多个预设指标包括：置信度、残差统计值、匹配度统计值、目标出现位置统计值；

将评价值大于预设目标阈值的候选目标识别为最终目标；

所述残差统计值、所述匹配度统计值、所述目标出现位置统计值的计算过程为：

根据卡尔曼模型确定各个候选目标在每帧图像下的残差；

根据多帧图像下所述残差的平均值和预设残差比例系数，计算所述残差统计值；

根据卡尔曼模型确定在每帧图像下的预测目标；

计算所述预测目标与所述候选目标之间的距离方差关联值、重叠度关联值以及相似度关联值；

根据所述距离方差关联值、所述重叠度关联值和所述相似度关联值，确定所述候选目标的匹配度统计值；

根据每帧图像下所述候选目标的位置和预设盲区中心点的距离，确定所述候选目标的目标出现位置统计值。

2.根据权利要求1所述的目标识别方法，其特征在于，所述根据多个预设指标对每个候选目标进行评价并对评价结果加权求和，得到每个候选目标的评价值，包括：

计算所述候选目标在每个预设指标下的指标值，得到每个候选目标的指标值序列；

根据预先设置的所述多个预设指标各自的第一预设权重和每个候选目标的指标值序列，确定每个候选目标的评价值。

3.根据权利要求2所述的目标识别方法，其特征在于，在根据预先设置的所述多个预设指标各自的第一预设权重和每个候选目标的指标值序列，确定每个候选目标的评价值之前，所述方法还包括：

若所述候选目标的任一预设指标的指标值小于所述任一预设指标的预设指标阈值，则增加所述预设指标的第一预设权重。

4.根据权利要求2所述的目标识别方法，其特征在于，所述目标识别网络包括目标检测网络和语义分割网络；

根据预先建立的目标识别网络，对待识别的视频图像进行目标识别，得到待识别的视频图像中的至少一个候选目标，包括：

根据所述目标检测网络，从所述待识别的视频图像中检测得到多个检测目标；

根据所述语义分割网络和待识别的视频图像，得到所述待识别的视频图像中的多个语义目标；

判断每个检测目标所在的目标框内的语义目标的像素占比是否大于预设比例；

将像素占比大于预设比例的检测目标和该检测目标所在目标框内的语义目标融合为所述候选目标。

5.根据权利要求4所述的目标识别方法，其特征在于，所述置信度包括由所述目标检测网络输出的目标置信度；

所述计算所述候选目标在每个预设指标下的指标值，包括：

根据所述目标检测网络，从所述待识别的视频图像的每帧图像中检测得到多个候选目标；

输出每帧图像下各候选目标的置信度值；

根据每帧图像下各候选目标的置信度值，计算所述多个候选目标的目标置信度的指标值。

6.根据权利要求4所述的目标识别方法，其特征在于，所述置信度还包括融合置信度；

所述融合置信度由所述目标检测网络输出的检测目标和所述语义分割网络输出的语义目标确定；

所述计算所述候选目标在每个预设指标下的指标值，包括：

若所述检测目标和所述语义目标在一帧图像下融合为所述候选目标，则根据所述检测目标与所述语义目标之间的重合面积，确定每个候选目标的融合度；

计算在多帧图像下所述候选目标的融合度大于零的概率，并将其作为所述候选目标的融合率；

根据所述多帧图像下所述候选目标的融合度的均值和所述候选目标的融合率，确定所述候选目标的融合置信度的指标值。

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上的权利要求1至6中任一项所述目标识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上的权利要求1至6中任一项所述目标识别方法的步骤。