CN115409991A

CN115409991A - 目标识别方法、装置、电子设备和存储介质

Info

Publication number: CN115409991A
Application number: CN202211359281.0A
Authority: CN
Inventors: 李博宇; 张如高; 虞正华
Original assignee: Suzhou Moshi Intelligent Technology Co ltd
Current assignee: Suzhou Moshi Intelligent Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-11-29
Anticipated expiration: 2042-11-02
Also published as: CN115409991B

Abstract

本发明公开了一种目标识别方法、装置、电子设备和存储介质，所述方法包括：将目标图像分别输入至第一图像分割模型和第二图像分割模型；得到目标图像的第一类别和第二类别、第一类别对应的第一目标区域和第二类别对应的第二目标区域；在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域；将所述目标差异区域输入至基于统计学习理论的统计学习模型，得到目标图像的第三类别和所述第三类别在所述目标图像中的第三坐标区域。本发明提供的技术方案，能够在一定程度上提升图像识别的准确性。

Description

目标识别方法、装置、电子设备和存储介质

技术领域

本发明涉及辅助驾驶技术领域，具体涉及一种目标识别方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术（Artificial Intelligence，AI）的发展和崛起，基于人工智能算法的视觉识别技术成为了自动驾驶技术的核心。在一般情况下主要是通过摄像头对目标车辆，行人，车道线等进行识别，通过后续相应的融合决策规控等算法输出整车的控制信号，控制车辆完成高级辅助驾驶的功能。现有技术方案通常使用单一的深度学习模型网络实现对目标物的感知检测，由于深度学习主要是通过CNN卷积神经网络对信息进行特征提取和匹配，具有较大的不可解释性，容易对目标物的分类和识别造成误判。

发明内容

有鉴于此，本发明实施方式提供了一种目标识别方法、装置、电子设备和存储介质，在一定程度上能够提高图像识别的准确性。

本发明一方面提供了一种目标识别方法，所述方法包括：将表示车辆周围环境的目标图像输入至第一图像分割模型，得到所述目标图像的第一类别和所述第一类别在所述目标图像中的第一坐标区域；以及，将所述目标图像输入至第二图像分割模型，得到所述目标图像的第二类别和所述第二类别在所述目标图像中的第二坐标区域；所述第一图像分割模型和所述第二图像分割模型为异构模型；在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域；将所述目标差异区域输入至基于统计学习理论的统计学习模型，得到目标图像的第三类别和所述第三类别在所述目标图像中的第三坐标区域。

在一个实施方式中，目标识别方法还包括：在所述第一类别和所述第二类别相同且所述第一坐标区域和所述第二坐标区域的重叠度大于阈值的情况下，将所述第一类别/所述第二类别，以及第一坐标区域和所述第二坐标区域的并集作为目标图像的分类结果。

在一个实施方式中，目标识别方法还包括：若所述第三类别和所述第一类别/所述第二类别相同，且所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度大于阈值的情况下，将所述第三类别和所述第三坐标区域作为目标图像的分类结果。

在一个实施方式中，所述第一图像分割模型的输出结果还包括第一类别对应的第一置信度，所述第二图像分割模型的输出结果还包括第二类别对应的第二置信度，所述统计学习模型的输出结果还包括第三类别对应的第三置信度，目标识别方法还包括：若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一置信度、第二置信度和第三置信度中的最大值对应的类别和坐标区域作为目标图像的分类结果。

在一个实施方式中，目标识别方法还包括：若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别、所述第二类别和所述第三类别中属于需要采取制动措施的类别及其对应的坐标区域作为目标图像的分类结果。

在一个实施方式中，所述目标图像属于车辆在行驶过程中采集的视频流数据中的一帧图像；目标识别方法还包括：若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，在所述视频流数据中选取与所述目标图像的采集时间间隔小于预设时间间隔的一帧或多帧图像作为参考图像；以所述目标差异区域作为掩膜数据对所述参考图像进行截取，得到目标参考区域图像；将所述目标参考区域图像输入至所述统计学习模型，得到所述目标图像的参考类别和所述第三类别在所述目标图像中的参考坐标区域；若所述目标图像的参考类别和所述第三类别相同，以及所述第三坐标区域和所述参考坐标区域的重叠度大于阈值的情况下，将所述第三类别和所述第三类别的分类结果作为目标图像的分类结果。

在一个实施方式中，在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域包括：若所述第一类别和所述第二类别不同，将所述第一坐标区域和所述第二坐标区域并集作为目标差异区域；若所述第一类别和所述第二类别相同，且所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一坐标区域和所述第二坐标区域的并集和所述第一坐标区域和所述第二坐标区域的交集的差集作为目标差异区域。

本发明另一方面还提供了一种目标识别装置，所述目标识别装置包括：目标图像分割单元，用于将表示车辆周围环境的目标图像输入至第一图像分割模型，得到所述目标图像的第一类别和所述第一类别在所述目标图像中的第一坐标区域；以及，将所述目标图像输入至第二图像分割模型，得到所述目标图像的第二类别和所述第二类别在所述目标图像中的第二坐标区域；所述第一图像分割模型和所述第二图像分割模型为异构模型；目标差异区域提取单元，用于在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域；目标图像识别单元，用于将所述目标差异区域输入至基于统计学习理论的统计学习模型，得到目标图像的第三类别和所述第三类别在所述目标图像中的第三坐标区域。

本发明另一方面还提供了一种电子设备，所述电子设备装置包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的电容笔的配对方法。

本发明另一方面还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的目标识别方法。

通过构建多级异构的网络模型，通过双级深度学习异构网络提升检测的准确性，再通过深度学习比较器判断输出信息一致性，再通过后级传统机器学习网络模型对于前级输出信息差异的部分进行再次识别，使得整个网络能够极大的改善对与目标物的误检，漏检等问题，提升了系统的安全性和稳定性。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明的一个实施方式中目标识别系统场景示例交互图；

图2示出了本发明的一个实施方式中目标识别方法的模型内部架构示意图；

图3示出了本发明一个实施方式中目标识别方法的流程示意图；

图4示出了本发明一个实施方式中目标识别方法应用于车载系统的基本结构连接图；

图5示出了本发明一个实施方式中目标识别装置示意图；

图6示出了本发明一个实施方式中电子设备的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1。本说明书实施方式提供一种目标识别系统的场景示例。所述目标识别系统可以包括摄像头110、客户端120和服务器200。其中，所述摄像头110和客户端120安装在汽车100中。具体的，例如，客户端120可以获取摄像头110采集的汽车100在行驶过程中的周围环境数据，然后将视频流数据发送至远程的服务器200。服务器200在接收到该视频数据流之后可以将该视频数据流中的逐帧图像作为目标图像。

请参阅图2，首先将目标图像输入至经过训练的第一图像分割模型（U-net模型），得到目标图像的第一类别、第一类别对应的第一坐标区域以及第一类别对应的第一置信度，并且将目标图像输入至经过训练的第二图像分割模型（Res-net），得到目标图像的第二类别、第二类别对应的第二坐标区域以及第二类别对应的第二置信度。然后将第一图像分割模型和第二图像分割模型的输出结果输入至深度学习比较器（DeepLearning-Voter，DL-VT）进行对比和匹配。若第一图像分割模型的输出结果和第二图像分割模型的输出结果有差异后，将第一图像分割模型的输出结果和第二图像分割模型的输出结果的差异区域输入至基于统计理论的统计学习模型（支持向量机模型）进行二次判断。这里所述的差异区域可以是在第一类别和第二类别相同的情况下，将第一坐标区域和第二坐标区域的并集和第一坐标区域和第二坐标区域的交集的补集作为差异区域；差异区域也可以是在第一类别和第二类别不同的情况下，将第一坐标区域和第二坐标区域的并集作为差异区域。然后，可以将统计学习模型的输出结果作为目标图像的分类结果，并根据目标图像的分类结果发出相应的制动措施至客户端120。客户端120将该指令通过CAN信号发送至整车，实现车辆的辅助驾驶控制。

当然，若统计学习模型的分类结果和第一图像分割模型/第二图像分割模型的输出结果均不相同，出于安全角度考虑，可以将第一图像分割模型的输出结果、第二图像分割模型的输出结果和统计学习模型的分类结果被判断需要采取避障措施的分类结果作为目标图像的分类结果。

以上所述仅为本说明书提供的一个场景示例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

本说明书实施方式提供一种目标识别系统。所述目标识别系统可以包括车辆、摄像头、客户端和服务器。所述客户端可以是安装在车辆中具有网络访问能力的电子设备，并通过CAN信号实现对车辆的控制。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于所述电子设备中的软件。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然，所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。

请参阅图3，本申请一个实施方式提供的目标识别方法，该方法可以包括以下多个步骤。

S110：将表示车辆周围环境的目标图像输入至第一图像分割模型，得到所述目标图像的第一类别和所述第一类别在所述目标图像中的第一坐标区域；以及，将所述目标图像输入至第二图像分割模型，得到所述目标图像的第二类别和所述第二类别在所述目标图像中的第二坐标区域；所述第一图像分割模型和所述第二图像分割模型为异构模型。

请参阅图4，在一些情况下，为了实现车辆的辅助驾驶，通过在车内接入辅助驾驶控制器，该控制器接入外部传感器信号，包括摄像头模组的图像视觉信号，毫米波雷达的感知信号以及整车车身的CAN信号(如车速，轮速，航向角等)，对于图像感知信号使用本发明应用的视觉感知网络进行检测，将感知检测的信息通过控制器内部传递给控制微处理器，通过控制微处理器内部运算将控制指令通过CAN信号发给整车，实现车辆的辅助驾驶控制。在现有技术中，通过在该控制器内装载有单一的图像分割程序实现对目标物的感知检测，由于深度学习主要是通过卷积神经网络对信息进行特征提取和匹配，具有较大的不可解释性，容易对目标物的分类和识别造成误判。因此，可以通过将采集到的图像输入至两个不同的图像分类模型进行判断，从而可以在一定程度上提升图像分类模型的准确性。

在本实施方式中，所述第一图像分割模型可以是卷积神经网络CNN对图像信息进行推理，对目标物进行识别，分类与定位，输出的目标物的信息可以是ID、类别、位置、置信度等。所述第二图像分割模型的输入输出信息可以和第一图像分割模型的输入输出信息相同。需要说明的是，第一图像分割模型和第二图像分割模型属于异构模型。具体的，例如，第一图像分割模型可以是Resnet或Googlenet等模型，第二图像分割模型可以是Yolov5或Faster R-CNN等模型。

在本实施方式中，所述第一图像分割模型或所述第二图像分割模型采用的是基于深度学习的检测网络，包括以CNN（Convolutional Neural Network，卷积神经网络）为主的应用。包括数据输入层、卷积层、激活层、池化层和全连接层。输入层是对于图像信息进行均值化与归一化，将样本数据中心置于原点。卷积层通过卷积计算将样本数据进行降维采样，以获取具有空间关系特征的数据，基本的线性运算公式如下：其中f，g是可积分的函数：

激活层是对数据进行非线性变换处理，目的是对数据维度进行扭曲来获得更多连续的概率密度空间。在CNN中，激活层一般采用的激活函数是ReLU，它具有收敛快、求梯度简单等特点。基本的运算公式如下：

池化层夹在连续的卷积层中间，用于压缩数据的维度以减少过拟合。池化层使得CNN具有局部平移不变性，当需要处理那些只关注某个特征是否出现而不关注其出现的具体位置的任务时，局部平移不变性相当于为神经网络模型增加了一个无限强大的先验输入，这样可以极大地提高网络统计效率。选用的池化层为MaxPooling，即当采用最大池化策略时，可以采用最大值来代替一个区域的像素特征，这样就相当于忽略了这个区域的其他像素值，大幅度降低了数据采样维度。全连接层是在所有的神经网络层级之间都有权重连接，最终连接到输出层。

在本实施方式中，在将目标图像输入至第一图像分割模型/第二图像分割模型之前，还需要对输入的图像进行格式转换和预处理。首先对传感器输入的信号进行格式转换，可以是将RGB转换为YUV422便于后面算法处理。然后进行运算处理，可以通过线性纠正、噪点去除、坏点修补、颜色插值、白平衡校正、曝光校正等处理后的结果，从而保证图像质量。对感知结果框进行去畸变，计算光流金字塔；使用光流对camera进行倾角矫正；进行图像质量诊断等。然后将生成的图像信息传递到后面的感知检测网络中进行检测。

步骤S120：在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域。

在本实施方式，可以通过深度学习比较器将第一图像分割模型和第二图像分割模型的分类结果进行匹配。若两者匹配的结果相同，则可以直接将输出结果传递到感知信息输出模块，提供给后面的算法进行相应的运算处理。若两者相异，则说明个别网络存在误检，漏检等情况。通过该方法，既可以提高感知结果的准确性和有效性，也可以极大提高运算效率，提高系统的实时性。

在本实施方式中，所述目标差异区域是指第一图像分割模型的输出结果和第二图像分割模型的输出结果各个像素被分类成不同类别的像素集合。具体的，例如，若第一类别和第二类别相同，则目标差异区域是第一坐标区域和第二坐标区域的并集和第一坐标区域和第二坐标区域的交集的差集。若第一类别和第二类别不同，则目标差异区域是第一坐标区域和第二坐标区域的并集。

步骤S130：将所述目标差异区域输入至基于统计学习理论的统计学习模型，得到目标图像的第三类别和所述第三类别在所述目标图像中的第三坐标区域。

在本实施方式中，所述统计学习模型用于将上述目标差异区域的图像进行图像识别和分类。需要说明的是，所述统计学习模型采用的方法不是基于CNN的神经网络，而且基于传统的运算与计算方式进行特征匹配，这种方式的可解释和推导性更强，更能够对运算过程进行设计。可以采用的网络包括支持向量机SVM Support Vector Machines，主要过程是对于给定数据集寻找一个超平面，最优超平面应当使支持向量到超平面上的几何间隔d最大，最终得到分类的结果并结合输入信息，输出对于差异目标最终识别的结果信息。当然，所述统计学习模型还可以是最近邻法、贝叶斯最大似然估计法等基于统计理论的方法。由于统计学习模型的可解释性较强，可以利用基于符合ISO26262的功能安全标准流程对该网络进行开发和设计，包括需求分析，安全机制的实施，编码规则，覆盖度验证等方法使其能够符合车载安全合规性的要求，提高识别准确度和稳定性，进一步提升整个感知检测系统的安全性。

最后，可以将上述多级异构网络输出的识别信息包括目标物的类别，定位，置信度等信息输出后级模块，通过后级融合，决策，规划控制算法输出整车的CAN控制信号，控制车辆完成辅助驾驶的相关功能。

在一个实施方式中，目标识别方法还可以包括：在所述第一类别和所述第二类别相同且所述第一坐标区域和所述第二坐标区域的重叠度大于阈值的情况下，将所述第一类别/所述第二类别，以及第一坐标区域和所述第二坐标区域的并集作为目标图像的分类结果。

在本实施方式中，若第一图像分割模型的输出结果和第二图像分割模型的输出结果经过深度学习比较器（DL-VT）比较后，发现两者的结果近似相同，则可以将这两个模型的输出结果作为目标图像的分类结果。当然，也可以将第一坐标区域和第二坐标区域的并集作为目标对象所在的目标区域。

在一个实施方式中，目标图像的识别方法还可以包括：若所述第三类别和所述第一类别/所述第二类别相同，且所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度大于阈值的情况下，将所述第三类别和所述第三坐标区域作为目标图像的分类结果。

在本实施方式中，统计学习模型对目标差异区域的分类结果和第一图像分割模型/第二图像分割模型的输出结果对目标差异区域的任一分类结果相同，则可以将统计学习模型的输出结果作为目标图像的分类结果。

在一个实施方式中，所述第一图像分割模型的输出结果还包括第一类别对应的第一置信度，所述第二图像分割模型的输出结果还包括第二类别对应的第二置信度，所述统计学习模型的输出结果还包括第三类别对应的第三置信度，目标识别方法还可以包括：若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一置信度、第二置信度和第三置信度中的最大值对应的类别和坐标区域作为目标图像的分类结果。

在本实施方式中，各个图像分割模型的输出结果还包括各个类别对应的置信度。如果统计学习模型对目标差异区域的分类结果和第一图像分割模型/第二图像分割模型的输出结果对目标差异区域的任一分类结果均不相同，则可以将目标差异区域通过逐像素对比的方式，将三种图像分割模型中该像素的类别的置信度的最大值对应的分类作为该像素的分类结果。

在一个实施方式中，目标识别方法还可以包括：若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别、所述第二类别和所述第三类别中属于需要采取制动措施的类别及其对应的坐标区域作为目标图像的分类结果。

在本实施方式中，出于安全驾驶的角度考虑，若三种分类模型的输出结果均不相同，则可以将三个模型的输出结果中属于需要采取相应的制动措施的分类作为目标图像的分类结果。

在一个实施方式中，所述目标图像属于车辆在行驶过程中采集的视频流数据中的一帧图像；目标识别方法还可以包括：若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，在所述视频流数据中选取与所述目标图像的采集时间间隔小于预设时间间隔的一帧或多帧图像作为参考图像；以所述目标差异区域作为掩膜数据对所述参考图像进行截取，得到目标参考区域图像；将所述目标参考区域图像输入至所述统计学习模型，得到所述目标图像的参考类别和所述第三类别在所述目标图像中的参考坐标区域；若所述目标图像的参考类别和所述第三类别相同，以及所述第三坐标区域和所述参考坐标区域的重叠度大于阈值的情况下，将所述第三类别和所述第三类别的分类结果作为目标图像的分类结果。

在本实施方式中，由于不能确定目标图像的类别，且对于视频流数据，其连续的几帧图片的变化很微小，因此，可以将该目标图像相邻的图像作为参考图像，然后以目标差异区域作为掩膜图像对参考图像进行截取，将经过截取的参考图像输入至统计学习模型，得到目标图像的分类结果。

在本实施方式中，通过将第一图像分割模型的输出结果和第二图像分割模型的输出结果进行对比分析，判断这两个模型的输出结果是否相同或者相似。两个模型的输出结果不同主要体现在类别不同或类别相同，但类别对应的坐标区域不同。对于类别不同的情况，则目标差异区域可以是第一坐标区域和第二坐标区域的并集。对于类别相同，类别对应的坐标区域不同的情况，则目标差异区域可以是所述第一坐标区域和所述第二坐标区域的并集和所述第一坐标区域和所述第二坐标区域的交集的差集。

请参阅图5，本申请一个实施方式还提供一种目标识别装置，所述目标识别装置可以包括：目标图像分割单元、目标差异区域提取单元、目标图像识别单元。

目标图像分割单元，用于将表示车辆周围环境的目标图像输入至第一图像分割模型，得到所述目标图像的第一类别和所述第一类别在所述目标图像中的第一坐标区域；以及，将所述目标图像输入至第二图像分割模型，得到所述目标图像的第二类别和所述第二类别在所述目标图像中的第二坐标区域；所述第一图像分割模型和所述第二图像分割模型为异构模型。

目标差异区域提取单元，用于在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域。

目标图像识别单元，用于将所述目标差异区域输入至基于统计学习理论的统计学习模型，得到目标图像的第三类别和所述第三类别在所述目标图像中的第三坐标区域。

关于目标识别装置实现的具体功能和效果，可以参照本说明书其他实施方式对照解释，在此不再赘述。所述目标识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图6，本申请一个实施方式还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的目标识别方法。

其中，处理器可以为中央处理器（Central Processing Unit，CPU）。处理器还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施方式中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请一个实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的目标识别方法。

本领域普通技术人员可以理解实现所述实施方式方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如所述各方法的实施方式的流程。其中，本说明书所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

本说明书多个实施方式之间，采用递进的方式进行描述。不同的实施方式着重于描述相较于其它实施方式不相同的部分。所属领域技术人员在阅读本说明书之后，可以获知本说明书中的多个实施方式，以及实施方式揭示的多个技术特征，可以进行更多种的组合，为使描述简洁，未对所述实施方式中的各个技术特征所有可能的组合都进行描述。然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的多个实施方式本身均着重于强调与其他实施方式不同的部分，各实施方式之间可以相互对照解释。所属领域技术人员基于一般的技术常识对本说明书中的多个实施方式的任意组合均涵盖于本说明书的揭示范围内。

以上所述仅为本案的实施方式而已，并不用以限制本案的权利要求保护范围。对于本领域技术人员来说，本案可以有各种更改和变化。凡在本案的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本案的权利要求范围之内。

Claims

1.一种目标识别方法，其特征在于，所述方法包括：

将表示车辆周围环境的目标图像输入至第一图像分割模型，得到所述目标图像的第一类别和所述第一类别在所述目标图像中的第一坐标区域；以及，将所述目标图像输入至第二图像分割模型，得到所述目标图像的第二类别和所述第二类别在所述目标图像中的第二坐标区域；所述第一图像分割模型和所述第二图像分割模型为异构模型；

在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域；

将所述目标差异区域输入至基于统计学习理论的统计学习模型，得到目标图像的第三类别和所述第三类别在所述目标图像中的第三坐标区域。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一类别和所述第二类别相同且所述第一坐标区域和所述第二坐标区域的重叠度大于阈值的情况下，将所述第一类别/所述第二类别，以及第一坐标区域和所述第二坐标区域的并集作为目标图像的分类结果。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第三类别和所述第一类别/所述第二类别相同，且所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度大于阈值的情况下，将所述第三类别和所述第三坐标区域作为目标图像的分类结果。

4.根据权利要求3所述的方法，其特征在于，所述第一图像分割模型的输出结果还包括第一类别对应的第一置信度，所述第二图像分割模型的输出结果还包括第二类别对应的第二置信度，所述统计学习模型的输出结果还包括第三类别对应的第三置信度，所述方法还包括：

若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一置信度、第二置信度和第三置信度中的最大值对应的类别和坐标区域作为目标图像的分类结果。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别、所述第二类别和所述第三类别中属于需要采取制动措施的类别及其对应的坐标区域作为目标图像的分类结果。

6.根据权利要求1所述的方法，其特征在于，所述目标图像属于车辆在行驶过程中采集的视频流数据中的一帧图像；所述方法还包括：

若所述第三类别和所述第一类别/所述第二类别不同和/或所述第三坐标区域和所述第一坐标区域/所述第二坐标区域的重叠度小于或等于阈值的情况下，在所述视频流数据中选取与所述目标图像的采集时间间隔小于预设时间间隔的一帧或多帧图像作为参考图像；

以所述目标差异区域作为掩膜数据对所述参考图像进行截取，得到目标参考区域图像；

将所述目标参考区域图像输入至所述统计学习模型，得到所述目标图像的参考类别和所述第三类别在所述目标图像中的参考坐标区域；

若所述目标图像的参考类别和所述第三类别相同，以及所述第三坐标区域和所述参考坐标区域的重叠度大于阈值的情况下，将所述第三类别和所述第三类别的分类结果作为目标图像的分类结果。

7.根据权利要求1所述的方法，其特征在于，在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域包括：

若所述第一类别和所述第二类别不同，将所述第一坐标区域和所述第二坐标区域并集作为目标差异区域；

若所述第一类别和所述第二类别相同，且所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一坐标区域和所述第二坐标区域的并集和所述第一坐标区域和所述第二坐标区域的交集的差集作为目标差异区域。

8.一种目标识别装置，其特征在于，所述目标识别装置包括：

目标图像分割单元，用于将表示车辆周围环境的目标图像输入至第一图像分割模型，得到所述目标图像的第一类别和所述第一类别在所述目标图像中的第一坐标区域；以及，将所述目标图像输入至第二图像分割模型，得到所述目标图像的第二类别和所述第二类别在所述目标图像中的第二坐标区域；所述第一图像分割模型和所述第二图像分割模型为异构模型；

目标差异区域提取单元，用于在所述第一类别和所述第二类别不同或所述第一坐标区域和所述第二坐标区域的重叠度小于或等于阈值的情况下，将所述第一类别和所述第二类别的差异区域作为目标差异区域；所述目标差异区域是所述目标图像的部分区域；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任一所述的方法。