CN110059734A

CN110059734A - 一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质

Info

Publication number: CN110059734A
Application number: CN201910259811.6A
Authority: CN
Inventors: 程郑鑫
Original assignee: Weisi Technology (beijing) Co Ltd
Current assignee: Zhongguancun Technology Leasing Co ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-07-26
Anticipated expiration: 2039-04-02
Also published as: CN110059734B

Abstract

本公开的实施例提供了一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质。采用多个预先标注有类别信息的训练图像对目标识别分类模型进行联合训练，包括：获取图像数据集，所述图像数据集为包括两个以上图像数据子集的联合数据集，其中，所述两个以上图像数据子集的标注类别不完全相同；根据所述两个以上图像数据子集的标注类别，获取各图像数据子集的合并类别群组信息；根据各图像数据子集的类别标签信息和合并类别群组信息，利用softmax群组交叉熵损失函数分别对各图像数据子集进行概率求和，得到目标识别分类的类别概率预测值。以此方式，训练前无需将原来的数据集重新进行标注，能够极大的降低数据标注成本。

Description

一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质

技术领域

本发明涉及人工智能领域，具体涉及一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质。

背景技术

过去几年，深度学习技术在解决诸如视觉识别任务、语音识别任务和自然语言处理任务等很多问题方面都取得了出色的表现。在不同类型的神经网络当中，卷积神经网络是得到最深入研究的，尤其是在计算机视觉识别任务中。早期由于缺乏足够多的训练数据和算力支撑，要在不产生过拟合的情况下训练高性能卷积神经网络是很困难的。随着标记数据的积累和近年来GPU并行运算技术的发展，使得卷积神经网络研究逐渐涌现出来并取得一流结果。

一般地，在主流识别分类任务中，通常都会选用Softmax交叉熵损失函数，同时为了增加算法的鲁棒性，会尽可能多的增加训练数据，但很多时候开源的数据集之间的类别标注标准不统一导致无法增加训练数据。比如基于图像的通用物体检测领域，有诸多高校或者研究机构开源的图像数据集。其中CCTSDB 数据集(CSUST Chinese Traffic SignDetection Benchmark)是由中国交通数据集由长沙理工大学综合交通运输大数据智能处理湖南省重点实验室张建明老师团队制作完成的一个中国交通标注数据集，包含指示标志、禁止标志、警告标志3个类别，图1a示出了CCTSDB数据集中一个图像的示例。而COCO数据集是微软团队开源的一个可以用来图像识别、检测、分割任务的图像数据集，检测任务中标注完成了行人，车辆等共计80个目标类别的信息，图1b示出了 COCO数据集中一个标注图像的示例。

现有的主流物体检测方法，能够分别用CCTSDB数据集和COCO数据集进行训练，那么，所带来的问题是，如果用CCTSDB数据集进行训练，则只能获得一个3个类别检测能力的算法模型；如果再采用COCO数据集进行训练，则该算法模型则又被训练为一个80个目标类别检测能力的算法模型。

但是，根据现有的主流物体检测方法，由于现有的图像数据集的没有统一的标注标准，各数据集的标注标准不一致，此时如果用户想同时联合图像数据集进行训练，例如采用COCO和CCTSDB两个数据集进行训练，想要获得83类别检测能力的算法模型，是无法实现的。

发明内容

因此，为了克服上述现有技术的缺点，本发明提供一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质。

为了实现上述目的，提供一种目标识别分类模型的训练方法，所述方法采用多个预先标注有类别信息的训练图像对目标识别分类模型进行联合训练，包括：

获取图像数据集，所述图像数据集为包括两个以上图像数据子集的联合数据集，其中，所述两个以上图像数据子集的标注类别不完全相同；

根据所述两个以上图像数据子集的标注类别，获取各图像数据子集的合并类别群组信息；

根据各图像数据子集的类别标签信息和合并类别群组信息，利用softmax 群组交叉熵损失函数分别对各图像数据子集进行概率求和，得到目标识别分类的类别概率预测值。

优选地，获取各图像数据子集的合并类别群组信息，包括，

获取图像数据集中所有标注类别的数量的并集，将其输出至各图像数据子集，将各图像数据子集的标注类别数量扩展至该并集的数量；

获取图像数据集中所有标注类别的种类的并集，将其输出至各图像数据子集，将各图像数据子集的标注类别种类扩展至该并集的标注种类；

获取原先不包含在各图像数据子集的标注类别种类，将其转换为背景类别。

优选地，进一步包括：

将图像数据集获取的图像数据集中的图像，送入检测器算法模型进行训练；

将所述检测器算法模型的softmax交叉熵损失函数修改为softmax群组交叉熵损失函数；

训练修改的检测器算法，得到合并类别的检测器算法模型；

将待识别图像，输入合并类别的检测器算法模型，获取预测输出结果；

绘制并展示所述预测输出结果。

优选地，图像数据子集的标注类别不完全相同是指各图像数据子集之间的标注类别没有交集或有部分交集。

优选地，将图像数据集中的图像，进行线性缩放到预设分辨率的图像，然后送入检测器算法模型进行训练。

优选地，所述预设分辨率包括但不限于：224×224、512×512、1020×2000。

优选地，检测器算法包括但不限于SSD检测算法，YOLO检测算法，Faster RCNN检测算法。

优选地，检测器算法包括但不限于SSD算法，修改SSD算法模型中用于检测输出预测类别概率的卷积层的卷积核数量，使其与合并类别的数量一致。

优选地，将得到所有的预测输出组合在一起，对组合结果进行非极大值抑制，把相近的预测矩形框进行融合，得到最终的预测输出效果。

优选地，网络采用的结构包括但不限于网络采用的结构包括但不限于：VGG 网络结构、GoogleNet网络结构、Resnet101网络结构。

本发明还公开了一种物体识别方法，将待识别的图像作为目标识别模型的输入，所述目标识别模型预先采用上述的方法进行训练。

本发明还公开了一种物体识别分类的训练装置，所述装置包括：

图像数据集获取单元，获取图像数据集，所述图像数据集为包括两个以上图像数据子集的联合数据集，其中，所述两个以上图像数据子集的标注类别不完全相同；

合并类别群组信息获取单元，根据所述两个以上图像数据子集的标注类别，获取各图像数据子集的合并类别群组信息；

目标识别单元，根据各图像数据子集的类别标签信息和合并类别群组信息，利用softmax群组交叉熵损失函数分别对各图像数据子集进行概率求和，得到目标识别分类的类别概率预测值。

优选地，合并类别群组信息获取单元进一步包括：

合并类别群组信息数量确定单元，用于获取图像数据集中所有标注类别的数量的并集，将其输出至各图像数据子集，将各图像数据子集的标注类别数量扩展至该并集的数量；

合并类别群组信息标注种类确定单元，用于获取图像数据集中所有标注类别的种类的并集，将其输出至各图像数据子集，将各图像数据子集的标注类别种类扩展至该并集的标注种类；

异类标注类别转换单元，用于获取原先不包含在各图像数据子集的标注类别种类，将其转换为背景类别。

优选地，进一步包括，

输送单元，用于将图像数据集获取的图像数据集中的图像，送入检测器算法模型进行训练；

修改单元，用于将所述检测器算法模型的softmax交叉熵损失函数修改为softmax群组交叉熵损失函数；

训练单元，用于训练修改的检测器算法，得到合并类别的检测器算法模型；

执行单元，用于将待识别图像，输入合并类别的检测器算法模型，获取预测输出结果；

展示单元，用于绘制并展示所述预测输出结果。

本发明还公开了一种物体识别分类的训练装置,包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现上述的方法。

本发明还公开了一种物体识别装置,包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现上述的方法。

本发明还公开了一种机器人，包括上述的物体识别分类的训练装置装置。

本发明还公开了一种机器人，包括上述物体识别装置的装置。

本发明还公开了一种非瞬时性计算机可读存储介质，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时，实现上述的方法。

与现有技术相比，本发明解决不同数据集之间的类别定义不统一的问题，比如在A数据集中标注了电动车，自行车，但是在B数据集中却将这两个类别标注为非机动车，本发明中实现的方法，能够针对类别定义不统一的问题进行有效的训练，能够支持不同标注标准的数据集进行联合训练；并且方便的往已经标注完成的数据集中，添加新的类别，而无需将原来的数据集重新进行标注。本发明能够极大的降低数据标注成本，实际的应用范围广泛，对实际的生产意义重大。

附图说明

图1a示出了CCTSDB图像数据集中某图像的示意图；

图1b示出了COCO图像数据集中某图像的示意图；

图2示出了根据本公开的实施例的用于目标识别分类模型的训练方法的流程图；

图3示出了根据本公开的实施例的用于目标识别分类模型的训练和识别方法的流程图；

图4示出了训练每个神经元梯度的算法流程图；

图5示出了通过数据集联合训练得到的检测模型的一个输出效果图。

图6示出了根据本公开的实施例的用于目标识别分类模型的训练的装置的方框图；

图7示出了能够实施本公开的实施例的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

在对本发明的具体实施例进行说明前，先对群组交叉熵损失函数进行一下阐述。

对于传统的Softmax交叉熵损失函数，一般在卷积神经网络算法中 Softmax的输入层为全连接层，假设分类任务为识别区分M个类别，每一个类别的输出激活值为：

f_m＝(x_iW)_m (1)

则认为相应的M个类别中第k类的概率P为：

则可以定义Softmax交叉熵损失函数L为：

考虑式(2)中的情况，当k＝m时，也即目标类别与识别类别一致时，则：

同理，考虑式(2)中的情况，当k≠m时，也即目标类别与识别类别不一致时，则：

由式(3)、式(4)、式(5)，可以得到交叉熵损失L对激活值f的梯度为：

一般地，我们采用交叉熵损失函数式(2)，使用式(6)中得到的梯度，已经能够满足识别分类等算法任务的训练。

但是有时候我们无法给出式(2)中的某一个类别k对应的概率p_i,k，受限于数据集只能给出因为不同数据集之间的分类标准不同，导致发生类别合并的现象。比如在数据集A中的类别C4(自行车)和类别C7(电动车)，在数据集B中被标注为同样的类别C9(非机动车)，考虑此时在数据集B 上发生了类别C4和类别C7的合并，也即在训练数据集B时，即使获得了非机动车的标签，但是并不能判定此时电动车的概率值。我们可以将合并之后的非机动车C9类别，定义为一个群组类别g，则此时的交叉熵损失函数可以引申为群组交叉熵损失函数，可以表示为：

式(7)中的群组g的组合概率P可以表示为：

考虑式(8)中的情况，则当m∈g时，也即目标类别m属于当前群组类别g 时，有：

同理，考虑式(8)中的情况，则当时，也即目标类别m不属于当前群组类别g时，有：

由式(7)、式(9)、式(10)，可以得到组合交叉熵损失函数对激活值f的梯度为:

式(11)中，y表示训练时真实类别标签群组，从式(11)中可以看出，如果数据集B中的类别标签为非机动车时，此时电动车类别的梯度为：

从式(6)和式(11)可以看出，当组合g中只有m一个类别时，softmax群组交叉熵损失函数退化为Softmax交叉熵损失函数，也即可以认为softmax群组交叉熵损失函数是传统Softmax交叉熵损失函数的一种推广，一种更复杂也更加灵活的表达，可以自由的发生类别合并问题。当在不同数据集之间，发生了类别合并，能够自适应的传递梯度，使得机器学习算法模型能够有效收敛。

在算法模型进行训练时，softmax群组交叉熵损失函数相比于Softmax交叉熵损失函数，不仅需要目标的类别属性，即，需要知道在训练过程中，训练目标的类别是什么，例如是汽车、人、电线杆等；还需要知道每一个样本的标注标准，也即每一个样本中，不同类别的标注的情况，例如在某一训练样本的标注标准是标注了汽车、人、电线杆、自行车等等。是否有类别被合并在一起进行标注，比如电动车类别和自行车类别，在某一训练样本中被归为非机动车类别进行标注。再比如未进行标注的类别，可以认为是与背景类别合并在一起进行标准。

上面是对群组交叉熵损失函数的原理进行了简单阐述，下面结合具体实施例，对本发明的方法进行阐述。

在本发明的一个实施例中，如图3所示，本公开实施例公开了一种对多个标注标准不同的图像数据集，对目标识别分类模型进行训练的方法，所述方法包括如下方法步骤：

获取图像数据集，所述图像数据集为包括两个以上图像数据子集的联合数据集，其中，所述两个以上图像数据子集的标注类别不完全相同。例如，互联网获取开源图像数据集，如上文中提到的COCO或CCTSDB等数据集，或者自行采集并标注图像数据集。将获取到的图像数据集称为P＝{P0,P1,…,Pn}，其中P0，P1，…，Pn等是相互之间标准标准不同的数据子集，比如COCO标注了 80个类别，其categories的key值指向不同类别的名称和编号，例如bus、 bicycle、car、truck等等类别，而CCTSDB只标注了3个类别，包括指示标志、禁止标志、警告标志。本方法就是将这两个数据集合并，以形成一个对83个类进行识别训练的模型。

下一步，根据所述两个以上图像数据子集的标注类别，获取各图像数据子集的合并类别群组信息。对步骤(1)中获取到的数据集子集，根据具体的标注情况定义类别群组信息。考虑只有COCO和CCTSDB两个数据组成的联合数据集的情况，其中COCO数据集标注了bicycle,car,motorbike,aeroplane,bus,train,truck,boat等80个类别， CCTSDB数据集只标注了3种交通标志类别，两个数据集加起来一共83个类别。

在一个实施例中，在图像数据子集的合并类别群组信息中包含如下的步骤信息：获取图像数据集中所有标注类别的数量的并集，将其输出至各图像数据子集，将各图像数据子集的标注类别数量扩展至该并集的数量；获取图像数据集中所有标注类别的种类的并集，将其输出至各图像数据子集，将各图像数据子集的标注类别种类扩展至该并集的标注种类；获取原先不包含在各图像数据子集的标注类别种类，将其转换为背景类别。

例如，定义COCO数据集的类别群组信息为{0,1,2,3,…,80,0,0,0},其中0 表示背景类，由于3种交通标志在COCO数据集中未进行标注，所以最后3个类别群组信息为0，相当于背景类。定义交通标志图像数据集CCTSDB的类别群组信息为{0,0,0,…,0,81,82,83}，由于前80类在CCTSDB数据集中未进行标注，所以前面的80个类别群组信息也0，相当于背景类。

所以在COCO数据集中，CCTSDB的标注标准的类别归0，四个0种类表示背景的类别群组信息；在CCTSDB数据集中，COCO的标注标准的种类归0，八十个0种类表示背景的类别群组信息。在该两个数据集形成的训练池中进行模型训练。

在另外一个例子中，A数据集的类别群组信息为{C4,C7}，C4表示自行车， C7表示电动自行车；B数据集的类别群组信息为{C9}，其中C9表示非机动车。那么，考虑此时在B数据集上发生了类别C4和类别C7的合并，也即在训练数据集B时，即使获得了非机动车的标签，但是并不能判定此时电动车的概率值。此时，A数据集信息被重新定义为{C4,C7,0},B数据集被重新定义为{0，0，C9}，我们可以将合并之后的非机动车C9类别，定义为一个群组类别，对该群组类别进行softmax群组交叉熵损失函数计算。在该两个数据集形成的训练池中进行模型训练。

接下来，根据上式(11)得到的梯度，来实现softmax群组交叉熵损失函数。图5是计算训练是每个神经元梯度的算法流程图。

首先，随机选取一个训练样本，获得该样本的真实类别，并且获取当前样本的标注标准；其次，初始化群组概率psum，进行群组概率求和。先将群组概率设为0；遍历当前样本每个类别的标注标准，判断当前类别是否与真实类别同组；如果当前类别与真实类别不同组，则继续遍历，直至遍历完成。如果当前类别与真实类别同组，则当前群组概率＝先前群组概率+当前类别预测概率，直至遍历完成。最后根据psum＝(psum-1.0f)/psum来求得群组概率。为了防止进行训练时求出的psum为0，防止产生除法出错，对psum进行除法时加上了一个对结果影响较小的微小量。接下来，再次对当前训练样本的每个类别的标注标准进行遍历，当当前类别与真实类别同组别时，梯度＝prob*psum，prob 为当前类别概率；当当前类别与真实类别不同组别时，梯度＝prob，其中prob 为当前类别预测概率，直至遍历完成。最后，输出各维度的更新梯度。

在接下来的过程中，将图像集中获取的图像，线性缩放到例如分辨率为512 ×512或224×224或1020×2000等分辨率的图像，然后送入检测器算法模型进行训练，如SSD(Single Shot MultiBox Detector)检测算法，YOLO(You Only Look Once)检测算法，Faster RCNN检测算法等。

将上述的检测器算法模型的分类损失函数由Softmax交叉熵损失函数修改为softmax群组交叉熵损失函数。

对修改后的检测器算法进行训练，得到扩展了标注类别和数量的检测器算法模型。例如上述的COCO和CCTSDB的联合，得到83个类别的检测器算法模型。

将一副新的图像，输入上面一步得到的物体检测器算法模型，将得到所有的预测输出组合在一起，对组合结果进行非极大值抑制(NMS)，把相近的预测矩形框进行融合，得到最终的预测输出效果。

将预测输出得到的所有预测结果，绘制并展示出来。如图5所示，即是在 COCO数据集和CCTSDB数据集上通过softmax群组交叉熵损失函数联合训练得到的检测模型。图中所示的类别car的检测能力来自于对COCO数据集的学习训练结果，类别prohibitory的检测能力来自于对CCTSDB的学习训练结果。

本发明的方案实施过程分为两个部分分别为训练和部署，训练SSD模型，然后部署在实际应用环境中。

1、在带有NVIDIA图像处理器GTX1080Ti的计算机上，安装Ubuntu1604 系统，并安装配置好NVIDIA官方提供的CUDA运行环境。

2、搭建Mxnet深度学习框架平台，Mxnet是一款优秀的主流深度学习框架，也是目前最受欢迎的深度学习框架之一。具有简洁的C++/Python接口，能够快速上手。Mxnet环境的搭建步骤可以参照官方的安装指南 http://mxnet.incubator.apache.org/install/index.html。

3、参照步骤(2)中提到的群组类别信息，定义不同标注标准的数据集对应的群组类别信息。

4、实现Mxnet版本的softmax群组交叉熵损失函数，也即在Mxnet框架添加一个新的Operater操作子。为了实现上的方便，可以参考Mxnet官方原始的Softmax交叉熵损失函数的实现，修改其中的梯度反向传播部分代码，利用训练时的群组类别信息，将发生了合并标注的类别的损失，组合在一起以计算梯度。

5、采用Mxnet版本的SSD算法，并修改检测器中的分类损失函数为softmax 群组交叉熵损失函数。SSD算法的实现细节可以参考https://github.com/zhreshold/mxnet-ssd，本发明中的基本网络结构采用了 VGG、GoogleNet、Resnet101等网络结构。

6、修改SSD算法模型中最后用于检测输出预测类别概率的卷积层的卷积核数量，因为检测类别的增加，所以相应的卷积核个数也要增加到与类别数量一致。

7、对上述SSD模型进行训练，能够得到训练之后的具备多类别检测能力的SSD模型，50000张图像，训练耗时大约是23个小时。在计算网络的回传梯度时，需要遍历每一个类别的群组信息，以获取类别的合并情况。

8、将得到的SSD模型用于预测，因为预测过程无需计算损失，此过程与原始SSD算法模型无异，区别在于检测类别数量会增加。

图6示出了根据本公开的实施例的用于物体识别分类的训练装置的方框图。该训练装置可以被包括在计算设备中或者被实现为计算设备。如图6所示，装置包括图像数据集获取单元，被配置为获取包括两个以上图像数据子集的联合数据集，其中，所述两个以上图像数据子集的标注类别不完全相同。装置还包括合并类别群组信息获取单元，被配置为根据所述两个以上图像数据子集的标注类别，获取各图像数据子集的合并类别群组信息；另外，装置还包括目标识别单元，根据各图像数据子集的类别标签信息和合并类别群组信息，利用 softmax群组交叉熵损失函数分别对各图像数据子集进行概率求和，得到目标识别分类的类别概率预测值。

在一些实施例中，合并类别群组信息获取单元进一步包括：

在一些实施例中，训练装置还可以包括：输送单元，用于将图像数据集获取的图像数据集中的图像，送入检测器算法模型进行训练；

在一些实施例中，训练装置还可以包括：修改单元，用于将所述检测器算法模型的softmax交叉熵损失函数修改为softmax群组交叉熵损失函数；

在一些实施例中，训练装置还可以包括：训练单元，用于训练修改的检测器算法，得到合并类别的检测器算法模型；

在一些实施例中，训练装置还可以包括：执行单元，用于将待识别图像，输入合并类别的检测器算法模型，获取预测输出结果；

在一些实施例中，训练装置还可以包括：展示单元，用于绘制并展示所述预测输出结果。

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。设备700可以用于实现图1的计算设备130。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可以存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元 708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

中央处理单元701执行上文所描述的各个方法和处理，例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法200、300、400、 500的一个或多个步骤。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300、400、500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种目标识别分类模型的训练方法，其特征在于，所述方法采用多个预先标注有类别信息的训练图像对目标识别分类模型进行联合训练，包括：

根据各图像数据子集的类别标签信息和合并类别群组信息，利用softmax群组交叉熵损失函数分别对各图像数据子集进行概率求和，得到目标识别分类的类别概率预测值。

2.如权利要求1所述的目标识别分类模型的训练方法，其特征在于，

获取各图像数据子集的合并类别群组信息，包括，

3.如权利要求2所述的目标识别分类模型的训练方法，其特征在于，进一步包括：

训练修改的检测器算法，得到合并类别的检测器算法模型；

绘制并展示所述预测输出结果。

4.如权利要求1所述的目标识别分类模型的训练方法，其特征在于：图像数据子集的标注类别不完全相同是指各图像数据子集之间的标注类别没有交集或有部分交集。

5.如权利要求3所述的方法，其特征在于，进一步包括：将图像数据集中的图像，进行线性缩放至预设分辨率的图像，然后送入检测器算法模型进行训练。

6.如权利要求5所述的方法，其特征在于，所述预设分辨率包括但不限于：224×224、512×512、1020×2000。

7.如权利要求3所述的方法，其特征在于，进一步包括：检测器算法包括但不限于SSD检测算法，YOLO检测算法，Faster RCNN检测算法。

8.如权利要求3所述的方法，其特征在于，进一步包括：检测器算法包括但不限于SSD算法，修改SSD算法模型中用于检测输出预测类别概率的卷积层的卷积核数量，使其与合并类别的数量一致。

9.如权利要求8所述的方法，其特征在于，进一步包括：将得到所有的预测输出组合在一起，对组合结果进行非极大值抑制，把相近的预测矩形框进行融合，得到最终的预测输出效果。

10.如权利要求1所述的方法，其特征在于，网络采用的结构包括但不限于：VGG网络结构、GoogleNet网络结构、Resnet101网络结构。

11.一种物体识别方法，其特征在于，将待识别的图像作为目标识别模型的输入，所述目标识别模型预先采用如权利要求1-10任一项所述的方法进行训练。

12.一种物体识别分类的训练装置，其特征在于，所述装置包括：

13.如权利要求12所述的训练装置，其特征在于，合并类别群组信息获取单元进一步包括：

14.如权利要求13所述的训练装置，其特征在于，进一步包括，

展示单元，用于绘制并展示所述预测输出结果。

15.一种物体识别分类的训练装置,其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现权利要求1-10任一所述的方法。

16.一种物体识别装置,其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现权利要求11所述的方法。

17.一种机器人，其特征在于，包括如权利要求12-15任一项所述的装置。

18.一种机器人，其特征在于，包括如权利要求16所述的装置。

19.一种非瞬时性计算机可读存储介质，其特征在于，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时，实现权利要求1-10任一所述的方法。