CN113361593B

CN113361593B - 生成图像分类模型的方法、路侧设备及云控平台

Info

Publication number: CN113361593B
Application number: CN202110620624.3A
Authority: CN
Inventors: 夏春龙
Original assignee: Apollo Zhilian Beijing Technology Co Ltd; Apollo Zhixing Technology Guangzhou Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd; Apollo Zhixing Technology Guangzhou Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2023-12-19
Anticipated expiration: 2041-06-03
Also published as: JP2022078310A; US20220222921A1; EP4050570A3; KR20220047228A; CN113361593A; EP4050570A2

Abstract

本公开提供了一种生成图像分类模型的方法、路侧设备及云控平台，涉及智能交通、深度学习和计算机视觉等人工智能领域。该方法的一实施方式包括：获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别；确定目标图像的第一类别的预测概率；利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

Description

生成图像分类模型的方法、路侧设备及云控平台

技术领域

本公开实施例涉及计算机领域，具体涉及智能交通、深度学习和计算机视觉等人工智能领域，尤其涉及一种生成图像分类模型的方法、路侧设备及云控平台。

背景技术

图像分类作为计算机视觉的基本任务之一，已经得到了广泛的研究，并且取得了令人兴奋的成果。但是对于一些要求较高如细粒度分类的任务，这些基础模型仅通过增加预测的类别数目是远远不够的。因此，也诞生了一部分的细分类方法，这些方法有的是借助于检测或者分割等策略得到更加精细的分类特征。

发明内容

本公开实施例提出了一种生成图像分类模型的方法、路侧设备及云控平台。

第一方面，本公开实施例提出了一种生成图像分类模型的方法，包括：获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别；确定目标图像的第一类别的预测概率；利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

第二方面，本公开实施例提出了一种图像分类方法，包括：获取待分类图像；将待分类图像的图像特征输入如第一方面描述的图像分类模型中，得到待分类图像对应的第三类别的类别概率和第四类别的类别概率；根据第三类别的类别概率和第四类别的类别概率，确定待分类图像的目标类别。

第三方面，本公开实施例提出了一种生成图像分类模型的装置，包括：图像获取模块，被配置成获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别；概率确定模块，被配置成确定目标图像的第一类别的预测概率；模型训练模块，被配置成利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

第四方面，本公开实施例提出了一种图像分类装置，包括：图像获取模块，被配置成获取待分类图像；概率得到模块，被配置成将待分类图像的图像特征输入如第一方面描述的图像分类模型中，得到待分类图像对应的第三类别的类别概率和第四类别的类别概率；类别确定模块，被配置成根据第三类别的类别概率和第四类别的类别概率，确定待分类图像的目标类别。

第五方面，本公开实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面描述的方法。

第六方面，本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面描述的方法。

第七方面，本公开实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面描述的方法。

第八方面，本公开提出了一种路侧设备，包括第五方面描述的电子设备。

第九方面，本公开提出了一种云控平台，包括第五方面描述的电子设备。

本公开实施例提供的生成图像分类模型的方法、路侧设备及云控平台，首先获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别；然后确定目标图像的第一类别的预测概率；最后利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。可以利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。从而可以先学习第一类别，然后再根据第一类别和目标图像实现对第二类别的确定，该图像分类模型有一个由模糊到精细的一个过程，增强了模型的学习能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开可以应用于其中的示例性系统架构图；

图2是根据本公开的生成图像分类模型的方法的一个实施例的流程图；

图3是根据本公开的生成图像分类模型的方法的一个实施例的流程图；

图4是根据本公开的生成图像分类模型的方法的一个实施例的流程图；

图5是根据本公开的图像分类方法的一个实施例的流程图；

图6是根据本公开的图像分类方法的一个应用场景的示意图；

图7是根据本公开的生成图像分类模型的装置的一个实施例的示意图；

图8是根据本公开的生成图像分类模型的装置的一个实施例的示意图；

图9是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的生成图像分类模型的方法和装置或图像分类方法和装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送目标图像，以及目标图像的第一类别和第二类别等。终端设备101、102、103上可以安装有各种客户端应用、智能交互应用，例如视频相关的软件、图像相关的软件、图像处理应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，终端设备可以为与用户通过键盘、触摸板、显示屏、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、PPC(Pocket PC，掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以获取终端设备101、102、103上获取目标图像，以及目标图像的第一类别和第二类别；之后，服务器105可以确定目标图像的第一类别的预测概率；利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的生成图像分类模型的方法或图像分类方法一般由服务器105执行，相应地，生成图像分类模型的装置或图像分类装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的生成图像分类模型的方法的一个实施例的流程200。该生成图像分类模型的方法可以包括以下步骤：

步骤201，获取目标图像，以及目标图像的第一类别和第二类别。

在本实施例中，生成图像分类模型的执行主体(例如图1所示的终端设备101、102、103)从本地或远程获取目标图像，例如，通过拍摄装置拍摄目标图像，该拍摄装置可以为终端设备的摄像头或其外部的摄像装置；或生成图像分类模型的方法的执行主体(例如图1所示的服务器105)从本地或从终端设备(例如图1所示的终端设备101、102、103)上获取目标图像；之后，再获取目标图像的第一类别和第二类别。可选的，目标图像、目标图像的第一类别和第二类别可以同时获取。

上述第一类别和第二类别的数量可以为多个，“第一”和“第二”仅用于区分第一类别和第二类别，并不是用于限定第一类别和第二类别的个数以及顺序。

在这里，第一类别的级别可以高于第二类别，第一类别还可以包括至少一个第二类别。上述第一类别可以包括多种类型，该第一类别可以为级别高于第二类别的任意类别。上述第二类别可以包括多种类型。

需要说明的是，第一类别可以为对多个图像进行聚类得到的多个类别。

步骤202，确定目标图像的第一类别的预测概率。

在本实施例中，上述执行主体可以将目标图像输入图像分类模型的第一分类网络层中，得到第一类别的预测概率；或将目标图像输入相关技术中的其他分类模型中，得到预测概率。

在本实施例中，可以将目标图像输入图像分类模型中，得到目标图像的第一类别的预测概率。

步骤203，利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

具体地，上述执行主体在得到目标图像和第一类别，以及目标图像和第二类别后，可以利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别训练机器学习模型，得到图像分类模型。上述机器学习模型可以为现有技术或未来发展技术中的概率模型、分类模型或者其他分类器等，例如，机器学习模型可以包括以下任意一项：决策树模型(XGBoost)、逻辑回归模型(LR)、深度神经网络模型(DNN)、梯度提升决策树模型(Gradient Boosting Decision Tree，GBDT)。上述图像分类模型可以为多任务学习模型。

在一个示例中，训练图像分类模型的步骤如下：

输入：训练数据和label；输出：保存的模型；

步骤一：按照图二搭建网络模型及初始化参数；执行以下循环过程：

步骤二：批量输入数据到模型，进行前向传播；步骤三：计算由步骤二得到的输出与label(标签，即类别)之间的误差；步骤四：反传误差梯度更新权重；步骤五：判断保存条件是否满足，满足保存此次模型。

在训练完图像分类模型之后，进入测试过程，测试过程如下：步骤一：依次加载训练保存的模型；步骤二：输入待推理的数据至模型；步骤三：输出模型结果；步骤四：如果是第一次预测或者模型的结果优于现有保存的结果，则最后结果替换为本次的测试模型和结果。

需要说明的是，在本实施例中，可以通过第一类别和第二类别共同实现对图像的准确分类。

本公开实施例提供的生成图像分类模型的方法，首先获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别；然后确定目标图像的第一类别的预测概率；最后利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。可以利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。从而可以先学习第一类别，然后再根据第一类别和目标图像实现对第二类别的确定，该图像分类模型有一个由模糊到精细的一个过程，增强了模型的学习能力。

在本实施例的一些可选的实现方式中，获取目标图像，以及目标图像的第一类别和第二类别，包括：获取目标图像；获取目标图像的第一类别；根据第一类别和目标图像，确定目标图像的第二类别。

对应的，在该示例中，获取目标图像的第一类别可以包括：人工标注或模型输出的。

对应的，在该示例中，根据第一类别和目标图像，确定目标图像的第二类别，可以包括：将类别为第一类别的图像进行分类，得到第二类别。上述第一类别和第二类别的数量可以为多个，“第一”和“第二”仅用于区分第一类别和第二类别，并不是用于限定第一类别和第二类别的个数以及顺序。

在本实现方式中，第二类别还可以包括多个子类别，例如，第二类别还可以包括第三类别1、第三类别2、第三类别3等；其中，第三类别1、第三类别2、第三类别3的级别低于第二类别。

需要说明的是，对第二类别的更进一步的划分可以根据图像分类的精度或用户的需求进行设定。

在本实现方式中，通过对第一类别和第二类别的划分，可以进一步建立第一类别和第二类别之间的层级关系，以充分挖掘图像的类别特征。

在本实施例的一些可选的实现方式中，根据第一类别和目标图像，确定目标图像的第二类别，可以包括：根据第一类别，从预设的图像库中，获取第一类别对应的所有图像；根据目标图像，从第一类别对应的所有图像中，得到与目标图像匹配的图像；将与目标图像匹配的图像的第二类别，确定为目标图像的第二类别。

在本实施例中，上述执行主体可以根据第一类别，从预设的图像库中，获取第一类别对应的所有图像；根据目标图像，从第一类别对应的所有图像中，得到与目标图像匹配的图像；将与目标图像匹配的图像的第二类别，确定为目标图像的第二类别。

在本实现方式中，上述执行主体可以根据第一类别和目标图像，实现对目标图像的第二类别的确定。

在本实施例的一些可选的实现方式中，图像分类模型可以包括第一分类网络层；确定目标图像的第一类别的预测概率，可以包括：将目标图像输入第一分类网络层，得到目标图像的第一类别的预测概率。

在本实现方式中，通过图像分类模型的第一分类网络层实现对第一类别的预测概率的确定。

在本实施例的一些可选的实现方式中，图像分类模型还包括第二分类网络层；以及，利用目标图像、第一类别的预测概率和第二类别进行训练，以及目标图像和第一类别，得到图像分类模型，可以包括：将目标图像作为第一分类网络层的输入，将第一类别作为第一分类网络层的期望输出(即，输出真值或者label)；以及，将目标图像和第一类别的预测概率作为第二分类网络层的输入，将第二类别作为第二分类网络层的期望输出，训练机器学习模型，得到图像分类模型。

在本实现方式中，上述执行主体可以先将目标图像输入图像分类模型的第一分类网络层中，得到目标图像的第一类别的预测概率；以及将目标图像的第一类别的预测概率和目标图像输入图像分类模型的第二分类网络层中，得到目标图像的第二类别的预测概率；以及利用第一类别的预测概率和第一类别，构建第一分类网络层对应的损失函数；以及利用第二类别的预测概率和第二类别，构建第二分类网络层对应的损失函数；以及调整第一分类网络层对应的损失函数，以及第二分类网络层对应的损失函数，实现对图像分类模型的训练。

在本实现方式中，图像分类模型可以为多任务学习模型。

需要说明的是，第一分类网络层的数量可以由第一类别的种类所确定，第二分类网络层的数量可以由第二类别的种类所确定。可选的，第一分类网络层的数量与第一类别的种类数量一一对应，第二分类网络层的数量与第二类别的种类数量一一对应。

在本实现方式中，可以利用图像分类模型包括的第一分类网络层和第二分类网络层，实现对图像分类模型的训练。

在本实施例的一些可选的实现方式中，第二类别的类别数为所有第二类别中最大的类别数，其中，第一类别包括所有的第二类别。

在本实现方式中，上述第二类别的类别数可以为所有第二类别中类别数最大的类别数。

在一个示例中，第一类别A1包括第二类别a1、第二类别a2、第二类别a3；第一类别B1包括第二类别b1、第二类别b2、第二类别b3、第二类别b4和第二类别b5。其中，第一类别B1的类别数最大，将第二类别的类别数确定为5。

在本实现方式中，根据对第二类别的筛选，可以抑制影响小的第二类别，从而可以更一步突出第二类别的图像特征，进一步能够更准确地实现对图像的类别的确定。

在本实施例的一些可选的实现方式中，第一类别可以为父类类别，第二类别可以为子类类别。

在本实现方式中，该图像分类模块可以首先预测出抽象(父)类的类别，然后根据父类的预测概率选择预测子类类别的特征，在训练时对目标进行递进约束，简化了学习的难度，特别时多分类任务时，如通用分类100种，按照本公开的生成图像分类模型的方法，可以分成5大类，20小类。推理预测阶段根据父类预测结果和子类预测结果给出最终的预测值，简化了预测难度。优点是：(1)简化了算法多类别分类训练和预测的难度；(2)无需额外的辅助信息，在基本不增加计算量和参数量的情况下提升了通用分类模型的性能；(3)可以无损嵌入到现有的基础分类模型中构成一个可以细分类的模型。

进一步参考图3，图3示出了根据本公开的生成图像分类模型的方法的一个实施例的流程300。该生成图像分类模型的方法可以包括以下步骤：

步骤301，获取目标图像。

步骤302，获取目标图像的第一类别。

在本实施例中，生成图像分类模型的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以获取人工标注的第一类别或通过模型标注的第一类别。

步骤303，根据第一类别，从预设的图像库中，获取第一类别对应的所有图像。

在本实施例中，上述执行主体可以根据第一类别，从预设的图像库中，获取第一类别对应的所有图像。

需要说明的是，预设的图像库可以按照多个第一类别存储的图像，以便于从该预设的图像库中查询与第一类别对应的所有图像。

步骤304，根据目标图像，从第一类别对应的所有图像中，得到与目标图像匹配的图像。

在本实施例中，上述执行主体可以根据目标图像，从第一类别对应的所有图像中，得到与目标图像匹配的图像。上述与目标图像匹配的图像可以为与目标图像相同的图像；或，相似度满足预设相似度阈值的图像；该相似度阈值可以基于分类精度进行设置或由人工设定。

需要说明的是，预设的图像库可以按照以第一类别、以及第一类别的第二类别存储图像。

在一个示例中，“A图像”为预设的图像库中第一类别下第二类别对应的图像。

步骤305，将与目标图像匹配的图像的第二类别，确定为目标图像的第二类别。

步骤306，确定目标图像的第一类别的预测概率。

在本实施例中，上述执行主体可以将与目标图像匹配的图像的第二类别，确定为目标图像的第二类别。

在一个示例中，通过目标图像从第一类别对应的所有图像中进行检索，得到匹配的“B图像”，其中，“B图像”的类别为第一类别下的第二类别；之后，将“图像B”的类别确定为目标图像的第二类别。上述第一类别为多个大类别中的一个大类别，第二类别为第一类别包括的多个小类别中的一个小类别。

步骤307，利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

在本实施例中，步骤306和307的具体操作分别已在图2所示的实施例中步骤202和203进行了详细的介绍，在此不再赘述。

从图3中可以看出，与图2对应的实施例相比，本实施例中的生成图像分类模型的方法突出了确定第二类别的步骤。由此，本实施例描述的方案先根据获取的第一类别，从预设的图像库中，获取第一类别对应的所有图像；之后，根据目标图像，从第一类别对应的所有图像中，得到与目标图像匹配的图像；之后，将与目标图像匹配的图像的第二类别，确定为目标图像的第二类别。能够根据第一类别与目标图像，实现对目标图像的第二类别的标注，提高了图像分类模型的分类精度。

进一步参考图4，图4示出了根据本公开的生成图像分类模型的方法的一个实施例的流程400。该生成图像分类模型的方法可以包括以下步骤：

步骤401，获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别。

步骤402，确定目标图像的第一类别的预测概率。

步骤403，将目标图像作为第一分类网络层的输入，将第一类别作为第一分类网络层的期望输出；以及，将目标图像和第一类别的预测概率作为第二分类网络层的输入，将第二类别作为第二分类网络层的期望输出，训练机器学习模型，得到图像分类模型。

在本实施例中，生成图像分类模型的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以将目标图像作为第一分类网络层的输入，将第一类别作为第一分类网络层的期望输出；以及，将目标图像和第一类别作为第二分类网络层的输入，将第二类别作为第二分类网络层的期望输出，训练机器学习模型，得到图像分类模型。

在本实施例中，步骤401-402的具体操作分别已在图2所示的实施例中步骤301-302进行了详细的介绍，在此不再赘述。

从图4中可以看出，与图3对应的实施例相比，本实施例中的生成图像分类模型的方法突出了模型训练的步骤。由此，本实施例描述的方案将目标图像作为第一分类网络层的输入，将第一类别作为第一分类网络层的输出；以及，将目标图像和第一类别的预测概率作为第二分类网络层的输入，将第二类别作为第二分类网络层的输出，训练机器学习模型，以实现对图像分类模型的训练。

进一步参考图5，图5示出了根据本公开的图像分类方法的一个实施例的流程500。该图像分类方法可以包括以下步骤：

步骤501，获取待分类图像。

在本实施例中，图像分类方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以获取待分类图像。上述待分类图像可以为需要被分类的图像。

步骤502，将待分类图像的图像特征输入预先训练的图像分类模型中，得到待分类图像对应的第三类别的类别概率和第四类别的类别概率。

在本实施例中，上述执行主体可以将待分类图像输入预先训练的图像分类模型中，得到对应的第三类别的类别概率和第四类别的类别概率。上述图像分类模型可以用于确定待分类图像的类别，以实现对待分类图像的分类。上述第三类别的类别概率和第四类别的类别概率可以为图像分类模型输出的概率。

需要说明的是，预先训练的图像分类模型可以为生成图像分类模型的方法训练得到的模型。上述第三类别的级别可以高于第四类别。

步骤503，根据第三类别的类别概率和第四类别的类别概率，确定待分类图像的目标类别。

需要说明的是，上述图像分类模型还可以包括特征提取网络层。其中，特征提取层可以用于提取待分类图像的图像特征。

在本实施例中，上述执行主体可以根据第三类别的类别概率和第四类别的类别概率，确定待分类图像的目标类别。上述目标类别可以为待分类图像的类别。

在本实施例中，可以基于图像分类模型输出的第三类别的类别概率和第四类别的类别概率实现对待分类图像的分类。

在本实施例的一些可选的实现方式中，将待分类图像的图像特征输入预先训练的图像分类模型中，得到待分类图像对应的第三类别的类别概率和第四类别的类别概率，包括：将待分类图像的图像特征输入至图像分类模型的第一分类网络层中，得到待分类图像对应的第三类别的类别概率；将第三类别的类别概率和待分类图像的图像特征输入图像分类模型的第二分类网络层中，得到第四类别的类别概率。

在本实现方式中，上述执行主体可以先将将待分类图像的图像特征输入至图像分类模型的第一分类网络层中，得到待分类图像对应的第三类别的类别概率；之后，将第三类别的类别概率和待分类图像的图像特征输入图像分类模型的第二分类网络层中，得到第四类别的类别概率。

在本实现方式中，可以通过图像分类模型中的第一分类网络层和第二分类网络层实现对第三类别的类别概率和第四类别的类别概率的确定。

进一步参考图6，图6是根据本公开的图像分类方法的一个应用场景的示意图。在该应用场景中，图像分类模型包括特征提取网络层61(backbone)可以用于对待分类图像60(Image)进行特征提取，得到待分类图像的图像特征；之后，由池化网络层62(AVEPool)对待分类图像的图像特征进行下采样或空间特征降维，得到全局特征；之后，由第一全连接层63(FC1)可以对全局特征进行映射，以使第一全连接层的输入和输出隔离；之后，由第二全连接层64(FC2)对第一全连接层的输出特征进行处理，得到父类类别的初始类别概率，再通过Sigmoid 65对父类类别的初始类别概率进行归一化处理，得到归一化之后的父类类别的类别概率66；之后，由第三全连接层67(FC3)对第一全连接层的输出进行子类特征映射；之后，将父类类别的类别概率和第三全连接层的输出特征进行融合，得到候选特征；之后，再由第四全连接层68(FC4)对候选特征进行处理，得到子类类别的类别概率；之后，根据子类类别的类别概率和父类类别的类别概率，确定待分类图像的目标类别69。

需要说明的是，backbone可以选择如Resnet，MobileNet等结构。其中图6中的“C”为通道数，M为父类的分类个数，N为最大子类的个数。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种生成图像分类模型的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的生成图像分类模型的装置700可以包括：图像获取模块701、概率确定模块702和模型训练模块703。其中，图像获取模块701，被配置成获取目标图像，以及目标图像的第一类别和第二类别，其中，第一类别的级别高于第二类别；概率确定模块702，被配置成确定目标图像的第一类别的预测概率；模型训练模块703，被配置成利用目标图像和第一类别，以及目标图像、第一类别的预测概率和第二类别进行训练，得到图像分类模型。

在本实施例中，生成图像分类模型的装置700中：图像获取模块701、概率确定模块702和模型训练模块703的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，图像获取模块，包括：类别获取单元，被配置成获取目标图像；类别获取单元，进一步被配置成获取所述目标图像的第一类别；类别确定单元，被配置成根据第一类别和目标图像，确定目标图像的第二类别。

在本实施例的一些可选的实现方式中，类别确定单元，进一步被配置成：根据第一类别，从预设的图像库中，获取第一类别对应的所有图像；根据目标图像，从第一类别对应的所有图像中，得到与目标图像匹配的图像；将与目标图像匹配的图像的第二类别，确定为目标图像的第二类别。

在本实施例的一些可选的实现方式中，图像分类模型包括：第一分类网络层；以及概率确定模块，进一步被配置成将目标图像输入第一分类网络层中，得到目标图像的第一类别的预测概率。

在本实施例的一些可选的实现方式中，图像分类模型还包括：第二分类网络层；以及模型训练模块，进一步被配置成：将目标图像作为第一分类网络层的输入，将第一类别作为第一分类网络层的期望输出；以及，将目标图像和第一类别的预测概率作为第二分类网络层的输入，将第二类别作为第二分类网络层的期望输出，训练机器学习模型，得到图像分类模型。

在本实施例的一些可选的实现方式中，第一类别为父类类别，第二类别为子类类别。

进一步参考图8，作为对上述各图所示方法的实现，本公开提供了一种生成图像分类模型的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的生成图像分类模型的装置800可以包括：图像获取模块801、概率得到模块802和类别确定模块803。其中，图像获取模块801，被配置成获取待分类图像；概率得到模块802，被配置成将待分类图像的图像特征输入预先训练的图像分类模型中，得到待分类图像对应的第三类别的类别概率和第四类别的类别概率；类别确定模块803，被配置成根据第三类别的类别概率和第四类别的类别概率，确定待分类图像的目标类别。

在本实施例中，生成图像分类模型的装置800中：图像获取模块801、概率得到模块802和类别确定模块803的具体处理及其所带来的技术效果可分别参考图5对应实施例中的步骤501-503的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，概率得到模块802，进一步配置成：将待分类图像的图像特征输入至图像分类模型的第一分类网络层中，得到待分类图像对应的第三类别的类别概率；将第三类别的类别概率和待分类图像的图像特征输入图像分类模型的第二分类网络层中，得到第四类别的类别概率。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品、一种路侧设备和一种云控平台。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如生成图像分类模型的方法或图像分类方法。例如，在一些实施例中，生成图像分类模型的方法或图像分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的生成图像分类模型的方法或图像分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为生成图像分类模型的方法或图像分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在本公开的上下文中，路侧设备除了包括上述电子设备，还可以包括通信部件等，该电子设备可以和通信部件一体集成，也可以分体设置。该电子设备可以获取感知设备(如路侧相机)的数据，例如图片和视频等，从而进行图像视频处理和数据计算。可选的，上述电子设备自身也可以具备感知数据获取功能和通信功能，例如人工智能(ArtificialIntelligence，AI)相机，该电子设备可以直接基于获取的感知数据进行图像视频处理和数据计算。

在本公开的上下文中，云控平台在云端执行处理，云控平台包括上述的电子设备可以获取感知设备(如路侧相机)的数据，例如图片和视频等，从而进行图像视频处理和数据计算；云控平台也可以称为车路协同管理平台、边缘计算平台、云计算平台、中心系统、云端服务器等。

人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提及的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种生成图像分类模型的方法，包括：

获取目标图像的第一类别；根据所述第一类别，从预设的图像库中，获取所述第一类别对应的所有图像；根据所述目标图像，从所述第一类别对应的所有图像中，得到与所述目标图像匹配的图像；将与所述目标图像匹配的图像的第二类别，确定为所述目标图像的第二类别，其中，所述第一类别的级别高于所述第二类别，所述第一类别为对多个图像进行聚类得到的多个类别；

确定所述目标图像的第一类别的预测概率；

利用所述目标图像和所述第一类别，以及所述目标图像、所述第一类别的预测概率和所述第二类别进行训练，得到图像分类模型；其中，所述图像分类模型包括：特征提取网络层、池化网络层、第一全连接层、第二全连接层、Sigmoid层、第三全连接层和第四全连接层；所述特征提取网络层用于对待分类图像进行特征提取，得到待分类图像的图像特征；所述池化网络层用于对待分类图像的图像特征进行下采样或空间特征降维，得到全局特征；所述第一全连接层用于对全局特征进行映射，以使第一全连接层的输入和输出隔离；所述第二全连接层用于对第一全连接层的输出特征进行处理，得到父类类别的初始类别概率；所述Sigmoid层用于对父类类别的初始类别概率进行归一化处理，得到归一化之后的父类类别的类别概率；所述第三全连接层用于对所述第一全连接层的输出进行子类特征映射；所述第四全连接层用于对候选特征进行处理，得到子类类别的类别概率，其中，候选特征为将父类类别的类别概率和第三全连接层的输出特征进行融合所得。

2.根据权利要求1所述的方法，其中，所述图像分类模型包括：第一分类网络层；

所述确定所述目标图像的第一类别的预测概率，包括：

将所述目标图像输入所述第一分类网络层中，得到所述目标图像的第一类别的预测概率。

3.根据权利要求2所述的方法，其中，所述图像分类模型还包括：第二分类网络层；以及

所述利用所述目标图像和所述第一类别，以及所述目标图像、所述第一类别的预测概率和所述第二类别进行训练，得到图像分类模型，包括：

将所述目标图像作为所述第一分类网络层的输入，将所述第一类别作为所述第一分类网络层的期望输出；以及，将所述目标图像和所述第一类别的类别预测概率作为所述第二分类网络层的输入，将所述第二类别作为所述第二分类网络层的期望输出，训练机器学习模型，得到图像分类模型。

4.根据权利要求1-3任一项所述的方法，其中，所述第二类别的类别数为所有第二类别中最大的类别数，其中，所述第一类别包括所有的第二类别。

5.根据权利要求1-4任一项所述的方法，其中，所述第一类别为父类类别，第二类别为子类类别。

6.一种图像分类方法，包括：

获取待分类图像；

将所述待分类图像的图像特征输入如权利要求1-5任一项所述的图像分类模型中，得到所述待分类图像对应的第三类别的类别概率和第四类别的类别概率；

根据所述第三类别的类别概率和所述第四类别的类别概率，确定所述待分类图像的目标类别。

7.根据权利要求6所述的方法，其中，所述将所述待分类图像的图像特征输入如权利要求1-5任一项所述的图像分类模型中，得到所述待分类图像对应的第三类别的类别概率和第四类别的类别概率，包括：

将所述待分类图像的图像特征输入至所述图像分类模型的第一分类网络层中，得到所述待分类图像对应的第三类别的类别概率；

将所述第三类别的类别概率和所述待分类图像的图像特征输入所述图像分类模型的第二分类网络层中，得到所述第四类别的类别概率。

8.一种生成图像分类模型的装置，包括：

类别获取单元，配置成获取目标图像的第一类别；

类别确定单元，被配置成根据所述第一类别，从预设的图像库中，获取所述第一类别对应的所有图像；根据所述目标图像，从所述第一类别对应的所有图像中，得到与所述目标图像匹配的图像；将与所述目标图像匹配的图像的第二类别，确定为所述目标图像的第二类别，以及所述目标图像的第一类别和第二类别，其中，所述第一类别的级别高于所述第二类别；

概率确定模块，被配置成确定所述目标图像的第一类别的预测概率；

模型训练模块，被配置成利用所述目标图像和所述第一类别，以及所述目标图像、所述第一类别的预测概率和所述第二类别进行训练，得到图像分类模型；其中，所述图像分类模型包括：特征提取网络层、池化网络层、第一全连接层、第二全连接层、Sigmoid层、第三全连接层和第四全连接层；所述特征提取网络层用于对待分类图像进行特征提取，得到待分类图像的图像特征；所述池化网络层用于对待分类图像的图像特征进行下采样或空间特征降维，得到全局特征；所述第一全连接层用于对全局特征进行映射，以使第一全连接层的输入和输出隔离；所述第二全连接层用于对第一全连接层的输出特征进行处理，得到父类类别的初始类别概率；所述Sigmoid层用于对父类类别的初始类别概率进行归一化处理，得到归一化之后的父类类别的类别概率；所述第三全连接层用于对所述第一全连接层的输出进行子类特征映射；所述第四全连接层用于对候选特征进行处理，得到子类类别的类别概率，其中，候选特征为将父类类别的类别概率和第三全连接层的输出特征进行融合所得。

9.根据权利要求8所述的装置，其中，所述图像分类模型包括：第一分类网络层；以及

所述概率确定模块，进一步被配置成将所述目标图像输入所述第一分类网络层中，得到所述目标图像的第一类别的预测概率。

10.根据权利要求9所述的装置，其中，所述图像分类模型还包括：第二分类网络层；以及

所述模型训练模块，进一步被配置成：将所述目标图像作为所述第一分类网络层的输入，将所述第一类别作为所述第一分类网络层的期望输出；以及，将所述目标图像和所述第一类别的预测概率作为所述第二分类网络层的输入，将所述第二类别作为所述第二分类网络层的期望输出，训练机器学习模型，得到图像分类模型。

11.根据权利要求8-10任一项所述的装置，其中，所述第二类别的类别数为所有第二类别中最大的类别数，其中，所述第一类别包括所有的第二类别。

12.根据权利要求8-10任一项所述的装置，其中，所述第一类别为父类类别，第二类别为子类类别。

13.一种图像分类装置，包括：

图像获取模块，被配置成获取待分类图像；

概率得到模块，被配置成将所述待分类图像的图像特征输入如权利要求1-5任一项所述的图像分类模型中，得到所述待分类图像对应的第三类别的类别概率和第四类别的类别概率；

类别确定模块，被配置成根据所述第三类别的类别概率和所述第四类别的类别概率，确定所述待分类图像的目标类别。

14.根据权利要求13所述的装置，其中，所述概率得到模块，进一步配置成：

将所述待分类图像的图像特征输入至所述图像分类模型的第一分类网络层中，得到所述待分类图像对应的第三类别的类别概率；将所述第三类别的类别概率和所述待分类图像的图像特征输入所述图像分类模型的第二分类网络层中，得到所述第四类别的类别概率。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种路侧设备，包括如权利要求15所述的电子设备。

18.一种云控平台，包括如权利要求15所述的电子设备。