CN117011823A

CN117011823A - 图像识别方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: CN117011823A
Application number: CN202211291163.0A
Authority: CN
Inventors: 燕旭东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-11-07

Abstract

本申请公开了一种图像识别方法、装置、设备、存储介质及计算机程序产品，涉及计算机技术领域，本发明实施例可应用于交通领域。该方法包括：获取目标图像，目标图像中包括待识别图像元素；对目标图像进行元素识别，得到目标图像中与待识别图像元素对应的图像区域，待识别图像元素中包括至少一个图像子元素；对待识别图像元素进行部件识别，得到待识别图像元素中至少一个图像子元素的拆分结果，拆分结果用于指示至少一个图像子元素在图像元素中的位置和类别；基于至少一个图像子元素的拆分结果对待识别图像元素进行分类识别，得到待识别图像元素对应的分类结果，提高了图像元素类型识别的准确率。

Description

图像识别方法、装置、设备、存储介质及计算机程序产品

技术领域

本申请涉及计算机技术领域，特别涉及一种图像识别方法、装置、设备、存储介质及计算机程序产品。

背景技术

交通标牌是用图形符号和文字传递特定信息，用以管理交通、指示行车方向以保证道路畅通与行车安全的设施，识别标牌类别对于智慧交通、辅助驾驶、智能车路协同等应用场景有重大意义。

相关技术中，通过利用大量标注数据直接对ResNet(残差神经网络，ResidualNetwork)等卷积神经网络进行训练，对标牌整体进行高级语义特征提取并分类，得到最终的图像识别结果。

然而，由于矩形牌形态复杂，内容多样，且不同矩形牌类别之间的干扰性较大，上述方法单纯利用深度学习分类网络，基于标牌的整体特征实现分类，图像要素识别准确率较低，标牌类型识别准确率较低。

发明内容

本申请实施例提供了一种图像识别方法、装置、设备、存储介质及计算机程序产品，能够识别图像种类。所述技术方案如下。

一方面，提供了一种图像识别方法，所述方法包括：

获取目标图像，所述目标图像中包括待识别图像元素；

对所述目标图像进行元素识别，得到所述目标图像中与所述待识别图像元素对应的图像区域，所述待识别图像元素中包括至少一个图像子元素；

对所述待识别图像元素进行部件识别，得到所述待识别图像元素中所述至少一个图像子元素的拆分结果，所述拆分结果用于指示所述至少一个图像子元素在所述图像元素中的位置和类别；

基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别，得到所述待识别图像元素对应的分类结果。

另一方面，提供了一种图像识别装置，所述装置包括：

目标图像获取模块，用于获取目标图像，所述目标图像中包括待识别图像元素；

图像元素识别模块，用于对所述目标图像进行元素识别，得到所述目标图像中与所述待识别图像元素对应的图像区域，所述待识别图像元素中包括至少一个图像子元素；

元素部件识别模块，用于对所述待识别图像元素进行部件识别，得到所述待识别图像元素中所述至少一个图像子元素的拆分结果，所述拆分结果用于指示所述至少一个图像子元素在所述图像元素中的位置和类别；

图像元素分类模块，用于基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别，得到所述待识别图像元素对应的分类结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的图像识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的图像识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的图像识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过在对目标图像中的图像元素进行元素识别的同时，对图像元素中的图像子元素进行部件识别，将图像子元素特征结合图像元素特征，即图像元素的部件特征结合图像元素的整体特征，用于识别图像元素的类别，提高了图像元素类型识别的准确率。

在交通领域中车路协同应用场景下，对车载设备或卫星导航设备等拍摄的道路图像进行交通标牌识别，并对交通标牌进行元素部件识别，将交通标牌中的元素部件特征与交通标牌的整体特征结合，对交通标牌进行分类识别，用于辅助道路导航等，提高了对交通标牌类型识别的准确率，进而提高了车路协同效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的图像识别方法的流程图；

图3是本申请一个示例性实施例提供的目标图像示意图；

图4是本申请一个示例性实施例提供的图像区域识别示意图；

图5是本申请一个示例性实施例提供的图像子元素示意图；

图6是本申请一个示例性实施例提供的部件种类示意图；

图7是本申请一个示例性实施例提供的部件检测示意图；

图8是本申请一个示例性实施例提供的图像元素特征提取示意图；

图9是本申请一个示例性实施例提供的图像元素类别示意图；

图10是本申请一个示例性实施例提供的图像元素识别流程图；

图11是本申请一个示例性实施例提供的图像元素识别示意图；

图12是本申请一个示例性实施例提供的候选框示意图；

图13是本申请一个示例性实施例提供的部件识别流程图；

图14是本申请一个示例性实施例提供的图像区域特征提取示意图；

图15是本申请一个示例性实施例提供的分类模型训练流程图；

图16是本申请一个示例性实施例提供的样本图像示意图；

图17是本申请一个示例性实施例提供的图像元素分类示意图；

图18是本申请一个示例性实施例提供的图像识别装置的结构框图；

图19是本申请一个示例性实施例提供的图像识别装置模块的结构框图；

图20是本申请一个示例性实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

应当理解，尽管在本公开可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

智能车路协同系统(Intelligent Vehicle Infrastructure CooperativeSystems，IVICS)，简称车路协同系统，是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通系统。在交通领域，交通标牌是用图形符号和文字传递特定信息，用以管理交通、指示行车方向以保证道路畅通与行车安全的设施，识别标牌类别对于智慧交通、辅助驾驶、智能车路协同等应用场景有重大意义。相关技术中，通过利用大量标注数据直接对ResNet(残差神经网络，Residual Network)等卷积神经网络进行训练，对标牌整体进行高级语义特征提取并分类，得到最终的图像识别结果。然而，由于矩形牌形态复杂，内容多样，且不同矩形牌类别之间的干扰性较大，上述方法单纯利用深度学习分类网络，基于标牌的整体特征实现分类，图像要素识别准确率较低，标牌类型识别准确率较低。

本申请提供了一种图像识别方法，通过在对目标图像中的图像元素进行元素识别的同时，对图像元素中的图像子元素进行部件识别，将图像子元素特征结合图像元素特征，即图像元素的部件特征结合图像元素的整体特征，用于识别图像元素的类别，提高了图像元素类型识别的准确率。在交通领域中车路协同应用场景下，对车载设备或卫星导航设备等拍摄的道路图像进行交通标牌识别，并对交通标牌进行元素部件识别，将交通标牌中的元素部件特征与交通标牌的整体特征结合，对交通标牌进行分类识别，用于辅助道路导航等，提高了对交通标牌类型识别的准确率，进而提高了车路协同效率。

首先，对本申请实施环境进行介绍。请参考图1，其示出了本申请一个示例性实施例提供的实施环境示意图，如图1所示，该实施环境中包括：终端110、服务器120和通信网络130。

在一些实施例中，终端110用于获取目标图像，如：在交通领域、地图领域或自动驾驶领域等，终端110可实现为车载中控设备，该中控设备连接有摄像头，对所在车辆行驶前方的道路进行拍照，获取道路图像作为目标图像，或者，在智能识图应用场景中，终端110可实现为装有智能识图软件的手机，通过手机摄像头对待识别植物进行拍照，获取植物照片作为目标图像，或读取本地存储的含有待识别植物的图片作为目标图像；服务器120用于对终端110获取的目标图像进行图像识别，如：在交通、地图、自动驾驶等领域，服务器120用于对获取的道路图像中的交通标牌进行分类识别，或者，在智能识图应用场景中，服务器120用于对获取的场景图像中的植物进行分类识别。

在一些实施例中，终端110和服务器120通过通信网络130连接，终端110通过通信网络130将获取的目标网络传输至服务器120，服务器120对接收到的目标图像进行图像识别后，将目标图像的识别结果通过通信网络130传输回终端110。

上述终端是可选的，终端可以是台式计算机、膝上型便携计算机、手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层4)播放、智能电视、智能车载、智能语音交互设备、智能家电、飞行器等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云安全、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可选地，本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

示意性的，请参考图2，图2是本申请一个示例性实施例提供的图像识别方法的流程图，该方法可以应用于终端，也可以应用于服务器，也可以同时应用于终端和服务器，本申请实施例以该方法应用于终端为例进行说明，如图2所示，该方法包括如下步骤：

步骤210，获取目标图像。

其中，目标图像中包括待识别图像元素。

示意性的，在交通领域中，可通过车载拍照设备对车辆行驶前方的道路进行拍照，获得包括交通标牌的道路目标图像，请参考图3，图3是本申请一个示例性实施例提供的目标图像示意图，如图3所示，目标图像300是车载拍照设备对车辆行驶前方的道路拍摄的照片图像，其中包括交通标牌301、交通标牌302和交通标牌303三个待识别图像元素。

步骤220，对目标图像进行元素识别，得到目标图像中与待识别图像元素对应的图像区域。

其中，待识别图像元素中包括至少一个图像子元素，图像子元素是待识别图像元素中的局部图像，作为待识别图像元素的独立组成部分，如交通标牌中的各个箭头、文字标识、车辆标识等，或植物的叶片、花瓣、花芯、根茎等，或商场指示牌中的门店商标、导向箭头、设施图标等，用于标识待识别图像元素的局部特征或局部信息。

示意性的，请参考图4，图4是本申请一个示例性实施例提供的图像区域识别示意图，如图4所示，对目标图像400进行元素识别，得到目标图像400中与待识别图像元素401对应的图像区域410。

示意性的，请参考图5，图5是本申请一个示例性实施例提供的图像子元素示意图，如图5所示，待识别图像元素500中包括8个图像子元素，待识别图像元素500作为交通限速标牌，其中包括限速车辆类型标志501至503、对应车辆类型的最高限速标志504至506、最低限速文字507和最低限速标志508。

在一些可选的实施例中，可通过卷积神经网络对目标图像进行元素识别，得到目标图像中与待识别图像元素对应的图像区域。

步骤230，对待识别图像元素进行部件识别，得到待识别图像元素中至少一个图像子元素的拆分结果。

其中，拆分结果用于指示至少一个图像子元素在所述图像元素中的位置和类别，拆分结果中的位置信息是对图像元素所在的图像区域进行二次区域划分得到的子区域，可实现为以图像子元素中心为区域中心，包括图像子元素并与其相切的区域，或者可实现为以图像子元素中心为区域中心，按指定尺寸和形状框选的区域等。

示意性的，请参考图6，图6是本申请一个示例性实施例提供的部件种类示意图，如图6所示，在交通领域中，交通标牌中可包括导向箭头类型、车辆类型、形状类型等各种类型的部件，如图6部件种类表600中序号1对应的图片属于直行箭头部件，序号36对应的图片属于区间测速部件。值得注意的是，图6中的36种部件类别仅为示例性举例，交通标牌中的部件类别包括但不限于图6中列举的类别，本申请对此不加以限定。

示意性的，请参考图7，图7是本申请一个示例性实施例提供的部件检测示意图，如图7所示，通过部件识别模块720对待识别图像元素711和待识别图像元素712进行部件识别，得到待识别图像元素711中9个图像子元素的拆分结果731，其中包括9个被矩形框标识的图像子元素区域，得到待识别图像元素712中4个图像子元素的拆分结果732，其中包括4个被矩形框标识的图像子元素。

步骤240，基于至少一个图像子元素的拆分结果对待识别图像元素进行分类识别，得到待识别图像元素对应的分类结果。

其中，分类结果可实现为如下情况中的至少一种：带有类别标签的图像元素，图像元素类别的名称，属于各个类别的图像元素的数量。

在一些可选的实施例中，步骤240可实现为以下两步：

第一步，对待识别图像元素进行特征提取，得到待识别图像元素对应的图像特征表示。

在一些可选的实施例中，通过重复加权双向特征金字塔网络，实现对目标图像进行特征提取，得到目标图像对应的图像特征表示，示意性的，请参考图8，图8是本申请一个示例性实施例提供的图像元素特征提取示意图，如图8所示，将待识别图像元素810输入卷积神经网络进行特征提取，通过重复加权双向特征金字塔网络820对图像特征进行重复加权，最终得到待识别图像元素810对应的图像特征表示830。

第二步，将图像特征表示和至少一个图像子元素的拆分结果输入分类预测模型，输出得到待识别图像元素对应的分类结果。

在一些可选的实施例中，可通过注意力机制将至少一个图像子元素的拆分结果用于调整分类预测模型权重参数，将图像特征表示输入分类预测模型，输出得到待识别图像元素对应的分类结果。

示意性的，请参考图9，图9是本申请一个示例性实施例提供的图像元素类别示意图，如图9所示，在交通领域，交通标牌可包括道路指向类标牌、转向提示类标牌等类别，如图9标牌种类表900中的标牌a道路名称指示牌类别的标牌、标牌h服务区指示牌类别的标牌、标牌j礼让行人提示牌类别的标牌等。值得注意的是，标牌种类表900中的13种标牌类别仅为示例性举例，交通标牌中的标牌类别包括但不限于标牌种类表900中列举的类别，本申请对此不加以限定。

综上所述，本申请实施例提供的方法，通过在对目标图像中的图像元素进行元素识别的同时，对图像元素中的图像子元素进行部件识别，将图像子元素特征结合图像元素特征，即图像元素的部件特征结合图像元素的整体特征，用于识别图像元素的类别，提高了图像元素类型识别的准确率。在交通领域中车路协同应用场景下，对车载设备或卫星导航设备等拍摄的道路图像进行交通标牌识别，并对交通标牌进行元素部件识别，将交通标牌中的元素部件特征与交通标牌的整体特征结合，对交通标牌进行分类识别，用于辅助道路导航等，提高了对交通标牌类型识别的准确率，进而提高了车路协同效率。

本申请实施例提供的方法，明确了分类预测方法的步骤，将图像子元素特征结合图像元素特征，用于识别图像元素的类别，提高了图像元素类型识别的准确率。

图10是本申请一个示例性实施例提供的图像元素识别流程图，如图10所示，在一些可选的实施例中，上述步骤220可实现为步骤221和步骤222。

步骤221，对目标图像进行特征提取，得到目标图像对应的图像特征表示。

其中，图像特征表示用于指示目标图像的整体特征。

在一些可选的实施例中，对目标图像进行特征提取，得到目标图像对应的图像特征表示可通过卷积神经网络结构中的特征提取模块实现，示意性的，请参考图11，图11是本申请一个示例性实施例提供的图像元素识别示意图，如图11所示，通过卷积神经网络结构中的特征提取模块1100对目标图像1110进行特征提取，得到目标图像1110对应的图像特征表示1120。

步骤222，在图像特征表示上针对至少一个特征点通过至少一个预设的候选元素框进行元素检测，得到待识别图像元素在目标图像中对应的目标元素框所框选的区域作为图像区域。

其中，候选元素框用于标识待识别图像元素在目标图像中的区域位置，在一些可选的实施例中，候选元素框实现为指定长宽比及尺度的矩形框，以指定位置为矩形框中心，如待识别图像元素中心，以矩形框大小为图像区域大小，对待识别图像元素所在区域进行框选。

示意性的，请参考图11，在图像特征表示1120上针对至少一个特征点通过至少一个预设的候选元素框1130进行元素检测，得到待识别图像元素1121在目标图像1140中对应的目标元素框1131所框选的区域作为图像区域1141。

在一些可选的实施例中，步骤222可实现为以下两步：

第一步，获取至少一种长宽比以及至少一种尺度搭配得到的至少一个候选元素框。

示意性的，请参考图12，图12是本申请一个示例性实施例提供的候选框示意图，如图12所示，可选取以特征点作为中心点，长宽比分别为{1:1，2:1，1:2}三种比例，尺度分别为1，2，3个特征点的9个矩形框1200作为候选元素框。

第二步，将图像特征表示中的特征点作为候选元素框的中心点，通过至少一个候选元素框进行元素检测，得到待识别图像元素在目标图像中对应的目标元素框所框选的区域作为图像区域。

在一些可选的实施例中，上述第二步实现为用获取的指定长宽比及尺度的矩形框，以图像特征表示中的特征点为矩形框的中心点，以矩形框大小为图像区域大小，对特征点所代表的图像子元素所在区域进行框选。

示意性的，将图4所示的目标图像400通过特征提取获得的图像特征表示中的特征点作为候选元素框的中心点，通过一个长宽比为1:2，尺度为2个特征点的候选元素框进行元素检测，得到待识别图像元素401在目标图像400中对应的目标框所框选的区域410作为图像区域。

综上所述，本申请实施例提供的方法，明确了图像元素识别的过程，通过多种长宽比及尺度搭配的候选元素框对图像元素进行元素检测，确定图像区域，适应多种尺寸的矩形标牌，提高了元素检测的准确率。

本申请实施例提供的方法，提供了多种长宽比及尺度搭配的候选元素框选取方案，适应多种尺寸的矩形标牌，提高了元素检测的准确率。

图13是本申请一个示例性实施例提供的部件识别流程图，如图13所示，在一些可选的实施例中，上述步骤230可实现为步骤231和步骤232。

步骤231，对待识别图像元素对应的图像区域进行特征提取，得到图像区域对应的区域特征表示。

在一些可选的实施例中，可通过重复加权双向特征金字塔网络，实现对待识别图像元素对应的图像区域进行特征提取，得到图像区域对应的区域特征表示，示意性的，请参考图14，图14是本申请一个示例性实施例提供的图像区域特征提取示意图，如图14所示，将待识别图像元素对应的图像区域1410输入卷积神经网络进行特征提取，通过重复加权双向特征金字塔网络1420对图像特征进行重复加权，最终得到待识别图像元素对应的图像区域1410对应的区域特征表示1430。

步骤232，在区域特征表示上针对至少一个特征点通过至少一个预设的候选部件框进行部件检测，得到至少一个图像子元素的拆分结果。

其中，候选部件框用于指示图像子元素在图像元素中的区域位置，在一些可选的实施例中，候选部件框可实现为指定长宽比及尺度的矩形框，以特征点中心为矩形框中心，以矩形框大小为部件区域大小，对特征点对应的图像子元素所在区域进行框选。拆分结果是标识有候选部件框的待识别图像元素，拆分结果中包括带有部件类别标签的被候选部件框标识的图像子元素。

在一些可选的实施例中，步骤232可实现为以下两步：

第一步，获取至少一种长宽比以及至少一种尺度搭配得到的至少一个候选部件框。

示意性的，如图12所示，可选取以特征点作为中心点，长宽比分别为{1:1，2:1，1:2}三种比例，尺度分别为1，2，3个特征点的9个矩形框1200作为候选部件框。

第二步，将区域特征表示中的特征点作为候选部件框的中心点，通过至少一个候选部件框进行部件拆分预测，得到图像区域中至少一个图像子元素的拆分结果。

在一些可选的实施例中，上述第二步实现为用获取的指定长宽比及尺度的矩形框，以区域特征表示中的特征点为矩形框的中心点，以矩形框大小为图像区域大小，对特征点所代表的图像子元素所在区域进行框选。

示意性的，将图14中区域特征表示1430中的特征点作为候选部件框的中心点，通过长宽比为2:1，尺度为2个特征点的候选部件框进行部件拆分预测，得到图7中待识别图像元素712即图14中图像区域1410中4个图像子元素的拆分结果732，其中包括4个被矩形框标识的图像子元素。

综上所述，本申请实施例提供的方法，明确了部件检测的流程，通过多种长宽比及尺度搭配的候选部件框对图像子元素进行部件检测，确定部件拆分结果，适应多种尺寸的标牌部件，提高了部件检测的准确率。

本申请实施例提供的方法，提供了多种长宽比及尺度搭配的候选部件框选取方案，适应多种尺寸的标牌部件，提高了部件检测的准确率。

在一些可选的实施例中，上述步骤220中对目标图像进行元素识别，可实现为通过分类模型对目标图像进行元素识别，上述步骤240中基于至少一个图像子元素的拆分结果对待识别图像元素进行分类识别，可实现为通过分类模型基于至少一个图像子元素的拆分结果对待识别图像元素进行分类识别。

示意性的，请参考图15，图15是本申请一个示例性实施例提供的分类模型训练流程图，如图15所示，上述分类模型的训练过程包括如下步骤：

步骤1510，获取样本图像。

其中，样本图像中包括标注有分类标签和部件区域标签的图像元素，分类标签用于指示所述图像元素的分类结果，部件区域标签用于指示所述图像元素中图像子元素的分割结果。

示意性的，请参考图16，图16是本申请一个示例性实施例提供的样本图像示意图，如图16所示，通过车载拍照设备获取样本图像1600，样本图像1600中包括标注有分类标签和部件区域标签的图像元素1610，图像元素1610的分类标签为图像元素类别示意图图9中标牌c的类别方面名称，图像元素1610的部件区域标签指示图像元素1610中图像子元素1601至图像子元素1604的分割结果，包括图像子元素的位置和部件类别，如图像子元素1604的部件类别为图6中序号14对应图片所属的类别，为斜向上。

步骤1520，通过候选分类模型对样本图像进行元素识别，得到样本图像中与图像元素对应的预测图像区域。

其中，图像元素中包括至少一个图像子元素。

在一些可选的实施例中，候选分类模型中包括元素识别模块，通过候选分类模型的元素识别模块对样本图像进行元素识别，得到样本图像中与图像元素对应的预测图像区域。元素识别模块可实现为卷积神经网络，该卷积神经网络结构中包括卷积层、归一化层和激活层，卷积层用于提取样本图像中的边缘纹理等基本特征，归一化层用于过滤卷积层所提取的基本特征中的噪声特征，如按照正态分布对卷积层所提取的基本特征进行归一化处理，激活层用于对卷积层所提取的基本特征进行非线性映射，加强候选分类模型元素识别模块的泛化能力。

步骤1530，对图像元素进行部件识别，得到图像元素中所述至少一个图像子元素的拆分结果。

在一些可选的实施例中，候选分类模型中包括部件识别模块，示意性的，如图7所示，通过部件识别模块720对待识别图像元素711和待识别图像元素712进行部件识别，得到待识别图像元素711中9个图像子元素的拆分结果731，待识别图像元素712中4个图像子元素的拆分结果732。

步骤1540，基于至少一个图像子元素的拆分结果对图像元素进行分类识别，得到图像元素对应的预测分类结果。

在一些可选的实施例中，候选分类模型中包括元素分类模块，示意性的，请参考图17，图17是本申请一个示例性实施例提供的图像元素分类示意图，如图17所示，基于候选分类模型中部件识别模块1710所得到的图像元素中9个图像子元素的拆分结果1711，通过候选模型元素分类模块1720对图像元素进行分类识别，得到图像元素对应的预测分类结果1721为图像元素类别示意图图9中标牌b所属的类别，即标牌车信。

在一些可选的实施例中，候选分类模型通过注意力机制将至少一个图像子元素的拆分结果用于对图像元素进行分类识别，注意力机制可实现为点积模型，该点击模型可实现为如下方式：

其中，i用于标识样本，x为元素分类模块的图像特征，即通过对目标图像进行特征提取得到的目标图像对应的图像特征表示，q为对应的部件识别模块的特征值，即通过对目标图像中待识别图像元素对应的图像区域进行特征提取得到的图像区域对应的区域特征表示，通过乘积的形式将部件识别模块的部件特征传递给元素分类模块，从而指导元素分类模块的学习，提高识别图像元素类别的准确率。

步骤1550，基于拆分结果和部件区域标签之间的第一差异，以及预测分类结果和分类标签之间的第二差异，对候选分类模型进行训练，得到分类模型。

在一些可选的实施例中，采用第一差异和第二差异融合的方式对候选分类模型进行训练，即采用回归损失和分类损失融合的方式对候选分类模型进行训练，该方式的损失函数采用如下公式：

其中，smoothL₁(t_i-t′_i)为候选分类模型的回归损失，用于精确定位矩形标牌内部部件框的位置，即图像元素中图像子元素的位置，c表示类别，t_i表示样本i的坐标真值，t′_i表示样本i的坐标预测值，为候选分类模型的分类损失，其中M表示矩形标牌类别的数量，y_ic指示变量，该变量取值为0或1，如果该类别和样本i的类别相同就是1，否则是0，p_ic表示样本i属于类别c的概率。

综上所述，本申请实施例提供的方法，明确了通过分类模型实现对目标图像中图像元素进行分类识别的方法，提高了分类识别的准确率。

本申请实施例提供的方法，明确了分类模型的训练方法，基于第一差异和第二差异对分类模型进行训练，增强了分类模型的泛化能力，提高了分类模型识别的准确率。

图18是本申请一个示例性实施例提供的图像识别装置的结构框图，如图18所示，该装置包括如下部分：

目标图像获取模块1810，用于获取目标图像，所述目标图像中包括待识别图像元素；

图像元素识别模块1820，用于对所述目标图像进行元素识别，得到所述目标图像中与所述待识别图像元素对应的图像区域，所述待识别图像元素中包括至少一个图像子元素；

元素部件识别模块1830，用于对所述待识别图像元素进行部件识别，得到所述待识别图像元素中所述至少一个图像子元素的拆分结果，所述拆分结果用于指示所述至少一个图像子元素在所述图像元素中的位置和类别；

图像元素分类模块1840，用于基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别，得到所述待识别图像元素对应的分类结果。

在一些可选的实施例中，请参考图19，图19是本申请一个示例性实施例提供的图像识别装置的结构框图，如图19所示，图像元素识别模块1820，包括：

图像特征提取单元1821，用于对所述目标图像进行特征提取，得到所述目标图像对应的图像特征表示；

图像区域获取单元1822，用于在所述图像特征表示上针对至少一个特征点通过至少一个预设的候选元素框进行元素检测，得到所述待识别图像元素在所述目标图像中对应的目标元素框所框选的区域作为所述图像区域。

在一些可选的实施例中，图像区域获取单元1822，用于获取至少一种长宽比以及至少一种尺度搭配得到的至少一个候选元素框；将所述图像特征表示中的特征点作为所述候选元素框的中心点，通过所述至少一个候选元素框进行元素检测，得到所述待识别图像元素在所述目标图像中对应的目标元素框所框选的区域作为所述图像区域。

在一些可选的实施例中，元素部件识别模块1830，包括：

区域特征提取单元1831，用于对所述待识别图像元素对应的图像区域进行特征提取，得到所述图像区域对应的区域特征表示；

拆分结果获取单元1832，用于在所述区域特征表示上针对至少一个特征点通过至少一个预设的候选部件框进行部件检测，得到所述至少一个图像子元素的拆分结果。

在一些可选的实施例中，拆分结果获取单元1832，用于获取至少一种长宽比以及至少一种尺度搭配得到的至少一个候选部件框；将所述区域特征表示中的特征点作为所述候选部件框的中心点，通过所述至少一个候选部件框进行部件拆分预测，得到所述图像区域中所述至少一个图像子元素的拆分结果。

在一些可选的实施例中，图像元素分类模块1840，用于对所述待识别图像元素进行特征提取，得到所述待识别图像元素对应的图像特征表示；将所述图像特征表示和所述至少一个图像子元素的拆分结果输入分类预测模型，输出得到所述待识别图像元素对应的分类结果。

在一些可选的实施例中，图像元素识别模块1820，用于通过分类模型对所述目标图像进行元素识别，得到所述目标图像中与所述待识别图像元素对应的图像区域，图像元素分类模块1840，用于通过所述分类模型基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别，得到所述待识别图像元素对应的分类结果。

在一些可选的实施例中，所述装置还包括分类模型训练模块1850，用于获取样本图像，所述样本图像中包括标注有分类标签和部件区域标签的图像元素，所述分类标签用于指示所述图像元素的分类结果，所述部件区域标签用于指示所述图像元素中图像子元素的分割结果；通过候选分类模型对所述样本图像进行元素识别，得到所述样本图像中与所述图像元素对应的预测图像区域，所述图像元素中包括至少一个图像子元素；对所述图像元素进行部件识别，得到所述图像元素中所述至少一个图像子元素的拆分结果；基于所述至少一个图像子元素的拆分结果对所述图像元素进行分类识别，得到所述图像元素对应的预测分类结果；基于所述拆分结果和所述部件区域标签之间的第一差异，以及所述预测分类结果和所述分类标签之间的第二差异，对所述候选分类模型进行训练，得到所述分类模型。

综上所述，本申请实施例提供的图像识别装置，通过图像元素识别和元素部件识别分别获取图像元素识别结果和元素部件识别结果，并将元素部件识别结果用于图像元素识别，即将图像元素整体特征与元素部件对应的图像元素局部特征结合，用于实现图像元素分类识别，提高了图像元素分类识别的准确率。

需要说明的是：上述实施例提供的图像识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图20示出了本申请一个示例性实施例提供的终端2000的结构框图。该终端2000可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端2000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端2000包括有：处理器2001和存储器2002。

处理器2001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器2001所执行以实现本申请中方法实施例提供的图像识别方法。

在一些实施例中，终端2000还包括其他组件，本领域技术人员可以理解，图20中示出的结构并不构成对终端2000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请的实施例还提供了一种计算机设备，该计算机设备可以实现为如图1所示的终端或者服务器。该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的图像识别方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的图像识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像中包括待识别图像元素；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行元素识别，得到所述目标图像中与所述待识别图像元素对应的图像区域，包括：

对所述目标图像进行特征提取，得到所述目标图像对应的图像特征表示；

在所述图像特征表示上针对至少一个特征点通过至少一个预设的候选元素框进行元素检测，得到所述待识别图像元素在所述目标图像中对应的目标元素框所框选的区域作为所述图像区域。

3.根据权利要求2所述的方法，其特征在于，所述在所述图像特征表示上针对至少一个特征点通过至少一个预设的候选元素框进行元素检测，得到所述待识别图像元素在所述目标图像中对应的目标元素框所框选的区域作为所述图像区域，包括：

获取至少一种长宽比以及至少一种尺度搭配得到的至少一个候选元素框；

将所述图像特征表示中的特征点作为所述候选元素框的中心点，通过所述至少一个候选元素框进行元素检测，得到所述待识别图像元素在所述目标图像中对应的目标元素框所框选的区域作为所述图像区域。

4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述待识别图像元素进行部件识别，得到所述待识别图像元素中所述至少一个图像子元素的拆分结果，包括：

对所述待识别图像元素对应的图像区域进行特征提取，得到所述图像区域对应的区域特征表示；

在所述区域特征表示上针对至少一个特征点通过至少一个预设的候选部件框进行部件检测，得到所述至少一个图像子元素的拆分结果。

5.根据权利要求4所述的方法，其特征在于，所述在所述区域特征表示上针对至少一个特征点通过至少一个预设的候选部件框进行部件检测，得到所述至少一个图像子元素的拆分结果，包括：

获取至少一种长宽比以及至少一种尺度搭配得到的至少一个候选部件框；

将所述区域特征表示中的特征点作为所述候选部件框的中心点，通过所述至少一个候选部件框进行部件拆分预测，得到所述图像区域中所述至少一个图像子元素的拆分结果。

6.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别，得到所述待识别图像元素对应的分类结果，包括：

对所述待识别图像元素进行特征提取，得到所述待识别图像元素对应的图像特征表示；

将所述图像特征表示和所述至少一个图像子元素的拆分结果输入分类预测模型，输出得到所述待识别图像元素对应的分类结果。

7.根据权利要求1至3任一所述的方法，其特征在于，所述对所述目标图像进行元素识别，包括：

通过分类模型对所述目标图像进行元素识别；

所述基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别，包括：

通过所述分类模型基于所述至少一个图像子元素的拆分结果对所述待识别图像元素进行分类识别。

8.根据权利要求7所述的方法，其特征在于，所述分类模型的训练过程包括：

获取样本图像，所述样本图像中包括标注有分类标签和部件区域标签的图像元素，所述分类标签用于指示所述图像元素的分类结果，所述部件区域标签用于指示所述图像元素中图像子元素的分割结果；

通过候选分类模型对所述样本图像进行元素识别，得到所述样本图像中与所述图像元素对应的预测图像区域，所述图像元素中包括至少一个图像子元素；

对所述图像元素进行部件识别，得到所述图像元素中所述至少一个图像子元素的拆分结果；

基于所述至少一个图像子元素的拆分结果对所述图像元素进行分类识别，得到所述图像元素对应的预测分类结果；

基于所述拆分结果和所述部件区域标签之间的第一差异，以及所述预测分类结果和所述分类标签之间的第二差异，对所述候选分类模型进行训练，得到所述分类模型。

9.一种图像识别装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的图像识别方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的图像识别方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一所述的图像识别方法。