CN115115872A

CN115115872A - 图像识别方法、装置、设备及存储介质

Info

Publication number: CN115115872A
Application number: CN202210639535.8A
Authority: CN
Inventors: 燕旭东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-27

Abstract

本申请公开了一种图像识别方法、装置、设备及存储介质，该方法包括：获取待识别图像，对待识别图像进行特征提取处理，获得待识别图像中的待识别地图要素在待识别图像中的目标区域；基于目标区域生成多个子区域，分别对每一子区域进行特征提取，获得每一子区域的图像特征；对所有子区域的图像特征进行融合处理，获得融合特征，基于融合特征确定待识别地图要素的识别结果。该技术方案能够更细粒度地提取到待识别图像中每一子区域的图像特征，通过对所有子区域的图像特征进行融合处理，增强目标区域的显著性，结合了更为全面的特征来确定待识别地图要素的识别结果，提高了地图要素识别的准确性。

Description

图像识别方法、装置、设备及存储介质

技术领域

本发明一般涉及图像识别技术领域，具体涉及一种图像识别方法、装置、设备及存储介质。

背景技术

随着计算机技术和图像处理技术的不断发展，图像识别作为立体视觉、运动分析、数据融合等实用技术的基础，已经广泛应用到各类不同领域中，例如自动驾驶、车辆导航、地图与地形配准、自然资源分析、环境监测、生理病变研究等。其中，在图像识别的应用过程中，为了便于利用图像要素更新地图数据，或者进行无人驾驶等，需要从采集到的道路图像中识别图像要素的类别。

目前，相关技术中可以利用大量标注数据进行训练得到分类网络模型，然后通过分类网络模型对图像进行语义特征提取和分类处理，得到图像识别结果。

然而在地图道路数据采集的过程中，由于采集图像质量较差、标注数据中地图要素覆盖众多且分布不均衡等问题，导致通过该分类网络模型进行图像识别会存在误检、识别类型错误等情况，使得图像类型识别的准确度较低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种图像识别方法、装置、设备及存储介质，能够更细粒度地提取到待识别图像中每一子区域的图像特征，从而提高了待识别地图要素的识别结果的准确性。所述技术方案如下：

根据本申请的一个方面，提供了一种图像识别方法，该方法包括：

获取待识别图像，对所述待识别图像进行特征提取处理，获得所述待识别图像中的待识别地图要素在所述待识别图像中的目标区域；

基于所述目标区域生成多个子区域，分别对每一所述子区域进行特征提取，获得所述每一子区域的图像特征；

对所有所述子区域的图像特征进行融合处理，获得融合特征，基于所述融合特征确定所述待识别地图要素的识别结果。

在其中一个实施例中，基于所述目标区域生成多个子区域，包括：

对所述目标区域进行背景添加处理，获得候选窗口；所述候选窗口包含所述目标区域；

按照n个划分尺寸对所述候选窗口进行n次划分处理，获得多个不同尺寸的子区域，n为正整数且n≥1。

在其中一个实施例中，对所述目标区域进行背景添加处理，获得候选窗口，包括：

对所述目标区域进行尺寸扩展处理，获得所述候选窗口。

在其中一个实施例中，所述对所述目标区域进行扩展处理，包括：

以所述待识别地图要素为中心，按照预设比例对所述目标区域进行扩展处理。

在其中一个实施例中，对所有所述子区域的图像特征进行融合处理，获得融合特征，包括：

对各所述子区域的图像特征进行向量化处理，获得所述子区域对应的特征向量；

确定各所述子区域对应的特征向量中每个特征值对应的方向值，所述方向值用于表征所述子区域中是否包括目标区域；

根据各所述子区域对应的特征值以及所述子区域对应的方向值得到融合特征。

在其中一个实施例中，基于所述融合特征确定所述待识别地图要素的识别结果，包括：

将所述融合特征输入训练好的检测网络，根据所述检测网络的输出确定所述待识别交通要素的识别结果；所述检测模型是基于历史图像以及历史图像的地图要素识别结果训练获得的，所述历史图像标注有交通要素区域。

在其中一个实施例中，所述检测网络的训练过程包括：

基于所述历史图像生成多个样本子区域，分别将每一所述样本子区域输入待训练特征提取网络进行特征提取处理，得到所述每一样本子区域的图像特征；

将所有样本子区域的图像特征输入待训练融合网络进行融合处理，得到样本融合特征；

将所述样本融合特征输入待训练检测网络，得到地图要素的预测结果；

根据所述地图要素的预测结果与历史图像的地图要素识别结果，计算损失函数；

按照所述损失函数最小化，采用迭代算法迭代调整待训练特征提取网络、待训练融合网络和待训练检测网络的参数，得到检测网络。

在其中一个实施例中，对所述待识别图像进行特征提取处理，获得所述待识别图像中的待识别地图要素在所述待识别图像中的目标区域，包括：

对所述待识别图像进行特征提取处理，得到待识别图像的特征图；

对于所述特征图中的每个特征点，确定所述每个特征点对应的候选框；所述候选框包含所述特征点；

对所述每个候选框中的图像特征进行地图要素的检测，得到所述候选框对应的置信度；所述置信度用于表征所述候选框内的图像为地图要素的概率；

将置信度符合预设规则的候选框对应的区域确定为待识别地图要素在待识别图像中的目标区域。

在其中一个实施例中，对于所述特征图中的每个特征点，确定所述每个特征点对应的候选框，包括：

针对所述特征图中的每个特征点，以所述特征点为中心，按照不同的尺寸和缩放比例，生成各个所述特征点分别对应的候选框。

根据本申请的另一方面，提供了一种图像识别装置，该装置包括：

获取模块，用于获取待识别图像，对所述待识别图像进行特征提取处理，获得所述待识别图像中的待识别地图要素在所述待识别图像中的目标区域；

特征提取模块，用于基于所述目标区域生成多个子区域，分别对每一所述子区域进行特征提取，获得所述每一子区域的图像特征；

要素识别模块，用于对所有所述子区域的图像特征进行融合处理，获得融合特征，基于所述融合特征确定所述待识别地图要素的识别结果。

根据本申请的另一方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上述的图像识别方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于实现如上述的图像识别方法。

根据本申请的另一方面，提供了一种计算机程序产品，其上包括指令，该指令被执行时实现如上述的图像识别方法。

本申请实施例中提供的图像识别方法、装置、设备及存储介质，通过获取待识别图像，并对待识别图像进行特征提取处理，得到待识别图像中的待识别地图要素在待识别图像中的目标区域，基于目标区域生成多个子区域，分别对每一子区域进行特征提取，获取每一子区域的图像特征，然后对所有子区域的图像特征进行融合处理，获取融合特征，基于融合特征确定待识别地图要素的识别结果。本申请中的技术方案相比于现有技术而言，一方面，识别目标区域后生成多个子区域，从而能够更细粒度地提取到待识别图像中每一子区域的图像特征，以便基于更细节的特征识别图像中的地图要素，能够有效提高地图要素的识别准确度。另一方面，通过对所有子区域的图像特征进行融合处理，能够增强目标区域的显著性，降低待识别图像中背景区域的干扰，结合了更为全面的特征来确定待识别地图要素的识别结果，也能够在一定程度上使得本申请所提供方法的识别准确度相比于现有技术有明显提升。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的图像识别的应用系统的系统架构图；

图2为本申请实施例提供的图像识别方法的流程示意图；

图3为本申请实施例提供的图像识别的过程结构示意图；

图4为本申请实施例提供的基于目标区域生成多个子区域方法的流程示意图；

图5为本申请实施例提供的基于目标区域生成多个子区域的结构示意图；

图6为本申请实施例提供的训练检测网络方法的流程示意图；

图7为本申请实施例提供的获取的地图要素的部分要素示意图；

图8为本申请又一实施例提供的得到待识别地图要素的识别结果的结构示意图；

图9为本申请实施例提供的生成目标区域的结构示意图；

图10为本申请实施例提供的得到候选框的结构示意图；

图11为本申请实施例提供的对待识别图像进行特征提取的结构示意图；

图12为本申请又一实施例提供的对待识别地图要素进行要素识别方法的流程示意图；

图13为本申请实施例提供的对待识别地图要素进行要素识别方法的流程示意图；

图14为本申请实施例提供的对待识别地图要素进行要素识别方法的结构示意图；

图15为本申请实施例提供的图像识别装置的结构示意图；

图16为本申请另一实施例提供的图像识别装置的结构示意图；

图17为本申请实施例示出的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了便于理解，下面对本申请实施例涉及的一些技术术语进行解释：

(1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件主要包括计算机视觉、语音处理技术、自然语言技术以及机器学习/深度学习等几大方向。

(2)机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎么模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习使人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

(3)卷积神经网络(Convolutional Neural Network，CNN)：是一种包含卷积计算且由深度结构的前馈神经网络(Feedforward Neural Network)，是深度学习的代表算法之一。卷积神经网络具有表征学习的能力，能够按其阶层结构对输入信息进行平移不变分类。

(4)分类网络：是指对图像所包含的对象进行识别的神经网络。分类网络的输入为图像数据，输出为图像所包含的对象的类别。其中，对象可以是交通要素等。

(5)地图要素：是电子地图图像中的有用物理点信息，可以是交通要素，包括道路中的交通标志或控制设施，例如，道路中的限速牌、电子眼、交通限制牌、红绿灯等。

(6)特征相似度：是用于评定不同空间特征之间相似程度的度量。特征相似度可以用距离、角度等来衡量。

(7)空间势场：用于描述两个特征或物体相互吸引或排斥的特性。例如，当两个特征之间相互吸引，则这两个特征存在吸引力；当两个特征之间相互排斥，则这两个特征存在排斥力。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴社保、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的神经网络等技术，具体通过下述实施例进行说明。

目前，相关技术中可以利用大量标注数据训练得到分类网络模型，然后通过分类网络模型对采集到的道路图像进行语义特征提取和分类处理，得到图像识别结果。但是在地图道路数据采集的过程中，标注数据中可能产生图像质量较差、地图要素覆盖众多且分布不均衡等问题，例如落石标志牌只在环山路的少量路段才会出现，其样本数量较少，限速标志牌在市区等道路比较常见，其样本数量较多，不同类别的地图要素的样本数量不同，会导致标注数据样本不均衡，使得通过样本学习后的分类网络模型的识别准确性较低，通过该分类网络模型进行图像识别会存在误检、识别类型错误等情况，且道路图像可能是在车辆行驶过程中采集的，或者可能是图像采集装置分辨率低、光线差等原因，导致采集到的道路图像质量较差，从而使得地图要素类型识别的准确度较低。

基于上述缺陷，本申请提供了一种图像识别方法、装置、设备及存储介质，与现有技术相比，通过基于目标区域生成多个子区域，从而能够更细粒度地提取到待识别图像中每一子区域的图像特征，并且通过对所有子区域的图像特征进行融合处理，能够增强目标区域的显著性，降低待识别图像中背景区域的干扰，进而结合了更为全面的特征来确定待识别地图要素的识别结果，提高了待识别地图要素的识别结果的准确性。

图1是本申请实施例提供的一种图像识别方法的实施环境架构图。如图1所示，该实施环境架构包括：终端10和服务器20。

其中，在图像识别领域，对待识别图像中的地图要素进行识别的过程即可以在终端10执行，也可以在服务器20执行。例如，通过终端10采集待识别图像，可以在终端10本地进行图像识别，得到待识别地图要素的识别结果；也可以将待识别图像发送至服务器20，使得服务器20获取待识别图像，根据待识别图像进行图像识别，得到待识别地图要素的识别结果，然后将待识别地图要素的识别结果发送至终端10，以实现对待识别图像中待识别地图要素的类型结果识别。

本申请实施例提供的图像识别方案，可以应用于常见的自动驾驶、车辆导航场景、地图数据采集场景、道路数据采集场景等。在上述应用场景中，通常需要采集道路场景图像，然后对道路场景图像进行分析，以获取地图要素的识别结果等信息，并基于这些信息进行后续的操作，例如进行地图更新，出行路线规划、控制车辆自动驾驶等。

另外，终端10上可以运行有操作系统，还操作系统可以包括但不限于安卓系统、IOS系统、Linux系统、Unix、windows系统等，还可以包括用户界面(User Interface，UI)层，可以通过UI层对外提供待识别图像的显示以及待识别地图要素的识别结果的显示，另外，可以基于应用程序接口(Application Programming Interface，API)将图像识别所需的待识别图像发送至服务器20。

可选的，终端10可以是各类AI应用场景中的终端设备。例如，终端10可以是笔记本电脑、平板电脑、台式计算机、车载终端、移动设备等，移动设备例如可以是智能手机、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备等各种类型的终端，本申请实施例对此不进行具体限定。

服务器20可以是一台服务器，也可以是由若干台服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端10与服务器20之间通过有线或无线网络建立通信连接。可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

为了便于理解和说明，下面通过图2至图17详细阐述本申请实施例提供的图像识别方法、装置、设备及存储介质。

图2所示为本申请实施例的图像识别方法的流程示意图，该方法可以由计算机设备执行，该计算机设备可以是上述图1所示系统中的服务器20或者终端10，或者，该计算机设备也可以是终端10和服务器20的结合。如图2所示，该方法包括：

S101、获取待识别图像，对待识别图像进行特征提取处理，获得待识别图像中的待识别地图要素在待识别图像中的目标区域。

上述待识别图像可以是需要进行图像识别的图像，可以包括待识别地图要素，还可以包括背景信息。待识别地图要素是待识别图像中包含的地图要素。其中，地图要素是构成地图的基本内容，用于标识地理环境中存在的一些警示情况。例如，地图要素可以包括交通要素，人物要素等。其中，交通要素可以包括道路中的交通标志或控制设施。人物要素可以包括人物形态、外貌、衣着等信息。另外，背景信息是指待识别图像中除待识别地图要素外的图像信息，例如可以是车辆、道路、杆、建筑物、天空、地面、树木等。

需要说明的是，交通标志是用文字、数字或符号传递引导、限制、警告或指示信息的道路设施，例如可以是道路上的限速牌、交通标志牌、红绿灯等。控制设施例如可以是电子眼。示例性地，交通标志牌例如可以包括直行、左转、右转、左转直行、右转直行、掉头、连续下坡等指示箭头类型，也可以包括指示公交车专用道的公交车图案，指示非机动车道的自行车图案、指示机动车道的小轿车图案，指示过街天桥、地下通道的阶梯图案。

本申请实施例中，在获取待识别图像时，可以是调用图像采集装置对道路进行图像采集，以获取待识别图像，也可以是通过云端获取，还可以是通过数据库或区块链获取待识别图像，还可以是通过外部设备导入获取待识别图像。

在一种可能的实现方式中，上述图像采集装置可以是摄像机或者照相机，也可以是激光雷达、毫米波雷达等雷达设备。其中，该摄像机可以是单目摄像机、双目摄像机、深度摄像机、三维摄像机等。可选的，在通过摄像机进行图像获取的过程中，可以控制摄像机开启摄像模式，实时扫描摄像机视野中的目标对象，并按指定帧率进行拍摄，得到道路视频，并处理生成待识别图像。在通过雷达设备进行图像获取的过程中，可以通过雷达设备实时向目标对象发射探测信号，然后接收目标对象反射回的回波信号，基于探测信号与回波信号之间的差异，确定目标对象的特征数据，基于该特征数据，确定待识别图像。

需要说明的是，上述待识别图像可以是图像序列的格式，也可以三维点云图像格式，还可以是视频图像格式。

在其中一个实施例中，计算机设备在获取到待识别图像后，可以通过预设的特征提取规则对待识别图像进行特征提取处理，得到待识别地图要素在待识别图像中的目标区域。需要说明的是，上述目标区域是指仅包括待识别地图要素的图像。该目标区域可以是矩形区域，也可以是圆形区域，三角形区域等。

可选的，上述特征提取规则是指根据实际应用场景，对待识别图像预先设置的特征提取策略，可以是训练后的区域预测模型，也可以是通用的特征提取算法等。作为一种可实现方式，可以通过区域预测模型对待识别图像进行特征提取处理，得到待识别地图要素在待识别图像中的目标区域。其中，区域预测模型是通过对样本数据进行训练，从而学习到具备地图要素提取能力的网络结构模型。区域预测模型是输入为待识别图像，输出为待识别地图要素在待识别图像中的目标区域，且具有对待识别图像进行图像识别的能力，是能够预测待识别地图要素在待识别图像中的目标区域的神经网络模型。区域预测模型可以包括多层网络结构，不同层的网络结构对输入其的数据进行不同的处理，并将其输出结果传输至下一网络层，直至通过最后一个网络层进行处理，得到待识别地图要素在待识别图像中的目标区域。

作为另一种可实现方式，在通过特征提取算法对待识别图像进行待识别地图要素的特征提取过程中，例如可以是采用尺度不变特征变换(Scale-Invariant FeatureTransform，SIFT)算法，也可以是加速稳健特征((Speeded Up Robust Features，SURF)算法，还可以是ORB特征检测(Oriented FAST and Rotated BRIEF，ORB)等得到待识别地图要素在待识别图像中的目标区域。

作为又一种可实现方式，还可以通过查询预先建立的模板图像数据库，将待识别图像的图像特征与模板图像数据库中的图像特征进行比对，确定出待识别图像中与模板图像数据库中模板图像特征比对一致的部分，然后将该特征比对一致的部分确定为待识别地图要素在待识别图像中的目标区域。其中，模板图像数据库可以根据实际应用场景中的地图要素的图像特征信息进行灵活配置，是对不同要素类型、要素形态和结构等特征的地图要素进行汇总和整理后构建的。

需要说明的是，上述对待识别图像进行特征提取，得到待识别地图要素在待识别图像中的目标区域的各个实现方式仅仅是作为一种示例，本申请实施例对此不做限定。

本实施例中通过对待识别图像进行特征提取处理，能够精准地得到待识别地图要素在待识别图像中的目标区域，从而使得针对正确的目标区域获取更细粒度的子区域的图像特征，进而使得确定出的待识别地图要素的识别结果更准确。

S102、基于目标区域生成多个子区域，分别对每一子区域进行特征提取，获得每一子区域的图像特征。

具体地，由于待识别图像中不仅包括待识别地图要素，还包括除待识别地图要素外的背景信息。为了提高对待识别地图要素识别的准确性，可以充分地利用待识别图像中的背景信息，以增强对目标区域的显著性，因此在确定出目标区域后，对目标区域添加对应的背景信息，并对添加背景信息后形成的图像区域进行划分处理，从而得到多个子区域。其中，按照不同的划分策略进行划分时，得到的多个子区域也不相同。

需要说明的是，在对添加背景信息后形成的图像区域进行划分处理的过程中，可以是按照不同的划分尺寸或划分比例对添加背景信息后形成的区域进行均匀划分，也可以是不规则划分处理。其中，划分尺寸或划分比例的个数可以是多个，例如可以对添加背景信息后形成的区域进行两种划分尺寸的划分处理，得到两个子区域；也可以是对添加背景信息后形成的区域进行三种划分尺寸的划分处理，得到三个子区域，还可以是对添加背景信息后形成的区域进行四种划分尺寸的划分处理，得到四个子区域。

其中，上述划分尺寸可以是任意尺寸，划分比例可以是任意比例。可以理解的是，对添加背景信息后形成的区域进行划分的划分尺寸越大，得到的每个子区域数量越少；对添加背景信息后形成的区域进行划分的划分尺寸越小，得到的每个子区域数量越多。

在其中一个实施例中，在基于目标区域生成多个子区域后，可以分别对每一子区域进行特征提取，得到每一子区域的图像特征。可选的，可以通过特征提取策略进行特征提取处理，得到每一子区域的图像特征。可选的，该图像特征的表现形式可以为矩阵或向量形式。

可选的，上述特征提取策略是指根据实际应用场景预先设置的用于进行特征提取的策略，可以是训练完成得到的特征提取网络，也可以是通用的特征提取算法等。作为一种可实现方式，可以通过特征提取网络分别对每一子区域进行特征提取，得到每一子区域的图像特征。其中，该特性提取网络是通过对样本数据进行训练，从而学习到具备特征提取能力的网络结构模型。特征提取网络的输入为多个子区域中的每一子区域，输出为每一子区域的图像特征，且具有对每一子区域进行图像识别的能力，是能够预测每一子区域的图像特征的神经网络模型。该特征提取网络可以包括多层网络结构，不同层的网络结构对输入其的数据进行不同的处理，并将其输出结果传输至下一网络层，直至通过最后一个网络层进行处理，得到每一子区域的图像特征。

作为另一种可实现方式，在通过特征提取算法对每一子区域进行特征提取，得到每一子区域的图像特征，该特征提取算法例如可以是采用尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)算法，也可以是加速稳健特征((Speeded Up RobustFeatures，SURF)算法，还可以是ORB特征检测(Oriented FAST and Rotated BRIEF，ORB)等。

可以理解的是，分别对每一子区域进行特征提取，得到每一子区域的图像特征不同。

本实施例中通过基于目标区域生成多个子区域，且分别对每一子区域进行特征提取，从而能够更细粒度地提取到每一子区域的图像特征，进一步提高了对地图要素进行识别的准确性。

S103、对所有子区域的图像特征进行融合处理，获得融合特征，基于融合特征确定待识别地图要素的识别结果。

具体地，上述所有子区域的图像特征可以包括图像特征向量或图像特征矩阵。示例性地，在获取到所有子区域的图像特征后，可以对所有子区域的图像特征进行融合处理的过程中，当所有子区域的图像特征为通过向量表示时，可以是通过向量组合的方式进行信息融合；当所有子区域的图像特征为通过矩阵表示时，可以是通过矩阵拼接的方式进行信息融合，从而得到对应的融合特征。

在获取到融合特征后，可以是将融合特征输入训练好的检测网络中，确定待识别地图要素的识别结果，也可以是采用分类算法确定待识别地图要素的识别结果。

需要说明的是，上述检测网络是通过样本学习具备地图要素识别能力的模型结构，检测网络的输入为融合特征，输出为地图要素的识别结果，是一个能够预测待识别地图要素的识别结果的神经网络模型。

作为一种可实现方式，该检测网络可以包括全连接层和激活函数，在获取到融合特征后，可以通过全连接层对融合特征进行处理，得到全连接向量特征，并采用激活函数对全连接向量特征进行处理，得到待识别地图要素的识别结果，该识别结果包括多个地图要素种类，也可以包括在要素类型下的多个要素属性。

作为另一种可实现方式，可以相应领域的先验知识的方式，通过聚类算法对融合特征进行聚类处理，得到聚类结果，然后利用人工先验的要素特征知识确定融合特征中每个聚类结果的识别结果，从而得到待识别地图要素的识别结果。其中，上述聚类算法可以是聚类函数，聚合函数例如可以用Mean、Pool、LSTM等。

作为又一种可实现方式，还可以查询预先建立的已知要素类型的要素特征数据库，将未知类型的融合特征的待识别地图要素的要素特征与已知要素类型的要素特征数据库的要素特征进行比对，将要素特征相同的要素类型确定为待识别地图要素的识别结果。其中，该要素特征库可以是对不同地图要素类型、要素形态和结构等特征的要素数据进行汇总和分类整理后构建的。

其中，上述待识别地图要素的识别结果用于标识待识别地图要素，以便能够通过待识别地图要素的识别结果快速获取到待识别地图要素的信息、特点等。例如，待识别地图要素的识别结果可以包括待识别地图要素的要素类型，或者可以包括待识别地图要素在要素类型下的多个要素属性。示例性地，要素类型可以是路线指示牌、红绿灯、道路指示牌、路况指示牌等。其中，路线指示牌对应的要素属性例如可以是直行、左转、右转、左转直行、右转直行、掉头等。不同要素属性对应的地图要素的功能不同。例如，直行标志具有指示车辆可直行的功能；左转标志具有指示车辆可左转的功能；左转直行具有指示车辆可直行或左转的功能；掉头具有指示车辆可掉头的功能。

请参见图3所示，在获取到待识别图像3-1时，对待识别图像3-1进行特征提取处理，得到待识别地图要素在待识别图像中的目标区域3-2，然后基于目标区域3-2生成多个子区域3-3，对所有子区域3-3的图像特征进行融合处理，得到融合特征3-4，基于融合特征3-4确定待识别地图要素的识别结果3-5。

本申请实施例中提供的图像识别方法，相比于现有技术而言，一方面，通过基于目标区域生成多个子区域，从而能够更细粒度地提取到待识别图像中每一子区域的图像特征，另一方面，通过对所有子区域的图像特征进行融合处理，有效地融合了待识别图像中的背景信息，能够增强目标区域的显著性，进而结合了更为全面的图像特征来确定待识别地图要素的识别结果，更加准确地获得待识别地图要素的识别结果，很大程度上提升了对待识别图像中待识别地图要素的准确度。还可以应用于地图更新系统中，对待识别图像中的待识别地图要素进行准确的预测，极大地提升了地图要素识别的质量和效率，为地图数据的更新和分析处理提供了强有力的支持。

在本申请的另一实施例中，可以对目标区域进行背景信息添加处理得到多个子区域。图4提供了基于目标区域生成多个子区域的具体实现方式。请参见图4所示，具体包括：

S201、对目标区域进行背景添加处理，获得候选窗口；候选窗口包含目标区域。

需要说明的是，上述背景是指待识别图像中除待识别地图要素之外的其余图像，例如可以包括待识别图像中的树木、天空、道路、杆、车辆等。

本实施例中，作为一种可选的实现方式，在对目标区域进行背景添加处理的过程中，可以先在待识别图像中选择背景信息，将该背景信息在待识别图像中映射的区域作为背景区域，然后将该背景区域与目标区域进行结合处理，得到候选窗口。可选的，在将背景区域与目标区域进行结合的过程中，可以通过一个规则图形窗口进行框选背景区域和目标区域的方式，也可以通过不规则图像窗口进行框选背景区域和目标区域的方式，本步骤中对其结合方式不进行具体限定，只要能够将背景区域与目标区域进行结合得到一个候选窗口即可，其中，规则图形例如可以是矩形、三角形、菱形、圆形等。

其中，可以在该待识别图像中选择多个背景信息，每个背景信息在待识别图像中映射的背景区域也不相同，根据不同的背景区域与目标区域进行结合形成的候选窗口也不同。

进一步地，还可以对目标区域进行尺寸扩展处理，获得候选窗口，可以先确定目标区域在待识别图像中对应的尺寸，然后根据该尺寸，对目标区域进行尺寸扩展处理，得到候选窗口，该候选窗口包含目标区域。可选的，该候选窗口的形状可以是矩形、三角形、圆形等任意形状。

根据目标区域的尺寸，对目标区域进行尺寸扩展处理时，可以是采用预设软件进行处理，用户可以根据实际需求自定义设置相关参数，该参数例如可以是用户自定义选择的功能选项“扩展”和“尺寸”，然后运行该预设软件，使其按照相关参数对对待识别图像的目标区域进行尺寸扩展，从而得到候选窗口。其中，预设软件可以是图像处理软件。

其中，在对目标区域进行尺寸扩展处理时，可以是以待识别地图要素为中心，按照预设比例对目标区域进行扩展处理。该预设比例是根据实际需求自定义设置的，例如，该目标区域与候选窗口的尺寸扩展的预设比例可以是1：2，1：3，1：4，2：3等任意值。

示例性地，当确定出目标区域在待识别图像中对应的尺寸为W×H时，假设按照尺寸确定的预设比例为1：2，对目标区域进行尺寸扩展处理得到候选窗口，则得到的该候选窗口的尺寸为2W×2H，且该候选窗口包含了待识别图像中的背景信息。

S202、按照n个划分尺寸对候选窗口进行n次划分处理，获得多个不同尺寸的子区域，n为正整数且n≥1。

需要说明的是，上述每一划分尺寸都有对应的子区域。不同的划分尺寸，对应划分得到的子区域的个数和尺寸也不同。

具体地，在获取到候选窗口后，可以对候选窗口进行划分处理，按照n个划分尺寸对候选窗口进行n次划分处理，n为正整数且n≥1，在对候选窗口进行每次划分处理时，可以是均匀划分处理，则其划分处理后得到的每个子区域的大小尺寸相同；也可以是不均匀划分处理，则其划分处理后得到的每个子区域的大小尺寸不同。

示例性地，可以参见图5所示，当n为3时，则对待识别图像5-1进行特征提取处理，确定出待识别地图要素在待识别图像中的目标区域后，并对目标区域进行尺寸扩展处理，得到候选窗口5-2，然后按照3个划分尺寸对候选窗口进行三次划分处理时，可以得到三个不同尺寸的子区域5-3，其中，三个不同的划分尺寸例如可以是每个子区域的长×宽尺寸分别为：4×4，8×8，16×16。通过不同的划分尺寸，对应得到的子区域的大小尺寸也不同。其中，不同子区域能够用于提取待识别图像中不同感受野的特征。

本实施例中通过对目标区域进行背景添加处理，得到候选窗口，通过引入背景信息的方式，扩充了识别区域，然后对候选窗口进行划分处理，得到多个不同尺寸的子区域，从而能够更细粒度地聚焦于每个子区域的特征，以提高图像识别的准确性。

在本申请的另一实施例中，还提供一种基于各个子区域的图像特征，得到融合特征的实现方式。具体地，在确定出各个子区域的图像特征后，可以对各子区域的图像特征进行向量化处理，获得子区域对应的特征向量；然后确定各子区域对应的特征向量中每个特征值对应的方向值，方向值用于表征子区域中是否包括目标区域，并根据各子区域对应的特征值以及子区域对应的方向值得到融合特征。

需要说明的是，特征向量是指对其它形式的数据以数据形式进行表达的结果。可以对各子区域的图像特征进行向量化处理，得到子区域对应的特征向量，该特征向量可以包括待识别地图要素的特征向量，也可以包括纯背景特征向量，不同的特征向量对应不同维度的特征值和方向值。其中，特征值是用于表征该维度的信息与目标类别之间存在吸引力或排斥力的数值大小，方向值用于表征子区域中是否包括目标区域，当子区域不包含目标区域，即包含背景区域时，对应的方向值为“-”；当子区域包含目标区域时，对应的方向值为“+”。其中，方向值为“+”的特征值表示该维度的信息与地图要素的目标类型存在吸引力，且吸引的幅度为该维度的数值大小；方向值为“-”的特征值表示该维度的信息与地图要素的目标类型存在排斥力，且排斥的幅度为该维度的数值大小。

需要说明的是，上述吸引力和排斥力，可以理解为子区域的图像特征对待识别地图要素的目标类型的影响程度，即若某一维度的信息与地图要素的目标类型存在吸引力且吸引力的幅度越大，那么子区域的图像特征对待识别地图要素的目标类型的影响程度越大；若某一维度的信息与地图要素的目标类型存在排斥力且排斥力的幅度越大，那么子区域的图像特征对待识别地图要素的目标类型的影响程度越小。

示例性地，将子区域的图像特征表示为数学形式“[0,10,2,0]”，也可以为“[0,-10,2,0]”，此时，“[0,10,2,0]”和“[0,-10,2,0]”即为子区域对应的特征向量。例如，特征向量“[0,-10,2,0]”中的“-10”中的特征值为“10”，方向值为“-”，其代表的含义为该第二个维度的信息与地图要素的目标类型存在排斥力，且排斥的幅度值为10。又如特征向量“[0,-10,2,0]”中的“2”中的特征值为“2”，方向值为“+”，其代表的含义为该第三个维度的信息与地图要素的目标类型存在吸引力，且吸引的幅度值为2。

可以理解的是，本实施例中对特征向量的具体形式不进行任何限定，只要能够将各子区域的图像特征进行数学化表示，且包括特征值和方向值即可。例如，可以将子区域的图像特征转换为高维稀疏向量或低维稠密向量。

本实施例中，在确定各子区域对应的特征向量中每个特征值对应的方向值和特征值后，可以根据各子区域对应的特征值和方向值进行向量卷积、加权的方式处理，得到融合特征。该融合特征融合了各个子区域的图像特征。

其中，可以分别将各子区域中包含目标区域的特征向量和包含背景区域的特征向量进行融合处理，从而得到融合特征。需要说明的是，在包含目标区域的特征向量进行融合的过程中，若出现某一维度的方向为排斥力，则将其方向值置为0，即不参与吸引力的特征融合，同理，在包含背景区域的特征向量进行融合的过程中，若出现某一维度的方向为吸引力，则将其方向值置为0，即不参与排斥力的特征融合。

本实施例中通过对所有子区域的图像特征进行融合处理，得到融合特征，有效地融合了待识别图像中的背景信息，能够增强目标区域的显著性，结合了更为全面的图像特征来确定待识别地图要素的识别结果，便于后续预测待识别地图要素的要素类型。

在本申请的另一实施例中，还提供了在得到融合特征后，基于融合特征确定待识别地图要素的识别结果的一种实现方式。可以将融合特征输入训练好的检测网络，根据检测网络的输出确定待识别地图要素的识别结果。该检测模型是基于历史图像以及历史图像的地图要素识别结果训练获得的，该历史图像标注有交通要素区域。

需要说明的是，上述检测网络是一个输入为融合特征，输出为待识别地图要素的识别结果，且具有对待识别地图要素进行要素类型识别的能力，能够预测识别结果的神经网络模型。该检测网络用于负责建立融合特征与目标要素类型之间的关系，其模型参数已处于最优的状态。其中，该检测网络可以包括但不限于卷积层、全连接层和激活函数，卷积层、全连接层可以包括一层，或者也可以包括多层。卷积层用于对融合特征进行特征提取，全连接层主要是用于对融合特征进行分类的作用。可以将融合特征通过卷积层进行处理，得到卷积特征，然后将卷积特征通过全连接层进行处理，得到全连接向量，然后将全连接向量通过激活函数进行处理，从而得到检测网络的输出结果，该输出结果包括待识别地图要素的要素类型，或者可以包括待识别地图要素在要素类型下的多个要素属性。

其中，上述激活函数可以是Sigmoid函数，也可以是Tanh函数，还可以是ReLU函数，通过将全连接向量经过激活函数处理，能够将其结果映射到0～1之间。

一种可能的实现方式中，上述检测网络对融合特征的处理具体包括：在对融合特征进行处理的过程中，可以是通过多分类函数对融合特征进行运算，输出地图要素类型。还可以通过多元二分类对融合特征进行运算，输出融合特征属性。可选的，上述多分类函数可以是softmax函数，上述多元二分类函数可以是多个sigmoid函数，一个sigmoid函数可以实现一个二分类预测。其中，上述多分类函数的作用是用来加入非线性因素，因为线性模型的表达能力不够，能够把输入的连续实值变换为0和1之间的输出。

示例性地，将融合特征输入检测网络中，检测网络的预测结果可以包括“路线指示牌”、“红绿灯”和“路况指示牌”等地图要素类型中的任意一个。其中，预测结果还可以包括地图要素属性，例如地图要素类型“路线指示牌”对应的要素属性可以是“直行”、“左转”、“右转”、“左转直行”、“掉头”中的多个。

其中，以三分类为例，介绍多分类函数的输出。例如，多分类函数能够预测的要素类型分别为“路线指示牌”、“红绿灯”和“路况指示牌”，上述检测网络的输出结果可以是通过向量表示，例如可以是一个3*1维的向量，该向量中的每一个元素对应一个要素类型，向量中的每个元素值表示待识别地图要素为对应标签种类的概率。假设多分类函数的输出向量为[0.61，0.31，0.08]，则表示待识别地图要素为“路线指示牌”的概率为0.61，待识别地图要素为“红绿灯”的概率为0.31，待识别地图要素为“路况指示牌”的概率为0.08，可以选择概率最大的元素值作为待识别地图要素的预测结果，即将“路线指示牌”作为待识别地图要素的识别结果。

以三元二分类为例，介绍多元二分类函数的输出。例如，多元二分类函数能够预测的细胞属性用“直行”、“左转”、“右转”和“左转直行”表示，其输出结果可以是通过向量表示，例如可以是一个4*1维的向量，该向量中的每一个元素对应一个要素属性，向量中的每个元素值表示待识别地图要素为对应要素属性的概率。假设三元二分类函数的输出向量为[0.51，0.15，0.22、0.62]，则表示这个待识别地图要素为“直行”的概率为0.51，待识别地图要素为“左转”的概率为0.15，待识别地图要素为“右转”的概率为0.22，待识别地图要素为“左转直行”的概率为0.62。假设预设阈值为0.5，将概率大于预设阈值的概率的元素值为作为待识别地图要素的预测结果，即将“直行”和“右转”作为多元二分类函数的识别结果。

本申请实施例中，通过将融合特征输入检测网络进行预测处理，很大程度上提高了确定待识别地图要素的识别结果的准确度，能够更加精准地得到识别结果，实现更高精度的地图要素识别。

在本申请的另一实施例中，还提供了对检测网络进行训练的训练过程的具体实现方式。请参见图6所示，具体包括：

S301、基于历史图像生成多个样本子区域，分别将每一样本子区域输入待训练特征提取网络进行特征提取处理，得到每一样本子区域的图像特征。

其中，上述该历史图像可以是多个，也可以是一个，其中，每个历史图像可以包括至少一个地图要素，例如该历史图像可以包括路线指示牌、也可以是红绿灯，还可以是路况指示牌。该历史图像为已知地图要素识别结果的图像。其中，地图要素识别结果可以参见图7所示，如图7所示，图7为本申请实施例提供的地图要素的部分要素示意图，可以包括各种警告标牌、禁止标牌和信息标牌。

具体的，在获取到历史图像后，可以对历史图像添加对应的背景信息，并对添加背景信息后形成的图像区域进行划分处理，从而得到多个样本子区域。可以将每一样本子区域按照一定比例随机分为训练集和验证集，其中，训练集用于对初始检测网络进行训练，以得到训练好的检测网络，验证集用于对训练好的检测网络进行验证，以验证检测网络性能的好坏。然后分别将训练集的每一样本子区域输入待训练特征提取网络进行特征提取处理，得到每一样本子区域的图像特征。

S302、将所有样本子区域的图像特征输入待训练融合网络进行融合处理，得到样本融合特征。

S303、将样本融合特征输入待训练检测网络，得到地图要素的预测结果。

S304、根据地图要素的预测结果与历史图像的地图要素识别结果，计算损失函数。

S305、按照损失函数最小化，采用迭代算法迭代调整待训练特征提取网络、待训练融合网络和待训练检测网络的参数，得到检测网络。

在确定出所有样本子区域的图像特征后，可以将所有样本子区域的图像特征输入待训练融合网络进行融合处理，可以是进行向量拼接或叠加的方式，得到样本融合特征，然后将样本融合特征输入待训练检测网络，该待训练检测网络可以包括全连接层和激活函数，将得到的样本融合特征输入至全连接层中，得到样本全连接向量，并使用激活函数对样本全连接向量进行处理，得到对应的输出结果。利用训练集对待构建的特征提取网络、融合网络和检测网络进行训练，得到待验证的特征提取网络、融合网络和检测网络。

计算机设备在训练检测网络的过程中，利用验证集中对待验证的特征提取网络、融合网络和检测网络，按照损失函数最小化对待验证的特征提取网络、融合网络和检测网络进行优化处理，得到特征提取网络、融合网络和检测网络，根据该验证集输入待验证的检测网络和标注结果之间的差异，对待构建的特征提取网络、融合网络和检测网络中的参数进行更新，以实现对特征提取网络、融合网络和检测网络进行训练的目的，其中，上述标注结果可以是人工对历史图像进行标注得到的地图要素识别结果。

可选的，上述对待验证的特征提取网络、融合网络和检测网络中的参数进行更新，可以是对待构建的特征提取网络、融合网络和检测网络中的权重矩阵以及偏置矩阵等矩阵参数进行更新。其中，上述权重矩阵、偏置矩阵包括但不限于是待验证的特征提取网络、融合网络和检测网络中的卷积层、前馈网络层、全连接层中的矩阵参数。

本申请实施例中，可以使用损失函数计算验证集输入待验证的检测网络中得到的结果和标签结果的损失值，从而对待验证的特征提取网络、融合网络和检测网络中的参数进行更新。可选的，损失函数可以使用交叉熵损失函数，归一化交叉熵损失函数，或者可以使用Focalloss。

其中，通过损失函数对待验证的特征提取网络、融合网络和检测网络中的参数进行更新时，可以是根据损失函数确定待验证的特征提取网络、融合网络和检测网络未收敛时，通过调整模型中的参数，以使得待验证的特征提取网络、融合网络和检测网络收敛，从而得到特征提取网络、融合网络和检测网络。待验证的特征提取网络、融合网络和检测网络收敛，可以是指待验证的特征提取网络、融合网络和检测网络对验证集的输出结果与训练数据的标注结果之间的差值小于预设阈值，或者，输出结果与训练数据的标注结果之间的差值的变化率趋近于某一个较低值。当计算的损失函数较小，或者，与上一轮迭代输出的损失函数之间的差值趋近于0，则认为待验证的特征提取网络、融合网络和检测网络收敛。

进一步地，在训练好特征提取网络、融合网络和检测网络后，请参见图8所示，获取到待识别图像8-1，可以对待识别图像8-1进行特征提取处理，得到待识别地图要素在待识别图像中的目标区域8-2，然后基于目标区域8-2生成多个子区域8-3，例如该子区域8-3为三个，分别为第一子区域、第二子区域和第三子区域，然后将该三个子区域8-3的图像特征通过特征提取网络进行处理，分别得到第一子区域的图像特征、第二子区域的图像特征和第三子区域的图像特征8-4，并将第一子区域的图像特征、第二子区域的图像特征和第三子区域的图像特征8-4通过融合网络进行融合处理，得到融合特征8-5，并将该融合特征8-5输入检测网络，得到待识别地图要素的识别结果8-6。

在本申请的另一实施例中，还提供一种对待识别图像进行特征提取处理，获得待识别图像中的待识别地图要素在待识别图像中的目标区域的具体实现方式。可以通过对待识别图像进行特征提取处理，得到待识别图像的特征图；然后对于特征图中的每个特征点，确定每个特征点对应的候选框；该候选框包含特征点；并对每个候选框中的图像特征进行地图要素的检测，得到候选框对应的置信度；置信度用于表征候选框内的图像为地图要素的概率；将置信度符合预设规则的候选框对应的区域确定为待识别地图要素在待识别图像中的目标区域。

请参见图9所示，可以通过区域预测网络对待识别图像9-1进行图像特征提取，得到待识别地图要素在待识别图像中的目标区域9-2。可选的，该区域预测网络可以是卷积神经网络(Convolutional Neural Network，CNN)模型，也可以是人工神经网络模型(Artificial Neural Network，ANN)模型。

具体地，该区域预测网络的结构可以包括特征预测网络、候选框生成网络和要素检测网络。其中，特征预测网络可以包括卷积层、归一化层(Batch Normalization，BN)和激活层。可以将待识别图像通过卷积层提取待识别图像的边缘以及纹理等图像特征，得到待识别图像的图像特征，然后由特征预测网络中的归一化层对卷积层提取的图像特征按照正态分布进行归一化处理，以过滤图像特征中的噪声特征，得到过滤后的图像特征，并通过激活层对过滤后的图像特征进行非线性映射，加强特征提取模型的泛化能力，得到特征图。其中，该特征图中包括多个特征点。

在得到特征图后，对于特征图中的每个特征点，按照候选框生成规则，确定每个特征点对应的候选框。可选的，该候选框可以是正方形、矩形、圆形、菱形和三角形等任意形状。候选框的数量可以是预先确定的随机数，例如为8个、9个、10个等。

作为一种可实现方式，计算机设备可以针对特征图中的每个特征点，以特征点为中心，按照不同的尺寸和缩放比例，生成各个特征点分别对应的候选框；也可以是在特定的尺寸上结合特定的长宽比，生成每个特征点对应的候选框。其中，各个特征点对应的候选框数量可以是随机的，不同的尺寸也可以是随机确定的任意尺寸，例如可以是1个特征点、2个特征点或3个特征点，不同的长宽比可以是随机确定的长宽比，例如可以是1：1，2：1，1：3。

例如，图10为本申请实施例提供的确定每个特征点对应到候选框的示意图。计算机设备针对每个特征点10-1，可以将候选框的尺寸分别设置为1个特征点、2个特征点、3个特征点，同时在这些尺寸上，设置三组长宽比，例如分别为1：1，2：1，1：2。然后针对每个尺寸，都会生成对应的3个候选框，从而生成9个候选框。

计算机设备通过要素检测网络，对每个候选框中的图像特征，分别进行地图要素的检测，从而得到每个候选框对应的置信度，还可以得到每个候选框的检测结果。其中，检测结果用于表征候选框中是否包含地图要素，置信度用于表征候选框内的图像为地图要素的概率。然后将置信度符合预设规则的候选框对应的区域确定为待识别地图要素在待识别图像中的目标区域。需要说明的是，上述符合预设规则可以是将置信度最高的候选框对应的区域，或者是将置信度高于预设阈值的候选框对应的区域确定为待识别地图要素在待识别图像中的目标区域。其中，预设阈值是根据实际应用场景中的需求自定义设置的。

可以理解的是，在通过要素检测模型对每个候选框中的图像特征，分别进行地图要素的检测的过程中，可以是先提取每个候选框的图像特征，然后对图像特征进行分类处理，可以通过全连接层对每个候选框的图像特征进行处理，得到全连接向量，并采用激活函数对全连接向量进行处理，得到候选框的预测结果，该预测结果包括多个置信度，其中，每个候选框种类对应的置信度不同，然后确定置信度符合预设规则的候选框，可以是挑选出最高置信度对应的候选框，将该候选框对应的区域确定为待识别地图要素在待识别图像中的目标区域。

示例性地，图11为本申请实施例提供的对待识别图像进行目标区域检测方法的过程示意图。请参见图11所示，计算机设备可以先将待识别图像11-1输入至特征预测网络中，得到特征图11-2，然后再将特征图11-2通过候选框生成网络进行处理，对于特征图中的每个特征点，生成每个特征点对应的候选框11-3，然后通过要素检测网络对每个候选框中的图像特征进行地图要素的分类检测，得到每个候选框对应的置信度，以确定候选框中的图像特征是否包含了地图要素，并从多个候选框对应的置信度中，选择置信度符合预设规则的候选框对应的区域，将该区域确定为待识别地图要素在待识别图像中的目标区域。

需要说明的是，上述特征预测网络具有对待识别图像进行特征提取的能力，候选框生成网络具有对每个特征点生成候选框的能力，要素检测网络具有进行地图要素的目标区域检测的能力。该特征预测网络、候选框生成网络、要素检测网络可以是通过预设训练算法进行训练得到的，即特征预测网络、候选框生成网络、要素检测网络的模型参数已处于最优的状态。

进一步地，本实施例提供了上述特征预测网络、候选框生成网络、要素检测网络的具体训练过程，可以将训练样本输入上述特征预测模型、候选框生成网络、要素检测网络，根据预先设置的损失函数确定训练样本的真实标签与输出之间的损失，根据获得的损失对特征预测模型、候选框生成网络、要素检测网络进行迭代训练。

一种可能的实现方式中，上述区域预测网络中的特征预测模型、候选框生成网络、要素检测网络的训练过程具体包括：将初始历史图像按照一定比例随机分为训练集和验证集，然后利用训练集和验证集按照训练学习算法构建得到特征预测网络、候选框生成网络、要素检测网络。其中，训练集用于对初始特征预测网络、候选框生成网络、要素检测网络进行训练，以得到训练好的特征预测网络、候选框生成网络、要素检测网络，验证集用于对训练好的特征预测网络、候选框生成网络、要素检测网络进行验证，以验证特征预测网络、候选框生成网络、要素检测网络性能的好坏。

其中，计算设备在训练特征预测网络、候选框生成网络、要素检测网络的过程中，利用验证集中对待验证的特征预测网络、候选框生成网络、要素检测网络，按照损失函数最小化对待验证的特征预测网络、候选框生成网络、要素检测网络进行优化处理，得到特征预测网络、候选框生成网络、要素检测网络，根据该验证集输入待验证的特征预测网络、候选框生成网络、要素检测网络中得到的结果和历史区域检测结果之间的差异，对待构建的特征预测网络、候选框生成网络、要素检测网络中的参数进行更新，以实现对特征预测网络、候选框生成网络、要素检测网络进行训练的目的，其中，上述历史区域检测结果可以是人工对初始历史图像进行标注得到的结果。

本申请实施例中，在训练特征预测网络、候选框生成网络、要素检测网络时，可以使用损失函数计算验证集输入待验证的特征预测网络、候选框生成网络、要素检测网络中得到的结果和历史区域检测结果的损失值，从而对待验证的特征预测网络、候选框生成网络、要素检测网络中的参数进行更新。可选的，损失函数可以使用交叉熵损失函数，归一化交叉熵损失函数，或者可以使用Focalloss等。

本实施例中，通过对待识别地图要素进行特征提取，然后针对特征图中的每个特征点，确定每个特征点对应的候选框，并对每个候选框中的图像特征进行地图要素的检测，得到候选框对应的置信度，然后将置信度符合预设规则的候选框对应的区域确定为待识别地图要素在待识别图像中的目标区域，能够便于精准地生成多个子区域，进一步提高了待识别地图要素的识别结果的准确性。

为了更好的理解本申请实施例，下面来进一步说明本申请提出的图像识别的方法的完整流程图方法。

图12为本申请实施例提供的图像识别方法的流程示意图，如图12所示，该方法可以包括以下步骤：

S401、获取待识别图像，对待识别图像进行特征提取处理，获得待识别图像中的待识别地图要素在待识别图像中的目标区域。

具体地，请参见图13所示，可以通过图像采集装置或车载拍照设备进行图像采集，具体是对行驶在前方的道路进行拍照，以获取待识别图像，该待识别图像中不仅包括待识别地图要素，还可以包括背景信息。在获取到到识别图像后，可以通过区域预测网络对待识别图像进行特征提取处理，以进行地图要素检测，具体是将待识别图像输入至区域预测网络中的特征预测网络中，依次通过卷积层、归一化层和激活层，得到特征图，然后再将特征图通过候选框生成网络进行处理，对于特征图中的每个特征点，生成每个特征点对应的候选框，例如每个特征点生成9个候选框，然后通过要素检测网络对每个候选框中的图像特征进行地图要素的分类检测，得到每个候选框对应的置信度，以确定候选框中的图像特征是否包含了地图要素，并从9个候选框对应的置信度中，选择置信度最高的候选框对应的区域，将该区域确定为待识别地图要素在待识别图像中的目标区域。

S402、对目标区域进行背景添加处理，获得候选窗口；候选窗口包含目标区域。

S403、按照n个划分尺寸对候选窗口进行n次划分处理，获得多个不同尺寸的子区域，n为正整数且n≥1。

在确定出目标区域后，可以通过添加背景信息的方式，以更精确地识别出地图要素类别。具体是可以通过配置多层级窗口信息，该多层级窗口是指按照多个不同划分尺寸得到多个不同的子区域。

示例性地，可以先确定目标区域的尺寸，例如确定出的目标区域的尺寸为W×H时，然后以待识别地图要素为中心，按照预设比例对目标区域进行尺寸扩展处理，假设该预设比例为1：2，则扩展后得到候选窗口的尺寸为2W×2H，且该候选窗口包含了待识别图像中的背景信息。

本实施例中，在确定出候选窗口后，可以对候选窗口进行划分处理，按照n个划分尺寸对候选窗口进行n次划分处理，n为正整数且n≥1，例如当n为3时，则三个划分尺寸可以是每个子区域的长×宽尺寸分别为：4×4，8×8，16×16，则按照3个划分尺寸对候选窗口进行三次划分处理时，得到三个不同尺寸对应的子区域，该三个不同尺寸对应的子区域分别用于提取不同感受野的特征。

S404、对各子区域的图像特征进行向量化处理，获得子区域对应的特征向量。

S405、确定各子区域对应的特征向量中每个特征值对应的方向值，方向值用于表征子区域中是否包括目标区域。

S406、根据各子区域对应的特征值以及子区域对应的方向值得到融合特征。

具体地，在确定每个子区域后，可以进行多窗口特征提取和多窗口特征融合与识别，即每一个子区域的图像特征可以共享一个特征提取模型，在得到长×宽分别为4×4，8×8，16×16的三个子区域后，具体可以将三个子区域分别输入该特征提取模型中，得到每个子区域对应的图像特征，该每个子区域对应的图像特征可以通过特征向量来表示，例如对每个子区域提取到1*Z维的图像特征，用特征向量

表示，Z为特征的维度，其中，若该子区域有待检测目标区域，则将其表示为

若为纯背景区域，将其表示为

包含目标的子区域特征对地图要素的识别起到增强作用，背景区域的特征对地图要素的识别起到抑制作用，从而能够增加要素识别的辨别能力。从而得到4×4，8×8，16×16的三个子区域对应的三组特征向量分别为

该三组特征向量分别为Z维的特征向量，包含待识别目标的特征向量和纯背景特征向量，其中，对于包含待识别目标的特征向量中，第i维的数值代表该维度的信息与目标类别之间存在吸引力，吸引的幅度为第i维的数值大小；对于纯背景特征向量中，第i维的数值代表该维度的信息与非目标类别存在排斥力，排斥的幅度为第i维的数值大小。可以参见图14所示，在进行多窗口特征提取时，标注的图像特征表示击中了地图要素，其余图像特征为背景信息，该背景信息例如可以为杆、树木、天空、地面等信息。

在得到三个子区域对应的三组特征向量后，可以将该三组特征向量通过融合网络进行多特征融合处理，例如进行向量的拼接或组合处理，从而得到融合特征，该融合特征为

维的特征向量F^Z，可以通过如下公式对各个子区域的特征向量进行融合：

其中，每组特征向量包括特征值和方向值，[K₁,K₂,...,K_m]表示图像特征向量

中每一维度对应的特征值，a_m表示特征向量中第m维对应的方向值，当子区域不包含目标区域，即包含背景区域时，对应的方向值为“-”；当子区域包含目标区域时，对应的方向值为“+”。i∈n表示子区域的个数，Z为特征的维度。方向值为“+”的特征值表示该维度的信息与地图要素的目标类型存在吸引力，且吸引的幅度为该维度的数值大小；方向值为“-”的特征值表示该维度的信息与地图要素的目标类型存在排斥力，且排斥的幅度为该维度的数值大小。

需要说明的是，在进行特征融合的过程中，可以分别将各子区域中包含目标区域的特征向量和包含背景区域的特征向量进行融合处理，从而得到融合特征。在包含目标区域的特征向量进行融合的过程中，若出现某一维度i的方向为排斥力，则将其方向值a_i置为0，即不参与吸引力的特征融合，同理，在包含背景区域的特征向量进行融合的过程中，若出现某一维度i的方向为吸引力，则将其方向值a_i置为0，即不参与排斥力的特征融合，从而得到融合特征F^Z。

本实施例中，首先对于目标区域进行尺度扩充处理，从而通过引入背景信息的方式增加了识别区域，并通过对背景信息的特征提取，能够对待识别地图要素的要素类别识别起到强监督的作用。其次，对待识别区域进行多个不同划分尺寸的划分处理，得到多个子区域，能够更加聚焦于每一个子区域更细粒度的特征。最后，对不同子区域的图像特征进行特征融合，通过增强目标区域的显著性，降低背景区域的干扰，能够结合更为全面的图像特征来确定待识别地图要素的识别结果，便于后续预测待识别地图要素的要素类型。

S407、将融合特征输入训练好的检测网络，根据检测网络的输出确定待识别地图要素的识别结果。

在确定出后融合特征后，将融合特征输入训练好的检测网络进行要素精确识别，可以将融合特征通过卷积层得到卷积特征，然后将卷积特征输入全连接层进行处理，得到全连接向量，并将全连接向量通过激活函数进行处理，从而得到检测网络的输出结果，该输出结果包括待识别地图要素的要素类型，或者可以包括待识别地图要素在要素类型下的多个要素属性。

本实施例中基于目标区域生成多个子区域，从而能够更细粒度地提取到待识别图像中每一子区域的图像特征，并通过对所有子区域的图像特征进行融合处理，有效地融合了背景信息，能够更为精准、全面地利用待识别图像中的背景信息，增强目标区域的显著性，进而更加准确地获得待识别地图要素的识别结果，很大程度上提升了对待识别地图要素的要素识别的准确度，避免了相关技术中通过直接采用分类网络进行图像识别导致的类别覆盖不全以及识别错误的问题。

另外，本实施例中可以应用两个模型来实现本方案，一个是现有的粗粒度模型，另一个是本申请提供的细粒度检测模型。其中，粗粒度模型用于对待识别图像特征提取处理，获得待识别图像中的待识别地图要素的第一类别，以及待识别地图要素在待识别图像中的目标区域，该第一类别是粗粒度类别，例如可以为“红绿灯”“交通标志牌”等类别。细粒度模型包括前文所述的特征提取网络、融合网络以及检测网络，其中，特征提取网络用于对多个子区域进行特征提取，得到每一子区域的图像特征；融合网络用于对各个子区域的图像特征进行特征融合，以得到融合特征；检测网络用于对融合特征进行分类处理，得到待识别地图要素的识别结果，该识别结果可以是第二类别。其中，该第二类别为细粒度类别，例如可以为交通标志牌中的“左转”、“右转”、“掉头”、“左转直行”等类别。

本实施例中通过使用细粒度模型对每个子区域进行处理，能够更细粒度地提取到待识别图像中每一子区域的图像特征，从而提高了待识别地图要素的识别结果的准确性。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

另一方面，图15为本申请实施例提供的一种图像识别装置的结构示意图。该装置可以为终端设备或服务器内的装置，如图15所示，该装置700包括：

获取模块710，用于获取待识别图像，对所述待识别图像进行特征提取处理，获得所述待识别图像中的待识别地图要素在所述待识别图像中的目标区域；

特征提取模块720，用于基于目标区域生成多个子区域，分别对每一子区域进行特征提取，获得每一子区域的图像特征；

要素识别模块730，用于对所有子区域的图像特征进行融合处理，获得融合特征，基于融合特征确定待识别地图要素的识别结果。

在一些实施例中，请参见图16所示，上述特征提取模块720，包括：

背景添加单元721，用于对目标区域进行背景添加处理，获得候选窗口；候选窗口包含目标区域；

划分单元722，用于按照n个划分尺寸对候选窗口进行n次划分处理，获得多个不同尺寸的子区域，n为正整数且n≥1。

在一些实施例中，上述背景添加单元721，具体用于：

对目标区域进行尺寸扩展处理，获得候选窗口。

在一些实施例中，上述背景添加单元721，还用于：

以待识别地图要素为中心，按照预设比例对目标区域进行扩展处理。

在一些实施例中，要素识别模块730，具体用于：

对各子区域的图像特征进行向量化处理，获得子区域对应的特征向量；

确定各子区域对应的特征向量中每个特征值对应的方向值，方向值用于表征子区域中是否包括目标区域；

根据各子区域对应的特征值以及子区域对应的方向值得到融合特征。

在一些实施例中，要素识别模块730，具体用于：

将融合特征输入训练好的检测网络，根据检测网络的输出确定待识别地图要素的识别结果；检测模型是基于历史图像以及历史图像的地图要素识别结果训练获得的，历史图像标注有交通要素区域。

在一些实施例中，检测网络的训练过程包括：

基于历史图像生成多个样本子区域，分别将每一样本子区域输入待训练特征提取网络进行特征提取处理，得到每一样本子区域的图像特征；

将样本融合特征输入待训练检测网络，得到地图要素的预测结果；

根据地图要素的预测结果与历史图像的地图要素识别结果，计算损失函数；

按照损失函数最小化，采用迭代算法迭代调整待训练特征提取网络、待训练融合网络和待训练检测网络的参数，得到检测网络。

在一些实施例中，获取模块710，具体用于：

对待识别图像进行特征提取处理，得到待识别图像的特征图；

对于特征图中的每个特征点，确定每个特征点对应的候选框；候选框包含特征点；

对每个候选框中的图像特征进行地图要素的检测，得到候选框对应的置信度；置信度用于表征候选框内的图像为地图要素的概率；

在一些实施例中，获取模块710，还用于：

针对特征图中的每个特征点，以特征点为中心，按照不同的尺寸和缩放比例，生成各个特征点分别对应的候选框。

可以理解的是，本实施例的图像识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，在此不再赘述。

综上所述，本申请实施例中提供的图像识别装置，通过获取模块获取待识别图像，并通过特征提取模块对待识别图像进行特征提取处理，得到待识别图像中的待识别地图要素在待识别图像中的目标区域，基于目标区域生成多个子区域，分别对每一子区域进行特征提取，获取每一子区域的图像特征，然后通过要素识别模块对所有子区域的图像特征进行融合处理，获取融合特征，基于融合特征确定待识别地图要素的识别结果。本申请中的技术方案相比于现有技术而言，一方面，通过基于目标区域生成多个子区域，从而能够更细粒度地提取到待识别图像中每一子区域的图像特征，另一方面，通过对所有子区域的图像特征进行融合处理，能够增强目标区域的显著性，降低待识别图像中背景区域的干扰，进而结合了更为全面的特征来确定待识别地图要素的识别结果，也使得本申请所提供方法确定的待识别地图要素的识别结果的准确度相比于现有技术有明显提升。

另一方面，本申请实施例提供的设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上述的图像识别方法。

下面参考图17，图17为本申请实施例的终端设备的计算机系统的结构示意图。

如图17所示，计算机系统300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分303加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有系统300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分303从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括：获取模块、特征提取模块及要素识别模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，获取模块还可以被描述为“用于获取待识别图像，对所述待识别图像进行特征提取处理，获得所述待识别图像中的待识别地图要素在所述待识别图像中的目标区域”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的图像识别方法：

综上所述，本申请实施例中提供的图像识别方法、装置、设备及存储介质，通过获取待识别图像，并对待识别图像进行特征提取处理，得到待识别图像中的待识别地图要素在待识别图像中的目标区域，基于目标区域生成多个子区域，分别对每一子区域进行特征提取，获取每一子区域的图像特征，然后对所有子区域的图像特征进行融合处理，获取融合特征，基于融合特征确定待识别地图要素的识别结果。本申请中的技术方案相比于现有技术而言，一方面，通过基于目标区域生成多个子区域，从而能够更细粒度地提取到待识别图像中每一子区域的图像特征，另一方面，通过对所有子区域的图像特征进行融合处理，能够增强目标区域的显著性，降低待识别图像中背景区域的干扰，进而结合了更为全面的特征来确定待识别地图要素的识别结果，也使得本申请所提供方法确定的待识别地图要素的识别结果的准确度相比于现有技术有明显提升。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述目标区域生成多个子区域，包括：

3.根据权利要求2所述的方法，其特征在于，对所述目标区域进行背景添加处理，获得候选窗口，包括：

对所述目标区域进行尺寸扩展处理，获得所述候选窗口。

4.根据权利要求3所述的方法，其特征在于，所述对所述目标区域进行扩展处理，包括：

5.根据权利要求1所述的方法，其特征在于，对所有所述子区域的图像特征进行融合处理，获得融合特征，包括：

6.根据权利要求1所述的方法，其特征在于，基于所述融合特征确定所述待识别地图要素的识别结果，包括：

将所述融合特征输入训练好的检测网络，根据所述检测网络的输出确定所述待识别地图要素的识别结果；所述检测模型是基于历史图像以及历史图像的地图要素识别结果训练获得的，所述历史图像标注有交通要素区域。

7.根据权利要求6所述的方法，其特征在于，所述检测网络的训练过程包括：

按照所述损失函数最小化，采用迭代算法迭代调整待训练特征提取网络、待训练融合网络和待训练检测网络的参数，得到所述检测网络。

8.根据权利要求1所述的方法，其特征在于，对所述待识别图像进行特征提取处理，获得所述待识别图像中的待识别地图要素在所述待识别图像中的目标区域，包括：

9.根据权利要求8所述的方法，其特征在于，对于所述特征图中的每个特征点，确定所述每个特征点对应的候选框，包括：

10.一种图像识别装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器用于执行所述程序时实现如权利要求1-9任一项所述的图像识别方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于实现如权利要求1-9任一项所述的图像识别方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品中包括指令，当所述指令被执行时实现如权利要求1-9任一项所述的图像识别方法。