CN113887544A

CN113887544A - 图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113887544A
Application number: CN202111482460.9A
Authority: CN
Inventors: 佘加辉; 谭川奇; 唐逸之
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-01-04
Anticipated expiration: 2041-12-07
Also published as: CN113887544B

Abstract

本申请提供了一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，应用于地图领域；方法包括：分别对第一图像和第二图像进行目标识别处理，得到第一图像中的多个检测框、以及第二图像中的多个检测框；针对第一图像和第二图像，交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到第一图像中每个检测框的特征以及第二图像中每个检测框的特征；基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度；根据相似度生成对象识别结果。通过本申请，能够提高不同图像中待识别对象匹配的精度和效率。

Description

图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及互联网和智慧交通技术领域，尤其涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着位置服务和导航应用的发展，能否提供实时准确的路网数据已经成为衡量地图服务水平高低的重要指标。例如，在一对拍摄地点相近，但拍摄时间、拍摄视角不同的道路场景图像中，找到同时出现的对象（例如交通元素，包括限速牌、交限牌、红绿灯、车道数、道路铺设状态等），是一个非常重要的任务。在基于视觉的道路数据自动化更新、高精地图、自动驾驶等领域中，可以依靠该技术减少人工核查工作量，达到降低成本、节约开支等效果。

然而，相关技术提供的方案通常是采用关键点检测与匹配的方式，计算投影矩阵等基于人工策略的方案来估计两张图像中出现的对象是否为同一个，该方案非常依赖于人工经验，存在匹配效率低、以及不灵活、不易调整等问题。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高不同图像中待识别对象匹配的精度和效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像处理方法，包括：

分别对第一图像和第二图像进行目标识别处理，得到所述第一图像中的多个检测框、以及所述第二图像中的多个检测框，其中，每个所述检测框包括待识别的对象；

针对所述第一图像和所述第二图像，交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征；

基于所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征，确定所述第一图像中任意一个检测框与所述第二图像中任意一个检测框的相似度；

根据所述相似度生成对象识别结果，其中，所述对象识别结果表征所述第一图像中任意一个检测框与所述第二图像中任意一个检测框是否包括相同的对象。

本申请实施例提供一种图像处理装置，包括：

目标识别模块，用于分别对第一图像和第二图像进行目标识别处理，得到所述第一图像中的多个检测框、以及所述第二图像中的多个检测框，其中，每个所述检测框包括待识别的对象；

融合模块，用于针对所述第一图像和所述第二图像，交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征；

确定模块，用于基于所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征，确定所述第一图像中任意一个检测框与所述第二图像中任意一个检测框的相似度；

生成模块，用于根据所述相似度生成对象识别结果，其中，所述对象识别结果表征所述第一图像中任意一个检测框与所述第二图像中任意一个检测框是否包括相同的对象。

本申请实施例提供一种图像处理方法，包括：

对所述第一图像中每个检测框的局部特征与所述第一图像的全局特征进行连接处理，得到所述第一图像中每个检测框的初始特征；

对所述第二图像中每个检测框的局部特征与所述第二图像的全局特征进行连接处理，得到所述第二图像中每个检测框的初始特征；

基于所述第一图像中每个检测框的初始特征以及所述第二图像中每个检测框的初始特征，确定所述第一图像中任意一个检测框与所述第二图像中任意一个检测框的相似度；

本申请实施例提供一种图像处理装置，包括：

连接模块，用于对所述第一图像中每个检测框的局部特征与所述第一图像的全局特征进行连接处理，得到所述第一图像中每个检测框的初始特征；

所述连接模块，还用于对所述第二图像中每个检测框的局部特征与所述第二图像的全局特征进行连接处理，得到所述第二图像中每个检测框的初始特征；

确定模块，用于基于所述第一图像中每个检测框的初始特征以及所述第二图像中每个检测框的初始特征，确定所述第一图像中任意一个检测框与所述第二图像中任意一个检测框的相似度；

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，用于引起处理器执行时，实现本申请实施例提供的图像处理方法。

本申请实施例具有以下有益效果：

针对第一图像和第二图像，通过交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，如此，一方面能够减少计算量，提高匹配效率；另一方面，能够使得到的每个检测框的特征充分融合第一图像和第二图像的信息，实现了捕获了图像中的长距离依赖关系的效果，从而可以在后续基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度时，提高图像中对象匹配的精度。

附图说明

图1A是本申请实施例提供的道路场景示意图一；

图1B是本申请实施例提供的道路场景示意图二；

图2是相关技术提供的图像处理方法的流程示意图；

图3是本申请实施例提供的图像处理系统100的架构示意图；

图4是本申请实施例提供的服务器200的结构示意图；

图5是本申请实施例提供的图像处理方法的原理示意图；

图6是本申请实施例提供的图像处理方法的流程示意图一；

图7是本申请实施例提供的图像处理方法的流程示意图二；

图8是本申请实施例提供的图像处理方法的流程示意图三；

图9是本申请实施例提供的图像处理方法的流程示意图四；

图10是本申请实施例提供的局部特征提取原理示意图；

图11是本申请实施例提供的全局特征提取原理示意图；

图12A是本申请实施例提供的道路场景示意图三；

图12B是本申请实施例提供的道路场景示意图四；

图13是本申请实施例提供的基于图卷积神经网络进行融合处理的原理示意图；

图14A是本申请实施例提供的道路场景示意图五；

图14B是本申请实施例提供的道路场景示意图六。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的术语“多个”是指至少两个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）目标识别：指用计算机实现人的视觉功能，它的研究目标就是使计算机具有从一幅或者多幅图像或者视频中认知周围环境的能力（包括对客观世界三维环境的感知、识别与理解）。目标识别作为视觉技术的一个分支，就是对视场内的物体进行识别，如人或交通工具，先进行检测，检测完后进行识别。

2）图卷积网络（Graph Convolution Network）：一种卷积神经网络，它可以直接在图上工作，并利用图的结构信息，解决对于图和图中的节点进行分类的问题，图中的节点可以被表示成低维实值稠密的向量形式。例如在用户社交网络中，每个节点的特征就是一个用户的表示向量。

3）道路场景图像：一般指通过行车记录仪等车载设备拍摄的图像。

随着位置服务和导航应用的发展，能否提供实时准确的路网数据已经成为衡量地图服务水平高低的重要指标。其中，在一对拍摄地点相近，但拍摄时间、拍摄视角不同的道路场景图像中，找到同时出现的对象（例如交通元素，包括限速牌、交限牌、红绿灯、车道数、道路铺设状态等），是一个非常重要的任务。在基于视觉的道路数据自动化更新、高精地图、自动驾驶等领域中，可以依靠该技术减少人工核查工作量，达到降低成本、节约开支等效果。

示例的，参见图1A和图1B，图1A和图1B是本申请实施例提供的一对道路场景示意图，其中，图像101和图像102是对同一段道路进行拍摄得到的一对道路场景图像，例如图像101是在2020年11月07日16:47通过行车记录仪针对道路A进行拍摄得到的，图像102是在2020年10月23日09:30通过行车记录仪针对道路A进行拍摄得到的，因为它们的拍摄地点非常接近，同一交通元素（例如交限牌）有可能同时出现在两张图像中。但是，由于两张图像是在不同的视角、时间和天气条件下被拍摄，因此不同图像中的同一交通元素的成像风格、环境背景等会存在差异，例如在实际拍摄中，由于两次拍摄处于不同的视角、天气和时间，导致图像101中的交限牌103和图像102中的交限牌104表现出的成像风格、周围的背景环境等均不相同，需要进一步比对核查才能判断出两者是否为同一个交限牌。

针对上述问题，相关技术提供的方案中，一般采用关键点检测与匹配的方式，计算投影矩阵等基于人工策略的方案来估计两张道路场景图像中出现的对象（又称检测目标）是否为同一个。

示例的，参见图2，图2是相关技术提供的图像处理方法的流程示意图，如图2所示，相关技术提供的图像处理方法主要包括采集、关键点提取与匹配和目标匹配，其中，在采集阶段，可以使用多种传感器采集信息，并根据卫星定位系统，例如可以使用全球定位系统（GPS，Global Positioning System）获取处于相近路段的图像；当然，也可以使用其他定位系统，例如北斗卫星导航系统获取相近路段的图像；在关键点提取与匹配阶段，对图像中的关键点位置进行提取，并根据神经网络预测两张图像中关键点之间的配对关系；在目标匹配阶段，根据关键点位置和配对关系计算两张图像视角之间的投影矩阵，并根据投影矩阵把一张图中的检测目标（即待识别的对象）投影变换到另一张图视角中，随后根据像素位置判断两者是否为同一对象（例如判断两张图像中出现的交限牌是否为同一个）。

然而，申请人发现：相关技术提供的方案一方面非常依赖关键点检测与匹配，在景深较高和大姿态场景下，投影矩阵的计算会出现较大误差，此外，基于关键点进行投影变换等人工策略的方案无法充分利用整张图像的全局信息与检测目标之间的长距离依赖，不能充分利用背景环境等信息；另一方面，相关技术提供的方案非常依赖人工经验，对于一些业务场景不够灵活，且不易调整，例如，相关技术提供的方案需要设定变换后检测目标的像素距离，非常依赖于人工经验。

鉴于此，本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高不同图像中待识别对象匹配的精度和效率。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的图像处理方法可以由各种电子设备实现，例如由终端设备或服务器单独实现，或者由服务器和终端设备协同实现。

参见图3，图3是本申请实施例提供的图像处理系统100的架构示意图，终端设备400通过网络300连接服务器200，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备为终端设备为例，本申请实施例提供的图像处理方法可以由终端设备单独实现。例如，可以通过图3中示出的终端设备400单独检测第一图像和第二图像中是否包括相同的对象，得到对象识别结果，当对象识别结果表征确定出第一图像中任意一个检测框与第二图像中任意一个检测框包括相同的对象时，可以用第二图像替代第一图像，从而高效地实现图像的更新。

在另一些实施例中，本申请实施例提供的图像处理方法也可以由终端设备和服务器协同实现。例如，在终端设备400上运行有客户端410，用户可以在客户端410提供的人机交互界面中输入待处理的第一图像和第二图像，以使终端设备400通过网络300将第一图像和第二图像发送至服务器200。服务器200在接收到第一图像和第二图像之后，检测第一图像和第二图像中是否包括相同的对象，得到对象识别结果，并将对象识别结果发送至终端设备400，以使客户端410执行后续的处理，例如当服务器200返回的对象识别结果表征第一图像中任意一个检测框与第二图像中任意一个检测框包括相同的对象时，客户端410可以使用第二图像替代第一图像，从而高效地实现图像的更新。

在另一些实施例中，以电子设备为服务器为例，本申请实施例提供的图像处理方法也可以由服务器单独实现。例如，服务器200可以从数据库500中获取第一图像和第二图像，并检测第一图像和第二图像中是否包括相同的对象，得到对象识别结果，例如当对象识别结果表征第一图像中任意一个检测框与第二图像中任意一个检测框包括相同的对象时，服务器200可以使用第二图像替代第一图像，从而高效地实现图像的更新。

需要说明的是，在实际应用中，数据库和服务器也可以集成在一起，即数据库可以视为存在于服务器内部，与服务器一体化，服务器可以提供数据库的数据管理功能。

本申请实施例提供的图像处理方法具有广泛的应用场景，例如可以应用于终端本地电子相册、或者云端相册的更新；也可以应用于终端本地电子地图或者云端电子地图的更新。

在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的图像处理方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；还可以是本地（Native）应用程序（APP，Application），即需要在操作系统中安装才能运行的程序，如导航类的应用程序（对应上文的客户端410）；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序，如嵌入至导航类的应用程序中的小程序组件，其中，该小程序组件可以由用户控制运行或关闭。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是道路更新服务，供终端设备400进行调用。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表、车载终端等，但并不局限于此。终端设备400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

下面对图3中示出的服务器200的结构进行说明。参见图4，图4是本申请实施例提供的服务器200的结构示意图，图4所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解，总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统230。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器240可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器240可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器240包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

在一些实施例中，存储器240能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统241，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块242，用于经由一个或多个（有线或无线）网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

在一些实施例中，本申请实施例提供的图像处理装置可以采用软件方式实现，图4示出了存储在存储器240中的图像处理装置243，其可以是程序和插件等形式的软件，包括以下软件模块：目标识别模块2431、融合模块2432、确定模块2433、生成模块2434、提取模块2435、连接模块2436、获取模块2437和更新模块2438，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。需要说明的是，在图4中为了表述方便，一次性示出了上述所有模块，在实际应用中，不排除图像处理装置243中仅包括目标识别模块2431、融合模块2432、确定模块2433和生成模块2434的实施，或者仅包括目标识别模块2431、连接模块2436、确定模块2433和生成模块2434的实施，将在下文中说明各个模块的功能。

需要指出，当通过终端设备400单独实施本申请实施例提供的图像处理方法时，可以参考图4，在终端设备400中对应实施相应的处理器、存储器以及存储器中的图像处理装置，不再重复说明。

在另一些实施例中，本申请实施例提供的图像处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific IntegratedCircuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

下面将结合本申请实施例上文提供的电子设备的示例性应用和实施，说明本申请实施例提供的图像处理方法，如前所述，下文所述的图像处理方法可以由终端设备或服务器单独实现，或由终端设备和服务器协同实现，不再重复说明。

参见图5，图5是本申请实施例提供的图像处理方法的原理示意图，如图5所示，本申请实施例提供的图像处理方法主要涉及目标识别层、特征提取层、融合层和相似度计算层四个部分。

示例的，可以通过目标识别层分别对第一图像和第二图像进行目标识别处理，得到第一图像中的多个检测框、以及第二图像中的多个检测框，接着可以通过特征提取层分别提取第一图像中的多个检测框的局部特征、第一图像的全局特征、第二图像中的多个检测框的局部特征、以及第二图像的全局特征，并将第一图像中的多个检测框的局部特征与第一图像的全局特征进行连接处理，得到第一图像中每个检测框的初始特征，以及将第二图像中的多个检测框的局部特征与第二图像的全局特征进行连接处理，得到第二图像中每个检测框的初始特征，随后针对第一图像和第二图像，可以通过融合层交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到第一图像中每个检测框的特征以及第二图像中每个检测框的特征；最后通过相似度计算层基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度，并根据相似度生成对象识别结果。

下面对图5中示出的目标识别层、特征提取层、融合层和相似度计算层进行具体说明。

示例的，参见图6，图6是本申请实施例提供的图像处理方法的流程示意图，将结合图6示出的步骤进行说明。

在步骤101中，分别对第一图像和第二图像进行目标识别处理，得到第一图像中的多个检测框、以及第二图像中的多个检测框。

这里，每个检测框包括至少一个待识别的对象（即检测目标），例如当第一图像和第二图像为一对拍摄地点相近，但拍摄视角、拍摄时间不同的道路场景图像时，检测框包括的待识别的对象可以是交通元素，例如交限牌、红绿灯、车道线等。当然，第一图像和第二图像也可以是其他类型的图像，例如风景图、人物图像、或者动物图像等。此外，第一图像和第二图像还可以是从视频中抽取的任意两个视频帧图像，本申请实施例不对第一图像和第二图像的来源、以及类型进行具体限定。

在一些实施例中，以交通场景为例，在分别对第一图像和第二图像进行目标识别处理之前，还可以执行以下处理：获取对道路场景进行图像采集得到的第一图像，并从地图数据库中获取道路场景的第二图像，其中，待识别的对象是电子地图中的交通元素（例如红绿灯、交限牌、车道线等）。

示例的，第一图像可以是针对道路场景实时采集得到的图像（即最新的道路场景图像），第二图像可以是预先存储在地图数据库中的图像（即第二图像的采集时间早于第一图像），此外，道路场景可以使用道路名字、序列号等在地图数据库中进行区分。例如假设第一图像是对道路A进行实时图像采集得到的图像，则可以根据道路A的名字在地图数据库中获取在历史时间段内针对道路A进行图像采集得到的图像（即第二图像）。

需要说明的是，在本申请实施例中，涉及到第一图像和第二图像（例如通过行车记录仪拍摄得到的道路场景图像、或者用户相册中存储的图像）等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在一些实施例中，目标识别层可以通过以下方式实现上述的步骤101：分别对第一图像和第二图像进行选择性搜索处理，得到第一图像中的多个候选检测框、以及第二图像中的多个候选检测框；分别对第一图像中的多个候选检测框、以及第二图像中的多个候选检测框进行分类处理（即确定检测框包括的对象的类别的概率）和回归处理（即确定检测框的位置，例如2条对角线的端点位置），得到第一图像中包括任意类别的对象的多个检测框、以及第二图像中包括任意类别的对象的多个检测框（即针对每个候选检测框，确定候选检测框包括的对象对应不同类别的概率中的最大概率，并过滤掉最大概率小于概率阈值的候选检测框（即过滤掉未包括待识别的对象的候选检测框），将剩余的候选检测框作为第一图像和第二图像进行目标识别处理之后得到的多个检测框）。

示例的，以第一图像为道路场景图像为例，由于道路场景图像中存在的对象（例如交限牌）具有局部区域相似性（例如颜色、纹理等），因此可以基于图像的颜色、纹理、面积、位置等合并相似的像素，最终可以得到多个检测框，例如可以采用选择性搜索（selectivesearch）或者边缘盒（EdgeBoxes）算法，其中，选择性搜索主要运用图像分割技术来进行对象检测，其核心思想是图像中对象可能存在的区域应该是有某些相似性或者连续性区域的，因此，选择性搜索基于上面这一思想采用子区域合并的方式进行候选检测框的获取，例如首先对第一图像进行分割处理得到多个小的子区域，接着根据这些子区域之间相似性（相似度标准包括颜色、纹理、尺寸等）进行区域合并，不断的进行区域迭代合并，每次迭代过程中对这些合并的子区域进行外切矩形（bounding boxes），这些子区域外切矩形即为得到的多个候选检测框。在得到多个候选检测框之后，可以对多个候选检测框进行分类处理，得到每个候选检测框所包括的对象对应不同类别的概率，并过滤掉最大概率小于概率阈值的候选检测框（例如以候选检测框1为例，假设对候选检测框1进行分类处理，得到候选检测框1包括的对象的类别为交限牌的概率为40%、为车道线的概率为20%、为限速牌的概率为50%，同时假设设定的概率阈值为60%，由于候选检测框1包括的对象的类别的最大概率（50%）小于概率阈值（60%），因此认为候选检测框1未包括对象，进而过滤掉候选检测框1），随后对经过过滤处理得到的剩余的多个候选检测框进行回归处理，得到剩余的多个候选检测框在第一图像中的位置。

在另一些实施例中，目标识别层还可以通过以下方式实现上述的步骤101：分别对第一图像和第二图像进行分割处理，得到第一图像中的多个候选检测框、以及第二图像中的多个候选检测框，分别对第一图像中的多个候选检测框、以及第二图像中的多个候选检测框进行端到端的预测处理（包括位置和类别的预测），得到第一图像中包括任意类别的对象的多个检测框、以及第二图像中包括任意类别的对象的多个检测框。

示例的，以第一图像为例，可以采用单步检测（SSD，Single Shot Detector）的方式对第一图像进行目标识别处理，得到第一图像中的多个检测框，其中，SSD是一个目标检测网络，包括基础网络（Base Network，基础网络的结构可以采用VCG-16的网络架构，包含了卷积层和全连接层，用于提取第一图像低尺度的特征映射图，）、辅助卷积层（AuxiliaryConvolutions，用于连接基础网络最后的特征映射图，并通过卷积神经网络输出第一图像高尺度的特征映射图）和预测卷积层（Prediction Convolutions，用于输出特征映射图的位置信息和分类信息）。此外，还可以通过其他目标识别网络（例如YOLO网络）对第一图像进行目标识别处理，得到第一图像中的多个检测框，例如可以首先将第一图像划分出7*7的网格，也就是得到49个候选检测框，每个格子预测2个矩形框及其置信度，这个预测可以通过全连接层来完成，以及每个候选检测框包括的对象的不同类别的概率，如此，通过将提取候选检测框和进行分类两个任务融合到一个网络中，不需要使用候选区生成网络来进行寻找检测目标，减小了计算开销。

需要说明的是，针对第二图像的目标识别处理，可以参照第一图像的目标识别处理过程实现，本申请实施例在此不再赘述。

在步骤102中，针对第一图像和第二图像，交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到第一图像中每个检测框的特征以及第二图像中每个检测框的特征。

在一些实施例中，参见图7，图7是本申请实施例提供的图像处理方法的流程示意图，如图7所示，图6示出的步骤102可以通过图7示出的步骤1021和步骤1022实现，将结合图7示出的步骤进行说明。

在步骤1021中，提取第一图像中每个检测框的特征，并提取第二图像中每个检测框的特征。

在一些实施例中，特征提取层可以通过以下方式提取第一图像中每个检测框的特征：提取第一图像的全局特征；提取第一图像中每个检测框的局部特征；基于第一图像的全局特征以及第一图像中每个检测框的局部特征进行连接处理，将得到的第一图像中每个检测框的初始特征，作为第一次迭代处理所使用的第一图像中每个检测框的特征。

示例的，假设在步骤101中对第一图像进行目标识别处理之后，得到3个检测框，分别为检测框1、检测框2和检测框3，则可以通过卷积神经网络分别提取检测框1、检测框2和检测框3的局部特征（例如假设检测框1至检测框3的局部特征分别为f₁、f₂、f₃），接着通过卷积神经网络（例如残差网络）提取第一图像的全局特征（假设第一图像的全局特征为F），随后可以将每个检测框的局部特征与第一图像的全局特征进行连接处理，得到第一图像中每个检测框的初始特征，例如检测框1的初始特征为f₁+F，检测框2的初始特征为f₂+F，检测框3的初始特征为f₃+F。也就是说，每个检测框的初始特征可以仅仅是第一图像的全局特征和检测框的局部特征进行连接得到。

在另一些实施例中，还可以通过以下方式实现上述的基于第一图像中每个检测框的局部特征与第一图像的全局特征进行连接处理：针对第一图像中的每个检测框，执行以下处理：提取检测框在第一图像中的位置特征；提取检测框包括的待识别的对象的类别特征；将检测框的局部特征、第一图像的全局特征、检测框在第一图像中的位置特征、以及检测框包括的待识别的对象的类别特征进行连接处理，得到检测框的初始特征。

示例的，假设在步骤101中对第一图像进行目标识别处理之后，得到3个检测框，分别为检测框1、检测框2和检测框3，其中，每个检测框的位置特征可以通过步骤101中的回归处理得到，例如假设检测框1在第一图像中的位置特征为p₁，检测框2在第一图像中的位置特征为p₂，检测框3在第一图像中的位置特征为p₃，同时，每个检测框包括的对象的类别特征可以通过步骤101中的分类处理得到（例如可以将最大概率对应的类别确定为检测框包括的对象的类别，并以独热编码的方式确定类别对应的类别特征），例如假设检测框1包括的对象的类别特征为y₁，检测框2包括的对象的类别特征为y₂，检测框3包括的对象的类别特征为y₃，则可以将每个检测框的局部特征、第一图像的全局特征、每个检测框在第一图像中的位置特征、以及每个检测框包括的对象的类别特征进行连接处理，得到每个检测框的初始特征，例如检测框1的初始特征为f₁+F+p₁+y₁，检测框2的初始特征为f₂+F+p₂+y₂，检测框3的初始特征为f₃+F+p₃+y₃。也就是说，每个检测框的初始特征还可以是由第一图像的全局特征、检测框的局部特征、检测框在第一图像中的位置特征、以及检测框包括的对象的类别特征进行连接得到，如此，综合考虑了检测框的位置信息、以及检测框包括的对象的类别信息，能够进一步提高后续对象匹配时的精度。

需要说明的是，在实际应用中，也可以在将检测框的局部特征与第一图像的全局特征进行连接之后，还可以继续与检测框在第一图像中的位置特征和检测框包括的对象的类别特征至少之一进行连接，得到检测框的初始特征（例如以检测框1为例，检测框1的初始特征还可以是f₁+F+p₁，或者f₁+F+y₁），此外针对第二图像，可以参照第一图像的处理方式得到第二图像中每个检测框的初始特征，本申请实施例在此不再赘述。

在步骤1022中，迭代执行以下处理：将第一图像中每个检测框的特征与第一图像中其他检测框的特征进行融合处理，得到第一图像中每个检测框的更新的特征，并将第二图像中每个检测框的特征与第二图像中其他检测框的特征进行融合处理，得到第二图像中每个检测框的更新的特征；将第一图像中每个检测框的更新的特征与第二图像中每个检测框的更新的特征进行融合处理，得到第一图像中每个检测框的再次更新的特征，并将第二图像中每个检测框的更新的特征与第一图像中每个检测框的更新的特征进行融合处理，得到第二图像中每个检测框的再次更新的特征。

这里，迭代处理的次数为至少一次，且第一次迭代处理所使用的第一图像中每个检测框的特征，是从第一图像中每个检测框提取得到的初始特征，第一次迭代处理所使用的第二图像中每个检测框的特征，是从第二图像中每个检测框提取得到的初始特征；第一次迭代处理后续的迭代处理所使用的第一图像中每个检测框的特征是从上一次迭代处理后更新的特征（例如第二次迭代处理所使用的第一图像中每个检测框的特征是第一次迭代处理后更新的特征，第三次迭代处理所使用的第一图像中每个检测框的特征是第二次迭代处理后再次更新的特征，以此类推），第一次迭代处理后续迭代处理所使用的第二图像中每个检测框的特征是从上一次迭代处理后更新的特征（例如第二次迭代处理所使用的第二图像中每个检测框的特征是第一次迭代处理后更新的特征，第三次迭代处理所使用的第二图像中每个检测框的特征是第二次迭代处理后再次更新的特征，以此类推）。

在一些实施例中，融合层可以通过以下方式实现上述的将第一图像中每个检测框的特征与第一图像中其他检测框的特征进行融合处理：针对第一图像中的每个检测框，执行以下处理：对检测框的特征进行全连接处理，得到对应的一个键向量和一个查询向量；基于检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量，对检测框的特征和第一图像中其他检测框的特征进行加权求和处理，并将求和结果与偏置向量进行求和处理，得到检测框的更新的特征。

示例的，可以通过以下方式实现上述的基于检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量，对检测框的特征和第一图像中其他检测框的特征进行加权求和处理：基于检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量调用自注意力卷积层进行基于自注意力机制（自注意力机制的原理是计算查询向量与每个键向量之间的相关性以获得注意力分配权重）的编码处理，得到检测框、以及第一图像中其他检测框分别对应的权重；基于检测框、以及第一图像中其他检测框分别对应的权重，对检测框的特征和第一图像中其他检测框的特征进行加权求和处理。

举例来说，假设在步骤101中对第一图像进行目标识别处理之后，得到3个检测框，分别为检测框1、检测框2和检测框3，且在经过步骤1021的特征提取和连接处理之后，可以得到这3个检测框的特征分别为：x₁、x₂和x₃，例如x₁=f₁+F、x₂= f₂+F、x₃= f₃+F，即每个检测框的特征由检测框的局部特征和第一图像的全局特征连接得到，接着针对每个检测框，对检测框的特征进行全连接处理，得到对应的一个键向量和一个查询向量，例如对于检测框1，在对检测框1的特征x₁进行全连接处理之后，可以得到对应的的一个键向量k₁和一个查询向量q₁，类似的，对检测框2的特征x₂进行全连接处理之后，可以得到检测框2对应的一个键向量k₂和一个查询向量q₂，同理，可以得到检测框3对应的一个键向量k₃和一个查询向量q₃。在得到3个检测框分别对应的键向量和查询向量之后，可以调用自注意力卷积层对这3个检测框分别对应的键向量和查询向量进行基于自注意力机制的编码处理，得到这3个检测框分别对应的权重，例如分别为a₁、a₂和a₃，其中，a₁是检测框1对应的权重，a₂是检测框2对应的权重，a₃是检测框3对应的权重，例如以检测框1为例，可以基于检测框1、以及检测框2和检测框3分别对应的权重，对检测框1的特征和检测框2和检测框3的特征进行加权求和处理，并将求和结果与偏置向量b₁进行求和处理，得到检测框1的更新的特征x₁₁，具体公式如下：

x₁₁=a₁* x₁+a₂* x₂+a₃* x₃+b₁

需要说明的是，可以采用与检测框1相同的处理方式得到第一图像中其他检测框（例如检测框2和检测框3）的更新的特征，本申请实施例在此不再赘述。此外，还需要说明的是，在实际应用中，除了可以调用自注意力卷积层对检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量进行基于自注意力机制的编码处理之外，作为替代方案，还可以采用长短期记忆网络（LSTM，Long Short-Term Memory）或者门控循环单元（GRU，Gate Recurrent Unit）对检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量进行编码处理，得到检测框、以及第一图像中其他检测框分别对应的权重，本申请实施例不对编码的方式进行具体限定。

在步骤103中，基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度。

在一些实施例中，参见图8，图8是本申请实施例提供的图像处理方法的流程示意图，如图8所示，图6示出的步骤103可以通过图8示出的步骤1031至步骤1032实现，将结合图8示出的步骤进行说明。

在步骤1031中，基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，构建不同图像中不同检测框之间的相似度矩阵。

在一些实施例中，在基于步骤102得到第一图像中每个检测框的特征以及第二图像中每个检测框的特征之后，可以通过相似度计算层基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，构建不同图像中不同检测框之间的相似度矩阵。例如可以计算第一图像中每个检测框的特征与第二图像中每个检测框的特征之间的向量内积，并将计算结果确定为两个检测框之间的相似度，并基于多个相似度构建不同图像中不同检测框之间的相似度矩阵。当然，也可以计算第一图像中每个检测框的特征与第二图像中每个检测框的特征之间的余弦相似度（即计算两个检测框的特征所形成的夹角的余弦值）、欧几里得距离（即欧几里得空间中两个检测框的特征之间的距离，距离越近，表明两个检测框的特征越相似）、或者皮尔森相关系数（用于计算两个检测框的特征之间联系的紧密程度，反映两个检测框的特征线性相关程度的统计量，范围在-1到1之间）等，并基于余弦相似度或者皮尔森相关系数构建不同图像中不同检测框之间的相似度矩阵。

在另一些实施例中，还可以通过以下方式构建相似度矩阵：基于第一图像中每个检测框的初始特征以及第二图像中每个检测框的初始特征，构建不同图像中不同检测框之间的相似度矩阵。例如在基于步骤101分别对第一图像和第二图像进行目标识别处理，得到第一图像中的多个检测框、以及第二图像中的多个检测框之后，对第一图像中每个检测框的局部特征与第一图像的全局特征进行连接处理，得到第一图像中每个检测框的初始特征，以及对第二图像中每个检测框的局部特征与第二图像的全局特征进行连接处理，得到第二图像中每个检测框的初始特征，随后直接基于第一图像中每个检测框的初始特征以及第二图像中每个检测框的初始特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度。例如计算第一图像中每个检测框的初始特征与第二图像中每个检测框的初始特征之间的向量内积，并将计算结果确定为两个检测框之间的相似度。

在步骤1032中，从相似度矩阵中读取不同元素。

这里，不同元素表征归属于不同图像的两个检测框之间的相似度。

在一些实施例中，假设在步骤101中对第一图像进行目标识别处理之后，得到3个检测框，分别为检测框1、检测框2和检测框3，对第二图像进行目标识别处理之后，也得到3个检测框，分别为检测框4、检测框5和检测框6，且在经过步骤102的融合处理之后，得到第一图像中3个检测框的特征分别为t₁、t₂和t₃，类似的，得到第二图像中3个检测框的特征分别为t₄、t₅和t₆，接着可以计算第一图像中每个检测框的特征与第二图像中每个检测框的特征之间的向量内积，并将计算结果确定为两个检测框之间的相似度，并基于相似度构建出如下的相似度矩阵：

其中，

表示第一图像中的检测框1与第二图像中的检测框4之间的相似度，

表示第一图像中的检测框1与第二图像中的检测框5之间的相似度，

表示第一图像中的检测框1与第二图像中的检测框6之间的相似度，

表示第一图像中的检测框2与第二图像中的检测框4之间的相似度，

表示第一图像中的检测框2与第二图像中的检测框5之间的相似度，

表示第一图像中的检测框2与第二图像中的检测框6之间的相似度，

表示第一图像中的检测框3与第二图像中的检测框4之间的相似度，

表示第一图像中的检测框3与第二图像中的检测框5之间的相似度，

表示第一图像中的检测框3与第二图像中的检测框6之间的相似度。

在另一些实施例中，在构建不同图像中不同检测框之间的相似度矩阵之后，且当第一图像包括的检测框的数量与第二图像包括的检测框的数量不一致时，还可以执行以下处理：在相似度矩阵中增加作为缺省项的一行和一列；将仅在第一图像或第二图像中出现的检测框的特征填充到缺省项中，得到更新的相似度矩阵；对更新的相似度矩阵中的每一行迭代进行归一化处理，并删除缺省项，得到再次更新的相似度矩阵。

示例的，假设在步骤101中对第一图像进行目标识别处理之后，得到3个检测框，分别为检测框1、检测框2和检测框3，对第二图像进行目标识别处理之后，得到2个检测框，分别为检测框4和检测框5，即第一图像包括的检测框的数量与第二图像包括的检测框的数量不一致，则在构建第一图像和第二图像之间的相似度矩阵之后，可以在相似度矩阵中增加一行和一列，作为缺省项，并将第一图像包括的检测框3的特征填入缺省项中，得到更新的相似度矩阵，随后可以采用最优传输-Sinkhorn算法对更新后的相似度矩阵中的每一行迭代的进行归一化处理，并删除新增的缺省项，得到再次更新的相似度矩阵。

在一些实施例中，以交通场景为例（即第一图像是对道路场景进行图像采集得到的图像，第二图像是从在地图数据库中获取的同一道路场景的图像），在基于步骤103得到第一图像中任意一个检测框与第二图像中任意一个检测框的相似度之后，还可以执行以下处理：确定第一图像中与第二图像中相似度大于相似度阈值的检测框的数量；当数量大于数量阈值（例如可以是图像抽样样本中所包括的对象的数量的平均值的半数、或者超过半数的数量，从而可以确保图像之间的匹配）时，确定第一图像与第二图像包括相同的交通元素，并将地图数据库中的第二图像更新为第一图像。

示例的，以第一图像为对道路1进行图像采集得到的图像A为例，在得到图像A之后，可以根据道路1的名字或者对应的序列号在地图数据库中获取在历史时间段内针对道路1进行图像采集得到的图像B，随后在基于步骤101至步骤103得到图像A中每个检测框与图像B中每个检测框之间的相似度之后，确定图像A中与图像B中相似度大于相似度阈值的检测框的数量；当数量大于数量阈值时，确定图像A和图像B包括相同的交通元素，并将地图数据库中的图像B更新为图像A，如此，能够实现地图数据库中道路场景图像的快速更新。

在步骤104中，根据相似度生成对象识别结果。

这里，对象识别结果表征第一图像中任意一个检测框与第二图像中任意一个检测框是否包括相同的对象。

在一些实施例中，当第一图像中任意一个检测框与第二图像中任意一个检测框之间的相似度大于相似度阈值时，确定这两个检测框包括的对象是同一个对象；当第一图像中任意一个检测框与第二图像中任意一个检测框之间的相似度小于相似度阈值时，确定这两个检测框包括的对象不是同一个对象。

示例的，以第一图像和第二图像为一对道路场景图像为例，其中，第一图像是2021年10月1日针对道路A进行拍摄得到，第二图像是2021年11月2日针对道路A进行拍摄得到，当第一图像中的检测框1与第二图像中的检测框2之间的相似度大于相似度阈值时，可以认为第一图像中的检测框1包括的对象（例如限速牌1）与第二图像中的检测框2包括的对象（例如限速牌2）是同一个限速牌，则可以使用第二图像替代第一图像，以实现道路数据更新。

本申请实施例提供的图像处理方法，针对第一图像和第二图像，通过交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，如此，一方面能够减少计算量，提高对象匹配效率；另一方面，能够使得到的每个检测框的特征充分融合第一图像和第二图像的信息，捕获了图像中的长距离依赖关系，从而可以在后续基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度时，提高对象匹配的精度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在导航电子地图中，道路构成的路网数据是导航路线规划的基础数据，路网数据的准确程度，极大的影响导航路线规划的准确性及合理性，进而影响用户的实际导航体验。例如，如果实际道路中交通元素状态的变化没有很快被发现并更新到路网数据中，就会使得本来可以通过该道路的更短的路线不会被推荐给用户，导致用户绕路，大大降低了用户的使用体验。

鉴于此，本申请实施例提供一种图像处理方法，采用图卷积的思路，把道路场景图像中每个检测目标的特征（即局部特征）和整张图像的特征（即全局特征）进行连接，并把每个检测目标视为图卷积神经网络中的一个节点，如此，可以充分利用每个检测目标的信息和全图的信息。在图卷积中，将各个检测目标的特征和全图的特征进行互相融合，从而捕获图像中的长距离依赖关系，来更好的判断是否有同一交通元素同时出现在一对道路场景图像中，能够取得更好的匹配精度；同时，本申请实施例提供的图像处理方法是基于人工智能实现的，相较于相关技术提供的方案更加灵活，降低了对人工的依赖，从而缩短更新周期。

示例的，路测设备采集到最新的道路场景图像（例如图像A）之后，将采集到的图像A发送至服务器，服务器调取地图数据库中与路测设备发送的图像A处于相近路段的道路场景图像（例如图像B），并采用本申请实施例提供的图像处理方法检测图像A和图像B中是否包括相同的交通元素（例如限速牌），当基于生成的对象识别结果确定图像A和图像B中的限速牌是同一个限速牌时，可以使用图像A替代图像B，从而实现道路场景数据的快速更新。

下面将结合图9对本申请实施例提供的图像处理方法进行具体说明。

参见图9，图9是本申请实施例提供的图像处理方法的流程示意图，如图9所示，本申请实施例提供的图像处理方法包括数据采集、目标特征提取、图卷积和匹配同一对象，下面针对上述四个步骤分别进行说明。

在一些实施例中，在数据采集阶段，可以通过车载的单目拍照设备（例如行车记录仪、或者其他具备图像采集功能的设备）对当前车辆行驶的前方道路进行拍摄，并通过GPS定位，获取在同一GPS点附近的不同车辆的行车记录仪拍摄的道路场景图像。

需要说明的是，在本申请实施例中，涉及到道路场景图像等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在一些实施例中，在目标特征提取阶段，可以首先从图像中提取出检测目标（例如交限牌、红绿灯、车道线等）的特征，作为局部特征，其中，局部特征是指对于已经给出的检测框中的对象提取特征，例如它可以是对图像中的特定区域（例如交限牌）的描述，使得这个特征具有很好的区分度。局部特征的选择会很大程度上影响后续匹配过程能否取得较好的结果。一般来说，局部特征应具有可区分性、准确性、有效性、以及各种不变性等。

示例的，参见图10，图10是本申请实施例提供的提取局部特征的原理示意图，如图10所示，可以采用卷积神经网络（例如CNN1）对道路场景图像进行目标识别处理，得到对应的检测框、以及提取检测框内的局部特征点和这些特征点的描述特征向量（即检测框的局部特征）。

示例的，参见图11，图11是本申请实施例提供的提取全局特征的原理示意图，如图11所示，可以采用卷积神经网络（例如Resnet18）作为基础网络，并在其基础上，对于一对道路场景图像（包括查询图像和底库图像），提取它们的特征（即全局特征）作为全局信息。全局信息包含了道路的背景轮廓和检测目标（例如交限牌）周围的环境背景，例如楼房、天空、道路等，对于判断两张图像中出现的检测目标是否是同一个交通元素有很大的帮助。

在另一些实施例中，在判断两张道路场景图像中的检测目标是否为同一个交通元素时，需要综合目标区域（即检测框所在的区域）、图像整体、检测目标在整张图像中的位置等信息进行判断，所以对于同一个检测目标，可以将检测框的局部特征和整张图像的全局特征进行连接，例如将查询图像中每个检测框的局部特征与查询图像的全局特征进行连接，以及将底库图像中每个检测框的局部特征与底库图像的全局特征进行连接。此外，还可以连接检测目标在图像中的位置特征（例如检测框的长、宽、以及左上角坐标等），并将连接后得到的特征作为图卷积神经网络中的一个节点，每个节点代表一个检测目标，节点的特征向量综合了检测目标的局部信息和整张图像的全局信息，从而能够更好地反映检测目标的特征。

示例的，参见图12A和图12B，图12A和图12B是本申请实施例提供的一对道路场景示意图，如图12A和图12B所示，由于天气、时间、设备等原因，导致图像1201中的交限牌1203和图像1202中的交限牌1204成像风格和环境不完全相同，但是通过比较楼房、道路轮廓等信息可以发现两个交限牌（即交限牌1203和交限牌1204）是同一个交限牌。

在另一些实施例中，类别信息是判断两个检测目标是否为同一个交通元素的重要因素，同一个交通元素一定属于同种类别，因此，针对查询图像（例如图像A）和底库图像（例如图像B）中的每个检测框，每个检测框的最终特征可以表示为：

其中，

表示图像A中检测框i的局部特征，i的取值范围为1到N，N为图像A中检测框的总数，

表示图像A的全局特征，

表示图像A中检测框i包括的检测目标的类别特征（例如可以是以独热编码（one-hot）形式得到的类别向量），

表示检测框i在图像A中的位置特征；

表示图像B中检测框j的局部特征，j的取值范围为1到M，M为图像B中检测框的总数，

表示图像B的全局特征，

表示图像B中检测框j包括的检测目标的类别特征，

表示检测框j在图像B中的位置特征。

在一些实施例中，参见图13，图13是本申请实施例提供的基于图卷积神经网络进行融合处理的原理示意图，如图13所示，可以通过卷积神经网络（例如CNN1）提取得到图像A中的检测框1的局部特征

和检测框2的局部特征

，并通过CNN1提取得到图像B中检测框3的局部特征

和检测框4的局部特征

。此外，还可以通过CNN2提取得到图像A的全局特征

和图像B的全局特征

，接着可以通过连接层对图像A包括的检测框1的局部特征和图像A的全局特征进行连接，得到检测框1的初始特征

=

+

，对检测框2的局部特征和图像A的全局特征进行连接，得到检测框2的初始特征

=

+

，类似的，对图像B包括的检测框3的局部特征和图像B的全局特征进行连接，得到检测框3的初始特征

+

检测框4的局部特征和图像B的全局特征进行连接，得到检测框4的初始特征

=

+

，随后可以通过交叉的卷积层交替进行图卷积的方式来融合同一张图像中不同检测框之间、以及不同图像中不同检测框之间的特征，例如从第一层到第二层时，融合同一张图像中不同检测框之间的特征（例如将图像A中检测框1的特征和检测框2的特征进行融合，将图像B中检测框3的特征与检测框4的特征进行融合），从第二层到第三层时，融合不同图像中不同检测框之间的特征（例如将图像A中检测框1的特征与图像B中的检测框3和检测框4的特征进行融合），从第三层到第四层，重新融合同一张图像中不同检测框之间的特征，以此类推，如此，通过交替进行融合处理的方式可以保证最后的特征能够充分捕获检测目标与整张图像之间的长距离依赖关系，在进行对象匹配时能够综合检测框外观、环境背景和位置信息等。

示例的，在一次图卷积中，可以将每个节点的特征记为

，通过全连接可以将其映射成一个键向量

和查询向量

，公式如下：

其中，

和

是全连接的权重，

和

是偏置，

表示一对道路场景图像中的查询图像或底库图像。

在图卷积中，通过自注意力机制可以灵活地调整不同节点对下一层的贡献，从而建立不同节点间的关系。每个节点在下一层的特征，可以由上一层各个节点的特征进行加权求和得到，其中，权重是每两个节点之间的查询向量和键向量的点积，公式如下：

其中，

是图

（即一对道路场景图像中的查询图像或底库图像）中的第i个节点上的特征，j

表示节点j和节点i在同一张图像，

表示权重，Softmax是激活函数。

在经过每一层自注意力机制的卷积处理之后，新一层的特征携带了全局信息和不同检测目标之间的局部信息，从而可以更好地反映检测目标区域（即检测框所在的区域）的像素、位置、以及与全图的关系等信息。此外，在进行图卷积时，通过交替在同一张图像内部和两张图像之间的检测框进行融合处理，能够令最后一层的特征，充分融合查询图像和底库图像的信息。

示例的，在图卷积神经网络的最后一层，对于查询图像（例如图像A）和底库图像（例如图像B），每个节点最终的特征可以定义为：

其中，

表示图像A中检测框i经过图卷积处理后得到的特征，

表示图像B中检测框j经过图卷积处理后得到的特征，

表示图卷积神经网络全连接层的权重，

是图卷积神经网络全连接层的偏置。

在一些实施例中，在匹配同一对象阶段，在经过图卷积处理，得到每个检测框最终的特征之后，可以计算图像A中任意一个检测框与图像B中任意一个检测框之间的相似度，公式如下：

其中，

表示相似度矩阵，<，>表示向量内积，

表示图像A中的检测框i与图像B中的检测框j之间的相似度，i的取值范围为1到N，N为图像A包括的检测框的总数，j的取值范围为1到M，M为图像B包括的检测框的总数，通过计算查询图像（即图像A）和底库图像（即图像B）包括的检测框之间的相似度，来判断两个检测目标是否为同一个交通元素（例如是否为同一个交限牌）。

在另一些实施例中，由于视角的差异和遮挡，会导致部分检测框可能只在图像A或者图像B中的一张图像中出现，示例的，参见图14A和图14B，图14A和图14B是本申请实施例提供的一对道路场景示意图，如图14A和图14B所示，图像1401（对应于查询图像）和图像1402（对应于底库图像）是针对同一道路进行拍摄得到，由于拍摄视角的差异和遮挡，导致检测框1403只在图像1401中出现，即图像1402中不存在相应的检测框。

针对上述情况，本申请实施例提供的图像处理方法在上述原始的相似度矩阵S中新增一行和一列，作为缺省项，并把只在一张图像中出现的检测目标配对到缺省项（例如将图13中检测框1303和检测框1304的特征填入缺省项中），得到更新后的相似度矩阵

。

对于更新后的相似度矩阵

，可以采用Sinkhorn算法（Sinkhorn算法描述了任意一个正矩阵（即元素均为正值）与双随机矩阵之间的关系，例如如果A是一个正矩阵，那么通过交替的进行行归一化和列归一化，可以将其转换为一个转移矩阵），对更新后的相似度矩阵

的每一行进行迭代地进行归一化处理，并删除新增的缺省项，得到原始的相似度矩阵S，相似度矩阵S中的数值表示两张图像中每个检测框之间的匹配概率，当概率大于一定阈值时，则可以将两个检测框中的对象确定为同一个对象。

本申请实施例提供的图像处理方法，可以使用非常简洁的方案实现两张道路场景图像中同一交通元素的匹配，在许多人工智能的应用中都可以作为基础技术，例如可以应用于道路生产自动化、高精地图自动化生成、自动驾驶等领域，并且，本申请实施例提供的图像处理方法可以提高产线自动化效率，降低人工核查的工作量，进一步降低成本。

下面继续说明本申请实施例提供的图像处理装置243的实施为软件模块的示例性结构，在一些实施例中，如图4所示，存储在存储器240的图像处理装置243中的软件模块可以包括：目标识别模块2431、融合模块2432、确定模块2433和生成模块2434。

目标识别模块2431，用于分别对第一图像和第二图像进行目标识别处理，得到第一图像中的多个检测框、以及第二图像中的多个检测框，其中，每个检测框包括待识别的对象；融合模块2432，用于针对第一图像和第二图像，交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到第一图像中每个检测框的特征以及第二图像中每个检测框的特征；确定模块2433，用于基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度；生成模块2434，用于根据相似度生成对象识别结果，其中，对象识别结果表征第一图像中任意一个检测框与第二图像中任意一个检测框是否包括相同的对象。

在一些实施例中，融合模块2432，还用于迭代执行以下处理：将第一图像中每个检测框的特征与第一图像中其他检测框的特征进行融合处理，得到第一图像中每个检测框的更新的特征，并将第二图像中每个检测框的特征与第二图像中其他检测框的特征进行融合处理，得到第二图像中每个检测框的更新的特征；将第一图像中每个检测框的更新的特征与第二图像中每个检测框的更新的特征进行融合处理，得到第一图像中每个检测框的再次更新的特征，并将第二图像中每个检测框的更新的特征与第一图像中每个检测框的更新的特征进行融合处理，得到第二图像中每个检测框的再次更新的特征；其中，第一次迭代处理所使用的第一图像中每个检测框的特征，是从第一图像中每个检测框提取得到的初始特征，第一次迭代处理所使用的第二图像中每个检测框的特征，是从第二图像中每个检测框提取得到的初始特征；后续的迭代处理所使用的第一图像中每个检测框的特征是上一次迭代处理后更新的特征，后续的迭代处理所使用的第二图像中每个检测框的特征是上一次迭代处理后更新的特征。

在一些实施例中，提取模块2435，还用于提取第一图像的全局特征；提取第一图像中每个检测框的局部特征；图像处理装置243还包括连接模块2436，用于基于第一图像的全局特征以及第一图像中每个检测框的局部特征进行连接处理，将得到的第一图像中每个检测框的初始特征，作为第一次迭代处理所使用的第一图像中每个检测框的特征。

在一些实施例中，连接模块2436，还用于针对第一图像中的每个检测框，执行以下处理：提取检测框在第一图像中的位置特征；提取检测框包括的待识别的对象的类别特征；将检测框的局部特征、第一图像的全局特征、检测框在第一图像中的位置特征、以及检测框包括的待识别的对象的类别特征进行连接处理，得到检测框的初始特征。

在一些实施例中，融合模块2432，还用于针对第一图像中的每个检测框，执行以下处理：对检测框的特征进行全连接处理，得到对应的一个键向量和一个查询向量；基于检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量，对检测框的特征和第一图像中其他检测框的特征进行加权求和处理，并将求和结果与偏置向量进行求和处理，得到检测框的更新的特征。

在一些实施例中，融合模块2432，还用于基于检测框对应的键向量和查询向量、以及第一图像中其他检测框对应的键向量和查询向量进行基于自注意力机制的编码处理，得到检测框、以及第一图像中其他检测框分别对应的权重；基于检测框、以及第一图像中其他检测框分别对应的权重，对检测框的特征和第一图像中其他检测框的特征进行加权求和处理。

在一些实施例中，确定模块2433，还用于基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，构建不同图像中不同检测框之间的相似度矩阵；从相似度矩阵中读取不同元素，其中，不同元素表征归属于不同图像的两个检测框之间的相似度。

在一些实施例中，确定模块2433，还用于在相似度矩阵中增加作为缺省项的一行和一列；将仅在第一图像或第二图像中出现的检测框的特征填充到缺省项中，得到更新的相似度矩阵；对更新的相似度矩阵中的每一行迭代进行归一化处理，并删除缺省项，得到再次更新的相似度矩阵。

在一些实施例中，目标识别模块2431，还用于分别对第一图像和第二图像进行选择性搜索处理，得到第一图像中的多个候选检测框、以及第二图像中的多个候选检测框，分别对第一图像中的多个候选检测框、以及第二图像中的多个候选检测框进行分类处理和回归处理，得到第一图像中包括任意类别的对象的多个检测框、以及第二图像中包括任意类别的对象的多个检测框；或者，用于分别对第一图像和第二图像进行分割处理，得到第一图像中的多个候选检测框、以及第二图像中的多个候选检测框，分别对第一图像中的多个候选检测框、以及第二图像中的多个候选检测框进行端到端的预测处理，得到第一图像中包括任意类别的对象的多个检测框、以及第二图像中包括任意类别的对象的多个检测框。

在一些实施例中，图像处理装置243还包括获取模块2437，用于获取对道路场景进行图像采集得到的第一图像，并从地图数据库中获取道路场景的第二图像，对象是电子地图中的交通元素；确定模块2433，还用于确定第一图像中与第二图像中相似度大于相似度阈值的检测框的数量；图像处理装置243还包括更新模块2438，用于当数量大于数量阈值时，确定第一图像与第二图像包括相同的交通元素，并将地图数据库中的第二图像更新为第一图像。

在另一些实施例中，如图4所示，存储在存储器240的图像处理装置243中的软件模块可以包括：目标识别模块2431、连接模块2436、确定模块2433和生成模块2434。

目标识别模块2431，用于分别对第一图像和第二图像进行目标识别处理，得到第一图像中的多个检测框、以及第二图像中的多个检测框，其中，每个检测框包括待识别的对象；连接模块2436，用于对第一图像中每个检测框的局部特征与第一图像的全局特征进行连接处理，得到第一图像中每个检测框的初始特征；连接模块2436，还用于对第二图像中每个检测框的局部特征与第二图像的全局特征进行连接处理，得到第二图像中每个检测框的初始特征；确定模块2433，用于基于第一图像中每个检测框的初始特征以及第二图像中每个检测框的初始特征，确定第一图像中任意一个检测框与所述第二图像中任意一个检测框的相似度；生成模块2434，用于根据相似度生成对象识别结果，其中，对象识别结果表征第一图像中任意一个检测框与第二图像中任意一个检测框是否包括相同的对象。

在一些实施例中，连接模块2436，还用于针对第一图像中的每个检测框，执行以下处理：将检测框的局部特征与第一图像的全局特征进行连接处理，得到检测框的初始特征；或者，将检测框的局部特征与第一图像的全局特征进行连接处理，并继续与检测框在第一图像中的位置特征和检测框包括的待识别的对象的类别特征至少之一进行连接处理，得到检测框的初始特征。

需要说明的是，本申请实施例中关于装置的描述，与上文中图像处理方法的实现是类似的，并具有相似的有益效果，因此不做赘述。对于本申请实施例提供的图像处理装置中未尽的技术细节，可以根据图6-8任一附图的说明而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令（即可执行指令），该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的图像处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图6-8任一附图示出的图像处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，本申请实施例针对待处理的第一图像和第二图像，通过交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，一方面能够减少计算量，提高匹配效率；另一方面，能够使得到的每个检测框的特征充分融合第一图像和第二图像的信息，捕获了图像中的长距离依赖关系，如此，在后续基于第一图像中每个检测框的特征以及第二图像中每个检测框的特征，确定第一图像中任意一个检测框与第二图像中任意一个检测框的相似度时，可以提高对象匹配的精度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述交替进行相同图像中不同检测框的融合处理以及不同图像中不同检测框的融合处理，得到所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征，包括：

迭代执行以下处理：

将所述第一图像中每个检测框的特征与所述第一图像中其他检测框的特征进行融合处理，得到所述第一图像中每个检测框的更新的特征，并将所述第二图像中每个检测框的特征与所述第二图像中其他检测框的特征进行融合处理，得到所述第二图像中每个检测框的更新的特征；

将所述第一图像中每个检测框的更新的特征与所述第二图像中每个检测框的更新的特征进行融合处理，得到所述第一图像中每个检测框的再次更新的特征，并将所述第二图像中每个检测框的更新的特征与所述第一图像中每个检测框的更新的特征进行融合处理，得到所述第二图像中每个检测框的再次更新的特征；

其中，第一次迭代处理所使用的所述第一图像中每个检测框的特征，是从所述第一图像中每个检测框提取得到的初始特征，第一次迭代处理所使用的所述第二图像中每个检测框的特征，是从所述第二图像中每个检测框提取得到的初始特征；后续的迭代处理所使用的所述第一图像中每个检测框的特征是上一次迭代处理后更新的特征，后续的迭代处理所使用的所述第二图像中每个检测框的特征是上一次迭代处理后更新的特征。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过以下方式获取第一次迭代处理所使用的所述第一图像中每个检测框的特征：

提取所述第一图像的全局特征；

提取所述第一图像中每个检测框的局部特征；

基于所述第一图像的全局特征以及所述第一图像中每个检测框的局部特征进行连接处理，将得到的所述第一图像中每个检测框的初始特征，作为第一次迭代处理所使用的所述第一图像中每个检测框的特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一图像的全局特征以及所述第一图像中每个检测框的局部特征进行连接处理，包括：

针对所述第一图像中的每个检测框，执行以下处理：

提取所述检测框在所述第一图像中的位置特征；

提取所述检测框包括的待识别的对象的类别特征；

将所述检测框的局部特征、所述第一图像的全局特征、所述检测框在所述第一图像中的位置特征、以及所述检测框包括的待识别的对象的类别特征进行连接处理，得到所述检测框的初始特征。

5.根据权利要求2所述的方法，其特征在于，所述将所述第一图像中每个检测框的特征与所述第一图像中其他检测框的特征进行融合处理，包括：

针对所述第一图像中的每个检测框，执行以下处理：

对所述检测框的特征进行全连接处理，得到对应的一个键向量和一个查询向量；

基于所述检测框对应的键向量和查询向量、以及所述第一图像中其他检测框对应的键向量和查询向量，对所述检测框的特征和所述第一图像中其他检测框的特征进行加权求和处理，并将求和结果与偏置向量进行求和处理，得到所述检测框的更新的特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述检测框对应的键向量和查询向量、以及所述第一图像中其他检测框对应的键向量和查询向量，对所述检测框的特征和所述第一图像中其他检测框的特征进行加权求和处理，包括：

基于所述检测框对应的键向量和查询向量、以及所述第一图像中其他检测框对应的键向量和查询向量进行基于自注意力机制的编码处理，得到所述检测框、以及所述第一图像中其他检测框分别对应的权重；

基于所述检测框、以及所述第一图像中其他检测框分别对应的权重，对所述检测框的特征和所述第一图像中其他检测框的特征进行加权求和处理。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征，确定所述第一图像中任意一个检测框与所述第二图像中任意一个检测框的相似度，包括：

基于所述第一图像中每个检测框的特征以及所述第二图像中每个检测框的特征，构建不同图像中不同检测框之间的相似度矩阵；

从所述相似度矩阵中读取不同元素，其中，所述不同元素表征归属于不同图像的两个检测框之间的相似度。

8.根据权利要求7所述的方法，其特征在于，在构建不同图像中不同检测框之间的相似度矩阵之后，且当所述第一图像包括的检测框的数量与所述第二图像包括的检测框的数量不一致时，所述方法还包括：

在所述相似度矩阵中增加作为缺省项的一行和一列；

将仅在所述第一图像或所述第二图像中出现的检测框的特征填充到所述缺省项中，得到更新的相似度矩阵；

对所述更新的相似度矩阵中的每一行迭代进行归一化处理，并删除所述缺省项，得到再次更新的相似度矩阵。

9.根据权利要求1所述的方法，其特征在于，所述分别对第一图像和第二图像进行目标识别处理，得到所述第一图像中的多个检测框、以及所述第二图像中的多个检测框，包括：

分别对所述第一图像和所述第二图像进行选择性搜索处理，得到所述第一图像中的多个候选检测框、以及所述第二图像中的多个候选检测框，分别对所述第一图像中的多个候选检测框、以及所述第二图像中的多个候选检测框进行分类处理和回归处理，得到所述第一图像中包括任意类别的所述对象的多个检测框、以及所述第二图像中包括任意类别的所述对象的多个检测框。

10.根据权利要求1所述的方法，其特征在于，所述分别对第一图像和第二图像进行目标识别处理，得到所述第一图像中的多个检测框、以及所述第二图像中的多个检测框，包括：

分别对所述第一图像和所述第二图像进行分割处理，得到所述第一图像中的多个候选检测框、以及所述第二图像中的多个候选检测框，分别对所述第一图像中的多个候选检测框、以及所述第二图像中的多个候选检测框进行端到端的预测处理，得到所述第一图像中包括任意类别的所述对象的多个检测框、以及所述第二图像中包括任意类别的所述对象的多个检测框。

11.根据权利要求1所述的方法，其特征在于，在分别对第一图像和第二图像进行目标识别处理之前，所述方法还包括：

获取对道路场景进行图像采集得到的所述第一图像，并从地图数据库中获取所述道路场景的所述第二图像，所述对象是电子地图中的交通元素；

所述方法还包括：

确定所述第一图像中与所述第二图像中相似度大于相似度阈值的检测框的数量；

当所述数量大于数量阈值时，确定所述第一图像与所述第二图像包括相同的交通元素，并将所述地图数据库中的所述第二图像更新为所述第一图像。

12.一种图像处理装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的图像处理方法。

14.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至11任一项所述的图像处理方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的图像处理方法。