CN116129325A

CN116129325A - 城市治理图像目标提取方法、装置及其应用

Info

Publication number: CN116129325A
Application number: CN202310156907.6A
Authority: CN
Inventors: 郁强; 葛俊; 彭大蒙; 陈思瑶; 曹喆
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-16

Abstract

本申请提出了城市治理图像目标提取方法、装置及其应用，包括以下步骤：提取原始图像中的特征信息并进行聚合投影并分配到对应的目标类型；获取图像中的掩码图像矩阵；对原始图像进行数据增强操作并从中随机选择多个增强图像；根据随机选择多个增强图像，在掩码图像矩阵中截取对应的位置并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵；将目标特征经过设定层数的MLP生成对应的非线性的投影向量和预测向量；对其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量进行回归预测计算，以获取对应的差异损失。本申请可提升图像目标提取在遮挡、光照下的鲁棒性。

Description

城市治理图像目标提取方法、装置及其应用

技术领域

本申请涉及自然语言技术领域，特别是涉及城市治理图像目标提取方法、装置及其应用。

背景技术

在城市治理中需要处理许多视频、图像数据，提取出这些视频、图像数据中城市管理人员关心的目标并结构化识别的目标，为后续的城市治理的相关下游任务提供数据分析和支撑。然而，在识别这些感兴趣的目标时发现许多视频、图像数据中存在如遮挡、光线昏暗、清晰度较低等原因使得现有的算法无法准确识别的问题，造成目标数据在处理过程中大量遗漏的现象，给后续分析这些感兴趣目标的数据准确性和合理性带来了一定的隐患。同时以往的方法很多都是采用粗粒度的图像特征信息去定位目标类别的位置，对于遮挡的目标难以准确识别，而直接的采用像素聚类的方法会造成算法效率低下，推理费时长；此外，单纯的像素聚类经常会错误识别包含目标边缘的像素信息，这些识别的错误边缘信息会给目标识别带来干扰。

因此，亟待一种可改进目标提取的准确性，计算不同图像中目标特征之间的差异性的城市治理图像目标提取方法、装置及其应用，以解决现有技术存在的问题。

发明内容

本申请实施例提供了城市治理图像目标提取方法、装置及其应用，针对目前技术容易被干扰导致准确率低下等的问题。

本发明核心技术主要是从图像中目标像素点分类的思路出发，采用特征点聚合和分配的策略重新构建像素点匹配的方式，为了改进目标提取的准确性，计算不同图像中目标特征之间的差异性，最大化不同目标之间的损失，最小同一目标之间的损失。

第一方面，本申请提供了城市治理图像目标提取方法，所述方法包括以下步骤：

S00、提取原始图像中的特征信息，并对特征信息的特征点之间进行聚合；

S10、将聚合后的特征信息进行投影并分配到对应的目标类型，以获取图像中描述目标分布的掩码图像矩阵；

S20、对原始图像进行数据增强操作，并从中随机选择多个增强图像；

S30、根据随机选择多个增强图像，在掩码图像矩阵中截取对应的位置，并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，以提取增强图像中的目标特征；

S40、将目标特征经过设定层数的MLP生成对应的非线性的投影向量和预测向量，其中每个增强图像生成相对于对应掩码图像矩阵的投影向量和预测向量；

S50、对其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量进行回归预测计算，以获取对应的差异损失；

S60、基于差异损失构建回归损失函数，并引导训练目标提取模型，通过该目标提取模型对输入图像进行目标提取。

进一步地，S00步骤中，特征点之间聚合的具体步骤为：

对特征信息进行聚类，并依据预设的聚类中心点获取聚类后的每个簇；

计算出每个聚类中心与对应簇内特征点的相似度矩阵；

以聚类中心点为基础，将该聚类中心对应簇内的特征点利用相似度作为特征的聚合权重，以聚合成新的特征，使得新的特征包含簇内特征点的相似性。

进一步地，S10步骤中，特征点之间聚合后再投影分配的具体步骤为：

利用MLP层还原到原始特征的维度，将聚合的特征信息分配到原始特征信息的每个特征点上，以共享特征点之间信息。

进一步地，S30步骤中，提取增强图像的空间特征，并与掩码图像矩阵进行相应特征点计算，以去除非感兴趣区域特征，并获得增强图像的空间特征中符合条件的目标特征。

进一步地，S50步骤中，通过构建回归损失函数，使得不同图像中的同一物体之间的相似性最大化，同时使得不同物体之间的相似性最小化，并通过该回归损失函数计算进行其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量的回归预测计算。

进一步地，S20步骤和S30步骤中，随机选择两个增强图像，根据两个增强图像，在掩码图像矩阵中截取对应的位置，并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，得到第一掩码矩阵和第二掩码矩阵。

进一步地，S40步骤中，将目标特征经过两层的MLP生成对应的非线性的投影向量和预测向量，第一张增强图像生成相对于第一掩码矩阵的投影向量和预测向量，第二增强图像生成相对于第二掩码矩阵的投影向量和预测向量。

第二方面，本申请提供了一种城市治理图像目标提取装置，包括：

提取模块，用于提取原始图像中的特征信息；

聚合投影分配模块，用于对特征信息的特征点之间进行聚合，将聚合后的特征信息进行投影并分配到对应的目标类型，获取图像中描述目标分布的掩码图像矩阵；

数据增强模块，用于对原始图像进行数据增强操作，并从中随机选择多个增强图像；根据随机选择多个增强图像，在掩码图像矩阵中截取对应的位置，并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，以提取增强图像中的目标特征；

处理模块，用于将目标特征经过设定层数的MLP生成对应的非线性的投影向量和预测向量，其中每个增强图像生成相对于对应掩码图像矩阵的投影向量和预测向量；对其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量进行回归预测计算，以获取对应的差异损失；基于差异损失构建回归损失函数，并引导训练目标提取模型，通过该目标提取模型对输入图像进行目标提取；

输出模块，用于目标提取结果。

第三方面，本申请提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的城市治理图像目标提取方法。

第四方面，本申请提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的城市治理图像目标提取方法。

本发明的主要贡献和创新点如下：1、与现有技术相比，本申请通过提取原始图像的特征信息可以更好地理解图像的内容和结构，从而在将聚合后的特征信息进行投影并分配到对应的目标类型，可以更准确地识别图像中的目标，通过获取图像中描述目标分布的掩码图像矩阵，可以更好地定位图像中的目标，通过对原始图像进行数据增强操作，可以提高模型的鲁棒性和泛化能力，通过根据随机选择多个增强图像，在掩码图像矩阵中截取对应的位置，并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，可以更好地提取增强图像中的目标特征，通过将目标特征经过设定层数的MLP生成对应的非线性的投影向量和预测向量，可以更好地把目标特征映射到高维空间，从而提高分类和回归的准确性，通过对其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量进行回归预测计算，可以评估模型的预测精度，从而提高模型的训练效果；

2、与现有技术相比，本申请更好地利用了不同图像之间目标自身与其他目标物之间的特征差异，并充分利用了聚类后的特征点的特性，提升了图像目标提取在遮挡、光照下的鲁棒性；

3、与现有技术相比，本申请在特征点聚合与分配时，优化了kmeans聚类后的特征，将聚类后同簇内的特征进行依照相似度进行了聚合操作，突出了同簇内特征点之间的相似特性，再利用特征分配将特征还原到原始维度，并将聚合的特征信息分配到原始特征的每个特征点上，共享特征点之间信息，提高掩码图像矩阵预测的准确性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的城市治理图像目标提取方法的流程图；

图2是根据本申请实施例的目标提取的技术路线图；

图3是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细的对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

以往的方法很多都是采用粗粒度的图像特征信息去定位目标类别的位置，对于遮挡的目标难以准确识别，而直接的采用像素聚类的方法会造成算法效率低下，推理费时长；此外，单纯的像素聚类经常会错误识别包含目标边缘的像素信息，这些识别的错误边缘信息会给目标识别带来干扰。

基于此，本发明考虑目标自身与其他目标物之间的特征差异：设计了基于特征点聚合与分配的掩码图像矩阵提取，图像与掩码之间的目标特征提取网络，构建了约束不同图像中目标之间特征相似性的损失计算方法。其中包括：掩码图像矩阵的生成、图像特征与掩码图像矩阵之间的目标特征提取、目标之间特征相似性的损失等。

实施例一

本申请旨在提出一种城市治理图像目标提取方法，具体地，参考图1和图2，所述方法包括以下步骤：

在本实施例中，在图2上部分中，先采用特征提取器获取原图像(原始图像)中的特征信息，再对特征点之间进行聚合操作。

在本实施例中，聚合后再投影分配到对应的目标类型(特征聚合再投影分配的具体操作见后续步骤说明)，获取原图像中描述目标分布的掩码图像矩阵m^k，k为生成掩码图像矩阵的数目，此掩码图像矩阵作为后续的目标之间差异部分计算的输入。

优选地，特征点聚合与分配的步骤如下：

1.将提取的特征采用kmeans进行聚类，依据设置的聚类中心点C，获取聚类后的每个簇(每个簇中包含着聚类中心点的特征点与它类似的特征)，计算出每个聚类中心与簇内这些特征点的相似度矩阵；

2.本方案采用以聚类中心点为基础，将与它在一个簇内的特征点利用相似度作为特征的聚合权重，重新聚合成新的特征f^’，这样聚合后的特征就包含了簇内特征点的相似性，具体的公式如下：

其中f_c表示聚类中心点c的特征，s_c,j表示该聚类中心点与簇内某点特征的相似度，f_c,j表示簇内某点特征。

3.进行特征分配，利用MLP层还原到原始特征的维度，，将聚合的特征信息分配到原始特征的每个特征点上，共享特征点之间信息，提高掩码图像矩阵预测的准确性，生成新特征(分配后的新特征，用于预测图像中目标的掩码图像)的公式如下所示：

其中f”为生成新的特征用以预测掩码图像矩阵，MLP(.)为线性变换神经网络层用来还原到原始特征的维度，f_i表示原始的特征的某点。

在本实施例中，图2下部分中，原图像随机进行裁剪，，翻转，色域变换等数据增强操作，并从中随机选择2张增强的图像(原图像进行裁剪等操作后会有很多个图像，选其中两张)，此外相应地在掩码图像矩阵上截取对应的位置并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，即这两张图的掩码图像矩阵是根据裁剪的坐标位置在从上半部分中的原图提取获取的掩码图像中去截取出来的，然后也进行对应的增强操作，来保证这两张图的掩码图像矩阵与增强的图像空间信息上一致。

其中，提取增强图像中对应的目标特征，过滤掉无关的信息，先将增强的图像提取它的空间特征

与掩码图像矩阵进行相应特征点的计算，具体公式如下：

其中，

为依据掩码矩阵提取的目标特征，n为特征点的数目，

为增强图像提取它的空间特征中的一个特征点，

表示第k个掩码图像矩阵中第l个截取的局部掩码矩阵图像的特征点。

通过如此操作，获取图像特征中符合条件的目标特征，去除非感兴趣特征对后续跨图目标特征计算相似性的影响；

在本实施例中，目标特征经过两层的MLP(多层感知器)生成对应的非线性的投影向量与预测向量(选择的两个增强图像中的增强图像1会生成相对于增强图像的掩码矩阵1的投影向量和预测向量，增强图像2同样会生成相对于增强图像的掩码矩阵2的投影向量和预测向量)。其中，更多层的MLP也行，但是层数加深并没有作用，属于冗余的操作，只会增加模型的计算量，这里MLP的第一层的输出是投影向量，经过第二层后获取预测向量。

在本实施例中，之后再对增强图像的掩码矩阵1的预测向量

与增强图像的掩码矩阵2的投影向量

进行回归预测计算，获取对应的差异损失；

S60、基于差异损失构建回归损失函数，并引导训练目标提取模型，通过该目标提取模型对输入图像进行目标提取；

优选地，为了充分利用不同图像之间目标的差异性，使得目标样本学习到与其他目标(负样本)特征的区别，构建了回归的损失函数，让不同图像中的同一物体之间的相似性最大化，同时使得不同物体之间的相似性最小化。

其中，增强图像的掩码矩阵1的预测向量与增强图像的掩码矩阵2的投影向量的相似性s的计算公式如下：

其中，τ是设计的超参数，本身无意义，防止公式计算结果趋向极限。

采用s^pos来表示同一目标之间(正样本)的相似度，

表示与不同目标(负样本)之间的相似度，m为负样本的数目，最终k张掩码图像矩阵的损失函数loss公式如下：

其中，图2中出现的“权值更新”是利用图2下半部分的差异损失计算后的梯度，转导给特征提取网络(特征提取器)进行参数优化调整，提升掩码图像矩阵预测的准确性。

实施例二

基于相同的构思，本申请还提出了一种城市治理图像目标提取装置，包括：

提取模块，用于提取原始图像中的特征信息；

处理模块，用于将目标特征经过设定层数的MLP生成对应的非线性的投影向量和预测向量，其中每个增强图像生成相对于对应掩码图像矩阵的投影向量和预测向量；对其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量进行回归预测计算，以获取对应的差异损失；

输出模块，用于目标提取结果。

实施例三

本实施例还提供了一种电子装置，参考图3，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性(Non-Volatile)存储器。在特定实施例中，存储器404包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意城市治理图像目标提取方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是待提取的原始图像等，输出的信息可以是目标提取结果等。

实施例四

本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的城市治理图像目标提取方法。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以作出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.城市治理图像目标提取方法，其特征在于，包括以下步骤：

S10、将聚合后的特征信息进行投影并分配到对应的目标类型，以获取所述图像中描述目标分布的掩码图像矩阵；

S20、对所述原始图像进行数据增强操作，并从中随机选择多个增强图像；

S30、根据随机选择多个增强图像，在所述掩码图像矩阵中截取对应的位置，并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，以提取所述增强图像中的目标特征；

S40、将所述目标特征经过设定层数的MLP生成对应的非线性的投影向量和预测向量，其中每个增强图像生成相对于对应掩码图像矩阵的投影向量和预测向量；

S60、基于所述差异损失构建回归损失函数，并引导训练目标提取模型，通过该目标提取模型对输入图像进行目标提取。

2.如权利要求1所述的城市治理图像目标提取方法，其特征在于，S00步骤中，特征点之间聚合的具体步骤为：

对所述特征信息进行聚类，并依据预设的聚类中心点获取聚类后的每个簇；

计算出每个聚类中心与对应簇内特征点的相似度矩阵；

3.如权利要求2所述的城市治理图像目标提取方法，其特征在于，S10步骤中，特征点之间聚合后再投影分配的具体步骤为：

4.如权利要求1所述的城市治理图像目标提取方法，其特征在于，S30步骤中，提取增强图像的空间特征，并与掩码图像矩阵进行相应特征点计算，以去除非感兴趣区域特征，并获得增强图像的空间特征中符合条件的目标特征。

5.如权利要求1所述的城市治理图像目标提取方法，其特征在于，S50步骤中，通过构建回归损失函数，使得不同图像中的同一物体之间的相似性最大化，同时使得不同物体之间的相似性最小化，并通过该回归损失函数计算进行其中一个增强图像的掩码图像矩阵的预测向量与另一个增强图像的掩码图像矩阵的投影向量的回归预测计算。

6.如权利要求1-5任一项所述的城市治理图像目标提取方法，其特征在于，S20步骤和S30步骤中，随机选择两个增强图像，根据两个增强图像，在所述掩码图像矩阵中截取对应的位置，并依照数据增强操作的方式获取增强图像对应的掩码图像矩阵，得到第一掩码矩阵和第二掩码矩阵。

7.如权利要求6所述的城市治理图像目标提取方法，其特征在于，S40步骤中，将所述目标特征经过两层的MLP生成对应的非线性的投影向量和预测向量，第一张增强图像生成相对于第一掩码矩阵的投影向量和预测向量，第二增强图像生成相对于第二掩码矩阵的投影向量和预测向量。

8.一种城市治理图像目标提取装置，其特征在于，包括：

提取模块，用于提取原始图像中的特征信息；

输出模块，用于目标提取结果。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的城市治理图像目标提取方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至7任一项所述的城市治理图像目标提取方法。