CN117372430A

CN117372430A - 一种构建图像检测模型的方法、装置及图像检测模型

Info

Publication number: CN117372430A
Application number: CN202311660488.6A
Authority: CN
Inventors: 肖勤勇; 肖文生; 崔俊国; 吴磊
Original assignee: Amihuasheng Data Technology Jiangsu Co ltd; China University of Petroleum East China
Current assignee: Amihuasheng Data Technology Jiangsu Co ltd; China University of Petroleum East China
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-01-09

Abstract

本发明实施例提供一种构建图像检测模型的方法、装置及图像检测模型，该方法包括：获取输入图像的语义特征；将所述语义特征进行连接和扁平化处理得到语义块；对所述语义块分别进行垂直方向和水平方向的划分得到垂直组和水平组；分别对所述垂直组和水平组进行自注意力计算得到垂直方向的相关性和水平方向的相关性，组合两个相关性得到组合结果；将所述组合结果投影至所述语义特征得到图像检测模型。该方法得到的图像检测模型检测图像的准确率高。

Description

一种构建图像检测模型的方法、装置及图像检测模型

技术领域

本发明涉及图像处理领域，具体地涉及一种构建图像检测模型的方法、装置及图像检测模型。

背景技术

随着遥感成像技术的提升和计算机科学的快速发展，高光谱、高时间、高空间分辨率的遥感影像已广泛应用。现有技术中通常采用语义变化检测提取遥感图像中的变化区域，但是其在有限的样本下提取语义信息并加以应用仍具有挑战性。

发明内容

本发明实施例的目的是提供一种构建图像检测模型的方法、装置及图像检测模型，该方法得到的图像检测模型检测图像的准确率高。

为了实现上述目的，本发明实施例提供一种构建图像检测模型的方法，该方法包括：

获取输入图像的语义特征；

将所述语义特征进行连接和扁平化处理得到语义块；

对所述语义块分别进行垂直方向和水平方向的划分得到垂直组和水平组；

分别对所述垂直组和水平组进行自注意力计算得到垂直方向的相关性和水平方向的相关性，组合两个相关性得到组合结果；

将所述组合结果投影至所述语义特征得到图像检测模型。

可选的，所述获取输入图像的语义特征，包括：

对输入图像进行语义变化检测得到语义变化图；

通过解码器对所述语义变化图进行处理得到语义特征。

可选的，所述通过解码器对所述语义变化图进行处理得到语义特征，包括：

通过所述解码器对所述语义变化图进行重塑得到第一多尺度特征和第二多尺度特征；

对所述第一多尺度特征和第二多尺度特征进行连接处理得到时间特征；

检测所述第一多尺度特征和第二多尺度特征的双时态特征变化得到变化特征；

将所述变化特征与时间特征对齐得到语义特征。

可选的，所述语义块包括:

其中，x^M为第M块的输出标记，为第M块的输出标记的线性值，M为语义块数量，

Ln(x)为对x求自然对数，x为特征值，

自注意力单元，/>MLP单元。

可选的，所述垂直组或水平组包括：

其中，x为语义块的输出标记集，x^M为垂直组或水平组的第M块的输出标记，M为语义块数量，

为第k个计算头对第i个条带的计算结果，i为每个计算条带的序号，k为空间注意力计算头的数目，A为注意力操作，Q、K、V分别是查询向量、键值向量、值向量的投影矩阵，

表示第k个单元的空间注意力操作，

为第i个垂直组或水平组第i块的输出标记，R为整个图像集合，sw为条带宽度，d为投影向量的维度，dk为第k个计算头对应的计算维度。

可选的，所述自注意力计算包括：

其中，为垂直方向的相关性或水平方向的相关性，

为softmax操作函数，

、/>、v_i为x_i的垂直方向的线性投影或水平方向的线性投影、，

为Q、K矩阵的列数，

T为转置矩阵。

可选的，所述组合两个相关性得到组合结果，包括：将所述两个相关性的头部模块的输出进行连接得到组合结果。

可选的，所述投影的方法包括：

其中，为第2k个注意力SA单元，

W^o为用于调整自注意力SA单元维度的投影矩阵。

可选的，该方法还包括：

获取所述图像检测模型的语义损失，用于对该图像检测模型进行时间一致性约束；

所述获取所述图像检测模型的语义损失，包括：

其中，

为地表语义损失，

为伪标签损失，

为语义一致性损失，

为二值变化损失。

另一方面，本发明还提出一种构建图像检测模型的装置，该装置包括：

获取模块，用于获取输入图像的语义特征；

第一处理模块，用于将所述语义特征进行连接和扁平化处理得到语义块；

第二处理模块，用于对所述语义块分别进行垂直方向和水平方向的划分得到垂直组和水平组；

第三处理模块，用于分别对所述垂直组和水平组进行自注意力计算得到垂直方向的相关性和水平方向的相关性，组合两个相关性得到组合结果；

第四处理模块，用于将所述组合结果投影至所述语义特征得到图像检测模型。

可选的，所述获取输入图像的语义特征，包括：

对输入图像进行语义变化检测得到语义变化图；

通过解码器对所述语义变化图进行处理得到语义特征。

将所述变化特征与时间特征对齐得到语义特征。

可选的，所述投影的方法包括：

其中，为第2k个注意力SA单元，

W^o为用于调整自注意力SA单元维度的投影矩阵。

另一方面，本发明还提出一种图像检测模型，为根据上述所述的构建图像检测模型的方法得到的图像检测模型。

另一方面，本发明还提出一种图像检测方法，将待测图像带入上述所述的构建图像检测模型的方法得到的图像检测模型中，得到该待测图像的影像变化。

本发明的一种构建图像检测模型的方法包括：获取输入图像的语义特征；将所述语义特征进行连接和扁平化处理得到语义块；对所述语义块分别进行垂直方向和水平方向的划分得到垂直组和水平组；分别对所述垂直组和水平组进行自注意力计算得到垂直方向的相关性和水平方向的相关性，组合两个相关性得到组合结果；将所述组合结果投影至所述语义特征得到图像检测模型。本发明通过对输入图像进行语义变化检测，然后基于语义变化依赖关系进行建模得到图像检测模型，使得获得的图像检测模型检测图像准确率高。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明的一种构建图像检测模型的方法流程图；

图2是本发明的基于CNN的语义检测网络示意图；

图3是本发明的未变化处的伪标签的流程示意图；

图4是本发明的利用不变区域的语义信息结果和利用变化区域的语义信息结果。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是本发明的一种构建图像检测模型的方法流程图，如图1所示，本发明的一种构建图像检测模型的方法包括：步骤S101为获取输入图像的语义特征。具体的，所述获取输入图像的语义特征，包括：对输入图像进行语义变化检测得到语义变化图；通过解码器对所述语义变化图进行处理得到语义特征。

所述通过解码器对所述语义变化图进行处理得到语义特征，包括：通过所述解码器对所述语义变化图进行重塑得到第一多尺度特征和第二多尺度特征；对所述第一多尺度特征和第二多尺度特征进行连接处理得到时间特征，具体的，本发明的连接处理指的是将三个矩阵拼接起来，即将三个矩阵存到一个numpy或者list中；检测所述第一多尺度特征和第二多尺度特征的双时态特征变化得到变化特征；将所述变化特征与时间特征对齐得到语义特征。具体的，所述多尺度为不同尺寸的图像，在不同尺寸下对图像进行采样，以及特征预测的效果不同。

步骤S102为将所述语义特征进行连接和扁平化处理得到语义块。按照一种具体的实施方式，所述语义块包括:

其中，x^M为第M块的输出标记，为第M块的输出标记的线性值，M为语义块数量，Ln(x)为对x求自然对数，x为特征值，/>自注意力单元，/>MLP单元。每个语义块均包括SA单元（自注意力单元）和MLP单元（多层感知单元）。

步骤S103为对所述语义块分别进行垂直方向和水平方向的划分得到垂直组和水平组。具体的，所述垂直组或水平组包括：

其中，x为语义块的输出标记集，为垂直组或水平组的第M块的输出标记，M为语义块数量，/>为第k个计算头对第i个条带的计算结果，i为每个计算条带的序号，k为空间注意力计算头的数目，A为注意力操作，Q、K、V分别是查询向量、键值向量、值向量的投影矩阵，A_k表示第k个单元的空间注意力操作，/>为第i个垂直组或水平组第i块的输出标记，R为整个图像集合，即所有图片。sw为条带宽度，d为投影向量的维度，dk为第k个计算头对应的计算维度。

步骤S104为分别对所述垂直组和水平组进行自注意力计算得到垂直方向的相关性和水平方向的相关性，组合两个相关性得到组合结果。具体的，所述组合两个相关性得到组合结果，包括：将所述两个相关性的头部模块的输出进行连接得到组合结果，具体的，所述两个相关头部块连接是将两个头部存储到一起，即使用同一个list或者numpy存储（numpy是一个用于科学计算和数值计算的Python库，提供了数组操作、函数和模块）。

按照一种具体的实施方式，所述自注意力计算包括：

其中，为垂直方向的相关性或水平方向的相关性，/>为softmax操作函数，/>、/>、v_i为x_i的垂直方向的线性投影或水平方向的线性投影、/>，/>为Q、K矩阵的列数，即向量维度，Q、K矩阵是用来计算Q、K参数的矩阵，该矩阵与输入矩阵相乘进行运算。T为转置矩阵。

步骤S105为将所述组合结果投影至所述语义特征得到图像检测模型。具体的，所述投影的方法包括：

W^o∈R^d×Co

其中，为第2k个注意力SA单元，W^o为用于调整自注意力SA单元维度的投影矩阵。

该方法还包括：获取所述图像检测模型的语义损失，用于对该图像检测模型进行时间一致性约束。该方法考虑了两幅图像中包含的时间语义信息，提高了关键区域的区分度。

所述获取所述图像检测模型的语义损失包括：

其中，为地表语义损失，/>为伪标签损失，/>为语义一致性损失，/>为二值变化损失。

具体的，所述地表语义损失为：

所述伪标签损失为：

所述语义一致性损失为：

所述二值变化损失为：

其中，为观测时相i的语义类别标注，/>为观测时相i的语义预测值，i为观测时相的序号，/>表示未变化处的伪标签，/>为第1时相p点处的语义预测值，/>为第2时相p点处的语义预测值, p为图像上p点位置，/>为图像范围，/>为图像上p点处的变化标签，/>为变化标签，/>为变化预测值。

如图2所示，本申请还提出了一种语义检测网络（ScanNet）的架构，该架构是一种"CNN-Transformer "混合架构(Transformer是一个利用注意力机制来提高模型训练速度的模型)，CNN部分因为其高效性作为特征提取器。同时，网络还会关注嵌入语义的相关性。这样就能对整个空间的时间中的 "语义变化 "依赖关系进行深度建模。

根据一种具体的实施方式包括：语义变化检测的CNN架构、基于Transformer的“Semantic-Change”(语义变化)依赖关系建模和时间一致性约束的语义学习三部分。

具体的，所述语义变化检测的CNN架构包括：语义变化检测（SCD）将输入图像(I₁，I₂)生成一对语义变化图(Y₁，Y₂)，以展示变化的区域及其语义类别。语义变化检测（SCD）函数表示为:

其中p表示I₁，I₂上的空间位置，,/>是p上的双时态语义类。

将输入图片I₁，I₂∈R_c×W×H输入到TED，具体的，先通过编码器网络将图片嵌入并重塑为多尺度特征[X₁ ^u,X₁ ^v],[X₂ ^u,X₂ ^v]，其中X^u∈R^Cu×W/4×H/4,X^v∈R^Cv×W/8×H/8。然后，neck模块进一步扩大并连接[X₁ ^u,X₁ ^v],[X₂ ^u,X₂ ^v]并将它们转发到head模块。通过使用双时态特征来检测变化，change分支的输入是从时序分支的最高编码层获得的语义特征[X₁ ^v,X₂ ^v]，其输出是变化特征X^v _c∈R^Cv×W/8×H/8。change分支中的head模块在空间上将X^c与时间特征[X₁ ^v,X₂ ^u]对齐。最后，三重嵌入分支的输出是X₁，X₂，X_c∈R^Cv×W/4×H/4。

其中，所述TED是通过在SSCDI中添加解码器模块获得。backbone在不同图像细粒度上聚合并形成图像特征的卷积神经网络。neck为一系列混合和组合图像特征的网络层，并将图像特征传递到预测层。Head为对图像特征进行预测，生成边界框和并预测类别。

所述Transformer 是由 Encoder 和 Decoder 两个部分组成，Encoder 和Decoder 都包含六个 block；Transformer是一个利用注意力机制来提高模型训练速度的模型。trasnformer是基于自注意力机制的一个深度学习模型。所述基于Transformer的“语义变化”依赖关系建模包括：

为了联合建模时空相关性，将特征[X₁，X₂，X_c]连接起来，并将它们扁平化为语义token块 x∈R^hw×d，其中d是token的深度(等于3Cv)，该模型由L层的注意力块组成，每个块均由一个自注意力(SA)单元和一个MLP单元组成。这些单元以残差方式组织，其包含一个规范化层。每个注意力块内部的计算如下:

其中，x^M为第M块的输出标记，为第M块的输出标记的线性值，M为语义块数量。

现有的ViT使用所有的SA，其计算复杂度是图像大小的二次型，其处理HRRSIs比较繁琐。为了解决这一问题，本申请采用了十字形窗口(CSWin) SA来更有效地建模长程上下文。在CSWin-SA单元中，输入特征在空间上被划分为垂直条纹和水平条纹，每个特征宽度为s。执行SA的头部模块数为2K，水平组的头部模块数为K，垂直组的头部模块数为K。水平组中的计算如下:

其中xⁱ∈R^sw×d,A_k表示SA操作第k单元，Q，K，V∈R^d×dk分别是查询、键、值标记的投影矩阵。垂直组的计算与水平组的计算类似。第i条带的CSWinSA计算如下:

其中σ是softmax操作，q_i，k_i，v_i是x_i的线性投影，B_i是一个可学习的参数矩阵，用于编码相对位置。

最后将2K个头部模块的输出连接并投影：

其中，W^o∈R^d×Co是用于调整token块维度的投影矩阵。

具有时间一致性约束的语义学习包括：语义损失可以用常用的交叉熵损失来计算，定义如下:

其中，i是时态索引，不变区域不提供具体的语义类别。可以通过双时态预测来推断语义标签。假设一个地方p已知是不变的，如果它的双时态语义概率Y_s ^1p和Y_s ^2p相似，本申请以高置信度假设它的语义类应该是Y_s ^1p(或Y_s ^2p)。因此，本申请采用伪标注方法为未变化处的伪标签，如图3所示，具体计算方法如下:

其中cos()是在向量空间中计算的余弦函数，用于度量语义相似度，T是阈值。本申请使用注释0从损失计算中排除更改区域。伪语义目标L_psd可以计算为:

最后根据SCD的内在逻辑可以推出Y₁和Y₂上的不变区域应具有语义一致性，而变化区域则存在差异，如图4所示，以时间一致性作为先验约束，分别利用不变区域和变化区域的语义信息，a为利用不变区域的语义信息结果，b为利用变化区域的语义信息结果。

具体的，利用这种时间约束作为先验信息构建语义一致性学习目标来指导网络训练。/>是用真实变化标签Lc计算的，可通过二值化L1或L2(设置更改区域的注释为0)来确定。/>的计算方法包括：

该函数在不变和改变区域都计算过，其鼓励网络在改变区域生成相同的语义预测，而在不变区域生成不同的预测。

结合该学习目标函数，整体损失L如下所示:

通过添加，本申请综合考虑了两幅图像中包含的时间语义信息，提高了关键区域的区分度。

另一方面，本发明还提出一种图像检测模型，为根据上述所述的构建图像检测模型的方法得到的图像检测模型。该图像检测模型检测图像准确率高。

另一方面，本发明还提出一种图像检测方法，将待测图像带入上述所述的构建图像检测模型的方法得到的图像检测模型中，得到该待测图像的影像变化。该检测方法使得检测图像准确率高。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种构建图像检测模型的方法，其特征在于，该方法包括：

获取输入图像的语义特征；

将所述语义特征进行连接和扁平化处理得到语义块；

将所述组合结果投影至所述语义特征得到图像检测模型。

2.根据权利要求1所述的方法，其特征在于，所述获取输入图像的语义特征，包括：

对输入图像进行语义变化检测得到语义变化图；

通过解码器对所述语义变化图进行处理得到语义特征。

3.根据权利要求2所述的方法，其特征在于，所述通过解码器对所述语义变化图进行处理得到语义特征，包括：

将所述变化特征与时间特征对齐得到语义特征。

4.根据权利要求1所述的方法，其特征在于，

所述语义块包括:

Ln(x)为对x求自然对数，x为特征值，

自注意力单元，/>MLP单元。

5.根据权利要求1所述的方法，其特征在于，

所述垂直组或水平组包括：

其中，x为语义块的输出标记集，为垂直组或水平组的第M块的输出标记，M为语义块数量，

表示第k个单元的空间注意力操作，

6.根据权利要求1所述的方法，其特征在于，

所述自注意力计算包括：

其中，为垂直方向的相关性或水平方向的相关性，

为softmax操作函数，

为Q、K矩阵的列数，

T为转置矩阵。

7.根据权利要求1所述的方法，其特征在于，所述组合两个相关性得到组合结果，包括：将所述两个相关性的头部模块的输出进行连接得到组合结果。

8.根据权利要求1所述的方法，其特征在于，

所述投影的方法包括：

其中，为第2k个注意力SA单元，

W^o为用于调整自注意力SA单元维度的投影矩阵。

9.根据权利要求1所述的方法，其特征在于，该方法还包括：

所述获取所述检测图像模型的语义损失，包括：

其中，

为地表语义损失，

为伪标签损失，

为语义一致性损失，

为二值变化损失。

10.一种构建图像检测模型的装置，其特征在于，该装置包括：

获取模块，用于获取输入图像的语义特征；

11.根据权利要求10所述的装置，其特征在于，所述获取输入图像的语义特征，包括：

对输入图像进行语义变化检测得到语义变化图；

通过解码器对所述语义变化图进行处理得到语义特征。

12.根据权利要求11所述的装置，其特征在于，所述通过解码器对所述语义变化图进行处理得到语义特征，包括：

将所述变化特征与时间特征对齐得到语义特征。

13.根据权利要求10所述的装置，其特征在于，

所述投影的方法包括：

其中，为第2k个注意力SA单元，

W^o为用于调整自注意力SA单元维度的投影矩阵。

14.一种图像检测模型，其特征在于，为根据上述权利要求1-9中任一项所述的构建图像检测模型的方法得到的图像检测模型。

15.一种图像检测方法，其特征在于，将待测图像带入上述权利要求1-9中任一项所述的构建图像检测模型的方法得到的图像检测模型中，得到该待测图像的影像变化。