CN114528977B

CN114528977B - 一种等变网络训练方法、装置、电子设备及存储介质

Info

Publication number: CN114528977B
Application number: CN202210082336.1A
Authority: CN
Inventors: 陈智强; 余山; 陈阳
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-01-31
Anticipated expiration: 2042-01-24
Also published as: CN114528977A

Abstract

本发明公开了一种等变网络训练方法、装置、电子设备及存储介质，方法包括：构建由等变卷积层组成的等变网络；对等变网络中的等变卷积层进行高斯调制；利用训练图像集中的图像对等变网络进行训练，直至等变网络收敛结束。由于传统的卷积层是在离散空间中定义的，只有采样格点上有参数，而通过对等变网络中的等变卷积层进行高斯调制，经调制后的等变卷积层在空间位置和角度上是可导的，可以优化位置和角度参数，因此可以在连续空间中定义参数，使得训练完成的等变网络能够客服离散采样的限制，从而获得在连续变换群上的等变性。

Description

一种等变网络训练方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种等变网络训练方法、装置、电子设备及存储介质。

背景技术

通常，图像中可视对象的旋转、缩放等变换，会改变可视对象的外观，这样就会给神经网络带来很大的学习空间。目前可行的解决途径是增强神经网络的解耦能力，获得更紧凑的潜在学习空间，卷积神经网络具有内在的平移解耦能力，不管对象在输入中的位置如何，都能够学习到基本特征。为了进一步提高网络的解耦能力，有人提出了群等变理论和旋转群等变网络。

在实践中，无论是输入图像、特征映射，还是网络中的卷积核，都是定义在离散的空间中或者经过离散采样的，因此现有的等变网络都是在离散群上等变，例如对于平移群变换只能平移采样间隔的整数倍，卷积步长决定了网络只能在相同步长的离散群上具有等变性，尤其是对于深度网络需要执行多次降采样，最终的等变非常有限。由此可见，现有的等变网络由于都是在离散群上实现的离散等变，其等变性非常有限。

发明内容

本发明的目的是针对上述现有技术的不足提出的一种等变网络训练方法、装置、电子设备及存储介质，该目的是通过以下技术方案实现的。

本发明的第一方面提出了一种等变网络训练方法，所述方法包括：

构建由等变卷积层组成的等变网络；

对所述等变网络中的等变卷积层进行高斯调制；

利用训练图像集中的图像对所述等变网络进行训练，直至所述等变网络收敛结束。

在本申请的一些实施例中，所述对所述等变网络中的等变卷积层进行高斯调制，包括：

对所述等变网络中的等变卷积层部署的卷积核进行高斯调制，使得所述等变卷积层利用调制后的卷积核对输入特征进行等变卷积操作。

在本申请的一些实施例中，所述对所述等变网络中的等变卷积层部署的卷积核进行调制，包括：

利用预设高斯采样函数与所述卷积核进行等变卷积操作，以获得调制后的卷积核。

在本申请的一些实施例中，调制公式为：

在上述公式中，Ψ为调制后的卷积核，

为调制前的卷积核，⊙为等变卷积操作符号，ζ(x)为预设高斯采样函数，具体形式如下：

其中，σ为方差，T表示转置符号，z²表示整数。

在本申请的一些实施例中，所述方法还包括：

利用已训练的等变网络对输入的待识别图像进行处理，以获得目标任务的处理结果；其中，所述目标任务为所述训练图像集用于实现的任务。

本发明的第二方面提出了一种等变网络训练装置，所述装置包括：

构建模块，用于构建由等变卷积层组成的等变网络；

调制模块，用于对所述等变网络中的等变卷积层进行高斯调制；

训练模块，用于利用训练图像集中的图像对所述等变网络进行训练，直至所述等变网络收敛结束。

本发明的第三方面提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述方法的步骤。

本发明的第四方面提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述第一方面所述方法的步骤。

基于上述第一方面和第二方面所述的等变网络训练方法及装置，本发明至少具有如下有益效果或优点：

在构建出等变网络后，通过对等变网络中的等变卷积层进行高斯调制，由于传统的卷积层是在离散空间中定义的，只有采样格点上有参数，而经过高斯调制后的等变卷积层在空间位置和角度上是可导的，可以优化位置和角度参数，因此可以在连续空间中定义参数，从而使得训练完成的等变网络能够客服离散采样的限制，获得在连续变换群上的等变性，进而能够提高网络对于对应变换的解耦能力，减小潜在的学习空间，从而提升网络在多个方面的能力，包括更少的训练数据、更少的模型参数、更强泛化性、更好的性能等。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明根据一示例性实施例示出的一种等变网络训练方法的实施例流程图；

图2为本发明根据图1所示实施例示出的一种等变网络的构建流程示意图；

图3为本发明根据图1所示实施例示出的一种等变网络的训练流程示意图；

图4为本发明根据一示例性实施例示出的一种等变网络训练装置的结构示意图；

图5为本发明根据一示例性实施例示出的一种电子设备的硬件结构示意图图；

图6为本发明根据一示例性实施例示出的一种存储介质的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了避免现有等变网络在离散群上实现离散等变带来的等变性有限的问题，本申请提出一种等变网络训练方法，即构建由等变卷积层组成的等变网络，并对等变网络中的等变卷积层进行高斯调制，进而利用训练图像集中的图像对等变网络进行训练，直至所述等变网络收敛结束。

基于上述描述可达到的技术效果有：

在构建出等变网络后，通过对等变网络中的等变卷积层进行高斯调制，由于传统的卷积层是在离散空间中定义的，只有采样格点上有参数，而经过高斯调制后的等变卷积层在空间位置和角度上是可导的，可以优化位置和角度参数，因此可以在连续空间中定义参数，使得训练完成的等变网络能够客服离散采样的限制，从而获得在连续变换群上的等变性，进而能够提高网络对于对应变换的解耦能力，减小潜在的学习空间，从而提升网络在多个方面的能力，包括更少的训练数据、更少的模型参数、更强泛化性、更好的性能等。

为了使本领域技术人员更好的理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一：

图1为本发明根据一示例性实施例示出的一种等变网络训练方法的实施例流程图，如图1所示，该等变网络训练方法包括如下步骤：

步骤101：构建由等变卷积层组成的等变网络。

在本实施例中，等变卷积层用于对输入的特征图或图像执行等变卷积操作，等变卷积操作需要满足的等变条件为：[L_g[f⊙Ψ]](x)＝[[L_gf]⊙Ψ]；其中，f(x)表示输入的图像或特征图，x为空间位置(比如二维空间或更高维度空间)，L_g为变换群G上的变换，g∈G，⊙为等变卷积操作符号。

可选的，等变网络结构可以采用G-CNN(Group-equivariant ConvolutionalNeural Network，群等变卷积神经网络))。

步骤102：对等变网络中的等变卷积层进行高斯调制。

其中，在等变卷积层中使用卷积核对输入的特征图或图像进行等变卷积操作。

在一种可能的实现方式中，通过对等变网络中的等变卷积层部署的卷积核进行高斯调制，使得等变卷积层利用调制后的卷积核对输入特征进行等变卷积操作。

可选的，对于具体的高斯调制形式，可以利用预设高斯采样函数与等变卷积层部署的卷积核进行等变卷积操作，以获得调制后的卷积核。

其中，卷积核的调制公式为：

在上述公式中，Ψ为调制后的卷积核，

其中，σ为方差，T表示转置符号，z²表示整数。

基于上述描述可知，等变卷积层中使用调制后的卷积核进行等变卷积操作的公式为：

其中，Ψ为调制后的卷积核，

为调制前的卷积核，⊙为等变卷积操作符号，ζ为预设高斯采样函数。

步骤103：利用训练图像集中的图像对等变网络进行训练，直至所述等变网络收敛结束。

其中，等变网络的收敛条件可以是由多种指标条件组成，例如网络的精确率高于一定数值、召回率高于一定数值、以及损失高于一定数值等指标条件。

需要补充说明的是，在等变网络训练结束后，可以利用已训练的等变网络对输入的待识别图像进行处理，以获得目标任务的处理结果。

其中，目标任务为训练图像集用于实现的任务。例如，训练图像集用于实现分类任务(也即图像标注的标签为分类标签)，那么等变网络的处理结果为对待识别图像的分类结果。

本领域技术人员可以理解的是，上述给出的分类任务描述仅为一种示例性说明，本申请对等变网络的任务类型不进行具体限定，例如在等变网络的任务为目标检测任务时，等变网络的处理结果为目标检测结果。

至此，完成上述图1所示的训练流程，在构建出等变网络后，通过对等变网络中的等变卷积层进行高斯调制，由于传统的卷积层是在离散空间中定义的，只有采样格点上有参数，而经过高斯调制后的等变卷积层在空间位置和角度上是可导的，可以优化位置和角度参数，因此可以在连续空间中定义参数，使得训练完成的等变网络能够客服离散采样的限制，从而获得在连续变换群上的等变性，进而能够提高网络对于对应变换的解耦能力，减小潜在的学习空间，从而提升网络在多个方面的能力，包括更少的训练数据、更少的模型参数、更强泛化性、更好的性能等。

实施例二：

图2为本发明根据图1所示实施例示出的一种等变网络的构建流程示意图，图3为本发明根据图1所示实施例示出的一种等变网络的训练流程示意图，下面结合图2和图3所示，对等变网络的训练过程进行详细介绍：

首先，如图2所示，构建由等变卷积层组成的等变网络，并将等变卷积层替换为经过高斯调制的等变卷积层。

在本申请实施例中，通过对等变网络中的等变卷积层进行高斯调制，由于传统的卷积层是在离散空间中定义的，只有采样格点上有参数，而经过高斯调制后的等变卷积层在空间位置和角度上是可导的，可以优化位置和角度参数，因此可以在连续空间中定义参数，使得训练完成的等变网络能够客服离散采样的限制，从而获得在连续变换群上的等变性。

在具体实施时，通过利用高斯采样函数对等变卷积层中部署的卷积核进行调制，以使等变卷积层利用调制后的卷积核对输入特征进行等变卷积操作。

在一种可能的实现方式中，对卷积核的具体调制过程为，使用高斯采样函数与等变卷积层使用的卷积核进行等变卷积操作，以获得调制后的卷积核。

其中，调制公式如下：

在上述公式中，Ψ为调制后的卷积核，

为调制前的卷积核，ζ(x)为高斯采样函数，函数具体形式如下：

其中，σ为方差，T表示转置符号。

其次，如图3所示，构造等变网络的损失函数Loss，对原始图像f(x)进行目标群变换，并将原始图像f(x)和经过变换后的图像[L_rf](x)同时输入构建好的等变网络，并使用构造的损失函数对等变网络中参数进行优化，直至收敛。

针对使用损失函数对等变网络中参数进行优化的过程，获取等变网络对原始图像f(x)学习的第一特征图[Hf](x,θ)，对变换后的图像[L_rf](x)学习的第二特征图[H[L_rf]](x,θ)，根据第一特征图[Hf](x,θ)的预测结果获取输出损失CLS，对第一特征图[Hf](x,θ)进行目标群变换，得到变换后的第一特征图[L_r[Hf]](x,θ)，然后将获取的这些参数代入图3中给出的Loss损失函数计算得到总体损失Loss，并根据总体损失Loss对等变网络的参数进行优化。

其中，损失函数Loss＝CLS+λ*MSE([H[L_rf]](x,θ),[L_r[Hf]](x,θ))，λ为等变损失的权重，属于预先设置好的超参数。

由此可见，在不改变网络结构的基础上，通过在网络的损失函数中引入等变损失，并通过使用原始图像和经过目标群变换的图像输入网络，来引导网络自动学习目标变换群上的等变性，从而获得目标变换群的等变网络，避免了为特定的变换群人工设计对应的等变网络。并且通过使用不同的目标群进行变换可以获得任意变换群上的等变网络。

与前述等变网络训练方法的实施例相对应，本发明还提供了等变网络训练装置的实施例。

图4为本发明根据一示例性实施例示出的一种等变网络训练装置的结构示意图，该装置用于执行上述任一实施例提供的等变网络训练方法，如图4所示，该等变网络训练装置包括：

构建模块410，用于构建由等变卷积层组成的等变网络；

调制模块420，用于对所述等变网络中的等变卷积层进行高斯调制；

训练模块430，用于利用训练图像集中的图像对所述等变网络进行训练，直至所述等变网络收敛结束。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施方式还提供一种与前述实施方式所提供的等变网络训练方法对应的电子设备，以执行上述等变网络训练方法。

图5为本发明根据一示例性实施例示出的一种电子设备的硬件结构图，该电子设备包括：通信接口601、处理器602、存储器603和总线604；其中，通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与等变网络训练方法的控制逻辑对应的机器可执行指令，可执行上文描述的等变网络训练方法，该方法的具体内容参见上述实施例，此处不再累述。

本发明中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置，可以包含存储信息，如可执行指令、数据等等。具体地，存储器603可以是RAM(Random AccessMemory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线604可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器603用于存储程序，所述处理器602在接收到执行指令后，执行所述程序。

处理器602可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。

本申请实施例提供的电子设备与本申请实施例提供的等变网络训练方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的等变网络训练方法对应的计算机可读存储介质，请参考图6所示，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的等变网络训练方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的等变网络训练方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。