CN116011515B

CN116011515B - 几何神经网络模型构建方法、装置、设备及存储介质

Info

Publication number: CN116011515B
Application number: CN202211671186.4A
Authority: CN
Inventors: 崔向阳; 闫洲; 杨松; 张铮
Original assignee: People Co Ltd
Current assignee: Konami Sports Club Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2024-01-26
Anticipated expiration: 2042-12-26
Also published as: CN116011515A

Abstract

本申请公开了一种几何神经网络模型构建方法、装置、设备及存储介质。其中，所述方法包括：根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，节点用于对数据进行特征处理；连边表征神经网络中的数据流；连边方向表征数据的传递方向；根据节点对数据的特征处理确定节点模型；其中，节点模型包含预设个卷积层；根据神经网络的连接关系与节点模型，构建几何神经网络模型；其中，几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。本方案将具有自然特征的预设模型与神经网络结合，形成具有自然网络特征的几何神经网络模型。

Description

几何神经网络模型构建方法、装置、设备及存储介质

技术领域

本申请涉及神经网络技术领域，具体涉及一种几何神经网络模型构建方法、装置、设备及存储介质。

背景技术

人工神经网络在图像识别、目标检测、计算机视觉、自然语言处理等应用中取得的巨大成功，使得深度学习成为当今最活跃的研究领域。神经网络结构作为神经网络的重要参数，是神经网络技术发展最重要的推动因素。然而神经网络研究在结构上的探索仍处于相对初级的阶段，大多数神经网络的设计基本遵循一种固定模式：神经网络是一定数量的神经元层的堆叠，逐层相连的链式模型是目前神经网络中普遍采用的网络结构。

在现有技术中，主要针对卷积核、网络深度、残差块等结构开展了深入的研究，对于神经网络的网络结构仍旧基于人工设计的规则网络结构。人工神经网络模拟的脑神经网络是一个多尺度且具备层级结构的复杂网络，规则的网络结构无法完全模拟其特性。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的几何神经网络模型构建方法、装置、设备及存储介质。

根据本申请的一个方面，提供了一种几何神经网络模型构建方法，包括：

根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，所述节点用于对数据进行特征处理；所述连边表征所述神经网络中的数据流；所述连边方向表征所述数据的传递方向；

根据所述节点对所述数据的特征处理确定节点模型；其中，所述节点模型包含预设个卷积层；

根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。

根据本申请的另一个方面，提供了一种几何神经网络模型构建装置，包括：

连接关系确定模块，用于根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，所述节点用于对数据进行特征处理；所述连边表征所述神经网络中的数据流；所述连边方向表征所述数据的传递方向；

节点模型确定模块，用于根据所述节点对所述数据的特征处理确定节点模型；其中，所述节点模型包含预设个卷积层；

几何神经网络模型构建模块，用于根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。

根据本申请的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请所述的几何神经网络模型构建方法对应的操作。

根据本申请的另一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行本申请所述的几何神经网络模型构建方法对应的操作。

根据本申请公开的几何神经网络模型构建方法、设备及存储介质，通过根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，所述节点用于对数据进行特征处理；所述连边表征所述神经网络中的数据流；所述连边方向表征所述数据的传递方向；根据所述节点对所述数据的特征处理确定节点模型；其中，所述节点模型包含预设个卷积层；根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。这样将具有自然特征的预设模型与神经网络结合，形成具有自然网络特征的几何神经网络模型。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请实施例一提供的一种几何神经网络模型构建方法的流程示意图；

图2示出了根据本申请实施例一提供的一种几何神经网络模型构建方法中节点模型的结构示意图；

图3示出了根据本申请实施一提供的一种几何神经网络模型构建方法中节点对数据的特征变换过程示意图；

图4示出了根据本申请实施二提供的一种几何神经网络模型构建方法中的深度可分离卷积过程示意图；

图5示出了根据本申请实施二提供的一种几何神经网络模型构建方法中反转残差结构示意图；

图6示出了根据本申请实施二提供的一种几何神经网络模型构建方法中传统残差结构示意图；

图7示出了根据本申请实施二提供的一种几何神经网络模型构建方法中CIFAR-10数据集对应的准确率变化曲线示意图；

图8示出了根据本申请实施二提供的一种几何神经网络模型构建方法中CIFAR-100数据集对应的准确率变化曲线示意图；

图9示出了根据本申请实施二提供的一种几何神经网络模型构建方法中最短路径长度与分类准确率的散点图；

图10示出了根据本申请实施二提供的一种几何神经网络模型构建方法中平均路径长度与分类准确率的散点图；

图11示出了根据本申请实施二提供的一种几何神经网络模型构建方法中分类准确率与最短路径长度、平均路径长度三者之间关系示意图；

图12示出了根据本申请实施二提供的一种几何神经网络模型构建方法中花朵数据集对应的节点空间位置与节点激活值关系示意图；

图13示出了根据本申请实施二提供的一种几何神经网络模型构建方法中人类数据集对应的节点空间位置与节点激活值关系示意图；

图14示出了根据本申请实施二提供的一种几何神经网络模型构建方法中昆虫数据集对应的节点空间位置与节点激活值关系示意图；

图15示出了根据本申请实施二提供的一种几何神经网络模型构建方法中花朵数据集对应的节点空间位置与互信息量关系示意图；

图16示出了根据本申请实施二提供的一种几何神经网络模型构建方法中人类数据集对应的节点空间位置与互信息量关系示意图；

图17示出了根据本申请实施二提供的一种几何神经网络模型构建方法中昆虫数据集对应的节点空间位置与互信息量关系示意图；

图18示出了根据本申请实施二提供的一种几何神经网络模型构建方法中在相同网络结构下干扰同一次训练的各节点时各节点间对神经网络判别功能影响的相关性的平均值与节点间距离的关系示意图；

图19示出了根据本申请实施二提供的一种几何神经网络模型构建方法中在相同网络结构下干扰不同初始化下的各节点时各节点间对神经网络判别功能影响的相关性的平均值与节点间距离的关系示意图；

图20示出了根据本申请实施二提供的一种几何神经网络模型构建方法中扰动节点对神经网络判别准确率的影响对应的散点图；

图21示出了根据本申请实施二提供的一种几何神经网络模型构建方法中不同稀疏性网络在不同数量节点失效情况下分类准确率箱体图；

图22示出了根据本申请实施二提供的一种几何神经网络模型构建方法中神经网络在dropnode p＝0下的信息空间分布图；

图23示出了根据本申请实施二提供的一种几何神经网络模型构建方法中神经网络在dropnode p＝0.05下的信息空间分布图；

图24示出了根据本申请实施二提供的一种几何神经网络模型构建方法中神经网络在dropnode p＝0.1下的信息空间分布图；

图25示出了根据本申请实施二提供的一种几何神经网络模型构建方法中节点功能相关性-距离曲线示意图；

图26示出了根据本申请实施例三提供的一种几何神经网络模型构建装置的结构示意图；

图27示出了根据本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

实施例一

图1示出了根据本申请实施例一提供的一种几何神经网络模型构建方法的流程示意图。如图1所示，该方法包括：

步骤S11，根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，节点用于对数据进行特征处理；连边表征神经网络中的数据流；连边方向表征数据的传递方向。

其中，预设模型可以为S¹模型，基于S¹模型生成的几何神经网络具有无标度、高聚集与小世界特征，其节点具有空间分布的特点，其模型特点与脑神经网络结构特征具有较高的一致性，因此可以采用S¹模型模拟真实网络结构，进而确定神经网络的连接关系、节点、连边和连边方向。

其中，节点实现对数据的特征处理功能，连边描述网络中的数据流，连边将节点的输出特征传递给与其相邻的邻居节点，连边方向体现了数据传递的方向性。

步骤S12，根据节点对数据的特征处理确定节点模型；其中，节点模型包含预设个卷积层。

其中，卷积层的个数根据对数据的特征处理进行设定。例如，对于节点的特征变换处理可以包含三个卷积层，其中，第一个卷积层对节点的聚合特征进行处理，第二个卷积层用于提取图像的空间特征，第三个卷积层，用于恢复原始特征的通道维度。

步骤S13，根据神经网络的连接关系与节点模型，构建几何神经网络模型；其中，几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。

其中，提取图像的低层次特征可以由两个卷积层组成。神经网络中的特征重用可以由两个随机几何网络组成，具体采用2个32节点的随机几何网络堆叠代替单个64个节点的随机几何网络。对于两个随机几何网络的输入节点，其深度卷积的stride可以设置为2，以减小特征的尺寸。特征通道线性组合可以使用n维的卷积层实现，图像的全局特征可以采用全局池化形成，全局特征经过全连接层输出判别类别的logit向量。为了降低过拟合的风险，全连接层后还可以采用预设概率的dropout层对网络进行正则化。

由此可见，本实施例通过根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，所述节点用于对数据进行特征处理；所述连边表征所述神经网络中的数据流；所述连边方向表征所述数据的传递方向；根据所述节点对所述数据的特征处理确定节点模型；其中，所述节点模型包含预设个卷积层；根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。这样将具有自然特征的预设模型与神经网络结合，形成具有自然网络特征的几何神经网络模型。。

在一个可选实施例中，步骤S11包括：

步骤S111，将神经网络的节点分布在圆环上，且每个节点具有节点参数，节点参数服从幂律分布。

具体的，可以将神经网络的n个节点均匀分布于半径为R＝n/2π的圆环，网络中每个节点具有κ参数，节点的κ参数服从幂律分布κ～cκ^-γ。

步骤S112，根据两节点在圆环上的距离及节点参数确定两节点间的连接概率。

具体的，圆环上相距为d且分别具有κ、κ^′参数的两节点间的连接概率为：

其中，μ为常数/>其中I＝∫p(x)dx，β为控制网络聚集系数的参数，且β>1。

在一个可选实施例中，上述节点对数据的特征处理包括特征聚合、特征变换和特征分发中的至少一个处理过程；

其中，特征聚合用于融合输入节点的多个数据，对输入节点的特征进行加法运算实现多组输入数据的融合；为了使用加法运算实现节点输入数据的融合，节点的输入输出具有相同的维度。

其中，特征变换用于对融合后的数据进行特征提取；如图2所示，该节点的特征变换功能可以由一个具有特定参数的多层神经网络实现。

其中，特征分发用于将节点处理后的特征信息沿连边传递给后继节点。

在一个可选实施例中，步骤S11具体包括：确定连边方向为从具有较小节点参数值的节点指向具有较大节点参数值的节点，并将神经网络中入度为零的节点作为输入节点，将出度为零的节点作为输出节点，以形成一个具有输入输出的有向神经网络结构。

例如，如果采用S¹模型模拟真实网络结构，可以确定神经网络的连边方向为从具有较小节点参数κ值的节点指向具有较大κ值的节点。由于S¹模型的生成网络具有树状层次结构，因此特征从网络树状层次结构的叶节点向根节点汇集。

在一个可选实施例中，节点模型包含三个卷积层，其中，第一个卷积层用于对节点的聚合特征进行处理，并提升特征的通道数量；第二个卷积层为深度卷积，用于提取图像的空间特征，同时减小模型的参数数量；第三个卷积层用于恢复原始特征的通道维度。

如图3所示，以如下节点的特征变换为例，节点的特征变换包含三个卷积层，其中，第一个卷积层对节点的聚合特征进行处理，并采用1×1卷积提升特征的通道数量；第二个卷积层为3×3深度卷积，用于提取图像的空间特征，同时减小模型的参数数量；第三个卷积层使用1×1卷积恢复原始特征的通道维度。

在一个可选实施例中，在第一个卷积层后，采用轻量级的通道注意力机制对不同通道进行重要性加权；

在第一个卷积层和第二个卷积层采用批量归一化与非线性激活；

在第三个卷积层不采用激活函数。

具体的，在第一个卷积层后，使用轻量级的通道注意力机制对不同通道进行重要性加权可以提升网络性能。以图3为例，第一个1×1卷积层和深度卷积采用批量归一化与非线性激活，可以提升网络的训练速度与特征变换的非线性性，最后的1×1卷积层不采用激活函数，可以实现特征通道间的线性加权。

在一个可选实施例中，上述方法还包括如下模型训练过程：

基于预设训练数据集采用交叉熵损失函数及小批量随机梯度下降方法对几何神经网络模型进行训练；并在训练过程中采用半周期余弦衰减的调整策略与线性热身策略逐步调整训练过程中的学习率。

其中，预设训练数据集可以采用公开的CIFAR-10与CIFAR-100数据集，CIFAR-10与CIFAR-100数据集由于其丰富的类别与适当的图像尺寸，比较适合用于复杂连接结构下的模型验证。

具体的，在训练过程中，初始学习率根据批量大小可以设置为其中B为批量大小，实验中可以设置为64，基础学习率η_base＝0.1，动量参数设置为0.9。训练过程中采用半周期余弦衰减的调整策略与线性热身策略逐步调整训练过程中的学习率。对于线性热身策略，学习率在前5个epoch从0线性调整至初始学习率。

另外，还可以采用标签平滑、正则化和数据增强技术避免网络的过拟合问题。其中标签平滑参数α可以设置为0.1。网络中权重参数的训练使用权重衰减的正则化方法，其权重衰减参数设置为5e^-5。利用白化、随机平移(平移距离小于等于4个像素)和水平随机翻转等数据增强技术处理训练图像，并作为神经网络的输入。

实施例二

本申请实施例二提供的一种几何神经网络模型构建方法以示例化的形式对本发明的技术方案进行详细说明。具体包括：

第一部分，几何神经网络模型的构建：(1)确定神经网络的连接关系、节点、连边和连边方向；(2)确定节点模型；(3)构建几何神经网络模型。

对于(1)确定神经网络的连接关系、节点、连边和连边方向具体实现如下：

确定神经网络的连接关系：S¹模型的生成网络具有无标度、高聚集与小世界特征，网络节点具有空间分布的特点。其模型特点与脑神经网络结构特征具有较高的一致性，本实施例采用S¹模型模拟真实网络结构，神经网络的连接关系根据以下模型生成。神经网络的n个节点均匀分布于半径为R＝n/2π的圆环，网络中每个节点具有κ参数，节点的κ参数服从幂律分布κ～cκ^-γ。圆环上相距为d且分别具有κ、κ^′参数的两节点间的连接概率为：

其中，μ为常数其中I＝∫p(x)dx，β>1为控制网络聚集系数的参数。

确定节点、连边：S¹模型描述了神经网络的连接关系，连边描述神经网络中的数据流，连边将节点的输出特征传递给与其相邻的邻居节点，连边方向体现了数据传递的方向性；节点实现对数据的特征处理功能，具体包括特征聚合、特征变换和特征分发三个阶段。

其中，特征聚合用于融合输入节点的多个数据，对输入节点的特征进行加法运算实现多组输入数据的融合。为了使用加法运算实现节点输入数据的融合，节点的输入输出具有相同的维度。特征变换对融合后数据进行特征提取，节点的特征变换功能由一个具有特定参数的多层神经网络实现。最后，特征分发阶段将节点处理后的特征信息沿连边传递给后继节点。

确定连边方向：定义连边方向为从具有较小节点参数κ值的节点指向具有较大κ值的节点。由于S¹模型的生成网络具有树状层次结构，因此特征从网络树状层次结构的叶节点向根节点汇集。设定神经网络中入度为零的节点作为神经网络的输入节点，出度为零的节点为神经网络的输出节点，从而形成一个具有输入输出的有向神经网络结构模型。

对于(2)确定节点模型具体实现如下：节点的特征变换包含三个卷积层，其中，第一个卷积层对节点的聚合特征进行处理，并采用1×1卷积提升特征的通道数量；第二个卷积层为3×3深度卷积，用于提取图像的空间特征，同时减小模型的参数数量；第三个卷积层使用1×1卷积恢复原始特征的通道维度。在第一个卷积层后，还可以使用轻量级的通道注意力机制对不同通道进行重要性加权以提升网络性能。第一个1×1卷积层和深度卷积采用批量归一化与非线性激活，提升网络的训练速度与特征变换的非线性性；节点模型中，最后的1×1卷积层不采用激活函数，以实现特征通道间的线性加权。

其中，节点模型可采用如图4所示的深度可分离卷积实现特征变换。其中，深度可分离卷积将卷积过程拆分为3×3深度卷积和1×1逐点卷积。3×3深度卷积在输入特征的每个通道上独立地执行卷积操作，每个通道有且仅有一个3×3卷积核对该通道的特征图进行卷积，3×3深度卷积用于提取输入的空间特征。在不经过激活的情况下，再进行1×1逐点卷积，将3×3深度卷积的输出映射到一个新的通道空间，完成通道特征的提取。

在卷积核尺寸为k×k，且输出通道数为n₂的情况下，深度可分离卷积的计算量与参数数量均为传统卷积的在相同的计算量与参数数量下，深度可分离卷积技术通过增加特征通道数量的方式提升了神经网络的性能。

其中，节点模型在特征变换时可采用如图5所示的反转残差结构。其中，反转残差结构的主要功能是通过ReLU激活函数非线性变换提升特征的表达能力。在如图6所示的传统残差网络结构中采用先降维再升维的变换模式，即首先降低特征的通道数量，随后对通道数量进行扩张。在ReLU激活函数的作用下，特征中的负值被压缩为零，带来该通道信息的损失。然而当通道数量较多时，某一通道的损失信息可通过其他通道得到保留，因此残差模块应在激活前实现特征通道数量的扩张。遵循这一原则，反转残差结构实现特征先升维再降维的变换模式。

图5中反转残差结构的输入通道数为c_in，输出通道数c_out与输入通道数c_in相等；常数c为大于1的实数。在传统的残差结构中，实现降维—升维的变换模式，而在反转残差结构中，特征首先实现升维，随后降至输入的特征维度。反转残差结构使用深度卷积代替传统卷积，最后一层的1×1卷积后不使用激活函数。

其中，批量归一化通过小批量样本的平均值和方差来执行标准化。对于输入的小批量样本X＝{x₁,…,_k}，记样本均值样本方差批量样本可标准化为：

随后对标准化特征进行缩放和平移：

其中，γ为常数，经批量归一化后，样本的分布均值不再受到前一层输出特征均值的影响，激活输入值落入激活函数梯度较大的区间，加快了神经网络训练的收敛速度。

其中，通道注意力机制的实现主要包含挤压、激发与加权三个步骤。挤压步骤通过对原有特征进行全局平均池化以提取特征的通道统计信息，获得特征的通道描述。激发步骤是利用通道描述获取通道间的依赖性，并学习通道间的非线性作用。激发步骤通常使用瓶颈结构以减少参数数量和降低计算复杂度。其中，中间层使用ReLU进行激活，输出采用sigmoid函数激活。最后，对原有特征实施通道重要性加权得到模块的最终输出。

对于(3)构建几何神经网络模型的具体实现如下：根据神经网络的连接结构与节点模型，可以构建具有如表一所示网络结构的图像分类几何神经网络(Geometric NeuralNetwork，GeoNet)模型。主要分为三个部分，第一部分由两个3×3的卷积层conv1与conv2组成，用于提取图像的低层次特征。第二部分由随机几何网络conv3与conv4组成；为了实现神经网络中的特征重用，采用2个32节点的随机几何网络堆叠代替单个64个节点的随机几何网络。对于conv3与conv4的输入节点，其深度卷积的stride设置为2，以减小特征的尺寸。最后，GeoNet使用1280维的1×1卷积层conv5实现特征通道线性组合，并采用全局池化形成图像的全局特征，全局特征经过全连接层输出判别类别的logit向量。为了降低过拟合的风险，全连接层后采用概率为0.5的dropout层对网络进行正则化。

表一

本方案利用S^1几何网络模型模拟真实网络结构，并据此构建了具有自然网络特征的GeoNet模型。GeoNet模型将网络的结构特征通过少量模型参数进行描述，网络模型的每个参数分别控制网络结构的某类特征。通过模型参数对网络结构控制，可以较为独立地考虑某一网络特征对神经网络性能的影响。在模型参数的刻画下，网络结构特征与神经网络性能的关联可以得到研究。具体参见第三部分至第五部分的相关描述。

第二部分，几何神经网络模型的训练策略，具体方法包括：1)实验数据集说明；2)模型训练方法；3)图像分类性能展示。

1)实验数据集说明：本发明实验采用公开的CIFAR-10与CIFAR-100数据集，CIFAR-10与CIFAR-100数据集由于其丰富的类别与适当的图像尺寸，因此适合用于复杂连接结构下的模型验证。CIFAR-10共包含60000张分辨率为32×32的3通道彩色图像，其中包含飞机、汽车、房屋、小鸟、狗等10个类别图像，各6000张。数据集划分为训练集与测试集，其中训练集包含50000张图片，测试集包含10000张图片。CIFAR-100共包含60000张分辨率为32×32的3通道彩色图像，其中包含20个大类，每个大类包含5个小类，每小类具有600张图片，训练集包含50000张图片，测试集包含10000张图片。

2)模型训练方法：使用交叉熵损失函数，并采用小批量随机梯度下降方法进行训练。初始学习率根据批量大小设置为其中B为批量大小，实验中设置为64，基础学习率η_base＝0.1，动量参数设置为0.9。训练过程中采用半周期余弦衰减的调整策略与线性热身策略逐步调整训练过程中的学习率。对于线性热身策略，学习率在前5个epoch从0线性调整至初始学习率。

另外，采用标签平滑、正则化和数据增强技术避免网络的过拟合问题。其中标签平滑参数α设置为0.1。网络中权重参数的训练使用权重衰减的正则化方法，其权重衰减参数设置为为5e^-5。利用白化、随机平移(平移距离小于等于4个像素)和水平随机翻转等数据增强技术处理训练图像，并作为神经网络的输入。

3)图像分类性能：基于上述的训练策略，在CIFAR-10和CIFAR-100数据集测试GeoNet的分类性能，并采用Resnet、Resnet v2、densenet、Mobilenet和Mobilenet v2作为基准模型与本文模型进行对比。其中Resnet为残差网络Resnet v2是残差网络的改进版本。densenet模型采用密集的连接模式和通道拼接，代替esnet通道相加，减少通道数和模型的参数数量。Mobilenet和Mobilenet v2为轻量级神经网络模型。

调整基准模型的卷积步长以适应CIFAR-10与CIFAR-100数据集的图片输入尺寸，同时网络的连接方式保持不变。为了实现网络结构的对比，本发明构建Resnetlike-GeoNet网络，该网络采用了本文提出的节点模型，但使用残差网络的连接方式，以对比自然网络结构与残差网络结构的性能。其中，表二给出了本文模型与基准模型的分类性能。其中，GeoNet模型网络结构参数γ＝0.9，β＝5.5，<κ>＝3。

表二

由表二可知，GeoNet模型在CIFAR-10与CIFAR-100数据集实现了良好分类准确率，准确率达到95.59％与79.73％，较其他模型，实现了最佳的分类性能；GeoNet模型与其它模型结果相比，其准确率均具有较大提升。结果显示，基于几何网络模型生成的网络结构，其在分类性能上优于目前具有残差结构的经典模型。

训练过程中不同模型的准确率变化曲线如图7和图8所示。相比于其它模型，GeoNet网络具有较快的收敛速度。

第三部分，网络的结构特征与性能的分析包括四个方面：1)网络同质性与性能；2)平均度与性能；3)聚集系数与性能；4)路径长度与性能。

1)网络同质性与性能：GeoNet模型中节点的κ参数正比于节点度的期望，可以通过调整κ分布的幂指数γ达到控制网络异质性的目的。在给定其它模型参数的情况下，GeoNet的分类性能与幂指数的关系如表三所示，为GeoNet在不同网络度幂指数γ下的分类准确率(CIFAR-100)，网络结构参数β＝1.5，<κ>＝9。

表三

可见，GeoNet分类准确率随着幂指数γ的增加而逐渐上升，显示出度分布幂指数较高的网络具有更高的准确率，即度分布均匀的同质性神经网络常具有较高的网络性能，相反，异质性网络不利于神经网络性能的提升。

2)平均度与性能：在同质网络结构下，改变度分布的期望<κ>可以实现对网络平均度的调节。选取γ＝0.9，在不同ρ(κ)分布均值下的性能如表四所示。其中，GeoNet在不同网络平均度下的分类性能(CIFAR-100)，网络结构参数β＝1.5，<κ>＝9。

表四

/>

可见，网络的平均度对神经网络分类准确率影响较大，具有较小平均度的网络具有更高的分类性能，显示网络的稀疏性有利于神经网络分类准确率的提高。

3)聚集系数与性能：GeoNet模型中，网络的聚集系数受到β参数值的影响，β越大，节点越倾向于与局部空间中的节点相连，此时网络具有更高的聚集系数。GeoNet在不同β值下的分类性能如表五所示。其中，表1.5GeoNet在不同值β下的分类性能(CIFAR-100)，网络结构参数采用分类性能最优的γ与<κ>值，即<κ>＝3，γ＝9。

表五

可见，GeoNet的分类准确率呈现出先降后升的变化趋势，并在β值的两个端点取得较好的分类效果。由于网络的聚集系数与网络中的其他特征存在耦合，β参数除具有调节网络聚集系数的功能外，还对网络的路径长度、网络的平均度等网络其它特征存在影响；一方面，当β参数值较小，网络具有较小的路径长度，促进了不同区域间节点的信息融合；另一方面，β参数值较大时，网络具有较大的聚集系数，此时，增大了节点间捷径连接的数量，从而有利于权重梯度的反向传播。因此上述分类准确率随β非单调变化的原因可能由多个因素的综合影响而造成，网络的高聚集性仍是提升神经网络性能的重要因素。

4)路径长度与性能：S¹模型中的网络路径长度与多个因素有关，因此路径长度是众多模型参数共同作用的结果。由于网络深度不再受到单一模型参数的主要控制，基于不同的模型参数进行大量分类，从中获得网络路径长度与分类准确率的数据，据此得出网络路径长度对分类性能的影响。

图9、10、11给出了最短路径长度、平均路径长度与神经网络分类准确率的散点图。结果显示，最短路径长度与分类准确率呈现负相关，如图9所示，而平均路径长度与分类准确率呈现正相关，如图10所示。图11进一步显示了网络分类准确率与最短路径长度、平均路径长度三者之间关系。散点图左上方的网络具有较高的分类准确率，因此当神经网络同时具有较短最短路径长度与较长平均路径长度时，神经网络实现了最优的分类性能。

可见，较短的最短路径长度保证了训练过程中的梯度可以经过较短路径反向传播，使得靠近输入节点的权重能够有效更新；与此同时，神经网络中存在较多的长路径，使得网络能够在低层特征的基础上逐步抽象形成高层特征，增强神经网络的非线性性。

第四部分，神经网络功能与几何空间的关联包含两个方面：1)图像类别与几何区域的关联；2)节点功能与几何区域的关联。

1)图像类别与几何区域的关联：利用GeoNet模型，将[节点空间位置，节点激活值]、[节点空间位置，由节点输出与类别标签构成的互信息量]两组数据分别进行可视化。如图12、13、14、15、16、17显示在CIFAR-100数据集下不同类别的激活值与信息量随空间角度的分布。

图12、13、14显示，对于同一类别的图像，处在不同区域的网络节点，其输出激活值不同，网络神经元在不同的空间区域分别得到了激活或抑制。对于不同类别的样本，得到激活或抑制的区域存在差异，激活和抑制区域展现出不同的空间分布模式。具有相同大类标签的类别激活区域的空间分布相似性较高，其子类的激活区域具有较高的一致性，而在不同大类标签类别间，激活区域空间分布存在较大差异。其大类内部类别的平均相关性为0.363，大类间类别的平均相关性为-0.023，大类内部平均相关性显著大于大类间的平均相关性。

附图15、16、17显示，不同几何空间位置的节点与类别标签互信息量，对于同一类别的图像，处在不同几何区域的节点均提供样本的判别信息，然而互信息空间分布并不均匀，且不同类别间节点提供信息的分布存在少量差异。

可见，图像类别与几何空间存在关联，其表现为在不同类别样本的作用下，神经网络激活和抑制区域呈现特定的空间模式。此外，虽然不同空间区域的节点对图像标签的判别提供的信息量存在差异，网络中不同空间区域的节点均参与了所有图像类别的判别。

2)节点功能与几何区域的关联：该部分采用对节点输出置零的方式进行扰动，依次扰动网络中的每个节点，附图18、19、20显示了网络中任意两个节点功能的相关系数与节点间空间距离(角度差)的关系。在不同初始化条件下，使用相同网络结构进行了3次重复实验。

a)在相同网络结构下干扰同一次训练的各网络节点，图18中曲线表示各节点间对神经网络判别功能影响的相关性的平均值与节点间距离的关系，阴影范围标明了相关性的标准差；b)相同网络结构下干扰不同初始化下的各网络节点，图19中曲线表示各节点间对神经网络判别功能影响的相关性与节点间距离的关系，节点分别取自不同的初始化网络，图19中的三条曲线分别对应于3种不同初始化的网络的两两组合；c)扰动节点对神经网络判别准确率的影响，图20中每个散点表示对同一节点扰动后的网络1与网络2的准确率，与图19的实验类似，网络1与网络2的选取具有3种不同的组合，按照图例顺序不同组合下节点对准确率影响的相关性分别为0.9219、0.9358、0.7954。

可见，节点间的功能相似性与其距离存在关联，具体地，若两节点相距较近，节点功能的相似性较强，随着节点间距离的增加，节点功能的相似性逐渐减弱，当节点角度差大于0.7时，节点间功能的相关性均值几乎为零。因此对于具有几何结构的神经网络而言，空间距离相近的节点其功能也具有较高相似性。

第五部分，网络稀疏性与抗攻击能力的关联具体说明如下：

通过设置具有不同均值的κ分布，得到具有不同稀疏程度的神经网络，采用标准策略进行训练。在评估阶段，通过节点输出随机置零的方式模拟网络中节点随机失效。附图21显示了不同稀疏性网络在不同数量节点失效情况下分类准确率箱体图。

实验选取的网络模型参数为γ＝9，β＝5.5。κ的平均值分别取3、6、9以获得不同稀疏程度的网络。图21中相似颜色的箱体表示网络具有相同的网络结构，其中颜色的深浅表示采取dropnode的概率，颜色越浅的网络具有更高dropnode的概率。

可见，dropnode策略提高了几何神经网络抵抗节点失效的能力，网络可以同时实现较高的分类性能与较强的抗毁性能。随着dropnode概率p的增加，网络抵抗节点失效的能力得到增强。然而过大的概率p会造成分类性能略微下降，对于较小的概率p，网络的分类准确率则略微提升。dropout的类似策略可以适用于更大尺度的网络结构对网络进行正则化，神经网络也表现为复杂网络中的自相似性，在不同的尺度下，网络展现出共同的基本性质。

附图22、23、24绘制了神经网络在不同dropnode概率p下的信息空间分布、以及图25绘制了节点功能相关性-距离曲线，以阐明dropnode策略对神经网络的作用结果。dropnode策略改变了神经网络对特定类别判别信息的空间分布，使得在dropnode概率增大时，各类别的判别信息分布更加趋同，因此网络不会因为失去某些节点而丧失特定类别的判别能力。从节点功能相关性-距离曲线可以看出，在dropnode概率为0、0.05、0.1的三种情况下，均显示出节点间功能的相关性随距离的衰减趋势，但即使在dropnode概率p很小时，如p＝0.01，神经网络中相距较远的节点间，其功能仍保持较高的相关性。这表明，dropnode策略改变了信息在神经网络的分布，并使得相同的信息尽可能地分布于网络的各个部分，当网络的某些节点受到攻击后，网络的剩余结构仍然含有受损节点包含的信息。由此可见，本实施例利用几何网络S¹模型模拟真实网络结构，将无标度、高聚集与小世界特征网络作为神经网络连接关系的刻画，并提出几何神经网络模型GeoNet，描述神经网络的节点间连接关系和节点的功能实现。

并为了实现具有自然结构特征的神经网络与现有神经网络模型的对比，基于一种训练策略对几何神经网络模型的图像分类性能进行评估。

并且，基于GeoNet模型对网络结构的异质性、平均度、聚集系数以及网络路径长度对神经网络性能的影响进行了分析说明。

并且，通过几何网络模型生成人工神经网络结构，考虑到功能与空间的关联。基于提出的GeoNet模型，说明了图像类别、节点功能与几何区域的关联。

并且，考虑到稀疏网络中节点间存在较少的通路，节点失效将更大程度减少剩余路径数量，对网络稀疏性与神经网络的抗攻击能力的关联进行了说明。

综上所述，本方案利用S¹几何网络模型模拟真实网络结构，并据此构建了具有自然网络特征的GeoNet神经网络模型。首先，利用该方法研究网络异质性、网络平均节点度、聚集系数以及网络路径长度对神经网络性能的影响，得出结论：高性能神经网络通常具有同质性、稀疏性、高聚集性等特征，其输入输出具有较短的最短路径长度与较长的平均路径长度。其次，利用该方法设计的模型对神经网络的节点功能与几何空间的关联展开研究，得出结论：在不同类别图像的作用下，神经网络激活和抑制区域呈现特定的空间模式，且空间中相近的节点，其节点功能具有较高相似性。最后，利用该模型探研究神经网络的稀疏性与网络抵抗攻击能力间的联系，得出结论：节点失效对稀疏网络具有更小影响。

实施例三

图26示出了根据本申请实施五提供的一种几何神经网络模型构建装置的结构示意图。如图26所示，该装置包括：连接关系确定模块21、节点模型确定模块22和几何神经网络模型构建模块23；其中，

连接关系确定模块21用于根据预设模型确定神经网络的连接关系、节点、连边和连边方向；其中，所述节点用于对数据进行特征处理；所述连边表征所述神经网络中的数据流；所述连边方向表征所述数据的传递方向；

节点模型确定模块22用于根据所述节点对所述数据的特征处理确定节点模型；其中，所述节点模型包含预设个卷积层；

几何神经网络模型构建模块23用于根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现。

进一步的，所述连接关系确定模块21具体用于：将所述神经网络的节点分布在圆环上，且每个节点具有节点参数，所述节点参数服从幂律分布；根据两节点在圆环上的距离及节点参数确定所述两节点间的连接概率。

进一步的，所述特征处理包括特征聚合、特征变换和特征分发中的至少一个处理过程；

其中，所述特征聚合用于融合输入节点的多个数据，对输入节点的特征进行加法运算实现多组输入数据的融合；

其中，所述特征变换用于对融合后的数据进行特征提取；

其中，所述特征分发用于将所述节点处理后的特征信息沿连边传递给后继节点。

进一步的，所述连接关系确定模块21具体用于：确定所述连边方向为从具有较小节点参数值的节点指向具有较大节点参数值的节点，并将所述神经网络中入度为零的节点作为输入节点，将出度为零的节点作为输出节点，以形成一个具有输入输出的有向神经网络结构。

进一步的，所述节点模型包含三个卷积层，其中，第一个卷积层用于对节点的聚合特征进行处理，并提升特征的通道数量；第二个卷积层为深度卷积，用于提取图像的空间特征，同时减小模型的参数数量；第三个卷积层用于恢复原始特征的通道维度。

进一步的，在所述第一个卷积层后，采用轻量级的通道注意力机制对不同通道进行重要性加权；

在第三个卷积层不采用激活函数。

进一步的，所述装置还包括：模型训练模型24；其中，

所述模型训练模型24具体用于：基于预设训练数据集采用交叉熵损失函数及小批量随机梯度下降方法对所述几何神经网络模型进行训练；并在训练过程中采用半周期余弦衰减的调整策略与线性热身策略逐步调整训练过程中的学习率。

本实施例所述的几何神经网络模型构建装置用于执行上述实施例一至实施例二所述的几何神经网络模型构建方法，其工作原理与技术效果类似，这里不再赘述。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的几何神经网络模型构建方法。

实施例五

图27示出了根据本申请实施例五提供的一种电子设备的结构示意图。本申请具体实施例并不对电子设备的具体实现做限定。

如图27所示，该电子设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。处理器302，用于执行程序310，具体可以执行上述方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行上述任意方法实施例中的几何神经网络模型构建方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种基于几何神经网络模型的图像分类方法，其特征在于，包括：

根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现；

基于预设训练数据集采用交叉熵损失函数及小批量随机梯度下降方法对所述几何神经网络模型进行训练；并在训练过程中采用半周期余弦衰减的调整策略与线性热身策略逐步调整训练过程中的学习率；

采用训练后的几何神经网络模型进行图像分类。

2.根据权利要求1所述的基于几何神经网络模型的图像分类方法，其特征在于，所述根据预设模型确定神经网络的连接关系，包括：

将所述神经网络的节点分布在圆环上，且每个节点具有节点参数，所述节点参数服从幂律分布；

根据两节点在圆环上的距离及节点参数确定所述两节点间的连接概率。

3.根据权利要求1所述的基于几何神经网络模型的图像分类方法，其特征在于，所述特征处理包括特征聚合、特征变换和特征分发中的至少一个处理过程；

其中，所述特征变换用于对融合后的数据进行特征提取；

4.根据权利要求1所述的基于几何神经网络模型的图像分类方法，其特征在于，所述根据预设模型确定神经网络的连边方向，包括：

确定所述连边方向为从具有较小节点参数值的节点指向具有较大节点参数值的节点，并将所述神经网络中入度为零的节点作为输入节点，将出度为零的节点作为输出节点，以形成一个具有输入输出的有向神经网络结构。

5.根据权利要求1所述的基于几何神经网络模型的图像分类方法，其特征在于，所述节点模型包含三个卷积层，其中，第一个卷积层用于对节点的聚合特征进行处理，并提升特征的通道数量；第二个卷积层为深度卷积，用于提取图像的空间特征，同时减小模型的参数数量；第三个卷积层用于恢复原始特征的通道维度。

6.根据权利要求5所述的基于几何神经网络模型的图像分类方法，其特征在于，在所述第一个卷积层后，采用轻量级的通道注意力机制对不同通道进行重要性加权；

在第三个卷积层不采用激活函数。

7.一种基于几何神经网络模型的图像分类装置，其特征在于，包括：

几何神经网络模型构建模块，用于根据所述神经网络的连接关系与所述节点模型，构建几何神经网络模型；其中，所述几何神经网络模型包括提取图像的低层次特征、神经网络中的特征重用、特征通道线性组合、构建图像的全局特征、网络正则化中的至少一部分功能实现；

模型训练模型，用于基于预设训练数据集采用交叉熵损失函数及小批量随机梯度下降方法对所述几何神经网络模型进行训练；并在训练过程中采用半周期余弦衰减的调整策略与线性热身策略逐步调整训练过程中的学习率；

图像分类模块，用于采用训练后的几何神经网络模型进行图像分类。

8.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的基于几何神经网络模型的图像分类方法对应的操作。

9.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的基于几何神经网络模型的图像分类方法对应的操作。