CN116071635A

CN116071635A - 基于结构性知识传播的图像识别方法与装置

Info

Publication number: CN116071635A
Application number: CN202310202530.3A
Authority: CN
Inventors: 唐乾坤; 徐晓刚; 张锦明; 何鹏飞; 曹卫强
Original assignee: Zhejiang Gongshang University; Zhejiang Lab
Current assignee: Zhejiang Gongshang University; Zhejiang Lab
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-05-05

Abstract

本发明公开了基于结构性知识传播的图像识别方法与装置，将标注的样本图片划分为训练集和测试集；选定第一神经网络模型，经训练集的训练，得到训练好的第一神经网络模型；选定第二神经网络模型，并从第一神经网络模型和第二神经网络模型中，选取中间层，作为进行知识传播的特征层；得到第二神经网络模型中中间层特征表达的结构性知识，与第一神经网络模型特征表达对应位置的结构性知识，构建中间层特征表达知识传播的损失函数，结合任务相关损失函数，使用训练集训练第二神经网络模型，得到训练好的第二神经网络模型；部署应用训练好的第二神经网络模型，对测试集的待识别图片进行图像识别。

Description

基于结构性知识传播的图像识别方法与装置

技术领域

本发明涉及计算机视觉领域，尤其是涉及基于结构性知识传播的图像识别方法与装置。

背景技术

知识蒸馏是在训练一个神经网络模型（第二神经网络模型）时，除了任务相关的损失外，还模仿另一个神经网络模型（第一神经网络模型）的预测输出。该方法能明显地改善第二神经网络模型的识别精度。然而，目前的知识蒸馏技术只关注于如何从第一神经网络模型中提取和蒸馏有效和判别性强的知识。在知识蒸馏的图像识别过程中，认为每个图像特征的位置是独立的，进而忽略了第一神经网络模型和第二神经网络模型的特征图中局部结构的一致性等。这就导致目前的知识蒸馏技术不能够使第二神经网络模型获得更好的图像识别精度。

发明内容

为解决现有技术的不足，避免知识蒸馏时每个特征位置单独提取知识与蒸馏的情形，实现提升第二神经网络模型图像识别精度的目的，本发明采用如下的技术方案：

一种基于结构性知识传播的图像识别方法，包括如下步骤：

步骤S1：收集样本图片并标注，将标注的样本图片划分为训练集和测试集；

具体地，对样本图片进行清洗，将样本图片中与任务无关的，和/或模糊的，和/或数据损坏等的图片删除，以免影响神经网络模型的训练及图像识别；对样本图片进行标注，根据任务需求，对图片或者图片中的像素通过人工进行类别识别，如图像分类任务中则是标出图片中主要的物体类别、目标检测任务中则是标出图片中物体所含的像素多少及类别等；所收集的图片包含但不限于人脸图片、自然场景图片等。

步骤S2：选定第一神经网络模型，经训练集的训练，得到训练好的第一神经网络模型，输入样本图片得到第一神经网络模型的类别预测向量；

步骤S3：选定第二神经网络模型，并从第一神经网络模型和第二神经网络模型中，选取中间层，作为进行知识传播的特征层，并输入样本图片分别得到中间层的样本特征表达；

步骤S4：得到第二神经网络模型中每个样本图片中间层样本特征表达的特征位置局部结构性知识，与第一神经网络模型中间特征层的样本特征表达对应位置局部结构性知识，构建中间特征层特征表达知识传播的损失函数，结合任务相关损失函数以及类别预测向量差异函数，通过训练集，一起训练第二神经网络模型，得到训练好的第二神经网络模型，并将训练后的第二神经网络模型的神经网络结构文件及参数值保存至数据存储设备中；

步骤S5：基于训练好的第二神经网络模型，部署至应用平台，对测试集的待识别图片进行图像识别。

进一步地，所述步骤S3中，选取第一神经网络模型和第二神经网络模型中，一个以上的卷积特征层，作为中间层，第一神经网络模型的中间特征层的样本特征表达表示为，第二神经网络模型的中间特征层的样本特征表达为；并使两个模型提取的中间特征层的样本特征表达的维度、和/或通道数、和/或空间维度保持一致。

进一步地，所述步骤S4包括如下步骤：

步骤S4.1：通过选取的中间特征层样本特征表达每个空间位置为中心，划分中间特征层样本特征表达的特征位置局部结构，将特征位置局部结构范围内的特征表达作为局部结构性知识；

步骤S4.2：将第一、第二神经网络模型的局部结构性知识的差异值，作为局部结构性知识一致度值，并将一致度值融合入第二神经网络模型的损失函数中，训练第二神经网络模型。

进一步地，所述步骤S4.1中，将样本特征表达的统计性信息作为结构性知识，公式如下：

其中，表示第二或第一神经网络模型选取的中间特征层样本特征表达局部结构的均值，表示归一化权重核，p表示中心位置，O表示中间层样本特征表达局部空间范围，o表示中间层样本特征表达局部空间范围内的每个位置索引，表示第二或第一神经网络模型选取的中间特征层样本特征表达，表示第二或第一神经网络模型选取的中间特征层样本特征表达局部结构的方差，表示第二或第一神经网络模型选取的中间特征层样本特征表达局部结构的协方差估计。

进一步地，所述步骤S4.2中，采用局部结构相似性索引SSIM度量第一/第二神经网络模型中间特征层样本特征表达的结构性知识一致性值S₁为：

其中，表示常数，S₁值越大表示第二神经网络模型和第一神经网络模型的中间特征层样本特征表达的局部结构越相似。

进一步地，所述步骤S4.2中，采用互信息度量第一/第二神经网络模型中间特征层样本特征表达的结构知识统计一致性值S₂为：

S₂=I()×I()

其中，I表示互信息，其表达式为：

其中，x,y分别表示I(;)中，分号前后的参数，互信息值越大表示第二神经网络模型和第一神经网络模型中间特征层样本特征表达的局部结构越相似。

进一步地，所述步骤S4.2中，将计算得到局部结构一致度值S₁和S₂，融合入第二神经网络模型的损失函数：

其中，表示第一与第二神经网络模型中间层样本特征表达的语义损失函数，表示第二或第一神经网络模型选取的中间特征层样本特征表达，dist表示提取的样本特征表达的距离函数，α表示样本特征表达空间差异权重值，β表示样本特征表达通道差异权重值，C表示样本特征表达的通道数量，H表示样本特征表达的高度值，W表示样本特征表达的宽度值，表示选取的样本特征表达局部结构一致度损失函数，表示用于训练第二神经网络模型的任务损失函数，如图像分类任务中，其为交叉熵损失；图像目标检测任务中，其为图像目标分类及位置回归损失。

一种基于结构性知识传播的图像识别装置，包括第一神经网络模型模块、第二神经网络模型模块、局部结构性知识传播模块和模型优化模块；

所述第一神经网络模型模块，选取中间层作为知识传播的特征层，并输入样本图片得到中间层样本特征表达及类别预测向量值；

所述第二神经网络模型模块，选取与第一神经网络模型模块对应的中间层作为知识传播的特征层，并输入样本图片得到中间特征层样本特征表达；

所述局部性知识传播模块，通过第二神经网络模型模块中每个样本图片中间层特征表达的特征位置局部结构性知识，与第一神经网络模型模块中间特征层样本特征表达对应位置局部结构性知识，构建中间层样本图片特征表达知识传播的损失函数；

所述模型优化模块，采用标注的训练集样本图片，训练第一神经网络模型模块和第二神经网络模型模块，通过中间层样本特征表达的知识传播损失函数，结合任务相关损失函数一起训练第二神经网络模型模块。

进一步地，所述装置还包括数据存储模块和部署运行模块；

所述数据存储模块，用于数据存储，包括样本图片数据、神经网络结构文件、模型参数数据；

所述部署运行模块，将训练好的第二神经网络模型模块的神经网络结构文件和模型参数数据，以及待识别图片导入运行设备平台，以使运行设备平台进行加载并编译为可执行指令运行，对待识别图片进行图像识别。

一种基于结构性知识传播的图像识别设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于结构性知识传播的图像识别方法。

本发明的优势和有益效果在于：

本发明简单直观、操作简单，不局限于特定的教师-学生模型组合，可以很轻易地部署到现有的神经网络模型中对图像进行识别，相比现有的知识蒸馏的图像识别技术，能够明显地改善第二神经网络模型的图像识别精度，以VGGNet13作为第一神经网络模型，以ShufflenetV2作为第二神经网络模型，在CIFAR100数据集上使用本发明，可以将第二神经网络模型的图像分类精度由71.82%提升至75.85%。

附图说明

图1是本发明实施例中基于结构性知识传播的图像识别方法的流程图。

图2是本发明实施例中基于结构性知识传播的图像识别装置的结构示意图。

图3是本发明实施例中基于结构性知识传播的图像识别设备的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，一种基于结构性知识传播的图像识别方法，具体包括：

本发明的实施例中，收集并清洗标注待处理图片，划分为训练集和测试集，保存至数据存储设备中；清洗是指将收集的待处理图片中与任务无关的或者模糊或者数据损坏等的图片删除，以免影响神经网络模型的训练及图像识别；标注是指根据任务需求对图片或者图片中的像素进行人工识别种类，如图像分类任务中则是标出图片中主要的物体类别、目标检测任务中则是标出图片中物体所含的像素多少及类别等。所收集的图片包含但不限于人脸图片、自然场景图片等。

本发明的实施例中，选定第一神经网络模型，并使用步骤S1中的训练集训练，训练后的神经网络模型结构文件及参数值保存至数据存储设备中；第一神经网络模型可以采用包括但不限于现有的任意神经网络模型，如ResNet、VGGnet等，或者重新设计新型的卷积神经网络模型。

步骤S3：选定第二神经网络模型，并从第一神经网络模型和第二神经网络模型中，选取需要进行知识传播的特征层，并输入样本图片分别得到中间层的样本特征表达；

本发明的实施例中，选定第二神经网络模型，同时从第一神经网络模型和第二神经网络模型中选择需要进行知识传播的特征层；第二神经网络模型可以采用包括但不限于现有的任意神经网络模型，如MobileNet、ShuffleNet等，或者重新设计新型的卷积神经网络模型。可以选择第一神经网络和第二神经网络模型中间的一个或多个卷积特征层均可作为需要传播的特征层，假设选定的第一神经网络模型特征层的样本特征表达表示为，第二神经网络模型特征层的样本特征表达表示为。

本发明的实施例中，如果第一神经网络模型特征层与第二神经网络模型特征层的特征表达维度不一致，则需要对第二神经网络模型或者第一神经网络模型特征层的特征表达进行转换，使两者维度保持一致；可选地，在一种优选实施方式中，如果第一神经网络模型特征层与第二神经网络模型特征层的特征表达通道数量不一致，则可以使用卷积层对第二神经网络模型特征层的特征表达进行变换，使两者特征通道数量一致；在一种优选的实施方式中，如果第一神经网络模型特征层与第二神经网络模型特征层的特征表达空间维度不一致，则可对维度较大的一方使用池化等方式变换成与另一方维度相等；或对维度较小的一方使用上采样等方式变换成与另一方维度相等。

本发明的实施例中，计算所选第二神经网络模型中选定特征层的样本特征表达每个特征位置结构性知识与第一神经网络模型选定特征层的样本特征表达对应位置结构性知识一致度值，作为中间层特征知识传播损失函数，结合任务相关损失函数，通过训练集，一起训练第二神经网络模型；训练后的第二神经网络模型神经网络结构文件及参数值保存至数据存储设备中；

其中，损失函数的构建，包括如下步骤：

本发明的实施例中，计算第二神经网络模型中选定特征层的样本特征表达每个空间位置为中心一定范围内特征的局部结构性信息，如均值、协方差、“光照”差异等，形式化为：

本发明的实施例中，计算第一神经网络模型得到的结构性知识信息与第二神经网络模型得到的结构性知识信息差异值，作为两者局部结构一致度值S；计算局部结构信息一致度的方法，包括但不限于互信息、局部结构相似性索引度量等；

采用局部结构相似性索引SSIM度量计算的一致度值S₁为：

采用互信息局部结构度量计算的一致性值S₂为：

S₂=I()×I()

其中，I表示互信息，其表达式为：

将计算得到局部结构一致度值S，融合入第二神经网络模型的损失函数：

其中，表示第一与第二神经网络模型中间层样本特征表达的语义损失函数，表示第二或第一神经网络模型选取的中间特征层样本特征表达，dist表示提取的样本特征表达的距离函数，α表示样本特征表达空间差异权重值，β表示样本特征表达通道差异权重值，C表示样本特征表达的通道数量，H表示样本特征表达的高度值，W表示样本特征表达的宽度值，表示选取的样本特征表达局部结构一致度损失函数，表示用于训练第二神经网络模型的任务损失函数。

步骤S5：基于训练好的第二神经网络模型，部署至应用平台，对测试集的待识别图片进行图像识别；

本发明的实施例中，从数据存储设备中读取第二神经网络模型神经网络结构文件及参数值、测试图片集，导入运行设备平台进行图像识别，如人脸识别、图片分类、目标检测等。

具体地，将数据存储设备中的第二神经网络模型神经网络结构文件及参数值、测试图片集导入运行设备平台的存储设备中，运行设备平台的处理器加载存储设备中的神经网络结构文件及参数值并编译为可执行指令运行，读取测试图片集进行人脸识别或者图片分类或者目标检测等。

一种基于结构性知识传播的图像识别装置，包括第一神经网络模型模块23、第二神经网络模型模块22、局部结构性知识传播模块24、模型优化模块25、数据存储模块21和部署运行模块26；

所述第一神经网络模型模块23，选取中间层作为知识传播的特征层，并输入样本图片得到中间层样本特征表达及类别预测向量值；

所述第二神经网络模型模块22，选取与第一神经网络模型模块（23）对应的中间层作为知识传播的特征层，并输入样本图片得到中间特征层样本特征表达；

所述局部结构性知识传播模块24，通过第二神经网络模型模块22中每个样本图片中间层特征表达的特征位置局部结构性知识，与第一神经网络模型模块23中间特征层样本特征表达对应位置局部结构性知识，构建中间层样本图片特征表达知识传播的损失函数；

所述模型优化模块25，采用标注的训练集样本图片，训练第一神经网络模型模块23和第二神经网络模型模块22，通过中间层样本特征表达的知识传播损失函数，结合任务相关损失函数一起训练第二神经网络模型模块22。

所述数据存储模块21，用于数据存储，包括样本图片数据、神经网络结构文件、模型参数数据；

所述部署运行模块26，将训练好的第二神经网络模型模块22的神经网络结构文件和模型参数数据，以及待识别图片导入运行设备平台，以使运行设备平台进行加载并编译为可执行指令运行，对待识别图片进行图像识别。

本发明实施例中，如图2所示，基于局部结构一致性的知识蒸馏的图像识别装置，具体包括：数据存储模块21、第二神经网络模型模块22、第一神经网络模型模块23、模型优化模块25和部署运行模块26，所述第二神经网络模型模块、第一神经网络模型模块，均通过局部结构一致性模块24，与模型优化模块连接，第二神经网络模型模块又与模型优化模块单独连接，数据存储模块为其他模块提供必需的数据。

所述数据存储模块21，用于保存待处理图片数据、第一神经网络模型神经网络结构文件、第二神经网络模型神经网络结构文件、训练前后第一神经网络模型的参数值、训练前后第二神经网络模型的参数值等。

所述第二神经网络模型模块22，用于加载所述数据存储模块中的图片数据及融合第一神经网络模型知识进行训练的神经网络模型，同时用于将训练后的模型部署到设备平台上进行图像识别等任务；

所述第一神经网络模型模块23，用于从中间特征层中提取及传输知识给第二神经网络模型的神经网络模型；

所述局部结构一致性模块24，用于计算第一神经网络模型和第二神经网络模型所选进行知识传播的特征层中样本特征表达每个位置结构性知识一致度及结构知识一致性损失函数；

所述模型优化模块25，用于使用所述数据存储模块中的图片训练集训练第一神经网络神经网络模型、用所述数据存储模块中的图片训练集及第一神经网络模型中间层传播的知识优化知识传播损失和第二神经网络模型的参数，训练后的第二神经网络模型神经网络结构文件及参数值保存至所述数据存储模块21。

所述部署运行模块26，用于将所述数据存储模块21中的第二神经网络模型神经网络结构文件及参数值、测试图片集导入运行设备平台的存储设备中，运行设备平台的处理器加载存储设备中的神经网络结构文件及参数值并编译为可执行指令运行，读取测试图片集进行人脸识别或者图片分类或者目标检测等。

与前述基于结构性知识传播的图像识别方法的实施例相对应，本发明还提供了基于结构性知识传播的图像识别设备的实施例。

参见图3，本发明实施例提供的基于结构性知识传播的图像识别设备，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于结构性知识传播的图像识别方法。

本发明基于结构性知识传播的图像识别设备的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明基于结构性知识传播的图像识别设备所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于结构性知识传播的图像识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于结构性知识传播的图像识别方法，其特征在于包括如下步骤：

步骤S4：得到第二神经网络模型中每个样本图片中间层样本特征表达的特征位置局部结构性知识，与第一神经网络模型中间特征层的样本特征表达对应位置局部结构性知识，构建中间特征层特征表达知识传播的损失函数，结合任务相关损失函数以及类别预测向量差异函数，通过训练集，一起训练第二神经网络模型，得到训练好的第二神经网络模型；

步骤S5：基于训练好的第二神经网络模型，部署至应用平台，对测试集中的待识别图片进行图像识别。

2.根据权利要求1所述的基于结构性知识传播的图像识别方法，其特征在于：所述步骤S3中，选取第一神经网络模型和第二神经网络模型中，一个以上的卷积特征层，作为中间层，并使两个模型提取特征层的样本特征表达维度、和/或通道数、和/或空间维度保持一致。

3.根据权利要求1所述的基于结构性知识传播的图像识别方法，其特征在于：所述步骤S4包括如下步骤：

4.根据权利要求3所述的基于结构性知识传播的图像识别方法，其特征在于：所述步骤S4.1中，将样本特征表达的统计性信息作为结构性知识，公式如下：

，

5.根据权利要求4所述的基于结构性知识传播的图像识别方法，其特征在于：所述步骤S4.2中，采用局部结构相似性索引SSIM度量第一/第二神经网络模型中间特征层样本特征表达的结构性知识一致性值S₁为：

，

6.根据权利要求4所述的基于结构性知识传播的图像识别方法，其特征在于：所述步骤S4.2中，采用互信息度量第一/第二神经网络模型中间特征层样本特征表达的结构知识统计一致性值S₂为：

S₂=I(μ_s; μ_t)×I(σ² _s; σ² _t)，

其中，I表示互信息，其表达式为：

，

7.根据权利要求3所述的基于结构性知识传播的图像识别方法，其特征在于：所述步骤S4.2中，将计算得到局部结构一致度值S₁和S₂，融合入第二神经网络模型的损失函数：

，

8.一种基于结构性知识传播的图像识别装置，包括第一神经网络模型模块（23）、第二神经网络模型模块（22）、局部结构性知识传播模块（24）和模型优化模块（25），其特征在于：

所述第一神经网络模型模块（23），选取中间层作为知识传播的特征层，并输入样本图片得到中间层样本特征表达及类别预测向量值；

所述第二神经网络模型模块（22），选取与第一神经网络模型模块（23）对应的中间层作为知识传播的特征层，并输入样本图片得到中间特征层样本特征表达；

所述局部结构性知识传播模块（24），通过第二神经网络模型模块（22）中每个样本图片中间层特征表达的特征位置局部结构性知识，与第一神经网络模型模块（23）中间特征层样本特征表达对应位置局部结构性知识，构建中间层样本图片特征表达知识传播的损失函数；

所述模型优化模块（25），采用标注的训练集样本图片，训练第一神经网络模型模块（23）和第二神经网络模型模块（22），通过中间层样本特征表达的知识传播损失函数，结合任务相关损失函数一起训练第二神经网络模型模块（22）。

9.根据权利要求8所述的一种基于结构性知识传播的图像识别装置，其特征在于：所述装置还包括数据存储模块（21）和部署运行模块（26）；

所述数据存储模块（21），用于数据存储，包括样本图片数据、神经网络结构文件、模型参数数据；

所述部署运行模块（26），将训练好的第二神经网络模型模块（22）的神经网络结构文件和模型参数数据，以及待识别图片导入运行设备平台，以使运行设备平台进行加载并编译为可执行指令运行，对待识别图片进行图像识别。

10.一种基于结构性知识传播的图像识别设备，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-7中任一项所述的基于结构性知识传播的图像识别方法。