CN116977834A

CN116977834A - 一种开放条件下分布内外图像识别方法

Info

Publication number: CN116977834A
Application number: CN202311083233.8A
Authority: CN
Inventors: 周轶凡; 尚鹏辉; 刘珂; 潘志国; 程小宝; 陈治国
Original assignee: Hangzhou Zhiyuan Research Institute Co ltd
Current assignee: Hangzhou Zhiyuan Research Institute Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-10-31

Abstract

本发明涉及一种开放条件下分布内外图像识别方法，包括图像数据采集，构建训练数据集，并进行原始图像预处理；神经网络特征提取；计算交叉熵损失；模型更新；模型特征提取；置信度判断；计算能量得分、相似度得分和异常分数；根据异常分数进行异常类型判断；输出识别结果。本发明的有益效果是：本发明在神经网络训练阶段，在保证分布内图像分类精度的前提下，通过添加线性层来降低特征维度，保存训练集的特征向量用于分布外异常检测。当识别新输入的图像时，利用训练完成的神经网络模型进行推理得到输入图像的特征向量，计算本发明设计的分布外得分函数，从而判断是否为分布外异常类型。

Description

一种开放条件下分布内外图像识别方法

技术领域

本发明涉及图像识别技术领域，更确切地说，它涉及一种开放条件下分布内外图像识别方法。

背景技术

随着计算机视觉的快速发展，图像识别的应用场景增多、需求变广，封闭条件下在有限数据集上训练模型进行图像识别不满足实际应用需求。在开放条件下，模型训练数据集有限，在图像识别任务中可能会遇到未见过的类型，将其识别为数据库中的类型，可能对系统造成潜在威胁。通常将数据库中存储的图像种类称为分布内类型，将实际任务中出现的异常图像种类称为分布外类型。开放条件下的分布内外图像识别要求对分布内图像类型进行准确分类，同时要识别出分布外异常图像。此任务涉及多种领域，如自动驾驶中识别异常道路状况、工业图像识别中检测故障器件、视频监控中异常行为检测等。

现有的分布内图像识别技术已经比较成熟，采用神经网络进行分类有较高的分类精度。而分布外异常识别研究相对落后，主流方法包括：ODIN、马氏距离方法、最大置信度方法、能量函数方法等。然而，如ODIN和马氏距离方法这类需要新的神经网络重新训练，会产生额外的设备开销和时间损耗，或者对分布内分类网络有较大改动，影响分布内分类精度。而简单的分布外检测器，如最大置信度、能量函数等方法，仅仅利用神经网络得到的置信度或逻辑向量进行判断，会因模型对异常类型产生高置信度而对系统产生威胁。

发明内容

本发明的目的是针对现有技术的不足，提出了一种开放条件下分布内外图像识别方法。

第一方面，提供了一种开放条件下分布内外图像识别方法，包括：

S1、进行神经网络训练；

S1包括：

S101、图像数据采集，构建训练数据集，并进行原始图像预处理；

S102、神经网络特征提取；

S103、计算交叉熵损失；

S104、模型更新；

S2、图像类型推理；

S2包括：

S201、模型特征提取；

S202、置信度判断；

S203、计算能量得分、相似度得分和异常分数；

S204、根据异常分数进行异常类型判断；

S205、输出识别结果。

作为优选，S102中，采用Convnet-Tiny神经网络框架作为基础的特征提取器，并将神经网络得到的高维特征进行降维。

作为优选，S103中，交叉熵损失的计算公式为：

其中，N为图像训练集数量，C为类别数量，y_ic是样本x_i的标签编码y_i＝{y_i1,y_i2,...,y_iC}，当属于第c类时，y_ic为1否则为0，p_ic是样本x_i属于类别c的概率。

作为优选，S104中，前向传播完成后，采用梯度下降的方式对模型反向传播，更新模型的网络参数。经过多轮次的模型参数更新，训练完成后，将模型的参数权重进行保存，并将分布内数据集训练过程中得到的特征进行保存，用来识别新输入的图像。

作为优选，S201中，特征提取表示为：

z_new＝Z(x_new)

l_new＝L₁(z_new)

g_new＝L₂(relu(l_new))

f_new＝L₃(g_new)

p_new＝softmax(f_new)

其中，x_new为新输入的图像，z_new为神经网络编码器Z输出的高维特征向量，l_new为第一层线性层L1输出，g_new为第二层线性层L2输出，f_new是分类线性层L3的逻辑向量，p_new＝{p_new1,p_new2,...,p_newC}为SoftMax激活函数输出的置信度向量。

作为优选，S202中，根据最大置信度进行初步判断，当最大置信度小于阈值τ时，即识别为异常类型图像，将该输入图像x_new标记为“Unknown”；当置信度高于阈值τ时，即p_m≥τ时，由于模型会对未知图像产生高置信度，计算得分函数来判断。

作为优选，S203包括：

S2031、计算能量得分，根据逻辑向量计算能量得分函数：

S2032、计算相似度得分，根据神经网络得到不同维度的特征向量z,l,g，与训练集的特征向量进行余弦相似度计算，并根据得到的相似度进行加强求和；

score_sim＝λ₁sim_max(z_test,{z_m})+λ₂sim_max(l_test,{l_m})+λ₃sim_max(g_test,{g_m})

其中，score_sim是相似度得分函数，是输入图像x_new经过神经网络得到z_new,l_new,g_new与分布内数据集余弦相似度最大值的加权和，λ₁,λ₂,λ₃为权重；

S2033、计算异常分数，表示为：

score＝μ₁score_energy+μ₂score_sim

其中，μ₁，μ₂为得分权重。

作为优选，S204中，当设置阈值为ρ，score<ρ时，说明输入图像与训练集分布内图像分布差异较大，新输入的图像为未知类型；当score≥ρ时，说明新输入的图像是数据库中已有类型，根据最大置信度说明新输入的图像属于第m种类型。

第二方面，提供了一种开放条件下分布内外图像识别系统，用于执行第一方面任一所述的开放条件下分布内外图像识别方法，包括：

训练模块，用于进行神经网络训练；

训练模块包括：

采集单元，用于图像数据采集，构建训练数据集，并进行原始图像预处理；

提取单元，用于神经网络特征提取；

第一计算单元，用于计算交叉熵损失；

更新单元，用于模型更新；

推理模块，用于图像类型推理；

推理模块包括：

提取单元，用于模型特征提取；

判断单元，用于置信度判断；

第二计算单元，用于计算能量得分、相似度得分和异常分数；

判断单元，用于根据异常分数进行异常类型判断；

输出单元，用于输出识别结果。

第三方面，提供了一种计算机存储介质，所述计算机存储介质内存储有计算机程序；所述计算机程序在计算机上运行时，使得计算机执行权利要求1至8任一所述的开放条件下分布内外图像识别方法。

本发明的有益效果是：本发明在神经网络训练阶段，在保证分布内图像分类精度的前提下，通过添加线性层来降低特征维度，保存训练集的特征向量用于分布外异常检测。当识别新输入的图像时，利用训练完成的神经网络模型进行推理得到输入图像的特征向量，计算本发明设计的分布外得分函数，从而判断是否为分布外异常类型。本发明设计的分布外异常检测器通过得分函数进行判断，不需要额外的神经网络，因此更加方便且可移植性更强。此外，分布外得分函数综合考虑了分布内分类模型输出的逻辑向量的分布特点和与分布内数据集的相似度差异，提高了对分布外异常类型的识别精度。

附图说明

图1为本发明分布内外图像识别神经网络模型整体框架；

图2为本发明分布内外图像识别神经网络模型训练流程图；

图3为本发明根据训练完成的模型识别新输入图像的推理流程图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

实施例1：

本申请实施例1提供了一种开放条件下分布内外图像识别方法，在模型训练阶段对神经网络高维特征输出进行降维，在不影响分类精度的前提下提高模型的泛化性。在图像推理识别阶段，设计分布外异常图像检测器，直接利用模型提取的特征向量识别分布外异常图像，避免因对分布外异常类型高置信度而导致误判，提高图像识别精度。

具体的，如图2和图3所示，本发明提供的方法包括：

S1、进行神经网络训练；

S1包括：

S101、图像数据采集，构建训练数据集，并进行原始图像预处理。

具体的，采集视频图像采集平台获得的图像数据，经过人为标注类别后作为训练数据集：

X＝{x₁,x₂,x₃,...,x_N},Y＝{y₁,y₂,y₃,...,y_N}

其中，X为图像训练数据集，N为数据集图像数量，y_i是图像x_i的标签，且训练集X中共有C种类型。

此外，对获得的原始数据集进行图像预处理，包括图像尺寸变换和图像随机裁剪。通过图像尺寸变换，原始数据集中不同尺寸大小的图像变为长宽分别为固定值D＝224维，便于后续模型训练。通过图像随机裁剪，将训练图像部分随机擦除，从而在训练过程中提高模型精度与稳定性。

S102、神经网络特征提取。

具体的，将预处理后的图像数据输入到神经网络模型中进行训练。本发明采用Convnet-Tiny神经网络框架作为基础的特征提取器，为了在分布内图像分类任务中添加分布外异常检测任务，需要将神经网络得到的高维特征进行降维，以便异常图像检测中的相似度对比。

如图1所示为整体网络结构图。在模型后端添加两层感知机网络，第一层线性层L1将Convnet-Tiny神经网络输出z_i由768维降至512维，得到输出l_i：

z_i＝Z(x_i)

l_i＝L₁(z_i)

其中，z_i为Convnet-Tiny神经网络编码器Z的输出，l_i是线性层L1的输出。经过ReLu激活函数后，第二层线性层L2将特征由512维降至256维，得到输出g_i：

g_i＝L₂(relu(l_i))

其中，relu为激活函数，g_i是线性层L2的输出。然后，再经过一层线性层L3降到类别维度C维，得到逻辑向量f_i：

f_i＝L₃(g_i)

最后，通过SoftMax激活函数得到图像样本的置信度向量p_i：

p_i＝softmax(f_i)

其中，softmax为激活函数，p_i＝{p_i1,p_i2,...,p_iC}是逻辑向量f_i经过激活函数计算得到的置信度，p_ic是样本x_i属于类别c的概率。

S103、计算交叉熵损失。

根据得到每个图像样本的置信度，结合相应的图像标签计算交叉熵损失：

其中，N为图像训练集数量，C为类别数量，y_ic是样本x_i的标签编码y_i＝{y_i1,y_i2,...,y_iC}，当属于第c类时，y_ic为1否则为0。

S104、模型更新。

S104中，前向传播完成后，采用梯度下降的方式对模型反向传播，更新模型的网络参数。经过多轮次的模型参数更新，训练完成后，将模型的参数权重进行保存，并将分布内数据集训练过程中得到的特征进行保存，用来识别新输入的图像。

S2、图像类型推理。

图3是本发明根据训练完成的模型识别新输入图像的推理流程图，如图3所示，本发明在模型训练完成后进行图像识别推理过程包含以下步骤：

S201、模型特征提取。

S202、置信度判断。

S203、计算能量得分、相似度得分和异常分数。

S204、根据异常分数进行异常类型判断。

S205、输出识别结果。

实施例2：

在实施例1的基础上，本申请实施例2提供了一种更具体的开放条件下分布内外图像识别方法，包括：

S1、进行神经网络训练；

S1包括：

S102、神经网络特征提取；

S103、计算交叉熵损失；

S104、模型更新。

S2、图像类型推理；

S2包括：

S201、模型特征提取。

训练完成后，对新输入的图像进行识别，经过图像尺寸变换后，输入到训练好的神经网络中，得到输入图像的特征向量和置信度。

z_new＝Z(x_new)

l_new＝L₁(z_new)

g_new＝L₂(relu(l_new))

f_new＝L₃(g_new)

p_new＝softmax(f_new)

S202、置信度判断。

S202中，根据最大置信度进行初步判断，当最大置信度小于阈值τ时，即识别为异常类型图像，将该输入图像x_new标记为“Unknown”；当置信度高于阈值τ时，即p_m≥τ时，由于模型会对未知图像产生高置信度，计算得分函数来判断。

S203、计算能量得分、相似度得分和异常分数。

S203包括：

S2031、计算能量得分，根据逻辑向量计算能量得分函数：

其中，T为温度系数，需要人为调节。

其中，sim(x₁,x₂)为余弦相似度函数，计算两个特征向量(a₁,a₂)之间的余弦相似度。sim_max(z_new,{z_m})是计算特征向量z_new和分布内训练集所有特征向量{z_m,m＝1,2,...,N}余弦相似度的最大值。score_sim是相似度得分函数，是输入图像x_new经过神经网络得到z_new,l_new,g_new与分布内数据集余弦相似度最大值的加权和，λ₁,λ₂,λ₃为权重，需要人为设置。

S2033、计算异常分数，表示为：

score＝μ₁score_energy+μ₂score_sim

其中，μ₁，μ₂为得分权重，需要人为调节。

S204、根据异常分数进行异常类型判断。

S204中，根据最终得到的异常分数score进行异常类型判断，当设置阈值为ρ，score<ρ时，说明输入图像与训练集分布内图像分布差异较大，新输入的图像为未知类型；当score≥ρ时，说明新输入的图像是数据库中已有类型，根据最大置信度说明新输入的图像属于第m种类型。

S205、输出识别结果。

需要说明的，本实施例中与实施例1相同或相似的部分可相互参考，在本申请中不再赘述。

实施例3：

在实施例1、2的基础上，本申请实施例3提供了另一种开放条件下分布内外图像识别方法，包括：

将互联网上收集的无人机图像作为图像识别数据集，其中包括分布内训练样本5种无人机共50张图片，测试集分布内无人机图像5类20张，分布外异常无人机图像2类10张，则N＝50，C＝5。

将Convnext-Tiny神经网络后端添加两层线性层、一层分类线性层和一层激活函数层，再把经过图像预处理后的训练集无人机图像输入到神经网络中进行训练，经过前向传播和反向传播来更新模型权重。本实例中训练轮次设置为50次。

模型训练完成后，保存分布内无人机图像的特征向量和模型权重，然后进行识别推理任务。初步最大置信度判断的阈值设置为0.9，即τ＝0.9，最大置信度小于0.9的图像直接判别为分布外异常无人机图像。当最大置信度大于0.9时，进行后续的得分函数计算。

本实例中能量函数的参数设置为0.5，则能量函数为：

相似度得分函数的参数设置为，μ₁＝0.2，μ₂＝0.5，μ₃＝0.3，则相似度得分函数为：

score_sim＝0.2sim_max(z_test,{z_m})+0.5sim_max(l_test,{l_m})+0.3sim_max(g_test,{g_m})

异常得分函数的参数设置为μ₁＝0.2，μ₂＝0.9，则异常得分函数为：

score＝0.2score_energy+0.9score_sim

最终分布外异常得分函数的阈值设置为1.7，即σ＝1.7。当一张无人机图像经过计算后得到的异常得分大于1.7则判定为分布内无人机类型，进一步根据最大置信度判断分布内无人机类别。当异常得分小于1.7，则判定为分布外异常无人机类型，其类型判定为“Unknown”。最终分布内无人机类型识别的准确率为0.97，分布外异常类型实验结果如表1所示。表1是不同的分布外异常无人机类型检测方法识别输入是否是异常类型的准确率。

表1

分布外异常检测方法	准确率
		最大置信度函数	0.76
能量函数	0.80
		相似度函数	0.83
异常得分函数	0.87

如表1所示，本发明针对开放条件下的图像识别任务，基于分布内分类神经网络提取的特征，设计分布外异常图像检测器。相比于其他分布外异常检测方法，本发明的方法最大程度上保证了分布内图像分类任务的准确率，并且在分布外异常类型检测中优于其他方法。

需要说明的，本实施例中与实施例1、2相同或相似的部分可相互参考，在本申请中不再赘述。

实施例4：

在实施例1的基础上，本申请实施例提供了一种开放条件下分布内外图像识别系统，包括：

训练模块，用于进行神经网络训练；

训练模块包括：

提取单元，用于神经网络特征提取；

第一计算单元，用于计算交叉熵损失；

更新单元，用于模型更新；

推理模块，用于图像类型推理；

推理模块包括：

提取单元，用于模型特征提取；

判断单元，用于置信度判断；

判断单元，用于根据异常分数进行异常类型判断；

输出单元，用于输出识别结果。

具体的，本实施例所提供的系统为实施例1提供的方法对应的系统，因此，在本实施例中与实施例1相同或相似的部分，可相互参考，在本申请中不再赘述。

Claims

1.一种开放条件下分布内外图像识别方法，其特征在于，包括：

S1、进行神经网络训练；

S1包括：

S102、神经网络特征提取；

S103、计算交叉熵损失；

S104、模型更新；

S2、图像类型推理；

S2包括：

S201、模型特征提取；

S202、置信度判断；

S203、计算能量得分、相似度得分和异常分数；

S204、根据异常分数进行异常类型判断；

S205、输出识别结果。

2.根据权利要求1所述的开放条件下分布内外图像识别方法，其特征在于，S102中，采用Convnet-Tiny神经网络框架作为基础的特征提取器，并将神经网络得到的高维特征进行降维。

3.根据权利要求2所述的开放条件下分布内外图像识别方法，其特征在于，S103中，交叉熵损失的计算公式为：

4.根据权利要求3所述的开放条件下分布内外图像识别方法，其特征在于，S104中，前向传播完成后，采用梯度下降的方式对模型反向传播，更新模型的网络参数。经过多轮次的模型参数更新，训练完成后，将模型的参数权重进行保存，并将分布内数据集训练过程中得到的特征进行保存，用来识别新输入的图像。

5.根据权利要求4所述的开放条件下分布内外图像识别方法，其特征在于，S201中，特征提取表示为：

z_new＝Z(x_new)

l_new＝L₁(z_new)

g_new＝L₂(relu(l_new))

f_new＝L₃(g_new)

p_new＝softmax(f_new)

6.根据权利要求5所述的开放条件下分布内外图像识别方法，其特征在于，S202中，根据最大置信度进行初步判断，当最大置信度小于阈值τ时，即识别为异常类型图像，将该输入图像x_new标记为“Unknown”；当置信度高于阈值τ时，即p_m≥τ时，由于模型会对未知图像产生高置信度，计算得分函数来判断。

7.根据权利要求6所述的开放条件下分布内外图像识别方法，其特征在于，S203包括：

S2031、计算能量得分，根据逻辑向量计算能量得分函数：

S2033、计算异常分数，表示为：

score＝μ₁score_energy+μ₂score_sim

其中，μ₁，μ₂为得分权重。

8.根据权利要求7所述的开放条件下分布内外图像识别方法，其特征在于，S204中，当设置阈值为ρ，score<ρ时，说明输入图像与训练集分布内图像分布差异较大，新输入的图像为未知类型；当score≥ρ时，说明新输入的图像是数据库中已有类型，根据最大置信度说明新输入的图像属于第m种类型。

9.一种开放条件下分布内外图像识别系统，其特征在于，用于执行权利要求1至8任一所述的开放条件下分布内外图像识别方法，包括：

训练模块，用于进行神经网络训练；

训练模块包括：

提取单元，用于神经网络特征提取；

第一计算单元，用于计算交叉熵损失；

更新单元，用于模型更新；

推理模块，用于图像类型推理；

推理模块包括：

提取单元，用于模型特征提取；

判断单元，用于置信度判断；

判断单元，用于根据异常分数进行异常类型判断；

输出单元，用于输出识别结果。

10.一种计算机存储介质，其特征在于，所述计算机存储介质内存储有计算机程序；所述计算机程序在计算机上运行时，使得计算机执行权利要求1至8任一所述的开放条件下分布内外图像识别方法。