CN114022713A - 模型训练方法、系统、设备及介质 - Google Patents

模型训练方法、系统、设备及介质 Download PDF

Info

Publication number
CN114022713A
CN114022713A CN202111328644.XA CN202111328644A CN114022713A CN 114022713 A CN114022713 A CN 114022713A CN 202111328644 A CN202111328644 A CN 202111328644A CN 114022713 A CN114022713 A CN 114022713A
Authority
CN
China
Prior art keywords
network
uncertainty
features
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111328644.XA
Other languages
English (en)
Inventor
胡源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Unisinsight Technology Co Ltd
Original Assignee
Chongqing Unisinsight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Unisinsight Technology Co Ltd filed Critical Chongqing Unisinsight Technology Co Ltd
Priority to CN202111328644.XA priority Critical patent/CN114022713A/zh
Publication of CN114022713A publication Critical patent/CN114022713A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出的一种模型训练方法、系统、设备及介质,该方法通过获取待识别图像,并进行特征提取和降维,得到降维特征,将降维特征分别输入两个预设分类及不确定性判别网络,得到两个预测概率向量,并确定基于不确定性的交叉熵损失函数,通过待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,通过将不确定性判断思想加入分类神经网络,从而提高了网络的学习能力,增强网络的分类精度,使得训练得到的目标模型对于不确定性图像的识别准确性大大提升。

Description

模型训练方法、系统、设备及介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种模型训练方法、系统、设备及介质。
背景技术
近年来,电动摩托车和自行车的安全规范出行越来越受到重视,相关部门要求电动车出行必须佩戴安全帽。然而在日常交通行驶中,有部分人安全意识薄弱,不配戴头盔出行,极可能酿成悲剧,需要耗费大量人力去纠正这种违规行为。
随着科技的发展,人工智能技术已在智能交通领域得到了有效的推广。深度学习已经在图像分类、图象检测等领域取得了显著的成果。目前虽然能够通过卷积神经网络完成安全帽的佩戴识别,它们在利用已有的数据集学习训练深度模型的时候,不能拥有变通性的决策能力。
由于大部分图像处于高维度,且图像是非刚体,存在很多变化。由于光照、图像采集角度、距离等均会给同一物体的图像造成影响,故图像存在不确定性,这会降低机器识别过程中的准确率,导致模型的鲁棒性差,如当场景模糊且安全帽颜色与背景相似时,就容易出现识别错误,识别准确性差。现有的相关识别模型的训练往往着眼于确定性目标的训练,识别模型对于不确定性图像的识别准确性差。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种模型训练方法、系统、设备及介质,以解决上述技术问题。
本发明提供的一种模型训练方法,包括:
获取待识别图像,并进行特征提取和特征降维,得到若干个降维特征;
预先设置预设分类及不确定性判别网络,所述预设分类及不确定性判别网络包括第一网络和第二网络,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理,分别获取各自的预测概率向量,所述预测概率向量根据预测类别概率值生成;
根据第一网络和第二网络的预测概率向量确定基于不确定性的交叉熵损失函数;
通过所述待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,所述基础模型包括线性分类层,所述线性分类层根据各所述预设分类及不确定性判别网络的权重矩阵确定。
可选的,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理包括以下至少之一:
从所述降维特征中选取多个第一特征,并输入至第一网络进行不确定性判别处理,从所述降维特征中选取多个第二特征,并输入至第二网络进行不确定性判别处理,至少一个所述第一特征与第二特征不同;
所述第一网络从所述降维特征中选取多个第一特征进行不确定性判别处理,所述第二网络从所述降维特征中选取多个第二特征进行不确定性判别处理,至少一个所述第一特征与第二特征不同;
从所述降维特征中选取多个第一特征,并输入至第一网络进行不确定性判别处理,从所述降维特征中选取多个第二特征,并输入至第二网络进行不确定性判别处理,各所述第一特征与第二特征相同;
所述第一网络从所述降维特征中选取多个第一特征进行不确定性判别处理,所述第二网络从所述降维特征中选取多个第二特征进行不确定性判别处理,各所述第一特征与第二特征相同。
可选的,所述基础模型的构建方式包括:
获取各所述预设分类及不确定性判别网络的权重矩阵;
根据各所述权重矩阵确定目标矩阵,并生成线性分类层;
根据所述线性分类层、预设特征提取网络和预设特征降维网络生成所述基础模型。
可选的,通过所述待识别图像和基于不确定性的交叉熵损失函数训练基础模型包括:
获取所述待识别图像的真实类别,并基于所述基础模型对所述待识别图像进行类别预测,得到预测类别;
根据所述基于不确定性的交叉熵损失函数对所述预测类别和真实类别进行收敛,得到所述目标模型。
可选的,所述基于不确定性的交叉熵损失函数包括:
Figure BDA0003347872500000021
其中,Lce为基于不确定性的交叉熵损失函数,y为待识别图像所属类别的标签,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。
可选的,所述方法还包括根据第一网络和第二网络的预测概率向量确定不确定性度,所述不确定性度的确定方式包括:
Figure BDA0003347872500000031
其中,A为不确定性度,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。
可选的,所述待识别图像为目标人员头部图像,所述预测类别包括佩戴安全帽或未佩戴安全帽。
可选的,所述方法还包括:
获取目标图像,所述目标图像包括待识别人员的头部图像;
将所述目标图像输入所述目标模型,得到识别结果,所述识别结果包括佩戴安全帽或未佩戴安全帽。
本发明还提供了一种模型训练系统,包括:
图像获取模块,用于获取待识别图像,并进行特征提取和特征降维,得到若干个降维特征;
向量获取模块,用于预先设置预设分类及不确定性判别网络,所述预设分类及不确定性判别网络包括第一网络和第二网络,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理,分别获取各自的预测概率向量,所述预测概率向量根据预测类别概率值生成;
确定模块,用于根据第一网络和第二网络的预测概率向量确定基于不确定性的交叉熵损失函数;
训练模块,用于通过所述待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,所述基础模型包括线性分类层,所述线性分类层根据各所述预设分类及不确定性判别网络的权重矩阵确定。
本发明还提供了一种电子设备,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如上述中任一项实施例所述的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,
所述计算机程序用于使所述计算机执行如上述任一项实施例所述的方法。
本发明的有益效果:本发明提出的一种模型训练方法、系统、设备及介质,该方法通过获取待识别图像,并进行特征提取和降维,得到降维特征,将降维特征分别输入到第一网络和第二网络,得到两个预测概率向量,并确定基于不确定性的交叉熵损失函数,通过待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,通过将不确定性判断思想加入分类神经网络,从而提高了网络的学习能力,增强网络的分类精度,使得训练得到的目标模型对于不确定性图像的识别准确性大大提升。
附图说明
图1是本发明实施例一中提供的模型训练方法的一种流程示意图;
图2是本发明实施例一中提供的模型训练方法的一种具体的流程示意图;
图3是本发明实施例一中提供的模型训练方法所适用的一种网络流程示意图;
图4是本发明实施例二提供的模型训练系统的一种结构示意图;
图5是本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
实施例一
如图1所示,本实施例提供了一种模型训练方法,该方法包括:
步骤S101:获取待识别图像,并进行特征提取和特征降维,得到若干个降维特征。
其中,待识别图像可以包括一张或多张图像,待识别图像的分类为第一类别或第二类别。换句话说,目标模型就于待识别图像的识别结果仅包括两种可能。
对待识别图像进行特征提取和特征降维的方式可以采用本领域技术人员所知晓的方式实现。
待识别图像预先标注有真实类别。
在一个实施例中,待识别图像为目标人员头部图像,预测类别为佩戴安全帽或未佩戴安全帽。
在一个实施例中,待识别图像可以为其他图像,该图像的类别可能为两种或多种。
在一个实施例中,对待识别图像进行特征提取可以通过基础模型的预设特征提取网络实现,该预设特征提取网络可以是VGG16,ResNet-18等本领域技术人员所知晓的网路。
在一个实施例中,对预设特征提取网络所提取的特征进行特征降维可以通过基础模型的预设特征降维网络实现,该预设特征降维网络包括一层或多层卷积层后接一个池化层和一个BN层构成,卷积层仅改变特征的维度,不改变特征的长和宽,池化层将特征的长和宽变为m*m大小,BN(Batch Normalization,批量归一化)层对特征进行BatchNormalization处理,使网络更容易优化收敛。其中,池化层可以是全局平均池化层,m的取值可以为1等数值。
步骤S102:预先设置预设分类及不确定性判别网络,预设分类及不确定性判别网络包括第一网络和第二网络,将降维特征分别输入至第一网络和第二网络进行不确定性判别处理,分别获取各自的预测概率向量。
其中,预测概率向量跟据第一网络或第二网络所输出的预测类别概率值生成。本领域技术人员可以基于该预测类别概率值确定预测类别。预测概率向量可以根据预设分类及不确定性判别网络所输出的各种预测类型所对应的概率值生成。
预设分类及不确定性判别网络可以为本领域技术人员所知晓的网络,两个预设分类及不确定性判别网络可以为相同的网络。
预设分类及不确定性判断网络由两个并行的分类模块构成,每个分类模块包含一个dropout层,和一个线性分类层。两个分类模块主要用于基于不确定性思想分类的实现。
在一个实施例中,将降维特征分别输入至第一网络和第二网络进行不确定性判别处理包括以下至少之一:
从降维特征中选取多个第一特征,并输入至第一网络进行不确定性判别处理,从降维特征中选取多个第二特征,并输入至第二网络进行不确定性判别处理,至少一个第一特征与第二特征不同;
第一网络从降维特征中选取多个第一特征进行不确定性判别处理,第二网络从降维特征中选取多个第二特征进行不确定性判别处理,至少一个第一特征与第二特征不同;
从降维特征中选取多个第一特征,并输入至第一网络进行不确定性判别处理,从降维特征中选取多个第二特征,并输入至第二网络进行不确定性判别处理,各第一特征与第二特征相同;
第一网络从降维特征中选取多个第一特征进行不确定性判别处理,第二网络从降维特征中选取多个第二特征进行不确定性判别处理,各第一特征与第二特征相同。
在一种常见的情况下,第一网络和第二网络可以获取到相同的两个降维特征集合,在从降维特征集合中选取一部分降维特征进行不确定性判别处理,这样可以使得输入到各预设分类及不确定性判别网络的线性分类层的降维特征并不完全相同,故将各降维特征分别输入个预设分类及不确定性判别网络可以认为是对同一样本的两次不同判断,得到不必然相同的输出结果。
当然,也存在较小的概率下,第一网络和第二网络可以获取到相同的两个降维特征集合,在从降维特征集合中选取相同的多个降维特征进行不确定性判别处理,输入到各预设分类及不确定性判别网络的线性分类层的降维特征也完全相同,故将各降维特征分别输入个预设分类及不确定性判别网络可以认为是对同一样本的两次不同判断,得到可能相同或的输出结果。
可选的,输入至第一网络和第二网络的降维特征可以是相同的,也可以是不同的。
第一网络输出的预测概率向量与第二网络输出的预测概率向量可能是相同的,也可能是不同的。由于dropout层的存在,输入到两个预设分类及不确定性判别网络的线性分类层的降维特征并不完全相同,故将各降维特征分别输入两个预设分类及不确定性判别网络可以认为是对同一样本的两次不同判断。根据待识别图像的图像类别标签可以得到各预设分类及不确定性判别网络输出的待识别图像在不同类别下的预测类别概率值,进而生成预测概率向量。
步骤S103:根据第一网络和第二网络的预测概率向量确定基于不确定性的交叉熵损失函数。
在一个实施例中,该方法还包括根据第一网络和第二网络的预测概率向量确定不确定性度,不确定性度A的确定方式包括:
Figure BDA0003347872500000061
其中,A为不确定性度,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。
在一个实施例中,待识别图像包括由多张图片,通过将不确定性度与基于不确定性的交叉熵损失函数结合,使得不确定性度较高的图片具有更大的损失值,这样在后续使用该图片进行模型训练时,将会有更大的训练力度,相应的,不确定度较低的图片,所对应的损失值相对前者较小,在后续使用该图片进行模型训练时,将会有相对前者更小的训练力度,通过这样自适应的训练方式,可以有效的提升模型训练的效果。
当两个预设分类及不确定性判别网络所输出的针对于同一目标的预测概率悬殊较大时,说明包括该目标的图像不确定性较大,故,可以根据两个预设分类及不确定性判别网络所输出的预测概率向量来确定一个不确定性度,以评价该图像的不确定性,进而有针对性的进行下一步处理。由于基于不确定性的交叉熵损失函数是与该不确定性度成正比的,故不确定性度越大的样本(待识别图像)后续的训练力度越大,这样可以有效的提升训练所得到的目标模型的可信度。
可选的,不确定性度还可以通过两个预测概率向量之间的相对误差(B)来确定。如:
Figure BDA0003347872500000071
若存在至少一个类别的预测概率向量的相对误差大于预设相对误差阈值,则说明不确定性较高。
当然,不确定性的确定方式还可以是本领域技术人员所知晓的其他方式。
步骤S104:通过待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型。
其中,基础模型包括线性分类层,线性分类层根据各预设分类及不确定性判别网络的权重矩阵确定。预设不确定性度阈值可以由本领域技术人员根据需要进行设定。
当不确定性度高于预设不确定性度阈值时,说明该图像的识别难度较高,需要对相关模型进行加强训练,以提升模型的识别准确率。
在一个实施例中,基础模型的构建方式包括:
获取各预设分类及不确定性判别网络的权重矩阵;
根据各权重矩阵确定目标矩阵,并生成线性分类层;
根据线性分类层、预设特征提取网络和预设特征降维网络生成基础模型。
可选的,根据各权重矩阵确定目标矩阵包括:
将各权重均值进行求均值处理,得到目标矩阵。
其中,由于在初始状态下各预设分类及不确定性判别网络是相同的,故其所对应的各权重矩阵的排列方式也是一致的,对相应位置的权重值进行平均处理,由各位置的平均值组成目标矩阵。
在计算每个样本特征(待识别图像的特征)的所属类别时,是将该样本特征与分类层权重矩阵(目标矩阵)的每一列向量相乘。结果最大值所在的索引数即为该样本特征的类别。故可以将训练好分类层权重矩阵(目标矩阵)的每一列看作是数据集中一个类别的匹配模板。为了有效利用两个分类器(预设分类及不确定性判别网络)训练好的权重矩阵,在测试时,可以将两个分类器(预设分类及不确定性判别网络)的权重矩阵进行求均值处理,从而使网络得到一个唯一的类别预测值,这样,通过弱分类器可组成强分类器,增强识别准确性。
换句话说,由于上述基础模型的loss函数为基于不确定性的交叉熵损失函数,对分类不确定图像可通过加大其在损失计算中的权重,以实现着重学习。
在一个实施例中,通过待识别图像训练基础模型包括:
获取待识别图像的真实类别,并基于基础模型对待识别图像进行类别预测,得到预测类别;
根据基于不确定性的交叉熵损失函数对预测类别和真实类别进行收敛,得到目标模型。
其中,真实类别可以是预先标注的类别。
在一个实施例中,基于不确定性的交叉熵损失函数Lce包括:
Figure BDA0003347872500000081
其中,Lce为基于不确定性的交叉熵损失函数,y为待识别图像所属类别的标签,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。
其中,y∈[0,n-1],n为类别的数量。上式中以两个类别为例,在考虑不确定性的情况下,当两个预测概率向量在类别标签所指的位置的值接近时,也即p0 y≈p1 y
Figure BDA0003347872500000082
此时该基于不确定性的交叉熵损失函数既可以采用上述方式中提到的方式确定,也可以采用本领域技术人员所知晓的其他方式确定。当
Figure BDA0003347872500000083
Figure BDA0003347872500000084
相差较大时,
Figure BDA0003347872500000085
会得到一个大于1的值,此时可以知晓该待识别图像为不确定性图像,需要基础模型着重学习。
在一个实施例中,该方法还包括:
获取目标图像,目标图像包括待识别人员的头部图像;
将目标图像输入目标模型,得到识别结果,识别结果包括佩戴安全帽或未佩戴安全帽。
本实施例提供的模型训练方法,通过获取待识别图像,并进行特征提取和降维,得到降维特征,将降维特征分别输入第一网络和第二网络,得到两个预测概率向量,并确定基于不确定性的交叉熵损失函数,通过待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,通过将不确定性判断思想加入分类神经网络,从而提高了网络的学习能力,增强网络的分类精度。
下面通过一个具体的实施例,示例性的说明上述提供的模型训练方法,参见图2,该方法包括:
步骤S201:将待识别图像输入到预设特征提取网络,提取待识别图像的特征图谱。
步骤S202:将特征图谱输入到预设特征降维网络进行特征降维并将降维后的特征进行global average pooling和BN处理。
步骤S203:将步骤S202处理完的特征分别输入到不确定性判断网络的两个分类器中。
由于dropout层的存在,输入到两个线性分类层的特征不完全相同,可认为是对同一样本的两次不同判断。根据图像类别标签,得到两个线性分类层输出的图像所属类别的预测类别概率值,当两个预测类别概率值相差较大时,认为是不确定性样本,将其在loss计算中的权重加大。
步骤S204:根据两个分类器的权重矩阵确定目标矩阵,并生成线性分类层。
在计算每个待识别图像中样本特征的所属类别时,是将该样本特征与分类层权重矩阵的每一列向量相乘。结果最大值所在的索引数即为该样本的类别。故可以将训练好分类层权重矩阵的每一列看作是数据集中一个类别的匹配模板。为了有效利用两个分类器训练好的权重,在测试时,将两个分类器的权重进行求均值处理,从而使网络得到一个唯一的类别预测值。通过多个弱分类器可组成强分类器,进而提升模型的识别准确率。
上式实施例提供的方法,利用两个分类器,将不确定性思想引入到分类网络,通过不确定性判断,设计的能使网络更有针对性训练的损失函数。为有效利用两个训练好的分类器,在模型测试使用时,对两个分类器的权重进行均值融合处理,通过将不确定性判断思想加入分类神经网络,从而提高了网络的学习能力,增强网络的分类精度。
下面通过另一个具体的实施例,示例性的说明上述提供的模型训练方法,其整体网络流程图如图3所示,图中以ResNet-18为特征提取网络;特征降维网络由一个卷机层加一个全局平均池化层和一个BN层简单表示。具体步骤如下:
步骤1:假设输入待识别图像大小为256*256*3,预设特征提取网络为ResNet-18,去掉原ResNet-18的最后的池化层和分类层,得到输出的高维特征,维度为8*8*2048。
步骤2:降维网络的卷积层中,卷积核大小为3*3,padding为1,步长为1,输入特征2048,输出特征512;池化层采用全局平均池化方式。故高维特征经过降维网络后,得到512维的低维特征。
步骤3:将得到的降维特征分别输入到两个相同的预设分类及不确定性判断网络。假设数据集共有n类,则该网络中线性分类层的权重矩阵的维度为512*n。步骤2中得到的低维特征通过该网络,可得到一个n维向量。对该向量进行softmax归一化,得到该输入图像属于每一类的概率值。理论上,当线性分类层的初始化相同时,两个预测概率向量应该相同。但由于Dropout层的存在,在训练过程中,虽然输入到两个分类及不确定性判断网络的低维特征相同,但输入到两个线性分类层的特征却不同。这使得网络可以像人脑一样,对同一事物,从不同角度,判断两次。
步骤4:利用步骤3得到的两个预测概率向量p0和p1计算损失函数。基于不确定性的交叉熵损失函数为:
Figure BDA0003347872500000101
其中,Lce为基于不确定性的交叉熵损失函数,y为待识别图像所属类别的标签,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。y∈[0,n-1],n为类别的数量。上式中以两个类别为例,在考虑不确定性的情况下,当两个预测概率向量在类别标签所指的位置的值接近时,也即p0 y≈p1 y
Figure BDA0003347872500000102
此时该基于不确定性的交叉熵损失函数既可以采用上述方式中提到的方式确定,也可以采用本领域技术人员所知晓的其他方式确定。当
Figure BDA0003347872500000103
Figure BDA0003347872500000104
相差较大时,
Figure BDA0003347872500000105
会得到一个大于1的值,此时可以知晓该待识别图像为不确定性图像,需要基础模型着重学习。
步骤5:由于网络有两个分类器(预设分类及不确定性判别网络),在测试时会得到两个分类结果,这并不是实际使用所需求的,而且会对使用者产生判断干扰。一般只使用一个分类器的结果就可以了。但是放弃哪一个也是难以判断的,提取两个分类器的512*n的权重矩阵,而后将两个权重矩阵求均值后再赋值到一个新的线性层作为最终测试时的线性分类层,即可得到最终的一个分类结果。
通过上述方式,可以通过先判断待识别图像是否为不确定样本(不确定性度是否高于预设不确定性度阈值),进而针对该不确定性样本进行着重学习,可以避免因干扰(场景模糊,目标颜色与背景颜色相接近等)出现识别错误,有效的提升了模型识别的准确性。
实施例二
请参阅图4,本实施例提供了一种模型训练系统400,包括:
图像获取模块401,用于获取待识别图像,并进行特征提取和特征降维,得到若干个降维特征;
向量获取模块402,用于预先设置预设分类及不确定性判别网络,所述预设分类及不确定性判别网络包括第一网络和第二网络,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理,分别获取各自的预测概率向量,所述预测概率向量根据预测类别概率值生成;
确定模块403,用于根据第一网络和第二网络的预测概率向量确定基于不确定性的交叉熵损失函数;
训练模块404,用于通过待识别图像,并确定基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,基础模型包括线性分类层,线性分类层根据各预设分类及不确定性判别网络的权重矩阵确定。
在一个实施例中,该系统还包括模型构建模块,该模型构建模块包括:
权重获取模块,用于获取各预设分类及不确定性判别网络的权重矩阵;
目标矩阵生成模块,用于根据各权重矩阵确定目标矩阵,并生成线性分类层;
基础模型生成模块,用于根据线性分类层、预设特征提取网络和预设特征降维网络生成基础模型。
可选的,训练模块包括:
类别获取模块,用于获取待识别图像的真实类别,并基于基础模型对待识别图像进行类别预测,得到预测类别;
结果收敛模块,用于根据基于不确定性的交叉熵损失函数对预测类别和真实类别进行收敛,得到目标模型。
可选的,待识别图像为目标人员头部图像,预测类别包括佩戴安全帽或未佩戴安全帽。
可选的,该系统还包括识别模块,该识别模块包括:
目标图像获取模块,用于获取目标图像,目标图像包括待识别人员的头部图像;
识别结果输出模块,用于将目标图像输入目标模型,得到识别结果,识别结果包括佩戴安全帽或未佩戴安全帽。
在本实施例中,该模型训练系统实质上是设置了多个模块用以执行上述实施例中的方法,具体功能和技术效果参照上述实施例一即可,此处不再赘述。
参见图5,本发明实施例还提供了一种电子设备600,包括处理器601、存储器602和通信总线603;
通信总线603用于将处理器601和存储器连接602;
处理器601用于执行存储器602中存储的计算机程序,以实现如上述实施例一中的一个或多个所述的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,
计算机程序用于使计算机执行如上述实施例一中的任一项所述的方法。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (11)

1.一种模型训练方法,其特征在于,所述方法包括:
获取待识别图像,并进行特征提取和特征降维,得到若干个降维特征;
预先设置预设分类及不确定性判别网络,所述预设分类及不确定性判别网络包括第一网络和第二网络,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理,分别获取各自的预测概率向量,所述预测概率向量根据预测类别概率值生成;
根据第一网络和第二网络的预测概率向量确定基于不确定性的交叉熵损失函数;
通过所述待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,所述基础模型包括线性分类层,所述线性分类层根据各所述预设分类及不确定性判别网络的权重矩阵确定。
2.如权利要求1所述的模型训练方法,其特征在于,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理包括以下至少之一:
从所述降维特征中选取多个第一特征,并输入至第一网络进行不确定性判别处理,从所述降维特征中选取多个第二特征,并输入至第二网络进行不确定性判别处理,至少一个所述第一特征与第二特征不同;
所述第一网络从所述降维特征中选取多个第一特征进行不确定性判别处理,所述第二网络从所述降维特征中选取多个第二特征进行不确定性判别处理,至少一个所述第一特征与第二特征不同;
从所述降维特征中选取多个第一特征,并输入至第一网络进行不确定性判别处理,从所述降维特征中选取多个第二特征,并输入至第二网络进行不确定性判别处理,各所述第一特征与第二特征相同;
所述第一网络从所述降维特征中选取多个第一特征进行不确定性判别处理,所述第二网络从所述降维特征中选取多个第二特征进行不确定性判别处理,各所述第一特征与第二特征相同。
3.如权利要求1所述的模型训练方法,其特征在于,所述基础模型的构建方式包括:
获取各所述预设分类及不确定性判别网络的权重矩阵;
根据各所述权重矩阵确定目标矩阵,并生成线性分类层;
根据所述线性分类层、预设特征提取网络和预设特征降维网络生成所述基础模型。
4.如权利要求1所述的模型训练方法,其特征在于,通过所述待识别图像和基于不确定性的交叉熵损失函数训练基础模型包括:
获取所述待识别图像的真实类别,并基于所述基础模型对所述待识别图像进行类别预测,得到预测类别;
根据所述基于不确定性的交叉熵损失函数对所述预测类别和真实类别进行收敛,得到所述目标模型。
5.如权利要求4所述的模型训练方法,其特征在于,所述基于不确定性的交叉熵损失函数包括:
Figure FDA0003347872490000021
其中,Lce为基于不确定性的交叉熵损失函数,y为待识别图像所属类别的标签,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。
6.如权利要求1-5任一项所述的模型训练方法,其特征在于,所述方法还包括,根据第一网络和第二网络的预测概率向量确定不确定性度,所述不确定性度的确定方式包括:
Figure FDA0003347872490000022
其中,A为不确定性度,p0 y为预测概率向量p0在标签y所指位置处的值,p1 y为预测概率向量p1在标签y所指位置处的值,p0为一个预设分类及不确定性判别网络输出的预测类别概率值,p1为另一个预设分类及不确定性判别网络输出的预测类别概率值。
7.如权利要求1-5任一项所述的模型训练方法,其特征在于,所述待识别图像为目标人员头部图像,所述预测类别包括佩戴安全帽或未佩戴安全帽。
8.如权利要求7所述的模型训练方法,其特征在于,所述方法还包括:
获取目标图像,所述目标图像包括待识别人员的头部图像;
将所述目标图像输入所述目标模型,得到识别结果,所述识别结果包括佩戴安全帽或未佩戴安全帽。
9.一种模型训练系统,其特征在于,所述系统包括:
图像获取模块,用于获取待识别图像,并进行特征提取和特征降维,得到若干个降维特征;
向量获取模块,用于预先设置预设分类及不确定性判别网络,所述预设分类及不确定性判别网络包括第一网络和第二网络,将所述降维特征分别输入至所述第一网络和第二网络进行不确定性判别处理,分别获取各自的预测概率向量,所述预测概率向量根据预测类别概率值生成;
确定模块,用于根据第一网络和第二网络的预测概率向量确定基于不确定性的交叉熵损失函数;
训练模块,用于通过所述待识别图像和基于不确定性的交叉熵损失函数训练基础模型,以得到目标模型,所述基础模型包括线性分类层,所述线性分类层根据各所述预设分类及不确定性判别网络的权重矩阵确定。
10.一种电子设备,其特征在于,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,
所述计算机程序用于使所述计算机执行如权利要求1-8中任一项所述的方法。
CN202111328644.XA 2021-11-10 2021-11-10 模型训练方法、系统、设备及介质 Pending CN114022713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111328644.XA CN114022713A (zh) 2021-11-10 2021-11-10 模型训练方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111328644.XA CN114022713A (zh) 2021-11-10 2021-11-10 模型训练方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN114022713A true CN114022713A (zh) 2022-02-08

Family

ID=80063472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111328644.XA Pending CN114022713A (zh) 2021-11-10 2021-11-10 模型训练方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN114022713A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219051A (zh) * 2022-02-23 2022-03-22 成都明途科技有限公司 图像分类方法、分类模型的训练方法、装置及电子设备
CN114581751A (zh) * 2022-03-08 2022-06-03 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN114693996A (zh) * 2022-04-20 2022-07-01 平安科技(深圳)有限公司 证件真实性不确定度度量方法及装置、设备、存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219051A (zh) * 2022-02-23 2022-03-22 成都明途科技有限公司 图像分类方法、分类模型的训练方法、装置及电子设备
CN114581751A (zh) * 2022-03-08 2022-06-03 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN114581751B (zh) * 2022-03-08 2024-05-10 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN114693996A (zh) * 2022-04-20 2022-07-01 平安科技(深圳)有限公司 证件真实性不确定度度量方法及装置、设备、存储介质
CN114693996B (zh) * 2022-04-20 2024-05-10 平安科技(深圳)有限公司 证件真实性不确定度度量方法及装置、设备、存储介质

Similar Documents

Publication Publication Date Title
Liu et al. Cross‐ethnicity face anti‐spoofing recognition challenge: A review
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN114022713A (zh) 模型训练方法、系统、设备及介质
CN111126258A (zh) 图像识别方法及相关装置
JP2022521038A (ja) 顔認識方法、ニューラルネットワークのトレーニング方法、装置及び電子機器
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN109977832B (zh) 一种图像处理方法、装置及存储介质
CN111401374A (zh) 基于多任务的模型训练方法、字符识别方法及装置
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN110135428B (zh) 图像分割处理方法和装置
CN115424323A (zh) 风电场权限管理系统及其方法
CN111352926B (zh) 数据处理的方法、装置、设备及可读存储介质
CN114627424A (zh) 一种基于视角转化的步态识别方法和系统
CN114332993A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN111091102B (zh) 一种视频分析装置、服务器、系统及保护身份隐私的方法
Mallet et al. Deepfake detection analyzing hybrid dataset utilizing cnn and svm
CN116168418A (zh) 一种图像的多模态目标感知与重识别方法
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
CN116958615A (zh) 图片识别方法、装置、设备和介质
Li et al. Face Recognition Model Optimization Research Based on Embedded Platform
Dhar et al. Detecting deepfake images using deep convolutional neural network
CN110956098A (zh) 图像处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination