CN111340105A - 一种图像分类模型训练方法、图像分类方法、装置及计算设备 - Google Patents

一种图像分类模型训练方法、图像分类方法、装置及计算设备 Download PDF

Info

Publication number
CN111340105A
CN111340105A CN202010114941.3A CN202010114941A CN111340105A CN 111340105 A CN111340105 A CN 111340105A CN 202010114941 A CN202010114941 A CN 202010114941A CN 111340105 A CN111340105 A CN 111340105A
Authority
CN
China
Prior art keywords
image
sample
classification
image sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010114941.3A
Other languages
English (en)
Inventor
张恩伟
蒋忻洋
孙星
余宗桥
彭湃
郭晓威
黄小明
黄飞跃
吴永坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010114941.3A priority Critical patent/CN111340105A/zh
Publication of CN111340105A publication Critical patent/CN111340105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及人工智能技术领域,提供一种图像分类模型训练方法、图像分类方法、装置及计算设备,用于提高训练出的模型针对困难样本的处理能力。该方法包括:基于第一图像样本集训练图像预测模型;基于图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值,每个第二图像样本具有目标分类标签;基于第二图像样本集训练第一图像分类模型,直到第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型;第一图像分类模型的训练损失是对第二图像样本集中各个第二图像样本的分类损失进行加权获得的,每个第二图像样本的分类损失对应的加权权重是根据每个第二图像样本的难易度估计值确定的。

Description

一种图像分类模型训练方法、图像分类方法、装置及计算设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像分类模型训练方法、图像分类方法、装置及计算设备。
背景技术
图像分类模型泛指用于进行分类的模型、目前,大多图像分类模型通过监督学习提前训练得到的,即通过图像分类模型预测训练样本对应的分类结果,调整模型参数,使得图像分类模型输出的结果与真实分类结果更逼近。
但是在图像分类模型训练过程,如果训练样本集包含的各类样本不平衡,则很容易出现模型过拟合的情况,这样使得训练出的模型在某些样本上的使用效果较差。
发明内容
本申请实施例提供一种图像分类模型训练方法、图像分类方法、装置及计算设备,用于提高训练出的模型针对困难样本的处理能力。
第一方面,提供一种图像分类模型训练方法,包括:
基于第一图像样本集训练图像预测模型,所述图像预测模型用于估计图像被识别为目标分类的难易度,所述第一图像样本集包括多个第一图像样本,每个第一图像样本具有难易度目标值,且每个第一图像样本的难易度目标值是根据第一图像分类模型获得的各个第一图像样本的图像特征之间的相似关系,以及各个第一图像样本的目标分类标签获得的;
基于所述图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值,每个第二图像样本具有目标分类标签;
基于第二图像样本集训练所述第一图像分类模型,直到所述第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型;其中,所述第一图像分类模型的训练损失是对所述第二图像样本集中各个第二图像样本的分类损失进行加权获得的,每个第二图像样本的分类损失对应的加权权重是根据每个第二图像样本的难易度估计值确定的,第二图像样本的分类损失用于表示目标分类标签和所述第一图像分类模型输出的预测分类之间的误差。
第二方面,提供一种图像分类模型训练装置,包括:
第一训练模块,用于基于第一图像样本集训练图像预测模型,所述图像预测模型用于估计图像被识别为目标分类的难易度,所述第一图像样本集包括多个第一图像样本,每个第一图像样本具有难易度目标值,且每个第一图像样本的难易度目标值是根据第一图像分类模型获得的各个第一图像样本的图像特征之间的相似关系,以及各个第一图像样本的目标分类标签获得的;
获得模块,用于基于所述图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值,每个第二图像样本具有目标分类标签;
第二训练模块,用于基于第二图像样本集训练所述第一图像分类模型,直到所述第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型;其中,所述第一图像分类模型的训练损失是对所述第二图像样本集中各个第二图像样本的分类损失进行加权获得的,每个第二图像样本的分类损失对应的加权权重是根据每个第二图像样本的难易度估计值确定的,第二图像样本的分类损失用于表示目标分类标签和所述第一图像分类模型输出的预测分类之间的误差。
在一种可能的实施例中,所述第二训练模块具体用于:
根据所述第一图像分类模型的训练损失,调整第一图像分类模型的模型参数;
其中,在调整所述第一图像分类模型的模型参数时,根据所述图像预测模型的训练损失,调整所述图像预测模型的模型参数,所述图像预测模型的训练损失用于表示第一图像样本的难易度估计值与第一图像样本的难易度目标值之间的误差。
在一种可能的实施例中,所述第一图像分类模型包括依次连接的编码单元和全连接单元;以及,所述第一图像分类模型针对分别输入的各个第二图像样本输出的预测分类是通过如下步骤获得的:
通过所述编码单元,提取输入的第二图像样本的多个图像特征;
通过所述全连接单元,对输入的第二图像样本的多个图像特征进行加权求和,获得输入的第二图像样本属于各个分类的概率;
将概率满足预设概率条件的分类确定为输入的第二图像样本对应的预测分类。
在一种可能的实施例中,所述编码单元包括依次连接的第一卷积子单元,池化子单元和第二卷积子单元;以及,
通过所述编码单元,提取输入的第二图像样本的多个图像特征,具体包括:
通过所述第一卷积子单元中多个卷积层,依次对输入的第二图像样本进行卷积处理,获得每个卷积层输出的第一中间图像特征;
通过所述池化子单元,对多个第一中间图像特征中每个第一中间特征图分别进行平均池化处理,获得多个第二中间图像特征;
通过所述第二卷积子单元,对所述多个第二中间图像特征分别进行卷积处理,获得所述多个图像特征。
在一种可能的实施例中,所述样本选择模型包括依次连接的隐藏单元和输出单元;以及,
基于所述图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值时,具体包括对每个第二图像样本的图像特征进行如下处理:
通过所述隐藏单元,通过设定函数对第二图像样本的图像特征进行映射,获得第二图像样本的难易度估计值;
通过所述输出单元,输出第二图像样本的难易度估计值。
在一种可能的实施例中,若第二图像样本的难易度估计值表征第二图像样本中的目标分类难度越大,则第二图像样本的分类损失对应的加权权重越大;
若第二图像样本的难易度估计值表征第二图像样本中的目标分类难度越小,则第二图像样本的分类损失对应的加权权重越小。
在一种可能的实施例中,每个第一图像样本具有难易度目标值是通过如下步骤获得的:
根据输入的第一图像样本的图像特征,确定输入的第一图像样本与所述第一图像样本集中其余图像样本中每个图像样本的相似度,并将满足预设阈值的图像样本预测为与输入的第一图像样本属于同一类的预测正样本集;
根据每个图像样本的目标分类标签,确定从所述预测正样本集中确定出正确分类的目标正样本集中包括的图像样本数量;
根据所述目标正样本集中包括的图像样本数量,确定出每个目标正样本对应的最大精确度;
确定各个目标正样本对应的最大精确度的平均值,获得平均精确度;第一图像样本的真实难易度为所述平均精确度。
在一种可能的实施例中,每个第一图像样本具有难易度目标值分别是通过如下步骤获得的:
根据每个第一图像样本对应的目标分类标签,确定出所述第一图像样本集中的相关样本和不相关样本;其中,所述相关样本是所述第一图像样本集中与输入的第一图像样本属于同一分类的样本,所述不相关样本是所述第一图像样本集中与输入的第一图像样本属于不同分类的样本;
根据第一图像样本集中各个图像样本的图像特征,确定所述相关样本到输入的第一图像样本的距离,和所述不相关样本到输入的第一图像样本的距离之间的距离差;
根据所述距离差,确定出输入的第一图像样本的三元组损失;输入的第一图像样本的真实难易度为图像样本的三元组损失。
第三方面,提供一种图像分类装置,包括:
获取模块,用于获取待识别的目标图像;
输入模块,用于将所述目标图像输入到已训练的第二图像分类模型中,其中,所述第二图像分类模型是通过第一方面中任一项所述的方法训练得到的;
获得模块,用于获得所述目标图像所属的图像分类。
在一种可能的实施例中,所述目标图像为包含第一行人的图像,所述目标图像所属的图像分类为所述目标图像中的第一行人对应的行人唯一标识;所述装置还包括生成模块,其中:
所述获得模块,还用于获得在预设时间段内,检测到所述第一行人所到的各个地点;
所述生成模块,用于将每个地点与对应的包含所述第一行人的目标图像关联,生成所述第一行人的行为信息。
第四方面,提供一种计算设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面或第二方面中任一项所述的方法。
第五方面,一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面或第二方面中任一项所述的方法
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
在本申请实施例中,通过图像预测模型输出各个图像样本的难易度估计值,在训练图像分类模型过程中,图像分类模型的训练损失是利用多个图像样本的分类损失进行加权获得的,而每个图像样本对应的加权权重为每个图像样本的难易度估计值,因此当图像样本越难分类时,对应该图像样本的分类损失就越大,那么图像分类模型的训练损失就越大,这样一来,使得训练出的图像分类模型对相对分类困难的图像进行分类的效果更佳,提升了图像分类模型对图像进行分类的准确性。且,本申请实施例中的图像预测模型可以输出图像样本的难易度评估值,实现了自动评估图像样本的分类难度的过程,实现一种高效识别图像样本分类难易程度的方式。且,由于图像预测模型能够输出图像样本的难易度估计值,因此在训练图像分类模型时,可以利用图像预测模型的输出结果筛选图像样本,有利于提高快速图像分类模型训练速度。
附图说明
图1为本申请实施例提供的一种图像分类模型训练设备的结构示意图;
图2为本申请实施例提供的一种应用场景示意图;
图3为本申请实施例提供的一种图像分类模型训练方法的过程示意图;
图4为本申请实施例提供的一种图像分类模型的模型结构示意图;
图5为本申请实施例提供的一种图像预测模型的模型结构示意图;
图6为本申请实施例提供的一种训练图像预测模型的过程示意图;
图7为本申请实施例提供的一种训练第一图像分类模型的过程示意图;
图8为本申请实施例提供的训练图像分类模型和图像预测模型的过程示例图;
图9为本申请实施例提供的一种图像分类方法的过程示意图;
图10为本申请实施例提供的一种显示目标图像的界面示意图;
图11为本申请实施例提供的一种显示行人的行为信息的界面示意图;
图12为本申请实施例提供的一种图像分类模型训练装置的结构示意图;
图13为本申请实施例提供的一种图像分类装置的结构示意图;
图14为本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。
卷积神经网络(Convolutional Neuron Network,CNN):可以理解位一种带有卷积结构的深度神经网络。卷积神经网络包含卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征图(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。
行人重识别(Person Re-identification,ReID):技术是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,ReID技术被广泛应用于公共场合,用于监控行人的人体轨迹。可以利用ReID模型实现行人重识别。
难易度:是指对图像进行分类学习的难易程度。难易度是针对某个具体模型而言,不同的模型,对同一个图像的学习难易度可能是不完全相同的。有些图像中的目标清晰,因此对该图像进行分类也就更容易。由于拍摄设备参数、拍摄环境参数或者目标运动状态不同等原因,对有些图像进行分类的难度更大。
难易度目标值:可以理解为一个图像的难易度标签值,可以理解为是定义的该图像的难易度的真实取值。本申请中的难易度目标值是利用图像样本之间的图像特征之间的相似关系以及各个第一图像样本的目标分类标签获得的。
难易度估计值:本申请实施例中是指图像预测模型输出的图像样本的难易度的取值。
批(Batch):是指在一次训练过程中所使用的多个图像样本的组合,一个batch可以包括不同分类对应的图像样本,一个batch至少包括两个图像样本。在某些情况下,一个batch中各类样本的比例是固定的。比如,模型的使用场景下包括的各种分类有4个,分别为分类1,分类2,分类3和分类4,设定的各个分类对应的样本比例为1:2:1:1,那么在构建batch时,该batch中包括的分类1对应的图像样本,分类2对应的图像样本,分类3对应的图像样本和分类4对应的图像样本的比例依旧可以保持为1:2:1:1。本申请中的第一图像样本集可以理解为一个batch,第二图像样本集也可以理解为一个batch,第一图像样本集和第二图像样本集可以是完全相同的batch,也可以是完全不同的batch,也可以是存在部分图像样本相同的batch。这里的完全相同是指第一图像样本集中包括的图像样本和第二图像样本集中包括的图像样本均是一样的。
输入的第一图像样本:属于第一图像样本集中的一个图像样本,是指模型当前正在处理的第一图像样本,第一图像样本集中任何一个图像样本在被处理时,均可以作为输入的第一图像样本。
输入的第二图像样本:属于第二图像样本集中的一个图像样本,是指模型当前正在处理的第二图像样本,第二图像样本集中任何一个图像样本在被处理时,均可以作为输入的第二图像样本。
目标图像:是指需要已训练的图像分类模型进行分类的图像,行人图像属于目标图像的一种,行人图像是指该图像中包含行人。行人图像可以是包括一个行人的图像,比如可以是摄像头在拍摄该图像时,会通过检测框识别行人,并拍摄该行人的图像。
行为信息:是指根据分析行人的行为所获得的信息,包括行人图像、行人的行动路线和在不同时刻行人的人体轨迹等中的一种或几种的组合。行动路线具体包括行人在不同时刻所在的地点。人体轨迹包括在不同时刻行人对应的行人图像。
像素单元:是指模型处理图像的最小处理单元,可以是一个或多个像素。
下面对相关技术进行示例介绍。
图像分类模型训练过程中,由于样本不平衡,可能导致训练出的图像分类模型过拟合等情况,导致图像分类模型在一些样本上的使用效果较差。下面以reID模型的训练为例进行说明。
目前,ReID模型是利用大量的标注包括行人的图像样本进行训练,比如采用的训练样本集包括大多行人正脸的行人图像,那么利用该训练过程中,当ReID模型针对该训练样本集上收敛时,获得了已训练的ReID模型。这样一来,训练出的ReID模型在识别包含正脸的行人图像上会有较好的效果,但是由于ReID模型的应用场景多变,涉及到的行人姿态也多变,比如实际使用场景中可能还包括侧脸的行人图像,甚至包括背影的行人图像等困难图像需要识别,而训练出的ReID模型对这些困难图像识别效果比较差。
鉴于此,本申请发明人提供一种图像分类模型训练方法。第一,该方法引入图像预测模型,该图像预测模型可以输出各个图像样本的难易度估计值,在训练图像分类模型过程中,图像分类模型的训练损失是利用多个图像样本的分类损失进行加权获得的,而每个图像样本对应的加权权重为每个图像样本的难易度估计值,因此当图像样本越难分类时,对应该图像样本的分类损失就越大,那么对训练损失就越大,这样一来,使得训练出的图像分类模型在相对分类困难的图像处理上分类效果更佳,提升了图像分类模型对图像进行分类的准确性。
第二,该方法中,训练图像预测模型中,是利用图像分类模型输出的图像特征作为该图像预测模型的输入,也就是说,图像分类模型和图像预测模型之间是相互影响的,进而使得训练图像预测模型输出的难易度估计值是针对该图像分类模型的,也就是说,该图像预测模型输出的难易度估计值就更符合图像分类模型的需求,提高了训练出的图像分类模型对图像进行分类的准确性。
第三,该方法中,提供了一种利用图像预测模型确定图像样本的难易度估计值,在各类图像分类模型的训练过程,均可以利用该图像预测模型预测图像样本的难易度估计值,实现了图像预测模型对图像样本进行难易分类,无需手动对图像样本进行难易分类,使得该模型训练方法效率更高。图像预测模型对图像样本进行难易分类过程中,无需手动对设置参数等,使得输出的难易度估计值更具有参考价值。
下面对本申请实施例涉及的应用场景进行示例说明。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
请参照图1,表示执行本申请实施例中的图像分类模型训练方法的图像分类模型训练设备100的结构示意图,该图像分类模型训练设备100包括一个或多个输入设备101、一个或多个处理器102、一个或多个存储器103和一个或多个输出设备104。
输入设备101用于提供输入接口,以获取外界设备/用户输入的输入图像样本等。在获得图像样本之后,输入设备101将该输入图像样本发送给处理器102,处理器102利用存储器103中存储的程序指令,通过第一图像分类模型对图像样本进行分类,获得图像样本的预测分类,以及通过图像预测模型,预测图像样本的难易度估计值,获得图像样本的难易度估计值,并根据难易度估计值,确定第一图像分类模型的训练损失,调整第一图像分类模型的模型参数,直到第一图像分类模型的训练损失满足目标损失,获得已训练的第二图像分类模型。
在获得第二图像分类模型之后,可以通过输出设备104输出第二图像分类模型,还可以将第二图像分类模型发送给外界设备,以便于其它设备使用该第二图像分类模型对图像进行分类。或者在获得第二图像分类模型之后,可以通过输入设备101获取外界设备发送的目标图像,利用第二图像分类模型,获得目标图像的分类结果,并通过输出设备104将分类结果反馈给外界设备。
其中,输入设备101可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器102可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等。存储器103可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器103也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard diskdrive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器103是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器103可以是上述存储器的组合。输出设备104例如显示器、扬声器和打印机等等。
在可能的实施例中,图像分类模型训练设备100可以是用户端设备,也可以是服务端设备。用户端设备可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,图像分类模型训练设备100能够支持任意类型的针对用户的接口(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。
在一种可能的应用场景中,请参照图2,表示一种应用场景示例,该应用场景包括终端设备210、服务器220和至少一个摄像头230,终端设备210和服务器220之间可以通过网络进行通信,终端设备210与摄像头230之间可以通过网络进行通信。
以行人重识别场景为例,图像分类模型训练设备100通过服务器220实现。服务器220训练图像分类模型,获得已训练的图像分类模型,并将图像分类模型的配置文件发送给终端设备210。至少一个摄像头会周期性或不定期地采集包括行人的行人图像,并将采集得到的行人图像发送终端设备210,终端设备210可以通过已训练的图像分类模型,识别这些图像对应的行人具体的ID,获得该行人在当前环境下的行为轨迹等,可以实现公共场合的监控,也可以为后期分析各个行人的行为习惯等提供大数据。
下面结合上述论述的应用场景,对图像分类模型训练设备100训练图像分类模型的过程进行介绍。请参照图3,表示训练图像分类模型的方法示意图,该方法具体包括:
S301,图像分类模型训练设备100构建模型结构;
S302,图像分类模型训练设备100训练图像预测模型;
S303,图像分类模型训练设备100训练第一图像分类模型。
一,构建模型结构:
本申请实施例中涉及第一图像分类模型和图像预测模型。可以是用户选择对应的模型结构,图像分类模型训练设备100根据用户的选择信息获得各个模型的结构。也可以是图像分类模型训练设备100根据各个模型的功能需求,从多个网络中选择当前所需的网络,获得每个模型结构。下面对第一图像分类模型和图像预测模型的模型结果进行具体示例介绍。
第一图像分类模型:
第一图像分类模型用于对图像进行分类,第一图像分类模型的输入可以为图像,输出可以为该图像对应的分类。第一图像分类模型可以有多种具体分类场景,以第一图像分类模型可以是ReID模型为例,ReID模型的输入为行人图像,输出为该行人对应的分类,ReID模型例如可以采用各种深度网络,具体例如可以采用CNN骨干网络(backbone)网络、resnet网络、vgg网络、densenet网络和nasnet网络等。
作为一种实施例,请参照图4,表示一种图像分类模型的结构示例图,第一图像分类模型可以包括编码单元410和全连接单元420,编码单元410用于提取图像的图像特征,全连接单元420用于根据图像特征,输出该图像对应的分类。
继续参照图4,编码单元410包括第一卷积子单元411,池化子单元412和第二卷积子单元413。第一卷积子单元411可以包括多个依次连接的卷积层,池化子单元包括平均池化层。第二卷积子单元413包括一个卷积层。全连接单元420包括一层全连接层,全连接层具体可以是对前一层输出的图像特征进行加权求和,获得该图像样本属于各个分类的概率。
例如,继续参照图4,第一卷积子单元411对输入的第一图像样本W*H进行卷积处理之后,可以获得如图4中所示的多个特征向量f所组成的矩阵,该矩阵经过池化子单元412进行平均池化处理后,获得多个特征向量n1,再经过第二卷积子单元413处理之后,获得多个特征向量n2,最后经过全连接层输出该图像样本属于各个分类ID的概率。
图像预测模型:
图像预测模型用于确定图像进行分类的难易度,图像预测模型的输入为第一图像分类模型输出的图像特征,输出为预测出的难易度估计值。这里的第一图像分类模型输出的图像特征可以是第一图像分类模型编码单元输出的图像特征。
作为一种实施例,图像预测模型可以采用多层全连接网络,多层全连接层通过对图像特征进行多次加权求和,输出图像样本对应的难易度估计值。
作为一种实施例,请参照图5,图像预测模型可以采用多层感知机网络,具体可以包括输入单元510、隐藏单元520和输出单元530。
输入单元510将图像特征输入到对应的隐藏单元520中。隐藏单元520通过设定函数对第二图像样本的图像特征进行映射,获得第二图像样本的难易度估计值;通过输出单元530输出第二图像样本的难易度估计值。
继续参照图5,输入单元510包括输入层,输入层包括至少一个神经元,隐藏单元520包括隐藏层,隐藏层包括至少一个神经元,输出单元530包括输出层,输出层包括至少一个神经元。
二,训练图像预测模型:
在构建各个模型的模型结构之后,可以执行S302,下面结合图6对图像预测模型的训练过程进行介绍。请参照图6,表示训练图像预测模型的过程示意图,该过程具体包括:
S601,获取第一图像样本集;
S602,确定各个第一图像样本的难易度目标值;
S603,通过图像预测模型,输出各个第一图像样本的难易度估计值;
S604,根据图像预测模型的训练损失,调整图像预测模型的模型参数。
在S601中,第一图像样本集可以是从训练集或验证集中筛选出的一个batch,也可以是按照不同类别样本比例从训练集或验证集中筛选出的一个bacth。为了使得训练效果更佳,第一图像样本集可以包括多种分类对应的图像样本。
在S602中,难易度目标值可以理解为每个第一图像样本的难易度标签。确定第一图像样本集中各个第一图像样本的难易度目标值的方式有很多种,下面以一个第一图像样本为例,对获得该第一图像样本的难易度目标值的过程进行示例说明。
方式一:
S1.1.1,利用图像分类模型输出的图像特征,确定该第一图像样本与第一图像样本集中其余第一图像样本集的相似度;
S1.1.2,根据各个相似度,确定出与该第一图像样本属于同一分类的预测正样本集;
S1.1.3,根据各个第一图像样本的目标分类标签,确定出预测正样本集中真正与该第一图像样本属于同一分类的目标正样本集;
S1.1.4,根据目标正样本集,确定出每个目标正样本对应的最大精确度;
S1.1.5确定各个目标正样本对应的最大精确度的平均值,获得该第一图像样本的难易度目标值。
在S1.1.1中,将第一图像样本集中每个第一图像样本集输入第一图像分类模型,通过第一图像分类模型中的编码单元410输出每个第一图像样本对应的图像特征,这里的图像特征的具体形式可以是特征向量,也可以是特征矩阵等,本申请不限制图像特征的具体形式。
在获得第一图像样本集中每个第一图像样本集的图像特征之后,可以确定该第一图像样本和第一图像样本集中其余第一图像样本的相似度,从而获得多个相似度。
相似度的表征方式具体有多种,示例如下:
(1)采用欧式距离表征相似度
可以计算该第一图像样本和第一图像样本集中其余第一图像样本的欧式距离,该欧式距离也就为二者之间的相似度,欧式距离的具体计算公式如下:
Figure BDA0002391187760000151
其中,X表示该第一图像样本,Y表示第一图像样本集中除了X之外的一个第一图像样本,n表示X对应的图像特征对应的总数量,也就是Y对应的图像特征对应的总数量,xi表示该第一图像样本对应位置上的特征向量,yi表示Y在对应位置上的特征向量。
(2)采用余弦相似度表征相似度
可以计算该第一图像样本和第一图像样本集中其余第一图像样本的余弦相似度,该余弦相似度也就为二者之间的相似度。
如果两个图像样本越相似,那么两个图像样本越有可能属于同一个分类,因此,在S1.1.2的一种实施例,可以对获得的多个相似度按照从大到小的顺序进行排序,获得排序结果。根据将排序结果中排列顺序满足预设阈值的图像样本,确定为与该第一图像样本属于同一分类的样本,也就获得了预测正样本集。具体可以是将排序结果中的前N位确定为预测正样本集。这里的预设阈值表示设定的排列位数。
作为S1.1.2的另一种实施例,可以在获得多个相似度之后,将相似度大于或等于预设阈值的图像样本确定为预测正样本。这里的预设阈值表示设定的相似度阈值。
但是由于是根据第一图像分类模型输出的图像特征计算的相似度,第一图像分类模型可能并没有准确地学习到某些图像样本的特征,那么预测正样本集中的图像样本可能有些图像样本可能被误认为与该第一图像样本属于同一分类。因此,可以执行S1.1.3。
具体的,可以根据第一图像样本集中每个第一图像样本的目标分类标签,确定预测正样本集中到底真正与该第一图像样本属于同一分类的目标正样本集,实际上也就获得了目标正样本集中包括的目标正样本的数量。
S1.1.4中,根据目标正样本集,确定每个目标正样本的最大精确度。
当有M个预测正样本中包括N个目标正样本集时,N为小于或等于M的正整数,就能获得N个目标正样本集中每个正样本对应的召回率(分别为1/N,2/N,...,N/N),根据召回率和精确度之间的曲线关系,就能根据每个正样本的最大精确度,对所有目标正样本集对应的最大精确度进行加权,从而获得平均精确度(Average Precision,AP),该平均精确度也就是该第一图像样本的难易度目标值。
AP越大,表示根据相似度获得预测出这些目标正样本的概率越大,那么表示更容易找出与第一图像样本属于同一分类的样本,从侧面反映了第一图像样本是相对容易学习和分类的,也就是该第一图像样本的分类难度比较小;AP越小,表示根据相似度获得预测出这些目标正样本的概率越小,那么表示更难找出与第一图像样本属于同一分类的样本,从侧面反映了第一图像样本是相对较难学习和分类的,也就是该第一图像样本的分类难度比较大。
当然S1.1.1~S1.1.4仅示例了一种确定AP的方式,实际上还有其它确定AP的方式,此处不进行一一列举。
方式二:
S1.2.1,根据每个图像样本对应的目标分类标签,确定出第一图像样本集中的相关样本和不相关样本;
S1.2.2,根据第一图像样本集中各个图像样本的图像特征,确定相关样本到该第一图像样本的距离,和不相关样本到该第一图像样本的距离之间的距离差;
S1.2.3,根据距离差,确定出该第一图像样本的三元组损失;该第一图像样本的真实难易度为图像样本的三元组损失。
在S1.2.1中,相关样本是与第一图像样本集中与第一图像样本属于同一分类的样本,不相关样本是第一图像样本集中与第一图像样本属于不同分类的样本。由于第一图像样本集中每个图像样本的目标分类标签是确定的,因此可以根据各个第一图像样本的目标分类标签确定是否是该第一图像样本属于同一个分类,从而获得相关样本和不相关样本。当然获得的相关样本可能有一个或多个,不相关样本可能有一个或多个。
在S1.2.2中,如前文论述的内容,第一图像分类模型可以获得各个第一图像样本的图像特征,因此可以根据各个图像特征,确定相关样本到第一图像样本的之间的第一距离,以及确定不相关样本到第一图像样本之间的第二距离。
作为一种实施例,当相关样本有多个时,该相关样本选择与该第一图像样本距离最大的相关样本。同理,当不相关样本有多个时,该不相关样本选择与该第一图像样本距离最小的不相关样本。
或者,当相关样本有多个时,可以确定各个相关样本到第一图像样本的平均距离,该平均距离作为相关样本到该第一图像样本的距离。同理,不相关样本有多个时,可以确定各个不相关样本到第一图像样本的平均距离,该平均距离作为不相关样本到该第一图像样本的距离。这里的距离可以是欧式距离,欧式距离的具体计算方式可以参照前文论述的内容,此次不再赘述。
在获得第一距离和第二距离之差之后,可以确定第一距离和第二距离之间的距离差。距离差L1的具体计算公式如下:
L1=[d(a,p)-d(a,n)]
其中,a表示该第一图像样本,p表示相关样本,n表示不相关样本,r表示一个参数,d(a,p)表示相关样本和第一图像样本的第一距离,d(a,n)表示不相关样本和第一图像样本的第二距离。
在S1.2.3中,距离差与可调参数求和,获得三元组损失Loss,具体三元组损失Loss1的具体表达式如下:
Loss1=[d(a,p)-d(a,n)]+r
在该方式中,三元组损失为难易度目标值。三元组损失越大,表示该第一图像样本与相关样本的差距较大,而与不相关样本的差距较小,那么表示对该第一图像样本进行分类难度更高;三元组损失越小,表示该第一图像样本与相关样本的差距较小,而与不相关样本的差距较大,那么表示对该第一图像样本进行分类难度相对更小。
在S603中,如前文论述的内容,已获得各个第一图像样本的难易度目标值,因此可以通过图像预测模型确定各个第一图像样本的难易度估计值。
继续以图5所示的图像预测模型为例,对图像预测模型确定出一个样本图图像得难易度估计值的过程进行说明。
隐藏单元510被配置为设定函数,对输入的图像特征进行设定函数上的映射,输出该图像样本的难易度估计值,输出单元520对应输出难易度估计值。
在S604中,在获得难易度估计值之后,可以根据图像样本的难易度估计值和难易度目标值之间的误差,确定图像预测模型的训练损失。训练损失的具体表示方式有很多种,例如可以采用L1范数损失函数表示,L1范数损失函数又可以称为最小绝对值偏差(LAD),或称为最小绝对值误差(LAE),L1范数损失函数的具体表达式如下:
Figure BDA0002391187760000191
其中,L1(y′,y)表示L1范数损失函数,n表示图像样本对于的像素单元数量,yi表示对第一图像样本的难易度估计值,y′i表示第一图像样本的难易度目标值,n表示第一图像样本集中包括的图像样本的个数。
在S604中,在获得训练损失之后,可以根据训练损失的梯度,朝着训练损失收敛的方向,调整图像预测模型的模型参数。
三,训练图像分类模型:
请参照图7,训练图像分类模型具体包括如下步骤:
S701,获取第二图像样本集;
S702,通过图像预测模型,输出各个第二图像样本的难易度估计值;
S703,通过第一图像分类模型,输出各个第二图像样本的预测分类;
S704,对第二图像样本集中多个第二图像样本的分类损失进行加权,获得第一图像分类模型的训练损失,加权权重是根据第二图像样本的难易程度确定的;
S705,调整第一图像分类模型的模型参数,直到第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型。
在S701中,第二图像样本集可以是训练集中筛选出的多个图像样本,可以是与前文论述的第一图像样本集相同,也可以是与第一图像样本集不相同或不完全相同。
作为一种实施例,当第二图像样本集与第一图像样本集相同,则可以通过前文中的S603,获得各个图像样本的难易度估计值,在这种情况下,则无需执行S702的步骤。
在S702中,当第二图像样本集与第一图像样本集不相同时,可以通过第一图像分类模型输出每个第二图像样本对应的图像特征,将每个第二图像样本对应的图像特征输入图像预测模型,获得每个第二图像样本对应的难易度估计值。在该实施例中,第二图像样本集可以采用训练集中的部分样本,第一图像样本集可以采用验证集中的部分样本,使得在训练两个模型过程中所使用的样本不同,增加各个模型处理的样本的随机性,利于提高模型的泛化性。
在S703中,通过第一图像分类模型,输出每个第二图像样本的预测分类。第一图像分类模型输出预测分类的过程可以参照前文论述的内容,此处不再赘述。
S704中,根据S702~S703的步骤,可以获得第二图像样本集中每个第二图像样本的预测分类,因此可以根据每个第二图像样本的预测分类和目标分类标签之间的误差,确定出每个第二图像样本的分类损失。
每个第二图像样本的分类损失可以有多种表达方式,示例如下:
A1:采用交叉熵损失函数表示分类损失,交叉熵损失函数Loss2的具体表达式如下:
Figure BDA0002391187760000201
其中,N表示一个第二图像样本中包括的像素单元的总数量,Pk表示像素单元对应的目标分类标签,qk表示像素单元对应的预测分类。
A2:可以采用前文论述的三元组损失来表示分类损失。
三元组损失的具体表达式可以参照前文论述的内容,此处不再赘述。
A3:可以采用arcface损失函数表示分类损失,arcface损失函数具体表达式如下:
Figure BDA0002391187760000211
其中,
Figure BDA0002391187760000212
m表示角度余量,k表示第二图像样本中的像素单元的数量,n表示目标分类标签的总数量,i表示一个分类,s表示超参数,j表示另外一个分类。
在获得每个图像样本的分类损失之后,可以对第二图像样本集中每个第二图像样本的分类损失进行加权,获得本次训练中第一图像分类模型的训练损失Loss总,具体示意如下:
Loss总=w1*loss(Y1)+w2*loss(Y2)+…+wk*loss(Yk)
其中,w1~wk分别表示第一个第二图像样本至第k个第二图像样本的分类损失对应的权重,loss(Y1)~loss(Yk)分别表示第一个第二图像样本至第k个第二图像样本的分类损失。
上述公式涉及到各个第二图像样本的加权权重的取值,每个第二图像样本对应的加权权重可以根据该第二图像样本对应的难易度估计值确定。
作为一种实施例,某个第二图像样本对应的难易度估计值表征该第二图像样本学习的难度越大,则该第二图像样本对应的加权权重越大;某个第二图像样本对应的难易度估计值表征该第二图像样本学习的难度越小,则该第二图像样本对应的加权权重越小。
B1:当难易度目标值采用前文论述的方式一中的AP表示时,图像样本的难易度估计值与该图像样本对应的加权权重呈负相关,加权权重W的具体计算公式示意如下:
W=1-df/(1-th)
其中,df表示图像样本对应的难易度估计值,th表示可以调整的超参数。
作为一种实施例,th的取值可以为0.85。
B2:当难易度目标值采用前文论述的方式二中的三元组损失表示时,图像样本的难易度估计值与该图像样本对应的加权权重呈正相关。在这种情况下,比如加权权重可以就为难易度估计值。
在获得各个第二图像样本对应的加权权重之后,也就能获得各个图像样本对应的训练损失。
S705中,在S704中获得第一图像分类模型的训练损失之后,可以获得根据训练损失的梯度,调整第一图像分类模型的模型参数,重复上述训练图像分类模型的过程,直到第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型。其中,目标损失可以设定的固定大小的损失值,或者是用于限定损失值的其它参数的取值,比如学习率等。
作为一种实施例,可以当第一图像分类模型的训练损失,以及图像预测模型的训练损失均满足各自对应设定的目标损失时,获得已训练的第二图像分类模型,以及已训练的图像预测模型。
作为一种实施例,训练第一图像分类模型和训练图像预测模型可以是同步的。比如,在调整第一图像分类模型的模型参数时,可以同时执行前文S604。
作为一种实施例,图6中训练图像预测模型和图7中训练图像分类模型的过程的顺序可以是任意的。
为了更清楚地示意说明图像预测模型和图像分类模型的训练过程,请参照图8,表示一种训练图像预测模型和训练图像分类模型的过程示意图,具体包括:
S801,第一图像分类模型输出第一验证集中各个图像样本的图像特征,将这些图像特征输入至图像预测模型,训练图像预测模型;
S802,图像预测模型输出第一训练集中各个图像样本的难易度估计值,将第一训练集以及每个图像样本输入至第一图像分类模型中,训练第一图像分类模型;
S803,第一图像分类模型输出第二验证集中各个图像样本的图像特征,将这些图像特征输入至图像预测模型,训练图像预测模型;
S804,图像预测模型输出第二训练集中各个图像样本的难易度估计值,将第二训练集以及每个图像样本输入至第一图像分类模型中,训练第一图像分类模型;
S805,第一图像分类模型输出第三验证集中各个图像样本的图像特征,将这些图像特征输入至图像预测模型,训练图像预测模型。
重复上述过程,当第一图像分类模型的训练损失,满足目标损失时,获得已训练的第二图像分类模型。
应当说明的是,当第一图像分类模型采用ReID模型时,训练该ReID模型的过程可以参照前文论述的内容,此处不再赘述,这种情况下,第一图像样本集和第二图像样本均采用的是包括行人的行人图像。针对图像分类模型而言,不同的行人视为不同的分类。
作为一种实施例,由于某些场景下涉及到的行人较多,因此可以为每个行人定义一个行人唯一标识,该行人唯一标识用于表示该行人的分类,也便于对该行人关联的图像样本进行标记和归类等。
下面结合上述论述的图2中的应用场景,对已训练的第二图像分类模型的应用过程进行介绍。
图像分类模型训练设备100为图2中的服务器220,当服务器220通过前文论述的过程获得第二图像分类模型之后,可以将第二图像分类模型对应的配置文件通过网络发送给终端设备210,终端设备210运行该第二图像分类模型,实现对目标图像进行分类。
下面请参照图9,表示终端设备210进行图像分类的过程示意图,图9是以对行人图像进行分类为例对本申请实施例涉及的图像分类方法进行示例介绍,具体包括:
S901,获取待识别的目标图像。
目标图像以行人图像为例,终端设备210可以是通过摄像头230采集行人图像,或者,终端设备210自身可以采集行人图像。或者,摄像头230实时监控,终端设备210自动从实时监控画面中进行分类的目标图像。
具体的,在摄像头230采集行人图像之后,可以将行人图像发送给终端设备230。其中,摄像头230可以是在满足触发条件时,采集行人图像,触发条件例如摄像头230检测到特定目标人物,或者摄像头230检测到当前画面中行人有特定行为,或者摄像头230间隔预设时长时。
作为一种实施例,摄像头230在发送行人图像时,可以包括行人图像的生成时刻。
作为一种实施例,摄像头230发送行人图像时,可以将摄像头的唯一标识一并发送给终端设备210,该唯一标识可以是终端设备210为各个摄像头230分配的,或者可以是摄像头的设备标识等。或者将该摄像头所在的地点一并发送给终端设备210,这里的地点可以是摄像头安装位置,或者摄像头的监控范围等,可以是一个较大范围的地点,比如XX商场,也可以是一个具体的地点,比如XX商场一楼商铺A。
例如,请参照图10,表示一种显示行人图像的界面示意图。摄像头230采集到如图10中所示的行人图像,并将该行人图像发送给终端设备210,终端设备210可以显示到该行人图像。当用户想要对该行人图像进行分类时,可以点击该界面上的分析控件1001,终端设备210对该行人图像进行识别分类。
S902,将目标图像输入到已训练的第二图像分类模型中。
在终端设备210接收行人图像之后,终端设备210可以自动对行人图像进行识别分类,或者在用户下达识别分类的控制指令之后,对行人图像进行识别分类。终端设备210具体可以通过第二图像分类模型,对行人图像进行分类。
S903,获得目标图像所属的图像分类。
终端设备210通过第二图像分类模型,输出行人图像属于各个行人唯一标识的概率,从而确定该行人图像对应的行人唯一标识,也就是该行人图像对应的图像分类,图像分类在本申请中有些情况下也可以简称为分类。
作为一种实施例,重复上述过程,终端设备210能分析出特定场景下,多个行人图像对应的分类,可以对这些行人图像以及对应的分类直接进行关联存储。
作为一种实施例,由于一个行人可能在特定场景运动,因此终端设备210可能对多个不同时刻的行人图像进行分类,分类属于同一个行人,终端设备210可以根据这些行人图像,分析在预设时间段内,检测到该行人所到的各个地点。
一种分析方式为:
当摄像头230在发送行人图像时,发送了摄像头的标识时,终端设备210中可以预存有各个摄像头230关联的地点,当前摄像头230拍摄到该行人,那么表示该行人出现在该摄像头关联的地点,从而分析出该行人对应时刻的地点。
一种分析方式为:
当摄像头230在发送行人图像时,发送了摄像头关联的地点时,终端设备210自然能获得该行人对应的地点。
一种分析方式为:
终端设备210通过分析行人图像中的背景区域,根据背景区域分析该行人当前所在的地点。
终端设备210同样可以通过第二图像分类模型实现对行人图像中的背景区域实现,在这种情况下,第二图像分类模型的训练过程中,目标分类标签则为行人图像对应的地点。
一种分析方式为:
如果终端设备210通过实时监控画面获取目标图像,终端设备210可以通过识别监控画面中的文字等额外内容,确定该行人所在地点。
在终端设备210分析出该行人在不同时刻的地点之后,可以根据行人唯一标识,生成行人图像的时刻,行人图像等,生成行为信息。
请参照图11,表示一种生成的一个行人的行为信息的示意图。行为信息具体包括行人图像,行人所在的地点,行人的行为,对应的时间等信息。
继续参照图11,可以从该行为信息中看到行人的行人唯一标识为12345,在行人在10:00:00时,进入商铺A,该商铺A位于二楼(2F);在行人在12:00:00时,进入商铺B,该商铺B位于一楼(1F);在行人在13:00:00时,进入商铺C,该商铺A位于三楼(3F)。
作为一种实施例,行为信息还可以包括该行人对应的行为动作等。
作为一种实施例,在生成某个行人的行为信息之后,可以将这些行为信息发送给服务器220,以便服务器220根据这些行为信息,分析用户习惯,或实现对公共场合的行人进行监控。
基于同一发明构思,本申请实施例提供一种图像分类模型训练装置,请参照图12,该装置1200包括:
第一训练模块1201,用于基于第一图像样本集训练图像预测模型,图像预测模型用于估计图像被识别为目标分类的难易度,第一图像样本集包括多个第一图像样本,每个第一图像样本具有难易度目标值,且每个第一图像样本的难易度目标值是根据第一图像分类模型获得的各个第一图像样本的图像特征之间的相似关系,以及各个第一图像样本的目标分类标签获得的;
获得模块1202,用于基于图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值,每个第二图像样本具有目标分类标签;
第二训练模块1203,用于基于第二图像样本集训练第一图像分类模型,直到第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型;其中,第一图像分类模型的训练损失是对第二图像样本集中各个第二图像样本的分类损失进行加权获得的,每个第二图像样本的分类损失对应的加权权重是根据每个第二图像样本的难易度估计值确定的,第二图像样本的分类损失用于表示目标分类标签和第一图像分类模型输出的预测分类之间的误差。
在一种可能的实施例中,第二训练模块1203具体用于:
根据第一图像分类模型的训练损失,调整第一图像分类模型的模型参数;
其中,在调整第一图像分类模型的模型参数时,根据图像预测模型的训练损失,调整图像预测模型的模型参数,图像预测模型的训练损失用于表示第一图像样本的难易度估计值与第一图像样本的难易度目标值之间的误差。
在一种可能的实施例中,第一图像分类模型包括依次连接的编码单元和全连接单元;以及,第一图像分类模型针对分别输入的各个第二图像样本输出的预测分类是通过如下步骤获得的:
通过编码单元,提取输入的第二图像样本的多个图像特征;
通过全连接单元,对输入的第二图像样本的多个图像特征进行加权求和,获得输入的第二图像样本属于各个分类的概率;
将概率满足预设概率条件的分类确定为输入的第二图像样本对应的预测分类。
在一种可能的实施例中,编码单元包括依次连接的第一卷积子单元,池化子单元和第二卷积子单元;以及,
通过编码单元,提取输入的第二图像样本的多个图像特征,具体包括:
通过第一卷积子单元中多个卷积层,依次对输入的第二图像样本进行卷积处理,获得每个卷积层输出的第一中间图像特征;
通过池化子单元,对多个第一中间图像特征中每个第一中间特征图分别进行平均池化处理,获得多个第二中间图像特征;
通过第二卷积子单元,对多个第二中间图像特征分别进行卷积处理,获得多个图像特征。
在一种可能的实施例中,样本选择模型包括依次连接的隐藏单元和输出单元;以及,
基于图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值时,具体包括对每个第二图像样本的图像特征进行如下处理:
通过隐藏单元,通过设定函数对第二图像样本的图像特征进行映射,获得第二图像样本的难易度估计值;
通过输出单元,输出第二图像样本的难易度估计值。
在一种可能的实施例中,若第二图像样本的难易度估计值表征第二图像样本中的目标分类难度越大,则第二图像样本的分类损失对应的加权权重越大;
若第二图像样本的难易度估计值表征第二图像样本中的目标分类难度越小,则第二图像样本的分类损失对应的加权权重越小。
在一种可能的实施例中,每个第一图像样本具有难易度目标值是通过如下步骤获得的:
根据输入的第一图像样本的图像特征,确定输入的第一图像样本与第一图像样本集中其余图像样本中每个图像样本的相似度,并将满足预设阈值的图像样本预测为与输入的第一图像样本属于同一类的预测正样本集;
根据每个图像样本的目标分类标签,确定从预测正样本集中确定出正确分类的目标正样本集中包括的图像样本数量;
根据目标正样本集中包括的图像样本数量,确定出每个目标正样本对应的最大精确度;
确定各个目标正样本对应的最大精确度的平均值,获得平均精确度;第一图像样本的真实难易度为平均精确度。
在一种可能的实施例中,每个第一图像样本具有难易度目标值分别是通过如下步骤获得的:
根据每个第一图像样本对应的目标分类标签,确定出第一图像样本集中的相关样本和不相关样本;其中,相关样本是第一图像样本集中与输入的第一图像样本属于同一分类的样本,不相关样本是第一图像样本集中与输入的第一图像样本属于不同分类的样本;
根据第一图像样本集中各个图像样本的图像特征,确定相关样本到输入的第一图像样本的距离,和不相关样本到输入的第一图像样本的距离之间的距离差;
根据距离差,确定出输入的第一图像样本的三元组损失;输入的第一图像样本的真实难易度为图像样本的三元组损失。
基于同一发明构思,本申请实施例提供一种图像分类装置,请参照图13,该装置1300包括:
获取模块1301,用于获取待识别的目标图像;
输入模块1302,用于将目标图像输入到已训练的第二图像分类模型中,其中,第二图像分类模型是通过第一方面中任一项的方法训练得到的;
获得模块1303,用于获得目标图像所属的图像分类。
在一种可能的实施例中,目标图像为包含第一行人的图像,目标图像所属的图像分类为目标图像中的第一行人对应的行人唯一标识;装置还包括生成模块1304,其中:
获得模块1303,还用于获得在预设时间段内,检测到第一行人所到的各个地点;
生成模块1304,用于将每个地点与对应的包含第一行人的目标图像关联,生成第一行人的行为信息。
基于同一发明构思,本申请实施例还提供了一种计算设备。
请参照图14,计算设备1400以通用计算设备的形式表现。计算设备1400的组件可以包括但不限于:至少一个处理器1410、至少一个存储器1420、连接不同系统组件(包括处理器1410和存储器1420)的总线1430。
总线1430表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器1420可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1421和/或高速缓存存储器1422,还可以进一步包括只读存储器(ROM)1423。
存储器1420还可以包括具有一组(至少一个)程序模块1425的程序/实用工具1426,这样的程序模块1425包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1410用于执行存储器1420存储的程序指令等实现前文论述的图像分类模型训练方法,或图像分类方法。另外,处理器1410用于执行存储器1420存储的程序指令等还可以实现前文论述的图像分类模型装置或图像分类装置的功能。
计算设备1400也可以与一个或多个外部设备1440(例如键盘、指向设备等)通信,还可与一个或者多个使得终端设备210能与计算设备1400交互的设备通信,和/或与使得该计算设备1400能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且,服务器220还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1460通过总线1430与用于计算设备1400的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备1400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行前文论述的图像分类模型训练方法,或图像分类方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种图像分类模型训练方法,其特征在于,包括:
基于第一图像样本集训练图像预测模型,所述图像预测模型用于估计图像被识别为目标分类的难易度,所述第一图像样本集包括多个第一图像样本,每个第一图像样本具有难易度目标值,且每个第一图像样本的难易度目标值是根据第一图像分类模型获得的各个第一图像样本的图像特征之间的相似关系,以及各个第一图像样本的目标分类标签获得的;
基于所述图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值,每个第二图像样本具有目标分类标签;
基于第二图像样本集训练所述第一图像分类模型,直到所述第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型;其中,所述第一图像分类模型的训练损失是对所述第二图像样本集中各个第二图像样本的分类损失进行加权获得的,每个第二图像样本的分类损失对应的加权权重是根据每个第二图像样本的难易度估计值确定的,第二图像样本的分类损失用于表示目标分类标签和所述第一图像分类模型输出的预测分类之间的误差。
2.如权利要求1所述的方法,其特征在于,基于第二图像样本集训练所述第一图像分类模型,具体包括:
根据所述第一图像分类模型的训练损失,调整第一图像分类模型的模型参数;
其中,在调整所述第一图像分类模型的模型参数时,根据所述图像预测模型的训练损失,调整所述图像预测模型的模型参数,所述图像预测模型的训练损失用于表示第一图像样本的难易度估计值与第一图像样本的难易度目标值之间的误差。
3.如权利要求1所述的方法,其特征在于,所述第一图像分类模型包括依次连接的编码单元和全连接单元;以及,所述第一图像分类模型针对分别输入的各个第二图像样本输出的预测分类是通过如下步骤获得的:
通过所述编码单元,提取输入的第二图像样本的多个图像特征;
通过所述全连接单元,对输入的第二图像样本的多个图像特征进行加权求和,获得输入的第二图像样本属于各个分类的概率;
将概率满足预设概率条件的分类确定为输入的第二图像样本对应的预测分类。
4.如权利要求3所述的方法,其特征在于,所述编码单元包括依次连接的第一卷积子单元,池化子单元和第二卷积子单元;以及,
通过所述编码单元,提取输入的第二图像样本的多个图像特征,具体包括:
通过所述第一卷积子单元中多个卷积层,依次对输入的第二图像样本进行卷积处理,获得每个卷积层输出的第一中间图像特征;
通过所述池化子单元,对多个第一中间图像特征中每个第一中间特征图分别进行平均池化处理,获得多个第二中间图像特征;
通过所述第二卷积子单元,对所述多个第二中间图像特征分别进行卷积处理,获得所述多个图像特征。
5.如权利要求1所述的方法,其特征在于,所述样本选择模型包括依次连接的隐藏单元和输出单元;以及,
基于所述图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值时,具体包括对每个第二图像样本的图像特征进行如下处理:
通过所述隐藏单元,通过设定函数对第二图像样本的图像特征进行映射,获得第二图像样本的难易度估计值;
通过所述输出单元,输出第二图像样本的难易度估计值。
6.如权利要求5所述的方法,其特征在于,若第二图像样本的难易度估计值表征第二图像样本中的目标分类难度越大,则第二图像样本的分类损失对应的加权权重越大;
若第二图像样本的难易度估计值表征第二图像样本中的目标分类难度越小,则第二图像样本的分类损失对应的加权权重越小。
7.如权利要求5所述的方法,其特征在于,每个第一图像样本具有难易度目标值是通过如下步骤获得的:
根据输入的第一图像样本的图像特征,确定输入的第一图像样本与所述第一图像样本集中其余图像样本中每个图像样本的相似度,并将满足预设阈值的图像样本预测为与输入的第一图像样本属于同一类的预测正样本集;
根据每个图像样本的目标分类标签,确定从所述预测正样本集中确定出正确分类的目标正样本集中包括的图像样本数量;
根据所述目标正样本集中包括的图像样本数量,确定出每个目标正样本对应的最大精确度;
确定各个目标正样本对应的最大精确度的平均值,获得平均精确度;第一图像样本的真实难易度为所述平均精确度。
8.如权利要求5所述的方法,其特征在于,每个第一图像样本具有难易度目标值分别是通过如下步骤获得的:
根据每个第一图像样本对应的目标分类标签,确定出所述第一图像样本集中的相关样本和不相关样本;其中,所述相关样本是所述第一图像样本集中与输入的第一图像样本属于同一分类的样本,所述不相关样本是所述第一图像样本集中与输入的第一图像样本属于不同分类的样本;
根据第一图像样本集中各个图像样本的图像特征,确定所述相关样本到输入的第一图像样本的距离,和所述不相关样本到输入的第一图像样本的距离之间的距离差;
根据所述距离差,确定出输入的第一图像样本的三元组损失;输入的第一图像样本的真实难易度为图像样本的三元组损失。
9.一种图像分类方法,其特征在于,包括:
获取待识别的目标图像;
将所述目标图像输入到已训练的第二图像分类模型中,其中,所述第二图像分类模型是通过如权利要求1~8中任一项所述的方法训练得到的;
获得所述目标图像所属的图像分类。
10.如权利要求9所述的方法,其特征在于,所述目标图像为包含第一行人的图像,所述目标图像所属的图像分类为所述目标图像中的第一行人对应的行人唯一标识,所述方法还包括:
获得在预设时间段内,检测到所述第一行人所到的各个地点;
将每个地点与对应的包含所述第一行人的目标图像关联,生成所述第一行人的行为信息。
11.一种图像分类模型训练装置,其特征在于,包括:
第一训练模块,用于基于第一图像样本集训练图像预测模型,所述图像预测模型用于估计图像被识别为目标分类的难易度,所述第一图像样本集包括多个第一图像样本,每个第一图像样本具有难易度目标值,且每个第一图像样本的难易度目标值是根据第一图像分类模型获得的各个第一图像样本的图像特征之间的相似关系,以及各个第一图像样本的目标分类标签获得的;
获得模块,用于基于所述图像预测模型获得第二图像样本集中每个第二图像样本的难易度估计值,每个第二图像样本具有目标分类标签;
第二训练模块,用于基于第二图像样本集训练所述第一图像分类模型,直到所述第一图像分类模型的训练损失满足目标损失,获得第二图像分类模型;其中,所述第一图像分类模型的训练损失是对所述第二图像样本集中各个第二图像样本的分类损失进行加权获得的,每个第二图像样本的分类损失对应的加权权重是根据每个第二图像样本的难易度估计值确定的,第二图像样本的分类损失用于表示目标分类标签和所述第一图像分类模型输出的预测分类之间的误差。
12.一种图像分类装置,其特征在于,包括:
获取模块,用于获取待识别的目标图像;
输入模块,用于将所述目标图像输入到已训练的第二图像分类模型中,其中,所述第二图像分类模型是通过如权利要求1~8中任一项所述的方法训练得到的;
获得模块,用于获得所述目标图像所属的图像分类。
13.一种计算设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1~8或9~10中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1~8或9~10中任一项所述的方法。
CN202010114941.3A 2020-02-25 2020-02-25 一种图像分类模型训练方法、图像分类方法、装置及计算设备 Pending CN111340105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010114941.3A CN111340105A (zh) 2020-02-25 2020-02-25 一种图像分类模型训练方法、图像分类方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010114941.3A CN111340105A (zh) 2020-02-25 2020-02-25 一种图像分类模型训练方法、图像分类方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN111340105A true CN111340105A (zh) 2020-06-26

Family

ID=71185584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010114941.3A Pending CN111340105A (zh) 2020-02-25 2020-02-25 一种图像分类模型训练方法、图像分类方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN111340105A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950647A (zh) * 2020-08-20 2020-11-17 连尚(新昌)网络科技有限公司 分类模型训练方法和设备
CN112183663A (zh) * 2020-10-26 2021-01-05 北京达佳互联信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN112560987A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 图像样本处理方法、装置、设备、存储介质和程序产品
CN112861975A (zh) * 2021-02-10 2021-05-28 北京百度网讯科技有限公司 分类模型的生成方法、分类方法、装置、电子设备与介质
CN113205082A (zh) * 2021-06-22 2021-08-03 中国科学院自动化研究所 基于采集不确定性解耦的鲁棒虹膜识别方法
CN113947701A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 训练方法、对象识别方法、装置、电子设备以及存储介质
CN114445811A (zh) * 2022-01-30 2022-05-06 北京百度网讯科技有限公司 一种图像处理方法、装置及电子设备
CN114581751A (zh) * 2022-03-08 2022-06-03 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN117011890A (zh) * 2023-07-10 2023-11-07 三峡科技有限责任公司 一种基于改进YOLOv7模型的施工人员防护用品检测方法
CN117197781A (zh) * 2023-11-03 2023-12-08 之江实验室 一种交通标志识别的方法、装置、存储介质及电子设备
CN117611932A (zh) * 2024-01-24 2024-02-27 山东建筑大学 基于双重伪标签细化和样本重加权的图像分类方法及系统
US12026937B2 (en) 2021-02-10 2024-07-02 Beijing Baidu Netcom Science Technology Co., Ltd. Method for generating classification model, electronic device, and medium

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950647A (zh) * 2020-08-20 2020-11-17 连尚(新昌)网络科技有限公司 分类模型训练方法和设备
CN112183663A (zh) * 2020-10-26 2021-01-05 北京达佳互联信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN112560987A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 图像样本处理方法、装置、设备、存储介质和程序产品
CN112861975B (zh) * 2021-02-10 2023-09-26 北京百度网讯科技有限公司 分类模型的生成方法、分类方法、装置、电子设备与介质
CN112861975A (zh) * 2021-02-10 2021-05-28 北京百度网讯科技有限公司 分类模型的生成方法、分类方法、装置、电子设备与介质
US12026937B2 (en) 2021-02-10 2024-07-02 Beijing Baidu Netcom Science Technology Co., Ltd. Method for generating classification model, electronic device, and medium
CN113205082A (zh) * 2021-06-22 2021-08-03 中国科学院自动化研究所 基于采集不确定性解耦的鲁棒虹膜识别方法
CN113947701B (zh) * 2021-10-18 2024-02-23 北京百度网讯科技有限公司 训练方法、对象识别方法、装置、电子设备以及存储介质
CN113947701A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 训练方法、对象识别方法、装置、电子设备以及存储介质
CN114445811A (zh) * 2022-01-30 2022-05-06 北京百度网讯科技有限公司 一种图像处理方法、装置及电子设备
CN114581751A (zh) * 2022-03-08 2022-06-03 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN114581751B (zh) * 2022-03-08 2024-05-10 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN117011890A (zh) * 2023-07-10 2023-11-07 三峡科技有限责任公司 一种基于改进YOLOv7模型的施工人员防护用品检测方法
CN117011890B (zh) * 2023-07-10 2024-07-05 三峡科技有限责任公司 一种基于改进YOLOv7模型的施工人员防护用品检测方法
CN117197781A (zh) * 2023-11-03 2023-12-08 之江实验室 一种交通标志识别的方法、装置、存储介质及电子设备
CN117197781B (zh) * 2023-11-03 2024-04-05 之江实验室 一种交通标志识别的方法、装置、存储介质及电子设备
CN117611932A (zh) * 2024-01-24 2024-02-27 山东建筑大学 基于双重伪标签细化和样本重加权的图像分类方法及系统
CN117611932B (zh) * 2024-01-24 2024-04-26 山东建筑大学 基于双重伪标签细化和样本重加权的图像分类方法及系统

Similar Documents

Publication Publication Date Title
CN111340105A (zh) 一种图像分类模型训练方法、图像分类方法、装置及计算设备
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
WO2023280065A1 (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN110209859B (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN109978893A (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Hussain et al. Multiview summarization and activity recognition meet edge computing in IoT environments
CN111985343A (zh) 一种行为识别深度网络模型的构建方法及行为识别方法
CN107818307B (zh) 一种基于lstm网络的多标签视频事件检测方法
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
Zhang et al. Fast face detection on mobile devices by leveraging global and local facial characteristics
CN113822254B (zh) 一种模型训练方法及相关装置
CN111209897A (zh) 视频处理的方法、装置和存储介质
CN111898703A (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN110287848A (zh) 视频的生成方法及装置
Zhang et al. Learning intra-video difference for person re-identification
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN112633377A (zh) 一种基于生成对抗网络的人体行为预测方法及系统
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
Zhang et al. Hashgan: Attention-aware deep adversarial hashing for cross modal retrieval
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115203471A (zh) 一种基于注意力机制的多模融合视频推荐方法
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024402

Country of ref document: HK

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200626