CN114155420B - 一种场景识别模型训练方法、装置、设备及介质 - Google Patents
一种场景识别模型训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114155420B CN114155420B CN202111342770.0A CN202111342770A CN114155420B CN 114155420 B CN114155420 B CN 114155420B CN 202111342770 A CN202111342770 A CN 202111342770A CN 114155420 B CN114155420 B CN 114155420B
- Authority
- CN
- China
- Prior art keywords
- scene
- sample image
- feature vector
- target
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 479
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种场景识别模型训练方法、装置、设备及介质,由于本申请中,样本集中既包含已知场景类别的第一样本图像,还包含未知场景类别的第二样本图像,并将样本集中包含的每个样本图像都输入到原始识别模型中,针对每个第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,并针对每个第二样本图像,获取该第二样本图像的第二特征向量,也就是说,只基于原始识别模型提取第二样本图像的第二特征向量,而不让原始识别模型对第二样本图像的特征进行学习,有效保证后续基于训练完成的场景识别模型识别未知场景类别的图像的场景类别时,不将未知场景类别的图像划分到错误的场景类别中,提高了场景类别的识别精度。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种场景识别模型训练方法、装置、设备及介质。
背景技术
随着智能设备的快速发展,人们日常观看的视频图像越来越多,视频内容涉及到的产品也越来越丰富。自动识别并分类图像的场景类别有助于帮助机器更好的理解图像,并且帮助下游算法开发针对不同场景的功能。
现有技术中,大部分基于神经网络的场景识别模型都是在封闭的图像集中训练和测试的,即系统默认只能识别封闭训练图像集中包含的场景种类,然而在实际应用中,真实的图像类别是不可穷举的,面对未知场景类别的图像,若基于封闭的图像集训练完成的场景识别模型,识别未知场景类别的图像对应的场景,则可能将该未知类别的图像划分到错误的场景类别中,影响模型识别场景类别的精度,进而影响下游算法的处理。
发明内容
本申请提供了一种场景识别模型训练方法、装置、设备及介质,用以解决现有技术中基于封闭的图像集训练完成的场景识别模型识别未知场景类别的图像的场景时,可能将该未知场景类别的图像划分到错误的场景类别中,影响模型识别的精度的问题。
本申请提供了一种场景识别模型训练方法,所述方法包括:
获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;
将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
进一步地,确定保存的场景类别对应的类中心特征向量包括:
根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;
若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;
若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
进一步地,所述根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量包括:
针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
进一步地,所述根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值包括:
确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵;
将所述交叉熵与预设的第二数值的第一乘积,确定为第一子损失值。
进一步地,所述根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值包括:
确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;
将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
进一步地,所述根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值包括:
确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;
将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;
将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
进一步地,所述根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值包括:
确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;
将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;
将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
进一步地,将目标欧式距离与预设的数值的乘积确定为子损失值包括:
确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度;
根据目标欧式距离与预设的第二权重值、所述余弦相似度与预设的第三权重值,确定权重和,将所述权重和确定为子损失值。
本申请还提供了一种显示设备,该显示设备包括:
控制器,所述控制器用于执行:
接收待识别图像,基于预先训练完成的场景识别模型,识别所述待识别图像所归属的目标场景类别;
输出模块,用于输出所述目标场景类别。
本申请还提供了一种场景识别模型训练装置,该装置包括:
获取模块,用于获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
训练模块,用于针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
进一步地,所述获取模块,还用于根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
进一步地,所述获取模块,具体用于针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
进一步地,所述训练模块,具体用于确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵;将所述交叉熵与预设的第二数值的第一乘积,确定为第一子损失值。
进一步地,所述训练模块,具体用于确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
进一步地,所述训练模块,具体用于确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
进一步地,所述训练模块,具体用于确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
进一步地,所述训练模块,具体用于确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度;根据目标欧式距离与预设的第二权重值、所述余弦相似度与预设的第三权重值,确定权重和,将所述权重和确定为子损失值。
本申请还提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述场景识别模型训练方法的步骤。
本申请还提供了一种计算机可读存储介质,其存储有可由终端执行的计算机程序,当所述程序在所述终端上运行时,使得所述终端执行上述任一项所述场景识别模型训练方法的步骤。
由于本申请中,在对原始场景识模型进行训练时,样本集中既包含已知场景类别的第一样本图像,还包含未知场景类别的第二样本图像,并将样本集中包含的每个样本图像都输入到原始识别模型中,针对每个第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,并针对每个第二样本图像,获取该第二样本图像的第二特征向量,也就是说,只基于该原始识别模型提取该第二样本图像的第二特征向量,而不让原始识别模型对该第二样本图像的特征进行学习,能够有效的保证后续在基于训练完成的场景识别模型识别未知场景类别的图像的场景类别时,不会将该未知场景类别的图像划分到错误的场景类别中,提高了场景类别的识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一些实施例提供的一种场景识别模型训练方法的过程示意图;
图2为本申请一些实施例提供的场景识别模型训练的过程示意图;
图3为本申请一些实施例提供的一种原始场景识别模型的结构示意图;
图4为本申请一些实施例提供的一种显示设备的结构示意图;
图5为本申请一些实施例提供的一种场景识别模型训练装置结构示意图;
图6为本申请一些实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请中,获取样本集中的每个样本图像及每个样本图像对应的标签,该标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值,将该样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量,针对每个第一样本图像,根据该第一样本图像的该场景概率向量以及保存的该第一样本图像的标签中标识的场景类别对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,该目标场景类别为根据该目标场景类别值确定的,根据该第一样本图像的第一特征向量以及保存的除该目标场景类别值以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值,根据该第一子损失值、该第二子损失值、该第三子损失值以及该第四子损失值,确定目标损失值,根据该目标损失值,对该原始场景识别模型进行训练。
实施例1:
为了保证在识别未知场景类别的图像对应的场景类别时,不会将该未知场景类别的图像划分到错误的场景类别中,提高场景类别的识别精度,本申请实施例提供了一种场景识别模型训练方法、装置、设备及介质。
图1为本申请一些实施例提供的一种场景识别模型训练方法的过程示意图,该过程包括以下步骤:
S101:获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值。
本申请实施例提供的场景识别模型训练方法应用于电子设备,该电子设备可以为智能终端、PC或者服务器等等。
在本申请中,为了获得精度高的场景识别模型,预先配置有样本集,并根据样本集中包含的每个样本图像对该场景识别模型进行训练。为了保证在识别未知场景类别的图像对应的场景类别时,不会将该未知场景类别的图像划分到错误的场景类别中,样本集中除了包含已知场景类别的样本图像,还包含未知场景类别的样本图像。其中,该已知场景类别包含跳舞场景、唱歌场景以及游戏场景等等。
在本申请中,为了便于后续对场景识别模型进行训练,样本集中除了包含各个样本图像以外,还包含各个样本图像对应的标签,其中,该标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值。在本申请中,预先针对每种已知的场景类别设置了对应的场景类别值,比如,若已知场景类别包含游戏场景类别和唱歌场景类别,则可以将游戏场景类别对应的场景类别值设置为1,将唱歌场景类别对应的场景类别值设置为0.8,具体的,该已知场景类别对应的场景类别值根据需求进行设置,不同的场景类别对应的场景类别值不同。若样本图像为未知场景类别的样本图像,那该样本图像携带的标签可以为明显区别于已知场景类别的标签,具体的,可以将已知场景类别对应的场景类别值设为数值,将未知场景类别对应的标签设置为字符等等,具体的,该未知场景类别的标签根据需求进行设置。
S102:将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量。
为了对原始场景识别模型进行训练,在本申请中,在获得样本集后,将该样本集中的每个样本图像依次都输入到该原始场景识别模型中,为了便于描述,将样本集中包含的样本图像中已知场景类别对应的样本图像称为第一样本图像,将样本集中包含的样本图像中未知场景类别对应的样本图像称为第二样本图像。
针对每个已知场景类别对应的第一样本图像,该原始场景识别模型获得该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,其中,该第一特征向量中的各个分量为该第一样本图像对应的各个特征对应的特征值,该目标场景类别值为该原始场景识别模型预测的该第一样本图像的目标场景类别对应的类别值,比如,若预测该第一样本图像对应的目标场景类别为游戏场景类别,则该第一样本图像对应的目标场景类别值为1。其中,该场景概率向量包括该第一样本图像分别归属于每个场景类别的概率值,该每个场景类别是由样本集中各个样本图像所归属的场景类别确定的。
针对每个未知场景类别对应的第二样本图像,为了避免该原始识别模型对第二样本图像的未知场景类别进行学习,在本申请中,针对每个第二样本图像,该原始识别模型,不对该第二样本图像进行场景类别识别,也就是说,不确定该第二样本图像对应的目标场景类别值以及场景概率向量,只获取该第二样本图像的第二特征向量,其中,该第二特征向量中的各个分量为该第二样本图像对应的各个特征对应的特征值。
S103:针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
在本申请中,由于样本集中样本图像均对应有标签,即标识了对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值,因此,在本申请中,可以在获取了样本集中包含的第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,以及第二样本图像的第二特征向量后,对原始场景识别模型进行训练。
由于原始场景识别模型是否训练完成的标准为该原始场景识别模型当前的每个第一样本图像对应的损失值是否达到收敛条件,若是,则说明当前训练的原始场景识别模型拥有较高的识别能力,识别准确率较高,因此可以确定该原始场景模型训练完成。在本申请中,为了完成对该原始场景模型的训练,在确定样本集中包含的第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,以及第二样本图像的第二特征向量后,可以根据该第一样本图像的第一特征向量、目标场景类别以及场景概率向量,以及第二样本图像的第二特征向量确定目标损失值,根据该目标损失值,对该原始场景识别模型进行训练。
具体的,在本申请中针对每个已知场景类别,保存有该场景类别的场景类别值对应的向量,在确定目标损失值的过程中,若该第一样本图像的场景概率向量与保存的该第一样本图像的标签中标识的场景类别值对应的向量越接近,则说明当前场景识别模型的识别准确率越高,此时目标损失值也越小。因此可以根据该第一样本图像的场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值。其中,该第一子损失值为目标损失值的一部分。
具体的,可以根据该第一样本图像的场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量之间的欧式距离,确定为第一子损失值,还可以确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量之间的第一差值向量,并将该第一差值向量对应的模长确定为第一子损失值,其中,该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量越接近,该第一差值向量对应的模长越小,该第一子损失值越小。
其中,该第一差值向量中包含的分量的数目与场景概率向量包含的分量的数目、保存的场景类别值对应的向量包含的分量的数目相同。
由于该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量越接近,则说明当前场景识别模型的识别准确率越高,此时目标损失值越小,因此还可以根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,该第二子损失值为该目标损失值的一部分。其中,该第一样本图像的目标场景类别为根据预先保存的场景类别值与场景类别的对应关系以及该第一样本图像的目标场景类别值确定的,具体的,因为第一样本图像的目标场景类别值已经确定,则根据预先保存的场景类别值与场景类别的对应关系,确定该目标场景类别值对应的目标场景类别。
具体的,可以确定该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第二差值向量,并将该第二差值向量对应的模长确定为第二子损失值,其中,该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量越接近,该第二差值向量对应的模长越小,该第二子损失值越小。
其中,该第二差值向量中包含的分量的数目与第一特征向量包含的分量的数目、保存的目标场景类别对应的第一类中心特征向量包含的分量的数目相同。
由于该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量越远,则说明当前场景识别模型的识别准确率越高,此时目标损失值越小,因此可以根据该第一样本图像的第一特征向量以及保存的除该第一样本图像对应的目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,其中,该第三子损失值为该目标损失值的一部分。
具体的,可以确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量之间的第三差值向量,并将该第三差值向量对应的模长对应的负数确定为第三子损失值。
其中,该第三差值向量中包含的分量的数目与第一特征向量包含的分量的数目、保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量包含的分量的数目相同。
由于该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量越远,则说明当前场景识别模型的识别准确率越高,此时目标损失值越小,因此可以根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值,其中,该第四子损失值为该目标损失值的一部分。
具体的,可以确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量的平均向量之间的第四差值向量,并将该第四差值向量对应的模长的负数确定为第四子损失值。
其中,该第四差值向量中包含的分量的数目与第一特征向量包含的分量的数目、每个第二样本图像的第二特征向量的平均向量包含的分量的数目相同。
为了确定目标损失,在本申请中,根据第一子损失值、第二子损失值、第三子损失值以及第四子损失值,确定目标损失值,具体的,可以根据第一子损失值以及预设的第一权重、第二子损失值以及预设的第二权重、第三子损失值以及预设的第三权重、第四子损失值以及预设的第四权重,确定权重和,将该权重和确定为目标损失值,基于该目标损失值,对该原始场景识别模型进行训练。还可以将该第一子损失值、第二子损失值、第三子损失值以及第四子损失值中最大的损失值确定为目标损失值,基于该目标损失值,对该原始场景识别模型进行训练。
由于本申请中,在对原始场景识模型进行训练时,样本集中既包含已知场景类别的第一样本图像,还包含未知场景类别的第二样本图像,并将样本集中包含的每个样本图像都输入到原始识别模型中,针对每个第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,并针对每个第二样本图像,获取该第二样本图像的第二特征向量,也就是说,只基于该原始识别模型提取该第二样本图像的第二特征向量,而不让原始识别模型对该第二样本图像的特征进行学习,能够有效的保证后续在基于训练完成的场景识别模型识别未知场景类别的图像的场景类别时,不会将该未知场景类别的图像划分到错误的场景类别中,提高了场景类别的识别精度。
实施例2:
为了确定保存的每个场景类别对应的类中心特征向量,在上述实施例的基础上,在本申请实施例中,确定保存的场景类别对应的类中心特征向量包括:
根据每个第一样本图像的目标场景类别,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;
若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;
若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值向量以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
为了确定每个场景类别对应的类中心特征向量并保存,在本申请中,在将样本集中的每个样本图像输入到原始场景识别模型中,获得每个第一样本图像的目标场景类别值之后,可以先根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中。其中,被划分到同一场景类别中的第一样本图像的目标类别值相同,但是场景类别值不一定相同,也就是对应的目标场景类别是相同,但场景类别不一样相同。针对划分后得到的每个场景类别,也就是同一目标场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量,具体的,可以将该场景类别中包含的所有第一样本图像对应的第一特征向量的平均向量确定为该候选类中心特征向量。
由于在对原始场景识别模型进行训练的过程中,是基于很多个样本集对该原始场景识别模型进行多次训练的,也就是说,将该多个样本集依次输入到该场景识别模型中进行训练。为了便于描述,将第一次输入到原始模型中进行训练的样本集称为第一次用于训练的样本集,将除了该第一次用于训练的样本集以外的,后续需要依次进入该场景识别模型中进行训练的其他样本集称为非第一次用于训练的样本集。
在确定该候选类中心特征向量后,若当前用于训练原始场景识别模型中的样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新。
若当前用于训练原始场景识别模型中的样本集非第一次用于训练的样本集,为了确定每个场景类别对应的类中心特征向量,可以针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据该差值向量以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
具体的,针对每个场景类别,根据该场景类别的候选类中心特征向量,确定保存的该场景类别的类中心特征向量的过程,可通过如下公式表示:
其中,n表征第几次进行模型训练,为更新后的保存的该场景类别i 对应的类中心特征向量,/>为场景类别i对应的候选类中心特征向量,/>为更新前的保存的该场景类别i对应的类中心特征向量,W为预设的第一数值。
为了确定场景类别对应的候选类中心特征向量,在上述各实施例的基础上,在本申请实施例中,所述根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量包括:
针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
在本申请中,针对每个场景类别,确定该场景类别中包含的每个第一样本图像后,可以基于该每个第一样本图像的第一特征向量,确定该场景类别对应的候选类中心特征向量,具体的,可以根据每个第一样本图像的第一特征向量以及预设的第一权重值,确定加权平均向量,将该加权平均向量确定为该场景类别对应的候选类中心特征向量。
由于在将各个第一样本图像划分到对应的场景类别时,可能会出现划分错误的情况,也就是说,该第一样本图像中可能存在被错误识别场景类别的样本图像,此时,被错误识别的第一样本图像的目标场景类别值与标签中标识的场景类别值不一致,若直接基于每个第一样本图像的第一特征向量,确定该样本类别对应的候选类中心特征向量,则影响确定的该场景类别对应的候选类中心特征向量的准确性。因此,在本申请中,为了避免被识别错误而影响确定的候选类中心特征向量的准确性,可以先针对该场景类别中包含的每个第一样本图像,确定目标场景类别值与标签中标识的场景类别值一致的第一样本图像,该目标场景类别值与标签中标识的场景类别值一致的第一样本图像也就是目标第一样本图像,其中,该目标第一样本图像为被正确识别场景类别的第一样本图像。在确定该场景类别对应的目标第一样本图像后,基于该目标第一样本图像的第一特征向量,确定该样本类别对应的候选类中心特征向量。
具体的,可以根据每个目标第一样本图像的第一特征向量以及预设的第一权重值,确定加权平均向量,将该加权平均向量确定为该场景类别对应的候选类中心特征向量。其中,该预设的第一权重值可以为根据需求进行设置的,还可以为通过原始场景识别模型,获取目标第一样本图像归属于该场景类别的概率值。
具体的,若该预设的第一权重值根据需求进行设置的,则根据目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量时,可通过如下公式确定:
其中,Ci为场景类别i的候选类中心特征向量,为被正确识别为场景类别 i的第j个目标第一样本图像的第一特征向量,/>为被正确识别为场景类别i的目标第一样本图像的数量,预设的第一权重值为1。
若通过当前原始场景识别模型,将目标第一样本图像归属于该场景类别的概率值确定为该目标第一样本图像的第一权重值,则根据目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量时,可通过如下公式确定:
其中,Ci为场景类别i的候选类中心特征向量,为被正确识别为场景类别 i的第j个目标第一样本图像的第一特征向量,/>为被正确识别为场景类别i的目标第一样本图像的数量,/>为通过当前原始场景识别模型,获取的第j个目标第一样本图像归属于场景类别i的概率值。
实施例3:
为了确定第一子损失值,在上述各实施例的基础上,在本申请实施例中,所述根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值包括:
确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵;
将所述交叉熵与预设的第二数值的第一乘积,确定为第一子损失值。
为了确定第一子损失值,在本申请中,可以针对每个第一样本图像,先确定该第一样本图像的场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵,然后将交叉熵与预设的第二数值的第一乘积,确定为该第一样本图像对应的第一子损失值,其中,该预设的第二数值大于0,且该预设的第二数值可以根据需求进行设置。
其中,确定向量的交叉熵的过程为现有技术,在此不做赘述。
具体的,根据以下公式,确定第一子损失值:
其中,为第一子损失值,y为场景概率向量,/>为该第一样本图像的标签中标识的场景类别值对应的向量,ω1为预设的第二数值。
为了确定第二子损失值,在上述各实施例的基础上,在本申请实施例中,所述根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值包括:
确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;
将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
在本申请中,为了确定第二子损失值,可以针对每个第一样本图像,先确定该第一样本图像的第一特征向量与该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离,然后将该第一目标欧式距离与预设的第三数值的第二乘积确定为该第一样本图像对应的第二子损失值,其中,该预设的第三数值大于0,且该预设的第三数值根据需求进行设置。
其中,确定欧式距离的过程为现有技术,在此不做赘述。
具体的,根据以下公式,确定第二子损失值:
其中,为第二子损失值,xi为第一样本图像的第一特征向量,Ci为该第一样本图像所属的目标场景类别对应的第一类中心特征向量,ω2为预设的三数值,d(xi,Ci)为xi与Ci的第一目标欧式距离。
为了确定第三子损失值,在上述各实施例的基础上,在本申请实施例中,所述根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值包括:
确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;
将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;
将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
在本申请中,为了确定第三子损失值,针对每个第一样本图像,可以先确定该第一样本图像的第一特征向量以及保存的除该目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离,然后将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离,将该第二目标欧式距离与预设的第四数值的第三乘积确定为该第一样本图像对应的第三子损失值。其中,该预设的第四数值小于0。
确定欧式距离的过程为现有技术,在此不做赘述。
具体的,根据以下公式,确定第三子损失值:
其中,为第三子损失值,xi为第一样本图像的第一特征向量,Cm为保存的除该目标场景类别以外的其他场景类别中的第m个场景类别对应的第二类中心特征向量,ω3为预设的第四数值,d(xi,Cm)为xi与Cm之间的第二目标欧式距离,M为保存的除该目标场景类别以外的其他场景类别的总数目。
为了确定第四子损失值,在上述各实施例的基础上,在本申请实施例中,所述根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值包括:
确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;
将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;
将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
由于该训练集中的未知场景的第二样本图像存在多个,在本申请中,为了确定第四子损失值,可以先根据每个第二样本图像对应的第二特征值向量,确定平均向量,然后针对每个第一样本图像,确定该第一样本图像的第一特征值向量与该平均向量之间的目标欧氏距离,将该目标欧式距离确定为该第一样本图像对应的第四子损失值。
在本申请中,为了确定第四子损失值,还可以针对每个第一样本图像,先确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离,将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离,然后将该第三目标欧式距离与预设的第五数值的第四乘积确定为该第一样本图像对应的第四子损失值。其中,该预设的第五数值小于0。
其中,该欧式距离的过程为现有技术,在此不做赘述。
具体的,根据以下公式,确定第四子损失值:
其中,为第四子损失值,xi为第一样本图像的第一特征向量,Ck为第K 个第二样本图像的第二特征向量,ω4为预设的第五数值,d(xi,Ck)为xi与Ck之间的第二目标欧式距离,N为第二样本图像的总数目。
为了确定子损失值,在上述各实施例的基础上,在本申请实施例中,将目标欧式距离与预设的数值的乘积确定为子损失值包括:
确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度;
根据目标欧式距离与预设的第二权重值、所述余弦相似度与预设的第三权重值,确定权重和,将所述权重和确定为子损失值。
在本申请中,可以直接将目标欧式距离与预设的数值的乘积确定为子损失值,也就是说,可以将第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值,将第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值,将第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
由于欧式距离代表两个向量在绝对距离上的靠近程度,余弦相似度代表两个向量在方向上的靠近程度,因此为了提高确定第二子损失值、第三子损失值以及第四子损失值的准确性,还可以将目标欧式距离与预设的数值的乘积确定为目标欧式距离之后,确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度,然后根据目标欧式距离与预设的第二权重值、该余弦相似度与预设的第三权重值,确定权重和,将该权重和确定为子损失值。
其中,确定余弦相似度的过程为现有技术,在此不做赘述。
具体的,在确定子损失值时,假设第一样本图像的第一特征向量为(a,b), 保存的场景类别对应的类中心特征向量为(ai,bi),则可以根据目标欧式距离以及预设的权重值确定:
其中,d(x,yi)表示第一样本图像的第一特征向量x与第i个场景类别的类保存的场景类别对应的类中心特征向量之间的目标欧式距离,α1为预设的权重值。
在根据目标欧式距离与余弦相似度,确定子损失值时,可以通过如下公式确定:
其中,d(x,yi)表示第一样本图像的第一特征向量x与第i个场景类别的类保存的场景类别对应的类中心特征向量之间的目标欧式距离,cos_sim(x,yi) 表示第一样本图像的第一特征向量x与第i个场景类别的类保存的场景类别对应的类中心特征向量之间的余弦相似度,α1为预设的第二权重值,α2为预设的第三权重值。
图2为本申请一些实施例提供的场景识别模型训练的过程示意图,现针对图2进行说明。
S201:构建原始场景识别模型。
S202:随机构建每个场景类别的类中心特征向量。
S203:获取样本集中每个样本图像以及每个样本图像对应的标签。
其中,该标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值。
S204:通过原始场景识别模型,确定第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,并确定第二样本图像的第二特征向量。
其中,该第一样本图像为已知场景类别对应的样本图像,该第二样本图像为未知场景类别对应的样本图像。
S205:根据第一特征向量、目标场景类别值、场景概率向量以及第二特征向量,确定目标损失值,并根据该目标损失值,对该原始场景识别模型进行训练。
S206:确定每个第一样本图像的目标损失值的和是否小于预设的损失值阈值,若小于,则执行S207,否则,执行S208。
S207:获取到训练完成的场景识别模型并保存。
S208:根据该目标损失值的和对原始场景识别模型的参数的参数值进行调整,执行S203。
图3为本申请一些实施例提供的一种原始场景识别模型的结构示意图,现针对图3进行说明。
将样本集中包含的每个第一样本图像输入到原始场景识别模型之后,通过该原始场景识别模型中的特征提取层,可以获取输入的样本图像的样本特征向量。其中,该样本图像的样本特征向量包含已知场景的第一样本图像的第一样特征向量以及未知场景的第二样本图像的第二特征向量。
然后样本图像通过原始场景识别模型中的特征输出层,该特征输出层将该样本特征向量输出,其中,该样本特征的输出包括第一特征向量和第二特征向量的输出,通过原始场景识别模型中的分类输出层,基于该第一特征向量,可以获取并输出第一样本图像对应的场景概率向量,而不会基于该第二特征向量,获取并输出第二样本图像对应的场景概率向量。
实施例4:
为了识别待识别图像的场景类别,本申请还提供了一种显示设备,图4为本申请一些实施例提供的一种显示设备400的结构示意图,该显示设备400包括:
控制器401,所述控制器401用于执行:
接收待识别图像,基于预先训练完成的场景识别模型,识别所述待识别图像所归属的目标场景类别;
输出模块402,用于输出所述目标场景类别。
在本申请中,为了识别并输出待识别图像的场景类别,将预先训练完成的场景识别模型部署在一个显示设备上,该显示设备可以为电视机、PC等等。
在本申请中,显示设备包含控制器和输出模块,该控制器用于接收到待识别图像后,基于预先训练完成的场景识别模型,识别该待识别图像所归属的目标场景类别,并将该目标场景类别通过显示设备的输出模块输出,也就是说,将该目标场景类别发送给输出模块。其中,该预先训练完成的场景识别模型是基于上述实施例的场景识别模型训练方法训练的。
输出模块在接收到该目标场景类别时,可以将该目标场景类别通过文字的形式进行输出,比如,若输出模块接收到的目标场景类别为“游戏场景”,则可以在显示设备上显示“当前待识别图像的场景类别为游戏场景”的文字,此外,该输出模块在接收到该目标场景类别后,还可以将该目标场景类别通过语音的形式进行输出,比如,若输出模块接收到的目标场景类别为“跳舞场景”,则可以在显示设备上播放“当前待识别图像的场景类别为跳舞场景”的语音。
在本申请中,为了帮助下游算法提供针对不同场景的功能,输出模块还可以将接收到目标场景类别输出给下游模块,以使下游模块利用下游算法提供针对该目标场景类别对应的功能。
实施例5:
图5为本申请一些实施例提供的一种场景识别模型训练装置结构示意图,该装置包括:
获取模块501,用于获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
训练模块502,用于针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
在一种可能的实施方式中,所述获取模块501,还用于根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
在一种可能的实施方式中,所述获取模块501,具体用于针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
在一种可能的实施方式中,所述训练模块502,具体用于确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵;将所述交叉熵与预设的第二数值的第一乘积,确定为第一子损失值。
在一种可能的实施方式中,所述训练模块502,具体用于确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
在一种可能的实施方式中,所述训练模块502,具体用于确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
在一种可能的实施方式中,所述训练模块502,具体用于确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
在一种可能的实施方式中,所述训练模块502,具体用于确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度;根据目标欧式距离与预设的第二权重值、所述余弦相似度与预设的第三权重值,确定权重和,将所述权重和确定为子损失值。
实施例6:
在上述各实施例的基础上,本申请一些实施例还提供了一种电子设备,如图6所示,包括:处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。
所述存储器603中存储有计算机程序,当所述程序被所述处理器601执行时,使得所述处理器601执行如下步骤:
获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;
将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
进一步地,所述处理器601,还用于根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
进一步地,所述处理器601,还用于针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
进一步地,所述处理器601,还用于确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵;将所述交叉熵与预设的第二数值的第一乘积,确定为第一子损失值。
进一步地,所述处理器601,还用于确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
进一步地,所述处理器601,还用于确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
进一步地,所述处理器601,还用于确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
进一步地,所述处理器601,还用于确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度;根据目标欧式距离与预设的第二权重值、所述余弦相似度与预设的第三权重值,确定权重和,将所述权重和确定为子损失值。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口602用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例7:
在上述各实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;
将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
进一步地,确定保存的场景类别对应的类中心特征向量包括:
根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;
若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;
若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
进一步地,所述根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量包括:
针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
进一步地,所述根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值包括:
确定该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量的交叉熵;
将所述交叉熵与预设的第二数值的第一乘积,确定为第一子损失值。
进一步地,所述根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值包括:
确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;
将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
进一步地,所述根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值包括:
确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;
将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;
将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
进一步地,所述根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值包括:
确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;
将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;
将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
进一步地,将目标欧式距离与预设的数值的乘积确定为子损失值包括:
确定该第一样本图像的第一特征向量以及保存的场景类别对应的类中心特征向量之间的余弦相似度;
根据目标欧式距离与预设的第二权重值、所述余弦相似度与预设的第三权重值,确定权重和,将所述权重和确定为子损失值。
由于本申请中,在对原始场景识模型进行训练时,样本集中既包含已知场景类别的第一样本图像,还包含未知场景类别的第二样本图像,并将样本集中包含的每个样本图像都输入到原始识别模型中,针对每个第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,并针对每个第二样本图像,获取该第二样本图像的第二特征向量,也就是说,只基于该原始识别模型提取该第二样本图像的第二特征向量,而不让原始识别模型对该第二样本图像的特征进行学习,能够有效的保证后续在基于训练完成的场景识别模型识别未知场景类别的图像的场景类别时,不会将该未知场景类别的图像划分到错误的场景类别中,提高了场景类别的识别精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种场景识别模型训练方法,其特征在于,所述方法包括:
获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;
将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,确定保存的场景类别对应的类中心特征向量包括:
根据每个第一样本图像的目标场景类别值,将目标场景类别值相同的第一样本图像划分到同一场景类别中;针对每个场景类别,根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量;
若所述样本集为第一次用于训练的样本集,则针对每个场景类别,根据该场景类别对应的候选类中心特征向量对保存的该场景类别对应的类中心特征向量进行更新;
若所述样本集非第一次用于训练的样本集,则针对每个场景类别,确定保存的该场景类别对应的类中心特征向量以及该场景类别对应的候选类中心特征向量的差值向量,并根据所述差值以及预设的第一数值的乘积,对该场景类别对应的类中心特征向量进行更新。
3.根据权利要求2所述的方法,其特征在于,所述根据该场景类别中包含的所有第一样本图像对应的第一特征向量,获得该场景类别对应的候选类中心特征向量包括:
针对该场景类别中包含的每个第一样本图像,将目标场景类别值与标签中标识的场景类别值一致的第一样本图像确定为目标第一样本图像;根据该场景类别中包含的每个所述目标第一样本图像的第一特征向量及预设的第一权重值,确定加权平均向量;将所述加权平均向量确定为该场景类别对应的候选类中心特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值包括:
确定该第一样本图像的第一特征向量以及该第一样本图像所属的目标场景类别对应的第一类中心特征向量之间的第一目标欧式距离;
将所述第一目标欧式距离与预设的第三数值的第二乘积确定为第二子损失值。
5.根据权利要求1所述的方法,其特征在于,所述根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值包括:
确定该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的每个其他场景类别对应的第二类中心特征向量之间的第二欧式距离;
将每个其他场景类别对应的第二欧式距离的加权平均值,确定为第二目标欧式距离;
将所述第二目标欧式距离与预设的第四数值的第三乘积确定为第三子损失值。
6.根据权利要求1所述的方法,其特征在于,所述根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值包括:
确定该第一样本图像的第一特征向量以及每个第二样本图像的第二特征向量之间的第三欧式距离;
将每个第二样本图像对应的第三欧式距离的加权平均值,确定为第三目标欧式距离;
将所述第三目标欧式距离与预设的第五数值的第四乘积确定为第四子损失值。
7.一种显示设备,其特征在于,所述显示设备包括:
控制器,所述控制器用于执行:
接收待识别图像,基于预先训练完成的场景识别模型,识别所述待识别图像所归属的目标场景类别;
输出模块,用于输出所述目标场景类别。
8.一种场景识别模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取样本集中的每个样本图像及每个样本图像对应的标签,所述标签用于标识对应的样本图像的场景类别是否已知,以及为已知场景类别时对应的场景类别值;将所述样本集中的每个样本图像输入到原始场景识别模型中,针对每个已知场景类别对应的第一样本图像,获取该第一样本图像的第一特征向量、目标场景类别值以及场景概率向量,针对每个未知场景的第二样本图像,获取该第二样本图像的第二特征向量;
训练模块,用于针对每个第一样本图像,根据该第一样本图像的所述场景概率向量以及保存的该第一样本图像的标签中标识的场景类别值对应的向量,确定第一子损失值,根据该第一样本图像的第一特征向量以及保存的该第一样本图像所属的目标场景类别对应的第一类中心特征向量,确定第二子损失值,其中,所述目标场景类别为根据所述目标场景类别值确定的;根据该第一样本图像的第一特征向量以及保存的除所述目标场景类别以外的其他场景类别对应的第二类中心特征向量,确定第三子损失值,根据该第一样本图像的第一特征向量以及基于每个第二样本图像的第二特征向量,确定第四子损失值;根据所述第一子损失值、所述第二子损失值、所述第三子损失值以及所述第四子损失值,确定目标损失值,根据所述目标损失值,对所述原始场景识别模型进行训练。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器中存储的计算机程序时实现上述权利要求1-6任一所述场景识别模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-6任一所述场景识别模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342770.0A CN114155420B (zh) | 2021-11-12 | 2021-11-12 | 一种场景识别模型训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342770.0A CN114155420B (zh) | 2021-11-12 | 2021-11-12 | 一种场景识别模型训练方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114155420A CN114155420A (zh) | 2022-03-08 |
CN114155420B true CN114155420B (zh) | 2024-03-26 |
Family
ID=80460366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111342770.0A Active CN114155420B (zh) | 2021-11-12 | 2021-11-12 | 一种场景识别模型训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155420B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488218A (zh) * | 2020-12-04 | 2021-03-12 | 北京金山云网络技术有限公司 | 图像分类方法、图像分类模型的训练方法和装置 |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-11-12 CN CN202111342770.0A patent/CN114155420B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN112488218A (zh) * | 2020-12-04 | 2021-03-12 | 北京金山云网络技术有限公司 | 图像分类方法、图像分类模型的训练方法和装置 |
Non-Patent Citations (1)
Title |
---|
一种基于图像区域系综分类的室外场景理解方法;张敏, 刘利雄, 贾云得;中国图象图形学报;20041225(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114155420A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
CN110363220B (zh) | 行为类别检测方法、装置、电子设备和计算机可读介质 | |
CN112966697A (zh) | 基于场景语义的目标检测方法、装置、设备及存储介质 | |
EP3136292A1 (en) | Method and device for classifying an object of an image and corresponding computer program product and computer-readable medium | |
CN111046971A (zh) | 图像识别方法、装置、设备及计算机可读存储介质 | |
CN112381837A (zh) | 一种图像处理方法及电子设备 | |
CN110807472B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111291695B (zh) | 人员违章行为识别模型训练方法、识别方法及计算机设备 | |
CN114283350A (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN112734803A (zh) | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 | |
CN113780243A (zh) | 行人图像识别模型的训练方法、装置、设备以及存储介质 | |
CN111783812A (zh) | 违禁图像识别方法、装置和计算机可读存储介质 | |
CN112884147A (zh) | 神经网络训练方法、图像处理方法、装置及电子设备 | |
CN115082752A (zh) | 基于弱监督的目标检测模型训练方法、装置、设备及介质 | |
CN112215136A (zh) | 一种目标人物识别方法、装置、电子设备及存储介质 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111539456A (zh) | 一种目标识别方法及设备 | |
CN114758330A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
CN114494823A (zh) | 零售场景下的商品识别检测计数方法及系统 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN114155420B (zh) | 一种场景识别模型训练方法、装置、设备及介质 | |
CN115292455B (zh) | 图文匹配模型的训练方法及装置 | |
CN115713669B (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN113762382B (zh) | 模型的训练及场景识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |