CN116524302B

CN116524302B - 一种场景识别模型的训练方法、装置及存储介质

Info

Publication number: CN116524302B
Application number: CN202310500607.5A
Authority: CN
Inventors: 柳谦; 李本栋; 陈宁; 吴贺扬; 杨翼; 李�灿; 陈奕斌; 李希哲; 钟方杰; 朱明洲; 黄灿彬
Original assignee: Guangzhou Smart City Investment And Operation Co ltd
Current assignee: Guangzhou Smart City Investment And Operation Co ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2024-01-26
Anticipated expiration: 2043-05-05
Also published as: CN116524302A

Abstract

本发明公开了一种场景识别模型的训练方法、装置及存储介质，本发明通过在有限的图像数据的基础上利用图像增强处理，从而产生更多数量的批数据；从批数据中确定第一图像以及确定第二图像，将第一图像以及第二图像输入至超多分类学习框架进行训练，得到场景识别模型，训练过程中通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回确定第二图像的步骤，直至批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据对比学习损失进行训练，通过引入对比学习损失指导超多分类学习框架的训练，有利于提高最终得到的场景识别模型的学习判断正确场景能力，提高识别准确率。

Description

一种场景识别模型的训练方法、装置及存储介质

技术领域

本发明涉及计算机领域，尤其是一种场景识别模型的训练方法、装置及存储介质。

背景技术

随着城市化的不断加速，城市管理面临着诸多挑战，如交通拥堵、垃圾处理、环境污染等。为了解决这些问题，智慧城市建设提出了运用智能识别算法辅助城市管理治理的方案，该方案依赖于计算机视觉、自然语言处理、机器学习等技术手段，通过对城市数据进行分析和处理，实现交通预测、垃圾分类、环境监测等多个方面的智能化管理，提高城市治理效率和质量，推动城市可持续发展。

然而，现有的基于图像智能的城市治理场景识别方法依赖于人工标注的城市场景，人工筛选工作量巨大；同时由于城市场景涉及范围广且零碎，不可避免地涉及场景样本稀缺的情况，实际上遍历所有场景几乎不可能，导致现有的识别方法具有局限性，识别的准确率低。

发明内容

有鉴于此，为了解决上述技术问题的至少之一，本发明的目的是提供一种场景识别模型的训练方法、装置及存储介质，提高识别准确率

本发明实施例提供了一种场景识别模型的训练方法，包括：

获取城市场景的图像数据；

对所述图像数据进行图像增强处理得到增强数据，并根据所述图像数据与所述增强数据构成批数据；

从所述批数据中确定第一图像以及确定第二图像，将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练，得到场景识别模型；

其中，训练过程包括：通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回所述确定第二图像的步骤，直至所述批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据所述对比学习损失进行训练。

进一步，所述图像增强处理包括线性变化、非线性变化、图像旋转、图像平移、边缘锐化以及伪彩色处理中的至少一种。

进一步，所述超多分类学习框架包括第一处理分支以及第二处理分支；所述通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，包括：

通过所述第一处理分支对所述第一图像进行第一编码处理，得到第三隐向量，对所述第三隐向量进行第一映射处理，得到第一隐向量；

通过所述第二处理分支对所述第二图像进行第二编码处理，得到第四隐向量，对所述第四隐向量进行第二映射处理，得到第二隐向量。

进一步，所述超多分类学习框架还包括多层感知器模型，所述多层感知器模型包括输入层、若干个依序连接的隐含层、输出层；所述对所述第三隐向量进行第一映射处理，得到第一隐向量，包括：

通过所述输入层接收所述第三隐向量并传递至第一个隐含层；

第一个隐含层对所述第三隐向量进行线性变换，将线性变换结果乘以权重矩阵后与偏置向量相加，对相加结果进行标准化以及非线性变换，得到第一个隐含层的输出；

将第一个隐含层的输出输入至第二个隐含层，直至得到最后一个隐含层的输出并作为所述输出层的输入，得到第一隐向量。

进一步，所述根据第一隐向量以及第二隐向量计算对比学习损失，包括：

通过度量函数计算所述第一隐向量以及所述第二隐向量之间的度量分数；

根据度量分数以及对比学习损失函数，计算对比学习损失。

进一步，所述根据度量分数以及对比学习损失函数，计算对比学习损失，具体为：

其中，L为对比学习损失，z_i为第一隐向量，为与z_i互为正样本的第二隐向量/>之间的度量分数，τ为温度超参数，S(z_i,z_j)为与z_i互为负样本的第j个第二隐向量z_j之间的度量分数，K为常数。

进一步，所述根据所述对比学习损失进行训练，包括：

根据所述对比学习损失，迭代超多分类学习框架的模型参数；其中，将所述批数据训练一次为一个迭代；

当迭代次数达到迭代阈值，根据最后一次迭代的模型参数确定场景识别模型；

或者，

计算连续的预设次数迭代的对比学习损失之间的差异值，当每一所述差异值小于误差阈值，根据连续的预设次数中最后一次迭代的模型参数确定场景识别模型。

本发明实施例还提供一种场景识别模型的训练装置，包括：

获取模块，用于获取城市场景的图像数据；所述图像数据包括若干正样本以及若干负样本；

增强模块，用于对所述图像数据进行图像增强处理得到增强数据，并根据所述图像数据与所述增强数据构成批数据；

训练模块，用于从所述批数据中确定第一图像以及确定第二图像，将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练，得到场景识别模型；其中，训练过程包括：通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回所述确定第二图像的步骤，直至所述批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据所述对比学习损失进行训练。

本发明实施例还提供一种场景识别模型的训练装置，所述场景识别模型的训练装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。

本发明的有益效果是：

通过获取城市场景的图像数据，对所述图像数据进行图像增强处理得到增强数据，并根据所述图像数据与所述增强数据构成批数据，在有限的图像数据的基础上利用图像增强处理，从而产生更多数量的批数据；从所述批数据中确定第一图像以及确定第二图像，将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练，得到场景识别模型，训练过程中通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回所述确定第二图像的步骤，直至所述批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据所述对比学习损失进行训练，通过引入对比学习损失指导超多分类学习框架的训练，有利于提高最终得到的场景识别模型的学习判断正确场景能力，提高识别准确率。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明场景识别模型的训练方法的步骤流程示意图；

图2为本发明具体实施例超多分类学习框架的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，本发明实施例提供一种场景识别模型的训练方法，包括步骤S100-S300：

S100、获取城市场景的图像数据。

可选地，城市场景的图像数据可以包括有不同城市场景的多个图像，以及同一城市场景的多个图像。需要说明的是，图像数据中可以包括有部分的已标注数据，已标注数据包括正样本图像以及负样本图像，从而后续基于半监督的对比学习方法进行模型训练。

其中，图像数据可以通过建设一个用于深度学习的图像收集、标注的城市超多场景图像数据收集标注系统，通过该系统获取上述的图像数据，该系统可以包括以下功能：

1)、图像上传功能：用户可以通过系统上传图片，支持多种格式，并可设置上传权限；

2)、标注功能：支持多种标注方式，如矩形框、多边形、点、文本等，同时支持标注属性设置；

3)、审核功能：支持多种审核方式，如管理员审核、机器审核等，通过审核后的数据可用于后续的模型训练；

4)、导出功能：支持多种数据导出格式，如XML、JSON等，方便用于模型训练；

5)、多用户协作功能：支持多用户协作标注，可对标注任务进行分配、跟踪和统计，方便管理；

6)、可扩展功能：系统支持可扩展的插件机制，方便用户根据自身需要进行功能扩展；

7)、数据安全可靠功能：系统采用分布式存储技术和数据备份策略，确保数据的安全性和可靠性。

可选地，在获取到图像数据后，可以划分为测试集以及训练集，便于后续模型的训练以及验证；同时，训练集跟测试集的格式保持一致，其格式为：{index,label,data},index是序号，label是标签，data是图像数据。

S200、对图像数据进行图像增强处理得到增强数据，并根据图像数据与增强数据构成批数据。

本发明实施例中，通过对图像数据进行图像增强处理，从而实现正样本图像以及负样本图像的增强，得到增强数据，然后利用原来的图像数据以及图像增强处理后的增强数据构成批数据batch，使得批数据batch中包括有原来的图像数据以及增强后的正样本图像以及增强后的负样本图像，批数据batch图像记为img1、img2、img3......imgN。

可选地，图像增强处理包括但不限于线性变化、非线性变化、图像旋转、图像平移、边缘锐化以及伪彩色处理中的至少一种，具体地：

线性变化是指对整个图像的像素值进行变换，不涉及到局部的像素值修改。线下变换可以包括：对比度调整、亮度调整、伽马校正等。对比度调整可以通过对像素值进行线性变换实现，而亮度调整和伽马校正需要进行非线性变换。

非线性变化：非线性变化指的是对像素值进行非线性变换，包括：伽马校正、指数变换、对数变换等；非线性变换可以用来增强图像的对比度、动态范围等特征。

图像旋转：图像旋转可以通过旋转矩阵来实现,旋转矩阵的形式为：[cosθ-sinθ][sinθcosθ]其中，θ为旋转角度。对于每个像素，可以将其坐标(x,y)按照旋转矩阵进行变换得到旋转后的像素坐标。

图像平移：图像平移可以通过平移矩阵来实现。平移矩阵的形式为：[1 0tx][01ty]其中，tx和ty分别表示在x和y方向上的平移量。对于每个像素，可以将其坐标(x,y)按照平移矩阵进行变换得到平移后的像素坐标。

边缘锐化：边缘锐化是指增强图像的边缘信息，例如使用拉普拉斯算子或Sobel算子进行边缘检测，然后将检测到的边缘信息与原图像进行加权叠加。

伪彩色处理：伪彩色处理是指将灰度图像映射到一种特定的颜色空间中，从而得到一副彩色图像。伪彩色处理方法包括：灰度映射、颜色表映射、伪彩色映射等。其中，灰度映射是指将灰度值直接映射到彩色空间中的某个通道上，颜色表映射是指使用预定义的颜色表将灰度值映射到彩色空间中，伪彩色映射是指通过对灰度值进行非线性变换来映射到彩色空间中。

S300、从批数据中确定第一图像以及确定第二图像，将第一图像以及第二图像输入至超多分类学习框架进行训练，得到场景识别模型。

本发明实施例中，超多分类学习框架包括第一处理分支以及第二处理分支，第一处理分支以及第二处理分支的处理过程类似。可选地，可以实现设定预设大小的批数据规格，例如设置batch_size＝A，每次随机抽样A个带有标注的数据与增强数据构成批数据，然后从批数据中随机确定第一图像以及第二图像。

可选地，步骤S300中的训练过程包括步骤S310-S330：

S310、通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回确定第二图像的步骤，直至批数据的图像均参与训练。

可选地，步骤S310中通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，包括步骤S3101以及S3102：

S3101、通过第一处理分支对第一图像进行第一编码处理，得到第三隐向量，对第三隐向量进行第一映射处理，得到第一隐向量。

参照图2，具体地，通过第一处理分支，通过特征编码器encoder1对第一图像Aug1/img1-1进行第一编码，并利用Resnet作为模型结构f0对第一编码结果进行处理，得到第三隐向量hi，然后通过映射函数(Projector1)对第三隐向量hi进行第一映射处理，得到第一隐向量zi(z_i)。

本发明实施例中，映射函数利用超多分类学习框架中的多层感知器模型，多层感知器模型包括但不限于BN+RELU的MLP结构多层感知器模型，其中多层感知器模型包括输入层、若干个依序连接的隐含层、输出层，每个隐含层由一个BN层和一个RELU层构成，具体地，S3101中对第三隐向量进行第一映射处理，得到第一隐向量，包括步骤S31011-S31013：

S31011、通过输入层接收第三隐向量并传递至第一个隐含层。

S31012、第一个隐含层对第三隐向量进行线性变换，将线性变换结果乘以权重矩阵后与偏置向量相加，对相加结果进行标准化以及非线性变换，得到第一个隐含层的输出。

具体地，第一个隐含层对第三隐向量进行线性变换，将线性变换结果乘以权重矩阵后再加上一个偏置向量，通过BN层对相加结果进行标准化，从而得到标准化后的输出，经过RELU层对标准化后的输出进行非线性变换，得到第一个隐含层的输出。

S31013、将第一个隐含层的输出输入至第二个隐含层，直至得到最后一个隐含层的输出并作为输出层的输入，得到第一隐向量。

具体地，将第一个隐含层的输出输入至第二个隐含层，第二隐含层进行如步骤S31012的处理，然后继续传递至下一隐含层，直至最后一个隐含层处理后得到最后一个隐含层的输出，然后作为输出层的输入，从而得到第一隐向量zi。

S3102、通过第二处理分支对第二图像进行第二编码处理，得到第四隐向量，对第四隐向量进行第二映射处理，得到第二隐向量。

参照图2，具体地，通过第二处理分支，通过特征编码器encoder2对第二图像Aug2/img1-2进行第一编码，并利用Resnet作为模型结构f0对第二编码结果进行处理，得到第四隐向量hj，然后通过映射函数(Projector2)对第四隐向量hj进行第二映射处理，得到第二隐向量zj(z_j)。需要说明的是，第二映射处理的步骤与第一映射处理类似，不再赘述。

本发明实施例中，通过引入BN+RELU的MLP结构多层感知器模型，BN层将每个隐含层的输出标准化，有助于防止梯度消失和爆炸，提高模型的训练速度和性能；RELU层可以在保持非线性特性的同时，有效地解决梯度消失问题，提高模型的训练速度和性能。

可选地，在确定第一隐向量zi以及第二隐向量zj后，返回步骤S310中确定第二图像的步骤，从而确定若干个新的第二隐向量。

S320、根据第一隐向量以及第二隐向量计算对比学习损失。

可选地，步骤S320包括步骤S3201-S3202：

S3201、通过度量函数计算第一隐向量以及第二隐向量之间的度量分数。

具体地，度量分数计算公式为score(zi,zj)，简称S(zi,zj)。其中，score()可以为向量内积或者余弦函数，不作具体限定。

S3202、根据度量分数以及对比学习损失函数，计算对比学习损失。

具体地，sum(loss)即对比学习损失(InfoNCELoss)L：

其中，L为对比学习损失，z_i为第一隐向量，为与z_i互为正样本(正例)的第二隐向量/>之间的度量分数，τ为温度超参数，S(z_i,z_j)为与z_i互为负样本(负例)的第j个第二隐向量z_j之间的度量分数，z₀代表/>K为常数例如为第二图像的数量。从上述公式可以知道，当图像与正例越相似，负例越不相似，则该模型的判别能力越好，本发明实施例InfoNCELoss指导模型加强了学习判断正确的场景样本的能力。

S330、根据对比学习损失进行训练。

可选地，步骤S330包括步骤S3301，以及S3302或S3303：

S3301、根据对比学习损失，迭代超多分类学习框架的模型参数

可选地，根据对比学习损失，基于梯度下降算法，进行前向传播和后向反馈，超多分类学习框架的模型参数。其中，将批数据训练一次为一个迭代，每次迭代前可以重新确定新的batch或者重新确定新的第一图像、第二图像。

S3302、当迭代次数达到迭代阈值，根据最后一次迭代的模型参数确定场景识别模型。

可选地，迭代阈值可以根据实际情况设定，不作具体限定。例如，迭代阈值为200，则利用最后一次迭代的模型参数即第200次的模型参数确定场景识别模型。

S3303、计算连续的预设次数迭代的对比学习损失之间的差异值，当每一差异值小于误差阈值，根据连续的预设次数中最后一次迭代的模型参数确定场景识别模型，结束训练。

可选地，预设次数、误差阈值可以根据实际情况设定，不作具体限定。具体地，可以通过计算连续的预设次数迭代的对比学习损失之间的差异值，例如预设次数为50次时，计算连续50次迭代的对比学习损失之间的差异值，当每一差异值均小于误差阈值，根据连续的预设次数中最后一次即第50次迭代的模型参数确定场景识别模型。

相对于现有技术，本发明实施例的场景识别模型的训练方法，在有限的图像数据的基础上利用图像增强处理，从而产生更多数量的批数据；根据对比学习损失进行训练，通过引入对比学习损失指导超多分类学习框架的训练，有利于提高最终得到的场景识别模型的学习判断正确场景能力，提高识别准确率。同时，通过本发明实施例的场景识别模型的训练方法能够对城市治理场景进行粗筛召回，选出最有可能的若干个场景来优化端到端的识别准确率。

本发明实施例还提供一种场景识别模型的训练装置，包括：

获取模块，用于获取城市场景的图像数据；图像数据包括若干正样本以及若干负样本；

增强模块，用于对图像数据进行图像增强处理得到增强数据，并根据图像数据与增强数据构成批数据；

训练模块，用于从批数据中确定第一图像以及确定第二图像，将第一图像以及第二图像输入至超多分类学习框架进行训练，得到场景识别模型；其中，训练过程包括：通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回确定第二图像的步骤，直至批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据对比学习损失进行训练。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同，不再赘述。

本发明实施例还提供了另一种场景识别模型的训练装置，该场景识别模型的训练装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的场景识别模型的训练方法。可选地，该场景识别模型的训练装置包括但不限于手机、平板电脑、电脑及车载电脑等。

本发明实施例还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的场景识别模型的训练方法。

本发明实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述实施例的场景识别模型的训练方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种场景识别模型的训练方法，其特征在于，包括：

获取城市场景的图像数据；

从所述批数据中随机确定第一图像以及确定第二图像，将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练，得到场景识别模型；

其中，训练过程包括：通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回所述确定第二图像的步骤，直至所述批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据所述对比学习损失进行训练；

所述超多分类学习框架包括第一处理分支，所述通过超多分类学习框架计算第一图像的第一隐向量，包括：

所述超多分类学习框架还包括多层感知器模型，所述多层感知器模型包括输入层、若干个依序连接的隐含层、输出层；所述对所述第三隐向量进行第一映射处理，得到第一隐向量，包括：

2.根据权利要求1所述场景识别模型的训练方法，其特征在于：所述图像增强处理包括线性变化、非线性变化、图像旋转、图像平移、边缘锐化以及伪彩色处理中的至少一种。

3.根据权利要求1所述场景识别模型的训练方法，其特征在于：所述超多分类学习框架包括第二处理分支；所述通过超多分类学习框架计算第二图像的第二隐向量，包括：

4.根据权利要求1-3任一项所述场景识别模型的训练方法，其特征在于：所述根据第一隐向量以及第二隐向量计算对比学习损失，包括：

根据度量分数以及对比学习损失函数，计算对比学习损失。

5.根据权利要求4所述场景识别模型的训练方法，其特征在于：所述根据度量分数以及对比学习损失函数，计算对比学习损失，具体为：

其中，L为对比学习损失，z_i为第一隐向量，为与z_i互为正样本的第二隐向量之间的度量分数，τ为温度超参数，S(z_i,z_j)为与z_i互为负样本的第j个第二隐向量z_j之间的度量分数，K为常数。

6.根据权利要求5所述场景识别模型的训练方法，其特征在于：所述根据所述对比学习损失进行训练，包括：

或者，

7.一种场景识别模型的训练装置，其特征在于，包括：

训练模块，用于从所述批数据中随机确定第一图像以及确定第二图像，将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练，得到场景识别模型；其中，训练过程包括：通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量，返回所述确定第二图像的步骤，直至所述批数据的图像均参与训练，根据第一隐向量以及第二隐向量计算对比学习损失，根据所述对比学习损失进行训练；

8.一种场景识别模型的训练装置，其特征在于：所述场景识别模型的训练装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6中任一项所述方法。

9.一种计算机可读存储介质，其特征在于：所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6中任一项所述方法。