CN116524302B - 一种场景识别模型的训练方法、装置及存储介质 - Google Patents
一种场景识别模型的训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116524302B CN116524302B CN202310500607.5A CN202310500607A CN116524302B CN 116524302 B CN116524302 B CN 116524302B CN 202310500607 A CN202310500607 A CN 202310500607A CN 116524302 B CN116524302 B CN 116524302B
- Authority
- CN
- China
- Prior art keywords
- image
- hidden vector
- hidden
- training
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 122
- 238000012545 processing Methods 0.000 claims abstract description 56
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种场景识别模型的训练方法、装置及存储介质,本发明通过在有限的图像数据的基础上利用图像增强处理,从而产生更多数量的批数据;从批数据中确定第一图像以及确定第二图像,将第一图像以及第二图像输入至超多分类学习框架进行训练,得到场景识别模型,训练过程中通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回确定第二图像的步骤,直至批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据对比学习损失进行训练,通过引入对比学习损失指导超多分类学习框架的训练,有利于提高最终得到的场景识别模型的学习判断正确场景能力,提高识别准确率。
Description
技术领域
本发明涉及计算机领域,尤其是一种场景识别模型的训练方法、装置及存储介质。
背景技术
随着城市化的不断加速,城市管理面临着诸多挑战,如交通拥堵、垃圾处理、环境污染等。为了解决这些问题,智慧城市建设提出了运用智能识别算法辅助城市管理治理的方案,该方案依赖于计算机视觉、自然语言处理、机器学习等技术手段,通过对城市数据进行分析和处理,实现交通预测、垃圾分类、环境监测等多个方面的智能化管理,提高城市治理效率和质量,推动城市可持续发展。
然而,现有的基于图像智能的城市治理场景识别方法依赖于人工标注的城市场景,人工筛选工作量巨大;同时由于城市场景涉及范围广且零碎,不可避免地涉及场景样本稀缺的情况,实际上遍历所有场景几乎不可能,导致现有的识别方法具有局限性,识别的准确率低。
发明内容
有鉴于此,为了解决上述技术问题的至少之一,本发明的目的是提供一种场景识别模型的训练方法、装置及存储介质,提高识别准确率
本发明实施例提供了一种场景识别模型的训练方法,包括:
获取城市场景的图像数据;
对所述图像数据进行图像增强处理得到增强数据,并根据所述图像数据与所述增强数据构成批数据;
从所述批数据中确定第一图像以及确定第二图像,将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练,得到场景识别模型;
其中,训练过程包括:通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回所述确定第二图像的步骤,直至所述批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据所述对比学习损失进行训练。
进一步,所述图像增强处理包括线性变化、非线性变化、图像旋转、图像平移、边缘锐化以及伪彩色处理中的至少一种。
进一步,所述超多分类学习框架包括第一处理分支以及第二处理分支;所述通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,包括:
通过所述第一处理分支对所述第一图像进行第一编码处理,得到第三隐向量,对所述第三隐向量进行第一映射处理,得到第一隐向量;
通过所述第二处理分支对所述第二图像进行第二编码处理,得到第四隐向量,对所述第四隐向量进行第二映射处理,得到第二隐向量。
进一步,所述超多分类学习框架还包括多层感知器模型,所述多层感知器模型包括输入层、若干个依序连接的隐含层、输出层;所述对所述第三隐向量进行第一映射处理,得到第一隐向量,包括:
通过所述输入层接收所述第三隐向量并传递至第一个隐含层;
第一个隐含层对所述第三隐向量进行线性变换,将线性变换结果乘以权重矩阵后与偏置向量相加,对相加结果进行标准化以及非线性变换,得到第一个隐含层的输出;
将第一个隐含层的输出输入至第二个隐含层,直至得到最后一个隐含层的输出并作为所述输出层的输入,得到第一隐向量。
进一步,所述根据第一隐向量以及第二隐向量计算对比学习损失,包括:
通过度量函数计算所述第一隐向量以及所述第二隐向量之间的度量分数;
根据度量分数以及对比学习损失函数,计算对比学习损失。
进一步,所述根据度量分数以及对比学习损失函数,计算对比学习损失,具体为:
其中,L为对比学习损失,zi为第一隐向量,为与zi互为正样本的第二隐向量/>之间的度量分数,τ为温度超参数,S(zi,zj)为与zi互为负样本的第j个第二隐向量zj之间的度量分数,K为常数。
进一步,所述根据所述对比学习损失进行训练,包括:
根据所述对比学习损失,迭代超多分类学习框架的模型参数;其中,将所述批数据训练一次为一个迭代;
当迭代次数达到迭代阈值,根据最后一次迭代的模型参数确定场景识别模型;
或者,
计算连续的预设次数迭代的对比学习损失之间的差异值,当每一所述差异值小于误差阈值,根据连续的预设次数中最后一次迭代的模型参数确定场景识别模型。
本发明实施例还提供一种场景识别模型的训练装置,包括:
获取模块,用于获取城市场景的图像数据;所述图像数据包括若干正样本以及若干负样本;
增强模块,用于对所述图像数据进行图像增强处理得到增强数据,并根据所述图像数据与所述增强数据构成批数据;
训练模块,用于从所述批数据中确定第一图像以及确定第二图像,将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练,得到场景识别模型;其中,训练过程包括:通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回所述确定第二图像的步骤,直至所述批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据所述对比学习损失进行训练。
本发明实施例还提供一种场景识别模型的训练装置,所述场景识别模型的训练装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。
本发明的有益效果是:
通过获取城市场景的图像数据,对所述图像数据进行图像增强处理得到增强数据,并根据所述图像数据与所述增强数据构成批数据,在有限的图像数据的基础上利用图像增强处理,从而产生更多数量的批数据;从所述批数据中确定第一图像以及确定第二图像,将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练,得到场景识别模型,训练过程中通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回所述确定第二图像的步骤,直至所述批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据所述对比学习损失进行训练,通过引入对比学习损失指导超多分类学习框架的训练,有利于提高最终得到的场景识别模型的学习判断正确场景能力,提高识别准确率。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明场景识别模型的训练方法的步骤流程示意图;
图2为本发明具体实施例超多分类学习框架的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
如图1所示,本发明实施例提供一种场景识别模型的训练方法,包括步骤S100-S300:
S100、获取城市场景的图像数据。
可选地,城市场景的图像数据可以包括有不同城市场景的多个图像,以及同一城市场景的多个图像。需要说明的是,图像数据中可以包括有部分的已标注数据,已标注数据包括正样本图像以及负样本图像,从而后续基于半监督的对比学习方法进行模型训练。
其中,图像数据可以通过建设一个用于深度学习的图像收集、标注的城市超多场景图像数据收集标注系统,通过该系统获取上述的图像数据,该系统可以包括以下功能:
1)、图像上传功能:用户可以通过系统上传图片,支持多种格式,并可设置上传权限;
2)、标注功能:支持多种标注方式,如矩形框、多边形、点、文本等,同时支持标注属性设置;
3)、审核功能:支持多种审核方式,如管理员审核、机器审核等,通过审核后的数据可用于后续的模型训练;
4)、导出功能:支持多种数据导出格式,如XML、JSON等,方便用于模型训练;
5)、多用户协作功能:支持多用户协作标注,可对标注任务进行分配、跟踪和统计,方便管理;
6)、可扩展功能:系统支持可扩展的插件机制,方便用户根据自身需要进行功能扩展;
7)、数据安全可靠功能:系统采用分布式存储技术和数据备份策略,确保数据的安全性和可靠性。
可选地,在获取到图像数据后,可以划分为测试集以及训练集,便于后续模型的训练以及验证;同时,训练集跟测试集的格式保持一致,其格式为:{index,label,data},index是序号,label是标签,data是图像数据。
S200、对图像数据进行图像增强处理得到增强数据,并根据图像数据与增强数据构成批数据。
本发明实施例中,通过对图像数据进行图像增强处理,从而实现正样本图像以及负样本图像的增强,得到增强数据,然后利用原来的图像数据以及图像增强处理后的增强数据构成批数据batch,使得批数据batch中包括有原来的图像数据以及增强后的正样本图像以及增强后的负样本图像,批数据batch图像记为img1、img2、img3......imgN。
可选地,图像增强处理包括但不限于线性变化、非线性变化、图像旋转、图像平移、边缘锐化以及伪彩色处理中的至少一种,具体地:
线性变化是指对整个图像的像素值进行变换,不涉及到局部的像素值修改。线下变换可以包括:对比度调整、亮度调整、伽马校正等。对比度调整可以通过对像素值进行线性变换实现,而亮度调整和伽马校正需要进行非线性变换。
非线性变化:非线性变化指的是对像素值进行非线性变换,包括:伽马校正、指数变换、对数变换等;非线性变换可以用来增强图像的对比度、动态范围等特征。
图像旋转:图像旋转可以通过旋转矩阵来实现,旋转矩阵的形式为:[cosθ-sinθ][sinθcosθ]其中,θ为旋转角度。对于每个像素,可以将其坐标(x,y)按照旋转矩阵进行变换得到旋转后的像素坐标。
图像平移:图像平移可以通过平移矩阵来实现。平移矩阵的形式为:[1 0tx][01ty]其中,tx和ty分别表示在x和y方向上的平移量。对于每个像素,可以将其坐标(x,y)按照平移矩阵进行变换得到平移后的像素坐标。
边缘锐化:边缘锐化是指增强图像的边缘信息,例如使用拉普拉斯算子或Sobel算子进行边缘检测,然后将检测到的边缘信息与原图像进行加权叠加。
伪彩色处理:伪彩色处理是指将灰度图像映射到一种特定的颜色空间中,从而得到一副彩色图像。伪彩色处理方法包括:灰度映射、颜色表映射、伪彩色映射等。其中,灰度映射是指将灰度值直接映射到彩色空间中的某个通道上,颜色表映射是指使用预定义的颜色表将灰度值映射到彩色空间中,伪彩色映射是指通过对灰度值进行非线性变换来映射到彩色空间中。
S300、从批数据中确定第一图像以及确定第二图像,将第一图像以及第二图像输入至超多分类学习框架进行训练,得到场景识别模型。
本发明实施例中,超多分类学习框架包括第一处理分支以及第二处理分支,第一处理分支以及第二处理分支的处理过程类似。可选地,可以实现设定预设大小的批数据规格,例如设置batch_size=A,每次随机抽样A个带有标注的数据与增强数据构成批数据,然后从批数据中随机确定第一图像以及第二图像。
可选地,步骤S300中的训练过程包括步骤S310-S330:
S310、通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回确定第二图像的步骤,直至批数据的图像均参与训练。
可选地,步骤S310中通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,包括步骤S3101以及S3102:
S3101、通过第一处理分支对第一图像进行第一编码处理,得到第三隐向量,对第三隐向量进行第一映射处理,得到第一隐向量。
参照图2,具体地,通过第一处理分支,通过特征编码器encoder1对第一图像Aug1/img1-1进行第一编码,并利用Resnet作为模型结构f0对第一编码结果进行处理,得到第三隐向量hi,然后通过映射函数(Projector1)对第三隐向量hi进行第一映射处理,得到第一隐向量zi(zi)。
本发明实施例中,映射函数利用超多分类学习框架中的多层感知器模型,多层感知器模型包括但不限于BN+RELU的MLP结构多层感知器模型,其中多层感知器模型包括输入层、若干个依序连接的隐含层、输出层,每个隐含层由一个BN层和一个RELU层构成,具体地,S3101中对第三隐向量进行第一映射处理,得到第一隐向量,包括步骤S31011-S31013:
S31011、通过输入层接收第三隐向量并传递至第一个隐含层。
S31012、第一个隐含层对第三隐向量进行线性变换,将线性变换结果乘以权重矩阵后与偏置向量相加,对相加结果进行标准化以及非线性变换,得到第一个隐含层的输出。
具体地,第一个隐含层对第三隐向量进行线性变换,将线性变换结果乘以权重矩阵后再加上一个偏置向量,通过BN层对相加结果进行标准化,从而得到标准化后的输出,经过RELU层对标准化后的输出进行非线性变换,得到第一个隐含层的输出。
S31013、将第一个隐含层的输出输入至第二个隐含层,直至得到最后一个隐含层的输出并作为输出层的输入,得到第一隐向量。
具体地,将第一个隐含层的输出输入至第二个隐含层,第二隐含层进行如步骤S31012的处理,然后继续传递至下一隐含层,直至最后一个隐含层处理后得到最后一个隐含层的输出,然后作为输出层的输入,从而得到第一隐向量zi。
S3102、通过第二处理分支对第二图像进行第二编码处理,得到第四隐向量,对第四隐向量进行第二映射处理,得到第二隐向量。
参照图2,具体地,通过第二处理分支,通过特征编码器encoder2对第二图像Aug2/img1-2进行第一编码,并利用Resnet作为模型结构f0对第二编码结果进行处理,得到第四隐向量hj,然后通过映射函数(Projector2)对第四隐向量hj进行第二映射处理,得到第二隐向量zj(zj)。需要说明的是,第二映射处理的步骤与第一映射处理类似,不再赘述。
本发明实施例中,通过引入BN+RELU的MLP结构多层感知器模型,BN层将每个隐含层的输出标准化,有助于防止梯度消失和爆炸,提高模型的训练速度和性能;RELU层可以在保持非线性特性的同时,有效地解决梯度消失问题,提高模型的训练速度和性能。
可选地,在确定第一隐向量zi以及第二隐向量zj后,返回步骤S310中确定第二图像的步骤,从而确定若干个新的第二隐向量。
S320、根据第一隐向量以及第二隐向量计算对比学习损失。
可选地,步骤S320包括步骤S3201-S3202:
S3201、通过度量函数计算第一隐向量以及第二隐向量之间的度量分数。
具体地,度量分数计算公式为score(zi,zj),简称S(zi,zj)。其中,score()可以为向量内积或者余弦函数,不作具体限定。
S3202、根据度量分数以及对比学习损失函数,计算对比学习损失。
具体地,sum(loss)即对比学习损失(InfoNCELoss)L:
其中,L为对比学习损失,zi为第一隐向量,为与zi互为正样本(正例)的第二隐向量/>之间的度量分数,τ为温度超参数,S(zi,zj)为与zi互为负样本(负例)的第j个第二隐向量zj之间的度量分数,z0代表/>K为常数例如为第二图像的数量。从上述公式可以知道,当图像与正例越相似,负例越不相似,则该模型的判别能力越好,本发明实施例InfoNCELoss指导模型加强了学习判断正确的场景样本的能力。
S330、根据对比学习损失进行训练。
可选地,步骤S330包括步骤S3301,以及S3302或S3303:
S3301、根据对比学习损失,迭代超多分类学习框架的模型参数
可选地,根据对比学习损失,基于梯度下降算法,进行前向传播和后向反馈,超多分类学习框架的模型参数。其中,将批数据训练一次为一个迭代,每次迭代前可以重新确定新的batch或者重新确定新的第一图像、第二图像。
S3302、当迭代次数达到迭代阈值,根据最后一次迭代的模型参数确定场景识别模型。
可选地,迭代阈值可以根据实际情况设定,不作具体限定。例如,迭代阈值为200,则利用最后一次迭代的模型参数即第200次的模型参数确定场景识别模型。
S3303、计算连续的预设次数迭代的对比学习损失之间的差异值,当每一差异值小于误差阈值,根据连续的预设次数中最后一次迭代的模型参数确定场景识别模型,结束训练。
可选地,预设次数、误差阈值可以根据实际情况设定,不作具体限定。具体地,可以通过计算连续的预设次数迭代的对比学习损失之间的差异值,例如预设次数为50次时,计算连续50次迭代的对比学习损失之间的差异值,当每一差异值均小于误差阈值,根据连续的预设次数中最后一次即第50次迭代的模型参数确定场景识别模型。
相对于现有技术,本发明实施例的场景识别模型的训练方法,在有限的图像数据的基础上利用图像增强处理,从而产生更多数量的批数据;根据对比学习损失进行训练,通过引入对比学习损失指导超多分类学习框架的训练,有利于提高最终得到的场景识别模型的学习判断正确场景能力,提高识别准确率。同时,通过本发明实施例的场景识别模型的训练方法能够对城市治理场景进行粗筛召回,选出最有可能的若干个场景来优化端到端的识别准确率。
本发明实施例还提供一种场景识别模型的训练装置,包括:
获取模块,用于获取城市场景的图像数据;图像数据包括若干正样本以及若干负样本;
增强模块,用于对图像数据进行图像增强处理得到增强数据,并根据图像数据与增强数据构成批数据;
训练模块,用于从批数据中确定第一图像以及确定第二图像,将第一图像以及第二图像输入至超多分类学习框架进行训练,得到场景识别模型;其中,训练过程包括:通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回确定第二图像的步骤,直至批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据对比学习损失进行训练。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同,不再赘述。
本发明实施例还提供了另一种场景识别模型的训练装置,该场景识别模型的训练装置包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的场景识别模型的训练方法。可选地,该场景识别模型的训练装置包括但不限于手机、平板电脑、电脑及车载电脑等。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同,不再赘述。
本发明实施例还提供一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的场景识别模型的训练方法。
本发明实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述实施例的场景识别模型的训练方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种场景识别模型的训练方法,其特征在于,包括:
获取城市场景的图像数据;
对所述图像数据进行图像增强处理得到增强数据,并根据所述图像数据与所述增强数据构成批数据;
从所述批数据中随机确定第一图像以及确定第二图像,将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练,得到场景识别模型;
其中,训练过程包括:通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回所述确定第二图像的步骤,直至所述批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据所述对比学习损失进行训练;
所述超多分类学习框架包括第一处理分支,所述通过超多分类学习框架计算第一图像的第一隐向量,包括:
通过所述第一处理分支对所述第一图像进行第一编码处理,得到第三隐向量,对所述第三隐向量进行第一映射处理,得到第一隐向量;
所述超多分类学习框架还包括多层感知器模型,所述多层感知器模型包括输入层、若干个依序连接的隐含层、输出层;所述对所述第三隐向量进行第一映射处理,得到第一隐向量,包括:
通过所述输入层接收所述第三隐向量并传递至第一个隐含层;
第一个隐含层对所述第三隐向量进行线性变换,将线性变换结果乘以权重矩阵后与偏置向量相加,对相加结果进行标准化以及非线性变换,得到第一个隐含层的输出;
将第一个隐含层的输出输入至第二个隐含层,直至得到最后一个隐含层的输出并作为所述输出层的输入,得到第一隐向量。
2.根据权利要求1所述场景识别模型的训练方法,其特征在于:所述图像增强处理包括线性变化、非线性变化、图像旋转、图像平移、边缘锐化以及伪彩色处理中的至少一种。
3.根据权利要求1所述场景识别模型的训练方法,其特征在于:所述超多分类学习框架包括第二处理分支;所述通过超多分类学习框架计算第二图像的第二隐向量,包括:
通过所述第二处理分支对所述第二图像进行第二编码处理,得到第四隐向量,对所述第四隐向量进行第二映射处理,得到第二隐向量。
4.根据权利要求1-3任一项所述场景识别模型的训练方法,其特征在于:所述根据第一隐向量以及第二隐向量计算对比学习损失,包括:
通过度量函数计算所述第一隐向量以及所述第二隐向量之间的度量分数;
根据度量分数以及对比学习损失函数,计算对比学习损失。
5.根据权利要求4所述场景识别模型的训练方法,其特征在于:所述根据度量分数以及对比学习损失函数,计算对比学习损失,具体为:
其中,L为对比学习损失,zi为第一隐向量,为与zi互为正样本的第二隐向量之间的度量分数,τ为温度超参数,S(zi,zj)为与zi互为负样本的第j个第二隐向量zj之间的度量分数,K为常数。
6.根据权利要求5所述场景识别模型的训练方法,其特征在于:所述根据所述对比学习损失进行训练,包括:
根据所述对比学习损失,迭代超多分类学习框架的模型参数;其中,将所述批数据训练一次为一个迭代;
当迭代次数达到迭代阈值,根据最后一次迭代的模型参数确定场景识别模型;
或者,
计算连续的预设次数迭代的对比学习损失之间的差异值,当每一所述差异值小于误差阈值,根据连续的预设次数中最后一次迭代的模型参数确定场景识别模型。
7.一种场景识别模型的训练装置,其特征在于,包括:
获取模块,用于获取城市场景的图像数据;所述图像数据包括若干正样本以及若干负样本;
增强模块,用于对所述图像数据进行图像增强处理得到增强数据,并根据所述图像数据与所述增强数据构成批数据;
训练模块,用于从所述批数据中随机确定第一图像以及确定第二图像,将所述第一图像以及所述第二图像输入至超多分类学习框架进行训练,得到场景识别模型;其中,训练过程包括:通过超多分类学习框架计算第一图像的第一隐向量以及计算第二图像的第二隐向量,返回所述确定第二图像的步骤,直至所述批数据的图像均参与训练,根据第一隐向量以及第二隐向量计算对比学习损失,根据所述对比学习损失进行训练;
所述超多分类学习框架包括第一处理分支,所述通过超多分类学习框架计算第一图像的第一隐向量,包括:
通过所述第一处理分支对所述第一图像进行第一编码处理,得到第三隐向量,对所述第三隐向量进行第一映射处理,得到第一隐向量;
所述超多分类学习框架还包括多层感知器模型,所述多层感知器模型包括输入层、若干个依序连接的隐含层、输出层;所述对所述第三隐向量进行第一映射处理,得到第一隐向量,包括:
通过所述输入层接收所述第三隐向量并传递至第一个隐含层;
第一个隐含层对所述第三隐向量进行线性变换,将线性变换结果乘以权重矩阵后与偏置向量相加,对相加结果进行标准化以及非线性变换,得到第一个隐含层的输出;
将第一个隐含层的输出输入至第二个隐含层,直至得到最后一个隐含层的输出并作为所述输出层的输入,得到第一隐向量。
8.一种场景识别模型的训练装置,其特征在于:所述场景识别模型的训练装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6中任一项所述方法。
9.一种计算机可读存储介质,其特征在于:所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310500607.5A CN116524302B (zh) | 2023-05-05 | 2023-05-05 | 一种场景识别模型的训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310500607.5A CN116524302B (zh) | 2023-05-05 | 2023-05-05 | 一种场景识别模型的训练方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116524302A CN116524302A (zh) | 2023-08-01 |
CN116524302B true CN116524302B (zh) | 2024-01-26 |
Family
ID=87393772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310500607.5A Active CN116524302B (zh) | 2023-05-05 | 2023-05-05 | 一种场景识别模型的训练方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524302B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3125156A1 (en) * | 2015-07-31 | 2017-02-01 | Xiaomi Inc. | Method, apparatus and server for image scene determination |
CN114781548A (zh) * | 2022-05-18 | 2022-07-22 | 平安科技(深圳)有限公司 | 图像场景分类方法、装置、设备及存储介质 |
CN115100489A (zh) * | 2022-06-30 | 2022-09-23 | 苏州浪潮智能科技有限公司 | 一种图像处理方法、装置、设备及可读存储介质 |
CN115238888A (zh) * | 2022-07-26 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、使用方法、装置、设备及介质 |
CN115471739A (zh) * | 2022-08-03 | 2022-12-13 | 中南大学 | 基于自监督对比学习的跨域遥感场景分类与检索方法 |
CN115908961A (zh) * | 2021-09-29 | 2023-04-04 | 顺丰科技有限公司 | 图像场景分类方法、装置、计算机设备及存储介质 |
-
2023
- 2023-05-05 CN CN202310500607.5A patent/CN116524302B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3125156A1 (en) * | 2015-07-31 | 2017-02-01 | Xiaomi Inc. | Method, apparatus and server for image scene determination |
CN115908961A (zh) * | 2021-09-29 | 2023-04-04 | 顺丰科技有限公司 | 图像场景分类方法、装置、计算机设备及存储介质 |
CN114781548A (zh) * | 2022-05-18 | 2022-07-22 | 平安科技(深圳)有限公司 | 图像场景分类方法、装置、设备及存储介质 |
CN115100489A (zh) * | 2022-06-30 | 2022-09-23 | 苏州浪潮智能科技有限公司 | 一种图像处理方法、装置、设备及可读存储介质 |
CN115238888A (zh) * | 2022-07-26 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、使用方法、装置、设备及介质 |
CN115471739A (zh) * | 2022-08-03 | 2022-12-13 | 中南大学 | 基于自监督对比学习的跨域遥感场景分类与检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116524302A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936919B2 (en) | Method and apparatus for detecting human face | |
CN108460338B (zh) | 人体姿态估计方法和装置、电子设备、存储介质、程序 | |
CN109446990B (zh) | 用于生成信息的方法和装置 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN107977665A (zh) | 一种发票中关键信息的识别方法及计算设备 | |
CN109308490B (zh) | 用于生成信息的方法和装置 | |
CN108197618B (zh) | 用于生成人脸检测模型的方法和装置 | |
CN109447156B (zh) | 用于生成模型的方法和装置 | |
CN107545301B (zh) | 页面展示方法及装置 | |
CN114511041B (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
CN108228684B (zh) | 聚类模型的训练方法、装置、电子设备和计算机存储介质 | |
CN108427941B (zh) | 用于生成人脸检测模型的方法、人脸检测方法和装置 | |
CN110929785B (zh) | 数据分类方法、装置、终端设备及可读存储介质 | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
CN109522960A (zh) | 图像评估方法、装置、电子设备及计算机可读介质 | |
CN111311485A (zh) | 图像处理方法及相关装置 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113706472B (zh) | 公路路面病害检测方法、装置、设备及存储介质 | |
CN114861241A (zh) | 基于智能检测的防窥屏方法及其相关设备 | |
CN114782769A (zh) | 训练样本的生成方法、装置、系统及目标对象的检测方法 | |
CN112989312B (zh) | 验证码的识别方法、装置、电子设备和存储介质 | |
CN116524302B (zh) | 一种场景识别模型的训练方法、装置及存储介质 | |
CN111898544B (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN110717405B (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN111026849B (zh) | 数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |