CN114005009A - 一种基于RS loss的目标检测模型的训练方法及装置 - Google Patents
一种基于RS loss的目标检测模型的训练方法及装置 Download PDFInfo
- Publication number
- CN114005009A CN114005009A CN202111162166.XA CN202111162166A CN114005009A CN 114005009 A CN114005009 A CN 114005009A CN 202111162166 A CN202111162166 A CN 202111162166A CN 114005009 A CN114005009 A CN 114005009A
- Authority
- CN
- China
- Prior art keywords
- data set
- data
- target detection
- loss
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 97
- 238000012549 training Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 abstract description 29
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于RS loss的目标检测模型的训练方法及装置,该方法包括获取多个目标检测训练数据集,对多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据,根据预处理数据,训练基于RS loss的Faster‑RCNN模型,得到目标检测模型,在目标检测模型基础上增加属性分支,并依据VG数据进行微调。通过在Faster‑RCNN基础上,将原有通过指定多任务超参数方式替换为基于RS loss,简化原有检测模型的复杂性,并避免因次优超参数而降低模型性能,提升了模型视觉表征能力。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于RS loss的目标检测模型的训练方法及装置。
背景技术
人类认识世界是多维的,如用眼睛去观察,是双耳去聆听,用触觉与嗅觉去感知等,大脑基于这些信息分析并理解世界。人工智能核心目标是赋予计算机以智能,让机器像人一样去认识世界。通常的视觉语言系统由两个模块构成:图像编码模块和视觉语言融合模块。其中,图像编码模块,称为视觉特征提取器,即通过相关的卷积神经网络模型,生成针对输入图像的特征图谱。视觉语言融合模块,即将图像的特征图谱以及文本经token处理之后映射到统一语义空间中,使其具有相同语义信息在语义空间中更近,而不同语义更远。
当前视觉语言任务中视觉特征的提取绝大部分仍基于VQA(Visual QuestionAnswering,视觉问答)数据集,即选择骨干网络为ResNet(Residual Network,深度残差网络)-101C4的Faster-RCNN(快速的基于区域的卷积网络)模型,在VG(Visual Genome)数据集中训练。虽VG数据有丰富的对象标记以及属性标签,但针对视觉语言任务来讲,仍无法满足数据丰富性。因此,VinVL(Visual representations inVision-Language Models,视觉语言模型中的视觉表示)模型在原有VG数据集基础上,利用三个公开数据集:COCO(CommonObjects in Context,上下文中的公共对象)、OpenImages(公开图像)、Objects365(目标检测),采用类别平衡与数据集平衡策略,扩展并丰富VG数据集;另外,将原有Faster-RCNN骨干网络ResNet-101C4替换为ResNeXt-152C4,重新训练目标检测模型以及微调目标模型,使得训练之后模型具有更丰富的视觉表征。
发明内容
本发明实施例提供一种基于RS loss的目标检测模型的训练方法及装置,在Faster-RCNN基础上,将原有通过指定多任务超参数方式替换为基于RS loss,简化原有检测模型的复杂性,并避免因次优超参数而降低模型性能,提升了模型视觉表征能力。
第一方面,本发明实施例提供的一种基于RS loss的目标检测模型的训练方法,包括:
获取多个目标检测训练数据集;
对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据;
根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型;
在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。
可选地,所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集;
所述对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据,包括:
从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集;
使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增;
以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中;
剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。
可选地,所述根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型,包括:
构建基于RS loss的Faster-RCNN模型的损失函数;
使用基于RS loss构建的Faster-RCNN模型的损失函数,对所述预处理数据进行训练,得到所述目标检测模型。
可选地,所述构建基于RS loss的Faster-RCNN模型的损失函数,包括:
定义RS损失函数;
对所述RS损失函数进行计算;
优化所述RS损失函数;
将优化后的所述RS损失函数作为所述Faster-RCNN模型的损失函数。
可选地,所述在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调,包括:
在所述目标检测模型添加属性类别数目为第三预设数量类的属性分支;
修改基于RS Loss的Faster-RCNN模型,并添加属性分支loss;
调整用于训练的超参数,基于VG数据集微调所述目标检测模型。
第二方面,本发明实施例提供一种基于RS loss的目标检测模型的训练装置,包括:
获取单元,用于获取多个目标检测训练数据集;
预处理单元,用于对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据;
处理单元,用于根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型;在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。
可选地,所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集;
所述预处理单元具体用于:
从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集;
使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增;
以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中;
剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。
可选地,所述处理单元具体用于:
构建基于RS loss的Faster-RCNN模型的损失函数;
使用基于RS loss构建的Faster-RCNN模型的损失函数,对所述预处理数据进行训练,得到所述目标检测模型。
可选地,所述处理单元具体用于:
定义RS损失函数;
对所述RS损失函数进行计算;
优化所述RS损失函数;
将优化后的所述RS损失函数作为所述Faster-RCNN模型的损失函数。
可选地,所述处理单元具体用于:
在所述目标检测模型添加属性类别数目为第三预设数量类的属性分支;
修改基于RS loss的Faster-RCNN模型,并添加属性分支loss;
调整用于训练的超参数,基于VG数据集微调所述目标检测模型。
第三方面,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于RS loss的目标检测模型的训练方法。
第四方面,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述基于RSloss的目标检测模型的训练方法。
本发明实施例中,通过获取多个目标检测训练数据集,对多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据,根据预处理数据,训练基于RS loss的Faster-RCNN模型,得到目标检测模型,在目标检测模型基础上增加属性分支,并依据VG数据进行微调。通过在Faster-RCNN基础上,将原有通过指定多任务超参数方式替换为基于RSloss,简化原有检测模型的复杂性,并避免因次优超参数而降低模型性能,提升了模型视觉表征能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种基于RS loss的目标检测模型的训练方法的流程示意图;
图3为本发明实施例提供的一种基于RS loss的目标检测模型的训练装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例所适用的一种系统架构,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
图2示例性的示出了本发明实施例提供的一种基于RS loss的目标检测模型的训练的流程,该流程可以由基于RS loss的目标检测模型的训练装置执行。
如图2所示,该流程具体包括:
步骤201,获取多个目标检测训练数据集。
在本发明实施例中,该多个目标检测训练数据集可以包括第一数据集、第二数据集、第三数据集和第四数据集,例如可以使用Open-Images、Objects365、Visual genome和COCO数据集。
步骤202,对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据。
目前视觉语言任务通常使用视觉模型都是骨干网络为ResNet-101C4的Faster-RCNN模型提取,训练时仅使用Visual genome数据集,虽此数据集针对目标有丰富标注,但针对视觉语言任务仍旧捉襟见肘。因此,为了丰富数据集,本发明实施例在VG数据集的基础上,利用已有的三个目标检测数据集进行进一步地数据丰富,提高视觉模型表征,具体的:
首先可以从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集。然后使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增。以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中。最后剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。上述第一预设数量和第二预设数量可以依据经验设置。
这里的第一数据集可以为Open-Images数据集,第二数据集可以为Objects365数据集,第三数据集可以为Visual Genome数据集,第四数据集可以为COCO数据集。
在具体实施过程中,为了增强长尾分布中尾部视觉特征,分别从Open-Images(第一数据集)和Objects365(第二数据集)两个数据集中每个类别中至少选择2000(第一预设数量)个样本,得到2.2M(million)和0.8M图像,记为A(第一候选数据集)和B(第二候选数据集)。
为了平衡每个数据集贡献率,将4个数据集进行倍增处理,分别得到:8倍的COCO数据集(8x0.11M)、8倍的Visual genome数据集(8x0.1M)、1倍A(1x2.2M OpenImagesV5)、2倍的B(2x0.8M Objects365)。
此外,为了统一数据集目标词汇,以VG数据集为基石,将其他数据集中具有相同类别的数据合并到VG数据集的类别中,而不同类别的数据作为新类添加到VG数据集中。
基于此,为了减少因类别不平衡而影响模型性能,将类中少于30个样本剔除,这样在最终形成的数据集中VG有1594类,不属于VG属于其他三类的类别有254类,即最终得到的数据集有1848类,也即为预处理数据。
步骤203,根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型。
具体的,首先构建基于RS loss的Faster-RCNN模型的损失函数,然后使用基于RSloss构建的Faster-RCNN模型的损失函数,对预处理数据进行训练,得到目标检测模型。
目前绝大多数视觉语言任务所使用的视觉特征提取模型Faster-RCNN结构,首先骨干网络根据输入图像提取特征,然后RPN网络根据anchor、NMS等技术得到候选区域,紧接着RoI Pooling综合输入的候选区域和特征图信息,通过全连接层,最后输出目标的位置以及对应类别。在训练过程中,RPN和整个网络都有输出,则分别对应的loss为RPN loss和Fast R-CNN loss,而每个部分都包含分类loss和定位loss,其形式如下:
其中,λ为权重平衡参数,Lcls与Lreg分别为分类loss和定位loss,Ncls为min-batch大小,Nreg为anchor位置数目,pi为anchor的预测分类概率,当anchor为正样本时,否则,ti和分别为bounding box的预测坐标和真实坐标,具体如下:
tx=(x-xa)/wa;
ty=(y-ya)/ha;
其中,x,y,w,h分别是box的中心点坐标、宽、高,x,xa,x*分别对应于预测box、anchor box、ground truthbox,其他y,w,h也类似。在整个训练过程中,将RPN loss和FastR-CNN loss相加,但每一部分Loss都有对应的超参数λ,训练前已被指定,这种指定超参数的多任务策略,导致模型出现次优问题,RS loss完美的解决了此问题,并简化了原有模型训练复杂度,提高了模型的性能。
首先定义RS损失函数。然后对RS损失函数进行计算,优化RS损失函数。最后将优化后的RS损失函数作为Faster-RCNN模型的损失函数。
其中lRS(i)表示当前rank误差与sort误差的总和;
在正样本与负样本类间基础上,增加正样本类内优先级差异性,即:
其中,P为正样本、N为负样本,lR(i)和lS(i)为当前rank误差和当前sort误差,和为目标的rank误差和sort误差,pR(j,i)和pS(i,j)分别表示rank和sort概率密度函数(pmfs),即:
在基于RS loss构建Faster-RCNN损失函数时,可以将Faster-RCNN模型中的损失函数替换为RS Loss损失函数,即将Faster-RCNN损失函数:
替换为基于RS loss的损失函数:
基于该损失函数对上述预处理数据进行训练,既可以得到目标检测模型。
步骤204,在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。
具体的,首先在目标检测模型添加属性类别数目为第三预设数量类的属性分支。然后修改基于RS Loss的Faster-RCNN模型,并添加属性分支loss。最后调整用于训练的超参数,基于VG数据集微调目标检测模型。该第三预设数量可以依据经验设置。
通过上述步骤得到的目标检测模型可以得到图像中对象检测结果,即图像有什么并且在什么位置,这对于视觉语言模型要理解图像内容还远远不够,因此需要在目标检测模型基础上添加属性分支。具体实施时,可以如下:
1)、目标检测模型添加属性类别数目为524类的属性分支;
2)、修改基于RS Loss的Faster-RCNN模型,并添加属性分支loss;
3)、调整训练相关超参数,基于VG数据集微调目标检测模型。
当前绝大多数视觉语言任务提取视觉特征仍采用基于VG数据集训练的骨干网络为ResNet-101 C4的Faster-RCNN模型,虽然VinVL利用已有目标检测数据扩充了原有的VG数据集,并将骨干网络替换为ResNeXt-152 C4,但在训练过程中仍采用基于指定超参数多任务策略,将导致训练复杂性以及模型次优问题。本发明实施例针对此问题,在基于Faster-RCNN基础上,引入RS loss,通过数据与模型本身属性动态解决多任务指定超参数问题,提升了模型视觉表征能力。
上述实施例表明,获取多个目标检测训练数据集,对多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据,根据预处理数据,训练基于RS loss的Faster-RCNN模型,得到目标检测模型,在目标检测模型基础上增加属性分支,并依据VG数据进行微调。通过在Faster-RCNN基础上,将原有通过指定多任务超参数方式替换为基于RS loss,简化原有检测模型的复杂性,并避免因次优超参数而降低模型性能,提升了模型视觉表征能力。
基于相同的技术构思,图3示例性的示出了本发明实施例提供的一种基于RS loss的目标检测模型的训练装置的结构,该装置可以执行基于RS loss的目标检测模型的训练流程。
如图3所示,该装置可以包括:
获取单元301,用于获取多个目标检测训练数据集;
预处理单元302,用于对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据;
处理单元303,用于根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型;在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。
可选地,所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集;
所述预处理单元302具体用于:
从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集;
使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增;
以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中;
剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。
可选地,所述处理单元303具体用于:
构建基于RS loss的Faster-RCNN模型的损失函数;
使用基于RS loss构建的Faster-RCNN模型的损失函数,对所述预处理数据进行训练,得到所述目标检测模型。
可选地,所述处理单元303具体用于:
定义RS损失函数;
对所述RS损失函数进行计算;
优化所述RS损失函数;
将优化后的所述RS损失函数作为所述Faster-RCNN模型的损失函数。
可选地,所述处理单元303具体用于:
在所述目标检测模型添加属性类别数目为第三预设数量类的属性分支;
修改基于RS loss的Faster-RCNN模型,并添加属性分支loss;
调整用于训练的超参数,基于VG数据集微调所述目标检测模型。
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于RS loss的目标检测模型的训练方法。
基于相同的技术构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述基于RS loss的目标检测模型的训练方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于RS loss的目标检测模型的训练方法,其特征在于,包括:
获取多个目标检测训练数据集;
对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据;
根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型;
在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。
2.如权利要求1所述的方法,其特征在于,所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集;
所述对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据,包括:
从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集;
使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增;
以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中;
剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。
3.如权利要求1所述的方法,其特征在于,所述根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型,包括:
构建基于RS loss的Faster-RCNN模型的损失函数;
使用基于RS loss构建的Faster-RCNN模型的损失函数,对所述预处理数据进行训练,得到所述目标检测模型。
4.如权利要求3所述的方法,其特征在于,所述构建基于RS loss的Faster-RCNN模型的损失函数,包括:
定义RS损失函数;
对所述RS损失函数进行计算;
优化所述RS损失函数;
将优化后的所述RS损失函数作为所述Faster-RCNN模型的损失函数。
5.如权利要求1至4任一项所述的方法,其特征在于,所述在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调,包括:
在所述目标检测模型添加属性类别数目为第三预设数量类的属性分支;
修改基于RS Loss的Faster-RCNN模型,并添加属性分支loss;
调整用于训练的超参数,基于VG数据集微调所述目标检测模型。
6.一种基于RS loss的目标检测模型的训练装置,其特征在于,包括:
获取单元,用于获取多个目标检测训练数据集;
预处理单元,用于对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据;
处理单元,用于根据所述预处理数据,训练基于RS loss的Faster-RCNN模型,得到所述目标检测模型;在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。
7.如权利要求6所述的装置,其特征在于,所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集;
所述预处理单元具体用于:
从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集;
使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增;
以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中;
剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。
8.如权利要求6所述的装置,其特征在于,所述处理单元具体用于:
构建基于RS loss的Faster-RCNN模型的损失函数;
使用基于RS loss构建的Faster-RCNN模型的损失函数,对所述预处理数据进行训练,得到所述目标检测模型。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至5任一项所述的方法。
10.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162166.XA CN114005009B (zh) | 2021-09-30 | 2021-09-30 | 一种基于RS loss的目标检测模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162166.XA CN114005009B (zh) | 2021-09-30 | 2021-09-30 | 一种基于RS loss的目标检测模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114005009A true CN114005009A (zh) | 2022-02-01 |
CN114005009B CN114005009B (zh) | 2023-11-14 |
Family
ID=79922202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111162166.XA Active CN114005009B (zh) | 2021-09-30 | 2021-09-30 | 一种基于RS loss的目标检测模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005009B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522963A (zh) * | 2018-11-26 | 2019-03-26 | 北京电子工程总体研究所 | 一种单机运行的特征建筑目标检测方法和系统 |
CN111986145A (zh) * | 2020-07-09 | 2020-11-24 | 浙江工业大学 | 一种基于Faster-RCNN的轴承滚子瑕疵检测方法 |
CN112488292A (zh) * | 2020-11-19 | 2021-03-12 | 杭州电子科技大学 | 一种面向通用多模态学习的神经框架搜索方法 |
CN113052136A (zh) * | 2021-04-22 | 2021-06-29 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113239980A (zh) * | 2021-04-23 | 2021-08-10 | 华中科技大学 | 基于小样本机器学习与超参数优化的水下目标检测方法 |
CN113313082A (zh) * | 2021-07-28 | 2021-08-27 | 北京电信易通信息技术股份有限公司 | 一种基于多任务损失函数的目标检测方法及系统 |
-
2021
- 2021-09-30 CN CN202111162166.XA patent/CN114005009B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522963A (zh) * | 2018-11-26 | 2019-03-26 | 北京电子工程总体研究所 | 一种单机运行的特征建筑目标检测方法和系统 |
CN111986145A (zh) * | 2020-07-09 | 2020-11-24 | 浙江工业大学 | 一种基于Faster-RCNN的轴承滚子瑕疵检测方法 |
CN112488292A (zh) * | 2020-11-19 | 2021-03-12 | 杭州电子科技大学 | 一种面向通用多模态学习的神经框架搜索方法 |
CN113052136A (zh) * | 2021-04-22 | 2021-06-29 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113239980A (zh) * | 2021-04-23 | 2021-08-10 | 华中科技大学 | 基于小样本机器学习与超参数优化的水下目标检测方法 |
CN113313082A (zh) * | 2021-07-28 | 2021-08-27 | 北京电信易通信息技术股份有限公司 | 一种基于多任务损失函数的目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114005009B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210042580A1 (en) | Model training method and apparatus for image recognition, network device, and storage medium | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN111738908B (zh) | 结合实例分割和循环生成对抗网络的场景转换方法及系统 | |
US10762389B2 (en) | Methods and systems of segmentation of a document | |
CN113158554B (zh) | 模型优化方法、装置、计算机设备及存储介质 | |
KR20190028242A (ko) | 뉴럴 네트워크 학습 방법 및 장치 | |
CN113569895A (zh) | 图像处理模型训练方法、处理方法、装置、设备及介质 | |
CN111292377A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN114881225A (zh) | 输变电巡检模型网络结构搜索方法、系统及存储介质 | |
CN114359938A (zh) | 一种表格识别方法及装置 | |
CN111652141A (zh) | 基于题号和文本行的题目分割方法、装置、设备和介质 | |
CN113407837A (zh) | 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统 | |
CN114005009B (zh) | 一种基于RS loss的目标检测模型的训练方法及装置 | |
CN114449342B (zh) | 视频推荐方法、装置、计算机可读存储介质和计算机设备 | |
CN115878891A (zh) | 直播内容生成方法、装置、设备以及计算机存储介质 | |
CN112287938B (zh) | 一种文本分割方法、系统、设备以及介质 | |
CN115858725A (zh) | 一种基于无监督式图神经网络的文本噪声筛选方法及系统 | |
CN113840169B (zh) | 一种视频处理方法、装置、计算设备和存储介质 | |
CN114494693A (zh) | 对图像进行语义分割的方法及装置 | |
CN113392867A (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
US20210019576A1 (en) | Quality Control Systems and Methods for Annotated Content | |
CN113361530A (zh) | 使用交互手段的图像语义精准分割及优化方法 | |
CN114826921B (zh) | 基于抽样子图的网络资源动态分配方法、系统及介质 | |
CN116704264B (zh) | 动物分类方法、分类模型训练方法、存储介质及电子设备 | |
CN107657060A (zh) | 一种基于半结构化文本分类的特征优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |