CN117437397A - 模型训练方法、目标检测方法及装置 - Google Patents
模型训练方法、目标检测方法及装置 Download PDFInfo
- Publication number
- CN117437397A CN117437397A CN202210831544.7A CN202210831544A CN117437397A CN 117437397 A CN117437397 A CN 117437397A CN 202210831544 A CN202210831544 A CN 202210831544A CN 117437397 A CN117437397 A CN 117437397A
- Authority
- CN
- China
- Prior art keywords
- model
- prediction
- boundary
- real
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 233
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims description 146
- 238000009826 distribution Methods 0.000 claims abstract description 91
- 230000008569 process Effects 0.000 claims description 78
- 238000000605 extraction Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 10
- 230000000452 restraining effect Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 230000005012 migration Effects 0.000 abstract description 20
- 238000013508 migration Methods 0.000 abstract description 20
- 230000000875 corresponding effect Effects 0.000 description 382
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 14
- 230000003247 decreasing effect Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 238000009395 breeding Methods 0.000 description 6
- 230000001488 breeding effect Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了模型训练方法、目标检测方法及装置,在模型训练阶段,通过基于第一参考边界框、及其对应的真实边界框和真实类别,促使待训练模型不断学习边界框分布和目标对象类别识别,使得生成子模型针对第一参考边界框所输出的预测结果更加真实,提高模型的目标检测准确度、泛化性和数据迁移性;并且基于判别子模型所输出的判别结果集合确定损失值,再不断基于损失值对模型参数进行多轮迭代更新,其中判别结果集合包括表征边界框分布相似程度的第一判别结果、以及表征第一预测类别与真实类别的类别相似程度的第二判别结果,能够实现同时确保目标检测时目标对象位置标记和目标对象分类的准确度。
Description
技术领域
本申请涉及目标检测领域,尤其涉及一种模型训练方法、目标检测方法及装置。
背景技术
目前,随着人工智能技术的快速发展,通过预先训练的目标检测模型对某一图像中进行目标检测,从而预测得到图像中包含的各个目标所在边界框的坐标信息、以及预测得到边界框所圈定的图像区域中目标的具体类别的需求越来越高。
其中,相关技术中的目标检测模型训练过程中,主要基于边界框回归对应的交叉熵损失和边界框分类对应的交叉熵损失,来计算模型损失值,进而对模型参数进行迭代优化,导致对于预设样本图像集合而言,训练得到的目标检测模型的模型参数的准确度比较高,但对于待目标检测图像而言,训练得到的目标检测模型的模型参数的准确度会有所降低,导致目标检测模型的泛化性差,进而导致模型应用阶段的目标检测时目标对象位置标记和目标对象分类的准确度均比较低。
发明内容
本申请实施例的目的是提供一种模型训练方法、目标检测方法及装置,能够提高训练后模型的目标检测准确度、泛化性和数据迁移性,从而实现同时确保目标检测时目标对象位置标记和目标对象分类的准确度。
为了实现上述技术方案,本申请实施例是这样实现的:
第一方面,本申请实施例提供的一种模型训练方法,所述方法包括:
从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取每个所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;
基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;
基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
第二方面,本申请实施例提供的一种目标检测方法,所述方法包括:
从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
第三方面,本申请实施例提供的一种模型训练装置,所述装置包括:
第一边界框获取模块,被配置为从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取每个所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
模型训练模块,被配置为将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
第四方面,本申请实施例提供的一种目标检测装置,所述装置包括:
第二边界框获取模块,被配置为从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
目标检测模块,被配置为将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
检测结果生成模块,被配置为基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
第五方面,本申请实施例提供的一种计算机设备,所述设备包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面或第二方面中所述的方法中的步骤。
第六方面,本申请实施例提供的一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面或第二方面中所述的方法中的步骤。
可以看出,在本申请实施例中,在模型训练阶段,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的模型训练方法的流程示意图;
图2为本申请实施例提供的模型训练方法中每次模型训练过程的流程示意图;
图3为本申请实施例提供的模型训练方法的第一种实现原理示意图;
图4a为本申请实施例提供的模型训练方法的第二种实现原理示意图;
图4b为本申请实施例提供的模型训练方法的第三种实现原理示意图;
图5为本申请实施例提供的目标检测方法的流程示意图;
图6为本申请实施例提供的目标检测方法的实现原理示意图;
图7为本申请实施例提供的模型训练装置的模块组成示意图;
图8为本申请实施例提供的目标检测装置的模块组成示意图;
图9为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请一个或多个中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一个或多个一部分实施例,而不是全部的实施例。基于本申请一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请的保护范围。
需要说明的是,在不冲突的情况下,本申请中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请实施例。
考虑到如果直接基于第一预测边界框和真实边界框计算两个边界框之间的交叉熵回归损失,再基于交叉熵回归损失对模型参数进行迭代训练,这样训练后的目标检测模型比较依赖于模型训练阶段所使用的预设样本图像集合,目标检测模型的泛化性差、模型跨数据迁移能力差,势必会存在目标检测模型对预设样本图像集合的边界框预测准确度高,而对于新的待检测图像数据的边界框预测准确度低的问题,因此,在模型训练阶段,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性,进而实现确保利用目标检测模型对新的待检测图像的边界框回归准确度,提高训练后的目标检测模型用于边界框预测时的数据迁移适应能力;并且考虑到如果直接基于第一预测类别和真实类别计算两个类别之间的交叉熵分类损失,再基于交叉熵分类损失对模型参数进行迭代训练,这样训练后的目标检测模型比较依赖于模型训练阶段所使用的预设样本图像集合,目标检测模型的泛化性差、模型跨数据迁移能力差,势必会存在目标检测模型对预设样本图像集合的目标对象分类准确度高,而对于新的待检测图像数据的目标对象分类准确度低的问题,基于此,在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性,从而实现确保利用目标检测模型对新的待检测图像的目标对象分类准确度,提高训练后的目标检测模型用于目标对象分类时的数据迁移适应能力。
图1为本申请一个或多个实施例提供的模型训练方法的流程示意图,图2中的方法能够由设置有模型训练装置的电子设备执行,该电子设备可以是终端设备或者指定服务器,其中,用于目标检测模型训练的硬件装置(即设置有模型训练装置的电子设备)与目标检测的硬件装置(即设置有目标检测装置的电子设备)可以相同或不同;具体的,针对目标检测模型的训练过程,如图1所示,该方法至少包括以下步骤:
S102,从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取各第一参考边界框分别对应的真实边界框和该真实边界框对应的真实类别;其中,第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的,第一指定数量可以为N,N为大于1的正整数;
具体的,针对N个第一参考边界框的确定过程,可以是针对每轮模型训练,执行一次利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取的步骤,得到N个第一参考边界框;也可以是预先执行利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取的步骤,然后针对每轮模型训练,从预先提取的大量候选边界框随机采样得到N个第一参考边界框。
具体的,预设样本图像集合中可以包含多个样本目标对象,每个样本目标对象可以对应于多个第一参考边界框,即N个第一参考边界框包含各样本目标对象分别对应的至少一个第一参考边界框。
具体的,在上述步骤S102从第一候选边界框集合中获取第一指定数量的第一参考边界框之前,还包括:将预设样本图像集合输入预设感兴趣区域提取模型进行感兴趣区域提取,得到第一候选边界框集合,该第一候选边界框集合包括第二指定数量的候选边界框;其中,第二指定数量可以为X,X≥N,X为大于1的正整数,也就是说,针对X=N,即第二指定数量等于第一指定数量的情况,针对每轮模型训练,均利用预设感兴趣区域提取模型,对预设样本图像集合中的多个样本图像数据进行感兴趣区域提取,得到第一指定数量的第一参考边界框;针对X>N,即第二指定数量大于第一指定数量的情况,针对每轮模型训练,从第一指定数量的候选边界框中随机采样得到第一指定数量的第一参考边界框。
其中,考虑到在模型训练过程中目的之一是通过对模型参数迭代训练不断学习边界框分布,从而提高模型的泛化性和数据可迁移性(即模型参数不依赖于模型训练过程使用的样本数据,能够更好地适用于模型应用过程的待识别数据),由于为了促使待训练模型能够更好地学习边界框分布,需要确保提取的输入待训练模型的第一参考边界框服从一定概率分布(如高斯分布或者柯西分布),这样利用预设感兴趣区域提取模型提取的锚框的数量N越大,越有助于待训练模型更好地进行边界框分布学习,然而如果每次均实时利用预设感兴趣区域提取模型(如感兴趣区域提取算法ROI)提取X个锚框作为第一参考边界框,输入到待训练模型中进行模型训练,势必会导致数据处理量比较大,对硬件设备要求比较高;
在具体实施时,优选地是预先利用预设感兴趣区域提取模型提取X个锚框,然后,每一轮模型训练从X个锚框中随机采样N个作为第一参考边界框,输入到待训练模型中进行模型训练,这样既能够确保每轮模型训练的数据处理量,也能够确保模型更好地进行边界框分布学习,即能够同时兼顾模型训练过程中的数据处理量和促使边界框分布学习,基于此,上述第二指定数量X大于上述第一指定数量N,对应的,上述步骤S102,从第一候选边界框集合中获取第一指定数量的第一参考边界框,具体包括:从上述第二指定数量的候选边界框中,随机选取第一指定数量的候选边界框作为第一参考边界框,即预先利用预设感兴趣区域提取模型,对预设样本图像集合中的多个样本图像数据进行感兴趣区域提取,得到X个候选边界框;然后,针对每轮模型训练,从X个候选边界框中随机采样得到N个第一参考边界框。
也就是说,优选的实施方式为,预先提取X个锚框(即第二指定数量的候选边界框),然后,针对每轮模型训练,均从X个锚框中随机采样N个锚框(即第一指定数量的第一参考边界框),然后继续执行下述步骤S104。
S104,将上述第一参考边界框、真实边界框和真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;上述模型迭代训练终止条件可以包括:当前模型训练轮数等于总训练轮数、模型损失函数收敛、或者生成子模型和判别子模型之间达到平衡;
其中,针对上述步骤S104中的模型迭代训练过程,下述对模型迭代训练的具体实现过程进行说明,由于模型迭代训练过程中每次模型训练的处理过程相同,因此,以任意一次模型训练为例进行细化说明。具体的,若上述待训练模型包括生成子模型和判别子模型;如图2所示,每次模型训练的具体实现方式均可以有如下步骤S1042至步骤S1046:
S1042,针对每个第一参考边界框:生成子模型基于第一参考边界框进行预测,得到第一预测边界框和第一预测类别;判别子模型基于第一参考边界框对应的真实边界框和第一预测边界框、以及第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;其中,该判别结果集合包括第一判别结果和第二判别结果,第一判别结果表征在满足预设约束的条件下,第一预测边界框与真实边界框的边界框分布相似程度,该预设约束为第一预测边界框中的目标对象的类别被生成子模型预测为与对应的真实类别相匹配的目标类别,第二判别结果表征第一参考边界框对应的第一预测类别与对应的真实类别之间的类别相似程度;
具体的,由于上述生成子模型不仅用于基于第一参考边界框进行边界框预测,得到对应的第一预测边界框,还用于对第一参考边界框或者第一预测边界框内图像区域的目标对象进行类别预测,因此,生成子模型的模型参数包括与边界框回归有关的第一模型参数和与目标对象类别预测有关的第二模型参数,因此,在模型训练过程中需要一并对第一模型参数和第二模型参数进行迭代更新,即基于各第一参考边界框对应的第一判别结果,对第一模型参数进行迭代更新,以及基于各第一参考边界框对应的第二判别结果,对第二模型参数进行迭代更新。
具体的,针对表征边界框分布相似程度的第一判别结果的确定过程,可以直接计算真实边界框与对应的第一预测边界框之间的KL散度;然而,在具体实施时,考虑到判别子模型能够判别生成子模型预测得到的第一预测边界框是否足够真实,在生成的边界框(即第一预测边界框)与真实的边界框(即真实边界框)难以区分的情况下,由于判别子模型的存在,基于判别子模型的判别结果对模型参数进行调整,能够进一步促使生成子模型预测得到的第一预测边界框更加接近于真实边界框,因此,为了进一步提高边界框分布相似程度对应的回归损失分量的准确度,进而确保目标检测模型预测得到的第一预测边界框更加真实,也可以针对每个第一参考边界框,借助判别子模型判别该第一参考边界框对应的真实边界框与对应的第一预测边界框,分别来自于真实数据还是生成数据的判别概率,由于判别概率的大小与两个边界框(即真实边界框与对应的第一预测边界框)的概率分布接近程度有关,因此,判别概率能够表征真实边界框与对应的第一预测边界框之间的分布相似程度,从而基于判别概率能够确定从边界框分布相似程度角度考量的判别维度对应的第一回归损失分量,进而促使模型进行边界框回归学习;具体的,针对某一第一参考边界框对应的真实边界框和第一预测边界框而言,判别子模型判别真实边界框来自于真实数据的判别概率、以及判别第一预测边界框来自于生成数据的判别概率,判别子模型判别真实边界框来自于真实数据的判别概率越大、第一预测边界框来自于生成数据的判别概率越大,说明第一预测边界框与对应的真实边界框的概率分布相似程度越低,针对边界框分布相似程度的判别维度而言对应的第一回归损失分量越大,因此,某一第一参考边界框对应的第一预测边界框与对应的真实边界框的分布相似程度是基于判别子模型针对真实边界框与第一预测边界框分别来自于真实数据还是生成数据的判别概率所确定的,因此,可以基于判别子模型的判别概率生成第一判别结果,这样第一判别结果能够表征边界框分布相似程度,进而基于第一判别结果中的判别概率即可确定边界框分布相似程度的判别维度对应的第一回归损失分量;
另外,由于生成子模型能够同步进行边界框预测和类别预测,考虑到针对类别预测的准确度低的第一参考边界框而言,此类第一参考边界框对应的第一预测边界框可能不能真正反映生成子模型的边界框预测准确度,进而判别子模型针对此类第一参考边界框对应的第一预测边界框和真实边界框的判别结果也无法真正反映生成子模型的边界框预测准确度,因此,在表征边界框分布相似程度的第一判别结果的确定过程,引入上述预设约束,将上述预设约束作为一个前提条件(即第一参考边界框对应的第一预测类别满足某一预设类别匹配约束条件),判别子模型判别真实边界框来自于真实数据的条件判别概率、以及判别第一预测边界框来自于生成数据的条件判别概率,即在第一预测边界框中的目标对象的类别被生成子模型预测为与对应的真实类别相匹配的目标类别(即第一预测类别与真实类别相匹配)的条件下,判别子模型判别真实边界框来自于真实数据的第一判别概率、以及判别第一预测边界框来自于生成数据的第二判别概率,也就是说,只有第一参考边界框对应的第一预测类别满足上述预设约束的条件下,才确定第一参考边界框对应的第一判别结果。
对应的,针对第一预测类别与真实类别之间的类别相似程度的第二判别结果的确定过程,可以直接基于第一预测类别和真实类别计算两个类别之间的交叉熵分类损失;然而,在具体实施时,考虑到判别子模型能够判别生成子模型预测得到的第一预测类别是否足够真实,在生成的目标对象类别(即第一预测类别)与真实的目标对象类别(即真实类别)难以区分的情况下,由于判别子模型的存在,基于判别子模型的判别结果对模型参数进行调整,能够进一步促使生成子模型预测得到的第一预测类别更加接近于真实类别,因此,为了进一步提高类别相似程度对应的分类损失分量的准确度,进而确保目标检测模型预测得到的第一预测类别更加真实,也可以针对每个第一参考边界框,借助判别子模型判别该第一参考边界框对应的真实类别与对应的第一预测类别,分别来自于真实数据还是生成数据的判别概率,由于判别概率的大小与两个类别的接近程度有关,因此,判别概率能够表征真实类别与对应的第一预测类别之间的类别相似程度,从而基于判别概率能够确定第一参考边界框对应的分类损失分量,进而促使模型进行目标分类学习;具体的,针对某一第一参考边界框对应的真实类别和第一预测类别而言,判别子模型判别真实类别来自于真实数据的判别概率、以及判别第一预测类别来自于生成数据的判别概率,判别子模型判别真实类别来自于真实数据的判别概率越大、第一预测类别来自于生成数据的判别概率越大,说明第一预测类别与对应的真实类别之间的类别相似程度越低,第一参考边界框对应的分类损失分量越大,因此,某一第一参考边界框对应的第一预测类别与对应的真实类别的类别相似程度是基于判别子模型针对真实类别与第一预测类别分别来自于真实数据还是生成数据的判别概率所确定的,因此,可以基于判别子模型的判别概率生成第二判别结果,这样第二判别结果能够表征类别相似程度,进而基于第二判别结果中的判别概率即可确定第一参考边界框对应的分类损失分量。
S1044,基于每个第一参考边界框对应的第一判别结果和第二判别结果,确定待训练模型的总损失值;
其中,上述总损失值包括基于各第一参考边界框对应的第一判别结果确定的回归损失值、以及基于各第一参考边界框对应的第二判别结果确定的分类损失值;
具体的,在针对每个第一参考边界框分别得到判别结果集合之后,即可得到各第一参考边界框对应的子损失值,该子损失值至少包括从边界框分布相似程度角度考量的第一判别维度对应的第一回归损失分量、以及从真实类别与第一预测类别的类别相似程度考量的分类判别维度对应的分类损失分量;然后,基于各第一参考边界框对应的子损失值,即可确定用于对模型参数进行调整的总损失值。
S1046,基于上述总损失值对上述生成子模型和判别子模型的模型参数进行更新。
具体的,在基于各第一参考边界框对应的子损失值确定出总损失值之后,利用梯度下降方法基于上述总损失值对生成子模型和判别子模型进行参数调整;其中,由于与目标对象分类有关的分类损失值是基于判别子模型的判别概率得到的,在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,使得最终训练得到的目标检测模型的目标分类准确更高;并且,由于与边界框预测有关的回归损失值至少反映了基于边界框分布相似程度的回归损失判别维度对应的第一回归损失分量,使得最终训练得到的目标检测模型不仅能够确保预测得到的第一预测边界框与真实边界框的概率分布更接近。
在模型训练过程中,判别子模型尽量区分第一参考边界框对应的真实边界框与对应的第一预测边界框,分别来自于真实数据还是生成数据,以及尽量区分第一参考边界框对应的真实类别与对应的第一预测类别,分别来自于真实数据还是生成数据,以最小化待训练模型的回归分类损失,而为了使判别子模型的分辨错误最大化,迫使生成子模型不断学习边界框分布和目标对象类别识别,促使生成子模型与判别子模型进行多轮对抗学习,从而得到预测更加准确的生成子模型作为目标检测模型。
需要说明的是,基于待训练模型的总损失值对模型参数进行迭代训练,得到目标检测模型可以参见现有的利用梯度下降方法反向传播对模型参数进行调优的过程,在此不再赘述。
另外,基于本申请实施例提供的模型训练方法训练得到的目标检测模型可以应用到任一需要对待检测图像进行目标检测的具体应用场景,例如,具体应用场景1,对利用某一公共场所入口(如商场入口、地铁口、景点入口、或演出现场入口等)的图像采集设备所采集得到的待检测图像进行目标检测,又如,具体应用场景2,对利用某一养殖基地中各监控点的图像采集设备所采集得到的待检测图像进行目标检测;
其中,由于目标检测模型的具体应用场景的不同,目标检测模型训练过程所使用的预设样本图像集合也有所不同,针对具体应用场景1,预设样本图像集合可以是预设历史时间段内在指定公共场所入口采集得到的历史样本图像,对应的,第一参考边界框所圈定的目标对象为历史样本图像中进入该指定公共场所的目标用户,真实类别和第一预测类别可以是目标用户所属类别,如年龄段、性别、身高、职业中至少一项;针对具体应用场景2,预设样本图像集合可以是预设历史时间段内在指定养殖基地中各监控点采集得到的历史样本图像,对应的,第一参考边界框所圈定的目标对象为历史样本图像中的目标养殖对象,真实类别和第一预测类别可以是目标养殖对象所属类别,如活体状态、体型大小中至少一项。
如图3所示,给出了一种目标检测模型训练过程的具体实现原理示意图,具体包括:
获取第一指定数量的第一参考边界框,以及获取各第一参考边界框分别对应的真实边界框和真实类别;
针对每个第一参考边界框:上述生成子模型基于该第一参考边界框进行边界框预测,得到第一预测边界框,以及对第一参考边界框或者第一预测边界框中的图像区域进行目标类别预测,得到第一预测类别;上述判别子模型基于上述第一参考边界框对应的真实边界框和第一预测边界框、以及上述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;
基于各第一参考边界框对应的第一判别结果和第二判别结果,确定待训练模型的总损失值;
基于上述总损失值对待训练模型的模型参数进行迭代更新,直到当前模型训练结果满足预设模型训练结束条件,得到目标检测模型。
具体的,上述步骤S1042,基于第一参考边界框对应的真实边界框和第一预测边界框、以及第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合,具体包括:
在第一参考边界框对应的第一预测类别满足上述预设约束的条件下,对第一参考边界框对应的真实边界框和第一预测边界框进行边界框真伪判别,得到第一判别结果;并且,对第一参考边界框对应的真实类别和第一预测类别进行类别真伪判别,得到第二判别结果。
进一步地,为了提高各第一参考边界框对应的回归损失的准确度,从而提高模型参数的训练准确度,因此,不仅从表征边界框分布相似程度的第一判别维度考虑边界框回归损失,还从表征边界框坐标重合程度的第二判别维度考虑边界框回归损失,基于此,上述判别结果集合还包括第三判别结果,第三判别结果表征在满足上述预设约束的条件下,第一预测边界框与真实边界框的边界框坐标重合程度;对应的,上述步骤S1042,基于第一参考边界框对应的真实边界框和第一预测边界框、以及第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合,具体包括:
在第一参考边界框对应的第一预测类别满足上述预设约束的条件下,对第一参考边界框对应的真实边界框和第一预测边界框进行边界框真伪判别,得到第一判别结果;
对第一参考边界框对应的真实类别和第一预测类别进行类别真伪判别,得到第二判别结果;
在第一参考边界框对应的第一预测类别满足上述预设约束的条件下,基于第一参考边界框对应的真实边界框和第一预测边界框,计算边界框交并比损失,得到第三判别结果。
具体的,针对表征边界框坐标重合程度的第三判别结果的确定过程,可以仅考虑某一真实边界框与对应的第一预测边界框之间的交并比损失,得到目标交并比损失;也可以综合考虑某一真实边界框与对应的第一预测边界框之间的交并比损失、以及某一真实边界框与其他真实边界框对应的第一预测边界框之间的交并比损失,确定目标交并比损失;由于目标交并比损失的大小能够表征真实边界框与对应的第一预测边界框之间的坐标重合程度,从而基于目标交并比损失能够确定从边界框坐标重合程度角度考量的判别维度对应的第二回归损失分量,进而促使模型进行边界框回归学习;具体的,针对某一第一参考边界框对应的真实边界框和第一预测边界框而言,确定真实边界框与第一预测边界框之间的目标交并比损失,目标交并比损失越大,说明第一预测边界框与对应的真实边界框的坐标重合程度越低,针对边界框坐标重合程度的判别维度而言对应的第二回归损失分量越大,因此,某一第一参考边界框对应的第一预测边界框与对应的真实边界框的坐标重合程度是基于真实边界框与第一预测边界框之间的目标交并比损失所确定的,因此,可以基于目标交并比损失生成第三判别结果,这样第三判别结果能够表征边界框坐标重合程度,进而基于第三判别结果中的标交并比损失即可确定边界框坐标重合程度的判别维度对应的第二回归损失分量;
另外,由于第三判别结果也是用来确定子回归损失值,因此,在表征边界框坐标重合程度的第三判别结果的确定过程,同样引入上述预设约束,将上述预设约束作为一个前提条件(即第一参考边界框对应的第一预测类别满足某一预设类别匹配约束条件),确定真实边界框与第一预测边界框之间的条件交并比损失,即在第一预测边界框中的目标对象的类别被生成子模型预测为与对应的真实类别相匹配的目标类别(即第一预测类别与真实类别相匹配)的条件下,确定第一参考边界框对应的目标交并比损失,也就是说,只有第一参考边界框对应的第一预测类别满足上述预设约束的条件下,才确定第一参考边界框对应的第三判别结果。
其中,针对判别结果集合还包括第三判别结果的情况,上述总损失值包括基于各第一参考边界框对应的第一判别结果和第三判别结果确定的回归损失值、以及基于各第一参考边界框对应的第二判别结果确定的分类损失值;具体的,在针对每个第一参考边界框分别得到判别结果集合之后,即可得到各第一参考边界框对应的子损失值,该子损失值至少包括从边界框分布相似程度角度考量的第一判别维度对应的第一回归损失分量、从真实类别与第一预测类别的类别相似程度考量的分类判别维度对应的分类损失分量、以及从边界框坐标重合程度角度考量的第二判别维度对应的第二回归损失分量;然后,基于各第一参考边界框对应的子损失值,即可确定用于对模型参数进行调整的总损失值,也即基于各第一参考边界框对应的第一判别结果和第二判别结果,确定回归损失值,对与边界框回归有关的第一模型参数进行迭代更新。
具体的,各第一参考边界框对应的子损失值可以包括子分类损失值和子回归损失值,由于与边界框预测有关的子回归损失值至少反映了基于边界框分布相似程度的回归损失判别维度对应的第一回归损失分量、以及基于边界框坐标重合程度的回归损失判别维度对应的第二回归损失分量,因此,用于对模型参数进行调整的回归损失值也反映了这两个回归损失判别维度分别对应的回归损失分量,使得最终训练得到的目标检测模型不仅能够确保预测得到的第一预测边界框与真实边界框的概率分布更接近,也能够确保第一预测边界框与真实边界框的坐标重合程度更高。
在本申请提供的实施例中,还考虑到如果仅仅从边界框分布相似程度的粗粒度比对维度确定模型回归损失,进行模型参数调整,则无法兼顾边界框的精确位置学习,或者仅仅从边界框坐标重合程度的细粒度比对维度确定模型回归损失,进行模型参数调整,则无法兼顾边界框的边缘模糊性问题,因此,通过将从边界框分布相似程度的粗粒度比对维度和边界框坐标重合程度的细粒度比对维度相结合的方式确定模型回归损失,即判别子模型所输出的判别结果集合不仅包括第一判别结果和第二判别结果,还包括表征边界框坐标重合程度的第三判别结果,达到弥补边界框分布相似但具体位置偏差所带来的边界框回归损失的效果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,从而由于基于判别结果集合得到的总损失值准确度更高,使得基于该总损失值更新后的模型参数的准确度更高,进而实现进一步提高目标检测过程中的目标对象位置标记的准确度。
进一步地,考虑到在模型训练过程中,可能存在基于判别子模型所输出的判别结果得到的回归分类损失的梯度突然降低,甚至变为零的情况,为了进一步提高模型参数的训练准确度,引入损失补偿值,基于此,上述判别结果集合还包括第四判别结果;对应的,上述S1042中的基于第一参考边界框对应的真实边界框和第一预测边界框、以及第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合,具体包括:
在第一参考边界框对应的第一预测类别满足上述预设约束的条件下,对第一参考边界框对应的真实边界框和第一预测边界框进行边界框真伪判别,得到第一判别结果;
对上述第一参考边界框对应的真实类别和第一预测类别进行类别真伪判别,得到第二判别结果;
在第一参考边界框对应的第一预测类别满足上述预设约束的条件下,基于第一参考边界框对应的真实边界框和第一预测边界框,计算边界框交并比损失,得到第三判别结果;
基于上述第一参考边界框对应的真实边界框和第一预测边界框,计算用于对待训练模型的损失函数的损失梯度进行约束的损失补偿值,得到第四判别结果。
具体的,由于第一判别结果和第三判别结果的确定过程均与第一预测类别是否满足预设类别匹配约束条件进行关联,因此,针对第一预测类别不满足预设类别匹配约束条件的第一参考边界框,第一判别结果和第三判别结果为空,或者对应的判别结果集合仅包括第二判别结果和第四判别结果,即仅考虑该第一参考边界框对应的第二判别结果和第四判别结果,也就是说,针对第一预测类别不满足预设类别匹配约束条件的第一参考边界框,仅计入此类第一参考边界框对应的分类损失,而不计入此类第一参考边界框对应的回归损失;对应的,针对第一预测类别满足预设类别匹配约束条件的第一参考边界框,不仅考虑该第一参考边界框对应的第二判别结果和第四判别结果,还考虑该第一参考边界框对应的第一判别结果和第三判别结果,即针对第一预测类别满足预设类别匹配约束条件的第一参考边界框,既计入此类第一参考边界框对应的分类损失,也计入此类第一参考边界框对应的回归损失。
具体的,针对每个第一参考边界框,该第一参考边界框对应的判别结果集合不仅包括从边界框分布相似程度角度出发得到的第一判别结果、用于确定分类损失的第二判别结果和从边界框坐标重合程度角度出发得到的第三判别结果,还包括用于约束损失函数的损失梯度的损失补偿值,这样不仅能够提高总损失值的准确度,还能够解决因损失梯度突然降低,甚至变为零的问题。
在具体实施时,如图4a所示,给出了另一种目标检测模型训练过程的具体实现原理示意图,具体包括:
预先利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取,得到X个锚框;其中,预设样本图像集合包括多个原始样本图像,每个原始样本图像至少包括一个目标对象;每个锚框对应的特征信息可以包括位置信息(x,y,w,h)和类别信息c,即(x,y,w,h,c);具体的,在模型训练过程中,可以设定多个参数维度之间是相互独立的,因此,针对每个维度的模型参数的迭代训练过程也是相互独立的;
针对每一轮模型训练,从X个锚框中随机采样N个锚框作为第一参考边界框,以及确定每个第一参考边界框分别对应的真实边界框和真实类别;其中,预设样本图像集合中的每个目标对象可以对应于一个真实边界框和一个真实类别,例如,预设样本图像集合中目标对象的总数为d,则扩充前的真实边界框的数量为d,为了使得真实边界框与第一预测边界框相对应,因此,包含相同目标对象的多个第一参考边界框对应的真实边界框可以是相同的,即基于第一参考边界框所圈定的目标对象,对真实边界框进行扩充,得到N个真实边界框(N>d);例如,某一原始样本图像中包含的目标对象为一只猫A,猫A对应于真实边界框A,若包含有猫A的第一参考边界框的数量为4个(如序号为6、7、8、9的第一参考边界框),则将真实边界框A扩充为4个真实边界框A(即序号为6、7、8、9的真实边界框),并扩充得到的4个真实边界框A对应的真实类别均为猫;
针对每个第一参考边界框,生成子模型基于该第一参考边界框进行边界框预测,得到第一预测边界框,以及对第一参考边界框或者第一预测边界框中的图像区域进行目标类别预测,得到第一预测类别;判别子模型基于该第一参考边界框对应的真实边界框和第一预测边界框、以及上述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;其中,每个第一参考边界框对应于一个真实边界框、及其对应的真实类别和一个第一预测边界框、及其对应的第一预测类别,第一预测边界框是通过不断进行边界框回归学习的生成子模型预测得到的,第一预测类别是通过不断进行目标分类识别学习的生成子模型预测得到的;具体的,生成子模型输出的N个第一预测边界框中序号为6、7、8、9的第一预测边界框所圈定的目标对象为猫A;
针对每个第一参考边界框,确定下述至少一项损失分量:基于第一参考边界框的判别结果集合中的第一判别结果确定第一回归损失分量,基于第一参考边界框的判别结果集合中的第二判别结果确定分类损失分量,基于第一参考边界框的判别结果集合中的第三判别结果确定第二回归损失分量,以及基于第一参考边界框的判别结果集合中的第四判别结果确定损失补偿分量;具体的,由于若第一参考边界框不满足上述预设约束,则第一判别结果和第三判别结果为空,对应的,第一回归损失分量和第二回归损失分量均等于零,即不考虑该第一参考边界框的子回归损失值,仅考虑其子分类损失值和损失补偿值;
基于各第一参考边界框分别对应的第一回归损失分量、分类损失分量、第二回归损失分量和损失补偿分量中至少一项,确定待训练模型的总损失值;利用随机梯度下降方法,基于该总损失值调整上述生成子模型和判别子模型的模型参数,得到参数更新后的生成子模型和判别子模型;
若当前模型迭代训练结果满足模型迭代训练终止条件,则将上述更新后的生成子模型确定为训练后的目标检测模型;
若当前模型迭代训练结果不满足模型迭代训练终止条件,则将上述更新后的生成子模型和判别子模型确定为下一轮模型训练所使用的待训练模型,直到满足模型迭代训练终止条件。
具体的,在模型训练过程中,针对每一轮模型训练,可以基于判别结果集合对判别子模型的模型参数进行调整,同时基于判别结果集合对生成子模型的模型参数进行调整;然而,在具体实施时,为了提高生成子模型的模型参数的训练准确度,针对每一轮模型训练,先循环基于判别结果集合对判别子模型的模型参数调整t次,再基于判别结果集合对生成子模型的模型参数调整一次,得到参数调整后的判别子模型和生成子模型作为下一轮待训练模型。
其中,待训练模型的总损失值是基于多个第一参考边界框分别对应的子损失值共同决定的,每个第一参考边界框对应的子损失值是基于多个损失分量共同决定的,基于此,上述S1044,基于每个第一参考边界框对应的第一判别结果和第二判别结果,确定待训练模型的总损失值,具体包括:
确定每个第一参考边界框对应的子损失值;各第一参考边界框对应的子损失值是基于目标信息确定的,其中,目标信息包括以下至少一项:第一参考边界框对应的第一预测类别是否满足上述预设约束、第一参考边界框对应的第一判别结果所表征的边界框分布相似程度、第二判别结果所表征的类别相似程度、第三判别结果所表征的边界框坐标重合程度、第四判别结果所表征的损失补偿值;
基于每个第一参考边界框对应的子损失值,确定待训练模型的总损失值。
其中,每个第一参考边界框对应的子损失值包括子回归损失值和子分类损失值,在具体实施时,子损失值还可以包括损失补偿值、或者不包括损失补偿值,子回归损失值可以是基于第一回归损失分量确定的,或者也可以是基于第一回归损失分量和第二回归损失分量共同确定的,子分类损失值是基于分类损失分量确定的,具体的,针对某一第一参考边界框而言,若该第一参考边界框对应的第一预测类别不满足上述预设约束,则用于确定第一参考边界框对应的子损失值的目标信息可以包括:第二判别结果所表征的类别相似程度,即基于第二判别结果对应的分类损失分量确定第一参考边界框对应的子损失值,也即仅考虑第一参考边界框对应的子分类损失值,不考虑第一原始边界框对应的子回归损失值;或者用于确定第一参考边界框对应的子损失值的目标信息也可以包括:第二判别结果所表征的类别相似程度和第四判别结果所表征的损失补偿值,即基于第二判别结果对应的分类损失分量和第四判别结果对应的损失补偿分量确定第一参考边界框对应的子损失值,也即仅考虑第一参考边界框对应的子分类损失值和损失补偿值,不考虑第一参考边界框对应的子回归损失值;若该第一参考边界框对应的第一预测类别满足上述预设约束,则用于确定第一参考边界框对应的子损失值的目标信息可以包括:第一参考边界框对应的第一判别结果所表征的边界框分布相似程度、第二判别结果所表征的类别相似程度,即基于第一判别结果对应的第一回归损失分量和第二判别结果对应的分类损失分量确定第一参考边界框对应的子损失值;或者用于确定第一参考边界框对应的子损失值的目标信息也可以包括:第一参考边界框对应的第一判别结果所表征的边界框分布相似程度、第二判别结果所表征的类别相似程度、第三判别结果所表征的边界框坐标重合程度,即基于第一判别结果对应的第一回归损失分量、第二判别结果对应的分类损失分量和第三判别结果对应的第二回归损失分量确定第一参考边界框对应的子损失值,也即同时考虑第一参考边界框对应的子分类损失值和子回归损失值;或者用于确定第一参考边界框对应的子损失值的目标信息还可以包括:第一参考边界框对应的第一判别结果所表征的边界框分布相似程度、第二判别结果所表征的类别相似程度、第三判别结果所表征的边界框坐标重合程度、第四判别结果所表征的损失补偿值,即基于第一判别结果对应的第一回归损失分量、第二判别结果对应的分类损失分量、第三判别结果对应的第二回归损失分量和第四判别结果对应的损失补偿分量确定第一参考边界框对应的子损失值,也即同时考虑第一参考边界框对应的子分类损失值、子回归损失值和损失补偿值。
具体的,以满足上述预设约束的第一参考边界框且考虑损失补偿分量为例,该第一参考边界框对应的子损失值等于四个损失分量加权求和,具体可以表示为,
Vi(D,G)=λ1Vi1+λ2Vi2+λ3Vi3+λ4Vi4
其中,λ1表示在第一判别维度下的第一回归损失分量对应的第一权重系数,Vi1表示在第一判别维度下的第一回归损失分量(即与第一判别结果所表征的边界框分布相似程度对应的回归损失分量),λ2表示分类损失分量对应的第二权重系数,Vi2表示分类损失分量(即与第二判别结果所表征的类别相似程度对应的分类损失分量),λ3表示在第二判别维度下的第二回归损失分量对应的第三权重系数,Vi3表示在第二判别维度下的第二回归损失分量(即与第三判别结果所表征的边界框坐标重合程度对应的回归损失分量),λ4表示损失补偿值对应的第四权重系数,Vi4表示损失补偿值(即损失补偿分量);具体的,第一判别维度可以是基于边界框分布相似程度的回归损失判别维度,第二判别维度可以是基于边界框坐标重合程度的回归损失判别维度。
在具体实施时,针对满足上述预设约束的多个第一参考边界框而言,第一权重系数和第三权重系数可以是保持不变的,然而考虑到第一回归损失分量和第二回归损失分量分别对应于不同的回归损失判别维度(即基于边界框分布相似程度的回归损失判别维度和基于边界框坐标重合程度的回归损失判别维度),并且不同的回归损失判别维度的回归损失考量的侧重点也有所不同(如基于边界框分布相似程度的回归损失判别维度侧重于考虑边界框边缘模糊的真实边界框对应的第一参考边界框的回归损失,基于边界框坐标重合程度的回归损失判别维度侧重于考虑边界框分布相似但具体位置偏差的第一参考边界框的回归损失),因此,第一回归损失分量和第二回归损失分量的大小关系在一定程度上反映了哪个回归损失判别维度能够更加准确地表征真实边界框与第一预测边界框之间的回归损失,基于此,针对每个第一参考边界框,根据该第一参考边界框对应的第一回归损失分量和第二回归损失分量的大小关系调节第一权重系数和第三权重系数的大小;具体的,若第一回归损失分量与第二回归损失分量的差值的绝对值不大于预设损失阈值,则第一权重系数和第三权重系数保持不变;若第一回归损失分量与第二回归损失分量的差值的绝对值大于预设损失阈值且第一回归损失分量大于第二回归损失分量,则按照第一预设调节方式,增大第一权重系数;若第一回归损失分量与第二回归损失分量的差值的绝对值大于预设损失阈值且第一回归损失分量小于第二回归损失分量,则按照第二预设调节方式,增大第三权重系数,从而达到在模型训练过程中针对每个第一参考边界框而言,重点参考更加能够反映边界框回归损失的判别维度对应的回归损失分量的效果,进而实现进一步提高模型参数优化的准确度。
需要说明的是,上述第一预设调节方式对应的第一权重系数增大幅度和第二预设调节方式对应的第三权重系数增大幅度可以相同,也可以不同,权重系数增大幅度可以根据实际需求进行设置,本申请并不对此进行限定。
其中,针对在第一预测类别满足预设约束的条件下,从边界框分布相似程度的判别维度考量得到第一判别结果的过程,上述对第一参考边界框对应的真实边界框和第一预测边界框进行边界框真伪判别,得到第一判别结果,具体包括:
步骤A1,基于第一参考边界框对应的真实边界框,确定真实边界框被上述判别子模型判别为真的第一判别概率;以及基于第一参考边界框对应的第一预测边界框,确定第一预测边界框被上述判别子模型判别为伪造的第二判别概率;
步骤A2,基于第一参考边界框对应的第一判别概率和第二判别概率,生成该第一参考边界框对应的第一判别结果。
具体的,针对第一预测类别满足预设类别匹配约束条件的第一参考边界框,通过上述判别子模型判别第一参考边界框对应的真实边界框来自于真实数据的概率,即对于真实边界框而言,判别子模型对真实边界框进行真伪判别,得到预测真实边界框为真实数据的第一判别概率;同样的,通过上述判别子模型判别第一参考边界框对应的第一预测边界框来自于生成数据的概率(即数值1减去判别子模型判别第一预测边界框来自于真实数据的概率),即对于第一预测边界框而言,判别子模型对第一预测边界框进行真伪判别,得到预测第一预测边界框为生成数据的第二判别概率。
具体的,由于判别子模型从边界框分布相似程度角度将真实边界框对应的第一概率分布与第一预测边界框对应的第二概率分布进行比对,以实现对真实边界框和第一预测边界框进行真伪判别,得到相应的判别概率,该判别概率能够表征真实边界框与对应的第一预测边界框之间的分布相似程度,因此,在确定出上述第一判别概率和第二判别概率之后,即可得到第一判别结果,其中,第一判别结果能够表征边界框分布相似程度;进而,基于第一判别结果,即可确定表征边界框分布相似程度的判别维度对应的第一回归损失分量,其中,第一判别概率和第二判别概率越大,表征第一参考边界框对应的真实边界框与对应的第一预测边界框的分布相似程度越低,因此,第一参考边界框对应的第一回归损失分量越大;然后,基于第一回归损失分量更新生成子模型的模型参数,从而使生成子模型的生成结果在经过判别子模型预测后能够优化待训练模型的损失值,达到优化生成子模型的目的,提高生成子模型的边界框预测效果。
进一步的,为了提高各第一参考边界框对应的第一判别结果的准确度,以便在基于第一判别结果确定子损失值的过程中,能够提高边界框分布相似程度的判别维度对应的第一回归损失分量的准确度,基于此,上述步骤A2,上述基于第一参考边界框对应的第一判别概率和第二判别概率,生成该第一参考边界框对应的第一判别结果,具体包括:
步骤A21,基于上述第一判别概率和第一参考边界框对应的真实边界框的第一先验概率,确定第一加权概率;以及基于上述第二判别概率和第一参考边界框的第二先验概率,确定第二加权概率;
步骤A22,基于上述第一参考边界框对应的第一加权概率和第二加权概率,生成该第一参考边界框对应的第一判别结果。
具体的,在确定表征边界框分布相似程度的第一判别结果的过程中,考虑真实边界框的第一先验概率和第一参考边界框的第二先验概率,分别对判别子模型对真实边界框和第一预测边界框进行真伪判别,得到的第一判别概率和第二判别概率进行加权处理,以确定第一判别结果(即第一判别结果可以包括第一加权概率和第二加权概率),因此,基于第一判别结果得到的与边界框分布相似程度有关的第一回归损失分量可以表示为:
其中,表示第i个真实边界框出现的先验概率(即第一先验概率),Pi1表示第i个真实边界框被判别子模型预测为真的第一判别概率,表示第i个第一参考边界框出现的先验概率(即第二先验概率),Pi2表示第i个第一预测边界框被判别子模型预测为伪造的第二判别概率。
需要说明的是,在具体实施时,可以为第i个第一参考边界框出现的先验概率,由于第一预测边界框是由生成子模型基于第一参考边界框进行边界框预测得到的,因此,也可以为第i个第一预测边界框出现先验概率。
具体的,由于真实边界框和预测边界框出现的概率均服从某一概率分布,如高斯分布,因此,第一先验概率和第二先验概率可以通过下述方式得到:
其中,表示序号为i的第一参考边界框对应的真实边界框,σ1表示第一指定数量的真实边界框的分布概率的方差,表示第一指定数量的真实边界框的分布概率的均值。
其中,表示序号为i的第一参考边界框,σ2表示第一指定数量的第一参考边界框的分布概率的方差,表示第一指定数量的第一参考边界框的分布概率的均值。
其中,针对确定能够表征第一参考边界框对应的分类损失分量的第二判别结果的过程,即从边界框的类别相似程度的判别维度考量得到第二判别结果的过程,上述对第一参考边界框对应的真实类别和第一预测类别进行类别真伪判别,得到第二判别结果,具体包括:
步骤B1,确定第一参考边界框对应的真实类别被上述判别子模型判别为真的第三判别概率;以及确定第一参考边界框对应的第一预测类别被上述判别子模型判别为伪造的第四判别概率;
步骤B2,基于第一参考边界框对应的第三判别概率和第四判别概率,生成第一参考边界框对应的第二判别结果。
具体的,针对每个第一参考边界框,通过上述判别子模型判别第一参考边界框对应的真实类别来自于真实数据的概率,即对于真实类别而言,判别子模型对真实类别进行真伪判别,得到预测真实类别为真实数据的第三判别概率;同样的,通过上述判别子模型判别第一参考边界框对应的第一预测类别来自于生成数据的概率(即数值1减去判别子模型判别第一预测类别来自于真实数据的概率),即对于第一预测类别而言,判别子模型对第一预测类别进行真伪判别,得到预测第一预测类别为生成数据的第四判别概率。
具体的,由于判别子模型从类别相似程度角度将真实类别对应的第三概率分布与第一预测类别对应的第四概率分布进行比对,以实现对真实类别和第一预测类别进行真伪判别,得到相应的判别概率,该判别概率能够表征实际类与对应的第一预测类别之间的类别相似程度,因此,在确定出上述第三判别概率和第四判别概率之后,即可得到第二判别结果,其中,第二判别结果能够表征类别相似程度;进而,基于第二判别结果,即可确定分类损失分量,其中,第三判别概率和第四判别概率越大,表征第一参考边界框对应的真实类别与对应的第一预测类别的类别相似程度越低,因此,第一参考边界框对应的分类损失分量越大;然后,基于分类损失分量更新生成子模型的模型参数,从而使生成子模型的生成结果在经过判别子模型预测后能够优化待训练模型的损失值,达到优化生成子模型的目的,提高生成子模型的目标对象类别识别准确度。
进一步的,为了提高各第一参考边界框对应的第二判别结果的准确度,以便在基于第二判别结果确定子损失值的过程中,能够提高第一预测类别与真实类别之间的类别相似程度的判别维度对应的分类损失分量的准确度,基于此,上述步骤B2,基于第一参考边界框对应的第三判别概率和第四判别概率,生成第一参考边界框对应的第二判别结果,具体包括:
B21,基于上述第三判别概率和第一参考边界框对应的真实边界框的类别为真实类别的第三先验概率,确定第三加权概率;以及基于上述第四判别概率和第一参考边界框的类别为真实类别的第四先验概率,确定第四加权概率;
B22,基于第一参考边界框对应的第三加权概率和第四加权概率,生成该第一参考边界框对应的第二判别结果。
具体的,在确定表征类别相似程度的第二判别结果的过程中,考虑真实边界框的类别为真实类别的第三先验概率和第一参考边界框的类别为真实类别的第四先验概率,分别对判别子模型对真实类别和第一预测类别进行真伪判别,得到的第三判别概率和第四判别概率进行加权处理,以确定第二判别结果(即第二判别结果可以包括第三加权概率和第四加权概率),因此,基于第二判别结果得到的与类别相似程度有关的分类损失分量可以表示为:
其中,表示第i个第一参考边界框对应的真实类别出现的先验概率(即第三先验概率),Pi3表示第i个第一参考边界框对应的真实类别被判别子模型预测为真的第三判别概率,表示第i个第一参考边界框对应的第一预测类别出现的先验概率(即第四先验概率),Pi4表示第i个第一参考边界框对应的第一预测类别被判别子模型预测为伪造的第四判别概率。
具体的,由于某一类别出现的概率均服从某一概率分布,如高斯分布,因此,第三先验概率和第四先验概率可以通过下述方式得到:
其中,表示序号为i的第一参考边界框对应的真实类别,σ3表示第一指定数量的第一参考边界框对应的真实类别的分布概率的方差,表示第一指定数量的第一参考边界框对应的真实类别的分布概率的均值。
其中,表示序号为i的第一参考边界框对应的第一预测类别,σ4表示第一指定数量的第一参考边界框对应的第一预测类别的分布概率的方差,表示第一指定数量的第一参考边界框对应的第一预测类别的分布概率的均值。
具体的,上述总损失值等于第一指定数量的第一参考边界框分别对应的子损失值之和,具体可以表示为:
其中,Nreg表示第一指定数量,i表示第一参考边界框的序号,i的取值为1至Nreg。
其中,针对在第一预测类别满足预设约束的条件下,从边界框坐标重合程度的判别维度考量得到第三判别结果的过程,上述基于第一参考边界框对应的真实边界框和第一预测边界框,计算边界框交并比损失,得到第三判别结果,具体包括:
步骤C1,对上述第一参考边界框对应的真实边界框和第一参考边界框对应的第一预测边界框进行边界框交并比损失计算,得到第一交并比损失;
具体的,若序号为i的第一参考边界框对应的第一预测类别满足预设类别匹配约束条件,则计算序号为i的真实边界框与序号为i的第一预测边界框之间的交并比损失,得到序号为i的第一参考边界框对应的第一交并比损失。
步骤C2,基于上述第一交并比损失,确定上述第一参考边界框对应的第三判别结果。
具体的,由于两个边界框之间的交并比损失的大小能够表征边界框坐标重合程度,因此,可以基于真实边界框与第一预测边界框之间的交并比损失,得到第三判别结果,从而基于第三判别结果确定从边界框坐标重合程度角度考量的判别维度对应的第二回归损失分量,进而促使模型进行边界框回归学习。
进一步地,针对第三判别结果的确定过程,可以仅考虑真实边界框与自身对应的第一预测边界框之间的第一交并比损失,然而,为了提高第三判别结果的确定准确度,从而提高从边界框坐标重合程度角度考量的判别维度对应的第二回归损失分量的准确度,进而提高用于调整模型参数的总损失值的准确度,不仅考虑真实边界框与自身对应的第一预测边界框之间的第一交并比损失,还考虑真实边界框与其他第一预测边界框之间的第二交并比损失,这样能够达到将真实边界框分别与正例样本(即通过边界框回归学习得到的某一真实边界框自身对应的第一预测边界框)和负例样本(即通过边界框回归学习得到的除某一真实边界框之外的其他真实边界框对应的第一预测边界框)在边界框坐标重合程度的判别维度上进行比对,来学习真实边界框的具体位置表示,进而促使模型更好地进行边界框回归学习,基于此,上述步骤C2,基于上述第一交并比损失,确定上述第一初始边界框对应的第二判别结果,具体包括:
C21,在第一指定数量的第一参考边界框分别对应的第一预测边界框中,确定对比边界框集合;
其中,上述对比边界框集合包括除上述第一参考边界框对应的第一预测边界框之外的其他第一预测边界框、或者不包含上述第一参考边界框所圈定的目标对象的其他第一预测边界框;
具体的,仍以第一预测类别满足预设类别匹配约束条件的序号为i的第一参考边界框为例,上述对比边界框集合可以包括除序号为i的第一预测边界框之外的其他第一预测边界框(即序号为k的第一预测边界框,k≠p,p=i),也就是说,将除序号为i的第一预测边界框之外的其他第一预测边界框均作为序号为i的真实边界框的负例样本;为了进一步提高负例样本的选取准确度,上述对比边界框集合可以包括除序号为i的第一预测边界框之外的其他第一预测边界框,且其他第一预测边界框不包含序号为i的第一参考边界框所圈定的目标对象(即序号为k的第一预测边界框,k≠p,p=i或p=j,序号为j的第一预测边界框与序号为i的第一参考边界框所圈定的目标对象相同),也就是说,仅将与序号为i的第一参考边界框包含不同目标对象的其他第一预测边界框作为序号为i的真实边界框的负例样本。
C22,对上述第一参考边界框对应的真实边界框和上述其他第一预测边界框分别进行边界框交并比损失计算,得到第二交并比损失;
具体的,仍以第一预测类别满足预设类别匹配约束条件的序号为i的第一参考边界框为例,针对对比边界框集合中的每个其他第一预测边界框,计算序号为i的真实边界框与序号为k的第一预测边界框之间的交并比损失,得到序号为k的第一预测边界框对应的第二交并比损失。
C23,基于上述第一交并比损失和第二交并比损失,确定上述第一参考边界框对应的第三判别结果。
具体的,在确定表征边界框坐标重合程度的第三判别结果的过程中,基于序号为i的真实边界框和序号为i的第一预测边界框,计算第一交并比损失,以及基于序号为i的真实边界框和序号为k的第一预测边界框,计算第二交并比损失(k≠p),以确定第三判别结果(即第三判别结果可以包括第一交并比损失和第二交并比损失),然后,基于第三判别结果即可确定与边界框坐标重合程度有关的第二回归损失分量,这样基于第二回归损失分量对模型参数进行调整,能够让序号为i的真实边界框与序号为i的第一预测边界框的坐标重合程度更高,而使得与其他第一预测边界框的坐标重合程度更小,从而增强边界框回归学习的全局性,进一步提高边界框回归学习的准确度。
在具体实施时,上述第二回归损失分量为对目标交并比损失的求对数,该目标交并比损失为第一交并比损失的指数与多个第二交并比的指数之和的商值,即以p=i为例,第二回归损失分量可以表示为:
其中,表示序号为i的第一参考边界框对应的真实边界框,表示序号为i的第一参考边界框,表示在序号为i的第一参考边界框对应的第一预测类别满足预设约束的条件下,表示在满足预设约束的条件下,序号为i的第一参考边界框对应的第一预测边界框,表示第一交并比损失,表示序号为k的第一参考边界框,表示在满足预设约束的条件下,序号为k的第一参考边界框对应的第一预测边界框,表示第二交并比损失,θg1表示生成子模型中与边界框回归有关的第一模型参数,对应的,θg2表示与目标对象类别预测有关的第二模型参数,ω表示预设调节因子。
进一步地,考虑到在目标检测过程中,生成子模型不仅需要确定目标对象所在的位置,也需要确定目标对象的具体类别,因此,待训练模型中的生成子模型的模型参数包括与边界框回归有关的第一模型参数和与目标对象类别预测有关的第二模型参数,即在模型训练过程中需要一并对第一模型参数和第二模型参数进行迭代更新,基于此,为了进一步提高总损失值的准确度,在确定第一预测边界框对应的子损失值的过程中,引入上述预设类别匹配约束条件,只有第一预测边界框对应的真实类别与第一预测类别相匹配的情况下,才考虑其对应的子回归损失值和子分类损失值,否则,仅考虑其对应的子分类损失值,即排除类别预测结果不符合预设要求的第一参考边界框对应的子回归损失值,在具体实施时,生成子模型对上述第一参考边界框或者第一预测边界框进行类别预测,输出结果可以为第一类别预测结果;其中,第一类别预测结果包括第一参考边界框或者第一预测边界框所圈定的目标对象属于各候选类别的预测概率,预测概率最大值对应的候选类别为第一预测类别,即第一参考边界框或者第一预测边界框所圈定的目标对象的类别被生成子模型预测为第一预测类别,也即第一参考边界框或者第一预测边界框内图像区域的目标对象类别被生成子模型预测为第一预测类别;
另外,需要说明的是,在具体实施时,考虑到第一参考边界框与第一预测边界框的位置信息不会偏差很大,第一参考边界框内的图像特征与第一预测边界框内的图像特征也不会偏差很大,因此,不会影响边界框内图像区域的目标对象类别的识别,基于此,针对边界框预测与类别预测先后执行的情况,可以对第一预测边界框进行类别预测,得到对应的第一类别预测结果,即先基于第一参考边界框预测得到第一预测边界框,然后对第一预测边界框进行类别预测,得到第一类别预测结果;而针对边界框预测与类别预测同步执行的情况,也可以在基于第一参考边界框进行边界框预测时,一并对第一参考边界框进行类别预测,得到对应的第一类别预测结果,即基于第一参考边界框预测得到第一预测边界框,并且对第一参考边界框进行类别预测,得到第一类别预测结果。
具体的,上述预设类别匹配约束条件可以包括:单一匹配方式的约束条件、或者变化匹配方式的约束条件,其中,预设类别匹配约束条件可以与第一类别预测结果相关,对于单一匹配方式的约束条件而言,每一轮模型训练所使用的类别匹配约束条件保持不变(即与当前模型训练轮数无关),例如,针对每一轮模型训练而言,若真实类别与第一预测类别相同,则确定第一参考边界框对应的第一预测类别与真实类别相匹配(即第一预测类别满足上述预设约束,也即第一预测边界框中的目标对象的类别被生成子模型预测为与真实类别相匹配的目标类别);对于变化匹配方式的约束条件而言,每一轮模型训练所使用的类别匹配约束条件与当前模型训练轮数有关,具体的,变化匹配方式的约束条件又可以分为类别匹配阶段式约束条件、或者类别匹配渐变式约束条件;
其中,上述类别匹配阶段式约束条件可以是在当前模型训练轮数小于第一预设轮数时,真实类别与第一预测类别属于同一类别群组,且在当前模型训练轮数大于或等于第一预设轮数时,真实类别与第一预测类别相同,即基于类别匹配阶段式约束条件和第一参考边界框对应的第一类别预测结果,能够实现阶段式类别匹配约束;上述类别匹配渐变式约束条件可以是第一约束项与第二约束项之和大于预设概率阈值,第一约束项为类别预测概率子集中真实类别对应的第一预测概率,第二约束项为类别预测概率子集中除第一预测概率之外的第二预测概率之和与预设调节因子的乘积,预设调节因子随着当前训练轮数的增加而逐渐减小,即基于类别匹配渐变式约束条件和第一参考边界框对应的第一类别预测结果,能够实现渐变式类别匹配约束;具体的,基于第一参考边界框对应的第一类别预测结果确定类别预测概率子集,该类别预测概率子集包括第一预测边界框所圈定的目标对象属于真实类别的第一预测概率、以及属于目标群组中的非真实类别的第二预测概率,即类别预测概率子集包括生成子模型对第一参考边界框或者第一预测边界框进行类别预测得到的在目标群组中的真实类别下的第一预测概率和在目标群组中的非真实类别(即目标群组中除真实类别之外的候选类别)下的第二预测概率,目标群组为真实类别所在的类别群组;在具体实施时,预先确定与目标检测任务关联的多个候选类别,基于各候选类别的语义信息,对多个候选类别进行群组划分,得到多个类别群组。
具体的,由于考虑到第一参考边界框是利用预设感兴趣区域提取模型进行感兴趣区域提取得到的,因此,可能存在由于第一参考边界框所圈定的目标对象所在区域不够精准,从而导致在模型训练初期针对此类第一参考边界框对应的第一预测边界框的类别识别不准确的情况,基于此,在确定第一参考边界框对应的子损失值的过程中,参考第一参考边界框对应的第一预测类别与第一参考边界框的真实类别之间的匹配关系,即基于上述预设类别匹配约束条件确定第一预测边界框是否满足上述预设约束;
进一步地,由于生成子模型既用于边界框预测也用于目标对象类别预测,因此,在模型训练过程中,需要对生成子模型中与边界框回归有关的第一模型参数和与目标对象类别预测有关的第二模型参数进行迭代训练,其中,又考虑到还可能是由于在模型训练前期,生成子模型中与目标对象类别预测有关的模型参数的准确度低,从而导致针对第一参考边界框对应的第一预测边界框的类别识别不准确的情况,因此,在模型训练前期,放宽对类别准确度的要求,只要第一预测边界框对应的真实类别与第一预测类别属于同一类别群组的情况下,则确定满足上述预设约束,考虑其对应的子回归损失值,而在模型训练后期,加严对类别准确度的要求,只有第一预测边界框对应的真实类别与第一预测类别相同的情况下,则确定满足上述预设约束,才考虑其对应的子回归损失值,基于此,上述预设类别匹配约束条件可以包括:上述变化匹配方式的约束条件(如类别匹配阶段式约束条件、或者类别匹配渐变式约束条件);
更进一步地,为了确保预设类别匹配约束条件在限定第一预测类别满足上述预设约束的两种类别匹配约束分支(即第一预测类别属于目标群组、第一预测类别与真实类别相同)之间的过渡更加平滑,使得随着模型训练轮数的增加,预设类别匹配约束条件由限定第一预测类别落入目标群组逐渐转换为限定第一预测类别与真实类别相同,基于此,优选地,上述预设类别匹配约束条件包括:类别匹配渐变式约束条件。
在具体实施时,针对上述预设类别匹配约束条件为类别匹配渐变式约束条件的情况,仍以序号为i的第一参考边界框为例,类别匹配渐变式约束条件可以表达为:
其中,groups表示目标群组,reali表示目标群组groups中序号为i的第一参考边界框的真实类别,f∈groups\reali表示目标群组中的非真实类别,β表示预测调节因子,表示第一预测概率(即上述第一约束项),表示第二预测概率,表示上述第二约束项,μ表示上述预设概率阈值;具体的,越大,说明第一预测类别与真实类别越接近;由于预设调节因子随着当前训练轮数的增加而减小,使得第二约束项的参考占比逐渐减小,使得在模型训练后期主要由第一约束项(即真实类别下的第一预测概率)来决定第一预测类别与真实类别是否匹配,然后在当前模型训练轮数达到一定模型训练轮数之后,第二约束项变为零,即当大于预设概率阈值时,说明生成子模型将真实类别确定为第一预测类别。
具体的,针对上述预设调节因子而言,随着当前模型训练轮数的增加而减小,若当前模型训练轮数小于或等于目标训练轮数,则上述第二约束项与预设调节因子正相关,上述预设调节因子与当前模型训练轮数负相关;若当前模型训练轮数大于目标训练轮数,则上述第二约束项为零,其中,目标训练轮数小于总训练轮数。
在具体实施时,为了确保对预设调节因子的调整平滑度,可以采用线性递减的调节方式逐渐减少预设调节因子β的取值,因此,针对当前模型训练所使用的预设调节因子的确定过程,具体为:
(1)针对首轮模型训练,将第一预设值确定为当前模型训练所使用的预设调节因子;
具体的,第一预设值可以根据实际需求进行设定,为了简化调节复杂度,可以将第一预设值设置为1,即预设调节因子β=1,也即在首轮模型训练的情况下,上述类别匹配渐变式约束条件可以为:
即
也就是说,针对首轮模型训练,基于目标群组对应的第一预测概率和第二预测概率之和,确定第一参考边界框对应的第一预测类别与真实类别是否匹配。
(2)针对非首轮模型训练,按照因子递减调节方式,基于当前模型训练轮数、目标训练轮数和上述第一预设值,确定当前模型训练所使用的预设调节因子。
具体的,若首轮模型训练对应的预设调节因子β=1,则在非首轮模型训练的情况下,上述类别匹配渐变式约束条件可以为:
也就是说,针对非首轮模型训练,上述类别匹配渐变式约束条件中的并且随着模型训练轮数的增加,第二约束项的参与程度逐渐减小。
例如,上述因子递减调节方式对应的递减公式可以为:
其中,表示与0之间取最大值,上述中的第一项1表示第一预设值(即首轮训练所使用的预设调节因子β),δ表示当前模型训练轮数,Z表示目标训练轮数,即目标训练轮数可以是总训练轮数减1,也可以是指定训练轮数,指定训练轮数小于总训练轮数,总训练轮数与指定训练轮数的差值为预设轮数Q,Q大于2,即在模型训练后期的一定轮数(非最后一轮)的训练过程中,就开始将预设调节因子β设置为0,也即在模型训练后期的δ=Z+1轮至最后一轮的模型训练所使用的判定条件均为
需要说明的是,针对目标训练轮数Z为总训练轮数减1的情况,上述递减公式可以为:即在模型训练的最后一轮,将预设调节因子设置为0,也即在最后一轮的模型训练所使用的判定条件均为另外,上述示意出的递减公式仅是给出的一种比较简单的线性递减调节方式,在实际应用过程中,可以根据实际需求设置对预设调节因子β的递减速率,因此,上述递减公式并不构成对本申请的保护范围的限制。
另外,在具体实施时,上述预设类别匹配约束条件不仅可以与第一类别预测结果有关,还可以与第一参考边界框对应的第三判别概率和第四判别概率相关;具体的,考虑到第一参考边界框对应的子分类损失值(即分类损失分量)是基于上述第三判别概率和第四判别概率所确定的,第三判别概率和第四判别概率能够反映第一预测类别与真实类别之间的类别相似程度,因此,上述预设类别匹配约束条件也可以与第一参考边界框对应的第三判别概率和第四判别概率相关;具体的,上述单一匹配方式的约束条件也可以是第三判别概率小于第一数值且第四判别概率小于第二数值(即与当前模型训练轮数无关),其中,第三判别概率和第四判别概率越小,对应的子分类损失值越小,说明判别子模型越难以区分第一预测类别与真实类别的真伪,即第一预测类别与真实类别越相似,说明第一预测边界框中的目标对象的类别被生成子模型预测为与真实类别相匹配的目标类别;对应的,上述变化匹配方式的约束条件也可以是在当前模型训练轮数小于第一预设轮数时,第三判别概率小于第三数值和第四判别概率小于第四数值,且在当前模型训练轮数大于或等于第一预设轮数时,第三判别概率小于第一数值和第四判别概率小于第二数值(即与当前模型训练轮数有关),第三数值大于第一数值,第四数值大于第二数值,即随着模型训练轮数的增加,确定是否满足预设类别匹配约束条件的第一数值和第二数值变小,要求第一预测类别与真实类别更加接近,从而实现阶段式类别匹配约束。
其中,针对上述损失补偿值的确定过程,上述基于上述第一参考边界框对应的真实边界框和第一预测边界框,计算用于对待训练模型的损失函数的损失梯度进行约束的损失补偿值,得到第四判别结果,具体包括:
步骤D1,基于上述第一参考边界框对应的真实边界框和第一预测边界框,生成该第一参考边界框对应的合成边界框;
具体的,以序号为i的第一参考边界框为例,按照预设坐标信息采样方式,基于序号为i的真实边界框对应的第一坐标信息集合和序号为i的第一预测边界框对应的第二坐标信息集合,确定采样坐标信息集合;基于该采样坐标信息集合,确定序号为i的合成边界框。
步骤D2,基于上述第一参考边界框对应的合成边界框与真实边界框的边界框分布相似程度,确定损失补偿值;
步骤D3,基于上述损失补偿值,生成第一参考边界框对应的第四判别结果。
具体的,在确定出序号为i的第一参考边界框对应的合成边界框后,计算序号为i的合成边界框与序号为i的真实边界框之间的边界框分布相似程度,即再对边界框分布相似程度计算关于合成边界框的补偿梯度,即再基于该补偿梯度的矩阵二范数,确定序号为i的第一参考边界框对应的损失补偿值。
具体的,针对某一第一参考边界框对应的合成边界框的确定过程,上述步骤D1,基于上述第一参考边界框对应的真实边界框和第一预测边界框,生成该第一参考边界框对应的合成边界框,具体包括:
步骤D11,基于第一采样比例和上述第一参考边界框对应的真实边界框的第一坐标信息集合,确定第一坐标信息子集;
步骤D12,基于第二采样比例和上述第一参考边界框对应的第一预测边界框的第二坐标信息集合,确定第二坐标信息子集;其中,需要说明的是,上述第一采样比例和第二采样比例可以是根据实际情况预设设置的,上述第一采样比例与上述第二采样比例之和等于1;
步骤D13,基于上述第一坐标信息子集和上述第二坐标信息子集,生成上述第一参考边界框对应的合成边界框。
具体的,仍以序号为i的第一参考边界框为例,按照第一采样比例,在序号为i的真实边界框的第一坐标信息集合中,随机采样得到第一坐标信息子集;以及按照第二采样比例,在序号为i的第一预测边界框的第二坐标信息集合中,随机采样得到第二坐标信息子集;将第一坐标信息子集和第二坐标信息子集的组合确定为采样坐标信息集合,基于采样坐标信息集合绘制得到的边界框即为序号为i的合成边界框;其中,由于合成边界框是基于号为i的真实边界框的的坐标信息(即真实数据)和序号为i的第一预测边界框的坐标信息(即生成数据),随机采样混合得到的边界框,因此,合成边界框的一部分坐标信息来自于真实数据,另一部坐标信息来自于生成数据,即合成边界框由真实数据和生成数据共用决定且具有一定随机性,这样能够在第一判别维度对应的回归损失的梯度突然降低,甚至变为零的情况下,对总损失值的梯度进行补偿,从而避免在模型训练过程中因第一判别维度对应的回归损失的梯度突然降低,甚至变为零而导致总损失值的梯度突然降低的问题,进而进一步提高模型参数的训练准确度。
在具体实施时,上述待训练模型包括生成子模型和判别子模型,如图4b所示,给出了又一种目标检测模型训练过程的具体实现原理示意图,具体包括:
(1)预先利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取,得到X个锚框;
(2)针对每一轮模型训练,从X个锚框中随机采样N个锚框作为第一参考边界框,以及确定每个第一参考边界框分别对应的真实边界框和真实类别;
(3)针对每个第一参考边界框,生成子模型基于该第一参考边界框进行边界框预测,得到第一预测边界框,以及对第一参考边界框或者第一预测边界框中的图像区域进行目标类别预测,得到第一类别预测结果;并将第一预测边界框、对应的第一类别预测结果、以及真实边界框和对应的真实类别输入判别子模型;判别子模型基于该第一参考边界框对应的真实边界框和第一预测边界框、以及上述第一参考边界框对应的真实类别和第一类别预测结果、以及某一预设类别匹配约束条件,生成判别结果集合;
具体的,根据预设类别匹配约束条件确定第一预测类别是否满足预设约束;若第一预测类别不满足预设约束,则判别结果集合包括第二判别结果和第四判别结果(此时第一判别结果和第三判别结果可以为空或预设信息),对应的,基于第一参考边界框的判别结果集合中的第二判别结果确定分类损失分量,以及基于第一参考边界框的判别结果集合中的第四判别结果确定损失补偿分量,再基于分类损失分量和损失补偿分量确定第一参考边界框对应的子损失值;若第一预测类别满足预设约束,则判别结果集合包括第一判别结果、第二判别结果、第三判别结果和第四判别结果,对应的,基于第一参考边界框的判别结果集合中的第一判别结果确定第一回归损失分量,基于第一参考边界框的判别结果集合中的第二判别结果确定分类损失分量,基于第一参考边界框的判别结果集合中的第三判别结果确定第二回归损失分量,以及基于第一参考边界框的判别结果集合中的第四判别结果确定损失补偿分量,再基于第一回归损失分量、分类损失分量、第二回归损失分量和损失补偿分量确定第一参考边界框对应的子损失值;
需要说明的是,由于在判别子模型生成各第一参考边界框对应的判别结果集合的过程中考虑了第一预测类别与真实类别是否满足预设类别匹配约束条件(即第一预测类别是否满足上述预设约束),这样针对第一预测类别与真实类别不满足预设类别匹配约束条件的情况,仅需对第一预测类别和真实类别进行真伪判别,得到第二判别结果,以及计算损失补偿值,得到第四判别结果,而无需对第一预测边界框和真实边界框进行真伪判别,得到第一判别结果,也无需对第一预测边界框和真实边界框计算交并比损失,得到第三判别结果,即直接将第一判别结果和第三判别结果确定为空或者预设信息即可,能够进一步提高模型训练效率;
也就是说,在确定第一参考边界框对应的判别结果集合的过程中,可以是直接对第一预测边界框和真实边界框进行真伪判别,得到第一判别结果,对第一预测类别和真实类别进行真伪判别,得到第二判别结果,对第一预测边界框和真实边界框计算交并比损失,得到第三判别结果,以及计算损失补偿值,得到第四判别结果,生成判别结果集合;进而基于第一预测类别是否满足上述预设约束,确定是否考虑第一参考边界框对应的第一回归损失分量和第二回归损失分量,即确定对应的子回归损失值是否为零;也可以是先基于第一预测类别是否满足上述预设约束,来确定是否直接将对应的第一判别结果和第三判别结果为空或预设信息,得到判别结果集合,再基于判别结果集合确定对应的子损失值;
另外,需要说明的是,在具体实施时,也可以将各第一参考边界框对应的真实类别输入生成子模型中,生成子模型基于预设类别匹配约束条件、真实类别和第一类别预测结果确定第一预测类别是否满足预设约束;若第一预测类别不满足预设约束,则仅考虑该第一参考边界框对应的子分类损失值,无需计算其对应的子回归损失值,因此,可以无需对第一参考边界框进行边界框预测,这样能够进一步减少生成子模型的数据处理量;
(4)基于各第一参考边界框分别对应的子损失值,确定待训练模型的总损失值;利用随机梯度下降方法,基于该总损失值调整上述生成子模型和判别子模型的模型参数,得到参数更新后的生成子模型和判别子模型;
(5)若当前模型迭代训练结果满足模型迭代训练终止条件,则将上述更新后的生成子模型确定为训练后的目标检测模型;若当前模型迭代训练结果满足模型迭代训练终止条件,则将上述更新后的生成子模型和判别子模型确定为下一轮模型训练所使用的待训练模型,直到满足模型迭代训练终止条件。
本申请实施例中的模型训练方法,在模型训练阶段,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
对应上述图1至图4b描述的模型训练方法,基于相同的技术构思,本申请实施例还提供了一种目标检测方法,图5为本申请实施例提供的目标检测方法的流程示意图,图5中的方法能够由设置有目标检测装置的电子设备执行,该电子设备可以是终端设备或者指定服务器,其中,用于目标检测的硬件装置(即设置有目标检测装置的电子设备)与目标检测模型训练的硬件装置(即设置有模型训练装置的电子设备)可以相同或不同,如图5所示,该方法至少包括以下步骤:
S502,从第二候选边界框集合中获取第三指定数量的第二参考边界框;其中,第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的,第三指定数量可以为M;
具体的,第三指定数量的第二参考边界框的获取过程,可以参照上述第一指定数量的第一参考边界框的获取过程,在此不再赘述。
S504,将所述第二参考边界框输入目标检测模型进行目标检测,得到每个第二参考边界框对应的第二预测边界框和第二预测类别;其中,目标检测模型是基于上述模型训练方法训练得到的,目标检测模型的具体训练过程参见上述实施例,在此不再赘述。
具体的,上述目标检测模型包括生成子模型;针对每个第二参考边界框:在目标检测过程中,上述生成子模型基于上述第二参考边界框进行预测,得到该第二参考边界框对应的第二预测边界框和第二预测类别;其中,由于生成子模型的模型参数包括与边界框回归相关的第一模型参数,还包括与目标分类相关的第二模型参数,因此,生成子模型不仅能够基于第二参考边界框进行边界框预测,得到第二参考边界框对应的第二预测边界框,还能够基于第二参考边界框进行类别预测,得到第二参考边界框对应的第二预测类别。
在具体实施时,生成子模型对上述第二参考边界框或者上述第二预测边界框进行类别预测,输出结果可以为第二类别预测结果;其中,第二类别预测结果包括第二参考边界框或者第二预测边界框所圈定的目标对象属于各候选类别的预测概率,预测概率最大值对应的候选类别为第二预测类别,即第二参考边界框或者第二预测边界框所圈定的目标对象的类别被生成子模型预测为第二预测类别,也即第二参考边界框或者第二预测边界框内图像区域的目标对象类别被生成子模型预测为第二预测类别;另外,在具体实施时,考虑到第二参考边界框与第二预测边界框的位置信息不会偏差很大,第二参考边界框内的图像特征与第二预测边界框内的图像特征也不会偏差很大,因此,不会影响边界框内图像区域的目标对象类别的识别,基于此,针对边界框预测与类别预测先后执行的情况,可以对第二预测边界框进行类别预测,得到对应的第二类别预测结果,即先基于第二参考边界框预测得到第二预测边界框,然后对第二预测边界框进行类别预测,得到第二类别预测结果;而针对边界框预测与类别预测同步执行的情况,也可以在基于第二参考边界框进行边界框预测时,一并对第二参考边界框进行类别预测,得到对应的第二类别预测结果,即基于第二参考边界框预测得到第二预测边界框,并且对第二参考边界框进行类别预测,得到第二类别预测结果。
S506,基于各第二参考边界框对应的第二预测边界框和第二预测类别,生成待检测图像的目标检测结果。
具体的,基于各第二参考边界框对应的第二预测边界框和第二预测类别,即可确定待检测图像中所包含的目标对象的数量、以及各目标对象所属类别,例如,待检测图像中包含一只猫、一只狗和一个行人。
在具体实施时,上述目标检测模型包括生成子模型,如图6所示,给出了一种目标检测过程的具体实现原理示意图,具体包括:
利用预设感兴趣区域提取模型对待检测图像进行目标区域提取,得到P个锚框;
从P个锚框中随机采样M个锚框作为第二参考边界框;
针对每个第二参考边界框,生成子模型基于该第二参考边界框进行边界框预测,得到第二预测边界框,以及对第二预测边界框进行类别预测,得到第二预测类别;
基于各第二参考边界框对应的第二预测边界框和第二预测类别,生成待检测图像的目标检测结果。
需要说明的是,基于上述模型训练方法训练得到的目标检测模型可以应用到任一需要对待检测图像进行目标检测的具体应用场景,其中,该待检测图像可以是设置于某一现场位置的图像采集设备所采集得到的,对应的,目标检测装置可以属于该图像采集设备,具体可以是图像采集设备中的图像处理装置,图像处理装置接收图像采集设备中图像采集装置传输的待检测图像,并对该待检测图像进行目标检测;目标检测装置也可以是独立于图像采集设备的单独的一个目标检测设备,目标检测设备接收图像采集设备的待检测图像,并对该待检测图像进行目标检测。
具体的,针对目标检测的具体应用场景,例如,待检测图像可以是设置于某一公共场所入口(如商场入口、地铁口、景点入口、或演出现场入口等)的图像采集设备所采集得到的,对应的,待检测图像中的待检测目标对象为进入该公共场所的目标用户,利用上述目标检测模型对待检测图像进行目标检测,以在待检测图像中圈定出包含进入该公共场所的目标用户的第二预测边界框,并确定第二预测边界框对应的第二预测类别(即第二预测边界框中包含的目标用户所属类别,如年龄段、性别、身高、职业中至少一项),得到待检测图像的目标检测结果;然后,基于目标检测结果确定用户群识别结果(如进入该公共场所的人流量、或者进入该公共场所的用户群属性等等),进而,基于用户群识别结果执行相应的业务处理(如自动触发入场限制提示操作、或者对目标用户进行信息推送等等);其中,上述目标检测模型的模型参数的准确度越高,利用目标检测模型输出的待检测图像的目标检测结果的准确度也就越高,因此,基于目标检测结果触发执行相应的业务处理的准确度也就越高。
又如,待检测图像可以是设置于某一养殖基地中各监控点的图像采集设备所采集得到的,对应的,待检测图像中的待检测目标对象为该养殖监控点内的目标养殖对象,利用上述目标检测模型对待检测图像进行目标检测,以在待检测图像中圈定出包含目标养殖对象的第二预测边界框,并确定第二预测边界框对应的第二预测类别(即第二预测边界框中包含的目标养殖对象所属类别,如活体状态、体型大小中至少一项),得到待检测图像的目标检测结果;然后,基于目标检测结果确定养殖对象群体识别结果(如该养殖监控点内目标养殖对象存活率、或者养殖监控点内目标养殖对象的生长速率等等),进而,基于养殖对象群体识别结果执行相应的管控操作(如若检测出存活率下降,则自动发出告警提示信息、或者若检测出生长速率减缓,则自动控制增加喂养量或喂养频次等等);其中,上述目标检测模型的模型参数的准确度越高,利用目标检测模型输出的待检测图像的目标检测结果的准确度也就越高,因此,基于目标检测结果触发执行相应的管控操作的准确度也就越高。
本申请实施例中的目标检测方法,在目标检测过程中,首先利用预设感兴趣区域提取模型提取多个候选边界框,再在候选边界框中随机采样一定数量的候选边界框作为第二参考边界框;针对每个第二参考边界框,生成子模型基于该第二参考边界框进行边界框预测及类别预测,得到第二预测边界框和第二预测类别;然后,基于各第二参考边界框对应的第二预测边界框和第二预测类别,生成待检测图像的目标检测结果;其中,由于生成子模型的模型参数训练过程中,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
需要说明的是,本申请中该实施例与本申请中上一实施例基于同一发明构思,因此该实施例的具体实施可以参见前述模型训练方法的实施,重复之处不再赘述。
对应上述图1至图4b描述的模型训练方法,基于相同的技术构思,本申请实施例还提供了一种模型训练装置,图7为本申请实施例提供的模型训练装置的模块组成示意图,该装置用于执行图1至图4b描述的模型训练方法,如图7所示,该装置包括:
第一边界框获取模块702,被配置为从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取每个所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
模型训练模块704,被配置为将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
本申请实施例中的模型训练装置,在模型训练阶段,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
需要说明的是,本申请中关于模型训练装置的实施例与本申请中关于模型训练方法的具体实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的模型训练方法的实施,重复之处不再赘述。
对应上述图5至图6描述的目标检测方法,基于相同的技术构思,本申请实施例还提供了一种目标检测装置,图8为本申请实施例提供的目标检测装置的模块组成示意图,该装置用于执行图5至图6描述的目标检测方法,如图8所示,该装置包括:
第二边界框获取模块802,被配置为从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
目标检测模块804,被配置为将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
检测结果生成模块806,被配置为基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
本申请实施例中的目标检测装置,在目标检测过程中,首先利用预设感兴趣区域提取模型提取多个候选边界框,再在候选边界框中随机采样一定数量的候选边界框作为第二参考边界框;针对每个第二参考边界框,生成子模型基于该第二参考边界框进行边界框预测及类别预测,得到第二预测边界框和第二预测类别;然后,基于各第二参考边界框对应的第二预测边界框和第二预测类别,生成待检测图像的目标检测结果;其中,由于生成子模型的模型参数训练过程中,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
需要说明的是,本申请中关于目标检测装置的实施例与本申请中关于目标检测方法的具体实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的目标检测方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种计算机设备,该设备用于执行上述的模型训练方法或者目标检测方法,如图9所示。
计算机设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对计算机设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在计算机设备上执行存储器902中的一系列计算机可执行指令。计算机设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,计算机设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对计算机设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取每个所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;
基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;
基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
在另一个具体的实施例中,计算机设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对计算机设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
本申请实施例中的计算机设备,在模型训练阶段,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
需要说明的是,本申请中关于计算机设备的实施例与本申请中关于模型训练方法的具体实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的模型训练方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取每个所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;
基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;
基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
另一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时,在模型训练阶段,通过判别子模型基于真实边界框和由第一参考边界框得到的第一预测边界框,输出表征边界框分布相似程度的第一判别结果,促使与边界框回归有关的模型参数不断更新,以促使生成子模型不断学习边界框分布,使得预测得到的第一预测边界框更加接近于真实边界框,从而提高训练后的目标检测模型对目标对象所在位置的边界框预测的准确度、模型泛化性和数据迁移性;并且在模型训练阶段,还通过判别子模型基于第一参考边界框对应的真实类别和第一预测类别,输出表征第一预测类别和真实类别之间的类别相似程度的第二判别结果,以促使生成子模型不断学习边界框中图像区域的目标对象所属类别,使得预测得到的第一预测类别更加接近于真实类别,由于在模型训练过程中并不关注预测类别本身,而是借助判别子模型的真伪判别结果,促使与目标对象类别预测有关的模型参数不断更新,提高了训练后的目标检测模型的目标分类准确度、模型泛化性和数据迁移性;并且判别子模型所输出的判别结果集合包括第一判别结果和第二判别结果,这样基于该判别结果集合,确定待训练模型的总损失值,再不断基于总损失值对生成子模型和判别子模型的模型参数进行多轮迭代更新,实现同时确保目标检测过程中的目标对象位置标记和目标对象分类的准确度。
需要说明的是,本申请中关于存储介质的实施例与本申请中关于模型训练方法的具体实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的模型训练方法的实施,重复之处不再赘述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
Claims (18)
1.一种模型训练方法,其特征在于,所述方法包括:
从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取各所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;
基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;
基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合,包括:
在所述第一预测类别满足所述预设约束的条件下,对所述第一参考边界框对应的真实边界框和第一预测边界框进行边界框真伪判别,得到第一判别结果;对所述第一参考边界框对应的真实类别和第一预测类别进行类别真伪判别,得到第二判别结果。
3.根据权利要求2所述的方法,其特征在于,所述判别结果集合还包括第三判别结果;所述基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合,还包括:
在所述第一预测类别满足所述预设约束的条件下,基于所述第一参考边界框对应的真实边界框和第一预测边界框,计算边界框交并比损失,得到第三判别结果。
4.根据权利要求2所述的方法,其特征在于,所述判别结果集合还包括第四判别结果;所述基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合,还包括:
基于所述第一参考边界框对应的真实边界框和第一预测边界框,计算用于对所述待训练模型的损失函数的损失梯度进行约束的损失补偿值,得到第四判别结果。
5.根据权利要求3或4所述的方法,其特征在于,所述基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值,包括:
确定各所述第一参考边界框对应的子损失值;所述第一参考边界框对应的子损失值是基于目标信息确定的,所述目标信息包括以下至少一项:所述第一参考边界框对应的第一预测类别是否满足所述预设约束、所述第一参考边界框对应的第一判别结果所表征的边界框分布相似程度、第二判别结果所表征的类别相似程度、第三判别结果所表征的边界框坐标重合程度、第四判别结果所表征的损失补偿值;
基于每个所述第一参考边界框对应的所述子损失值,确定所述待训练模型的总损失值。
6.根据权利要求2所述的方法,其特征在于,所述对所述第一参考边界框对应的真实边界框和第一预测边界框进行边界框真伪判别,得到第一判别结果,包括:
基于所述第一参考边界框对应的真实边界框,确定所述真实边界框被所述判别子模型判别为真的第一判别概率;基于所述第一参考边界框对应的第一预测边界框,确定所述第一预测边界框被所述判别子模型判别为伪造的第二判别概率;
基于所述第一判别概率和所述第二判别概率,生成第一判别结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一判别概率和所述第二判别概率,生成第一判别结果,包括:
基于所述第一判别概率和所述第一参考边界框对应的真实边界框的第一先验概率,确定第一加权概率;
基于所述第二判别概率和所述第一参考边界框的第二先验概率,确定第二加权概率;
基于所述第一加权概率和所述第二加权概率,生成第一判别结果。
8.根据权利要求2所述的方法,其特征在于,所述对所述第一参考边界框对应的真实类别和第一预测类别进行类别真伪判别,得到第二判别结果,包括:
确定所述第一参考边界框对应的真实类别被所述判别子模型判别为真的第三判别概率;确定所述第一参考边界框对应的第一预测类别被所述判别子模型判别为伪造的第四判别概率;
基于所述第三判别概率和所述第四判别概率,生成第二判别结果。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第三判别概率和所述第四判别概率,生成第二判别结果,包括:
基于所述第三判别概率和所述第一参考边界框对应的真实边界框的类别为所述真实类别的第三先验概率,确定第三加权概率;
基于所述第四判别概率和所述第一参考边界框的类别为所述真实类别的第四先验概率,确定第四加权概率;
基于所述第三加权概率和所述第四加权概率,生成第二判别结果。
10.根据权利要求4所述的方法,其特征在于,所述基于所述第一参考边界框对应的真实边界框和第一预测边界框,计算用于对所述待训练模型的损失函数的损失梯度进行约束的损失补偿值,得到第四判别结果,包括:
基于所述第一参考边界框对应的真实边界框和第一预测边界框,生成所述第一参考边界框对应的合成边界框;
基于所述第一参考边界框对应的合成边界框与真实边界框的边界框分布相似程度,确定损失补偿值;
基于所述损失补偿值,生成所述第一参考边界框对应的第四判别结果。
11.根据权利要求10所述的方法,其特征在于,所述基于所述第一参考边界框对应的真实边界框和第一预测边界框,生成所述第一参考边界框对应的合成边界框,包括:
基于第一采样比例和所述第一参考边界框对应的真实边界框的第一坐标信息集合,确定第一坐标信息子集;
基于第二采样比例和所述第一参考边界框对应的第一预测边界框的第二坐标信息集合,确定第二坐标信息子集;所述第一采样比例与所述第二采样比例之和等于1;
基于所述第一坐标信息子集和所述第二坐标信息子集,生成所述第一参考边界框对应的合成边界框。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将预设样本图像集合输入预设感兴趣区域提取模型进行感兴趣区域提取,得到第一候选边界框集合;所述第一候选边界框集合包括第二指定数量的候选边界框,所述第二指定数量大于所述第一指定数量;
所述从第一候选边界框集合中获取第一指定数量的第一参考边界框,包括:从所述第二指定数量的候选边界框中,随机选取第一指定数量的所述候选边界框作为第一参考边界框。
13.一种目标检测方法,其特征在于,所述方法包括:
从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
14.根据权利要求13所述的方法,其特征在于,所述目标检测模型包括生成子模型;
针对每个所述第二参考边界框:在所述目标检测过程中,所述生成子模型基于所述第二参考边界框进行预测,得到所述第二参考边界框对应的第二预测边界框和第二预测类别。
15.一种模型训练装置,其特征在于,所述装置包括:
第一边界框获取模块,被配置为从第一候选边界框集合中获取第一指定数量的第一参考边界框,以及获取每个所述第一参考边界框分别对应的真实边界框和所述真实边界框对应的真实类别;所述第一候选边界框集合是利用预设感兴趣区域提取模型对预设样本图像集合进行目标区域提取得到的;
模型训练模块,被配置为将所述第一参考边界框、所述真实边界框和所述真实类别输入待训练模型进行模型迭代训练,直到当前模型迭代训练结果满足模型迭代训练终止条件,得到目标检测模型;其中,所述待训练模型包括生成子模型和判别子模型;每次模型训练的具体实现方式有:
针对每个所述第一参考边界框:所述生成子模型基于所述第一参考边界框进行预测,得到第一预测边界框和第一预测类别;所述判别子模型基于所述第一参考边界框对应的真实边界框和第一预测边界框、以及所述第一参考边界框对应的真实类别和第一预测类别,生成判别结果集合;所述判别结果集合包括第一判别结果和第二判别结果,所述第一判别结果表征在满足预设约束的条件下,所述第一预测边界框与所述真实边界框的边界框分布相似程度,所述预设约束为所述第一预测边界框中的目标对象的类别被所述生成子模型预测为与所述真实类别相匹配的目标类别,所述第二判别结果表征所述第一预测类别与所述真实类别之间的类别相似程度;基于每个所述第一参考边界框对应的第一判别结果和第二判别结果,确定所述待训练模型的总损失值;基于所述总损失值对所述生成子模型和所述判别子模型的模型参数进行更新。
16.一种目标检测装置,其特征在于,所述装置包括:
第二边界框获取模块,被配置为从第二候选边界框集合中获取第三指定数量的第二参考边界框;所述第二候选边界框集合是利用预设感兴趣区域提取模型对待检测图像进行目标区域提取得到的;
目标检测模块,被配置为将所述第二参考边界框输入目标检测模型进行目标检测,得到每个所述第二参考边界框对应的第二预测边界框和第二预测类别;
检测结果生成模块,被配置为基于每个所述第二参考边界框对应的所述第二预测边界框和所述第二预测类别,生成所述待检测图像的目标检测结果。
17.一种计算机设备,其特征在于,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如权利要求1-12任一项或者13-14任一项所述的方法中的步骤。
18.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1-12任一项或者13-14任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831544.7A CN117437397A (zh) | 2022-07-15 | 2022-07-15 | 模型训练方法、目标检测方法及装置 |
EP23838710.4A EP4390858A1 (en) | 2022-07-15 | 2023-06-29 | Model training method and device, and target detection method and device |
PCT/CN2023/103842 WO2024012217A1 (zh) | 2022-07-15 | 2023-06-29 | 模型训练方法、目标检测方法及装置 |
US18/606,155 US20240273879A1 (en) | 2022-07-15 | 2024-03-15 | Model training method, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831544.7A CN117437397A (zh) | 2022-07-15 | 2022-07-15 | 模型训练方法、目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437397A true CN117437397A (zh) | 2024-01-23 |
Family
ID=89535521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210831544.7A Pending CN117437397A (zh) | 2022-07-15 | 2022-07-15 | 模型训练方法、目标检测方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240273879A1 (zh) |
EP (1) | EP4390858A1 (zh) |
CN (1) | CN117437397A (zh) |
WO (1) | WO2024012217A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145931B (zh) * | 2018-09-03 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置及存储介质 |
CN112016605B (zh) * | 2020-08-19 | 2022-05-27 | 浙江大学 | 一种基于边界框角点对齐和边界匹配的目标检测方法 |
CN114581652A (zh) * | 2020-12-01 | 2022-06-03 | 北京四维图新科技股份有限公司 | 目标对象的检测方法、装置、电子设备以及存储介质 |
CN112785565B (zh) * | 2021-01-15 | 2024-01-05 | 上海商汤智能科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
-
2022
- 2022-07-15 CN CN202210831544.7A patent/CN117437397A/zh active Pending
-
2023
- 2023-06-29 WO PCT/CN2023/103842 patent/WO2024012217A1/zh active Application Filing
- 2023-06-29 EP EP23838710.4A patent/EP4390858A1/en active Pending
-
2024
- 2024-03-15 US US18/606,155 patent/US20240273879A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4390858A1 (en) | 2024-06-26 |
US20240273879A1 (en) | 2024-08-15 |
WO2024012217A1 (zh) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114037876B (zh) | 一种模型优化方法和装置 | |
CN114092820A (zh) | 目标检测方法及应用其的移动目标跟踪方法 | |
CN113570029A (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
CN117437395A (zh) | 目标检测模型训练方法、目标检测方法及装置 | |
CN114549894A (zh) | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 | |
CN111126396A (zh) | 图像识别方法、装置、计算机设备以及存储介质 | |
CN111834004B (zh) | 一种基于中心化空间学习的未知疾病类别识别方法及装置 | |
WO2024012179A1 (zh) | 模型训练方法、目标检测方法及装置 | |
CN118097355A (zh) | 一种基于集成学习的告警信息处理方法、设备及介质 | |
CN113469111A (zh) | 图像关键点检测方法及系统、电子设备、存储介质 | |
CN117544904A (zh) | 射频识别定位方法、装置、设备、存储介质和程序产品 | |
CN116561319A (zh) | 文本的聚类方法、文本的聚类装置和文本聚类系统 | |
CN116091867B (zh) | 一种模型训练、图像识别方法、装置、设备及存储介质 | |
CN117437397A (zh) | 模型训练方法、目标检测方法及装置 | |
CN117437396A (zh) | 目标检测模型训练方法、目标检测方法及装置 | |
CN113011597B (zh) | 一种回归任务的深度学习方法和装置 | |
CN115131679A (zh) | 检测方法、装置及计算机存储介质 | |
CN114445716A (zh) | 关键点检测方法、装置、计算机设备、介质及程序产品 | |
CN110633722A (zh) | 人工神经网络调整方法和装置 | |
KR102491451B1 (ko) | 심층 신경망 기반의 악성코드 탐지 분류체계의 유사도를 반영하는 시그니처 생성 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN116737974B (zh) | 用于人脸图像比对的阈值的确定方法、装置及电子设备 | |
Hasibuan et al. | Large Scale Bird Species Classification Using Convolutional Neural Network with Sparse Regularization | |
CN118135357B (zh) | 核心集构造方法、装置、设备及介质 | |
CN117058496A (zh) | 图像聚类的评估方法、装置及电子设备 | |
CN117312996A (zh) | 一种基于集成学习的业务对象分类预测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |