CN116152491B - 一种语义分割方法、装置及存储介质 - Google Patents
一种语义分割方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116152491B CN116152491B CN202310001219.2A CN202310001219A CN116152491B CN 116152491 B CN116152491 B CN 116152491B CN 202310001219 A CN202310001219 A CN 202310001219A CN 116152491 B CN116152491 B CN 116152491B
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- fisheye image
- image
- fisheye
- perspective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 518
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 description 26
- 210000003128 head Anatomy 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000003709 image segmentation Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G06T3/047—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
本公开是关于一种语义分割方法、装置及存储介质。语义分割方法包括:获取多个透视图像语义分割数据集,并在多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集;基于对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集;基于至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型;基于目标鱼眼图像语义分割模型,进行语义分割预测。通过本公开的语义分割方法,能够快速得到一个可用的鱼眼图像语义分割模型,并提升鱼眼图像语义分割模型融合多个鱼眼图语义分割数据集的能力。
Description
技术领域
本公开涉及图像处理技术,尤其涉及一种语义分割方法、装置及存储介质。
背景技术
随着图像处理技术的发展,图像语义分割技术被越来越多的应用在各个领域,如自动驾驶、室内导航、虚拟现实与增强现实等领域。然而相关的图像语义分割方法通常是针对透视图像,在需要对鱼眼图像进行语义分割的场景中,如自动驾驶场景、泊车场景等道路场景,无法针对鱼眼图像进行精准且高效的语义分割。
相关技术中,主要通过人工在鱼眼图像上进行语义分割标注特定类别后,再进行鱼眼图像语义分割的训练,存在耗时大、人工成本高的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种语义分割方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种语义分割方法,所述方法包括:获取多个透视图像语义分割数据集,并在所述多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集;基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集;基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型;基于所述目标鱼眼图像语义分割模型,进行语义分割预测。
一种实施方式中,所述基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集,包括:在所述至少一个透视图像语义分割数据集确定未标注透视图像集和精准标注透视图像集;对所述未标注透视图像集进行语义分割,得到未标注透视图像的伪标注透视图像集;将所述未标注透视图像集以及所述伪标注透视图像集中的透视图像,分别转换为鱼眼图像,得到第一鱼眼图像数据集,并将所述精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集;所述基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:基于所述第一鱼眼图像数据集和/或所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型。
一种实施方式中,所述基于所述第一鱼眼图像数据集和所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:基于所述第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型;基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型。
一种实施方式中,所述基于所述第一鱼眼图像数据集,训练语义分割模型,得到初始鱼眼图像语义分割模型,包括:确定所述第一鱼眼图像数据集中,基于伪标注透视图像集转换得到的伪标注鱼眼图像集,以及所述伪标注鱼眼图像集中包括的语义分割类别;确定所述伪标注鱼眼图像集中所包括的不同语义分割类别之间的边缘区域,并将所述边缘区域的语义分割类别转化为不使用类别;基于所述第一鱼眼图像数据集、所述伪标注鱼眼图像集中包括的语义分割类别以及所述不使用类别,训练语义分割模型,得到初始鱼眼图像语义分割模型。
一种实施方式中,所述基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型,包括:确定所述第二鱼眼图像数据集中包括的语义分割类别;基于所述第二鱼眼图像数据集中包括的语义分割类别,优化所述初始鱼眼图像语义分割模型,得到目标鱼眼图像语义分割模型。一种实施方式中,所述基于所述目标鱼眼图像语义分割模型,进行语义分割预测,包括:基于所述目标鱼眼图像语义分割模型,确定进行语义分割预测得到的多个语义分割类别以及所述多个语义分割类别中各类别对应的语义分割类别分数;将所述多个语义分割类别中语义分割类别分数最高的语义分割类别,确定为语义分割预测结果。
根据本公开实施例的第二方面,提供一种语义分割装置,其特征在于,包括:获取单元,用于获取多个透视图像语义分割数据集;确定单元,用于在所述多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集;处理单元,用于基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集;基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型;基于所述目标鱼眼图像语义分割模型,进行语义分割预测。
一种实施方式中,所述处理单元采用如下方式基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集:在所述至少一个透视图像语义分割数据集确定未标注透视图像集和精准标注透视图像集;对所述未标注透视图像集进行语义分割,得到未标注透视图像的伪标注透视图像集;将所述未标注透视图像集以及所述伪标注透视图像集中的透视图像,分别转换为鱼眼图像,得到第一鱼眼图像数据集,并将所述精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集;所述基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:基于所述第一鱼眼图像数据集和/或所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型。
一种实施方式中,所述处理单元采用如下方式基于所述第一鱼眼图像数据集和所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型:基于所述第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型;基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型。
一种实施方式中,所述处理单元采用如下方式基于所述第一鱼眼图像数据集,训练语义分割模型,得到初始鱼眼图像语义分割模型:确定所述第一鱼眼图像数据集中,基于伪标注透视图像集转换得到的伪标注鱼眼图像集,以及所述伪标注鱼眼图像集中包括的语义分割类别;确定所述伪标注鱼眼图像集中所包括的不同语义分割类别之间的边缘区域,并将所述边缘区域的语义分割类别转化为不使用类别;基于所述第一鱼眼图像数据集、所述伪标注鱼眼图像集中包括的语义分割类别以及所述不使用类别,训练语义分割模型,得到初始鱼眼图像语义分割模型。
一种实施方式中,所述处理单元采用如下方式基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型:确定所述第二鱼眼图像数据集中包括的语义分割类别;基于所述第二鱼眼图像数据集中包括的语义分割类别,优化所述初始鱼眼图像语义分割模型,得到目标鱼眼图像语义分割模型。
一种实施方式中,所述处理单元采用如下方式基于所述目标鱼眼图像语义分割模型,进行语义分割预测:基于所述目标鱼眼图像语义分割模型,确定进行语义分割预测得到的多个语义分割类别以及所述多个语义分割类别中各类别对应的语义分割类别分数;将所述多个语义分割类别中语义分割类别分数最高的语义分割类别,确定为语义分割预测结果。
根据本公开的第三方面,提供一种语义分割装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器配置用于调用指令执行前述第一方面或者第一方面中任意一示例中的语义分割方法。
根据本公开的第四方面,提供了一种存储介质,存储介质中存储有指令,当存储介质中的指令由终端的处理器执行时,执行前述第一方面或者第一方面中任意一示例中的语义分割方法。
本公开的实施例提供的技术方案可以包括以下有益效果:对鱼眼图像进行语义分割时,能够通过获取多个透视图像语义分割数据集,得到对应鱼眼图像的至少一个透视图像语义分割数据集,将对应鱼眼图像的至少一个透视图像语义分割数据集,转换得到至少一个鱼眼图像数据集,进一步训练得到目标鱼眼图像语义分割模型,并基于目标鱼眼图像语义分割模型,实现对鱼眼图像的语义分割预测。本公开的语义分割方法通过充分利用相关的透视图像语义分割数据集,能够快速得到一个可用的鱼眼图像语义分割模型,节省时间和人力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语义分割方法的流程图。
图2是根据一示例性实施例示出的一种获取鱼眼图像数据集方法的流程图。
图3是根据一示例性实施例示出的一种透视图像的示意图。
图4是根据一示例性实施例示出的一种伪标注透视图像的示意图。
图5是根据一示例性实施例示出的一种透视图像的示意图。
图6是根据一示例性实施例示出的一种鱼眼图像的示意图。
图7是根据一示例性实施例示出的一种语义分割方法的流程图。
图8是根据一示例性实施例示出的一种道路场景透视图像的示意图。
图9是根据一示例性实施例示出的一种精准标注透视图像的示意图。
图10是根据一示例性实施例示出的一种鱼眼图像的示意图。
图11是根据一示例性实施例示出的一种精准标注鱼眼图像的示意图。
图12是根据一示例性实施例示出的一种语义分割方法的流程图。
图13是根据一示例性实施例示出的一种边缘区域语义分割图像示意图。
图14是根据一示例性实施例示出的一种语义分割方法的流程图。
图15是根据一示例性实施例示出的一种语义分割方法的流程图。
图16是根据一示例性实施例示出的一种语义分割装置的框图。
图17是根据一示例性实施例示出的一种语义分割装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。
其中,以下所描述的实施例是本公开一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。下面结合附图对本公开的实施例进行详细说明。
随着图像语义分割技术被越来越多的应用在各个领域,如自动驾驶、室内导航、虚拟现实与增强现实等领域。但相关的图像语义分割方法通常是针对透视图像,在对鱼眼图像进行语义分割的相关技术中,通过人工在鱼眼图像上进行语义分割标注特定类别后,再进行鱼眼图像语义分割的训练,存在耗时大、人工成本高的问题,并且相关的鱼眼图像语义分割模型通常是在一个鱼眼图像数据集上训练模型,无法同时使用多个鱼眼图像数据集,进而导致无法针对鱼眼图像进行精准且高效的语义分割。
本公开实施例提供一种语义分割方法,对鱼眼图像进行语义分割时,能够通过获取多个透视图像语义分割数据集,转换得到至少一个鱼眼图像数据集,进一步训练得到目标鱼眼图像语义分割模型,并基于目标鱼眼图像语义分割模型,实现对鱼眼图像的语义分割预测。充分利用了相关的精准标注透视图像数据集和大量的未标注的透视图像数据,能够快速得到一个可用的鱼眼图像语义分割模型,节省时间和人力成本。并提升了模型的泛化能力,以及鱼眼语义分割模型融合多个鱼眼图语义分割数据集的能力。
本公开实施例以下对本公开的语义分割方法的实施过程进行说明。
图1是根据一示例性实施例示出的一种语义分割方法的流程图,如图1所示,语义分割方法包括以下步骤。
在步骤S101中,获取多个透视图像语义分割数据集,并在多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集。
在步骤S102中,基于对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集。
在步骤S103中,基于至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型。
在步骤S104中,基于目标鱼眼图像语义分割模型,进行语义分割预测。
在本公开的示例性实施例中,透视图像语义分割数据集中包括精准标注透视图像集、未标注透视图像集和多种语义分割类别等数据,精准标注透视图像指透视图像中的每个像素都准确分配了一个语义分割类别,未标注透视图像为未进行语义分割的原始透视图像。鱼眼图像为通过鱼眼相机拍摄的图像,通常所说的鱼眼图是等距投影得到的鱼眼图,物体成像面上距离画面中心的距离与入射角成正比。目标鱼眼图像语义分割模型为可进行精准且高效的语义分割预测的语义分割模型。多个透视图像语义分割数据集为相关的、针对透视图像进行语义分割的多个语义分割数据集。
在本公开的示例性实施例中,在多个相关的透视图像语义分割数据集上,找到所有需要在鱼眼图像上识别的语义分割类别。例如,在相关的城市街景道路透视图像语义分割数据集上有非常多的语义分割类别,包括比如车、行人、道路、建筑和天空等语义分割类别。选择需要在鱼眼图像上识别的多种语义分割类别,可以是车、行人,还可以是车、道路和行人,或者是车、行人、道路、建筑和天空,能够得到对应鱼眼图像的至少一个透视图像语义分割数据集。
在本公开的示例性实施例中,利用对应鱼眼图像的至少一个透视图像语义分割数据集,得到未标注透视图像集和精准标注透视图像集,分别转化为鱼眼图像数据集,得到至少一个鱼眼图像数据集。并基于至少一个鱼眼图像数据集,训练得到目标鱼眼图像分割模型,进一步的,利用目标鱼眼图像分割模型预测鱼眼图像上的语义分割类别。
在本公开的示例性实施例中,充分利用了相关的透视图像语义分割数据集和透视图像语义分割模型,能够快速得到一个可用的鱼眼图像语义分割模型,节省时间和人力成本。
本公开实施例以下对基于透视图像语义分割数据集,得到至少一个鱼眼图像数据集的实施过程进行说明。
图2是根据一示例性实施例示出的一种获取鱼眼图像数据集方法的流程图,如图2所示,语义分割方法包括以下步骤。
在步骤S201中,在至少一个透视图像语义分割数据集确定未标注透视图像集和精准标注透视图像集。
在步骤S202中,对未标注透视图像集进行语义分割,得到未标注透视图像的伪标注透视图像集。
在步骤S203中,将未标注透视图像集以及伪标注透视图像集中的透视图像,分别转换为鱼眼图像,得到第一鱼眼图像数据集,并将精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集。
在步骤S204中,基于第一鱼眼图像数据集和/或第二鱼眼图像数据集,得到至少一个鱼眼图像数据集。
在本公开的示例性实施例中,利用对应鱼眼图像的至少一个透视图像语义分割数据集,训练透视图像语义分割模型,得到训练后的透视图像语义分割模型。基于训练后的透视图像语义分割模型对未标注透视图像进行语义分割,得到的伪标注透视图像。第一鱼眼图像数据集为未标注透视图像和对应的伪标注透视图像分别转化得到的鱼眼图像数据集,第一鱼眼图像数据集中包括未标注鱼眼图像集和伪标注鱼眼图像集。伪标注指的是使用透视图像语义分割模型预测得到未标注透视图像上的语义分割类别。第二鱼眼图像数据集为精准标注透视图像转化得到的鱼眼图像数据集,第二鱼眼图像数据集中包括精准标注鱼眼图像集和对应的未标注鱼眼图像集。
在本公开的示例性实施例中,至少一个透视图像鱼眼图像数据集包括第一鱼眼图像数据集,或者包括第二鱼眼图像数据集,还可以包括第一鱼眼图像数据集和第二鱼眼图像数据集。
图3是根据本公开一示例性实施例示出的一种透视图像的示意图。
在本公开的示例性实施例中,如图3所示,为相关的透视图像语义分割数据集中未标注的透视图像。透视图像为以人的眼睛为投影中心,作出的空间物体在画面上的中心投影(而非平行投影),例如,普通手机拍摄的照片就是透视图像。
图4是根据本公开一示例性实施例示出的一种伪标注透视图像的示意图。
在本公开的示例性实施例中,如图4所示,为未标注的透视图像基于相关的透视图像语义分割模型,进行语义分割后得到的伪标注透视图像结果。语义分割指给图像中的每一个像素分配一个类别,得到特定语义分割类别的标签(mask)。图4中,示例性的,使用不同的线条图案表示特定语义分割类别的mask,将语义分割结果中的不同语义分割类别使用不同的mask叠加在原始透视图上,示例预测得到的各语义分割类别。如图4中,分别标注了伪标注透视图像中所预测的车、行人、树、道路等语义分割类别。
本公开实施例以下对将透视图像转换为鱼眼图像的实施过程进行说明。
其中,为投影的入射角,即相机空间任意点到相机坐标中心点的入射光线的入射
角。为畸变后的等效折角,即相机坐标中心点到鱼眼图像的像点的光线出射角,像点为图
像上的任意一点。为畸变参数,由鱼眼相机提供。计算透视图像转换鱼眼
图像后像点的等效折角:
r为相机空间任意点在鱼眼图像平面上的像点到图像中心点的距离,f为相机焦距。计算透视图像中的像点对应的鱼眼图像中的像点到鱼眼图像中心点的距离:
在本公开的示例性实施例中,将上述两个公式作为透视图像转换鱼眼图像的公式,可以计算出透视图像中的像点在对应的鱼眼图像中的坐标,根据像点的坐标数据,实现透视图像到鱼眼图像的映射,实现透视图像到鱼眼图像的转换。
本公开一示例中以道路场景透视图像为例对上述通过透视图像转换鱼眼图像的过程进行说明。
图5是根据本公开一示例性实施例示出的一种透视图像的示意图。参阅图5所示,道路场景透视图像,通过上述涉及的透视图像转换鱼眼图像的公式,将该道路场景透视图像转换为鱼眼图像后,得到图6所示的鱼眼图像。
将透视图像语义分割数据集中未标注透视图像集和对应的伪标注透视图像集基于透视图像转换鱼眼图像的公式,分别转化为鱼眼图像,得到第一鱼眼图像数据集。以及将透视图像语义分割数据集中精准标注透视图像集基于透视图像转换鱼眼图像的公式,转换得到第二鱼眼图像数据集。通过相关的透视图像语义分割数据集,快速得到用于训练鱼眼图像语义分割模型的至少一个鱼眼图像数据,有效改善了鱼眼语义分割技术中耗时大,人工成本高的问题。
本公开实施例以下对基于鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型的实施过程进行说明。
图7是根据一示例性实施例示出的一种语义分割方法的流程图,如图7所示,语义分割方法包括以下步骤。
在步骤S301中,基于第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型。
在步骤S302中,基于第二鱼眼图像数据集以及初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型。
在本公开的示例性实施例中,对第一鱼眼图像数据集和第二鱼眼图像数据集分别设计分割头,分割头包括需要在鱼眼图像上识别的特定语义分割类别和背景类别,将除特定语义分割类别外,不需要识别的语义分割类别归为背景类别。例如,鱼眼图像数据集标注结果中的语义分割类别,包括比如车、行人、道路、建筑和天空五个类别,若选择需要在鱼眼图像上识别的特定语义分割类别为车、行人两个类别,那么则将除车、行人外,不需要识别的道路、建筑和天空归为背景类别,得到一个有车、行人、背景三个类别的分割头。特定语义分割类别还可以是车、道路和行人三个类别,那么则将不需要识别的建筑和天空归为背景类别,得到一个有车、道路、行人和背景四个类别的分割头。即,不同的分割头都具有各自的背景类别,不同的分割头之间的背景类别不相同。
在本公开的示例性实施例中,因为相关的不同透视图像语义分割数据集通常是不同参数、配置的相机采集的,因此对应转换得到的鱼眼图像数据集中的数据类型不相同。利用分割头确定每个鱼眼图像数据集最终需要识别的语义分割类别。结合第一鱼眼图像数据集,对鱼眼图像语义分割模型进行初次模型训练,得到初始鱼眼语义分割模型。通过初次模型训练能够使鱼眼语义分割模型识别到更多的数据类型,提升鱼眼图像语义分割模型融合多个鱼眼图像数据集的能力,有利于在后续处理中更好地融合多个精确标注鱼眼图像集。
在本公开的示例性实施例中,获取相关的透视图像语义分割数据集中精准标注透视图像集,基于透视图像转换鱼眼图像的公式,将精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集。该第二鱼眼图像数据集中的标注结果为精准标注。基于精准标注鱼眼图像数据集,训练初始鱼眼图像语义分割模型,对模型进行优化,得到目标鱼眼图像语义分割模型。使目标鱼眼图像分割模型能够针对鱼眼图像进行精准的语义分割类别预测。
图8是根据本公开一示例性实施例示出的一种道路场景透视图像的示意图。图9是根据本公开一示例性实施例示出的一种精准标注透视图像的示意图。如图9所示,为图8中透视图像所对应的精准标注透视图像,并且为真实送入语义分割模型进行训练的精准标注透视图像。其中,真实用于训练的精准标注图像为只有一个通道的灰度图,即每个像素点用一个值表示颜色,像素值在0-255之间,0表示黑色,255表示白色,中间值为一些不同等级的灰色,图像上的像素值对应该像素点所属的语义分割类别。例如,某个像素点的灰度值为50,那么该像素点就属于第50个类别,通过{50:行人}映射字典,可以找到对应第50个语义分割类别的名字,确定该像素点的语义分割类别为行人。
图10是根据本公开一示例性实施例示出的一种鱼眼图像的示意图。如图10所示,为图8透视图像基于透视图像转换鱼眼图像的公式,得到的转换后的鱼眼图像。
图11是根据一示例性实施例示出的一种精准标注鱼眼图像的示意图,如图11所示,为图9精准标注透视图像基于透视图像转换鱼眼图像的公式,得到的转换后的精准标注鱼眼图像。相同的,精准标注鱼眼图像也为只有一个通道的灰度图,根据图像上的像素值确定该像素点的语义分割类别。
本公开实施例以下对基于第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型的实施过程进行说明。
图12是根据一示例性实施例示出的一种语义分割方法的流程图,如图12所示,语义分割方法包括以下步骤。
在步骤S401中,确定第一鱼眼图像数据集中,基于伪标注透视图像集转换得到的伪标注鱼眼图像集,以及伪标注鱼眼图像集中包括的语义分割类别。
在步骤S402中,确定伪标注鱼眼图像集中所包括的不同语义分割类别之间的边缘区域,并将边缘区域的语义分割类别转化为不使用类别。
在步骤S403中,基于第一鱼眼图像数据集、伪标注鱼眼图像集中包括的语义分割类别以及不使用类别,训练语义分割模型,得到初始鱼眼图像语义分割模型。
在本公开的示例性实施例中,伪标注鱼眼图像和由伪标注透视图像基于透视图像转换鱼眼图像的公式转换得到。基于第一鱼眼图像数据集,得到伪标注鱼眼图像以及对应的语义分割类别。通过伪标注鱼眼图像的语义分割类别,确定不同的语义分割类别之间的边缘区域,边缘区域为相邻的不同语义分割类别之间,分割线附近的图像区域。不使用类别为除特定语义分割类别外以及背景类别外、针对边缘区域设定的类别。
在本公开的示例性实施例中,由于第一鱼眼图像数据集是通过未标注透视图像和对应的伪标注透视图像转化得到,而含伪标注的图像在不同语义分割类别之间的边缘区域预测得到的语义分割类别错误率较高,因此需要去掉边缘区域来训练语义分割模型。基于第一鱼眼图像数据集、伪标注鱼眼图像集包含的语义分割类别和不使用类别,训练语义分割模型,能够降低初始鱼眼图像语义分割模型训练过程中的误差。
在本公开的示例性实施例中,通过将不同语义分割类别之间的边缘区域转化为不使用类别,其中,不使用类别不会参与模型训练的损失值计算,降低了初始鱼眼图像语义分割模型训练过程中的误差。并且,边缘区域不能转换为背景类别,因为在精准标注的情况下,鱼眼语义分割模型能够准确识别出边缘区域对应语义分割类别,因此,需要单独为伪标注鱼眼图像中的边缘区域设定一个不使用类别。例如,一张伪标注鱼眼图像中有行人、车、背景三个语义分割类别,将边缘区域转换为不使用类别后 ,该伪标注鱼眼图像中有行人、车、背景和不使用类别四个语义分割类别。
图13是根据本公开一示例性实施例示出的一种边缘区域语义分割图像示意图。如图13所示,箭头所指向的图像区域为边缘区域,将如图所示的边缘区域转化为不使用类别。其中,标注了包括行人、车、建筑、背景和不使用类别等语义分割类别。
图14是根据一示例性实施例示出的一种语义分割方法的流程图,如图14所示,语义分割方法包括以下步骤。
在步骤S501中,确定第二鱼眼图像数据集中包括的语义分割类别。
在步骤S502中,基于第二鱼眼图像数据集中包括的语义分割类别,优化初始鱼眼图像语义分割模型,得到目标鱼眼图像语义分割模型。
在本公开的示例性实施例中,第二鱼眼图像数据集中包括了精准标注鱼眼图像集和对应的未标注鱼眼图像集,确定第二鱼眼图像数据集中精准标注鱼眼图像集的语义分割类别。其中,在精准标注的情况下,鱼眼语义分割模型能够通过分割头,筛选出需要在鱼眼图像上识别的语义分割类别,并准确识别鱼眼图像各个区域对应语义分割类别,因此,对于第二鱼眼图像数据集中没有使用的类别,直接转换为背景类别,不需要设定不使用类别。
在本公开的示例性实施例中,基于第二鱼眼图像数据集中包括的语义分割类别,训练初始鱼眼图像语义分割模型,提升初始鱼眼语义分割模型训练的正确率,得到目标鱼眼图像分割模型,实现针对鱼眼图像进行精准且高效的语义分割。
在本公开的示例性实施例中,在优化初始鱼眼图像语义分割模型的过程中,可以再次加入去掉边缘区域的伪标注鱼眼图像进行模型训练,从而能够使目标鱼眼语义分割模型持续保持泛化的能力和融合多数据集的能力。
在本公开的示例性实施例中,还可以直接基于第二鱼眼图像数据集,对鱼眼语义分割模型进行第一次训练,得到可用的鱼眼语义分割模型,作为目标鱼眼语义分割模型。该目标鱼眼图像分割模型,去掉了基于第一鱼眼图像数据集训练得到初始鱼眼图像分割模型的过程。通过该目标鱼眼图像分割模型也能实现针对鱼眼图像进行精准且高效的语义分割。
图15是根据一示例性实施例示出的一种语义分割方法的流程图,如图15所示,语义分割方法包括以下步骤。
在步骤S601中,基于目标鱼眼图像语义分割模型,确定进行语义分割预测得到的多个语义分割类别以及多个语义分割类别中各类别对应的语义分割类别分数。
在步骤S602中,将多个语义分割类别中语义分割类别分数最高的语义分割类别,确定为语义分割预测结果。
在本公开的示例性实施例中,获取鱼眼图像语义分割数据集中的未标注的鱼眼图像,利用目标鱼眼图像分割模型对未标注的鱼眼图像进行语义分割的预测,得到未标注的鱼眼图像中每个区域像素点对应的语义分割类别,得到未标注的鱼眼图像的语义分割预测结果。若同一个像素点在多个分割头下被分配到了多个语义分割类别,采用语义分割类别分数最高的类别作为最终的语义分割类别,确定未标注的鱼眼图像的语义分割预测结果。
在本公开的示例性实施例中,进行语义分割类别预测时,背景类别的优先级最低。即,对未标注的鱼眼图像进行语义分割的预测时,若未标注的鱼眼图像中的一个像素点,在不同的分割头下分别被分配到了背景类别和其他语义分割类别,则采用其他语义分割类别作为最终的语义分割类别,确定未标注的鱼眼图像的语义分割预测结果。其中,其它语义分割类别为多个分割头中除背景类别外,需要在鱼眼图像上识别的语义分割类别。例如,鱼眼图像中一个像素点,在不同的鱼眼图像数据集的分割头中,分别被识别为背景类别和车类别,采用车类别作为该像素点最终的语义分割类别。或者,鱼眼图像中一个像素点,在不同的鱼眼图像数据集的分割头中,分别被识别为背景类别、车类别和建筑类别,则只需要对车类别和建筑类别的语义分割类别分数进行比较,采用语义分割类别分数最高的类别作为最终的语义分割类别。
本公开以下示例中以道路场景图像为例对上述涉及的语义分割方法进行说明。
首先,在多个相关的透视图像语义分割数据集上,筛选需要在鱼眼图像上识别的语义分割类别,训练语义分割模型。例如,在道路场景透视图像语义分割数据集上有30个语义分割类别,筛选并保留鱼眼图像语义分割需要识别的车、行人、公交、道路4个语义分割类别,将其他类别全部转换为背景类别。基于车、行人、公交、道路和背景5个语义分割类别,训练语义分割模型。
其次,使用训练后得到的透视图像语义分割模型,在未标注透视图像上进行语义分割,即通过透视图像语义分割模型对未标注透视图像进行标注,得到对应未标注透视图像的伪标注透视图像。
接着,将未标注透视图像及对应的伪标注透视图像,基于透视图像转鱼眼图像的公式,分别转为鱼眼图像,得到未标注鱼眼图像和未标注鱼眼图像。
进一步的,设计可以在多个鱼眼图像数据集上同时训练的鱼眼图像语义分割模型,为多个鱼眼图像数据集分别设计分割头。例如,为不同的两个道路场景透视图像语义分割数据集分别设计一个分割头,用于识别每个透视图像语义分割数据集转换为鱼眼图像数据集后,最终在鱼眼图像上需要识别的类别。其中,每个分割头,都包含一个背景类别,用于将对应的图像数据集上不使用的其他类别都归类到背景类别中。例如,将道路场景透视图像语义分割数据集转换为鱼眼图像数据集以后,只使用车、公交、行人、道路4个类别,那么该透视图像语义分割数据集包括的30个语义分割类别中的其他26个语义分割类别都可以转换为背景类别。即只需为道路场景透视图像语义分割数据集设计一个有5个类别的分割头,这五个类别分别为车、公交、行人、道路、背景。
接着,使用由未标注透视图像及对应的伪标注透视图像分别转换得到未标注鱼眼图像和未标注鱼眼图像,对上述设计的鱼眼图像语义分割模型进行第一遍模型的训练。未标注鱼眼图像对应的未标注鱼眼图像的标注结果,是通过透视图像语义分割模型预测得到的伪标注结果。其中,含有伪标注的图像中不同语义分割类别与类别的边缘区域上,语义分割类别预测的错误率可能比较高;所以会去掉伪标注鱼眼图像中包括的不同语义分割类别的边缘区域,只使用对应中心区域的预测结果来训练鱼眼图像语义分割模型。
与透视图像语义分割模型训练过程中使用数据的方式不同,鱼眼图像语义分割模型中,将伪标注鱼眼图像中包括的不同语义分割类别之间的边缘区域转换为不使用类别。特别的,不同语义分割类别之间的边缘区域,不能转换为背景类别。因为边缘区域在精确标注的情况下、为鱼眼图语义分割中需要识别的语义分割类别所有,所以只能将边缘区域转换为不使用类别。其中,和其他语义分割类别一样,只将伪标注鱼眼图像中背景类别的中心区域作为新的背景类别。例如,假设伪标注鱼眼图像中的数据只有背景、行人、车3个语义分割类别,加入不使用类别后,就变成了背景、行人、车、不使用4个语义分割类别,其中,不使用类别不会参与鱼眼语义分割模型损失值的计算。这一步的主要目的是为了让鱼眼语义分割模型能够识别更多的图像类别,增加模型的先验知识。因为用于融合的多个数据集,例如不同的道路场景透视图像语义分割数据集,通常是不同参数、配置的相机采集的。通过第一遍模型训练以后,鱼眼语义分割模型能识别到各种各样的数据,有利于在后续的步骤中融合多个转化得到的精确标注鱼眼图像集。
接着,基于透视图像转鱼眼图像的公式,将道路场景透视图像语义分割数据集中的精确标注透视图像集转为精准标注鱼眼图像集。
使用精准标注鱼眼图像集,第二遍训练鱼眼语义分割模型。第二次训练过程中,不需要去掉每个语义分割类别之间的边缘区域,因为精确标注透视图像,转换为鱼眼图像后同样为精确标注的。对于每个精准标注鱼眼图像集中没有使用的语义分割类别,直接转换为背景类别。即,每个精准标注鱼眼图像集对应的分割头都包含背景类别。
另外,在鱼眼图像语义分割模型的训练过程中,可以穿插一些去掉了边缘区域的伪标注鱼眼图像集进行训练。使鱼眼语义分割模型能够持续保持住泛化能力和融合多鱼眼图像数据集的能力。
最后,使用二次模型训练后得到的鱼眼语义分割模型进行语义分割的预测。如果鱼眼图像中的一个像素点,在多个分割头下被分配到了多个语义分割类别,就采用预测分数最高的那个语义分割类别,作为其最终的语义分割类别。尤其,如果鱼眼图像中的一个像素点,在不同的分割头下分别被分配到了背景类别和其他语义分割类别,则采用其他语义分割类别作为最终的语义分割类别,即背景类别的优先级最低。其中,其它语义分割类别为多个分割头中除背景类别外,需要在鱼眼图像上识别的语义分割类别。例如,鱼眼图像中一个像素点,在不同的鱼眼图像数据集的分割头中,分别被识别为背景类别和车类别,采用车类别作为该像素点最终的语义分割类别。
基于相同的构思,本公开实施例还提供一种语义分割装置。
图16是根据一示例性实施例示出的一种语义分割装置100的框图。参照图16,该语义分割装置100包括获取单元101、确定单元102和处理单元103。
该获取单元,用于获取多个透视图像语义分割数据集。
该确定单元,用于在多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集。
该处理单元,用于基于对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集;基于至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型;基于目标鱼眼图像语义分割模型,进行语义分割预测。
在一种实施方式中,处理单元103采用如下方式基于对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集:在至少一个透视图像语义分割数据集确定未标注透视图像集和精准标注透视图像集;对未标注透视图像集进行语义分割,得到未标注透视图像的伪标注透视图像集;将未标注透视图像集以及伪标注透视图像集中的透视图像,分别转换为鱼眼图像,得到第一鱼眼图像数据集,并将精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集;基于至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:基于第一鱼眼图像数据集和/或第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型。
在一种实施方式中,处理单元103采用如下方式基于第一鱼眼图像数据集和第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型:基于第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型;基于第二鱼眼图像数据集以及初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型。
在一种实施方式中,处理单元103采用如下方式基于第一鱼眼图像数据集,训练语义分割模型,得到初始鱼眼图像语义分割模型:确定第一鱼眼图像数据集中,基于伪标注透视图像集转换得到的伪标注鱼眼图像集,以及伪标注鱼眼图像集中包括的语义分割类别;确定伪标注鱼眼图像集中所包括的不同语义分割类别之间的边缘区域,并将边缘区域的语义分割类别转化为不使用类别;基于第一鱼眼图像数据集、伪标注鱼眼图像集中包括的语义分割类别以及不使用类别,训练语义分割模型,得到初始鱼眼图像语义分割模型。
在一种实施方式中,处理单元103采用如下方式基于第二鱼眼图像数据集以及初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型:确定第二鱼眼图像数据集中包括的语义分割类别;基于第二鱼眼图像数据集中包括的语义分割类别,优化初始鱼眼图像语义分割模型,得到目标鱼眼图像语义分割模型。
在一种实施方式中,处理单元103采用如下方式基于目标鱼眼图像语义分割模型,进行语义分割预测:获取未标注的鱼眼图像;基于目标鱼眼图像语义分割模型,确定进行语义分割预测得到的多个语义分割类别以及多个语义分割类别中各类别对应的语义分割类别分数;将多个语义分割类别中语义分割类别分数最高的语义分割类别,确定为语义分割预测结果。
图17是根据一示例性实施例示出的一种语义分割装置1000的框图。语义分割装置1000可以被提供为终端。例如,装置1000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图17,装置1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电力组件1006,多媒体组件1008,音频组件1010,输入/输出(I/ O)接口1012,传感器组件1014,以及通信组件1016。
处理组件1002通常控制装置1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在装置1000的操作。这些数据的示例包括用于在装置1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1006为装置1000的各种组件提供电力。电力组件1006可以包括电源管理系统,一个或多个电源,及其他与为装置1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在装置1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当装置1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当装置1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,用于输出音频信号。
I/ O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为装置1000提供各个方面的状态评估。例如,传感器组件1014可以检测到装置1000的打开/关闭状态,组件的相对定位,例如组件为装置1000的显示器和小键盘,传感器组件1014还可以检测装置1000或装置1000一个组件的位置改变,用户与装置1000接触的存在或不存在,装置1000方位或加速/减速和装置1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于装置1000和其他设备之间有线或无线方式的通信。装置1000可以接入基于通信标准的无线网络,如WIFI,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1004,上述指令可由装置1000的处理器1020执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一特征点集也可以被称为第二特征点集,类似地,第二特征点集也可以被称为第一特征点集。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种语义分割方法,其特征在于,所述方法包括:
获取多个透视图像语义分割数据集,并在所述多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集;
基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集;
基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型;
基于所述目标鱼眼图像语义分割模型,进行语义分割预测;
所述基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集,包括:
在所述至少一个透视图像语义分割数据集确定未标注透视图像集和精准标注透视图像集;
对所述未标注透视图像集进行语义分割,得到未标注透视图像的伪标注透视图像集;
将所述未标注透视图像集以及所述伪标注透视图像集中的透视图像,分别转换为鱼眼图像,得到第一鱼眼图像数据集,并将所述精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集;
所述基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:
基于所述第一鱼眼图像数据集和/或所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一鱼眼图像数据集和所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:
基于所述第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型;
基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型。
3.根据权利要求2所述的语义分割方法,其特征在于,所述基于所述第一鱼眼图像数据集,训练语义分割模型,得到初始鱼眼图像语义分割模型,包括:
确定所述第一鱼眼图像数据集中,基于伪标注透视图像集转换得到的伪标注鱼眼图像集,以及所述伪标注鱼眼图像集中包括的语义分割类别;
确定所述伪标注鱼眼图像集中所包括的不同语义分割类别之间的边缘区域,并将所述边缘区域的语义分割类别转化为不使用类别;
基于所述第一鱼眼图像数据集、所述伪标注鱼眼图像集中包括的语义分割类别以及所述不使用类别,训练语义分割模型,得到初始鱼眼图像语义分割模型。
4.根据权利要求2所述的语义分割方法,其特征在于,所述基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型,包括:
确定所述第二鱼眼图像数据集中包括的语义分割类别;
基于所述第二鱼眼图像数据集中包括的语义分割类别,优化所述初始鱼眼图像语义分割模型,得到目标鱼眼图像语义分割模型。
5.根据权利要求1所述的语义分割方法,其特征在于,所述基于所述目标鱼眼图像语义分割模型,进行语义分割预测,包括:
基于所述目标鱼眼图像语义分割模型,确定进行语义分割预测得到的多个语义分割类别以及所述多个语义分割类别中各类别对应的语义分割类别分数;
将所述多个语义分割类别中语义分割类别分数最高的语义分割类别,确定为语义分割预测结果。
6.一种语义分割装置,其特征在于,包括:
获取单元,用于获取多个透视图像语义分割数据集;
确定单元,用于在所述多个透视图像语义分割数据集中确定需进行鱼眼图像识别的语义分割类别,得到对应鱼眼图像的至少一个透视图像语义分割数据集;
处理单元,用于基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集;基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型;基于所述目标鱼眼图像语义分割模型,进行语义分割预测;
所述处理单元采用如下方式基于所述对应鱼眼图像的至少一个透视图像语义分割数据集,得到至少一个鱼眼图像数据集:
在所述至少一个透视图像语义分割数据集确定未标注透视图像集和精准标注透视图像集;
对所述未标注透视图像集进行语义分割,得到未标注透视图像的伪标注透视图像集;
将所述未标注透视图像集以及所述伪标注透视图像集中的透视图像,分别转换为鱼眼图像,得到第一鱼眼图像数据集,并将所述精准标注透视图像集中的透视图像转换为鱼眼图像,得到第二鱼眼图像数据集;
所述基于所述至少一个鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型,包括:
基于所述第一鱼眼图像数据集和/或所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型。
7.根据权利要求6所述的语义分割装置,其特征在于,所述处理单元采用如下方式基于所述第一鱼眼图像数据集和所述第二鱼眼图像数据集,训练得到目标鱼眼图像语义分割模型:
基于所述第一鱼眼图像数据集,训练得到初始鱼眼图像语义分割模型;
基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型。
8.根据权利要求7所述的语义分割装置,其特征在于,所述处理单元采用如下方式基于所述第一鱼眼图像数据集,训练语义分割模型,得到初始鱼眼图像语义分割模型:
确定所述第一鱼眼图像数据集中,基于伪标注透视图像集转换得到的伪标注鱼眼图像集,以及所述伪标注鱼眼图像集中包括的语义分割类别;
确定所述伪标注鱼眼图像集中所包括的不同语义分割类别之间的边缘区域,并将所述边缘区域的语义分割类别转化为不使用类别;
基于所述第一鱼眼图像数据集、所述伪标注鱼眼图像集中包括的语义分割类别以及所述不使用类别,训练语义分割模型,得到初始鱼眼图像语义分割模型。
9.根据权利要求7所述的语义分割装置,其特征在于,所述处理单元采用如下方式基于所述第二鱼眼图像数据集以及所述初始鱼眼图像语义分割模型,训练得到目标鱼眼图像语义分割模型:
确定所述第二鱼眼图像数据集中包括的语义分割类别;
基于所述第二鱼眼图像数据集中包括的语义分割类别,优化所述初始鱼眼图像语义分割模型,得到目标鱼眼图像语义分割模型。
10.根据权利要求6所述的语义分割装置,其特征在于,所述处理单元采用如下方式基于所述目标鱼眼图像语义分割模型,进行语义分割预测:
基于所述目标鱼眼图像语义分割模型,确定进行语义分割预测得到的多个语义分割类别以及所述多个语义分割类别中各类别对应的语义分割类别分数;
将所述多个语义分割类别中语义分割类别分数最高的语义分割类别,确定为语义分割预测结果。
11.一种语义分割装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至5中任意一项所述的语义分割方法。
12.一种存储介质,其特征在于,所述存储介质中存储有指令,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行权利要求1至5中任意一项所述的语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310001219.2A CN116152491B (zh) | 2023-01-03 | 2023-01-03 | 一种语义分割方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310001219.2A CN116152491B (zh) | 2023-01-03 | 2023-01-03 | 一种语义分割方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152491A CN116152491A (zh) | 2023-05-23 |
CN116152491B true CN116152491B (zh) | 2023-12-26 |
Family
ID=86340137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310001219.2A Active CN116152491B (zh) | 2023-01-03 | 2023-01-03 | 一种语义分割方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152491B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489366A (zh) * | 2020-04-15 | 2020-08-04 | 上海商汤临港智能科技有限公司 | 神经网络的训练、图像语义分割方法及装置 |
CN113865580A (zh) * | 2021-09-15 | 2021-12-31 | 北京易航远智科技有限公司 | 构建地图的方法、装置、电子设备及计算机可读存储介质 |
KR20220143326A (ko) * | 2021-04-16 | 2022-10-25 | 주식회사 에이치엘클레무브 | 실시간 픽셀 단위 기반 시맨틱 분할 장치 및 시스템 |
CN115456896A (zh) * | 2022-09-06 | 2022-12-09 | 东南大学 | 面向顶视鱼眼视觉任务的旋转卷积方法 |
CN115546273A (zh) * | 2022-11-09 | 2022-12-30 | 中国传媒大学 | 一种面向室内鱼眼图像的场景结构深度估计方法 |
-
2023
- 2023-01-03 CN CN202310001219.2A patent/CN116152491B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489366A (zh) * | 2020-04-15 | 2020-08-04 | 上海商汤临港智能科技有限公司 | 神经网络的训练、图像语义分割方法及装置 |
KR20220143326A (ko) * | 2021-04-16 | 2022-10-25 | 주식회사 에이치엘클레무브 | 실시간 픽셀 단위 기반 시맨틱 분할 장치 및 시스템 |
CN113865580A (zh) * | 2021-09-15 | 2021-12-31 | 北京易航远智科技有限公司 | 构建地图的方法、装置、电子设备及计算机可读存储介质 |
CN115456896A (zh) * | 2022-09-06 | 2022-12-09 | 东南大学 | 面向顶视鱼眼视觉任务的旋转卷积方法 |
CN115546273A (zh) * | 2022-11-09 | 2022-12-30 | 中国传媒大学 | 一种面向室内鱼眼图像的场景结构深度估计方法 |
Non-Patent Citations (2)
Title |
---|
ADAPTABLE DEFORMABLE CONVOLUTIONS FOR SEMANTIC SEGMENTATION OF FISHEYE IMAGES IN AUTONOMOUS DRIVING SYSTEMS;Clément Playout;《ResearchGate》;1-10 * |
基于生成对抗网络的极坐标域自监督径向畸变校正算法;薛松;《北京交通大学学报》;74-83 * |
Also Published As
Publication number | Publication date |
---|---|
CN116152491A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651955B (zh) | 图片中目标物的定位方法及装置 | |
CN109829501B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110647834B (zh) | 人脸和人手关联检测方法及装置、电子设备和存储介质 | |
US20210118112A1 (en) | Image processing method and device, and storage medium | |
CN110009090B (zh) | 神经网络训练与图像处理方法及装置 | |
US9924226B2 (en) | Method and device for processing identification of video file | |
US11288531B2 (en) | Image processing method and apparatus, electronic device, and storage medium | |
JP2022542668A (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
CN101288025B (zh) | 用于在取景器上展示图像聚焦信息的改进系统和方法 | |
US11138758B2 (en) | Image processing method and apparatus, and storage medium | |
US11450021B2 (en) | Image processing method and apparatus, electronic device, and storage medium | |
US11310443B2 (en) | Video processing method, apparatus and storage medium | |
CN108717542B (zh) | 识别文字区域的方法、装置及计算机可读存储介质 | |
CN111340048A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
AU2020323956B2 (en) | Image processing method and apparatus, electronic device, and storage medium | |
CN112532881A (zh) | 图像处理方法、装置和电子设备 | |
CN114677517A (zh) | 一种无人机用语义分割网络模型及图像分割识别方法 | |
CN108010009B (zh) | 一种去除干扰图像的方法及装置 | |
US11425299B2 (en) | Camera module, processing method and apparatus, electronic device, and storage medium | |
CN116152491B (zh) | 一种语义分割方法、装置及存储介质 | |
WO2021136979A1 (en) | Image processing method and apparatus, electronic device, and storage medium | |
WO2023155350A1 (zh) | 一种人群定位方法及装置、电子设备和存储介质 | |
US11252341B2 (en) | Method and device for shooting image, and storage medium | |
KR20140134844A (ko) | 객체 기반 사진 촬영 방법 및 장치 | |
CN114025100A (zh) | 拍摄方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |