CN116363362B - 图像语义分割方法、对象识别方法及计算设备 - Google Patents
图像语义分割方法、对象识别方法及计算设备 Download PDFInfo
- Publication number
- CN116363362B CN116363362B CN202310247517.XA CN202310247517A CN116363362B CN 116363362 B CN116363362 B CN 116363362B CN 202310247517 A CN202310247517 A CN 202310247517A CN 116363362 B CN116363362 B CN 116363362B
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- sample
- label
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 454
- 238000000034 method Methods 0.000 title claims abstract description 103
- 239000000523 sample Substances 0.000 claims abstract description 704
- 238000012549 training Methods 0.000 claims abstract description 262
- 239000013074 reference sample Substances 0.000 claims abstract description 79
- 238000009826 distribution Methods 0.000 claims description 50
- 238000010276 construction Methods 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 19
- 238000003672 processing method Methods 0.000 claims description 18
- 238000005520 cutting process Methods 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 36
- 238000012545 processing Methods 0.000 description 22
- 238000003062 neural network model Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 239000004575 stone Substances 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 101150038863 Lsamp gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例提供图像语义分割方法、对象识别方法及计算设备,其中所述图像语义分割方法包括:获取待分割图像,将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性。提升了训练样本的样本数量,保证了训练效果,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能和语义分割结果的准确度。
Description
技术领域
本说明书实施例涉及图像处理技术领域,特别涉及一种图像语义分割方法。
背景技术
随着计算机视觉图像处理技术的发展,语义分割技术广泛应用于医疗影像、地图、自动驾驶等多个领域,极大方便了人们的生产生活。利用语义分割模型,对待分割图像进行语义分割,得到对应的语义分割结果。
目前,语义分割模型是经过预先训练得到的,对样本图像进行语义类别标签标注后,利用标签样本图像对语义分割模型进行预先训练,可以保证训练得到的语义分割模型的模型性能,进而得到高准确度的语义分割结果。在实际应用中,对样本图像进行语义类别标签标注,需要消耗较高人工成本和时间成本,导致标签样本图像的数量较少,难以保证训练效果。需要结合上大量无标签样本图像构建训练样本集。
然而,无标签样本图像可能存在语义扩展的风险,即无标签样本图像包含预设语义类别之外的语义类别对应的图像内容,例如,训练得到的目标语义分割模型,应用于对待分割图像中“动物”语义类别的图像内容和图像内容对应的图像区域进行识别,预设语义类别为“动物”,若无标签样本图像中包含“植物”、“地貌”等其他语义类别的图像内容,会降低对语义分割模型的训练效果,降低训练得到的语义分割模型的模型性能,降低语义分割结果的准确度。如何将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,同时避免语义扩展的风险,保证得到的语义分割结果的准确度,是一个亟需解决的问题。
发明内容
有鉴于此,本说明书实施例提供了一种图像语义分割方法。本说明书一个或者多个实施例同时涉及一种对象识别方法,一种样本集构建方法,一种图像语义分割的数据处理方法,一种图像语义分割装置,一种对象识别装置,一种样本集构建装置,一种图像语义分割的数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
本说明书一个实施例提供了一种图像语义分割方法,包括:
获取待分割图像;
将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性。
本说明书一个或多个实施例中,获取待分割图像,将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性。训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,实现了将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,语义类别标签是根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定的,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能,保证了得到语义分割结果的准确度。
附图说明
图1是本说明书一个实施例提供的一种图像语义分割方法的流程图;
图2是本说明书一个实施例提供的另一种图像语义分割方法的流程图;
图3是本说明书一个实施例提供的一种地形分割方法的流程图;
图4是本说明书一个实施例提供的一种对象识别方法的流程图;
图5是本说明书一个实施例提供的一种样本集构建方法的流程图;
图6是本说明书一个实施例提供的一种图像语义分割的数据处理方法的流程图;
图7是本说明书一个实施例提供的一种图像语义分割方法的流程示意图;
图8是本说明书一个实施例提供的一种图像语义分割方法的前端显示示意图;
图9是本说明书一个实施例提供的一种应用于自动驾驶的道路图像的图像语义分割方法的处理过程流程图;
图10是本说明书一个实施例提供的一种图像语义分割装置的结构示意图;
图11是本说明书一个实施例提供的另一种图像语义分割装置的结构示意图;
图12是本说明书一个实施例提供的一种地形分割装置的结构示意图;
图13是本说明书一个实施例提供的一种对象识别装置的结构示意图;
图14是本说明书一个实施例提供的一种样本集构建装置的结构示意图;
图15是本说明书一个实施例提供的一种图像语义分割的数据处理装置的结构示意图;
图16是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
语义分割(图像语义分割):识别图像中语义类别对应的图像内容及图像内容对应的图像区域,并在输出语义分割结果时,对不同语义类别对应图像内容的图像区域进行突出显示。
OOD语义类别(Out Of Distribution,分布外语义类别):预设语义类别之外的语义类别,通过添加包含OOD语义类别的样本图像,会引入语义扩展的风险,影响对语义分割模型的训练效果。
FCN模型(Fully Convolution Network,全卷积神经网络模型):一种具有一次前向传播机制和全连接形式的卷积层的神经网络模型。
U-Net模型(U型神经网络模型):一种采用拼接的方式融合深浅层特征的U型(编码层尺寸递减和解码层尺寸递增)的神经网络模型。
OCRNet模型(Object-Contextual Representations,对象上下文表征模型):一种包含软对象区域(Soft Object Regions)、物体区域表示(Object RegionRepresentations)、对象上下文表示和增强表示模块的神经网络模型。
VGG模型(Visual Geometry Group Network,视觉几何群网络模型):一种具有小卷积层、小池化层、层数更深特征图更宽特点的神经网络模型。
VIT模型(Vision Transformer,视觉翻译模型):一种针对于视觉图像处理的翻译模型,具有视觉注意力机制。
ResNet模型:一种具有超多层网络结构和残差处理模块的神经网络模型。包括ResNet-50,ResNet-101等。
语义类别:根据图像内容的属性特征设置的语义表征类别。例如,图像内容的轮廓或者颜色呈现为树木外观特征,则其对应的语义类别为“树木”。
硬标签:类别数量少的类别标签,一般为整数,对应的计算量较小,例如,热码标签(One-Hot标签)。
软标签:类别数量多的类别标签,一般为浮点数,对应的计算量较大。
监督训练:利用标注有标签的样本数据对神经网络模型进行训练的方式。
半监督训练:利用标注有标签的样本数据和未标注标签的样本数据对神经网络模型进行训练的方式,具体是对未标注标签的样本数据标注伪标签来实现。
在本说明书中,提供了一种图像语义分割方法,本说明书同时涉及一种对象识别方法,一种样本集构建方法,一种图像语义分割的数据处理方法,一种图像语义分割装置,一种对象识别装置,一种样本集构建装置,一种图像语义分割的数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种图像语义分割方法的流程图,包括如下具体步骤:
步骤102:获取待分割图像。
本说明书实施例应用于具有语义分割功能的应用、网页或者小程序等平台的客户端或者服务端,在此不作限定。
待分割图像为包含至少一种语义类别对应的图像内容的图像,待分割图像中的至少一种图像内容呈空间分布于不同的图像区域,待分割图像为特定色彩空间下的图像,例如,RGB(Red-Green-Bl ue,红绿蓝色彩空间)图像,HIS(Hue-Saturat ion-I ntens ity,色调、饱和度和亮度色彩空间)图像,YUV(亮度色度色彩空间)图像和YCbCr(亮度偏移度色彩空间)图像等。待分割图像可以为采集设备采集得到的图像,例如,医疗光学采集设备采集得到的医疗图像,光学传感器采集得到的道路图像,遥感采集设备采集得到的遥感图像,光学拍摄设备采集的人物图像、风景图像等,也可以为人工生成的图像,还可以为利用图像生成模型生成的图像,在此不作限定。
获取待分割图像,可以接收用户通过客户端的前端发送得到的,也可以为从图像数据库中获取得到的,图像数据库可以为本地数据库也可以为远程数据库,例如,云端数据库或者开源数据库等,还可以为接收采集设备上传得到的,在此不作限定。
示例性地,接收用户通过医疗图像语义分割应用的客户端的前端上传的医疗图像Image,医疗图像Image中包含多种“器官”语义类别的图像内容。
获取待分割图像,为后续进行语义分割奠定了图像数据基础。
步骤104:将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性。
目标语义分割模型为具有语义分割功能的神经网络模型,例如,FCN模型,U-Net模型,OCRNet模型,ViT模型、VGG模型和ResNet模型等。目标语义分割模型具有对预设语义类别对应的图像内容进行识别和图像区域分割功能。
待分割图像的语义分割结果为对待分割图像中预设语义类别对应的图像内容进行识别,并对图像内容对应的图像区域进行突出显示的图像。其中,图像区域是以像素点为单位的像素点连续区域,任一图像区域中包括至少一个像素点。其中,突出显示可以为利用文本进行标注显示,也可以为利用矩形框进行框选,还可以为对图像区域进行不同颜色渲染的突出显示,在此不作限定。例如,待分割图像中包括有“树木”、“石头”、“天空”和“水域”的语义类别对应的图像内容,其中,“树木”图像内容对应的图像区域位于待分割图像的左下角,“石头”图像内容对应的图像区域位于待分割图像的右下角,“天空”图像内容对应的图像区域位于待分割图像的正上方,“水域”图像内容对应的图像区域位于待分割图像的中间,通过对待分割图像进行语义分割后,待分割图像的左下角“树木”图像内容对应的图像区域进行黄色渲染,右下角“石头”图像内容对应的图像区域进行蓝色渲染,正上方“天空”图像内容对应的图像区域进行红色渲染,中间“水域”图像内容对应的图像区域进行紫色渲染。
图像特征为图像上图像区域的编码特征向量。
参考语义分割模型为具有语义分割功能的神经网络模型,参考语义分割模型通过对输入的图像进行图像特征编码,得到图像特征,再根据图像特征确定对应的语义类别,利用语义类别标签对图像进行标注。参考语义分割模型可以与目标语义分割模型是同一类型的神经网络模型,也可以为不同类型的神经网络模型,出于实际应用的算力约束,参考语义分割模型的模型参数量大于目标语义分割模型,利用参考语义分割模型参与训练目标语义分割模型的训练方式为蒸馏学习,即通过预训练的监督模型对目标模型进行训练的方式。
语义类别标签为对图像特征和各语义类别对应的特征阈值进行比较后,确定的语义类别对应的标签,语义类别标签可以为软标签,也可以为硬标签,在此不作限定。
特征阈值为各语义类别对应的图像特征的特征阈值,特征阈值是参考语义模型对标注有语义类别标签的标签样本图像进行编码后,对编码得到的标签样本图像的图像特征按照语义类别进行统计确定的,可以表征参考语义分割模型对各语义类别的图像编码特性。
将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,具体方式为,将待分割图像输入预先训练的目标语义分割模型,确定待分割图像的各图像区域对应的语义类别,得到待分割图像的语义分割结果。
示例性地,将医疗图像Image输入预先训练的ResNet模型,确定医疗图像的各图像区域对应的“器官”语义类别:左上角“心脏”,正上方“肺部”,中间“肝脏”“胃部”,正下方“肠道”,对应进行不同颜色的渲染来突出显示,得到医疗图像Image的“器官”语义分割结果。
本说明书实施例中,获取待分割图像,将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性。训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,实现了将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,语义类别标签是根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定的,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能,保证了得到语义分割结果的准确度。
可选地,在步骤104之前,还包括如下具体步骤:
获取样本集,其中,样本集包括标签样本图像和无标签样本图像,标签样本图像标注有对应的语义类别标签;
将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征,其中,参考语义分割模型是预先通过监督训练得到的;
针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值;
将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征;
根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像;
根据标签样本图像和参考样本图像,构建得到训练样本集;
利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型。
样本集为预先构建的样本图像的集合,包括多个样本图像,样本图像中包含有至少一种语义类别对应的图像内容,样本图像分为标注有语义类别标签的标签样本图像和未标注有语义类别标签的无标签样本图像,标注在标签样本图像的语义类别标签与目标语义分割模型的预设语义类别相对应,例如,目标语义分割模型为对“动物”语义类别进行语义分割,则标注在标签样本图像的语义类别标签为“动物”语义类别标签。标签样本图像上的语义类别标签可以为人工标注,也可以为利用语义实体标注算法进行标注,实体标注算法为基于像素层级的图像区域分类标注方法。样本图像为采集设备采集得到的图像,也可以为人工生成的图像,在此不作限定。标签样本数据可以为基于预先的语义分割结果确定的,也可以为通过开源数据库对应获取得到的,还可以为人工标注后得到的,在此不作限定。无标签样本图像为通过开源数据库对应获取得到的,例如,样本图像数据库,在线图像平台的图像数据库等。由于标签样本图像的标签标注的高人工成本和高时间成本,其数量较少,一般地,样本集中无标签样本图像的数量远大于标签样本图像的数量。
参考语义分割模型可以为利用样本集中的标签样本图像进行训练后得到的,也可以为从语义分割模型数据库中直接获取得到的,在此不作限定。
参考样本图像为对无标签样本图像进行语义类别标签标注后得到的标签样本图像,具体可以为对无标签样本图像的各图像区域进行对应的语义类别标签标注得到的,包含多个不同语义类别标签对应的图像区域,也可以为对无标签样本图像的各图像区域进行对应的语义类别标签标注后裁切得到的,只包含一个语义类别标签对应的图像区域,在此不作限定。
标签样本图像的图像特征为对标签样本图像的图像区域进行图像特征编码得到的图像特征,无标签样本图像的图像特征为对无标签样本图像的图像区域进行图像特征编码得到的图像特征。标签样本图像的语义类别标签为对标签样本图像的各图像区域对应的语义类别标签,无标签样本图像的语义类别标签为无标签样本图像的各图像区域对应的语义类别标签。
根据标签样本图像的图像特征,计算得到图像特征的特征分布值,具体方式为,对标签样本图像的图像特征的分布进行统计,计算得到图像特征的特征分布值。
根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,具体方式为,将无标签样本图像的图像特征和各语义类别对应的特征阈值进行比较,确定无标签样本图像对应的语义类别。
根据标签样本图像和参考样本图像,构建得到训练样本集,具体方式为,从标签样本图像和参考样本图像中确定目标语义类别分布的样本图像,构建得到训练样本集,其中,目标语义类别分布为符合语义类别的样本数量约束的样本分布。目标语义类别分布是根据目标语义分割模型的应用需求确定的,例如,目标语义分割模型需要对“动物”语义类别的图像内容更为敏感,对“植物”语义类别的图像内容不敏感,则从“动物”语义类别的样本图像中抽取10000张样本图像,从“植物”语义类别的样本图像中抽取1000张样本图像,构建得到训练样本集,又例如,目标语义分割模型需要对“动物”和“植物”语义类别的图像内容同样敏感,则从“动物”语义类别的样本图像中抽取10000张样本图像,从“植物”语义类别的样本图像中抽取10000张样本图像。
利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型,具体方式为,利用训练样本集,对目标语义分割模型进行半监督训练,得到训练完成的目标语义分割模型。从训练样本集提取第一样本图像,其中,第一样本图像为任一样本图像,将第一样本图像输入目标语义分割模型,得到预测语义分割结果,根据预测语义分割结果和第一样本图像的语义类别标签,计算得到损失值,根据损失值调整目标语义分割模型的模型参数,返回执行从训练样本集提取第一样本图像的步骤,直至满足预设训练结束条件,得到训练完成目标语义分割模型。其中,损失值可以为余弦损失值、L1损失值、L2损失值、交叉熵损失值等。对模型参数的调整方式为利用梯度更新算法进行调整。预设训练结束条件为预先训练完成的判断条件,可以为预设损失值阈值,也可以为预设迭代次数,还可以为各语义类别的样本训练数量阈值,在此不作限定。
示例性地,获取样本集SampleSet,将标签样本图像LabelSampleImage输入预先通过监督训练得到的ResNet模型,编码得到标签样本图像LabelSampleImage的图像特征Feature_LabelSampleImage,针对任一语义类别Semantic_i,对标签样本图像的图像特征Feature_LabelSampleImage的分布进行统计,计算得到图像特征的特征分布值FeatureDistribution,并根据特征分布值FeatureDistribution,确定该语义类别Semantic_i的特征阈值FeatureThreshold,将无标签样本图像UnlabelSampleImage输入预先通过监督训练得到的ResNet模型,编码得到无标签样本图像UnlabelSampleImage的图像特征Feature_UnlabelSampleImage,将无标签样本图像的图像特征Feature_UnlabelSampleImage和各语义类别Semantic_i(i∈[1,N])对应的特征阈值FeatureThreshold进行比较,确定无标签样本图像UnlabelSampleImage对应的语义类别TargetSemantic,并对无标签样本图像UnlabelSampleImage进行语义类别标签标注,得到参考样本图像FakelabelSampleImage,从标签样本图像LabelSampleImage和参考样本图像FakelabelSampleImage中确定目标语义类别分布的样本图像SampleImage,构建得到训练样本集TrainSampleSet,利用训练样本集TrainSampleSet,对目标ResNet模型进行半监督训练,得到训练完成的目标ResNet模型。
获取样本集,其中,样本集包括标签样本图像和无标签样本图像,标签样本图像标注有对应的语义类别标签,将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征,其中,参考语义分割模型是预先通过监督训练得到的,针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值,将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征,根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型。利用监督训练得到的参考语义分割模型对标签样本图像进行编码,并根据编码得到的图像特征计算得到特征分布值,确定各语义类别对应的特征阈值,特征阈值准确地表征了参考语义分割模型对各语义类别的图像编码特性,利用参考语义分割模型对无标签样本图像编码得到图像特征,根据图像特征和各语义类别对应的特征阈值确定对应的语义类别标签,利用语义类别标签对开源图像进行标注得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,在提升了训练样本的样本数量的同时,避免了语义扩展的风险,得到高质量的目标语义分割模型的训练样本集,保证了对目标语义分割模型的训练效果,保证了训练得到目标语义分割模型的模型性能,保证了后续得到语义分割结果的准确度。
可选地,对无标签样本图像进行语义类别标签标注,得到参考样本图像,包括如下具体步骤:
利用语义类别标签对无标签样本图像的对应图像区域进行标注,并根据语义类别标签,对无标签样本图像进行裁切,得到参考样本图像。
需要说明的是,得到语义类别标签后,需要利用语义类别标签,对无标签样本图像的对应图像区域进行标注,例如,无标签样本图像为一张风景图像,其中包括有“树木”、“石头”、“天空”和“水域”的语义类别对应的图像内容,对应在不同的图像区域,在确定各图像区域对应的语义类别(树木、石头、天空、水域)后,利用对应的语义类别标签对对应的图像区域进行标注,并根据语义类别标签,对无标签样本图像进行裁切,得到4张参考样本图像:树木样本图像、石头样本图像、石头样本图像和水域样本图像。
根据语义类别标签,对无标签样本图像进行裁切,得到参考样本图像,具体方式为,根据语义类别标签,利用裁切工具对无标签样本图像进行裁切,得到参考样本图像。其中,裁切工具为利用掩码对非目标图像区域进行遮掩,实现对目标图像区域的裁切,得到对应的参考样本图像。
示例性地,利用语义类别标签SemanticLabel_i(i∈[1,K])对无标签样本图像UnlabelSampleImage的对应图像区域进行标注,并根据语义类别标签SemanticLabel_i(i∈[1,K]),利用裁切工具对无标签样本图像进行裁切,得到K个参考样本图像。
利用语义类别标签对无标签样本图像的对应图像区域进行标注,并根据语义类别标签,对无标签样本图像进行裁切,得到参考样本图像,实现了对无标签样本图像的细致划分,得到对应语义类别的参考样本图像,提升了目标语义分割模型后续对各语义类别的区分性。
可选地,根据标签样本图像和参考样本图像,构建得到训练样本集,包括如下具体步骤:
根据各语义类别对应的样本图像,得到各语义类别和样本图像之间的索引;
根据索引,从各语义类别中抽取目标数量的样本图像,得到训练样本集,其中,目标数量满足语义类别的样本数量均衡约束。
对于语义分割模型的训练,为了保证训练得到的语义分割模型对不同语义类别的图像内容的识别敏感度不出现较大差异,需要在构建训练样本集时保证训练样本集中各语义类别的样本图像数量分布具有均衡约束,来保证对语义分割模型的训练效果,进而保证训练得到语义分割模型的模型性能。例如,语义类别1对应的样本图像数量为10000,语义类别2对应的样本图像数量为12000是满足约束的,语义类别2对应的样本图像数量为30是不满足约束的。
各语义类别和样本图像之间的索引为记录有各语义类别和对应的样本图像的标识信息的索引信息。例如,标注有“动物”语义类别标签的样本图像有图像1、图像3和图像7,则索引为:“动物”语义类别-图像1、图像2、图像7。
语义类别的样本数量均衡为预先设置的各语义类比对应的样本图像符合数量均衡的约束条件。
根据各语义类别对应的样本图像,得到各语义类别和样本图像之间的索引,具体方式为,根据各语义类别对应的样本图像的标识信息,确定各语义类别和样本图像之间的索引。
示例性地,根据各语义类别Semantic_i(i∈[1,N])对应的样本图像SampleImage(标签样本图像LabelSampleImage和参考样本图像FakelabelSampleImage)的标识信息ImageID,确定各语义类别Semantic_i(i∈[1,N])和样本图像SampleImage之间的索引Index,根据索引Index,从各语义类别Semantic_i(i∈[1,N])中抽取1000个样本图像TargetSampleImage,得到训练样本集TrainSampleSet。
根据各语义类别对应的样本图像,得到各语义类别和样本图像之间的索引,根据索引,从各语义类别中抽取目标数量的样本图像,得到训练样本集,其中,目标数量满足语义类别的样本数量均衡约束。进一步保证对语义分割模型的训练效果,进一步保证训练得到语义分割模型的模型性能,进一步保证了得到语义分割结果的准确度,同时,根据索引来抽取样本图像,构建得到训练样本集,提升了训练样本集的构建效率。
可选地,获取样本集,包括如下具体步骤:
获取第一样本集和第二样本集,其中,第一样本集包括标签样本图像和无标签样本图像,第二样本集包括多个无标签样本图像,第一样本集满足语义类别的样本数量均衡约束;
从第二样本集中提取至少一个无标签样本图像,并将至少一个无标签样本图像添加至第一样本集中,得到样本集。
由于需要满足语义类别的样本数量均衡约束,因而,第一样本集的样本图像的总数量有限,直接利用第一样本集对目标语义模型进行训练,训练效果不足,因而需要在第一样本集的基础上进行样本扩充。
第一样本集为满足语义类别的样本数量均衡约束的封闭样本集,第一样本集包括标签样本图像和无标签样本图像。
第二样本集为一种包含大量无标签样本图像的开放样本集,第二样本集可以为开源图像数据库中的图像数据集,其中,开源图像数据库可以为开源样本图像数据库,也可以为图像应用、程序或者小程序上的图像数据库,第二样本集也可以为人工生成的图像数据集,还可以为利用图像生成模型生成的图像数据集,在此不作限定。例如,利用图像数据获取工具,从某图片网站的图像数据库中在线获取10000张图像。
示例性地,获取第一样本集SampleSet1和第二样本集SampleSet2,从第二样本集SampleSet2中提取10000个无标签样本图像UnlabelSampleImage_i(i∈[1,10000]),并将10000个无标签样本图像UnlabelSampleImage_i(i∈[1,10000])添加至第一样本集SampleSet1中,得到样本集SampleSet。
获取第一样本集和第二样本集,其中,第一样本集包括标签样本图像和无标签样本图像,第二样本集包括多个无标签样本图像,第一样本集满足语义类别的样本数量均衡约束,从第二样本集中提取至少一个无标签样本图像,并将至少一个无标签样本图像添加至第一样本集中,得到样本集。提升了样本集的样本图像数量,进一步保证对语义分割模型的训练效果,进一步保证训练得到语义分割模型的模型性能,进一步保证了得到语义分割结果的准确度。
可选地,针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,包括如下具体步骤:
针对任一语义类别,根据标签样本图像的图像特征,计算得到该语义类别的图像特征的特征平均值;
根据特征平均值,计算得到特征标准差;
根据特征平均值和特征标准差,计算得到图像特征的特征分布值。
图像特征的特征平均值为编码特征向量的向量平均值。
针对任一语义类别,根据标签样本图像的图像特征,计算得到该语义类别的图像特征的特征平均值,具体方式为,根据标签样本图像的各图像区域的图像特征,计算得到该语义类别的图像特征的特征平均值。具体的计算公式如公式1所示:
其中,μc表征c语义类别的图像特征的平均值,i表征第i个无标签样本图像,h表征无标签样本图像上的第h行像素点,w表征无标签样本图像上第w行像素点,表征第i个无标签样本图像上第h行第w列的像素点的语义类别,/>表征第i个无标签样本图像上第h行第w列的像素点的语义类别为c,则有效,反之,则无效(为0),/>表征第i个无标签样本图像上第h行第w列的像素点的图像特征。
根据特征平均值,计算得到特征标准差,具体方式为,根据图像特征和特征平均值,计算得到特征方差,根据特征方差,确定特征标准差。具体的特征方差的计算公式如公式2所示:
其中,为特征方差,σc为特征标准差。
根据特征平均值和特征标准差,计算得到图像特征的特征分布值,具体方式为,根据特征平均值和特征标准差,利用预设特征分布计算公式,计算得到图像特征的特征分布值。其中,预设特征分布计算公式可以为特征平均值与特征标准差加减形式的公式,例如,μc±nσc,其中n为任意正数,对应的特征阈值为[μc-nσc,μc+nσc],当无标签样本图像的图像特征在这一区间,确定该无标签样本图像的语义类别为c。预设特征分布计算公式还可以为标准正态分布计算公式,具体如公式3所示:
其中,Sh,w为第h行第w列的像素点的特征分布值,Lh,w表征第h行第w列的像素点的图像特征,表征第h行第w列的像素点的图像特征的特征平均值,/>表征第h行第w列的像素点的图像特征的特征标准差。
示例性地,针对任一语义类别Semant ic_i,根据标签样本图像的各图像区域的图像特征Feature_Labe lSamp leImage,计算得到该语义类别Semant ic_i的图像特征的特征平均值Mean,根据特征平均值Mean,计算得到特征标准差STD,根据特征平均值Mean和特征标准差STD,计算得到图像特征的特征分布值FeatureDi str ibut ion。
针对任一语义类别,根据标签样本图像的图像特征,计算得到该语义类别的图像特征的特征平均值,根据特征平均值,计算得到特征标准差,根据特征平均值和特征标准差,计算得到图像特征的特征分布值。提升了特征分布值的准确度,进而确定的无标签样本图像对应的语义类别的准确度,进一步避免了语义扩展的风险,进一步保证了对目标语义分割模型的训练效果,进一步保证了训练得到目标语义分割模型的模型性能,进一步保证了后续得到语义分割结果的准确度。
可选地,在将无标签样本图像输入语义分割模型,编码得到无标签样本图像的各图像区域的图像特征之前,还包括如下具体步骤:
对无标签样本图像进行缩放处理和/或翻转处理,并将处理后的无标签样本图像添加至样本集中。
缩放处理为对无标签样本图像的图像尺寸进行缩小或者放大的操作处理。
翻转处理为对无标签样本图像进行图像旋转或者镜像翻转的操作处理。
通过对无标签样本图像的缩放处理和/或翻转处理,进一步扩展了样本集的样本图像数量,提升了对目标语义分割模型的训练效果。
示例性地,对无标签样本图像UnlabelSampleImage进行缩放处理和/或翻转处理,并将处理后的无标签样本图像UnlabelSampleImage’添加至样本集SampleSet中。
对无标签样本图像进行缩放处理和/或翻转处理,并将处理后的无标签样本图像添加至样本集中。扩展了样本集的样本图像数量,保证了后续的更大规模的训练样本集,提升了对目标语义分割模型的训练效果,进一步保证了训练得到目标语义分割模型的模型性能,进一步保证了后续得到语义分割结果的准确度。
可选地,标签样本图像为多个标签样本图像;
对应地,在将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征之前,还包括如下具体步骤:
从多个标签样本图像中提取第一标签样本图像,其中,第一标签样本图像为多个标签样本图像中任一个;
利用参考语义分割模型,对第一标签样本图像进行语义分割,得到第一标签样本图像对应的预测语义类别;
根据预测语义类别和第一标签样本图像对应的语义类别标签,计算得到交叉熵损失值;
根据交叉熵损失值,调整参考语义分割模型的模型参数,返回执行从多个标签样本图像中提取第一标签样本图像的步骤,直至满足预设训练结束条件,得到监督训练完成的参考语义分割模型。
利用标签样本图像对参考语义分割模型进行监督预训练,保证了参考语义分割模型的模型性能,在后续对无标签样本图像进行准确的图像特征编码。
预测语义类别为预测得到的第一标签样本图像的图像内容的语义类别。
预设训练结束条件为预训练完成的判断条件,可以为预设损失值阈值,也可以为预设迭代次数,还可以为各语义类别的样本训练数量阈值,在此不作限定。
交叉熵损失值的具体计算公式如公式4所示:
其中,Loss表征交叉熵损失值,为第j个标签样本图像的第h行第w列的像素点的语义类别标签,/>为第j个标签样本图像的第h行第w列的像素点的预测语义类别。
根据交叉熵损失值,调整参考语义分割模型的模型参数,具体方式为,根据交叉熵损失值,利用梯度更新法调整参考语义分割模型的模型参数。
示例性地,从多个标签样本图像LabelSampleImage_j(j∈[1,M])中提取第一标签样本图像LabelSampleImage_1,利用ResNet模型,对第一标签样本图像LabelSampleImage_1进行语义分割,得到第一标签样本图像LabelSampleImage_1对应的预测语义类别PredSemantic_1,根据预测语义类别PredSemantic_1和第一标签样本图像对应的语义类别标签LabelSemantic_1,利用公式4计算得到交叉熵损失值Loss,根据交叉熵损失值Loss,调整ResNet模型的模型参数,返回执行从多个标签样本图像LabelSampleImage_j(j∈[1,M])中提取第一标签样本图像LabelSampleImage_1的步骤,直至满足预设损失值阈值,得到监督训练完成的ResNet模型。
从多个标签样本图像中提取第一标签样本图像,其中,第一标签样本图像为多个标签样本图像中任一个,利用参考语义分割模型,对第一标签样本图像进行语义分割,得到第一标签样本图像对应的预测语义类别,根据预测语义类别和第一标签样本图像对应的语义类别标签,计算得到交叉熵损失值,根据交叉熵损失值,调整参考语义分割模型的模型参数,返回执行从多个标签样本图像中提取第一标签样本图像的步骤,直至满足预设训练结束条件,得到监督训练完成的参考语义分割模型。保证了参考语义分割模型的模型性能,在后续对无标签样本图像进行准确的图像特征编码,避免了语义扩展的风险,进一步保证了训练效果,进一步保证了训练得到的目标语义分割模型的模型性能,进一步保证了得到语义分割结果的准确度。
参见图2,图2示出了本说明书一个实施例提供的另一种图像语义分割方法的流程图,该方法应用于云侧设备,包括如下具体步骤:
步骤202:接收端侧设备发送的语义分割请求,其中,语义分割请求携带有待分割图像;
步骤204:将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性;
步骤206:将语义分割结果发送给端侧设备进行渲染。
云侧设备为提供语义分割功能的网络云侧设备,为一种虚拟设备。端侧设备为提供语义分割功能的应用、网页或小程序等平台的客户端或服务端所在的终端设备,是一种实体设备。云侧设备和端侧设备通过网络传输信道连接,进行数据传输。云侧设备的算力性能高于端侧设备。
步骤202和步骤204已在图1实施例的步骤102和步骤104中详细说明,在此不再赘述。
端侧设备通过渲染器实现对语义分割结果的渲染。
本说明书实施例中,接收端侧设备发送的语义分割请求,其中,语义分割请求携带有待分割图像,将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性,将语义分割结果发送给端侧设备进行渲染。训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,实现了将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,语义类别标签是根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定的,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能,保证了得到语义分割结果的准确度,将高准确度的语义分割结果发送给端侧设备进行渲染,提升了用户体验,同时,上述语义分割过程在云侧设备实现,为端侧设备节省了算力成本,提升了语义分割的效率。
参见图3,图3示出了本说明书一个实施例提供的一种地形分割方法的流程图,包括如下具体步骤:
步骤302:获取待分割图像,其中,待分割图像中包含多个地形对象。
步骤304:将待分割图像输入预先训练的目标地形分割模型,得到待分割图像的地形分割结果,其中,目标地形分割模型的训练样本包括利用通过监督训练的参考地形分割模型对无标签样本地形图像进行语义分割后标注地形类别标签的参考样本地形图像,地形类别标签根据无标签样本地形图像的图像特征和各地形类别对应的特征阈值确定,特征阈值表征参考地形分割模型对各地形类别的图像编码特性。
本说明书实施例应用于具有地形分割功能的应用、网页或者小程序等平台的客户端或者服务端,在此不作限定。
待分割图像为包含至少一种地形类别对应的图像内容的图像,例如,遥感采集设备采集得到的遥感图像,光学传感器采集得到的道路图像。地形对象为物理场景中的地形对象,在待分割图像中具有对应的图像内容。例如,待分割图像为道路图像,道路图像中包括交通指示灯、建筑物、机动车道、人行道等多种地形类型对应的图像内容。
目标语义分割模型为具有针对于地形图像的语义分割功能的神经网络模型,例如,FCN模型,U-Net模型,OCRNet模型,ViT模型、VGG模型和ResNet模型等。参考语义分割模型为具有针对于地形图像的语义分割功能的神经网络模型,参考地形分割模型可以与目标地形分割模型是同一类型的神经网络模型,也可以为不同类型的神经网络模型,出于实际应用的算力约束,参考地形分割模型的模型参数量大于目标地形分割模型,利用参考地形分割模型参与训练目标地形分割模型的训练方式为蒸馏学习,即通过预训练的监督模型对目标模型进行训练的方式。
步骤302和步骤304与上述图1实施例中的步骤102和步骤104具有相同的发明构思,具体方式参照步骤102和步骤104,在此不再赘述。
本说明书实施例中,获取待分割图像,其中,待分割图像中包含多个地形对象,将待分割图像输入预先训练的目标地形分割模型,得到待分割图像的地形分割结果,其中,目标地形分割模型的训练样本包括利用通过监督训练的参考地形分割模型对无标签样本地形图像进行语义分割后标注地形类别标签的参考样本地形图像,地形类别标签根据无标签样本地形图像的图像特征和各地形类别对应的特征阈值确定,特征阈值表征参考地形分割模型对各地形类别的图像编码特性。训练样本包括利用通过监督训练的参考地形分割模型对无标签样本图像进行语义分割后标注地形类别标签的参考样本地形图像,实现了将无标签样本地形图像引入训练样本集中,得到大规模的训练样本集来对目标地形分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,地形类别标签是根据无标签样本地形图像的图像特征和各地形类别对应的特征阈值确定的,特征阈值表征了参考地形分割模型对各地形类别的图像编码特性,避免了地形语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标地形分割模型的模型性能,保证了得到地形分割结果的准确度。
参见图4,图4示出了本说明书一个实施例提供的一种对象识别方法的流程图,包括如下具体步骤:
步骤402:获取待识别图像。
步骤404:将待识别图像输入预先训练的目标对象识别模型,得到待识别图像的对象识别结果,其中,目标对象识别模型的训练样本包括利用通过监督训练的参考对象识别模型对无标签样本图像进行对象识别后标注对象类别标签的参考样本图像,对象类别标签根据无标签样本图像的图像特征和各对象类别对应的特征阈值确定,特征阈值表征参考对象识别模型对各对象类别的图像编码特性。
本说明书实施例应用于具有对象识别功能的应用、网页或者小程序等平台的客户端或者服务端,在此不作限定。
待识别图像为包含至少一种对象类别对应的图像内容的图像,医疗光学采集设备采集得到的医疗图像,光学传感器采集得到的道路图像,遥感采集设备采集得到的遥感图像,光学拍摄设备采集的人物图像、风景图像等,也可以为人工生成的图像,还可以为利用图像生成模型生成的图像,在此不作限定。识别对象为图像中的虚拟对象,在待识别图像中具有对应的图像内容。例如,待分割图像为动漫图像,动漫图像中包括不同动漫人物的对象类型对应的图像内容。
目标对象识别模型为具有对象识别功能的神经网络模型,例如,FCN模型,U-Net模型,OCRNet模型,ViT模型、VGG模型和ResNet模型等。参考对象识别模型为具有对象识别功能的神经网络模型,参考对象识别模型可以与目标对象识别模型是同一类型的神经网络模型,也可以为不同类型的神经网络模型,出于实际应用的算力约束,参考对象识别模型的模型参数量大于目标对象识别模型,利用参考对象识别模型参与训练目标对象识别模型的训练方式为蒸馏学习,即通过预训练的监督模型对目标模型进行训练的方式。
步骤402和步骤404与上述图1实施例中的步骤102和步骤104具有相同的发明构思,具体方式参照步骤102和步骤104,在此不再赘述。
本说明书实施例中,获取待识别图像,将待识别图像输入预先训练的目标对象识别模型,得到待识别图像的对象识别结果,其中,目标对象识别模型的训练样本包括利用通过监督训练的参考对象识别模型对无标签样本图像进行对象识别后标注对象类别标签的参考样本图像,对象类别标签根据无标签样本图像的图像特征和各对象类别对应的特征阈值确定,特征阈值表征参考对象识别模型对各对象类别的图像编码特性。训练样本包括利用通过监督训练的参考对象识别模型对无标签样本图像进行对象识别后标注对象类别标签的参考样本图像,实现了将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标对象识别模型进行训练,提升了训练样本的样本数量,保证了训练效果,对象类别标签是根据无标签样本图像的图像特征和各对象类别对应的特征阈值确定的,特征阈值表征了参考对象识别模型对各对象类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标对象识别模型的模型性能,保证了得到对象识别结果的准确度。
参见图5,图5示出了本说明书一个实施例提供的一种样本集构建方法的流程图,包括如下具体步骤:
步骤502:获取无标签样本图像,将无标签样本图像添加至第一样本集中,得到样本集,其中,样本集包括标签样本图像和无标签样本图像;
步骤504:将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征;
步骤506:根据图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像,其中,特征阈值表征参考语义分割模型对各语义类别的图像编码特性;
步骤508:根据标签样本图像和参考样本图像,构建得到训练样本集。
本说明书实施例应用于具有样本集构建功能的应用的客户端或者服务器。
开源数据库为一种包含大量无标签样本图像的图像数据库,开源数据库可以为开源样本图像数据库,也可以为图像应用、程序或者小程序上的图像数据库,在此不作限定。
步骤502至步骤508已在图1实施例中进行详细说明,在此不再赘述。
本说明书实施例中,获取无标签样本图像,将无标签样本图像添加至第一样本集中,得到样本集,其中,样本集包括标签样本图像和无标签样本图像,将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征,根据图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像,其中,特征阈值表征参考语义分割模型对各语义类别的图像编码特性,根据标签样本图像和参考样本图像,构建得到训练样本集。对于获取的存在语义扩展风险的无标签样本图像,利用参考语义分割模型编码得到图像特征,根据图像特征和各语义类别对应的特征阈值确定对应的语义类别标签,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,利用语义类别标签对开源图像进行标注得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,在提升了训练样本的样本数量的同时,避免了语义扩展的风险,得到高质量的目标语义分割模型的训练样本集,保证了后续的训练效果。
参见图6,图6示出了本说明书一个实施例提供的一种图像语义分割的数据处理方法的流程图,该方法应用于云侧设备,包括如下具体步骤:
步骤602:获取样本集,其中,样本集包括标签样本图像和无标签样本图像,标签样本图像标注有对应的语义类别标签;
步骤604:将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征,其中,参考语义分割模型是预先通过监督训练得到的;
步骤606:针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值;
步骤608:将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征;
步骤610:根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像;
步骤612:根据标签样本图像和参考样本图像,构建得到训练样本集;
步骤614:利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型;
步骤616:将目标语义分割模型的模型参数发送给端侧设备。
云侧设备为提供模型训练功能的网络云侧设备,为一种虚拟设备。端侧设备为提供语义分割功能的终端设备,是一种实体设备。端侧设备和云侧设备之间通过网络信道连接,进行数据传输。云侧设备的算力性能高于端侧设备。
步骤602至步骤614已在图1实施例中进行详细说明,在此不再赘述。
本说明书实施例中,获取样本集,其中,样本集包括标签样本图像和无标签样本图像,标签样本图像标注有对应的语义类别标签,将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征,其中,参考语义分割模型是预先通过监督训练得到的,针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值,将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征,根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型,将目标语义分割模型的模型参数发送给端侧设备。利用监督训练得到的参考语义分割模型对标签样本图像进行编码,并根据编码得到的图像特征计算得到特征分布值,确定各语义类别对应的特征阈值,特征阈值准确地表征了参考语义分割模型对各语义类别的图像编码特性,利用参考语义分割模型对无标签样本图像编码得到图像特征,根据图像特征和各语义类别对应的特征阈值确定对应的语义类别标签,利用语义类别标签对开源图像进行标注得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,在提升了训练样本的样本数量的同时,避免了语义扩展的风险,得到高质量的目标语义分割模型的训练样本集,保证了对目标语义分割模型的训练效果,保证了训练得到目标语义分割模型的模型性能,保证了后续得到语义分割结果的准确度,同时,上述模型训练过程在云侧设备实现,为端侧设备节省了算力成本,提升了数据处理的处理效率。
图7示出了本说明书一个实施例提供的一种图像语义分割方法的流程示意图。
如图7所示,从开源样本集中获取多个无标签样本图像,构建得到样本集,其中,开源样本集包括无标签样本图像(第二语义类别的无标签样本图像和第三语义类别的无标签样本图像)。样本集包括标签样本图像(第一语义类别的标签样本图像)和无标签样本图像(第二语义类别的无标签样本图像和第三语义类别的无标签样本图像),对样本集中的无标签样本图像进行语义标签标注,得到参考样本图像(第二语义类别的参考样本图像和第三语义类别的参考样本图像),根据标签样本图像和参考样本图像,构建得到训练样本集对目标语义分割模型进行训练。
图8示出了本说明书一个实施例提供的一种图像语义分割方法的前端显示示意图。
如图8所示,通过前端上传待分割图像,待分割图像包括“圆形”、“矩形”和“三角形”三个语义类别对应的图像内容,经过步骤104的处理,得到待分割图像的语义分割结果:对“圆形”的图像内容进行条纹样式的渲染,对“矩形”的图像内容进行无填充样式的渲染,对“三角形”的图像内容进行黑色填充的渲染。
下述结合附图9,以本说明书提供的图像语义分割方法在自动驾驶的道路图像的应用为例,对所述图像语义分割方法进行进一步说明。其中,图9示出了本说明书一个实施例提供的一种应用于自动驾驶的道路图像的图像语义分割方法的处理过程流程图,包括如下具体步骤:
步骤902:获取第一样本集和第二样本集;
其中,第一样本集包括标签样本道路图像和无标签样本道路图像,第二样本集包括多个无标签样本道路图像,第一样本集满足语义类别的样本数量均衡约束。
步骤904:从第二样本集中提取至少一个无标签样本道路图像,对无标签样本道路图像进行缩放处理和/或翻转处理,并将处理后的至少一个无标签样本道路图像添加至样本集中,得到样本集;
步骤906:从样本集的标签样本道路图像中提取第一标签样本道路图像;
步骤908:利用参考语义分割模型,对第一标签样本道路图像进行语义分割,得到第一标签样本道路图像对应的预测语义类别;
步骤910:根据预测语义类别和第一标签样本道路图像对应的语义类别标签,计算得到交叉熵损失值;
步骤912:根据交叉熵损失值,调整参考语义分割模型的模型参数,返回执行从样本集的标签样本道路图像中提取第一标签样本道路图像的步骤,直至满足预设训练结束条件,得到监督训练完成的参考语义分割模型;
步骤914:将标签样本道路图像输入参考语义分割模型,编码得到标签样本道路图像的图像特征;
步骤916:针对任一语义类别,针对任一语义类别,根据标签样本道路图像的图像特征,计算得到该语义类别的图像特征的特征平均值,根据特征平均值,计算得到特征标准差,根据特征平均值和特征标准差,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值;
步骤918:将无标签样本道路图像输入参考语义分割模型,编码得到无标签样本道路图像的图像特征;
步骤920:根据无标签样本道路图像的图像特征和各语义类别对应的特征阈值,确定无标签样本道路图像对应的语义类别,并利用语义类别标签对无标签样本道路图像的对应图像区域进行标注,再根据所述语义类别标签,对无标签样本道路图像进行裁切,得到参考样本道路图像;
步骤922:根据各语义类别对应的样本道路图像,得到各语义类别和样本道路图像之间的索引,根据索引,从各语义类别中抽取目标数量的样本道路图像,得到训练样本集;
其中,目标数量满足语义类别的样本数量均衡约束。
步骤924:利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型;
步骤926:接收端侧设备发送的语义分割请求,其中,语义分割请求携带有待分割道路图像;
步骤928:将待分割道路图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果;
步骤930:将语义分割结果发送给自动驾驶应用的前端进行渲染。
本说明书实施例中,训练样本包括利用通过监督训练的参考语义分割模型对无标签样本道路图像进行语义分割后标注语义类别标签的参考样本道路图像,实现了将无标签样本道路图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,语义类别标签是根据无标签样本道路图像的图像特征和各语义类别对应的特征阈值确定的,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能,保证了得到语义分割结果的准确度,提升了自动驾驶的安全度。
与上述方法实施例相对应,本说明书还提供了图像语义分割装置实施例,图10示出了本说明书一个实施例提供的一种图像语义分割装置的结构示意图。如图10所示,该装置包括:
第一获取模块1002,被配置为获取待分割图像;
第一语义分割模块1004,被配置为将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性。
可选地,该装置还包括:
第一训练模块,被配置为获取样本集,其中,样本集包括标签样本图像和无标签样本图像,标签样本图像标注有对应的语义类别标签;将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征,其中,参考语义分割模型是预先通过监督训练得到的;针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值;将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征;根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像;根据标签样本图像和参考样本图像,构建得到训练样本集;利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型。
可选地,第一训练模块被进一步配置为:利用语义类别标签对无标签样本图像的对应图像区域进行标注,并根据语义类别标签,对无标签样本图像进行裁切,得到参考样本图像。
可选地,第一训练模块被进一步配置为:根据各语义类别对应的样本图像,得到各语义类别和样本图像之间的索引;根据索引,从各语义类别中抽取目标数量的样本图像,得到训练样本集,其中,目标数量满足语义类别的样本数量均衡约束。
可选地,第一获取模块1002被进一步配置为:获取第一样本集和第二样本集,其中,第一样本集包括标签样本图像和无标签样本图像,第二样本集包括多个无标签样本图像,第一样本集满足语义类别的样本数量均衡约束;从第二样本集中提取至少一个无标签样本图像,并将至少一个无标签样本图像添加至第一样本集中,得到样本集。
可选地,第一训练模块被进一步配置为:针对任一语义类别,根据标签样本图像的图像特征,计算得到该语义类别的图像特征的特征平均值;根据特征平均值,计算得到特征标准差;根据特征平均值和特征标准差,计算得到图像特征的特征分布值。
可选地,标签样本图像为多个标签样本图像;
对应地,该装置还包括:样本集构建模块,被配置为从多个标签样本图像中提取第一标签样本图像,其中,第一标签样本图像为多个标签样本图像中任一个;利用参考语义分割模型,对第一标签样本图像进行语义分割,得到第一标签样本图像对应的预测语义类别;根据预测语义类别和第一标签样本图像对应的语义类别标签,计算得到交叉熵损失值;根据交叉熵损失值,调整参考语义分割模型的模型参数,返回执行从多个标签样本图像中提取第一标签样本图像的步骤,直至满足预设训练结束条件,得到监督训练完成的参考语义分割模型。
本说明书实施例中,训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,实现了将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,语义类别标签是根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定的,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能,保证了得到语义分割结果的准确度。
上述为本实施例的一种图像语义分割装置的示意性方案。需要说明的是,该图像语义分割装置的技术方案与上述的图像语义分割方法的技术方案属于同一构思,图像语义分割装置的技术方案未详细描述的细节内容,均可以参见上述图像语义分割方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了图像语义分割装置实施例,图11示出了本说明书一个实施例提供的另一种图像语义分割装置的结构示意图。如图11所示,该装置应用于云侧设备,该装置包括:
接收模块1102,被配置为接收端侧设备发送的语义分割请求,其中,语义分割请求携带有待分割图像;
第二语义分割模块1104,被配置为将待分割图像输入预先训练的目标语义分割模型,得到待分割图像的语义分割结果,其中,目标语义分割模型的训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,语义类别标签根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定,特征阈值表征参考语义分割模型对各语义类别的图像编码特性;
第一发送模块1106,被配置为将语义分割结果发送给端侧设备进行渲染。
本说明书实施例中,训练样本包括利用通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像,实现了将无标签样本图像引入训练样本集中,得到大规模的训练样本集来对目标语义分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,语义类别标签是根据无标签样本图像的图像特征和各语义类别对应的特征阈值确定的,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,避免了语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标语义分割模型的模型性能,保证了得到语义分割结果的准确度,将高准确度的语义分割结果发送给端侧设备进行渲染,提升了用户体验,同时,上述语义分割过程在云侧设备实现,为端侧设备节省了算力成本,提升了语义分割的效率。
上述为本实施例的一种图像语义分割装置的示意性方案。需要说明的是,该图像语义分割装置的技术方案与上述的图像语义分割方法的技术方案属于同一构思,图像语义分割装置的技术方案未详细描述的细节内容,均可以参见上述图像语义分割方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了地形分割装置实施例,图12示出了本说明书一个实施例提供的一种地形分割装置的结构示意图。如图12所示,该装置包括:
第二获取模块1202,被配置为获取待分割图像,其中,待分割图像中包含多个地形对象;
地形分割模块1204,被配置为将待分割图像输入预先训练的目标地形分割模型,得到待分割图像的地形分割结果,其中,目标地形分割模型的训练样本包括利用通过监督训练的参考地形分割模型对无标签样本地形图像进行语义分割后标注地形类别标签的参考样本地形图像,地形类别标签根据无标签样本地形图像的图像特征和各地形类别对应的特征阈值确定,特征阈值表征参考地形分割模型对各地形类别的图像编码特性。
本说明书实施例中,训练样本包括利用通过监督训练的参考地形分割模型对无标签样本图像进行语义分割后标注地形类别标签的参考样本地形图像,实现了将无标签样本地形图像引入训练样本集中,得到大规模的训练样本集来对目标地形分割模型进行训练,提升了训练样本的样本数量,保证了训练效果,地形类别标签是根据无标签样本地形图像的图像特征和各地形类别对应的特征阈值确定的,特征阈值表征了参考地形分割模型对各地形类别的图像编码特性,避免了地形语义扩展的风险,进一步保证了训练效果,保证了训练得到的目标地形分割模型的模型性能,保证了得到地形分割结果的准确度
上述为本实施例的一种地形分割装置的示意性方案。需要说明的是,该地形分割装置的技术方案与上述的地形分割方法的技术方案属于同一构思,地形分割装置的技术方案未详细描述的细节内容,均可以参见上述地形分割方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了对象识别装置实施例,图13示出了本说明书一个实施例提供的一种对象识别装置的结构示意图。如图13所示,该装置包括:
第三获取模块1302,被配置为获取待识别图像;
对象识别模块1304,被配置为将待识别图像输入预先训练的目标对象识别模型,得到待识别图像的对象识别结果,其中,目标对象识别模型的训练样本包括利用通过监督训练的参考对象识别模型对无标签样本图像进行对象识别后标注对象类别标签的参考样本图像,对象类别标签根据无标签样本图像的图像特征和各对象类别对应的特征阈值确定,特征阈值表征参考对象识别模型对各对象类别的图像编码特性。
本说明书实施例中,
上述为本实施例的一种对象识别装置的示意性方案。需要说明的是,该对象识别装置的技术方案与上述的对象识别方法的技术方案属于同一构思,对象识别装置的技术方案未详细描述的细节内容,均可以参见上述对象识别方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了样本集构建装置实施例,图14示出了本说明书一个实施例提供的一种样本集构建装置的结构示意图。如图14所示,该装置包括:
第四获取模块1402,被配置为获取无标签样本图像,将无标签样本图像添加至第一样本集中,得到样本集,其中,样本集包括标签样本图像和无标签样本图像;
第一编码模块1404,被配置为将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征;
第一标注模块1406,被配置为根据图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像,其中,特征阈值表征参考语义分割模型对各语义类别的图像编码特性;
第一构建模块1408,被配置为根据标签样本图像和参考样本图像,构建得到训练样本集。
本说明书实施例中,对于获取的存在语义扩展风险的无标签样本图像,利用参考语义分割模型编码得到图像特征,根据图像特征和各语义类别对应的特征阈值确定对应的语义类别标签,特征阈值表征了参考语义分割模型对各语义类别的图像编码特性,利用语义类别标签对开源图像进行标注得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,在提升了训练样本的样本数量的同时,避免了语义扩展的风险,得到高质量的目标语义分割模型的训练样本集,保证了后续的训练效果。
上述为本实施例的一种样本集构建装置的示意性方案。需要说明的是,该样本集构建装置的技术方案与上述的样本集构建方法的技术方案属于同一构思,样本集构建装置的技术方案未详细描述的细节内容,均可以参见上述样本集构建方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了图像语义分割的数据处理装置实施例,图15示出了本说明书一个实施例提供的一种图像语义分割的数据处理装置的结构示意图。如图15所示,该装置应用于云侧设备,该装置包括:
第五获取模块1502,被配置为获取样本集,其中,样本集包括标签样本图像和无标签样本图像,标签样本图像标注有对应的语义类别标签;
第二编码模块1504,被配置为将标签样本图像输入参考语义分割模型,编码得到标签样本图像的图像特征,其中,参考语义分割模型是预先通过监督训练得到的;
确定模块1506,被配置为针对任一语义类别,根据标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据特征分布值,确定该语义类别的特征阈值;
第三编码模块1508,被配置为将无标签样本图像输入参考语义分割模型,编码得到无标签样本图像的图像特征;
第二标注模块1510,被配置为根据无标签样本图像的图像特征和各语义类别对应的特征阈值,确定无标签样本图像对应的语义类别,并对无标签样本图像进行语义类别标签标注,得到参考样本图像;
第二构建模块1512,被配置为根据标签样本图像和参考样本图像,构建得到训练样本集;
第二训练模块1514,被配置为利用训练样本集,对目标语义分割模型进行训练,得到训练完成的目标语义分割模型;
第二发送模块1516,被配置为将目标语义分割模型的模型参数发送给端侧设备。
本说明书实施例中,利用监督训练得到的参考语义分割模型对标签样本图像进行编码,并根据编码得到的图像特征计算得到特征分布值,确定各语义类别对应的特征阈值,特征阈值准确地表征了参考语义分割模型对各语义类别的图像编码特性,利用参考语义分割模型对无标签样本图像编码得到图像特征,根据图像特征和各语义类别对应的特征阈值确定对应的语义类别标签,利用语义类别标签对开源图像进行标注得到参考样本图像,根据标签样本图像和参考样本图像,构建得到训练样本集,在提升了训练样本的样本数量的同时,避免了语义扩展的风险,得到高质量的目标语义分割模型的训练样本集,保证了对目标语义分割模型的训练效果,保证了训练得到目标语义分割模型的模型性能,保证了后续得到语义分割结果的准确度,同时,上述模型训练过程在云侧设备实现,为端侧设备节省了算力成本,提升了数据处理的处理效率。
上述为本实施例的一种图像语义分割的数据处理装置的示意性方案。需要说明的是,该图像语义分割的数据处理装置的技术方案与上述的图像语义分割的数据处理方法的技术方案属于同一构思,图像语义分割的数据处理装置的技术方案未详细描述的细节内容,均可以参见上述图像语义分割的数据处理方法的技术方案的描述。
图16示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1600的部件包括但不限于存储器1610和处理器1620。处理器1620与存储器1610通过总线1630相连接,数据库1650用于保存数据。
计算设备1600还包括接入设备1640,接入设备1640使得计算设备1600能够经由一个或多个网络1660通信。这些网络的示例包括PSTN(Public Switched TelephoneNetwork,公用交换电话网)、LAN(Local Area Network,局域网)、WAN(Wide Area Network,广域网)、PAN(Personal Area Network,个域网)或诸如因特网的通信网络的组合。接入设备1640可以包括有线或无线的任何类型的网络接口(例如,NIC(Network InterfaceController,网络接口卡))中的一个或多个,诸如IEEE802.12 WLAN(Wireless Local AreaNetworks,无线局域网)无线接口、Wi-MAX(World Interoperability for MicrowaveAccess,全球微波互联接入)接口、以太网接口、USB(Universal Serial Bus,通用串行总线)接口、蜂窝网络接口、蓝牙接口、NFC(Near Field Communication,近场通信)接口,等等。
在本说明书的一个实施例中,计算设备1600的上述部件以及图16中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图16所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC(Personal Computer,个人计算机)的静止计算设备。计算设备1600还可以是移动式或静止式的服务器。
其中,处理器1620用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像语义分割方法,对象识别方法,样本集构建方法,或者图像语义分割的数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像语义分割方法,对象识别方法,样本集构建方法,以及图像语义分割的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像语义分割方法,对象识别方法,样本集构建方法,或者图像语义分割的数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像语义分割方法,对象识别方法,样本集构建方法,或者图像语义分割的数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像语义分割方法,对象识别方法,样本集构建方法,以及图像语义分割的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像语义分割方法,对象识别方法,样本集构建方法,或者图像语义分割的数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像语义分割方法,对象识别方法,样本集构建方法,或者图像语义分割的数据处理方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图像语义分割方法,对象识别方法,样本集构建方法,以及图像语义分割的数据处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图像语义分割方法,对象识别方法,样本集构建方法,或者图像语义分割的数据处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种图像语义分割方法,包括:
获取待分割图像;
将所述待分割图像输入预先训练的目标语义分割模型,得到所述待分割图像的语义分割结果,其中,所述目标语义分割模型的训练样本包括通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像和标注有语义类别标签的标签样本图像,所述语义类别标签根据所述无标签样本图像的图像特征和各语义类别对应的特征阈值确定,所述特征阈值表征所述参考语义分割模型对各语义类别的图像编码特性,所述特征阈值为所述参考语义分割模型对所述标签样本图像进行编码并按照语义类别进行统计确定的。
2.根据权利要求1所述的方法,在所述将所述待分割图像输入预先训练的目标语义分割模型,得到所述待分割图像的语义分割结果之前,还包括:
获取样本集,其中,所述样本集包括标签样本图像和无标签样本图像,所述标签样本图像标注有对应的语义类别标签;
将所述标签样本图像输入参考语义分割模型,编码得到所述标签样本图像的图像特征,其中,所述参考语义分割模型是预先通过监督训练得到的;
针对任一语义类别,根据所述标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据所述特征分布值,确定该语义类别的特征阈值;
将所述无标签样本图像输入所述参考语义分割模型,编码得到所述无标签样本图像的图像特征;
根据所述无标签样本图像的图像特征和各语义类别对应的特征阈值,确定所述无标签样本图像对应的语义类别,并对所述无标签样本图像进行语义类别标签标注,得到参考样本图像;
根据所述标签样本图像和所述参考样本图像,构建得到训练样本集;
利用所述训练样本集,对目标语义分割模型进行训练,得到训练完成的所述目标语义分割模型。
3.根据权利要求2所述的方法,所述对所述无标签样本图像进行语义类别标签标注,得到参考样本图像,包括:
利用所述语义类别标签对所述无标签样本图像的对应图像区域进行标注,并根据所述语义类别标签,对所述无标签样本图像进行裁切,得到参考样本图像。
4.根据权利要求2所述的方法,所述根据所述标签样本图像和所述参考样本图像,构建得到训练样本集,包括:
根据各语义类别对应的样本图像,得到各语义类别和样本图像之间的索引;
根据所述索引,从各语义类别中抽取目标数量的样本图像,得到训练样本集,其中,所述目标数量满足语义类别的样本数量均衡约束。
5.根据权利要求2至4任一项所述的方法,所述获取样本集,包括:
获取第一样本集和第二样本集,其中,所述第一样本集包括标签样本图像和无标签样本图像,所述第二样本集包括多个无标签样本图像,所述第一样本集满足语义类别的样本数量均衡约束;
从所述第二样本集中提取至少一个无标签样本图像,并将所述至少一个无标签样本图像添加至所述第一样本集中,得到样本集。
6.根据权利要求2所述的方法,所述针对任一语义类别,根据所述标签样本图像的图像特征,计算得到图像特征的特征分布值,包括:
针对任一语义类别,根据所述标签样本图像的图像特征,计算得到该语义类别的图像特征的特征平均值;
根据所述特征平均值,计算得到特征标准差;
根据所述特征平均值和所述特征标准差,计算得到图像特征的特征分布值。
7.根据权利要求2所述的方法,其中,所述标签样本图像的数量为多个;
在所述将所述标签样本图像输入参考语义分割模型,编码得到所述标签样本图像的图像特征之前,还包括:
从多个标签样本图像中提取第一标签样本图像,其中,所述第一标签样本图像为所述多个标签样本图像中任一个;
利用参考语义分割模型,对所述第一标签样本图像进行语义分割,得到所述第一标签样本图像对应的预测语义类别;
根据所述预测语义类别和所述第一标签样本图像对应的语义类别标签,计算得到交叉熵损失值;
根据所述交叉熵损失值,调整所述参考语义分割模型的模型参数,返回执行所述从所述多个标签样本图像中提取第一标签样本图像的步骤,直至满足预设训练结束条件,得到监督训练完成的参考语义分割模型。
8.一种图像语义分割方法,应用于云侧设备,包括:
接收端侧设备发送的图像语义分割请求,其中,所述图像语义分割请求携带有待分割图像;
将所述待分割图像输入预先训练的目标语义分割模型,得到所述待分割图像的语义分割结果,其中,所述目标语义分割模型的训练样本包括通过监督训练的参考语义分割模型对无标签样本图像进行语义分割后标注语义类别标签的参考样本图像和标注有语义类别标签的标签样本图像,所述语义类别标签根据所述无标签样本图像的图像特征和各语义类别对应的特征阈值确定,所述特征阈值表征所述参考语义分割模型对各语义类别的图像编码特性,所述特征阈值为所述参考语义分割模型对所述标签样本图像进行编码并按照语义类别进行统计确定的;
将所述图像语义分割结果发送给所述端侧设备进行渲染。
9.一种对象识别方法,包括:
获取待识别图像;
将所述待识别图像输入预先训练的目标对象识别模型,得到所述待识别图像的对象识别结果,其中,所述目标对象识别模型的训练样本包括通过监督训练的参考对象识别模型对无标签样本图像进行对象识别后标注语义类别标签的参考样本图像和标注有语义类别标签的标签样本图像,所述对象类别标签根据所述无标签样本图像的图像特征和各对象类别对应的特征阈值确定,所述特征阈值表征所述参考对象识别模型对各对象类别的图像编码特性,所述特征阈值为所述参考语义分割模型对所述标签样本图像进行编码并按照语义类别进行统计确定的。
10.一种样本集构建方法,包括:
获取无标签样本图像,将所述无标签样本图像添加至第一样本集中,得到样本集,其中,所述样本集包括标签样本图像和无标签样本图像;
将所述无标签样本图像输入参考语义分割模型,编码得到所述无标签样本图像的图像特征;
根据所述图像特征和各语义类别对应的特征阈值,确定所述无标签样本图像对应的语义类别,并对所述无标签样本图像进行语义类别标签标注,得到参考样本图像,其中,所述特征阈值表征所述参考语义分割模型对各语义类别的图像编码特性,所述特征阈值为所述参考语义分割模型对所述标签样本图像进行编码并按照语义类别进行统计确定的;
根据所述标签样本图像和所述参考样本图像,构建得到训练样本集。
11.一种图像语义分割的数据处理方法,应用于云侧设备,包括:
获取样本集,其中,所述样本集包括标签样本图像和无标签样本图像,所述标签样本图像标注有对应的语义类别标签;
将所述标签样本图像输入参考语义分割模型,编码得到所述标签样本图像的图像特征,其中,所述参考语义分割模型是预先通过监督训练得到的;
针对任一语义类别,根据所述标签样本图像的图像特征,计算得到图像特征的特征分布值,并根据所述特征分布值,确定该语义类别的特征阈值;
将所述无标签样本图像输入所述参考语义分割模型,编码得到所述无标签样本图像的图像特征;
根据所述无标签样本图像的图像特征和各语义类别对应的特征阈值,确定所述无标签样本图像对应的语义类别,并对所述无标签样本图像进行语义类别标签标注,得到参考样本图像;
根据所述标签样本图像和所述参考样本图像,构建得到训练样本集;
利用所述训练样本集,对目标语义分割模型进行训练,得到训练完成的所述目标语义分割模型;
将所述目标语义分割模型的模型参数发送给端侧设备。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述图像语义分割方法,权利要求9所述对象识别方法,权利要求10所述样本集构建方法,或者权利要求11所述图像语义分割的数据处理方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述图像语义分割方法,权利要求9所述对象识别方法,权利要求10所述样本集构建方法,或者权利要求11所述图像语义分割的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310247517.XA CN116363362B (zh) | 2023-03-08 | 2023-03-08 | 图像语义分割方法、对象识别方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310247517.XA CN116363362B (zh) | 2023-03-08 | 2023-03-08 | 图像语义分割方法、对象识别方法及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116363362A CN116363362A (zh) | 2023-06-30 |
CN116363362B true CN116363362B (zh) | 2024-01-09 |
Family
ID=86918295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310247517.XA Active CN116363362B (zh) | 2023-03-08 | 2023-03-08 | 图像语义分割方法、对象识别方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363362B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799646A (zh) * | 2012-06-27 | 2012-11-28 | 浙江万里学院 | 一种面向多视点视频的语义对象分割方法 |
CN110363201A (zh) * | 2019-07-10 | 2019-10-22 | 上海交通大学 | 基于协同学习的弱监督语义分割方法及系统 |
CN113221903A (zh) * | 2021-05-11 | 2021-08-06 | 中国科学院自动化研究所 | 跨域自适应语义分割方法及系统 |
CN113420827A (zh) * | 2021-07-08 | 2021-09-21 | 上海浦东发展银行股份有限公司 | 语义分割网络训练和图像语义分割方法、装置及设备 |
CN113971727A (zh) * | 2021-10-21 | 2022-01-25 | 京东鲲鹏(江苏)科技有限公司 | 一种语义分割模型的训练方法、装置、设备和介质 |
CN114298050A (zh) * | 2021-12-31 | 2022-04-08 | 天津开心生活科技有限公司 | 模型的训练方法、实体关系抽取方法、装置、介质、设备 |
CN115345895A (zh) * | 2022-10-19 | 2022-11-15 | 深圳市壹倍科技有限公司 | 用于视觉检测的图像分割方法、装置、计算机设备及介质 |
CN115511892A (zh) * | 2022-09-29 | 2022-12-23 | 上海高德威智能交通系统有限公司 | 一种语义分割模型的训练方法、语义分割方法及装置 |
CN115564988A (zh) * | 2022-09-20 | 2023-01-03 | 电子科技大学 | 基于标签平滑的遥感图像场景分类和语义分割任务的方法 |
-
2023
- 2023-03-08 CN CN202310247517.XA patent/CN116363362B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799646A (zh) * | 2012-06-27 | 2012-11-28 | 浙江万里学院 | 一种面向多视点视频的语义对象分割方法 |
CN110363201A (zh) * | 2019-07-10 | 2019-10-22 | 上海交通大学 | 基于协同学习的弱监督语义分割方法及系统 |
CN113221903A (zh) * | 2021-05-11 | 2021-08-06 | 中国科学院自动化研究所 | 跨域自适应语义分割方法及系统 |
CN113420827A (zh) * | 2021-07-08 | 2021-09-21 | 上海浦东发展银行股份有限公司 | 语义分割网络训练和图像语义分割方法、装置及设备 |
CN113971727A (zh) * | 2021-10-21 | 2022-01-25 | 京东鲲鹏(江苏)科技有限公司 | 一种语义分割模型的训练方法、装置、设备和介质 |
CN114298050A (zh) * | 2021-12-31 | 2022-04-08 | 天津开心生活科技有限公司 | 模型的训练方法、实体关系抽取方法、装置、介质、设备 |
CN115564988A (zh) * | 2022-09-20 | 2023-01-03 | 电子科技大学 | 基于标签平滑的遥感图像场景分类和语义分割任务的方法 |
CN115511892A (zh) * | 2022-09-29 | 2022-12-23 | 上海高德威智能交通系统有限公司 | 一种语义分割模型的训练方法、语义分割方法及装置 |
CN115345895A (zh) * | 2022-10-19 | 2022-11-15 | 深圳市壹倍科技有限公司 | 用于视觉检测的图像分割方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116363362A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN109492627B (zh) | 一种基于全卷积网络的深度模型的场景文本擦除方法 | |
CN112149547A (zh) | 基于图像金字塔引导和像素对匹配的遥感影像水体识别 | |
CN112861690A (zh) | 多方法融合的遥感影像变化检测方法及系统 | |
CN115761222B (zh) | 图像分割方法、遥感图像分割方法以及装置 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN112288831A (zh) | 基于生成对抗网络的场景图像生成方法和装置 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN111126243B (zh) | 一种图像数据检测方法、装置以及计算机可读存储介质 | |
CN115223067A (zh) | 应用于无人机的点云融合方法、装置、设备及存储介质 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN115690797A (zh) | 字符识别方法、装置、设备及存储介质 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
CN116363362B (zh) | 图像语义分割方法、对象识别方法及计算设备 | |
CN117115641B (zh) | 建筑物信息提取方法、装置、电子设备及存储介质 | |
CN113673369A (zh) | 遥感图像场景规划方法、装置、电子设备和存储介质 | |
Li et al. | Feature guide network with context aggregation pyramid for remote sensing image segmentation | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN114238622A (zh) | 关键信息的提取方法和装置、存储介质及电子装置 | |
CN114550297A (zh) | 一种行人的意图分析方法及系统 | |
CN114332637B (zh) | 遥感影像水体提取方法、遥感影像水体提取的交互方法 | |
CN113553885A (zh) | 一种基于生成对抗网络的自然场景文本识别方法 | |
CN117422787B (zh) | 一种融合判别式和生成式模型的遥感影像转换地图方法 | |
CN116258647B (zh) | 图像去噪方法,天气图像修复方法及计算设备 | |
Shi et al. | AdaFI-FCN: an adaptive feature integration fully convolutional network for predicting driver’s visual attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |