CN115471662A - 语义分割模型的训练方法、识别方法、装置和存储介质 - Google Patents

语义分割模型的训练方法、识别方法、装置和存储介质 Download PDF

Info

Publication number
CN115471662A
CN115471662A CN202211366374.6A CN202211366374A CN115471662A CN 115471662 A CN115471662 A CN 115471662A CN 202211366374 A CN202211366374 A CN 202211366374A CN 115471662 A CN115471662 A CN 115471662A
Authority
CN
China
Prior art keywords
semantic segmentation
determining
value
training data
segmentation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211366374.6A
Other languages
English (en)
Other versions
CN115471662B (zh
Inventor
涂鹏
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202211366374.6A priority Critical patent/CN115471662B/zh
Publication of CN115471662A publication Critical patent/CN115471662A/zh
Application granted granted Critical
Publication of CN115471662B publication Critical patent/CN115471662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施方式提出语义分割模型的训练方法、识别方法、装置和存储介质。方法包括:确定有标注的第一训练数据和无标注的第二训练数据;基于第一训练数据和第二训练数据,训练语义分割模型,训练过程包括:基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值,确定第一损失函数值;基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值,确定第二损失函数值,其中伪标签是基于第二训练数据的不确定性信息而获取的;基于第一损失函数值和第二损失函数值,确定语义分割模型的第三损失函数值;配置语义分割模型的模型参数,以使第三损失函数值低于预设阈值。基于不确定性信息校正伪标签,可以优化模型的准确率。

Description

语义分割模型的训练方法、识别方法、装置和存储介质
技术领域
本发明属于图像处理技术领域,特别是语义分割模型的训练方法、识别方法、装置和存储介质。
背景技术
图像的语义分割(semantic segmentation)是图像处理和机器视觉技术中关于图像理解的重要一环。语义分割即是对图像中每一个像素点进行分类,确定每个像素点的类别(如属于背景、人或车等),从而进行区域划分。目前,语义分割已经被广泛应用于自动驾驶、无人机落点判定等诸多场景中。
训练语义分割任务的卷积神经网络(Convolutional Neural Networks, CNNs)通常需要像素级别(pixel-level)的人工标注。相比于其他视觉任务,这种标注信息较为昂贵。半监督语义分割指的是,利用带标注信息(比如,像素级别的标注)的数据和无标注信息的数据共同训练语义分割模型,以期使用少量标注训练得到高精度的语义分割模型。
目前,在半监督语义分割领域的相关研究中,主要关注如何为无标注数据生成伪标签。
发明内容
本发明实施方式提出语义分割模型的训练方法、识别方法、装置和存储介质。
本发明实施方式的技术方案如下:
一种语义分割模型的训练方法,所述方法包括:
确定有标注的第一训练数据和无标注的第二训练数据;
基于所述第一训练数据和所述第二训练数据,训练所述语义分割模型,其中训练过程包括:
基于将所述第一训练数据输入所述语义分割模型所获取的预测值与所述标注的差值,确定所述语义分割模型的第一损失函数值;
基于将所述第二训练数据输入所述语义分割模型所获取的预测值与伪标签的差值,确定所述语义分割模型的第二损失函数值,其中所述伪标签是基于所述第二训练数据的不确定性信息而确定的;
基于所述第一损失函数值和所述第二损失函数值,确定所述语义分割模型的第三损失函数值;
配置所述语义分割模型的模型参数,以使所述第三损失函数值低于预设阈值。
在示范性实施方式中,所述语义分割模型包括编码器和解码器,所述基于将第一训练数据输入语义分割模型所获取的预测值与所述标注的差值,确定第一损失函数值包括:
基于所述编码器确定所述第一训练数据的第一特征向量;
对所述第一特征向量执行丢弃处理;
基于所述解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;
基于所述第一预测值与所述标注的差值,确定所述第一损失函数值。
在示范性实施方式中,所述语义分割模型包括编码器和解码器,所述基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值,确定第二损失函数值包括:
确定所述第二训练数据的不确定性信息;
基于所述编码器确定所述第二训练数据的第二特征向量;
基于所述解码器对所述第二特征向量执行语义分割预测以得到第二预测值;
基于所述不确定性信息对所述第二预测值进行校正;
基于校正后的第二预测值生成所述伪标签;
基于所述编码器确定所述第二训练数据的第三特征向量;
对所述第三特征向量执行丢弃处理;
基于所述解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值;
基于所述第三预测值与所述伪标签的差值,确定所述第二损失函数值。
在示范性实施方式中,所述确定所述第二训练数据的不确定性信息包括:
将所述第二训练数据输入到所述语义分割模型中n次,以得到n个第二预测值;其中对于每一次输入:基于所述编码器确定该次输入的第二训练数据的第二特征向量;对该次输入的第二特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值;
确定所述n个第二预测值的平均值;
确定所述平均值的熵值;
基于所述熵值以及所述n个第二预测值,确定所述第二训练数据的不确定性信息。
在示范性实施方式中,所述执行丢弃处理包括:
对作为所述丢弃处理的输入的特征向量执行池化处理,以得到池化特征向量;
对所述池化特征向量包含的通道维度的预测得分进行排序;
按照从大到小的排序顺序,从排序结果中确定预定数目的预测得分;
计算所述预定数目的预测得分的求和结果P;
按照从大到小的排序顺序,从排序结果中确定P个预测得分所对应的P个通道的P个编号;
在每个编号的空间区域内,随机选取预定大小的区域,将选中区域中的值设置为零。
一种图像识别方法,包括:
利用如上任一项所述的语义分割模型的训练方法,训练语义分割模型;
利用所述语义分割模型对待识别图像中的待标注对象进行标注。
一种语义分割模型的训练装置,所述装置包括:
确定模块,用于确定有标注的第一训练数据和无标注的第二训练数据;
训练模块,用于基于所述第一训练数据和所述第二训练数据,训练所述语义分割模型,其中训练过程包括:
基于将所述第一训练数据输入所述语义分割模型所获取的预测值与所述标注的差值,确定所述语义分割模型的第一损失函数值;
基于将所述第二训练数据输入所述语义分割模型所获取的预测值与伪标签的差值,确定所述语义分割模型的第二损失函数值,其中所述伪标签是基于所述第二训练数据的不确定性信息而确定的;
基于所述第一损失函数值和所述第二损失函数值,确定所述语义分割模型的第三损失函数值;
配置所述语义分割模型的模型参数,以使所述第三损失函数值低于预设阈值。
在示范性实施方式中,所述语义分割模型包括编码器和解码器;
所述训练模块,用于基于所述编码器确定所述第一训练数据的第一特征向量;对所述第一特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;基于所述第一预测值与所述标注的差值,确定所述第一损失函数值。
在示范性实施方式中,所述语义分割模型包括编码器和解码器;
所述训练模块,用于确定所述第二训练数据的不确定性信息;基于所述编码器确定所述第二训练数据的第二特征向量;基于所述解码器对所述第二特征向量执行语义分割预测以得到第二预测值;基于所述不确定性信息对所述第二预测值进行校正;基于校正后的第二预测值生成所述伪标签;基于所述编码器确定所述第二训练数据的第三特征向量;对所述第三特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值;基于所述第三预测值与所述伪标签的差值,确定第二损失函数值。
在示范性实施方式中,所述训练模块,用于将所述第二训练数据输入到所述语义分割模型中n次,以得到n个第二预测值;其中对于每一次输入:基于所述编码器确定该次输入的第二训练数据的第二特征向量;对该次输入的第二特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值;确定所述n个第二预测值的平均值;确定所述平均值的熵值;基于所述熵值以及所述n个第二预测值,确定所述第二训练数据的不确定性信息。
在示范性实施方式中,所述训练模块,用于对作为所述丢弃处理的输入的特征向量执行池化处理,以得到池化特征向量;对所述池化特征向量包含的通道维度的预测得分进行排序;按照从大到小的排序顺序,从排序结果中确定预定数目的预测得分;计算所述预定数目的预测得分的求和结果P;按照从大到小的排序顺序,从排序结果中确定P个预测得分所对应的P个通道的P个编号;在每个编号的空间区域内,随机选取预定大小的区域,将选中区域中的值设置为零。
一种图像识别装置,包括:
如上任一项所述的语义分割模型的训练装置;以及
图像识别模块,用于利用所述语义分割模型的训练装置训练出的语义分割模型,对待识别图像中的待标注对象进行标注。
一种电子设备,包括:
存储器;
处理器;
其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上任一项所述的语义分割模型的训练方法或如上所述的图像识别方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行如上任一项所述的语义分割模型的训练方法或如上所述的图像识别方法。
从上述技术方案可以看出,在本发明实施方式中,确定有标注的第一训练数据和无标注的第二训练数据;基于第一训练数据和第二训练数据,训练语义分割模型,训练过程包括:基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值,确定第一损失函数值;基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值,确定第二损失函数值,其中伪标签是基于第二训练数据的不确定性信息而获取的;基于第一损失函数值和第二损失函数值,确定语义分割模型的第三损失函数值;配置语义分割模型的模型参数,以使第三损失函数值低于预设阈值。可见,本发明实施方式基于不确定性信息校正伪标签,可以更好利用无标记数据,从而优化模型的准确率。
而且,本发明利用同一样本的n次预测结果量化不确定性信息,不确定性高的地方通常对应伪标签中的错误区域,从而能够利用不确定性信息准确校正伪标签中的错误信息,实现了良好的校正效果。
另外,本发明实施方式提出了针对区域的丢弃处理,实现了一种二维丢弃方式,提高了丢弃效率。
附图说明
图1是本发明实施方式的语义分割模型的训练方法的示范性流程图。
图2是本发明实施方式的语义分割模型的示范性结构图。
图3 是本发明实施方式的丢弃(Drop out)处理的示范性示意图。
图4是根据本发明实施方式利用第一训练数据进行训练的示范性示意图。
图5是根据本发明实施方式确定不确定性信息的示范性示意图。
图6是根据本发明实施方式确定伪标签的示范性示意图。
图7是根据本发明实施方式利用第二训练数据进行训练的示范性示意图。
图8是根据本发明实施方式的语义分割模型的训练装置的示范性结构图。
图9是根据本发明实施方式的图像识别装置的示范性结构图。
图10是本发明实施方式的电子设备的示范性结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。由于汉语的语言习惯,下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
以下,对本公开实施方式涉及的术语进行解释说明。
不确定性感知: 不确定性指对象状态不能被确定地理解,其产生原因包括数据采集的误差、数据生成模型不完备等。神经网络的各类图像任务,普遍使用Softmax函数归一化预测得分到0~1之间,以量化预测结果的可靠程度。但是,由于网络训练过程中存在偶然的不确定性以及感知的不确定性,深度学习模型给出的预测结果并不总是可靠的。深度学习模型中的不确定性感知,旨在给出模型对相同样本的带噪预测下的分布,以进一步反映预测结果的可靠程度。
在精细标注的大规模数据驱动下,CNN在图像识别上取得了巨大成功。对于图像语义分割任务而言, 精细的像素级别的标注数据保证了CNN能够在图像语义分割任务上取得令人满意的结果。然而,收集用于CNN训练优化的大规模标注数据集较为困难,主要原因是标注势必带来巨大的时间开销,另一方面的原因在于:对于某些特定任务(比如,医学任务)而言,还要求标注人员具备一定的知识储备,才能够正确标注图像数据。
为缓解高精度的语义分割模型需要大规模精细标注数据与此类数据难以获取的矛盾,在具有大量无标注数据以及有限量的精细标注数据的场景下,如何高效训练语义分割模型激发了人们的兴趣,即半监督语义分割任务。半监督语义分割任务旨在利用未标记的数据辅助语义分割模型的训练,可以减轻网络训练过程中对标记数据的依赖性。
目前,半监督语义分割领域的主要研究集中于如何为无标注数据生成伪标签。得到无标注数据的伪标签之后,通常直接把所有伪标签信息作为无标注数据的潜在真实标注,作为无标注数据学习过程中的监督信息。目前依赖于为预测得分设置的特定阈值来生成伪标签。然而,在某些时候,网络预测得分高低并不可靠,错误样本往往得到极高的正确得分。基于预测得分为无标注数据生成伪标签的策略,可能在监督信号中引入噪声,使得模型不够准确。
申请人发现:对于半监督的语义分割模型,可以基于模型对无标签样本预测的不确定性信息,对基于预测结果而生成的伪标签进行校正,从而提高模型的准确性。
图1是本发明实施方式的语义分割模型的训练方法的示范性流程图。如图1所示,该方法包括:
步骤101:确定有标注的第一训练数据和无标注的第二训练数据。
针对第一训练数据,基于人工标注对图像中的像素点按照类别进行区域划分。针对第二训练数据,则没有基于人工标注进行区域划分。
比如,对于由m个图像样本组成的训练集
Figure DEST_PATH_IMAGE001
,其中
Figure 251014DEST_PATH_IMAGE002
表示训练 集中的第k个样本。在半监督语义分割任务中,训练集通常由具有像素级标注的子集和没有 标注的子集同时组成。在这里,将训练集
Figure DEST_PATH_IMAGE003
中的
Figure 258153DEST_PATH_IMAGE004
个样本记做有标注的数据(即第一训 练数据),而
Figure DEST_PATH_IMAGE005
个样本为无标注数据(即第二训练数据)。其中标注数据集记为
Figure 672954DEST_PATH_IMAGE006
指的是对应图像的像素级标注;无标注数据集 记为
Figure DEST_PATH_IMAGE007
步骤102:基于第一训练数据和第二训练数据,训练语义分割模型,其中训练过程包括:基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值,确定语义分割模型的第一损失函数值;基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值,确定语义分割模型的第二损失函数值,其中伪标签是基于第二训练数据的不确定性信息而确定的;基于第一损失函数值和第二损失函数值,确定语义分割模型的第三损失函数值;配置语义分割模型的模型参数,以使第三损失函数值低于预设阈值。
在一个实施方式中,语义分割模型包括编码器(Encoder)和解码器(Decoder),基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值,确定第一损失函数值包括:基于编码器确定第一训练数据的第一特征向量;对第一特征向量执行丢弃处理;基于解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;基于第一预测值与标注的差值,确定第一损失函数值。
可见,由于第一训练数据为有标注数据,因此可以直接基于与标注的差值确定出损失函数。
在一个实施方式中,语义分割模型包括编码器和解码器,基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值,确定第二损失函数值包括:确定第二训练数据的不确定性信息;基于编码器确定第二训练数据的第二特征向量;基于解码器对第二特征向量执行语义分割预测以得到第二预测值;基于不确定性信息对第二预测值进行校正;基于校正后的第二预测值生成伪标签;基于编码器确定第二训练数据的第三特征向量;对第三特征向量执行丢弃处理;基于解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值;基于第三预测值与伪标签的差值,确定第二损失函数值。
可见,相比较现有技术中单纯利用网络预测得分高低生成伪标签,本发明实施方式的伪标签确定过程中进一步考虑第二训练数据的不确定性信息,因此提高了伪标签的准确度,并相应提高模型的准确性。
在一个实施方式中,基于第一损失函数值和第二损失函数值,确定语义分割模型的第三损失函数值比包括:计算第一损失函数值和第二损失函数值的加权求和值,以作为第三损失函数值,其中权重可以自行设置。
下面结合具体的语义分割模型对本发明实施方式进行说明。
图2是本发明实施方式的语义分割模型的示范性结构图。由图2可见,语义分割模型包括编码器和解码器。输入图像经过编码器提取出颜色、纹理、边缘等低级特征。解码器首先对低级特征进行加工以获取富含语义信息和物体分类相关的高级特征,然后通过上采样将特征图转换为原始的输入图像分辨率,并经过分类层实现像素级别的物体分类。
图2所示的语义分割模型可以实施为:U-Net、FCN、SegNet、PSPNet、DeepLab V1/V2/V3/V3+,等等。比如,可以将DeepLabV3+实施为训练前的语义分割模型(即初始化的语义分割网络)。DeepLabV3+由编码器和解码器组成。其中编码器为resnet50, 解码器包含若干卷积堆叠以及上采样模块。
在针对语义分割模型的训练过程中,可以进一步引入布置在编码器和解码器之间的丢弃模块。丢弃模块设置有使能开关。当控制使能开关处于使能状态时,丢弃模块处于工作状态;当控制使能开关处于非使能状态时,丢弃模块处于不工作状态。当丢弃模块处于工作状态时,丢弃模块对编码器输出的特征向量执行丢弃处理,并将执行丢弃处理后的特征向量发送到解码器。当丢弃模块处于不工作状态时,编码器输出的特征向量被直接提供到解码器,而不再经过丢弃模块。
在针对语义分割模型的训练过程中,还可以进一步引入与解码器连接的不确定性感知模块。不确定性感知模块设置有使能开关。当控制使能开关处于使能状态时,不确定性感知模块处于工作状态;当控制使能开关处于非使能状态时,不确定性感知模块处于不工作状态。当不确定性感知模块处于工作状态时,不确定性感知模块对解码器输出的预测结果执行不确定性感知处理以生成不确定性信息。当不确定性感知模块处于不工作状态时,解码器输出的预测结果不再提供到不确定性感知模块。
下面对丢弃模块的工作原理进行说明。
在本发明实施方式中,丢弃模块所执行的丢弃处理包括:对作为丢弃处理的输入的特征向量执行池化处理,以得到池化特征向量;对池化特征向量包含的通道维度的预测得分进行排序;按照从大到小的排序顺序,从排序结果中确定预定数目的预测得分;计算预定数目的预测得分的求和结果P;按照从大到小的排序顺序,从排序结果中确定前P个预测得分所对应的P个通道的P个编号;在每个编号的空间区域内,随机选取预定大小的区域,将选中区域中的值设置为零。
可见,本发明实施方式提出了针对区域的丢弃处理,实现了一种新颖的二维丢弃方式,提高了丢弃效率。
图3 是本发明实施方式的丢弃处理的示范性示意图。
输入丢弃模块的特征向量记为
Figure 366235DEST_PATH_IMAGE008
,其中B为输入的图片数目;T为 特征的通道数;H为特征空间分辨率高度;W为特征空间分辨率宽度。特征向量
Figure DEST_PATH_IMAGE009
经过自适应 池化层后,其空间分辨率从H*W变为1*1。全连接层基于池化特征向量生成各个通道层的预 测得分。sigmoid函数将预测得分映射到0~1之间的量化得分
Figure 430268DEST_PATH_IMAGE010
,其中数值越接近1代表此通 道层的特征越有价值。将量化得分
Figure 850885DEST_PATH_IMAGE010
按从大到小排序,并取前预定数目(比如10)个最大得 分进行累加,记累加后的整数为k。然后,返回得分最大的前k个通道层的编号(比如,下标), 即确定出得分最大的前k个通道层。然后,在所选的这k个通道层的空间区域(即H*W)内,随 机选取m*m的子区域(m可以为预定值),并将该子区域的特征值设置为零。
下面对不确定性感知模块的工作原理进行说明。
为使不确定性感知模块工作,需要控制丢弃模块的使能开关处于使能状态时,以使丢弃模块处于工作状态。在不确定性感知处理中,丢弃模块在输入特征通道维度上自适应选取k个通道层, 并在选取通道层的空间维度随机选取m*m的子区域并将此子区域的特征值置零,从而促使模型能够在不完整的特征下也能做出准确决策,因而能够提升模型鲁棒性。
在本发明实施方式中,不确定性感知模块所执行的不确定性感知处理包括:将第二训练数据输入到语义分割模型中n次,以得到n个第二预测值;其中对于每一次输入:基于编码器确定该次输入的第二训练数据的第二特征向量;对该次输入的第二特征向量执行丢弃处理;基于解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值;确定n个第二预测值的平均值;确定平均值的熵值;基于熵值以及n个第二预测值,确定第二训练数据的不确定性信息。
而且,本发明利用同一样本的n次预测结果量化无标注数据的不确定性信息,不确定性高的地方通常对应伪标签中的错误区域,因此可以利用不确定性信息校正伪标签中的错误信息,实现了良好的校正效果。
具体地,将输入样本
Figure DEST_PATH_IMAGE011
重复输入到语义分割模型中n次,以重复执行n 次预测,得到的预测结果集合为
Figure 385772DEST_PATH_IMAGE012
。在这里,由于同样样本在 不同的前向过程中被丢弃模块执行不同的丢弃处理,因此每一次的预测结果都不尽相同。
然后,计算得到样本
Figure DEST_PATH_IMAGE013
正常预测结果
Figure 561538DEST_PATH_IMAGE014
上每一个像素处的预测结果的不确定性 信息。计算过程包括:
(1)、计算包含n次预测结果的预测结果集合的均值mean,其中
Figure DEST_PATH_IMAGE015
,其中
Figure 112867DEST_PATH_IMAGE016
为n个丢弃处理作用下 的预测样本集中的第i个;
(2)、计算上一步得到均值mean的熵值entropy,其中
Figure DEST_PATH_IMAGE017
(3)、计算n次预测结果的互信息值mInfo,将mInfo作为预测样本的不确定性信息, 其中
Figure 399492DEST_PATH_IMAGE018
以上示范性描述了确定不确定性信息的典型过程,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
下面分别描述利用第一训练数据和第二训练数据对语义分割模型进行训练的具体过程。
图4为根据本发明实施方式利用第一训练数据进行训练的示范性示意图。在利用第一训练数据进行训练时,丢弃模块处于工作状态,不确定性感知模块不处于工作状态。第一训练数据输入到编码器。编码器确定第一训练数据的第一特征向量;丢弃模块对第一特征向量执行丢弃处理(具体细节可参照图3以及相关描述);解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;基于第一预测值与标注的差值,确定第一损失函数值。
比如,对于一对标注数据
Figure DEST_PATH_IMAGE019
Figure 523306DEST_PATH_IMAGE020
为第i个输入图像,
Figure DEST_PATH_IMAGE021
Figure 359720DEST_PATH_IMAGE022
相应的像素级标注。语义分割模型对
Figure 834564DEST_PATH_IMAGE022
的预测为
Figure DEST_PATH_IMAGE023
,因为预测结果
Figure 924879DEST_PATH_IMAGE024
的空间维度和标注
Figure DEST_PATH_IMAGE025
不同。在这里,可以使用双线性插值对
Figure 106462DEST_PATH_IMAGE025
进行缩放,使得其空间维度和 标注数据相同,此时
Figure 358452DEST_PATH_IMAGE026
,其中C为类别总数。 接着,使用交叉熵函数计算模型 预测的第一损失函数值loss1,其中
Figure DEST_PATH_IMAGE027
利用第二训练数据对语义分割模型进行训练的具体过程包括:子过程(1):用于确定不确定性信息;子过程(2):用于利用不确定性信息确定伪标签;子过程(3):用于利用伪标签和第二训练数据进行训练。
图5为根据本发明实施方式确定不确定性信息的示范性示意图。在确定不确定性信息的子过程(1)中,丢弃模块处于工作状态,不确定性感知模块处于工作状态。
首先,将第二训练数据的样本
Figure 258275DEST_PATH_IMAGE011
输入语义分割模型重复执行n次预测。 其中,丢弃模块对编码器输出的特征向量执行丢弃处理,并将执行丢弃处理后的特征向量 发送到解码器。解码器得到的预测结果集合为
Figure 388167DEST_PATH_IMAGE012
然后,不确定性感知模块计算得到样本
Figure 689835DEST_PATH_IMAGE013
的正常预测结果
Figure 112726DEST_PATH_IMAGE014
上每一个像素处 结果的不确定性信息。计算过程包括:(1)、计算包含n次预测结果的预测结果集合的均值 mean,其中
Figure 499845DEST_PATH_IMAGE015
,其中
Figure 869647DEST_PATH_IMAGE016
为n个丢 弃处理作用下的预测样本集中的第i个;(2)、计算上一步得到均值mean的熵值entropy,其 中
Figure 822559DEST_PATH_IMAGE017
; (3)、计 算n次预测结果的互信息值mInfo,将mInfo作为预测样本的不确定性信息,其中
Figure 619614DEST_PATH_IMAGE018
在执行确定不确定性信息的子过程(1)后,接着执行利用不确定性信息确定伪标签的子过程(2)。
图6为根据本发明实施方式确定伪标签的示范性示意图。在子过程(2)中,丢弃模块处于不工作状态,不确定性感知模块处于不工作状态。
首先,将第二训练数据的样本
Figure 228450DEST_PATH_IMAGE011
输入语义分割模型执行预测。其中,由 于丢弃模块处于不工作状态,因此对编码器输出的特征向量并不执行丢弃处理。解码器基 于编码器输出的特征向量,直接得到第二预测值。接着,利用子过程(1)确定的不确定性信 息mInfo,对该第二预测值进行校正,再基于校正后的第二预测值生成伪标签。
比如,对于第j个无标注图像
Figure 464259DEST_PATH_IMAGE028
, 记语义分割模型对样本
Figure 474940DEST_PATH_IMAGE028
的预测结果为
Figure DEST_PATH_IMAGE029
。使用不确定性信息
Figure 6678DEST_PATH_IMAGE030
校正预测
Figure DEST_PATH_IMAGE031
以得到校正后的预测结果
Figure 165127DEST_PATH_IMAGE032
,其中
Figure 876731DEST_PATH_IMAGE032
=
Figure 741919DEST_PATH_IMAGE031
*sigmoid(
Figure 943093DEST_PATH_IMAGE030
), sigmoid为常用归一化函数,作用为将
Figure 526521DEST_PATH_IMAGE030
中的每一个值缩放到0~1之间。
然后,根据
Figure 838554DEST_PATH_IMAGE032
为样本
Figure 823827DEST_PATH_IMAGE028
生成对应的伪标签
Figure DEST_PATH_IMAGE033
=max(
Figure 697368DEST_PATH_IMAGE032
, 0),
Figure 768092DEST_PATH_IMAGE034
在执行利用不确定性信息确定伪标签的子过程(2)后,接着执行利用伪标签和第二训练数据进行训练的子过程(3)。
图7为根据本发明实施方式利用第二训练数据进行训练的示范性示意图。
在子过程(3)中,丢弃模块处于工作状态,不确定性感知模块处于不工作状态。
首先,将第二训练数据的样本
Figure 883816DEST_PATH_IMAGE011
输入语义分割模型执行预测。其中,丢 弃模块对编码器输出的特征向量执行丢弃处理,并将执行丢弃处理后的特征向量发送到解 码器。解码器得到第三预测值
Figure DEST_PATH_IMAGE035
。接着使用交叉熵函数、第三预测值
Figure 723596DEST_PATH_IMAGE035
和伪标签
Figure 266572DEST_PATH_IMAGE036
计算模型预测的第二损失函数值loss2,其中
Figure DEST_PATH_IMAGE037
确定出第一损失函数值loss1和第二损失函数值loss2后,可以计算loss1和loss2的加权求和值,以作为第三损失函数值。然后,根据第三损失函数值的损失梯度反向更新语义分割模型的模型参数,以使第三损失函数值低于预设阈值,从而完成语义分割模型的训练过程。
当完成语义分割模型的训练过程后,可以去除丢弃模块和不确定性感知模块,并利用完成训练的语义分割模型执行图像识别任务。本发明实施方式还提出一种图像识别方法。该方法包括:利用如上所述的任意的语义分割模型的训练方法,训练语义分割模型;利用语义分割模型对待识别图像中的待标注对象进行标注。
图8为根据本发明实施方式的语义分割模型的训练装置的示范性结构图。如图8所示,语义分割模型的训练装置300包括:确定模块301,用于确定有标注的第一训练数据和无标注的第二训练数据;训练模块302,用于基于第一训练数据和第二训练数据,训练语义分割模型303,其中训练过程包括:基于将第一训练数据输入语义分割模型303所获取的预测值与标注的差值,确定语义分割模型303的第一损失函数值;基于将第二训练数据输入语义分割模型303所获取的预测值与伪标签的差值,确定语义分割模型303的第二损失函数值,其中伪标签是基于第二训练数据的不确定性信息而确定的;基于第一损失函数值和第二损失函数值,确定语义分割模型303的第三损失函数值;配置语义分割模型303的模型参数,以使第三损失函数值低于预设阈值。
在示范性实施方式中,语义分割模型303包括编码器和解码器;训练模块302,用于基于编码器确定第一训练数据的第一特征向量;对第一特征向量执行丢弃处理;基于解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;基于第一预测值与标注的差值,确定第一损失函数值。
在示范性实施方式中,语义分割模型303包括编码器和解码器;训练模块302,用于确定第二训练数据的不确定性信息;基于编码器确定第二训练数据的第二特征向量;基于解码器对第二特征向量执行语义分割预测以得到第二预测值;基于不确定性信息对第二预测值进行校正;基于校正后的第二预测值生成伪标签;基于编码器确定第二训练数据的第三特征向量;对第三特征向量执行丢弃处理;基于解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值;基于第三预测值与伪标签的差值,确定第二损失函数值。
在示范性实施方式中,训练模块302,用于将第二训练数据输入到语义分割模型中n次,以得到n个第二预测值;其中对于每一次输入:基于编码器确定该次输入的第二训练数据的第二特征向量;对该次输入的第二特征向量执行丢弃处理;基于解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值;确定n个第二预测值的平均值;确定平均值的熵值;基于熵值以及n个第二预测值,确定第二训练数据的不确定性信息。
在示范性实施方式中,训练模块302,用于对作为丢弃处理的输入的特征向量执行池化处理,以得到池化特征向量;对池化特征向量包含的通道维度的预测得分进行排序;按照从大到小的排序顺序,从排序结果中确定预定数目的预测得分;计算预定数目的预测得分的求和结果P;按照从大到小的排序顺序,从排序结果中确定P个预测得分所对应的P个通道的P个编号;在每个编号的空间区域内,随机选取预定大小的区域,将选中区域中的值设置为零。
图9为根据本发明实施方式的图像识别装置的示范性结构图。图像识别装置400包括:如图3所示语义分割模型的训练装置300;以及图像识别模块304,用于利用语义分割模型的训练装置300训练出的语义分割模型303,对待识别图像中的待标注对象进行标注。
本发明还分别提出一种电子设备。电子设备包括:处理器;存储器;其中存储器中存储有可被处理器执行的应用程序,用于使得处理器执行如上实施方式的语义分割模型的训练方法或图像识别方法。其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU、MCU或数字信号处理器(DSP)。
图10为本发明实施方式的电子设备的示范性结构图。优选地,电子设备800可以实施为低功耗摄像设备。
电子设备800包括:处理器801和存储器802。处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(Central Processing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施方式中,处理器801可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施方式中,处理器801还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。比如,AI处理器可以实施为神经网络处理器。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。
在一些实施方式中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,至少一个指令用于被处理器801所执行以实现本公开中各个实施方式提供的语义分割模型的训练方法或图像识别方法。在一些实施方式中,电子设备800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。外围设备接口803可被用于将输入/输出(Input/Output,I/O)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施方式中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施方式中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施方式对此不加以限定。
射频电路804用于接收和发射射频(Radio Frequency,RF)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(Wireless Fidelity,Wi-Fi)网络。在一些实施方式中,射频电路804还可以包括近距离无线通信(Near Field Communication,NFC)有关的电路,本公开对此不加以限定。
显示屏805用于显示用户界面(User Interface,UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施方式中,显示屏805可以为一个,设置在电子设备800的前面板;在另一些实施方式中,显示屏805可以为至少两个,分别设置在电子设备800的不同表面或呈折叠设计;在一些实施方式中,显示屏805可以是柔性显示屏,设置在电子设备800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施方式中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality,VR)拍摄功能或者其它融合拍摄功能。在一些实施方式中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施方式中,音频电路807还可以包括耳机插孔。定位组件808用于定位电子设备800的当前地理位置,以实现导航或基于位置的服务(Location Based Service,LBS)。定位组件808可以是基于美国的全球定位系统(Global Positioning System,GPS)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。
本领域技术人员可以理解,上述的结构并不构成对电子设备800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本申请方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施方式中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
以上,仅为本发明的较佳实施方式而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种语义分割模型的训练方法,其特征在于,包括:
确定有标注的第一训练数据和无标注的第二训练数据;
基于所述第一训练数据和所述第二训练数据,训练所述语义分割模型,其中训练过程包括:
基于将所述第一训练数据输入所述语义分割模型所获取的预测值与所述标注的差值,确定所述语义分割模型的第一损失函数值;
基于将所述第二训练数据输入所述语义分割模型所获取的预测值与伪标签的差值,确定所述语义分割模型的第二损失函数值,其中所述伪标签是基于所述第二训练数据的不确定性信息而确定的;
基于所述第一损失函数值和所述第二损失函数值,确定所述语义分割模型的第三损失函数值;
配置所述语义分割模型的模型参数,以使所述第三损失函数值低于预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述语义分割模型包括编码器和解码器,所述基于将第一训练数据输入语义分割模型所获取的预测值与所述标注的差值,确定第一损失函数值包括:
基于所述编码器确定所述第一训练数据的第一特征向量;
对所述第一特征向量执行丢弃处理;
基于所述解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;
基于所述第一预测值与所述标注的差值,确定所述第一损失函数值。
3.根据权利要求1所述的方法,其特征在于,所述语义分割模型包括编码器和解码器,所述基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值,确定第二损失函数值包括:
确定所述第二训练数据的不确定性信息;
基于所述编码器确定所述第二训练数据的第二特征向量;
基于所述解码器对所述第二特征向量执行语义分割预测以得到第二预测值;
基于所述不确定性信息对所述第二预测值进行校正;
基于校正后的第二预测值生成所述伪标签;
基于所述编码器确定所述第二训练数据的第三特征向量;
对所述第三特征向量执行丢弃处理;
基于所述解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值;
基于所述第三预测值与所述伪标签的差值,确定所述第二损失函数值。
4.根据权利要求3所述的方法,其特征在于,所述确定所述第二训练数据的不确定性信息包括:
将所述第二训练数据输入到所述语义分割模型中n次,以得到n个第二预测值;其中对于每一次输入:基于所述编码器确定该次输入的第二训练数据的第二特征向量;对该次输入的第二特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值;
确定所述n个第二预测值的平均值;
确定所述平均值的熵值;
基于所述熵值以及所述n个第二预测值,确定所述第二训练数据的不确定性信息。
5.根据权利要求2-4中任一项所述的方法,其特征在于,所述执行丢弃处理包括:
对作为所述丢弃处理的输入的特征向量执行池化处理,以得到池化特征向量;
对所述池化特征向量包含的通道维度的预测得分进行排序;
按照从大到小的排序顺序,从排序结果中确定预定数目的预测得分;
计算所述预定数目的预测得分的求和结果P;
按照从大到小的排序顺序,从排序结果中确定P个预测得分所对应的P个通道的P个编号;
在每个编号的空间区域内,随机选取预定大小的区域,将选中区域中的值设置为零。
6.一种图像识别方法,其特征在于,包括:
利用权利要求1至5中任一项所述的语义分割模型的训练方法,训练语义分割模型;
利用所述语义分割模型对待识别图像中的待标注对象进行标注。
7.一种语义分割模型的训练装置,其特征在于,包括:
确定模块,用于确定有标注的第一训练数据和无标注的第二训练数据;
训练模块,用于基于所述第一训练数据和所述第二训练数据,训练所述语义分割模型,其中训练过程包括:
基于将所述第一训练数据输入所述语义分割模型所获取的预测值与所述标注的差值,确定所述语义分割模型的第一损失函数值;
基于将所述第二训练数据输入所述语义分割模型所获取的预测值与伪标签的差值,确定所述语义分割模型的第二损失函数值,其中所述伪标签是基于所述第二训练数据的不确定性信息而确定的;
基于所述第一损失函数值和所述第二损失函数值,确定所述语义分割模型的第三损失函数值;
配置所述语义分割模型的模型参数,以使所述第三损失函数值低于预设阈值。
8.根据权利要求7所述的装置,其特征在于,所述语义分割模型包括编码器和解码器;
所述训练模块,用于基于所述编码器确定所述第一训练数据的第一特征向量;对所述第一特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值;基于所述第一预测值与所述标注的差值,确定所述第一损失函数值。
9.根据权利要求7所述的装置,其特征在于,所述语义分割模型包括编码器和解码器;
所述训练模块,用于确定所述第二训练数据的不确定性信息;基于所述编码器确定所述第二训练数据的第二特征向量;基于所述解码器对所述第二特征向量执行语义分割预测以得到第二预测值;基于所述不确定性信息对所述第二预测值进行校正;基于校正后的第二预测值生成所述伪标签;基于所述编码器确定所述第二训练数据的第三特征向量;对所述第三特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值;基于所述第三预测值与所述伪标签的差值,确定第二损失函数值。
10.根据权利要求9所述的装置,其特征在于,
所述训练模块,用于将所述第二训练数据输入到所述语义分割模型中n次,以得到n个第二预测值;其中对于每一次输入:基于所述编码器确定该次输入的第二训练数据的第二特征向量;对该次输入的第二特征向量执行丢弃处理;基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值;确定所述n个第二预测值的平均值;确定所述平均值的熵值;基于所述熵值以及所述n个第二预测值,确定所述第二训练数据的不确定性信息。
11.根据权利要求8-10中任一项所述的装置,其特征在于,
所述训练模块,用于对作为所述丢弃处理的输入的特征向量执行池化处理,以得到池化特征向量;对所述池化特征向量包含的通道维度的预测得分进行排序;按照从大到小的排序顺序,从排序结果中确定预定数目的预测得分;计算所述预定数目的预测得分的求和结果P;按照从大到小的排序顺序,从排序结果中确定P个预测得分所对应的P个通道的P个编号;在每个编号的空间区域内,随机选取预定大小的区域,将选中区域中的值设置为零。
12.一种图像识别装置,其特征自语,包括:
如权利要求7至11中任一项所述的语义分割模型的训练装置;以及
图像识别模块,用于利用所述语义分割模型的训练装置训练出的语义分割模型,对待识别图像中的待标注对象进行标注。
13.一种电子设备,其特征在于,包括:
存储器;
处理器;
其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至5中任一项所述的语义分割模型的训练方法或如权利要求6所述的图像识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行如权利要求1至5中任一项所述的语义分割模型的训练方法或如权利要求6所述的图像识别方法。
CN202211366374.6A 2022-11-03 2022-11-03 语义分割模型的训练方法、识别方法、装置和存储介质 Active CN115471662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211366374.6A CN115471662B (zh) 2022-11-03 2022-11-03 语义分割模型的训练方法、识别方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211366374.6A CN115471662B (zh) 2022-11-03 2022-11-03 语义分割模型的训练方法、识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN115471662A true CN115471662A (zh) 2022-12-13
CN115471662B CN115471662B (zh) 2023-05-02

Family

ID=84338054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211366374.6A Active CN115471662B (zh) 2022-11-03 2022-11-03 语义分割模型的训练方法、识别方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN115471662B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690100A (zh) * 2022-12-28 2023-02-03 珠海横琴圣澳云智科技有限公司 半监督信号点检测模型训练方法、信号点检测方法和装置
CN116109823A (zh) * 2023-01-13 2023-05-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质和程序产品
CN116883673A (zh) * 2023-09-08 2023-10-13 腾讯科技(深圳)有限公司 语义分割模型训练方法、装置、设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035169A (zh) * 2018-07-19 2018-12-18 西安交通大学 一种无监督/半监督ct图像重建深度网络训练方法
US20190354857A1 (en) * 2018-05-17 2019-11-21 Raytheon Company Machine learning using informed pseudolabels
CN111598914A (zh) * 2020-05-12 2020-08-28 湖南大学 一种基于不确定性引导的自适应图像分割方法
CN111709315A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种基于领域适配的水声目标辐射噪声识别方法
CN111832570A (zh) * 2020-07-02 2020-10-27 北京工业大学 一种图像语义分割模型训练方法及系统
CN112116593A (zh) * 2020-08-06 2020-12-22 北京工业大学 一种基于基尼指数的领域自适应语义分割方法
CN113221903A (zh) * 2021-05-11 2021-08-06 中国科学院自动化研究所 跨域自适应语义分割方法及系统
CN113392933A (zh) * 2021-07-06 2021-09-14 湖南大学 一种基于不确定性引导的自适应跨域目标检测方法
CN113971727A (zh) * 2021-10-21 2022-01-25 京东鲲鹏(江苏)科技有限公司 一种语义分割模型的训练方法、装置、设备和介质
CN114049344A (zh) * 2021-11-23 2022-02-15 上海商汤智能科技有限公司 图像分割方法及其模型的训练方法及相关装置、电子设备
CN114463335A (zh) * 2021-12-24 2022-05-10 中国科学院自动化研究所 弱监督语义分割方法、装置、电子设备及存储介质
US20220237788A1 (en) * 2019-11-22 2022-07-28 Hoffmann-La Roche Inc. Multiple instance learner for tissue image classification
CN114841219A (zh) * 2022-06-06 2022-08-02 成都信息工程大学 基于半监督学习的单通道脑电睡眠分期方法
CN115240024A (zh) * 2022-06-16 2022-10-25 北京大学 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN115359484A (zh) * 2022-08-23 2022-11-18 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354857A1 (en) * 2018-05-17 2019-11-21 Raytheon Company Machine learning using informed pseudolabels
CN109035169A (zh) * 2018-07-19 2018-12-18 西安交通大学 一种无监督/半监督ct图像重建深度网络训练方法
US20220237788A1 (en) * 2019-11-22 2022-07-28 Hoffmann-La Roche Inc. Multiple instance learner for tissue image classification
CN111598914A (zh) * 2020-05-12 2020-08-28 湖南大学 一种基于不确定性引导的自适应图像分割方法
CN111709315A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种基于领域适配的水声目标辐射噪声识别方法
CN111832570A (zh) * 2020-07-02 2020-10-27 北京工业大学 一种图像语义分割模型训练方法及系统
CN112116593A (zh) * 2020-08-06 2020-12-22 北京工业大学 一种基于基尼指数的领域自适应语义分割方法
CN113221903A (zh) * 2021-05-11 2021-08-06 中国科学院自动化研究所 跨域自适应语义分割方法及系统
CN113392933A (zh) * 2021-07-06 2021-09-14 湖南大学 一种基于不确定性引导的自适应跨域目标检测方法
CN113971727A (zh) * 2021-10-21 2022-01-25 京东鲲鹏(江苏)科技有限公司 一种语义分割模型的训练方法、装置、设备和介质
CN114049344A (zh) * 2021-11-23 2022-02-15 上海商汤智能科技有限公司 图像分割方法及其模型的训练方法及相关装置、电子设备
CN114463335A (zh) * 2021-12-24 2022-05-10 中国科学院自动化研究所 弱监督语义分割方法、装置、电子设备及存储介质
CN114841219A (zh) * 2022-06-06 2022-08-02 成都信息工程大学 基于半监督学习的单通道脑电睡眠分期方法
CN115240024A (zh) * 2022-06-16 2022-10-25 北京大学 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN115359484A (zh) * 2022-08-23 2022-11-18 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾孟兰;杨芯萍;董学莲;罗倩;: "基于弱监督学习的图像语义分割方法综述" *
杨灿;: "一种结合GAN和伪标签的深度半监督模型研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690100A (zh) * 2022-12-28 2023-02-03 珠海横琴圣澳云智科技有限公司 半监督信号点检测模型训练方法、信号点检测方法和装置
CN116109823A (zh) * 2023-01-13 2023-05-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质和程序产品
CN116883673A (zh) * 2023-09-08 2023-10-13 腾讯科技(深圳)有限公司 语义分割模型训练方法、装置、设备及存储介质
CN116883673B (zh) * 2023-09-08 2023-12-26 腾讯科技(深圳)有限公司 语义分割模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115471662B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN110121118B (zh) 视频片段定位方法、装置、计算机设备及存储介质
CN110232696B (zh) 一种图像区域分割的方法、模型训练的方法及装置
CN109086709B (zh) 特征提取模型训练方法、装置及存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN115471662A (zh) 语义分割模型的训练方法、识别方法、装置和存储介质
CN111062981B (zh) 图像处理方法、装置及存储介质
CN113395542B (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
CN111325699B (zh) 图像修复方法和图像修复模型的训练方法
CN110490179B (zh) 车牌识别方法、装置及存储介质
CN110807361A (zh) 人体识别方法、装置、计算机设备及存储介质
CN110490186B (zh) 车牌识别方法、装置及存储介质
CN113076814B (zh) 文本区域的确定方法、装置、设备及可读存储介质
CN110991457B (zh) 二维码处理方法、装置、电子设备及存储介质
CN111589138B (zh) 动作预测方法、装置、设备及存储介质
CN110544287A (zh) 一种配图处理方法及电子设备
CN114419588A (zh) 一种车辆检测方法、装置、边缘设备和存储介质
CN112132070A (zh) 驾驶行为分析方法、装置、设备及存储介质
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN111709993A (zh) 物体的位姿信息确定方法、装置、终端及存储介质
CN111428551A (zh) 密度检测方法、密度检测模型训练方法和装置
CN114996515A (zh) 视频特征提取模型的训练方法、文本生成方法及装置
CN111444749A (zh) 路面导向标志的识别方法、装置及存储介质
CN113192072B (zh) 图像分割方法、装置、设备及存储介质
CN114462580A (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
CN114298268A (zh) 图像获取模型的训练方法、图像检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant