CN113673607A - 图像标注模型的训练及图像标注的方法及装置 - Google Patents
图像标注模型的训练及图像标注的方法及装置 Download PDFInfo
- Publication number
- CN113673607A CN113673607A CN202110976261.7A CN202110976261A CN113673607A CN 113673607 A CN113673607 A CN 113673607A CN 202110976261 A CN202110976261 A CN 202110976261A CN 113673607 A CN113673607 A CN 113673607A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- feature map
- prototype
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000012549 training Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 347
- 238000002372 labelling Methods 0.000 claims abstract description 130
- 230000008569 process Effects 0.000 claims abstract description 51
- 230000004913 activation Effects 0.000 claims description 164
- 238000000605 extraction Methods 0.000 claims description 163
- 238000012937 correction Methods 0.000 claims description 69
- 238000010586 diagram Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 32
- 238000012986 modification Methods 0.000 claims description 23
- 230000004048 modification Effects 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 23
- 230000000875 corresponding effect Effects 0.000 description 151
- 241001494479 Pecora Species 0.000 description 13
- 238000013145 classification model Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 210000000746 body region Anatomy 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000272201 Columbiformes Species 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 241000283073 Equus caballus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 241000518994 Conta Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例提供一种图像标注模型的训练及图像标注的方法及装置。通过本说明书实施例提供的方法和装置,针对训练集中的图像,可以通过图像级的类别标签进行像素级的标注。在具体图像标注模型训练及图像标注过程中,通过原型向量对不同图像之间的特征进行交叉比较,从而进一步挖掘图像中的目标区域,还可以筛除非目标区域,实现弱监督下的目标分割任务。在损失确定过程中,不仅考虑分类损失,还考虑修正后的分割结果与本来的分割结果之间的相似性,从而使得分割结果更加稳定。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及图像标注模型的训练及图像标注的方法及装置。
背景技术
图像处理在日常生产或生活中有着广泛的应用。例如:基于镭射等技术的激光防伪检测、文档区域分割、全景分割、目标识别等等。在这些应用中,用图像级标签训练的弱监督图像分割通常在伪真值的生成过程中对目标区域造成不准确覆盖。这是因为对象激活图是用分类目标训练的,并且缺乏概括的能力。为了更准确地将目标和背景分离开来,通常涉及像素级的标注,即逐像素标注类别。这可能给标注工作带来极大人力消耗。
发明内容
本说明书一个或多个实施例描述了一种图像标注模型的训练方法及装置,以及使用训练好的图像标注模型进行目标标注的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供一种图像标注模型的训练方法,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;通过预训练的特征提取模块分别处理所述第一图像、所述第二图像,得到对应的第一特征图、第二特征图;利用所述原型提取模块,分别从所述第一特征图、所述第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且对应有满足激活条件的相应激活值;经由修正模块,针对从所述第一特征图、第二特征图提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;根据所述第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果,所述分类结果包括像素级的标注结果;基于所述分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
在一个实施例中,所述特征提取模块包括由多个卷积层构成的第一卷积块,所述第一卷积块中的各个卷积层的卷积结果的通道数相同,所述第一特征图包括所述第一卷积块中的多个卷积层对所述第一图像进行卷积操作的各个卷积结果,所述第二特征图包括所述第一卷积块中的多个卷积层对所述第二图像进行卷积操作的各个卷积结果。
在一个实施例中,所述利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量包括,经由以下方式第一特征图提取多个原型向量:检测第一特征图中,各个特征点分别对应的各个激活值,其中,单个特征点的单个激活值与该单个特征点在各个通道的特征值的绝对值均为正相关;从满足激活条件的特征点中选择出多个特征点,作为候选特征点;针对单个候选特征点,根据其在各个通道的特征值,构建相应的单个原型向量。
在一个实施例中,所述激活条件为激活值大于预定激活阈值;所述从满足激活条件的特征点中选择出多个特征点,作为候选特征点包括以下中的至少一项:将激活值大于预定激活阈值的特征点全部作为候选特征点;从激活值大于预定激活阈值的特征点中随机选择预定数量的特征点部作为候选特征点;在激活值大于预定激活阈值的特征点中,按照激活值由大到小的顺序选择预定数量的特征点部作为候选特征点。
在一个实施例中,所述按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图包括:针对单个原型向量,将该单个原型向量与其他原型向量的最大相似度作为其在第一特征图/第二特征图上对应的单个特征点的特征值的置信度;将第一修正特征图/第二修正特征图中,该单个特征点的各个特征值分别按照所述置信度与相应的特征值的乘积进行修正,从而将所述第一特征图、第二特征图分别修正为相应的第一修正特征图、第二修正特征图。
在一个实施例中,所述模型损失包括针对第一图像的第一损失和针对所述第二图像的第二损失,针对所述第一图像,所述分类结果包括像素级的第一标注结果,以及图像级的第一分类结果,所述第一损失包括:经由所述第一分类结果与所述第一类别标签的对比确定的第一分类损失;以及,由所述第一标注结果与利用所述第一特征图确定的第二标注结果的对比确定的第一修正损失。
在一个实施例中,所述第一分类损失通过所述第一分类结果与所述第一类别标签的交叉熵确定。
在一个实施例中,所述第一修正损失通过以下方式确定:经由所述分类模块处理所述第一特征图,得到像素级的第二标注结果;针对第一标注结果和第二标注结果,逐像素比较标注差值;利用各个像素分别对应的标注差值的和,确定所述第一修正损失。
在一个实施例中,所述第一标注结果是在利用分类模块对第一图像进行分类通过边界细化得到的结果。
在一个实施例中,所述图像标注模型的待定参数包括所述原型提取模块、修正模块、分类模块中的待定参数。
在一个实施例中,所述方法还包括:根据包括第一图像和第二图像在内的当前批次训练样本,检测当前批次训练样本及向前连续多个批次的训练样本对应的各个模型损失;在各个模型损失的滑动平均的变化小于预定损失值的情况下,确定图像标注模型训练完成。
根据第二方面,提供一种图像标注的方法,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的像素级的标注结果。
根据第三方面,提供一种图像标注模型的训练方法,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:从样本集中获取第一图像,其中,第一图像对应有第一类别标签;通过预训练的特征提取模块处理所述第一图像,得到第一特征图;利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图,所述基准向量从所述第一类别标签对应的图像中提取;根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果,所述第一分类结果包括像素级的第一标注结果;基于所述第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
在一个实施例中,所述基准向量集中的基准向量通过以下方式确定:利用预先训练的特征提取模块对样本集中的各个图像提取相应特征图;在各个特征图中,选择激活值大于第一激活阈值的各个候选特征点,所述第一激活阈值相较于所述激活条件,筛选出激活值更高的特征点;针对单个候选特征点,根据其在各个通道的特征值,构建相应的单个基准向量,并加入所述基准向量集。
在一个实施例中,所述方法还包括:针对从第一特征图提取的第一原型向量,检测其与各个基准向量的第一最大相似度是否大于预定相似度阈值;在第一最大相似度大于预定相似度阈值的情况下,将所述第一原型向量作为基准向量加入基准向量集。
在一个实施例中,所述模型损失包括针对第一图像的第一损失,针对所述第一图像,所述分类结果包括像素级的第一标注结果,以及图像级的第一分类结果,所述第一损失包括:经由所述第一分类结果与所述第一类别标签的对比确定的第一分类损失;以及,由所述第一标注结果与利用所述第一特征图确定的第二标注结果的对比确定的第一修正损失。
在一个实施例中,所述方法还包括:根据包括第一图像在内的当前批次训练样本,检测当前批次训练样本及向前连续多个批次的训练样本对应的各个模型损失;在各个模型损失的滑动平均的变化小于预定损失值的情况下,确定图像标注模型训练完成。
根据第四方面,提供一种图像标注的方法,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:从样本集中获取第一图像,其中,第一图像对应有第一类别标签;通过预训练的特征提取模块处理所述第一图像,得到第一特征图;利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图;根据第一修正特征图,利用分类模块对第一图像进行分类,得到针对第一图像的像素级的第一标注结果。
根据第五方面,提供一种图像标注模型的训练装置,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
原型提取单元,配置为利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
分类单元,配置为根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果,所述分类结果包括像素级的标注结果;
调整单元,配置为基于所述分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
根据第六方面,提供一种图像标注的装置,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
原型提取单元,配置为利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
标注单元,配置为根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的像素级的标注结果。
根据第七方面,提供一种图像标注模型的训练装置,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理所述第一图像,得到第一特征图;
原型提取单元,配置为利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图;
分类单元,配置为根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果,所述第一分类结果包括像素级的第一标注结果;
调整单元,配置为基于所述第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
根据第八方面,提供一种图像标注的装置,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理所述第一图像,得到第一特征图;
原型提取单元,配置为利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图;
标注单元,配置为根据第一修正特征图,利用分类模块对第一图像进行分类,得到针对第一图像的像素级的第一标注结果。
根据第九方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面至第四方面中任一项的所述的方法。
根据第十方面,提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面至第四方面中任一项所述的方法。
通过本说明书实施例提供的装置和方法,针对训练集中的图像,可以通过图像级的类别标签进行像素级的标注。在具体图像标注模型训练及图像标注过程中,通过原型向量对不同图像之间的特征进行交叉比较,从而进一步挖掘图像中的目标区域,还可以筛除非目标区域,实现弱监督的分割任务。在损失确定过程中,不仅考虑分类损失,还考虑修正后的分割结果与本来的分割结果之间的相似性,从而使得分割结果更加稳定。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是在本说明书技术构思下的一个应用场景示意图;
图2示出根据本说明书技术构思下的一个实施架构示意图;
图3示出本说明书一个实施例的图像标注模型的训练流程示意图;
图4示出多个图像交叉对比构思下的一个具体网络架构示意图;
图5示出一个具体例子的原型向量提取示意图;
图6示出示出本说明书一个实施例的图像标注流程示意图;
图7示出本说明书一个实施例的图像标注模型的训练流程示意图;
图8示出一次处理单个图像构思下的一个具体网络架构示意图;
图9示出出本说明书另一个实施例的图像标注流程示意图;
图10示出本说明书技术构思下的图像标注效果示意图;
图11示出本说明书一个实施例的图像标注模型的训练装置示意框图;
图12示出本说明书一个实施例的图像标注装置示意框图。
具体实施方式
本说明书提供的方案针对的是图像的目标识别业务场景。下面结合附图,对本说明书提供的方案进行描述。值得说明的是,本申请的技术方案涉及图像处理,附图中涉及一些图像或计算机屏幕截图,为了示意更加明了,这些图像的色块等没有进行消除,其转换成灰度图像后的清晰度不影响方案实质的表达。
图1示出了本说明书技术架构的一个应用场景示例。该应用场景是一个证件的镭射图案区域识别场景。如图1所示,左侧是一个证件照片示意,为了保护数据隐私,将图示中证件重要信息部分通过色块掩盖。该应用内该场景的目的是从左侧的证件图片中,标注出右侧的识别目标区域。其中,根据证件的防伪设置不同,识别目标也不同。图1的示例中,防伪识别目标分为两块区域。这两块区域与证件图片区域的对应关系分别由双向箭头线101和102表示,同一条线两端的箭头所指区域相对应。
可以理解,除了图1示出的证件防伪标识识别场景,本说明书的技术架构还可以应用于文档分割(如识别分割文档中的文字区域、表格区域、图片区域等)、全景分割等场景,在此不做限定。
参考图1所示,为了对图像中的目标进行识别,可以训练相应的图像识别模型。常规技术中,用图像级标签(如对于整张图片的分类标签)直接训练弱监督图像识别模型(或图像分割模型),通常在预测结果的生成过程中对目标区域产生不准确的覆盖。这是因为分类标签缺乏概括的能力。在一些方案中,还使用标注框等标注训练样本。而很多目标识别场景可能需要较精确的目标区域识别。可以理解,很多图像的识别目标和其他实体之间可能存在重叠等情形。类似的情形下,为了图像识别模型的准确性,更需要逐像素标注的训练样本用于训练图像识别模型。针对图像进行像素级的标注时,如果通过人力逐像素打标,虽然可以得到较准确的标注结果,但进度缓慢,且需要耗费较大精力。这样,对标注人员的能力要求和工作量都大大提高,从而增加人力成本,降低模型训练效率。
而针对图像进行目标类别标注,例如标注出一个图像是否包含真实的证件镭射区域等,则标注速度会大大加快。据此,本说明书旨在训练一种图像标注模型,用于对样本集中通过图像级的类别标签(如包含防伪团的真实证件、不包含防伪图案的非真实证件等标注结果)进行标注的图像,进一步进行逐像素的标注。也就是说,图像标注模型可以用于标注图像中的目标,例如逐像素标注出防伪码区域、文字/图片/表格区域,或者标注出其他目标区域。逐像素标注的样本图像可以用于训练图像识别模型。
可以理解,通常,目标区域的多样性远远小于背景的多样性。例如,在目标为人物的识别场景下,图像中人物的区域可以包括头部、躯干、手臂等区域,且目标区域的轮廓具有相似性,而背景可以是天空、道路、各种建筑、树林、草地等等。因此,如果提取目标的区域作为原型或参考,借助训练图像的多样性,原型的信息可以在训练期间在不同的图像间很好地传播,并从其他样本中激活类似区域。相反,如果原型对应的是被分类目标错误激活的背景区域,由于背景的多样性明显更多,这些原型很难找到它们相似的其他原型,那么将被过滤掉,与目标区域相比,其信息传播要慢得多,甚至不被传播。
如图2给出的构思示例,图像B经过卷积神经网络CNN的处理后,仅鸟的头部区域201被激活,身体区域202未被激活,而在图像A中小鸟的头部和身体区域均被激活。如果利用图像A中的身体特征(如对应身体区域203、204等)来指导图像B找出其失活的身体区域并突出它们,则可以得到如图像C示出的鸟的区域全激活的标注图像。基于这一构思,可以构建区域原型提取网络,以提取图像目标特征区域对应的原型,并交叉对比这些原型。也就是说,提出在同一目标类别的样本图像中捕获与目标相关的独特特征区域的原型,从而将从不同样本中提取的原型交叉利用,在它们的特征图中增强特征区域或过滤非特征区域,从而可以充分利用训练集中上下文的目标特征。
本说明书提供的技术构思,提出一个区域原型网络来探索训练样本之间的跨图像目标传递性的方案。具体地,在模型训练过程中,采用仅有图像级的分类标签的训练样本,例如单个训练样本对应的分类标签为目标类别(如羊、鸟、正确防伪标识等)。通过这种训练样本提取目标特征,从而构建关于目标的原型向量集。然后,检测训练样本的其他特征向量与各个原型向量之间的相似程度。一方面,利用目标区域的多样性远远小于背景的多样性的客观事实,在不同样本图像的相似的原型向量之间传递较高的置信度,使得更多与目标相关的区域被激活,另一方面,利用背景的多样性远远大于目标区域的多样性的特点,在不同样本图像无相似原型向量的区域传递较低的置信度,使得非目标区域被过滤。从而,可以通过图像之间的特征交叉传递,自动在图像级标签的基础上,对目标进行像素级的标注。
该技术构思可以通过区域特征比较来识别不同图像中的相似对象部分(即与目标相关的区域),从而使得识别目标区域按照高置信度在图像之间传播,以发现新的目标区域,非目标区域以低置信度。这种方式基于目标区域的共性,简化训练样本的标注流程,节约人力成本。
下面结合具体实施例描述本说明书设计构思中的技术细节。
请参考图3所示,图3给出了根据一个实施例的图像标注模型的训练流程示意图。该流程的执行主体可以是任意具有一定计算能力的计算机、设备或服务器。可以理解,图像标注模型的训练过程可以包括多个批次的训练样本进行的训练。常规技术中,一个批次至少使用一张样本图像,且在单个批次,图像样本往往一一进行处理,并针对一个批次的图像确定模型损失。根据本说明书的实施架构,在图3示出的实施例,采用一个批次至少使用两张样本图像,且在单个批次,图像样本两两交叉处理的方式,针对一个批次的图像确定模型损失。
整体而言,图像标注模型可以包括特征提取模块、原型提取模块、修正模块、分类模块。如图3所示,图像标注模型的训练流程可以包括:步骤301,从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有第一类别标签;步骤302,通过预训练的特征提取模块分别处理第一图像、第二图像,得到各自对应的第一特征图、第二特征图;步骤303,利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且对应有满足激活条件的相应激活值;步骤304,经由修正模块,针对从第一特征图、第二特征图提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;步骤305,根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果,分类结果包括像素级的标注结果;步骤306,基于分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
为了更清楚地描述图像标注模型的训练流程,以下对图3的流程进行说明过程中,为了更直观地描述相关步骤,结合图4示出的一个流程架构图进行。图4是图像标注模型的训练流程中一个具体例子的流程架构图,其并不代表唯一架构。
首先,在步骤301中,从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有第一类别标签。可以理解,为了对图像进行目标识别,所使用的训练样本可以预先标注有类别标签。该类别标签可以人工标注,也可以通过预先训练的类别标注模型进行标注。为了标注的准确性,通常人工标注。类别标签是图像级的标注结果,也就是说,针对整个图像的整体标注结果,类别标签例如为:目标(如羊)图像、非目标(如非羊)图像,或者目标1(如羊)、目标2(如牛)、目标3(如马)、非目标(如非牛羊马等),或者数字形式的1、0,向量形式诸如(1,0,0),等等。
本说明书技术架构下,为了充分利用不同样本图像中的目标的共性特征,以精确标注出相关区域,可以选择同类别的图像交叉处理。这里假设选择进行交叉处理的图像包括具有第一类别标签的第一图像和第二图像。其中,这里的第一类别标签可以是各个识别目标中任一个识别目标对应的标签。第一图像和第二图像可以是从第一类别标签的训练样本中的任意两个图像,其可以是随机选择的图像,也可以是按照预定规则(如排列顺序)获取的两个图像,在此不作限定。如图4中关于目标“羊”的图像401和图像402。
值得说明的是,在本说明书实施架构下,单次进行交叉处理的图像至少为2个,实践中可以是两个,也可以是两个以上。图3、图4示出的实施例中,为了描述方便,以2个图像的交叉处理为例进行描述。
接着,通过步骤302,通过预先训练的特征提取模块分别处理第一图像、第二图像,得到第一图像对应的第一特征图,以及第二图像对应的第二特征图。特征提取模块的目的是提取与目标相关的特征,例如羊的头部特征、耳朵特征等等。可以理解,目标识别过程通常是结合多个特征共同判定的结果,特征提取模块提取到的特征通常和目标的识别相关。在实践中,特征提取模块提取的特征也可能不以人眼可见的头部、耳朵等进行区域的划分,而是通过深度学习由模型自定义的其他特征。
为了从第一图像、第二图像中提取特征,可以预先训练出特征提取模块。在本说明书中,特征提取模块可以是对目标进行分类的分类模型的靠前部分。可以理解,分类模型可以用于从图像中提取各种与目标相关的特征,并对提取到的特征进行融合,从而得到与相应类别标签一致的输出结果作为分类的依据。在图像处理领域,分类模型往往可以通过卷积神经网络实现,经由卷积核提取图像上的特征。分类模型被训练好之后,可以认为利用相应卷积核能够提取图像上的目标特征。这些提取的特征可以是肉眼可见的、可通过具象区分的特征,例如目标“羊”的头部特征、腿部特征等,也可以是抽象的、无法通过肉眼识别认知到的其他特征,在此不做限定。
训练好的分类模型,可以认为前半部分用于特征提取,后半部分用于特征融合及分类处理。这里,前半部分和后半部分可以是预先划分好的部分,例如分别称为特征提取模块和分类模块。本领域技术人员可以理解,对于具体的神经网络,尤其是深度神经网络来说,前半部分和后半部分往往没有明确的划分。这样,可以取排列靠前的若干层(如10层)作为前半部分,即特征提取部分,作为特征提取模块。
特征提取模块对图像提取相关特征,可以生成相应的特征图来表示。通常,特征图可以是通道数量多于样本图像且单个通道的分辨率小于样本图像的分辨率的阵列。例如,样本图像为1960×1024像素,共R、G、B三个通道,可以记为1960×1024×3维的数据,特征图为512通道,单个通道的特征点数为64×64,记为64×64×512维的特征数据。这样,一个特征点对应的数据可以表示多个像素构成的区域的特征。例如,一个特征点描述了30×16个像素的区域特征。在本步骤302中,将针对第一图像、第二图像得到的特征数据分别称为第一特征图、第二特征图。
实践中,在一些实施例中,特征图也可以与样本图像的像素一致,或者特征点数多于像素(此时可以由多个特征点表示一个像素的特征),在此不做限定。
特征提取模块中,不同的卷积层,所提取的特征也不一样。通常,排列靠前的卷积层可以提取更多细节特征,排列靠后的卷积层具有更大的感受野。因此,根据一个可能的设计,为了提取不同意义的特征图,还可以采用在多个卷积层分别采集特征数据,并一起作为相应图像的特征图。如图4所示,可以通过n个不同的卷积层分别获取n个不同的特征图403,记为f1至fn。特征图403中的f1至fn可以一起作为第一图像401对应的n个第一特征图,也可以统称为第一特征图。由前文可知,第一特征图可以提取第一图像中与目标对应的特征图。如特征图403中,各个小圆圈可以表示各个特征点。
在一个实施例中,取自不同卷积层的第一特征图的通道数一致,例如都是512通道,这样更加便于不同图像之间的特征相互激活。在一个具体例子中,卷积神经网络可以按“块(block)”分割,单个“块”中各个卷积层输出的特征图通道数一致。这样,可以根据同一个“块”中不同卷积层的输出确定相应的n个特征图。其中,n为正整数。在图4中,针对第一图像401所取的特征图403,可以是一个卷积块中各个卷积层输出的特征图。
可以理解,针对不同的图像,目标在图像帧中所对应像素区域大小也不同,因此,通过多种特征图组合来描述一幅图像,一方面可以选择能够提取更多细节特征的特征图,另一方面,可以选择具有更大感受野的特征图。可选地,在f1至fn的分辨率不一致的情况下,还可以通过插值、上采样、下采样等方式,使其保持分辨率一致。这样,各个特征图的单个特征点对应的区域一致。
同理,第二图像402也可以对应n个特征图作为第二特征图,在此不再赘述。
进一步地,通过步骤303,利用所述原型提取模块,分别从所述第一特征图、所述第二特征图提取多个原型向量。其中,原型向量(prototype vectors),可以理解为用于表示图像上的单元区域的向量。由于对于某个确定目标(如羊),图像上描述该确定的目标的某个部位(如头部)的区域具有相似性,因此,提取原型向量的目的,是用原型向量表示特征区域,从而利用向量的相似性,将在一幅图像中未被提取到的特征区域,通过另一幅图像的特征区域给找出来,或者,将误被提取为特征区域的非特征区域过滤掉。
为了用原型向量表示特征区域,可以通过相应特征点在特征图上各个通道的特征值来确定相应特征点的向量。在特征点映射到图像中目标区域的概率较高的情况下,其向量可以被提取为特征向量。
可以理解,特征图上的特征点并不都对应着目标的特征区域。如图2中,目标为鸽子的情况下,鸽子之外的区域,包括石子、海滩区域等,都不属于目标鸽子的特征区域。而图4中,图像401和图像402的山羊之外的区域都不属于目标区域。也就是说,在特征提取过程中,每个特征点是否映射到目标的特征区域,还需要通过一个概率值,或者可信度值来表示。这个概率值或者可信程度值,也指示出当前特征点之于相应目标的重要程度。在本说明书中,可以将用于表示特征点是否映射到目标的特征区域的概率或可信度的值记为激活值。激活值越大,相应特征点对应到图像中关于目标的特征区域的概率越高。本领域技术人员可以理解,由于特征提取模块是预训练过的,并且激活值由特征提取模块提取到的特征图确定,因此,如何使得激活值的大小能够表达相应特征点对应到图像中关于目标的特征区域的概率,可以在特征提取模型预训练过程中,利用损失函数及整体网络架构进行控制,在此不再赘述。根据网络设置不同,激活值的确定方式也不同。
在一个实施例中,特征提取模块在训练时,将其中一个通道设置为激活通道,激活通道上的值表示相应特征点激活值的大小。例如前文64×64×512维的特征图的例子中,其中一个通道表示激活通道,则可以针对64×64个特征点中的单个特征点,通过其他511个通道上的特征值表示相应区域,激活通道上的各个值分别表示各个特征点的激活值。
在另一个实施例中,特征提取模块提取的特征图中,各个通道上的值本身就代表了相应特征点的重要程度。同一个特征点在各个通道上的特征值可以共同决定该特征点的重要程度。此时,单个特征点的激活值可以与其在各个通道上对应的特征值的绝对值均为正相关。在一个具体例子中,单个特征点的激活值为相应其在各个通道上对应的特征值的平方根。具体地,假设通道数为s,特征点xi对应的各个通道上的特征值为xi1、xi2……xis,则其激活值为。
在更多实施例中,单个特征点的激活值还可以通过其他合理的方法确定,在此不再赘述。
为了提取原型向量,可以先尽可能选择能够表达图像上的目标区域的候选特征点。可以根据激活值,可以按照预定的激活条件从各个区域向量中筛选出候选特征点。候选特征点对应的区域通常具有较大概率作为目标特征区域。被激活的特征点,是初步筛选的表达目标区域的点,例如图4中特征图上灰色填充的各个特征点。激活条件例如为:激活值大于预定阈值(如0.7);按照激活值由大到小的顺序排列在靠前的预定数量内;等等。其中,激活值大于预定阈值更具有通用性,而按照激活值由大到小的顺序排列在靠前的预定数量内选择候选特征点时,由于各个图像中目标大小不一致,对应的特征点数不一致,为了保证每个图像都选到尽可能对应目标区域的特征点,需合理控制“预定数量”,如采用更小的预定数量(但这样可能使得目标区域较大的图像漏掉很多有效特征点)等。
在选择候选特征点的时候,可以把满足激活条件的全部特征点选择为候选特征点,也可以从中选择一部分特征点作为候选特征点。具体地,在一个实施例中,可以将激活值大于预定激活阈值的特征点全部作为候选特征点;在另一个实施例中,可以从激活值大于预定激活阈值的特征点中随机选择预定数量的特征点部作为候选特征点;在另一个实施例中,可以在激活值大于预定激活阈值的特征点中,按照激活值由大到小的顺序选择预定数量的特征点部作为候选特征点。在更多实施例中,还可以通过更多方式确定原型向量,在此不再赘述。
针对单个候选特征点,根据其在各个通道的特征值,构建相应的单个原型向量。例如可以将各个通道的特征值作为原型向量各个维度的值构建原型向量,或者将各个通道的特征值的归一化值作为原型向量各个维度的值构建原型向量,等等。为了更直观描述原型向量的提取过程,请参考图5所示。图5示出的特征图可以是f1至fn中的任一个特征图fi。该特征图通道数为4,实践中,通道数还可以是其他数量。
可以理解,经过特征提取,将原图像中的一个区域映射到特征图上的某个特征点。在特征图的每个通道上,单个特征区域都映射到同一个特征点,例如均为第10行第20列的特征点。也就是说,特征图各个通道上的相应特征点都在表达同一个区域。因此,可以针对某个候选特征点,将各个通道上的特征值依次排布构成多维向量,来表示相应区域特征。如前文示出的例子中,64×64×512维的特征图,可以用64×64个512维的表示64×64个区域的向量。在图5中,4个特征通道上点501、502、503、504都对应着相同的行、列值,因此表示的是同一个特征点。相当于动上到下在各个通道上切出一个长方体来描述这个特征点及相应区域,最终得到相应原型向量,例如在图5中可以记为(x501,x502,x503,x504)。
值得说明的是,以上确定原型向量的过程更注重原型向量的选择原理,因此还描述了候选特征点的确定过程。实际上,在确定原型向量的过程中,确定候选特征点并非必要步骤。例如,在一个具体例子中,可以直接按照激活值由大到小的顺序选择预定数量的特征点提取原型向量。在另一个具体例子中,可以直接随机选择预定数量的激活值大于预定阈值的特征点提取原型向量。另外,在单个图像对应多个相应特征图的情况下,原型向量可以从各个特征图中选择。例如针对n个特征图f1至fn构建总量为N的原型向量。
另外,由于特征提取模块是通过样本按照图像集的分类标签预先训练过,通常是可以提取到目标特征的,通常激活值越大,越可能对应到目标区域,激活值越小,越可能对应到背景区域。因此,根据激活值确定的候选特征点,或者原型向量对应的特征点,通常会过滤掉大部分与目标无关的背景区域,比如小鸟为目标的图像上的天空、大海等区域。
然后,经由步骤304,利用修正模块,从第一特征图、第二特征图提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图。
可以理解,针对不同的两幅图像,往往背景相差较大,并且背景与目标也相差较大,而目标的特征具有一致性。因此,如果对于一个原型向量可以在其他图像或自身中找到与其具有较高相似度的原型向量,则该原型向量对应到目标的特征区域的可能性较大。而单个图像由于原始图像的色彩、亮度等的不同,各个通道的图像值不同,例如一个图像某个像素的RGB值为(120,60,180),另一个图像某个像素的RGB值为(60,30,90),而这两个像素显示的色彩可能仅仅是明暗度的不同。然而,它们经过处理的结果可能具有一定相关性。区域由多个像素构成,因此两个相似区域的处理结果也具有相关性。另外,如果一个原型向量与自身及其他图像中的原型向量都不具有相似性,则该原型向量更可能对应到背景区域。因此,通过比较两两原型向量之间的相似性,可以挖掘相似的目标区域,滤除非目标区域。
两两原型向量之间的相似性之后,可以将单个原型向量比较得到的最高相似度,作为该原型向量对应到目标的特征区域的置信度(即可信程度)。通常,置信度可以通过两个端点值定义一个区间,越靠近其中一个端点,置信度越小,越靠近另一个端点,置信度越大。例如,置信度是通过端点0和1定义的0-1区间的情况下,置信度越接近0,特征点映射到目标的特征区域的可能性越小,置信度越靠近1,特征点映射到目标的特征区域的可能性越大。实践中,置信度可以由不同的方式确定。在本说明书中,置信度与原型向量与其他原型向量的最大相关性正相关。
在一些可选的实现方式中,可以将第一图像中的单个原型向量分别与第二图像的多个原型向量一一比较,同理,将第二图像中的单个原型向量分别与第一图像的多个原型向量一一比较。假设第一图像和第二图像的原型向量数量均为N,则至少比较N2次。这样做的目的是为了挖掘第一图像和第二图像中的相似特征区域。
为了描述方便,可以将第一图像中的任意一个原型向量称为第一原型向量。以下以第一图像中的第一原型向量为例,说明其置信度确定过程。假设第二图像对应的原型向量共有N个,则将第一原型向量与第二图像中的多个原型向量一一进行相似性比较,得到N个相似度。然后,从N个相似度中选择最大的相似度(如为0.78等),作为第一原型向量的置信度。其中,相似性比较可以采用诸如余弦相似度、标准化欧氏距离(StandardizedEuclidean distance )、相关系数( Correlation coefficient )、信息熵等等各种向量相似性比较方式确定。比如通过X、Y表示当前比较相似性的两个原型向量,其余弦相似度可以为:cos(X,Y)。
这样,对应于目标区域(如为前景区域)的原型向量,通常可以在另一个图像对应的原型向量中找到与其相似度较高的原型向量,从而具有较高的置信度,而非目标区域(如为背景区域)的原型向量,通常与另一个图像对应的原型向量具有较低的相似度,从而具有较低的置信度。
在可能的设计中,单个图像自身可能也有一些可参考挖掘的激活区域,例如图3中,在第二图像302中,有多只羊,则多只羊之间的一些特征区域也可以相互作为参考补充和激活。这样,在另一些可选的实施例中,对于第一原型向量而言,可以检测其与自身外的2N-1个原型向量分别对应的相似度。例如在当前参与交叉比对的为第一图像和第二图像2个图像,pn为第一图像或第二图像中的任意原型向量,用sn(x,y)表示原型向量之间的相似度,N为单个图像对应的原型向量数量, fN(x,y)表示特征图中的其他原型向量的情况下,记为:。其中,该原型向量pn的置信度为相应的2N个sn中的最大值。如用pn的置信度用FM(x,y)表示为。
值得注意的是,原型向量与自身的相似度通常最大,如果按照置信度为最大相似度的确定方法,在原型向量还和自身相比较的情况下,每个原型向量的置信度都是最大置信度,失去置信度的意义。因此在确定置信度过程中,原型向量往往不和自身比较相似度。表示该原型向量对应的区域为目标区域的置信度
可以理解,在当前交叉对比的图像有多个的情况下,单个原型向量可以和各个图像对应的原型向量进行对比,在此不再赘述。
如此,可以根据各个原型向量,确定与各个原型向量一一对应的各个特征点(如候选特征点)分别对应的各个置信度。根据各个置信度,还可以对各个特征图进行修正,以进一步确定目标区域,并筛除满足前述激活条件的非目标区域。
为了利用置信度修正第一特征图、第二特征图等通过特征提取模块提取到的特征图,可以采用各种合理的方法,使得置信度较高的特征点,特征值增加,反之,置信度较低的特征点,特征值减小。
在一个可能的设计中,可以利用根据原型向量确定的置信度与相应特征点的各个特征值的乘积,修正第一特征图、第二特征图等。例如,在一个实施例中,针对单个特征图中的单个特征点的单个通道,可以用相应置信度与该通道上的特征值的乘积替换该特征值,从而形成修正特征值。再例如,在另一个实施例中,针对单个特征图中的单个特征点的单个通道,还可以用相应特征值与相应置信度与该通道上的特征值的乘积之和,替换该特征值形成修正值。例如,一个通道的特征值为150,置信度为0.7,则修正值可以为150×(1+0.7)=255。在可选的实现方式中,修正值还可以设置有最大值,例如为255,当根据计算得到的修正值大于该最大值时,可以统一取最大值,或者按照实际最大值等作为归一化系数进行归一化处理。如,特征值160,根据置信度0.7得到修正值160×(1+0.7)=271,大于最大值255,则可以将修正值取最大值255,或者按照最大修正值(例如360)进行归一化处理,如最大修正值360修改为最大值255作为最大修正值,而修正值271通过255与360的比值进行修正,如修正为271×(255/360)≈192。另外,对于不和原型向量对应的特征点,其特征值可以不做改变,或者做其他合理处理,在此不做限定。
在一个实施例中,还可以根据置信度构建置信度分布图,用于通过元素对应相乘的方式,与相应特征图进行运算,从而得到修正特征图。如图4所示,针对第一特征图403构建的置信度分布图例如为阵列405。值得说明的是,阵列405是一个笼统的标识,实践中,还可以针对各个特征图分别构建置信度图。在置信度图中,可以将候选特征点对应的置信度作为相应元素,没被选中为候选特征点的位置可以通过预定值补充。例如,满足激活条件但没被选中为候选特征点的特征点,对应的置信度可以设为第一预定值,如1,或者最大置信度值,如0.9,而不满足激活条件的特征点,对应的置信度可以设为第二预定值,如0,或者最小置信度值,如0.1。之后将置信度分布图与相应特征图点对点相乘,可以得到修正特征图。例如针对第一特征图得到修正特征图406。同理,针对第二特征图可以得到第二修正特征图,在参与本轮交叉比对的图像还包括其他图像的情况下,还可以通过类似的方式得到其他修正特征图。
在更多实施例中,还可以通过其他方式得到修正特征图,在此不再赘述。可以理解的是,修正特征图与通过特征提取模块提取的特征图相比,可能对应非目标区域的特征点(如对应较小置信度)的特征值小幅度增加、不变或大幅度减小,而可能对应目标区域的特征点(如对应较大置信度)的特征值大幅度增加、不变或小幅度减小,从而,可以更好地拉开差距,以更好的识别目标并进行标注。
进一步地,在步骤305中,根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果。
通常,为了确保目标识别的准确性,需要对图像进行像素级的分割。例如,在对一个拿着苹果的人进行人物目标识别时,需要将苹果遮挡人体部分所包含的像素排除在外。因此,可以按照特征图激活值,或者特征图上的特征值,映射到初始图像的各个像素,从而对图像进行像素级分割。也就是逐像素标注识别结果,例如目标人物对应的人体各个像素被标注为1,其他像素被标注为0,或者如图2中按照特征值的大小选择不同颜色表示各像素(例如被激活区域各个像素均使用彩色表示,激活值最大用红色,其次依次用橙色、黄色等表示)。在这里的分类结果至少可以包括针对相应图像的像素级的标注结果。
如图4所示,对于第一图像、第二图像等进行交叉比对的图像而言,可以通过分类模块对修正特征图进行处理,得到分类结果。各个图像的分类过程一致,在此,以第一图像为例进行说明。
参考图4所示,通过分类模块处理修正特征图405,可以得到分类结果图像408。分类结果图像408至少包括像素级的标注结果,该结果可以针对各个像素标注出目标区域和非目标区域。在目标有多种的情况下,还可以标注出属于各种目标的像素。根据可选的实现方式,为了利用图像集的标签,分类结果图像408中还可以包括图像级的分类结果。例如将图像分类为目标图像或非目标图像等。图像分类结果可以通过数值表示,例如每个类别对应一个数值。图像分类结果还可以通过向量形式表示,向量的各个维度分别对应着分类到各个类别的概率。
接着,通过步骤306,基于上述分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。可以理解,有监督的及其学习领域,通常通过衡量模型输出结果(如上述分类结果)与目标结果的比较,可以确定模型损失。在本说明书架构下,通过图像级的分类标签对像素级的标注结果进行弱监督,从而确定模型损失。
可以理解,在一些实现方式中,希望图像级的分类结果和相应标签保持一致,以保证图像标注模型的基本分类识别能力。因此,模型损失可以包括分类损失。所谓分类损失,就是图像标注模型得到的分类结果与相应类别标签(这里是第一类别标签)之间的差异。在分类结果通过向量表示的情况下,分类损失可以通过交叉熵、均方差、DL距离等一种或多种方式衡量。以交叉熵为例,分类损失Lc例如可以记为:
其中,v定义了分类到当前类别i的概率,u(i)定义出当前图像的真实类别标签,对于第一图像、第二图像而言,就是第一类别标签。u(i)和v(i)可以通过数值或向量表示。
根据本说明书的技术构思,修正后的特征图如果偏离特征提取模块提取的特征图较多,可能导致修正特征图失真。因此,根据一可能的设计,还可以确定一个自监督的修正损失(例如记为Lself),来缩小这种差距。修正损失可以通过修正特征图与从相应图像中提取到的特征图之间的差异来描述。这种差异例如可以通过范数表示。以第一图像为例,可以将第一特征图和第一修正特征图逐特征点确定图像值的范数,并针对各个特征点求和。例如记为:
其中,HW是特征图的分辨率,fN和fN'分别表示第一修正特征图和第一特征图。该式的含义是,逐像素对第一修正特征图和第一特征图中的H×W个特征点,按照差值的平方求和。如图4所示,通过分类模块理特征提取模块提取的特征图403,以将特征图403的激活区域映射到第一图像的各个像素,得到第二标注结果407,分类结果图像408包含了分类模块将修正特征图406映射到得到第一图像的各个像素得到的第一标注结果,则分类结果图像408中的第一标注结果和第二标注结果407可以分别作为上式中的fN和fN',确定第一图像对应的模型损失。
在可选的实现方式中,根据一个图像确定的模型损失为其分类损失和修正损失之和。多个图像对应的模型损失为各个图像对应的损失之和。在可选的实施例中,可以针对当前批次的各个图像分别确定模型损失,并针对各个图像求和,得到当前批次的模型损失。然后,根据图像标注模型中待定参数的梯度,确定模型损失的减小方向,从而利用梯度下降法、牛顿法等方法调整待定参数,从而训练图像标注模型。
这里,图像标注模型中的待定参数至少可以包括原型提取模块及修正模块中的待定参数。其中,在特征提取模块和分类模块为预先训练好的分类模型的两部分情况下,其中可以不包含待定参数。在一些实施例中,图像标注模型中的待定参数还可以包括特征提取模块、分类模块至少一个中的待定参数。例如,分类模块和预先训练的分类模型无关等情况下,其中包含待定参数。再例如,为了使得特征提取模块更好地适应像素级的图像标注任务,预训练的特征提取模块中的待定参数,仍可以作为图像标注模型中的待定参数进一步进行调整。
通常,还可以预先设置模型训练停止条件,在停止条件满足时,停止图像标注模型的训练。该停止条件例如可以是:各个图像对应的图像标注结果(如图4中的fN')收敛、模型损失收敛、待定参数的梯度收敛,等等。其中,相应参数收敛可以通过改变量小于预定值(如1/103)、均值趋于稳定等等。在一个实施例中,可以针对图像标注结果(如图4中的fN')在多个轮次取滑动平均,如5个轮次取依次滑动平均,并在平均值小于预定值的情况下,确定图像标注结果收敛,从而结束训练。
可以理解,图3示出的实施例从多个图像一起通过图像标注模型处理从而通过图像间的特征交叉对比,挖掘目标区域,筛除非目标区域。在该实施例中,一个批次的训练样本可以包括一组或多组样本图像,一组样本图像间的多个图像相互为彼此参考,可选地,单个图像也可以为自身提供参考。
针对训练好的图像标注模型,可以通过图6示出的流程进行图像标注。如图6所示,图像标注流程可以包括:
步骤601,从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
步骤602,通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
步骤603,利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
步骤604,经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
步骤605,根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的像素级的标注结果。
值得说明的是,图6示出的图像标注流程通常仅对用于训练图像标注模型的样本集具有较好的标注效果,因此,步骤601-步骤605与步骤301-步骤305基本一致。图6示出的流程与图3相比,区别在于,少了一个确定模型损失调整待定参数的步骤305,同时,在步骤605中,只需得到像素级的图像标注结果,而不需要关注是否具有图像集的分类结果。
在以上技术构思下,还可以设想一种处理结构更加简单的方案。例如,将多个图像的原型向量收集在原型向量集中,图像标注模型可以直接针对一个图像进行处理,并通过原型向量集针对当前图像挖掘目标区域,筛除非目标区域。
根据这种设想,图7示出了另一个实施例。还提供一种将原型向量收集在原型向量集中的方案。针对单个图像进行处理时,可以将其原型向量与原型向量集中的向量进行比较,从而确定置信度,并修正该单个图像,从而完成图像标注。
如图7所示,示出了一个实施的图像标注模型的训练流程。如图7所示,该流程包括以下步骤:步骤701,从样本集中获取第一图像,其中,第一图像对应有第一类别标签;步骤702,通过预训练的特征提取模块处理第一图像,得到第一特征图;步骤703,利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;步骤704,经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将第一特征图进行修正得到第一修正特征图,基准向量从第一类别标签对应的图像中提取;步骤705,根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果,第一分类结果包括像素级的第一标注结果;步骤706,基于第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
下面结合图8的架构示意,详细描述相关步骤。
首先,在步骤701中,从样本集中获取第一图像。其中,第一图像可以是样本集中对应有第一类别标签的任意图像。例如图8中的第一图像。第一类别标签是预先为第一图像标注的图像级分类标签,例如为目标图像、非目标图像,或者第一目标图像、第二目标图像、第三目标图像等等。第一类别标签也可以通过数字表示,例如0、1等。
接着,通过步骤702,通过预训练的特征提取模块处理第一图像,得到第一特征图。特征提取模块的目的是提取与目标相关的特征,例如羊的头部特征、耳朵特征等等。可以理解,目标识别过程通常是结合多个特征共同判定的结果,特征提取模块提取到的特征通常和目标的识别相关。在实践中,特征提取模块提取的特征也可能不以人眼可见的头部、耳朵等进行区域的划分,而是通过深度学习由模型自定义的其他特征。
特征提取模块可以预先训练。例如,特征提取模块可以是对目标进行分类的分类模型的靠前部分。在图像处理领域,分类模型往往可以通过卷积神经网络实现,经由卷积核提取图像上的特征。分类模型被训练好之后,可以认为利用相应卷积核能够提取图像上的目标特征。这些提取的特征可以是肉眼可见的、可通过具象区分的特征,例如目标“羊”的头部特征、腿部特征等,也可以是抽象的、无法通过肉眼识别认知到的其他特征,在此不做限定。训练好的分类模型,可以认为前半部分用于特征提取,后半部分用于特征融合及分类处理。后半部分例如可以称为分类模块等。
在图8中,第一图像例如被提取到特征图802。特征图802可以包括n个特征图f1至fn。其中,n为大于等于1的正整数。单个特征图可以包含多个通道。为了一致性,n个特征图fn可以具有一致的通道数。f1至fn例如可以是根据同一个“块”中不同卷积层的输出确定相应的n个特征图。
然后,在步骤703,利用原型提取模块,从第一特征图提取多个原型向量。单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值。为了用原型向量表示特征区域,可以通过相应特征点在特征图上各个通道的特征值来确定相应特征点的向量。在特征点映射到图像中目标区域的概率较高的情况下,其向量可以被提取为特征向量。
可以理解,特征图上的特征点并不都对应着目标的特征区域。因此,可以通过激活条件过滤掉显然不是目标区域的特征点。不满足激活条件的特征点通常对应着非目标区域。在一个实施例中,特征提取模块在训练时,将其中一个通道设置为激活通道,激活通道上的值表示相应特征点激活值的大小。在另一个实施例中,特征提取模块提取的特征图中,各个通道上的值本身就代表了相应特征点的重要程度。例如,单个特征点的激活值可以与其在各个通道上对应的特征值的绝对值均为正相关。在更多实施例中,单个特征点的激活值还可以通过其他合理的方法确定。
为了提取原型向量,可以先尽可能选择能够表达图像上的目标区域的候选特征点。可以根据激活值,可以按照预定的激活条件从各个区域向量中筛选出候选特征点。激活条件例如为:激活值大于预定阈值(如0.7);按照激活值由大到小的顺序排列在靠前的预定数量内;等等。在选择候选特征点的时候,可以把满足激活条件的全部特征点选择为候选特征点,也可以从中选择一部分特征点作为候选特征点。例如:可以将激活值大于预定激活阈值的特征点全部作为候选特征点;也可以从激活值大于预定激活阈值的特征点中随机选择预定数量的特征点部作为候选特征点;还可以在激活值大于预定激活阈值的特征点中,按照激活值由大到小的顺序选择预定数量的特征点部作为候选特征点,等等。对于候选特征点,可以根据其相应的各个特征值确定原型向量。
接着,通过步骤704,经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将第一特征图进行修正得到第一修正特征图。
其中,基准向量可以是用于比较目标区域的参考向量。基准向量集可以与类别标签一一对应。对于具有第一类别标签的第一图像来说,可以使用与第一类别标签对应的基准向量集中的基准向量作为参考。
与第一类别标签对应的基准向量集中的基准向量可以从第一类别标签对应的图像中提取。
在一个实施例中,可以利用预先训练的特征提取模块对样本集中与第一类别标签对应的各个图像中提取相应特征图,然后,在各个特征图中,选择激活值大于第一激活阈值的各个候选特征点,第一激活阈值相较于激活条件,筛选出激活值更高的特征点(在激活条件为大于第二激活阈值的情况下,第一激活阈值大于第二激活阈值),接着,针对单个候选特征点,根据其在各个通道的特征值,构建相应的单个基准向量,并加入基准向量集。之后,使用基准向量集中的基准向量针对各个第一类别标签的图像作为参考。
在另一实施例中,还可以初始时基准向量集为空或极少量基准向量,在各个周期的迭代过程中,根据当前图像选择原型向量(如激活值大于第一激活阈值的原型向量)加入基准向量集。在初始时基准向量集为空的情况下,可以利用图像自身的原型向量之间相互比较相似性。
根据一个实施例,在当前周期,当前图像为第一图像的情况下,针对从第一特征图提取的第一原型向量,检测其与各个基准向量的第一最大相似度是否大于预定相似度阈值,在第一最大相似度大于预定相似度阈值的情况下,将第一原型向量作为基准向量加入基准向量集。
在一个实施例中,第一图像中的单个原型向量分别与第一类别标签对应的基准向量集中的基准向量一一比较相似性,得到各个相似度。相似性比较可以采用诸如余弦相似度、标准化欧氏距离(Standardized Euclidean distance )、相关系数( Correlationcoefficient )、信息熵等等各种向量相似性比较方式确定。其中,对于单个原型向量可以根据各个相似度中的最高相似度确定置信度。例如,置信度为各个相似度中的最高相似度,或其他与各个相似度中的最高相似度正相关的值。
如此,可以根据各个原型向量,确定与各个原型向量一一对应的各个特征点(如候选特征点)分别对应的各个置信度。根据各个置信度,还可以对第一特征图进行修正,以进一步确定目标区域,并筛除满足前述激活条件的非目标区域。
在一个可能的设计中,可以利用根据原型向量确定的置信度与相应特征点的各个特征值的乘积,修正第一特征图,得到第一修正特征图。例如,在一个实施例中,针对单个特征图中的单个特征点的单个通道,可以用相应置信度与该通道上的特征值的乘积替换该特征值,从而形成修正特征值。再例如,在另一个实施例中,针对单个特征图中的单个特征点的单个通道,还可以用相应特征值与相应置信度与该通道上的特征值的乘积之和,替换该特征值形成修正值。在更多实施例中,还可以通过更多方式修正第一特征图,在此不再赘述。
进一步地,在步骤705中,根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果。第一分类结果包括像素级的第一标注结果。第一标注结果是逐像素标注的识别结果,例如目标人物对应的人体各个像素被标注为1,其他像素被标注为0,等等。
然后,通过步骤706,基于第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
模型损失可以包括针对第一图像的第一损失,针对第一图像,分类结果还包括图像级的第一分类结果。第一损失具体可以包括:经由第一分类结果与第一类别标签的对比确定的第一分类损失;以及,由第一标注结果与利用第一特征图确定的第二标注结果的对比确定的第一修正损失。
进一步地,根据包括第一图像在内的当前批次训练样本,检测当前批次训练样本及向前连续多个批次的训练样本对应的各个模型损失,在各个模型损失的滑动平均的变化小于预定值的情况下,确定图像标注模型训练完成
值得说明的是,图7示出的流程与图3示出的流程,对于单个图像的处理过程类似,区别在于,图7示出的流程中,单次处理一个图像,原型向量与基准向量集中的基准向量相比较,图3示出的流程中,单次处理多个图像,这些图像基于选择的原型向量交叉比较。图7的流程所使用的架构(如图8所示),与图3所示流程所使用的架构(如图4所示)更简洁,但是相比较而言,图7的流程需要针对各个类别标签分别维护一个基准向量集,且在相应类别标签的图像数量较多时,基准向量集中的基准向量数量较大。在可选的实现方式中,也可以按照相似性对基准向量集中的基准向量进行筛选,例如两两基准向量(或基准向量与候选基准向量)相似度大于预定的筛除阈值的情况下,可以筛除其中一个。在图像标准模型训练完成的情况下,基准向量集固定下来。
按照图7示出的流程训练好的图像标准模型,同样可以用于样本集中的图像的像素级标注。图9示出了通过训练好的图像标注模型,针对待标注图像进行标注的流程。该流程包括:步骤901,从样本集中获取第一图像,其中,第一图像对应有第一类别标签;步骤902,通过预训练的特征提取模块处理第一图像,得到第一特征图;步骤903,利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;步骤904,经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将第一特征图进行修正得到第一修正特征图;步骤905,根据第一修正特征图,利用分类模块对第一图像进行分类,得到针对第一图像的像素级的第一标注结果。
图9示出的流程与图7示出的流程类似,区别在于少了确定模型损失及调整模型参数的步骤。
另外,在图3、图6、图7、图9示出的流程中,都可以增加边缘细化的步骤,在像素级标注完成之后进行边缘细化,从而提高分割效果。其中边缘细化可以采用诸如CONTA、RPNet等常规技术实现,在此不再赘述。
回顾以上过程,针对训练集中的图像,可以通过图像级的类别标签进行像素级的标注。在具体图像标注模型训练及图像标注过程中,通过原型向量对不同图像之间的特征进行交叉比较,从而进一步挖掘图像中的目标区域,还可以筛除非目标区域,实现弱监督的分割任务。在损失确定过程中,不仅考虑分类损失,还考虑修正后的分割结果与本来的分割结果之间的相似性,从而使得分割结果更加稳定。
参考图10 所示,示出了在PASCAL VOC 2012和MS COCO训练集中评估本说明书架构下训练的图像标注模型的标注性能的效果示意图。图10 中,较亮区域表示各种机器学习模型对目标的分割结果,每一行表示一个分割目标,第一列为原图像,其他各列每一列表示一种分割方法。其中,“Ours”对应的列示出本说明书技术构思下的方案达到的分割效果,“GT”(Ground Tures)列表示人工标注的效果。从图10 可以看出,本说明书的分割方案由于其他分割方案,更接近于“GT”效果。
根据另一方面,本说明书的实施例还提供一种图像标注模型的训练装置。其中的图像标注模型可以用于对具有分类标签的图像进行像素级的标注。图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块。如图11所示,示出了一个实施例的图像标注模型的训练装置1100。在图11中,装置1100包括:获取单元1101、特征提取单元1102、原型提取单元1103、修正单元1104、分类单元1105、调整单元1106。
在至少第一图像和第二图像交叉挖掘目标区域情况下,装置1100的单个执行周期中:
获取单元1101,配置为从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
特征提取单元1102,配置为通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
原型提取单元1103,配置为利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元1104,配置为经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
分类单元1105,配置为根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果,分类结果包括像素级的标注结果;
调整单元1106,配置为基于分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
在使用单个图像和基准向量集交叉挖掘目标区域情况下,装置1100的单个执行周期中:
获取单元1101,配置为从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
特征提取单元1102,配置为通过预训练的特征提取模块处理第一图像,得到第一特征图;
原型提取单元1103,配置为利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元1104,配置为经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将第一特征图进行修正得到第一修正特征图;
分类单元1105,配置为根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果,第一分类结果包括像素级的第一标注结果;
调整单元1106,配置为基于第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
根据在一方面,还提供相应的图像标注的装置,如图12所示,图像标注的装置1200可以包括获取单元1201、特征提取单元1202、原型提取单元1203、修正单元1204、标注单元1205。
在选定的多个图像交叉标注的情况下,装置1200在针对多个图像进行标注的过程中:
获取单元1201,配置为从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
特征提取单元1202,配置为通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
原型提取单元1203,配置为利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元1204,配置为经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
标注单元1205,配置为根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的像素级的标注结果。
在装置1200针对单个图像进行标注的过程中:
获取单元1201,配置为从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
特征提取单元1202,配置为通过预训练的特征提取模块处理第一图像,得到第一特征图;
原型提取单元1203,配置为利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元1204,配置为经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将第一特征图进行修正得到第一修正特征图;
标注单元1205,配置为根据第一修正特征图,利用分类模块对第一图像进行分类,得到针对第一图像的像素级的第一标注结果。
值得说明的是,图11示出的装置实施例与图3、图7示出的方法实施例相对应,图12示出的装置实施例与图6、图9示出的方法实施例相对应,因此,在相应场景下,针对图3、图7、图6、图9的相应描述分别适应于图11、图12在相应场景下的实施例,在此不再赘述。
根据又一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行图3、图6、图7或图9任一项描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现结合前文描述的图3、图6、图7或图9任一项描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (24)
1.一种图像标注模型的训练方法,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:
从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
通过预训练的特征提取模块分别处理所述第一图像、所述第二图像,得到对应的第一特征图、第二特征图;
利用所述原型提取模块,分别从所述第一特征图、所述第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且对应有满足激活条件的相应激活值;
经由修正模块,针对从所述第一特征图、第二特征图提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
根据所述第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果,所述分类结果包括像素级的标注结果;
基于所述分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
2.根据权利要求1所述的方法,其中,所述特征提取模块包括由多个卷积层构成的第一卷积块,所述第一卷积块中的各个卷积层的卷积结果的通道数相同,所述第一特征图包括所述第一卷积块中的多个卷积层对所述第一图像进行卷积操作的各个卷积结果,所述第二特征图包括所述第一卷积块中的多个卷积层对所述第二图像进行卷积操作的各个卷积结果。
3.根据权利要求1所述的方法,其中,所述利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量包括,经由以下方式从第一特征图提取多个原型向量:
检测第一特征图中,各个特征点分别对应的各个激活值,其中,单个特征点的单个激活值与该单个特征点在各个通道的特征值的绝对值均为正相关;
从满足激活条件的特征点中选择出多个特征点,作为候选特征点;
针对单个候选特征点,根据其在各个通道的特征值,构建相应的单个原型向量。
4.根据权利要求3所述的方法,其中,所述激活条件为激活值大于预定激活阈值;所述从满足激活条件的特征点中选择出多个特征点,作为候选特征点包括以下中的至少一项:
将激活值大于预定激活阈值的特征点全部作为候选特征点;
从激活值大于预定激活阈值的特征点中随机选择预定数量的特征点部作为候选特征点;
在激活值大于预定激活阈值的特征点中,按照激活值由大到小的顺序选择预定数量的特征点部作为候选特征点。
5.根据权利要求1所述的方法,其中,所述按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图包括:
针对单个原型向量,将该单个原型向量与其他原型向量的最大相似度作为其在第一特征图/第二特征图上对应的单个特征点的特征值的置信度;
将第一修正特征图/第二修正特征图中,该单个特征点的各个特征值分别按照所述置信度与相应的特征值的乘积进行修正,从而将所述第一特征图、第二特征图分别修正为相应的第一修正特征图、第二修正特征图。
6.根据权利要求1所述的方法,其中,所述模型损失包括针对第一图像的第一损失和针对所述第二图像的第二损失,针对所述第一图像,所述分类结果包括像素级的第一标注结果,以及图像级的第一分类结果,所述第一损失包括:
经由所述第一分类结果与所述第一类别标签的对比确定的第一分类损失;以及
由所述第一标注结果与利用所述第一特征图确定的第二标注结果的对比确定的第一修正损失。
7.根据权利要求6所述的方法,其中,所述第一分类损失通过所述第一分类结果与所述第一类别标签的交叉熵确定。
8.根据权利要求6所述的方法,其中,所述第一修正损失通过以下方式确定:
经由所述分类模块处理所述第一特征图,得到像素级的第二标注结果;
针对第一标注结果和第二标注结果,逐像素比较标注差值;
利用各个像素分别对应的标注差值的和,确定所述第一修正损失。
9.根据权利要求6所述的方法,其中,所述第一标注结果是在利用分类模块对第一图像进行分类通过边界细化得到的结果。
10.根据权利要求1所述的方法,其中,所述图像标注模型的待定参数包括所述原型提取模块、修正模块、分类模块中的待定参数。
11.根据权利要求1所述的方法,其中,所述方法还包括:
根据包括第一图像和第二图像在内的当前批次训练样本,检测当前批次训练样本及向前连续多个批次的训练样本对应的各个模型损失;
在各个模型损失的滑动平均的变化小于预定损失值的情况下,确定图像标注模型训练完成。
12.一种图像标注的方法,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:
从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的像素级的标注结果。
13.一种图像标注模型的训练方法,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:
从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
通过预训练的特征提取模块处理所述第一图像,得到第一特征图;
利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图,所述基准向量从所述第一类别标签对应的图像中提取;
根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果,所述第一分类结果包括像素级的第一标注结果;
基于所述第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
14.根据权利要求13所述的方法,其中,所述基准向量集中的基准向量通过以下方式确定:
利用预先训练的特征提取模块对样本集中的各个图像提取相应特征图;
在各个特征图中,选择激活值大于第一激活阈值的各个候选特征点,所述第一激活阈值相较于所述激活条件,筛选出激活值更高的特征点;
针对单个候选特征点,根据其在各个通道的特征值,构建相应的单个基准向量,并加入所述基准向量集。
15.根据权利要求13所述的方法,其中,所述方法还包括:
针对从第一特征图提取的第一原型向量,检测其与各个基准向量的第一最大相似度是否大于预定相似度阈值;
在第一最大相似度大于预定相似度阈值的情况下,将所述第一原型向量作为基准向量加入基准向量集。
16.根据权利要求13所述的方法,其中,所述模型损失包括针对第一图像的第一损失,针对所述第一图像,所述分类结果包括像素级的第一标注结果,以及图像级的第一分类结果,所述第一损失包括:
经由所述第一分类结果与所述第一类别标签的对比确定的第一分类损失;以及
由所述第一标注结果与利用所述第一特征图确定的第二标注结果的对比确定的第一修正损失。
17.根据权利要求13所述的方法,其中,所述方法还包括:
根据包括第一图像在内的当前批次训练样本,检测当前批次训练样本及向前连续多个批次的训练样本对应的各个模型损失;
在各个模型损失的滑动平均的变化小于预定损失值的情况下,确定图像标注模型训练完成。
18.一种图像标注的方法,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述方法包括:
从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
通过预训练的特征提取模块处理所述第一图像,得到第一特征图;
利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图;
根据第一修正特征图,利用分类模块对第一图像进行分类,得到针对第一图像的像素级的第一标注结果。
19.一种图像标注模型的训练装置,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
原型提取单元,配置为利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
分类单元,配置为根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的分类结果,所述分类结果包括像素级的标注结果;
调整单元,配置为基于所述分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
20.一种图像标注的装置,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像和第二图像,其中,第一图像和第二图像都具有图像级的第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理第一图像、第二图像,分别得到第一特征图、第二特征图;
原型提取单元,配置为利用原型提取模块,分别从第一特征图、第二特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像、第二图像提取的各个原型向量,进行两两相似性比较,并按照单个原型向量与其他原型向量的最大相似度,将所述第一特征图、第二特征图分别修正得到第一修正特征图、第二修正特征图;
标注单元,配置为根据第一修正特征图、第二修正特征图,利用分类模块对第一图像、第二图像分别进行分类,得到各自对应的像素级的标注结果。
21.一种图像标注模型的训练装置,所述图像标注模型用于对具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理所述第一图像,得到第一特征图;
原型提取单元,配置为利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图;
分类单元,配置为根据第一修正特征图,利用分类模块对第一图像进行分类,得到第一分类结果,所述第一分类结果包括像素级的第一标注结果;
调整单元,配置为基于所述第一分类结果确定图像标注模型的模型损失,从而以模型损失最小化为目标,调整图像标注模型的待定参数。
22.一种图像标注的装置,用于通过预先训练的图像标注模型对样本集中具有分类标签的图像进行像素级的标注,所述图像标注模型包括特征提取模块、原型提取模块、修正模块、分类模块,所述装置包括:
获取单元,配置为从样本集中获取第一图像,其中,第一图像对应有第一类别标签;
特征提取单元,配置为通过预训练的特征提取模块处理所述第一图像,得到第一特征图;
原型提取单元,配置为利用原型提取模块,从第一特征图提取多个原型向量,单个原型向量对应着相应特征图上的单个特征点,且具有满足激活条件的相应激活值;
修正单元,配置为经由修正模块,针对从第一图像提取的各个原型向量,分别与基准向量集中的各个基准向量进行相似性比较,并按照单个原型向量与各个基准向量的最大相似度,将所述第一特征图进行修正得到第一修正特征图;
标注单元,配置为根据第一修正特征图,利用分类模块对第一图像进行分类,得到针对第一图像的像素级的第一标注结果。
23.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-18中任一项的所述的方法。
24.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110976261.7A CN113673607A (zh) | 2021-08-24 | 2021-08-24 | 图像标注模型的训练及图像标注的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110976261.7A CN113673607A (zh) | 2021-08-24 | 2021-08-24 | 图像标注模型的训练及图像标注的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673607A true CN113673607A (zh) | 2021-11-19 |
Family
ID=78545743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110976261.7A Pending CN113673607A (zh) | 2021-08-24 | 2021-08-24 | 图像标注模型的训练及图像标注的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673607A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612699A (zh) * | 2022-03-10 | 2022-06-10 | 京东科技信息技术有限公司 | 一种图像数据处理的方法和装置 |
CN115082724A (zh) * | 2022-03-30 | 2022-09-20 | Oppo广东移动通信有限公司 | 一种模型处理方法、装置、存储介质及电子设备 |
CN115222739A (zh) * | 2022-09-20 | 2022-10-21 | 成都数之联科技股份有限公司 | 缺陷标注方法、装置、存储介质、设备及计算机程序产品 |
CN115482436A (zh) * | 2022-09-21 | 2022-12-16 | 北京百度网讯科技有限公司 | 图像筛选模型的训练方法、装置以及图像筛选方法 |
JP7502518B2 (ja) | 2022-03-03 | 2024-06-18 | ソフトバンク株式会社 | 画像認識装置、プログラム、画像認識方法、及び機械学習方法 |
CN118247284A (zh) * | 2024-05-28 | 2024-06-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理模型的训练方法、图像处理方法 |
CN118379737A (zh) * | 2024-06-20 | 2024-07-23 | 清华大学 | 多模态通用感知模型训练、标注方法及装置、电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5469530A (en) * | 1991-05-24 | 1995-11-21 | U.S. Philips Corporation | Unsupervised training method for a neural net and a neural net classifier device |
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN110660480A (zh) * | 2019-09-25 | 2020-01-07 | 上海交通大学 | 脊骨脱位辅助诊断方法及系统 |
CN111695467A (zh) * | 2020-06-01 | 2020-09-22 | 西安电子科技大学 | 基于超像素样本扩充的空谱全卷积高光谱图像分类方法 |
CN111723814A (zh) * | 2020-06-05 | 2020-09-29 | 中国科学院自动化研究所 | 基于跨图像关联的弱监督图像语义分割方法、系统、装置 |
CN111814771A (zh) * | 2020-09-04 | 2020-10-23 | 支付宝(杭州)信息技术有限公司 | 图像处理的方法及装置 |
US20210241109A1 (en) * | 2019-03-26 | 2021-08-05 | Tencent Technology (Shenzhen) Company Limited | Method for training image classification model, image processing method, and apparatuses |
-
2021
- 2021-08-24 CN CN202110976261.7A patent/CN113673607A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5469530A (en) * | 1991-05-24 | 1995-11-21 | U.S. Philips Corporation | Unsupervised training method for a neural net and a neural net classifier device |
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
US20210241109A1 (en) * | 2019-03-26 | 2021-08-05 | Tencent Technology (Shenzhen) Company Limited | Method for training image classification model, image processing method, and apparatuses |
CN110660480A (zh) * | 2019-09-25 | 2020-01-07 | 上海交通大学 | 脊骨脱位辅助诊断方法及系统 |
CN111695467A (zh) * | 2020-06-01 | 2020-09-22 | 西安电子科技大学 | 基于超像素样本扩充的空谱全卷积高光谱图像分类方法 |
CN111723814A (zh) * | 2020-06-05 | 2020-09-29 | 中国科学院自动化研究所 | 基于跨图像关联的弱监督图像语义分割方法、系统、装置 |
CN111814771A (zh) * | 2020-09-04 | 2020-10-23 | 支付宝(杭州)信息技术有限公司 | 图像处理的方法及装置 |
Non-Patent Citations (1)
Title |
---|
胡琦瑶;杨皓文;王佳欣;彭先霖;汪思嘉;: "基于弱监督深度学习的图像检索技术研究", 西北大学学报(自然科学版), no. 05, 31 October 2020 (2020-10-31) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7502518B2 (ja) | 2022-03-03 | 2024-06-18 | ソフトバンク株式会社 | 画像認識装置、プログラム、画像認識方法、及び機械学習方法 |
CN114612699A (zh) * | 2022-03-10 | 2022-06-10 | 京东科技信息技术有限公司 | 一种图像数据处理的方法和装置 |
CN115082724A (zh) * | 2022-03-30 | 2022-09-20 | Oppo广东移动通信有限公司 | 一种模型处理方法、装置、存储介质及电子设备 |
CN115222739A (zh) * | 2022-09-20 | 2022-10-21 | 成都数之联科技股份有限公司 | 缺陷标注方法、装置、存储介质、设备及计算机程序产品 |
CN115222739B (zh) * | 2022-09-20 | 2022-12-02 | 成都数之联科技股份有限公司 | 缺陷标注方法、装置、存储介质、设备及计算机程序产品 |
CN115482436A (zh) * | 2022-09-21 | 2022-12-16 | 北京百度网讯科技有限公司 | 图像筛选模型的训练方法、装置以及图像筛选方法 |
CN115482436B (zh) * | 2022-09-21 | 2023-06-30 | 北京百度网讯科技有限公司 | 图像筛选模型的训练方法、装置以及图像筛选方法 |
CN118247284A (zh) * | 2024-05-28 | 2024-06-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理模型的训练方法、图像处理方法 |
CN118379737A (zh) * | 2024-06-20 | 2024-07-23 | 清华大学 | 多模态通用感知模型训练、标注方法及装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673607A (zh) | 图像标注模型的训练及图像标注的方法及装置 | |
Zavrtanik et al. | Draem-a discriminatively trained reconstruction embedding for surface anomaly detection | |
Wang et al. | Adaptive fusion for RGB-D salient object detection | |
Liu et al. | A computer vision system for early stage grape yield estimation based on shoot detection | |
Wang et al. | A stagewise refinement model for detecting salient objects in images | |
Lei et al. | Hierarchical paired channel fusion network for street scene change detection | |
Endres et al. | Category-independent object proposals with diverse ranking | |
Tsai et al. | Image co-saliency detection and co-segmentation via progressive joint optimization | |
Chen et al. | Embedding attention and residual network for accurate salient object detection | |
Zou et al. | Harf: Hierarchy-associated rich features for salient object detection | |
US11900646B2 (en) | Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium | |
CN108629286B (zh) | 一种基于主观感知显著模型的遥感机场目标检测方法 | |
CN109919149A (zh) | 基于物体检测模型的物体标注方法及相关设备 | |
Liu et al. | A high-density fish school segmentation framework for biomass statistics in a deep-sea cage | |
Roy et al. | Foreground segmentation using adaptive 3 phase background model | |
CN113762326A (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
Nag et al. | A new unified method for detecting text from marathon runners and sports players in video (PR-D-19-01078R2) | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN107977592A (zh) | 一种图像文本检测方法及系统、用户终端及服务器 | |
CN113657414A (zh) | 一种物体识别方法 | |
JP4926266B2 (ja) | 学習データ作成装置、学習データ作成方法及びプログラム | |
Pei et al. | Salient instance segmentation via subitizing and clustering | |
CN114241542A (zh) | 基于图像拼接的人脸识别方法 | |
de Silva et al. | RipViz: Finding Rip Currents by Learning Pathline Behavior | |
Zhang et al. | Visual saliency: from pixel-level to object-level analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |