CN114004992A - 多标签分类模型的训练方法、图像的多标签分类方法 - Google Patents

多标签分类模型的训练方法、图像的多标签分类方法 Download PDF

Info

Publication number
CN114004992A
CN114004992A CN202111233971.7A CN202111233971A CN114004992A CN 114004992 A CN114004992 A CN 114004992A CN 202111233971 A CN202111233971 A CN 202111233971A CN 114004992 A CN114004992 A CN 114004992A
Authority
CN
China
Prior art keywords
picture
sequence
model
combined
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111233971.7A
Other languages
English (en)
Inventor
丁锐
王语斌
施亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Network Technology Co ltd
Original Assignee
Tongdun Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Network Technology Co ltd filed Critical Tongdun Network Technology Co ltd
Priority to CN202111233971.7A priority Critical patent/CN114004992A/zh
Publication of CN114004992A publication Critical patent/CN114004992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

在本公开实施例多标签分类模型的训练方法、图像的多标签分类方法中,多标签分类模型的训练方法通过对抽样图片进行多粒度分割,并将各个粒度的分割图片进行组合、拼接,得到多粒度的拼接图片序列,而后将多粒度的拼接图片序列输入至Transformer模型中,完成对模型的训练。训练得到的模型提高了局部图像内容的召回能力,解决了相关技术中无法对图像内容中小目标、画中画等困难样例准确识别的技术问题。

Description

多标签分类模型的训练方法、图像的多标签分类方法
技术领域
本公开涉及图像识别技术领域,具体涉及到一种多标签分类模型的训练方法、图像的多标签分类方法。
背景技术
随着移动互联网的发展,人们能够随时随地获取各式各样的信息,为生活带来便利的同时、也为一些不法分子提供了可乘之机,暴力、色情、等不良信息无孔不入,为了快速识别相关图像中的内容安全问题,传统的解决办法主要通过人工审核的方式进行处理,耗时耗力。
近些年,通过机器学习、深度学习等算法,人工智能对于内容安全的识别精度和速度得到了极大的提升。但是,由于图像内容安全本身的特殊性,仍然存在例如小目标难以识别、局部边缘信息不敏感、正常大背景下小范围涉黄涉恐等深度学习无法解决的问题,采用卷积神经网络(Convolutionalneural Network,CNN)在卷积层利用窗口一定的滤波器获取图像的整体特征虽然能够在一定程度上缓解这类问题,但这种模型只能获取窗口内的局部信息,不能提取隐藏在边缘、小范围的特征信息。
发明内容
本公开的主要目的在于提供一种多标签分类模型的训练方法、图像的多标签分类方法。
为了实现上述目的,根据本公开的第一方面,提供了一种多标签分类模型的训练方法,包括:基于预设的多个分割粒度分割抽样图片,得到多组不同粒度的分割图片序列;对不同组的分割图片序列进行组合,得到组合图片序列;对组合图片序列中的组合图片进行拼接,得到拼接图片序列;将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练。
根据本公开的第二方面,提供了一种图像的多标签分类方法,包括:将不同数量Transformer模型串联,得到多个不同深度的网络;在对接收到待识别图片按照预设的多个分割粒度分割后,确定分割图片对应的组合图片序列;对组合图片序列中的组合图片进行拼接,得到拼接图片序列;将拼接图片序列中的拼接图片分别输入至每组不同深度的网络中,得到各深度网络下输出的多标签以及各个标签对应的准确率;将准确率为预设准确率下的网络确定为最优网络;和/或,将准确率为预设准确率下的组合图片确定为最优组合方式的组合图片。
在本公开实施例多标签分类模型的训练方法中,通过对抽样图片进行多粒度分割,并将各个粒度的分割图片进行组合、拼接,得到多粒度的拼接图片序列,而后将多粒度的拼接图片序列输入至Transformer模型中,完成对模型的训练。训练得到的模型提高了局部图像内容的召回能力,解决了相关技术中无法对图像内容中小目标、画中画等困难样例准确识别的技术问题。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开实施例的一种多标签分类模型的训练方法的流程图;
图2是根据本公开实施例的一个应用场景图;
图3是根据本公开实施例的另一个应用场景图;
图4是根据本公开实施例的又一个应用场景图;
图5是根据本公开实施例的再一个应用场景图;
图6是根据本公开实施例的一种图像的多标签分类方法的流程图。
图7是根据本公开实施例的一种电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
根据本公开实施例,提供了一种多标签分类模型的训练方法,如图1所示,该方法包括如下的步骤101至步骤104:
步骤101:基于预设的多个分割粒度分割抽样图片,得到多组不同粒度的分割图片序列。
在本实施例中,在确定抽样图片时,可对整个多标签数据集按照标签类别采样,通过每类均匀分布的随机变量,来构建服从高斯分布的多标签样本;然后对采样的样本进行图像内容的检测框标注,如图2(获取图像局部信息大小和整体图片大小之间关系的示意图)所示,对每一张图像中待标内容进行检测框的标注,检测框需要紧贴内容,框的标签为多标签类别,采样比例为每类数量的十分之一。
分割粒度为分割图像的细腻度,其取值可以是0-1之间,例如,1/16,1/8,1/4等。对抽样图像按照不同的分割粒度进行分割,一个分割粒度可以对应一个分割图片序列。例如1/16的分割粒度对应一个分割图片序列,1/8的分割粒度对应一个分割图片序列,按照预设的分割粒度可以将抽样图片分割为多组不同粒度的分割图片序列。预设的分割粒度可以是给定的也可以是基于标准框与图片的大小关系确定的。
作为本实施例一种可选的实现方式,确定预设的多个分割粒度,包括:在对样本数据集按照标签类别进行抽样后,对抽样的样本进行检测框标注;基于检测框与抽样图片的大小关系,确定在预设区间内的分割粒度。
在本可选的实现方式中,在图像中对目标进行检测标注,每一个检测框都是一个独立的分类信息,并可以统计上述标注的采样数据中多标签框占原始图像大小的比值,在分布区间[1/64,1/32,1/16,1/8,1/4]中,根据分布区间的数值,筛选出多标签框所占最多N个区间作为预设区间,然后确定几种不同区间的排列组合方式。例如,以最多的[1/16,1/8,1/4]三个区间为例,可能存在的组合方式就是[1/16,1/8],[1/8,1/4],[1/16,1/4],[1/16],[1/8],[1/4],其中的数值即为ViT的分割粒度。
步骤102:在对不同组的分割图片序列进行组合后,得到组合图片序列。
在本实施例中,在得到多组分割图片序列后,通过将分割图片序列相组合,可以进一步通过多粒度patch组合的方式优化小目标、边缘特征信息提取,解决真实的图像内容审核场景中往往出现一些较为困难样例,例如小目标、画中画等问题。组合方式可以是基于经验预先设定的方式。
作为本实施例一种可选的实现方式,对预设区间内的图像分割粒度进行组合,得到图像分割粒度的组合序列;按照所述组合序列的组合方式,对不同组的分割图片进行组合,得到多粒度图片序列。
在本可选的实现方式,由于确定了预设区间,可以基于该分割区间确定分割粒度的组合方式,得到组合序列,进而可基于该组合序列对应的分割图像块进行组合。
将不同的分割细腻度的输入序列进行组合。举例来说如果多粒度patch组合方式为[1/8,1/4],那么对于图像分割粒度为1/8时,一张图片分割成64个小块,然后组合成一个序列,该序列的维度为(b,N,P2c)=(b,64,1024×3);另外对于图像分割粒度为1/4时,一张图片分割成16个小块,组合成一个序列,该序列的维度为(b,N,P2c)=(b,16,4096×3),那么按照图像分割粒度的大小关系,将较大的分割粒度输入维度进行转化,将(b,16,4096×3)转化为(b,16×4,1024×3)。
步骤103:对组合图片序列中的组合图片进行拼接,得到拼接图片序列。
在本实施例中,在确定分割图片序列的组合方式后,需要对每个组合方式下的分割图片序列进行拼接,在拼接时,可以增加序列之间相关联特征。相关联的特征可以是序列之间的位置信息的Attation。
作为本实施例一种可选的实现方式,对组合图片序列中的组合图片进行拼接包括:对组合图片序列中的各个分割图片序列展平;在对展平后的分割图片序列进行大小调整后,为每个分割图片序列增加组合内分割图片序列之间相关联的特征,得到待拼接图片序列;对组合内的待拼接图片序列进行拼接。
在本可选的实现方式中,根据确定的多粒度图像分割粒度,对ViT的输入序列展开进行调整的方法可以是:ViT的输入序列可以看成将一张图像,展平为
Figure BDA0003317089540000061
个展开的2D块,每个块的维度是P2×C,其中P是块的大小(该块的大小并不是不可被修改的),C是channel数,H、W为图像高和宽。将P按照多粒度的图像分割粒度调整(修改)可以得到多粒度的序列输入。
在拼接时,可以根据多粒度的层级大小,对不同粒度的图像分割粒度进行排列,并在不同粒度的patch之间的位置相关性增加注意力机制,最后将不同粒度的序列输入使用concat进行拼接。
作为本实施例一种可选的实现方式,在对组合图片序列中的各个分割图片序列展平之后,方法还包括:基于预设的嵌入向量Xclass、以及拼接图片序列的位置信息参数Epos,对展平后的分割图片序列进行线性变换,其中嵌入向量Xclass、以及位置信息参数Epos均为可被优化的变量。
在本可选的实现方式中,图片虽然转成了(N,D)的二维输入,在ViT中需要进行Patch Embedding的步骤,即对每一个向量都做一个线性变换(即全连接层),压缩后的维度为D,
Figure BDA0003317089540000071
全连接层即上式中的E,它的输入维度大小是(P2×C),输出维度大小是D。
作为本实施例一种可选的实现方式,为每个分割图片序列增加组合内分割图片序列之间相关联的特征包括:基于Transformer模型中的self-Attention结构,提取组合内分割图片序列之间第一相关联特征、以及同一个分割图片序列内不同图片之间的第二相关特征;为每个分割图片序列增加所述第一相关联特征、以及第二相关联特征。
在本可选的实现方式中,参考图3(多粒度的patch组合方式示意图),将不同的分割细腻度的输入序列进行拼接,如果是单个序列则不进行处理,直接送入Transformer的Encoder结构;如果是多个序列,那么通过上式中Epos增加多个序列之间的位置信息的Attation。较大的分割细腻度中的Epos一定包含较小的分割细腻度中的Epos,间接增加了多个序列之间的特征相关性。
对于self-attention,Q(Query),K(Key),V(Value)三个矩阵均来自同一张图片的输入,首先要计算Q与K之间的点乘,而后除以一个尺度标度
Figure BDA0003317089540000081
实现归一化步骤,其中dk为一个query和key向量的维度。在利用Softmax操作将其结果归一化为概率分布,然后再乘以矩阵V就得到权重求和的表示,该操作可以表示为:
Figure BDA0003317089540000082
这就是基本的Multihead Attention单元,对于encoder来说就是利用这些基本单元叠加,其中key,query,value均来自前一层encoder的输出,即encoder的每一个位置都可以注意到前一层encoder的所有位置。另外对于ViT结果并不需要Transformer decoder结构,而Transformer Encoder的前向过程为:
Figure BDA0003317089540000083
Z′l=MSA(LN(Zl-1))+Zl-1,l=1…L
Zl=MLP(LN(Z′l))+Z′l,l=1…L
Figure BDA0003317089540000084
其中,上式是上述表达的Patch Embedding和Positional Encoding过程,上述第2个式子是Transformer Encoder的Multi-head Self-attention,Add and Norm的过程,重复L次,上述第三个式子为Transformer Encoder的Feed Forward Network,Add and Norm的过程,重复L次。
步骤104:将拼接图片序列作为Transformer模型中,对Transformer模型进行训练。
在本实施例中,可以预先建立包含不同层数的Encoder的Transformer模型,并可针对不同的模型(同步或者异步)进行训练,可得到多个多标签分类模型。本实施例中的模型的结构可以仅仅用到Transformer的Encoder,而无需利用到Decoder。
针对任一模型,可将拼接图片序列作为输入,送入Transformer Encoder结构进行训练,在训练时随机MASK一部分多标签Labels进行训练。
作为本实施例一种可选的实现方式,将拼接图片序列作为Transformer模型的输入,对拼接图片序列对应的标签进行预测训练包括:将拼接图片序列输入至Transformer模型的编码器;将编码器的输出结果输入至Feed Forward Layer,以对拼接图片序列进行标签预测,其中,预先将Transformer模型的prediction head去掉,替换成prediction headLayer;将预测的标签进行随机MASK,得到实时损失函数;基于所述实时损失函数,对Transformer模型的预设参数进行优化。
在本可选的实现方式中,对Transformer Encoder结构进行训练,训练时随机MASK一部分多标签Labels。可以是将Transformer prediction head去掉,换成一个D×K的FeedForward Layer,并将预测的结果按照一定比例随机MASK一部分Labels,通过binaryCrossEntopy损失函数统计多标签的损失,训练并优化网络结构参数。
多标签之间存在关联性,例如,人和车的关联性,要比车和食物的关联性大,通过随机MASK的方式可以使输出的标签关联性更强。同时针对存在模糊(例如,遮挡)的场景中,通过随机MASK的方式,能够掩盖掉可能存在干扰的信息,从而提高输出的标签的精度。
参考如图4(训练预测的不同MASK方式示意图),训练时随机MASK一部分Labels作为损失计算,将Transformer prediction head去掉,换成一个D×K的Feed ForwardLayer,在训练的过程中,随机MASK一定数量的标签,利用真值标签来预测隐藏标签。
这个过程可以参考Bert的自然语言处理的预训练模型,MASKed LM为掩码语言模型,它和一般的语言模型不同,比如N元语言模型。N元语言模型第i个字的概率和它前第i-1个字有关,也就是要预测第i个字,那么模型就得先从头到尾一次预测出第1个到第i-1个字,再来预测第i个字这样的模型一般称为自回归模型(Autoregressive LM);MASKed LM通过随机将句子中的某些字MASK掉,然后通过该MASK掉的字的上下文来预测该字,称为自编码语言模型(Autoencoder LM)。而Bert的MSAK机制是这样的:它以token为单位随机选择句子中15%的token,然后将其中80%的token使用MASK符号进行替换,将10%使用随机的其他token进行替换,剩下的10%保持不变。
应用到多标签分类任务上,多标签任务的类别输出天然具有MASK属性,对于一张图片的分类,针对不同任务的时候,某些类别可以是显性,也可以是隐性。不同组合类别的显性输出对于图片特征的相关性也不一样,对于人和食物的相关性一定大于食物和植物的相关性。
参考图5(对小目标、边缘目标识别结果实例图)对于所有多标签可以随机MASK一部分,此时训练的模型能够更好获取未MASK的标签之间相关性,假设有l个可能的标签,那么选取的掩码标签的数量n在0.25l和l之间随机选择,将未知状态嵌入到每一个随机选中的未知标签,其余为已知标签,模型预测未知标签为yu,并使用binaryCrossEntopy损失函数更新模型参数。
通过MASK随机数量的标签,在训练过程中,模型学习了许多种已知的标签组合,并对模型进行适应性调整,用于随机MASK数量的已知信息,能够学习多标签之间的联系。基于两个原因,该策略要为每个训练样本至少MASK 0.25l标签。
(1)大多数MASK语言模型的训练方法MASK了大约15%的词汇。
(2)对于该多标签模型我们希望在推理的过程能够推理出包含
Figure BDA0003317089540000113
的已知标签,假设剩下25%的标签是一些不明显的图像内容、或者是模型无法进行正常推理的场景。
根据以上策略对loss进行修改,参见公式:
Figure BDA0003317089540000111
其中,CE代表交叉熵损失函数,
Figure BDA0003317089540000112
表示计算已知标签的概率分布的期望yk
本可选的实现方式,采用随机MASK部分多标签的方式计算图片损失,利用了图像视觉特征和标签之间的复杂依赖关系,增加局部标签之间的信息交互,能够优化具有相关联的图像内容的识别效果。
作为本实施例一种可选的实现方式,对Transformer模型的预设参数进行优化包括:对线性变换后的嵌入向量Xclass、以及拼接图片序列的位置信息参数Epos进行优化。
在本可选的实现方式中,假设切成9个块,但是最终到Transformers输入是10个向量,这个是增加的一个向量,Xclass(vector,dim=D),这个向量是可学习的嵌入向量,它和其余9个向量一并输入到Transformer Encoder,输出1+9个编码向量。然后可用第0个编码向量,即Xclass的输出进行分类预测。
由上,可以理解的是ViT(Vision Transformer)仅仅用到了Transformer的Encoder,并没有利用到Decoder,而Xclass的作用即代替Query的作用,相对应的Key,Value,即为其他9个编码向量的输出。Xclass是一个可学习的嵌入向量,为了寻找其他9个输入向量对应的image的类别。可以理解的是上述向量的个数仅仅是示意性的。
而按照Transformer的位置编码的习惯,对于ViT实际上也使用了位置编码。这里就在上式引入了一个Positional encoding Epos来加入序列的位置信息,同样这个pos_embedding也是一个可训练的变量。ViT发现位置越接近,往往具有相似的位置编码,并且在同一行、列的patch具有相似的位置编码。对于多个细腻度组合的序列输入表示实际上和单个分割细腻度的序列输入表示是一样的。
本实施例基于Vision Transformer的多粒度多标签分类模型的训练方法。该方法利用了多粒度patch组合的方法,获取不同层级下的序列特征,利用Transformer的self-attention结构增加不同序列之间的相关性,使得到的模型在图像检测时大大提高了局部图像内容的召回能力,进而提高多标签检出能力,进而提高了特定内容识别场景下的检出率。通过MASK操作使输出的多标签的关联性更强、多标签检出的准确度更高。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本公开实施例,还提供了一种图像的多标签分类方法,如图6所示,该方法基于训练得到的Transformer模型实现包括:
步骤601:在对接收到待识别图片按照预设的多个分割粒度分割后,确定分割图片对应的组合图片序列。
在本实施例中,确定图片所对应的组合图片序列的方法与多标签分类模型的训练方法中的方式相同,在此不再赘述。组合图片序列中的每个组合图片对应一种组合方式。
步骤602:对组合图片序列中的组合图片进行拼接,得到拼接图片序列。
在本实施例中,拼接方法与多标签分类模型的训练方法中的方式相同,在此不再赘述。
步骤603:将拼接图片序列中的拼接图片分别输入至各个Transformer模型中输出结果,其中,输出结果包括多标签以及各个标签对应的准确率。
在本实施例中,由于可以预先建立包含不同层数的Encoder的Transformer模型,并可针对不同的模型(同步或者异步)进行训练,因此便可得到多个多标签分类模型(即多个Transformer模型)。
每个拼接图片输入至不同的模型中可以得到不同(或相同)的多标签、以及各个标签对应的准确率。不同拼接图片输入至相同的模型中也可以得到不同(或相同)的多标签、以及各个标签对应的准确率,预测的物体的标签的准确率越高则图像中存在该物体的可能性越大,否则存在该物体的可能性越低。
步骤604:判断Transformer模型输出的结果是否满足预设条件,以将满足预设条件的Transformer模型确定为最优模型。
在本实施中,可以通过输出的多标签判断是否满足模型输出所要求的精度,将输出满足该精度的模型确定为最优模型,该精度可以包括但是不限于标签的召回率、或误检率。
对于预测同一张图片(相同拼接图片),基于各个Transformer模型输出的标签与真值(标注的标签),确定召回率,将召回率最大的模型确定为最优模型;例如,一张图片包含三个物体,模型A能够召回1个,模型B能够召回3个,那么可以将模型B作为最优模型,
示例性地,对于预测同一张图片(相同拼接图片),还可基于各个Transformer模型输出的标签与真值(标注的标签),确定基于各个Transformer模型的误检率,可以将误检率最低的模型确定为最优模型。
可以理解的是,也可以将召回率和误检率同时满足预设值时的模型确定为最优模型。
作为本实施例一种可选的实现方式,将满足预设条件下的组合图片确定为最优组合方式的组合图片。
在本实施例中,不同拼接图片由不同组合方式的组合图片拼接而成,当将不同的拼接图片输入至同一个模型中时,可以通过该模型输出的多标签判断是否满足模型输出所要求的精度,将输出满足该精度时所对应的组合图片,确定为最优组合方式的组合图片,该精度可以包括但是不限于标签的召回率、或误检率。
示例性的,当对不同的拼接图片进行预测时,基于同一个Transformer模型输出的标签与真值(标注的标签),确定不同拼接图片下的召回率,将召回率最大时的拼接图片所对应的组合图片,确定为最优组合方式的组合图片;例如,一张图片包含三个物体,在组合方式为X时,模型A能够召回1个;在组合方式为Y时,模型A能够召回3个,那么可以组合方式Y为最优组合方式。
示例性地,当对不同的拼接图片进行预测时,基于同一个Transformer模型输出的标签与真值(标注的标签),确定不同拼接图片下的误检率,可以将误检率最低时的拼接图片所对应的组合图片确定为最优组合方式的组合图片。
示例性地,不同场景下对预测结果具有不同的需求,当需要检测出一定程度的小目标内容时,则需要不同的组合方式和不同层数的Transformer Encoder模块。因此可以根据不同粒度的patch组合方式训练出来的Transformer结构预测的结果,选取一个最优的patch组合方式和Transformer Encoder模块层数作为该特征场景下的多粒度patch组合以及网络结构。
参考图7,对于单个分割细腻度作为序列输入时,图片中小目标的置信度较低,并且可能对于某些小目标可能会存在漏检的情况。而由两个分割细腻度组合作为序列输入时,图片中小目标内容的置信度较有提升,并且检出较难的图像内容。统计所有组合序列的模型结果,得到多标签的准确率。实验结果显示当目标场景中小目标内容过多时,多个序列组合作为输入时,多标签模型的效果更优。
作为本实施例一种可选的实现方式,将拼接图片序列中的拼接图片分别输入至每组不同深度的网络中,得到各深度网络下输出的多标签以及各个标签对应的准确率包括:将每个Transformer模型中的Feed Forward Layer替换成prediction head;去除MASK结构后进行多标签预测,得到预测的多个标签、以及各个标签对应的准确率。
在本可选的实现方式中,将Feed Forward Layer替换成prediction head并去掉MASK操作,通过多个Sigmoid分类器预测多标签结果,从而得到多标签数据的准确率。
在预测过程中,对所有的标签进行预测,对于多标签的输出采用Sigmoid激活函数:
Figure BDA0003317089540000161
其中,FFNi是feedforward network,l′i代表网络label embedding,FFNi包含一个单层线性层,labeli为1×d维向量,σ则是sigmoid损失函数。
本实施例基于训练完成的Vision Transformer的多粒度多标签分类模型,在内容审核识别场景下的画中画、小目标、远景等困难问题的准确率均高于普通的分类模型,因为该模型采用了多粒度信息融合的方法,获取不同层级下的序列特征,除此之外,在获取多层级特征部分还采用了Transformer模型结构,以不同的视角获取包括小目标、局部、画中画等困难内容的特征,并且采用多标签输出,大大提高了模型的召回能力,通过多个Sigmoid分类器,将图像内容的每一个具有标签特征的信息捕捉到,并对多种patch组合方式进行实验,分析在特定的场景下,哪种组合方式能够更好的获取特征。
根据本公开实施例,还提供了一种标签分类模型的训练装置,该装置包括:分割单元,被配置成基于预设的多个分割粒度分割抽样图片,得到多组不同粒度的分割图片序列;第一组合单元,被配置成对不同组的分割图片序列进行组合,得到组合图片序列;第一拼接单元,被配置成对组合图片序列中的组合图片进行拼接,得到拼接图片序列;训练单元,被配置成将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练。
根据本公开实施例,还提供了一种图像的多标签分类装置,该装置基于训练得到的Transformer模型实现,包括:网络构建单元,被配置成将不同数量Transformer模型串联,得到多个不同深度的网络;第二组合单元,被配置成在对接收到待识别图片按照预设的多个分割粒度分割后,确定分割图片对应的组合图片序列;第二拼接单元,被配置成对组合图片序列中的组合图片进行拼接,得到拼接图片序列;预测单元,被配置成将拼接图片序列中的拼接图片分别输入至每组不同深度的网络中,得到各深度网络下输出的多标签以及各个标签对应的准确率;第一确定单元,被配置成将准确率为预设准确率下的网络确定为最优网络;和/或,第二确定单元,被配置成将准确率为预设准确率下的组合图片确定为最优组合方式的组合图片。
本公开实施例提供了一种电子设备,如图7所示,该电子设备包括一个或多个处理器71以及存储器72,图7中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器71可以为中央处理器(CentralProcessingUnit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的控制方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的多标签分类模型的训练方法、或图像的多标签分类方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (14)

1.一种多标签分类模型的训练方法,其特征在于,包括:
基于预设的多个分割粒度分割抽样图片,得到多组不同粒度的分割图片序列;
对不同组的分割图片序列进行组合,得到组合图片序列;
对组合图片序列中的组合图片进行拼接,得到拼接图片序列;
将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练。
2.根据权利要求1所述的多标签分类模型的训练方法,其特征在于,方法还包括:
在对样本数据集按照标签类别进行抽样后,对抽样的样本进行检测框标注;
基于检测框与抽样图片的大小关系,确定在预设区间内的分割粒度。
3.根据权利要求2所述的多标签分类模型的训练方法,其特征在于,对不同组的分割图片序列进行组合,得到组合图片序列包括:
对预设区间内的分割粒度进行组合,得到图像分割粒度的组合序列;
按照组合序列的组合方式,对各个组的分割图片进行组合,得到多粒度图片序列。
4.根据权利要求1所述的多标签分类模型的训练方法,其特征在于,将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练包括:
将拼接图片序列输入至Transformer模型的编码器;
将编码器的输出结果输入至前馈层,以对拼接图片序列进行多标签预测,其中,预先将Transformer模型的prediction head去掉,替换成Feed Forward Layer;
将预测的标签进行随机MASK,以对标签组合进行学习,并得到实时损失函数;
基于所述实时损失函数,对Transformer模型的预设参数进行优化。
5.根据权利要求1-4任一项所述的多标签分类模型的训练方法,其特征在于,对组合图片序列中的组合图片进行拼接包括:
对组合图片序列中的各个分割图片序列展平;
在对展平后的分割图片序列进行大小调整后,为每个分割图片序列增加组合内分割图片序列之间相关联的特征,得到待拼接图片序列;
对组合内的待拼接图片序列进行拼接。
6.根据权利要求5所述的多标签分类模型的训练方法,其特征在于,为每个分割图片序列增加组合内分割图片序列之间相关联的特征包括:
基于Transformer模型中的self-Attention结构,提取组合内分割图片序列之间第一相关联特征、以及同一个分割图片序列内不同图片之间的第二相关特征;
为每个分割图片序列增加所述第一相关联特征、以及第二相关联特征。
7.根据权利要求5所述的多标签分类模型的训练方法,其特征在于,在对组合图片序列中的各个分割图片序列展平之后,方法还包括:
基于预设的嵌入向量Xclass(vector,dim=D)、以及拼接图片序列的位置信息参数Epos,对展平后的分割图片序列进行线性变换,其中嵌入向量Xclass、以及位置信息参数Epos均为可被优化的变量。
8.根据权利要求7所述的多标签分类模型的训练方法,其特征在于,对Transformer模型的预设参数进行优化包括:
对线性变换后的嵌入向量Xclass(vector,dim=D)、以及拼接图片序列的位置信息参数Epos进行优化。
9.一种图像的多标签分类方法,其特征在于,该方法基于权利要求1-8任一项训练方法得到的多个Transformer模型实现,包括:
在对接收到待识别图片按照预设的多个分割粒度分割后,确定分割图片对应的组合图片序列;
对组合图片序列中的组合图片进行拼接,得到拼接图片序列;
将拼接图片序列中的拼接图片分别输入至各个Transformer模型中,得到各模型输出的结果,其中,输出结果包括多标签以及各个标签对应的准确率;
判断Transformer模型输出的结果是否满足预设条件,以将满足预设条件的Transformer模型确定为最优模型;
和/或,将满足预设条件下的组合图片确定为最优组合方式的组合图片。
10.根据权利要求9所述的图像的多标签分类方法,其特征在于,将拼接图片序列中的拼接图片分别输入至每组不同深度的网络中,得到各深度网络下输出的多标签以及各个标签对应的准确率,包括:
将每个Transformer模型中的Feed Forward Layer替换成prediction head;
去除MASK结构后进行多标签预测,得到预测的多个标签、以及各个标签对应的准确率。
11.一种标签分类模型的训练装置,其特征在于,包括:
分割单元,被配置成基于预设的多个分割粒度分割抽样图片,得到多组不同粒度的分割图片序列;
第一组合单元,被配置成对不同组的分割图片序列进行组合,得到组合图片序列;
第一拼接单元,被配置成对组合图片序列中的组合图片进行拼接,得到拼接图片序列;
训练单元,被配置成将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练。
12.一种图像的多标签分类装置,其特征在于,该装置基于权利要求11训练得到的Transformer模型实现,包括:
网络构建单元,被配置成将不同数量Transformer模型串联,得到多个不同深度的网络;
第二组合单元,被配置成在对接收到待识别图片按照预设的多个分割粒度分割后,确定分割图片对应的组合图片序列;
第二拼接单元,被配置成对组合图片序列中的组合图片进行拼接,得到拼接图片序列;
预测单元,被配置成将拼接图片序列中的拼接图片分别输入至每组不同深度的网络中,得到各深度网络下输出的多标签以及各个标签对应的准确率;
第一确定单元,被配置成将准确率为预设准确率下的网络确定为最优网络;
和/或,第二确定单元,被配置成将准确率为预设准确率下的组合图片确定为最优组合方式的组合图片。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-8任意一项所述的多标签分类模型的训练方法、或用于使所述计算机执行权利要求9-10任意一项所述的图像的多标签分类方法。
14.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-8任意一项所述的多标签分类模型的训练方法、或执行权利要求9-10任意一项所述的图像的多标签分类方法。
CN202111233971.7A 2021-10-22 2021-10-22 多标签分类模型的训练方法、图像的多标签分类方法 Pending CN114004992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111233971.7A CN114004992A (zh) 2021-10-22 2021-10-22 多标签分类模型的训练方法、图像的多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111233971.7A CN114004992A (zh) 2021-10-22 2021-10-22 多标签分类模型的训练方法、图像的多标签分类方法

Publications (1)

Publication Number Publication Date
CN114004992A true CN114004992A (zh) 2022-02-01

Family

ID=79923595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111233971.7A Pending CN114004992A (zh) 2021-10-22 2021-10-22 多标签分类模型的训练方法、图像的多标签分类方法

Country Status (1)

Country Link
CN (1) CN114004992A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132357A (zh) * 2022-08-30 2022-09-30 深圳大学总医院 基于医学影像图预测目标疾病指标状态的装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002822A (zh) * 2018-07-24 2018-12-14 安徽淘云科技有限公司 一种兴趣区域确定方法、装置、设备及存储介质
CN113096131A (zh) * 2021-06-09 2021-07-09 紫东信息科技(苏州)有限公司 基于vit网络的胃镜图片多标签分类系统
JP2021144675A (ja) * 2020-03-12 2021-09-24 富士フイルムビジネスイノベーション株式会社 方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002822A (zh) * 2018-07-24 2018-12-14 安徽淘云科技有限公司 一种兴趣区域确定方法、装置、设备及存储介质
JP2021144675A (ja) * 2020-03-12 2021-09-24 富士フイルムビジネスイノベーション株式会社 方法及びプログラム
CN113096131A (zh) * 2021-06-09 2021-07-09 紫东信息科技(苏州)有限公司 基于vit网络的胃镜图片多标签分类系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JACK LANCHANTIN ET.AL: "General Multi-label Image Classification with Transformers", ARXIV:2011.14027V1 [CS.CV], 27 November 2020 (2020-11-27), pages 1 - 6 *
LAILA BASHMAL ET.AL: "UAV Image Multi-Labeling with Data-Efficient Transformers", APPLIED SCIENCES, 27 April 2021 (2021-04-27), pages 4 - 10 *
QUANFU FAN ET.AL: "CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image", ARXIV:2103.14899V2 [CS.CV], 22 August 2021 (2021-08-22), pages 2 - 8 *
刘贵阳 等: "卫星视频中目标的快速检测算法研究", 计算机系统应用, vol. 27, no. 11, 24 October 2018 (2018-10-24), pages 156 - 157 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132357A (zh) * 2022-08-30 2022-09-30 深圳大学总医院 基于医学影像图预测目标疾病指标状态的装置

Similar Documents

Publication Publication Date Title
CN114387567B (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN110276248B (zh) 一种基于样本权值分配和深度学习的人脸表情识别方法
US12008739B2 (en) Automatic photo editing via linguistic request
CN110892409A (zh) 用于分析图像的方法和装置
AU2021229122B2 (en) Text refinement network
US20230298224A1 (en) Systems and methods for color palette optimization
Kaneko et al. Generative adversarial image synthesis with decision tree latent controller
CN112712068B (zh) 一种关键点检测方法、装置、电子设备及存储介质
CN117351550A (zh) 基于有监督对比学习的网格自注意力人脸表情识别方法
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及系统
CN113869234B (zh) 人脸表情识别方法、装置、设备及存储介质
US20230154185A1 (en) Multi-source panoptic feature pyramid network
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114004992A (zh) 多标签分类模型的训练方法、图像的多标签分类方法
CN115292439A (zh) 一种数据处理方法及相关设备
CN117011943A (zh) 基于多尺度自注意力机制的解耦的3d网络的动作识别方法
CN114254686A (zh) 对抗样本的识别方法及装置
CN116994049A (zh) 全自动针织横机及其方法
CN117218477A (zh) 图像识别及模型训练方法、装置、设备及存储介质
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN110874553A (zh) 一种识别模型训练方法及装置
CN115294636A (zh) 一种基于自注意力机制的人脸聚类方法和装置
CN114842251A (zh) 图像分类模型的训练及图像处理方法、装置和计算设备
WO2021226607A1 (en) Systems and methods for video recognition
US20240062064A1 (en) Artificial Intelligence Computing Systems for Efficiently Learning Underlying Features of Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination