CN114694150B - 一种提升数字图像分类模型泛化能力的方法及系统 - Google Patents

一种提升数字图像分类模型泛化能力的方法及系统 Download PDF

Info

Publication number
CN114694150B
CN114694150B CN202210603080.4A CN202210603080A CN114694150B CN 114694150 B CN114694150 B CN 114694150B CN 202210603080 A CN202210603080 A CN 202210603080A CN 114694150 B CN114694150 B CN 114694150B
Authority
CN
China
Prior art keywords
sample image
data sample
module
data
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210603080.4A
Other languages
English (en)
Other versions
CN114694150A (zh
Inventor
徐行
唐嘉翊
沈复民
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202210603080.4A priority Critical patent/CN114694150B/zh
Publication of CN114694150A publication Critical patent/CN114694150A/zh
Application granted granted Critical
Publication of CN114694150B publication Critical patent/CN114694150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种提升数字图像分类模型泛化能力的方法及系统,属于计算机视觉与迁移学习技术领域中的适用于数字图像的分类模型及泛化方法,其目的在于解决现有技术中没有在领域泛化中对数字图像使用基于混合样本的数据增强的问题,其通过不同分类器的梯度信息获取数据样本图像的类别相关信息和域相关信息,将数据样本图像的类别信息和其他数据样本图像的域信息相结合,生成新的数据增强样本加入模型训练。该方法将基于混合样本的数据增强运用到了领域泛化任务中,通过混合不同样本的类别信息与域信息生成数据增强样本,生成的数据样本直观并且可解释性高,从而有益于提高模型的鲁棒性和泛化能力。

Description

一种提升数字图像分类模型泛化能力的方法及系统
技术领域
本发明属于计算机视觉与迁移学习技术领域,涉及一种适用于数字图像的分类模型的泛化方法及系统,更具体的是涉及一种基于数据增强的可适用于手写数字图像的泛化。
背景技术
由于深度学习对带标签数据的巨大需求以及人工标注在某些领域的低效性,迁移学习、无监督学习是当下研究的热点之一。迁移学习专注于将已经训练好的优秀模型应用到与源领域有一定相似性的目标领域中,从而减少了对新领域带标签数据的巨大需求。
领域泛化是迁移学习的一个子领域,其目的为训练一个具有较好鲁棒性的模型,通常是分类器,使得这个模型在任意一个训练时不可见的域都能有比较好的表现。在领域泛化任务中,虽然有源领域的数据和标签,但它并没有明确的目标域,更没有任何目标域的数据参与训练。所以领域泛化关注的不是模型在特定目标域的表现,而是在任意目标域的表现。这也使得模型的鲁棒性和泛化性更高,可以在不同的目标场景中重复使用,而不用针对当前目标域重新训练。
国内外的领域泛化研究中,常使用的数据集包括Digits-DG,PACS, Office-Home等,常用方法主要基于深度神经网络相关技术,具体又可以细分为基于领域对齐的方法、基于元学习的方法、基于数据增强的方法和基于自监督的方法等。其中,基于数据增强的方法又具体可以分为四类,分别为人工数据增强、基于梯度的数据增强、基于模型的数据增强和基于特征的数据增强。人工数据增强主要包括对原图进行对比度变化、亮度变化、旋转图片等等;基于梯度的数据增强借鉴对抗攻击的思路,通过梯度在原图上增加扰动,生成让标签分类器或领域分类器难以分辨类别标签或者域标签的新数据样本图像;基于模型的增强方法,主要包括用神经网络,cycleGAN等来对图片进行不同域之间的风格迁移;基于特征的增强方法则是在特征层面进行变换、融合,来生成新的样本。
尽管研究者们提出的诸多数据增强方法已经在大量公开数据集中取得了较高的正确率,但现有的数据增强方法中,还存在一些不足。首先,混合样本的数据增强在迁移学习的任务中并不常见,除了Minghao Xu等人将Mixup和领域自适应任务相结合,目前没有了解到其他工作在领域泛化中使用基于混合样本的数据增强。其次,目前大部分用于领域泛化的数据增强方法都较复杂,比如目前在领域泛化数据增强方面效果最优的工作DDAIG使用了专门设计的神经网络生成扰动,再添加到原图片上,从而生成新的数据样本图像,这样增加新网络的设计加大了整体的计算量,并且难以直接和其他分类网络相结合,而本专利的方法更加简洁并且普适。
综上,通过本专利提出的混合样本的数据增强方法,能够为领域泛化任务提供简单且可解释性高的数据泛化途径,本方法直接使用原本分类网络的梯度信息进行数据增强,新增计算量小并且可以迁移到任何分类网络进行使用。
发明内容
本发明的目的在于:为了解决现有技术中没有在领域泛化中对数字图像使用基于混合样本的数据增强的问题,本发明提供一种可适用于数字图像(尤其是手写数字)的数字图像分类模型、提升数字图像分类模型的泛化能力的方法及系统,通过不同分类器的梯度信息获取数据样本图像的类别相关信息和域相关信息,将数据样本图像的类别信息和其他数据样本图像的域信息相结合,生成新的数据增强样本加入模型训练,以实现模型更好的鲁棒性与泛化能力。
本发明为了实现上述目的具体采用以下技术方案:
一种提升数字图像分类模型泛化能力的方法,具体步骤为:
步骤S1,样本获取
获取手写的数据样本图像;
步骤S2,数据预处理
对步骤S1获取的数据样本图像进行预处理,预处理包括图像放缩、图像翻转以及图像裁剪;
步骤S3,模型搭建
搭建数字图像分类模型,数字图像分类模型包括特征提取模块、类别分类器模块、域分类器模块以及数据增强模块;
特征提取模块,采用卷积神经网络CNN或残差神经网络ResNet-101对数据样本图像进行特征提取,其中卷积神经网络CNN使用六层卷积层和四层最大池化,最终得到的特征维度为256维,残差神经网络ResNet-101去掉最后一层全连接层后,最终得到的特征维度为2048维;
类别分类器模块,通过第一全连接层将特征提取模块提取出的特征分类到对应的类别;
域分类器模块,通过第二全连接层将特征提取模块提取出的特征分类到对应的域;
数据增强模块,通过第一全连接层输出的得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分计算出样本图像中每个像素点对于域信息的贡献;通过将数据样本图像的类别信息的贡献大的像素点,与其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像并输入至类别分类器模块、域分类器模块;类别信息的贡献大于设置的最小贡献值
Figure 908505DEST_PATH_IMAGE001
即为类别信息的贡献大,域信息的贡献大于设置的最小贡献值
Figure 45219DEST_PATH_IMAGE002
即为域信息的贡献大;
步骤S4,模型预训练
使用步骤S2预处理后的数据样本图像对数字图像分类模型中的特征提取模块、类别分类器模块、域分类器模块进行预训练,特征提取模块提取数据样本图像中的特征,并将提取到的特征输入类别分类器模块、域分类器模块,类别分类器模块将特征提取模块提取出的特征分类到对应的类别并定位出数据样本图像中与类别信息有关的像素点,域分类器模块将特征提取模块提取出的特征分类到对应的域并定位出数据样本图像中与域信息有关的像素点,类别分类器模块、域分类器模块定位到的像素点再输入至数据增强模块,生成新的增强的数据样本图像;
步骤S5,模型训练
每个类别随机选取一定量的数据样本图像,并加入增强的数据样本图像,组成新的训练集,继续对数字图像分类模型进行训练;
数据样本图像、增强的数据样本图像作为输入,通过第一全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于域信息的贡献;通过将训练集中数据样本图像的类别信息的贡献大的像素点,与训练集中其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像;
加入增强的数据样本图像后,数字图像分类模型的整体损失函数为:
Figure 293798DEST_PATH_IMAGE003
其中,
Figure 157849DEST_PATH_IMAGE004
Figure 441062DEST_PATH_IMAGE005
分别是类别分类器模块的第一损失函数、域分类器模块的第二损失函数,
Figure 184896DEST_PATH_IMAGE006
Figure 920771DEST_PATH_IMAGE007
分别是
Figure 588513DEST_PATH_IMAGE004
Figure 742545DEST_PATH_IMAGE005
的权重参数,按损失函数
Figure 204750DEST_PATH_IMAGE008
对整个数字图像分类模型的特征提取模块、类别分类器模块和域分类器模块的参数进行更新。
优选地,数据样本图像包括Digit-DG、Office-Home和PACS三个公开数据集;
Digit-DG收集了四个不同种类的手写数字识别数据集的子集,分别为MNIST-M、MNIST、SVHN和Synthetic Digits,每个子集均含有25000张训练图片和9000张测试图片;
Office-Home包含15588张图片,65个类别,展现在四个域中:Art、Clipart、Product和Real;
PACS总共包含9991张图片,有四个域的数据:Art painting、Cartoon、Photo和Sketch,其中每个域都包含有7个类别的图像。
优选地,特征提取模块提取数据样本图像中的特征时,对于Digit-DG数据集,图像大小缩放为
Figure 427921DEST_PATH_IMAGE009
,特征提取模块选用六层卷积层和四层最大池化的卷积神经网络,卷积核大小均为3,最终拉伸为一维向量得到的特征维度为256维;对于Office-Home数据集,图像大小为
Figure 633775DEST_PATH_IMAGE010
,特征提取模块选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量;对于PACS数据集,图像大小为
Figure 609690DEST_PATH_IMAGE010
,特征提取模块同样选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量;
在训练中,Digit-DG数据集的一批训练数据量为128,Office-Home和PACS数据集的一批训练数据量为32,因此训练时Digit-DG的特征图维度为
Figure 773955DEST_PATH_IMAGE011
,Office-Home和PACS数据集的特征图维度为
Figure 484422DEST_PATH_IMAGE012
;训练时,Digit-DG数据集训练50个epoch,Office-Home和PACS数据集由于数据量相对较大,只训练30个epoch。
优选地,类别分类器模块采用第一损失函数进行训练,第一损失函数为:
Figure 228387DEST_PATH_IMAGE013
其中N为类别数,
Figure 91432DEST_PATH_IMAGE014
为符号函数,如果数据样本图像i的真实类别为c,则
Figure 895440DEST_PATH_IMAGE014
取1,否则取0;
Figure 93203DEST_PATH_IMAGE015
,是数据样本图像i属于类别c的预测概率,其中
Figure 640859DEST_PATH_IMAGE016
为数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 856945DEST_PATH_IMAGE017
为数据样本图像i经过特征提取模块与第一全连接层后,得到的数据样本图像i关于类别j的得分;
Figure 97434DEST_PATH_IMAGE018
为符号函数,如果增强的数据样本图像i的真实类别为c,则
Figure 736488DEST_PATH_IMAGE019
取1,否则取0;
Figure 307409DEST_PATH_IMAGE020
,是增强的数据样本图像i属于类别c的预测概率,其中
Figure 331997DEST_PATH_IMAGE021
为增强的数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 258233DEST_PATH_IMAGE022
为增强的数据样本图像i经过所述特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别j的得分。
优选地,域分类器模块采用第二损失函数进行训练,第二损失函数如下:
Figure 165009DEST_PATH_IMAGE023
其中M为源域的个数,
Figure 54468DEST_PATH_IMAGE024
为符号函数,如果数据样本图像i的真实域为d,则
Figure 730300DEST_PATH_IMAGE025
取1,否则取0;
Figure 317184DEST_PATH_IMAGE026
,是数据样本图像i属于域d的预测概率,其中
Figure 445677DEST_PATH_IMAGE027
为数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 138826DEST_PATH_IMAGE028
为数据样本图像i经过特征提取模块与第二全连接层后,得到的数据样本图像i关于域j的得分;
Figure 669165DEST_PATH_IMAGE029
为符号函数,如果增强的数据样本图像i的真实域为d,则
Figure 671625DEST_PATH_IMAGE029
取1,否则取0;
Figure 552993DEST_PATH_IMAGE030
,是增强的数据样本图像i属于域d的预测概率,其中
Figure 49834DEST_PATH_IMAGE031
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 700258DEST_PATH_IMAGE032
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域j的得分。
优选地,数据增强模块在计算类别信息的贡献时,计算公式为:
Figure 109505DEST_PATH_IMAGE033
其中
Figure 274907DEST_PATH_IMAGE034
是和数据样本图像长宽相同的二维向量,其第i行第j列的值代表数据样本图像位于位置
Figure 309859DEST_PATH_IMAGE035
的像素点对于该类别分类结果的贡献;
Figure 283631DEST_PATH_IMAGE036
是数据样本图像经过特征提取模块与第一全连接层后,得到的关于类别c的得分;
Figure 831156DEST_PATH_IMAGE037
是第k层卷积层的特征激活图;
Figure 155958DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 745333DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在计算域信息的贡献时,计算公式为:
Figure 370350DEST_PATH_IMAGE040
其中
Figure 839508DEST_PATH_IMAGE041
是和数据样本图像长宽相同的二维向量,第i行第j列的值代表数据样本图像位于位置
Figure 713924DEST_PATH_IMAGE042
的像素点对于该域分类结果的贡献;
Figure 605525DEST_PATH_IMAGE043
是数据样本图像经过特征提取模块与第二全连接层后,得到的关于域d的得分;
Figure 85048DEST_PATH_IMAGE044
是第k层卷积层的特征激活图;
Figure 521845DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 86819DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在生成新的增强的数据样本图像时,计算公式为:
Figure 17997DEST_PATH_IMAGE045
其中
Figure 352026DEST_PATH_IMAGE046
是随机的数据样本图像,
Figure 959725DEST_PATH_IMAGE047
是和
Figure 11995DEST_PATH_IMAGE046
长宽相同的零一矩阵,对于
Figure 183082DEST_PATH_IMAGE046
通过上述公式计算得到的每个像素点对于类别信息的贡献
Figure 902776DEST_PATH_IMAGE048
,设置最小贡献值
Figure 635371DEST_PATH_IMAGE001
,如果
Figure 440516DEST_PATH_IMAGE049
,则
Figure 962765DEST_PATH_IMAGE050
,否则
Figure 271386DEST_PATH_IMAGE051
;M为源域的个数,
Figure 470155DEST_PATH_IMAGE052
是和所述
Figure 231438DEST_PATH_IMAGE053
不同源域的数据样本图像,
Figure 557377DEST_PATH_IMAGE054
是和
Figure 720505DEST_PATH_IMAGE055
长宽相同的零一矩阵,对于
Figure 732586DEST_PATH_IMAGE055
通过上述公式计算得到的每个像素点对于域信息的贡献
Figure 496011DEST_PATH_IMAGE056
,设置最小贡献值
Figure 94483DEST_PATH_IMAGE002
,如果
Figure 112117DEST_PATH_IMAGE057
,则
Figure 419733DEST_PATH_IMAGE058
,否则
Figure 155608DEST_PATH_IMAGE059
;数据增强后的训练样本,图片为
Figure 823349DEST_PATH_IMAGE060
,类别标签和
Figure 413600DEST_PATH_IMAGE053
的类别标签相同。
一种提升数字图像分类模型泛化能力的系统,包括:
样本获取主模块,用于获取手写的数据样本图像;
数据预处理主模块,用于对样本获取模块获取的数据样本图像进行预处理,预处理包括图像放缩、图像翻转以及图像裁剪;
模型搭建主模块,用于搭建数字图像分类模型,数字图像分类模型包括特征提取模块、类别分类器模块、域分类器模块以及数据增强模块;特征提取模块,采用卷积神经网络CNN或残差神经网络ResNet-101对数据样本图像进行特征提取,其中卷积神经网络CNN使用六层卷积层和四层最大池化,最终得到的特征维度为256维,残差神经网络ResNet-101去掉最后一层全连接层后,最终得到的特征维度为2048维;类别分类器模块,通过第一全连接层将特征提取模块提取出的特征分类到对应的类别;域分类器模块,通过第二全连接层将特征提取模块提取出的特征分类到对应的域;数据增强模块,通过第一全连接层输出的得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分计算出样本图像中每个像素点对于域信息的贡献;通过将数据样本图像的类别信息的贡献大的像素点,与其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像并输入至类别分类器模块、域分类器模块;类别信息的贡献大于设置的最小贡献值
Figure 344647DEST_PATH_IMAGE001
即为类别信息的贡献大,域信息的贡献大于设置的最小贡献值
Figure 833397DEST_PATH_IMAGE002
即为域信息的贡献大;
模型预训练主模块,用于使用数据预处理主模块预处理后的数据样本图像对数字图像分类模型中的特征提取模块、类别分类器模块、域分类器模块进行预训练,特征提取模块提取数据样本图像中的特征,并将提取到的特征输入类别分类器模块、域分类器模块,类别分类器模块将特征提取模块提取出的特征分类到对应的类别并定位出数据样本图像中与类别信息有关的像素点,域分类器模块将特征提取模块提取出的特征分类到对应的域并定位出数据样本图像中与域信息有关的像素点,类别分类器模块、域分类器模块定位到的像素点再输入至数据增强模块,生成新的增强的数据样本图像;
模型训练模块,用于每个类别随机选取一定量的数据样本图像,并加入增强的数据样本图像,组成新的训练集,继续对数字图像分类模型进行训练;数据样本图像、增强的数据样本图像作为输入,通过第一全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于域信息的贡献;通过将训练集中数据样本图像的类别信息的贡献大的像素点,与训练集中其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像;
加入增强的数据样本图像后,数字图像分类模型的整体损失函数为:
Figure 789983DEST_PATH_IMAGE003
其中,
Figure 516630DEST_PATH_IMAGE004
Figure 680895DEST_PATH_IMAGE005
分别是类别分类器模块的第一损失函数、域分类器模块的第二损失函数,
Figure 578313DEST_PATH_IMAGE006
Figure 322278DEST_PATH_IMAGE007
分别是
Figure 400304DEST_PATH_IMAGE004
Figure 204312DEST_PATH_IMAGE005
的权重参数,按损失函数
Figure 667654DEST_PATH_IMAGE008
对整个数字图像分类模型的特征提取模块、类别分类器模块和域分类器模块的参数进行更新。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行任一项提升数字图像分类模型泛化能力的方法的步骤。
一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行任一项提升数字图像分类模型泛化能力的方法的步骤。
本发明的有益效果如下:
(1)、本发明中,提出了一个基于数据增强的领域泛化方法,该方法将基于混合样本的数据增强运用到了领域泛化任务中,通过混合不同样本的类别信息与域信息生成数据增强样本,生成的数据样本直观并且可解释性高。
(2)、本发明中,在生成数据增强样本的基础上,设计了数据增强样本适用于领域泛化任务的损失函数和训练步骤,从而实现了数据增强与领域泛化任务相结合,有益于提高模型的鲁棒性和泛化能力。
(3)、本发明中,在模型的复杂度方面,直接使用本身分类网络的梯度信息进行图片类别相关信息和域相关信息的定位,将不同样本的类别信息和域信息混合后实现数据增强,新增计算量小并且可以迁移到任何分类网络进行使用。
附图说明
图1为本发明的流程示意图;
图2为本发明中数字图像分类模型的框架示意图;
图3为本发明中数据增强样本生成的示意图。
具体实施方式
实施例1
本实施例提供一种提升数字图像分类模型泛化能力的方法,用于数字图像,尤其是手写数字图像的数字图像分类模型的泛华,提升模型的泛华能力。
该方法的流程如图1所示,其具体包括以下步骤:
步骤S1,样本获取
获取手写的数据样本图像;
数据样本图像包括Digit-DG、Office-Home和PACS三个公开数据集;
Digit-DG收集了四个不同种类的手写数字识别数据集的子集,分别为MNIST-M、MNIST、SVHN和Synthetic Digits,每个子集均含有25000张训练图片和9000张测试图片;
Office-Home包含15588张图片,65个类别,展现在四个域中:Art、Clipart、Product和Real;
PACS总共包含9991张图片,有四个域的数据:Art painting、Cartoon、Photo和Sketch,其中每个域都包含有7个类别的图像。
步骤S2,数据预处理
对步骤S1获取的数据样本图像进行预处理,预处理包括图像放缩、图像翻转以及图像裁剪;
步骤S3,模型搭建
搭建如图2所示的数字图像分类模型,数字图像分类模型包括特征提取模块、类别分类器模块、域分类器模块以及数据增强模块;
特征提取模块,采用卷积神经网络CNN或残差神经网络ResNet-101对数据样本图像进行特征提取,其中卷积神经网络CNN使用六层卷积层和四层最大池化,最终得到的特征维度为256维,残差神经网络ResNet-101去掉最后一层全连接层后,最终得到的特征维度为2048维。在进行特征提取时,对于Digit-DG数据集,图像大小缩放为
Figure 667840DEST_PATH_IMAGE009
,特征提取模块选用六层卷积层和四层最大池化的卷积神经网络,卷积核大小均为3,最终拉伸为一维向量得到的特征维度为256维;对于Office-Home数据集,图像大小为
Figure 900238DEST_PATH_IMAGE010
,特征提取模块选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量;对于PACS数据集,图像大小为
Figure 78410DEST_PATH_IMAGE010
,特征提取模块同样选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量。
类别分类器模块包括第一全连接层,通过第一全连接层将特征提取模块提取出的特征分类到对应的类别。
域分类器模块,通过第二全连接层将特征提取模块提取出的特征分类到对应的域。
数据增强模块,通过第一全连接层输出的得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分计算出样本图像中每个像素点对于域信息的贡献;通过将数据样本图像的类别信息的贡献大的像素点,与其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像并输入至类别分类器模块、域分类器模块;类别信息的贡献大于设置的最小贡献值
Figure 514202DEST_PATH_IMAGE001
即为类别信息的贡献大,域信息的贡献大于设置的最小贡献值
Figure 865549DEST_PATH_IMAGE002
即为域信息的贡献大;
数据增强模块在计算类别信息的贡献时,计算公式为:
Figure 155716DEST_PATH_IMAGE033
其中
Figure 754056DEST_PATH_IMAGE061
是和数据样本图像长宽相同的二维向量,其第i行第j列的值代表数据样本图像位于位置
Figure 660832DEST_PATH_IMAGE035
的像素点对于该类别分类结果的贡献;
Figure 301023DEST_PATH_IMAGE036
是数据样本图像经过特征提取模块与第一全连接层后,得到的关于类别c的得分;
Figure 163806DEST_PATH_IMAGE037
是第k层卷积层的特征激活图;
Figure 683780DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 77852DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在计算域信息的贡献时,计算公式为:
Figure 521734DEST_PATH_IMAGE040
其中
Figure 317652DEST_PATH_IMAGE041
是和数据样本图像长宽相同的二维向量,第i行第j列的值代表数据样本图像位于位置
Figure 70844DEST_PATH_IMAGE042
的像素点对于该域分类结果的贡献;
Figure 952213DEST_PATH_IMAGE043
是数据样本图像经过特征提取模块与第二全连接层后,得到的关于域d的得分;
Figure 432741DEST_PATH_IMAGE044
是第k层卷积层的特征激活图;
Figure 83166DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 7259DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在生成新的增强的数据样本图像时,计算公式为:
Figure 375924DEST_PATH_IMAGE045
其中
Figure 161608DEST_PATH_IMAGE046
是随机的数据样本图像,
Figure 666539DEST_PATH_IMAGE047
是和
Figure 761534DEST_PATH_IMAGE046
长宽相同的零一矩阵,对于
Figure 617494DEST_PATH_IMAGE046
通过上述公式计算得到的每个像素点对于类别信息的贡献
Figure 439826DEST_PATH_IMAGE048
,设置最小贡献值
Figure 64842DEST_PATH_IMAGE001
,如果
Figure 330738DEST_PATH_IMAGE049
,则
Figure 408416DEST_PATH_IMAGE050
,否则
Figure 801482DEST_PATH_IMAGE051
;M为源域的个数,
Figure 77743DEST_PATH_IMAGE052
是和所述
Figure 514540DEST_PATH_IMAGE053
不同源域的数据样本图像,
Figure 79514DEST_PATH_IMAGE054
是和
Figure 994380DEST_PATH_IMAGE055
长宽相同的零一矩阵,对于
Figure 843256DEST_PATH_IMAGE055
通过上述公式计算得到的每个像素点对于域信息的贡献
Figure 450955DEST_PATH_IMAGE056
,设置最小贡献值
Figure 503225DEST_PATH_IMAGE002
,如果
Figure 221782DEST_PATH_IMAGE057
,则
Figure 426630DEST_PATH_IMAGE058
,否则
Figure 205230DEST_PATH_IMAGE059
;数据增强后的训练样本,图片为
Figure 744796DEST_PATH_IMAGE060
,类别标签和
Figure 267044DEST_PATH_IMAGE053
的类别标签相同。
步骤S4,模型预训练
使用步骤S2预处理后的数据样本图像对数字图像分类模型中的特征提取模块、类别分类器模块、域分类器模块进行预训练,特征提取模块提取数据样本图像中的特征,并将提取到的特征输入类别分类器模块、域分类器模块,类别分类器模块将特征提取模块提取出的特征分类到对应的类别并定位出数据样本图像中与类别信息有关的像素点,域分类器模块将特征提取模块提取出的特征分类到对应的域并定位出数据样本图像中与域信息有关的像素点,类别分类器模块、域分类器模块定位到的像素点再输入至数据增强模块,生成新的增强的数据样本图像;
预训练时,Digit-DG数据集的一批训练数据量为128,Office-Home和PACS数据集的一批训练数据量为32,因此训练时Digit-DG的特征图维度为
Figure 824933DEST_PATH_IMAGE011
,Office-Home和PACS数据集的特征图维度为
Figure 774434DEST_PATH_IMAGE012
;训练时Digit-DG数据集需要训练3个epoch,Office-Home和PACS数据集由于图片尺寸较大,信息较复杂,需要训练5个epoch。
类别分类器模块采用第一损失函数进行训练,第一损失函数为:
Figure 535717DEST_PATH_IMAGE013
其中N为类别数,
Figure 861656DEST_PATH_IMAGE014
为符号函数,如果数据样本图像i的真实类别为c,则
Figure 775517DEST_PATH_IMAGE014
取1,否则取0;
Figure 630340DEST_PATH_IMAGE015
,是数据样本图像i属于类别c的预测概率,其中
Figure 144498DEST_PATH_IMAGE062
为数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 8549DEST_PATH_IMAGE017
为数据样本图像i经过特征提取模块与第一全连接层后,得到的数据样本图像i关于类别j的得分;
Figure 275451DEST_PATH_IMAGE018
为符号函数,如果增强的数据样本图像i的真实类别为c,则
Figure 832334DEST_PATH_IMAGE019
取1,否则取0;
Figure 568209DEST_PATH_IMAGE020
,是增强的数据样本图像i属于类别c的预测概率,其中
Figure 970372DEST_PATH_IMAGE021
为增强的数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 904830DEST_PATH_IMAGE022
为增强的数据样本图像i经过所述特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别j的得分。
域分类器模块采用第二损失函数进行训练,第二损失函数如下:
Figure 371628DEST_PATH_IMAGE023
其中M为源域的个数,
Figure 329220DEST_PATH_IMAGE024
为符号函数,如果数据样本图像i的真实域为d,则
Figure 800652DEST_PATH_IMAGE025
取1,否则取0;
Figure 792879DEST_PATH_IMAGE026
,是数据样本图像i属于域d的预测概率,其中
Figure 675253DEST_PATH_IMAGE063
为数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 385720DEST_PATH_IMAGE028
为数据样本图像i经过特征提取模块与第二全连接层后,得到的数据样本图像i关于域j的得分;
Figure 395265DEST_PATH_IMAGE029
为符号函数,如果增强的数据样本图像i的真实域为d,则
Figure 241998DEST_PATH_IMAGE029
取1,否则取0;
Figure 796738DEST_PATH_IMAGE030
,是增强的数据样本图像i属于域d的预测概率,其中
Figure 728922DEST_PATH_IMAGE031
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 542157DEST_PATH_IMAGE032
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域j的得分。
步骤S5,模型训练
每个类别随机选取一定量的数据样本图像,并加入增强的数据样本图像,组成新的训练集,继续对数字图像分类模型进行训练;
预训练时,Digit-DG数据集的一批训练数据量为128,Office-Home和PACS数据集的一批训练数据量为32,因此训练时Digit-DG的特征图维度为
Figure 508976DEST_PATH_IMAGE011
,Office-Home和PACS数据集的特征图维度为
Figure 201995DEST_PATH_IMAGE012
;训练时,Digit-DG数据集训练50个epoch,Office-Home和PACS数据集由于数据量相对较大,只训练30个epoch;
数据样本图像、增强的数据样本图像作为输入,通过第一全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于域信息的贡献;通过将训练集中数据样本图像的类别信息的贡献大的像素点,与训练集中其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像;
加入增强的数据样本图像后,数字图像分类模型的整体损失函数为:
Figure 887054DEST_PATH_IMAGE003
其中,
Figure 503980DEST_PATH_IMAGE004
Figure 76038DEST_PATH_IMAGE005
分别是类别分类器模块的第一损失函数、域分类器模块的第二损失函数,
Figure 956269DEST_PATH_IMAGE006
Figure 863046DEST_PATH_IMAGE007
分别是
Figure 18083DEST_PATH_IMAGE004
Figure 943183DEST_PATH_IMAGE005
的权重参数,按损失函数
Figure 525474DEST_PATH_IMAGE008
对整个数字图像分类模型的特征提取模块、类别分类器模块和域分类器模块的参数进行更新。
本实施例提出的模型在上述步骤S1中所提到的三种数据集上均进行了如步骤S3-5所述的训练,并进行测试集的测试,其测试结果显示,在Digit-DG、Office-Home和PACS上的平均分类正确率分别为78.8%、61.3%和80.6%,其中Digit-DG的结果优于已有的领域泛化数据增强方法,Office-Home和PACS的结果也达到了较高的水平,即本实施例提出的模型能够有效地生成数据增强样本并且用于训练模型的鲁棒性及泛化能力。
图3是采用MNIST-M、MNIST、SVHN和Synthetic Digits中的数字图像经由本实施例的方案进行数字增强后测试得到的图像结果。
为进一步验证本实施例提出数据增强方法的有效性,在Digit-DG数据集上进行了剔除数据增强模块的实验,去除数据增强模块后,模型分类平均正确率为71.1%,即去掉本发明提出的数据增强模块后,模型分类器的正确率有大幅下降,由此说明,本发明提出的数据增强模块对当前的领域泛化任务是有效的。
实施例2
本实施例提供一种提升数字图像分类模型泛化能力的系统,用于数字图像,尤其是手写数字图像的数字图像分类模型的泛华,提升模型的泛华能力。其包括样本获取主模块、数据预处理主模块、模型搭建主模块、模型预训练主模块、模型训练主模块。
样本获取主模块,用于获取手写的数据样本图像;
数据样本图像包括Digit-DG、Office-Home和PACS三个公开数据集;
Digit-DG收集了四个不同种类的手写数字识别数据集的子集,分别为MNIST-M、MNIST、SVHN和Synthetic Digits,每个子集均含有25000张训练图片和9000张测试图片;
Office-Home包含15588张图片,65个类别,展现在四个域中:Art、Clipart、Product和Real;
PACS总共包含9991张图片,有四个域的数据:Art painting、Cartoon、Photo和Sketch,其中每个域都包含有7个类别的图像。
数据预处理主模块,用于对样本获取主模块获取的数据样本图像进行预处理,预处理包括图像放缩、图像翻转以及图像裁剪;
模型搭建主模块,用于搭建数字图像分类模型,数字图像分类模型包括特征提取模块、类别分类器模块、域分类器模块以及数据增强模块;
特征提取模块,采用卷积神经网络CNN或残差神经网络ResNet-101对数据样本图像进行特征提取,其中卷积神经网络CNN使用六层卷积层和四层最大池化,最终得到的特征维度为256维,残差神经网络ResNet-101去掉最后一层全连接层后,最终得到的特征维度为2048维。在进行特征提取时,对于Digit-DG数据集,图像大小缩放为
Figure 919546DEST_PATH_IMAGE009
,特征提取模块选用六层卷积层和四层最大池化的卷积神经网络,卷积核大小均为3,最终拉伸为一维向量得到的特征维度为256维;对于Office-Home数据集,图像大小为
Figure 612696DEST_PATH_IMAGE010
,特征提取模块选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量;对于PACS数据集,图像大小为
Figure 159346DEST_PATH_IMAGE010
,特征提取模块同样选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量。
类别分类器模块包括第一全连接层,通过第一全连接层将特征提取模块提取出的特征分类到对应的类别。
域分类器模块,通过第二全连接层将特征提取模块提取出的特征分类到对应的域。
数据增强模块,通过第一全连接层输出的得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分计算出样本图像中每个像素点对于域信息的贡献;通过将数据样本图像的类别信息的贡献大的像素点,与其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像并输入至类别分类器模块、域分类器模块;类别信息的贡献大于设置的最小贡献值
Figure 709276DEST_PATH_IMAGE001
即为类别信息的贡献大,域信息的贡献大于设置的最小贡献值
Figure 325065DEST_PATH_IMAGE002
即为域信息的贡献大;
数据增强模块在计算类别信息的贡献时,计算公式为:
Figure 25168DEST_PATH_IMAGE033
其中
Figure 472330DEST_PATH_IMAGE034
是和数据样本图像长宽相同的二维向量,其第i行第j列的值代表数据样本图像位于位置
Figure 645691DEST_PATH_IMAGE035
的像素点对于该类别分类结果的贡献;
Figure 14355DEST_PATH_IMAGE036
是数据样本图像经过特征提取模块与第一全连接层后,得到的关于类别c的得分;
Figure 49307DEST_PATH_IMAGE037
是第k层卷积层的特征激活图;
Figure 554238DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 399965DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在计算域信息的贡献时,计算公式为:
Figure 990347DEST_PATH_IMAGE040
其中
Figure 828990DEST_PATH_IMAGE041
是和数据样本图像长宽相同的二维向量,第i行第j列的值代表数据样本图像位于位置
Figure 188427DEST_PATH_IMAGE042
的像素点对于该域分类结果的贡献;
Figure 703591DEST_PATH_IMAGE043
是数据样本图像经过特征提取模块与第二全连接层后,得到的关于域d的得分;
Figure 781268DEST_PATH_IMAGE044
是第k层卷积层的特征激活图;
Figure 158023DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 637546DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在生成新的增强的数据样本图像时,计算公式为:
Figure 825076DEST_PATH_IMAGE045
其中
Figure 390049DEST_PATH_IMAGE046
是随机的数据样本图像,
Figure 570495DEST_PATH_IMAGE047
是和
Figure 170103DEST_PATH_IMAGE046
长宽相同的零一矩阵,对于
Figure 574540DEST_PATH_IMAGE046
通过上述公式计算得到的每个像素点对于类别信息的贡献
Figure 610498DEST_PATH_IMAGE048
,设置最小贡献值
Figure 594635DEST_PATH_IMAGE001
,如果
Figure 48750DEST_PATH_IMAGE049
,则
Figure 827350DEST_PATH_IMAGE050
,否则
Figure 852069DEST_PATH_IMAGE051
;M为源域的个数,
Figure 374317DEST_PATH_IMAGE052
是和所述
Figure 682939DEST_PATH_IMAGE053
不同源域的数据样本图像,
Figure 632440DEST_PATH_IMAGE054
是和
Figure 642990DEST_PATH_IMAGE055
长宽相同的零一矩阵,对于
Figure 703350DEST_PATH_IMAGE055
通过上述公式计算得到的每个像素点对于域信息的贡献
Figure 132057DEST_PATH_IMAGE056
,设置最小贡献值
Figure 252460DEST_PATH_IMAGE002
,如果
Figure 251771DEST_PATH_IMAGE057
,则
Figure 115822DEST_PATH_IMAGE058
,否则
Figure 195774DEST_PATH_IMAGE059
;数据增强后的训练样本,图片为
Figure 487078DEST_PATH_IMAGE060
,类别标签和
Figure 222952DEST_PATH_IMAGE053
的类别标签相同。
模型预训练主模块,用于使用数据预处理主模块预处理后的数据样本图像对数字图像分类模型中的特征提取模块、类别分类器模块、域分类器模块进行预训练,特征提取模块提取数据样本图像中的特征,并将提取到的特征输入类别分类器模块、域分类器模块,类别分类器模块将特征提取模块提取出的特征分类到对应的类别并定位出数据样本图像中与类别信息有关的像素点,域分类器模块将特征提取模块提取出的特征分类到对应的域并定位出数据样本图像中与域信息有关的像素点,类别分类器模块、域分类器模块定位到的像素点再输入至数据增强模块,生成新的增强的数据样本图像;
预训练时,Digit-DG数据集的一批训练数据量为128,Office-Home和PACS数据集的一批训练数据量为32,因此训练时Digit-DG的特征图维度为
Figure 139962DEST_PATH_IMAGE011
,Office-Home和PACS数据集的特征图维度为
Figure 277682DEST_PATH_IMAGE012
;训练时Digit-DG数据集需要训练3个epoch,Office-Home和PACS数据集由于图片尺寸较大,信息较复杂,需要训练5个epoch。
类别分类器模块采用第一损失函数进行训练,第一损失函数为:
Figure 739887DEST_PATH_IMAGE013
其中N为类别数,
Figure 963058DEST_PATH_IMAGE014
为符号函数,如果数据样本图像i的真实类别为c,则
Figure 196942DEST_PATH_IMAGE014
取1,否则取0;
Figure 189169DEST_PATH_IMAGE015
,是数据样本图像i属于类别c的预测概率,其中
Figure 556696DEST_PATH_IMAGE064
为数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 267163DEST_PATH_IMAGE017
为数据样本图像i经过特征提取模块与第一全连接层后,得到的数据样本图像i关于类别j的得分;
Figure 525975DEST_PATH_IMAGE018
为符号函数,如果增强的数据样本图像i的真实类别为c,则
Figure 372708DEST_PATH_IMAGE019
取1,否则取0;
Figure 442296DEST_PATH_IMAGE020
,是增强的数据样本图像i属于类别c的预测概率,其中
Figure 374480DEST_PATH_IMAGE065
为增强的数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 938447DEST_PATH_IMAGE022
为增强的数据样本图像i经过所述特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别j的得分。
域分类器模块采用第二损失函数进行训练,第二损失函数如下:
Figure 436425DEST_PATH_IMAGE023
其中M为源域的个数,
Figure 676913DEST_PATH_IMAGE024
为符号函数,如果数据样本图像i的真实域为d,则
Figure 96393DEST_PATH_IMAGE025
取1,否则取0;
Figure 165849DEST_PATH_IMAGE026
,是数据样本图像i属于域d的预测概率,其中
Figure 987175DEST_PATH_IMAGE027
为数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 398564DEST_PATH_IMAGE028
为数据样本图像i经过特征提取模块与第二全连接层后,得到的数据样本图像i关于域j的得分;
Figure 305341DEST_PATH_IMAGE029
为符号函数,如果增强的数据样本图像i的真实域为d,则
Figure 211111DEST_PATH_IMAGE029
取1,否则取0;
Figure 824626DEST_PATH_IMAGE030
,是增强的数据样本图像i属于域d的预测概率,其中
Figure 328288DEST_PATH_IMAGE066
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 722361DEST_PATH_IMAGE032
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域j的得分。
模型训练主模块,用于每个类别随机选取一定量的数据样本图像,并加入增强的数据样本图像,组成新的训练集,继续对数字图像分类模型进行训练;
预训练时,Digit-DG数据集的一批训练数据量为128,Office-Home和PACS数据集的一批训练数据量为32,因此训练时Digit-DG的特征图维度为
Figure 635084DEST_PATH_IMAGE011
,Office-Home和PACS数据集的特征图维度为
Figure 431002DEST_PATH_IMAGE012
;训练时,Digit-DG数据集训练50个epoch,Office-Home和PACS数据集由于数据量相对较大,只训练30个epoch;
数据样本图像、增强的数据样本图像作为输入,通过第一全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于域信息的贡献;通过将训练集中数据样本图像的类别信息的贡献大的像素点,与训练集中其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像;
加入增强的数据样本图像后,数字图像分类模型的整体损失函数为:
Figure 918615DEST_PATH_IMAGE067
其中,
Figure 49251DEST_PATH_IMAGE004
Figure 280512DEST_PATH_IMAGE005
分别是类别分类器模块的第一损失函数、域分类器模块的第二损失函数,
Figure 665357DEST_PATH_IMAGE006
Figure 605762DEST_PATH_IMAGE007
分别是
Figure 708848DEST_PATH_IMAGE004
Figure 743800DEST_PATH_IMAGE005
的权重参数,按损失函数
Figure 514310DEST_PATH_IMAGE008
对整个数字图像分类模型的特征提取模块、类别分类器模块和域分类器模块的参数进行更新。
实施例3
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述提升数字图像分类模型泛化能力的方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如运行所述提升数字图像分类模型泛化能力的方法的的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述提升数字图像分类模型泛化能力的方法的的程序代码。
实施例4
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述提升数字图像分类模型泛化能力的方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行提升数字图像分类模型泛化能力的方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。

Claims (9)

1.一种提升数字图像分类模型泛化能力的方法,其特征在于:具体步骤为:
步骤S1,样本获取
获取手写的数据样本图像;
步骤S2,数据预处理
对步骤S1获取的数据样本图像进行预处理,预处理包括图像放缩、图像翻转以及图像裁剪;
步骤S3,模型搭建
搭建数字图像分类模型,数字图像分类模型包括特征提取模块、类别分类器模块、域分类器模块以及数据增强模块;
特征提取模块,采用卷积神经网络CNN或残差神经网络ResNet-101对数据样本图像进行特征提取,其中卷积神经网络CNN使用六层卷积层和四层最大池化,最终得到的特征维度为256维,残差神经网络ResNet-101去掉最后一层全连接层后,最终得到的特征维度为2048维;
类别分类器模块,通过第一全连接层将特征提取模块提取出的特征分类到对应的类别;
域分类器模块,通过第二全连接层将特征提取模块提取出的特征分类到对应的域;
数据增强模块,通过第一全连接层输出的得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分计算出样本图像中每个像素点对于域信息的贡献;通过将数据样本图像的类别信息的贡献大的像素点,与其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像并输入至类别分类器模块、域分类器模块;类别信息的贡献大于设置的最小贡献值
Figure 239493DEST_PATH_IMAGE001
即为类别信息的贡献大,域信息的贡献大于设置的最小贡献值
Figure 829874DEST_PATH_IMAGE002
即为域信息的贡献大;
步骤S4,模型预训练
使用步骤S2预处理后的数据样本图像对数字图像分类模型中的特征提取模块、类别分类器模块、域分类器模块进行预训练,特征提取模块提取数据样本图像中的特征,并将提取到的特征输入类别分类器模块、域分类器模块,类别分类器模块将特征提取模块提取出的特征分类到对应的类别并定位出数据样本图像中与类别信息有关的像素点,域分类器模块将特征提取模块提取出的特征分类到对应的域并定位出数据样本图像中与域信息有关的像素点,类别分类器模块、域分类器模块定位到的像素点再输入至数据增强模块,生成新的增强的数据样本图像;
步骤S5,模型训练
每个类别随机选取一定量的数据样本图像,并加入增强的数据样本图像,组成新的训练集,继续对数字图像分类模型进行训练;
数据样本图像、增强的数据样本图像作为输入,通过第一全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于域信息的贡献;通过将训练集中数据样本图像的类别信息的贡献大的像素点,与训练集中其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像;
加入增强的数据样本图像后,数字图像分类模型的整体损失函数为:
Figure 917784DEST_PATH_IMAGE003
其中,
Figure 542801DEST_PATH_IMAGE004
Figure 808697DEST_PATH_IMAGE005
分别是类别分类器模块的第一损失函数、域分类器模块的第二损失函数,
Figure 886375DEST_PATH_IMAGE006
Figure 13862DEST_PATH_IMAGE007
分别是
Figure 493385DEST_PATH_IMAGE004
Figure 930182DEST_PATH_IMAGE005
的权重参数,按损失函数
Figure 495156DEST_PATH_IMAGE008
对整个数字图像分类模型的特征提取模块、类别分类器模块和域分类器模块的参数进行更新。
2.如权利要求1所述的一种提升数字图像分类模型泛化能力的方法,其特征在于:数据样本图像包括Digit-DG、Office-Home和PACS三个公开数据集;
Digit-DG收集了四个不同种类的手写数字识别数据集的子集,分别为MNIST-M、MNIST、SVHN和Synthetic Digits,每个子集均含有25000张训练图片和9000张测试图片;
Office-Home包含15588张图片,65个类别,展现在四个域中:Art、Clipart、Product和Real;
PACS总共包含9991张图片,有四个域的数据:Art painting、Cartoon、Photo和Sketch,其中每个域都包含有7个类别的图像。
3.如权利要求1所述的一种提升数字图像分类模型泛化能力的方法,其特征在于:特征提取模块提取数据样本图像中的特征时,对于Digit-DG数据集,图像大小缩放为
Figure 924869DEST_PATH_IMAGE009
,特征提取模块选用六层卷积层和四层最大池化的卷积神经网络,卷积核大小均为3,最终拉伸为一维向量得到的特征维度为256维;对于Office-Home数据集,图像大小为
Figure 993319DEST_PATH_IMAGE010
,特征提取模块选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量;对于PACS数据集,图像大小为
Figure 601018DEST_PATH_IMAGE010
,特征提取模块同样选用去掉最后一层全连接层的残差神经网络ResNet-101,输出为2048维的特征向量;
在训练中,Digit-DG数据集的一批训练数据量为128,Office-Home和PACS数据集的一批训练数据量为32,因此训练时Digit-DG的特征图维度为
Figure 653287DEST_PATH_IMAGE011
,Office-Home和PACS数据集的特征图维度为
Figure 376438DEST_PATH_IMAGE012
;训练时,Digit-DG数据集训练50个epoch,Office-Home和PACS数据集由于数据量相对较大,只训练30个epoch。
4.如权利要求1所述的一种提升数字图像分类模型泛化能力的方法,其特征在于:类别分类器模块采用第一损失函数进行训练,第一损失函数为:
Figure 564974DEST_PATH_IMAGE013
其中N为类别数,
Figure 343574DEST_PATH_IMAGE014
为符号函数,如果数据样本图像i的真实类别为c,则
Figure 883139DEST_PATH_IMAGE014
取1,否则取0;
Figure 654655DEST_PATH_IMAGE015
,是数据样本图像i属于类别c的预测概率,其中
Figure 963277DEST_PATH_IMAGE016
为数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 912778DEST_PATH_IMAGE017
为数据样本图像i经过特征提取模块与第一全连接层后,得到的数据样本图像i关于类别j的得分;
Figure 939640DEST_PATH_IMAGE018
为符号函数,如果增强的数据样本图像i的真实类别为c,则
Figure 750732DEST_PATH_IMAGE019
取1,否则取0;
Figure 913860DEST_PATH_IMAGE020
,是增强的数据样本图像i属于类别c的预测概率,其中
Figure 299842DEST_PATH_IMAGE021
为增强的数据样本图像i经过特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别c的得分;
Figure 548421DEST_PATH_IMAGE022
为增强的数据样本图像i经过所述特征提取模块与第一全连接层后,得到的增强的数据样本图像i关于类别j的得分。
5.如权利要求1所述的一种提升数字图像分类模型泛化能力的方法,其特征在于:域分类器模块采用第二损失函数进行训练,第二损失函数如下:
Figure 661740DEST_PATH_IMAGE023
其中M为源域的个数,
Figure 944953DEST_PATH_IMAGE024
为符号函数,如果数据样本图像i的真实域为d,则
Figure 32995DEST_PATH_IMAGE025
取1,否则取0;
Figure 768870DEST_PATH_IMAGE026
,是数据样本图像i属于域d的预测概率,其中
Figure 436612DEST_PATH_IMAGE027
为数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 528327DEST_PATH_IMAGE028
为数据样本图像i经过特征提取模块与第二全连接层后,得到的数据样本图像i关于域j的得分;
Figure 990532DEST_PATH_IMAGE029
为符号函数,如果增强的数据样本图像i的真实域为d,则
Figure 213703DEST_PATH_IMAGE029
取1,否则取0;
Figure 668824DEST_PATH_IMAGE030
,是增强的数据样本图像i属于域d的预测概率,其中
Figure 661051DEST_PATH_IMAGE031
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域d的得分;
Figure 559737DEST_PATH_IMAGE032
为增强的数据样本图像i经过特征提取模块与第二全连接层后,得到的增强的数据样本图像i关于域j的得分。
6.如权利要求1所述的一种提升数字图像分类模型泛化能力的方法,其特征在于:数据增强模块在计算类别信息的贡献时,计算公式为:
Figure 66941DEST_PATH_IMAGE033
其中
Figure 810906DEST_PATH_IMAGE034
是和数据样本图像长宽相同的二维向量,其第i行第j列的值代表数据样本图像位于位置
Figure 673951DEST_PATH_IMAGE035
的像素点对于该类别分类结果的贡献;
Figure 477959DEST_PATH_IMAGE036
是数据样本图像经过特征提取模块与第一全连接层后,得到的关于类别c的得分;
Figure 675722DEST_PATH_IMAGE037
是第k层卷积层的特征激活图;
Figure 223378DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 439465DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在计算域信息的贡献时,计算公式为:
Figure 679953DEST_PATH_IMAGE040
其中
Figure 99433DEST_PATH_IMAGE041
是和数据样本图像长宽相同的二维向量,第i行第j列的值代表数据样本图像位于位置
Figure 450780DEST_PATH_IMAGE042
的像素点对于该域分类结果的贡献;
Figure 22838DEST_PATH_IMAGE043
是数据样本图像经过特征提取模块与第二全连接层后,得到的关于域d的得分;
Figure 434228DEST_PATH_IMAGE044
是第k层卷积层的特征激活图;
Figure 341004DEST_PATH_IMAGE038
是第k层卷积层特征激活图第i行第j列的值;Z是
Figure 964884DEST_PATH_IMAGE039
行数与列数的乘积;
数据增强模块在生成新的增强的数据样本图像时,计算公式为:
Figure 155562DEST_PATH_IMAGE045
其中
Figure 737853DEST_PATH_IMAGE046
是随机的数据样本图像,
Figure 131926DEST_PATH_IMAGE047
是和
Figure 825075DEST_PATH_IMAGE046
长宽相同的零一矩阵,对于
Figure 106146DEST_PATH_IMAGE046
通过上述公式计算得到的每个像素点对于类别信息的贡献
Figure 859338DEST_PATH_IMAGE048
,设置最小贡献值
Figure 740707DEST_PATH_IMAGE001
,如果
Figure 237547DEST_PATH_IMAGE049
,则
Figure 402818DEST_PATH_IMAGE050
,否则
Figure 61333DEST_PATH_IMAGE051
;M为源域的个数,
Figure 429997DEST_PATH_IMAGE052
是和所述
Figure 199370DEST_PATH_IMAGE053
不同源域的数据样本图像,
Figure 986191DEST_PATH_IMAGE054
是和
Figure 815607DEST_PATH_IMAGE055
长宽相同的零一矩阵,对于
Figure 405989DEST_PATH_IMAGE055
通过上述公式计算得到的每个像素点对于域信息的贡献
Figure 244632DEST_PATH_IMAGE056
,设置最小贡献值
Figure 853336DEST_PATH_IMAGE002
,如果
Figure 119233DEST_PATH_IMAGE057
,则
Figure 196910DEST_PATH_IMAGE058
,否则
Figure 839244DEST_PATH_IMAGE059
;数据增强后的训练样本,图片为
Figure 69499DEST_PATH_IMAGE060
,类别标签和
Figure 506297DEST_PATH_IMAGE053
的类别标签相同。
7.一种提升数字图像分类模型泛化能力的系统,其特征在于,包括:
样本获取主模块,用于获取手写的数据样本图像;
数据预处理主模块,用于对样本获取模块获取的数据样本图像进行预处理,预处理包括图像放缩、图像翻转以及图像裁剪;
模型搭建主模块,用于搭建数字图像分类模型,数字图像分类模型包括特征提取模块、类别分类器模块、域分类器模块以及数据增强模块;特征提取模块,采用卷积神经网络CNN或残差神经网络ResNet-101对数据样本图像进行特征提取,其中卷积神经网络CNN使用六层卷积层和四层最大池化,最终得到的特征维度为256维,残差神经网络ResNet-101去掉最后一层全连接层后,最终得到的特征维度为2048维;类别分类器模块,通过第一全连接层将特征提取模块提取出的特征分类到对应的类别;域分类器模块,通过第二全连接层将特征提取模块提取出的特征分类到对应的域;数据增强模块,通过第一全连接层输出的得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分计算出样本图像中每个像素点对于域信息的贡献;通过将数据样本图像的类别信息的贡献大的像素点,与其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像并输入至类别分类器模块、域分类器模块;类别信息的贡献大于设置的最小贡献值
Figure 71270DEST_PATH_IMAGE001
即为类别信息的贡献大,域信息的贡献大于设置的最小贡献值
Figure 251716DEST_PATH_IMAGE002
即为域信息的贡献大;
模型预训练主模块,用于使用数据预处理主模块预处理后的数据样本图像对数字图像分类模型中的特征提取模块、类别分类器模块、域分类器模块进行预训练,特征提取模块提取数据样本图像中的特征,并将提取到的特征输入类别分类器模块、域分类器模块,类别分类器模块将特征提取模块提取出的特征分类到对应的类别并定位出数据样本图像中与类别信息有关的像素点,域分类器模块将特征提取模块提取出的特征分类到对应的域并定位出数据样本图像中与域信息有关的像素点,类别分类器模块、域分类器模块定位到的像素点再输入至数据增强模块,生成新的增强的数据样本图像;
模型训练模块,用于每个类别随机选取一定量的数据样本图像,并加入增强的数据样本图像,组成新的训练集,继续对数字图像分类模型进行训练;数据样本图像、增强的数据样本图像作为输入,通过第一全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于类别信息的贡献;通过第二全连接层输出的得分,数据增强模块根据得分计算出样本图像中每个像素点对于域信息的贡献;通过将训练集中数据样本图像的类别信息的贡献大的像素点,与训练集中其他数据样本图像的域信息的贡献大的数据点相结合,生成新的增强的数据样本图像;
加入增强的数据样本图像后,数字图像分类模型的整体损失函数为:
Figure 835013DEST_PATH_IMAGE061
其中,
Figure 239449DEST_PATH_IMAGE004
Figure 291719DEST_PATH_IMAGE005
分别是类别分类器模块的第一损失函数、域分类器模块的第二损失函数,
Figure 10276DEST_PATH_IMAGE006
Figure 464391DEST_PATH_IMAGE007
分别是
Figure 5443DEST_PATH_IMAGE004
Figure 545008DEST_PATH_IMAGE005
的权重参数,按损失函数
Figure 67257DEST_PATH_IMAGE008
对整个数字图像分类模型的特征提取模块、类别分类器模块和域分类器模块的参数进行更新。
8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN202210603080.4A 2022-05-31 2022-05-31 一种提升数字图像分类模型泛化能力的方法及系统 Active CN114694150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210603080.4A CN114694150B (zh) 2022-05-31 2022-05-31 一种提升数字图像分类模型泛化能力的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210603080.4A CN114694150B (zh) 2022-05-31 2022-05-31 一种提升数字图像分类模型泛化能力的方法及系统

Publications (2)

Publication Number Publication Date
CN114694150A CN114694150A (zh) 2022-07-01
CN114694150B true CN114694150B (zh) 2022-10-21

Family

ID=82131022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210603080.4A Active CN114694150B (zh) 2022-05-31 2022-05-31 一种提升数字图像分类模型泛化能力的方法及系统

Country Status (1)

Country Link
CN (1) CN114694150B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205599B (zh) * 2022-07-25 2023-02-10 浙江大学 一种基于域泛化模型的多年龄段儿童胸片图像肺炎分类系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902399A (zh) * 2019-03-01 2019-06-18 哈尔滨理工大学 一种基于att-cnn的变工况下滚动轴承故障识别方法
CN111444952A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN111738315A (zh) * 2020-06-10 2020-10-02 西安电子科技大学 基于对抗融合多源迁移学习的图像分类方法
CN112364893A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于数据增强的半监督零样本图像分类方法
CN112990233A (zh) * 2021-04-15 2021-06-18 中国人民解放军国防科技大学 基于信道混合样本数据增强的图片分类方法和装置
CA3070817A1 (en) * 2020-01-31 2021-07-31 Element Ai Inc. Method of and system for joint data augmentation and classification learning
CN113255832A (zh) * 2021-06-23 2021-08-13 成都考拉悠然科技有限公司 双分支多中心的长尾分布识别的方法
CN113361588A (zh) * 2021-06-03 2021-09-07 北京文安智能技术股份有限公司 基于图像数据增强的图像训练集生成方法和模型训练方法
CN113486987A (zh) * 2021-08-04 2021-10-08 电子科技大学 基于特征解耦的多源域适应方法
CN113807171A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于半监督迁移学习的文本分类方法
CN113971815A (zh) * 2021-10-28 2022-01-25 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法
CN114550134A (zh) * 2022-02-16 2022-05-27 哈尔滨理工大学 基于深度学习的交通标志检测与识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220108134A1 (en) * 2020-10-01 2022-04-07 Nvidia Corporation Unsupervised domain adaptation with neural networks
CN114444558A (zh) * 2020-11-05 2022-05-06 佳能株式会社 用于对象识别的神经网络的训练方法及训练装置
CN112308158B (zh) * 2020-11-05 2021-09-24 电子科技大学 一种基于部分特征对齐的多源领域自适应模型及方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902399A (zh) * 2019-03-01 2019-06-18 哈尔滨理工大学 一种基于att-cnn的变工况下滚动轴承故障识别方法
CA3070817A1 (en) * 2020-01-31 2021-07-31 Element Ai Inc. Method of and system for joint data augmentation and classification learning
CN111444952A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN111738315A (zh) * 2020-06-10 2020-10-02 西安电子科技大学 基于对抗融合多源迁移学习的图像分类方法
CN112364893A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于数据增强的半监督零样本图像分类方法
CN112990233A (zh) * 2021-04-15 2021-06-18 中国人民解放军国防科技大学 基于信道混合样本数据增强的图片分类方法和装置
CN113361588A (zh) * 2021-06-03 2021-09-07 北京文安智能技术股份有限公司 基于图像数据增强的图像训练集生成方法和模型训练方法
CN113255832A (zh) * 2021-06-23 2021-08-13 成都考拉悠然科技有限公司 双分支多中心的长尾分布识别的方法
CN113486987A (zh) * 2021-08-04 2021-10-08 电子科技大学 基于特征解耦的多源域适应方法
CN113807171A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于半监督迁移学习的文本分类方法
CN113971815A (zh) * 2021-10-28 2022-01-25 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法
CN114550134A (zh) * 2022-02-16 2022-05-27 哈尔滨理工大学 基于深度学习的交通标志检测与识别方法

Also Published As

Publication number Publication date
CN114694150A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN108416370B (zh) 基于半监督深度学习的图像分类方法、装置和存储介质
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
Kola et al. A novel approach for facial expression recognition using local binary pattern with adaptive window
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
Ge et al. Efficient low-resolution face recognition via bridge distillation
CN108229532B (zh) 图像识别方法、装置和电子设备
WO2022001232A1 (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
Tang et al. Pairwise operator learning for patch-based single-image super-resolution
Pei et al. Decision pyramid classifier for face recognition under complex variations using single sample per person
Srivatsan et al. A deep factorization of style and structure in fonts
CN114694150B (zh) 一种提升数字图像分类模型泛化能力的方法及系统
Song et al. MPPCANet: A feedforward learning strategy for few-shot image classification
Dutta et al. Complement component face space for 3D face recognition from range images
Xu et al. Boosting multi-label image classification with complementary parallel self-distillation
Li et al. Learning semantic priors for texture-realistic sketch-to-image synthesis
CN113255767A (zh) 票据分类方法、装置、设备及存储介质
CN116189208A (zh) 用于文本识别的方法、装置、设备和介质
CN112801153B (zh) 一种嵌入lbp特征的图的半监督图像分类方法及系统
Sun et al. Large scale image classification based on CNN and parallel SVM
Bose et al. Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm
Kang et al. A complex network based feature extraction for image retrieval
Chandankhede et al. Offline MODI script character recognition using deep learning techniques
CN112257677A (zh) 一种在大数据集群中处理深度学习任务的方法及装置
Wu et al. Automatic leaf recognition based on deep convolutional networks
CN113850207B (zh) 基于人工智能的微表情分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Improving the Generalization Ability of Digital Image Classification Models

Effective date of registration: 20230524

Granted publication date: 20221021

Pledgee: Industrial Bank Limited by Share Ltd. Chengdu branch

Pledgor: CHENGDU KOALA YOURAN TECHNOLOGY CO.,LTD.

Registration number: Y2023510000130

PE01 Entry into force of the registration of the contract for pledge of patent right