CN115731422A - 多标签分类模型的训练方法、分类方法及装置 - Google Patents
多标签分类模型的训练方法、分类方法及装置 Download PDFInfo
- Publication number
- CN115731422A CN115731422A CN202211515415.3A CN202211515415A CN115731422A CN 115731422 A CN115731422 A CN 115731422A CN 202211515415 A CN202211515415 A CN 202211515415A CN 115731422 A CN115731422 A CN 115731422A
- Authority
- CN
- China
- Prior art keywords
- classification model
- image
- label
- resolution
- sample document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明实施例提供一种多标签分类模型的训练方法、分类方法及装置,涉及图像处理领域,该方法包括:获取第一图像数据集和第二图像数据集;采用第一图像数据集进行分类模型训练,得到教师分类模型;采用教师分类模型对第一图像数据集进行特征提取,得到第一分辨率图像特征;采用与教师分类模型相同的学生分类模型依次对第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及多标签识别结果;根据第一分辨率图像特征、第二分辨率图像特征、多标签识别结果以及多个类别的标签,对学生分类模型的模型参数进行更新,得到目标多标签分类模型。本发明可提高多标签分类模型的识别性能,提高识别准确度。
Description
技术领域
本发明涉及图像处理领域,具体而言,涉及一种多标签分类模型的训练方法、分类方法及装置。
背景技术
近年来,深度神经网络在人工智能的计算机视觉领域取得很大的成功,深度神经网络具有大量模型参数,使得它能够学习大规模的数据,但是巨量的模型参数部署在资源有限的设备上是一个挑战,计算复杂度高,存储需求庞大。
图像分类是计算机视觉领域中最基础的任务之一,图像分类希望以最低的误差识别出这张图片的类别。常见的图像分类模型主要是针对自然图像,其仅可实现自然图像的单类别分类。而对于文档图像而言,其可能包含多种类别,而采用常见的图像分类模型无法实现多标签分类,不适用于对文档图像进行多标签分类。
而由于文档图像的分辨率通常比较低,若直接进行多标签分类模型训练,训练得到的多标签分类模型可能可以实现多标签分类,但输入的文档图像的分辨率的影响,可能会使得多标签分类模型的性能较差,其识别结果不够准确。
发明内容
本发明提供的一种多标签分类模型的训练方法、分类方法及装置,可以提高多标签分类模型的性能,保证其对文档图像的分类准确度。
第一方面,本发明实施例提供了一种多标签分类模型的训练方法,所述方法包括:
获取第一图像数据集和第二图像数据集,其中,所述第一图像数据集包括:多个样本文档图像对应的第一分辨率图像,所述第二图像数据集包括:所述多个样本文档图像对应的第二分辨率图像;其中,所述第一分辨率图像的分辨率高于所述第二分辨率图像的分辨率;每个样本文档图像中具有多个类别的标签;
采用所述第一图像数据集进行分类模型训练,得到教师分类模型;
采用所述教师分类模型对所述第一图像数据集进行特征提取,得到第一分辨率图像特征;
采用与所述教师分类模型相同的学生分类模型依次对所述第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及所述多个样本文档图像对应的多标签识别结果,其中,所述多标签识别结果包括:所述多个类别的识别结果;
根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,对所述学生分类模型的模型参数进行更新,得到目标多标签分类模型。
可选的,所述获取第一图像数据集和第二图像数据集,包括:
对每个样本文档图像进行随机剪裁;
将所述随机剪裁得到的子图像的尺寸,分别调整至所述第一分辨率对应的第一图像尺寸,和所述第二分辨率对应的第二图像尺寸,得到所述每个样本文档图像对应的所述第一分辨率图像,和所述第二分辨率图像。
可选的,所述对每个样本文档图像进行随机剪裁,包括:
对所述每个样本文档图像进行尺寸和纵横比的随机剪裁。
可选的,所述根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,对所述学生分类模型的模型参数进行更新,得到目标多标签分类模型,包括:
根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算所述学生分类模型的损失函数值;
根据所述学生分类模型的损失函数值,对所述学生分类模型的模型参数进行更新;
采用参数更新后的所述学生分类模型继续进行模型训练,并重新计算所述学生分类模型的损失函数值,直至重新计算的模型损失函数值达到预设的停止迭代条件,并确定达到所述停止迭代条件时的学生分类模型为所述目标多标签分类模型。
可选的,所述根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算所述学生分类模型的损失函数值,包括:
根据所述第一分辨率图像特征和所述第二分辨率图像特征,计算蒸馏损失函数值;
根据所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算分类损失函数值;
根据所述蒸馏损失函数值和所述分类损失函数值,计算所述学生分类模型的损失函数值。
可选的,所述根据所述第一分辨率图像特征和所述第二分辨率图像特征,计算蒸馏损失函数值,包括:
根据所述第一分辨率图像特征和所述第二分辨率图像特征,采用欧式距离计算公式,计算所述蒸馏损失函数值。
可选的,所述根据所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算分类损失函数值,包括:
根据所述每个样本文档图像对应的多标签识别结果以及所述每个样本文档图像对应的所述多个类别的标签,计算所述每个样本文档图像对应的二分类交叉熵损失函数值;
对所述多个样本文档图像对应的二分类交叉熵损失函数值进行累加,得到所述分类损失函数值。
第二方面,本申请实施例还提供了一种文档图像多标签分类方法,包括:
采用预设的多标签分类模型,对待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个类别的识别结果;其中,所述多标签分类模型为采用上述第一方面中任一所述的多标签分类模型的训练方法训练得到的目标多标签分类模型;
根据所述多标签识别结果,从所述多个类别中确定所述待处理文档图像对应的目标类别。
第三方面,本申请实施例还提供了一种多标签分类模型的训练装置,包括:
获取模块,用于获取第一图像数据集和第二图像数据集,其中,所述第一图像数据集包括:所述多个样本文档图像对应的第一分辨率图像,所述第二图像数据集包括:所述多个样本文档图像对应的第二分辨率图像;其中,所述第一分辨率图像的分辨率高于所述第二分辨率图像的分辨率;每个样本文档图像中具有多个类别的标签;
第一训练模块,用于采用所述第一图像数据集进行分类模型训练,得到教师分类模型;
特征提取模块,用于采用所述教师分类模型对所述第一图像数据集进行特征提取,得到第一分辨率图像特征;
第二训练模块,用于采用与所述教师分类模型相同的学生分类模型依次对所述第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及所述多个样本文档图像对应的多标签识别结果,其中,所述多标签识别结果包括:所述多个类别的识别结果;根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,对所述学生分类模型的模型参数进行更新,得到目标多标签分类模型。
第四方面,本申请实施例还提供了一种文档图像多标签分类装置,包括:
处理模块,用于采用预设的多标签分类模型,对待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个类别的识别结果;其中,所述多标签分类模型为采用第一方面中任一多标签分类模型的训练方法训练得到的目标多标签分类模型。
确定模块,用于根据所述多标签识别结果,从所述多个类别中确定所述待处理文档图像对应的目标类别。
本申请实施例提供的一种多标签分类模型的训练方法、分类方法及装置,可先根据基于多个样本文档图像生成的第一图像数据集训练得到的教师分类模型,继而采用教师分类模型对第一图像数据集进行特征提取,得到第一分辨率图像特征,并在对与教师分类模型相同的学生分类模型进行参数调整的过程中,除了基于学生分类模型的第二分辨率图像特征、多标签识别结果以及多个样本文档图像对应的多个类别的标签,还结合了第一分辨率图像特征,即第一分辨率图像特征传递至学生分类模型,提高了低分辨率模型,即学生分类模型,也就是最终生成的多标签分类模型的鲁棒性和对于低分辨率图像的识别性能,提高了对于低分辨率文档图像进行多标签类别的识别准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种多标签分类模型的训练方法的流程图;
图2为本申请实施例提供的一种获取图像数据集的方法流程图;
图3为本申请实施例提供的一种更新学生分类模型的模型参数的方法流程图;
图4为本申请实施例提供的一种计算学生分类模型的损失函数值的方法流程图;
图5为本申请实施例提供的一种文档图像多标签分类方法的流程图;
图6为本申请实施例提供的一种多标签分类模型的训练装置的结构示意图;
图7为本申请实施例提供的一种文档图像多标签分类装置的结构示意图;
图8为本申请实施例提供的计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,本发明的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
在对本发明进行详细地解释解释之前,先对本发明的可能应用的一种场景予以介绍。
本申请实施例涉及多标签分类模型可用于对文档图像进行多标签分类,其可应用于对预设业务场景中的文档图像进行多标签分类。预设业务场景例如可以为:金融业务场景、保险业务场景、教培业务场景。需要进行多标签分类的文档图像例如可以为:个人证照文档图像、企业资质文档图像、票据凭证文档图像等,对于个人证照文档图像,采用本申请提供的多标签分类模型,其可识别出个人证照文档图像中包含的多个证照类别,多个证照类别例如可以包括身份证类别、银行卡类别、护照类别、出生证明类别、户口本类别等。多个企业资质类别例如可以包括营业执照类别、银行开户许可证类别和各种其它许可证类别等。多个票据凭证类别例如可以包括各种类型发票类别、火车票类别、航空行程单类别、各种流水清单类别等。
如下结合附图先对本申请实施例提供的多标签分类模型的训练方法进行解释说明。图1为本申请实施例提供的一种多标签分类模型的训练方法的流程图。如图1所示,多标签分类模型的训练方法可包括:
S101、获取第一图像数据集和第二图像数据集。
其中,第一图像数据集包括:多个样本文档图像对应的第一分辨率图像,第二图像数据集包括:多个样本文档图像对应的第二分辨率图像;其中,第一分辨率图像的分辨率高于第二分辨率图像的分辨率。每个样本文档图像中具有多个类别的标签。
由于第一分辨率图像的分辨率高于第二分辨率图像的分辨率,则第一图像数据集可称为高分辨率数据集,第二图像数据集可称为低分辨率数据集。第一图像数据集和第二图像数据集所针对的样本文档图像是相同的,也就是说,在实际应用中,可基于每个样本文档图像,分别生成对应的第一分辨率图像和第二分辨率图像,继而将基于多个样本文档图像生成的第一分辨率图像,作为第一图像数据集,并将基于多个样本文档图像生成的第二分辨率作为第二图像数据集。
每个样本文档图像中的多个类别的标签可以为人为预先标记的标签,可以为采用预设算法自动标记的标签。
S102、采用第一图像数据集进行分类模型训练,得到教师分类模型。
示例的,可采用第一图像数据集,采用预设的分类网络模型进行分类模型训练,得到教师分类模型,其中,预设的分类网络模型例如可以是神经卷积分类网络模型如EfficientNet系列、ResNet系列或者Transformer系列等、也可以为轻量化卷积神经网络如MobileNet系列和ShuffleNet系列。
采用第一图像数据集进行多标签分类模型的训练,得到高分辨率多标签分类模型,高分辨率分类模型对于文档图像的特征提取能力更好,提取的特征更完整,因此将高分辨率多标签分类模型作为教师分类模型。
S103、采用教师分类模型对第一图像数据集进行特征提取,得到第一分辨率图像特征。
在教师分类模型中实际包含两部分,高分辨率特征提取器,和高分辨率分类器,在此步骤的实现过程中,实际是采用教师分类模型中的高分辨率特征提取器对第一图像数据集进行特征提取,得到第一分辨率图像特征。
也就是说,在模型训练过程中,对于教师分类模型,实际主要是作为特征提取器,用于提取第一分辨率图像特征,即高分辨率图像特征,继而用以调整学生分类模型的模型参数。
S104、采用与教师分类模型相同的学生分类模型依次对第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及多个样本文档图像对应的多标签识别结果。
其中,多标签识别结果包括:多个类别的识别结果。
在本实施例中,可采用与教师模型相同的模型作为学生分类模型,教师分类模型的模型架构,与学生分类模型的模型架构相同,且,学生分类模型的初始模型参数即为教师分类模型的模型参数,其区别仅在于,训练所采用数据集的图像分辨率不同。
与上述教师分类模型的架构相同,学生分类模型,实际包含两部分,低分辨率特征提取器和低分辨率分类器。因此,在具体实现过程中,是采用分学生分类模型中的分辨率特征提取器对第二图像数据集进行特征提取,得到第二分辨率图像特征,并采用学生分类模型中的低分辨率分类器,基于第二分辨率图像特征进行分类识别,得到多个样本文档图像对应的多标签识别结果。
S105、根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,对学生分类模型的模型参数进行更新,得到目标多标签分类模型。
基于预设的知识蒸馏基本框架,在模型训练过程中,可将教师分类模型提取的第一分辨率图像特征传递至学生分类模型,继而多标签识别结果即多个类别的预测结果以及各样本文档图像中多个类别的标签,即多个真实类别,对学生分类模型的模型参数进行更新,得到目标多标签分类模型。
在对学生分类模型的模型参数进行更新的过程中,可以逐步递进的方式对学生分类模型的模型参数进行更新,对学生分类模型的模型参数每更新一次之后,需重新基于第二图像数据集对参数更新后的学生分类模型进行训练,对于重新训练的学生分类模型,可继续采用S104-S106继续进行参数更新,直至达到预设的停止迭代条件,达到停止迭代条件时的学生分类模型即为最终的多标签分类模型。
本申请实施例提供的一种多标签分类模型的训练方法,可先根据基于多个样本文档图像生成的第一图像数据集训练得到的教师分类模型,继而采用教师分类模型对第一图像数据集进行特征提取,得到第一分辨率图像特征,并在对与教师分类模型相同的学生分类模型进行参数调整的过程中,除了基于学生分类模型的第二分辨率图像特征、多标签识别结果以及多个样本文档图像对应的多个类别的标签,还结合了第一分辨率图像特征,即第一分辨率图像特征传递至学生分类模型,提高了低分辨率模型,即学生分类模型,也就是最终生成的多标签分类模型的鲁棒性和对于低分辨率图像的识别性能,提高了对于低分辨率文档图像进行多标签类别的识别准确度。
由于本申请实施例最终训练得到的目标多标签分类模型是对与教师分类模型相同的学生分类模型进行参数调整,得到的模型,因此,目标多标签分类模型既提高了对于低分辨率图像的识别性能,又可降低目标多标签分类模型的计算复杂度和内存占用,提高了部署目标多标签分类模型所需的计算机性能的需求,提高了模型部署的适配范围。
在上述图1所示的多标签分类模型的训练方法的基础上,本申请实施例还提供了一种获取图像数据集的可能实现方式。图2为本申请实施例提供的一种获取图像数据集的方法流程图。如图2所示,上述方法中获取第一图像数据集和第二图像数据集可包括:
S201、对每个样本文档图像进行随机剪裁。
在可能的应用中,针对每个样本文档图像,可进行多次随机剪裁,可得到每个样本文档图像对应的多个子图像。
示例的,对每个样本文档图像进行随机剪裁,例如可以包括:
对每个样本文档图像进行尺寸和纵横比的随机剪裁。
在对每个样本文档图像进行随机剪裁的过程中,例如可根据尺寸和纵横比进行随机剪裁。
S202、将随机剪裁得到的子图像的尺寸,分别调整至第一分辨率对应的第一图像尺寸,和第二分辨率对应的第二图像尺寸,得到每个样本文档图像对应的所述第一分辨率图像,和第二分辨率图像。
示例的,对剪裁后的文档图像进行调整时,将其等比例拉伸或伸缩调整为第一图像尺寸和第二图像尺寸,其中,第一图像尺寸例如可以为Hn*Hn大小,其中,Hn可大于或等于第一预设尺寸,第二图像尺寸例如可以为Ln*Ln大小,其中,Ln可小于或等于第二预设尺寸。第一预设尺寸大于第二预设尺寸,第一预设尺寸例如可以为384像素数,第二预设尺寸例如可以为224像素数。
在本实施例中,采用每个样本文档图像进行随机剪裁,并对随机剪裁后的子图像进行尺寸调整,得到第一分辨率图像和第二分辨率图像,可保证了第一图像数据集中第一分辨率图像的更丰富更完整,还保证了第二图像数据集中第二分辨率图像的更丰富更完整;其次,由于第一分辨率图像和第二分辨率图像分别为剪裁后的不同尺寸的图像,对于同一模型结构的教师分类模型和学生分类模型,训练所采用的样本文档图像从大变小,即教师分类模型采用大尺寸高分辨率的第一分辨率图像,而学生分类模型采用小尺寸低分辨率的第二分辨率图像,因此,减少了学生分类模型训练过程中的图像的分辨率,从而降低了基于学生分类模型训练得到的多标签分类模型的计算复杂度,提高了多标签分类模型的运行速度。
在本申请上述任一实施例提供的多标签分类模型的训练方法的基础上,本申请实施例还提供了一种更新学生分类模型的模型参数的可能实现方式。图3为本申请实施例提供的一种更新学生分类模型的模型参数的方法流程图。如图3所示,上述方法中S105中根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,对学生分类模型的模型参数进行更新,得到目标多标签分类模型,可包括:
S301、根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算学生分类模型的损失函数值。
每个样本文档图像对应的多标签识别结果为采用学生分类模型对每个样本文档图像对应的第二分辨率图像进行多标签识别得到的结果,即,每个样本文档图像对应的多标签识别结果实际为:学生分类模型针对每个样本文档图像的多个类别的预测概率值。每个样本文档图像中对应的多个类别的标签为每个样本文档图像中多个类别的真实标签。
在可能的实现方式中,可根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,采用预设的损失函数计算公式,计算学生分类模型的损失函数值。
S302、根据学生分类模型的损失函数值,对学生分类模型的模型参数进行更新。
S303、采用参数更新后的学生分类模型继续进行模型训练,并重新计算学生分类模型的损失函数值,直至重新计算的模型损失函数值达到预设的停止迭代条件,并确定达到所述停止迭代条件时的学生分类模型为目标多标签分类模型。
预设的停止迭代条件例如可以为预设损失函数值、损失函数值不再减小。例如,若预设的停止迭代条件为预设损失函数值,当重新计算的模型损失函数值达到预设损失函数值,则可确定达到预设的停止迭代条件,此时的学生分类模型即为目标多标签分类模型。
又例如,若预设的停止迭代条件为损失函数值不再减小,当重新计算的模型损失函数值不再减小,则确定当前计算的模型损失函数值即为最小损失函数值,此时则可确定达到预设的停止迭代条件,在此情况下的学生分类模型即为目标多标签分类模型。
本实施例提供的方法中,由于在对学生分类模型进行训练的过程中,采用了教师分类模型传递的第一分辨率图像特征,因此,根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算学生分类模型的损失函数值,继而结合损失函数值对学生分类模型进行多次循环迭代训练,直至达到预设停止迭代条件,实现了模型训练过程中基于知识蒸馏技术的训练,提高了多标签分类模型的鲁棒性和对于低分辨率图像的识别性能。
如下继续结合示例对本申请实施例还提供的计算学生分类模型的损失函数值的可能实现方式进行解释说明。图4为本申请实施例提供的一种计算学生分类模型的损失函数值的方法流程图。如图4所示,上述方法中S301中根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算学生分类模型的损失函数值,可包括:
S401、根据第一分辨率图像特征和第二分辨率图像特征,计算蒸馏损失函数值。
由于在学生分类模型进行过程中,采用知识蒸馏技术将教师分类模型提取的第一分辨率图像特征,也就是高分辨率图像特征传递至学生分类模型,因此,此处实际是根据第一分辨率图像特征和第二分辨率图像特征之间的偏差,计算蒸馏损失函数值,以表征采用知识蒸馏技术将教师分类模型提取的第一分辨率图像特征传递至学生分类模型,其和学生分类模型自己提取的第二分辨率图像特征之间的传递损失。
在可能的实现示例中,可采用下述方式计算蒸馏损失函数值:
例如,可根据第一分辨率图像特征和第二分辨率图像特征,采用下述公式(1)所示的欧式距离计算公式,计算蒸馏损失函数值。
其中,ft(Ihr)为第一分辨率图像特征,fs(Ilr)为第二分辨率图像特征,Ldis为蒸馏损失函数值。
由于教师分类模型能从高分辨率图像中提取相对丰富的特征信息,学生分类模型从低分辨率图像中提取的特征信息相对比较匮乏。在计算整个模型损失函数值的过程中,计算第一分辨率图像特征和第二分辨率图像特征的蒸馏损失函数值,可让两个模型提取的特征尽可能接近,这样学生分类模型就能学习到教师分类模型提取到的特征,从而实现“知识”的传递。
S402、根据多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算分类损失函数值。
由于每个样本文档图像对应的多标签识别结果为:学生分类模型针对每个样本文档图像的多个类别的预测概率值,每个样本文档图像中对应的多个类别的标签为每个样本文档图像中多个类别的真实标签,那么根据多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算分类损失函数,实际是计算学生分类模型的分类误差,通过计算分类损失函数值,使得训练过程中学生分类模型的识别结果尽可能的接近真实标签,从而提高训练得到的学生分类模型的分类识别准确度。
在可能的实现方式中,可根据下述方法计算分类函数损失值:
根据每个样本文档图像对应的多标签识别结果以及每个样本文档图像对应的多个类别的标签,计算每个样本文档图像对应的二分类交叉熵损失函数(Binary CrossEntropy)值;对多个样本文档图像对应的二分类交叉熵损失函数值进行累加,得到分类损失函数值。
示例的,例如可根据多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,采用下述公式(2)所示的二分类交叉熵损失函数求和公式,计算分类损失函数。
其中,Lcls是分类损失函数值,m是样本文档图像的数量,yi为第i个样本文档图像中多个类别的真实标签,pi是第i个样本文档图像对于多个类别的预测概率值,pi的概率区间为[0,1]。若某个类别的预测概率值位于区间[0.5,1],则表征某个类别为正类,即样本文档图像中存在当前类别;若某个类别的预测概率值位于区间为[0,0.5),则表征某个类别为负类,即样本文档图像中不存在当前类别。
S403、根据蒸馏损失函数值和分类损失函数值,计算学生分类模型的损失函数值。
在可能实现方式中,根据蒸馏损失函数值和分类损失函数值,计算知识蒸馏框架的损失函数,计算学生分类模型的损失函数值。知识蒸馏框架的损失函数公式例如可采用下述公式(3)所示。
L=Lcls+Ldis 公式(3)
其中,L为知识蒸馏框架的损失函数值,Lcls为分类损失函数值,Ldis为蒸馏损失函数值。
在训练学生分类模型的过程中,通过计算蒸馏损失函数值和分类损失函数值,继而根据蒸馏损失函数值和分类损失函数值,计算模型的损失函数值,可使得训练过程中学生分类模型提取的特征尽可能接近教师分类模型提取的特征,同时还可使得学生分类模型的识别结果尽可能接近真实标签,提高了学生分类模型的识别性能。
如下结合附图继续对采用多标签分类模型对文档图像进行多标签分类的方法进行说明,图5为本申请实施例提供的一种文档图像多标签分类方法的流程图。如图5所示,文档图像多标签分类方法包括:
S501、采用预设的多标签分类模型,对待处理文档图像进行处理,得到待处理文档图像的多标签识别结果,多标签识别结果包括:多个类别的识别结果。
其中,多标签分类模型为采用上述任一实施例提供的多标签分类模型的训练方法训练得到的模型。在此之前,可先获取待处理文档图像,例如可以从预设业务系统中获取待处理文档图像。
每个类别的识别结果实际为多标签分类模型针对待处理文档图像识别到的每个类别的识别概率值。假设,若多个类别为5个类别,多个类别的识别结果依次可以为:0.9,0.0001,0.002,0.6,0.3。
S502、根据多标签识别结果,从多个类别中确定待处理文档图像对应的目标类别。
具体的,可根据多标签识别结果中,每个类别的识别结果的概率值,和预设概率阈值进行比较,将多个类别中概率值大于或等于预设概率阈值的类别确定为目标类别。
继续参照上述示例,若多个类别的识别结果依次可以为:0.9,0.0001,0.002,0.6,0.3,预设概率阈值为0.5,则可确定待处理文档图像对应的目标类别为:0.9对应的第一类别,以及0.6对应的第三类别。
采用本实施例提供的文档图像多标签分类方法,可提高针对文档图像进行多标签分类的识别准确度。
如下结合附图继续对执行本申请实施例提供的一种多标签分类模型的训练方法以及多标签分类方法的装置、设备及存储介质进行说明,其具体实现过程中的特征描述以及技术效果,参见上述实施例,在此不再赘述。
图6为本申请实施例提供的一种多标签分类模型的训练装置的结构示意图,如图6所示,多标签分类模型的训练装置包括:
获取模块601,用于获取第一图像数据集和第二图像数据集,其中,第一图像数据集包括:多个样本文档图像对应的第一分辨率图像,第二图像数据集包括:多个样本文档图像对应的第二分辨率图像;其中,第一分辨率图像的分辨率高于第二分辨率图像的分辨率;每个样本文档图像中具有多个类别的标签。
第一训练模块602,用于采用第一图像数据集进行分类模型训练,得到教师分类模型。
特征提取模块603,用于采用教师分类模型对第一图像数据集进行特征提取,得到第一分辨率图像特征;
第二训练模块604,用于采用与教师分类模型相同的学生分类模型依次对第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及多个样本文档图像对应的多标签识别结果,其中,多标签识别结果包括:多个类别的识别结果;根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,对学生分类模型的模型参数进行更新,得到多标签分类模型。
可选的,获取模块601,包括剪裁单元和尺寸调整单元;
剪裁单元,用于对每个样本文档图像进行随机剪裁;
尺寸调整单元,用于将所述随机剪裁得到的子图像的尺寸,分别调整至第一分辨率对应的第一图像尺寸,和第二分辨率对应的第二图像尺寸,得到每个样本文档图像对应的第一分辨率图像,和第二分辨率图像。
可选的,剪裁单元,具体用于对每个样本文档图像进行尺寸和纵横比的随机剪裁。
可选的,第二训练模块604,具体用于根据第一分辨率图像特征、第二分辨率图像特征、多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算学生分类模型的损失函数值;根据学生分类模型的损失函数值,对学生分类模型的模型参数进行更新;采用参数更新后的学生分类模型继续进行模型训练,并重新计算学生分类模型的损失函数值,直至重新计算的模型损失函数值达到预设的停止迭代条件,并确定达到所述停止迭代条件时的学生分类模型为所述多标签分类模型。
可选的,第二训练模块604,具体用于根据第一分辨率图像特征和第二分辨率图像特征,计算蒸馏损失函数值;根据多个样本文档图像对应的多标签识别结果以及多个样本文档图像对应的多个类别的标签,计算分类损失函数值;根据蒸馏损失函数值和分类损失函数值,计算学生分类模型的损失函数值。
可选的,第二训练模块604,具体用于根据第一分辨率图像特征和第二分辨率图像特征,采用欧式距离计算公式,计算所述蒸馏损失函数值。
可选的,第二训练模块604,具体用于根据每个样本文档图像对应的多标签识别结果以及每个样本文档图像对应的多个类别的标签,计算每个样本文档图像对应的二分类交叉熵损失函数值;对多个样本文档图像对应的二分类交叉熵损失函数值进行累加,得到分类损失函数值。
上述装置用于执行前述实施例提供的多标签分类模型的训练方法,其实现原理和技术效果类似,在此不再赘述。
图7为本申请实施例提供的一种文档图像多标签分类装置的结构示意图,如图7所示,文档图像多标签分类装置包括:
处理模块701,用于采用预设的多标签分类模型,对待处理文档图像进行处理,得到待处理文档图像的多标签识别结果,多标签识别结果包括:多个类别的识别结果。
其中,多标签分类模型为采用上述任一方面中任一多标签分类模型的训练方法训练得到的目标多标签分类模型。
确定模块702,用于根据多标签识别结果,从多个类别中确定待处理文档图像对应的目标类别。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图8为本申请实施例提供的计算机设备的示意图,该计算机设备可以集成于终端设备或者终端设备的芯片,该终端可以是具备数据处理功能的计算设备。
该计算机设备包括:处理器801、存储器802。
存储器802用于存储程序,处理器801调用存储器802存储的程序,以执行上述方法实施例提供的一种多标签分类模型的训练方法或者一种获取图像数据集的方法方法。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例中提供的一种多标签分类模型的训练方法或者一种获取图像数据集的方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种多标签分类模型的训练方法,其特征在于,包括:
获取第一图像数据集和第二图像数据集,其中,所述第一图像数据集包括:多个样本文档图像对应的第一分辨率图像,所述第二图像数据集包括:所述多个样本文档图像对应的第二分辨率图像;其中,所述第一分辨率图像的分辨率高于所述第二分辨率图像的分辨率;每个样本文档图像中具有多个类别的标签;
采用所述第一图像数据集进行分类模型训练,得到教师分类模型;
采用所述教师分类模型对所述第一图像数据集进行特征提取,得到第一分辨率图像特征;
采用与所述教师分类模型相同的学生分类模型依次对所述第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及所述多个样本文档图像对应的多标签识别结果,其中,所述多标签识别结果包括:所述多个类别的识别结果;
根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,对所述学生分类模型的模型参数进行更新,得到目标多标签分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取第一图像数据集和第二图像数据集,包括:
对每个样本文档图像进行随机剪裁;
将所述随机剪裁得到的子图像的尺寸,分别调整至所述第一分辨率对应的第一图像尺寸,和所述第二分辨率对应的第二图像尺寸,得到所述每个样本文档图像对应的所述第一分辨率图像,和所述第二分辨率图像。
3.根据权利要求2所述的方法,其特征在于,所述对每个样本文档图像进行随机剪裁,包括:
对所述每个样本文档图像进行尺寸和纵横比的随机剪裁。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,对所述学生分类模型的模型参数进行更新,得到目标多标签分类模型,包括:
根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算所述学生分类模型的损失函数值;
根据所述学生分类模型的损失函数值,对所述学生分类模型的模型参数进行更新;
采用参数更新后的所述学生分类模型继续进行模型训练,并重新计算所述学生分类模型的损失函数值,直至重新计算的模型损失函数值达到预设的停止迭代条件,并确定达到所述停止迭代条件时的学生分类模型为所述目标多标签分类模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算所述学生分类模型的损失函数值,包括:
根据所述第一分辨率图像特征和所述第二分辨率图像特征,计算蒸馏损失函数值;
根据所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算分类损失函数值;
根据所述蒸馏损失函数值和所述分类损失函数值,计算所述学生分类模型的损失函数值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一分辨率图像特征和所述第二分辨率图像特征,计算蒸馏损失函数值,包括:
根据所述第一分辨率图像特征和所述第二分辨率图像特征,采用欧式距离计算公式,计算所述蒸馏损失函数值。
7.根据权利要求5所述的方法,其特征在于,所述根据所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,计算分类损失函数值,包括:
根据所述每个样本文档图像对应的多标签识别结果以及所述每个样本文档图像对应的所述多个类别的标签,计算所述每个样本文档图像对应的二分类交叉熵损失函数值;
对所述多个样本文档图像对应的二分类交叉熵损失函数值进行累加,得到所述分类损失函数值。
8.一种文档图像多标签分类方法,其特征在于,所述方法包括:
采用预设的多标签分类模型,对待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个类别的识别结果;其中,所述多标签分类模型为采用上述权利要求1-7中任一多标签分类模型的训练方法训练得到的目标多标签分类模型;
根据所述多标签识别结果,从所述多个类别中确定所述待处理文档图像对应的目标类别。
9.一种多标签分类模型的训练装置,其特征在于,包括:
获取模块,用于获取第一图像数据集和第二图像数据集,其中,所述第一图像数据集包括:多个样本文档图像对应的第一分辨率图像,所述第二图像数据集包括:所述多个样本文档图像对应的第二分辨率图像;其中,所述第一分辨率图像的分辨率高于所述第二分辨率图像的分辨率;每个样本文档图像中具有多个类别的标签;
第一训练模块,用于采用所述第一图像数据集进行分类模型训练,得到教师分类模型;
特征提取模块,用于采用所述教师分类模型对所述第一图像数据集进行特征提取,得到第一分辨率图像特征;
第二训练模块,用于采用与所述教师分类模型相同的学生分类模型依次对所述第二图像数据集进行特征提取和分类识别,得到第二分辨率图像特征以及所述多个样本文档图像对应的多标签识别结果,其中,所述多标签识别结果包括:所述多个类别的识别结果;根据所述第一分辨率图像特征、所述第二分辨率图像特征、所述多个样本文档图像对应的多标签识别结果以及所述多个样本文档图像对应的所述多个类别的标签,对所述学生分类模型的模型参数进行更新,得到目标多标签分类模型。
10.一种文档图像多标签分类装置,其特征在于,包括:
处理模块,用于采用预设的多标签分类模型,对待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:
多个类别的识别结果;其中,所述多标签分类模型为采用上述权利要求1-7中任一多标签分类模型的训练方法训练得到的目标多标签分类模型;
确定模块,用于根据所述多标签识别结果,从所述多个类别中确定所述待处理文档图像对应的目标类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211515415.3A CN115731422A (zh) | 2022-11-29 | 2022-11-29 | 多标签分类模型的训练方法、分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211515415.3A CN115731422A (zh) | 2022-11-29 | 2022-11-29 | 多标签分类模型的训练方法、分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115731422A true CN115731422A (zh) | 2023-03-03 |
Family
ID=85299198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211515415.3A Pending CN115731422A (zh) | 2022-11-29 | 2022-11-29 | 多标签分类模型的训练方法、分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115731422A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984574A (zh) * | 2023-03-20 | 2023-04-18 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
CN117876797A (zh) * | 2024-03-11 | 2024-04-12 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
CN117935029A (zh) * | 2024-03-21 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN117876797B (zh) * | 2024-03-11 | 2024-06-04 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
-
2022
- 2022-11-29 CN CN202211515415.3A patent/CN115731422A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984574A (zh) * | 2023-03-20 | 2023-04-18 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
CN115984574B (zh) * | 2023-03-20 | 2023-09-19 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
CN117876797A (zh) * | 2024-03-11 | 2024-04-12 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
CN117876797B (zh) * | 2024-03-11 | 2024-06-04 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
CN117935029A (zh) * | 2024-03-21 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117781B (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
CN111931664A (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN115731422A (zh) | 多标签分类模型的训练方法、分类方法及装置 | |
CN110070115B (zh) | 一种单像素攻击样本生成方法、装置、设备及存储介质 | |
CN110751037A (zh) | 车身颜色识别的方法及终端设备 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN111898703A (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN114693624A (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN111882034A (zh) | 神经网络处理及人脸识别方法、装置、设备和存储介质 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN116543261A (zh) | 用于图像识别的模型训练方法、图像识别方法设备及介质 | |
CN104966109A (zh) | 医疗化验单图像分类方法及装置 | |
CN114842478A (zh) | 文本区域的识别方法、装置、设备及存储介质 | |
CN114299304A (zh) | 一种图像处理方法及相关设备 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN113780335A (zh) | 一种小样本商品图像分类方法、装置、设备及存储介质 | |
CN115424250A (zh) | 一种车牌识别方法及装置 | |
CN113516148A (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
CN113591857A (zh) | 字符图像处理方法、装置及古代汉籍图像的识别方法 | |
CN110929118A (zh) | 网络数据处理方法、设备、装置、介质 | |
CN116912920B (zh) | 表情识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |