CN115797950A - 模型训练方法、图像分类方法及其装置、设备及存储介质 - Google Patents
模型训练方法、图像分类方法及其装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115797950A CN115797950A CN202211513866.3A CN202211513866A CN115797950A CN 115797950 A CN115797950 A CN 115797950A CN 202211513866 A CN202211513866 A CN 202211513866A CN 115797950 A CN115797950 A CN 115797950A
- Authority
- CN
- China
- Prior art keywords
- training
- data set
- model
- label
- classes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供模型训练方法、图像分类方法及其装置、设备及存储介质,涉及图像处理领域。该模型训练方法包括:通过获取预设业务场景的私有业务数据集,私有业务数据集包括私有业务训练数据集,其中,私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,其它类别的所有样本训练文档图像中均具有指示其它类别的同一标签,再根据私有业务训练数据集进行模型训练,得到多标签分类模型。本申请的方法可以提高对文档图像进行多标签分类的准确度。
Description
技术领域
本发明涉及图像处理领域,具体而言,涉及一种模型训练方法、图像分类方法及其装置、设备及存储介质。
背景技术
随着深度学习技术的发展,图像分类作为计算机视觉领域中最基础的任务之一,图像分类算法也得到了飞速发展。目前常说的图像分类主要是对自然图像进行,自然图像包括风景图像和物体图像,它们一般都有明显的可区分区域便于分类。与一般图像不同,由于组织每个文档的方式不同,文档图像可以以各种形式呈现。考虑到各种文档的视觉结构和文本内容的异构性,从这些文档中提取准确的结构化信息非常具有挑战性。文档类图像具有高类内和低类间的可变性,与自然图像一样标签数据也会呈现长尾形态。在实际应用中,训练得到的文档图像分类模型并不能涵盖所有的文档类别,这样就会导致文档图像分类模型将未在训练集类别中的图像分类为训练集中的某一类别,这样会损害分类模型的精度。
由于一张文档图像会包含多种类别,若在对文档图像进行分类的过程中,出现了无法识别的未知文档图像,现有技术通常会通过设阈值的方法,拒绝未知类别的文档图像,大于阈值的则被分成已知类别文档图像中的某一类,小于阈值的则被分为未知类别文档图像,这样不仅会损害已知类别文档图像分类的精度,也会导致大量的未知类别文档图像被误分成已知类别文档图像中的某一类。
因此,需要提出一种可以更精确地对图像进行分类的文档图像分类方法,提升精度,减小错误率。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种模型训练方法、图像分类方法及其装置、设备及存储介质,以便实现多标签分类模型对预设业务场景中文档图像的准确分类,减少分类识别误差。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种模型训练方法,包括:
获取预设业务场景的私有业务数据集,所述私有业务数据集包括:私有业务训练数据集,其中,所述私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,所述其它类别的所有样本训练文档图像中均具有指示所述其它类别的同一标签;
根据所述私有业务训练数据集进行模型训练,得到多标签分类模型。
在可选的实施方式中,所述根据所述私有业务训练数据集进行模型训练,得到多标签分类模型之前,所述方法还包括:
获取开源文档数据集,所述开源文档数据集包括:开源训练数据集,所述开源训练数据集包括:单类别标签的样本训练文档图像;
根据所述开源训练数据集进行模型预训练,得到初始分类模型;
所述根据所述私有业务训练数据集进行模型训练,得到所述多标签分类模型,包括:
根据所述私有业务训练数据集和所述初始分类模型的模型参数进行模型训练,得到所述多标签分类模型。
在可选的实施方式中,所述根据所述开源训练数据集进行模型预训练,得到初始分类模型之前,所述方法还包括:
根据所述开源训练数据集,对预设的单标签分类模型进行模型训练,得到所述初始分类模型,其中,所述单标签分类模型为基于开源图像数据集训练得到的单标签分类模型。
在可选的实施方式中,所述私有业务数据集还包括:私有业务测试数据集,其中,所述私有业务测试数据集包括:所述至少一个已知类别的样本测试文档图像,以及所述其它类别的样本测试文档图像;不同已知类别的样本测试文档图像中具有指示已知类别的不同标签,所述其它类别的所有样本测试文档图像中均具有指示所述其它类别的同一标签;
所述方法还包括:
将所述私有业务测试数据集输入至所述多标签分类模型,得到所述私有业务测试数据集中各测试文档图像对应的类别;
根据所述各测试文档图像对应的类别,以及所述各测试文档图像中标签所指示的类别,计算所述多标签分类模型的分类准确度;
若所述分类准确度不满足预设条件,则根据所述私有业务训练数据集重新进行模型训练,直至所述多标签分类模型满足所述预设条件。
在可选的实施方式中,所述开源文档数据集还包括:开源测试数据集,其中,所述开源测试数据集包括:所述单类别标签的样本测试文档图像;
所述方法还包括:
将所述开源测试数据集输入至所述初始分类模型,得到所述开源测试数据集中各测试文档图像对应的类别;
根据所述开源测试数据集中各测试文档图像对应的类别,以及所述开源测试数据集中各测试文档图像中标签所指示的类别,计算所述初始分类模型的分类准确度;
若所述分类准确度不满足预设条件,则根据所述开源训练数据集重新进行模型训练,直至所述初始分类模型满足所述预设条件。
第二方面,本申请实施例还提供一种图像分类方法,包括:
获取预设业务场景的待处理文档图像;
采用预设的多标签分类模型,对所述待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个已知类别的识别结果,以及其它类别的识别结果;其中,所述多标签分类模型为采用前述实施方式任一所述的多标签分类模型的训练方法训练得到的模型;
根据所述多标签识别结果,从所述多个已知类别和所述其它类别中确定所述待处理文档图像对应的目标类别。
第三方面,本申请实施例还提供一种模型训练装置,包括:
获取模块,用于获取预设业务场景的私有业务数据集,所述私有业务数据集包括:私有业务训练数据集,其中,所述私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,所述其它类别的所有样本训练文档图像中均具有指示所述其它类别的同一标签;
训练模块,用于根据所述私有业务训练数据集进行模型训练,得到多标签分类模型。
第四方面,本申请实施例还提供一种图像分类装置,包括:
获取模块,用于获取预设业务场景的待处理文档图像;
处理模块,用于采用预设的多标签分类模型,对所述待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个已知类别的识别结果,以及其它类别的识别结果;其中,所述多标签分类模型为采用前述实施方式任一所述的多标签分类模型的训练方法训练得到的模型;
确定模块,用于根据所述多标签识别结果,从所述多个已知类别和所述其它类别中确定所述待处理文档图像对应的目标类别。
第五方面,本发明提供一种计算机设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,执行如前述实施方式任一所述的模型训练方法的步骤,或者,执行所述的图像分类方法的步骤。
第六方面,本发明提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如前述实施方式任一所述的模型训练方法的步骤,或者,执行所述的图像分类方法的步骤。
本申请的有益效果是:
综上所述,本申请实施例提供一种模型训练方法、图像分类方法及其装置、设备及存储介质,包括:可通过获取预设业务场景的私有业务数据集,私有业务数据集包括:私有业务训练数据集,其中,私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,其它类别的所有样本训练文档图像中均具有指示其它类别的同一标签,再根据私有业务训练数据集进行模型训练,得到多标签分类模型。本申请的方法通过构造预设业务场景的私有业务数据集,使得私有业务数据集中既包括已知类别的样本文档图像,还包括其他类别的样本文档图像,继而基于私有业务训练数据集进行模型训练,得到多标签分类模型,由于在预设业务场景的私有业务数据集中增加了其他类别的样本文档图像,将文档图像分类问题开放集分类问题转换为封闭域(In Distribution,ID)分类问题,增加了多标签分类模型的鲁棒性和性能,避免了多标签分类模型针对预设业务场景中未知类别被识别为已知类别造成的识别误差,保证了多标签分类模型对预设业务场景中文档图像进行多标签分类的识别准确度及识别精度,减少了分类识别误差,并且通过多标签分类能准确地识别出图像中的所有类别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的一种基于开源训练数据集模型训练的方法流程图;
图3本申请实施例提供的一种基于私有业务测试数据集进行模型测试的方法流程图;
图4本申请实施例提供的一种基于开源测试数据集进行模型测试的方法流程图;
图5为本申请实施例提供的一种图像分类方法的流程示意图;
图6为本申请实施例提供的一种模型训练装置的功能模块示意图;
图7为本申请实施例提供的一种图像分类装置的功能模块示意图;
图8为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
为了对待处理的文档图像进行分类,使得文档类别分类更准确,本申请实施例提供一种模型训练方法,该方法可以通过模型训练得到多标签分类模型,进而对文档图像进行分类,提高文档图像分类的准确度,减小误差。
如下结合附图通过具体示例对本申请实施例提供的模型训练方法进行详细的解释说明。本申请实施例提供的模型训练方法可由预先安装有:预设模型训练算法或者检测软件的计算机设备,通过运行算法或者软件实现。计算机设备例如可以为服务器或终端,终端可以为用户计算机。图1为本申请实施例提供的一种模型训练方法的流程示意图。如图1所示,该方法包括:
S101、获取预设业务场景的私有业务数据集。
私有业务数据集包括:私有业务训练数据集,其中,私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,其它类别的所有样本训练文档图像中均具有指示其它类别的同一标签。
在本实施例中,预设业务场景可以指示为特定的业务场景比如保险业务场景、金融业务场景,或者医疗业务场景、又或者教培业务场景。私有业务数据集中的样本文档图像,是对预设业务场景中实际的文档图像进行类别标签的标记所得到的图像。在对预设业务场景中实际的文档图像进行标记的过程中,对于已知类别,可以直接将已知类别的标签标记在对应文档图像中;其中,至少一个已知类别例如可包括身份证、保险单、银行卡、支付凭证等。而对于所有的未知类别,可以将其它类别的标签标记在对应文档图像中。也就是说,在构建私有业务数据集的过程中,将所有的未知类别均归为一类,称之为其它(other)类别。假设,私有业务数据集的类别域为Q,其中已知类别的域为T,对于其它类别的域则为Q-T。
假设私有业务数据集中,包括N个已知类别的样本文档图像,以及1个其它类别的样本文档图像,则私有业务数据集中实际包含N+1个类别的样本文档图像。若一个样本文档图像中同时包含第n类已知类别的标签和一个其他类别的标签,其中,第n类已知类别的标签例如可表示为n,n<N的正整数,一个其他类别的标签例如可表示为:n+1。
由于文档图像可能存在多个类别,因此,私有业务数据集中每个样本文档图像可具有至少一个类别标签。在一种示例中,至少一个类别标签例如还可包括:一个其它类别的标签,以及至少一个已知类别的标签。即,在私有业务数据集中,无论是私有业务训练数据集,还是私有业务测试数据集,其样本文档图像的类别标签均是类似的。
私有业务训练数据集中所有已知类别的样本训练文档图像会具有可以指示对应的已知类别的不同标签,对于私有业务训练数据集中其他类别的所有样本训练文档图像会具有可以指示其他类别的同一种标签,换句话说,就是将私有业务训练数据集中其他类别的所有样本训练文档图像识别为同一种标签,从而实现私有业务训练数据集中样本训练文档图像的多标签分类。
S102、根据私有业务训练数据集进行模型训练,得到多标签分类模型。
在一种示例中,可以直接基于私有业务训练数据集进行模型训练,得到多标签分类模型。在另一种示例中,可以是基于私有业务训练数据集,在预先训练的其他多标签分类模型的基础上进行模型训练,得到多标签分类模型。
训练过程中,可以是采用多标签分类模型,对私有业务训练数据集进行处理,得到私有业务训练数据集中各个样本文档图像的预测类别;根据私有业务训练数据集中各个样本文档图像的预测类别,以及各个样本文档图像上的真实类别,计算多标签分类模型的损失函数值。根据损失函数值调整多标签分类模型的参数,并采用私有业务训练数据集继续对参数调整后的多标签分类模型进行训练,直至损失函数值达到预设停止迭代条件。
其中,例如可根据私有业务训练数据集中各个样本文档图像的预测类别,以及各个样本文档图像上的真实类别,采用二分类交叉熵损失函数,计算多标签分类模型的损失函数值。
综上所述,本申请实施例提供一种模型训练方法,可通过获取预设业务场景的私有业务数据集,私有业务数据集包括:私有业务训练数据集,其中,私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,其它类别的所有样本训练文档图像中均具有指示其它类别的同一标签,再根据私有业务训练数据集进行模型训练,得到多标签分类模型。本申请的方法通过构造预设业务场景的私有业务数据集,使得私有业务数据集中既包括已知类别的样本文档图像,还包括其他类别的样本文档图像,继而基于私有业务训练数据集进行模型训练,得到多标签分类模型,由于在预设业务场景的私有业务数据集中增加了其他类别的样本文档图像,将开放集文档图像分类问题转换为封闭域(InDistribution,ID)文档图像分类问题,增加了多标签分类模型的鲁棒性和性能,避免了多标签分类模型针对预设业务场景中未知类别被识别为已知类别造成的识别误差,保证了多标签分类模型对预设业务场景中文档图像进行多标签分类的识别准确度及识别精度,减少了分类识别误差,并且通过多标签分类能准确地识别出图像中的所有类别。
在上述实施例提供的模型训练方法的基础上,本申请实施例还提供一种基于开源训练数据集模型训练方法的一种可能实现示例。图2为本申请实施例提供的一种基于开源训练数据集模型训练方法的流程图。如图2所示,在上述方法中根据私有业务训练数据集进行模型训练,得到多标签分类模型之前,该方法还包括:
S201、获取开源文档数据集。
开源文档数据集包括:开源训练数据集,开源训练数据集包括:单类别标签的样本训练文档图像。
在本实施例中,开源文档数据集可以为预设文档分析社区中的开源数据集,如RVL-CDIP(Ryerson Vision Lab Complex Document Information Processing)数据集。开源文档数据集可包括:单类别标签的样本训练文档图像,例如16个已知类别的400000幅样本文档图像,其中,每个类别包含25000幅样本文档图像。开源文档数据集可包括:开源训练数据集、开源测试数据集和开源验证数据集,其中,开源训练数据集例如可包括:16个已知类别的320000张训练文档图像,开源测试数据集可包括:16个已知类别的40000张测试文档图像,开源验证数据集可包括:16个已知类别的40000张验证文档图像。开源文档数据集中的每个样本文档图像可以为灰度文档图像。
示例的,开源训练数据集可包括单类别标签的样本训练文档图像,开源训练数据集中每个样本训练文档具有单类别标签。在开源文档数据集中,无论是开源训练数据集,还是开源测试数据集,其样本文档图像的类别标签均是类似的。
S202、根据开源训练数据集进行模型预训练,得到初始分类模型。
在一种示例中,可以直接基于开源训练数据集进行模型训练,得到初始分类模型。
在另一种示例中,根据开源训练数据集,对预设的单标签分类模型进行模型训练,得到初始分类模型,其中,单标签分类模型为基于开源图像数据集训练得到的单标签分类模型。
具体的,开源图像数据集可以为计算机视觉系统识别项目中的开源数据库,如ImageNet-1k数据集具体包含1000个类别的图像,通过选取卷积神经网络可以为残差网络(Residual Network,ResNet)50系列、卷积神经网络(Efficient Network,EfficientNet)系列或者轻量级网络(Mobile Network,MobileNet)系列等作为单标签分类模型的参数,从而得到单标签分类模型,并对开源训练数据集进行训练得到初始分类模型。
相应的,如上所示的根据私有业务训练数据集进行模型训练,得到多标签分类模型,包括:
S203、根据私有业务训练数据集和初始分类模型的模型参数进行模型训练,得到多标签分类模型。
也就是说,本实施例的方案,是在得到初始分类模型的前提下,通过对私有业务训练数据集和初始分类模型的模型参数继续进行模型训练,从而得到多标签分类模型。
本申请实施例提供的方法中,在对私有业务数据集进行模型训练,得到多标签分类模型之前,先对开源训练数据集进行模型预训练,得到初始分类模型,再通过初始分类模型对私有业务数据集进行模型训练,得到多标签分类模型,使得模型的训练过程更完善,更有利于对文档图像的分类。
本申请实施例提供一种基于私有业务测试数据集进行模型测试的实现示例,提供一种模型训练方法的可能实现方式。图3为本申请实施例提供的一种基于私有业务测试数据集进行模型测试的方法流程图。如图3所示,在上述方法中私有业务数据集还包括:私有业务测试数据集,其中,私有业务测试数据集包括:至少一个已知类别的样本测试文档图像,以及其它类别的样本测试文档图像;不同已知类别的样本测试文档图像中具有指示已知类别的不同标签,其它类别的所有样本测试文档图像中均具有指示其它类别的同一标签;该方法还包括:
S301、将私有业务测试数据集输入至多标签分类模型,得到私有业务测试数据集中各测试文档图像对应的类别。
在本实施例中,私有业务数据集还包括私有业务测试数据集,其中私有业务测试数据集和上述S101步骤中所描述的私有业务训练数据集中的样本文档图像的类别标签是类似的,在此对私有业务测试数据集中的样本测试文档图像的类别标签不做赘述。
通过将私有业务测试数据集输入至由上述S102步骤得到多标签分类模型中,从而得到私有业务测试数据集中各测试文档图像对应的类别,其中,各测试文档图像对应的类别可能均是已知类别或者均是其他类别又或者既有已知类别又有其他类别。
S302、根据各测试文档图像对应的类别,以及各测试文档图像中标签所指示的类别,计算多标签分类模型的分类准确度。
具体的,各测试文档图像对应的类别为测试文档图像通过模型测试得到的图像类别,而各测试文档图像中标签所指示的类别为测试文档图像真实的图像类别,根据开源测试数据集中各测试文档图像对应的类别和各测试文档图像中标签所指示的类别进行比对计算得到多标签分类模型的分类准确度。
S303、若分类准确度不满足预设条件,则根据私有业务训练数据集重新进行模型训练,直至多标签分类模型满足预设条件。
通过上述S302计算得到的多标签分类模型的分类准确度与预设条件进行比较,预设条件可根据数据集的大小、模型训练的次数、计算机设备以及客户的需求进行设定,若分类准确度不满足预设条件,则将私有业务训练数据集重新进行模型训练,直至多标签分类模型满足预设条件。
本申请实施例提供的方法中,通过私有业务测试数据集对多标签分类模型进行测试,并根据测试文档图像对应的类别,以及各测试文档图像中标签所指示的类别,计算多标签分类模型的分类准确度,若分类准确度不满足预设条件,则根据私有业务训练数据集重新进行模型训练,直至多标签分类模型满足预设条件,可以使得多标签分类模型的分类准确度更高。
本申请实施例提供一种基于开源测试数据集进行模型测试的实现示例,提供一种模型训练方法的可能实现方式。图4本申请实施例提供的一种基于开源测试数据集进行模型测试的方法流程图。如图4所示,在上述方法中开源文档数据集还包括:开源测试数据集,其中,开源测试数据集包括:单类别标签的样本测试文档图像,该方法还包括:
S401、将开源测试数据集输入至初始分类模型,得到开源测试数据集中各测试文档图像对应的类别。
在本实施例中,开源文档数据集还包括开源测试数据集,其中开源测试数据集和上述S201步骤中所描述的开源训练数据集中的样本文档图像的类别标签是类似的,在此对开源测试数据集中的样本测试文档图像的类别标签不做赘述。
通过将开源测试数据集输入至由上述S202步骤得到初始分类模型中,从而得到开源测试数据集中各测试文档图像对应的类别。
S402、根据开源测试数据集中各测试文档图像对应的类别,以及开源测试数据集中各测试文档图像中标签所指示的类别,计算初始分类模型的分类准确度。
具体的,各测试文档图像对应的类别为测试文档图像通过模型测试得到的图像类别,而各测试文档图像中标签所指示的类别为测试文档图像真实的图像类别,根据开源测试数据集中各测试文档图像对应的类别和各测试文档图像中标签所指示的类别进行比对计算得到初始分类模型的分类准确度。
S403、若分类准确度不满足预设条件,则根据开源训练数据集重新进行模型训练,直至初始分类模型满足预设条件。
通过上述S402计算得到的初始分类模型的分类准确度与预设条件进行比较,预设条件可根据数据集的大小、模型训练的次数、计算机设备以及客户的需求进行设定,若分类准确度不满足预设条件,则将开源训练数据集重新进行模型训练,直至初始分类模型满足预设条件。
本申请实施例提供的方法中,通过开源测试数据集对初始分类模型进行测试,并根据测试文档图像对应的类别,以及各测试文档图像中标签所指示的类别,计算初始分类模型的分类准确度,若分类准确度不满足预设条件,则根据开源训练数据集重新进行模型训练,直至初始分类模型满足预设条件,可以使得初始分类模型的分类准确度更高。
本申请实施例还提供一种图像分类方法,该方法可以实现待处理文档图像的多标签分类,通过采用多标签分类模型进行分类,可以使得文档图像的分类更加准确。图5为本申请实施例提供的一种图像分类方法的流程示意图。如图5所示,该方法包括:
S501、获取预设业务场景的待处理文档图像。
在本实施例中,获取预设业务场景中的待处理文档图像,待处理文档图像中可能会包含多个类别,多个类别可能均是已知类别或者其他类别即未知类别,也可能既包含已知类别又包含其他类别,相应的待处理文档图像中的每个待处理文档图像包含至少一个类别标签。
S502、采用预设的多标签分类模型,对待处理文档图像进行处理,得到待处理文档图像的多标签识别结果。
多标签识别结果包括:多个已知类别的识别结果,以及其它类别的识别结果;其中,多标签分类模型为采用模型训练方法训练得到的模型,具体的多标签分类模型的训练过程可参考上述的S102步骤,在此不做赘述。
S503、根据多标签识别结果,从多个已知类别和其它类别中确定待处理文档图像对应的目标类别。
根据多标签识别结果确定待处理文档图像的类别,具体通过识别结果的识别概率值,在一种示例中,若待处理文档图像的多标签识别结果中只有至少一个已知类别的识别结果,具体的至少一个已知类别的识别概率值取值范围为[0.5,1),其余的已知类别的识别概率取值范围为(0,0.5),,假设至少一个已知类别中包括身份证类别和银行卡类别,其对应的概率取值范围为[0.5,1),则可确定该待处理文档图像中包括身份证类别和银行卡类别,进而确定该待处理文档图像的类别。
在另一种示例中,若待处理文档图像的多标签识别结果中既有至少一个已知类别的识别结果又有其他类别的识别结果,具体的至少一个已知类别的识别概率取值范围为[0.5,1),其他类别的识别概率取值范围为[0.5,1),则可确定该待处理文档图像中既有已知类别又有其他类别。
在又一种示例中,若待处理文档图像的多标签识别结果中只有其他类别的识别结果,即已知类别的识别概率取值范围都为(0,0.5),其他类别的识别概率取值范围为[0.5,1),则可确定该待处理文档图像为其他类别即未知类别的文档图像,对该待处理文档图像可以进行具体的处理包括舍弃或者保留。
本申请实施例提供一种图像分类方法,通过获取预设业务场景的待处理文档图像,在采用预设的多标签分类模型,对待处理文档图像进行处理,得到待处理文档图像的多标签识别结果,其中多标签识别结果包括:多个已知类别的识别结果和其它类别的识别结果;多标签分类模型为采用多标签分类模型的训练方法训练得到的模型,根据多标签识别结果,从多个已知类别和其它类别中确定待处理文档图像对应的目标类别。本申请的方法中,采用多标签分类模型对待处理文档图像进行分类,得到待处理文档图像的具体类别,可使文档图像的分类更准确。
如下继续对执行本申请上述任一实施例提供的模型训练装置、图像分类装置、计算机设备以及计算机可读存储介质进行相应的解释,其具体的实现过程以及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。
图6为本申请实施例提供的一种模型训练装置的功能模块示意图。如图6所示,该模型训练装置100包括:
获取模块110,用于获取预设业务场景的私有业务数据集,私有业务数据集包括:私有业务训练数据集,其中,私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,其它类别的所有样本训练文档图像中均具有指示其它类别的同一标签;
训练模块120,用于根据私有业务训练数据集进行模型训练,得到多标签分类模型。
在可选的实施方式中,模型训练装置100还包括:
处理模块,用于获取开源文档数据集,开源文档数据集包括:开源训练数据集,开源训练数据集包括:单类别标签的样本测试文档图像;根据开源训练数据集进行模型预训练,得到初始分类模型;根据私有业务训练数据集进行模型训练,得到多标签分类模型,包括:根据私有业务训练数据集和初始分类模型的模型参数进行模型训练,得到多标签分类模型。
在可选的实施方式中,处理模块还包括:根据开源训练数据集,对预设的单标签分类模型进行模型训练,得到初始分类模型,其中,单标签分类模型为基于开源图像数据集训练得到的单标签分类模型。
在可选的实施方式中,获取模块110,还用于私有业务数据集还包括:私有业务测试数据集,其中,私有业务测试数据集包括:至少一个已知类别的样本测试文档图像,以及其它类别的样本测试文档图像;不同已知类别的样本测试文档图像中具有指示已知类别的不同标签,其它类别的所有样本测试文档图像中均具有指示其它类别的同一标签;方法还包括:将私有业务测试数据集输入至多标签分类模型,得到私有业务测试数据集中各测试文档图像对应的类别;根据各测试文档图像对应的类别,以及各测试文档图像中标签所指示的类别,计算多标签分类模型的分类准确度;若分类准确度不满足预设条件,则根据私有业务训练数据集重新进行模型训练,直至多标签分类模型满足预设条件。
在可选的实施方式中,处理模块,还用于开源文档数据集还包括:开源测试数据集,其中,开源测试数据集包括:单类别标签的样本测试文档图像;方法还包括:将开源测试数据集输入至初始分类模型,得到开源测试数据集中各测试文档图像对应的类别;根据开源测试数据集中各测试文档图像对应的类别,以及开源测试数据集中各测试文档图像中标签所指示的类别,计算初始分类模型的分类准确度;若分类准确度不满足预设条件,则根据开源训练数据集重新进行模型训练,直至初始分类模型满足预设条件。
图7为本申请实施例提供的一种图像分类装置的功能模块示意图。如图7所示,该图像分类装置200包括:
获取模块210,用于获取预设业务场景的待处理文档图像;
处理模块220,用于采用预设的多标签分类模型,对待处理文档图像进行处理,得到待处理文档图像的多标签识别结果,多标签识别结果包括:多个已知类别的识别结果,以及其它类别的识别结果;其中,多标签分类模型为采用前述实施方式任一所述的多标签分类模型的训练方法训练得到的模型;
确定模块230,用于根据多标签识别结果,从多个已知类别和其它类别中确定待处理文档图像对应的目标类别。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图8为本申请实施例提供的一种计算机设备的示意图,该计算机设备可用于模型训练或者图像分类。如图8所示,该计算机设备300包括:处理器310、存储介质320、总线330。
存储介质320存储有处理器310可执行的机器可读指令,当计算机设备运行时,处理器310与存储介质320之间通过总线330通信,处理器310执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质320,存储介质320上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种模型训练方法,其特征在于,包括:
获取预设业务场景的私有业务数据集,所述私有业务数据集包括:私有业务训练数据集,其中,所述私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,所述其它类别的所有样本训练文档图像中均具有指示所述其它类别的同一标签;
根据所述私有业务训练数据集进行模型训练,得到多标签分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述私有业务训练数据集进行模型训练,得到多标签分类模型之前,所述方法还包括:
获取开源文档数据集,所述开源文档数据集包括:开源训练数据集,所述开源训练数据集包括:单类别标签的样本训练文档图像;
根据所述开源训练数据集进行模型预训练,得到初始分类模型;
所述根据所述私有业务训练数据集进行模型训练,得到所述多标签分类模型,包括:
根据所述私有业务训练数据集和所述初始分类模型的模型参数进行模型训练,得到所述多标签分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述开源训练数据集进行模型预训练,得到初始分类模型,包括:
根据所述开源训练数据集,对预设的单标签分类模型进行模型训练,得到所述初始分类模型,其中,所述单标签分类模型为基于开源图像数据集训练得到的单标签分类模型。
4.根据权利要求1所述的方法,其特征在于,所述私有业务数据集还包括:私有业务测试数据集,其中,所述私有业务测试数据集包括:所述至少一个已知类别的样本测试文档图像,以及所述其它类别的样本测试文档图像;不同已知类别的样本测试文档图像中具有指示已知类别的不同标签,所述其它类别的所有样本测试文档图像中均具有指示所述其它类别的同一标签;
所述方法还包括:
将所述私有业务测试数据集输入至所述多标签分类模型,得到所述私有业务测试数据集中各测试文档图像对应的类别;
根据所述各测试文档图像对应的类别,以及所述各测试文档图像中标签所指示的类别,计算所述多标签分类模型的分类准确度;
若所述分类准确度不满足预设条件,则根据所述私有业务训练数据集重新进行模型训练,直至所述多标签分类模型满足所述预设条件。
5.根据权利要求2所述的方法,其特征在于,所述开源文档数据集还包括:开源测试数据集,其中,所述开源测试数据集包括:所述单类别标签的样本测试文档图像;
所述方法还包括:
将所述开源测试数据集输入至所述初始分类模型,得到所述开源测试数据集中各测试文档图像对应的类别;
根据所述开源测试数据集中各测试文档图像对应的类别,以及所述开源测试数据集中各测试文档图像中标签所指示的类别,计算所述初始分类模型的分类准确度;
若所述分类准确度不满足预设条件,则根据所述开源训练数据集重新进行模型训练,直至所述初始分类模型满足所述预设条件。
6.一种图像分类方法,其特征在于,包括:
获取预设业务场景的待处理文档图像;
采用预设的多标签分类模型,对所述待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个已知类别的识别结果,以及其它类别的识别结果;其中,所述多标签分类模型为采用上述权利要求1-5中任一所述的模型训练方法训练得到的模型;
根据所述多标签识别结果,从所述多个已知类别和所述其它类别中确定所述待处理文档图像对应的目标类别。
7.一种模型训练装置,其特征在于,包括:
获取模块,用于获取预设业务场景的私有业务数据集,所述私有业务数据集包括:私有业务训练数据集,其中,所述私有业务训练数据集包括:至少一个已知类别的样本训练文档图像,以及其它类别的样本训练文档图像;不同已知类别的样本训练文档图像中具有指示已知类别的不同标签,所述其它类别的所有样本训练文档图像中均具有指示所述其它类别的同一标签;
训练模块,用于根据所述私有业务训练数据集进行模型训练,得到多标签分类模型。
8.一种图像分类装置,其特征在于,包括:
获取模块,用于获取预设业务场景的待处理文档图像;
处理模块,用于采用预设的多标签分类模型,对所述待处理文档图像进行处理,得到所述待处理文档图像的多标签识别结果,所述多标签识别结果包括:多个已知类别的识别结果,以及其它类别的识别结果;其中,所述多标签分类模型为采用上述权利要求1-5中任一所述的模型训练方法训练得到的模型;
确定模块,用于根据所述多标签识别结果,从所述多个已知类别和所述其它类别中确定所述待处理文档图像对应的目标类别。
9.一种计算机设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,执行上述权利要求1-5中任一所述的模型训练方法的步骤,或者,权利要求6所述的图像分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-5中任一所述的模型训练方法的步骤,或者,权利要求6所述的图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211513866.3A CN115797950A (zh) | 2022-11-29 | 2022-11-29 | 模型训练方法、图像分类方法及其装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211513866.3A CN115797950A (zh) | 2022-11-29 | 2022-11-29 | 模型训练方法、图像分类方法及其装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115797950A true CN115797950A (zh) | 2023-03-14 |
Family
ID=85443235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211513866.3A Pending CN115797950A (zh) | 2022-11-29 | 2022-11-29 | 模型训练方法、图像分类方法及其装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115797950A (zh) |
-
2022
- 2022-11-29 CN CN202211513866.3A patent/CN115797950A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN109086756B (zh) | 一种基于深度神经网络的文本检测分析方法、装置及设备 | |
EP3550473A1 (en) | Character identification method and device | |
CN112989035B (zh) | 基于文本分类识别用户意图的方法、装置及存储介质 | |
CN110705952A (zh) | 一种合同审核方法及装置 | |
CN111177507B (zh) | 多标记业务处理的方法及装置 | |
CN110288755A (zh) | 基于文本识别的发票检验方法、服务器及存储介质 | |
CN113449725B (zh) | 对象分类方法、装置、设备及存储介质 | |
US20190392207A1 (en) | Handwriting detector, extractor, and language classifier | |
US12051256B2 (en) | Entry detection and recognition for custom forms | |
CN113313114B (zh) | 证件信息获取方法、装置、设备以及存储介质 | |
CN109784339A (zh) | 图片识别测试方法、装置、计算机设备及存储介质 | |
WO2023207557A1 (zh) | 评估业务预测模型鲁棒性的方法、装置及计算设备 | |
CN117454426A (zh) | 一种理赔资料信息脱敏采集方法、装置及系统 | |
CN114612919B (zh) | 一种票据信息处理系统及方法、装置 | |
CN115797950A (zh) | 模型训练方法、图像分类方法及其装置、设备及存储介质 | |
CN115512340A (zh) | 基于图片的意图检测方法及装置 | |
CN114970490A (zh) | 一种文本标注数据的质检方法、装置、电子设备以及存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113505716A (zh) | 静脉识别模型的训练方法、静脉图像的识别方法及装置 | |
CN112990147A (zh) | 一种涉政图像的识别方法、装置、电子设备及存储介质 | |
CN114663903B (zh) | 文本资料的分类方法、装置、设备及存储介质 | |
US20230140546A1 (en) | Randomizing character corrections in a machine learning classification system | |
CN113111833B (zh) | 人工智能系统的安全性检测方法、装置及终端设备 | |
Bartuzi et al. | Presentation attack detection for mobile device-based Iris recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |