CN118279693A - 一种视觉基础模型训练方法、装置、存储介质及电子设备 - Google Patents

一种视觉基础模型训练方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN118279693A
CN118279693A CN202410195008.1A CN202410195008A CN118279693A CN 118279693 A CN118279693 A CN 118279693A CN 202410195008 A CN202410195008 A CN 202410195008A CN 118279693 A CN118279693 A CN 118279693A
Authority
CN
China
Prior art keywords
image
sample
visual basic
certificate
basic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410195008.1A
Other languages
English (en)
Inventor
陈志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Publication of CN118279693A publication Critical patent/CN118279693A/zh
Pending legal-status Critical Current

Links

Abstract

本说明书实施例公开了一种视觉基础模型训练方法、装置、存储介质及电子设备,包括:对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,然后基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征,再基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像,最后以最小化样本证件图像和重构证件图像之间的差异为优化目标,调整视觉基础模型的模型参数。

Description

一种视觉基础模型训练方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机技术,尤其涉及一种视觉基础模型训练方法、装置、存储介质及电子设备。
背景技术
在电子身份认证中,证件OCR识别、证件质量判断、证件真伪识别等任务,大都通过训练相对应的神经网络模型来完成任务,用于训练神经网络模型的训练数据集中样本数量和丰富程度直接影响着训练得到的神经网络模型的使用效果。
然而,在进行模型训练时,为保护互联网数据合规以及避免个人私有信息泄露,从网络直接收集到的真实证件以及客户数据不能进行有监督形式的模型训练,而缺少训练样本,往往会导致训练出来的神经网络模型在实际应用过程中使用效果欠佳。
发明内容
本说明书实施例提供一种视觉基础模型训练方法,该方法通过在开源大数据中获取样本证件图像预训练一个视觉基础模型,该模型可提前学习到深层次的证件图像特征,基于训练好的视觉基础模型在电子身份认证中各识别任务的训练过程中,仅需少量数据即可训练得到效果较好的任务模型,减少电子身份认证下游任务中模型对数据的依赖,所述方法包括:
对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像;
基于视觉基础模型中的特征提取网络对所述掩码图像进行图像特征提取处理,得到所述掩码图像对应的掩码图像特征;
基于视觉基础模型中的图像重构网络,根据所述掩码图像特征进行图像特征重构,生成所述样本证件图像对应的重构证件图像;
以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数。
进一步地,在一些实施方式中,所述对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,包括:
对所述样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像。
进一步地,在一些实施方式中,所述将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像,包括:
对所述样本证件图像进行文字行检测处理,得到所述样本证件图像中的文字行位置信息;
基于所述文字行位置信息在所述图像块集合中确定包含所述文字行的各第一图像块以及不包含所述文字行的各第二图像块;
根据所述第一图像块和所述第二图像块的数量比例,选取相同数量比例的第一图像块和第二图像块进行掩码操作,得到掩码后的掩码图像。
进一步地,在一些实施方式中,所述对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,包括:
对所述样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
基于视觉基础模型中的特征提取网络对所述图像块集合中各图像块进行图像特征提取处理,得到各所述图像块分别对应的图像块特征;
基于视觉基础模型中的损失预测网络,根据所述图像块特征预测对应图像块的预测重构损失;
根据各所述图像块对应的预测重构损失,在所述图像块集合中选取预测重构损失较大的部分图像块进行掩码操作,得到掩码后的掩码图像。
进一步地,在一些实施方式中,所述以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数,包括:
根据所述重构证件图像和所述样本证件图像之间的差异计算各所述图像块分别对应的实际重构损失;
根据所述实际重构损失调整所述视觉基础模型的模型参数。
进一步的,在一些实施方式中,所述根据所述实际重构损失调整所述视觉基础模型的模型参数,包括:
根据所述实际重构损失和所述预测重构损失的差异计算各所述图像块分别对应的重构损失预测损失;
根据所述重构损失预测损失调整所述视觉基础模型的模型参数。
本说明书实施例还提出了一种视觉基础模型训练装置,包括:
图像掩码模块,用于对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像;
特征提取模块,用于基于视觉基础模型中的特征提取网络对所述掩码图像进行图像特征提取处理,得到所述掩码图像对应的掩码图像特征;
图像重构模块,用于基于视觉基础模型中的图像重构网络,根据所述掩码图像特征进行图像特征重构,生成所述样本证件图像对应的重构证件图像;
模型优化模块,用于以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数。
本说明书实施例还提供一种计算机程序产品,所述计算机程序产品存储有至少一条指令,所述至少一条指令适于由处理器加载并执行上述的方法步骤。
本说明书实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行上述的方法的步骤。
本说明书实施例还提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。
本说明书实施例提出一种视觉基础模型训练方法,通过对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,然后基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征,再基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像,最后以最小化样本证件图像和重构证件图像之间的差异为优化目标,调整视觉基础模型的模型参数;采用该方法,通过在开源大数据中获取样本证件图像以自监督的方式预训练一个视觉基础模型,该模型可提前学习到深层次的证件图像特征,基于训练好的视觉基础模型在电子身份认证中各识别任务的训练过程中,仅需少量数据即可训练得到效果较好的任务模型,减少电子身份认证下游任务中模型对数据的依赖。
附图说明
图1为本说明书实施例提供了一种视觉基础模型训练方法的流程示意图;
图2为本说明书实施例提供的一种视觉基础模型训练方法的流程示意图;
图3为本说明书实施例提供的一种视觉基础模型训练方法的流程示意图;
图4为本说明书实施例提供的一种视觉基础模型训练方法的结构示意图;
图5为本说明书实施例提供的一种视觉基础模型训练装置的结构示意图;
图6为本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
请参见图1,为本说明书实施例提供了一种视觉基础模型训练方法的流程示意图。在本说明书实施例中,所述视觉基础模型训练方法应用于视觉基础模型训练装置或配置有视觉基础模型训练装置的电子设备。下面将针对图1所示的流程进行详细的阐述,所述视觉基础模型训练方法具体可以包括以下步骤:
S102,对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像;
其中,样本证件图像为在开源大数据库中获取的证件图像,以此类证件图像为样本对视觉基础模型进行预训练,可使视觉基础模型提前学习到深层次的证件图像特征。
在本说明书一个或多个实施例中,在得到样本证件图像之后,对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像。
一种可行的实施方式中,可以对样本证件图像进行随机掩码,掩码掉样本证件图像中的部分区域,得到对样本证件图像掩码后的掩码图像。
一种可行的实施方式中,在对样本证件图像进行掩码操作之前,首先将样本证件图像切分成多个图像块,在多个图像块中选取部分图像块进行掩码操作,得到掩码图像。
一种可行的实施方式中,以预定义的图像掩码策略对样本证件图像进行掩码操作,得到掩码图像。
可选的,预定义的图像掩码策略可以为对样本证件图像中的文字区域进行掩码操作、对样本证件图像中的图像区域进行掩码操作、对样本证件图像中的背景区域进行掩码操作或对样本证件图像中的各区域按照一定比例进行掩码操作。
S104,基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征;
需要说明的是,在本说明书一个或多个实施例中,视觉基础模型可以包括特征提取网络和图像重构网络,特征提取网络用于提取图像特征,图像重构网络用于根据掩码图像对应的掩码图像特征进行重构,得到重构图像。
在本说明书一个或多个实施例中,在得到对样本证件图像掩码操作后的掩码图像之后,基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取,得到掩码图像对应的掩码图像特征。
其中,特征提取网络可以为encoder网络。
S106,基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像;
在本说明书一个或多个实施例中,在得到掩码图像对应的掩码图像特征之后,基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,重构生成样本证件图像对应的重构证件图像。
可以理解的是,由于对样本证件图像进行了掩码处理,掩码图像特征中缺少被掩码的图像特征,视觉基础模型中的图像重构网络可基于未被掩码的图像特征,对被掩码的图像进行重构,进而得到重构证件图像。
S108,以最小化样本证件图像和重构证件图像之间的差异为优化目标,调整视觉基础模型的模型参数。
最后通过比较重构证件图像和样本证件图像的差异,对模型参数进行优化,待到视觉基础模型重构出的重构证件图像和样本证件图像的差异足够小时,表明视觉基础模型以学习到深层次的证件图像特征。
在本说明书实施例中,通过对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,然后基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征,再基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像,最后以最小化样本证件图像和重构证件图像之间的差异为优化目标,调整视觉基础模型的模型参数;采用该方法,通过在开源大数据中获取样本证件图像以自监督的方式预训练一个视觉基础模型,该模型可提前学习到深层次的证件图像特征,基于训练好的视觉基础模型在电子身份认证中各识别任务的训练过程中,仅需少量数据即可训练得到效果较好的任务模型,减少电子身份认证下游任务中模型对数据的依赖。
一个实施例中,在对样本证件图像进行掩码操作之前,首先将样本证件图像切分成多个图像块,再对其中的部分图像块进行掩码操作,得到掩码图像。
请参见图2,为本说明书实施例提供的一种视觉基础模型训练方法的流程示意图。如图2所示,所述视觉基础模型训练方法包括如下步骤:
S202,对样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
在本说明书一个或多个实施例中,在得到样本证件图像之后,将样本证件图像等分为预设数量的图像块,得到样本证件图像对应的图像块集合。
S204,将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像;
在切分得到图像块集合之后,在图像块集合中选取部分图像块进行掩码操作,进而得到掩码后的掩码图像。
需要说明的是,在本说明书一个或多个实施例中,将样本证件图像等分为预设数量的图像块之后,为各图像块添加位置编码,并在对部分图像块掩码之后,基于未被掩码的图像块以及位置编码生成掩码图像。
S206,基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征;
一个实施例中,在得到基于未被掩码的图像块所生成的掩码图像之后,将该掩码图像输入至特征提取网络中,得到未被掩码的各图像块分别对应的图像块特征组合,依据各图像块对应的位置编码,将被掩码的图像块插入至提取的图像块特征组合中,得到掩码图像对应的掩码图像特征。
S208,基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像;
步骤S208请参见本说明书另一实施例中对步骤S106的详细描述,在此不在赘述。
S210,以最小化样本证件图像和重构证件图像之间的差异为优化目标,调整视觉基础模型的模型参数。
步骤S210请参见本说明书另一实施例中对步骤S108的详细描述,在此不在赘述。
在本说明书实施例中,通过在开源大数据中获取样本证件图像以自监督的方式预训练一个视觉基础模型,该模型可提前学习到深层次的证件图像特征,基于训练好的视觉基础模型在电子身份认证中各识别任务的训练过程中,仅需少量数据即可训练得到效果较好的任务模型,减少电子身份认证下游任务中模型对数据的依赖。
一个实施例中,在对样本证件图像进行掩码操作之前,首先检测样本证件图像中文字行的位置信息,根据文字行位置信息选择预定的掩码策略对样本证件图像进行掩码处理,得到掩码图像。
请参见图3,为本说明书实施例提供的一种视觉基础模型训练方法的流程示意图。如图3所示,所述方法包括如下步骤:
S302,对样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
在本说明书一个或多个实施例中,在得到样本证件图像之后,将样本证件图像等分为预设数量的图像块,得到样本证件图像对应的图像块集合。
S304,对样本证件图像进行文字行检测处理,得到样本证件图像中的文字行位置信息;
在本说明书一个或多个实施例中,首先基于文字行检测算法对样本证件图像进行文字行检测,得到样本证件图像中文字行对应的文字行位置信息。
S306,基于文字行位置信息在图像块集合中确定包含文字行的各第一图像块以及不包含文字行的各第二图像块;
根据检测到的文字行的位置信息在切分的图像块集合中区分包含文字行的各第一图像块以及不包含文字行的各第二图像块。
S308,根据第一图像块和第二图像块的数量比例,选取相同数量比例的第一图像块和第二图像块进行掩码操作,得到掩码后的掩码图像;
确定各第一图像块的数量和各第二图像块的数量,并确定图像块集合中第一图像块和第二图像块的数量比例,该数量比例也即图像块集合中含文字行的图像块和不含文字行的图像块的数量比。基于该数量比例,在图像块集合中随机选取相同比例的第一图像块和第二图像块进行掩码操作,得到掩码后的掩码图像。
可以理解的是,样本证件图像中文字行中包含较多且更加复杂的特征。在进行掩码操作时,通过将部分包含文字行的图像块进行掩码,可以使得模型在重构样本证件图像以及训练过程中学习到更加深入的证件图像特征。
一种可行的实施方式中,首先采用基于文字行检测的算法,将证件上的文字行的位置检测出来,得到文字行位置信息,然后根据文字行位置信息确定包含文字行的各第一图像块以及不包含文字行的各第二图像块,设置包含文字行的第一图像块的权重为A,不含文字行的第二图像块的权重为B,在权重为A和权重为B的图像块中分别选取预设比例的图像块进行掩码操作,得到掩码图像。
S310,基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征;
步骤S310请参见本说明书另一实施例中对步骤S104的详细描述,在此不在赘述。
S312,基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像;
步骤S312请参见本说明书另一实施例中对步骤S106的详细描述,在此不在赘述。
S314,以最小化样本证件图像和重构证件图像之间的差异为优化目标,调整视觉基础模型的模型参数。
步骤S314请参见本说明书另一实施例中对步骤S108的详细描述,在此不在赘述。
在本说明书实施例中,通过在开源大数据中获取样本证件图像以自监督的方式预训练一个视觉基础模型,该模型可提前学习到深层次的证件图像特征,基于训练好的视觉基础模型在电子身份认证中各识别任务的训练过程中,仅需少量数据即可训练得到效果较好的任务模型,减少电子身份认证下游任务中模型对数据的依赖。在进行掩码操作时,选择部分包含文字行的图像块进行掩码,加深模型对证件图像特征的学习深度,使模型学习到更深层次的证件图像特征,进一步提升模型效果。
一个实施例中,在对样本证件图像进行掩码操作之前,首先预测图像块集合中各图像块的重构难度,将重构难度较大的图像块进行掩码。
请参见图4,为本说明书实施例提供的一种视觉基础模型训练方法的流程示意图。如图4所示,所述方法包括如下步骤:
S402,对样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
在本说明书一个或多个实施例中,在得到样本证件图像之后,将样本证件图像等分为预设数量的图像块,得到样本证件图像对应的图像块集合。
S404,基于视觉基础模型中的特征提取网络对图像块集合中各图像块进行图像特征提取处理,得到各图像块分别对应的图像块特征;
在本说明书一个或多个实施例中,在切分得到样本证件图像对应的图像块集合之后,基于视觉基础模型中的特征提取网络对各图像块进行特征提取处理,得到各图像块分别对应的图像特征。
S406,基于视觉基础模型中的损失预测网络,根据图像块特征预测对应图像块的预测重构损失;
需要说明的是,在本说明书一个或多个实施例中,视觉基础模型包括特征提取网络、图像重构网络以及损失预测网络。其中,损失预测网络用于对图像块的重构损失进行预测。预测重构损失越大,表明该图像块的重构难度越大,反之,预测重构损失越小,表明该图像块的重构难度越小。
在本说明书一个或多个实施例中,在特征提取网络提取得到各图像块分别对应的图像块特征之后,由损失预测网络根据各图像块分别对应的图像块特征预测各图像块分别对应的预测重构损失。
S408,根据各图像块对应的预测重构损失,在图像块集合中选取预测重构损失较大的部分图像块进行掩码操作,得到掩码后的掩码图像;
在本说明书实施例中在,在得到各图像块分别对应的预测重构损失之后,在图像块集合中选择预测重构损失较大的部分图像块进行掩码操作,得到掩码后的掩码图像。
可以理解的是,预测重构损失越大表明重构难度越大,本说明书实施例通过掩码重构难度较大的图像块,使得模型在重构证件图像过程中,学习得到更深层次的证件图像特征。
S410,基于视觉基础模型中的特征提取网络对掩码图像进行图像特征提取处理,得到掩码图像对应的掩码图像特征;
S412,基于视觉基础模型中的图像重构网络,根据掩码图像特征进行图像特征重构,生成样本证件图像对应的重构证件图像;
S414,根据重构证件图像和样本证件图像之间的差异计算各图像块分别对应的实际重构损失;
可以理解的是,本方案通过视觉基础模型对掩码后的证件图像进行重构实现对模型的训练,其目的在于使得模型重构的重构证件图像和真实样本证件图像接近一致。
在本说明书一个或多个实施例中,在得到重构证件图像之后,将根据重构证件图像和样本证件图像的差异计算模型在重构各图像块时的实际重构损失,分别对重构证件图像和样本证件图像中的各图像块进行比较,最终计算得到各图像块分别对应的实际重构损失。
S416,根据实际重构损失调整视觉基础模型的模型参数。
具体的,根据实际重构损失调整视觉基础模型的模型参数,使得调整后视觉基础模型对证件图像的重构具有更优的效果。
进一步的,在根据实际重构损失调整视觉基础模型的模型参数时,具体可以为:根据实际重构损失和预测重构损失的差异计算各图像块分别对应的重构损失预测损失,根据重构损失预测损失和实际重构损失调整视觉基础模型的模型参数。
可以理解的是,实际重构损失越大,表明视觉基础模型对证件图像的重构能力越差,根据实际重构损失调整视觉基础模型的模型参数,用于改进模型对证件图像的重构效果。重构损失预测损失越大,表明视觉基础模型在预测图像块的重构难度时越不精确,根据重构损失预测损失调整视觉基础模型的模型参数,用于改进视觉基础模型对图像块重构难度的预测效果,使得视觉基础模型可以更加精确的预测到难以重建的图像块。
在本说明书实施例中,在对样本证件图像进行掩码之前,首先通过预测各图像块对应的重构损失,找出重构难度较大的图像块进行掩码,进而得到比较难以重构的掩码图像进行重构,增强视觉基础模型重构难度的同时,提升视觉基础模型对证件图像特征的学习深度,帮助模型快速收敛,从而基于训练好的视觉基础模型在电子身份认证中各识别任务的训练过程中,仅需少量数据即可训练得到效果较好的任务模型,减少电子身份认证下游任务中模型对数据的依赖。
一种可行的实施方式中,基于视觉基础模型构建老师模型和学生模型,将样本证件图像输入至老师模型中,由老师模型对样本证件图像中各图像块进行重构损失预测,得到各图像块分别对应的预测重构损失;然后根据预测重构损失选择预测重构损失较大的图像块进行掩码操作,得到掩码图像,然后将掩码图像输入至学生模型中进行重构得到重构证件图像,再根据重构证件图像和样本证件图像之间的差异计算各图像块分别对应的实际重构损失,根据实际重构损失和预测重构损失的差异计算各图像块分别对应的重构损失预测损失,根据重构损失预测损失和实际重构损失调整模型参数。其中,老师模型和学生模型的模型参数共享。
需要说明是,在视觉基础模型的满足预设训练要求后,得到训练完成的视觉基础模型。此时,训练完成的视觉基础模型已学习得到丰富且深层次的证件图像特征,基于此视觉基础模型,仅需少量的训练数据,即可训练生成用于各种证件识别任务的任务模型。
请参见图5,为本说明书实施例提供的一种视觉基础模型训练装置的结构示意图。如图5所示,该视觉基础模型训练装置1可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。根据一些实施例,该视觉基础模型训练装置1包括图像掩码模块11、特征提取模块12、图像重构模块13以及模型优化模块14,具体包括:
图像掩码模块11,用于对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像;
特征提取模块12,用于基于视觉基础模型中的特征提取网络对所述掩码图像进行图像特征提取处理,得到所述掩码图像对应的掩码图像特征;
图像重构模块13,用于基于视觉基础模型中的图像重构网络,根据所述掩码图像特征进行图像特征重构,生成所述样本证件图像对应的重构证件图像;
模型优化模块14,用于以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数。
可选的,所述图像掩码模块11,具体用于:
对所述样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像。
可选的,所述图像掩码模块11在执行所述将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像时,具体用于:
对所述样本证件图像进行文字行检测处理,得到所述样本证件图像中的文字行位置信息;
基于所述文字行位置信息在所述图像块集合中确定包含所述文字行的各第一图像块以及不包含所述文字行的各第二图像块;
根据所述第一图像块和所述第二图像块的数量比例,选取相同数量比例的第一图像块和第二图像块进行掩码操作,得到掩码后的掩码图像。
可选的,所述图像掩码模块11,还用于:
对所述样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
基于视觉基础模型中的特征提取网络对所述图像块集合中各图像块进行图像特征提取处理,得到各所述图像块分别对应的图像块特征;
基于视觉基础模型中的损失预测网络,根据所述图像块特征预测对应图像块的预测重构损失;
根据各所述图像块对应的预测重构损失,在所述图像块集合中选取预测重构损失较大的部分图像块进行掩码操作,得到掩码后的掩码图像。
可选的,所述模型优化模块14,具体用于:
根据所述重构证件图像和所述样本证件图像之间的差异计算各所述图像块分别对应的实际重构损失;
根据所述实际重构损失调整所述视觉基础模型的模型参数。
可选的,所述模型优化模块14在执行所述根据所述实际重构损失调整所述视觉基础模型的模型参数时,具体用于:
根据所述实际重构损失和所述预测重构损失的差异计算各所述图像块分别对应的重构损失预测损失;
根据所述重构损失预测损失和所述实际重构损失调整所述视觉基础模型的模型参数。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供的一种存储介质,所述存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图4所示实施例的所述的方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
本说明书还提供的一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图4所示实施例的所述的方法,具体执行过程可以参见图1~图4所示实施例的具体说明,在此不进行赘述。
本说明书实施例还提供了图6所示的电子设备的结构示意图。如图6,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他事务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述的视觉基础模型训练方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种视觉基础模型训练方法,所述方法包括:
对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像;
基于视觉基础模型中的特征提取网络对所述掩码图像进行图像特征提取处理,得到所述掩码图像对应的掩码图像特征;
基于视觉基础模型中的图像重构网络,根据所述掩码图像特征进行图像特征重构,生成所述样本证件图像对应的重构证件图像;
以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数。
2.根据权利要求1所述的方法,所述对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,包括:
对所述样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像。
3.根据权利要求2所述的方法,所述将图像块集合中的部分图像块进行掩码操作,得到掩码后的掩码图像,包括:
对所述样本证件图像进行文字行检测处理,得到所述样本证件图像中的文字行位置信息;
基于所述文字行位置信息在所述图像块集合中确定包含所述文字行的各第一图像块以及不包含所述文字行的各第二图像块;
根据所述第一图像块和所述第二图像块的数量比例,选取相同数量比例的第一图像块和第二图像块进行掩码操作,得到掩码后的掩码图像。
4.根据权利要求1所述的方法,所述对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像,包括:
对所述样本证件图像进行图像切分处理,得到样本证件图像对应的图像块集合;
基于视觉基础模型中的特征提取网络对所述图像块集合中各图像块进行图像特征提取处理,得到各所述图像块分别对应的图像块特征;
基于视觉基础模型中的损失预测网络,根据所述图像块特征预测对应图像块的预测重构损失;
根据各所述图像块对应的预测重构损失,在所述图像块集合中选取预测重构损失较大的部分图像块进行掩码操作,得到掩码后的掩码图像。
5.根据权利要求4所述的方法,所述以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数,包括:
根据所述重构证件图像和所述样本证件图像之间的差异计算各所述图像块分别对应的实际重构损失;
根据所述实际重构损失调整所述视觉基础模型的模型参数。
6.根据权利要求5所述的方法,所述根据所述实际重构损失调整所述视觉基础模型的模型参数,包括:
根据所述实际重构损失和所述预测重构损失的差异计算各所述图像块分别对应的重构损失预测损失;
根据所述重构损失预测损失和所述实际重构损失调整所述视觉基础模型的模型参数。
7.一种视觉基础模型训练装置,包括:
图像掩码模块,用于对样本证件图像进行掩码操作,得到样本证件图像对应的掩码图像;
特征提取模块,用于基于视觉基础模型中的特征提取网络对所述掩码图像进行图像特征提取处理,得到所述掩码图像对应的掩码图像特征;
图像重构模块,用于基于视觉基础模型中的图像重构网络,根据所述掩码图像特征进行图像特征重构,生成所述样本证件图像对应的重构证件图像;
模型优化模块,用于以最小化所述样本证件图像和所述重构证件图像之间的差异为优化目标,调整所述视觉基础模型的模型参数。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6中任意一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~6中任意一项所述方法的步骤。
10.一种计算机程序产品,其上存储有至少一条指令,其特征在于,所述至少一条指令被处理器执行时实现权利要求1~6中任意一项所述方法的步骤。
CN202410195008.1A 2024-02-21 一种视觉基础模型训练方法、装置、存储介质及电子设备 Pending CN118279693A (zh)

Publications (1)

Publication Number Publication Date
CN118279693A true CN118279693A (zh) 2024-07-02

Family

ID=

Similar Documents

Publication Publication Date Title
CN107358157B (zh) 一种人脸活体检测方法、装置以及电子设备
CN109034183B (zh) 一种目标检测方法、装置及设备
CN110826894A (zh) 超参数确定方法、装置及电子设备
CN116152933A (zh) 一种异常检测模型的训练方法、装置、设备及存储介质
CN117409466B (zh) 一种基于多标签控制的三维动态表情生成方法及装置
CN116503357A (zh) 图像处理方法及装置
CN116630480A (zh) 一种交互式文本驱动图像编辑的方法、装置和电子设备
CN118279693A (zh) 一种视觉基础模型训练方法、装置、存储介质及电子设备
CN115600090A (zh) 一种模型的所有权验证方法、装置、存储介质及电子设备
CN115578796A (zh) 一种活体检测模型的训练方法、装置、设备及介质
CN114997277A (zh) 一种模型训练的方法、任务执行的方法及装置
CN117523323B (zh) 一种生成图像的检测方法及装置
CN110929871A (zh) 博弈决策方法和系统
CN118015441A (zh) 一种篡改检测方法、装置、存储介质及电子设备
CN117972436B (zh) 大语言模型的训练方法、训练装置、存储介质及电子设备
CN117952182B (zh) 一种基于数据质量的混合精度模型训练方法及装置
CN114693996B (zh) 证件真实性不确定度度量方法及装置、设备、存储介质
CN117912046A (zh) 一种证件识别模型训练方法、装置、存储介质及电子设备
CN115953706B (zh) 虚拟形象处理方法及装置
CN112115952B (zh) 一种基于全卷积神经网络的图像分类方法、设备及介质
CN116092133A (zh) 特征预测模型的训练方法及装置
CN115495776A (zh) 一种调整模型的方法、装置、存储介质及电子设备
CN115455377A (zh) 一种模型所有权验证方法、装置、存储介质及设备
CN118154947A (zh) 一种风险图像拦截方法、装置、存储介质及电子设备
CN117576748A (zh) 一种伪造检测模型训练方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication