CN117975473A - 票据文本检测模型训练及检测方法、装置、设备和介质 - Google Patents

票据文本检测模型训练及检测方法、装置、设备和介质 Download PDF

Info

Publication number
CN117975473A
CN117975473A CN202311424426.5A CN202311424426A CN117975473A CN 117975473 A CN117975473 A CN 117975473A CN 202311424426 A CN202311424426 A CN 202311424426A CN 117975473 A CN117975473 A CN 117975473A
Authority
CN
China
Prior art keywords
bill
text
model
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311424426.5A
Other languages
English (en)
Inventor
范峻植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202311424426.5A priority Critical patent/CN117975473A/zh
Publication of CN117975473A publication Critical patent/CN117975473A/zh
Pending legal-status Critical Current

Links

Abstract

本申请涉及一种票据文本检测模型训练及检测方法、装置、设备、介质和程序产品,涉及人工智能及图像识别技术领域。本申请能够提高票据文本信息检测准确性。方法包括:获取票据图像样本及其标注信息,获取票据图像样本对应的票据类型,将票据图像样本和票据类型输入待训练的票据文本信息检测模型,根据模型输出的文字区域预测信息和文字区域标注信息得到第一模型损失,根据模型输出的文本框预测信息和文本框标注信息得到第二模型损失,根据当前训练迭代次数确定第一模型损失与第二模型损失的相对权重,根据基于该第一模型损失、第二模型损失和相对权重确定的总模型损失,训练待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。

Description

票据文本检测模型训练及检测方法、装置、设备和介质
技术领域
本申请涉及人工智能及图像识别技术领域,特别是涉及一种票据文本信息检测模型的训练方法、票据图像中票据文本信息检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着OCR(Optical Character Recognition,光学字符识别)技术的发展,OCR技术能自动化的应用于业务流程中,并且在很多场景已经有较多的落地项目。
其中,由于票据图像数据具有私密性和合规性的特点,提供模型算法服务的主体难以获得大量的票据图像数据来对其模型算法进行迭代优化,所以需要由业务主体进行自训练,自训练是指在业务主体私有化服务器上部署自训练系统,传入需要检测识别的票据图像数据及标注信息,然后自动训练得到检测模型,票据图像数据不需要外传,具有安全的特点。
发明内容
基于此,有必要针对上述技术问题,提供一种票据文本信息检测模型的训练方法、票据图像中票据文本信息检测方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种票据文本信息检测模型的训练方法。所述方法包括:
获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;
获取所述票据图像样本对应的票据类型;
将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;
根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;
根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;
根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
在其中一个实施例中,所述根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重,包括:
获取预设迭代次数阈值;在所述当前训练迭代次数未达到所述预设迭代次数阈值的情况下,使所述第一模型损失与第二模型损失的相对权重大于预设相对权重;其中,所述预设相对权重用于表示所述第一模型损失与第二模型损失的权重相同时的权重值。
在其中一个实施例中,所述使所述第一模型损失与第二模型损失的相对权重大于预设相对权重,包括:
根据所述当前训练迭代次数,在预设的相对权重选取范围中确定所述当前训练迭代次数对应的相对权重;其中,所述当前训练迭代次数与所述对应的相对权重负相关。
在其中一个实施例中,所述方法还包括:在所述当前训练迭代次数达到所述预设迭代次数阈值的情况下,确定所述第一模型损失与第二模型损失的相对权重为所述预设相对权重。
在其中一个实施例中,所述获取预设迭代次数阈值,包括:确定所述票据文本信息检测模型训练的预设最大迭代次数;确定所述票据文本信息检测模型训练对应的关注阶段划分参数;其中,所述关注阶段划分参数用于划分所述票据文本信息检测模型在所述预设最大迭代次数内关注所述文字区域的阶段;根据所述预设最大迭代次数和关注阶段划分参数,确定所述预设迭代次数阈值。
第二方面,本申请提供了一种票据图像中票据文本信息检测方法。所述方法包括:
获取待检测的票据图像,确定所述票据图像对应的票据类型;
将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到;
根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
第三方面,本申请还提供了一种票据文本信息检测模型的训练装置。所述装置包括:
样本获取模块,用于获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;
类型获取模块,用于获取所述票据图像样本对应的票据类型;
样本输入模块,用于将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;
损失获取模块,用于根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;
权重确定模块,用于根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;
模型训练模块,用于根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
第四方面,本申请还提供了一种票据图像中票据文本信息检测装置。所述装置包括:
图像获取模块,用于获取待检测的票据图像,确定所述票据图像对应的票据类型;
图像输入模块,用于将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到;
信息获取模块,用于根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;获取所述票据图像样本对应的票据类型;将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
第六方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待检测的票据图像,确定所述票据图像对应的票据类型;将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到;根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
第七方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;获取所述票据图像样本对应的票据类型;将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
第八方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待检测的票据图像,确定所述票据图像对应的票据类型;将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到;根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
第九方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;获取所述票据图像样本对应的票据类型;将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
第十方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待检测的票据图像,确定所述票据图像对应的票据类型;将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到;根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
上述票据文本信息检测模型的训练方法、票据图像中票据文本信息检测方法、装置、计算机设备、存储介质和计算机程序产品,获取票据图像样本及其票据文本标注信息,该票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息,获取该票据图像样本对应的票据类型,将该票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取该模型输出的文字区域预测信息和文本框预测信息,根据该文字区域预测信息和文字区域标注信息得到第一模型损失,根据该文本框预测信息和文本框标注信息得到第二模型损失,根据当前训练迭代次数确定第一模型损失与第二模型损失的相对权重,根据基于该第一模型损失、第二模型损失和相对权重确定的总模型损失,训练待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。该方案可以在训练时确定票据图像样本对应的票据类型,向待训练的票据文本信息检测模型输入票据图像样本的同时提供对应的票据类型,使得票据文本信息检测模型可以根据由该票据类型获得对应的类型提示特征从而更好地结合票据图像样本的图像特征检测票据图像样本输出对应的文字区域预测信息和文本框预测信息,而在模型训练中,还根据当前训练迭代次数对第一模型损失与第二模型损失的相对权重进行自调节,进一步提高少样本学习效果,从而优化模型对票据文本信息检测训练的效果,由此即便是在票据图像样本数量少、票据类型不固定的场景下,也能使所训练的模型对票据图像中票据文本信息具有更准确的检测效果。
附图说明
图1为本申请实施例中相关方法的应用环境图;
图2为目前技术中一种检测模型的训练方法的处理示意图;
图3为本申请实施例中票据文本信息检测模型的训练方法的流程示意图;
图4为本申请实施例中票据文本信息检测模型的相关数据处理的示意图;
图5为本申请实施例中确定相对权重的步骤的流程示意图;
图6为本申请实施例中获取预设迭代次数阈值的步骤的流程示意图;
图7为本申请实施例中票据图像中票据文本信息检测方法的步骤的流程示意图;
图8为本申请实施例中票据文本信息检测模型的训练装置的结构框图;
图9为本申请实施例中票据图像中票据文本信息检测装置的结构框图;
图10为本申请实施例中计算机设备的内部结构图;
图11为本申请另一实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的票据文本信息检测模型的训练方法和票据图像中票据文本信息检测方法可以应用于如图1所示的应用环境中,该应用环境可以包括终端110和服务器120,终端110通过网络与服务器120进行通信,其中,服务器120可以用于执行本申请的票据文本信息检测模型的训练方法,获得经训练的票据文本信息检测模型,服务器120可以将经训练的票据文本信息检测模型传输至终端110进行部署,终端110可以用于执行本申请的票据图像中票据文本信息检测方法,根据经服务器120训练得到的票据文本信息检测模型,为用户提供票据图像中票据文本信息检测的服务。在该应用环境中,还可以包括数据存储系统,数据存储系统可以存储服务器120需要处理的数据,数据存储系统可以集成在服务器120上,也可以放在云上或其他网络服务器上。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
以下结合各实施例及相应附图对本申请的票据文本信息检测模型的训练方法和票据图像中票据文本信息检测方法进行依次说明。
目前技术中提供的票据文本信息检测模型的训练方法,通常是将标注的票据图像样本输入到模型里进行训练,而票据图像样本的数量通常是非常少的,这使得由此所训练的票据文本信息检测模型难以准确检测票据图像中的票据文本信息。本申请针对票据图像数据具有私密性、合规性、样本量少及类型不固定的特点,提供了票据文本信息检测模型的训练方法和票据图像中票据文本信息检测方法,优化票据文本信息检测模型对票据文本信息检测训练的效果,使所训练的票据文本信息检测模型对票据图像中票据文本信息的检测更准确。而在票据图像数据检测的场景下,目前技术通过都是直接将用户标注的票据图像样本输入到模型里面进行训练,如图2所示为目前技术中的一种检测模型的训练方法,直接将票据图像样本及其标注信息提供给模型,计算相应的模型损失后进行训练从而得到经训练的模型用于票据文本信息检测,这种方式会由于票据图像样本对应的票据类型不固定且标注的票据图像样本较少而转化为了少样本学习,影响模型训练结果,且模型对于所有票据类型都用了同样的超参进行训练,也会导致模型训练结果不够好,从而使得由此训练的票据文本信息检测模型难以准确检测票据图像中的票据文本信息。本申请的票据文本信息检测模型的训练方法,可以在训练时向待训练的票据文本信息检测模型输入票据图像样本的同时提供对应的票据类型,使得票据文本信息检测模型可以根据由该票据类型获得对应的类型提示特征从而更好地结合票据图像样本的图像特征检测票据图像样本输出对应的文字区域预测信息和文本框预测信息,而在模型训练中,还根据当前训练迭代次数对第一模型损失与第二模型损失的相对权重进行自调节,进一步提高少样本学习效果,从而优化模型对票据文本信息检测训练的效果,由此即便是在票据图像样本数量少、票据类型不固定的场景下,也能使所训练的模型对票据图像中票据文本信息具有更准确的检测效果。
在一个实施例中,如图3所示,提供了一种票据文本信息检测模型的训练方法,该方法可以应用于如图1所示的服务器120,该方法可以包括以下步骤:
步骤S301,获取票据图像样本以及票据图像样本的票据文本标注信息。
步骤S302,获取票据图像样本对应的票据类型。
步骤S301和S302中,服务器120可获取票据图像样本以及票据图像样本的票据文本标注信息,以及获取票据图像样本对应的票据类型。其中,票据图像样本是指票据文本信息检测模型的训练样本,该训练样本为票据图像,故称票据图像样本,用户可以对票据图像样本提供票据文本标注信息,可以对票据图像样本中票据文本的文字区域进行标注,得到票据文本的文字区域标注信息,还可以对票据图像样本中票据文本所在的文本框进行标注,得到票据文本的文本框标注信息,即票据文本标注信息可以包括文字区域标注信息和文本框标注信息。其中,票据文本的文字区域具体可以是票据文本中每个文字在票据图像样本中的区域,票据文本所在的文本框则是票据图像样本中用于示意票据文本整体所在位置的标注框。其中,票据类型可以包括增值税发票等类型。
步骤S303,将票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取票据文本信息检测模型输出的文字区域预测信息和文本框预测信息。
本步骤中,服务器120可以将票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,由待训练的票据文本信息检测模型根据票据图像样本和对应的票据类型输出其预测的文字区域信息和文本框信息,该预测的文字区域信息记为文字区域预测信息,该预测的文本框信息记为文本框预测信息,其中,由于传入了对应的票据类型,待训练的票据文本信息检测模型可以针对不同的票据类型进行微调从而使得对文字区域信息和文本框信息的预测效果更好。在具体实现中,为进一步提供模型训练效果,服务器120可以将票据图像样本进行数据增强处理,如进行随机缩放、亮度增强等,然后再随机裁剪为指定尺寸的票据图像样本后输入至待训练的票据文本信息检测模型。
对于步骤S303,具体的,结合图4进行说明,图4示出了本申请中票据文本信息检测模型的相关数据处理的示意图,可以先对票据图像样本进行标注得到包括文字区域标注信息和文本框标注信息,然后可以对票据图像样本进行数据增强及随机裁剪指定尺寸得到处理后的票据图像样本,还可以确定该票据图像样本对应的票据类型,将处理后的票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型(简称检测模型),由检测模型中票据类型构造器根据传入的票据类型得到类型提示特征,如根据传入的增值税发票类型得到像素以黑红白为主的类型提示特征等,由检测模型中图像编码模块根据传入的票据图像样本得到图像特征,然后由检测模型中文本提示模块根据类型提示特征和图像特征获得文本编码,然后由检测模型中视觉提示模块根据文本编码和图像特征得到第一视觉特征,将第一视觉特征和图像特征融合得到第二视觉特征,然后将第二视觉特征与文本编码经过爱因斯坦求和得到文字特征,然后对文字特征进行处理得到文本区域预测信息,然后结合文本区域预测信息和第二视觉特征得到文本框预测信息。在具体实施中,图像编码模块可以采用resnet50;文本提示模块可以由两层正则层(线性层)组成,两层中间由激活函数层隔开;视觉提示模块可以使用transformer的解码器;
步骤S304,根据文字区域预测信息和文字区域标注信息得到第一模型损失,根据文本框预测信息和文本框标注信息得到第二模型损失。
步骤S305,根据当前训练迭代次数确定第一模型损失与第二模型损失的相对权重。
步骤S306,根据基于第一模型损失、第二模型损失和相对权重确定的总模型损失,训练待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
步骤S304至S306是计算模型损失及由此训练待训练的票据文本信息检测模型的相关步骤。具体的,可参照图4,对模型输出的文字区域预测信息和文本框预测信息分别计算第一模型损失、第二模型损失对模型进行迭代训练。在步骤S304中,根据文字区域预测信息和文字区域标注信息计算第一模型损失,该第一模型损失可以通过二值化交叉熵进行计算;根据文本框预测信息和文本框标注信息计算第二模型损失,该第二模型损失可以使用L1损失,可直接使用文本框预测信息和文本框标注信息相减得到第二模型损失。需要注意的是,在步骤S305中,本申请根据对待训练的票据文本信息检测模型的当前训练迭代次数,确定该第一模型损失与第二模型损失的相对权重,可设第二模型损失的权重(记为第二权重)为1,则步骤S305可以用于确定第一模型损失的权重(记为第一权重)。由此,在步骤S306中,可以根据第一模型损失、第二模型损失及其对应的第一权重和第二权重,进行加权求和获得总模型损失,根据该总模型损失训练待训练的票据文本信息检测模型,直至满足预设模型训练结束条件,在具体实施中,该预设模型训练结束条件可以是达到预设最大迭代次数、总模型损失收敛等。由此可以在训练过程中根据当前训练迭代次数对第一模型损失与第二模型损失的相对权重进行自调整,进一步学习文本中的知识,提高少样本学习效果,使得由此训练得到的票据文本信息检测模型对票据图像中票据文本信息具有更准确的检测效果。
本实施例的票据文本信息检测模型的训练方法,获取票据图像样本及其票据文本标注信息,该票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息,获取该票据图像样本对应的票据类型,将该票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取该模型输出的文字区域预测信息和文本框预测信息,根据该文字区域预测信息和文字区域标注信息得到第一模型损失,根据该文本框预测信息和文本框标注信息得到第二模型损失,根据当前训练迭代次数确定第一模型损失与第二模型损失的相对权重,根据基于该第一模型损失、第二模型损失和相对权重确定的总模型损失,训练待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。该方案可以在训练时确定票据图像样本对应的票据类型,向待训练的票据文本信息检测模型输入票据图像样本的同时提供对应的票据类型,使得票据文本信息检测模型可以根据由该票据类型获得对应的类型提示特征从而更好地结合票据图像样本的图像特征检测票据图像样本输出对应的文字区域预测信息和文本框预测信息,而在模型训练中,还根据当前训练迭代次数对第一模型损失与第二模型损失的相对权重进行自调节,进一步提高少样本学习效果,从而优化模型对票据文本信息检测训练的效果,由此即便是在票据图像样本数量少、票据类型不固定的场景下,也能使所训练的模型对票据图像中票据文本信息具有更准确的检测效果。
在一些实施例中,如图5所示,步骤S305中的根据当前训练迭代次数确定第一模型损失与第二模型损失的相对权重,可以包括:
步骤S501,获取预设迭代次数阈值。
步骤S502,在当前训练迭代次数未达到预设迭代次数阈值的情况下,使第一模型损失与第二模型损失的相对权重大于预设相对权重。其中,预设相对权重用于表示第一模型损失与第二模型损失的权重相同时的权重值。
步骤S503,在当前训练迭代次数达到预设迭代次数阈值的情况下,确定第一模型损失与第二模型损失的相对权重为预设相对权重。
本实施例中,可以使得第一模型损失与第二模型损失的相对权重随着当前训练迭代次数发生动态变化,使模型在训练初期相对关注文字区域预测变化为文字区域预测与文本框预测并重,提升票据图像数据具有的少样本场景下的文字区域检测学习效果且平衡文本框检测学习效果。具体的,在步骤S501中,可以先确定预设迭代次数阈值,然后可以判断当前训练迭代次数是否达到该预设迭代次数阈值,具体的,步骤S502中,在当前训练迭代次数未达到预设迭代次数阈值的情况下,使第一模型损失与第二模型损失的相对权重大于预设相对权重,其中,该预设相对权重用于表示第一模型损失与第二模型损失的权重相同时的权重值,即通过设置该相对权重大于预设相对权重,使得模型在训练初期相对关注文字区域预测,在具体实施中,该预设相对权重可以取1。另外,步骤S503中,在当前训练迭代次数达到预设迭代次数阈值的情况下,可以确定第一模型损失与第二模型损失的相对权重为预设相对权重,即使得模型在训练后期对文字区域预测与文本框预测的关注并重从而平衡文字区域检测及文本框检测学习效果。
进一步的,在一个实施例中,如图6所示,步骤S501中的获取预设迭代次数阈值,可以包括:
步骤S601,确定票据文本信息检测模型训练的预设最大迭代次数。
步骤S602,确定票据文本信息检测模型训练对应的关注阶段划分参数。其中,关注阶段划分参数用于划分票据文本信息检测模型在预设最大迭代次数内关注文字区域的阶段。
步骤S603,根据预设最大迭代次数和关注阶段划分参数,确定预设迭代次数阈值。
本实施例中,预设迭代次数阈值可以根据预设最大迭代次数和关注阶段划分参数计算得到。其中,预设最大迭代次数可以由用户进行设定,步骤S601中,可以获取用户设定的该票据文本信息检测模型训练的预设最大迭代次数记为Emax。其中,关注阶段划分参数是指用于划分票据文本信息检测模型在该预设最大迭代次数内关注文字区域的阶段,该参数可以取0至1之间的数值如4/5。步骤S603中,可以根据预设最大迭代次数和关注阶段划分参数的乘积得到预设迭代次数阈值4/5*Emax。由此可供用户根据模型实际训练需要灵活设置合理的预设迭代次数阈值使得票据文本信息检测模型获得更好的模型训练效果。
进一步的,在一个实施例中,上述步骤S502中的使第一模型损失与第二模型损失的相对权重大于预设相对权重,可以包括:
根据当前训练迭代次数,在预设的相对权重选取范围中确定当前训练迭代次数对应的相对权重;其中,当前训练迭代次数与对应的相对权重负相关。
本实施例中,可以使得第一模型损失与第二模型损失的相对权重随着当前训练迭代次数的增大而逐渐变小,直至当前训练迭代次数达到预设迭代次数阈值时,第一模型损失与第二模型损失的相对权重取得上述的预设相对权重,由此可以让模型随着当前训练迭代次数的增大,逐渐从关注文字区域预测平滑地过渡至对文字区域预测与文本框预测的关注并重,进一步优化模型训练效果。具体的,在当前训练迭代次数未达到预设迭代次数阈值的情况下,需使第一模型损失与第二模型损失的相对权重大于预设相对权重,本实施例对预设相对权重的选取上,具体在预设的相对权重选取范围中确定当前训练迭代次数对应的相对权重,而当前训练迭代次数与对应的相对权重负相关,也即在训练开始时可以在相对权重选取范围中选择较大的相对权重,然后随着当前训练迭代次数增加,选择越来越小的相对权重直至当前训练迭代次数达到预设迭代次数阈值时取得上述的预设相对权重,在具体实现中,相对权重选取范围可以由最大值和最小值来限定,最大值可以取2,最小值可以取预设相对权重即1,由此可以在模型训练过程中随着当前训练迭代次数的增加从最大值2过渡至最小值1,优化模型训练效果且避免了复杂的设计参数。
作为一具体实现方式,可以通过一预设函数来为每一当前训练迭代次数确定对应的相对权重,预设函数具体如下:
其中,表示当前当前训练迭代次数,/>表示预设最大迭代次数,/>表示预设迭代次数阈值。
在一个实施例中,如图7所示,提供了一种票据图像中票据文本信息检测方法,该方法可以应用于如图1所示的终端110,该方法可以包括以下步骤:
步骤S701,获取待检测的票据图像,确定票据图像对应的票据类型。
本步骤中,终端110可以获取用户提供的待检测的票据图像以及获取用户选择的该票据图像对应的票据类型。
步骤S702,将票据图像和对应的票据类型输入经训练的票据文本信息检测模型。
本步骤中,终端110可以先从服务器120获取经训练的票据文本信息检测模型,该票据文本信息检测模型可以由服务器120根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到后发送至终端110,由此终端110可获得经训练的票据文本信息检测模型。然后,终端110可以在得到待检测的票据图像及其对应的票据类型后,将该票据图像和对应的票据类型输入经训练的票据文本信息检测模型,由经训练的票据文本信息检测模型输出该票据图像的文字区域信息和文本框信息。
步骤S703,根据经训练的票据文本信息检测模型输出的票据图像的文字区域信息和文本框信息,得到票据图像的票据文本信息。
本步骤中,终端110可以根据经训练的票据文本信息检测模型输出的票据图像的文字区域信息和文本框信息得到票据图像的票据文本信息,具体可以将该票据图像的文字区域信息和文本框信息作为票据图像的票据文本信息返回给用户,还可以进一步根据文字区域信息和文本框信息识别对应的票据文本中每个票据文字返回给用户。
本实施例的方案可以将本申请的票据文本信息检测模型的训练方法训练的票据文本信息检测模型应用于对票据图像的检测识别中,在票据图像样本数量少、票据类型不固定的场景下,也能基于所训练的票据文本信息检测模型准确地检测出其票据文本信息,以便为用户提供从中准确检测的票据文本信息。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的票据文本信息检测模型的训练方法的票据文本信息检测模型的训练装置,以及票据图像中票据文本信息检测方法的票据图像中票据文本信息检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个相关装置实施例中的具体限定可以参见上文中对于相关方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种票据文本信息检测模型的训练装置,该装置800可以包括:
样本获取模块801,用于获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;
类型获取模块802,用于获取所述票据图像样本对应的票据类型;
样本输入模块803,用于将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;
损失获取模块804,用于根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;
权重确定模块805,用于根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;
模型训练模块806,用于根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
在一个实施例中,权重确定模块805,用于获取预设迭代次数阈值;在所述当前训练迭代次数未达到所述预设迭代次数阈值的情况下,使所述第一模型损失与第二模型损失的相对权重大于预设相对权重;其中,所述预设相对权重用于表示所述第一模型损失与第二模型损失的权重相同时的权重值。
在一个实施例中,权重确定模块805,用于根据所述当前训练迭代次数,在预设的相对权重选取范围中确定所述当前训练迭代次数对应的相对权重;其中,所述当前训练迭代次数与所述对应的相对权重负相关。
在一个实施例中,权重确定模块805,还用于在所述当前训练迭代次数达到所述预设迭代次数阈值的情况下,确定所述第一模型损失与第二模型损失的相对权重为所述预设相对权重。
在一个实施例中,权重确定模块805,用于确定所述票据文本信息检测模型训练的预设最大迭代次数;确定所述票据文本信息检测模型训练对应的关注阶段划分参数;其中,所述关注阶段划分参数用于划分所述票据文本信息检测模型在所述预设最大迭代次数内关注所述文字区域的阶段;根据所述预设最大迭代次数和关注阶段划分参数,确定所述预设迭代次数阈值。
在一个实施例中,如图9所示,提供了一种票据图像中票据文本信息检测装置,该装置900可以包括:
图像获取模块901,用于获取待检测的票据图像,确定所述票据图像对应的票据类型;
图像输入模块902,用于将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据如上任一实施例所述的票据文本信息检测模型的训练方法训练得到;
信息获取模块903,用于根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储票据图像样本等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种票据文本信息检测模型的训练方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种票据图像中票据文本信息检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10和图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种票据文本信息检测模型的训练方法,其特征在于,所述方法包括:
获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;
获取所述票据图像样本对应的票据类型;
将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;
根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;
根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;
根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
2.根据权利要求1所述的方法,其特征在于,所述根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重,包括:
获取预设迭代次数阈值;
在所述当前训练迭代次数未达到所述预设迭代次数阈值的情况下,使所述第一模型损失与第二模型损失的相对权重大于预设相对权重;其中,所述预设相对权重用于表示所述第一模型损失与第二模型损失的权重相同时的权重值。
3.根据权利要求2所述的方法,其特征在于,所述使所述第一模型损失与第二模型损失的相对权重大于预设相对权重,包括:
根据所述当前训练迭代次数,在预设的相对权重选取范围中确定所述当前训练迭代次数对应的相对权重;其中,所述当前训练迭代次数与所述对应的相对权重负相关。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述当前训练迭代次数达到所述预设迭代次数阈值的情况下,确定所述第一模型损失与第二模型损失的相对权重为所述预设相对权重。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述获取预设迭代次数阈值,包括:
确定所述票据文本信息检测模型训练的预设最大迭代次数;
确定所述票据文本信息检测模型训练对应的关注阶段划分参数;其中,所述关注阶段划分参数用于划分所述票据文本信息检测模型在所述预设最大迭代次数内关注所述文字区域的阶段;
根据所述预设最大迭代次数和关注阶段划分参数,确定所述预设迭代次数阈值。
6.一种票据图像中票据文本信息检测方法,其特征在于,所述方法包括:
获取待检测的票据图像,确定所述票据图像对应的票据类型;
将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据权利要求1至5中任一项所述的方法训练得到;
根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
7.一种票据文本信息检测模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取票据图像样本以及所述票据图像样本的票据文本标注信息;所述票据文本标注信息包括票据文本的文字区域标注信息和文本框标注信息;
类型获取模块,用于获取所述票据图像样本对应的票据类型;
样本输入模块,用于将所述票据图像样本和对应的票据类型输入待训练的票据文本信息检测模型,获取所述票据文本信息检测模型输出的文字区域预测信息和文本框预测信息;
损失获取模块,用于根据所述文字区域预测信息和文字区域标注信息得到第一模型损失,根据所述文本框预测信息和文本框标注信息得到第二模型损失;
权重确定模块,用于根据当前训练迭代次数确定所述第一模型损失与第二模型损失的相对权重;
模型训练模块,用于根据基于所述第一模型损失、第二模型损失和相对权重确定的总模型损失,训练所述待训练的票据文本信息检测模型,直至满足预设模型训练结束条件。
8.一种票据图像中票据文本信息检测装置,其特征在于,所述装置包括:
图像获取模块,用于获取待检测的票据图像,确定所述票据图像对应的票据类型;
图像输入模块,用于将所述票据图像和对应的票据类型输入经训练的票据文本信息检测模型;其中,所述经训练的票据文本信息检测模型根据权利要求1至5中任一项所述的方法训练得到;
信息获取模块,用于根据所述经训练的票据文本信息检测模型输出的所述票据图像的文字区域信息和文本框信息,得到所述票据图像的票据文本信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的或者权利要求6所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的或者权利要求6所述的方法的步骤。
CN202311424426.5A 2023-10-30 2023-10-30 票据文本检测模型训练及检测方法、装置、设备和介质 Pending CN117975473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311424426.5A CN117975473A (zh) 2023-10-30 2023-10-30 票据文本检测模型训练及检测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311424426.5A CN117975473A (zh) 2023-10-30 2023-10-30 票据文本检测模型训练及检测方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN117975473A true CN117975473A (zh) 2024-05-03

Family

ID=90850393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311424426.5A Pending CN117975473A (zh) 2023-10-30 2023-10-30 票据文本检测模型训练及检测方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN117975473A (zh)

Similar Documents

Publication Publication Date Title
CN105453132B (zh) 实施图像处理的信息处理设备和图像处理方法
CN116778148A (zh) 目标检测方法、装置、电子设备及存储介质
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN116977336A (zh) 摄像头缺陷检测方法、装置、计算机设备及存储介质
CN116030466B (zh) 图像文本信息识别与处理方法、装置及计算机设备
CN117332766A (zh) 流程图生成方法、装置、计算机设备和存储介质
CN110717405A (zh) 人脸特征点定位方法、装置、介质及电子设备
CN117975473A (zh) 票据文本检测模型训练及检测方法、装置、设备和介质
CN113298083A (zh) 一种数据处理方法及装置
CN116630629B (zh) 基于域适应的语义分割方法、装置、设备及存储介质
CN116612474B (zh) 对象检测方法、装置、计算机设备及计算机可读存储介质
CN115965856B (zh) 图像检测模型构建方法、装置、计算机设备及存储介质
CN115761239B (zh) 一种语义分割方法及相关装置
CN116597293A (zh) 多模态场景识别方法、装置、计算机设备和存储介质
CN116543267B (zh) 图像集处理方法、图像分割方法、装置、设备和存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN116503694B (zh) 模型训练方法、图像分割方法、装置和计算机设备
CN116452702B (zh) 信息图表快速设计方法、装置、计算机设备和存储介质
CN117152428A (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
CN116049009A (zh) 测试方法、装置、计算机设备及计算机可读存储介质
CN116881122A (zh) 测试案例生成方法、装置、设备、存储介质和程序产品
CN117953321A (zh) 缺陷图像生成方法、装置、计算机设备及存储介质
CN116156092A (zh) 背景替换方法、装置、计算机设备和存储介质
CN116932761A (zh) 文本数据标注模型的构建方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication