CN112464720B - 文档图像处理、模型训练方法、装置和计算机设备 - Google Patents

文档图像处理、模型训练方法、装置和计算机设备 Download PDF

Info

Publication number
CN112464720B
CN112464720B CN202011163918.XA CN202011163918A CN112464720B CN 112464720 B CN112464720 B CN 112464720B CN 202011163918 A CN202011163918 A CN 202011163918A CN 112464720 B CN112464720 B CN 112464720B
Authority
CN
China
Prior art keywords
document image
pattern
image
bill
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011163918.XA
Other languages
English (en)
Other versions
CN112464720A (zh
Inventor
刘洋
马正旺
黄宇
万磊
李�昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jinxin Software Co Ltd
Original Assignee
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jinxin Software Co Ltd filed Critical Zhongdian Jinxin Software Co Ltd
Priority to CN202011163918.XA priority Critical patent/CN112464720B/zh
Publication of CN112464720A publication Critical patent/CN112464720A/zh
Application granted granted Critical
Publication of CN112464720B publication Critical patent/CN112464720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种文档图像处理方法、装置、计算机设备和存储介质。所述方法包括:基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案;获取原始文档图像,并将所述背面渗透图案添加至所述原始文档图像中,得到处理后文档图像;所述处理后文档图像用于对待训练的文档图像识别模型进行训练。采用本方法能够提高在小样本低成本场景下训练得到的票据识别模型的识别准确度。

Description

文档图像处理、模型训练方法、装置和计算机设备
技术领域
本申请涉及图像处理技术领域,特别是涉及一种文档图像处理、模型训练方法、装置、计算机设备和存储介质。
背景技术
票据识别是金融行业非常迫切的需求。传统上的票据图像文字检测仅仅只是考虑了票据图像背景和噪点的情况,但未考虑某些票据(例如海运单据,快递单等)背面会印刷有大量条款文字且单据纸张较薄,使得印刷在票据背面的文字成为影响识别票据正面文字准确率的噪音。
由于票据样本图像的获取成本较高,在小样本低成本场景下训练得到的票据识别模型往往是基于有限的票据样本图像训练得到的,这使得票据识别模型无法对背面印刷有大量条款文字的票据对应的图像进行准确识别。
因此,在小样本低成本场景下训练得到的票据识别模型的识别准确度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高在小样本低成本场景下训练得到的票据识别模型的识别准确度的文档图像处理、模型训练方法、装置、计算机设备和存储介质。
本申请实施例提供一种文档图像处理方法,包括:
基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案;
获取原始文档图像,并将所述背面渗透图案添加至所述原始文档图像中,得到处理后文档图像;所述处理后文档图像用于对待训练的文档图像识别模型进行训练。
在其中一个实施例中,所述基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案,包括:
获取预建立的镜像文字数据集;所述镜像文字数据集包括多个候选镜像文字;所述候选镜像文字为预先对纸张背面文字进行镜像处理后得到的;
在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字;
根据所述目标镜像文字,生成所述背面渗透图案。
在其中一个实施例中,所述候选镜像文字具有对应的记录行标识;所述在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字,包括:
基于所述镜像文字数据集的记录行数量,生成随机数;
在多个所述记录行标识中,确定与所述随机数对应的目标记录行标识;
将所述目标记录行标识作为索引在所述镜像文字数据集中查询到所述目标镜像文字。
在其中一个实施例中,在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字的步骤之后,还包括:
获取多个候选背透图案颜色;所述候选背透图案颜色对应的颜色浓度均小于原始文档文字的文字颜色对应的颜色浓度;所述原始文档文字为所述原始文档图像中的文档文字;
在所述多个候选背透图案颜色中,随机抽取一个所述候选背透图案颜色作为所述目标镜像文字的文字颜色。
在其中一个实施例中,所述根据所述目标镜像文字,生成所述背面渗透图案,包括:
基于所述目标镜像文字,生成原始背面渗透图案;
对所述原始背面渗透图案进行增噪处理,生成增噪后的原始背面渗透图案,作为所述背面渗透图案;其中,所述增噪后的原始背面渗透图案中的噪点对应的颜色与所述原始文档图像中的纸张颜色相一致。
在其中一个实施例中,所述获取原始文档图像,并将所述背面渗透图案添加至所述原始文档图像中,得到处理后文档图像,包括:
获取空白文档图像;所述空白文档图像为所述原始文档图像中除去文字内容的图像;
将所述背面渗透图案添加至所述空白文档图像中,得到图案添加后图像;
将所述文字内容添加至所述图案添加后图像,得到所述处理后文档图像。
在其中一个实施例中,所述将所述背面渗透图案添加至所述空白文档图像中,得到图案添加后图像,包括:
将所述空白文档图像中任意一个图像坐标点作为目标坐标点;
将所述背面渗透图案添加至所述空白文档图像中,以使所述背面渗透图案的基准坐标点与所述目标坐标点相重合,得到所述图案添加后图像。
本申请实施例提供一种模型训练方法,包括:
获取处理后文档图像;所述处理后文档图像为根据如上述的文档图像处理方法得到的;
将所述处理后文档图像作为训练样本,对预训练的文档图像识别模型进行训练,得到训练后的文档图像识别模型;所述训练后的文档图像识别模型用于对输入的文档图像进行文字识别。
本申请实施例提供一种文档图像处理装置,所述装置包括:
生成模块,用于基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案;
处理模块,用于获取原始文档图像,并将所述背面渗透图案添加至所述原始文档图像中,得到处理后文档图像;所述处理后文档图像用于对待训练的文档图像识别模型进行训练。
本申请实施例提供一种模型训练装置,所述装置包括:
获取模块,用于获取处理后文档图像;所述处理后文档图像为根据如上述的文档图像处理方法得到的;
训练模块,用于将所述处理后文档图像作为训练样本,对预训练的文档图像识别模型进行训练,得到训练后的文档图像识别模型;所述训练后的文档图像识别模型用于对输入的文档图像进行文字识别。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述实施例中的文档图像处理方法、装置、计算机设备和存储介质,通过基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案,并获取原始文档图像,并将背面渗透图案添加至原始文档图像中,使得处理后文档图像可以模拟出背面印刷有大量条款文字的票据对应的图像,在无需采集大量票据样本图像的前提下,亦可基于该处理后文档图像对文档图像识别模型进行训练,使得得到的训练后的文档图像识别模型可以对背面印刷有大量条款文字的票据对应的图像进行准确识别,提高了在小样本低成本场景下训练得到的票据识别模型的识别准确度。
附图说明
图1为一个实施例中一种文档图像处理方法的应用环境图;
图2为一个实施例中一种文档图像处理方法的流程示意图;
图3为另一个实施例中一种文档图像处理方法的流程示意图;
图4为一个实施例中一种模型训练方法的流程示意图;
图5为一个实施例中一种文档图像处理装置的结构框图;
图6为一个实施例中一种模型训练装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文档图像处理方法,可以应用于如图1所示的应用环境中。其中,计算机设备110首先基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案;最后,计算机设备110获取原始文档图像,并将所述背面渗透图案添加至所述原始文档图像中,得到处理后文档图像;所述处理后文档图像用于对待训练的文档图像识别模型进行训练。实际应用中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一个实施例中,如图2所示,提供了一种文档图像处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S210,基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案。
其中,背面渗透图案为通过模拟纸张背面的文档内容透过纸张正面上形成的图案得到的。
其中,文档图像可以是指包括用文档内容的图像。实际应用中,文档图像可以是指票据图像。
其中,票据图像可以是指发票、消费凭证、支票等各种金融票据对应的图像。
具体实现中,当用户需要在文档图像上添加背面渗透图案时,用户可以将相应的文档图像处理请求输入至计算机设备,进而供计算机设备接收。如此,计算机设备可以响应于接收到的文档图像处理请求,基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案。具体来说,计算机设备可以在镜像文字语料库中随机抽取其中的目标镜像文字;然后,再对目标镜像文字进行一系列的增噪、调色等仿真化处理,从而实现模拟纸张背面的文档内容因渗透而在纸张正面上形成的图案,进而生成背面渗透图案。
步骤S220,获取原始文档图像,并将背面渗透图案添加至原始文档图像中,得到处理后文档图像。
其中,处理后文档图像用于对待训练的文档图像识别模型进行训练。
其中,训练后的文档图像识别模型用于对输入的文档图像进行文字识别。
具体实现中,计算机设备在生成背面渗透图案后,计算机设备可以获取原始文档图像,并将背面渗透图案添加至原始文档图像中,得到处理后文档图像。具体来说,计算机设备可以将背面渗透图案添加至原始文档图像中的任意一个位置,进而使处理后文档图像可以为模拟出背面印刷有大量条款文字的票据对应的图像。从而可以在后续采用处理后文档图像对待训练的文档图像识别模型进行训练,训练后的文档图像识别模型用于对输入的文档图像进行文字识别。
具体来说,计算机设备可以将处理后文档图像按照预设数量比例加入到待训练的文档图像识别模型的文档图像训练数据中。其中,该数量比例是可以基于本领域技术人员的经验值。实际应用中,该数量比例可以是30%。其中,待训练的文档图像识别模型可以基于efficient net网络模型(一种神经网络)搭建。
需要说明的是,由于用于训练的文档图像是不同类型的文档确定的,因此,文档图像训练数据的文档样本图像的大小格式不需要一样,实际应用中,可以使用双三次插值对各个文档样本图像的尺寸重新调整到统一大小。
上述文档图像处理方法中,通过基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案,并获取原始文档图像,并将背面渗透图案添加至原始文档图像中,使得处理后文档图像可以模拟出背面印刷有大量条款文字的票据对应的图像,在无需采集大量票据样本图像的前提下,亦可基于该处理后文档图像对文档图像识别模型进行训练,使得得到的训练后的文档图像识别模型可以对背面印刷有大量条款文字的票据对应的图像进行准确识别,提高了在小样本低成本场景下训练得到的票据识别模型的识别准确度。
在另一个实施例中,基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案,包括:获取预建立的镜像文字数据集;镜像文字数据集包括多个候选镜像文字;候选镜像文字为预先对纸张背面文字进行镜像处理后得到的;在多个候选镜像文字中,随机抽取一个候选镜像文字作为目标镜像文字;根据目标镜像文字,生成背面渗透图案。
其中,镜像文字数据集包括多个候选镜像文字。
其中,候选镜像文字为预先对纸张背面文字进行镜像处理后得到的。
具体来说,纸张背面文字可以来自于预先采集的多张不同类型单据的背面条款对应的文字。
具体实现中,当背面渗透图案为背面渗透图案时,计算机设备响应于文档图像处理请求后,获取预建立的包括有多个候选镜像文字的镜像文字数据集;然后,计算机设备在多个候选镜像文字中,随机抽取其中一个候选镜像文字作为目标镜像文字;最后,计算机设备根据目标镜像文字,生成背面渗透图案。具体来说,计算机设备还可以进一步对目标镜像文字进行增噪、调色等处理,进而生成仿真程度高的背面渗透图案。
本实施例的技术方案,通过获取预建立的包括有多个候选镜像文字的镜像文字数据集并在多个候选镜像文字中,随机抽取一个候选镜像文字作为目标镜像文字,进而实现生成具有较高随机程度和仿真程度的背面渗透图案,从而使得处理后文档图像可以更为准确地模拟出背面印刷有大量条款文字的票据对应的图像。
在另一个实施例中,候选镜像文字具有对应的记录行标识,在多个候选镜像文字中,随机抽取一个候选镜像文字作为目标镜像文字,包括:基于所述镜像文字数据集的记录行数量,生成随机数;在多个记录行标识中,确定与随机数对应的目标记录行标识;将目标记录行标识作为索引在镜像文字数据集中查询到目标镜像文字。
其中,候选镜像文字具有对应的记录行标识。
其中,记录行标识为候选镜像文字在镜像文字数据集中所处的记录行对应的标识。
具体实现中,计算机设备在多个候选镜像文字中,随机抽取一个候选镜像文字作为目标镜像文字的过程中,具体包括:计算机设备可以基于所述镜像文字数据集的记录行数量,生成随机数。然后,计算机设备在多个记录行标识中,确定与随机数对应的目标记录行标识;最后,计算机设备再将目标记录行标识作为索引在镜像文字数据集中查询到目标镜像文字。
例如,已知镜像文字数据集具有10行记录行,则计算机设备可以在0-9这一随机数生成范围中,生成随机数,例如随机数8。然后,将该随机数8作为行索引,即在镜像文字数据集中查询记录行标识为8的候选镜像文字作为目标镜像文字。
本实施例的技术方案,通过在预设的随机数生成范围中,生成随机数;并在多个记录行标识中,确定与随机数对应的目标记录行标识;将目标记录行标识作为索引在镜像文字数据集中查询到目标镜像文字,从而实现在多个候选镜像文字中,快速地随机抽取一个候选镜像文字作为目标镜像文字。
在另一个实施例中,在多个候选镜像文字中,随机抽取一个候选镜像文字作为目标镜像文字的步骤之后,还包括:获取多个候选背透图案颜色;候选背透图案颜色对应的颜色浓度均小于原始文档文字的文字颜色对应的颜色浓度;原始文档文字为原始文档图像中的文档文字;在多个候选背透图案颜色中,随机抽取一个所述候选背透图案颜色作为所述目标镜像文字的文字颜色。
具体实现中,计算机设备可以获取预建立的背透图案颜色集。
其中,背透图案颜色集包括多个候选背透图案颜色。
其中,候选背透图案颜色对应的颜色浓度均小于原始文档文字的文字颜色对应的颜色浓度。
其中,原始文档文字为原始文档图像中的文档文字。
实际应用中,背透图案颜色集也可以命名为浅色候选集。具体来说,浅色候选集的每一种颜色都是颜色范围最大值和最小值阈值。其中,颜色范围是在颜色库中随机,颜色库则来自对上百种常见背透单据中背透文字颜色的手工采集。颜色范围是一个颜色候选集库,颜色值为RGB值。
然后,计算机设备可以在多个候选背透图案颜色中,随机抽取一个候选背透图案颜色作为目标背透图案颜色;将目标镜像文字的文字颜色设置为目标背透图案颜色。
本实施例的技术方案,通过获取预建立的背透图案颜色集;原始文档文字为原始文档图像中的文档文字;在多个候选背透图案颜色中,随机抽取一个候选背透图案颜色作为目标背透图案颜色;将目标镜像文字的文字颜色设置为目标背透图案颜色,进而生成具有较高仿真程度的背面渗透图案,从而使得处理后文档图像可以更为准确地模拟出背面印刷有大量条款文字的票据对应的图像。
在另一个实施例中,根据目标镜像文字,生成背面渗透图案,包括:基于目标镜像文字,生成原始背面渗透图案;对原始背面渗透图案进行增噪处理,生成增噪后的原始背面渗透图案,作为背面渗透图案。
其中,增噪后的原始背面渗透图案中的噪点对应的颜色与原始文档图像中的纸张颜色相一致。
具体实现中,计算机设备在根据目标镜像文字,生成背面渗透图案的过程中,具体包括:计算机设备可以基于目标镜像文字,生成原始背面渗透图案;对原始背面渗透图案进行增噪处理,生成增噪后的原始背面渗透图案,作为背面渗透图案。
换句话说,计算机设备可以在得到原始背面渗透图案后,将颜色与原始文档图像中的纸张颜色相一致的噪点随机添加至原始背面渗透图案中,进而生成增噪后的原始背面渗透图案,作为背面渗透图案。
本实施例的技术方案,通过在基于目标镜像文字,生成原始背面渗透图案之后,为该原始背面渗透图案添加颜色与原始文档图像中的纸张颜色相一致的噪点,从而可以模拟出因纸张薄厚不一而背面文字局部没透过的效果,使得处理后文档图像可以更为准确地模拟出背面印刷有大量条款文字的票据对应的图像。
在另一个实施例中,获取原始文档图像,并将背面渗透图案添加至原始文档图像中,得到处理后文档图像,包括:获取空白文档图像;将背面渗透图案添加至空白文档图像中,得到图案添加后图像;将文字内容添加至图案添加后图像,得到处理后文档图像。
其中,空白文档图像为不包含原始文档图像中的文字内容的图像。换句话说,空白文档图像可以是指不包括正常文字的文档图像。
其中,正常文字可以是指原始文档图像中被正常打印在纸张正面的文字。
具体实现中,计算机设备在获取原始文档图像,并将背面渗透图案添加至原始文档图像中,得到处理后文档图像的过程中,具体包括:计算机设备可以获取空白文档图像。然后,计算机设备先将背面渗透图案添加至空白文档图像中,得到图案添加后图像;最后,计算机设备在将文字内容(即正常文字)添加至图案添加后图像,进而得到处理后文档图像。
本实施例的技术方案,通过先添加背面渗透图案后再添加正常文字至图案添加后图像中进而实现将正常文字叠加在背面渗透图案如背面渗透图案上,使处理后文档图像可以更加准确地模拟出背面印刷有大量条款文字的票据对应的图像。
在另一个实施例中,将背面渗透图案添加至空白文档图像中,得到图案添加后图像,包括:将空白文档图像中任意一个图像坐标点作为目标坐标点;将背面渗透图案添加至空白文档图像中,以使背面渗透图案的基准坐标点与目标坐标点相重合,得到图案添加后图像。
具体实现中,计算机设备在将背面渗透图案添加至空白文档图像中,得到图案添加后图像的过程中,具体包括:计算机设备可以将空白文档图像中任意一个图像坐标点作为目标坐标点。然后,计算机设备可以基于该目标坐标点,将背面渗透图案添加至空白文档图像中,以使背面渗透图案的基准坐标点与目标坐标点相重合,得到图案添加后图像。实际应用中,背面渗透图案的基准坐标点可以是背面渗透图案的中心点坐标。
本实施例的技术方案,通过将空白文档图像中任意一个图像坐标点作为目标坐标点;将背面渗透图案添加至空白文档图像中,实现将背面渗透图案随机地添加至空白文档图像中,进而使后续得到的处理后文档图像可以更加准确地模拟出背面印刷有大量条款文字的票据对应的图像。
在另一个实施例中,如图3所示,提供了一种文档图像处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:步骤S302,获取预建立的镜像文字数据集;所述镜像文字数据集包括多个候选镜像文字;所述候选镜像文字为预先对纸张背面文字进行镜像处理后得到的。步骤S304,在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字。步骤S306,获取多个候选背透图案颜色;所述候选背透图案颜色对应的颜色浓度均小于原始文档文字的文字颜色对应的颜色浓度;所述原始文档文字为所述原始文档图像中的文档文字。步骤S308,在所述多个候选背透图案颜色中,随机抽取一个所述候选背透图案颜色作为所述目标镜像文字的文字颜色。步骤S310,基于所述目标镜像文字,生成原始背面渗透图案。步骤S312,对所述原始背面渗透图案进行增噪处理,生成增噪后的原始背面渗透图案,作为所述背面渗透图案;其中,所述增噪后的原始背面渗透图案中的噪点对应的颜色与所述原始文档图像中的纸张颜色相一致。步骤S314,获取空白文档图像;所述空白文档图像为不包含原始文档图像中的文字内容的图像。步骤S316,将所述背面渗透图案添加至所述空白文档图像中,得到图案添加后图像。步骤S318,将所述文字内容添加至所述图案添加后图像,得到处理后文档图像;所述处理后文档图像用于对待训练的文档图像识别模型进行训练。需要说明的是,上述步骤的具体限定可以参见上文对一种文档图像处理方法的具体限定。
在一个实施例中,如图4所示,提供了一种模型训练方法,以该方法应用于图1中的计算机设备110为例进行说明,包括以下步骤:
步骤S410,获取处理后文档图像。
其中,所述处理后文档图像为根据上述的文档图像处理方法得到的。
步骤S420,将处理后文档图像作为训练样本,对预训练的文档图像识别模型进行训练,得到训练后的文档图像识别模型;训练后的文档图像识别模型用于对输入的文档图像进行文字识别。
需要说明的是,上述步骤的具体限定可以参见上文对一种文档图像处理方法的具体限定。
应该理解的是,虽然图2、图3和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3和图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种文档图像处理装置,包括:
生成模块510,用于基于模拟纸张背面的文档内容透过纸张正面形成的图案,生成背面渗透图案;
处理模块520,用于获取原始文档图像,并将所述背面渗透图案添加至所述原始文档图像中,得到处理后文档图像;所述处理后文档图像用于对待训练的文档图像识别模型进行训练。
在其中一个实施例中,所述生成模块510,具体用于获取预建立的镜像文字数据集;所述镜像文字数据集包括多个候选镜像文字;所述候选镜像文字为预先对纸张背面文字进行镜像处理后得到的;在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字;根据所述目标镜像文字,生成所述背面渗透图案。
在其中一个实施例中,所述候选镜像文字具有对应的记录行标识;所述生成模块510,具体用于基于所述镜像文字数据集的记录行数量,生成随机数;在多个所述记录行标识中,确定与所述随机数对应的目标记录行标识;将所述目标记录行标识作为索引在所述镜像文字数据集中查询到所述目标镜像文字。
在其中一个实施例中,所述生成模块510,具体用于获取多个候选背透图案颜色;所述候选背透图案颜色对应的颜色浓度均小于原始文档文字的文字颜色对应的颜色浓度;所述原始文档文字为所述原始文档图像中的文档文字;在所述多个候选背透图案颜色中,随机抽取一个所述候选背透图案颜色作为所述目标镜像文字的文字颜色。
在其中一个实施例中,所述生成模块510,具体用于基于所述目标镜像文字,生成原始背面渗透图案;对所述原始背面渗透图案进行增噪处理,生成增噪后的原始背面渗透图案,作为所述背面渗透图案;其中,所述增噪后的原始背面渗透图案中的噪点对应的颜色与所述原始文档图像中的纸张颜色相一致。
在其中一个实施例中,所述处理模块520,具体用于获取空白文档图像;所述空白文档图像为所述原始文档图像中除去文字内容的图像;将所述背面渗透图案添加至所述空白文档图像中,得到图案添加后图像;将所述文字内容添加至所述图案添加后图像,得到所述处理后文档图像。
在其中一个实施例中,所述生成模块510,具体用于将所述空白文档图像中任意一个图像坐标点作为目标坐标点;将所述背面渗透图案添加至所述空白文档图像中,以使所述背面渗透图案的基准坐标点与所述目标坐标点相重合,得到所述图案添加后图像。
在一个实施例中,如图6所示,提供了一种模型训练装置,包括
获取模块610,用于获取处理后文档图像;所述处理后文档图像为根据上述的文档图像处理方法得到的;
训练模块620,用于将所述处理后文档图像作为训练样本,对预训练的文档图像识别模型进行训练,得到训练后的文档图像识别模型;所述训练后的文档图像识别模型用于对输入的文档图像进行文字识别。
关于上述文档图像处理装置,以及,模型训练装置的具体限定可以参见上文中对于文档图像处理方法,以及,模型训练方法的限定,在此不再赘述。上述文档图像处理装置,以及,模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文档图像处理方法,以及,一种模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种文档图像处理方法,以及,一种模型训练方法的步骤。此处一种文档图像处理方法,以及,一种模型训练方法的步骤可以是上述各个实施例的一种文档图像处理方法,以及,一种模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种文档图像处理方法,以及,一种模型训练方法的步骤。此处一种文档图像处理方法,以及,一种模型训练方法的步骤可以是上述各个实施例的一种文档图像处理方法,以及,一种模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种票据文档图像处理方法,其特征在于,包括:
基于模拟票据纸张背面的文档内容透过票据纸张正面形成的图案,生成背面渗透图案;所述背面渗透图案中的噪点颜色与原始票据文档图像中的纸张颜色一致;
获取原始票据文档图像,并将所述背面渗透图案添加至所述原始票据文档图像中,得到处理后票据文档图像;所述处理后票据文档图像用于对待训练的票据文档图像识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述基于模拟票据纸张背面的文档内容透过票据纸张正面形成的图案,生成背面渗透图案,包括:
获取预建立的镜像文字数据集;所述镜像文字数据集包括多个候选镜像文字;所述候选镜像文字为预先对票据纸张背面文字进行镜像处理后得到的;
在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字;
根据所述目标镜像文字,生成所述背面渗透图案。
3.根据权利要求2所述的方法,其特征在于,所述候选镜像文字具有对应的记录行标识;所述在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字,包括:
基于所述镜像文字数据集的记录行数量,生成随机数;
在多个所述记录行标识中,确定与所述随机数对应的目标记录行标识;
将所述目标记录行标识作为索引在所述镜像文字数据集中查询到所述目标镜像文字。
4.根据权利要求2所述的方法,其特征在于,在所述多个候选镜像文字中,随机抽取一个所述候选镜像文字作为目标镜像文字的步骤之后,还包括:
获取多个候选背透图案颜色;所述候选背透图案颜色对应的颜色浓度均小于原始票据文档文字的文字颜色对应的颜色浓度;所述原始票据文档文字为所述原始票据文档图像中的文档文字;
在所述多个候选背透图案颜色中,随机抽取一个所述候选背透图案颜色作为所述目标镜像文字的文字颜色。
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标镜像文字,生成所述背面渗透图案,包括:
基于所述目标镜像文字,生成原始背面渗透图案;
对所述原始背面渗透图案进行增噪处理,生成增噪后的原始背面渗透图案,作为所述背面渗透图案;其中,所述增噪后的原始背面渗透图案中的噪点对应的颜色与所述原始票据文档图像中的纸张颜色相一致。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取原始票据文档图像,并将所述背面渗透图案添加至所述原始票据文档图像中,得到处理后票据文档图像,包括:
获取空白票据文档图像;所述空白票据文档图像为所述原始票据文档图像中除去文字内容的图像;
将所述背面渗透图案添加至所述空白票据文档图像中,得到图案添加后图像;
将所述文字内容添加至所述图案添加后图像,得到所述处理后票据文档图像。
7.根据权利要求6所述的方法,其特征在于,所述将所述背面渗透图案添加至所述空白票据文档图像中,得到图案添加后图像,包括:
将所述空白票据文档图像中任意一个图像坐标点作为目标坐标点;
将所述背面渗透图案添加至所述空白票据文档图像中,以使所述背面渗透图案的基准坐标点与所述目标坐标点相重合,得到所述图案添加后图像。
8.一种模型训练方法,其特征在于,包括:
获取处理后票据文档图像;所述处理后票据文档图像为根据如权利要求1至7中任一项所述的票据文档图像处理方法得到的;
将所述处理后票据文档图像作为训练样本,对预训练的票据文档图像识别模型进行训练,得到训练后的票据文档图像识别模型;所述训练后的票据文档图像识别模型用于对输入的票据文档图像进行文字识别。
9.一种票据文档图像处理装置,其特征在于,所述装置包括:
生成模块,用于基于模拟票据纸张背面的文档内容透过票据纸张正面形成的图案,生成背面渗透图案;所述背面渗透图案中的噪点颜色与原始票据文档图像中的纸张颜色一致;
处理模块,用于获取原始票据文档图像,并将所述背面渗透图案添加至所述原始票据文档图像中,得到处理后票据文档图像;所述处理后票据文档图像用于对待训练的票据文档图像识别模型进行训练。
10.一种模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取处理后票据文档图像;所述处理后票据文档图像为根据如权利要求1至7中任一项所述的票据文档图像处理方法得到的;
训练模块,用于将所述处理后票据文档图像作为训练样本,对预训练的票据文档图像识别模型进行训练,得到训练后的票据文档图像识别模型;所述训练后的票据文档图像识别模型用于对输入的票据文档图像进行文字识别。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202011163918.XA 2020-10-27 2020-10-27 文档图像处理、模型训练方法、装置和计算机设备 Active CN112464720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011163918.XA CN112464720B (zh) 2020-10-27 2020-10-27 文档图像处理、模型训练方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011163918.XA CN112464720B (zh) 2020-10-27 2020-10-27 文档图像处理、模型训练方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112464720A CN112464720A (zh) 2021-03-09
CN112464720B true CN112464720B (zh) 2021-11-23

Family

ID=74835124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011163918.XA Active CN112464720B (zh) 2020-10-27 2020-10-27 文档图像处理、模型训练方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112464720B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151882A (zh) * 2005-03-24 2008-03-26 柯法克斯影像产品公司 处理扫描数据的系统和方法
US7428331B2 (en) * 2004-11-30 2008-09-23 Seiko Epson Corporation Page background estimation using color, texture and edge features
CN105719243A (zh) * 2014-12-04 2016-06-29 富士通株式会社 图像处理装置和方法
CN105741272A (zh) * 2016-01-25 2016-07-06 上海中信信息发展股份有限公司 去除文档图像背面渗透字迹的方法
CN110119704A (zh) * 2019-05-08 2019-08-13 武汉大学 一种基于深度残差网络的文字透底现象去除方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428331B2 (en) * 2004-11-30 2008-09-23 Seiko Epson Corporation Page background estimation using color, texture and edge features
CN101151882A (zh) * 2005-03-24 2008-03-26 柯法克斯影像产品公司 处理扫描数据的系统和方法
CN105719243A (zh) * 2014-12-04 2016-06-29 富士通株式会社 图像处理装置和方法
CN105741272A (zh) * 2016-01-25 2016-07-06 上海中信信息发展股份有限公司 去除文档图像背面渗透字迹的方法
CN110119704A (zh) * 2019-05-08 2019-08-13 武汉大学 一种基于深度残差网络的文字透底现象去除方法

Also Published As

Publication number Publication date
CN112464720A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
US11410407B2 (en) Method and device for generating collection of incorrectly-answered questions
CN107798321A (zh) 一种试卷分析方法和计算设备
CN109634961B (zh) 一种试卷样本生成方法、装置、电子设备和存储介质
CN110059689B (zh) 样本集构建方法、装置、计算机设备和存储介质
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN109409349B (zh) 信贷证件鉴别方法、装置、终端及计算机可读存储介质
CN112183296B (zh) 模拟票据图像生成、票据图像识别方法和装置
CN110060531A (zh) 一种使用智能数码笔的计算机在线考试系统和方法
CN107358148B (zh) 一种基于手写识别的防作弊网络调研的方法及装置
CN112528998B (zh) 证件图像处理方法、装置、电子设备及可读存储介质
CN104809451A (zh) 一种基于笔画曲率检测的笔迹鉴伪系统
CN112749606A (zh) 一种文本定位方法和装置
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN114550189A (zh) 票据识别方法、装置、设备、计算机存储介质和程序产品
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
CN113673528A (zh) 文本处理方法、装置、电子设备和可读存储介质
CN113449726A (zh) 文字比对及识别方法、装置
CN112464720B (zh) 文档图像处理、模型训练方法、装置和计算机设备
CN104299000A (zh) 基于局部片段分布特征的笔迹识别方法
CN113610090B (zh) 印章图像识别分类方法、装置、计算机设备和存储介质
CN110909733A (zh) 基于ocr图片识别的模版定位方法、装置和计算机设备
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN113449686A (zh) 一种身份证造假的识别方法、装置、设备和介质
CN114359918A (zh) 提货单信息提取方法、装置及计算机设备
CN113065010A (zh) 标牌图像管理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant