CN112446368A - 票据图像处理、模型训练方法、装置和计算机设备 - Google Patents

票据图像处理、模型训练方法、装置和计算机设备 Download PDF

Info

Publication number
CN112446368A
CN112446368A CN202011121596.2A CN202011121596A CN112446368A CN 112446368 A CN112446368 A CN 112446368A CN 202011121596 A CN202011121596 A CN 202011121596A CN 112446368 A CN112446368 A CN 112446368A
Authority
CN
China
Prior art keywords
line
bill image
bill
determining
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011121596.2A
Other languages
English (en)
Inventor
周进洋
马正旺
黄宇
万磊
李�昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jinxin Software Co Ltd
Original Assignee
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jinxin Software Co Ltd filed Critical Zhongdian Jinxin Software Co Ltd
Priority to CN202011121596.2A priority Critical patent/CN112446368A/zh
Publication of CN112446368A publication Critical patent/CN112446368A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种票据图像处理方法、装置、计算机设备和存储介质。所述方法包括:获取原始票据图像;识别出所述原始票据图像中的文字区域;基于所述文字区域的尺寸信息,确定线条几何属性;根据所述线条几何属性,生成待添加线条,并将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像。采用本方法能够提高票据识别模型的识别准确度。

Description

票据图像处理、模型训练方法、装置和计算机设备
技术领域
本申请涉及图像处理技术领域,特别是涉及一种票据图像处理、模型训练方法、装置、计算机设备和存储介质。
背景技术
票据识别是金融行业非常迫切的需求。目前在对票据识别模型进行训练时往往是基于单字符训练,并未考虑到票据打印位置偏移而使文字骑压在表格边线上的情况,导致现有的票据识别模型无法准确地对票据图像中的骑压在表格边线的文字进行识别。
因此,现有技术存在票据识别模型的识别准确度不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高票据识别模型的识别准确的票据图像处理、模型训练方法、装置、计算机设备和存储介质。
本发明实施例提供一种票据图像处理方法,包括:
获取原始票据图像;
识别出所述原始票据图像中的文字区域;
基于所述文字区域的尺寸信息,确定线条几何属性;
根据所述线条几何属性,生成待添加线条,并将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像。
在其中一个实施例中,所述基于所述文字区域的尺寸信息,确定线条几何属性,所述线条几何属性包括线条长度,包括:
基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度,以及,获取所述原始票据图像的票据图像宽度;
基于所述文字高度和所述票据图像宽度,确定线条长度取值范围;
在所述线条长度取值范围中取任意值,作为所述线条长度。
在其中一个实施例中,所述基于所述文字区域的尺寸信息,确定线条几何属性,所述线条几何属性包括线条宽度,包括:
基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度;
基于所述文字高度,确定线条宽度取值范围;
在所述线条宽度取值范围中取任意值,作为所述线条宽度。
在其中一个实施例中,所述基于所述文字区域的尺寸信息,确定线条几何属性,所述线条几何属性包括线条倾斜角度,包括:
基于所述文字区域的尺寸信息,确定所述文字区域对应的文字矩形框,并确定所述文字矩形框中对角线对应的倾斜角度;
基于所述对角线对应的倾斜角度,确定线条倾斜度取值范围;
在所述线条倾斜度取值范围中取任意值,作为所述线条倾斜角度。
在其中一个实施例中,所述根据所述线条几何属性,生成待添加线条,包括:
调用线条绘制程序接口;所述线条绘制程序接口用于基于所述线条几何属性,绘制目标线条;所述目标线条的几何属性与所述线条几何属性相匹配;
确定所述目标线条为所述待添加线条。
在其中一个实施例中,在所述根据所述线条几何属性,生成待添加线条的步骤之后,所述方法还包括:
在多个候选线条颜色中,将任意一个所述候选线条颜色确定为目标线条颜色;
将所述待添加线条的线条颜色设置为所述目标线条颜色。
在其中一个实施例中,所述根据所述线条几何属性,生成待添加线条的步骤之后,所述方法还包括:
在多个候选线条类型中,将任意一个所述候选线条类型确定为目标线条类型;
将所述待添加线条的线条类型设置为所述目标线条类型。
在其中一个实施例中,所述将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像,包括:
将所述文字区域中任意一个像素点确定为线条位置基准点;
基于所述线条位置基准点,将所述待添加线条图像添加至所述原始票据图像中,以使所述待添加线条的中心点与所述线条位置基准点重合。
本发明实施例提供一种模型训练方法,包括:
获取处理后票据图像;所述处理后票据图像为根据如上述的票据图像处理方法得到的;
将所述处理后票据图像作为训练样本,对预训练的票据识别模型进行训练,得到训练后的票据识别模型;所述训练后的票据识别模型用于对输入的票据图像进行文字识别。
本发明实施例提供一种票据图像处理装置,所述装置包括:
第一获取模块,用于获取原始票据图像;
识别模块,用于识别出所述原始票据图像中的文字区域;
确定模块,用于基于所述文字区域的尺寸信息,确定线条几何属性;
添加模块,用于根据所述线条几何属性,生成待添加线条,并将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像。
本发明实施例提供一种模型训练装置,包括:
第二获取模块,用于获取处理后票据图像;所述处理后票据图像为根据如上述的票据图像处理方法得到的;
训练模块,用于将所述处理后票据图像作为训练样本,对预训练的票据识别模型进行训练,得到训练后的票据识别模型;所述训练后的票据识别模型用于对输入的票据图像进行文字识别。
本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本发明实施例提供的图像处理方法、装置、计算机设备和存储介质,通过获取原始票据图像,并识别出原始票据图像中的文字区域;然后,基于文字区域的尺寸信息,确定线条几何属性;最后,根据线条几何属性,生成待添加线条,并将待添加线条添加至原始票据图像中,得到处理后票据图像;如此,由于待添加线条的几何属性是基于原始票据图像中文字区域的尺寸信息确定的,因而待添加线条可以适应性地叠加到原始票据图像的文字区域中,使得处理后票据图像可以真实地模拟出因票据打印位置偏移而使文字骑压在表格边线上的票据图像,进而使基于该处理后票据图像训练得到的票据识别模型可以准确地识别出因票据打印位置偏移而使文字骑压在表格边线上的票据图像中的文字信息,提高了票据识别模型的识别准确度。
附图说明
图1为一个实施例中一种票据图像处理方法和模型训练方法的应用环境图;
图2为一个实施例中一种票据图像处理方法的流程示意图;
图3为另一个实施例中一种票据图像方法的流程示意图;
图4为一个实施例中一种模型训练方法的流程示意图;
图5为一个实施例中一种票据图像处理装置的结构框图;
图6为一个实施例中一种模型训练装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本实施例提供的图像处理方法,可以应用于如图1所示的应用环境中。其中,计算机设备110首先获取原始票据图像;然后,计算机设备110识别出原始票据图像中的文字区域;再然后,计算机设备110基于文字区域的尺寸信息,生成待添加线条;待添加线条对应的外观属性为随机生成的;最后,计算机设备110将待添加线条图像添加至原始票据图像中,得到处理后票据图像;处理后票据图像用于对待训练的票据识别模型进行训练。实际应用中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,也可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种票据图像处理方法,以该方法应用于图1中的计算机设备110为例进行说明,包括以下步骤:
步骤210,获取原始票据图像。
其中,原始票据图像可以是指未经过图像处理的票据图像。
其中,票据图像可以是指发票、消费凭证、支票等各种金融票据对应的图像。
具体实现中,当用户需要对原始票据图像进行处理时,用户可以将原始票据图像上传至计算机设备,进而供计算机设备获取到原始票据图像。
步骤220,识别出原始票据图像中的文字区域。
其中,文字区域可以是指包含有文字的图像区域。
具体实现中,当计算机设备获取到原始票据图像后,计算机设备可以识别出原始票据图像中的文字区域。具体来说,计算机设备可以将原始票据图像输入至预训练的文字检测模型;通过该预训练的文字检测模型处理该原始票据图像后输出的文字识别框,确定出原始票据图像中的文字区域。
步骤230,基于所述文字区域的尺寸信息,确定线条几何属性。
其中,尺寸信息可以包括但不限于与该文字区域对应的文字识别框的高度和宽度、文字区域中的文字高度等。
其中,线条几何属性可以是指与线条的几何形状有关的属性。例如,线条几何属性可以包括线条长度、线条宽度、线条倾斜度等属性。
具体实现中,当计算机设备识别出原始票据图像中的文字区域后,计算机设备则可以基于文字区域的尺寸信息,确定出将用于叠在该文字区域上的线条对应的线条几何属性,如,线条长度、线条宽度、线条倾斜度等。
具体来说,计算机设备可以基于文字区域的尺寸信息,确定出线条几何属性选择范围,并在线条几何属性选择范围中随机选择出其中一个线条几何属性。例如,计算机设备则可以基于文字区域的尺寸信息,生成将用于叠在该文字区域上的线条对应的线条长度取值范围;然后,计算机设备再线条宽度取值范围中取任意值,作为将用于叠在该文字区域上的线条对应的线条长度。
步骤S240,根据所述线条几何属性,生成待添加线条,并将待添加线条添加至原始票据图像中,得到处理后票据图像。
具体实现中,计算机设备根据线条几何属性,生成待添加线条。其中,计算机设备可以调用线条绘制程序接口。其中,线条绘制程序接口用于基于所述线条几何属性,绘制目标线条;确定目标线条为待添加线条。具体来说,计算机设备可以将线条几何属性输入至线条绘制程序接口,通过该线条绘制程序接口绘制出几何属性与线条几何属性相匹配线条,作为待添加线条。
例如,线条绘制程序接口可以使用开源的计算机视觉opencv框架提供的接口。
其中,处理后票据图像用于对待训练的票据识别模型进行训练。
其中,训练后的票据识别模型用于对输入的票据图像进行文本检测。
具体实现中,当计算机设备生成待添加线条后,计算机设备则将该待添加线条添加至原始票据图像中,得到处理后票据图像。具体来说,计算机设备可以基于该文字区域的位置信息,将该待添加线条添加至原始票据图像中,以实现将待添加线条叠放在文字区域上,生成处理后票据图像。该处理后票据图像用于模拟出因票据打印位置偏移而使文字骑压在表格边线上的票据图像,进而可以将该处理后票据图像作为对待训练的票据识别模型进行训练的训练样本,得到训练后的票据识别模型。
具体来说,计算机设备可以将所述处理后票据图像按照预设数量比例加入到待训练的票据识别模型的单据图像训练数据中。其中,该数量比例是可以基于本领域技术人员的经验值。实际应用中,该数量比例可以是30%。其中,待训练的票据识别模型可以基于efficient net网络模型(一种神经网络)搭建。
需要说明的是,由于用于训练的单据图像是不同类型的单据确定的,因此,单据图像训练数据的单据样本图像的大小格式不需要一样,实际应用中,可以使用双三次插值对各个单据样本图像的尺寸重新调整到统一大小。
上述模拟票据图像生成方法中,通过获取原始票据图像,并识别出原始票据图像中的文字区域;然后,基于文字区域的尺寸信息,确定线条几何属性;最后,根据线条几何属性,生成待添加线条,并将待添加线条添加至原始票据图像中,得到处理后票据图像;如此,由于待添加线条的几何属性是基于原始票据图像中文字区域的尺寸信息确定的,因而待添加线条可以适应性地叠加到原始票据图像的文字区域中,使得处理后票据图像可以真实地模拟出因票据打印位置偏移而使文字骑压在表格边线上的票据图像,进而使基于该处理后票据图像训练得到的票据识别模型可以准确地识别出因票据打印位置偏移而使文字骑压在表格边线上的票据图像中的文字信息,提高了票据识别模型的识别准确度。
在另一个实施例中,基于文字区域的尺寸信息,生成待添加线条,包括:基于所述文字区域的尺寸信息,确定获取文字区域中的文字高度,以及,获取原始票据图像的票据图像宽度;基于文字高度和票据图像宽度,确定线条长度取值范围;在线条长度取值范围中取任意值,作为线条长度。
具体实现中,计算机设备在基于文字区域的尺寸信息,生成待添加线条的过程中,具体包括:计算机设备可以获取文字区域中的文字高度H,以及,原始票据图像的票据图像宽度W。然后,计算机设备则基于文字高度和票据图像宽度,确定线条长度取值范围。具体来说,计算机设备可以获取第一预设比例Q1(其中,第一预设比例Q1大于0且小于等于1),并将第一预设比例Q1与文字高度H的乘积作为该线条长度取值范围的最小值,将票据图像宽度W作为线条长度取值范围的最大值,即线条长度取值范围可以表示为(Q1*H,W)。
实际应用中,第一预设比例Q1可以等于1/5。换句话说,待添加线条的线段长度的最大值与票据图像宽度相等,待添加线条的线段长度的最小值可以与文字区域中的文字高度的五分之一相等。最后,计算机设备在线条长度取值范围中取任意值,作为线条长度,以得到线条几何属性。
本实施例的技术方案,通过基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度,以及,获取所述原始票据图像的票据图像宽度;并基于所述文字高度和所述票据图像宽度,确定线条长度取值范围;最后在所述线条长度取值范围中取任意值,作为用于生成待添加线条的线条几何属性,使得待添加线条的线条长度在覆盖到文字区域的同时又保持随机性,进而使得到的处理后票据图像可以随机地模拟出因票据打印位置偏移而使文字骑压在表格边线上的票据图像并保持着高仿真程度。
在另一个实施例中,基于文字区域的尺寸信息,生成待添加线条,包括:基于所述文字区域的尺寸信息,确定文字区域中的文字高度;基于文字高度,确定线条宽度取值范围;在线条宽度取值范围中取任意值,作为线条宽度。
具体实现中,计算机设备在基于文字区域的尺寸信息,生成待添加线条的过程中,具体包括:计算机设备可以获取文字区域中的文字高度H。然后,计算机设备则基于文字高度H,确定线条宽度取值范围。具体来说,计算机设备可以获取第二预设比例Q2和第三预设比例Q3(其中,Q2和Q3均大于0且小于等于1),并将第二预设比例Q2与文字高度H的乘积作为该线条宽度取值范围的最小值,将第三预设比例Q3与文字高度H的乘积作为该线条宽度取值范围的最大值,即线条宽度取值范围可以表示为(Q2*H,Q3*H)。
实际应用中,第二预设比例Q2可以等于1/10和第三预设比例可以等于1/6。换句话说,待添加线条的线段宽度的最大值可以与文字区域中的文字高度的六分之一相等,待添加线条的线段长度的最小值可以与文字区域中的文字高度的十分之一相等。最后,计算机设备在线条宽度取值范围中取任意值,作为线条宽度,以得到线条几何属性。
本实施例的技术方案,通过基于所述文字区域的尺寸信息,确定文字区域中的文字高度,并基于文字高度,确定线条宽度取值范围,最后,在线条宽度取值范围中取任意值,作为用于生成待添加线条的线条几何属性,使得待添加线条的线条宽度在很好地覆盖到文字区域的同时又保持随机性,进而使得到的处理后票据图像可以随机且高仿真地模拟出因票据打印位置偏移而使文字骑压在表格边线上的票据图像。
在另一个实施例中,基于文字区域的尺寸信息,生成待添加线条,包括:基于所述文字区域的尺寸信息,确定文字区域对应的文字矩形框,并确定文字矩形框中对角线对应的倾斜角度;基于对角线对应的倾斜角度,确定线条倾斜度取值范围;在线条倾斜度取值范围中取任意值,作为线条倾斜度。
具体实现中,计算机设备在基于文字区域的尺寸信息,生成待添加线条的过程中,具体包括:计算机设备可以获取文字区域对应的文字矩形框,并确定文字矩形框中对角线对应的倾斜角度;然后,计算机设备基于对角线对应的倾斜角度,确定线条倾斜度取值范围;最后,计算机设备在线条倾斜度取值范围中取任意值,作为线条倾斜度并生成待添加线条。
其中,线条倾斜度取值范围可以表示为:(-A,0)∪(0,A)。
其中,A为最大倾斜角,A可以表示为
Figure BDA0002732160120000091
其中,l等于文字矩形框的长度;h等于文字矩形框的高度。
本实施例的技术方案,通过基于所述文字区域的尺寸信息,确定文字区域对应的文字矩形框,并确定文字矩形框中对角线对应的倾斜角度;最后,基于对角线对应的倾斜角度,确定线条倾斜度取值范围,并在线条倾斜度取值范围中取任意值,使得待添加线条的线条倾斜程度可以更好地覆盖到文字区域的同时保持随机性,进而使得到的处理后票据图像可以尽可能地模拟出真实场景中因票据打印位置偏移而使文字骑压在表格边线上的票据图像。
在另一个实施例中,在根据线条几何属性,生成待添加线条的步骤之后,上述方法还包括:在多个候选线条颜色中,将任意一个候选线条颜色确定为目标线条颜色;将待添加线条的线条颜色设置为目标线条颜色。
具体实现中,计算机设备在基于文字区域的尺寸信息,生成待添加线条的过程中,具体包括:计算机设备可以在多个候选线条颜色中将任意一个候选线条颜色确定为目标线条颜色;生成线条颜色与目标线条颜色相同的待添加线条。
例如,当待添加线条的线条颜色为RGB颜色通道时,计算机设备可以随机生成待添加线条的线条颜色对应的颜色值(R,G,B)。例如,当计算机设备随机到待添加线条的线条颜色对应的颜色值为(0,0,255)时,则该待添加线条的线条颜色为红色。
本实施例的技术方案,通过在多个候选线条颜色中,将任意一个候选线条颜色确定为目标线条颜色;将待添加线条的线条颜色设置为目标线条颜色,使得到的处理后票据图像可以尽可能地模拟出在采用不同墨水颜色的打印场景下因票据打印位置偏移而使文字骑压在表格边线上的票据图像,进而使基于该处理后票据图像训练得到的票据识别模型可以准确地识别出因票据打印位置偏移而使文字骑压在表格边线上的票据图像中的文字信息。
在另一个实施例中,在根据线条几何属性,生成待添加线条的步骤之后,上述方法还包括:在多个候选线条类型中,将任意一个候选线条类型确定为目标线条类型;将待添加线条的线条类型设置为目标线条类型。
其中,线条类型可以包括但不限于虚线、点划线、双点划线和实线等。
具体实现中,计算机设备在基于文字区域的尺寸信息,生成待添加线条的过程中,具体包括:计算机设备可以在将多个候选线条类型中的任意一个候选线条类型确定为目标线条类型;生成线条类型与目标线条类型相同的待添加线条。
例如,已知线条类型可以包括但不限于虚线、点划线、双点划线和实线等。计算机设备在生成待添加线条过程中,可以将虚线、点划线、双点划线和实线等线条类型中,随机选择其中一种线条类型如点划线,并生成线条类型为点划线的待添加线条。
本实施例的技术方案,通过在多个候选线条类型中,将任意一个候选线条类型确定为目标线条类型;将待添加线条的线条类型设置为目标线条类型,使得到的处理后票据图像可以尽可能地模拟出在采用不同表格打印格式的真实场景下因票据打印位置偏移而使文字骑压在表格边线上的票据图像,进而使基于该处理后票据图像训练得到的票据识别模型可以准确地识别出因票据打印位置偏移而使文字骑压在表格边线上的票据图像中的文字信息。。
在另一个实施例中,将待添加线条图像添加至原始票据图像中,得到处理后票据图像,包括:将文字区域中任意一个像素点确定为线条位置基准点;基于线条位置基准点,将待添加线条图像添加至原始票据图像中,以使待添加线条的中心点与线条位置基准点重合。
具体实现中,计算机设备在将待添加线条图像添加至原始票据图像中,得到处理后票据图像的过程中,具体包括:计算机设备可以将文字区域中任意一个像素点确定为线条位置基准点。然后,计算机设备再将该线条位置基准点作为待添加线条的中心点,即计算机设备可以基于线条位置基准点将待添加线条图像添加至原始票据图像中,以使待添加线条的中心点与线条位置基准点重合。
本实施例的技术方案,通过将文字区域中任意一个像素点确定为线条位置基准点;并基于线条位置基准点,将待添加线条图像添加至原始票据图像中,以使待添加线条的中心点与线条位置基准点重合,从而可以实现将待添加线条随机地添加至原始票据图像中,使得处理后票据图像可以随机且高仿真地模拟出真实场景下因票据打印位置偏移而使文字骑压在表格边线上的票据图像。
在另一个实施例中,如图3所示,提供了一种票据图像处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:步骤S310,获取原始票据图像。步骤S320,识别出所述原始票据图像中的文字区域。步骤S330,获取所述文字区域中的文字高度,以及,所述原始票据图像的票据图像宽度。步骤S340,基于所述文字高度和所述票据图像宽度,确定线条长度取值范围。步骤S350,在所述线条长度取值范围中取任意值,作为线条长度。步骤S360,生成长度与所述线条长度相匹配的待添加线条。步骤S370,将所述文字区域中任意一个像素点确定为线条位置基准点。步骤S380,基于所述线条位置基准点,将所述待添加线条图像添加至所述原始票据图像中,以使所述待添加线条的中心点与所述线条位置基准点重合,得到处理后票据图像;所述处理后票据图像用于对待训练的票据识别模型进行训练。需要说明的是,上述步骤的具体限定可以参见上文对一种票据图像处理方法的具体限定。
在一个实施例中,如图4所示,提供了一种模型训练方法,以该方法应用于图1中的计算机设备110为例进行说明,包括以下步骤:
步骤S410,获取处理后票据图像。
其中,处理后票据图像为根据上述的票据图像处理方法得到的,在此不再赘述。
步骤S420,将处理后票据图像作为训练样本,对预训练的票据识别模型进行训练,得到训练后的票据识别模型;训练后的票据识别模型用于对输入的票据图像进行文字识别。
具体来说,计算机设备可以将所述处理后票据图像按照预设数量比例加入到待训练的票据识别模型的单据图像训练数据中。其中,该数量比例是可以基于本领域技术人员的经验值。实际应用中,该数量比例可以是30%。其中,待训练的票据识别模型可以基于efficient net网络模型(一种神经网络)搭建。
需要说明的是,由于用于训练的单据图像是不同类型的单据确定的,因此,单据图像训练数据的单据样本图像的大小格式不需要一样,实际应用中,可以使用双三次插值对各个单据样本图像的尺寸重新调整到统一大小。
上述模型训练方法中,通过获取原始票据图像,并识别出原始票据图像中的文字区域;然后,再基于文字区域的尺寸信息,生成待添加线条;待添加线条对应的外观属性为随机生成的;最后,将待添加线条添加至原始票据图像中,得到用于对待训练的票据识别模型进行训练的处理后票据图像;如此,得到的处理后票据图像可以模拟出因票据打印位置偏移而使文字骑压在表格边线上的票据图像,进而使基于该处理后票据图像训练得到的票据识别模型可以准确地识别出因票据打印位置偏移而使文字骑压在表格边线上的票据图像中的文字信息,提高了票据识别模型的识别准确度。
应该理解的是,虽然图2、图3和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3和图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种票据图像处理装置,包括:
第一获取模块510,用于获取原始票据图像;
识别模块520,用于识别出所述原始票据图像中的文字区域;
确定模块530,用于基于所述文字区域的尺寸信息,确定线条几何属性;
添加模块540,用于根据所述线条几何属性,生成待添加线条,并将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像。
在其中一个实施例中,所述确定模块530,具体用于
基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度,以及,获取所述原始票据图像的票据图像宽度;
基于所述文字高度和所述票据图像宽度,确定线条长度取值范围;
在所述线条长度取值范围中取任意值,作为所述线条长度。
在其中一个实施例中,所述确定模块530,具体用于
基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度;
基于所述文字高度,确定线条宽度取值范围;
在所述线条宽度取值范围中取任意值,作为所述线条宽度。
在其中一个实施例中,所述确定模块530,具体用于
基于所述文字区域的尺寸信息,确定所述文字区域对应的文字矩形框,并确定所述文字矩形框中对角线对应的倾斜角度;
基于所述对角线对应的倾斜角度,确定线条倾斜度取值范围;
在所述线条倾斜度取值范围中取任意值,作为所述线条倾斜角度。
在其中一个实施例中,所述添加模块540,具体用于调用线条绘制程序接口;所述线条绘制程序接口用于基于所述线条几何属性,绘制目标线条;所述目标线条的几何属性与所述线条几何属性相匹配;
确定所述目标线条为所述待添加线条。
在其中一个实施例中,所述票据图像处理装置,还包括颜色设置模块,用于在多个候选线条颜色中,将任意一个所述候选线条颜色确定为目标线条颜色;将所述待添加线条的线条颜色设置为所述目标线条颜色。
在其中一个实施例中,所述票据图像处理装置,还包括线型设置模块,用于在多个候选线条类型中,将任意一个所述候选线条类型确定为目标线条类型;将所述待添加线条的线条类型设置为所述目标线条类型。
在其中一个实施例中,所述添加模块540,具体用于将所述文字区域中任意一个像素点确定为线条位置基准点;基于所述线条位置基准点,将所述待添加线条图像添加至所述原始票据图像中,以使所述待添加线条的中心点与所述线条位置基准点重合。
在一个实施例中,如图6所示,提供了一种模型训练装置,包括
第二获取模块610,用于获取处理后票据图像;所述处理后票据图像为根据如上述的票据图像处理方法得到的。
训练模块620,用于将所述处理后票据图像作为训练样本,对预训练的票据识别模型进行训练,得到训练后的票据识别模型;所述训练后的票据识别模型用于对输入的票据图像进行文字识别。
关于上述票据图像处理装置,以及,模型训练装置的具体限定可以参见上文中对于票据图像处理方法,以及,模型训练方法的限定,在此不再赘述。上述票据图像处理装置,以及,模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储票据图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种票据图像处理方法,以及,一种模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种票据图像处理方法,以及,一种模型训练方法的步骤。此处一种票据图像处理方法,以及,一种模型训练方法的步骤可以是上述各个实施例的一种票据图像处理方法,以及,一种模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种票据图像处理方法,以及,一种模型训练方法的步骤。此处一种票据图像处理方法,以及,一种模型训练方法的步骤可以是上述各个实施例的一种票据图像处理方法,以及,一种模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种票据图像处理方法,其特征在于,包括:
获取原始票据图像;
识别出所述原始票据图像中的文字区域;
基于所述文字区域的尺寸信息,确定线条几何属性;
根据所述线条几何属性,生成待添加线条,并将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文字区域的尺寸信息,确定线条几何属性,所述线条几何属性包括线条长度,包括:
基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度,以及,获取所述原始票据图像的票据图像宽度;
基于所述文字高度和所述票据图像宽度,确定线条长度取值范围;
在所述线条长度取值范围中取任意值,作为所述线条长度。
3.根据权利要求1所述的方法,其特征在于,所述基于所述文字区域的尺寸信息,确定线条几何属性,所述线条几何属性包括线条宽度,包括:
基于所述文字区域的尺寸信息,确定所述文字区域中的文字高度;
基于所述文字高度,确定线条宽度取值范围;
在所述线条宽度取值范围中取任意值,作为所述线条宽度。
4.根据权利要求1所述的方法,其特征在于,所述基于所述文字区域的尺寸信息,确定线条几何属性,所述线条几何属性包括线条倾斜角度,包括:
基于所述文字区域的尺寸信息,确定所述文字区域对应的文字矩形框,并确定所述文字矩形框中对角线对应的倾斜角度;
基于所述对角线对应的倾斜角度,确定线条倾斜度取值范围;
在所述线条倾斜度取值范围中取任意值,作为所述线条倾斜角度。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述线条几何属性,生成待添加线条的步骤之后,所述方法还包括:
在多个候选线条颜色中,将任意一个所述候选线条颜色确定为目标线条颜色;
将所述待添加线条的线条颜色设置为所述目标线条颜色。
6.根据权利要求1所述的方法,其特征在于,所述根据所述线条几何属性,生成待添加线条的步骤之后,所述方法还包括:
在多个候选线条类型中,将任意一个所述候选线条类型确定为目标线条类型;
将所述待添加线条的线条类型设置为所述目标线条类型。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像,包括:
将所述文字区域中任意一个像素点确定为线条位置基准点;
基于所述线条位置基准点,将所述待添加线条图像添加至所述原始票据图像中,以使所述待添加线条的中心点与所述线条位置基准点重合。
8.一种模型训练方法,其特征在于,包括:
获取处理后票据图像;所述处理后票据图像为根据如权利要求1至7中任一项所述的票据图像处理方法得到的;
将所述处理后票据图像作为训练样本,对预训练的票据识别模型进行训练,得到训练后的票据识别模型;所述训练后的票据识别模型用于对输入的票据图像进行文字识别。
9.一种票据图像处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取原始票据图像;
识别模块,用于识别出所述原始票据图像中的文字区域;
确定模块,用于基于所述文字区域的尺寸信息,确定线条几何属性;
添加模块,用于根据所述线条几何属性,生成待添加线条,并将所述待添加线条添加至所述原始票据图像中,得到处理后票据图像。
10.一种模型训练装置,其特征在于,包括:
第二获取模块,用于获取处理后票据图像;所述处理后票据图像为根据如权利要求1至7中任一项所述的票据图像处理方法得到的;
训练模块,用于将所述处理后票据图像作为训练样本,对预训练的票据识别模型进行训练,得到训练后的票据识别模型;所述训练后的票据识别模型用于对输入的票据图像进行文字识别。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202011121596.2A 2020-10-20 2020-10-20 票据图像处理、模型训练方法、装置和计算机设备 Pending CN112446368A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011121596.2A CN112446368A (zh) 2020-10-20 2020-10-20 票据图像处理、模型训练方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121596.2A CN112446368A (zh) 2020-10-20 2020-10-20 票据图像处理、模型训练方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN112446368A true CN112446368A (zh) 2021-03-05

Family

ID=74735618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121596.2A Pending CN112446368A (zh) 2020-10-20 2020-10-20 票据图像处理、模型训练方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112446368A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923702A (zh) * 2010-08-25 2010-12-22 郝红卫 一种图片验证码的生成方法
CN104637077A (zh) * 2015-02-13 2015-05-20 浙江农林大学 基于字符绘制的图片验证码生成方法
CN104899571A (zh) * 2015-06-12 2015-09-09 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
CN111626279A (zh) * 2019-10-15 2020-09-04 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923702A (zh) * 2010-08-25 2010-12-22 郝红卫 一种图片验证码的生成方法
CN104637077A (zh) * 2015-02-13 2015-05-20 浙江农林大学 基于字符绘制的图片验证码生成方法
CN104899571A (zh) * 2015-06-12 2015-09-09 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
CN111626279A (zh) * 2019-10-15 2020-09-04 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法

Similar Documents

Publication Publication Date Title
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
US20190050641A1 (en) Methods and apparatus for capturing, processing, training, and detecting patterns using pattern recognition classifiers
CN110334585A (zh) 表格识别方法、装置、计算机设备和存储介质
CN110427972B (zh) 证件视频特征提取方法、装置、计算机设备和存储介质
CN109409349B (zh) 信贷证件鉴别方法、装置、终端及计算机可读存储介质
CN109255826B (zh) 中文训练图像生成方法、装置、计算机设备及存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN110390254B (zh) 基于人脸的性格分析方法、装置、计算机设备及存储介质
CN111898520A (zh) 证件真伪识别方法、装置、计算机可读介质及电子设备
CN111027545A (zh) 卡证图片标志检测方法、装置、计算机设备及存储介质
CN111160395A (zh) 图像识别方法、装置、电子设备和存储介质
CN108648189A (zh) 图像模糊检测方法、装置、计算设备及可读存储介质
CN111291741A (zh) 单据识别方法、装置、计算机设备和存储介质
CN113673528A (zh) 文本处理方法、装置、电子设备和可读存储介质
CN113434912B (zh) 一种材料合规性校验方法及装置
CN112446368A (zh) 票据图像处理、模型训练方法、装置和计算机设备
EP4047547A1 (en) Method and system for removing scene text from images
CN111127310B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN110941728B (zh) 一种电子文件的处理方法及装置
CN114329030A (zh) 一种信息处理方法、装置、计算机设备和存储介质
CN112464720B (zh) 文档图像处理、模型训练方法、装置和计算机设备
CN110751140A (zh) 字符批量识别方法、装置和计算机设备
CN116452702B (zh) 信息图表快速设计方法、装置、计算机设备和存储介质
CN116704513B (zh) 文本质量检测方法、装置、计算机设备和存储介质
US11928872B2 (en) Methods and apparatuses for recognizing text, recognition devices and storage media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305

RJ01 Rejection of invention patent application after publication