CN112418297A - 基于图像扩展的ocr模型训练方法、系统及装置 - Google Patents
基于图像扩展的ocr模型训练方法、系统及装置 Download PDFInfo
- Publication number
- CN112418297A CN112418297A CN202011302897.5A CN202011302897A CN112418297A CN 112418297 A CN112418297 A CN 112418297A CN 202011302897 A CN202011302897 A CN 202011302897A CN 112418297 A CN112418297 A CN 112418297A
- Authority
- CN
- China
- Prior art keywords
- field
- image
- parameters
- data
- image sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004088 simulation Methods 0.000 claims description 35
- 238000010276 construction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 9
- 238000012015 optical character recognition Methods 0.000 description 81
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000037303 wrinkles Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本发明属于图像处理技术领域,具体提供一种基于图像扩展的OCR模型训练方法、系统及装置。本发明旨在解决现有OCR模型定制化图像需求较大,图像的数据训练集的采样数量庞大的问题。为此目的,本发明通过根据图像样本的类型设定图像扩展所需的参数,再对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据,基于扩展数据构建对应的扩展图像样本,将扩展图像样本输入OCR模型进行模型训练,从而实现仅需极少数的采样图像即可训练好OCR识别模型进行字符识别。
Description
技术领域
本发明涉及计算机视觉当中的图像处理技术领域,尤其涉及一种基于图像扩展的OCR模型训练方法、系统及装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)作为计算机视觉中一个重要的应用领域,由于其有监督网络的特性,需要大量的训练数据支撑才能取得良好的模型及其识别效果。因此,在OCR领域中,包含各种场景的庞大数据训练集对于得到一个良好的OCR模型至关重要。
但是同一版式所包含的场景复杂多样,并且训练数据由于保密性等各种原因,无法获取足够大量训练数据,也即无法获得很多采样,甚至很多时候仅有几张训练数据供参考。由于定制化需求较大,图像的数据训练集的采样数量庞大,每类版式单独生成数据会导致产品开发周期大大延长,开发成本增加导致落地困难。因此,在OCR领域,迫切需求一种可以根据少量采样的真实数据便能够获得合适的OCR数据训练集的方法,来实现OCR模型的训练。
发明内容
为了克服上述缺陷,提出了本发明,以解决或至少部分地解决如何基于少量采样自动生成符合需求的大数量的OCR模型训练使用的数据训练集的技术问题,以快速获取大量的仿真数据样本并加快不同板式需求的开发效率。本发明提供了一种基于图像扩展的OCR模型训练方法、系统及装置。
第一方面,提供一种基于图像扩展的OCR模型训练方法,包括:
根据图像样本的类型设定图像扩展所需的参数;
对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据;
基于所述扩展数据构建对应的扩展图像样本;
将所述扩展图像样本输入所述OCR模型进行模型训练。
在上述方法的优选技术方案中,所述方法还包括:在构建所述扩展图像样本之后,将所述扩展图像样本和所述真实图像样本进行合并,以生成仿真图像训练集;
将所述扩展图像样本输入所述OCR模型进行模型训练,具体包括:
将所述仿真图像训练集中的每个图像样本输入所述OCR模型进行模型训练。
在上述方法的优选技术方案中,所述方法还包括:在构建所述扩展图像样本之后,将所述扩展图像样本和所述真实图像样本进行合并,以生成仿真图像训练集;
将所述扩展图像样本输入所述OCR模型进行模型训练,具体包括:
将所述仿真图像训练集中的每个图像样本输入所述OCR模型进行模型训练。
在上述方法的优选技术方案中,所述参数包括图像参数和字段参数,所述图像参数包括图像的亮度、对比度、颜色,
所述“背景增强扩展”包括:为模拟反光、亮光、暗光、黑白图像中的一种或多种而对所述真实图像的亮度、对比度、颜色中的至少一个进行调整;
并且/或者,
所述“新字段生成扩展”包括:根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展。
在上述方法的优选技术方案中,所述图像参数还包括噪声扰动变化范围,
所述“背景增强扩展”还包括:
为模拟运动模糊条件而对所述真实图像增加噪声;并且/或者,
为模拟背景区域较小条件而选取图像的一部分嵌入所需检测的区域;并且/或者,
为模拟文字干扰条件而选取非字段内容的干扰文字嵌入所需检测的区域。
在上述方法的优选技术方案中,所述噪声包括模糊处理、三维视角变化、褶皱度变化处理中的一种或多种。
在上述方法的优选技术方案中,所述字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围,
根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展,具体包括:
读取所述真实图像样本中的字段区域内的内容以识别字段内容并分析字段特征;
根据所述字段文字个数范围、字段起始位置范围、字段长度范围,调整所述真实图像样本中的字段区域内的字段内容和字段特征以生成新字段。
在上述方法的优选技术方案中,所述字段特征包括字段类型、文字大小、文字间距、字体类别、字体颜色中的一种或多种;
其中,所述字段类型为全数字类型、全字母类型、全文字类型或三者当中任意两种或三种的混合类型。
在上述方法的优选技术方案中,设定图像扩展所需的参数,具体包括:人工配置图像扩展所需的参数。
在上述方法的优选技术方案中,所述方法还包括:在输入所述OCR模型之前,将仿真图像训练集中的每个图像样本转换为tfrecord格式。
在上述方法的优选技术方案中,所述参数还包括背景增强数据的数量和新字段生成数据的数量。
第二方面,提供一种基于图像扩展的OCR模型训练系统,包括:
参数设定模块:用于根据图像样本的类型设定图像扩展所需的参数;
扩展数据生成模块:用于对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据;
扩展图像构建模块:基于所述扩展数据构建对应的扩展图像样本;
OCR模型训练模块:用于将所述扩展图像样本输入所述OCR模型进行模型训练。
在上述系统的优选技术方案中,所述系统还包括:训练集生成模块:用于在构建所述扩展图像样本之后,将所述扩展图像样本和所述真实图像样本进行合并,以生成仿真图像训练集;
OCR模型训练模块:用于将所述扩展图像样本输入所述OCR模型进行模型训练,具体包括:
用于将所述仿真图像训练集中的每个图像样本输入所述OCR模型进行模型训练。
在上述系统的优选技术方案中,所述参数包括图像参数和字段参数,所述图像参数包括图像的亮度、对比度、颜色,
扩展数据生成模块中,所述“背景增强扩展”包括:为模拟反光、亮光、暗光、黑白图像中的一种或多种而对所述真实图像的亮度、对比度、颜色中的至少一个进行调整;
并且/或者,
所述“新字段生成扩展”包括:根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展。
在上述系统的优选技术方案中,所述图像参数还包括噪声扰动变化范围,
扩展数据生成模块中,所述“背景增强扩展”还包括:
为模拟运动模糊条件而对所述真实图像增加噪声;并且/或者,
为模拟背景区域较小条件而选取图像的一部分嵌入所需检测的区域;并且/或者,
为模拟文字干扰条件而选取非字段内容的干扰文字嵌入所需检测的区域。
在上述系统的优选技术方案中,所述字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围,
扩展数据生成模块中,根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展,具体包括:
读取所述真实图像样本中的字段区域内的内容以识别字段内容并分析字段特征;
根据所述字段文字个数范围、字段起始位置范围、字段长度范围,调整所述真实图像样本中的字段区域内的字段内容和字段特征以生成新字段。
第三方面,提供一种计算机可读存储装置,所述存储介质中存储有多条程序代码,所述程序代码适用于由处理器加载并运行以执行前述任一项的基于图像扩展的OCR模型训练方法。
第四方面,提供一种控制装置,该控制装置包括处理器和存储器,所述存储器适用于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行前述任一项的基于图像扩展的OCR模型训练方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明的基于图像扩展的OCR模型训练技术方案,基于图像样本的类型设定图像扩展所需的参数,再对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据,然后基于扩展数据构建对应的扩展图像样本,最后将扩展图像样本输入OCR模型进行模型训练,从而实现仅需极少数的采样图像即可训练好OCR识别模型(即简称OCR模型)并利用所述OCR识别模型进行有效的字符识别。本发明的方案可有效地实现在采样图像数较少的情况下仍然能够完成训练OCR识别模型的目的,极大降低了OCR识别模型的训练难度,尤其适用于仅能提供极少数的采样图像的类似银行、保险类的保密系统严格的企业。
附图说明
下面参照附图来描述本发明的具体实施方式,附图中:
图1为本发明的基于图像扩展的OCR模型训练方法的一个实施例的主要流程图;
图2为本发明的基于图像扩展的OCR模型训练系统的一个实施例的主要模块示意图;
图3为本发明的基于图像扩展的OCR模型训练系统的另一个实施例的主要模块示意图;
图4为本发明的OCR模型仿真数据训练集的自动合成训练过程;
图5为合成的一个仿真数据的具体实施例。
具体实施方式
为了便于理解发明,下文将结合说明书附图和实施例对本发明作更全面、细致地描述,但本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
对于诸如银行类的企业而言,其首要考虑的是信息安全的问题,随着OCR模型技术的普及,越来越多的涉及信息安全的诸如身份证内容或者其它票据类内容的读取都可以不依赖人为进行操作了,但是,对于OCR模型的训练是需要一套OCR数据训练集作为支撑的,OCR数据训练集越多,训练出的模型也就越精准,但对于银行而言,由于信息过于重要,向外部开发商提供OCR数据训练集的数量往往十分有限,例如真实的发票类的票据,此规格的真实数据可能仅有几个,从而能有效地防止信息大量外泄。但对于OCR模型的外部开发商而言,如此少量的数据训练集显然并不能满足用户对于准确性的要求,依靠少量真实数据训练出的OCR模型的准确性不足,这就使得开发商为银行类的企业所构建的OCR模型的准确性较差。
为了解决上述问题,下面结合图1对本发明的方法进行介绍,本发明提供了一种基于图像扩展的OCR模型训练方法,包括:
步骤S110,根据图像样本的类型设定图像扩展所需的参数。
具体地,对待识别的图像,根据需要通过OCR模型进行识别的图像的应用场景/环境或者说需要定制的版式要求/规格/规定等角度考虑,设定对应的图像本身的特征或者与图像识别关联的其他规则(包括:存储、访问等)作为构造相应于这类图像的合成仿真数据的特征量,即一类特定的合成的仿真数据实际需要的参数。
在一个实施方式中,可以通过人工配置合成数据中所需的参数,例如亮度,噪声等扰动的变化范围,字段起始位置,字段长度等变化范围。
在一个实施例中,具体以需要识别的图像为身份证这类的证件/卡的图像为例,则数据合成所需的参数可能是图像的存储路径、字段类型(用于姓名,出生地等位置的为纯文字,用于身份证号处的为数字与字符的组合,更进一步地,13位身份证号码前9位仅限定为数字,后四位才限定数字与字符的组合,限定越精准,越不容易出错)、所有字段的四点坐标、身份证的亮度范围、噪声扰动变化范围(模糊、倾斜等)、字段起始位置范围、字段长度范围中的一种或几种等。
进一步,不同的待识别图像,上述选择会有所不同,例如,如果该图像是发票类的图像时,则其字段类型便会比身份证限定更加宽泛,无法如此精准,并且,噪声扰动变化范围也会增加褶皱,因为纸质类的难免会出现此种情况。这样,依据不同的类型,所需的参数各不相同,先将待识别的图像设定合成仿真数据时所需的参数进行确认。
步骤S120,对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据。
具体地,真实图像样本,一般是从真实的证件、票据等图片采集来的图像样本即采样图像,其包括图像以及对应的数据信息/真实数据(例如:特征向量、与特征向量相关的其他数据等)。其中,真实图像样本的数量可以是尽可能的少量(即一部分少量)的数据,以保障信息安全。
具体地,真实数据的获得方式可以是将真实的采样图像进行标注,并将标注和对应内容形成文本文件等。进一步,对采样图像的真实数据进行录入,同时还可以将相应的图像也进行录入,实现整个采样图像及其真实数据的收集。进一步,优选地可以是人为录入。并且,优选地可以采用人工标注,标注的越准确对于后续的扩展越有利。
进一步,当收集好真实数据后,按照设定的合成仿真数据时需要的参数,通过背景增强数据扩展以及新字段生成数据扩展,能够使采样图像的多个参数所对应的真实数据实现多个不同维度的扩展,组合出成千上万数量庞大的新的虚拟的扩展数据,由此可以形成新的虚拟的仿真图像样本(包括虚拟的待识别图像及其对应的扩展数据)。
一个例子,与前面提供配置文件类似,可以人工生成真实数据的文本文件,其中包括其图片(图像样本)的路径,字段类别,以及所有字段的四点坐标(按照左上,右上,右下,左下顺序排列)等等,然后跟配置文件一起通过调用相应的图像处理函数,比如背景增强或新字段生成等,进行仿真数据的合成,由此合成海量的扩展数据。
其中,设定图像扩展所需的参数当中,所述参数包括图像参数和字段参数,图像参数包括图像的亮度、对比度、颜色、噪声扰动变化范围,字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围。另外,参数还可以包括背景增强数据的数量和新字段生成数据的数量,也即分别获取多少次背景增强数据以及获取多少次新字段生成数据,用于后续的构建扩展图像样本的使用。
“背景增强数据扩展”主要包括四个部分,第一部分是对于纯参数的扩展,包括对图像的亮度、对比度、颜色的调整来模拟生成反光、亮光线条件、暗光线条件、黑白图像的模拟条件下的扩展参数中的一种或几种,其通常为具有明确数值可衡量的参数;第二部分是对于图片施加噪声来实现不同复杂外部环境下的参数扩展,也即各种模糊场景下、褶皱场景下、非垂直视角场景下的扩展,例如模拟图片在移动状态下被抓拍的模糊处理的照片(可以是通过高斯模糊算法对图像进行模糊增强),模拟三维视角变化的不是垂直拍摄而是倾斜拍摄的照片,或者模拟褶皱的发票各个位置角度不同的照片,来获得模拟出的真实场景的图像用于合成训练集;第三部分是选取图像一部分嵌入所需检测的区域来模拟背景区域较小条件下的拓展参数,以实现拍不全情况下的场景的识别拓展,例如用户在窗口整理材料时误把部分纸张覆盖在了检测区域,系统能自动识别此纸张并非待检测物,从而能够不对其进行分析;第四部分是选取非字段内容的干扰文字嵌入所需检测的区域来模拟具备干扰文字条件下的拓展参数,例如发票上的印章里面会有图形类非文字类的内容,这会对于文字识别造成干扰,模拟足够多的干扰拓展从而能够提升OCR模型的抗干扰能力。
通过背景增强数据扩展的上述四个部分的组合应用,使待检测的图片分别从静态、动态、缺失状态和非文字状态四个方面进行拓展,生成适用于日常使用当中的绝大多数场景,从而能够实现扩展数据的多样性与可靠性。
“新字段生成数据扩展”是根据字段参数,对真实图像样本中的字段区域内的内容及相应的字段特征进行扩展。
字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围等等。
基于字段参数,读取真实图像样本中的字段区域内的内容以识别字段内容并分析字段特征,根据字段文字个数范围、字段起始位置范围、字段长度范围,调整真实图像样本中的字段区域内的字段内容和字段特征以生成新字段。
其中,字段特征包括字段类型、文字大小、文字间距、字体类别、字体颜色中的一种或多种,字段类型为全数字类型、全字母类型、全文字类型或三者当中任意两种或三种的混合类型。
通过新字段生成数据扩展的组合应用,使得图片内的字符能够被拓展到极其广泛的状态,从而获得非常全面的扩展数据,使OCR模型对于字符的识别达到准确度很高的状态。
步骤S130,基于扩展数据构建对应的扩展图像样本。
步骤S140,将扩展图像样本输入OCR模型进行模型训练。
具体地,扩展数据对应的扩展图像样本,如参照其特征向量、参数等模拟构建相应的图像样本即扩展图像样本。通过将这个扩展图像样本输入到OCR模型中即可完成OCR模型的训练。
进一步地,在另一种可能的实施方式中,还可以将真实图像样本和扩展图像样本先进行合并以生成仿真图像训练集,再把这个训练集输入OCR模型进行OCR模型的训练。
进一步地,在另一种可能的实施方式中,在输入OCR模型之前,还可以将仿真图像训练集中的每个图像样本转换为tfrecord格式。从而能够使OCR模型识别读取更加快速,提升整体训练效率。
在获得各种情况下模拟出的图片的背景增强数据扩展后,再辅以各种状态下的新字段生成数据扩展,组合生成极多的扩展数据,将扩展数据以及真实数据合并后即可生成OCR模型仿真数据训练集,通过本发明的方法获得的OCR模型仿真数据训练集,从背景增强数据扩展和新字段生成数据扩展两大方面进行分别扩展,然后再实现汇总整理,从而实现了仅通过有限张实际数据,即可模拟出现实使用中的各种图片样式,扩展出一个完整的OCR模型仿真数据训练集用于OCR模型的训练。另外,通过格式转换为tfrecord格式,能够使OCR模型更加快速地读取OCR模型仿真数据训练集当中所蕴含的参数。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
下面结合图4和图5所示本发明的一个应用场景的例子,说明一个优选的具体实现方式。
首先对少量真实的图像样本中的真实数据通过人工提炼,生成真实数据的文本文件。真实数据的文本文件的内容包括:图片/图像的路径、字段类别、以及所有字段的四点坐标(按照左上,右上,右下,左下顺序排列)等,同时,通过人工配置好要合成的仿真数据中所需的参数,并形成合成数据的配置文件,这些参数例如亮度,噪声等扰动的变化范围、字段起始位置、字段长度等变化范围、以及背景增强数据和新字段生成数据的各自数量。如图4所示真实数据的txt文件和合成数据配置文件,可以是由人工配置的文件。
然后将真实数据的文本文件和该配置文件一起导入进行处理,主要依据该配置文件中的参数,将该真实数据的文本文件中的数据进行各种扩展变化,合成数量巨大的模仿真实数据的扩展数据。如图4所示训练过程中自动合成仿真数据,合成的一个仿真数据的例子如图5所示,该图像样本实际为包含扩展数据的一个样本,并非真实的。具体的通过真实数据进行合成扩展数据的例子:1、对与背景相关的参数,进行背景增强,生成背景等环境变化的仿真实场景数据,例如光照,模糊,透视变化等样例;2、对与字段相关的参数,进行新字段生成,生成新字段变化的仿真实场景数据等,在指定区域内生成不同起始位置,不同字段长度的字段内容;3、调用进行背景增强和新字段生成的前面两个函数,自动合成仿真数据。进一步,对合成的数据、真实数据预处理之后,得到所需的数据文件。具体地,将真实数据对应的图像样本和扩展数据对应的图像样本都进行预处理,例如图4所示制作文件中,将每个样本转化tfrecord格式等处理,形成训练样本,所有的样本转化格式后形成训练样本集,进而输入到待训练的OCR识别模型中对该模型进行训练,如图4所示给入数据训练,该模型可以为深度学习网络,读取tfrecord格式的文件,将文件中的样本数据(特征向量、对应的真实/扩展数据、等)送入网络训练,全过程无需人工参与。进而,训练好的模型能有效进行OCR识别。
使用本发明的技术方案训练网络/模型与全部采用真实数据训练网络的结果对比后,准确率会提升一到两个百分点。并且训练所需的真实数据量可下降到50张以下,大大减少了训练所需的真实数据量和标注数据所消耗的人工成本。
下面再结合图1至图3,对本发明的基于图像扩展的OCR模型训练系统进行详细说明。如图1和图2所示,在一种可能的实施方式中,该系统至少包括:
参数设定模块310:用于根据图像样本的类型设定图像扩展所需的参数。
具体地,对待识别的图像,根据需要通过OCR模型进行识别的图像的应用场景/环境或者说需要定制的版式要求/规格/规定等角度考虑,设定对应的图像本身的特征或者与图像识别关联的其他规则(包括:存储、访问等)作为构造相应于这类图像的合成仿真数据的特征量,即一类特定的合成的仿真数据实际需要的参数。
在一个实施方式中,可以通过人工配置合成数据中所需的参数,例如亮度,噪声等扰动的变化范围,字段起始位置,字段长度等变化范围。
在一个实施例中,具体以需要识别的图像为身份证这类的证件/卡的图像为例,则数据合成所需的参数可能是图像的存储路径、字段类型(用于姓名,出生地等位置的为纯文字,用于身份证号处的为数字与字符的组合,更进一步地,13位身份证号码前9位仅限定为数字,后四位才限定数字与字符的组合,限定越精准,越不容易出错)、所有字段的四点坐标、身份证的亮度范围、噪声扰动变化范围(模糊、倾斜等)、字段起始位置范围、字段长度范围中的一种或几种等。
进一步,不同的待识别图像,上述选择会有所不同,例如,如果该图像是发票类的图像时,则其字段类型便会比身份证限定更加宽泛,无法如此精准,并且,噪声扰动变化范围也会增加褶皱,因为纸质类的难免会出现此种情况。这样,依据不同的类型,所需的参数各不相同,先将待识别的图像设定合成仿真数据时所需的参数进行确认。
扩展数据生成模块320:对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据。
具体地,真实图像样本,一般是从真实的证件、票据等图片采集来的图像样本即采样图像,其包括图像以及对应的数据信息/真实数据(例如:特征向量、与特征向量相关的其他数据等)。其中,真实图像样本的数量可以是尽可能的少量(即一部分少量)的数据,以保障信息安全。
具体地,真实数据的获得方式可以是将真实的采样图像进行标注,并将标注和对应内容形成文本文件等。进一步,对采样图像的真实数据进行录入,同时还可以将相应的图像也进行录入,实现整个采样图像及其真实数据的收集。进一步,优选地可以是人为录入。并且,优选地可以采用人工标注,标注的越准确对于后续的扩展越有利。
进一步,当收集好真实数据后,按照设定的合成仿真数据时需要的参数,通过背景增强数据扩展以及新字段生成数据扩展,能够使采样图像的真实数据中相应的多个参数实现多个不同维度的扩展,组合出成千上万数量庞大的新的虚拟的扩展数据,由此可以形成新的虚拟的仿真图像样本(包括虚拟的待识别图像及其对应的扩展数据)。
一个例子,与前面提供配置文件类似,可以人工生成真实数据的文本文件,其中包括其图片(图像样本)的路径,字段类别,以及所有字段的四点坐标(按照左上,右上,右下,左下顺序排列)等等,然后跟配置文件一起通过调用相应的图像处理函数,比如背景增强或新字段生成等,进行仿真数据的合成,由此合成海量的扩展数据。
其中,设定图像扩展所需的参数当中,所述参数包括图像参数和字段参数,图像参数包括图像的亮度、对比度、颜色、噪声扰动变化范围,字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围。另外,参数还可以包括背景增强数据的数量和新字段生成数据的数量,也即分别获取多少次背景增强数据以及获取多少次新字段生成数据,用于后续的构建扩展图像样本的使用。
“背景增强数据扩展”主要包括四个部分,第一部分是对于纯参数的扩展,包括对图像的亮度、对比度、颜色的调整来模拟生成反光、亮光线条件、暗光线条件、黑白图像的模拟条件下的扩展参数中的一种或几种,其通常为具有明确数值可衡量的参数;第二部分是对于图片施加噪声来实现不同复杂外部环境下的参数扩展,也即各种模糊场景下、褶皱场景下、非垂直视角场景下的扩展,例如模拟图片在移动状态下被抓拍的模糊处理的照片(可以是通过高斯模糊算法对图像进行模糊增强),模拟三维视角变化的不是垂直拍摄而是倾斜拍摄的照片,或者模拟褶皱的发票各个位置角度不同的照片,来获得模拟出的真实场景的图像用于合成训练集;第三部分是选取图像一部分嵌入所需检测的区域来模拟背景区域较小条件下的拓展参数,以实现拍不全情况下的场景的识别拓展,例如用户在窗口整理材料时误把部分纸张覆盖在了检测区域,系统能自动识别此纸张并非待检测物,从而能够不对其进行分析;第四部分是选取非字段内容的干扰文字嵌入所需检测的区域来模拟具备干扰文字条件下的拓展参数,例如发票上的印章里面会有图形类非文字类的内容,这会对于文字识别造成干扰,模拟足够多的干扰拓展从而能够提升OCR模型的抗干扰能力。
通过背景增强数据扩展的上述四个部分的组合应用,使待检测的图片分别从静态、动态、缺失状态和非文字状态四个方面进行拓展,生成适用于日常使用当中的绝大多数场景,从而能够实现扩展数据的多样性与可靠性。
“新字段生成数据扩展”是根据字段参数,对真实图像样本中的字段区域内的内容及相应的字段特征进行扩展。
字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围。
基于字段参数,读取真实图像样本中的字段区域内的内容以识别字段内容并分析字段特征,根据字段文字个数范围、字段起始位置范围、字段长度范围,调整真实图像样本中的字段区域内的字段内容和字段特征以生成新字段。
其中,字段特征包括字段类型、文字大小、文字间距、字体类别、字体颜色中的一种或多种,字段类型为全数字类型、全字母类型、全文字类型或三者当中任意两种或三种的混合类型。
通过新字段生成数据扩展的组合应用,使得图片内的字符能够被拓展到极其广泛的状态,从而获得非常全面的扩展数据,使OCR模型对于字符的识别达到准确度很高的状态。
扩展图像构建模块330:用于基于扩展数据构建对应的扩展图像样本。
OCR模型训练模块340:用于将扩展图像样本输入OCR模型进行模型训练。
具体地,扩展数据对应的扩展图像样本,如参照其特征向量、参数等模拟构建相应的图像样本即扩展图像样本。通过将这个扩展图像样本输入到OCR模型中即可完成OCR模型的训练。
如图1和图3所示,在另一种可能的实施方式中,还可以将真实图像样本和扩展图像样本先进行合并以生成仿真图像训练集,再把这个训练集输入OCR模型进行OCR模型的训练。落实于系统当中,参数设定模块S310、扩展数据生成模块S320、扩展图像构建模块330与上述系统相同,该系统至少包括:
训练集生成模块350:用于在构建扩展图像样本之后,将扩展图像样本和真实图像样本进行合并,以生成仿真图像训练集。
OCR模型训练模块340:用于将仿真图像训练集中的每个图像样本输入OCR模型进行模型训练。
进一步地,在另一种可能的实施方式中,在输入OCR模型之前,还可以将仿真图像训练集中的每个图像样本转换为tfrecord格式。从而能够使OCR模型识别读取更加快速,提升整体训练效率。
在获得各种情况下模拟出的图片的背景增强数据扩展后,再辅以各种状态下的新字段生成数据扩展,组合生成极多的扩展数据,将扩展数据以及真实数据合并后即可生成OCR模型仿真数据训练集,通过本发明的方法获得的OCR模型仿真数据训练集,从背景增强数据扩展和新字段生成数据扩展两大方面进行分别扩展,然后再实现汇总整理,从而实现了仅通过有限张实际数据,即可模拟出现实使用中的各种图片样式,扩展出一个完整的OCR模型仿真数据训练集用于OCR模型的训练。另外,通过格式转换为tfrecord格式,能够使OCR模型更加快速地读取OCR模型仿真数据训练集当中所蕴含的参数。
进一步,在本发明的一种计算机存储装置的一个实施例中,该计算机存储装置存储多条程序代码,所述程序代码适用于由处理器加载并运行以执行前述的基于图像扩展的OCR模型训练方法。OCR模型仿真数据训练集其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,在本发明的一种控制装置的一个实施例中,包括处理器和存储器,所述存储装置适用于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行前述的基于图像扩展的OCR模型训练方法。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的系统的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (16)
1.一种基于图像扩展的OCR模型训练方法,其特征在于,包括:
根据图像样本的类型设定图像扩展所需的参数;
对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据;
基于所述扩展数据构建对应的扩展图像样本;
将所述扩展图像样本输入所述OCR模型进行模型训练。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在构建所述扩展图像样本之后,将所述扩展图像样本和所述真实图像样本进行合并,以生成仿真图像训练集;
将所述扩展图像样本输入所述OCR模型进行模型训练,具体包括:
将所述仿真图像训练集中的每个图像样本输入所述OCR模型进行模型训练。
3.根据权利要求1所述的方法,其特征在于,所述参数包括图像参数和字段参数,所述图像参数包括图像的亮度、对比度、颜色,
所述“背景增强扩展”包括:为模拟反光、亮光、暗光、黑白图像中的一种或多种而对所述真实图像的亮度、对比度、颜色中的至少一个进行调整;
并且/或者,
所述“新字段生成扩展”包括:根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展。
4.根据权利要求3所述的方法,其特征在于,所述图像参数还包括噪声扰动变化范围,
所述“背景增强扩展”还包括:
为模拟运动模糊条件而对所述真实图像增加噪声;并且/或者,
为模拟背景区域较小条件而选取图像的一部分嵌入所需检测的区域;并且/或者,
为模拟文字干扰条件而选取非字段内容的干扰文字嵌入所需检测的区域。
5.根据权利要求4所述的方法,其特征在于,所述噪声包括模糊处理、三维视角变化、褶皱度变化处理中的一种或多种。
6.根据权利要求3所述的方法,其特征在于,所述字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围,
根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展,具体包括:
读取所述真实图像样本中的字段区域内的内容以识别字段内容并分析字段特征;
根据所述字段文字个数范围、字段起始位置范围、字段长度范围,调整所述真实图像样本中的字段区域内的字段内容和字段特征以生成新字段。
7.根据权利要求6所述的方法,其特征在于,所述字段特征包括字段类型、文字大小、文字间距、字体类别、字体颜色中的一种或多种;
其中,所述字段类型为全数字类型、全字母类型、全文字类型或三者当中任意两种或三种的混合类型。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:在输入所述OCR模型之前,将仿真图像训练集中的每个图像样本转换为tfrecord格式。
9.根据权利要求3所述的方法,其特征在于,所述参数还包括背景增强数据的数量和新字段生成数据的数量。
10.一种基于图像扩展的OCR模型训练系统,其特征在于,包括:
参数设定模块,用于根据图像样本的类型设定图像扩展所需的参数;
扩展数据生成模块,用于对每个真实图像样本的参数所对应的真实数据进行背景增强扩展和新字段生成扩展,以获得扩展数据;
扩展图像构建模块,基于所述扩展数据构建对应的扩展图像样本;
OCR模型训练模块,用于将所述扩展图像样本输入所述OCR模型进行模型训练。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括:训练集生成模块,用于在构建所述扩展图像样本之后,将所述扩展图像样本和所述真实图像样本进行合并,以生成仿真图像训练集;以及
OCR模型训练模块中,用于将所述扩展图像样本输入所述OCR模型进行模型训练,具体包括:用于将所述仿真图像训练集中的每个图像样本输入所述OCR模型进行模型训练。
12.根据权利要求10所述的系统,其特征在于,所述参数包括图像参数和字段参数,所述图像参数包括图像的亮度、对比度、颜色,
扩展数据生成模块中,所述“背景增强扩展”包括:为模拟反光、亮光、暗光、黑白图像中的一种或多种而对所述真实图像的亮度、对比度、颜色中的至少一个进行调整;
并且/或者,
所述“新字段生成扩展”包括:根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展。
13.根据权利要求12所述的系统,其特征在于,所述图像参数还包括噪声扰动变化范围,
扩展数据生成模块中,所述“背景增强扩展”还包括:
为模拟运动模糊条件而对所述真实图像增加噪声;并且/或者,
为模拟背景区域较小条件而选取图像的一部分嵌入所需检测的区域;并且/或者,
为模拟文字干扰条件而选取非字段内容的干扰文字嵌入所需检测的区域。
14.根据权利要求12所述的系统,其特征在于,所述字段参数包括字段文字个数范围、字段起始位置范围、字段长度范围,
扩展数据生成模块中,根据所述字段参数,对所述真实图像样本中的字段区域内的内容及相应的字段特征进行扩展,具体包括:
读取所述真实图像样本中的字段区域内的内容以识别字段内容并分析字段特征;
根据所述字段文字个数范围、字段起始位置范围、字段长度范围,调整所述真实图像样本中的字段区域内的字段内容和字段特征以生成新字段。
15.一种计算机可读存储介质,所述存储介质中存储有多条程序代码,其特征在于,所述程序代码适用于由处理器加载并运行以执行权利要求1-9中任一项的基于图像扩展的OCR模型训练方法。
16.一种控制装置,该控制装置包括处理器和存储器,所述存储器适用于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1-9中任一项的基于图像扩展的OCR模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011302897.5A CN112418297A (zh) | 2020-11-19 | 2020-11-19 | 基于图像扩展的ocr模型训练方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011302897.5A CN112418297A (zh) | 2020-11-19 | 2020-11-19 | 基于图像扩展的ocr模型训练方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418297A true CN112418297A (zh) | 2021-02-26 |
Family
ID=74773665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011302897.5A Pending CN112418297A (zh) | 2020-11-19 | 2020-11-19 | 基于图像扩展的ocr模型训练方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418297A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN107145846A (zh) * | 2017-04-26 | 2017-09-08 | 贵州电网有限责任公司输电运行检修分公司 | 一种基于深度学习的绝缘子识别方法 |
US20170286811A1 (en) * | 2016-03-30 | 2017-10-05 | Spawar Systems Center Pacific | Spatiotemporal Method for Anomaly Detection in Dictionary Learning and Sparse Signal Recognition |
CN108154102A (zh) * | 2017-12-21 | 2018-06-12 | 安徽师范大学 | 一种道路交通标志识别方法 |
CN109272043A (zh) * | 2018-09-21 | 2019-01-25 | 北京京东金融科技控股有限公司 | 用于光学字符识别的训练数据生成方法、系统和电子设备 |
US20190180153A1 (en) * | 2015-08-14 | 2019-06-13 | Elucid Bioimaging Inc. | Methods and systems for utilizing quantitative imaging |
CN110443250A (zh) * | 2019-07-31 | 2019-11-12 | 天津车之家数据信息技术有限公司 | 一种合同印章的类别识别方法、装置和计算设备 |
CN111523541A (zh) * | 2020-04-21 | 2020-08-11 | 上海云从汇临人工智能科技有限公司 | 一种基于ocr的数据生成方法、系统、设备及介质 |
CN111539412A (zh) * | 2020-04-21 | 2020-08-14 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、系统、设备及介质 |
CN111612081A (zh) * | 2020-05-25 | 2020-09-01 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及存储介质 |
-
2020
- 2020-11-19 CN CN202011302897.5A patent/CN112418297A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190180153A1 (en) * | 2015-08-14 | 2019-06-13 | Elucid Bioimaging Inc. | Methods and systems for utilizing quantitative imaging |
US20170286811A1 (en) * | 2016-03-30 | 2017-10-05 | Spawar Systems Center Pacific | Spatiotemporal Method for Anomaly Detection in Dictionary Learning and Sparse Signal Recognition |
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN107145846A (zh) * | 2017-04-26 | 2017-09-08 | 贵州电网有限责任公司输电运行检修分公司 | 一种基于深度学习的绝缘子识别方法 |
CN108154102A (zh) * | 2017-12-21 | 2018-06-12 | 安徽师范大学 | 一种道路交通标志识别方法 |
CN109272043A (zh) * | 2018-09-21 | 2019-01-25 | 北京京东金融科技控股有限公司 | 用于光学字符识别的训练数据生成方法、系统和电子设备 |
CN110443250A (zh) * | 2019-07-31 | 2019-11-12 | 天津车之家数据信息技术有限公司 | 一种合同印章的类别识别方法、装置和计算设备 |
CN111523541A (zh) * | 2020-04-21 | 2020-08-11 | 上海云从汇临人工智能科技有限公司 | 一种基于ocr的数据生成方法、系统、设备及介质 |
CN111539412A (zh) * | 2020-04-21 | 2020-08-14 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、系统、设备及介质 |
CN111612081A (zh) * | 2020-05-25 | 2020-09-01 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
王德青等: ""场景文字识别技术研究综述"", 《计算机工程与应用》 * |
蒋冲宇等: ""基于神经网络的发票文字检测与识别方法"", 《武汉工程大学学报》 * |
马新强等: ""基于多阶段数据生成的自循环文本智能识别"", 《模式识别与人工智能》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | A survey on image tampering and its detection in real-world photos | |
Zhuang et al. | Image tampering localization using a dense fully convolutional network | |
CN113674140A (zh) | 一种物理对抗样本生成方法及系统 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
Sun et al. | An information theoretic approach for attention-driven face forgery detection | |
WO2023165616A1 (zh) | 图像模型隐蔽后门的检测方法及系统、存储介质、终端 | |
CN115249306A (zh) | 图像分割模型训练方法、图像处理方法、装置及存储介质 | |
Huang et al. | DS-UNet: a dual streams UNet for refined image forgery localization | |
Jin et al. | Vehicle license plate recognition for fog‐haze environments | |
CN110428402A (zh) | 图像篡改识别方法、装置、计算机设备及存储介质 | |
CN110689066B (zh) | 一种人脸识别数据均衡与增强相结合的训练方法 | |
CN111523541A (zh) | 一种基于ocr的数据生成方法、系统、设备及介质 | |
CN112418297A (zh) | 基于图像扩展的ocr模型训练方法、系统及装置 | |
CN110428264A (zh) | 基于点阵屏防伪标签的识别验伪方法、装置、设备及介质 | |
CN112836467B (zh) | 一种图像处理方法及装置 | |
CN114821733A (zh) | 无约束场景的模式识别模型鲁棒性补偿方法、装置及介质 | |
CN114359667A (zh) | 一种基于生成式对抗网络的强度相干识别方法及设备 | |
CN110162459A (zh) | 测试案例生成方法、装置及计算机可读存储介质 | |
CN116129206B (zh) | 图像解耦表征学习的处理方法、装置及电子设备 | |
CN116012248B (zh) | 图像处理方法、装置、计算机设备及计算机存储介质 | |
Rocamora et al. | Few-Shot Learning: Expanding ID Cards Presentation Attack Detection to Unknown ID Countries | |
Zhang | Low Light Image Enhancement and Saliency Object Detection | |
CN117975482A (zh) | 用于票据中磁码数据的增广方法、装置、设备和介质 | |
Pouliquen et al. | Weakly Supervised Training for Hologram Verification in Identity Documents | |
CN113792701A (zh) | 一种活体检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210226 |
|
RJ01 | Rejection of invention patent application after publication |