CN110807823A - 一种点阵字符打印效果的图像仿真生成方法 - Google Patents
一种点阵字符打印效果的图像仿真生成方法 Download PDFInfo
- Publication number
- CN110807823A CN110807823A CN201911103673.9A CN201911103673A CN110807823A CN 110807823 A CN110807823 A CN 110807823A CN 201911103673 A CN201911103673 A CN 201911103673A CN 110807823 A CN110807823 A CN 110807823A
- Authority
- CN
- China
- Prior art keywords
- character
- image
- printing
- characters
- simulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41J—TYPEWRITERS; SELECTIVE PRINTING MECHANISMS, i.e. MECHANISMS PRINTING OTHERWISE THAN FROM A FORME; CORRECTION OF TYPOGRAPHICAL ERRORS
- B41J2/00—Typewriters or selective printing mechanisms characterised by the printing or marking process for which they are designed
- B41J2/22—Typewriters or selective printing mechanisms characterised by the printing or marking process for which they are designed characterised by selective application of impact or pressure on a printing material or impression-transfer material
- B41J2/225—Typewriters or selective printing mechanisms characterised by the printing or marking process for which they are designed characterised by selective application of impact or pressure on a printing material or impression-transfer material ballistic, e.g. using solid balls or pellets
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B41—PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
- B41J—TYPEWRITERS; SELECTIVE PRINTING MECHANISMS, i.e. MECHANISMS PRINTING OTHERWISE THAN FROM A FORME; CORRECTION OF TYPOGRAPHICAL ERRORS
- B41J29/00—Details of, or accessories for, typewriters or selective printing mechanisms not otherwise provided for
- B41J29/38—Drives, motors, controls or automatic cut-off devices for the entire printing mechanism
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/12—Digital output to print unit, e.g. line printer, chain printer
- G06F3/1201—Dedicated interfaces to print systems
- G06F3/1202—Dedicated interfaces to print systems specifically adapted to achieve a particular effect
Abstract
本发明公开了一种点阵字符打印效果的图像仿真生成方法,首先生成针式字符,包括从程序接口读取用户指定的打印字符生成参数,从字体库中读取指定字号的字体文件,解析其字库点阵信息,以生成指定文本内容的图像,利用采样技术从中获取点阵分布情况,用随机笔触生成算法绘制点阵字符的各个印刷点;然后仿真打印缺陷,包括随机参数和随机选择控制的镜头模糊仿真、噪声模拟、墨汁过多的效果模拟、随机破损模拟、纹理干扰模拟等;最后生成的仿真图像被缩放到设定尺寸,作为样本输出到文件。本发明利用服务器在空闲时段根据新数据的统计特性自动生成更多数据样本,并通过自主增量式训练学习,形成票据字符识别算法智能化的迭代和更新。
Description
技术领域
本发明涉及中文文字图像识别处理的数据集生成领域,特别是一种点阵字符打印效果的图像仿真生成方法。
背景技术
机打票据是现代生活中的重要内容,常见的机打票据包括发票、车票、收银小条、银行回执单等。纸质票据作为商品或服务的有效凭证具有重要作用,在短期内仍不可替代。然而大量碎片化的票据很难有效管理,其电子趋势是必然发展方向。在此当前阶段,迫切需要利用数字图像识别技术建立从纸质媒体到数字化语义信息的映射机制,实现跨媒质的信息共享和传播。
由于票据本身小且打印质量低,若要通过文本字符识别技术对其内容进行自动化管理,还存在较大的技术困难。具体体现在:1)票据打印受成本限制,多采用针式打印或热敏转印方式,打印效果差,字体分辨率低,容易出行缺行漏墨等打印缺陷;2)实际应用中,字符图像采集的条件不可控,可能存在光照不均、票面不平、对焦不准、曝光不足等问题,导致成像效果差,给字符识别进一步增加难度;3)中文字符存在数千个常用字符,若考虑生僻字则存在上万种字符,若进一步考虑不同字体、字号、色彩、背景和间距等各种因素影响,导致问题难度陡然增加。另一方面,当前字符识别技术在新一代人工智能技术的加持下,取得了突破性进展,在基础理论层面取得了较大进步,但其应用需要大量标注数据用以训练,因此客观上,为实现打印票据的智能识别,需要建立海量的打印票据字符图像及其内容标注的大规模数据集。
目前数据集标注仍然需要手工进行,费时费力,而且面对打印字符这种超大型复杂任务时,人工标注难以实施。点阵字符打印效果的图像仿真有望对此提供解决方案。对票价分析识别任务的客观迫切需求和实际任务难度的差距,促使从仿真生成打印字符数据集角度以改善打印字符识别性能的技术路线成为技术关键。
为实现对票价打印字符效果的仿真,必须从源头分析票价打印效果的特殊性。无论增值税发票、火车票、机票还是收银收据,当前票价打印的主流仍然是针式打印机,和出版印刷领域广泛采用的喷墨、激光打印机存在很大差异,针式打印机是一种小型票价打印适用的特殊打印机,其价格低廉、持久耐用的差异性是其它类型的打印机不能取代的。正是因为如此,针式打印机在票据打印领域一直都有着独特的市场份额,服务于一些特殊行业用户。
针式打印的过程可以简述为,针式打印机通过与计算机的接口得到打印数据,即要打印的字符的ANSI编码,这些ANSI编码存放在打印机内的打印缓冲区中。打印开始后,打印机内的CPU从打印缓冲区中取出打印字符的ANSI编码,经过计算得到该字符对应的字符点阵存储区的首地址。按地址逐个地取出每列的点阵码,驱动打印针,撞击色带,在打印纸上形成打印字符。一般而言,针式打印机是通过打印头中的24根针击打复写纸,从而形成字体,在使用中,用户可以根据需求来选择多联纸张,一般常用的多联纸有2联、3联、4联纸,其中也有使用6联的打印机纸。在组成部分方面,针式打印机的种类繁多,型式各异,一般分为打印机械装置和控制与驱动电路两大部分。针式打印机在正常工作时有三种运动,即打印头的横向运动、打印纸的纵向运动和打印针的击针运动。这些运动都是由软件控制驱动系统,通过一些精密机械进行的。以上特殊的运动形式,导致了针式打印的特殊效果。
在模拟针式打印机生成字符时,关注的打印字符的指标包括:1)打印方式。表明针式打印机在打印过程中所采用的模式。如“双向逻辑选距”打印方式、“可选择单双向”打印方式等。单向打印是打印每一行时,打印头字车都要先回到初始位置,然后再打印,打印效率较低,但字符或图像上下衔接精度高;双向打印是打印头横向来回移动时进行打印,打印效率高。但由于机械部件精度的影响,可能会造成字符或图像上下衔接部分有一定的错位,对打印质量会带来影响。2)打印头的针数。目前绝大多数的打印机都采用24针的打印头。这种打印头具有打印速度快,打印质量好的特点。另外,要注意打印机的打印点密度,点密度定义为在水平方向上每英寸打印的点数,用DPI表示。打印质量较高的打印机其点密度可以达到360DPI,该性能决定了生成字符的光滑程度。3)字符集。字符集是打印机中字库种类的说明。中文打印机的字符集种类较为齐全,一般包括有ASCⅡ码点阵字符集、汉字点阵字符集以及国际字符组点阵字符集等,通常上述字符集是按国家标准制定的。如GB-5007标准(宋体24×24点阵字符集)和GB-2312-80(宋体32×32点阵字符集)。了解以上指标,有助于提升生成字体的逼真性。
在数字化经济发展驱强的社会大形势下,针对财务自动化的票据识别应用的需求迫在眉睫。据调查,目前,绝大多数企业在交易等经济活动中所面临的大量的发票等单据中,增值税发票、电子发票等占了绝大多数。而在现阶段票据信息的采集,依然采用传统的手工采集录入方式,而手工采集录入需要投入大量的成本和时间,不仅抬高了运营成本,而且效率低下,导致票据信息不能及时有效传递,造成不必要的资金流出,影响企业效益。应用票据扫描识别接口后,企业可在产生或收到票据的第一时间,将票据的数据自动采集录入到ERP、SAP等企业管理系统中,做到实时的效果,节省了大量的时间和成本,是未来人工智能时代,企业必备的刚需选择。
发明内容
本发明所要解决的技术问题问题是提供一种点阵字符打印效果的图像仿真生成方法,基于指定的字体生成所给文本的字符图像,从字符图像中采样获取针式打印的效果;加入打印机污损、缺墨等实际打印的效果,使其实现对真实效果的仿真。
为解决上述技术问题,本发明采用的技术方案是:
一种点阵字符打印效果的图像仿真生成方法,包括以下步骤:
步骤1:从程序接口读取用户指定的打印字符生成参数;
步骤2:从字体库中读取指定字号的字体文件,解析字体文件字库点阵信息,并存于内存中;
步骤3:从程序接口读取用户所要模拟打印的文字;
步骤4:根据字体的字号大小和文字个数,并结合字符间距,在内存中创建能够容纳所有字符图案的空白图像;
步骤5:从字库中检索要模拟打印的文字的字库点阵,将字库点阵拷贝并转印到步骤4中预先生成的空白图像;若有多个字符需要模拟打印,则训练此步骤,将所有字符全部转印到空白图像;进而得到白底黑字的图像内容;
步骤6:根据用户指定的打印针数,对步骤4所得图像中的字符进行打印针数*打印针数的网格状采样,若采样到白色说明为背景,若采样到黑色说明为字体;
步骤7:根据字体的字号大小、文字个数、字符间距和背景颜色,在内存中创建另一幅能够容纳所有字符图案的空白图像;若设置了背景图案,则在生成背景图像后,进一步平铺图案内容;
步骤8:根据步骤6的采样内容,调用随机笔触模块,在采样到黑色的坐标处,将随机的生成的近似长圆角长方形绘制在该坐标处;
步骤9:按照高斯缩放算法,将所步骤8所得到的图像缩小到高度为设定尺寸;
步骤10:从程序接口读取用户指定的打印缺陷生成参数;参数包括镜头模糊参数、噪声参数、模拟墨汁过多的参数、随机破损的参数、纹理干扰的参数;
步骤11:生成随机效果模拟的生成器列表,对字符进行缺陷模拟,具体为:
11.1)、模拟打印/成像模糊,通过高斯平滑实现;
11.2)、图像噪声,通过给图像添加高斯噪声实现,噪声参数有图像像素的最大最小值自适应生成;
11.3)、模拟墨汁过度的效果,通过对字符进行形态学开闭操作实现;
11.4)、模拟破损效果,通过随机的纹理生成算法生成破损纹理的蒙版,以该蒙蔽对字符图像做与操作,即实现字符笔划的破损效果模拟;
11.5)、背景纹理干扰的效果,通过纹理图像和字符图像做α混合运算实现;
步骤12:从破损效果生成器中,随机选择若干生成器,传递给当前图像效果的处理管线;在处理管线中,对逐个对打印字符分别用生成的打印缺陷列表进行处理。
进一步地,在步骤6中,对字符采样的过程为:
6.1)、根据生成字符的尺寸和坐标,得到该字符的外接矩形框;
6.2)、根据外接矩形框的长和宽,将该矩形框分为n×n的小网格,计算每个网格的中心点,其中n是每个字符高宽对应的针数;
6.3)、将网格中心点坐标进行四舍五入,将其作为索引,获取步骤5中得到的图像像素;判断像素数值,若像素数值>127,则为白色像素;否则判断为黑色像素;
6.4)、记录下所有判断为黑色像素的网格中心点坐标。
进一步地,在步骤8中,随机生成笔触形状的算法具体为:
8.1)、根据指定的笔触大小、笔触长宽比例先验值和笔触中心点坐标,生成笔触长方形,模拟打印机纸袋移动时墨迹拖痕效果;
8.2)、对长方形顶点坐标加噪声,使该四边形仅是近似长方形的多边形,具备随机性;
8.3)、对近似长方形的多边形的顶点附近加更多控制点,使其圆角化,以模拟针式撞击打印的效果;
8.4)、对得到的多边形进行多边形填充;并且先填充浅色做底色,平滑后再填充深色,以模拟打印时墨汁浸染的效果。
进一步地,所述步骤9中,还包括对字符边缘进行平滑处理。
进一步地,在所述步骤12中,多种干扰生成器并列使用。
与现有技术相比,本发明的有益效果在是:
1、人工数据集维护的方式费时费力,具有较高人力成本,而本方法全自动进行,几近零成本,且无需维护。
2、某些极端情况下的数据样本难以获取,比如特殊的早期故障、缺陷样本极少,难以满足模型训练的需求;而本文方法是数值仿真技术,因而不受此限制。
3、本发明可以配置调节以降低数据集的有偏向性,例如受限地模拟各种可能的遮挡和污损的情况、生成字符方向变化和字体细微变动,以提高数据样本表达的完备性;而人工方法难以做到表征完备。
4、本方面也可充分利用已有的数据,进行拓展和增强。并具有一定的弹性适应能力,以适应关键票据逐年细微改版。
5、本发明可以精确反馈识别模型对数据量级需求的情况,从而简化识别处理的算法负担,从宏观上改进效率。
6、本发明不存在特殊设备需求,可在服务器端部署,并采用适当策略进行模型算法的迭代更新。
附图说明
图1为针式打印机模拟字符生成效果的示意图。
图2为针式打印机模拟字符各种破损效果的示意图。
图3为针式打印机打印效果批量化生成效果示意图。
图4为针式打印机打印效果仿真处理流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的目的是面向针式打印机票据打印效果的仿真模拟方法,以解决目前当前票据识别系统的训练过程需要大量图像样本依赖人工标注继而效率低下错误频发的问题。它能适应多种点阵打印机在多种媒介上的各类打印形式,能够模拟复杂的扫描背景和倾斜的扫描角度,可智能数字图像处理的相关方法自动生成足量的数据样本,为提高发票图像识别的模型训练效率奠定了数据基础,同时降低了特殊字符数据集维护工作的负担,使参与者的体验比传统方法更好,更容易集中力量进行算法改进,因而更有利于针对票据自主OCR识别的常态化和规范化推广应用。
本发明的基本思想如下:一种基于数字图像处理技术的针式打印机打印效果数值仿真方法,应用于票面识别服务器的模型训练,主要由针式字符生成算法模块和打印缺陷仿真模块组成。用户通过程序参数指定数据生成任务,再将循环地生成特定内容的打印字符,并随机传输给相应的打印缺陷仿真算法模块,实现多样化的仿真结果。
针式字符生成算法模块进行以下步骤:
1)、从程序接口读取用户指定的打印字符生成参数;涉及的参考包括:字体、字号、打印针数、字符间距、字符颜色、笔触大小、背景颜色或图案、图像边距、输出图像高度等;以上参数还包含随机性指标,使其生成内容在一定范围内随机变化,具有一般性。
2)、从字体库中读取指定字号的字体文件,解析其字库点阵信息,并存于内存中。
3)、从程序接口读取用户要模拟打印的文字。
4)、根据字体的字号大小和文字个数,并结合字符间距,在内存中创建能够容纳所有字符图案的空白图像;图像的高=字符高度+2*图像边距,图像的宽度=字符宽度*字符个数+字符间距*(字符个数-1)+2*图像边距。
5)、从字库中检索要模拟打印的文字的字库点阵,将其拷贝并转印到第4)步所述的预先生成的空白图像;如有多个字符需要模拟打印,则训练此步骤,将所有字符全部转印到空白图像。第一个字从坐标(图像边距,图像边距)开始转印,每转印一个字之后将坐标右移D个像素,其中D=字符宽度+字符间距。本步骤完成后,得到白底黑字的图像内容。
6)、根据用户指定的打印针数,对图像中的字符进行打印针数*打印针数的网格状采样,若采样到白色说明为背景,若采样到黑色说明为字体。为符合实际情况,针数建议适用24针、28针或32针,但程序本身也接受其他针数,不过影响生成效果。
7)、根据字体的字号大小、文字个数、字符间距和背景颜色,在内存中创建另一幅能够容纳所有字符图案的空白图像;如设置了背景图案,则再生成图像后,进一步平铺图案内容;图像尺寸与步骤4)所生成图像的尺寸相同,但不同之处在于本步骤是生成包含RGB色彩的3通道图像。
8)、根据第6)步采样内容,调用随机笔触模块,在采样到黑色的坐标处,将随机的生成的近似长圆角长方形绘制在该坐标处。长方形的大小和尺寸是程序随机的。
9)、按照高斯缩放算法,将所得到的图像缩小到高度为设定尺寸,本过程同步对字符边缘进行了平滑处理,使其更自然。
其中,步骤6)中对字符采样具体为:
6.1)、以24针为例,根据生成字符的尺寸和坐标,得到该字符的外接矩形框。
6.2)、根据外接矩形框的长和宽,将该矩形框分为24*24的小网格,计算每个网格的中心点。
6.3)、将网格中心点坐标进行四舍五入,将其作为索引,获取步骤5)中得到的图像像素;判断像素数值,若像素数值>127,则为白色像素;否则判断为黑色像素。
6.4)、记录下所有判断为黑色像素的网格中心点坐标。这些坐标将在步骤8)中被使用。
其中,步骤8中随机生成笔触形状具体为:
8.1)、根据指定的笔触大小、笔触长宽比例先验值和笔触中心点坐标,生成笔触长方形。长方形的宽小于高,其原因是为模拟打印机纸袋移动时墨迹拖痕效果。长方形的顶点坐标为:
左上角=(顶点x坐标-笔触宽度/2, 顶点y坐标-笔触高度/2)
左下角=(顶点x坐标-笔触宽度/2, 顶点y坐标+笔触高度/2)
右上角=(顶点x坐标+笔触宽度/2, 顶点y坐标-笔触高度/2)
右下角=(顶点x坐标+笔触宽度/2, 顶点y坐标+笔触高度/2)
8.2)、对长方形顶点坐标加噪声,使其仅是近似长方形的多边形,具备随机性。
8.3)、对近似长方形的多边形的顶点附近加控制点,使其圆角化,以模拟针式撞击打印的效果。
8.4)、对前文所述得到的多边形进行多边形填充。并且先填充浅色做底色,平滑后再填充深色,以模拟打印时墨汁浸染的效果。
在实现针式字符生成算法模块后,即可选择字体对特定文本进行模拟打印,形成类似针式撞击印刷的效果。但该仿真内容过于完好,与实际中频发的打印缺陷有一定距离。因此,还需从软件层面解决打印缺陷的仿真。打印缺陷仿真模块进行以下步骤:
1)、从程序接口读取用户指定的打印缺陷生成参数;涉及的参考包括:镜头模糊参数、噪声参数、模拟墨汁过多的参数、随机破损的参数、纹理干扰的参数等。
2)、生成随机效果模拟的生成器列表,对字符进行缺陷模拟的算法包括:
2.1)、模拟打印/成像模糊,通过高斯平滑实现。
2.2)、图像噪声,通过给图像添加高斯噪声实现,噪声参数有图像像素的最大最小值自适应的生成。
2.3)、模拟墨汁过度的效果,通过对字符进行形态学开闭操作实现。
2.4)、模拟破损效果,通过随机的纹理生成算法(perlin noise algorithm),生成破损纹理的蒙版,以该蒙蔽对字符图像做与操作,即实现字符笔划的破损效果模拟。
2.5)、背景纹理干扰的效果,通过纹理图像和字符图像做Alpha Blending(α混合)运算实现。
3)、从破损效果生成器中,随机选择若干生成器,传递给当前图像效果的处理管线;在处理管线中,对逐个对打印字符分别用生成的打印缺陷列表进行处理。
多种干扰生成器可以并列使用,使随机性进一步增强。但实际中,我们设置随机干扰生成器的选用不超过3类,因为过多的干扰会偏离实际样本的分布。每幅字符图像采用相同的干扰参数,因而生成效果具有一致性;但多幅图像间的干扰参数各不相同,因此可以形成海量的效果不重复的打印字符样本,形成优越的训练数据集。
由于针式打印字符仿真生成是在高分辨率图像中直接获得的,因此处理结果可以直接用后继的字符识别模块进行增量式训练。字符识别训练范围在本发明的支持下,具备可调可控的特性,样本复杂度的可表达性大为增强,加速了票据识别的实用化过程。尽管高质量的仿真字符生成过程会适当增加运算量,但由于可以提高性能率,因此从全局看仍然具有非常重要的意义。本发明在DGX2平台上用软件实现并运行,软件环境为Ubuntu16.04.4 LTS,程序开发采用Python 3.7 x64,图像生成、采样和处理的技术实现时调用了PIL、opencv和numpy库。
本发明不涉及特殊硬件,仅涉及软件运行环境。本发明旨在自动生成类似于针式打印机打印效果的字符图像,生成票据字符识别专用的训练数据集。票据字符生成软件在后台运行,无需人机交互界面,生成完成后给予用户提示。所有生成数据具有随机的差异性,并且该差异性在生成之前由配置模块进行设置,包括模拟镜头模糊、打印机污损、缺墨等实际打印的效果,生成过程中用户不必再介入,最终生成数据可为票据内容自动识别提供宝贵的数据基础。
Claims (5)
1.一种点阵字符打印效果的图像仿真生成方法,其特征在于,包括以下步骤:
步骤1:从程序接口读取用户指定的打印字符生成参数;
步骤2:从字体库中读取指定字号的字体文件,解析字体文件字库点阵信息,并存于内存中;
步骤3:从程序接口读取用户所要模拟打印的文字;
步骤4:根据字体的字号大小和文字个数,并结合字符间距,在内存中创建能够容纳所有字符图案的空白图像;
步骤5:从字库中检索要模拟打印的文字的字库点阵,将字库点阵拷贝并转印到步骤4中预先生成的空白图像;若有多个字符需要模拟打印,则训练此步骤,将所有字符全部转印到空白图像;进而得到白底黑字的图像内容;
步骤6:根据用户指定的打印针数,对步骤4所得图像中的字符进行打印针数*打印针数的网格状采样,若采样到白色说明为背景,若采样到黑色说明为字体;
步骤7:根据字体的字号大小、文字个数、字符间距和背景颜色,在内存中创建另一幅能够容纳所有字符图案的空白图像;若设置了背景图案,则在生成背景图像后,进一步平铺图案内容;
步骤8:根据步骤6的采样内容,调用随机笔触模块,在采样到黑色的坐标处,将随机的生成的近似长圆角长方形绘制在该坐标处;
步骤9:按照高斯缩放算法,将步骤8所得到的图像缩小到高度为设定尺寸;
步骤10:从程序接口读取用户指定的打印缺陷生成参数;参数包括镜头模糊参数、噪声参数、模拟墨汁过多的参数、随机破损的参数、纹理干扰的参数;
步骤11:生成随机效果模拟的生成器列表,对字符进行缺陷模拟,具体为:
11.1)、模拟打印/成像模糊,通过高斯平滑实现;
11.2)、图像噪声,通过给图像添加高斯噪声实现,噪声参数有图像像素的最大最小值自适应生成;
11.3)、模拟墨汁过度的效果,通过对字符进行形态学开闭操作实现;
11.4)、模拟破损效果,通过随机的纹理生成算法生成破损纹理的蒙版,以该蒙蔽对字符图像做与操作,即实现字符笔划的破损效果模拟;
11.5)、背景纹理干扰的效果,通过纹理图像和字符图像做α混合运算实现;
步骤12:从破损效果生成器中,随机选择若干生成器,传递给当前图像效果的处理管线;在处理管线中,对逐个对打印字符分别用生成的打印缺陷列表进行处理。
2.根据权利要求1所述的一种点阵字符打印效果的图像仿真生成方法,其特征在于,在步骤6中,对字符采样的过程为:
6.1)、根据生成字符的尺寸和坐标,得到该字符的外接矩形框;
6.2)、根据外接矩形框的长和宽,将该矩形框分为n×n的小网格,计算每个网格的中心点,其中n是每个字符高宽对应的针数;
6.3)、将网格中心点坐标进行四舍五入,将其作为索引,获取步骤5中得到的图像像素;判断像素数值,若像素数值>127,则为白色像素;否则判断为黑色像素;
6.4)、记录下所有判断为黑色像素的网格中心点坐标。
3.根据权利要求1所述的一种点阵字符打印效果的图像仿真生成方法,其特征在于,在步骤8中,随机生成笔触形状的算法具体为:
8.1)、根据指定的笔触大小、笔触长宽比例先验值和笔触中心点坐标,生成笔触长方形,模拟打印机纸袋移动时墨迹拖痕效果;
8.2)、对长方形顶点坐标加噪声,使该四边形仅是近似长方形的多边形,具备随机性;
8.3)、对近似长方形的多边形的顶点附近加控制点,使其圆角化,以模拟针式撞击打印的效果;
8.4)、对得到的多边形进行多边形填充;并且先填充浅色做底色,平滑后再填充深色,以模拟打印时墨汁浸染的效果。
4.根据权利要求1所述的一种点阵字符打印效果的图像仿真生成方法,其特征在于,所述步骤9中,还包括对字符边缘进行平滑处理。
5.根据权利要求1所述的一种点阵字符打印效果的图像仿真生成方法,其特征在于,在所述步骤12中,多种干扰生成器并列使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103673.9A CN110807823B (zh) | 2019-11-13 | 2019-11-13 | 一种点阵字符打印效果的图像仿真生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103673.9A CN110807823B (zh) | 2019-11-13 | 2019-11-13 | 一种点阵字符打印效果的图像仿真生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807823A true CN110807823A (zh) | 2020-02-18 |
CN110807823B CN110807823B (zh) | 2021-08-06 |
Family
ID=69502310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911103673.9A Active CN110807823B (zh) | 2019-11-13 | 2019-11-13 | 一种点阵字符打印效果的图像仿真生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807823B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523541A (zh) * | 2020-04-21 | 2020-08-11 | 上海云从汇临人工智能科技有限公司 | 一种基于ocr的数据生成方法、系统、设备及介质 |
CN111782158A (zh) * | 2020-06-30 | 2020-10-16 | 广州市小篆科技有限公司 | 一种喷码设备点阵字体的生成方法及打印设备 |
CN111915572A (zh) * | 2020-07-13 | 2020-11-10 | 青岛大学 | 一种基于深度学习的自适应齿轮点蚀定量检测系统及方法 |
CN112162713A (zh) * | 2020-09-11 | 2021-01-01 | 深圳市鹰硕教育服务有限公司 | 一种文件打印方法、系统及服务器 |
CN112183296A (zh) * | 2020-09-23 | 2021-01-05 | 北京文思海辉金信软件有限公司 | 模拟票据图像生成、票据图像识别方法和装置 |
CN112596660A (zh) * | 2020-12-18 | 2021-04-02 | 维沃移动通信有限公司 | 一种书写显示处理方法和电子设备 |
CN113012265A (zh) * | 2021-04-22 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 针式打印字符图像生成方法、装置、计算机设备和介质 |
CN113805822A (zh) * | 2021-08-26 | 2021-12-17 | 福建魔方电子科技有限公司 | 一种嵌入式终端上小票打印生成方法、装置、设备和介质 |
KR102349506B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법 |
KR102349510B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 인공지능 기반의 학습된 신경망을 이용한 폰트 인식 방법 및 폰트 인식 시스템 |
CN114518851A (zh) * | 2022-01-31 | 2022-05-20 | 长城信息股份有限公司 | 一种基于存折打印机的图像文件打印方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852448A (en) * | 1996-09-20 | 1998-12-22 | Dynalab Inc. | Stroke-based font generation independent of resolution |
CN102496180A (zh) * | 2011-12-15 | 2012-06-13 | 李大锦 | 一种自动生成水墨山水画图像的方法 |
CN104899571A (zh) * | 2015-06-12 | 2015-09-09 | 成都数联铭品科技有限公司 | 一种用于复杂文字识别的随机样本产生方法 |
CN107274345A (zh) * | 2017-06-07 | 2017-10-20 | 众安信息技术服务有限公司 | 一种中文打印字符图像合成方法及装置 |
CN110427948A (zh) * | 2019-07-29 | 2019-11-08 | 杭州云深弘视智能科技有限公司 | 字符样本的生成方法及其系统 |
-
2019
- 2019-11-13 CN CN201911103673.9A patent/CN110807823B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852448A (en) * | 1996-09-20 | 1998-12-22 | Dynalab Inc. | Stroke-based font generation independent of resolution |
CN102496180A (zh) * | 2011-12-15 | 2012-06-13 | 李大锦 | 一种自动生成水墨山水画图像的方法 |
CN104899571A (zh) * | 2015-06-12 | 2015-09-09 | 成都数联铭品科技有限公司 | 一种用于复杂文字识别的随机样本产生方法 |
CN107274345A (zh) * | 2017-06-07 | 2017-10-20 | 众安信息技术服务有限公司 | 一种中文打印字符图像合成方法及装置 |
CN110427948A (zh) * | 2019-07-29 | 2019-11-08 | 杭州云深弘视智能科技有限公司 | 字符样本的生成方法及其系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523541A (zh) * | 2020-04-21 | 2020-08-11 | 上海云从汇临人工智能科技有限公司 | 一种基于ocr的数据生成方法、系统、设备及介质 |
CN111782158A (zh) * | 2020-06-30 | 2020-10-16 | 广州市小篆科技有限公司 | 一种喷码设备点阵字体的生成方法及打印设备 |
CN111915572A (zh) * | 2020-07-13 | 2020-11-10 | 青岛大学 | 一种基于深度学习的自适应齿轮点蚀定量检测系统及方法 |
CN111915572B (zh) * | 2020-07-13 | 2023-04-25 | 青岛大学 | 一种基于深度学习的自适应齿轮点蚀定量检测系统及方法 |
CN112162713A (zh) * | 2020-09-11 | 2021-01-01 | 深圳市鹰硕教育服务有限公司 | 一种文件打印方法、系统及服务器 |
CN112183296B (zh) * | 2020-09-23 | 2022-03-04 | 中电金信软件有限公司 | 模拟票据图像生成、票据图像识别方法和装置 |
CN112183296A (zh) * | 2020-09-23 | 2021-01-05 | 北京文思海辉金信软件有限公司 | 模拟票据图像生成、票据图像识别方法和装置 |
CN112596660A (zh) * | 2020-12-18 | 2021-04-02 | 维沃移动通信有限公司 | 一种书写显示处理方法和电子设备 |
CN112596660B (zh) * | 2020-12-18 | 2023-09-12 | 维沃移动通信有限公司 | 一种书写显示处理方法和电子设备 |
CN113012265A (zh) * | 2021-04-22 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 针式打印字符图像生成方法、装置、计算机设备和介质 |
CN113012265B (zh) * | 2021-04-22 | 2024-04-30 | 中国平安人寿保险股份有限公司 | 针式打印字符图像生成方法、装置、计算机设备和介质 |
KR102349510B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 인공지능 기반의 학습된 신경망을 이용한 폰트 인식 방법 및 폰트 인식 시스템 |
KR102349506B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법 |
CN113805822A (zh) * | 2021-08-26 | 2021-12-17 | 福建魔方电子科技有限公司 | 一种嵌入式终端上小票打印生成方法、装置、设备和介质 |
CN114518851A (zh) * | 2022-01-31 | 2022-05-20 | 长城信息股份有限公司 | 一种基于存折打印机的图像文件打印方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110807823B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807823B (zh) | 一种点阵字符打印效果的图像仿真生成方法 | |
CN107194400B (zh) | 一种财务报销全票据图片识别处理方法 | |
CN109190722B (zh) | 基于满文字符图片的字体风格迁移变换方法 | |
CN107067044B (zh) | 一种财务报销全票据智能审核系统 | |
CN103488711B (zh) | 一种快速制作矢量字库的方法及系统 | |
JP5379085B2 (ja) | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム | |
US8711372B2 (en) | Techniques for image segment accumulation in document rendering | |
CN108509881A (zh) | 一种无切分的脱机手写汉字文本识别方法 | |
US5392130A (en) | Analyzing an image showing a row/column representation | |
CN111242024A (zh) | 基于机器学习识别图纸内图例及文字的方法及系统 | |
CA2118344C (en) | Using a category to analyze an image showing a graphical representation | |
US10984284B1 (en) | Synthetic augmentation of document images | |
CN109784342A (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
US20080235263A1 (en) | Automating Creation of Digital Test Materials | |
CN103488415A (zh) | 基于纸介质的手书文字和图形识别系统及识别方法 | |
CN110503100A (zh) | 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质 | |
CN112395996A (zh) | 财务票据ocr识别及影像处理方法、系统及可读存储介质 | |
CN112115934A (zh) | 基于深度学习实例分割的票据图像文本检测方法 | |
CN112529989A (zh) | 一种基于票据模板的图片重构方法 | |
CN109726989B (zh) | 一种手写票证电子化系统 | |
US5930469A (en) | Printing driver and printer which utilize adaptive object banding | |
CN109522892A (zh) | 神经网络辅助的文字图像信息标注方法 | |
CN112200158B (zh) | 训练数据生成方法及系统 | |
CN114202762A (zh) | 手写样本生成方法、装置及应用 | |
Rohland et al. | The design of an OCR system for reading hand written numerals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |