CN109948549A - Ocr数据生成方法、装置、计算机设备及存储介质 - Google Patents

Ocr数据生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109948549A
CN109948549A CN201910213405.6A CN201910213405A CN109948549A CN 109948549 A CN109948549 A CN 109948549A CN 201910213405 A CN201910213405 A CN 201910213405A CN 109948549 A CN109948549 A CN 109948549A
Authority
CN
China
Prior art keywords
image
ocr
initial data
text
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910213405.6A
Other languages
English (en)
Other versions
CN109948549B (zh
Inventor
张欢
李爱林
周先得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huafu Technology Co ltd
Original Assignee
Shenzhen Huafu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huafu Information Technology Co Ltd filed Critical Shenzhen Huafu Information Technology Co Ltd
Priority to CN201910213405.6A priority Critical patent/CN109948549B/zh
Publication of CN109948549A publication Critical patent/CN109948549A/zh
Application granted granted Critical
Publication of CN109948549B publication Critical patent/CN109948549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及OCR数据生成方法、装置、计算机设备及存储介质,该方法包括制作原始数据素材;对原始数据素材进行解析和批量修改,以得到标记图像;对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。本发明通过借助Photoshop所提供JavaScript接口,对原始数据素材进行解析和批量修改,形成带有文本区域标注的标注图像,在对标注图像进行文本区域识别,以得到该文本区域的位置信息,由此形成用于训练OCR的OCR数据,自动化完成OCR数据的生成,且生成数据的速度快,且数据调整细节简单,实用性强。

Description

OCR数据生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机,更具体地说是指OCR数据生成方法、装置、计算机设备及存储介质。
背景技术
OCR(光学字符识别,Optical Character Recognition)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
OCR技术具有广泛用途,但该技术的实现要大量数据做支撑,数据采集是一大问题。
目前对于OCR数据的采集方式有两种,一是人工收集、人工标注,该方法要耗费大量人力物力,且一些隐私相关的数据如票据、证件图片不仅收集困难,使用起来还有法律风险;二是编写图像处理程序生成数据。其中又分为图像处理合成方法和GAN方法,前者要实现拟真的图像有巨大的工作量,开发成本高,后者则需要部分真实数据用做训练,且对数据的细节调整较为麻烦。
因此,有必要设计一种方法,实现生成数据的速度快,且数据调整细节简单,实用性强。
发明内容
本发明的目的在于克服现有技术的缺陷,提供OCR数据生成方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:OCR数据生成方法,包括:
制作原始数据素材;
对原始数据素材进行解析和批量修改,以得到标记图像;
对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
其进一步技术方案为:所述制作原始数据素材,包括:
获取高清空白图片;
在高清空白图片插入文本,以形成原始数据素材。
其进一步技术方案为:所述对原始数据素材进行解析和批量修改,以得到标记图像,包括:
通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
在原始数据素材的图层上随机生成文本信息;
对保存后的文本信息的位置进行随机调整,以形成初步图像;
对初步图像转换成智能对象,以形成第二图像;
对第二图像进行皱褶制作,以形成第三图像;
对第三图像进行形变处理,以得到第四图像;
对第四图像进行背景添加处理,以得到第五图像;
保存第五图像;
对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
其进一步技术方案为:所述对第二图像进行皱褶制作,以形成第三图像,包括:
获取空白皱纸图片;
将空白皱纸图片缩放到第二图像大小;
将缩放后的空白皱纸图片进行去色、模糊以及边缘化处理,以形成待综合图像;
将待综合图像与第二图像进行图层融合,以形成第三图像。
其进一步技术方案为:所述对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据,包括:
获取标记图像的标注信息;
根据所述标注信息获取标注信息所对应的色块RGB值,以得到参照RGB值;
扫描所述标记图像以获取RGB值与参照RGB值一致的像素点;
以所述像素点为中心点进行邻域搜索;
判断所述邻域中是否有多个RGB值与参照RGB值一致的像素点;
若是,则获取所述邻域中RGB值与参照RGB值一致的像素点的坐标,以形成过渡坐标;
对所述过渡坐标取平均值,以形成标记点坐标;
根据标记点坐标获取文本区域的位置信息,以形成OCR数据。
本发明还提供了OCR数据生成装置,包括:
素材制作单元,用于制作原始数据素材;
标记图像获取单元,用于对原始数据素材进行解析和批量修改,以得到标记图像;
OCR数据形成单元,用于对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
其进一步技术方案为:所述素材制作单元包括:
图片获取子单元,用于获取高清空白图片;
文本插入子单元,用于在高清空白图片插入文本,以形成原始数据素材。
其进一步技术方案为:所述标记图像形成单元包括:
图层分析子单元,用于通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
文本随机生成子单元,用于原始数据素材的图层上随机生成文本信息;
位置调整子单元,用于对保存后的文本信息的位置进行随机调整,以形成初步图像;
转换子单元,用于对初步图像转换成智能对象,以形成第二图像;
皱褶制作子单元,用于对第二图像进行皱褶制作,以形成第三图像;
形变处理子单元,用于对第三图像进行形变处理,以得到第四图像;
背景处理子单元,用于对第四图像进行背景添加处理,以得到第五图像;
保存子单元,用于保存第五图像;
区域标记子单元,用于对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过借助Photoshop所提供JavaScript接口,对原始数据素材进行解析和批量修改,形成带有文本区域标注的标注图像,在对标注图像进行文本区域识别,以得到该文本区域的位置信息,由此形成用于训练OCR的OCR数据,自动化完成OCR数据的生成,且生成数据的速度快,且数据调整细节简单,实用性强。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的OCR数据生成方法的流程示意图;
图2为本发明实施例提供的OCR数据生成方法的子流程示意图;
图3为本发明实施例提供的原始数据素材的示意图;
图4为本发明实施例提供的OCR数据生成方法的子流程示意图;
图5为本发明实施例提供的文本位置随机调整后的票据的示意图;
图6为本发明实施例提供的OCR数据生成方法的子流程示意图;
图7为本发明实施例提供的皱褶制作后的票据的示意图;
图8为本发明实施例提供的形变处理后的票据的示意图;
图9为本发明实施例提供的背景添加处理后的票据的示意图;
图10为本发明实施例提供的文本区域标记后的票据的示意图;
图11为本发明实施例提供的OCR数据生成方法的子流程示意图;
图12为本发明实施例提供的OCR数据生成装置的示意性框图;
图13为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的OCR数据生成方法的示意性流程图。OCR数据生成方法应用于服务器中。该服务器与终端进行数据交互,借助终端输入素材图片,在服务器的Photoshop的JavaScript脚本文件中设置要循环处理的次数,打开Photoshop,载入素材图片,点击文件-->脚本-->浏览,选取脚本文件,Photoshop即可自动生成OCR数据。
图1是本发明实施例提供的OCR数据生成方法的流程示意图。如图1所示,该方法包括以下步骤S110至S130。
S110、制作原始数据素材。
在本实施例中,原始数据素材是指用于制作OCR数据的基础PSD文件素材。
在一实施例中,如图2所示,上述的步骤S110可包括步骤S111~S112。
S111、获取高清空白图片。
在本实施例中,高清空白图片指的是未填充数据的基本图片,举个例子,以票据素材作为原始数据素材为例,先扫描以得到一张高清空白票据图片。
S112、在高清空白图片插入文本,以形成原始数据素材。
以票据素材作为原始数据素材为例,在高清空白票据图像中的对应位置插入与真实票据同样字体字号和颜色的文本,如图3所示,使在不同票据中会发生变化的文本都是一个独立的文本图层。
S120、对原始数据素材进行解析和批量修改,以得到标记图像。
在本实施例中,标记图像是指带有标记文本区域的原始数据素材。
在一实施例中,请参阅图4,上述的步骤S120可包括步骤S121~S129。
S121、通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层。
用Photoshop提供的JavaScript接口解析素材的各个图层,用JavaScript抓取原始数据素材的图层后,再对其进行修改和变换操作。开发者无需懂得任何图像处理原理即可依赖接口实现OCR数据所需的多种图像效果,实现简单。
S122、在原始数据素材的图层上随机生成文本信息。
用随机数生成发票的号码、日期、金额等等。从汉字库中随机抽取汉字生成公司名称,从姓名库中随机抽取姓和名组成收款人等人员的姓名,从字符库中随机抽取字符生成密码区信息,由此在原始数据素材的图层上随机生成文本信息,该文本信息包括日期、名称、姓名以及密码等。
S123、对保存后的文本信息的位置进行随机调整,以形成初步图像。
在本实施例中,初步图像是带有文本信息且随机调整过的素材。
在生成文本信息的过程中,将生成的信息按顺序写入到txt文本中,作为OCR数据的信息标签使用。由于实际票据由于印刷等不确定问题字符的位置往往会有些偏差,因此在这一步将文本图层的位置随机进行小幅度的晃动,模拟真实印刷的随机性,如图5所示,可增加OCR数据的多样性,进而提高OCR数据的随机性。
S124、对初步图像转换成智能对象,以形成第二图像。
在本实施例中,第二图像是指将所有初步图像整合形成的智能对象。在文本信息修改完毕后,在Photoshop界面中选取包含所有图层的图层文件夹,便可转换为智能对象,将所有图层整合成智能对象,方便随后对这个整体做进一步的操作。
S125、对第二图像进行皱褶制作,以形成第三图像。
在本实施例中,第三图像是指带有皱褶效果的智能对象。
在一实施例中,请参阅图6,上述的步骤S125可包括步骤S1251~S1254。
S1251、获取空白皱纸图片。
在本实施例中,将空白皱纸图片所带有的皱褶效果融合到第三图像中,可根据实际情况选择不同褶皱程度的空白皱纸图片。
S1252、将空白皱纸图片缩放到第二图像大小。
在本实施例中,要将空白皱纸图片与第二图像融合,必须使得两者的大小一致。
S1253、将缩放后的空白皱纸图片进行去色、模糊以及边缘化处理,以形成待综合图像。
在本实施例中,待综合图像是指不带背景、边缘的空白皱纸图片。
S1254、将待综合图像与第二图像进行图层融合,以形成第三图像。
真实的票据数据往往有较多的纸张皱褶,为了模拟这种效果,事先收集好一些空白皱纸的图片,将这些图片缩放到发票图片大小,用JavaScript控制其进行去色,模糊,边缘化等操作,最后与发票图片进行图层融合,达到产生皱褶感的效果,如图7所示。
S126、对第三图像进行形变处理,以得到第四图像。
在本实施例中,第四图像是指进行随机程度的形变的智能对象。
实际的发票图片往往存在距离,旋转,仿射等变换,因此,在这一步用JavaScript控制智能对象做一些随机程度的类似变换,如图8所示。
S127、对第四图像进行背景添加处理,以得到第五图像。
在本实施例中,第五图像是指加了背景的第四图像。
可以依据实际情况所需从网络上下载素材图片,随机挑取一张置于票据图片下方,产生随机背景的效果,如图9所示。
S128、保存第五图像。
当OCR数据中的图像部分已经生成了,先对图像进行保存。
S129、对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
为了获取文本区域的位置信息作为标签使用,先在第五图像的文本区域做一些标记,用JavaScript执行编辑智能对象命令,在带有位置信息的文本图层四个顶点绘制单一颜色的色块,绘制好后进行保存,保存完成后标记效果会反馈到发生形变后的智能对象中,如图10所示。用PNG格式保存标记后的图像,因为PNG格式基本没有失真,标记的颜色不会有损失。
S130、对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
在本实施例中,OCR数据是指用于训练OCR的OCR数据。
OCR数据有一个重要部分是字符的位置信息,在上述步骤中生成了带标记的数据副本,即标记图像,可以通过识别标记图像内所标记的文本区域来得到字符信息。
在一实施例中,请参阅图11,上述的步骤S130可包括步骤S131~S138。
S131、获取标记图像的标注信息。
在本实施例中,标注信息是指标注了文本区域所在的色块位置。
S132、根据所述标注信息获取标注信息所对应的色块RGB值,以得到参照RGB值。
在本实施例中,设标注信息所对应的色块RGB值为(x,y,z),以该色块的RGB值作为参照RGB值。
S133、扫描所述标记图像以获取RGB值与参照RGB值一致的像素点。
在本实施例中,扫描整张图像,寻找RGB值为(x,y,z)的像素点,以得到所有带有文本区域标注的像素点。
S134、以所述像素点为中心点进行邻域搜索。
在本实施例中,可以设置以所述像素点为中心点,半径为某一数值的圆圈作为该中心点的领域,当然,可以根据实际情况确定领域的范围。
S135、判断所述邻域中是否有多个RGB值与参照RGB值一致的像素点;
S136、若是,则获取所述邻域中RGB值与参照RGB值一致的像素点的坐标,以形成过渡坐标;
只有在领域内设有多个RGB值与参照RGB值一致的像素点,才可以确定该领域内设置有文本区域。
S137、对所述过渡坐标取平均值,以形成标记点坐标;
S138、根据标记点坐标获取文本区域的位置信息,以形成OCR数据。
如果邻域内有足够多RGB值为(x,y,z)的像素点,可以认定RGB值为(x,y,z)的像素点为色块中的点,找出所有满足RGB值为(x,y,z)该条件的点,取它们坐标平均值作为标记点的坐标,对每一个要识别的位置,取一个不同的颜色,根据颜色不同判断该坐标的属性。最后可得到所有需要位置的坐标。
也就是依据不同的标注信息获取不同的RGB值,再确定中心点,在该中心点的领域内搜索与中心点的RGB值一致的像素点,根据多个像素点确定文本区域的标记点的坐标,进而得到所有文本区域的位置信息,也就是文本区域的标注点的坐标。
必须对每个标注图像中的文本区域标注信息不同的RGB值按照上述的方式获取对应的每个文本区域的标记点的坐标。
若否,则进入结束步骤。
通过使用Photoshop提供JavaScript的接口解析原始数据素材,通过脚本程序控制Photoshop的处理模块进行批量文本修改、图像变换等操作,最后得到批量的仿真OCR数据,同时也输出了数据标签,无需人工干预,在有独立显卡支持的计算机上每小时可生成400张左右高清OCR训练图片,基本上隔夜即可生成能达到训练要求数量的数据,数据产出时标记点的坐标也已生成,无需人工标注,节省大量人力物力。
上述的OCR数据生成方法,通过借助Photoshop所提供JavaScript接口,对原始数据素材进行解析和批量修改,形成带有文本区域标注的标注图像,在对标注图像进行文本区域识别,以得到该文本区域的位置信息,由此形成用于训练OCR的OCR数据,自动化完成OCR数据的生成,且生成数据的速度快,且数据调整细节简单,实用性强。
图12是本发明实施例提供的一种OCR数据生成装置300的示意性框图。如图12所示,对应于以上OCR数据生成方法,本发明还提供一种OCR数据生成装置300。该OCR数据生成装置300包括用于执行上述OCR数据生成方法的单元,该装置可以被配置服务器中。
具体地,请参阅图12,该OCR数据生成装置300包括:
素材制作单元301,用于制作原始数据素材;
标记图像获取单元302,用于对原始数据素材进行解析和批量修改,以得到标记图像;
OCR数据形成单元303,用于对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
在一实施例中,所述素材制作单元301包括:
图片获取子单元,用于获取高清空白图片;
文本插入子单元,用于在高清空白图片插入文本,以形成原始数据素材。
在一实施例中,所述标记图像形成单元包括:
图层分析子单元,用于通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
文本随机生成子单元,用于原始数据素材的图层上随机生成文本信息;
位置调整子单元,用于对保存后的文本信息的位置进行随机调整,以形成初步图像;
转换子单元,用于对初步图像转换成智能对象,以形成第二图像;
皱褶制作子单元,用于对第二图像进行皱褶制作,以形成第三图像;
形变处理子单元,用于对第三图像进行形变处理,以得到第四图像;
背景处理子单元,用于对第四图像进行背景添加处理,以得到第五图像;
保存子单元,用于保存第五图像;
区域标记子单元,用于对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
在一实施例中,所述皱褶制作子单元包括:
皱纸图片获取模块,用于获取空白皱纸图片;
缩放模块,用于将空白皱纸图片缩放到第二图像大小;
皱纸图片处理模块,用于将缩放后的空白皱纸图片进行去色、模糊以及边缘化处理,以形成待综合图像;
融合模块,用于将待综合图像与第二图像进行图层融合,以形成第三图像。
在一实施例中,所述OCR数据形成单元303包括:
信息获取子单元,用于获取标记图像的标注信息;
参照RGB值形成子单元,用于根据所述标注信息获取标注信息所对应的色块RGB值,以得到参照RGB值;
扫描子单元,用于扫描所述标记图像以获取RGB值与参照RGB值一致的像素点;
搜索子单元,用于以所述像素点为中心点进行邻域搜索;
判断子单元,用于判断所述邻域中是否有多个RGB值与参照RGB值一致的像素点;
过渡坐标获取子单元,用于若是,则获取所述邻域中RGB值与参照RGB值一致的像素点的坐标,以形成过渡坐标;
计算子单元,用于对所述过渡坐标取平均值,以形成标记点坐标;
位置信息获取子单元,用于根据标记点坐标获取文本区域的位置信息,以形成OCR数据。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述OCR数据生成装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述OCR数据生成装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。
请参阅图13,图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器。
参阅图13,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种OCR数据生成方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种OCR数据生成方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
制作原始数据素材;
对原始数据素材进行解析和批量修改,以得到标记图像;
对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
在一实施例中,处理器502在实现所述制作原始数据素材步骤时,具体实现如下步骤:
获取高清空白图片;
在高清空白图片插入文本,以形成原始数据素材。
在一实施例中,处理器502在实现所述对原始数据素材进行解析和批量修改,以得到标记图像步骤时,具体实现如下步骤:
通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
在原始数据素材的图层上随机生成文本信息;
对保存后的文本信息的位置进行随机调整,以形成初步图像;
对初步图像转换成智能对象,以形成第二图像;
对第二图像进行皱褶制作,以形成第三图像;
对第三图像进行形变处理,以得到第四图像;
对第四图像进行背景添加处理,以得到第五图像;
保存第五图像;
对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
在一实施例中,处理器502在实现所述对第二图像进行皱褶制作,以形成第三图像步骤时,具体实现如下步骤:
获取空白皱纸图片;
将空白皱纸图片缩放到第二图像大小;
将缩放后的空白皱纸图片进行去色、模糊以及边缘化处理,以形成待综合图像;
将待综合图像与第二图像进行图层融合,以形成第三图像。
在一实施例中,处理器502在实现所述对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据步骤时,具体实现如下步骤:
获取标记图像的标注信息;
根据所述标注信息获取标注信息所对应的色块RGB值,以得到参照RGB值;
扫描所述标记图像以获取RGB值与参照RGB值一致的像素点;
以所述像素点为中心点进行邻域搜索;
判断所述邻域中是否有多个RGB值与参照RGB值一致的像素点;
若是,则获取所述邻域中RGB值与参照RGB值一致的像素点的坐标,以形成过渡坐标;
对所述过渡坐标取平均值,以形成标记点坐标;
根据标记点坐标获取文本区域的位置信息,以形成OCR数据。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
制作原始数据素材;
对原始数据素材进行解析和批量修改,以得到标记图像;
对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述制作原始数据素材步骤时,具体实现如下步骤:
获取高清空白图片;
在高清空白图片插入文本,以形成原始数据素材。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对原始数据素材进行解析和批量修改,以得到标记图像步骤时,具体实现如下步骤:
通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
在原始数据素材的图层上随机生成文本信息;
对保存后的文本信息的位置进行随机调整,以形成初步图像;
对初步图像转换成智能对象,以形成第二图像;
对第二图像进行皱褶制作,以形成第三图像;
对第三图像进行形变处理,以得到第四图像;
对第四图像进行背景添加处理,以得到第五图像;
保存第五图像;
对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对第二图像进行皱褶制作,以形成第三图像步骤时,具体实现如下步骤:
获取空白皱纸图片;
将空白皱纸图片缩放到第二图像大小;
将缩放后的空白皱纸图片进行去色、模糊以及边缘化处理,以形成待综合图像;
将待综合图像与第二图像进行图层融合,以形成第三图像。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据步骤时,具体实现如下步骤:
获取标记图像的标注信息;
根据所述标注信息获取标注信息所对应的色块RGB值,以得到参照RGB值;
扫描所述标记图像以获取RGB值与参照RGB值一致的像素点;
以所述像素点为中心点进行邻域搜索;
判断所述邻域中是否有多个RGB值与参照RGB值一致的像素点;
若是,则获取所述邻域中RGB值与参照RGB值一致的像素点的坐标,以形成过渡坐标;
对所述过渡坐标取平均值,以形成标记点坐标;
根据标记点坐标获取文本区域的位置信息,以形成OCR数据。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.OCR数据生成方法,其特征在于,包括:
制作原始数据素材;
对原始数据素材进行解析和批量修改,以得到标记图像;
对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
2.根据权利要求1所述的OCR数据生成方法,其特征在于,所述制作原始数据素材,包括:
获取高清空白图片;
在高清空白图片插入文本,以形成原始数据素材。
3.根据权利要求1所述的OCR数据生成方法,其特征在于,所述对原始数据素材进行解析和批量修改,以得到标记图像,包括:
通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
在原始数据素材的图层上随机生成文本信息;
对保存后的文本信息的位置进行随机调整,以形成初步图像;
对初步图像转换成智能对象,以形成第二图像;
对第二图像进行皱褶制作,以形成第三图像;
对第三图像进行形变处理,以得到第四图像;
对第四图像进行背景添加处理,以得到第五图像;
保存第五图像;
对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
4.根据权利要求3所述的OCR数据生成方法,其特征在于,所述对第二图像进行皱褶制作,以形成第三图像,包括:
获取空白皱纸图片;
将空白皱纸图片缩放到第二图像大小;
将缩放后的空白皱纸图片进行去色、模糊以及边缘化处理,以形成待综合图像;
将待综合图像与第二图像进行图层融合,以形成第三图像。
5.根据权利要求1至4任一项所述的OCR数据生成方法,其特征在于,所述对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据,包括:
获取标记图像的标注信息;
根据所述标注信息获取标注信息所对应的色块RGB值,以得到参照RGB值;
扫描所述标记图像以获取RGB值与参照RGB值一致的像素点;
以所述像素点为中心点进行邻域搜索;
判断所述邻域中是否有多个RGB值与参照RGB值一致的像素点;
若是,则获取所述邻域中RGB值与参照RGB值一致的像素点的坐标,以形成过渡坐标;
对所述过渡坐标取平均值,以形成标记点坐标;
根据标记点坐标获取文本区域的位置信息,以形成OCR数据。
6.OCR数据生成装置,其特征在于,包括:
素材制作单元,用于制作原始数据素材;
标记图像获取单元,用于对原始数据素材进行解析和批量修改,以得到标记图像;
OCR数据形成单元,用于对标记图像进行识别以提取出文本区域的位置信息,形成OCR数据。
7.根据权利要求6所述的OCR数据生成装置,其特征在于,所述素材制作单元包括:
图片获取子单元,用于获取高清空白图片;
文本插入子单元,用于在高清空白图片插入文本,以形成原始数据素材。
8.根据权利要求7所述的OCR数据生成装置,其特征在于,所述标记图像形成单元包括:
图层分析子单元,用于通过用Photoshop对原始数据素材进行图层解析,以得到原始数据素材的图层;
文本随机生成子单元,用于原始数据素材的图层上随机生成文本信息;
位置调整子单元,用于对保存后的文本信息的位置进行随机调整,以形成初步图像;
转换子单元,用于对初步图像转换成智能对象,以形成第二图像;
皱褶制作子单元,用于对第二图像进行皱褶制作,以形成第三图像;
形变处理子单元,用于对第三图像进行形变处理,以得到第四图像;
背景处理子单元,用于对第四图像进行背景添加处理,以得到第五图像;
保存子单元,用于保存第五图像;
区域标记子单元,用于对保存后的第五图像进行文本区域标记和保存,以形成标记图像。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至5中任一项所述的方法。
CN201910213405.6A 2019-03-20 2019-03-20 Ocr数据生成方法、装置、计算机设备及存储介质 Active CN109948549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910213405.6A CN109948549B (zh) 2019-03-20 2019-03-20 Ocr数据生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910213405.6A CN109948549B (zh) 2019-03-20 2019-03-20 Ocr数据生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109948549A true CN109948549A (zh) 2019-06-28
CN109948549B CN109948549B (zh) 2022-11-29

Family

ID=67010293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910213405.6A Active CN109948549B (zh) 2019-03-20 2019-03-20 Ocr数据生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109948549B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956147A (zh) * 2019-12-05 2020-04-03 京东数字科技控股有限公司 生成训练数据的方法及装置
CN111310693A (zh) * 2020-02-26 2020-06-19 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111325106A (zh) * 2020-01-22 2020-06-23 京东数字科技控股有限公司 生成训练数据的方法及装置
CN111401365A (zh) * 2020-03-17 2020-07-10 海尔优家智能科技(北京)有限公司 Ocr图像自动生成方法及装置
CN111914846A (zh) * 2020-07-03 2020-11-10 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN112766268A (zh) * 2021-03-02 2021-05-07 阳光财产保险股份有限公司 一种文本标注生成方法、装置、电子设备及存储介质
WO2021212658A1 (zh) * 2020-04-24 2021-10-28 平安国际智慧城市科技股份有限公司 Ocr图像样本生成、印刷体验证方法、装置、设备及介质
CN113781607A (zh) * 2021-09-17 2021-12-10 平安科技(深圳)有限公司 Ocr图像的标注数据的处理方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162256A (ja) * 1992-06-19 1994-06-10 Toho Business Kanri Center:Kk Ocrシステム及びocr入力用紙作成方法
JP2008122788A (ja) * 2006-11-14 2008-05-29 Canon Marketing Japan Inc 画像処理装置、画像処理方法、該方法を実行するためのプログラム及び記憶媒体
CN102331914A (zh) * 2010-05-24 2012-01-25 株式会社Pfu 表单处理系统、ocr装置、表单制作装置及其处理方法
US20150109186A1 (en) * 2010-02-03 2015-04-23 Hoyt Mac Layson, JR. Head Mounted Portable Wireless Display Device For Location Derived Messaging
CN105005793A (zh) * 2015-07-15 2015-10-28 广州敦和信息技术有限公司 一种发票字条自动识别录入的方法及装置
US20160259991A1 (en) * 2015-03-05 2016-09-08 Wipro Limited Method and image processing apparatus for performing optical character recognition (ocr) of an article
CN106503732A (zh) * 2016-10-13 2017-03-15 北京云江科技有限公司 文本图像与非文本图像的分类方法和分类系统
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162256A (ja) * 1992-06-19 1994-06-10 Toho Business Kanri Center:Kk Ocrシステム及びocr入力用紙作成方法
JP2008122788A (ja) * 2006-11-14 2008-05-29 Canon Marketing Japan Inc 画像処理装置、画像処理方法、該方法を実行するためのプログラム及び記憶媒体
US20150109186A1 (en) * 2010-02-03 2015-04-23 Hoyt Mac Layson, JR. Head Mounted Portable Wireless Display Device For Location Derived Messaging
CN102331914A (zh) * 2010-05-24 2012-01-25 株式会社Pfu 表单处理系统、ocr装置、表单制作装置及其处理方法
US20160259991A1 (en) * 2015-03-05 2016-09-08 Wipro Limited Method and image processing apparatus for performing optical character recognition (ocr) of an article
CN105005793A (zh) * 2015-07-15 2015-10-28 广州敦和信息技术有限公司 一种发票字条自动识别录入的方法及装置
CN106503732A (zh) * 2016-10-13 2017-03-15 北京云江科技有限公司 文本图像与非文本图像的分类方法和分类系统
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956147A (zh) * 2019-12-05 2020-04-03 京东数字科技控股有限公司 生成训练数据的方法及装置
CN111325106A (zh) * 2020-01-22 2020-06-23 京东数字科技控股有限公司 生成训练数据的方法及装置
CN111325106B (zh) * 2020-01-22 2023-11-03 京东科技控股股份有限公司 生成训练数据的方法及装置
CN111310693B (zh) * 2020-02-26 2023-08-29 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111310693A (zh) * 2020-02-26 2020-06-19 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111401365A (zh) * 2020-03-17 2020-07-10 海尔优家智能科技(北京)有限公司 Ocr图像自动生成方法及装置
CN111401365B (zh) * 2020-03-17 2024-03-22 海尔优家智能科技(北京)有限公司 Ocr图像自动生成方法及装置
WO2021212658A1 (zh) * 2020-04-24 2021-10-28 平安国际智慧城市科技股份有限公司 Ocr图像样本生成、印刷体验证方法、装置、设备及介质
CN111914846A (zh) * 2020-07-03 2020-11-10 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN111914846B (zh) * 2020-07-03 2024-05-24 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN112766268A (zh) * 2021-03-02 2021-05-07 阳光财产保险股份有限公司 一种文本标注生成方法、装置、电子设备及存储介质
CN113781607A (zh) * 2021-09-17 2021-12-10 平安科技(深圳)有限公司 Ocr图像的标注数据的处理方法、装置、设备及存储介质
CN113781607B (zh) * 2021-09-17 2023-09-19 平安科技(深圳)有限公司 Ocr图像的标注数据的处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109948549B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN109948549A (zh) Ocr数据生成方法、装置、计算机设备及存储介质
US10922449B2 (en) Computer aided systems and methods for creating custom products
US11030825B2 (en) Computer aided systems and methods for creating custom products
US10049308B1 (en) Synthesizing training data
CN103975342B (zh) 用于移动图像捕获和处理的系统和方法
CN111095258A (zh) 用于创建定制产品的计算机辅助系统和方法
CN103530594B (zh) 一种提供增强现实的方法、系统及终端
EP2261860B1 (en) Real-time image personalization
CN108846379A (zh) 面单识别方法、系统、终端设备及存储介质
CN109416731A (zh) 文档光学字符识别
KR20120127655A (ko) 직관적 컴퓨팅 방법들 및 시스템들
CN109117228A (zh) 图形界面的生成方法及装置
CN107016387A (zh) 一种识别标签的方法及装置
KR20120075487A (ko) 센서-기반 모바일 검색, 관련 방법들 및 시스템들
CN102893327A (zh) 直觉计算方法和系统
CN107845092A (zh) 服装logo效果检测方法、装置及电子设备
CN111539309A (zh) 一种基于ocr的数据处理方法、系统、平台、设备及介质
CN109271980A (zh) 一种车辆铭牌全信息识别方法、系统、终端及介质
US20130035081A1 (en) Semantic magazine pages
CN115249306B (zh) 图像分割模型训练方法、图像处理方法、装置及存储介质
CN112749606A (zh) 一种文本定位方法和装置
Yao et al. Manga vectorization and manipulation with procedural simple screentone
CN110414345A (zh) 卡通图像生成方法、装置、设备及存储介质
CN110533704A (zh) 油墨标签的识别验伪方法、装置、设备及介质
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee after: Shenzhen Huafu Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: SHENZHEN HUAFU INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder