CN110956147A - 生成训练数据的方法及装置 - Google Patents

生成训练数据的方法及装置 Download PDF

Info

Publication number
CN110956147A
CN110956147A CN201911234199.3A CN201911234199A CN110956147A CN 110956147 A CN110956147 A CN 110956147A CN 201911234199 A CN201911234199 A CN 201911234199A CN 110956147 A CN110956147 A CN 110956147A
Authority
CN
China
Prior art keywords
text
image
training data
character
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911234199.3A
Other languages
English (en)
Other versions
CN110956147B (zh
Inventor
付靖玲
裴积全
吴大江
单珂
张羽康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201911234199.3A priority Critical patent/CN110956147B/zh
Publication of CN110956147A publication Critical patent/CN110956147A/zh
Application granted granted Critical
Publication of CN110956147B publication Critical patent/CN110956147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本公开涉及生成训练数据的方法及装置、计算机可存储介质,涉及计算机技术领域。生成训练数据的方法包括:获取包括文字内容的第一图像和与所述文字内容对应的文本,所述第一图像包括文字标记,所述文字标记用于标记所述文字内容的位置;在不同场景条件下,自动对所述第一图像进行拍摄,得到多个第二图像,每个第二图像包括所述文字标记;对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标;对于每个第二图像,去除所述文字标记,得到第三图像;将所述文本、所述文字坐标和所述第三图像,确定为训练数据,用于训练光学字符识别OCR模型。

Description

生成训练数据的方法及装置
技术领域
本公开涉及计算机技术领域,特别涉及生成训练数据的方法及装置、计算机可存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)训练数据是用来训练OCR模型的数据。OCR模型的优劣与训练数据的质量和数量紧密相关。要想让一个优秀的算法把潜力发挥到极致,除了算法设计外,训练数据的数量和标注质量发挥了关键的作用。
目前OCR模型的训练数据的生成方式有人工采集和计算机程序合成两种。
通过人工采集的方式生成训练数据包括以下步骤。首先,人工收集素材。其次,人工在不同场景、不同角度、不同光照等复杂条件下对素材进行拍照,收集大量的图片。然后,人工通过打标工具分别标注出每一张图片的每一条文本行的四个顶点的位置,同时标注出每一条文本行的文本内容。最后,人工多次对标注结果进行校对。
通过人工采集的方式生成训练数据具有人工标注耗时长、标注成本高且存在误差。针对此技术问题,提出了一种通过计算机程序合成的方式生成训练数据的方法。通过计算机程序合成的方式生成训练数据的方法包括通过传统图像合成方法生成、通过Photoshop图像处理软件提供的JavaScript技术对收集的素材进行批量修改生成或通过GAN(Generative Adversarial Network,生成式对抗网络)生成。
发明内容
发明人认为:相关的生成训练数据的方法中,难以模拟现实场景,利用生成的训练数据训练得到的OCR模型识别真实图像的准确性较差。
针对上述技术问题,本公开提出了一种解决方案,模拟现实场景,自动生成符合现实场景的训练数据,提高了利用生成的训练数据训练得到的OCR模型识别真实图像的准确性。
根据本公开的第一方面,提供了一种生成训练数据的方法,包括:获取包括文字内容的第一图像和与所述文字内容对应的文本,所述第一图像包括文字标记,所述文字标记用于标记所述文字内容的位置;在不同场景条件下,自动对所述第一图像进行拍摄,得到多个第二图像,每个第二图像包括所述文字标记;对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标;对于每个第二图像,去除所述文字标记,得到第三图像;将所述文本、所述文字坐标和所述第三图像,确定为训练数据,用于训练光学字符识别OCR模型。
在一些实施例中,在不同场景条件下,自动对所述第一图像拍摄,得到至少一个第二图像包括:利用拍摄装置自动对所述第一图像拍摄,得到至少一个第二图像,其中,所述拍摄装置被配置为自动模拟所述不同场景条件。
在一些实施例中,所述不同场景条件包括:光照和拍摄角度中的至少一种。
在一些实施例中,在所述第一图像为纸质图像的情况下,自动模拟所述不同场景条件包括:自动对所述第一图像随机折叠、在所述第一图像上增加污点或对所述第一图像进行纸张变形。
在一些实施例中,获取包括文字内容的第一图像和与所述文字内容对应的文本包括:利用文档合成算法,获取所述第一图像和所述文本。
在一些实施例中,对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标包括:对于每个第二图像,利用关键点检测算法,提取所述文字标记;根据所述文字标记的位置坐标,确定所述文字内容的文字坐标。
在一些实施例中,对于每个第二图像,去除所述文字标记,得到第三图像包括:提取所述每个第二图像的背景;使用所述背景替换所述文字标记。
在一些实施例中,所述文字标记包括第一文字标记和第二文字标记,所述第一文字标记用于标记所述文字内容中每个文字的左上角位置、左下角位置、右上角位置和右下角位置,所述第二文字标记用于标记所述文字内容中每行文字的左上角位置、左下角位置、右上角位置和右下角位置。
在一些实施例中,所述文字坐标包括第一文字坐标和第二文字坐标,所述第一文字坐标为所述文字内容中每个文字的左上角位置坐标、左下角位置坐标、右上角位置坐标和右下角位置坐标,所述第二文字坐标为所述文字内容中每行文字的左上角位置坐标、左下角位置坐标、右上角位置坐标和右下角位置坐标。
在一些实施例中,文字标记为半径为r且圆心坐标为(x,y)的圆点, r大于0,提取所述每个第二图像的背景包括:利用公式(x′,y′)= (max(1,x-r-p),max(1,y-r-p))计算所述背景的坐标,其中, (x′,y′)为所述背景的坐标,p为预设偏移量,p大于0。
根据本公开第二方面,提供了一种生成训练数据的装置,包括:获取模块,被配置为获取包括文字内容的第一图像和与所述文字内容对应的文本,所述第一图像包括文字标记,所述文字标记用于标记所述文字内容的位置;拍摄模块,被配置为在不同场景条件下,自动对所述第一图像进行拍摄,得到多个第二图像,每个第二图像包括所述文字标记;第一确定模块,被配置为对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标;去除模块,被配置为对于每个第二图像,去除所述文字标记,得到第三图像;第二确定模块,被配置为将所述文本、所述文字坐标和所述第三图像,确定为训练数据,用于训练光学字符识别OCR模型。
根据本公开第三方面,提供了一种生成训练数据的装置,包括:上述任一实施例所述的数据传输装置;和上述任一实施例所述的生成训练数据的装置。
根据本公开第四方面,提供了一种生成训练数据的装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行上述任一实施例所述的生成训练数据的方法。
根据本公开的第五方面,一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述任一实施例所述的生成训练数据的方法。
在上述实施例中,模拟现实场景,自动生成符合现实场景的训练数据,提高了利用生成的训练数据训练得到的OCR模型识别真实图像的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出根据本公开一些实施例的生成训练数据的方法的流程图;
图2示出根据本公开一些实施例的第一图像中某一行文字的文字标记的示意图;
图3示出根据本公开一些实施例的生成训练数据的装置;
图4示出根据本公开一些实施例的生成训练数据的装置的框图;
图5示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
通过人力标注具有以下缺点。
(1)人工标注耗时较长
人工收集的方式需要投入大量的人力物力对数据进行拍摄和标注;因为数据收集和标注慢,项目周期容易被拉长,经常会出现数据不到位导致算法工程无法开展的情况,严重地降低了OCR的开发效率。
(2)人工标注成本较高
由于OCR算法所需要的数据量较为庞大,在使用人工标注时,会产生大量的人力成本支出,为开发总预算带来负担。对敏感数据进行标注时有泄露信息的风险。
(3)人工标注存在误差
标注人员在对图像进行标注时,实际上是在有限的时间内大量地做重复性的工作,难免会存在标注遗漏、错误标注等情况。这些错误数据会对模型训练产生不好的影响
另外,图像合成方法与GAN虽然能在短时间内合成大量图片,但是光照、纸张折痕、纸张上的污点等自然场景拍摄的数据难以合成,用合成数据训练的模型迁移到真实图片时效果不理想。通过 Photoshop中的JavaScript技术生成的图片样式比较单一,也难以生成和自然场景下的拍摄条件。
上述的生成训练数据的方法,难以模拟现实场景,利用生成的训练数据训练得到的OCR模型识别真实图像的准确性较差。
针对上述技术问题,本公开提出了一种解决方案,模拟现实场景,自动生成符合现实场景的训练数据,提高了利用生成的训练数据训练得到的OCR模型识别真实图像的准确性。
图1示出根据本公开一些实施例的生成训练数据的方法的流程图。
如图1所示,生成训练数据的方法包括步骤S110-步骤S150。
在步骤S110中,获取包括文字内容的第一图像和与文字内容对应的文本。第一图像包括文字标记。文字标记用于标记文字内容的位置。
在一些实施例中,获取包括文字内容的第一图像和与文字内容对应的文本包括:利用文档合成算法,获取第一图像和文本。例如,调用文档合成算法,设置不同字体、不同字体大小、不同字体颜色等条件生成类似真实文档的数据图像,即第一图像。生成第一图像的同时记录下每个字的内容和每个字和每行字的四个位置坐标,并在第一图像上的每个文字和每行文字的左上角位置注红色圆点、右上角位置标注绿色圆点,右下角位置标注蓝色圆点、左下角位置标注黄色圆点,该圆点的半径公式为
Figure RE-GDA0002378051350000061
单位为像素,然后依次用红、绿、蓝、黄色的四条的线段将四个顶点连接。
在一些实施例中,文字标记包括文字标记点和文字标记线段。例如,文字内容的每个文字和每行文字分别包括四个文字标记点和四个文字标记线段。
下面将结合图2详细介绍文字标记。
图2示出根据本公开一些实施例的第一图像中某一行文字的文字标记的示意图。
如图2所示,某一行文字的文字标记包括该行文字的四个顶点的文字标记点211、文字标记点212、文字标记点213和文字标记点214。文字标记点211为红色,文字标记点212为绿色,文字标记点213为蓝色,文字标记点214为黄色。
在一些实施例中,该行文字的文字标记还包括该行文字的四条边界的文字标记线段221、文字标记线段222、文字标记线段223和文字标记线段224。文字标记线段221为红色,文字标记线段222为绿色,文字标记线段223为蓝色,文字标记线段224为黄色。
对于每个文字的文字标记,采用与每行文字的文字标记相同的原理进行标记。
返回图1,在步骤S120中,在不同场景条件下,自动对第一图像进行拍摄,得到多个第二图像。每个第二图像包括文字标记。
在一些实施例中,在不同场景条件下,自动对第一图像进行拍摄,得到多个第二图像包括如下步骤。
利用拍摄装置自动对第一图像拍摄,得到至少一个第二图像。其中,拍摄装置被配置为自动模拟不同场景条件。例如,拍摄装置为云台拍摄装置。
在一些实施例中,不同场景条件包括光照和拍摄角度中的至少一种。例如,不同场景条件还包括旋转角度。
在一些实施例中,在第一图像为纸质图像的情况下,自动模拟不同场景条件包括:自动对第一图像随机折叠、在第一图像上增加污点或对所述第一图像进行纸张变形。例如,通过批量彩色打印第一图像,得到纸质版的第一图像。在一些实施例中,将纸质版的第一图像放置在云台拍摄装置的机械臂上,启动拍摄。云台拍摄装置就可以自动调节光照、拍摄角度对纸质版的第一图像进行拍照,同时云台拍摄转置上的握纸手臂自动对纸张进行随机折叠,模拟出人工采集图片的效果。
在步骤S130中,对于每个第二图像,根据文字标记,确定文字内容的文字坐标。
在一些实施例中,对于每个第二图像,根据文字标记,确定文字内容的文字坐标包括如下步骤。
首先,对于每个第二图像,利用关键点检测算法,提取文字标记。在一些实施例中,文字内容中的每个文字或每行文字的不同文字标记使用不同的颜色标记。根据文字标记的颜色特征和形状特征中的至少一种,利用关键点检测算法,提取文字标记。
例如,对图2所示的某一行文字,利用关键点检测算法,使用红色特征和圆形形状特征提取文字标记点211,使用绿色特征和圆形形状特征提取文字标记点212,使用蓝色特征和圆形形状特征提取文字标记点213,使用黄色特征和圆形形状特征提取文字标记线段214。利用关键点检测算法,使用红色特征和线段特征提取文字标记线段221,使用绿色特征和线段特征提取文字标记线段222,使用蓝色特征和线段特征提取文字标记线段223,使用黄色特征和线段特征提取文字标记线段224。
根据文字标记的位置坐标,确定文字内容的文字坐标。在提取到文字标记点的情况下,将文字标记点的位置坐标,确定为文字内容的文字坐标。在无法提取到文字标记点的情况下,将文字标记线段的交点的位置坐标,确定为文字内容的文字坐标。例如,文字标记线段的位置坐标使用线段的起点的位置坐标和终点的位置坐标表示。
在一些实施例中,文字标记包括第一文字标记和第二文字标记。第一文字标记用于标记文字内容中每个文字的左上角位置、左下角位置、右上角位置和右下角位置。第二文字标记用于标记文字内容中每行文字的左上角位置、左下角位置、右上角位置和右下角位置。
在一些实施例中,文字坐标包括第一文字坐标和第二文字坐标。第一文字坐标为文字内容中每个文字的左上角位置坐标、左下角位置坐标、右上角位置坐标和右下角位置坐标。第二文字坐标为文字内容中每行文字的左上角位置坐标、左下角位置坐标、右上角位置坐标和右下角位置坐标。
根据文字标记,可以确定每个文字或每行文字的四个位置。四个位置的位置坐标即为对应的文字坐标。
在步骤S140中,对于每个第二图像,去除文字标记,得到第三图像。在一些实施例中,对于每个第二图像,去除所述文字标记,得到第三图像包括如下步骤。
首先,提取每个第二图像的背景。例如,背景包括背景色或背景纹理。
然后,使用背景替换文字标记。例如,在背景为背景色的情况下,利用颜色填充算法,将文字标记替换为背景色。
在一些实施例中,文字标记为半径为r且圆心坐标为(x,y)的圆点, r大于0,提取每个第二图像的背景包括如下步骤。
利用公式(x′,y′)=(max(1,x-r-p),max(1,y-r-p))计算所述背景的坐标,其中,(x′,y′)为所述背景的坐标,p为预设偏移量,p 大于0。例如,p设置为5。max(1,x-r-p)表示在1和x-r-p中取最大值。这种方式可以避免提取的背景超过第二图像的范围,导致程序出错。应当理解,这里是以第二图像的左上角为坐标原点,从坐标原点向右为x轴方向,从坐标原点向下为y轴方向。
在步骤S150中,将文本、文字坐标和第三图像,确定为训练数据,用于训练光学字符识别OCR模型。
通过本公开的生成训练数据的方法,模拟现实场景,自动生成符合现实场景的训练数据,提高了利用生成的训练数据训练得到的 OCR模型识别真实图像的准确性。另外,本公开的生成训练数据的方法,能够快速合成训练数据,减少人力投入,且可直接得到文字坐标,达到自动标注的目的,提高了生成训练数据的效率,进而提高了 OCR模型的训练效率。
图3示出根据本公开一些实施例的生成训练数据的装置。
如图3所示,生成训练数据的装置3包括获取模块31、拍摄模块32、第一确定模块33、去除模块34、第二确定模块35。
获取模块31被配置为获取包括文字内容的第一图像和与所述文字内容对应的文本,所述第一图像包括文字标记,所述文字标记用于标记所述文字内容的位置,例如执行如图1所示的步骤S110。
拍摄模块32被配置为在不同场景条件下,自动对所述第一图像进行拍摄,得到多个第二图像,每个第二图像包括所述文字标记,例如执行如图1所示的步骤S120。
第一确定模块33被配置为对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标,例如执行如图1所示的步骤S130。
去除模块34被配置为对于每个第二图像,去除所述文字标记,得到第三图像,例如执行如图1所示的步骤S140。
第二确定模块35被配置为将所述文本、所述文字坐标和所述第三图像,确定为训练数据,用于训练光学字符识别OCR模型,例如执行如图1所示的步骤S150。
图4示出根据本公开一些实施例的生成训练数据的装置的框图。
如图4所示,生成训练数据的装置4包括存储器41;以及耦接至该存储器41的处理器42,存储器41用于存储执行生成训练数据的方法对应实施例的指令。处理器42被配置为基于存储在存储器41中的指令,执行本公开中任意一些实施例中的生成训练数据的方法。
图5示出用于实现本公开一些实施例的计算机系统的框图。
如图5所示,计算机系统50可以通用计算设备的形式表现。计算机系统50包括存储器510、处理器520和连接不同系统组件的总线500。
存储器510例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader) 以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行生成训练数据的方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器520可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线500可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构 (MCA)总线、外围组件互连(PCI)总线。
计算机系统50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520 之间可以通过总线500连接。输入输出接口530可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
通过上述实施例中的生成训练数据的方法及装置、计算机可存储介质,,模拟现实场景,自动生成符合现实场景的训练数据,提高了利用生成的训练数据训练得到的OCR模型识别真实图像的准确性。
至此,已经详细描述了根据本公开的生成训练数据的方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

Claims (13)

1.一种生成训练数据的方法,包括:
获取包括文字内容的第一图像和与所述文字内容对应的文本,所述第一图像包括文字标记,所述文字标记用于标记所述文字内容的位置;
在不同场景条件下,自动对所述第一图像进行拍摄,得到多个第二图像,每个第二图像包括所述文字标记;
对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标;
对于每个第二图像,去除所述文字标记,得到第三图像;
将所述文本、所述文字坐标和所述第三图像,确定为训练数据,用于训练光学字符识别OCR模型。
2.根据权利要求1所述的生成训练数据的方法,其中,在不同场景条件下,自动对所述第一图像拍摄,得到至少一个第二图像包括:
利用拍摄装置自动对所述第一图像拍摄,得到至少一个第二图像,其中,所述拍摄装置被配置为自动模拟所述不同场景条件。
3.根据权利要求2所述的生成训练数据的方法,其中,所述不同场景条件包括:
光照和拍摄角度中的至少一种。
4.根据权利要求2所述的生成训练数据的方法,其中,在所述第一图像为纸质图像的情况下,自动模拟所述不同场景条件包括:
自动对所述第一图像随机折叠、在所述第一图像上增加污点或对所述第一图像进行纸张变形。
5.根据权利要求1所述的生成训练数据的方法,其中,获取包括文字内容的第一图像和与所述文字内容对应的文本包括:
利用文档合成算法,获取所述第一图像和所述文本。
6.根据权利要求1所述的生成训练数据的方法,其中,对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标包括:
对于每个第二图像,利用关键点检测算法,提取所述文字标记;
根据所述文字标记的位置坐标,确定所述文字内容的文字坐标。
7.根据权利要求1所述的生成训练数据的方法,其中,对于每个第二图像,去除所述文字标记,得到第三图像包括:
提取所述每个第二图像的背景;
使用所述背景替换所述文字标记。
8.根据权利要求1所述的生成训练数据的方法,其中,所述文字标记包括第一文字标记和第二文字标记,所述第一文字标记用于标记所述文字内容中每个文字的左上角位置、左下角位置、右上角位置和右下角位置,所述第二文字标记用于标记所述文字内容中每行文字的左上角位置、左下角位置、右上角位置和右下角位置。
9.根据权利要求8所述的生成训练数据的方法,其中,所述文字坐标包括第一文字坐标和第二文字坐标,所述第一文字坐标为所述文字内容中每个文字的左上角位置坐标、左下角位置坐标、右上角位置坐标和右下角位置坐标,所述第二文字坐标为所述文字内容中每行文字的左上角位置坐标、左下角位置坐标、右上角位置坐标和右下角位置坐标。
10.根据权利要求1所述的生成训练数据的方法,其中,文字标记为半径为r且圆心坐标为(x,y)的圆点,r大于0,提取所述每个第二图像的背景包括:
利用公式(x′,y′)=(max(1,x-r-p),max(1,y-r-p))计算所述背景的坐标,其中,(x′,y′)为所述背景的坐标,p为预设偏移量,p大于0。
11.一种生成训练数据的装置,包括:
获取模块,被配置为获取包括文字内容的第一图像和与所述文字内容对应的文本,所述第一图像包括文字标记,所述文字标记用于标记所述文字内容的位置;
拍摄模块,被配置为在不同场景条件下,自动对所述第一图像进行拍摄,得到多个第二图像,每个第二图像包括所述文字标记;
第一确定模块,被配置为对于每个第二图像,根据所述文字标记,确定所述文字内容的文字坐标;
去除模块,被配置为对于每个第二图像,去除所述文字标记,得到第三图像;
第二确定模块,被配置为将所述文本、所述文字坐标和所述第三图像,确定为训练数据,用于训练光学字符识别OCR模型。
12.一种生成训练数据的装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至10任一项所述的生成训练数据的方法。
13.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至10任一项所述的生成训练数据的方法。
CN201911234199.3A 2019-12-05 2019-12-05 生成训练数据的方法及装置 Active CN110956147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911234199.3A CN110956147B (zh) 2019-12-05 2019-12-05 生成训练数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911234199.3A CN110956147B (zh) 2019-12-05 2019-12-05 生成训练数据的方法及装置

Publications (2)

Publication Number Publication Date
CN110956147A true CN110956147A (zh) 2020-04-03
CN110956147B CN110956147B (zh) 2022-09-30

Family

ID=69979938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234199.3A Active CN110956147B (zh) 2019-12-05 2019-12-05 生成训练数据的方法及装置

Country Status (1)

Country Link
CN (1) CN110956147B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914846A (zh) * 2020-07-03 2020-11-10 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN113158982A (zh) * 2021-05-17 2021-07-23 广东中卡云计算有限公司 一种半介入式的目标关键点标注方法
CN113420597A (zh) * 2021-05-24 2021-09-21 北京三快在线科技有限公司 环形交叉口识别方法及装置,电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778730A (zh) * 2016-12-29 2017-05-31 深圳爱拼信息科技有限公司 一种用于快速生成ocr训练样本的自适应方法及系统
CN108460414A (zh) * 2018-02-27 2018-08-28 北京三快在线科技有限公司 训练样本图像的生成方法、装置及电子设备
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109919010A (zh) * 2019-01-24 2019-06-21 北京三快在线科技有限公司 图像处理方法及装置
CN109948549A (zh) * 2019-03-20 2019-06-28 深圳市华付信息技术有限公司 Ocr数据生成方法、装置、计算机设备及存储介质
US20190205638A1 (en) * 2017-12-28 2019-07-04 Baidu Online Network Technology (Beijing) Co., Ltd . Method and apparatus for training a character detector based on weak supervision, system and medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778730A (zh) * 2016-12-29 2017-05-31 深圳爱拼信息科技有限公司 一种用于快速生成ocr训练样本的自适应方法及系统
US20190205638A1 (en) * 2017-12-28 2019-07-04 Baidu Online Network Technology (Beijing) Co., Ltd . Method and apparatus for training a character detector based on weak supervision, system and medium
CN108460414A (zh) * 2018-02-27 2018-08-28 北京三快在线科技有限公司 训练样本图像的生成方法、装置及电子设备
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109919010A (zh) * 2019-01-24 2019-06-21 北京三快在线科技有限公司 图像处理方法及装置
CN109948549A (zh) * 2019-03-20 2019-06-28 深圳市华付信息技术有限公司 Ocr数据生成方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914846A (zh) * 2020-07-03 2020-11-10 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN111914846B (zh) * 2020-07-03 2024-05-24 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN113158982A (zh) * 2021-05-17 2021-07-23 广东中卡云计算有限公司 一种半介入式的目标关键点标注方法
CN113420597A (zh) * 2021-05-24 2021-09-21 北京三快在线科技有限公司 环形交叉口识别方法及装置,电子设备及存储介质

Also Published As

Publication number Publication date
CN110956147B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN110689037B (zh) 用于使用深度网络的自动对象注释的方法和系统
CN110956147B (zh) 生成训练数据的方法及装置
CN111474184B (zh) 基于工业机器视觉的aoi字符缺陷检测方法和装置
CN110674815A (zh) 基于深度学习关键点检测的发票图像畸变校正方法
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
JP6293386B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP2007148677A (ja) 画像処理装置、画像処理方法
CN104517101A (zh) 一种基于像素平方差匹配的游戏扑克牌识别方法
TWI751426B (zh) 影像處理系統、影像處理方法及程式產品
CN107358184A (zh) 文档文字的提取方法及提取装置
CN112446262A (zh) 文本分析方法、装置、终端和计算机可读存储介质
CN113903024A (zh) 一种手写票据数值信息识别方法、系统、介质及装置
CN111126391A (zh) 一种印刷字符缺陷定位方法
CN111652205B (zh) 基于深度学习的文本矫正方法、装置、设备和介质
CN111325106B (zh) 生成训练数据的方法及装置
CN111951333A (zh) 六维姿态数据集自动生成方法、系统、终端以及存储介质
CN114187253A (zh) 一种电路板零件安装检测方法
CN114119695A (zh) 一种图像标注方法、装置及电子设备
CN113902402A (zh) 基于ar技术的单据辅助填写方法、系统、存储介质及装置
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
KR20110087620A (ko) 레이아웃 기반의 인쇄매체 페이지 인식방법
CN115063279B (zh) 一种文本水印图像的预处理方法和装置
Dvorak et al. Object state recognition for automatic AR-based maintenance guidance
CN111401365B (zh) Ocr图像自动生成方法及装置
US20180313701A1 (en) Temperature map creation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant