CN111401365A - Ocr图像自动生成方法及装置 - Google Patents

Ocr图像自动生成方法及装置 Download PDF

Info

Publication number
CN111401365A
CN111401365A CN202010189353.6A CN202010189353A CN111401365A CN 111401365 A CN111401365 A CN 111401365A CN 202010189353 A CN202010189353 A CN 202010189353A CN 111401365 A CN111401365 A CN 111401365A
Authority
CN
China
Prior art keywords
coordinate information
character
objects
information
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010189353.6A
Other languages
English (en)
Other versions
CN111401365B (zh
Inventor
潘威滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haier Uplus Intelligent Technology Beijing Co Ltd
Original Assignee
Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haier Uplus Intelligent Technology Beijing Co Ltd filed Critical Haier Uplus Intelligent Technology Beijing Co Ltd
Priority to CN202010189353.6A priority Critical patent/CN111401365B/zh
Publication of CN111401365A publication Critical patent/CN111401365A/zh
Application granted granted Critical
Publication of CN111401365B publication Critical patent/CN111401365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种OCR图像自动生成方法及装置,其中,OCR图像自动生成方法包括:获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。通过本发明,解决了相关技术中,OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题,以达到可高效的获取大量带有标签的OCR图像数据的效果。

Description

OCR图像自动生成方法及装置
技术领域
本发明涉及图像处理、图像生成及计算机视觉领域,具体而言,涉及一种OCR图像自动生成方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指在图像中识别出所有文字,数字,标点符号等各种字符。随着深度学习在图像领域中发挥的巨大作用,目前,主流的OCR识别算法多采用监督深度学习模型进行实现。监督深度学习模型由于其参数量巨大,为保证模型优秀的泛化能力,需要大量带标签的图像数据作为训练集输入至神经网络中进行学习。
但是,上述采用监督深度学习模型进行OCR识别的过程中存在以下问题:原始的OCR图像数据难以大规模获取。现有的公开数据集中基本没有海量的OCR图像数据,进而造成原始数据的获取困难。相关技术中对此多采用以下方式以获取原始图像数据:1)数据爬取,即通过通过网络爬取相关图像数据,然后采用机器筛选与人工筛选相结合的方式,得到与任务相关的可用原始图像数据;但数据爬取在后续过程中,需对爬取的数据进行程序筛选,程序去重,人工筛选等一系列繁琐耗时的处理过程。2)数据生成,即自动化生成图像数据,目前主流的方法包括数据增强和对抗生成网络两种方法;数据增强方法是指在图像中随机增加噪声,偏转,裁剪等简单操作,此方法操作简单可控,但缺点是无法生成真实图像中各种复杂情况的图像,放入到深度学习模型中训练效果提升有限;对抗生成网络(Generative Adversarial Network,GAN)方法是指采用深度学习中GAN网络模型,自动生成类似于真实场景中可能出现的各种图像,此方法优点是生成的伪真实图像非常类似于真实图像,但缺点是无法对应生成标签数据,所以在后续过程中,还需要人工标注数据。
与此同时,在获取图像数据的基础上,还需获得图像的标签数据。因为在OCR识别中,需要的标签数据为每个文字的边框信息(即文字左上角xy坐标和正好框住文字所需的边框长宽),因此,即便是几行简单文字,由于需要对每个文字做边框标注也会耗费相当的人力与时间成本。相关技术中,获得图像的标签数据的方式主要包括两种:1)纯手工标注,即不采取任何自动化方式,存在耗时耗力的缺点,并且由于手工标注本身也存在误差,可能使得最终学习的网络模型稳定性较差;2)采用机器标注配合手工校正的方式,即先通过机器自动标注,但由于准确率很低,仍然需要大量人力去校正机器的标注结果。
针对上述相关技术中,OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题,相关技术中尚未提出有效的解决方案。
发明内容
本发明实施例提供一种OCR图像自动生成方法及装置,以至少解决相关技术中OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题。
根据本发明的一个实施例,提供了一种OCR图像自动生成方法,包括:
获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。
根据本发明的另一个实施例,还提供了一种OCR图像自动生成装置,包括:
获取模块,用于获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
生成模块,用于根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。
根据本发明的另一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的另一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于可在获取一个或多个文字对象的像素坐标信息的基础上,根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像;其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置。因此,本发明可以解决相关技术中OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题,以达到可高效的获取大量带有标签的OCR图像数据的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的OCR图像自动生成方法的流程图;
图2是根据本发明实施例提供的旋转矩阵的示意图;
图3是根据本发明实施例提供的平移矩阵的示意图;
图4是根据本发明实施例提供的像素坐标的示意图;
图5是根据本发明实施例提供的相机坐标的示意图;
图6是根据本发明实施例提供的世界坐标的示意图;
图7是根据本发明实施例提供的相机坐标与图像坐标的关系示意图;
图8是根据本发明实施例提供的OCR图像自动生成装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本实施例提供了一种OCR图像自动生成方法,图1是根据本发明实施例提供的OCR图像自动生成方法的流程图,如图1所示,本实施例中的OCR图像自动生成方法包括:
S102,获取一个或多个文字对象的像素坐标信息,其中,像素坐标信息用于指示文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
需要进一步说明的是,上述实施例中的文字对象用于指示预设的某个文字;在一可选实施例中,上述文字对象由字符信息与格式信息构成;其中,字符信息用于指示文字对象采用的字符,格式信息用于指示文字对象采用的格式。具体而言,上述文字对象中,用于指示的文字对象采用的字符的字符信息,即为通过字符所呈现的文字的内容,该字符信息包括并不限于中文字符、英文字符、数字字符、符号字符,例如,“甲”、“乙”、“one”、“two”、“1”、“2”等等;文字对象中,用于指示的文字对象采用的格式的格式信息,即为对上述字符信息指示的文字对象采用的字符所进行的格式设置,例如,字体、字号、加粗、倾斜、下划线等等。
需要进一步说明的是,每一个字符信息均可对应至一个或多个格式信息,以字符信息为中文字符“甲”为例,可分别将该字符设置为“宋体”、“楷体”、“黑体”、12号字号、14号字号、以及设置常见的加粗、倾斜、下划线、删除线等格式设置,从而得到多个采用不同格式的“甲”。上述每一个格式的“甲”均可作为一个文字对象,以实现上述字符信息对应至一个或多个格式信息。
需要进一步说明的是,为生成尽可能多的OCR图像,以扩大监督深度学习模型的样本数据量,通常而言,本实施例中的文字对象需尽可能的覆盖常见的文字对象,例如,常见的5000至6000个中文文字,26个英文字母、0至9十个数字,常见的符号等,以及对上述文字所进行的常见格式设置。在一可选实施例中,上述步骤S102中,获取一个或多个文字对象的像素坐标信息之前,包括:根据一个或多个字符信息与一个或多个格式信息,建立文字对象集合,其中,文字对象集合包括一个或多个文字对象。
需要进一步说明的是,上述可选实施例中,文字对象集合即为上述常见的文字对象的集合,该文字对象集合也可理解为文字对象库。通过预先建立该文字对象库,即可在OCR图像生成过程中,通过对库内的文字对象的排列组合,以得到尽可能多的OCR图像数据。上述文字对象集合在建立过程中,可首先根据上述常见的文字对象的字符,建立字符库,即建立包括上述5000至6000个中文文字,26个英文字母、0至9十个数字,常见的符号在内的字符库;在此基础上,选取常见的格式设置,例如,字体、字号、加粗、倾斜、下划线、英文的大小写等多个不同的格式设置,进一步将上述字符库中的每一个字符分别映射到每一个格式中,例如,将字符“甲”分别映射到上述每一个格式中,即得到“宋体甲”、“楷体甲”、“加粗甲”、“倾斜甲”等多个不同格式的字符“甲”,以此,即可在上述字符库的基础上进一步扩大文字对象的数量,以得到上述可选实施例中的文字对象集合。
需要进一步说明的是,上述步骤S102中,获取一个或多个文字对象的像素坐标信息,该一个或多个文字对象为图像格式的文字对象;由于构成图像的基本单位为像素,因此,每一个文字对象均由多个像素构成。上述实施例中的像素坐标信息即指示构成该文字对象的多个像素中,每一个像素在终端成像所得的图像中的坐标位置,即,像素坐标信息为构成文字对象的多个像素在终端成像所得的图像中的坐标位置的集合,故像素坐标信息亦可称为像素坐标点集。
需要进一步说明的是,上述终端成像所得的图像为虚拟的图像,本实施例中,该图像具体用于指示终端对拍摄对象,如本实施例中的一个或多个文字对象,完成拍摄后,拍摄对象经终端的光学组件成像后所生成的图像,如保存在终端内的图像。
通常而言,在确定文字对象的初始阶段,如上述建立文字对象集合的过程中,往往文字对象为非图像格式,故需对文字对象的格式进行转换处理,以下通过可选实施例的方式对文字对象的转换方式进行说明。
在一可选实施例中,上述步骤S102中,获取一个或多个文字对象的像素坐标信息,包括:
获取一个或多个文字对象的软件坐标信息,其中,软件坐标信息用于指示文字对象中的每一个像素在预设的软件中的坐标位置;
根据软件坐标信息,以得到一个或多个文字对象的世界坐标信息,其中,世界坐标信息用于指示文字对象中的每一个像素在三维空间内的坐标位置;
根据世界坐标信息,以得到一个或多个文字对象的像素坐标信息。
需要进一步说明的是,上述预设的软件可以为Photoshop等图像处理软件,该软件用于将文字对象以图像格式进行呈现,例如,将上述文字对象集合中的文字对象在Photoshop中进行显示,以生成每一个文字对象对应的图像,即可得到图像格式的文字对象。上述可选实施例中,文字对象的软件坐标信息即指示该文字对象中的每一个像素在用于显示该文字对象的软件,如上述Photoshop中的坐标位置,即,文字对象的软件坐标信息也为构成文字对象的多个像素的在用于显示该文字对象的软件内的坐标位置的集合,故软件坐标信息亦可称为软件坐标点集,因此,上述软件坐标信息可进一步表述为{(Aj x,Aj y)},其中,Aj用于表示软件坐标信息对应的文字对象中的任一像素,Aj x,Aj y分别用于表示该像素Aj的x轴坐标与y轴坐标。
需要进一步说明的是,上述软件坐标信息所指示的坐标位置的原点可以将软件中的某一固定位置设置为原点,如软件的左上角,在一可选实施例中,也可以将每一个文字对象的中心作为该文字对象中的每一个像素对应的软件坐标信息的原点,具体而言,在该可选实施例中,上述获取一个或多个文字对象的软件坐标信息,包括:
Figure BDA0002414912670000071
将文字对象的中心作为软件坐标原点,确定文字对象中的每一个像素在预设的软件中相对于软件坐标原点的坐标位置,以获取一个或多个文字对象的软件坐标信息。
需要进一步说明的是,上述世界坐标信息所指示的文字对象中的每一个像素在三维空间内的坐标位置,即为文字对象映射至三维空间内后,三维空间内文字对象中像素的坐标位置,文字对象的世界坐标信息即为构成文字对象的多个像素的在三维空间内映射的坐标位置的集合,故世界坐标信息亦可称为世界坐标点集。上述可选实施例中,根据软件坐标信息,以得到一个或多个文字对象的世界坐标信息的过程如下:
上式中,{(xw i,yw i,zw i)}用于表示将软件内的文字在三维空间中映射的对应的世界坐标信息;xw i,yw i,zw i分别用于表示将像素Aj映射到三维空间后的点的x、y、z坐标。
在一可选实施例中,上述根据世界坐标信息,以得到一个或多个文字对象的像素坐标信息,包括:
确定相机外参信息与相机内参信息,并根据相机外参信息与相机内参信息,以将世界坐标信息转换为一个或多个文字对象的像素坐标信息。
需要进一步说明的是,上述可选实施例中,相机外参又可称相机外参信息即相机外参数,相机内参信息又可称相机内参数。在真实拍摄过程中,相机(即本实施例中的终端)相对于三维空间内的文字对象进行拍摄过程中,相机与该文字对象之间的位置关系可能产生变化。上述可选实施例一方面通过相机外参对上述真实拍摄过程,相机与该文字对象之间的位置关系可能产生的变化进行确定;另一方面,不同的相机在拍摄过程中,可能会由于相机的自身属性而造成成像上存在差异,上述可选实施例则可通过相机内参对相机的自身属性对成像的影响进行确定。
在一可选实施例中,上述确定相机外参信息,包括:
根据预设的旋转角度以获取旋转矩阵,根据预设的平移距离以获取平移矩阵;
根据旋转矩阵与平移矩阵以确定相机外参信息。
需要进一步说明的是,在真实拍摄过程中,相机相对于三维空间内的文字对象可能产生各种角度的偏转,并且,由于相机中心与字体中心之间重合的几率较低,即相机中心与文字对象中心之间可能产生平移,因此,在将世界坐标信息转换为像素坐标信息的过程中需考虑上述偏转与平移现象。
上述可选实施例中,具体可通过旋转矩阵以确定相机可能出现的偏转现象,并通过平移矩阵以确定相机可能出现的平移现象。以下对上述旋转矩阵与平移矩阵的获取方式进行说明:
在真实拍摄过程中,相机坐标系相对于世界坐标系可能发生各种角度的偏转,上述可选实施例中的旋转矩阵即用于模拟相机坐标系相对于世界坐标系可能的偏转。具体而言,上述可选实施例中,相机坐标系相对于世界坐标系可能的偏转可采用欧拉角模拟此状态,图2是根据本发明实施例提供的旋转矩阵的示意图,如图2所示,欧拉角表示物体绕x,y,z轴分别发生旋转,对应旋转角度即为2π,x,y,z轴分别对应的旋转矩阵如下所示:
Figure BDA0002414912670000091
上述Rx,Ry,Rz分别为x,y,z轴分别对应的旋转矩阵,则相机外参中的旋转矩阵R应满足:R=RxRyRz
具体而言,将x,y,z轴对应的2π按照每π/6等分成12份,三个角度均做此操作,总共生成123,即1728种不同的角度组合,也就是1728个不同的3×3旋转矩阵,以此即可得到旋转矩阵R3×3,该R3×3即为相机外参中的旋转矩阵。
另一方面,在真实拍摄过程中,相机中心与字体中心之间重合的几率较低,即相机中心与字体中心之间可能产生平移。以上述可选实施例中将文字对象的中心作为软件坐标原点进行说明:
由于文字对象的软件坐标信息为{(Aj x,Aj y)},文字对象的中心为{(Aj x,Aj y)}的原点,因此,构成文字对象的像素的集合中与原点最远的距离r应为:
Figure BDA0002414912670000092
为此,以上述{(Aj x,Aj y)}的原点为圆心O,以r为半径建立圆,该圆可恰好将文字对象的所有像素均包含在圆内。
进一步地,分别设定最大角度与最小角度,并过上述圆的圆心O做一条水平射线,在该水平射线的圆外部分分别确定一个最近点与最远点;过最近点向上述圆做两条切线,该两条切线的夹角应满足上述设定的最大角度,过最远点向上述圆做两条切线,该两条切线的夹角应满足上述设定的最小角度。图3是根据本发明实施例提供的平移矩阵的示意图,如图3所示,A即为上述最近点,B即为上述最远点,α1、α2分别为上述最大角度与最小角度,此处,设定α1为90°、α2为20°。
确定A、B后,即可计算出OA与OB之间的距离,OA与OB应为:
Figure BDA0002414912670000101
之后,再把AB线段等分成N’份,本可选实施例中取N’9,图3所示的C1、C2即为等分点(图3中剩余等分点,如C3...C8,并未完整标示);在确定OA与OB的距离的基础上,根据上9等分的划分方式即可计算出OA、OC1、OC2...OC8、OB共10个距离。以此,即可分别对x,y,z的平移量分别赋予上述10个距离值,总计得到103个T3×1平移矩阵。
在得到上述旋转矩阵与平移矩阵的基础上,将旋转矩阵和平移矩阵进行组合,即可得到123·103个相机外参矩阵,具体如下式所示:
Figure BDA0002414912670000102
上式中的相机外参矩阵即为相机外参信息。
在一可选实施例中,上述确定相机内参信息,包括:
根据预设终端的类型,确定终端对应的相机内参信息。
需要进一步说明的是,上述可选实施例中,终端的类型具体可通过终端的型号进行表示。上述相机的内参信息由终端决定,通常而言,某一型号的终端对应一个相机内参信息,故可选取常见类型的终端,例如,A型号的智能手机、B型号的智能手机、C型号的平板电脑等,通过测试的方式确定每一个类型的终端所对应的相机内参信息;上述相机的内参信息可表示为多个3×3的内参矩阵集合{Fj},其中每一个3×3的内参矩阵集合Fj均对应某一类型(如型号)的终端。
需要进一步说明的是,由于相机内参信息根据终端类型的不同可能存在差异,故相机内侧信息有多个,因而上述可选实施例中,根据相机外参信息与相机内参信息,以将世界坐标信息转换为一个或多个文字对象的像素坐标信息的过程中,同一个世界坐标信息集合可根据不同的相机内参信息对应转换为多个像素坐标信息。
世界坐标信息与像素坐标信息之间的关系应满足:
Figure BDA0002414912670000111
上式中,u,v即为像素坐标信息中的坐标位置的u轴与v轴(像素坐标中,u轴即等同于通用坐标系中的x轴,v轴即等同于通用坐标系中的y轴),Zc为像素在三维空间内z坐标,在上式中作为一比例因子(Zc不为0,可由设定得到)。因此,在前述可选实施例中确定相机外参信息与相机内参信息的基础上,即可将相机外参信息、相机内参信息以及世界坐标信息带入至上式中,以实现上述可选实施例中,根据相机外参信息与相机内参信息,以将世界坐标信息转换为一个或多个文字对象的像素坐标信息。
为进一步说明上述世界坐标信息与像素坐标信息之间的关系,以下对于上式的推导过程进行说明:
图4是根据本发明实施例提供的像素坐标的示意图,本实施例中的像素坐标信息对应的像素坐标如图4所示;如图4所示,设定每一个像素在像素坐标信息对应的像素坐标中u轴(等同于通用坐标系中的x轴)和v轴(等同于通用坐标系中的y轴)方向上的物理尺寸为dx和dy。
上述像素坐标可以与图像坐标进行转换,图像坐标对应为相机内的成像平面的坐标;设(u0,v0)是图像平面的中心,由此得到下述线性方程:
Figure BDA0002414912670000112
图5是根据本发明实施例提供的相机坐标的示意图,相机坐标对应为相机对空间中的拍摄对象进行拍摄过程中,以相机中心为原点构建的三维坐标。如图5所示,Oc表示相机光心,P(xc,yc,zc)为空间中任一点,线段OcP与成像平面的交点p为空间点在成像平面上的投影,根据三角几何关系进行推论可得到以下方程:
Figure BDA0002414912670000121
上式中,zc为P在空间中的z坐标,也是比例因子(zc不为0),f为有效焦距(即相机光心到成像平面的距离),[Xc Yc Zc 1]T是空间点在相机坐标系中的齐次坐标,[x y 1]T是像点在图像坐标系中的齐次坐标。
图6是根据本发明实施例提供的世界坐标的示意图,图7是根据本发明实施例提供的相机坐标与图像坐标的关系示意图,世界坐标即为三维空间的坐标,如图6与图7所示,上述相机坐标与世界坐标之间实质为两个三维坐标系的转换,因此可以用下述方程表示:
Figure BDA0002414912670000122
上式中,R3×3即为本实施例中的旋转矩阵,T3×1即为实施例中的平移矩阵。
结合上述推导过程,可得:
Figure BDA0002414912670000123
本实施例中,相机内参矩阵Fj即对应上式中的:
Figure BDA0002414912670000124
由此即可得到前述世界坐标信息与像素坐标信息之间的关系。
S104,根据一个或多个文字对象的像素坐标信息,以生成一个或多个光学字符识别OCR图像。
需要进一步说明的是,上述步骤S104中,根据一个或多个文字对象的像素坐标信息,以生成一个或多个OCR图像,即根据文字对象的像素坐标信息以产生对应的文字对象,通过对不同文字对象的组合即可生成一个或多个OCR图像。由于文字对象的像素坐标信息已在上述步骤S102中得到确定,因此,在生成的OCR图像中,对于OCR图像中每一个文字对象对应的像素的坐标位置都是已知的,因此,采用本实施例的OCR图像自动生成方法所得到的OCR图像无需再进行标签数据的标注,而可直接由OCR图像中每一个文字对象的像素坐标信息以确定该文字对象的标签数据。
需要进一步说明的是,上述由OCR图像中每一个文字对象的像素坐标信息以确定该文字对象的标签数据的过程,可以为由该文字对象的像素坐标信息(像素坐标点集)中得到umin,vmin,umax,vmax,其中,上述umin,vmin,umax,vmax分别用于指示像素坐标信息所指示的构成文字对象的多个像素的坐标位置中,位于u轴(等同于通用坐标系中的x轴)上的极大值与极小值,以及位于v轴(等同于通用坐标系中的y轴)上的极大值与极小值。以此即可通过计算得到该文字对象的边框位置(x,y,w,h)应为(umin,vmin,umax-umin,vmax-vmin);本实施例中,文字对象的标签数据由该文字对象的内容,如前述中文字对象的字符、格式等,以及上述该文字对象的边框位置的坐标所共同构成。
通过本实施例中的OCR图像自动生成方法,由于可在获取一个或多个文字对象的像素坐标信息的基础上,根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像;其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置。因此,本实施例中的OCR图像自动生成方法可以解决相关技术中OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题,以达到可高效的获取大量带有标签的OCR图像数据的效果。
具体而言,本实施例中的OCR图像自动生成方法一方面可以通过预设的不同文字对象的组合以生成大量的OCR图像。另一方面,本实施例中对于文字对象的像素坐标信息是预先确定的,同时亦是根据文字对象的像素坐标信息以生成OCR图像,因此,生成的OCR图像中,每一个文字对象均可在选取该文字对象时确定该文字对象的内容,并由该文字对象的像素坐标信息确定其边框位置,进而共同构成该文字对象的标签数据,故本实施例中生成的OCR图像无需再进行标注处理,进而节省了大量的人力与时间成本;并且,上述实施例中由文字对象的像素坐标信息所确定的OCR图像的标签数据是精准的,相较于相关技术中采用后期人工或机器标注的方式标注标签数据所必然存在的误差,本实施例所生成的OCR图像在标签数据的准确性上可得以显著改善,进而令后续基于OCR图像数据的深度学习所得到网络的模型的稳定性亦可得到提高。
在一可选实施例中,上述步骤S104中,根据一个或多个文字对象的像素坐标信息,以生成一个或多个OCR图像,包括:
获取一个或多个预设的背景图像;
根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中叠加一个或多个文字对象,以生成一个或多个OCR图像。
需要进一步说明的是,上述可选实施例中的背景图像即指示不包含任何字符的OCR相关图像,不同的背景图像可以对应不同的OCR图像的场景,例如,文件、报刊、商超小票、商品包装等等。背景图像具体可通过数据爬取的方式获取,例如,直接爬取上述场景对应的不包括任何字符的背景图像,或爬取上述场景对应的相关图像,去除图像中的字符后,即可获取背景图像。
需要进一步说明的是,上述可选实施例中的根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中叠加一个或多个文字对象,即根据确定的文字对象的像素坐标信息,以在上述对应不同场景的背景图像中叠加上相应的文字对象,即可生成对应不同场景的OCR图像。本可选实施例中可以在同一个背景图像中叠加多个文字对象,例如,将前述文字对象集合中,随机选取多个文字对象叠加至背景图像中;以此配合多个背景图像进行,即可生成庞大数量的OCR图像。
在已确定文字对象的像素坐标信息的基础上,根据像素坐标信息以在背景图像中像素坐标信息所指示的坐标位置中进行相应处理,即可完成上述文字对象的叠加,以下通过可选实施例的方式具体说明上述文字对象的叠加方式。
在一可选实施例,上述根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中叠加一个或多个文字对象,包括:
根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中设置文字对象区域与非文字对象区域;其中,文字对象区域用于指示背景图像中用于叠加文字对象的区域;
将文字对象区域与非文字对象区域设置为不同颜色,以在一个或多个背景图像中叠加一个或多个文字对象。
需要进一步说明的是,上述文字对象区域即为文字对象的像素坐标信息所指示的坐标位置所在区域,具体而言,根据像素坐标信息,以将像素坐标信息所指示的文字对象的像素的坐标位置作为文字对象区域并标识为不同于背景图像中其它区域(即非文字对象区域)的颜色,例如,在白色背景图像中,根据文字对象的像素坐标信息以将对应的坐标位置标识为黑色,即可实现在背景图像上叠加文字对象。
在一可选实施例中,上述将文字对象区域与非文字对象区域设置为不同颜色,以在一个或多个背景图像中叠加一个或多个文字对象之后,还包括:
对叠加有一个或多个文字对象的背景图像进行高斯滤波处理。
需要进一步说明的是,上述可选实施例中的高斯滤波处理可避免文字对象的边缘与背景图像的边缘出现锯齿现象,并可令文字对象与背景图像之间的叠加效果更接近于真实图像。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本实施例提供了一种OCR图像自动生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本发明实施例提供的OCR图像自动生成装置的结构框图,如图8所示,本实施例中的OCR图像自动生成装置,包括:
获取模块202,用于获取一个或多个文字对象的像素坐标信息,其中,像素坐标信息用于指示文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
生成模块204,用于根据一个或多个文字对象的像素坐标信息,以生成一个或多个光学字符识别OCR图像。
需要进一步说明的是,本实施例中的其余可选实施例与技术效果均与实施例1中的OCR图像自动生成方法相对应,故在此不再赘述。
在一可选实施例中,上述文字对象由字符信息与格式信息构成;其中,字符信息用于指示文字对象采用的字符,格式信息用于指示文字对象采用的格式。
在一可选实施例中,上述获取一个或多个文字对象的像素坐标信息之前,包括:
根据一个或多个字符信息与一个或多个格式信息,建立文字对象集合,其中,文字对象集合包括一个或多个文字对象。
在一可选实施例中,上述获取一个或多个文字对象的像素坐标信息,包括:
获取一个或多个文字对象的软件坐标信息,其中,软件坐标信息用于指示文字对象中的每一个像素在预设的软件中的坐标位置;
根据软件坐标信息,以得到一个或多个文字对象的世界坐标信息,其中,世界坐标信息用于指示文字对象中的每一个像素在三维空间内的坐标位置;
根据世界坐标信息,以得到一个或多个文字对象的像素坐标信息。
在一可选实施例中,上述获取一个或多个文字对象的软件坐标信息,包括:
将文字对象的中心作为软件坐标原点,确定文字对象中的每一个像素在预设的软件中相对于软件坐标原点的坐标位置,以获取一个或多个文字对象的软件坐标信息。
在一可选实施例中,上述根据世界坐标信息,以得到一个或多个文字对象的像素坐标信息,包括:
确定相机外参信息与相机内参信息,并根据相机外参信息与相机内参信息,以将世界坐标信息转换为一个或多个文字对象的像素坐标信息。
在一可选实施例中,上述确定相机外参信息,包括:
根据预设的旋转角度以获取旋转矩阵,根据预设的平移距离以获取平移矩阵;
根据旋转矩阵与平移矩阵以确定相机外参信息。
在一可选实施例中,上述确定相机内参信息,包括:
根据预设终端的类型,确定一个或多个终端对应的相机内参信息。
在一可选实施例中,上述根据一个或多个文字对象的像素坐标信息,以生成一个或多个OCR图像,包括:
获取一个或多个预设的背景图像;
根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中叠加一个或多个文字对象,以生成一个或多个OCR图像。
在一可选实施例中,上述根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中叠加一个或多个文字对象,包括:
根据一个或多个文字对象的像素坐标信息,在一个或多个背景图像中设置文字对象区域与非文字对象区域;其中,文字对象区域用于指示背景图像中用于叠加文字对象的区域;
将文字对象区域与非文字对象区域设置为不同颜色,以在一个或多个背景图像中叠加一个或多个文字对象。
在一可选实施例中,上述将文字对象区域与非文字对象区域设置为不同颜色,以在一个或多个背景图像中叠加一个或多个文字对象之后,还包括:
对叠加有一个或多个文字对象的背景图像进行高斯滤波处理。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行上述实施例中的计算机程序。
可选地,在本实施例中,上述计算机可读的存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行上述实施例中的步骤。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种OCR图像自动生成方法,其特征在于,包括:
获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。
2.根据权利要求1所述的方法,其特征在于,所述文字对象由字符信息与格式信息构成;其中,所述字符信息用于指示所述文字对象采用的字符,所述格式信息用于指示所述文字对象采用的格式。
3.根据权利要求2所述的方法,其特征在于,所述获取一个或多个文字对象的像素坐标信息之前,包括:
根据一个或多个所述字符信息与一个或多个所述格式信息,建立文字对象集合,其中,所述文字对象集合包括一个或多个所述文字对象。
4.根据权利要求1至3任一项中所述的方法,其特征在于,所述获取一个或多个文字对象的像素坐标信息,包括:
获取一个或多个所述文字对象的软件坐标信息,其中,所述软件坐标信息用于指示所述文字对象中的每一个像素在预设的软件中的坐标位置;
根据所述软件坐标信息,以得到一个或多个文字对象的世界坐标信息,其中,所述世界坐标信息用于指示所述文字对象中的每一个像素在三维空间内的坐标位置;
根据所述世界坐标信息,以得到一个或多个所述文字对象的所述像素坐标信息。
5.根据权利要求4所述的方法,其特征在于,所述获取一个或多个所述文字对象的软件坐标信息,包括:
将所述文字对象的中心作为软件坐标原点,确定所述文字对象中的每一个像素在所述预设的软件中相对于所述软件坐标原点的坐标位置,以获取一个或多个所述文字对象的所述软件坐标信息。
6.根据权利要求4所述的方法,其特征在于,所述根据所述世界坐标信息,以得到一个或多个文字对象的所述像素坐标信息,包括:
确定相机外参信息与相机内参信息,并根据所述相机外参信息与所述相机内参信息,以将所述世界坐标信息转换为一个或多个所述文字对象的所述像素坐标信息。
7.根据权利要求6所述的方法,其特征在于,所述确定相机外参信息,包括:
根据预设的旋转角度以获取旋转矩阵,根据预设的平移距离以获取平移矩阵;
根据所述旋转矩阵与所述平移矩阵以确定所述相机外参信息。
8.根据权利要求6所述的方法,其特征在于,所述确定相机内参信息,包括:
根据预设终端的类型,确定所述终端对应的相机内参信息。
9.根据权利要求1至3任一项中所述的方法,其特征在于,所述根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个OCR图像,包括:
获取一个或多个预设的背景图像;
根据一个或多个所述文字对象的所述像素坐标信息,在一个或多个所述背景图像中叠加一个或多个所述文字对象,以生成一个或多个所述OCR图像。
10.根据权利要求9所述的方法,其特征在于,所述根据一个或多个所述文字对象的所述像素坐标信息,在一个或多个所述背景图像中叠加一个或多个所述文字对象,包括:
根据所述一个或多个所述文字对象的所述像素坐标信息,在所述一个或多个背景图像中设置文字对象区域与非文字对象区域;其中,所述文字对象区域用于指示所述背景图像中用于叠加所述文字对象的区域;
将所述文字对象区域与所述非文字对象区域设置为不同颜色,以在一个或多个所述背景图像中叠加一个或多个所述文字对象。
11.根据权利要求10所述的方法,其特征在于,将所述文字对象区域与所述非文字对象区域设置为不同颜色,以在一个或多个所述背景图像中叠加一个或多个所述文字对象之后,还包括:
对所述叠加有一个或多个所述文字对象的所述背景图像进行高斯滤波处理。
12.一种OCR图像自动生成装置,其特征在于,包括:
获取模块,用于获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
生成模块,用于根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至11任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至11任一项中所述的方法。
CN202010189353.6A 2020-03-17 2020-03-17 Ocr图像自动生成方法及装置 Active CN111401365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189353.6A CN111401365B (zh) 2020-03-17 2020-03-17 Ocr图像自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189353.6A CN111401365B (zh) 2020-03-17 2020-03-17 Ocr图像自动生成方法及装置

Publications (2)

Publication Number Publication Date
CN111401365A true CN111401365A (zh) 2020-07-10
CN111401365B CN111401365B (zh) 2024-03-22

Family

ID=71434377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189353.6A Active CN111401365B (zh) 2020-03-17 2020-03-17 Ocr图像自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN111401365B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435163A (zh) * 2021-08-25 2021-09-24 南京中孚信息技术有限公司 一种任意字符组合的ocr数据生成的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN105373791A (zh) * 2015-11-12 2016-03-02 中国建设银行股份有限公司 信息处理方法及信息处理装置
CN107784301A (zh) * 2016-08-31 2018-03-09 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
CN109948549A (zh) * 2019-03-20 2019-06-28 深圳市华付信息技术有限公司 Ocr数据生成方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN105373791A (zh) * 2015-11-12 2016-03-02 中国建设银行股份有限公司 信息处理方法及信息处理装置
CN107784301A (zh) * 2016-08-31 2018-03-09 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
CN109948549A (zh) * 2019-03-20 2019-06-28 深圳市华付信息技术有限公司 Ocr数据生成方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435163A (zh) * 2021-08-25 2021-09-24 南京中孚信息技术有限公司 一种任意字符组合的ocr数据生成的方法
CN113435163B (zh) * 2021-08-25 2021-11-16 南京中孚信息技术有限公司 一种任意字符组合的ocr数据生成的方法

Also Published As

Publication number Publication date
CN111401365B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
US20230037272A1 (en) Handwritten content removing method and device and storage medium
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
CN111178355B (zh) 印章识别方法、装置和存储介质
CN111223065A (zh) 图像矫正方法、不规则文本识别方法、装置、存储介质和设备
CN111950557A (zh) 错题处理方法、图像形成装置及电子设备
CN112149561A (zh) 图像处理方法和装置、电子设备和存储介质
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN113221897B (zh) 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN112926421A (zh) 图像处理方法和装置、电子设备和存储介质
CN114399623B (zh) 一种通用答题识别方法、系统、存储介质及计算设备
CN112581344A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN112906532B (zh) 图像处理方法和装置、电子设备和存储介质
CN112597940B (zh) 证件图像识别方法、装置及存储介质
US11030488B1 (en) Book scanning using machine-trained model
CN113487702A (zh) 一种模板生成、图片识别方法及装置
CN111401365A (zh) Ocr图像自动生成方法及装置
CN111767924A (zh) 图像处理方法、图像处理装置、电子设备、存储介质
CN116597466A (zh) 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统
CN115063813B (zh) 针对文字失真的对齐模型的训练方法及训练装置
US11367296B2 (en) Layout analysis
US20220207668A1 (en) Book scanning using machine-trained model
CN114241486A (zh) 一种提高识别试卷学生信息准确率的方法
CN113793264A (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant