CN106407976B - 图像字符识别模型生成和竖列字符图像识别方法和装置 - Google Patents

图像字符识别模型生成和竖列字符图像识别方法和装置 Download PDF

Info

Publication number
CN106407976B
CN106407976B CN201610772101.XA CN201610772101A CN106407976B CN 106407976 B CN106407976 B CN 106407976B CN 201610772101 A CN201610772101 A CN 201610772101A CN 106407976 B CN106407976 B CN 106407976B
Authority
CN
China
Prior art keywords
character
image
rotation
cell
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610772101.XA
Other languages
English (en)
Other versions
CN106407976A (zh
Inventor
谢术富
肖航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610772101.XA priority Critical patent/CN106407976B/zh
Priority to US15/393,630 priority patent/US10176409B2/en
Publication of CN106407976A publication Critical patent/CN106407976A/zh
Application granted granted Critical
Publication of CN106407976B publication Critical patent/CN106407976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了图像字符识别模型生成和竖列字符图像识别方法和装置。图像字符识别模型生成方法包括:生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。本发明实施例的技术方案克服了难以直接利用已有的行字符图像来训练竖列字符图像识别模型的技术缺陷,实现了对竖列字符的高效识别。

Description

图像字符识别模型生成和竖列字符图像识别方法和装置
技术领域
本发明实施例涉及文字识别技术,尤其涉及一种图像字符识别模型生成和竖列字符图像识别方法和装置。
背景技术
随着智能手机及便携式设备的普及,OCR(Optical Character Recognition,光学字符识别)的使用更加普遍,它可以用来减少或替换繁琐的文字输入,用户只需要拍摄一张包含文字的图像,OCR技术就可以自动识别出图像中的文字,以便进行后续的处理(例如:检索和翻译等)。
传统的OCR技术包括两大类:第一类是将文字行进行过分割,得到若干个候选文字区域,然后根据训练好的单字识别引擎(例如:卷积神经网络等)对每个候选文字区域进行识别并输出若干个候选,最后根据语言模型以及文字的识别置信度等信息对文字行解码得到输出;第二类是近年来流行的技术,它避免了第一类方法中的文字分割模块,基于循环神经网络(Recursive Neural Network,RNN)来得到行图像到字符串输出。其中,第二类技术更加前沿,能够直接得到行级别图像的文字串输出。
但是,在实际的环境里,文字行的数量要远远多于竖列文字的数量,由于对于竖列文字的识别来讲,难以直接利用已有的文字行图像来训练模型,因此需要收集大量的竖列文字图片,以保证识别模型的训练性能,这将耗费大量的人力和物力。
发明内容
有鉴于此,本发明实施例提供了一种图像字符识别模型生成和竖列字符图像识别方法和装置,以克服难以直接利用已有的字符行图像来训练竖列字符识别模型的技术缺陷。
在第一方面,本发明实施例提供了一种图像字符识别模型生成方法,包括:
生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。
在第二方面,本发明实施例提供了一种竖列字符图像识别方法,包括:
将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。
在第三方面,本发明实施例提供了一种图像字符识别模型生成装置,包括:
训练样本生成模块,用于生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
图像字符识别模型生成模块,用于使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。
在第四方面,本发明实施例提供了一种竖列字符图像识别装置,包括:
旋转待识别图像生成模块,用于将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
旋转待识别图像输入模块,用于将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
竖列字符识别结果确定模块,用于根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。
本发明实施例提供的图像字符识别模型生成和竖列字符图像识别方法和装置,通过先得到与标准行字符图像中各字符单元相差90度的旋转行字符图像,而后生成旋转行字符训练样本,进而对设定神经网络进行训练,生成图像字符识别模型,然后使用该图像字符识别模型识别将待识别竖列字符图像整体进行90度旋转后得到的旋转待识别图像,最后根据图像字符识别模型的输出,确定与待识别竖列字符图像对应的竖列字符识别结果,克服了难以直接利用已有的行字符图像来训练竖列字符图像识别模型的技术缺陷,实现了对竖列字符的高效识别。
附图说明
图1是本发明实施例一提供的一种图像字符识别模型生成方法的流程图;
图2a是本发明实施例二提供的一种图像字符识别模型生成方法的流程图;
图2b是本发明实施例二提供的目标操作图像的示例图;
图2c是本发明实施例二提供的字符单元图片集合的示例图
图2d是本发明实施例二提供的字符单元图片旋转的示例图;
图2e是本发明实施例二提供的旋转行字符图像的示例图;
图3a是本发明实施例三提供的一种图像字符识别模型生成方法的流程图;
图3b是本发明实施例三提供的标准竖列字符图像的示例图;
图3c是本发明实施例三提供的旋转行字符图像的示例图;
图4是本发明实施例四提供的一种竖列字符图像识别方法的流程图;
图5是本发明实施例五提供的一种竖列字符图像识别方法的流程图;
图6是本发明实施例六提供的一种图像字符识别模型生成装置的结构图;
图7是本发明实施例七提供的一种竖列字符图像识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
首先,为了后文便于理解,将本发明实施例的发明构思进行简单介绍:
一般来说,为了实现对图像中包括的中文或者日文内容进行识别,可以预先训练一个图像字符识别模型,训练后该图像字符识别模型的输入为图像,输出为与识别结果对应的字符串。
例如,输入一个文字内容为“中国”的设定图片格式(典型的:.jpg或者.png等)的图像输入至一个训练好的图像字符识别模型中后,该模型的输出结果理想应为“中国”这一中文字符串。
其中,一般来说,由于同时存在有行字符图像以及竖列字符图像,在训练该图像字符识别模型时,需要针对行字符图像以及竖列字符图像分别训练不同的图像字符识别模型。所谓行字符图像,具体是指图像中出现的各字符是横向排列的;所谓竖列字符图像,具体是指图像中出现的各字符是竖向排列的。
因此,为了训练对应的图像字符识别模型,需要预先标注大量的训练样本,其中,训练样本包括:行字符或者竖列字符图像,以及与图像对应的预期字符识别结果(与图像准确对应的字符串)。
一般来说,由于网络中出现的行字符图像比较多,因此,存在有大量的已经针对行字符图像的图像字符识别模型的训练样本。正常来说,如果需要生成针对竖列字符图像的图像字符识别模型的训练样本,需要再重新标注大量的竖列字符图像,这种实现方案存在的主要技术问题就是网络中存在的竖列文字图像数量较少,以及需要重新投入大量的人力和物理成本。
在本实施例中,发明人创造性的提出了使用已有的针对行文字图像的图像字符识别模型的训练样本,并进行简单的处理即可作为针对竖列文字图像的图像字符识别模型的训练样本的技术方案。
具体的,发明人考虑到如果将一个竖列文字图像进行整体的90度旋转后,其可以看成一个特殊的行文字图像,只是在这样的行文字图像中,各个文字相对于标准文字来说,均进行了90度的旋转。因此,如果能将现有的行文字图像训练样本转换为各个文字均进行90度旋转的图像,即可作为针对竖列文字图像的图像字符识别模型的训练样本,这就是本案的核心发明点。
实施例一
图1为本发明实施例一提供的一种图像字符识别模型生成方法的流程图,本实施例的方法可以由图像字符识别模型生成装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于进行图像字符识别的设备中,例如:智能手机、计算机以及平板电脑等,本实施例对此不进行限制。
本实施例的方法具体包括:
110、生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
在本实施例中,标准行字符图像具体是指图像中包括一个或者多个横向排列的字符单元的图像。
其中,该字符单元具体可以是中文字、日文字、英文字母或数字等。
一般来说,中文字以及日文字中经常会出现文字竖向排列的形式,因此,本实施例的方法主要适用于基于中文字以及日文字的竖列字符图像的识别。此外,如果需要识别的竖列字符图像中包括有单独存在的一个或者多个英文字母或者数字,同样可以适用于本发明实施例的方法进行识别。
示例性的,若标准行字符图像中的字符为“一帆风顺”,那么该标准行字符图像包括四个字符单元,分别是“一”、“帆”、“风”和“顺”。
标准行字符图像的获取方式具体可以是从已有的标准行字符图像样本中选取或是由横向字符图片生成工具生成等,本实施例对此不进行限制。
在本实施例中,旋转行字符图像具体可以是标准行字符图像经过一定变化得到的或是标准竖列字符图像经过90度旋转得到的等,本实施例对此不进行限制。
其中,标准竖列字符图像具体可以是从已有的标准竖列字符图像样本中选取或是由竖列字符图片生成工具生成等,本实施例对此不进行限制。进一步地,标准竖列字符图像经过90度旋转具体是指标准竖列字符图像整体进行90度顺时针旋转或是90度逆时针旋转等,本实施例对此也不进行限制。
其中,标准行字符图像经过一定变化具体可以是将标准行字符图像中包括的各字符单元分别均进行90度顺时针旋转或分别均进行90度逆时针旋转等。
相应的,旋转行字符图像对应的预期字符识别结果具体可以是标准行字符图像对应的预期字符识别结果或是标准竖列字符图像对应的预期字符识别结果等。进一步地,当标准行字符图像具体是从已有的标准行字符图像样本中选取的,那么,标准行字符图像对应的预期字符识别结果就是该已有的标准行字符图像样本对应的字符识别结果;当标准行字符图像具体是由横向字符图片生成工具生成的,那么,该标准行字符图像对应的预期字符识别结果就是横向字符图片生成工具的输入字符按顺序横向排列的结果。同样的,标准竖列字符图像对应的预期字符识别结果的确定方式与标准行字符图像对应的预期字符识别结果确定方式相同。
120、使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。
在本实施例中,设定神经网络具体可以是循环神经网络或是卷积神经网络(Convolutional Neural Network,CNN)等,本实施例对此不进行限制。
在本实施例中,对设定神经网络进行训练具体是指向设定神经网络输入旋转行字符训练样本中的旋转行字符图像,通过一定算法调整设定神经网络的结构(例如:权值),使得设定神经网络的输出与旋转行字符图像对应的预期字符识别结果相符。其中,一定算法具体是指设定神经网络内部嵌套的调整设定神经网络结构的算法。
其中,旋转行字符样本中的旋转行字符图像中的各字符单元,无论是标准行字符图像中各字符单元顺时针旋转90度所得,还是标准行字符图像中各字符单元逆时针旋转90度所得,都可以同时对同一设定神经网络进行训练,调整神经网络的结构,也就是说,旋转行字符图像的获得方式不影响其对设定神经网络的训练结果。
相应的,图像字符识别模型具体是指通过使用旋转行字符训练样本对设定神经网络进行训练,最终得到的训练完成的设定神经网络。
本发明实施例提供的图像字符识别模型生成方法,通过先生成旋转行字符图像,其中,旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度,而后得到旋转行字符图像训练样本,进而对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
实施例二
图2a是本发明实施例二提供的一种图像字符识别模型生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将生成旋转行字符训练样本具体优化为:获取标准行字符图像样本中的标准行字符图像作为目标操作图像;根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本。
相应的,本实施例的方法具体包括:
210、获取标准行字符图像样本中的标准行字符图像作为目标操作图像;
在本实施例中,标准行字符图像样本具体是指图像中包括一个或者多个横向排列的字符单元的图像样本及该图像对应的字符识别结果所组成的样本。进一步地,标准行字符图像样本具体可以是从网络中下载的标准行字符图像样本或是由横向字符图片生成工具生成的标准行字符图像及其对应的输入字符组成的标准行字符图像样本等,本实施例对此不进行限制。
相应的,目标操作图像具体是指标准行字符图像样本中的标准行字符图像,如图2b所示。
220、根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;
在本实施例中,字符单元的标注位置具体可以是字符单元四个顶点位于目标操作图像中的具体的像素位置等。本领域技术人员可以理解的是,在作为神经网络训练样本的图像中,除了预先标注了该图像对应的字符识别结果之外,优选还可以对该图像中各字符单元的位置进行了预先标注。
在本实施例中,对目标操作图像进行剪裁具体是指依据目标操作图像中每个字符的标注位置,对目标操作图像进行剪切,最终得到字符单元图片集合,如图2c所示。
230、分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;
在本实施例中,字符单元图片集合中的各字符单元图片进行90度旋转具体可以是各字符单元图片分别均进行90度顺时针旋转或分别均进行90度逆时针旋转,本实施例对此不进行限制。图2d是将图2c中各字符单元图片均进行90度逆时针旋转得到的旋转后的字符单元图片集合。
240、将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;
图2e是将图2d中的旋转后的字符单元图片按照裁剪顺序进行拼接得到的旋转行字符图像。
250、根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本;
在本实施例中,目标操作图像对应的预期字符识别结果具体是指标准行字符图像样本中的标准行字符图像对应的字符识别结果。
在本实施例中,旋转行字符训练样本具体是指由旋转行字符图像和与所述目标操作图像对应的预期字符识别结果组成的样本。
260、使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。
本发明实施例提供的图像字符识别模型生成方法,通过先获取标准行字符图像样本中的标准行字符图像作为目标操作图像,然后根据目标操作图像中每个字符单元的标注位置,对目标操作图像进行裁剪,生成与目标操作图像中各字符单元对应的字符单元图片集合,分别将字符单元图片集合中的各字符单元图片进行90度旋转,再将旋转后的字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像,根据拼接生成的旋转行字符图像,以及与目标操作图像对应的预期字符识别结果,生成旋转行字符训练样本,最后,使用旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
进一步的,行级别图像的识别框架基础上,通过使用已有的标准行字符图像样本以及基于文本行设计的网络模型,即可训练得到针对竖列字符图像的图像字符识别模型,在不引入大量人力物力成本的基础上,可以高效地实现竖列字符单元的识别。
实施例三
图3a是本发明实施例三提供的一种图像字符识别模型生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将生成旋转行字符训练样本具体优化为:将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本。
相应的,本实施例的方法具体包括:
310、将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;
在本实施例中,设定字符单元具体可以是中文字、日文字、英文字母或数字,本实施例对此不进行限制。
在本实施例中,竖列字符图片生成工具具体是指可以依据输入的字符以及字符的输入顺序,生成与之对应的竖列图片的工具。图3b所示为标准竖列字符图像示例图。
320、将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;
在本实施例中,将标准竖列字符图像作为一个整体进行90度旋转具体可以是进行90度顺时针旋转或进行90度逆时针旋转,本实施例对此不进行限制。将图3b逆时针旋转90度得到图3c所示的旋转行字符图像。
330、将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本;
在本实施例中,旋转行字符训练样本具体是指由目标操作图像和目标操作图像的预期字符识别结果组成的样本。
340、使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。
本发明实施例提供的图像字符识别模型生成方法,通过先将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像,然后将标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像,将设定字符单元作为目标操作图像的预期字符识别结果,生成旋转行字符训练样本,最后,使用旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
需要再次强调的是,考虑到直接使用竖列字符图片生成工具生成的各竖列图像其图像格式也会相对比较相似,如果仅使用该竖列字符图片生成工具生成的各竖列图像作为训练样本,则会使训练样本缺乏多样性,在本实施例的一个优选的实施方式中,可以首先以实施例二的方法首先生成一定数量的旋转行字符训练样本,之后在以实施例三的方法生成一定数量的旋转行字符训练样本,两者组合共同构成旋转行字符训练样本。
实施例四
图4为本发明实施例四提供的一种竖列字符图像识别方法的流程图,本实施例的方法可以由竖列字符图像识别装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于进行图像字符识别的设备中,例如:智能手机、计算机以及平板电脑等,本实施例对此不进行限制。
本实施例的方法具体包括:
410、将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
在本实施例中,待识别竖列字符图像具体是指图像中包括一个或者多个竖向排列的字符单元的图像。
在本实施例中,将待识别竖列字符图像作为一个整体进行90度旋转具体可以是进行90度顺时针旋转或进行90度逆时针旋转,本实施例对此不进行限制。
420、将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
在本实施例中,图像字符识别模型的输入图像的格式具体可以是JPG格式、BMP格式或GIF格式的,本实施例对此不进行限制。
430、根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。
在本实施例中,图像字符识别模型的输出结果具体是指与旋转待识别图像中的字符一一对应的横向放置的字符串。
在本实施例中,确定与待识别竖列字符图像对应的竖列字符识别结果具体是指确定旋转待识别图像的识别结果中的各个字符在竖列字符识别结果中对应的位置。其中,确定与待识别竖列字符图像对应的竖列字符识别结果的方式具体可以是依据图像字符识别模型的输出结果中各字符与旋转待识别图像中各字符的位置对应关系,以及旋转待识别图像中各字符与待识别竖列字符图像中各字符的位置对应关系,确定与待识别竖列字符图像对应的竖列字符识别结果等。
本发明实施例提供的竖列字符图像识别方法,通过先将待识别竖列字符图像作为一个整体进行90度旋转生成旋转待识别图像,然后将所述旋转待识别图像输入至由旋转行字符图像训练样本训练设定神经网络模型生成的图像字符识别模型中,最后根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
在上述实施例的基础上,进一步进行优化,具体优化为:在将所述旋转待识别图像输入至图像字符识别模型中之前,还包括:根据所述图像字符识别模型的模型参数,对所述旋转待识别图像进行尺寸归一化处理。
这样设置的好处是:由于一般来说图像字符识别模型可以准确识别的字符图像的尺寸的一定的,也就是说,为了让图像字符识别模型对字符图像进行准确识别,在将字符图像输入至图像字符识别模型之前,应将字符图像的尺寸变换为图像字符识别模型可以识别的尺寸,这样使得图像字符识别模型可以更加准确地对待识别竖列字符图像进行识别。
实施例五
图5是本发明实施例五提供的一种竖列字符图像识别方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果具体优化为:获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;根据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。
相应的,本实施例的方法具体包括:
510、将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
520、将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
530、获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;
在本实施例中,识别旋转待识别图像中各字符单元的显示位置具体是指确定各字符单元的四个顶点位于旋转待识别图像中的具体像素位置。
540、根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;
在本实施例中,由于旋转待识别图像中各字符单元的显示位置与待识别竖列字符图像中各字符单元的显示位置有固定的对应关系,同时,行字符识别结果中各字符单元的显示位置与旋转待识别图像中各字符单元的显示位置也有固定的对应关系,因此,可以依据上述两组固定的对应关系,进而确定行字符识别结果中各字符单元的显示位置与待识别竖列字符图像中各字符单元显示位置的对应关系,最终确定行字符识别结果在待识别竖列字符图像中的显示位置。
550、据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。
在本实施例中,竖列字符识别结果具体是指包括一个或多个竖向排列的字符的字符串。其中,一个或多个竖向排列的字符与待识别竖列字符图像中的字符一一对应。
本发明实施例提供的竖列字符图像识别方法,通过先获取图像字符识别模型的输出结果作为行字符识别结果,并在旋转待识别图像中识别各字符单元的显示位置,根据各字符单元在旋转待识别图像与待识别竖列字符图像中显示位置,确定行字符识别结果在待识别竖列字符图像中的显示位置,根据行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
实施例六
图6是本发明实施例六提供的一种图像字符识别模型生成装置。如图6所示,所述装置包括:训练样本生成模块101以及图像字符识别模型生成模块102,其中:
训练样本生成模块101,用于生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
图像字符识别模型生成模块102,用于使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。
本发明实施例提供的图像字符识别模型生成装置,通过先生成旋转行字符图像,其中,旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度,而后得到旋转行字符图像训练样本,进而对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
在上述各实施例的基础上,所述字符单元可以包括下述至少一项:中文字、日文字、英文字母以及数字。
在上述各实施例的基础上,所述训练样本生成模块可以包括:
目标操作图像获取单元,用于获取标准行字符图像样本中的标准行字符图像作为目标操作图像;
字符单元图片集合生成单元,用于根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;
字符单元图片旋转单元,用于分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;
旋转行字符图像生成单元,用于将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;
旋转行字符训练样本生成单元,用于根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本。
在上述各实施例的基础上,所述训练样本生成模块可以包括:
标准竖列字符图像生成单元,用于将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;
竖列字符目标操作图像生成单元,用于将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;
竖列字符训练样本生成单元,用于将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本。
在上述各实施例的基础上,所述90度旋转可以包括:90度顺时针旋转,和/或90度逆时针旋转;
所述设定神经网络包括循环神经网络。
本发明实施例所提供的图像字符识别模型生成装置可用于执行本发明实施例一至实施例三提供的图像字符识别模型生成方法,具备相应的功能模块,实现相同的有益效果。
实施例七
图7是本发明实施例七提供的一种竖列字符图像识别装置。如图7所示,所述装置包括:旋转待识别图像生成模块201、旋转待识别图像输入模块202和竖列字符识别结果确定模块203。其中:
旋转待识别图像生成模块201,用于将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
旋转待识别图像输入模块202,用于将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
竖列字符识别结果确定模块203,用于根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。
本发明实施例提供的竖列字符图像识别装置,通过先将待识别竖列字符图像作为一个整体进行90度旋转生成旋转待识别图像,然后将所述旋转待识别图像输入至由旋转行字符图像训练样本训练设定神经网络模型生成的图像字符识别模型中,最后根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果,服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。
在上述各实施例的基础上,在所述旋转待识别图像输入模块之前,还可以包括:
图像尺寸归一化模块,用于根据所述图像字符识别模型的模型参数,对所述旋转待识别图像进行尺寸归一化处理。
在上述各实施例的基础上,所述竖列字符识别结果确定模块可以包括:
字符单元显示位置识别单元,用于获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;
行字符识别结果显示位置确定单元,用于根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;
竖列字符识别结果生成单元,用于根据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。
本发明实施例所提供的竖列字符图像识别装置可用于执行本发明实施例四至实施例五提供的竖列字符图像识别方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种图像字符识别模型生成方法,其特征在于,包括:
生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型;
其中,所述旋转行字符图像中各字符单元的左右位置关系与所述标准行字符图像中各字符单元的左右位置关系一致;所述旋转行字符图像中各字符单元的字符朝向相同;所述标准行字符图像中各字符单元的字符朝向也相同。
2.根据权利要求1所述的方法,其特征在于,所述字符单元包括下述至少一项:中文字、日文字、英文字母以及数字。
3.根据权利要求1或2所述的方法,其特征在于,生成旋转行字符训练样本包括:
获取标准行字符图像样本中的标准行字符图像作为目标操作图像;
根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;
分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;
将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;
根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本。
4.根据权利要求1或2所述的方法,其特征在于,生成旋转行字符训练样本包括:
将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;
将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;
将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本。
5.根据权利要求3所述的方法,其特征在于,所述90度旋转包括:90度顺时针旋转,和/或90度逆时针旋转;
所述设定神经网络包括循环神经网络。
6.根据权利要求4所述的方法,其特征在于,所述90度旋转包括:90度顺时针旋转,和/或90度逆时针旋转;
所述设定神经网络包括循环神经网络。
7.一种竖列字符图像识别方法,其特征在于,包括:
将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果;
其中,所述旋转行字符图像中各字符单元的左右位置关系与所述标准行字符图像中各字符单元的左右位置关系一致;所述旋转行字符图像中各字符单元的字符朝向相同;所述标准行字符图像中各字符单元的字符朝向也相同。
8.根据权利要求7所述的方法,其特征在于,在将所述旋转待识别图像输入至图像字符识别模型中之前,还包括:
根据所述图像字符识别模型的模型参数,对所述旋转待识别图像进行尺寸归一化处理。
9.根据权利要求7或8所述的方法,其特征在于,根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果包括:
获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;
根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;
根据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。
10.一种图像字符识别模型生成装置,其特征在于,包括:
训练样本生成模块,用于生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
图像字符识别模型生成模块,用于使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型;
其中,所述旋转行字符图像中各字符单元的左右位置关系与所述标准行字符图像中各字符单元的左右位置关系一致;所述旋转行字符图像中各字符单元的字符朝向相同;所述标准行字符图像中各字符单元的字符朝向也相同。
11.根据权利要求10所述的装置,其特征在于,所述字符单元包括下述至少一项:中文字、日文字、英文字母以及数字。
12.根据权利要求10或11所述的装置,其特征在于,所述训练样本生成模块包括:
目标操作图像获取单元,用于获取标准行字符图像样本中的标准行字符图像作为目标操作图像;
字符单元图片集合生成单元,用于根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;
字符单元图片旋转单元,用于分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;
旋转行字符图像生成单元,用于将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;
旋转行字符训练样本生成单元,用于根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本。
13.根据权利要求10或11所述的装置,其特征在于,所述训练样本生成模块包括:
标准竖列字符图像生成单元,用于将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;
竖列字符目标操作图像生成单元,用于将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;
竖列字符训练样本生成单元,用于将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本。
14.根据权利要求12所述的装置,其特征在于,所述90度旋转包括:90度顺时针旋转,和/或90度逆时针旋转;
所述设定神经网络包括循环神经网络。
15.根据权利要求13所述的装置,其特征在于,所述90度旋转包括:90度顺时针旋转,和/或90度逆时针旋转;
所述设定神经网络包括循环神经网络。
16.一种竖列字符图像识别装置,其特征在于,包括:
旋转待识别图像生成模块,用于将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;
旋转待识别图像输入模块,用于将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;
竖列字符识别结果确定模块,用于根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果;
其中,所述旋转行字符图像中各字符单元的左右位置关系与所述标准行字符图像中各字符单元的左右位置关系一致;所述旋转行字符图像中各字符单元的字符朝向相同;所述标准行字符图像中各字符单元的字符朝向也相同。
17.根据权利要求16所述的装置,其特征在于,在所述旋转待识别图像输入模块之前,还包括:
图像尺寸归一化模块,用于根据所述图像字符识别模型的模型参数,对所述旋转待识别图像进行尺寸归一化处理。
18.根据权利要求16或17所述的装置,其特征在于,所述竖列字符识别结果确定模块包括:
字符单元显示位置识别单元,用于获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;
行字符识别结果显示位置确定单元,用于根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;
竖列字符识别结果生成单元,用于根据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。
CN201610772101.XA 2016-08-30 2016-08-30 图像字符识别模型生成和竖列字符图像识别方法和装置 Active CN106407976B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610772101.XA CN106407976B (zh) 2016-08-30 2016-08-30 图像字符识别模型生成和竖列字符图像识别方法和装置
US15/393,630 US10176409B2 (en) 2016-08-30 2016-12-29 Method and apparatus for image character recognition model generation, and vertically-oriented character image recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610772101.XA CN106407976B (zh) 2016-08-30 2016-08-30 图像字符识别模型生成和竖列字符图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN106407976A CN106407976A (zh) 2017-02-15
CN106407976B true CN106407976B (zh) 2019-11-05

Family

ID=58003341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610772101.XA Active CN106407976B (zh) 2016-08-30 2016-08-30 图像字符识别模型生成和竖列字符图像识别方法和装置

Country Status (2)

Country Link
US (1) US10176409B2 (zh)
CN (1) CN106407976B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220640B (zh) * 2017-05-23 2020-07-17 广州绿怡信息科技有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN107480682B (zh) * 2017-08-25 2020-01-17 重庆慧都科技有限公司 一种商品包装生产日期检测方法
CN108304842A (zh) * 2018-02-01 2018-07-20 重庆中陆承大科技有限公司 水表读数识别方法、装置及电子设备
CN108960229B (zh) * 2018-04-23 2022-04-01 中国科学院信息工程研究所 一种面向多方向的文字检测方法和装置
CN108537289B (zh) * 2018-04-24 2023-04-07 百度在线网络技术(北京)有限公司 数据识别模型的训练方法、装置及存储介质
CN110874540A (zh) * 2018-08-31 2020-03-10 北京意锐新创科技有限公司 全角度读取条码的方法和装置
CN109377498B (zh) * 2018-08-31 2021-08-20 大连理工大学 基于循环神经网络的交互式抠图方法
CN109271910A (zh) * 2018-09-04 2019-01-25 阿里巴巴集团控股有限公司 一种文字识别、文字翻译方法和装置
CN110942074B (zh) * 2018-09-25 2024-04-09 京东科技控股股份有限公司 字符切分识别方法、装置、电子设备、存储介质
CN111046859B (zh) * 2018-10-11 2023-09-29 杭州海康威视数字技术股份有限公司 字符识别方法及装置
CN111126420B (zh) * 2018-10-30 2023-04-25 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
CN109766881A (zh) * 2018-11-28 2019-05-17 北京捷通华声科技股份有限公司 一种竖向文本图像的字符识别方法和装置
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN109658921B (zh) * 2019-01-04 2024-05-28 平安科技(深圳)有限公司 一种语音信号处理方法、设备及计算机可读存储介质
CN109871521A (zh) * 2019-01-08 2019-06-11 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN109766879B (zh) * 2019-01-11 2023-06-30 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN109753968B (zh) * 2019-01-11 2020-12-15 北京字节跳动网络技术有限公司 字符识别模型的生成方法、装置、设备及介质
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation
CN110991445B (zh) * 2019-11-21 2023-09-29 北京达佳互联信息技术有限公司 竖排文字识别方法、装置、设备及介质
CN111091124B (zh) * 2019-12-04 2022-06-03 吉林大学 一种书脊文字识别方法
CN113128306A (zh) * 2020-01-10 2021-07-16 北京字节跳动网络技术有限公司 垂直文本行识别方法、装置、设备及计算机可读存储介质
CN111860682A (zh) * 2020-07-30 2020-10-30 上海高德威智能交通系统有限公司 序列识别方法、装置、图像处理设备和存储介质
CN112580717A (zh) * 2020-12-17 2021-03-30 百度在线网络技术(北京)有限公司 模型训练方法、定位元素查找方法及装置
CN113313064A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 字符识别方法、装置、可读介质及电子设备
CN115830599B (zh) * 2023-02-08 2023-04-21 成都数联云算科技有限公司 工业字符识别方法、模型训练方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184390A (zh) * 2011-05-17 2011-09-14 姜雨枫 面向集装箱箱号的字符图像识别方法
US9014481B1 (en) * 2014-04-22 2015-04-21 King Fahd University Of Petroleum And Minerals Method and apparatus for Arabic and Farsi font recognition
CN104732226A (zh) * 2015-03-31 2015-06-24 浪潮集团有限公司 一种字符识别方法和装置
CN105431866A (zh) * 2013-07-16 2016-03-23 株式会社汤山制作所 光学字符识别装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031225A (en) * 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
JP2723118B2 (ja) * 1992-08-31 1998-03-09 インターナショナル・ビジネス・マシーンズ・コーポレイション 2次元オブジェクトの認識に用いるためのニューラル・ネットワーク及び光学式文字認識装置
US6480621B1 (en) * 1995-08-08 2002-11-12 Apple Computer, Inc. Statistical classifier with reduced weight memory requirements
US5903884A (en) * 1995-08-08 1999-05-11 Apple Computer, Inc. Method for training a statistical classifier with reduced tendency for overfitting
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
US6064767A (en) * 1998-01-16 2000-05-16 Regents Of The University Of California Automatic language identification by stroke geometry analysis
US6804414B1 (en) * 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
US6915025B2 (en) * 2001-11-27 2005-07-05 Microsoft Corporation Automatic image orientation detection based on classification of low-level image features
JP2005084765A (ja) * 2003-09-05 2005-03-31 Univ Of Fukui 文字認識装置及び方法及びそのプログラム
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP4628882B2 (ja) * 2005-06-16 2011-02-09 富士フイルム株式会社 判別器の学習方法、顔判別方法および装置並びにプログラム
WO2008025092A1 (en) * 2006-09-01 2008-03-06 Sensen Networks Pty Ltd Method and system of identifying one or more features represented in a plurality of sensor acquired data sets
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US9087337B2 (en) * 2008-10-03 2015-07-21 Google Inc. Displaying vertical content on small display devices
WO2010052830A1 (ja) * 2008-11-06 2010-05-14 日本電気株式会社 画像向き判定装置、画像向き判定方法及び画像向き判定プログラム
WO2013139032A1 (en) * 2012-03-23 2013-09-26 Microsoft Corporation Rotation-free recognition of handwritten characters
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
US9465985B2 (en) * 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
US11222044B2 (en) * 2014-05-16 2022-01-11 Microsoft Technology Licensing, Llc Natural language image search
AU2015290401A1 (en) * 2014-07-18 2017-02-02 Sung-Kwang Kim Language learning system utilizing component unit, more segmented than phoneme, or various games
US9727797B2 (en) * 2015-03-05 2017-08-08 International Business Machines Corporation Techniques for rotating language preferred orientation on a mobile device
CN106156766B (zh) * 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US9552527B1 (en) * 2015-08-27 2017-01-24 Lead Technologies, Inc. Apparatus, method, and computer-readable storage medium for determining a rotation angle of text
US9367736B1 (en) * 2015-09-01 2016-06-14 Amazon Technologies, Inc. Text detection using features associated with neighboring glyph pairs
US9881208B2 (en) * 2016-06-20 2018-01-30 Machine Learning Works, LLC Neural network based recognition of mathematical expressions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184390A (zh) * 2011-05-17 2011-09-14 姜雨枫 面向集装箱箱号的字符图像识别方法
CN105431866A (zh) * 2013-07-16 2016-03-23 株式会社汤山制作所 光学字符识别装置
US9014481B1 (en) * 2014-04-22 2015-04-21 King Fahd University Of Petroleum And Minerals Method and apparatus for Arabic and Farsi font recognition
CN104732226A (zh) * 2015-03-31 2015-06-24 浪潮集团有限公司 一种字符识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Segmentation and recognition of handwritten characters using subspace method;Y. Ariki.etc;《Proceedings of 3rd International Conference on Document Analysis and Recognition》;20020806;第120-123页 *
基于多模板匹配的车牌字符识别算法;陈鑫等;《信息与电脑》;20110531;第30-31页 *

Also Published As

Publication number Publication date
US10176409B2 (en) 2019-01-08
CN106407976A (zh) 2017-02-15
US20180060704A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
CN106407976B (zh) 图像字符识别模型生成和竖列字符图像识别方法和装置
Piao et al. A2dele: Adaptive and attentive depth distiller for efficient RGB-D salient object detection
Zakharov et al. Deceptionnet: Network-driven domain randomization
Yuan et al. Iterative transformer network for 3d point cloud
CN111709406B (zh) 文本行识别方法及装置、可读存储介质、电子设备
CN109272043B (zh) 用于光学字符识别的训练数据生成方法、系统和电子设备
WO2017003756A1 (en) Methods and systems for detecting and recognizing text from images
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
CN109255356A (zh) 一种文字识别方法、装置及计算机可读存储介质
Guo et al. Self-supervised GANs with similarity loss for remote sensing image scene classification
Geng et al. Instructdiffusion: A generalist modeling interface for vision tasks
CN107980139A (zh) 文档扫描器
CN110059539A (zh) 一种基于图像分割的自然场景文本位置检测方法
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN115311389A (zh) 一种基于预训练模型的多模态视觉提示技术表示学习方法
CN111783541B (zh) 一种文本识别方法和装置
Li et al. RSCA: Real-time segmentation-based context-aware scene text detection
CN108509993A (zh) 一种矿井突水激光诱导荧光光谱图像识别方法
CN110414523A (zh) 一种身份证识别方法、装置、设备及存储介质
Subedi et al. Development of a low-cost industrial OCR system with an end-to-end deep learning technology
Wu et al. STR transformer: a cross-domain transformer for scene text recognition
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
CN108416828A (zh) 一种3d场景文本图片合成方法及系统
CN116563736A (zh) 一种基于改进Yolov算法的无人机航拍绝缘子目标检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant