CN108229463A - 基于图像的文字识别方法 - Google Patents

基于图像的文字识别方法 Download PDF

Info

Publication number
CN108229463A
CN108229463A CN201810120593.3A CN201810120593A CN108229463A CN 108229463 A CN108229463 A CN 108229463A CN 201810120593 A CN201810120593 A CN 201810120593A CN 108229463 A CN108229463 A CN 108229463A
Authority
CN
China
Prior art keywords
character area
identified
image
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810120593.3A
Other languages
English (en)
Inventor
谢畅
钱浩然
徐宝函
陆王天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongan Information Technology Service Co Ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201810120593.3A priority Critical patent/CN108229463A/zh
Publication of CN108229463A publication Critical patent/CN108229463A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于图像的文字识别方法,其特征在于,包括:将获取的图像划分成多个区域;对该多个区域中的文字区域进行检测,以获取文字区域的位置信息和文字区域中的文字类型;对文字区域进行筛选,以确定待识别的文字区域;以及基于待识别的文字区域中的文字类型,使用指定识别模型对待识别的文字区域中的文字进行识别。

Description

基于图像的文字识别方法
技术领域
本发明涉及图像处理,尤其涉及基于图像的文字识别方法。
背景技术
光学字符识别(Optical Character Recognition,OCR),是通过扫描、拍照等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入的技术。光学字符识别技术一直是辅助人们进行图像识别、文档阅读、解析与处理的重要技术手段,广泛应用于银行、金融、保险、税务、公安、边检、物流、审计等行业。与其相关的自动化流程,大幅减少了工作所需的硬件、人力投入,极大提升了工作效率。
光学字符识别系统一般分为两个部分:识别模型(Model)与识别模块(Module)。识别模型负责对需要识别的字符集进行建模,在真实的数据集中取适量字符样本,对其进行标记,利用图像处理或统计学习方法提取字符蕴含的特征,形成相应的识别模型;而识别模块则体现具体的文字识别流程,实现字符识别功能,通常包括输入、预处理、区域检测与定位、文字识别、后处理几个步骤。
传统OCR技术,主要由人工设计并提取字符特征,如梯度直方图(HoG)、尺度不变特征变换(SIFT)等。获得特征后,通过逻辑回归(LogisticRegression)、支持向量机(SVM)、决策树等方法进行训练,最终得到识别模型。这类方法需要大量的人工干预,流程繁琐,在简单字符集(如英文字母、阿拉伯数字)上效果较好,但在复杂字符集上(如中文字符、阿拉伯文等)效果较差,且识别模型对字体、字号以及图像噪声敏感,在准确率与通用性方面,有所不足。
神经网络(Neural Network)是一种人为设计的网络结构,其本质是多层感知机(Multi-layer Perceptron)。感知机由若干神经元(Neuron)构成,每个神经元从外部或其它节点收到输入信号,并通过激活函数得到输出信号,就像大脑中神经元的信号传递。神经元按层相连,形成网络结构。与神经细胞不同,人工神经元的信号能够反向传播,这种反馈机制让感知机具备学习功能。除了学习功能,多层感知机可以表示非线性映射,因此神经网络能够帮助人们解决一些相对复杂的问题,如模式识别、自动控制、决策评估、预测等。
卷积神经网络(Convolutional Neural Network)是一种前馈神经网络,它的神经元可以响应一部分覆盖范围内的周围单元,形成感受野(Receptive Field),对图像处理有较好表现。同时,通过权值共享,卷积神经网络相比传统的全连接神经网络节省空间。用卷积神经网络学习出的特征,具有一定的位置不变性与尺度不变性,用卷积神经网络训练的OCR模型,对字体、字号的变化具有鲁棒性。
深度残差网络(Deep Residual Network)传统的深度学习网络的变型,可以克服随着网络深度加深而产生的收敛速度变慢、训练时间变长从而学习率变低问题,并且其在图像处理、目标检测中具有良好的效果。
循环神经网络(Recurrent Neural Network)是另一种前馈神经网络。与传统前馈神经网络不同,循环神经网络在神经元中引入定向循环,能够处理输入信号时序前后关联的问题。因此在OCR中可以应用循环神经网络来识别短语、词组或句子。其中,长-短期记忆神经网络(LSTM)能够解决学习长期依赖关系中出现的梯度消失问题,因此被广泛用于语音识别、机器翻译、手写识别等应用中。
现阶段有很多通用的OCR识别模型,如百度的OCR服务、Google的Tesseract等等。对于简单的文档,这类模型的识别率较高,但是对于排版复杂的文档,如表格、票据、各类报表,这些模型难以有效找出文字区域,识别准确率较低。
因此,亟需一种基于图像的文字识别方法,使得能够针对各种类型的图像进行准确的文字识别。
发明内容
本文针对上述问题,基于深度神经网络,融合三种神经网络结构并结合图像处理方法,提供了一种基于图像的文字识别方法,所述文字识别方法包括:将获取的图像划分成多个区域;对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型;对所述文字区域进行筛选,以确定待识别的文字区域;以及基于所述待识别的文字区域中的文字类型,使用指定的识别模型对所述待识别的文字区域中的文字进行识别。
在一种实施方式中,所述将获取的图像划分成多个区域的步骤包括以下步骤:对所述获取的图像进行自适应二值化处理;通过腐蚀膨胀处理,找出所述获取的图像的边线;以及根据所述边线的坐标,对所述获取的图像进行区域划分。
在一种实施方式中,对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型的步骤包括:采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型。
在一种实施方式中,基于所述待识别的文字区域中的文字类型,使用指定的识别模型对所述待识别的文字区域中的文字进行识别的步骤还包括以下步骤:如果所述文字区域中的文字类型属于第一类词条,则使用卷积神经网络模型对所述文字进行识别;如果所述文字区域中的文字类型属于第二类词条,则使用深度残差网络模型对所述文字进行识别;如果所述文字区域中的文字类型属于第三类词条,则使用双向LSTM网络模型对所述文字进行识别。
在一种实施方式中,当使用深度残差网络对所述第二类词条中的定长数字进行识别时,将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。
本发明另一方面提供了一种基于图像的文字识别装置,包括:图像区域划分单元,其被配置为将获取的图像划分成多个区域;文字区域检测单元,其被配置为对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型;文字区域筛选单元,其被配置为对所述文字区域进行筛选,以确定待识别的文字区域;以及文字识别单元,其被配置为基于所述待识别的文字区域中的文字类型,使用指定识别模型对所述待识别的文字区域中的文字进行识别。
在一种实施方式中,所述图像区域划分单元还被配置为:对所述获取的图像进行自适应二值化处理;通过腐蚀膨胀处理,找出所述获取的图像的边线;以及根据所述边线的坐标,对所述获取的图像进行区域划分。
在一种实施方式中,所述文字区域检测单元还被配置为采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型。
在一种实施方式中,所述文字识别单元还被配置为:如果所述文字区域中的文字类型属于第一类词条,则使用卷积神经网络模型对所述文字进行识别;如果所述文字区域中的文字类型属于第二类词条,则使用深度残差网络模型对所述文字进行识别;如果所述文字区域中的文字类型属于第三类词条,则使用双向LSTM网络模型对所述文字进行识别。
在一种实施方式中,所述文字识别单元还被配置为:当使用深度残差网络模型对所述第二类词条中的定长数字进行识别时,将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。
本发明另一方面提供了一种计算机可读储存介质,其上存储有处理器可执行指令,所述处理器可执行指令执行所述可执行指令时,执行上述基于图像的文本识别方法中任一项所述的方法。
本发明的有益技术效果:所述基于图像的文字识别方法将传统OCR技术、不同类型的深度神经网络及多种图像处理方法的优势发挥出来,弥补各自的局限性。
附图说明
图1是根据本发明的实施例的基于图像的文字识别方法的流程图;
图2是根据本发明的实施例的实现票据图像中的文字识别的方法的流程图;
图3是根据本发明的实施例的票据图像的一个示意图;
图4是图3中的票据图像进行划分成多个区域后的示意图;
图5是从图4中确定的票据图像的文字区域的示意图;
图6是图5中的票据图像的文字区域进行筛选后的示意图;
图7是根据本发明的实施例的基于图像的文字识别装置的示意图。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。
以下结合附图对本发明进行详细描述
首先,对本申请中用到的一些术语进行说明。本申请中涉及识别的文字分为:“第一类词条”,即词条的种类不超过第一阈值的类型固定的词条,“第二类词条”,即词条的种类超过第一阈值且不超过第二阈值的相对固定但种类比较多的词条以及定长的数字,“第三类词条”除了第一类词条和第二类词条之外的词条,其中,第二阈值大于第一阈值,且本领域人员可以根据不同的应用场景对第一阈值和第二阈值进行设定。
以下结合附图对本发明进行详细描述。
图1是根据本发明的实施例的基于图像的文字识别方法的流程图。
本发明提供了基于图像的文字识别方法,该方法包括如下步骤:
步骤S101:将获取的图像划分成多个区域;
步骤S102:对多个区域中的文字区域进行检测,以获取文字区域的位置信息和文字区域中的文字类型;
步骤S103:对文字区域进行筛选,以确定待识别的文字区域,排除不需要识别的文字区域;
步骤S104:基于待识别的文字区域中的文字类型,使用指定识别模型对待识别的文字区域中的文字进行识别。
应理解的是,本方法所针对的图像包括票据、表格、文档等多种纸质文件形成的图像,不局限于某一种特定的纸质文件形成的图像。下面以票据为例,进一步详细阐述本发明所提供基于图像的文字识别方法。
图2是根据本发明的实施例的实现票据图像中的文字识别的方法的流程图。
下面结合图3、4、5中的票据图像,对票据图像的文字识别过程具体描述:
步骤S201:输入如图3所示的票据图像(票据的照片或扫描件等)。
步骤S202:对输入的票据图像进行预处理,具体如下:对票据图像进行仿射变换,将票据图像区域扶正,以消除票据图像的旋转问题;对票据图像进行透视变换,将票据图像区域变换为矩形,以消除票据图像中的透视问题;对票据图像进行裁切,以消除无关背景;去除票据图像噪声,加强票据图像对比度。
步骤S203:对预处理后的票据图像进行区域划分,具体如下:对票据图像进行灰度化;对灰度化处理后的票据图像进行自适应二值化;对二值化后的图像进行腐蚀膨胀处理,找出票据图像边线,保留票据图像线框,剔除其余部分;对经腐蚀膨胀的二值图像进行连通性分析,计算每个连通域的中点坐标;计算临近连通域中点的均值,得到线框的平均坐标,完成区域划分。
图4示出了图3中的票据图像进行划分成多个区域后的示意图。
步骤S204:通过Faster-RCNN目标检测,确定图4中的票据图像中的文字区域的位置信息以及文字区域中的文字类别。图5示出了从图4中确定的票据图像中的文字区域。
步骤S205:基于步骤S204中确定的票据图像中的文字区域和文字区域中的文字类型,依据指定的规则(例如,如图5中所示,在一种实施方式中,项目与金额成对出现,它们的水平位置相同,并且金额位于项目右边;医院名称只出现在图像的左半部分的上方,且为该区域最大的文本框。)对文字区域进行筛选,以确定出需要进行识别的文字区域(如图6中的线框选定的文字区域所示)同时排除不相关的文字区域。应理解,这里的指定的规则可以按照本领域技术人员的需求进行调整。
步骤S206:如果步骤S205中筛选出的待识别的文字区域中的文字属于第一类词条(如图6所示的“XX市第一人民医院”、“医疗机构类型”、“医保类型”、“诊疗费(自费)”、“门诊诊疗费(自费)”等),则进行步骤S207,否则进行步骤S208。
步骤S207:采用深度卷积神经网络模型对这些词条进行识别,具体地,通过卷积层、最大池化层逐步提取文字特征,然后在全连接层中以预定阈值维度(例如,400至600,优选地,450至550)输出并结合dropout处理,最后通过softmax回归模型得出识别结果。
步骤S208:如果步骤S205中筛选出的待识别的文字区域中的文字属于第二类词条(例如图6所示的“科室”(办公区域比较多可能对应的内容比较多,或者由于医院办公楼的兴建或改建等信息会有一定的变化)、“No:1222223333”等),则进行步骤S209,否则进行步骤S210。
步骤S209:采用深度残差网络模型对词条进行识别,具体地,针对“科室”这些相对固定但类别较多的词条,经平均池化层处理后进入全连接层得出识别结果,而针对定长数字(N位)(例如,票据号、社会保账号等。应理解的是,对于其他的字母加数字的文本,只要字母和数字合在一起所占的总位数固定为(N位),同样适用于这种情况),经平均池化层处理后采用N个分类器对每位数字单独进行识别。
步骤S210:如果步骤S205中筛选出的待识别的文字区域中的文字属于第三类词条(例如,图6中所示的“姓名”、“实际就诊时间”等),则采用双向LSTM(长-短期记忆)网络模型对词条进行识别,具体地,通过卷积层、Batch Normalization、Leaky ReLU、最大池化层进行处理,然后通过LSTM 128隐层、dropout,最后通过Stack和动态RNN处理得到识别结果。
步骤S211:对步骤S208、步骤S209和步骤S210中的识别结果进行后处理,具体地,矫正识别结果;对识别结果进行匹配操作(例如,名称匹配、规则匹配),如果识别结果有误,则需要进行修正;最后对识别结果进行格式化,使得识别结果与文字类别相对应。
步骤S212:输出识别结果。
本发明的实施例具有如下优点:
对票据进行有针对性的区域划分,包括票据中的文字行、表格单元等。尽可能多找出文字区域,并能根据区域划分结果推测出文字大致类型;采用Faster-RCNN目标检测方式能够精准找出不同尺寸(字号)的文字区域的位置信息,并对文字区域中的文字内容进行分类,提升后续步骤的准确率;利用检测出的文字区域的位置信息与识别模板进行匹配,从而排除非文本区域以及无需进行识别的文字,比通用识别方法更能抓住关键信息;对不同种类的文字区域,采用最适合的识别模型进行识别,可以提高识别准确率。
应理解的是,在进行文字识别时,也可以先不对文字的类型进行判断,同时采用深度卷积神经网络模型、深度残差网络模型和采用双向LSTM(长-短期记忆)网络模型对待识别区域中的文字进行识别,然后输出三种模型识别出结果中的效果最好的一个作为最终识别结果。
另外,图7示出了根据本发明的实施例的基于图像的文字识别装置的示意图。本发明提供了如图7所示的一种基于图像的文字识别装置,该装置包括图像区域划分单元701、文字区域检测单元702、文字区域筛选单元703和文字识别单元704。具体地,图像区域划分单元701被配置为将获取的图像划分成多个区域,文字区域检测单元702被配置为对多个区域中的文字区域进行检测,以获取文字区域的位置信息和文字区域中的文字类型,文字区域筛选单元703被配置为对文字区域进行筛选,以确定待识别的文字区域,文字识别单元704被配置为基于待识别的文字区域中的文字类型,使用指定识别模型对待识别的文字区域中的文字进行识别。
进一步地,图像区域划分单元701还被配置为:对获取的图像进行自适应二值化处理;通过腐蚀膨胀处理,找出获取的图像的边线;以及根据边线的坐标,对获取的图像进行区域划分。
进一步地,文字区域检测单元702还被配置为采用Faster-RCNN对多个区域中的文字区域进行检测,以获取文字区域的位置信息和文字区域中的文字类型。
进一步地,文字识别单元704还被配置为:如果文字区域中的文字类型属于第一类词条,则使用卷积神经网络模型对文字进行识别;如果文字区域中的文字类型属于第二类词条,则使用深度残差网络模型对文字进行识别;如果所述文字区域中的文字类型属于第三类词条,则使用双向LSTM网络模型对文字进行识别。
此外,图1、2中的基于图像的文字识别方法的流程还代表机器可读指令,该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中,该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的,图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外,虽然图1所示的流程图描述了该文本录入方法,但可对该文本录入方法中的步骤进行修改、删除或合并。
如上所述,可利用编码指令(如计算机可读指令)来实现图1的示例过程,该编程指令存储于有形计算机可读介质上,如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质,在该存储介质上信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。如在此所用的,该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地,可利用编码指令(如计算机可读指令)实现图1的示例过程,该编码指令存储于非暂时性计算机可读介质,如硬盘,闪存,只读存储器,光盘,数字通用光盘,高速缓存器,随机访问存储器和/或任何其他存储介质,在该存储介质信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。
虽然参照特定的示例来描述了本发明,其中这些特定的示例仅仅旨在是示例性的,而不是对本发明进行限制,但对于本领域普通技术人员来说显而易见的是,在不脱离本发明的精神和保护范围的基础上,可以对所公开的实施例进行改变、增加或者删除。

Claims (11)

1.一种基于图像的文字识别方法,其特征在于,包括:
将获取的图像划分成多个区域;
对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型;
对所述文字区域进行筛选,以确定待识别的文字区域;以及
基于所述待识别的文字区域中的文字类型,使用指定的识别模型对所述待识别的文字区域中的文字进行识别。
2.根据权利要求1所述的文字识别方法,其特征在于,所述将获取的图像划分成多个区域的步骤包括以下步骤:
对所述获取的图像进行自适应二值化处理;
通过腐蚀膨胀处理,找出所述获取的图像的边线;以及
根据所述边线的坐标,对所述获取的图像进行区域划分。
3.根据权利要求1所述的文字识别方法,其特征在于,对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型的步骤包括:采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型。
4.根据权利要求1所述的文字识别方法,其特征在于,基于所述待识别的文字区域中的文字类型,使用指定的识别模型对所述待识别的文字区域中的文字进行识别的步骤还包括以下步骤:
如果所述文字区域中的文字类型属于第一类词条,则使用卷积神经网络模型对所述文字进行识别;
如果所述文字区域中的文字类型属于第二类词条,则使用深度残差网络模型对所述文字进行识别;
如果所述文字区域中的文字类型属于第三类词条,则使用双向LSTM网络模型对所述文字进行识别。
5.根据权利要求4所述的文字识别方法,其特征在于,当使用深度残差网络对所述第二类词条中的定长数字进行识别时,将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。
6.一种基于图像的文字识别装置,其特征在于,包括
图像区域划分单元,其被配置为将获取的图像划分成多个区域;
文字区域检测单元,其被配置为对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型;
文字区域筛选单元,其被配置为对所述文字区域进行筛选,以确定待识别的文字区域;以及
文字识别单元,其被配置为基于所述待识别的文字区域中的文字类型,使用指定识别模型对所述待识别的文字区域中的文字进行识别。
7.根据权利要求6所述的文字识别装置,其特征在于,所述图像区域划分单元还被配置为:
对所述获取的图像进行自适应二值化处理;
通过腐蚀膨胀处理,找出所述获取的图像的边线;以及
根据所述边线的坐标,对所述获取的图像进行区域划分。
8.根据权利要求6所述的文字识别装置,其特征在于,所述文字区域检测单元还被配置为采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字区域的位置信息和所述文字区域中的文字类型。
9.根据权利要求6所述的文字识别装置,其特征在于,所述文字识别单元还被配置为:
如果所述文字区域中的文字类型属于第一类词条,则使用卷积神经网络模型对所述文字进行识别;
如果所述文字区域中的文字类型属于第二类词条,则使用深度残差网络模型对所述文字进行识别;
如果所述文字区域中的文字类型属于第三类词条,则使用双向LSTM网络模型对所述文字进行识别。
10.根据权利要求9所述的文字识别装置,其特征在于,所述文字识别单元还被配置为:当使用深度残差网络模型对所述第二类词条中的定长数字进行识别时,将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。
11.一种计算机可读储存介质,其上存储有处理器可执行指令,所述处理器可执行指令执行所述可执行指令时,执行根据权利要求1-5中任一项所述的方法。
CN201810120593.3A 2018-02-07 2018-02-07 基于图像的文字识别方法 Pending CN108229463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810120593.3A CN108229463A (zh) 2018-02-07 2018-02-07 基于图像的文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810120593.3A CN108229463A (zh) 2018-02-07 2018-02-07 基于图像的文字识别方法

Publications (1)

Publication Number Publication Date
CN108229463A true CN108229463A (zh) 2018-06-29

Family

ID=62670973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810120593.3A Pending CN108229463A (zh) 2018-02-07 2018-02-07 基于图像的文字识别方法

Country Status (1)

Country Link
CN (1) CN108229463A (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271973A (zh) * 2018-11-09 2019-01-25 天津新开心生活科技有限公司 医学文本ocr方法及系统
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、系统、终端及介质
CN109271982A (zh) * 2018-09-20 2019-01-25 西安艾润物联网技术服务有限责任公司 多个识别区域识别方法、识别终端及可读存储介质
CN109376731A (zh) * 2018-08-24 2019-02-22 北京三快在线科技有限公司 一种文字识别方法和装置
CN109492795A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ai的机场登机服务处理方法、装置、设备及介质
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109558875A (zh) * 2018-11-14 2019-04-02 广州同略信息科技有限公司 基于图像自动识别的方法、装置、终端及存储介质
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置
CN109685055A (zh) * 2018-12-26 2019-04-26 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109726661A (zh) * 2018-12-21 2019-05-07 网易有道信息技术(北京)有限公司 图像处理方法及装置、介质和计算设备
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器
CN109767422A (zh) * 2018-12-08 2019-05-17 深圳市勘察研究院有限公司 基于深度学习的管道检测识别方法、存储介质及机器人
CN109886274A (zh) * 2019-03-25 2019-06-14 山东浪潮云信息技术有限公司 基于opencv和深度学习的社保卡识别方法及系统
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN110110726A (zh) * 2019-05-15 2019-08-09 深圳供电局有限公司 电力设备铭牌识别方法、装置、计算机设备和存储介质
CN110188755A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN110263616A (zh) * 2019-04-29 2019-09-20 五八有限公司 一种文字识别方法、装置、电子设备及存储介质
CN110321892A (zh) * 2019-06-04 2019-10-11 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110348439A (zh) * 2019-07-02 2019-10-18 创新奇智(南京)科技有限公司 一种自动识别价签的方法、计算机可读介质及系统
CN110598686A (zh) * 2019-09-17 2019-12-20 携程计算机技术(上海)有限公司 发票的识别方法、系统、电子设备和介质
CN110929479A (zh) * 2018-09-03 2020-03-27 珠海金山办公软件有限公司 转换pdf扫描件的方法、装置、电子设备及存储介质
CN111275880A (zh) * 2019-05-09 2020-06-12 杭州睿琪软件有限公司 票据识别方法、装置、设备和存储介质
CN111368632A (zh) * 2019-12-27 2020-07-03 上海眼控科技股份有限公司 一种签名识别方法及设备
CN111444792A (zh) * 2020-03-13 2020-07-24 安诚迈科(北京)信息技术有限公司 票据识别方法、电子设备、存储介质及装置
CN111488870A (zh) * 2019-01-28 2020-08-04 富士通株式会社 文字识别方法和文字识别装置
CN111488877A (zh) * 2019-01-29 2020-08-04 北京新唐思创教育科技有限公司 一种用于教学系统的ocr识别方法、装置和终端
CN111914830A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 一种图像中的文本行定位方法、装置、设备及系统
CN111985461A (zh) * 2020-07-13 2020-11-24 苏州大学 轨道车辆编号识别方法及系统
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN112257719A (zh) * 2020-10-14 2021-01-22 深圳市天维大数据技术有限公司 一种文字识别方法、系统及存储介质
CN112381089A (zh) * 2020-11-20 2021-02-19 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112733916A (zh) * 2020-12-31 2021-04-30 五八有限公司 虚假证件图片的识别方法、装置、电子设备及存储介质
CN113361299A (zh) * 2020-03-03 2021-09-07 浙江宇视科技有限公司 一种异常停车的检测方法、装置、存储介质及电子设备
CN113688821A (zh) * 2021-09-07 2021-11-23 四川中电启明星信息技术有限公司 一种基于深度学习的ocr文字识别方法
CN113762237A (zh) * 2021-04-26 2021-12-07 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113822280A (zh) * 2020-06-18 2021-12-21 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质
CN115527226A (zh) * 2022-09-30 2022-12-27 中电金信软件有限公司 文字可靠识别的方法、装置和电子设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867180A (zh) * 2011-07-08 2013-01-09 富士通株式会社 灰度字符图像归一化装置和灰度字符图像归一化方法
CN104298976A (zh) * 2014-10-16 2015-01-21 电子科技大学 基于卷积神经网络的车牌检测方法
CN104392238A (zh) * 2014-09-29 2015-03-04 樊晓莉 含多类型标识的信息载体的识别方法
CN105205448A (zh) * 2015-08-11 2015-12-30 中国科学院自动化研究所 基于深度学习的文字识别模型训练方法和识别方法
CN105335754A (zh) * 2015-10-29 2016-02-17 小米科技有限责任公司 文字识别方法及装置
CN105678300A (zh) * 2015-12-30 2016-06-15 成都数联铭品科技有限公司 一种复杂图像文字序列识别方法
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106407874A (zh) * 2016-03-25 2017-02-15 东南大学 基于笔迹坐标序列的手写识别方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN106778745A (zh) * 2016-12-23 2017-05-31 深圳先进技术研究院 一种车牌识别方法及装置、用户设备
CN106934799A (zh) * 2017-02-24 2017-07-07 安翰光电技术(武汉)有限公司 胶囊内窥镜图像辅助阅片系统及方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN107247950A (zh) * 2017-06-06 2017-10-13 电子科技大学 一种基于机器学习的身份证图像文本识别方法
CN107301414A (zh) * 2017-06-23 2017-10-27 厦门商集企业咨询有限责任公司 一种自然场景图像中的中文定位、分割和识别方法
CN107480734A (zh) * 2017-05-19 2017-12-15 南京吉帝思信息科技有限公司 一种多类型医疗器械条码智能识别方法及装置
CN107480665A (zh) * 2017-08-09 2017-12-15 北京小米移动软件有限公司 文字检测方法、装置及计算机可读存储介质
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867180A (zh) * 2011-07-08 2013-01-09 富士通株式会社 灰度字符图像归一化装置和灰度字符图像归一化方法
CN104392238A (zh) * 2014-09-29 2015-03-04 樊晓莉 含多类型标识的信息载体的识别方法
CN104298976A (zh) * 2014-10-16 2015-01-21 电子科技大学 基于卷积神经网络的车牌检测方法
CN105205448A (zh) * 2015-08-11 2015-12-30 中国科学院自动化研究所 基于深度学习的文字识别模型训练方法和识别方法
CN105335754A (zh) * 2015-10-29 2016-02-17 小米科技有限责任公司 文字识别方法及装置
CN105678300A (zh) * 2015-12-30 2016-06-15 成都数联铭品科技有限公司 一种复杂图像文字序列识别方法
CN106407874A (zh) * 2016-03-25 2017-02-15 东南大学 基于笔迹坐标序列的手写识别方法
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106778745A (zh) * 2016-12-23 2017-05-31 深圳先进技术研究院 一种车牌识别方法及装置、用户设备
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN106934799A (zh) * 2017-02-24 2017-07-07 安翰光电技术(武汉)有限公司 胶囊内窥镜图像辅助阅片系统及方法
CN107480734A (zh) * 2017-05-19 2017-12-15 南京吉帝思信息科技有限公司 一种多类型医疗器械条码智能识别方法及装置
CN107247950A (zh) * 2017-06-06 2017-10-13 电子科技大学 一种基于机器学习的身份证图像文本识别方法
CN107301414A (zh) * 2017-06-23 2017-10-27 厦门商集企业咨询有限责任公司 一种自然场景图像中的中文定位、分割和识别方法
CN107480665A (zh) * 2017-08-09 2017-12-15 北京小米移动软件有限公司 文字检测方法、装置及计算机可读存储介质
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376731A (zh) * 2018-08-24 2019-02-22 北京三快在线科技有限公司 一种文字识别方法和装置
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、系统、终端及介质
CN110929479A (zh) * 2018-09-03 2020-03-27 珠海金山办公软件有限公司 转换pdf扫描件的方法、装置、电子设备及存储介质
CN109271982A (zh) * 2018-09-20 2019-01-25 西安艾润物联网技术服务有限责任公司 多个识别区域识别方法、识别终端及可读存储介质
CN109492795A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ai的机场登机服务处理方法、装置、设备及介质
CN109271973A (zh) * 2018-11-09 2019-01-25 天津新开心生活科技有限公司 医学文本ocr方法及系统
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器
CN109558875A (zh) * 2018-11-14 2019-04-02 广州同略信息科技有限公司 基于图像自动识别的方法、装置、终端及存储介质
CN109543667B (zh) * 2018-11-14 2023-05-23 北京工业大学 一种基于注意力机制的文本识别方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109767422B (zh) * 2018-12-08 2021-12-24 深圳市勘察研究院有限公司 基于深度学习的管道检测识别方法、存储介质及机器人
CN109767422A (zh) * 2018-12-08 2019-05-17 深圳市勘察研究院有限公司 基于深度学习的管道检测识别方法、存储介质及机器人
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置
CN109726661A (zh) * 2018-12-21 2019-05-07 网易有道信息技术(北京)有限公司 图像处理方法及装置、介质和计算设备
CN109685055A (zh) * 2018-12-26 2019-04-26 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109685055B (zh) * 2018-12-26 2021-11-12 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN111488870A (zh) * 2019-01-28 2020-08-04 富士通株式会社 文字识别方法和文字识别装置
CN111488877A (zh) * 2019-01-29 2020-08-04 北京新唐思创教育科技有限公司 一种用于教学系统的ocr识别方法、装置和终端
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN109993160B (zh) * 2019-02-18 2022-02-25 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN109886274A (zh) * 2019-03-25 2019-06-14 山东浪潮云信息技术有限公司 基于opencv和深度学习的社保卡识别方法及系统
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110263616A (zh) * 2019-04-29 2019-09-20 五八有限公司 一种文字识别方法、装置、电子设备及存储介质
CN111914830A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 一种图像中的文本行定位方法、装置、设备及系统
CN111275880A (zh) * 2019-05-09 2020-06-12 杭州睿琪软件有限公司 票据识别方法、装置、设备和存储介质
CN110110726A (zh) * 2019-05-15 2019-08-09 深圳供电局有限公司 电力设备铭牌识别方法、装置、计算机设备和存储介质
CN110188755B (zh) * 2019-05-30 2021-09-07 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN110188755A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN110321892B (zh) * 2019-06-04 2022-12-13 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110321892A (zh) * 2019-06-04 2019-10-11 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110348439A (zh) * 2019-07-02 2019-10-18 创新奇智(南京)科技有限公司 一种自动识别价签的方法、计算机可读介质及系统
CN110598686A (zh) * 2019-09-17 2019-12-20 携程计算机技术(上海)有限公司 发票的识别方法、系统、电子设备和介质
CN111368632A (zh) * 2019-12-27 2020-07-03 上海眼控科技股份有限公司 一种签名识别方法及设备
CN113361299B (zh) * 2020-03-03 2023-08-15 浙江宇视科技有限公司 一种异常停车的检测方法、装置、存储介质及电子设备
CN113361299A (zh) * 2020-03-03 2021-09-07 浙江宇视科技有限公司 一种异常停车的检测方法、装置、存储介质及电子设备
CN111444792A (zh) * 2020-03-13 2020-07-24 安诚迈科(北京)信息技术有限公司 票据识别方法、电子设备、存储介质及装置
CN111444792B (zh) * 2020-03-13 2023-05-09 安诚迈科(北京)信息技术有限公司 票据识别方法、电子设备、存储介质及装置
CN113822280A (zh) * 2020-06-18 2021-12-21 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质
CN111985461A (zh) * 2020-07-13 2020-11-24 苏州大学 轨道车辆编号识别方法及系统
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN112257719A (zh) * 2020-10-14 2021-01-22 深圳市天维大数据技术有限公司 一种文字识别方法、系统及存储介质
CN112381089B (zh) * 2020-11-20 2024-06-07 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112381089A (zh) * 2020-11-20 2021-02-19 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112733916A (zh) * 2020-12-31 2021-04-30 五八有限公司 虚假证件图片的识别方法、装置、电子设备及存储介质
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113762237A (zh) * 2021-04-26 2021-12-07 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113688821B (zh) * 2021-09-07 2023-05-23 四川中电启明星信息技术有限公司 一种基于深度学习的ocr文字识别方法
CN113688821A (zh) * 2021-09-07 2021-11-23 四川中电启明星信息技术有限公司 一种基于深度学习的ocr文字识别方法
CN115527226A (zh) * 2022-09-30 2022-12-27 中电金信软件有限公司 文字可靠识别的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN108229463A (zh) 基于图像的文字识别方法
Rao et al. OPTICAL CHARACTER RECOGNITION TECHNIQUE ALGORITHMS.
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
Radwan et al. Neural networks pipeline for offline machine printed Arabic OCR
Hamida et al. Handwritten computer science words vocabulary recognition using concatenated convolutional neural networks
CN115880704B (zh) 一种病例的自动编目方法、系统、设备及存储介质
Hajič Jr et al. Detecting noteheads in handwritten scores with convnets and bounding box regression
RU2703270C1 (ru) Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей
Sueiras Continuous offline handwriting recognition using deep learning models
Raj et al. Grantha script recognition from ancient palm leaves using histogram of orientation shape context
Daood et al. Handwriting detection and recognition of Arabic numbers and characters using deep learning methods
Joshi et al. Combination of multiple image features along with KNN classifier for classification of Marathi Barakhadi
Susanto et al. Javanese character recognition based on k-nearest neighbor and linear binary pattern features
Hijam et al. Convolutional neural network based Meitei Mayek handwritten character recognition
Bureš et al. Semantic text segmentation from synthetic images of full-text documents
Dharmapala et al. Sinhala handwriting recognition mechanism using zone based feature extraction
Küçükşahin Design of an offline ottoman character recognition system for translating printed documents to modern turkish
Shinde et al. Automatic Data Collection from Forms using Optical Character Recognition
Nisa et al. Annotation of struck-out text in handwritten documents
Aniket et al. Handwritten Gujarati script recognition with image processing and deep learning
Bappy et al. Bangla Handwritten Numeral Recognition using Deep Convolutional Neural Network
Prasath et al. CHAPTER FOURTEEN Optical Character Recognition using Deep Learning Techniques
Kumar et al. Automated Handwritten Text Recognition
Bagarukayo Marvin Ssemambo Reg: 2016/HD05/344U Std No: 210025242 sallanmarvin@ gmail. com/mssemambo@ cis. mak. ac. ug
Hari et al. Optical Character Recognition using Deep Learning Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180629