CN108229463A

CN108229463A - 基于图像的文字识别方法

Info

Publication number: CN108229463A
Application number: CN201810120593.3A
Authority: CN
Inventors: 谢畅; 钱浩然; 徐宝函; 陆王天宇
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-06-29

Abstract

一种基于图像的文字识别方法，其特征在于，包括：将获取的图像划分成多个区域；对该多个区域中的文字区域进行检测，以获取文字区域的位置信息和文字区域中的文字类型；对文字区域进行筛选，以确定待识别的文字区域；以及基于待识别的文字区域中的文字类型，使用指定识别模型对待识别的文字区域中的文字进行识别。

Description

基于图像的文字识别方法

技术领域

本发明涉及图像处理，尤其涉及基于图像的文字识别方法。

背景技术

光学字符识别(Optical Character Recognition,OCR)，是通过扫描、拍照等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入的技术。光学字符识别技术一直是辅助人们进行图像识别、文档阅读、解析与处理的重要技术手段，广泛应用于银行、金融、保险、税务、公安、边检、物流、审计等行业。与其相关的自动化流程，大幅减少了工作所需的硬件、人力投入，极大提升了工作效率。

光学字符识别系统一般分为两个部分：识别模型(Model)与识别模块(Module)。识别模型负责对需要识别的字符集进行建模，在真实的数据集中取适量字符样本，对其进行标记，利用图像处理或统计学习方法提取字符蕴含的特征，形成相应的识别模型；而识别模块则体现具体的文字识别流程，实现字符识别功能，通常包括输入、预处理、区域检测与定位、文字识别、后处理几个步骤。

传统OCR技术，主要由人工设计并提取字符特征，如梯度直方图(HoG)、尺度不变特征变换(SIFT)等。获得特征后，通过逻辑回归(LogisticRegression)、支持向量机(SVM)、决策树等方法进行训练，最终得到识别模型。这类方法需要大量的人工干预，流程繁琐，在简单字符集(如英文字母、阿拉伯数字)上效果较好，但在复杂字符集上(如中文字符、阿拉伯文等)效果较差，且识别模型对字体、字号以及图像噪声敏感，在准确率与通用性方面，有所不足。

神经网络(Neural Network)是一种人为设计的网络结构，其本质是多层感知机(Multi-layer Perceptron)。感知机由若干神经元(Neuron)构成，每个神经元从外部或其它节点收到输入信号，并通过激活函数得到输出信号，就像大脑中神经元的信号传递。神经元按层相连，形成网络结构。与神经细胞不同，人工神经元的信号能够反向传播，这种反馈机制让感知机具备学习功能。除了学习功能，多层感知机可以表示非线性映射，因此神经网络能够帮助人们解决一些相对复杂的问题，如模式识别、自动控制、决策评估、预测等。

卷积神经网络(Convolutional Neural Network)是一种前馈神经网络，它的神经元可以响应一部分覆盖范围内的周围单元，形成感受野(Receptive Field)，对图像处理有较好表现。同时，通过权值共享，卷积神经网络相比传统的全连接神经网络节省空间。用卷积神经网络学习出的特征，具有一定的位置不变性与尺度不变性，用卷积神经网络训练的OCR模型，对字体、字号的变化具有鲁棒性。

深度残差网络(Deep Residual Network)传统的深度学习网络的变型，可以克服随着网络深度加深而产生的收敛速度变慢、训练时间变长从而学习率变低问题，并且其在图像处理、目标检测中具有良好的效果。

循环神经网络(Recurrent Neural Network)是另一种前馈神经网络。与传统前馈神经网络不同，循环神经网络在神经元中引入定向循环，能够处理输入信号时序前后关联的问题。因此在OCR中可以应用循环神经网络来识别短语、词组或句子。其中，长-短期记忆神经网络(LSTM)能够解决学习长期依赖关系中出现的梯度消失问题，因此被广泛用于语音识别、机器翻译、手写识别等应用中。

现阶段有很多通用的OCR识别模型，如百度的OCR服务、Google的Tesseract等等。对于简单的文档，这类模型的识别率较高，但是对于排版复杂的文档，如表格、票据、各类报表，这些模型难以有效找出文字区域，识别准确率较低。

因此，亟需一种基于图像的文字识别方法，使得能够针对各种类型的图像进行准确的文字识别。

发明内容

本文针对上述问题，基于深度神经网络，融合三种神经网络结构并结合图像处理方法，提供了一种基于图像的文字识别方法，所述文字识别方法包括：将获取的图像划分成多个区域；对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型；对所述文字区域进行筛选，以确定待识别的文字区域；以及基于所述待识别的文字区域中的文字类型，使用指定的识别模型对所述待识别的文字区域中的文字进行识别。

在一种实施方式中，所述将获取的图像划分成多个区域的步骤包括以下步骤：对所述获取的图像进行自适应二值化处理；通过腐蚀膨胀处理，找出所述获取的图像的边线；以及根据所述边线的坐标，对所述获取的图像进行区域划分。

在一种实施方式中，对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型的步骤包括：采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型。

在一种实施方式中，基于所述待识别的文字区域中的文字类型，使用指定的识别模型对所述待识别的文字区域中的文字进行识别的步骤还包括以下步骤：如果所述文字区域中的文字类型属于第一类词条，则使用卷积神经网络模型对所述文字进行识别；如果所述文字区域中的文字类型属于第二类词条，则使用深度残差网络模型对所述文字进行识别；如果所述文字区域中的文字类型属于第三类词条，则使用双向LSTM网络模型对所述文字进行识别。

在一种实施方式中，当使用深度残差网络对所述第二类词条中的定长数字进行识别时，将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。

本发明另一方面提供了一种基于图像的文字识别装置，包括：图像区域划分单元，其被配置为将获取的图像划分成多个区域；文字区域检测单元，其被配置为对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型；文字区域筛选单元，其被配置为对所述文字区域进行筛选，以确定待识别的文字区域；以及文字识别单元，其被配置为基于所述待识别的文字区域中的文字类型，使用指定识别模型对所述待识别的文字区域中的文字进行识别。

在一种实施方式中，所述图像区域划分单元还被配置为：对所述获取的图像进行自适应二值化处理；通过腐蚀膨胀处理，找出所述获取的图像的边线；以及根据所述边线的坐标，对所述获取的图像进行区域划分。

在一种实施方式中，所述文字区域检测单元还被配置为采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型。

在一种实施方式中，所述文字识别单元还被配置为：如果所述文字区域中的文字类型属于第一类词条，则使用卷积神经网络模型对所述文字进行识别；如果所述文字区域中的文字类型属于第二类词条，则使用深度残差网络模型对所述文字进行识别；如果所述文字区域中的文字类型属于第三类词条，则使用双向LSTM网络模型对所述文字进行识别。

在一种实施方式中，所述文字识别单元还被配置为：当使用深度残差网络模型对所述第二类词条中的定长数字进行识别时，将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。

本发明另一方面提供了一种计算机可读储存介质，其上存储有处理器可执行指令，所述处理器可执行指令执行所述可执行指令时，执行上述基于图像的文本识别方法中任一项所述的方法。

本发明的有益技术效果：所述基于图像的文字识别方法将传统OCR技术、不同类型的深度神经网络及多种图像处理方法的优势发挥出来，弥补各自的局限性。

附图说明

图1是根据本发明的实施例的基于图像的文字识别方法的流程图；

图2是根据本发明的实施例的实现票据图像中的文字识别的方法的流程图；

图3是根据本发明的实施例的票据图像的一个示意图；

图4是图3中的票据图像进行划分成多个区域后的示意图；

图5是从图4中确定的票据图像的文字区域的示意图；

图6是图5中的票据图像的文字区域进行筛选后的示意图；

图7是根据本发明的实施例的基于图像的文字识别装置的示意图。

具体实施方式

在以下优选的实施例的具体描述中，将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解，在不偏离本发明的范围的前提下，可以利用其他实施例，也可以进行结构性或者逻辑性的修改。因此，以下的具体描述并非限制性的，且本发明的范围由所附的权利要求所限定。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线，仅仅是为了便于说明，其表示至少连线两端的单元是相互通信的，并非旨在限制未连线的单元之间无法通信。

以下结合附图对本发明进行详细描述

首先，对本申请中用到的一些术语进行说明。本申请中涉及识别的文字分为：“第一类词条”，即词条的种类不超过第一阈值的类型固定的词条，“第二类词条”，即词条的种类超过第一阈值且不超过第二阈值的相对固定但种类比较多的词条以及定长的数字，“第三类词条”除了第一类词条和第二类词条之外的词条，其中，第二阈值大于第一阈值，且本领域人员可以根据不同的应用场景对第一阈值和第二阈值进行设定。

以下结合附图对本发明进行详细描述。

图1是根据本发明的实施例的基于图像的文字识别方法的流程图。

本发明提供了基于图像的文字识别方法，该方法包括如下步骤：

步骤S101：将获取的图像划分成多个区域；

步骤S102：对多个区域中的文字区域进行检测，以获取文字区域的位置信息和文字区域中的文字类型；

步骤S103：对文字区域进行筛选，以确定待识别的文字区域，排除不需要识别的文字区域；

步骤S104：基于待识别的文字区域中的文字类型，使用指定识别模型对待识别的文字区域中的文字进行识别。

应理解的是，本方法所针对的图像包括票据、表格、文档等多种纸质文件形成的图像，不局限于某一种特定的纸质文件形成的图像。下面以票据为例，进一步详细阐述本发明所提供基于图像的文字识别方法。

图2是根据本发明的实施例的实现票据图像中的文字识别的方法的流程图。

下面结合图3、4、5中的票据图像，对票据图像的文字识别过程具体描述：

步骤S201：输入如图3所示的票据图像(票据的照片或扫描件等)。

步骤S202：对输入的票据图像进行预处理，具体如下：对票据图像进行仿射变换，将票据图像区域扶正，以消除票据图像的旋转问题；对票据图像进行透视变换，将票据图像区域变换为矩形，以消除票据图像中的透视问题；对票据图像进行裁切，以消除无关背景；去除票据图像噪声，加强票据图像对比度。

步骤S203：对预处理后的票据图像进行区域划分，具体如下：对票据图像进行灰度化；对灰度化处理后的票据图像进行自适应二值化；对二值化后的图像进行腐蚀膨胀处理，找出票据图像边线，保留票据图像线框，剔除其余部分；对经腐蚀膨胀的二值图像进行连通性分析，计算每个连通域的中点坐标；计算临近连通域中点的均值，得到线框的平均坐标，完成区域划分。

图4示出了图3中的票据图像进行划分成多个区域后的示意图。

步骤S204：通过Faster-RCNN目标检测，确定图4中的票据图像中的文字区域的位置信息以及文字区域中的文字类别。图5示出了从图4中确定的票据图像中的文字区域。

步骤S205：基于步骤S204中确定的票据图像中的文字区域和文字区域中的文字类型，依据指定的规则(例如，如图5中所示，在一种实施方式中，项目与金额成对出现，它们的水平位置相同，并且金额位于项目右边；医院名称只出现在图像的左半部分的上方，且为该区域最大的文本框。)对文字区域进行筛选，以确定出需要进行识别的文字区域(如图6中的线框选定的文字区域所示)同时排除不相关的文字区域。应理解，这里的指定的规则可以按照本领域技术人员的需求进行调整。

步骤S206：如果步骤S205中筛选出的待识别的文字区域中的文字属于第一类词条(如图6所示的“XX市第一人民医院”、“医疗机构类型”、“医保类型”、“诊疗费(自费)”、“门诊诊疗费(自费)”等)，则进行步骤S207，否则进行步骤S208。

步骤S207：采用深度卷积神经网络模型对这些词条进行识别，具体地，通过卷积层、最大池化层逐步提取文字特征，然后在全连接层中以预定阈值维度(例如，400至600，优选地，450至550)输出并结合dropout处理，最后通过softmax回归模型得出识别结果。

步骤S208：如果步骤S205中筛选出的待识别的文字区域中的文字属于第二类词条(例如图6所示的“科室”(办公区域比较多可能对应的内容比较多，或者由于医院办公楼的兴建或改建等信息会有一定的变化)、“No：1222223333”等)，则进行步骤S209，否则进行步骤S210。

步骤S209：采用深度残差网络模型对词条进行识别，具体地，针对“科室”这些相对固定但类别较多的词条，经平均池化层处理后进入全连接层得出识别结果，而针对定长数字(N位)(例如，票据号、社会保账号等。应理解的是，对于其他的字母加数字的文本，只要字母和数字合在一起所占的总位数固定为(N位)，同样适用于这种情况)，经平均池化层处理后采用N个分类器对每位数字单独进行识别。

步骤S210：如果步骤S205中筛选出的待识别的文字区域中的文字属于第三类词条(例如，图6中所示的“姓名”、“实际就诊时间”等)，则采用双向LSTM(长-短期记忆)网络模型对词条进行识别，具体地，通过卷积层、Batch Normalization、Leaky ReLU、最大池化层进行处理，然后通过LSTM 128隐层、dropout，最后通过Stack和动态RNN处理得到识别结果。

步骤S211：对步骤S208、步骤S209和步骤S210中的识别结果进行后处理，具体地，矫正识别结果；对识别结果进行匹配操作(例如，名称匹配、规则匹配)，如果识别结果有误，则需要进行修正；最后对识别结果进行格式化，使得识别结果与文字类别相对应。

步骤S212：输出识别结果。

本发明的实施例具有如下优点：

对票据进行有针对性的区域划分，包括票据中的文字行、表格单元等。尽可能多找出文字区域，并能根据区域划分结果推测出文字大致类型；采用Faster-RCNN目标检测方式能够精准找出不同尺寸(字号)的文字区域的位置信息，并对文字区域中的文字内容进行分类，提升后续步骤的准确率；利用检测出的文字区域的位置信息与识别模板进行匹配，从而排除非文本区域以及无需进行识别的文字，比通用识别方法更能抓住关键信息；对不同种类的文字区域，采用最适合的识别模型进行识别，可以提高识别准确率。

应理解的是，在进行文字识别时，也可以先不对文字的类型进行判断，同时采用深度卷积神经网络模型、深度残差网络模型和采用双向LSTM(长-短期记忆)网络模型对待识别区域中的文字进行识别，然后输出三种模型识别出结果中的效果最好的一个作为最终识别结果。

另外，图7示出了根据本发明的实施例的基于图像的文字识别装置的示意图。本发明提供了如图7所示的一种基于图像的文字识别装置，该装置包括图像区域划分单元701、文字区域检测单元702、文字区域筛选单元703和文字识别单元704。具体地，图像区域划分单元701被配置为将获取的图像划分成多个区域，文字区域检测单元702被配置为对多个区域中的文字区域进行检测，以获取文字区域的位置信息和文字区域中的文字类型，文字区域筛选单元703被配置为对文字区域进行筛选，以确定待识别的文字区域，文字识别单元704被配置为基于待识别的文字区域中的文字类型，使用指定识别模型对待识别的文字区域中的文字进行识别。

进一步地，图像区域划分单元701还被配置为：对获取的图像进行自适应二值化处理；通过腐蚀膨胀处理，找出获取的图像的边线；以及根据边线的坐标，对获取的图像进行区域划分。

进一步地，文字区域检测单元702还被配置为采用Faster-RCNN对多个区域中的文字区域进行检测，以获取文字区域的位置信息和文字区域中的文字类型。

进一步地，文字识别单元704还被配置为：如果文字区域中的文字类型属于第一类词条，则使用卷积神经网络模型对文字进行识别；如果文字区域中的文字类型属于第二类词条，则使用深度残差网络模型对文字进行识别；如果所述文字区域中的文字类型属于第三类词条，则使用双向LSTM网络模型对文字进行识别。

此外，图1、2中的基于图像的文字识别方法的流程还代表机器可读指令，该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中，该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的，图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外，虽然图1所示的流程图描述了该文本录入方法，但可对该文本录入方法中的步骤进行修改、删除或合并。

如上所述，可利用编码指令(如计算机可读指令)来实现图1的示例过程，该编程指令存储于有形计算机可读介质上，如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质，在该存储介质上信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。如在此所用的，该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地，可利用编码指令(如计算机可读指令)实现图1的示例过程，该编码指令存储于非暂时性计算机可读介质，如硬盘，闪存，只读存储器，光盘，数字通用光盘，高速缓存器，随机访问存储器和/或任何其他存储介质，在该存储介质信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。

虽然参照特定的示例来描述了本发明，其中这些特定的示例仅仅旨在是示例性的，而不是对本发明进行限制，但对于本领域普通技术人员来说显而易见的是，在不脱离本发明的精神和保护范围的基础上，可以对所公开的实施例进行改变、增加或者删除。

Claims

1.一种基于图像的文字识别方法，其特征在于，包括：

将获取的图像划分成多个区域；

对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型；

对所述文字区域进行筛选，以确定待识别的文字区域；以及

基于所述待识别的文字区域中的文字类型，使用指定的识别模型对所述待识别的文字区域中的文字进行识别。

2.根据权利要求1所述的文字识别方法，其特征在于，所述将获取的图像划分成多个区域的步骤包括以下步骤：

对所述获取的图像进行自适应二值化处理；

通过腐蚀膨胀处理，找出所述获取的图像的边线；以及

根据所述边线的坐标，对所述获取的图像进行区域划分。

3.根据权利要求1所述的文字识别方法，其特征在于，对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型的步骤包括：采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型。

4.根据权利要求1所述的文字识别方法，其特征在于，基于所述待识别的文字区域中的文字类型，使用指定的识别模型对所述待识别的文字区域中的文字进行识别的步骤还包括以下步骤：

如果所述文字区域中的文字类型属于第一类词条，则使用卷积神经网络模型对所述文字进行识别；

如果所述文字区域中的文字类型属于第二类词条，则使用深度残差网络模型对所述文字进行识别；

如果所述文字区域中的文字类型属于第三类词条，则使用双向LSTM网络模型对所述文字进行识别。

5.根据权利要求4所述的文字识别方法，其特征在于，当使用深度残差网络对所述第二类词条中的定长数字进行识别时，将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。

6.一种基于图像的文字识别装置，其特征在于，包括

图像区域划分单元，其被配置为将获取的图像划分成多个区域；

文字区域检测单元，其被配置为对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型；

文字区域筛选单元，其被配置为对所述文字区域进行筛选，以确定待识别的文字区域；以及

文字识别单元，其被配置为基于所述待识别的文字区域中的文字类型，使用指定识别模型对所述待识别的文字区域中的文字进行识别。

7.根据权利要求6所述的文字识别装置，其特征在于，所述图像区域划分单元还被配置为：

对所述获取的图像进行自适应二值化处理；

通过腐蚀膨胀处理，找出所述获取的图像的边线；以及

根据所述边线的坐标，对所述获取的图像进行区域划分。

8.根据权利要求6所述的文字识别装置，其特征在于，所述文字区域检测单元还被配置为采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字区域的位置信息和所述文字区域中的文字类型。

9.根据权利要求6所述的文字识别装置，其特征在于，所述文字识别单元还被配置为：

10.根据权利要求9所述的文字识别装置，其特征在于，所述文字识别单元还被配置为：当使用深度残差网络模型对所述第二类词条中的定长数字进行识别时，将采用与所述定长数字位数相同个数的分类器对所述定长数字中的每一位数字分别进行识别。

11.一种计算机可读储存介质，其上存储有处理器可执行指令，所述处理器可执行指令执行所述可执行指令时，执行根据权利要求1-5中任一项所述的方法。