CN105825214B

CN105825214B - 一种基于tesseract引擎的文字识别方法及装置

Info

Publication number: CN105825214B
Application number: CN201610143955.1A
Authority: CN
Inventors: 孙磊; 秦阳; 莫凌飞; 杜喆宁; 姚昕宇; 齐恒; 冯增涛
Original assignee: Southeast University
Current assignee: HANGZHOU CCRFID MICROELECTRONICS Co.,Ltd.
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2019-02-05
Anticipated expiration: 2036-03-14
Also published as: CN105825214A

Abstract

本发明公开了一种基于tesseract引擎的文字识别方法及其对应的装置，利用云端服务器对本地文字库进行升级来修正tesseract引擎的识别结果，提高了tesseract引擎识别图像中文字的精度。本发明所述的文字识别装置包括服务器、tesseract引擎模块、云端服务器和本地文字库。升级本地文字库时，服务器采用云端服务器识别出的文字对tesseract引擎模块的识别结果进行修正，将tesseract引擎模块无法正确识别的文字补充进本地文字库。这样，进行文字识别时则可以通过查询本地文字库来提升识别精度。本发明利用升级后的本地文字库修正tesseract引擎模块的识别结果，可以达到与直接利用云端服务器进行文字识别相同的精度同时也可缩短文字识别运算的时间，适合将日常学习与工作中的图片识别成文字。

Description

一种基于tesseract引擎的文字识别方法及装置

技术领域

本发明涉及一种图像识别方法，属于OCR文字识别(Optical CharacterRecognition，光学字符识别)技术领域。

背景技术

OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。光学字符识别(OCR)是将印刷的文字图像转换成机器编码文本的过程。它被广泛地用于转换印刷纸上的数据记录形式，主要转换对象为护照证件，发票，银行结单，电子收据，名片，邮件，静态数据，或任何合适打印输出的文档。COR可以使得数字化印刷文本被电子地编辑，紧凑地存储、检索、在线显示，并且在机器的进程中更易使用。此外，COR技术在文本到语音的转换，密钥数据和文本挖掘中也经常用到。

目前，若需要达到较好的文字识别效果，通常需要使用百度云端的OCR文字识别服务。文字识别服务依托深度学习技术，提供了自然场景下整图文字检测、定位、识别等功能。文字识别的结果可以用于翻译、搜索、TTS(Text to Speech，从文本到语音)等代替用户输入的场景。用户可在百度OCR文字识别服务页面体验并购买使用，但需要大量资金。

而传统的OCR文字识别方法，如tesseract引擎，相对云端服务器的OCR服务来说识别率较低，且对图片的质量要求比较高。Tesseract引擎是一种开源的OCR识别引擎，初期的Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除了bug，优化后重新发布。当前版本为3.02。通常，在采用tesseract引擎进行图片文字识别时，tesseract引擎首先查询本地文字库，寻找是否存在与待识别图片相匹配的识别结果，若存在，则以文字的形式输出该识别结果；若不存在，则通过卷积神经网络这一机器学习算法来进行文字识别，以文字的形式输出识别结果。卷积神经网络(Convolutional NeuralNetwork，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，通过卷积运算来由浅入深的提取图像的不同层次的特征，而利用神经网络的训练过程让整个网络自动调节卷积核的参数，从而无监督的产生了最适合的分类特征。目前，tesseract引擎采用的正是这种方式进行识别运算。而在采用tesseract引擎进行图像识别时，由于训练量小，该方法所取得的识别精度不高。为保证识别精度，在使用中需要在将识别的文字结果输出给用户后，由用户手动更正识别结果，通过手动的方式来更新本地文字库。因而不能适应目前用户对打印出的文字进行识别的需求。

目前的图像文字识别技术要么成本很高，要么识别率很低，都无法满足目前用户对于文字识别的需要。

发明内容

发明目的：本发明针对现有技术中识别率和识别成本的矛盾，提出了一种利用云端服务器对本地文字库升级来修正tesseract引擎识别结果的文字识别方法，能够提高tesseract引擎识别图像中文字的精度。

具体而言，本发明通过云端服务器的api接口调用云端服务器进行图像识别，并借助云端服务器来升级本地文字库，升级之后，本地的tesseract引擎在识别时利用升级后的本地文字库的数据来修正识别结果，提高文字识别的精度。具体技术方案如下：

一种OCR文字识别方法，其特征在于识别的具体步骤如下：

步骤1，由服务器接收待识别图片；

步骤2，将服务器连接云端服务器，服务器同时将待识别图片传输至tesseract引擎模块和云端服务器，tesseract引擎模块和云端服务器同时对待识别图片进行文字识别，并分别将识别结果反馈给服务器，服务器比较两个识别结果，若两个识别结果相同则输出识别结果；若两个识别结果不同，则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库；

步骤3，重复步骤1至2直至完成对本地文字库的升级；

步骤4，服务器与云端服务器的连接断开，通过esseract引擎模块进行图片文字识别；tesseract引擎模块首先查询本地文字库，寻找是否存在与待识别图片相匹配的识别结果，若存在，则以文字的形式输出本地文字库中存储的识别结果；若不存在，则通过卷积神经网络进行文字识别，以文字的形式输出识别结果。

如上所述的OCR文字识别方法，其特征在于，所述的步骤2中，服务器与云端服务器的接口为api接口(Application Programming Interface，应用程序编程接口)。

一种OCR文字识别装置，其特征在于包括服务器、tesseract引擎模块、云端服务器和本地文字库；

其中，在升级本地文字库阶段，服务器同时连接tesseract引擎模块、云端服务器和本地文字库；服务器同时将接收到的待识别图片发送给tesseract引擎模块和云端服务器，tesseract引擎和云端服务器同时对待识别图片进行文字识别，并分别将识别结果反馈给服务器，服务器比较两个识别结果，若两个识别结果相同则输出识别结果；若两个识别结果不同，则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库；

在文字识别阶段，服务器连接tesseract引擎模块和本地文字库，通过esseract引擎模块进行图片文字识别；tesseract引擎模块首先查询本地文字库，寻找是否存在与待识别图片相匹配的识别结果，若存在，则以文字的形式输出本地文字库中存储的识别结果；若不存在，则通过卷积神经网络进行文字识别，以文字的形式输出识别结果。

本发明在服务器上将本地TESSERACT引擎模块的识别结果和云端服务器提供的OCR服务的结果进行对比，将两个识别结果不一致的待识别图片部分截取出来，然后将该图片部分和云端服务器识别的文字结果一起存入本地文字库。充分的利用tesseract引擎的自我学习功能，借助云端服务器来升级本地文字库。在进行文字识别时，断开与云端服务器的连接，利用本地文字库纠正识别结果。

有益效果

本发明利用云端服务器自动地对本地文字库进行升级，通过升级后的本地文字库修正tesseract引擎模块的识别结果。由于云端服务器进行图片文字识别的识别精度较高，因而，云端服务器升级后的本地文字库可以而在服务器进行文字识别时，即服务器与云端服务器断开的情况下，可以保证利用升级后的本地文字库修正后的tesseract引擎模块的识别精度与直接利用云端服务器进行文字识别的精度相当。

本发明由于采用云端服务器对本地文字库进行升级，代替了传统的由用户手动更正文字识别结果的过程，因此识别效率更高。而且由于采用云端服务器自动的对本地文字库进行升级，因而，本地文字库的更新效率更高，能够使得本地文字库很快的达到进行识别所需的文字存储量。

由于不需要每一次都通过云端服务器进行文字识别，因而本发明所述的方法在保证识别精度的同时能有效的降低识别的开销。

且本发明所述的文字识别方法在进行文字识别时不需要保持与云端服务器连接。本发明在进行文字识别时，通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。文字识别效率更高。

本申请所选用的tesseract引擎可以兼容Linux、Windows和Mac OS X系统，而且有google开源社区支持，可以在第一时间对更新的功能进行测试与应用。

附图说明

图1是本发明所述OCR文字识别方法的流程图。

具体实施方式

本发明提供一种OCR文字识别方法及装置。本发明通过云端服务器的api接口来调用云端服务器进行图像文字识别，同时借助云端服务器来升级本地文字库。升级之后，本地tesseract引擎模块在识别时利用本地文字库的数据修正识别结果，提高tesseract引擎模块的识别率。识别的具体步骤如下：

步骤1，由服务器接收待识别图片；

步骤3，重复步骤1至2直至完成对本地文字库的升级；

步骤4，服务器与云端服务器的连接断开，通过tesseract引擎模块进行图片文字识别；tesseract引擎模块首先查询本地文字库，寻找是否存在与待识别图片相匹配的识别结果，若存在，则以文字的形式输出本地文字库中存储的识别结果；若不存在，则通过卷积神经网络进行文字识别，以文字的形式输出识别结果。

实际使用本发明所述的识别方法时，由于已经预先升级了本地文字库，因而可以跳过步骤2至步骤3，直接根据步骤4，使用升级后的本地文字库对tesseract引擎模块识别的结果进行修正。这样就可以在保证识别精度的同时缩短tesseract引擎模块进行卷积神经网络运算的时间。

本实施例中的tesseract引擎模块采用tesseract引擎进行文字识别。因为tesseract可以在Linux、Windows和Mac OS X上兼容，而且有google开源社区支持，更新的功能可以在第一时间进行测试、应用。

本发明同时提供一种实现上述OCR文字识别方法的装置，该装置包括服务器、TESSERACT引擎模块、云端服务器和本地文字库；云端服务器可以通过现有公司(例如：泰比、百度)提供的api接口与服务器连接。

在升级本地文字库阶段，服务器同时连接tesseract引擎模块、云端服务器和本地文字库；服务器同时将接收到的待识别图片发送给tesseract引擎模块和云端服务器，tesseract引擎和云端服务器同时对待识别图片进行文字识别，并分别将识别结果反馈给服务器，服务器比较两个识别结果，若两个识别结果相同则输出识别结果；若两个识别结果不同，则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库；

在文字识别阶段，服务器连接tesseract引擎模块和本地文字库，通过tesseract引擎模块进行图片文字识别；tesseract引擎模块首先查询本地文字库，寻找是否存在与待识别图片相匹配的识别结果，若存在，则以文字的形式输出本地文字库中存储的识别结果；若不存在，则通过卷积神经网络进行文字识别，以文字的形式输出识别结果。

服务器将接收到的待识别图片发送给tesseract引擎模块，tesseract引擎模块对待识别图片进行文字识别并且将识别结果反馈给服务器。

本发明所述的文字识别设备在升级本地文字库阶段，会在服务器上将tesseract引擎模块的识别结果和云端服务器提供的OCR服务的识别结果进行对比，将两个识别结果不一致的待识别图片寻找出来，以云端服务器提供的OCR服务的识别结果作为准，将需要修正的图片存入本地文字库。本发明充分的利用tesseract引擎的自我学习功能，即借助云端服务器来升级本地文字库，利用本地文字库修正tesseract引擎识别的结果，以达到与云端服务器相近的文字识别精度。

升级本地文字库阶段，即步骤2中，服务器比较tesseract引擎模块的识别结果和云端服务器的识别结果的具体过程如下：将两个识别结果的文本进行逐字比对，若两个识别结果相同则继续对比下一个文字，若两个识别结果不同，便将云端服务器的识别结果输入本地文字库，同时截取待识别图片中的对应部分一并存在本地文字库中与该识别结果对应的位置。

再次进行文字识别时，若新图片中出现与本地文字库中所存的相同的图片部分，便直接输出本地文字库中储存的对应的识别结果的文字。

本申请利用云端服务器代替人工的方式对本地文字库进行升级。云端服务器选用百度深度学习研究院2015.6.1发布的百度文字识别技术。该技术通过APIStore对外开放。这项技术是目前全球最准确的中文通用识别服务，此前仅供百度系产品使用。现在，只要是接入了百度开发者平台的开发者，都可以通过百度文字识别API服务对其进行调用。

由于升级过本地文字库后，不需要每一次都通过云端服务器进行文字识别，因而本发明所述的方法在保证识别精度的同时能有效的降低识别的开销。

且本发明所述的文字识别方法在进行文字识别时不需要保持与云端服务器连接。本发明在进行文字识别时，通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。而且查询本地文字库的方式减少了服务器与云端服务器的通信，这样也会使得本发明所述的文字识别方法在保证识别精度的同时提供更高的识别效率。

Claims

1.一种OCR文字识别方法，其特征在于识别的具体步骤如下：

步骤1，由服务器接收待识别图片；

步骤2，将服务器连接云端服务器，服务器同时将待识别图片传输至tesseract引擎模块和云端服务器，tesseract引擎模块和云端服务器同时对待识别图片进行文字识别，并分别将识别结果反馈给服务器，服务器比较两个识别结果，若两个识别结果相同则进入步骤3；若两个识别结果不同，则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库；

步骤3，重复步骤1至2直至完成对本地文字库的升级；

2.如权利要求1所述的OCR文字识别方法，其特征在于，所述的步骤2中，服务器与云端服务器的接口为api接口。

3.一种OCR文字识别装置，其特征在于包括服务器、tesseract引擎模块、云端服务器和本地文字库；