CN107862312A - 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质 - Google Patents

一种基于tesseract引擎的文字识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107862312A
CN107862312A CN201711172950.2A CN201711172950A CN107862312A CN 107862312 A CN107862312 A CN 107862312A CN 201711172950 A CN201711172950 A CN 201711172950A CN 107862312 A CN107862312 A CN 107862312A
Authority
CN
China
Prior art keywords
identified
picture
tesseract
word
text region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711172950.2A
Other languages
English (en)
Inventor
朱秋华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711172950.2A priority Critical patent/CN107862312A/zh
Publication of CN107862312A publication Critical patent/CN107862312A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例公开了一种基于tesseract引擎的文字识别方法、装置、设备及存储介质。所述方法包括:获取待识别图片;将待识别图片传输至tesseract引擎模块和云端服务器,tesseract引擎模块和云端服务器同时对待识别图片进行文字识别;采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果,能够提高文字识别的准确率和识别效率。

Description

一种基于tesseract引擎的文字识别方法、装置、设备及存储 介质
技术领域
本发明实施例涉及文字识别技术领域,尤其涉及一种基于tesseract引擎的文字识别方法、装置、设备及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术,可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。
传统的OCR文字识别方法,如tesseract引擎,相对云端服务器的OCR服务来说识别率较低,且对图片的质量要求比较高。现在也存在通过tesseract引擎和云端服务器共同识别文字的技术,该技术首先使用tesseract引擎查询本地文字库,该本地文字库通过tesseract引擎训练得到,寻找是否存在与待识别图片相匹配的识别结果,若存在,则输出识别结果;若不存在,则通过卷积神经网络(Convolutional Neural Network,CNN)进行文字识别并输出识别结果。 CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。但是上述识别方法中的本地文字库识别精度不高,用户获取识别结果后还需要手动更正识别结果来更新本地文字库,因此识别效率比较低。
发明内容
本发明实施例提出一种基于tesseract引擎的文字识别方法、装置、设备及存储介质,在输出识别结果前采用tesseract引擎和云服务端共同训练本地文字库,同时tesseract引擎模块采用双识别引擎来识别文字,从而提高文字识别的准确率和识别效率。
第一方面,本发明实施例提供了一种基于tesseract引擎的文字识别方法,包括:
S110、获取待识别图片;
S120、将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则对所述待识别图片中的文字进行识别,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库;
S130、重复上述步骤直至完成所述本地文字库的升级;
S140、采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;
所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果。
第二方面,本发明实施例还提供了一种文字识别装置,该装置包括:
图片获取模块,用于获取待识别图片;
本地文字库训练模块,用于将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则启动识别结果输出模块,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库;
本地文字库升级模块,用于重复上述步骤直至完成所述本地文字库的升级;
文字识别模块,用于采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;
识别结果输出模块,用于所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果。
第三方面,本发明实施例还提供了一种文字识别设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述所涉及的任一所述的基于tesseract引擎的文字识别方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所涉及的任一所述的基于tesseract引擎的文字识别方法。
本发明实施例提出一种基于tesseract引擎的文字识别方法、装置、设备及存储介质,在输出识别结果前采用tesseract引擎和云服务端共同训练本地文字库,进行文字识别时不需要保持与云端服务器连接。本发明实施例在进行文字识别时,通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。而且查询本地文字库的方式减少了服务器与云端服务器的通信,这样也会使得本发明所述的文字识别方法在保证识别精度的同时提供更高的识别效率。同时tesseract引擎模块采用双识别引擎来识别文字,从而提高文字识别的准确率和识别效率。
附图说明
图1是本发明实施例一提供的一种文字识别方法的流程图;
图2是本发明实施例一提供的切线最陡算法效果示意图;
图3是本发明实施例二提供的一种文字识别装置的示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文字识别方法的流程图,本实施例可适用于识别文字的情况,该方法可以由文字识别装置来执行,该装置可以由软件和/或硬件来实现,一般可集成在文字识别设备中,具体包括如下步骤:
S110、获取待识别图片。
在本发明实施例中,待识别图片中包含需要识别的文本信息,其中,文本信息可以涉及到多种不同的语种。
S120、将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则对所述待识别图片中的文字进行识别,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库。
Tesseract引擎是一种开源的OCR识别引擎,初期的Tesseract引擎由HP 实验室研发,后来贡献给了开源软件业,后经由Google进行改进,优化后重新发布。
在本发明的一个实施例中,利用云端服务器代替人工的方式对本地文字库进行升级。云端服务器选用百度深度学习研究院2015.6.1发布的百度文字识别技术。这项技术是目前全球最准确的中文通用识别服务,此前仅供百度系产品使用。现在,只要是接入了百度开发者平台的开发者,都可以通过百度文字识别API服务对其进行调用。
S130、重复上述步骤直至完成所述本地文字库的升级。
在本发明的一个实施例中,在升级本地文字库阶段,服务器同时连接 tesseract引擎模块、云端服务器和本地文字库:服务器同时将接收到的待识别图片发送给tesseract引擎模块和云端服务器,tesseract引擎和云端服务器同时对待识别图片进行文字识别,并分别将识别结果反馈给服务器,服务器比较两个识别结果,若两个识别结果相同则输出识别结果:若两个识别结果不同,则将识别结果不一样的待识别图片和其对应的来白云端服务器的识别结果存入本地文字库。
其中,文字识别设备在升级本地文字库阶段,会在服务器上将tesseract引擎模块的识别结果和云端服务器提供的OCR服务的识别结果进行对比,将两个识别结果不一致的待识别图片寻找出来,以云端服务器提供的OCR服务的识别结果作为准,将需要修正的图片存入本地文字库。
具体的,在升级本地文字库阶段,服务器比较tesseract引擎模块的识别结果和云端服务器的识别结果的具体过程如下:将两个识别结果的文本进行逐字比对,若两个识别结果相同则继续对比下一个文字,若两个识别结果不同,便将云端服务器的识别结果输入本地文字库,同时截取待识别图片中的对应部分一并存在本地文字库中与该识别结果对应的位置。再次进行文字识别时,若新图片中出现与本地文字库中所存的相同的图片部分,便直接输出本地文字库中储存的对应的识别结果的文字。
S140、采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;
所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果。
CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,通过卷积运算来由浅入深的提取图像的不同层次的特征,丽利用神经网络的训练过程让整个网络自动调节卷积核的参数,从而无监督的产生了最适合的分类特征。
在文字识别阶段,服务器连接tesseract引擎模块和本地文字库,通过esseract引擎模块进行图片文字识别;tesseract引擎模块采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎。tesseract引擎识别过程中,首先查询本地文字库,寻找是否存在与待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果:若不存在,则通过卷积神经网络进行文字识别,以文字的形式输出识别结果。
在本发明的一个实施例中,可选的,采用轮廓笔画描述作为文字识别的第一识别引擎,包括:
(1)采用“逆(顺)时针搜索”算法描述所述文字的轮廓。
其中,逆(顺)时针搜索算法的具体步骤为:假设:汉字是Width╳Height 的点阵,任意一点都有左上、上、右上、右、右下、下、左下、左这8个方向的邻点。首先,x:0→Width-1,y:0→Height-1搜索出一个黑点,该点设为P1;从点P1逆(顺)时针搜索出下一轮廓点P2,再从点P2逆(顺)时针搜索出下一轮廓点P3,直到搜索出最后的轮廓点Pn。
(2)对所述文字的轮廓进行细化处理,具体包括以下几方面内容:
首先需要区分相邻的两个笔画,可使用“切线最陡”算法区分出相邻的两个笔画。描述轮廓之后,笔画描述的关键在于决定从何处开始属于下一段笔画。经理论证明,使用“切线最陡”算法可以算出任意一点属于哪一笔画。
其次,无关大局的“短边”被归纳、吞并、省略,一般取矩形的1/8或1/10 为参考值,小于该参考值的边就考虑吞并、省略。
另外,由于描述曲线(撇、捺等)比较复杂,比较两条曲线的相对位置关系更复杂。因此,把曲线描述为两条或多条线段,转换为计算机易于操作的对象来处理。
最后,对于宋体字需要特殊处理,因为宋体字中笔画起始端常有一个三角形的凸出点,可以通过强制记忆的方法,把它们省略。
通过轮廓来描述笔画,使用许多无关大局的“短边”被“长边”归纳吞并,“曲线”被描述为“两段线段”,“局部凹凸”视周围环境也被归纳合并。这样,一个复杂的文字就被能用“尽可能少”的笔画描述出来,然后通过笔画描述出来的文字与本地文字库进行比对从而得到识别结果,如果无法从本地文字库得到识别结果,则通过卷积神经网络CNN进行文字识别,并以文字的形式输出识别结果。
在本发明的一个实施例中,第二识别引擎-角特征数据库是在传统OCR四边轮廓特征法的基础上改进的。其中,传统OCR的四边轮廓特征法的思路为:每一汉字用32╳32点阵表示,分别从上下左右四个方向扫描汉字点阵,得到四个数值P1、P2、P3、P4,把这四个数值存入数据库。通过大量的学习、记忆,得到一个所有汉字的四边特征数据库并存入本地文字库中。用该方法识别汉字时,系统会从本地文字库中检索出一个最相似的汉字,得到识别结果。
传统OCR的四边轮廓特征法,识别率不高,如“国”、“囚”、“四”、“因”等字,因为它们的四边特征值是相同的,使用此方法无法区分、无法识别。因此,本发明实施例使用新的改进型的四边轮廓特征,所述改进型的四边轮廓特征在传统的四边轮廓特征法的基础上进行改进,对文字内部进行处理获取细化的文字特征描述。
改进型的四边轮廓特征的具体思路为:在汉字内部再次切割(按1/4切割),切割后再取四边特征Q1、Q2、Q3、Q4,这样,一个文字就的特征描述就是P1、 P2、P3、P4、Q1、Q2、Q3、Q4。通过大量的学习、记忆,得到一个所有汉字的内外四边特征数据库。识别汉字时,从本地文字库中检索出一个最相似的汉字,得到识别结果。如果无法从本地文字库得到识别结果,则通过卷积神经网络CNN进行文字识别,并以文字的形式输出识别结果。
两种识别引擎分别为轮廓笔画描述和边角特征数据库,可首先采用轮廓笔画描述对文字的笔画将二维的汉字点阵转化为二维矢量,再此基础上,采用边角特征数据库存储改进型的四边轮廓特征,并将轮廓笔画描述获取的文字的二维矢量作为标识,从本地文字库或云服务器端中检索出一个与之最相似的汉字,从而得到文字识别结果。
本发明实施例提出一种基于tesseract引擎的文字识别方法、装置、设备及存储介质,在输出识别结果前采用tesseract引擎和云服务端共同训练本地文字库,进行文字识别时不需要保持与云端服务器连接。本发明实施例在进行文字识别时,通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。而且查询本地文字库的方式减少了服务器与云端服务器的通信,这样也会使得本发明所述的文字识别方法在保证识别精度的同时提供更高的识别效率。同时tesseract引擎模块采用双识别引擎来识别文字,从而提高文字识别的准确率和识别效率。
实施例二
图2是本发明实施例二提供的一种文字识别装置的示意图,可执行本发明任意实施例所提供的文字识别方法,具备执行方法相应的功能模块和有益效果,本实施例可适用于识别文字的情况。
所述装置包括:
图片获取模块210,用于获取待识别图片。
识别结果判断模块220,用于将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则对所述待识别图片中的文字进行识别,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库;
本地文字库升级模块230,用于升级所述本地文字库。
识别模块240,用于采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;
所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果。
本发明实施例提出一种基于tesseract引擎的文字识别方法、装置、设备及存储介质,在输出识别结果前采用tesseract引擎和云服务端共同训练本地文字库,进行文字识别时不需要保持与云端服务器连接。本发明实施例在进行文字识别时,通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。而且查询本地文字库的方式减少了服务器与云端服务器的通信,这样也会使得本发明所述的文字识别方法在保证识别精度的同时提供更高的识别效率。同时tesseract引擎模块采用双识别引擎来识别文字,从而提高文字识别的准确率和识别效率。
进一步的,服务器与云端服务器的接口为api接口。
进一步的,第一识别模块250,用于采用轮廓笔画描述作为文字识别的第一识别引擎,包括:
采用“逆(顺)时针搜索”算法描述所述文字的轮廓;
对所述文字的轮廓进行细化处理。
进一步的,第一识别模块250,用于对所述文字的轮廓进行细化处理,包括:
使用“切线最陡”算法区分所述文字的轮廓中相邻的两个笔画;
采用强制记忆的方法省略所述文字的轮廓中包含的宋体字中笔画起始端带有的三角形的凸出点;
归纳、吞并或省略所述文字的轮廓中的无关大局的“短边”;
把所述文字的轮廓中的曲线描述分解为两条或多条线段,将所述曲线转换为计算机易于操作的对象来处理。
进一步的,第二识别模块260,用于采用边角特征数据库作为第二识别引擎,包括:
所述边角特征数据库存储改进型的四边轮廓特征;
所述改进型的四边轮廓特征在传统的四边轮廓特征法的基础上进行改进,对文字内部进行处理获取细化的文字特征描述。
本发明实施例提出一种基于tesseract引擎的文字识别方法、装置、设备及存储介质,在输出识别结果前采用tesseract引擎和云服务端共同训练本地文字库,进行文字识别时不需要保持与云端服务器连接。本发明实施例在进行文字识别时,通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。而且查询本地文字库的方式减少了服务器与云端服务器的通信,这样也会使得本发明所述的文字识别方法在保证识别精度的同时提供更高的识别效率。同时tesseract引擎模块采用双识别引擎来识别文字,从而提高文字识别的准确率和识别效率。
实施例三
图3为本发明实施例三提供的一种文字识别设备的结构示意图。图3示出了适于用来实现本发明实施方式的文字识别设备312的框图。图3显示的文字识别设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图所示,文字识别设备312以通用计算设备的形式表现。文字识别设备 312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接 不同系统组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
文字识别设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被文字识别设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机系统可读介质,例如随 机存取存储器(RAM)330和/或高速缓存存储器332。文字识别设备312可以 进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅 作为举例,存储系统334可以用于读写不可移动的、非易失性磁介质(图3未 显示,通常称为“硬盘驱动器”)。尽管图中未示出,可以提供用于对可移动 非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光 盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些 情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存 储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个) 程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块326的程序336,可以存储在例如存储装置628中,这样的程序模块326包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。
文字识别设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信,还可与一个或者多个使得用户能与该文字识别设备312交互的设备通信,和/或与使得该文字识别设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,文字识别设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(LAN),广域网(WAN) 和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318 与文字识别设备312的其它模块通信。应当明白,尽管图中未示出,可以结合文字识别设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的文字识别方法。
通过本发明实施例的文字识别设备,在输出识别结果前采用tesseract引擎和云服务端共同训练本地文字库,进行文字识别时不需要保持与云端服务器连接。本发明实施例在进行文字识别时,通过查询本地文字库在保证识别精度的同时缩短了tesseract引擎模块进行卷积神经网络运算的时间。而且查询本地文字库的方式减少了服务器与云端服务器的通信,这样也会使得本发明所述的文字识别方法在保证识别精度的同时提供更高的识别效率。同时tesseract引擎模块采用双识别引擎来识别文字,从而提高文字识别的准确率和识别效率。
实施例四
本发明实施例四还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的文字识别方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于tesseract引擎的文字识别方法,其特征在于,包括:
S110、获取待识别图片;
S120、将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则对所述待识别图片中的文字进行识别,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库;
S130、重复上述步骤直至完成所述本地文字库的升级;
S140、采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;
所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络CNN进行文字识别,并以文字的形式输出识别结果。
2.根据权利要求1所述的方法,其特征在于,所述的步骤2中,服务器与云端服务器的接口为应用程序编程接口API。
3.根据权利要求1所述的方法,其特征在于,所述采用轮廓笔画描述作为文字识别的第一识别引擎,包括:
采用“逆(顺)时针搜索”算法描述所述文字的轮廓;
对所述文字的轮廓进行细化处理。
4.根据权利要求3所述的方法,其特征在于,所述对所述文字的轮廓进行细化处理,包括:
使用“切线最陡”算法区分所述文字的轮廓中相邻的两个笔画;
采用强制记忆的方法省略所述文字的轮廓中包含的宋体字中笔画起始端带有的三角形的凸出点。
5.根据权利要求4所述的方法,其特征在于,在使用“切线最陡”算法区分所述文字的轮廓中相邻的两个笔画后,还包括:
归纳、吞并或省略所述文字的轮廓中的无关大局的“短边”。
6.根据权利要求4所述的方法,其特征在于,在使用“切线最陡”算法区分所述文字的轮廓中相邻的两个笔画后,还包括:
把所述文字的轮廓中的曲线描述分解为两条或多条线段,将所述曲线转换为计算机易于操作的对象来处理。
7.根据权利要求1所述的方法,其特征在于,所述采用边角特征数据库作为第二识别引擎,包括:
所述边角特征数据库存储改进型的四边轮廓特征;
所述改进型的四边轮廓特征在传统的四边轮廓特征法的基础上进行改进,对文字内部进行处理获取细化的文字特征描述。
8.一种文字识别装置,其特征在于,包括:
图片获取模块,用于获取待识别图片;
本地文字库训练模块,用于将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则进入步骤3,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库;
本地文字库升级模块,用于重复上述步骤直至完成所述本地文字库的升级;
文字识别模块,用于采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;
识别结果输出模块,用于所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果。
9.一种文字识别设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于tesseract引擎的文字识别方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于tesseract引擎的文字识别方法。
CN201711172950.2A 2017-11-22 2017-11-22 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质 Withdrawn CN107862312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711172950.2A CN107862312A (zh) 2017-11-22 2017-11-22 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711172950.2A CN107862312A (zh) 2017-11-22 2017-11-22 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN107862312A true CN107862312A (zh) 2018-03-30

Family

ID=61702285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711172950.2A Withdrawn CN107862312A (zh) 2017-11-22 2017-11-22 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107862312A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086745A (zh) * 2018-08-31 2018-12-25 广东工业大学 一种定位方法、装置、设备以及计算机可读存储介质
CN109242796A (zh) * 2018-09-05 2019-01-18 北京旷视科技有限公司 文字图像处理方法、装置、电子设备和计算机存储介质
CN109409362A (zh) * 2018-10-11 2019-03-01 杭州安恒信息技术股份有限公司 基于tesseract引擎的图片敏感词检测和定位方法和装置
CN109657683A (zh) * 2018-12-19 2019-04-19 北京像素软件科技股份有限公司 文字识别建模方法及装置、文字识别方法及电子设备
CN111931672A (zh) * 2020-08-17 2020-11-13 珠海大横琴科技发展有限公司 字迹识别方法、装置、计算机设备及存储介质
CN112163583A (zh) * 2020-09-25 2021-01-01 珠海智通信息技术有限公司 数字表读数的识别方法、识别设备以及计算机可读存储介质
CN114463359A (zh) * 2022-01-30 2022-05-10 深圳创维-Rgb电子有限公司 投屏显示方法、装置、电子设备及可读存储介质
CN117877037A (zh) * 2024-03-11 2024-04-12 杭州汇萃智能科技有限公司 一种ocr单字符定位识别方法、系统及计算机存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825214A (zh) * 2016-03-14 2016-08-03 东南大学 一种基于tesseract引擎的文字识别方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825214A (zh) * 2016-03-14 2016-08-03 东南大学 一种基于tesseract引擎的文字识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苗琦龙, 栾新: ""基于遗传算法和BP网络的文字识别方法"", 《计算机应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086745A (zh) * 2018-08-31 2018-12-25 广东工业大学 一种定位方法、装置、设备以及计算机可读存储介质
CN109242796A (zh) * 2018-09-05 2019-01-18 北京旷视科技有限公司 文字图像处理方法、装置、电子设备和计算机存储介质
CN109409362A (zh) * 2018-10-11 2019-03-01 杭州安恒信息技术股份有限公司 基于tesseract引擎的图片敏感词检测和定位方法和装置
CN109657683A (zh) * 2018-12-19 2019-04-19 北京像素软件科技股份有限公司 文字识别建模方法及装置、文字识别方法及电子设备
CN111931672A (zh) * 2020-08-17 2020-11-13 珠海大横琴科技发展有限公司 字迹识别方法、装置、计算机设备及存储介质
CN112163583A (zh) * 2020-09-25 2021-01-01 珠海智通信息技术有限公司 数字表读数的识别方法、识别设备以及计算机可读存储介质
CN114463359A (zh) * 2022-01-30 2022-05-10 深圳创维-Rgb电子有限公司 投屏显示方法、装置、电子设备及可读存储介质
CN117877037A (zh) * 2024-03-11 2024-04-12 杭州汇萃智能科技有限公司 一种ocr单字符定位识别方法、系统及计算机存储介质

Similar Documents

Publication Publication Date Title
CN107862312A (zh) 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质
RU2699687C1 (ru) Обнаружение текстовых полей с использованием нейронных сетей
CN109543690B (zh) 用于提取信息的方法和装置
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US20230041472A1 (en) System and method for learning scene embeddings via visual semantics and application thereof
EP1854051B1 (en) Intelligent importation of information from foreign application user interface using artificial intelligence
US20230401828A1 (en) Method for training image recognition model, electronic device and storage medium
CN106022363B (zh) 一种适用于自然场景下的中文文字识别方法
Ud Din et al. Segmentation-free optical character recognition for printed Urdu text
Michel et al. Scale invariant and deformation tolerant partial shape matching
Gonzalez-Diaz et al. Neighborhood matching for image retrieval
CN108830236A (zh) 一种基于深度特征的行人重识别方法
US8457348B2 (en) Producing structure-based ASCII pictures
CN107729954A (zh) 一种文字识别方法、装置、文字识别设备及存储介质
Fornés et al. A keyword spotting approach using blurred shape model-based descriptors
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
EP4060526A1 (en) Text processing method and device
Chang et al. Deformed trademark retrieval based on 2D pseudo-hidden Markov model
CN107168635A (zh) 信息呈现方法和装置
CN114332883A (zh) 发票信息识别方法、装置、计算机设备及存储介质
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
CN110909578A (zh) 一种低分辨率图像识别方法、装置和存储介质
CN107170004A (zh) 一种无人车单目视觉定位中对匹配矩阵的图像匹配方法
Li et al. Study on semantic image segmentation based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180330

WW01 Invention patent application withdrawn after publication