CN104732226A - 一种字符识别方法和装置 - Google Patents

一种字符识别方法和装置 Download PDF

Info

Publication number
CN104732226A
CN104732226A CN201510149618.9A CN201510149618A CN104732226A CN 104732226 A CN104732226 A CN 104732226A CN 201510149618 A CN201510149618 A CN 201510149618A CN 104732226 A CN104732226 A CN 104732226A
Authority
CN
China
Prior art keywords
character
identification
ocr
module
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510149618.9A
Other languages
English (en)
Inventor
郭运艳
房善华
解一豪
衣秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510149618.9A priority Critical patent/CN104732226A/zh
Publication of CN104732226A publication Critical patent/CN104732226A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种字符识别方法和装置,包括步骤:采集包含待识别字符的字符图像,进行字符图像预处理;将预处理后的图像上传至云端,进行非结构化存储,同时采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征;利用更新后的字符特征池重新训练OCR识别模型。该装置包括预处理模块、识别模块、存储模块和训练模块。该方法和装置,能够提高实际应用过程中,对于不同应用场景和拍摄角度下的字符图像进行识别的适应性。

Description

一种字符识别方法和装置
技术领域
本发明涉及计算机应用技术领域,特别涉及一种字符识别方法和装置。
背景技术
数字图片包括多种多样的信息,例如证件图片中包含持件人的个人信息,数字图像中包含风景、人像等。很多场景下需要计算机直接能够读出其中的文字信息,这就需要进行OCR(optical character recognition)光学字符识别,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成黑白点阵的图像文件,并通过识别软件将图像中的文字处理成文本格式,而如何准确地通过识别软件进行文字处理,则是目前进行OCR文字识别的重要技术课题。
随着我国信息化建设的全面开展,OCR文字识别技术诞生20余年来,经历从实验室技术到产品的转变,目前已经进步行业应用开发的成熟阶段。相比发达国家的广泛应用情况,OCR文字识别技术在国内各行各业的应用还有着广阔的空间。随着国家信息化建设进入内容建设阶段,为OCR文字识别技术开创了一个全新的行业应用局面。
拍摄或扫描出的图片中的字体,如一张包含证件的图片,则可以获得人物相关信息,为人物检索、个人信息库更新、人物相关度查询等任务提供了良好的数据来源,而各类图像中包含的文字大多具有不同的字体、大小及复杂的拍摄方位,而目前现有技术中采用的识别方法,对于拍摄场景发生或者拍摄角度发生变化的文字的应变能力低,识别效率不理想。
发明内容
本发明提供一种字符识别方法和装置,以解决上述问题。
本发明实施例提供了一种字符识别方法,包括步骤:
步骤A,采集包含待识别字符的字符图像,进行字符图像预处理;
步骤B,将预处理后的图像上传至云端,进行非结构化存储,同时采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征;
步骤C,利用更新后的字符特征池重新训练OCR识别模型。
其中,所述步骤A采集包含待识别字符的字符图像包括步骤:采集字符的不同方位角度、不同场景的图像。
其中,所述步骤A中进行字符图像预处理包括步骤:对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。
其中,所述步骤B中进行OCR识别包括步骤:通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别;
运用jTessBoxEditor校正识别结果并保存。
其中,所述步骤C之后包括步骤:
分布式计算同步处理识别校正不同方位的字符图像。
本发明实施例还提供一种字符识别装置,包括预处理模块、存储模块、识别模块和训练模块;
所述预处理模块,用于采集包含待识别字符的字符图像,进行字符图像预处理;
所述存储模块,用于将预处理后的图像上传至云端,进行非结构化存储;
所述识别模块,用于采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征;
所述训练模块,用于利用更新后的字符特征池重新训练OCR识别模型。
其中,所述预处理模块,用于采集字符的不同方位角度、不同场景的图像。
其中,所述预处理模块,用于对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。
其中,所述识别模块,用于通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别;
运用jTessBoxEditor校正识别结果并保存。
其中,还包括分布式控制模块,用于分布式计算同步处理识别校正不同方位的字符图像。
本发明实施例提供了一种字符识别方法和装置,采集包含待识别字符的字符图像进行预处理;将预处理后的图像上传至云端,进行非结构化存储,同时采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,这样基于在线更新的方式,不断增加字符特征池中的训练数据,以更新识别模型,增加同一字符的多方位特征,能够对同一字符的多角度或者多场景下的图片具备较好的适应性,从而识别效率提高。
附图说明
图1为本发明实施例提供的字符识别方法的流程示意图;
图2为本发明实施例提供的字符识别装置的结构示意图。
具体实施方式
本发明实施例提供了一种字符识别方法和装置。
参见图1所示,作为一种可实施方式,该方法包括步骤:
步骤S110,采集包含待识别字符的字符图像,进行字符图像预处理。
优选地,采用Android设备进行图像采集,在客户端进行字符图像预处理,其中包括图像二值化、噪声去除、图像倾斜校正等,处理后的图像作为OCR字符识别的数据输入。
步骤S111,将预处理后的图像上传至云端,进行非结构化存储,同时采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征。
优选地,采用基于web的分布式、高并发和海量数据处理的云计算架构,将预处理后的图像上传至云端;存储到非结构关系的数据库,同时分发至OCR识别模块,识别后将结果和字符特征存储至数据库;建立字符特征池,增加同一字符的多方位特征。
采用分布式处理方法,借助更新后的字符特征池重新训练字符训练,更新OCR语言库。
步骤S112,利用更新后的字符特征池重新训练OCR识别模型。
即,OCR识别模块采用了更新迭代的方法,同一个字符的特征池里逐渐增加了不同场景中表现出的特征。
例如,更新一次数据库的过程如下:
1)采集字符的不同方位角度的图像,作为识别语言库更新迭代的样本集;
2)对样本集内所有图像进行预处理、倾斜矫正、字符分割等,得到二值化图像;
3)通过Tesseract-OCR引擎和Google开源的中英文traindeddata对处理后的二值图像进行字符识别;
4)校正识别结果,运用jTessBoxEditor校正识别结果并保存;
5)存储图像和文字校正结果至非关系型数据库,作为字符多个方位的特征。
优选地,随着图片信息和字符信息等数据量的不断增加,云端的负担将逐渐加重,在实际操作中采用分布式计算同步处理识别校正不同方位的字符图像,即通过云计算中的分布式处理很好的解决了这一问题。
本发明涉及OCR识别算法、非结构关系数据库存储、构建字符特征池、分布式处理等,旨在解决应用于某一个特定行业的字符识别方法对于环境过于依赖的缺点。本专利可以提高字符识别的准确度,降低对图片质量的要求,即降低对人的要求,增强字符识别设备的使用灵活性。
本发明实施例还提供一种字符识别装置,参见图2所示,包括预处理模块、存储模块、识别模块和训练模块。
其中预处理模块,用于采集包含待识别字符的字符图像,进行字符图像预处理。
存储模块,用于将预处理后的图像上传至云端,进行非结构化存储;
识别模块,用于采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征。
训练模块,用于利用更新后的字符特征池重新训练OCR识别模型。
优选地,预处理模块,用于采集字符的不同方位角度、不同场景的图像。还用于对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。
而识别模块,则用于通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别;运用jTessBoxEditor校正识别结果并保存。
优选地,该装置还包括分布式控制模块,用于分布式计算同步处理识别校正不同方位的字符图像。
一个完整的OCR字符识别系统中涉及到图像采集、图像预处理、图片面分析确定分割模型、文字特征抽取、字符识别、依据应用环境上下文对识别结果矫正等关键技术。本发明实施例是一种基于在线更新的字符识别方法,其特征是采用了基于web的分布式、高并发和海量数据处理的云计算架构,图像、识别结果和字符特征均进行了非结构关系的数据库存储,建立了不同应用场景下的字符特征池,OCR识别模块采用了更新迭代的方法,增加了同一字符的多方位特征。同时采用分布式处理方法,借助更新后的字符特征池重新训练字符训练,对OCR语言库进行了重建。且优选地,还对外提供开放安全可控的API服务。
提取图片中的文字可用来提高图片搜索的质量,还能够与本地数据核对来提高本地搜索的质量。图片中的文字提供了验证本地特征的关键字,并且能够告诉用户图片所表述的语义。
通过整合各方面的信息资源,开放安全可控的API服务,可以调用本发明的在线更新OCR识别技术的API接口进行二次开发;字符特征池和语言库的在线更新降低了字符识别系统各个环节的耦合度,很好的实现了软件开发中的模块松耦合。
综上,本发明实施例提出了一种基于在线图片数据更新的字符识别方法,在自主研发的移动平台上进行搭建,证件的图片和字符识别结果上传至云端,在云端进行非结构关系的数据库存储,构建证件信息的字符特征池,采用分布式处理在线更新OCR语言库,通过整合各方面的信息资源,开放安全可控的API服务,为图像字符精确识别和分布式处理真正提供成熟稳定的系统架构。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种字符识别方法,其特征在于,包括步骤:
步骤A,采集包含待识别字符的字符图像,进行字符图像预处理;
步骤B,将预处理后的图像上传至云端,进行非结构化存储,同时采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征;
步骤C,利用更新后的字符特征池重新训练OCR识别模型。
2.根据权利要求1所述的字符识别方法,其特征在于,所述步骤A采集包含待识别字符的字符图像包括步骤:采集字符的不同方位角度、不同场景的图像。
3.根据权利要求2所述的字符识别方法,其特征在于,所述步骤A中进行字符图像预处理包括步骤:对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。
4.根据权利要求3所述的字符识别方法,其特征在于,所述步骤B中进行OCR识别包括步骤:通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别;
运用jTessBoxEditor校正识别结果并保存。
5.根据权利要求4所述的字符识别方法,其特征在于,所述步骤C之后包括步骤:
分布式计算同步处理识别校正不同方位的字符图像。
6.一种字符识别装置,其特征在于,包括预处理模块、存储模块、识别模块和训练模块;
所述预处理模块,用于采集包含待识别字符的字符图像,进行字符图像预处理;
所述存储模块,用于将预处理后的图像上传至云端,进行非结构化存储;
所述识别模块,用于采用OCR识别模型进行OCR识别,识别后将识别结果和字符特征存储至字符特征池中对应的字符下,增加同一字符的多方位特征;
所述训练模块,用于利用更新后的字符特征池重新训练OCR识别模型。
7.根据权利要求6所述的字符识别装置,其特征在于,所述预处理模块,用于采集字符的不同方位角度、不同场景的图像。
8.根据权利要求7所述的字符识别装置,其特征在于,所述预处理模块,用于对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。
9.根据权利要求8所述的字符识别装置,其特征在于,所述识别模块,用于通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别;
运用jTessBoxEditor校正识别结果并保存。
10.根据权利要求9所述的字符识别装置,其特征在于,还包括分布式控制模块,用于分布式计算同步处理识别校正不同方位的字符图像。
CN201510149618.9A 2015-03-31 2015-03-31 一种字符识别方法和装置 Pending CN104732226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510149618.9A CN104732226A (zh) 2015-03-31 2015-03-31 一种字符识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510149618.9A CN104732226A (zh) 2015-03-31 2015-03-31 一种字符识别方法和装置

Publications (1)

Publication Number Publication Date
CN104732226A true CN104732226A (zh) 2015-06-24

Family

ID=53456100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510149618.9A Pending CN104732226A (zh) 2015-03-31 2015-03-31 一种字符识别方法和装置

Country Status (1)

Country Link
CN (1) CN104732226A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268814A (zh) * 2014-10-11 2015-01-07 北京网秦天下科技有限公司 生成电子病历的方法和装置
CN105069898A (zh) * 2015-07-15 2015-11-18 广州敦和信息技术有限公司 一种发票字条自动定位的方法及装置
CN106407976A (zh) * 2016-08-30 2017-02-15 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN107633219A (zh) * 2017-09-11 2018-01-26 北京百度网讯科技有限公司 一体化光学字符识别方法和系统
CN108460387A (zh) * 2018-03-26 2018-08-28 国网安徽省电力有限公司检修分公司 智能电力表计抄录计算系统及方法
CN109598270A (zh) * 2018-12-04 2019-04-09 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器
CN109885708A (zh) * 2018-12-30 2019-06-14 贝壳技术有限公司 证件图片的搜索方法和装置
CN110059559A (zh) * 2019-03-15 2019-07-26 深圳壹账通智能科技有限公司 Ocr识别文件的处理方法及其电子设备
CN111652130A (zh) * 2020-06-02 2020-09-11 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法
US10943106B2 (en) * 2017-12-18 2021-03-09 Capital One Services, Llc Recognizing text in image data
CN114414660A (zh) * 2022-03-18 2022-04-29 盐城工学院 一种铁路车辆轮对的轴号和裂纹识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100329562A1 (en) * 2009-06-30 2010-12-30 Feng Drake Zhu Statistical Online Character Recognition
CN103870803A (zh) * 2013-10-21 2014-06-18 北京邮电大学 一种基于粗定位与精定位融合的车牌识别方法和系统
CN104252620A (zh) * 2014-09-25 2014-12-31 同程网络科技股份有限公司 字符粘连的图形验证码识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100329562A1 (en) * 2009-06-30 2010-12-30 Feng Drake Zhu Statistical Online Character Recognition
CN103870803A (zh) * 2013-10-21 2014-06-18 北京邮电大学 一种基于粗定位与精定位融合的车牌识别方法和系统
CN104252620A (zh) * 2014-09-25 2014-12-31 同程网络科技股份有限公司 字符粘连的图形验证码识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAY SMITH: ""An Overview of the Tesseract OCR Engine"", 《 DOCUMENT ANALYSIS AND RECOGNITION, 2007. ICDAR 2007. NINTH INTERNATIONAL CONFERENCE ON》 *
晨阳: ""Tesseract-OCR字符识别——样本训练"", 《HTTP://BLOG.SINA.COM.CN/S/BLOG_6E59D2310102V3ZG.HTML》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268814A (zh) * 2014-10-11 2015-01-07 北京网秦天下科技有限公司 生成电子病历的方法和装置
CN105069898A (zh) * 2015-07-15 2015-11-18 广州敦和信息技术有限公司 一种发票字条自动定位的方法及装置
CN105069898B (zh) * 2015-07-15 2018-03-30 广州敦和信息技术有限公司 一种发票字条自动定位的方法及装置
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN106407976A (zh) * 2016-08-30 2017-02-15 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN106407976B (zh) * 2016-08-30 2019-11-05 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN107633219A (zh) * 2017-09-11 2018-01-26 北京百度网讯科技有限公司 一体化光学字符识别方法和系统
US10943106B2 (en) * 2017-12-18 2021-03-09 Capital One Services, Llc Recognizing text in image data
US12019675B2 (en) 2017-12-18 2024-06-25 Capital One Services, Llc Recognizing text in image data
CN108460387A (zh) * 2018-03-26 2018-08-28 国网安徽省电力有限公司检修分公司 智能电力表计抄录计算系统及方法
CN109598270A (zh) * 2018-12-04 2019-04-09 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器
CN109598270B (zh) * 2018-12-04 2020-05-05 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器
CN109885708A (zh) * 2018-12-30 2019-06-14 贝壳技术有限公司 证件图片的搜索方法和装置
CN110059559A (zh) * 2019-03-15 2019-07-26 深圳壹账通智能科技有限公司 Ocr识别文件的处理方法及其电子设备
CN111652130A (zh) * 2020-06-02 2020-09-11 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法
CN111652130B (zh) * 2020-06-02 2023-09-15 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法
CN114414660A (zh) * 2022-03-18 2022-04-29 盐城工学院 一种铁路车辆轮对的轴号和裂纹识别方法
CN114414660B (zh) * 2022-03-18 2024-01-12 盐城工学院 一种铁路车辆轮对的轴号和裂纹识别方法

Similar Documents

Publication Publication Date Title
CN104732226A (zh) 一种字符识别方法和装置
Shi et al. Can a machine generate humanlike language descriptions for a remote sensing image?
CN108664996B (zh) 一种基于深度学习的古文字识别方法及系统
US10043231B2 (en) Methods and systems for detecting and recognizing text from images
Zamberletti et al. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions
US8483440B2 (en) Methods and systems for verifying automatic license plate recognition results
US20130031100A1 (en) Generating a Discussion Group in a Social Network Based on Similar Source Materials
CN111738251A (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN103824053A (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN111581367A (zh) 一种题目录入的方法和系统
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN113343898B (zh) 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN114742224A (zh) 行人重识别方法、装置、计算机设备及存储介质
CN112738555B (zh) 视频处理方法及装置
Hutagalung et al. Hiragana Handwriting Recognition Using Deep Neural Network Search.
CN115455143A (zh) 一种文献处理方法及装置
CN112733144B (zh) 一种基于深度学习技术的恶意程序智能检测方法
Kunang et al. A New Deep Learning-Based Mobile Application for Komering Character Recognition
Miao et al. AI-Based Tree Species Classification Using Pseudo Tree Crown Derived From UAV Imagery
CN111898618A (zh) 一种识别古代图形文字的方法、装置和程序储存介质
CN110909737A (zh) 图片文字识别方法及系统
CN117131214B (zh) 基于特征分布对齐与聚类的零样本草图检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150624