CN104732226A

CN104732226A - 一种字符识别方法和装置

Info

Publication number: CN104732226A
Application number: CN201510149618.9A
Authority: CN
Inventors: 郭运艳; 房善华; 解一豪; 衣秀
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-06-24

Abstract

本发明提供一种字符识别方法和装置，包括步骤：采集包含待识别字符的字符图像，进行字符图像预处理；将预处理后的图像上传至云端，进行非结构化存储，同时采用OCR识别模型进行OCR识别，识别后将识别结果和字符特征存储至字符特征池中对应的字符下，增加同一字符的多方位特征；利用更新后的字符特征池重新训练OCR识别模型。该装置包括预处理模块、识别模块、存储模块和训练模块。该方法和装置，能够提高实际应用过程中，对于不同应用场景和拍摄角度下的字符图像进行识别的适应性。

Description

一种字符识别方法和装置

技术领域

本发明涉及计算机应用技术领域，特别涉及一种字符识别方法和装置。

背景技术

数字图片包括多种多样的信息，例如证件图片中包含持件人的个人信息，数字图像中包含风景、人像等。很多场景下需要计算机直接能够读出其中的文字信息，这就需要进行OCR(optical character recognition)光学字符识别，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成黑白点阵的图像文件，并通过识别软件将图像中的文字处理成文本格式，而如何准确地通过识别软件进行文字处理，则是目前进行OCR文字识别的重要技术课题。

随着我国信息化建设的全面开展，OCR文字识别技术诞生20余年来，经历从实验室技术到产品的转变，目前已经进步行业应用开发的成熟阶段。相比发达国家的广泛应用情况，OCR文字识别技术在国内各行各业的应用还有着广阔的空间。随着国家信息化建设进入内容建设阶段，为OCR文字识别技术开创了一个全新的行业应用局面。

拍摄或扫描出的图片中的字体，如一张包含证件的图片，则可以获得人物相关信息，为人物检索、个人信息库更新、人物相关度查询等任务提供了良好的数据来源，而各类图像中包含的文字大多具有不同的字体、大小及复杂的拍摄方位，而目前现有技术中采用的识别方法，对于拍摄场景发生或者拍摄角度发生变化的文字的应变能力低，识别效率不理想。

发明内容

本发明提供一种字符识别方法和装置，以解决上述问题。

本发明实施例提供了一种字符识别方法，包括步骤：

步骤A，采集包含待识别字符的字符图像，进行字符图像预处理；

步骤B，将预处理后的图像上传至云端，进行非结构化存储，同时采用OCR识别模型进行OCR识别，识别后将识别结果和字符特征存储至字符特征池中对应的字符下，增加同一字符的多方位特征；

步骤C，利用更新后的字符特征池重新训练OCR识别模型。

其中，所述步骤A采集包含待识别字符的字符图像包括步骤：采集字符的不同方位角度、不同场景的图像。

其中，所述步骤A中进行字符图像预处理包括步骤：对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。

其中，所述步骤B中进行OCR识别包括步骤：通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别；

运用jTessBoxEditor校正识别结果并保存。

其中，所述步骤C之后包括步骤：

分布式计算同步处理识别校正不同方位的字符图像。

本发明实施例还提供一种字符识别装置，包括预处理模块、存储模块、识别模块和训练模块；

所述预处理模块，用于采集包含待识别字符的字符图像，进行字符图像预处理；

所述存储模块，用于将预处理后的图像上传至云端，进行非结构化存储；

所述识别模块，用于采用OCR识别模型进行OCR识别，识别后将识别结果和字符特征存储至字符特征池中对应的字符下，增加同一字符的多方位特征；

所述训练模块，用于利用更新后的字符特征池重新训练OCR识别模型。

其中，所述预处理模块，用于采集字符的不同方位角度、不同场景的图像。

其中，所述预处理模块，用于对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。

其中，所述识别模块，用于通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别；

运用jTessBoxEditor校正识别结果并保存。

其中，还包括分布式控制模块，用于分布式计算同步处理识别校正不同方位的字符图像。

本发明实施例提供了一种字符识别方法和装置，采集包含待识别字符的字符图像进行预处理；将预处理后的图像上传至云端，进行非结构化存储，同时采用OCR识别模型进行OCR识别，识别后将识别结果和字符特征存储至字符特征池中对应的字符下，这样基于在线更新的方式，不断增加字符特征池中的训练数据，以更新识别模型，增加同一字符的多方位特征，能够对同一字符的多角度或者多场景下的图片具备较好的适应性，从而识别效率提高。

附图说明

图1为本发明实施例提供的字符识别方法的流程示意图；

图2为本发明实施例提供的字符识别装置的结构示意图。

具体实施方式

本发明实施例提供了一种字符识别方法和装置。

参见图1所示，作为一种可实施方式，该方法包括步骤：

步骤S110，采集包含待识别字符的字符图像，进行字符图像预处理。

优选地，采用Android设备进行图像采集，在客户端进行字符图像预处理，其中包括图像二值化、噪声去除、图像倾斜校正等，处理后的图像作为OCR字符识别的数据输入。

步骤S111，将预处理后的图像上传至云端，进行非结构化存储，同时采用OCR识别模型进行OCR识别，识别后将识别结果和字符特征存储至字符特征池中对应的字符下，增加同一字符的多方位特征。

优选地，采用基于web的分布式、高并发和海量数据处理的云计算架构，将预处理后的图像上传至云端；存储到非结构关系的数据库，同时分发至OCR识别模块，识别后将结果和字符特征存储至数据库；建立字符特征池，增加同一字符的多方位特征。

采用分布式处理方法，借助更新后的字符特征池重新训练字符训练，更新OCR语言库。

步骤S112，利用更新后的字符特征池重新训练OCR识别模型。

即，OCR识别模块采用了更新迭代的方法，同一个字符的特征池里逐渐增加了不同场景中表现出的特征。

例如，更新一次数据库的过程如下：

1)采集字符的不同方位角度的图像，作为识别语言库更新迭代的样本集；

2)对样本集内所有图像进行预处理、倾斜矫正、字符分割等，得到二值化图像；

3)通过Tesseract-OCR引擎和Google开源的中英文traindeddata对处理后的二值图像进行字符识别；

4)校正识别结果，运用jTessBoxEditor校正识别结果并保存；

5)存储图像和文字校正结果至非关系型数据库，作为字符多个方位的特征。

优选地，随着图片信息和字符信息等数据量的不断增加，云端的负担将逐渐加重，在实际操作中采用分布式计算同步处理识别校正不同方位的字符图像，即通过云计算中的分布式处理很好的解决了这一问题。

本发明涉及OCR识别算法、非结构关系数据库存储、构建字符特征池、分布式处理等，旨在解决应用于某一个特定行业的字符识别方法对于环境过于依赖的缺点。本专利可以提高字符识别的准确度，降低对图片质量的要求，即降低对人的要求，增强字符识别设备的使用灵活性。

本发明实施例还提供一种字符识别装置，参见图2所示，包括预处理模块、存储模块、识别模块和训练模块。

其中预处理模块，用于采集包含待识别字符的字符图像，进行字符图像预处理。

存储模块，用于将预处理后的图像上传至云端，进行非结构化存储；

识别模块，用于采用OCR识别模型进行OCR识别，识别后将识别结果和字符特征存储至字符特征池中对应的字符下，增加同一字符的多方位特征。

训练模块，用于利用更新后的字符特征池重新训练OCR识别模型。

优选地，预处理模块，用于采集字符的不同方位角度、不同场景的图像。还用于对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。

而识别模块，则用于通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别；运用jTessBoxEditor校正识别结果并保存。

优选地，该装置还包括分布式控制模块，用于分布式计算同步处理识别校正不同方位的字符图像。

一个完整的OCR字符识别系统中涉及到图像采集、图像预处理、图片面分析确定分割模型、文字特征抽取、字符识别、依据应用环境上下文对识别结果矫正等关键技术。本发明实施例是一种基于在线更新的字符识别方法，其特征是采用了基于web的分布式、高并发和海量数据处理的云计算架构，图像、识别结果和字符特征均进行了非结构关系的数据库存储，建立了不同应用场景下的字符特征池，OCR识别模块采用了更新迭代的方法，增加了同一字符的多方位特征。同时采用分布式处理方法，借助更新后的字符特征池重新训练字符训练，对OCR语言库进行了重建。且优选地，还对外提供开放安全可控的API服务。

提取图片中的文字可用来提高图片搜索的质量，还能够与本地数据核对来提高本地搜索的质量。图片中的文字提供了验证本地特征的关键字，并且能够告诉用户图片所表述的语义。

通过整合各方面的信息资源，开放安全可控的API服务，可以调用本发明的在线更新OCR识别技术的API接口进行二次开发；字符特征池和语言库的在线更新降低了字符识别系统各个环节的耦合度，很好的实现了软件开发中的模块松耦合。

综上，本发明实施例提出了一种基于在线图片数据更新的字符识别方法，在自主研发的移动平台上进行搭建，证件的图片和字符识别结果上传至云端，在云端进行非结构关系的数据库存储，构建证件信息的字符特征池，采用分布式处理在线更新OCR语言库，通过整合各方面的信息资源，开放安全可控的API服务，为图像字符精确识别和分布式处理真正提供成熟稳定的系统架构。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种字符识别方法，其特征在于，包括步骤：

步骤C，利用更新后的字符特征池重新训练OCR识别模型。

2.根据权利要求1所述的字符识别方法，其特征在于，所述步骤A采集包含待识别字符的字符图像包括步骤：采集字符的不同方位角度、不同场景的图像。

3.根据权利要求2所述的字符识别方法，其特征在于，所述步骤A中进行字符图像预处理包括步骤：对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。

4.根据权利要求3所述的字符识别方法，其特征在于，所述步骤B中进行OCR识别包括步骤：通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别；

运用jTessBoxEditor校正识别结果并保存。

5.根据权利要求4所述的字符识别方法，其特征在于，所述步骤C之后包括步骤：

分布式计算同步处理识别校正不同方位的字符图像。

6.一种字符识别装置，其特征在于，包括预处理模块、存储模块、识别模块和训练模块；

7.根据权利要求6所述的字符识别装置，其特征在于，所述预处理模块，用于采集字符的不同方位角度、不同场景的图像。

8.根据权利要求7所述的字符识别装置，其特征在于，所述预处理模块，用于对字符图像进行倾斜矫正、字符分割、噪声去除和图像二值化处理。

9.根据权利要求8所述的字符识别装置，其特征在于，所述识别模块，用于通过Tesseract-OCR和traindeddata对处理后的二值图像进行字符识别；

运用jTessBoxEditor校正识别结果并保存。

10.根据权利要求9所述的字符识别装置，其特征在于，还包括分布式控制模块，用于分布式计算同步处理识别校正不同方位的字符图像。