CN109583438B

CN109583438B - 电子图像的文字的识别方法及图像处理装置

Info

Publication number: CN109583438B
Application number: CN201811210850.9A
Authority: CN
Inventors: 聂颖; 王竹欣; 郑权; 张峰
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-11-08
Anticipated expiration: 2038-10-17
Also published as: CN109583438A

Abstract

本发明公开一种电子图像的文字的识别方法，包括：(1)对具有固定格式的至少一类电子图像下的至少一个样本图像按预设特征点提取灰度序列码，将所述样本图像的灰度序列码存储于一数据库；(2)输入待识别图像，对所述待识别图像按所述预设特征点提取灰度序列码；(3)将所述待识别图像的灰度序列码与所述数据库中存储的灰度序列码进行匹配，匹配度不小于Q则判断所述待识别图像为具有固定格式的电子图像，否则判断所述待识别图像为无固定格式的电子图像。本发明的有益效果在于：对待识别的图像文件的种类进行分类，将有固定格式的电子图像和无格式的电子图像分类处理，节约了文字识别的时间且提高了文字识别的效率。

Description

电子图像的文字的识别方法及图像处理装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种电子图像的文字的识别方法及图像处理装置。

背景技术

随着电子信息技术的不断进步、以及人们对于环境保护意识的逐渐提高，包括电子档案在内的各类电子文件被广泛使用。电子文件具有传递快捷、便于分享、经济环保等优点，但是在文件电子化过程中还存在很多技术问题需要不断进行克服和完善。

其中，现有智能化办公中，经常通过扫描、拍照等光电记录方式将相关对象(例如身份证、毕业证、个人简历等等)进行电子图像化的处理，完成了初级的电子文件。然而，简单的图像化处理还远远不够，更多的时候还需要用到文字识别的功能。文字的识别应用在了许多领域，如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对，以及文档检索，各类证件的识别，等等。基于文字识别技术，可以方便用户快速录入信息，提高各行各业的工作效率。因此文字识别的重要性是非常大的，某种意义上来讲，如果一张电子图像上有文字，80％以上的情况下，图上的文字信息是最重要最有信息量的。

现阶段的文字识别技术都是对电子图像直接进行处理，未对有格式的图像和无格式的图像进行分类，这种盲目的识别方式导致对文字的定位和识别效率低、准确率低。因此，如何准确、快速地识别电子图像中的文字，尤其是对于身份证等有固定格式的证件图像和毕业证、学位证等无固定格式的证件图像上文字的精准定位与识别，显得尤为重要。

发明内容

本发明提供一种电子图像的文字的识别方法，旨在节约文字识别的时间并提高文字识别的效率。本发明由以下技术方案实现：

一种电子图像的文字的识别方法，其特征在于，包括以下步骤：

(1)对具有固定格式的至少一类电子图像下的至少一个样本图像按预设特征点提取灰度序列码，将所述样本图像的灰度序列码存储于一数据库；

(2)输入待识别图像，对所述待识别图像按所述预设特征点提取灰度序列码；

(3)将所述待识别图像的灰度序列码与所述数据库中存储的灰度序列码进行匹配，匹配度不小于Q则进入步骤(4a)，否则进入步骤(4A)；

(4a)判断所述待识别图像为具有固定格式的电子图像，并且通过CNN对所述待识别图像进行文字识别；

(4A)判断所述待识别图像为无固定格式的电子图像，并且通过切割文字块的方法对所述待识别图像的文字细分后进行文字识别。

作为具体的技术方案，所述电子图像的文字的识别方法还包括将所述步骤(4a)中所述具有固定格式的电子图像的灰度序列码存储于所述数据库的步骤。

作为具体的技术方案，所述数据库中还存储与每个所述样本图像的灰度序列码相对应的固定格式类型，针对所述固定格式类型设置对应的图像分割方式；

所述步骤(4a)具体包括：确定所述待识别图像的固定格式类型，采用与所述固定格式类型对应的图像分割方式将所述待识别图像分割为若干个子图像；通过CNN对每个所述子图像进行文字识别。

作为具体的技术方案，所述预设特征点是取图像中的n*m矩阵的像素点，并计算所述预设特征点的灰度值，将所述预设特征点的灰度值按设定的顺序排列，构成所述灰度序列码。

作为具体的技术方案，所述预设特征点为取所述样本图像或所述待识别图像中的n*m矩阵的像素点，计算所述预设特征点的灰度值，然后执行以下步骤：

①取所有预设特征点的灰度值平均值作为二分阈值K；②将各预设特征点的灰度值与该二分阈值K比较，不小于所述二分阈值K则记该预设特征点的灰度二分值为1，小于所述二分阈值K则记该预设特征点的灰度二分值为0；③将所有所述预设特征点的灰度二分值按设定的顺序排列，构成所述灰度序列码。

作为具体的技术方案，取所述样本图像或所述待识别图像中的n*m矩阵的像素点，具体方法包括以下二种：<1>先对所述样本图像或所述待识别图像进行边缘查找，裁剪掉有效边缘外的区域，然后将裁剪后的图像缩小至n*m像素点大小；或，<2>按设定像素间隔直接对所述样本图像或所述待识别图像提取n*m矩阵的像素点。

作为具体的技术方案，所述步骤(4A)具体包括：

a、识别文字行；

b、在所述文字行内识别明显间隔，所述明显间隔包括第一个文字前部分、最后一个文字后部分及标点符号，在同一文字行内相邻的两个所述明显间隔之间为一个最小包围矩形；

c、对所述最小包围矩形切割文字块；

d、对所述文字块进行文字识别。

作为具体的技术方案，所述识别文字行的具体方法为：对所述待识别图像从上至下对每个像素行的像素值进行求和，若某像素行的像素值和为0，则此像素行无像素；若连续N个像素行的像素值和为0、第N+1像素行的像素值和不为0，则记所述第N像素行为文字行的顶端，直至出现下一个像素值和为0的像素行，并记所述下一个像素值和为0的像素行为文字行的底端；

对所述文字行的顶端与所述文字行的底端之间的部分，从左至右对每个像素列的像素值求和，若连续M个像素列的像素值和为0、第M+1像素列的像素值和不为0，记所述第M像素列为所述文字行的左端；直至出现连续K个像素列的像素值和为0，记所述K个像素列中的第一列为所述文字行的右端；所述文字行的左端和所述文字行的右端之间部分为所述文字行。

作为具体的技术方案，所述对所述最小包围矩形切割文字块，具体为：对所述最小包围矩形从左至右对每个像素列的像素值求和，当连续S个像素列的像素值和不为0，则所述连续S个像素列为一个文字块；

所述对所述文字块进行文字识别，具体为：

d1、利用Word2vec算法对所述文字块中的文字进行向量化表示，表示为w；

d2、对文字库中的文字利用Word2vec算法进行向量化表示，表示为s；

d3、利用预置的向量相似度计算方法计算w与s之间的相似度；

d4、当w与s之间的相似度不小于预定的阈值时，则识别出所述文字块中的文字。

本发明还提供一种图像处理装置，包括存储器以及处理器，所述存储器存储支持处理器执行上述方法的程序，所述处理器被配置为用于执行所述存储器中存储的所述程序。

本发明的有益效果在于：对待识别的图像文件的种类进行分类，将有固定格式的电子图像和无格式的电子图像分类处理，节约了文字识别的时间以且提高了文字识别的效率。本发明还对无格式的电子图像通过文字行识别、最小包围矩形划分及文字块的切割方式，进行文字识别，这种方法的识别效率高、准确率高。

附图说明

图1为本发明实施例提供的电子图像的文字的识别方法的主流程图。

图2为本发明实施例提供的电子图像的文字的识别方法中通过最小包围矩形方法对所述待识别图像的文字细分后的示例图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

本实施例提供的电子图像的文字的识别方法中，首先要对被处理的电子图像进行图像前期处理，被处理的图像包括作为构建数据库基础数据的样本图像，也包括实际识别过程中的待识别图像。

对被处理的电子图像进行图像前期处理的主要流程如下：

1)将被处理的电子图像进行归一化处理，即将尺寸裁剪为设定大小，例如L*W的尺寸大小；

2)将裁剪后的图像进行灰度化处理；

3)根据预置去噪算法对灰度化后的图像进行去噪处理，其中预置算法可以选择中值滤波、小波去噪、PDE去噪、TV去噪中的一种；

4)对去噪后的图像进行图像增强，其中，当灰度值偏低时，使用对数Log变换方法，当图像对比度偏低，并且整体亮度值偏高时，使用伽马变换方法。

可以理解的是，如果被处理图像质量较好(质量较好，可以认为是图像的清晰度或者分辨率大于某个预定值)，则上文所述的图像前期处理流程并不是必要的。

结合图1所示，本实施例提供的电子图像的文字的识别方法，包括以下主要步骤：

(1)对具有固定格式的至少一类电子图像下的至少一个样本图像按预设特征点提取灰度序列码，将所述样本图像的灰度序列码存储于一数据库。所述具有固定格式的电子图像是指电子图像中的各个区域被预定为记录特定图像信息或文字信息的标准化的图像，例如身份证的扫描图像或驾驶证的扫描图像等。

具体地，例如将身份证的扫描图像作为一类，驾驶证的扫描图像作为另一类。以身份证这一类为例，首先，人为确认一份身份证扫描图像(即操作人员通过人工方式确认并选择一份身份证扫描图像)，作为一个样本图像输入；然后，对该样本图像按预设的特征点提取灰度序列码(灰度序列码的具体提取方式下文详述)，并将提取的灰度序列码存储于数据库。可以提取多个类别下的多个样本图像各自的灰度序列码，存储于数据库中，作为实际识别过程(下文详述)中的匹配样本。

(2)输入待识别图像，对所述待识别图像按所述预设特征点提取灰度序列码。

上文步骤(1)是建立了一个样本数据库，本步骤(2)则开始实际的识别过程。具体地，步骤(2)采用与步骤(1)相同的方法对输入的待识别图像按预设特征点提取灰度序列码。需要注意的是，步骤(2)中提取灰度序列码是，所述预设特征点的设置方式及序列码的排序方式应当与步骤(1)相同(灰度序列码的具体提取方式下文详述)。

(3)将所述待识别图像的灰度序列码与所述数据库中存储的灰度序列码进行匹配，匹配度不小于Q则进入步骤(4a)，否则进入步骤(4A)。

由上文可知，灰度序列码是由图像中预设的若干特征点的灰度得来的，因此，通过灰度序列码的比较可以得到待识别图像与样本图像的匹配度；Q是一个设置的合理阈值，例如取90％，实际匹配过程中，将待识别图像的灰度序列码与数据库中存储的灰度序列码按相应数据位进行比对，计算相同的数据位个数或不同的数据位个数，获得一个匹配的比例，匹配度不小于90％则进入步骤(4a)，否则进入步骤(4A)。

(4a)判断待识别图像为具有固定格式的电子图像，

并且通过CNN(Convolutional Neural Network，卷积神经网络)对所述待识别图像进行文字识别。

所述数据库中还存储每个样本图像提取的灰度序列码相对应的固定格式类型，针对所述固定格式类型设置图像分割方式；步骤(4a)具体包括：确定所述待识别图像的固定格式类型，根据该固定格式类型的图像分割方式将所述待识别图像分割为若干个子图像(该子图像是具有固定格式图像的固定格式块，例如身份证上的姓名、年龄、家庭住址等)；通过CNN对每个子图像进行文字识别。

本实施例中，还将所述步骤(4a)判断为具有固定格式的电子图像的灰度序列码存储于所述数据库，不断对数据库进行更新。

其中，步骤(1)和步骤(2)中，预设的特征点是取图像中的n*m矩阵的像素点(例如8*8或64*32)，将各特征点的像素计算灰度值(图像未经灰度化处理的先进行灰度化)，灰度值区间为0-255，将所有特征点的灰度值按设定的顺序排列，构成灰度序列码。此外，考虑灰度值直接表示特征点灰度的方式会使得灰度序列码整体数据位较长，本实施例提供一种更优的灰度序列码构成方式，主要是对各灰度值进行了灰度二值化处理，以减少灰度序列码整体数据位，具体包括：①取所有特征点的灰度值平均值作为二分阈值K；②将各特征点的灰度值与该二分阈值K比较，不小于二分阈值K则记该特征点的灰度二分值为1，小于二分阈值K则记该特征点的灰度二分值为0；③将所有特征点的灰度二分值按设定的顺序排列，构成灰度序列码。

下面提供一种灰度序列码提取的示例，该示例具体包括：

A、对图像进行边缘查找，裁剪掉有效边缘外的区域，得到边缘阈值化处理后的图像。其中，边缘查找的具体方法为：设定搜索阈值的初始下限值为X(例如取20)，搜索次数为Y次(例如6次)，递增值为d(例如10)，阈值上限系数为3*X(例如3*20)；如果一个像素值变化的幅度大于上限系数，则被认为是边缘像素，如果低于下限则被抛弃，如果介于两者之间，只有当其与高于上限阈值的像素连接(像素值接近)时才被认定为边缘像素。

B、将上述边缘阈值化后的图像的尺寸缩小至8*8，共64个像素；

C、利用预置灰度化方法对缩小后的图像进行灰度化，灰度范围为0-255，其中预置灰度方法有分量法、最大值法、平均值法、加权平均法；

D、计算所有64个像素灰度值的平均值，将每个像素的灰度值与平均值进行比较，大于或等于平均值，则记该特征点的灰度二分值为1，小于二分阈值K则记该特征点的灰度二分值为0；

E、将上一步得到的64个灰度二分值组合(随意组合，但是保证对所有样本图像及待识别图像该步骤的组合方式一致)在一起，构成一个64位的灰度序列码；

F、将待处理电子图像的64位的整数与数据库中电子图像(用相同的方式得到64位整数)的整数对比，如果不相同的数据位为5(匹配度92％)，就说明两张电子图像是同一类，匹配成功；如果不相同的数据位为10(匹配度84％)，就说明相比的两张电子图像不匹配；如果与数据库中的所有灰度序列码都不匹配，则认定待识别图像为无固定格式的图像。

可以理解的是，上述具体示例的步骤中，边缘阈值化处理的步骤以及将边缘阈值化后的图像的尺寸缩小的步骤都是优选的辅助步骤，都是为了确定特征点的一个合理的选取范围，以使得提取的灰度序列码更具有代表性(即尽量将预设特征码的范围限制在有效像素范围内)。实际上，也可以采用其他方式确定特征点的选取范围，例如按设定像素间隔直接提取n*m矩阵的像素点，作为预设特征点。

上文所述的步骤(4A)中，对于判断为无固定格式的电子图像，其文字识别的主要流程包括a、b、c三个步骤，具体如下：

a、识别文字行：

对所述待识别图像从上至下对每个像素行的像素值进行求和，若某像素行的像素值和为0，则此像素行无像素；若连续N个像素行的像素值和为0、第N+1像素行的像素值和不为0，则记所述第N像素行为文字行的顶端，直至出现下一个像素值和为0的像素行，并记所述下一个像素值和为0的像素行为文字行的底端；

b、在文字行内识别明显间隔，明显间隔包括第一个文字前、最后一个文字后及标点符号，在同一文字行内相邻的两个明显间隔之间为一个最小包围矩形。

c、对最小包围矩形进行文字块的切割；具体包括：

对最小包围矩形从左至右对每个像素列的像素值求和，当连续S个像素列的像素值和不为0，则所述连续S个像素列为一个文字块；

d、对所述文字块进行文字识别，具体包括：

d1、利用Word2vec算法(word to vector是一个将单词转换成向量形式的算法)对所述文字块中的文字进行向量化表示，表示为w；

d3、利用预置的向量相似度计算方法计算w与s之间的相似度；

本实施例还提供一种图像处理装置，包括存储器以及处理器，所述存储器存储支持处理器执行上述电子图像的文字的识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的所述程序。

以上实施例仅为充分公开而非限制本发明，凡基于本发明的创作主旨、无需经过创造性劳动即可等到的等效技术特征的替换，应当视为本申请揭露的范围。

Claims

1.一种电子图像的文字的识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的电子图像的文字的识别方法，其特征在于，还包括将所述步骤(4a)中所述具有固定格式的电子图像的灰度序列码存储于所述数据库的步骤。

3.根据权利要求1或2所述的电子图像的文字的识别方法，其特征在于，所述数据库中还存储与每个所述样本图像的灰度序列码相对应的固定格式类型，针对所述固定格式类型设置对应的图像分割方式；

4.根据权利要求1所述的电子图像的文字的识别方法，其特征在于，所述预设特征点是取图像中的n*m矩阵的像素点，并计算所述预设特征点的灰度值，将所述预设特征点的灰度值按设定的顺序排列，构成所述灰度序列码。

5.根据权利要求4所述的电子图像的文字的识别方法，其特征在于，所述预设特征点为取所述样本图像或所述待识别图像中的n*m矩阵的像素点，计算所述预设特征点的灰度值，然后执行以下步骤：

①取所有预设特征点的灰度值平均值作为二分阈值K；②将各预设特征点的灰度值与所述二分阈值K比较，不小于所述二分阈值K则记该预设特征点的灰度二分值为1，小于所述二分阈值K则记该预设特征点的灰度二分值为0；③将所有所述预设特征点的灰度二分值按设定的顺序排列，构成所述灰度序列码。

6.根据权利要求5所述的电子图像的文字的识别方法，其特征在于，取所述样本图像或所述待识别图像中的n*m矩阵的像素点，具体方法包括以下二种：<1>先对所述样本图像或所述待识别图像进行边缘查找，裁剪掉有效边缘外的区域，然后将裁剪后的图像缩小至n*m像素点大小；或，<2>按设定像素间隔直接对所述样本图像或所述待识别图像提取n*m矩阵的像素点。

7.根据权利要求4-6任意一项所述的电子图像的文字的识别方法，其特征在于，所述步骤(4A)具体包括：

a、识别文字行；

c、对所述最小包围矩形切割文字块；

d、对所述文字块进行文字识别。

8.根据权利要求7所述的电子图像的文字的识别方法，其特征在于，所述识别文字行的具体方法为：对所述待识别图像从上至下对每个像素行的像素值进行求和，若某像素行的像素值和为0，则此像素行无像素；若连续N个像素行的像素值和为0、第N+1像素行的像素值和不为0，则记所述第N像素行为文字行的顶端，直至出现下一个像素值和为0的像素行，并记所述下一个像素值和为0的像素行为文字行的底端；

9.根据权利要求8所述的电子图像的文字的识别方法，其特征在于，所述对所述最小包围矩形切割文字块，具体为：对所述最小包围矩形从左至右对每个像素列的像素值求和，当连续S个像素列的像素值和不为0，则所述连续S个像素列为一个文字块；

所述对所述文字块进行文字识别，具体为：

d3、利用预置的向量相似度计算方法计算w与s之间的相似度；

10.一种图像处理装置，包括存储器以及处理器，其特征在于，所述存储器存储支持所述处理器执行权利要求1至9任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的所述程序。