CN111091124B

CN111091124B - 一种书脊文字识别方法

Info

Publication number: CN111091124B
Application number: CN201911228322.0A
Authority: CN
Inventors: 孙大洋; 许文巍; 刘丹; 万达禹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-06-03
Anticipated expiration: 2039-12-04
Also published as: CN111091124A

Abstract

本发明提出一种书脊文字识别方法，包括：利用图像获取装置获取文本图像，使用卷积神经网络识别书脊区域，进一步识别该书脊区域中的所有文字区域；对图像进行二值化处理，对二值化后的图像进行降噪处理并倾斜校正；图像特征提取及特征匹配，判断文字区域的排列方向和横排还是竖排，根据判断结果分别给出识别方法，进行识别后与字典匹配的文字；根据对书脊区域识别出来的各区域文字，保存为文字串格式，再与数据库信息进行智能化匹配，进行检索操作。

Description

一种书脊文字识别方法

技术领域

本发明专利属于图书馆馆藏书目管理领域，具体涉及一种书脊文字识别方法。

背景技术

为了积极响应全民阅读的重要举措，如今大部分图书馆都采用大量流通、大规模借阅、全面开放的开架借阅的管理方式不仅大大提高了借阅的方便性，也更加充分发挥了图书的价值。但是，由于大部分读者并没有受到专门的借阅训练，不熟悉图书馆的借阅规定，再加上图书馆藏书众多，而且普遍存在书架设置不合理的问题，图书馆藏书的错架、乱架问题随之产生。

图书馆普遍采用传统的人力整理的方法解决这一问题。这种方法不仅耗时耗力，需要大量的人员投入，而且书籍整理归纳不及时的问题依然存在，严重影响读者借阅，同时也不利于图书管理。而基于深度学习的书脊信息识别系统为解决这一问题提供了新的思路。通过检测识别书脊信息，并定位当前位置，与图书馆系统内部存储的信息进行比对，及时报错，方便管理员发现并处理错架乱架问题。本文主要解决的是检测识别书脊信息的问题。

计算机视觉是指利用摄像头和处理器对对象特征进行识别，提取和跟踪，最终，经过人性化处理获得所需的图像信息。而近几年来，作为机器学习中发展最为迅速的一个领域，深度学习为计算机视觉带来了更加广阔的应用和发展前景。图像处理是深度学习最早尝试应用的领域。它通过建立起与大脑神经网络相似的分层模型，逐层提取输入图像信息的特征映射，建立起从低级数据信息到高级语义的对应关系，最终实现了对图像的智能化处理。

现已广泛应用在手写识别，证件信息审核、车牌识别等领域，其核心任务是文字检测和文字识别。而书脊检测的主要问题是文字的组织方式是竖排的，使用传统的横排文字检测方式准确率不高，书脊区域的识别分割，书脊上不同区域的识别分割，其效果将直接影响到最终的文字识别效果。因此文本区域的检测和提取以及文字的准确识别是书脊文字识别的重点和难点。

传统方法文字识别主要针对横排文字进行识别，竖排文字识别的准确率不高，而由于书脊上的文字排列比较复杂，文字有横排的和竖排的，因此我们对这些复杂情况做了一些处理，使用图像切割、旋转、拼接的方式将每一种情况转换为横排文字，再用传统文字识别方法进行文字识别，识别结果是文字串，用来在数据库中进行检索。

发明内容

本发明针对上述现有技术中存在的诸多技术问题，提出如下改进：

1.将书脊上文字进行区域切割，按照文字方向，排版方式做详细区分，分别给出识别方案；

2.竖排文字，使用文字切割，旋转，组装的方式转换为横排文字，可应用最先进的横排文字识别方法进行文字识别。

本发明的有益效果

现有技术还没有能够直接应用于书脊识别的有效方法，对书脊直接使用文字识别方法，或者不对书脊进行区域切割，其识别准确率很低。本发明可以将书脊识别的准确率提升为现有文字识别准确率水平。

本发明的具体发明内容如下：

本发明公开一种书脊文字识别方法，包括：

步骤一，利用图像获取装置获取文本图像，使用卷积神经网络识别书脊区域，进一步识别该书脊区域中的所有文字区域；

步骤二，图像处理，对图像进行二值化处理，对二值化后的图像进行降噪处理并倾斜校正；

步骤三，图像特征提取及特征匹配，判断文字区域的排列方向是横排还是竖排，根据判断结果分别给出识别方法；当排列方向为竖排时，进一步判断单个文字是横向放置或是竖向放置或是整体横向放置；

当单个文字是竖向放置时，不旋转文字，将从上到下的文字顺序，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域进行与字典匹配的文字识别；

当单个文字是横向放置时，需对每个字符进行正或负90度的选择，使其变成竖文字后，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域进行与字典匹配的文字识别；

当整体横向放置时，先将整体竖区域进行正或负90度旋转，使其变成横区域的文字，再进行识别与字典匹配的文字识别；

步骤四，根据对书脊区域识别出来的各区域文字，保存为文字串格式，再与数据库信息进行智能化匹配，进行检索操作。

进一步地，采用区域字符的平均识别准确率所属范围来确定该区域字符是横向还是竖向，当区域字符的平均识别准确率低于75％时，则判断该字符为横向放置，当区域字符的平均识别准确率大于等于75％时，则判断该字符为竖向放置。

进一步地，对图像进行二值化处理，包括将文字的笔画信息从复杂的背景中分离出来，抛去掉无关信息，获得便于后续处理的二值图像，对二值化后的图像进行降噪处理，包括尽可能保留图像的主要特征的同时，去掉影响后续处理的无用噪声信息。

进一步地，对于竖向放置的文字，对单个字符的上下界进行搜索，以切分出单个汉字和其他符号，对已标记的文本行进行水平投影，将字与字之间的空隙引起的投影空白之间的距离进行排序，取距离排序中值与投影空白进行匹配对各个字符加以分割，并进行标记。

进一步地，对于横向放置的文字，在同样的进行字切割的步骤后，需对每个字符进行正或负90度的选择，使其变成竖文字后，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域使用已有文字识别方法进行与字典匹配的文字识别。

进一步地，所述卷积神经网络使用了共享权值和局部互连的方式，提取文字图像的形状、颜色、纹理和拓扑结构；并能对文字图像的旋转、位移、缩放及扭曲进行精确识别。

进一步地，与字典匹配的过程为：通过卷积神经网络对书籍文字图像进行低维特征提取，将得到的低维特征向量与存储在字典数据库中的文本进行搜索并匹配，得到多个相似的匹配结果后，再通过卷积神经网络对书籍文字图像进行高维特征提取，将获得的高维特征向量再次与所述多个相似的匹配结果进行对比后，确定最终的匹配结果。

附图说明

附图1为书脊文字为竖区域且单个字符为竖向；

附图2为书脊文字为竖区域且单个字符为横向；

附图3为书脊文字为整体竖区域；

具体实施方式

书脊文字识别方法，包括：

步骤一、利用图像获取装置获取文本图像，使用卷积神经网络识别书脊区域，进一步识别该书脊区域中的所有文字区域；

步骤二、图像处理，首先，对图像进行二值化处理，将文字的笔画信息从复杂的背景中分离出来，抛去掉无关信息，获得便于后续处理的二值图像。其次，对二值化后的图像进行降噪处理，尽可能保留图像的主要特征的同时，去掉影响后续处理的无用噪声信息。因此，降噪处理是进行后续字符分割和文本方向检测的必须步骤；然后，进行倾斜校正，在用图像采集设备得到图像时，样张除了有可能放置颠倒，还有可能略微的倾斜，这种情况也会影响识别。倾斜可能是整个版面都存在问题，也可能是局部的文本块存在问题。当倾斜角度不大时，不影响识别过程，可以忽略不计。若倾斜角过大，就影响了识别准确性。对图像中所有的直线进行倾斜检测，然后取直线数目最多的方向作为整个图像的倾斜方向，求出倾斜角度；求得图像的倾斜角度后，就可以根据倾斜角度对图像进行旋转校正。旋转后，图像的大小一般会改变。我们可以把转出显示区域的图像截去，也可扩大图像范围显示所有图像。

步骤三、图像特征提取及特征匹配：文本排版分为横排和竖排两种，根据字符分割可以将文本图像分割成单个字符区域。根据分割的单个字符自身的特征以及字符之间的特征关系判断出文本的方向并校正。判断出文字区域的排列方向，即横排还是竖排，并进行不同排列方向的区域切割，按照文字方向，排版方式做详细区分，分别给出识别方法；

步骤3.1横区域的文字采用现有技术中的文字识别方法进行识别；

步骤3.2.竖区域的文字的识别方法：

竖区域文字还存在三种排列方式，即单个文字是横向放置还是竖向放置，连通区域的文字是否是整体横向放置。具体地，采用区域字符的平均识别准确率所属范围来确定该区域字符是横向还是竖向，当区域字符的平均识别准确率低于75％时，则判断该字符为横向放置，当区域字符的平均识别准确率大于等于75％时，则判断该字符为竖向放置；

对于竖向放置的文字(如图1框选区域文字)，对单个字符的上下界进行搜索，以切分出单个汉字和其他符号，对已标记的文本行进行水平投影，将字与字之间的空隙引起的投影空白之间的距离进行排序，取距离排序中值与投影空白进行匹配对各个字符加以分割，并进行标记。在不旋转文字的情况下将从上到下的文字顺序，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域使用已有文字识别方法进行识别，无需旋转即可进行与字典匹配的文字识别；

对于横向放置的文字(如图2框选区域文字)，在同样的进行字切割的步骤后，需对每个字符进行正或负90度的选择，使其变成竖文字后，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域使用已有文字识别方法进行与字典匹配的文字识别；

对整体竖区域(如图3框选区域文字)，先将整体竖区域进行正或负90度旋转，使其变成横区域的文字，再使用已有文字识别方法进行识别；

步骤四，根据对书脊区域识别出来的各区域文字，保存为文字串格式，再与数据库信息进行智能化匹配，进行检索等操作。

本发明中的卷积神经网络突出的优点在于使用了共享权值和局部互连的方式。通过这种方式不仅避免了过拟合风险，还有效减少了权值的数目，便于网络优化，这种特点使得卷积神经网络在图像分类方面效果显著。卷积神经网络能主动提取出形状、颜色、纹理和拓扑结构等图像特征；对于输入的二维图像，网络能对图像形变如：旋转、位移、缩放及其它方式的扭曲进行精确识别。当输入是多维图像时，CNN可以将原始多维图像作为网络的输入，自主提取特征，从而克服了在传统识别算法中对复杂图像提取特征不精确和数据重建复杂等问题。

本发明中的与字典匹配的过程为：通过卷积神经网络对书籍文字图像进行低维特征提取，将得到的低维特征向量与存储在字典数据库中的文本进行搜索并匹配，得到多个相似的匹配结果后，再通过卷积神经网络对书籍文字图像进行高维特征提取，将获得的高维特征向量再次与所述多个相似的匹配结果进行对比后，确定最终的匹配结果。所述低维特征是指一组少而精的分类特征，即获取特征数目少且分类错误概率小的特征向量。低维特征提取的内容包括特殊点(如角点)、线、边界、区域等数值或符号的描述；所述高维特征提取是根据被识别的对象产生出一组基本特征,当识别对象是文字图像时,原始测量就是各点灰度值,或是经过计算产生原始特征。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种书脊文字识别方法，其特征在于，包括：

步骤三，图像特征提取及特征匹配，判断文字区域的排列方向是横排还是竖排，根据判断结果分别给出识别方法；当排列方向为竖排时，进一步判断单个文字是横向放置或是竖向放置或是整体横向放置；当单个文字是竖向放置时，不旋转文字，将从上到下的文字顺序，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域进行与字典匹配的文字识别；当单个文字是横向放置时，需对每个字符进行正或负90度的选择，使其变成竖文字后，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域进行与字典匹配的文字识别；当整体横向放置时，先将整体竖区域进行正或负90度旋转，使其变成横区域的文字，再进行与字典匹配的文字识别；

2.根据权利要求1所述的书脊文字识别方法，其特征在于：采用区域字符的平均识别准确率所属范围来确定该区域字符是横向还是竖向，当区域字符的平均识别准确率低于75％时，则判断该字符为横向放置，当区域字符的平均识别准确率大于等于75％时，则判断该字符为竖向放置。

3.根据权利要求1所述的书脊文字识别方法，其特征在于：对图像进行二值化处理，包括将文字的笔画信息从复杂的背景中分离出来，抛去掉无关信息，获得便于后续处理的二值图像，对二值化后的图像进行降噪处理，包括保留图像的主要特征的同时，去掉影响后续处理的无用噪声信息。

4.根据权利要求2所述的书脊文字识别方法，其特征在于：对于竖向放置的文字，对单个字符的上下界进行搜索，以切分出单个汉字和其他符号，对已标记的文本行进行水平投影，将字与字之间的空隙引起的投影空白之间的距离进行排序，取距离排序中值与投影空白进行匹配对各个字符加以分割，并进行标记。

5.根据权利要求2所述的书脊文字识别方法，其特征在于：对于横向放置的文字，在同样的进行字切割的步骤后，需对每个字符进行正或负90度的选择，使其变成竖文字后，改为从左到右的文字顺序，进行文字图像拼接，对拼接后的文字区域使用已有文字识别方法进行与字典匹配的文字识别。

6.根据权利要求1所述的书脊文字识别方法，其特征在于：所述卷积神经网络使用了共享权值和局部互连的方式，提取文字图像的形状、颜色、纹理和拓扑结构；并能对文字图像的旋转、位移、缩放及扭曲进行精确识别。

7.根据权利要求1所述的书脊文字识别方法，其特征在于：与字典匹配的过程为：通过卷积神经网络对书籍文字图像进行低维特征提取，将得到的低维特征向量与存储在字典数据库中的文本进行搜索并匹配，得到多个相似的匹配结果后，再通过卷积神经网络对书籍文字图像进行高维特征提取，将获得的高维特征向量再次与所述多个相似的匹配结果进行对比后，确定最终的匹配结果。