CN112116611B

CN112116611B - 一种书脊分割与文字识别系统及方法

Info

Publication number: CN112116611B
Application number: CN202010910143.1A
Authority: CN
Inventors: 孙大洋; 许文巍; 张有丰
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2022-07-05
Anticipated expiration: 2040-09-02
Also published as: CN112116611A

Abstract

本发明提出了一种书脊分割与文字识别方法，包括：步骤一、利用图像采集系统获取书脊图像image；步骤二、将书脊图像image传入神经网络框架DarkNet中进行书脊分割，得到N个单书脊图像img₁，img₂…img_N；使用快速线检测算法对分割后的单书脊图像img_i进行拟合，对单个书脊图像和直线组进行透射旋转变换；使用卷积递归神经网络CRNN对旋转书脊图像rotated_img_i进行文字检测得到文字区域和文字内容；使用文字区域对旋转直线组进行滤波，去除与文字区域相交的直线；保留识别结果；步骤三、对书脊的文字识别结果进行数据库匹配；步骤四、存储识别结果，按标记显示书脊图像。

Description

一种书脊分割与文字识别系统及方法

技术领域

本发明专利属于图书馆馆藏书目管理领域，具体涉及一种书脊区域分割与文字识别系统及方法。

背景技术

计算机视觉是指利用摄像头和处理器对对象特征进行识别，提取和跟踪，最终，经过人性化处理获得所需的图像信息。而近几年来，作为机器学习中发展最为迅速的一个领域，深度学习为计算机视觉带来了更加广阔的应用和发展前景。图像处理是深度学习最早尝试应用的领域。它通过建立起与大脑神经网络相似的分层模型，逐层提取输入图像信息的特征映射，建立起从低级数据信息到高级语义的对应关系，最终实现了对图像的智能化处理。现已广泛应用在手写识别，证件信息审核、车牌识别等领域，其核心任务是文字检测和文字识别。

在现有图书馆书籍管理系统中，图书管理还是大量依赖于人工，而基于深度学习的整体书籍管理解决方案目前还没有人提出，书脊分割与文字识别的主要问题是如何快速准确地对书脊进行分割，对于图书馆场景中的各种复杂情况，书脊分割需要有较好的稳定性，采用深度学习的方式可以快速地进行书脊分割，然而由于照片拍摄的透射效果使得即使是摆正的书脊，也会出现一定的倾斜角度，导致深度学习的书脊分割结果会包含临近书脊的文字信息，对文字识别产生噪声影响，而采用传统方式进行书脊分割，速度与稳定性方面不尽如人意。因此如何快速准确地进行书脊分割是书脊文字识别的重点和难点。

发明内容：

本发明针对上述现有技术中存在的诸多技术问题，对书脊文本的检测进行了系统的设计，真正达到了书脊文本检测的应用标准。本发明旨在提供一套高效且易于维护的书脊识别系统，提高图书管理的智能化管理水平。

书脊分割与文字识别方法，包括：

步骤一、利用图像采集系统获取书脊图像image；

步骤二、将书脊图像image传入神经网络框架DarkNet中进行书脊分割，得到N个单书脊图像img₁，img₂…img_N；对每一个单书脊图像img_i执行如下步骤：(1)使用快速线检测算法对分割后的单书脊图像img_i进行直线检测得到直线组lines；(2)使用线拼接算法对直线组lines进行拟合，得到长度大于阈值的拟合直线组fitted_lines；(3)计算拟合直线组fitted_lines所有直线的角度平均值rotation_angle，并使用该平均值对单个书脊图像和直线组进行透射旋转变换得到旋转书脊图像rotated_img_i和旋转直线组rotated_lines；(4)使用卷积递归神经网络CRNN对旋转书脊图像rotated_img_i进行文字检测得到文字区域和文字内容；(5)使用文字区域对旋转直线组rotated_lines进行滤波，去除与文字区域相交的直线；(6)在滤波后的旋转直线组rotated_lines中找到距离旋转书脊图像rotated_img_i中心左侧最近的直线line₁，距离旋转书脊图像rotated_img_i中心右侧最近的直线line₂，并使用line₁，line₂对旋转书脊图像rotated_img_i进行裁剪；(7)使用直线line₁和直线line₂对文字区域与文字内容滤波，保留位置包含在line₁，line₂之间的文字识别结果；

步骤三、对书脊的文字识别结果进行数据库匹配；

步骤四、存储识别结果，按标记显示书脊图像。

进一步地，所述使用线拼接算法对直线组lines进行拟合，得到长度大于阈值的拟合直线组fitted_lines的具体步骤如下：

步骤1：调用快速线检测得到线检测结果lines；

步骤2：使用线长阈值MinLength与角度阈值slantAngle对线检测结果lines进行滤波得到滤波线组sortedlines，滤除长度小于线长阈值MinLength，角度小于角度阈值slantAngle的线；

步骤3：对滤波线组sortedlines按照线段首点的横坐标排序；

步骤4:对滤波线组sortedlines中所有未进行线拟合的线line_i进行如下操作：

a)以线line_i初始化拟合线段linetmp，标记线line_i为已拟合；

b)遍历与线line_i距离相差小于10*MinLength的线line_j，如果线line_j两端点与拟合线段linetmp的距离均小于DisThreshold，则将线line_j与线line_i进行拟合，取线line_j与线line_j的最远端点更新拟合线段linetmp，标记线line_j为已拟合；

c)如果拟合线段长度大于LineLength，将线拟合结果linetmp加入到拟合线段列表中；

步骤5：返回拟合线段列表。

一种书脊区域分割与文字识别系统，实现所述的书脊分割与文字识别方法，该系统包括：

图像采集系统，用于采集图书的书脊图像，并将采集到的书脊图像传输给图像分析系统；

图像分析系统，用于分析和处理图书的书脊图像，利用神经网络DarkNet框架进行书脊分割、记录坐标并保存分割的图像以及按照识别结果类型进行不同颜色的书脊框选显示；

文字识别系统，利用卷积递归神经网络CRNN对分割后的书脊进行文字区域识别及文字检测；

数据库交互系统，用于将图像分析系统得到的图像位置数据以及文字识别系统识别的数据与图书馆数据库做比对，并将比对结果恢复为可交互图像，存入数据库供管理员进行图书管理。

附图说明

附图1为本系统的总体流程；

附图2为书脊摆正、裁剪、文字识别的详细流程图；

附图3为线拟合流程；

附图4为书脊图像；

附图5为书脊分割结果；

附图6a和6b为书脊的文字识别结果；

附图7为数据库比对及图像恢复结果；

具体实施方式

书脊分割与文字识别方法，包括：步骤一、利用图像采集系统获取书脊图像image；步骤二、将书脊图像image传入神经网络框架DarkNet中进行书脊分割，得到N个单书脊图像img₁，img₂…img_N；对每一个单书脊图像img_i执行如下步骤：(1)使用快速线检测算法对分割后的单书脊图像img_i进行直线检测得到直线组lines；(2)使用线拼接算法对直线组lines进行拟合，得到长度大于阈值的拟合直线组fitted_lines；(3)计算拟合直线组fitted_lines所有直线的角度平均值rotation_angle，并使用该平均值对单个书脊图像和直线组进行透射旋转变换得到旋转书脊图像rotated_img_i和旋转直线组rotated_lines；(4)使用卷积递归神经网络CRNN对旋转书脊图像rotated_img_i进行文字检测得到文字区域和文字内容；(5)使用文字区域对旋转直线组rotated_lines进行滤波，去除与文字区域相交的直线；(6)在滤波后的旋转直线组rotated_lines中找到距离旋转书脊图像rotated_img_i中心左侧最近的直线line₁，距离旋转书脊图像rotated_img_i中心右侧最近的直线line₂，并使用line₁，line₂对旋转书脊图像rotated_img_i进行裁剪；(7)使用直线line₁和直线line₂对文字区域与文字内容滤波，保留位置包含在line₁，line₂之间的文字识别结果。步骤三、对书脊的文字识别结果进行数据库匹配；步骤四、存储识别结果，按标记显示书脊图像。

其中关于线拟合算法：由于快速线检测算法得到的线段往往是许多短线，并不能很好地标识书脊边界，因此我们用线拟合算法使书脊边界特征上的短线拟合成一条长直线，详细步骤如下：

2.调用快速线检测得到线检测结果lines；

3.使用线长阈值MinLength与角度阈值slantAngle对线检测结果lines进行滤波得到sortedlines，滤除长度小于MinLength，角度小于slantAngle的线；实际系统中，优选地，MinLength取3个像素，slantAngle取65度；

4.对sortedlines按照线段首点的横坐标排序；

5.对sortedlines中所有未进行线拟合的线line_i：

a)以line_i初始化拟合线段linetmp，标记line_i为已拟合；

b)遍历与line_i距离相差小于10*MinLength的线line_j，如果line_j两端点与拟合线段linetmp的距离均小于拟合线距门限DisThreshold(系统中优选取值为3个像素)，则将line_j与line_i进行拟合，取line_j与line_j的最远端点更新拟合线段linetmp，标记line_j为已拟合；

c)如果拟合线段长度大于线长门限LineLength(系统中优选取值为图像高度的1/4)，将线拟合结果linetmp加入到拟合线段列表中；

6.返回拟合线段列表

对于实现上述书脊分割与文字识别方法的系统(以下简称“本系统“)：是基于神经网络框架DarkNet开源深度学习框架及卷积递归神经网络CRNN实现书脊分割与文字识别功能，本系统分为4个部分，分别为图像采集系统、图像分析系统、文字识别系统和数据库交互系统。

图像采集系统，用于采集图书的书脊图像，并将采集到的书脊图像传输给图像分析系统；图像分析系统，用于分析和处理图书图像，利用神经网络框架DarkNet进行书脊分割；文字识别系统，利用卷积递归神经网络CRNN对分割后的书脊进行文字区域识别及文字检测；数据库交互系统，用于将图像分析系统得到的图像位置数据以及文字识别系统识别的数据与图书馆数据库做比对，并将比对结果恢复为可交互图像，存入数据库供管理员进行图书管理。

本系统的有益效果为：可板载、可依赖手机APP实现，具有较强的可移植性，管理维护成本低。对于现有的图书管理系统，图书管理基本依靠人工进行，管理效率低，管理成本高，对于一些大规模图书馆，每天对所有图书进行一次管理的成本是无法接受的，本发明旨在提出一种高效简洁的图书管理方法，利用深度学习的技术自自动对图书进行识别和分类，在此基础上实现几乎实时的图书管理，这样可大大减少图书管理员的维护时间。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种书脊分割与文字识别方法，其特征在于：包括：

步骤一、利用图像采集系统获取书脊图像image；

步骤二、将书脊图像image传入神经网络框架DarkNet中进行书脊分割，得到N个单书脊图像img1，img2…imgN；对每一个单书脊图像imgi执行如下步骤：(1)使用快速线检测算法对分割后的单书脊图像imgi进行直线检测得到直线组lines；(2)使用线拼接算法对直线组lines进行拟合，得到长度大于阈值的拟合直线组fitted_lines；具体步骤如下：

步骤1：调用快速线检测得到线检测结果lines；

步骤3：对滤波线组sortedlines按照线段首点的横坐标排序；

步骤4：对滤波线组sortedlines中所有未进行线拟合的线linei进行如下操作：

a)以线linei初始化拟合线段linetmp，标记线linei为已拟合；

b)遍历与线linei距离相差小于10*MinLength的线linej，如果线linej两端点与拟合线段linetmp的距离均小于拟合线距门限DisThreshold，则将线linej与线linei进行拟合，取线linej与线linej的最远端点更新拟合线段linetmp，标记线linej为已拟合；

c)如果拟合线段长度大于线长门限LineLength，将线拟合结果linetmp加入到拟合线段列表中；

步骤5：返回拟合线段列表；

(3)计算拟合直线组fitted_lines所有直线的角度平均值rotation_angle，并使用该平均值对单个书脊图像和直线组进行透射旋转变换得到旋转书脊图像rotated_imgi和旋转直线组rotated_lines；(4)使用卷积递归神经网络CRNN对旋转书脊图像rotated_imgi进行文字检测得到文字区域和文字内容；(5)使用文字区域对旋转直线组rotated_lines进行滤波，去除与文字区域相交的直线；(6)在滤波后的旋转直线组rotated_lines中找到距离旋转书脊图像rotated_imgi中心左侧最近的直线line1，距离旋转书脊图像rotated_imgi中心右侧最近的直线line2，并使用line1，line2对旋转书脊图像rotated_imgi进行裁剪；(7)使用直线line1和直线line2对文字区域与文字内容滤波，保留位置包含在line1，line2之间的文字识别结果；

步骤三、对书脊的文字识别结果进行数据库匹配；

步骤四、存储识别结果，按标记显示书脊图像。

2.一种书脊区域分割与文字识别系统，实现权利要求1所述的书脊分割与文字识别方法，其特征在于，所述系统包括：