CN115471830A

CN115471830A - 一种基于计算机视觉的图书馆典藏方法

Info

Publication number: CN115471830A
Application number: CN202110648332.0A
Authority: CN
Inventors: 陈力军; 刘佳; 徐毅晖; 刘海松; 汪付星
Original assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Current assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-13

Abstract

本申请公开了一种基于计算机视觉的图书馆典藏方法，所述方法包括：通过相机拍照，并获取单层书架图书的全景图片；对所述全景图片进行实例分割，从而获得图书实例，并基于实例分割的结果获得每个图书实例在所述全景图片中的定位信息；构建并训练文本检测模型，标记图书实例中所有的文本区域框；构建并训练文本识别模型，对所述文本区域框进行文本识别，并将识别结果按图书实例归并，得到初步书名识别结果；将所述初步书名识别结果与图书馆数据库查询结果进行书名匹配，修正文本识别中的错误，并结合所述定位信息，输出典藏结果。该方法以实现图书馆典藏方法的高效率和高准确性。

Description

一种基于计算机视觉的图书馆典藏方法

技术领域

本申请涉及图书管理领域，具体涉及一种基于计算机视觉的图书馆典藏方法。

背景技术

计算机视觉是一门研究如何让计算机理解图片、视频的技术，通过计算机及相关设备来替代生物视觉，实现对目标的感知与理解。近年来，随着深度学习的兴起，计算机视觉发展迅猛，可以胜任事件检测、对象识别、视频跟踪等多样任务。相比于人类视觉，计算机视觉通常运算更快、开支低廉、结果公正。现如今，计算机视觉已经广泛应用于仓储管理、医疗保健、产品制造与销售等众多行业，极大提高其自动化、智能化水平与运作效率，备受各行各业追捧。

图书馆中存在普遍的图书错架现象：由于读者众多，频繁的图书取阅与上架容易导致图书错架摆放，一旦错架，读者就很难找到想要的书籍。目前大多数图书馆仍然使用条形码对图书进行管理，这给图书馆典藏带来了巨大的挑战：1)一次只能扫描一个条形码，而图书馆藏书庞大，大大加重图书管理人员工作量，导致效率较低；2)扫描时要求条形码在视野范围内，而图书馆为了保护条形码，通常将其贴在图书内部，扫描时需要翻开图书。因此，当使用条形码来管理图书时，典藏工作费时费力，难以实现图书的实时管理。而其他典藏方法，如智能书架，需要对图书馆进行全馆改造，代价高昂。

计算机视觉的兴起给各行各业带来诸多便利，相关技术人员提出将计算机视觉技术应用于图书馆典藏。然而，这些方法仍然面临以下挑战：1)图书馆场景复杂，存在密集分布、曝光变化、凸出图书等各种侵扰因素，难以获取非侵扰的采集结果，导致准确性较低；2)图书馆典藏众多、书籍排列密集，典藏技术难以实时；3)现有文字识别方法大多不适用于中英文数字混合、垂直长文本及各类艺术字体，难以适用于复杂书架场景的图书识别。

因此，开发基于计算机视觉的图书馆典藏方法对提高图书馆典藏的效率和准确性具有重要的作用。

发明内容

本申请提供一种基于计算机视觉的图书馆典藏方法，以实现图书馆典藏的高效率和高准确性。

一种基于计算机视觉的图书馆典藏方法，所述方法包括：

通过相机拍照，并获取单层书架图书的全景图片；

对所述全景图片进行实例分割，从而获得图书实例，并基于实例分割的结果获得每个图书实例在所述全景图片中的定位信息；

构建并训练文本检测模型，标记图书实例中所有的文本区域框；

构建并训练文本识别模型，对所述文本区域框进行文本识别，并将识别结果按图书实例归并，得到初步书名识别结果；

将所述初步书名识别结果与图书馆数据库查询结果进行书名匹配，修正所述文本识别过程中的错误，并结合所述定位信息，输出典藏结果。

其中，相机即光学图像传感器，任何利用光电器件的光电转换功能将感光面上的光像转换为与光像成相应比例关系的电信号的装置均属于本申请中相机的含义。

其中，单层书架图书的全景图片可以指一整层书架图书的图片，也可以指整层书架中任意两块竖向挡板之间的图书的图片，或者指整层书架在水平方向中任意区间的图书的图片；以上关于全景图片的含义中，只需要保证全景图片在竖直方向上为一层书架即可。

其中，构建并训练文本检测模型的过程可以在相机拍照之前提前完成，也就是说，文本检测模型可以提前构建并训练，然后存在服务器中，在后续对图书实例中所有的文本区域框进行标记时直接调取即可；同样的，构建并训练文本识别模型也可以在相机拍照之前提前完成，也就是说，文本识别模型可以提前构建并训练，然后存在服务器中，在后续对文本区域框进行文本识别时直接调取即可。

基于相机所拍的书架照片，可以得到单层书架图书的全景图片，它包含该单层书架所有图书的书脊信息；在对全景图片进行实例分割时，即可将每个图书分开，并获得每个图书实例在该全景图片中的位置，从而可以实现图书实例的像素级定位，即可精确的得出图书所在的位置；然后通过文本检测模型，标记图书实例中所有的文本区域框，包括图书标题、图书作者、图书版次等，这些文本框区域共同构成一本图书的书名；再构建并训练文本识别模型，对文本区域框进行文本识别，并将识别结果按图书实例归并，得到初步书名识别结果；最后基于被典藏图书馆的数据库查询结果来修正初步书名识别结果中的错误，并结合图书实例的定位信息，得到典藏结果。

这样，只需要采用相机对书架进行拍照，并对获得的全景图片进行实例分割、文本检测、文本识别和书名匹配处理就可以完成图书馆典藏过程；且通过构建并训练文本检测模型和文本识别模型的过程，可以显著的提高图书书名识别的准确性。

可选的，在通过相机拍照采集图片前，还包括：根据所述相机所处书架环境，调节相机参数。

不同图书馆书架情况、光照条件不同，为保证采集结果清晰可靠，需要视情况调节相机参数。首先，当选取一层书架为扫描对象时，合理控制相机与图书之间的距离及扫描速度，保证拍摄图片的清晰度。随后，基于相机与图书的距离、相机的扫描速度及图书的光照条件等因素，调节相机焦距、曝光时间、增益、白平衡等相机参数，从而确保采集图片清晰可靠。

可选地，通过相机拍照，并获取单层书架图书的全景图片的过程包括：以一层书架为扫描对象，使用相机对该层书架图书进行移动扫描，采集多张图片，并用图像拼接算法将采集的多张图片拼接得到该层书架图书的全景图片。

为获得该层书架图书的全景图片，只需要将相机的摄像头面对图书沿着水平方向移动拍摄，在移动过程中连续拍摄得到的该层书架图书的不同区域的图片，然后将这些照片拼接即可以得到全景图片。

一般情况下，由于单层书架在水平方向的宽度较大，需要拍摄多张(3张以上)图片才能拼接得到全景图片。而当书架单层书架的宽度较小或者所选择的全景图片的区域较小时，则可能只需要拍摄一张图片，该图片即可作为全景图片。

可选地，在采集多张图片后，还包括：通过相机的内外参数对采集的多张图片进行畸变校正，所述内外参数通过对相机进行标定得到。

畸变主要是由于透镜制造精度以及组装工艺的偏差而引入，从而导致原始图像的失真。畸变校正的过程主要是基于相机标定得的内外参数，对采集图片进行二维透视变换，即可校正由于镜头畸变引起的图像的变形失真。

可选地，所述方法还包括：根据所述相机所处书架位置，在图书馆数据库中查询该书架的所有图书信息。

这里的图书馆数据库是指被典藏的图书馆。由于图书馆中各个书架的位置均固定、且书架的图书摆放信息均被存储在图书馆数据库中，当知晓相机的位置时，即可以根据相机位置明确相机所拍照的书架的所属编号和该书架所对应的图书摆放信息。

可选地，对所述全景图片进行实例分割的过程包括：

对所述全景图片应用边缘检测，获取其中连贯的图书和文字边缘，得到边缘图；

对边缘图进行渐进霍夫变换，提取边缘图中竖直方向的长线段；

将每条长线段延长至全景图片上下边界，对该延长线经过的所有线段进行打分并求和，剔除总得分小于阈值的延长线，获得图书实例的左右边缘；

基于图书实例的左右边缘与全景图片上下边界裁剪得到图书实例，并对该图书实例应用二维透视变换，从而校正倾斜或者不规则的图书实例。

其中，对全景图片应用边缘检测是在于将各个图书的边缘轮廓提取出来，从而得到边缘图；然后再结合边缘图中竖直方向的长线段和全景图片上下边界，去除总得分小于阈值的延长线，留存的竖直方向的延长线即可认定为图书实例的左右边缘；然后结合图书实例的左右边缘和全景图片上下边界裁剪即可以得到分割的图书实例。

以上设置阈值的目的在于筛选延长线，一般情况下，设定的阈值需要满足使得每本图书左侧或者右侧大于阈值的延长线的数量为1，此时，该大于阈值的1条延长线正好为该图书实例的一条左侧或者右侧边缘。

可选地，当图书边缘对应两条以上距离相近的延长线时，对所述两条以上距离相近的延长线应用非极大值抑制，从而获得更精确的图书实例的左右边缘。

也就是说，在一些情况下比如不同图书边缘形状的差异较大时，即使在设定较合适的阈值大小时，大于阈值的延长线的数量依然可能在两条以上，则需要进一步的在这些大于阈值的延长线中选择一条更为精确的延长线作为图书边缘。

可选地，所述构建并训练文本检测模型的过程包括：

对文本检测数据集进行数据增强；

基于增强后的文本检测数据集，训练DB(英文全称，DifferentiableBinarization)模型，并采用混合精度训练，得到健壮的文本检测模型。

可使用的数据增强方式包括：随机改变图像的亮度、颜色、对比度等特征，并对图片进行随机裁剪。对这些数据集进行数据增强的目的在于进一步扩充数据集，训练更鲁棒的文本检测模型。

可选地，所述构建并训练文本识别模型的过程包括：

基于已有图书馆数据库，合成文本识别数据集；

基于所述的文本识别数据集，训练CRNN(英文全称，Convolutional RecurrentNeural Network)模型，得到健壮的文本识别模型。

可选地，所述基于已有图书馆数据库，合成文本识别数据集的过程包括：

从已有图书馆数据库中获取所有图书书名，对书名进行拆分，生成短语字典；

从所述短语字典中随机选取短语进行组合，赋予随机字体，并将其转换成图片，并对该图片应用随机二维透视变换、施加随机背景或者加入随机扭曲与随机模糊。

其中，已有图书馆数据库为现有任意图书馆数据库，并不限定为被典藏的图书馆数据库。

可选地，将所述初步书名识别结果与图书馆数据库查询结果进行书名匹配，修正文本识别中的错误的过程包括：

对初步书名识别结果和数据库查询结果进行分词，去除停用词，计算剩余单词的TF-IDF(英文全称，Term Frequency–Inverse Document Frequency)权重；

基于所述TF-IDF权重，计算每个初步书名识别结果与数据库查询结果的匹配程序，在数据库查询结果中选取最匹配的书名，并剔除权重低于设定阈值的匹配结果，输出最终书名识别结果。

有益效果：一方面、将计算机视觉引入到图书馆典藏领域，通过进行图书实例分割、构建并训练文本检测模型和文本识别模型，能准确识别扫描区域的书籍，精确地实现了图书馆典藏；另一方面，该方法能在采集图像上实现图书的像素级定位，即可精确得出图书所在的位置。从而使得图书管理员能快速找到错架的图书，及时将这些书放回正确的位置，也让借阅者可以快捷、方便的查找到需要借阅的书籍。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例，附图中相同的附图标记标示了相同或类似的部件或部分，本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为一实施方式中，基于计算机视觉的图书馆典藏方法的流程图；

图2为一实施方式中，相机与书架的位置关系图；

图3为一实施方式中，对全景图片进行实例分割的效果图；

图4为一实施方式中，构建并训练文本检测模型的流程图；

图5为一实施方式中，构建并训练文本识别模型的流程图；

图6为一实施方式中，文本识别模型对文本识别数据集的文本识别效果。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似改进，因此本申请不受下面公开的具体实施的限制。

图1为一实施方式中，基于计算机视觉的图书馆典藏方法的流程图。该方法包括以下内容：

步骤1，通过相机拍照，然后获取单层书架图书的全景图片；

步骤2，对所述全景图片进行实例分割，从而获得图书实例，并基于实例分割的结果获得每个图书实例在所述全景图片中的定位信息；

步骤3，构建并训练文本检测模型，标记图书实例中所有的文本区域框；

步骤4，构建并训练文本识别模型，对所述文本区域框进行文本识别，并将识别结果按图书实例归并，得到初步书名识别结果；

步骤5，将所述初步书名识别结果与数据库查询结果进行书名匹配，修正文本识别中的错误，并结合所述定位信息，输出典藏结果。

其中，步骤3中构建并训练文本检测模型的过程可在步骤1之前提前完成；同样的，步骤4中构建并训练文本识别模型的过程可在步骤1之前提前完成。

如图2所示，为一实施方式中相机与书架的位置关系图。

将相机平行放置于距离书架上图书约8-10cm的位置，相机的扫描方向与书架平行，若相机离图书太近，易导致无法完整拍摄一层书架图书的书脊信息；若距离过远，会因书脊文字在图片中过小而难以识别。相机的移动速度同样需要控制，若移动速度快，需对应提高相机采集频率，相机采集结果易出现拖影，本实施例将移动速度控制在0.1m/s左右。基于图书距离、扫描速度及光照条件等因素，调节相机焦距及曝光时间、增益、白平衡等相机参数，确保采集图片清晰可靠。

可使用张正友棋盘格标定法对相机进行标定，得到相机的内外参数。若同时使用多个相机对书架的不同层进行移动扫描，则需对每个相机进行标定。

此外，为避免在移动扫描过程中相机出现较大抖动、相机与书架距离出现较大变化等干扰因素，同时实现全自动的图书馆典藏，将相机固定在移动扫描平台上，基于移动扫描平台为相机提供相对稳定的采集环境。由于大部分相机的水平视角大于垂直视角，相机通常纵向安装，实现对图书书名的完整拍摄。此外，为确保拍摄亮度，在该扫描平台上部署照明合适的补光灯。且由于工业相机通常不具备自动调焦的功能，需手动进行相机调焦。工业相机主要由镜头、摄像机组成，将扫描平台移动至书架边，通过旋转相机镜头可调节相机焦距，直至相机采集得的图书影像最为清晰。

优选地，以一层书架为扫描对象，进行移动扫描，通过标定矩阵对扫描结果进行畸变校正，并保存扫描结果，同时，获取移动扫描平台正在扫描的书架号，在图书馆数据库中查询该书架的所有图书信息。该畸变校正后的图片与查询结果，构成这层书架的采集数据。

如图3所示，为一实施方式中对全景图片进行实例分割的效果图。其中，图3(a)为全景图片，图3(b)为边缘图，图3(c)为提取出边缘图中竖直方向的长线段的示意图，图3(d)为实例分割结果。

图3(a)的全景图片为使用基于APAP(英文全称，As-Projective-As-Possible)的图像拼接算法对一层书架的采集图片进行拼接得到。由于本实施例中图像拼接的全景图片宽度较大，为便于清楚描述实例分割效果，图3(a)所示只是该全景图水平方向上的一部分，全景图片其他未展示在图3(a)中的部分的实例分割过程和效果同图3(a)的一样。

对图3(a)所示的全景图片进行实例分割的过程如下：

图3(a)所示的全景图片应用Canny边缘检测，获取其中连贯的图书和文字边缘，得到如图3(b)所示边缘图；

对边缘图进行渐进霍夫(PPHT(英文全称，Progressive Probability HouthTransform))变换，提取边缘图中长线段；接着，将竖直方向的每条线段延长至图像边缘，对该延长线经过的所有线段进行打分并求和。选取的打分函数为带权重和偏置的S型函数，剔除总得分小于阈值的延长线，可获得初步边缘筛选结果，即如图3(c)所示的提取出边缘图中竖直方向的长线段；

在初步边缘筛选结果中，部分图书边缘可能对应多条距离相近的延长线，此时需要对这些延长线采用非极大值抑制，从而可获得更精确的图书边缘，基于该图书实例的左右边缘与全景图片上下边界裁剪可得到图书实例，得到如图3(d)所示的实例分割结果；同时基于这些边缘实现图书实例分割时，图书实例的边缘也代表图书在图片中的定位信息；此外，由于相机拍摄时存在透视变换，图书实例的左右边缘与全景图片上下边界围成的四边形可能不规则，因此通过四组四边形的角对应点确定变换矩阵，对图书实例应用二维透视变换，可将不规则四边形转成规则的图书实例。

如图4所示，为一实施方式中构建并训练文本检测模型的流程图。该过程包括以下步骤。

步骤301，对文本检测数据集进行数据增强。现成的文本检测数据集如ICDAR2013、ICDAR 2015等，图片数目较少，这两个数据集总和仅2K，直接用于训练模型易导致过拟合，因此对这些数据集进行数据增强，能进一步扩充数据集，训练更鲁棒的模型。这里，使用的数据增强包括：随机改变图像的亮度、颜色、对比度等特征，并对图片进行随机裁剪。

步骤302，基于DB模型，构建文本检测模型。其核心是微分二值化带来的自适应阈值设定，对于长文本和中文文本有更佳的检测效果。文本检测包含两个分支，用于文本实例分割与像素级边界框回归，同时预测文本/非文本概率及具有方向角的边界框。

步骤303，基于数据增强后的数据集训练文本检测模型。用数据增强后的数据集训练文本检测模型，并应用混合精度训练，以加速训练速度和推理速度。

如图5所示，为一实施方式中构建并训练文本识别模型的流程图。该过程包括以下步骤。

步骤401，基于已有图书馆数据库，合成文本识别数据集。就汉字国标码的3755个一级汉字而言，现成的标注数据集很难实现对这些汉字的全覆盖。本实施例将基于中新天津图书馆数据库，合成文本识别数据集。合成过程包括：1)从数据库中获取所有图书书名，对书名进行拆分，生成短语字典；2)从字典中随机选取短语进行组合，赋予随机字体，并将其转换成图片；3)对图片应用随机二维透视变换，模拟现实场景中因拍摄相机角度引起的透视变换；4)对图片施加随机背景，模拟现实场景中复杂多样的文本背景，这些随机背景不能出现文字；5)对图片加入随机扭曲与随机模糊，以适应现实场景中的镜头畸变、相机抖动对采集结果的影响。

步骤402，基于CRNN模型，构建文本识别模型。该文本识别模型基于CRNN模型，为避免字符分割，CRNN预测结果将在词典中选择具有最低CTC(英文全称，ConnectionistTemporal Classification)损失的单词，利用词典实现纠错。为了加快计算速度，可限制候选集搜索范围，并用BK(英文全称，Burkhard-Keller)树进行有效查找。

步骤403，基于文本识别数据集训练文本识别模型。

如图6所示，为一实施方式中，文本识别模型对文本识别数据集的文本识别效果。图6(a)至(f)中图片均选自文本识别数据集，图6(a)至(f)中图片下方的文字为文本识别结果。图中(a)至(f)中图片的书名涉及到中文、英文、文字大小区别、字体区别等，文本识别结果分别为“opengl编程指南”、“假如给我三天光明”、“汇编语言基于兴处理器”、“计算机图形学第四版”、“linl大棚命令百篇”、“计算机网络自顶向下方法”。以上可见，文本识别模型对文本识别数据集的文本识别效果较好，正确率较高，但是同时也还存在一些识别错误，比如图6(c)中将“x86”识别为“兴”、图6(e)中将“Linux”识别为“linl”。

也就是说，采用文本识别模型对图书实例的文本区域框进行识别的过程较为准确，但是所得到的初步书名识别结果依然可能会存在一些错误之处，尤其是针对比较复杂的含有特殊字体的字母、数字字母组合等书名的识别，则需要进一步的将初步书名识别结果与图书馆数据库查询结果进行书名匹配，修正该文本识别过程中的错误，从而获得正确的书名。比如，可以对初步书名识别结果、图书馆数据库查询结果进行分词，去除停用词，计算剩余单词的TF-IDF权重；基于TF-IDF权重，计算每个初步书名识别结果与图书馆数据库查询结果的匹配程序，在查询结果中选取最匹配的书名，并剔除权重低于设定阈值的匹配结果，从而确定最终的书名识别结果；该匹配过程可以将文本识别过程中的错误进行修正，从而获得正确的、与图书实际书名完全一致的书名。

最后，汇总书名识别结果与图书实例的定位信息，通过数据交互方式，将典藏结果呈现给用户，完成典藏工作。

因此，本申请的实施例中，一方面将计算机视觉引入到图书馆典藏领域，通过进行图书实例分割、构建并训练文本检测模型和文本识别模型，能准确识别扫描区域的书籍，精确地实现了图书馆典藏；另一方面，该方法能在采集图像上实现图书的像素级定位，即可精确得出图书所在的位置。从而使得图书管理员能快速找到错架的图书，及时将这些书放回正确的位置，也让借阅者可以快捷、方便的查找到需要借阅的书籍。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本申请的多个示例性实施例，但是，在不脱离本申请精神和范围的情况下，仍可根据本申请公开的内容直接确定或推导出符合本申请原理的许多其他变型或修改。因此，本申请的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种基于计算机视觉的图书馆典藏方法，其特征在于，所述方法包括：

通过相机拍照，并获取单层书架图书的全景图片；

2.根据权利要求1所述的典藏方法，其特征在于，通过相机拍照，并获取单层书架图书的全景图片的过程包括：以一层书架为扫描对象，使用相机对该层书架图书进行移动扫描，采集多张图片，并用图像拼接算法将采集的多张图片拼接得到该层书架图书的全景图片。

3.根据权利要求2所述的典藏方法，其特征在于，在采集多张图片后，还包括：通过相机的内外参数对采集的多张图片进行畸变校正，所述内外参数通过对相机进行标定得到。

4.根据权利要求1所述的典藏方法，其特征在于，所述方法还包括：根据所述相机所处书架位置，在图书馆数据库中查询该书架的所有图书信息。

5.根据权利要求1所述的典藏方法，其特征在于，对所述全景图片进行实例分割的过程包括：

6.根据权利要求5所述的典藏方法，其特征在于，当图书边缘对应两条以上距离相近的延长线时，对所述两条以上距离相近的延长线应用非极大值抑制，从而获得更精确的图书实例的左右边缘。

7.根据权利要求1所述的典藏方法，其特征在于，所述构建并训练文本检测模型的过程包括：

对文本检测数据集进行数据增强；

基于增强后的文本检测数据集，训练DB模型，并采用混合精度训练，得到健壮的文本检测模型。

8.根据权利要求1所述的典藏方法，其特征在于，所述构建并训练文本识别模型的过程包括：

基于已有图书馆数据库，合成文本识别数据集；

基于所述文本识别数据集，训练CRNN模型，得到健壮的文本识别模型。

9.根据权利要求8所述的典藏方法，其特征在于，所述基于已有图书馆数据库，合成文本识别数据集的过程包括：

10.根据权利要求1所述的典藏方法，其特征在于，将所述初步书名识别结果与图书馆数据库查询结果进行书名匹配，修正文本识别中的错误的过程包括：

对初步书名识别结果和数据库查询结果进行分词，去除停用词，计算剩余单词的TF-IDF权重；