CN111368856B

CN111368856B - 一种基于视觉的图书盘点系统的书脊提取方法及装置

Info

Publication number: CN111368856B
Application number: CN202010182948.9A
Authority: CN
Inventors: 蔡君; 刘高联; 廖丽平; 付鸿添; 吴梦莹
Original assignee: Guangdong Xingxi Intelligent Technology Co ltd; Guangdong Polytechnic Normal University
Current assignee: Guangdong Xingxi Intelligent Technology Co ltd; Guangdong Polytechnic Normal University
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-07-11
Anticipated expiration: 2040-03-16
Also published as: CN111368856A

Abstract

本发明公开了一种视觉图书盘点系统的书脊提取方法，包括：采集书脊图像；对采集到的图像做保边滤波预处理；对经过预处理的图像做书脊包围框的标注，获得书脊位置的强监督信息；改造MaskRCNN模型，获得多个不同组件，按照具体实施例中的策略连接起来，命名为CMR模型；利用标注过的图像训练CMR模型，优化该模型里面的参数；利用优化好的CMR模型，对采集到的图像做前向推断，得到书脊掩码；根据书脊掩码拟合矩形框，将书脊提取出来；利用本发明可以提高书脊图像信噪比和书脊提取精度。

Description

一种基于视觉的图书盘点系统的书脊提取方法及装置

技术领域

本发明涉及图书自动盘点技术领域，尤其涉及一种基于视觉的图书盘点系统的书脊提取方法及装置。

背景技术

基于计算机视觉的图书盘点系统主要应用于大中型图书馆的图书盘点工作。该系统通过图像处理、深度学习等多种技术来识别移动机器人拍摄的书脊图像，可以完成图书的自动化盘点。

为了识别书脊，首先需要对图像进行书脊提取，然后再来识别书脊，最后获取图书信息。书脊提取的准确率，从根本上影响盘点系统的准确率，因此，书脊提取准确率的提升，一直是基于视觉的图书盘点系统的重点研究方向。

书脊提取前，有必要对采集到的原始图像做预处理，主要目的是为了滤除噪声；一般的预处理方法主要采用高斯算子实现低通滤波。高斯算子本质上是一种按照二维高斯分布构建的加权矩阵，离目标像素越近的点对最终结果的贡献越大，反之则越小；通过在原始书脊图像上滑动该加权矩阵即可将高频噪声滤除，效果非常不错；但由于高斯算子只考虑了空间分布，没有考虑到像素值的差异，这样就会导致在滤除高频噪声的同时，把书脊上灰度变化剧烈的地方，比如文字、纹理和缝隙等重要的高频信号也滤除掉，图像信噪比其实并不高。从肉眼上看，表现为整张图像变模糊，显然不利于盘点系统后续的书脊提取、文字识别和特征匹配等操作。

预处理后，一般进行书脊提取。观察拍摄所得图像，可以发现书脊之间由缝隙隔开。缝隙本质是一条直线，因此可通过检测直线来提取书脊。若采用Hough变换检测直线，由于Hough变换对算法参数十分敏感，所以针对不同的图像，当参数设置不对时，极易造成非书脊边缘的误检，从而导致书脊提取失败。而直线段检测算法(Line Segment Detector，LSD)算法是基于图像梯度处理的一种直线检测算法，它能在线性的时间内得出亚像素级精度的检测结果；所以，目前在视觉图书盘点系统中，普遍用LSD算法检测直线，实现书脊提取。其特征在于，Sobel算子增强书脊缝隙后，先用LSD从图像中检出若干条直线，接着基于先验信息，设计一系列规则滤除误检直线，拟合出书脊包围框，最后根据书脊包围框将书脊提取出来。

尽管LSD算法的精度和速度都优于Hough变换，但同样存在对噪声敏感的问题，直线检测或多或少都会存在错检或漏检，提取准确率依旧不是很高。其原因在于，首先，图像中的书脊具有尺度大，排布密集，方向旋转，颜色多样和透视畸变等特点，这就使得图像充满大量噪声，最典型的干扰来自书脊上的文字；文字本来属于书脊的重要特征，但直线检测算法只能把握单一的缝隙特征，反而使得文字成为书脊提取的最大干扰。基于直线检测的方法无法全面把握书脊的各种特征，这是提取精度不高的核心原因。其次，移动机器人在行进过程中，镜头抖动会导致书脊图像光照不均甚至出现拖影，降低图像质量。所以，基于以上讨论，不难发现，通过检测书脊缝隙直线来提取书脊，是无法适应书脊图像复杂性的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于视觉的图书盘点系统的书脊提取方法，包括以下步骤：

步骤1，通过移动机器人采集书脊图像并对采集到的图像做保边滤波预处理，提高系统信噪比，再对采集图像做形变矫正；

步骤2，对经过预处理的图像做书脊包围框的标注，获得书脊位置的强监督信息；

步骤3，构建改造型MaskRCNN模型，获得多个不同组件，按照预设的策略连接起来，命名为CMR模型；

步骤4，利用标注过的图像训练CMR模型，优化该模型里面的参数；

步骤5，利用优化好的CMR模型，对采集到的图像做前向推断，得到书脊掩码；

步骤6，根据书脊掩码拟合矩形框，将书脊提取出来。

更进一步地，在所述对采集书脊图像做保边滤波预处理的步骤中，先利用Canny算子标记书脊文字、纹理和缝隙所在像素点，生成双边滤波器在该点对应的截断窗口；当滤波器滑动到书脊图像锐利边缘处，采用加窗双边滤波器；当滤波器滑动到书脊图像平缓区域处，退化为高斯滤波器；

更进一步地，在所述对采集图像做形变矫正的步骤中，采用透视变换实现形变矫正。

更进一步地，采用梯度下降算法来优化CMR模型里面的参数。

更进一步地，所述步骤4进一步包括：CMR模型的Backbone选用ResNeXt，其中

，ResNeXt用一种平行堆叠相同拓扑结构的blocks代替传统ResNet三层卷积的block，CMR模型的优化器选用小批量梯度下降算法。

更进一步地，所述步骤3进一步包括：CMR模型包括Backbone模块、RPN模块、RoIAlign模块、BBox模块和Mask模块，所述Backbone模块、RPN模块、RoIAlign模块和Mask模块相互连接；RoIAlign模块连接两个子模块BBox模块和Mask模块，所述Backbone模块进一步连接所述RoIAlign模块，其中Backbone为模型骨干网，负责书脊图像的特征抽取；RPN为区域建议模块，负责产生可疑的目标矩形框；RoIAlign模块从RPN模块确定的ROI中导出像素一一对应的特征图；BBox为矩形框模块，负责回归出中间或最终目标矩形框；Mask为语义分割模块，负责对可疑ROI逐像素语义分割，得到最终的目标掩码。

本发明还公开了一种电子装置，包括：处理器；以及，存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的基于视觉的图书盘点系统的书脊提取方法。

本发明进一步提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于视觉的图书盘点系统的书脊提取方法。

综上所述，本发明为了解决现有书脊提取方法的不足，基于MaskRCNN，提出一种书脊提取专用的CMR模型，填补了深度学习方法在书脊提取技术上的空白。该模型通过提供BBox和Mask两条信息流，增加每个组件内不同模块间的交互，使得组件间能够起到逐渐调整和增强的作用，在一定的数据驱动下能够全面地学习书脊整体特征。相比只能利用单一缝隙特征的基于直线检测的书脊提取方法，拥有更好效果。

本发明与现有视觉图书盘点系统中的书脊提取方法相比具有如下优点：

首先，在滤除书脊图像高频噪声的同时，尽可能的保留了文字和缝隙等边缘特征，使得书脊图像拥有更高的信噪比；书脊提取的预处理，大多采用高斯算子滤波，虽然可以有效滤除高频噪声，但同时也滤掉了文字和缝隙等重要高频信号，不利于盘点系统后续的书脊提取、文字识别和特征匹配，大大降低盘点性能；本发明提出的基于Canny算子的自适应快速双边滤波器，不仅可以保留高频边缘特征，提升信噪比，而且计算速度也更快；

其次，有效降低了视觉图书盘点系统的运算时间和资源；在视觉图书盘点系统的开发中，普遍采用基于直线检测的书脊提取方法，然而这种方法包含多个独立步骤，更多的独立步骤会带来更高的CPU占用，非常耗时，对运算资源要求高，不利于产品落地。本发明提出的CMR模型，是端到端的深度学习方法，非常方便运行在图形处理器GPU中，从而大大降低运算耗时，有利于产品落地。

最后，由于CMR模型能够全面把握书脊的各种特征，从而比直线检测法拥有更高的分割精度，同时鲁棒性也大幅提升；直线检测只能利用图像书脊缝隙这个单一特征，其它重要特征比如文字，反而成了干扰特征，这种矛盾势必造成提取精度的下降。而本发明以数据驱动的方式，学习整个书脊的固有特征——缝隙，文字，纹理和颜色等，所有特征都被考虑进来，以更加接近人类的方式实现书脊提取，拥有更好的精度和鲁棒性。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的视觉图书盘点系统的书脊提取方法流程图；

图2是本发明中一实施例中的自适应快速双边滤波流程图；

图3是本发明中一实施例中的MaskRCNN模型的结构示意图；

图4是本发明一实施例中的CMR模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本实施例提出一种视觉图书盘点系统的书脊提取方法，其流程如图1所示，包括步骤：

步骤101，采集书脊图像；

步骤102，对采集到的图像做数据预处理；

其中，移动机器人采集的书脊图像，不可避免地会存在高频噪声；若采用常用的高斯算子做滤波，则会在滤除高频噪声的同时，滤除掉重要的高频信号。而这部分被滤除的高频信号往往反映图像的锐利边缘，就书脊图像而言，会使得书脊上面的文字、纹理和缝隙变模糊，不利于后续的书脊提取、文字识别和特征匹配操作；对依赖于文字识别来完成图书最终盘点的系统来说，这是无法接受的。

基于保边滤波的指导思想，本发明实施例采用双边滤波器进行低通滤波；双边滤波器本质上也是一个加权矩阵；它是原始的高斯算子和图像强度信息的乘积，优化后的加权矩阵再与图像信息作卷积运算，这样就能在滤波的同时考虑到书脊图像的锐利边缘信息，使得书脊图像的文字、纹理和缝隙部分能够保持清晰，有利于系统后续的书脊提取、文字识别和特征匹配等操作。双边滤波器的权重表达如下：

其中W是权重，i和j是像素点索引，K是归一化常量；第一个因子为普通的高斯权重表达，第二个因子为像素点亮度表达；其中I是像素点强度值，所以在强度差距大的地方，权重W会减小，滤波效应也就变小。对于书脊图像，在像素值平缓的区域，双边滤波有类似于高斯滤波的效果，而在文字、纹理和缝隙等梯度较大的地方，可以保持梯度，使得这些地方不会模糊，保持清晰。

双边滤波虽然可以取得不错的信噪比，但仍然存在计算量大的问题，不利于产品落地。经过分析可以发现，其原因在于双边滤波器的窗口大小是固定的，由第一个高斯因子的标准差决定。常见的加速措施是根据高斯函数的迅速衰减性质，直接根据标准差大小给双边滤波器加一个固定截断窗口。这种措施本质上是通过牺牲平缓区域降噪效果，来获取一定的加速。

本发明考虑到书脊图像中的文字、纹理和缝隙都具有很锐利的边缘，设计出一种针对书脊图像的自适应快速双边滤波器，其算法流程如下：

1.先用Canny算子滑过整张书脊图像，将锐利边缘检测出来；

2.标记边缘所属像素点为CannyPixel，其他像素点为OtherPixel；

3.当双边滤波器滑动到CannyPixel时，采用较小的截断窗口，滤波效应变小，书脊图像中的文字、纹理和缝隙得以保持清晰，同时计算量大幅下降；当双边滤波器滑动到OtherPixel时，双边滤波器退化为高斯滤波器，滤波效应变大，书脊图像平缓区域的高频噪声得以滤除。其权重表达为：

其中λ为截断窗口系数，根据实际情况灵活调整。

步骤103，对经过预处理的图像做书脊包围框的标注，获得书脊位置的强监督信息；

步骤104，改造MaskRCNN模型得到多个不同组件，按照设计好的策略连接起来，命名为CMR模型；

其中，MaskRCNN模型是一种基于深度学习的实例分割模型，其基本结构如附图3所示。其中Backbone为模型骨干网，负责书脊图像的特征抽取；RPN为区域建议模块，负责产生可疑的目标矩形框；RoIAlign的目的是为了从RPN模块确定的ROI中导出像素一一对应的特征图；BBox为矩形框模块，负责回归出最终的目标矩形框；Cls为分类模块，负责对ROI分类；Mask为语义分割模块，负责对ROI逐像素语义分割，得到最终的目标掩码。

将MaskRCNN的Cls去掉，得到组件CMR_A；

将MaskRCNN的Backbone、RPN和Cls去掉，得到组件CMR_B；

将MaskRCNN的Backbone、RPN、Cls和BBox去掉，得到组件CMR_C；

如附图4所示，按照以下连接策略即可得到我们的CMR模型。

1).将CMR_A中Backbone提取的特征作为所有组件中RoIAlign的输入；

2).将CMR_A中BBox输出矩形框作为CMR_B中RoIAlign的输入，CMR_B中BBox输出矩形框作为CMR_C中RoIAlign的输入；

3).将CMR_A中Mask输出掩码作为CMR_B中Mask的输入，CMR_B中Mask输出掩码作为CMR_C中Mask的输入；值得注意的是，实际应用CMR模型时，可根据需要连接多个CMR_B组件。

本发明提出的CMR模型，提供了BBox和Mask两条信息流，使得组件间起到逐渐调整和增强的作用，进而拥有更佳的书脊提取效果。

步骤105，利用标注过的书脊图像训练CMR模型，优化模型参数；

CMR模型的Backbone选用ResNeXt。

ResNeXt用一种平行堆叠相同拓扑结构的blocks代替传统ResNet三层卷积的block，在不增加参数复杂度的前提下提高准确率，同时还减少了超参数量。

CMR模型的优化器选用小批量梯度下降算法。

其中，小批量梯度下降是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是在每次迭代中，先计算batch_size个样本的平均梯度，再来对参数进行优化。在本实施例中，我们取batch_size＝10，训练书脊图像1000张，则优化过程的伪代码为：

其中θ为CMR模型参数，α为学习率，α后面的项为batch_size个样本的平均梯度。

步骤106，利用优化好的CMR模型，对采集到的图像做前向推断，得到书脊掩码；

步骤107，根据书脊掩码拟合矩形框，将书脊提取出来。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，包括以下步骤：

步骤6，根据书脊掩码拟合矩形框，将书脊提取出来。

2.如权利要求1所述的一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，所述步骤1进一步包括：先对采集图像做保边滤波，提高系统信噪比，再对采集图像做形变矫正。

3.如权利要求2所述的一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，在对采集书脊图像做保边滤波预处理的步骤中，先利用Canny算子标记书脊文字、纹理和缝隙所在像素点，生成双边滤波器在该点对应的截断窗口；当滤波器滑动到书脊图像锐利边缘处，采用加窗双边滤波器；当滤波器滑动到书脊图像平缓区域处，退化为高斯滤波器。

4.如权利要求2所述的一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，在所述对采集图像做形变矫正的步骤中，采用透视变换实现形变矫正。

5.如权利要求4所述的一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，采用梯度下降算法来优化CMR模型里面的参数。

6.如权利要求5所述的一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，所述步骤4进一步包括：CMR模型的Backbone选用ResNeXt，其中，ResNeXt用一种平行堆叠相同拓扑结构的blocks代替传统ResNet三层卷积的block，CMR模型的优化器选用小批量梯度下降算法。

7.如权利要求1所述的一种基于视觉的图书盘点系统的书脊提取方法，其特征在于，所述步骤3进一步包括：CMR模型包括Backbone模块、RPN模块、RoIAlign模块、BBox模块和Mask模块，所述Backbone模块、RPN模块、RoIAlign模块和Mask模块相互连接；RoIAlign模块连接两个子模块BBox模块和Mask模块，所述Backbone模块进一步连接所述RoIAlign模块，其中Backbone为模型骨干网，负责书脊图像的特征抽取；RPN为区域建议模块，负责产生可疑的目标矩形框；RoIAlign模块从RPN模块确定的ROI中导出像素一一对应的特征图；BBox为矩形框模块，负责回归出中间或最终目标矩形框；Mask为语义分割模块，负责对可疑ROI逐像素语义分割，得到最终的目标掩码。

8.一种电子装置，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的基于视觉的图书盘点系统的书脊提取方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于视觉的图书盘点系统的书脊提取方法。