CN112686157A

CN112686157A - 一种基于深度学习的图书定位和识别方法

Info

Publication number: CN112686157A
Application number: CN202011609868.3A
Authority: CN
Inventors: 张校捷
Original assignee: Shanghai Shushan Intelligent Technology Co ltd
Current assignee: Shanghai Shushan Intelligent Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-20

Abstract

本发明公开了一种基于深度学习的图书定位和识别方法，一种基于深度学习的图书定位和识别方法，包括以下步骤：步骤1、获取书架图像；步骤2、识别书架图像中每个图书的位置信息；步骤3、提取每个图书的特征信息；根据图书特征信息，搜索出图书特征信息对应的图书信息。本发明使用图像识别技术实现对图书的盘点。

Description

一种基于深度学习的图书定位和识别方法

技术领域

本发明属于图像识别技术领域，尤其涉及一种基于深度学习的图书定位和识别方法。

背景技术

图书在书架上的定位和检索在图书馆信息管理系统中起着重要的作用。为了能够精确的定位图书的位置和相关信息，方便图书馆的盘点，传统上一般采用RFID标签的方法(如专利208172824U)来对图书进行识别。虽然RFID极大的减少了工作人员盘点的工作量，但是其具有很多缺点，首先在于RFID标签的成本过高，因为每本图书需要配备一个RFID标签，贴标签和输入信息需要花费大量的时间，其次是标签之间容易互相干扰，所以存在定位不准确和识别率不高的问题。为了解决这个问题，有效的降低图书盘点的成本和工作量，本发明中引入了深度学习和人工智能的方法，来有效的解决RFID既有的缺陷。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度学习的图书定位和识别方法，使用图像识别技术实现对图书的盘点。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度学习的图书定位和识别方法，包括以下步骤：

步骤1、获取书架图像；

步骤2、识别书架图像中每个图书的位置信息；

步骤3、提取每个图书的特征信息；根据图书特征信息，搜索出图书特征信息对应的图书信息。

进一步地，所述步骤2，包括以下步骤：

调取预训练好的Mask R-CNN深度学习模型；所述Mask R-CNN深度学习模型为预先经过以下操作后的模型：修改所述Mask R-CNN深度学习模型最后一层的全连接层或1x1的卷积层，使Mask R-CNN深度学习模型的输出为单种物体的坐标和概率；

使用调取的Mask R-CNN深度学习模型识别书架图像中每个图书书脊的图像的位置信息。

进一步地，所述预训练好的Mask R-CNN深度学习模型，训练时包括以下步骤：

调取已经过修改的Mask R-CNN深度学习模型；

调取合成的训练数据，所述训练数据为书架图像，该书架图像中的每个图书书脊的图像均标记有坐标信息，每个所述书脊的形状对应一个直方图；

使用所述训练数据对调取的Mask R-CNN深度学习模型进行训练。

进一步地，所述Mask R-CNN深度学习模型在训练时，当所述Mask R-CNN深度学习模型输出多个候选框时，将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。

进一步地，所述步骤3提取每个图书特征信息，包括以下步骤：

调取ResNet50深度学习模型；

将图书书脊的图像输入ResNet50深度学习模型，取ResNet50深度学习模型计算得到的全连接层前面最后一层的向量输出，输出的特征向量为图书特征信息。

进一步地，所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。

进一步地，所述步骤4根据图书特征信息，识别出图书对应的图书信息，包括以下步骤：

使用Siamese网络在预置数据库中搜索与识别出的图书特征信息相似度大于阈值的特征信息；

根据预置数据库中搜索出的特征信息，查询对应的图书信息输出。

本发明与现有技术相比具有以下优点：本发明通过图像识别技术得到书架上图书的位置信息和图书信息，相比传统对图书贴电子标签的方式，节省了成本，缩短了图书盘点时间，且盘点准确率高，效果稳定。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程图。

图2为Siamese网络的原理图。

具体实施方式

如图1所示，一种基于深度学习的图书定位和识别方法，包括以下步骤：

步骤1、获取书架图像；

所述书架图像为通过对书架直接进行拍照所得。

步骤2、识别书架图像中每个图书的位置信息；

具体地，调取目标识别模型对书架图像进行识别，识别出每个图书书脊的图像，以及书脊的图像所在位置。

具体地，调取特征提取模型对每个图书书脊的图像进行识别，提取出图书特征信息。将识别的图书特征信息在预置数据库中搜索相似度超过阈值的图书特征进行相似度比较，进一步根据预置数据库中搜索到的图书特征得到对应的图书信息。

所述目标识别模型为通过以下步骤获得：

步骤A、调取Mask R-CNN深度学习模型，并修改Mask R-CNN深度学习模型最后一层的全连接层或1x1的卷积层，将损失函数修改为

使Mask R-CNN深度学习模型的输出为单种物体的坐标和概率；

需要说明的是，未修改的Mask R-CNN深度学习模型的最后一层全连接层(或者1x1的卷积层，这两种实现等价)会输出选框对应不同物体的概率，以及选框为背景的概率，对应的是多分类的问题。而在本发明中由于我们只需要专注于单种物体的识别，因此需要的完成问题是单分类的问题，只需要考虑该选框是书脊还是背景，因此最后的问题变成二分类问题，随之修改具体的损失函数为：

使得网络仅仅输出单种物体的坐标和概率(选框层级上的和像素层级上的)，从而加强了图书识别和分割的准确率。

步骤B、调取合成的训练数据，所述训练数据为书架图像，该书架图像中的每个图书书脊的图像均标记有坐标信息，每个所述书脊的形状对应一个直方图；

需要说明的是，在训练数据采集方面由于图书的形状在一定范围内变化，而且本发明的目标是解决固定场景下(书架上)的图书识别问题，本发明采集的数据主要是书脊的图像数据，然后使用书脊的图像数据合成书架的图像数据，使用这些合成的数据来对修改后的Mask R-CNN深度学习模型训练。本发明在书脊形状的选择上做了一定的优化，优化的细节如下所述，首先根据书脊的形状(高宽比)，按照一定的间距(比如0.01)做出对应的直方图，统计不同高宽比的书本的整个书架图书中的占比，然后按照这个占比的倒数为权重，对书本进行采样。通过这个方法，能够均匀的采样到不同高宽比的书本图像数据，使得训练生成的模型能够更好的预测书脊的位置和形状。

步骤C、使用所述训练数据对调取的Mask R-CNN深度学习模型进行训练。

需要说明的是，所述Mask R-CNN深度学习模型在训练时，当所述Mask R-CNN深度学习模型输出多个候选框时，将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。

需要说明的是，Mask R-CNN深度学习模型需要产生一定的选框作为预处理的侯选框，在本发明中，算法会根据图书的形状对预处理候选框进行一定的筛选，其筛选的方法如下，按照前面的数据采集时书脊的形状高宽比作为依据，然后筛选掉不在这个直方图范围内的选框，这样的话选框的分布就可以尽可能的贴近图书的形状分布，从而提高了图像识别的准确率。

如图2所示，所述步骤3提取每个图书特征信息，根据图书特征信息，识别出图书对应的图书信息，包括以下步骤：

步骤a、取一个预置数据库中的图像2；

步骤b、将Mask R-CNN深度学习模型截取到书脊的图像1和预置数据库中的图像2输入Siamese网络，通过两个相同的ResNet50深度学习模型分别对图像1和图像2提取特征1和特征2；

步骤c、计算特征1和特征2的相似度，若大于阈值，则输出图像2对应的图书信息，若不大于阈值，则调取预置数据库中的下一个图像2执行步骤a到步骤c。

特征提取时，将图书书脊的图像输入ResNet50深度学习模型，取ResNet50深度学习模型计算得到的全连接层前面最后一层的向量输出，输出的特征向量为图书特征信息。所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。通过池化运算可缩减向量的维度，加快计算速度。

相似度计算时，计算相似度的公式使用的是L2距离，如下公式所示：

L2距离越小相似度越高，距离越大相似度越低。

本发明使用时，在相机拍摄到书架图像后，首先会根据改进后Mask R-CNN深度学习模型得到书脊的位置，以及书脊的图像，然后通过书脊的图像计算向量特征，接下来跟预置数据库中的向量特征进行比对，寻找得到特征属于哪一本书。具体比对的搜索算法描述如下。

对算法建立搜索数。其主要原理是根据某一分布(如均匀随机分布)，产生分割平面的向量，假设这个向量为u，则可以根据这个向量把所有的输入特征分成两类，一类和向量点积大于零，一类和向量点积小于零。如下公式所示。如：u·v₁＞0，u·v₂＜0

不断的产生随机向量，并且对特征向量的种类进行分割，直到二叉搜索树达到一定深度或者满足一定的分割条件(如叶子结点达到一定的数目)。

根据输入的特征向量在该二叉搜索树中搜索和输入向量最接近的向量。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于深度学习的图书定位和识别方法，其特征在于：包括以下步骤：

步骤1、获取书架图像；

步骤2、识别书架图像中每个图书的位置信息；

2.按照权利要求1所述的一种基于深度学习的图书定位和识别方法，其特征在于：所述步骤2，包括以下步骤：

3.按照权利要求2所述的一种基于深度学习的图书定位和识别方法，其特征在于：所述预训练好的Mask R-CNN深度学习模型，训练时包括以下步骤：

调取已经过修改的Mask R-CNN深度学习模型；

使用所述训练数据对调取的Mask R-CNN深度学习模型进行训练。

4.按照权利要求3所述的一种基于深度学习的图书定位和识别方法，其特征在于：所述Mask R-CNN深度学习模型在训练时，当所述Mask R-CNN深度学习模型输出多个候选框时，将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。

5.按照权利要求1所述的一种基于深度学习的图书定位和识别方法，其特征在于：所述步骤3提取每个图书特征信息，包括以下步骤：

调取ResNet50深度学习模型；

6.按照权利要求5所述的一种基于深度学习的图书定位和识别方法，其特征在于：所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。

7.按照权利要求1所述的一种基于深度学习的图书定位和识别方法，其特征在于：所述步骤3根据图书特征信息，识别出图书对应的图书信息，包括以下步骤：