CN112686157A - 一种基于深度学习的图书定位和识别方法 - Google Patents

一种基于深度学习的图书定位和识别方法 Download PDF

Info

Publication number
CN112686157A
CN112686157A CN202011609868.3A CN202011609868A CN112686157A CN 112686157 A CN112686157 A CN 112686157A CN 202011609868 A CN202011609868 A CN 202011609868A CN 112686157 A CN112686157 A CN 112686157A
Authority
CN
China
Prior art keywords
book
deep learning
learning model
mask
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011609868.3A
Other languages
English (en)
Inventor
张校捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shushan Intelligent Technology Co ltd
Original Assignee
Shanghai Shushan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shushan Intelligent Technology Co ltd filed Critical Shanghai Shushan Intelligent Technology Co ltd
Priority to CN202011609868.3A priority Critical patent/CN112686157A/zh
Publication of CN112686157A publication Critical patent/CN112686157A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的图书定位和识别方法,一种基于深度学习的图书定位和识别方法,包括以下步骤:步骤1、获取书架图像;步骤2、识别书架图像中每个图书的位置信息;步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。本发明使用图像识别技术实现对图书的盘点。

Description

一种基于深度学习的图书定位和识别方法
技术领域
本发明属于图像识别技术领域,尤其涉及一种基于深度学习的图书定位和识别方法。
背景技术
图书在书架上的定位和检索在图书馆信息管理系统中起着重要的作用。为了能够精确的定位图书的位置和相关信息,方便图书馆的盘点,传统上一般采用RFID标签的方法(如专利208172824U)来对图书进行识别。虽然RFID极大的减少了工作人员盘点的工作量,但是其具有很多缺点,首先在于RFID标签的成本过高,因为每本图书需要配备一个RFID标签,贴标签和输入信息需要花费大量的时间,其次是标签之间容易互相干扰,所以存在定位不准确和识别率不高的问题。为了解决这个问题,有效的降低图书盘点的成本和工作量,本发明中引入了深度学习和人工智能的方法,来有效的解决RFID既有的缺陷。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于深度学习的图书定位和识别方法,使用图像识别技术实现对图书的盘点。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度学习的图书定位和识别方法,包括以下步骤:
步骤1、获取书架图像;
步骤2、识别书架图像中每个图书的位置信息;
步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。
进一步地,所述步骤2,包括以下步骤:
调取预训练好的Mask R-CNN深度学习模型;所述Mask R-CNN深度学习模型为预先经过以下操作后的模型:修改所述Mask R-CNN深度学习模型最后一层的全连接层或1x1的卷积层,使Mask R-CNN深度学习模型的输出为单种物体的坐标和概率;
使用调取的Mask R-CNN深度学习模型识别书架图像中每个图书书脊的图像的位置信息。
进一步地,所述预训练好的Mask R-CNN深度学习模型,训练时包括以下步骤:
调取已经过修改的Mask R-CNN深度学习模型;
调取合成的训练数据,所述训练数据为书架图像,该书架图像中的每个图书书脊的图像均标记有坐标信息,每个所述书脊的形状对应一个直方图;
使用所述训练数据对调取的Mask R-CNN深度学习模型进行训练。
进一步地,所述Mask R-CNN深度学习模型在训练时,当所述Mask R-CNN深度学习模型输出多个候选框时,将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。
进一步地,所述步骤3提取每个图书特征信息,包括以下步骤:
调取ResNet50深度学习模型;
将图书书脊的图像输入ResNet50深度学习模型,取ResNet50深度学习模型计算得到的全连接层前面最后一层的向量输出,输出的特征向量为图书特征信息。
进一步地,所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。
进一步地,所述步骤4根据图书特征信息,识别出图书对应的图书信息,包括以下步骤:
使用Siamese网络在预置数据库中搜索与识别出的图书特征信息相似度大于阈值的特征信息;
根据预置数据库中搜索出的特征信息,查询对应的图书信息输出。
本发明与现有技术相比具有以下优点:本发明通过图像识别技术得到书架上图书的位置信息和图书信息,相比传统对图书贴电子标签的方式,节省了成本,缩短了图书盘点时间,且盘点准确率高,效果稳定。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程图。
图2为Siamese网络的原理图。
具体实施方式
如图1所示,一种基于深度学习的图书定位和识别方法,包括以下步骤:
步骤1、获取书架图像;
所述书架图像为通过对书架直接进行拍照所得。
步骤2、识别书架图像中每个图书的位置信息;
具体地,调取目标识别模型对书架图像进行识别,识别出每个图书书脊的图像,以及书脊的图像所在位置。
步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。
具体地,调取特征提取模型对每个图书书脊的图像进行识别,提取出图书特征信息。将识别的图书特征信息在预置数据库中搜索相似度超过阈值的图书特征进行相似度比较,进一步根据预置数据库中搜索到的图书特征得到对应的图书信息。
所述目标识别模型为通过以下步骤获得:
步骤A、调取Mask R-CNN深度学习模型,并修改Mask R-CNN深度学习模型最后一层的全连接层或1x1的卷积层,将损失函数修改为
Figure BDA0002874356310000041
使Mask R-CNN深度学习模型的输出为单种物体的坐标和概率;
需要说明的是,未修改的Mask R-CNN深度学习模型的最后一层全连接层(或者1x1的卷积层,这两种实现等价)会输出选框对应不同物体的概率,以及选框为背景的概率,对应的是多分类的问题。而在本发明中由于我们只需要专注于单种物体的识别,因此需要的完成问题是单分类的问题,只需要考虑该选框是书脊还是背景,因此最后的问题变成二分类问题,随之修改具体的损失函数为:
Figure BDA0002874356310000042
使得网络仅仅输出单种物体的坐标和概率(选框层级上的和像素层级上的),从而加强了图书识别和分割的准确率。
步骤B、调取合成的训练数据,所述训练数据为书架图像,该书架图像中的每个图书书脊的图像均标记有坐标信息,每个所述书脊的形状对应一个直方图;
需要说明的是,在训练数据采集方面由于图书的形状在一定范围内变化,而且本发明的目标是解决固定场景下(书架上)的图书识别问题,本发明采集的数据主要是书脊的图像数据,然后使用书脊的图像数据合成书架的图像数据,使用这些合成的数据来对修改后的Mask R-CNN深度学习模型训练。本发明在书脊形状的选择上做了一定的优化,优化的细节如下所述,首先根据书脊的形状(高宽比),按照一定的间距(比如0.01)做出对应的直方图,统计不同高宽比的书本的整个书架图书中的占比,然后按照这个占比的倒数为权重,对书本进行采样。通过这个方法,能够均匀的采样到不同高宽比的书本图像数据,使得训练生成的模型能够更好的预测书脊的位置和形状。
步骤C、使用所述训练数据对调取的Mask R-CNN深度学习模型进行训练。
需要说明的是,所述Mask R-CNN深度学习模型在训练时,当所述Mask R-CNN深度学习模型输出多个候选框时,将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。
需要说明的是,Mask R-CNN深度学习模型需要产生一定的选框作为预处理的侯选框,在本发明中,算法会根据图书的形状对预处理候选框进行一定的筛选,其筛选的方法如下,按照前面的数据采集时书脊的形状高宽比作为依据,然后筛选掉不在这个直方图范围内的选框,这样的话选框的分布就可以尽可能的贴近图书的形状分布,从而提高了图像识别的准确率。
如图2所示,所述步骤3提取每个图书特征信息,根据图书特征信息,识别出图书对应的图书信息,包括以下步骤:
步骤a、取一个预置数据库中的图像2;
步骤b、将Mask R-CNN深度学习模型截取到书脊的图像1和预置数据库中的图像2输入Siamese网络,通过两个相同的ResNet50深度学习模型分别对图像1和图像2提取特征1和特征2;
步骤c、计算特征1和特征2的相似度,若大于阈值,则输出图像2对应的图书信息,若不大于阈值,则调取预置数据库中的下一个图像2执行步骤a到步骤c。
特征提取时,将图书书脊的图像输入ResNet50深度学习模型,取ResNet50深度学习模型计算得到的全连接层前面最后一层的向量输出,输出的特征向量为图书特征信息。所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。通过池化运算可缩减向量的维度,加快计算速度。
相似度计算时,计算相似度的公式使用的是L2距离,如下公式所示:
Figure BDA0002874356310000051
L2距离越小相似度越高,距离越大相似度越低。
本发明使用时,在相机拍摄到书架图像后,首先会根据改进后Mask R-CNN深度学习模型得到书脊的位置,以及书脊的图像,然后通过书脊的图像计算向量特征,接下来跟预置数据库中的向量特征进行比对,寻找得到特征属于哪一本书。具体比对的搜索算法描述如下。
对算法建立搜索数。其主要原理是根据某一分布(如均匀随机分布),产生分割平面的向量,假设这个向量为u,则可以根据这个向量把所有的输入特征分成两类,一类和向量点积大于零,一类和向量点积小于零。如下公式所示。如:u·v1>0,u·v2<0
不断的产生随机向量,并且对特征向量的种类进行分割,直到二叉搜索树达到一定深度或者满足一定的分割条件(如叶子结点达到一定的数目)。
根据输入的特征向量在该二叉搜索树中搜索和输入向量最接近的向量。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (7)

1.一种基于深度学习的图书定位和识别方法,其特征在于:包括以下步骤:
步骤1、获取书架图像;
步骤2、识别书架图像中每个图书的位置信息;
步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。
2.按照权利要求1所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述步骤2,包括以下步骤:
调取预训练好的Mask R-CNN深度学习模型;所述Mask R-CNN深度学习模型为预先经过以下操作后的模型:修改所述Mask R-CNN深度学习模型最后一层的全连接层或1x1的卷积层,使Mask R-CNN深度学习模型的输出为单种物体的坐标和概率;
使用调取的Mask R-CNN深度学习模型识别书架图像中每个图书书脊的图像的位置信息。
3.按照权利要求2所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述预训练好的Mask R-CNN深度学习模型,训练时包括以下步骤:
调取已经过修改的Mask R-CNN深度学习模型;
调取合成的训练数据,所述训练数据为书架图像,该书架图像中的每个图书书脊的图像均标记有坐标信息,每个所述书脊的形状对应一个直方图;
使用所述训练数据对调取的Mask R-CNN深度学习模型进行训练。
4.按照权利要求3所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述Mask R-CNN深度学习模型在训练时,当所述Mask R-CNN深度学习模型输出多个候选框时,将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。
5.按照权利要求1所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述步骤3提取每个图书特征信息,包括以下步骤:
调取ResNet50深度学习模型;
将图书书脊的图像输入ResNet50深度学习模型,取ResNet50深度学习模型计算得到的全连接层前面最后一层的向量输出,输出的特征向量为图书特征信息。
6.按照权利要求5所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。
7.按照权利要求1所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述步骤3根据图书特征信息,识别出图书对应的图书信息,包括以下步骤:
使用Siamese网络在预置数据库中搜索与识别出的图书特征信息相似度大于阈值的特征信息;
根据预置数据库中搜索出的特征信息,查询对应的图书信息输出。
CN202011609868.3A 2020-12-30 2020-12-30 一种基于深度学习的图书定位和识别方法 Pending CN112686157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011609868.3A CN112686157A (zh) 2020-12-30 2020-12-30 一种基于深度学习的图书定位和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011609868.3A CN112686157A (zh) 2020-12-30 2020-12-30 一种基于深度学习的图书定位和识别方法

Publications (1)

Publication Number Publication Date
CN112686157A true CN112686157A (zh) 2021-04-20

Family

ID=75454948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011609868.3A Pending CN112686157A (zh) 2020-12-30 2020-12-30 一种基于深度学习的图书定位和识别方法

Country Status (1)

Country Link
CN (1) CN112686157A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241374A (zh) * 2018-06-07 2019-01-18 广东数相智能科技有限公司 一种图书信息库更新方法及图书馆书籍定位方法
CN110781928A (zh) * 2019-10-11 2020-02-11 西安工程大学 一种提取图像多分辨率特征的图像相似度学习方法
CN111044525A (zh) * 2019-12-30 2020-04-21 歌尔股份有限公司 一种产品缺陷检测方法、装置与系统
CN111797939A (zh) * 2020-07-20 2020-10-20 天津中德应用技术大学 基于小波分析的无人图书馆深度学习智能识别系统与方法
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN111898555A (zh) * 2020-07-31 2020-11-06 上海交通大学 基于图像与文本的图书盘点识别方法、装置、设备及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241374A (zh) * 2018-06-07 2019-01-18 广东数相智能科技有限公司 一种图书信息库更新方法及图书馆书籍定位方法
CN110781928A (zh) * 2019-10-11 2020-02-11 西安工程大学 一种提取图像多分辨率特征的图像相似度学习方法
CN111044525A (zh) * 2019-12-30 2020-04-21 歌尔股份有限公司 一种产品缺陷检测方法、装置与系统
CN111797939A (zh) * 2020-07-20 2020-10-20 天津中德应用技术大学 基于小波分析的无人图书馆深度学习智能识别系统与方法
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN111898555A (zh) * 2020-07-31 2020-11-06 上海交通大学 基于图像与文本的图书盘点识别方法、装置、设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘忠雨: ""深入浅出图神经网络 GNN原理解析"", 《深入浅出图神经网络GNN原理解析》 *

Similar Documents

Publication Publication Date Title
CN111241931B (zh) 一种基于YOLOv3的空中无人机目标识别和跟踪方法
CN110363047B (zh) 人脸识别的方法、装置、电子设备和存储介质
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及系统
CN105069457B (zh) 图像识别方法和装置
CN110399895A (zh) 图像识别的方法和装置
CN106557728B (zh) 查询图像处理和图像检索方法和装置以及监视系统
CN111814690B (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN110309810B (zh) 一种基于批次中心相似度的行人重识别方法
US20240203097A1 (en) Method and apparatus for training image processing model, and image classifying method and apparatus
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
CN115527102A (zh) 基于轮廓关键点和注意力机制的鱼类种类识别方法及系统
CN115393666A (zh) 图像分类中基于原型补全的小样本扩充方法及系统
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN109359530B (zh) 一种智能视频监控方法及装置
CN113129332A (zh) 执行目标对象跟踪的方法和装置
CN111353385A (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN113963295A (zh) 视频片段中地标识别方法、装置、设备及存储介质
CN114445691A (zh) 模型训练方法、装置、电子设备及存储介质
CN116704490B (zh) 车牌识别方法、装置和计算机设备
CN114627339A (zh) 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN113743251B (zh) 一种基于弱监督场景的目标搜索方法及装置
CN112686157A (zh) 一种基于深度学习的图书定位和识别方法
CN113065559B (zh) 图像比对方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210420

RJ01 Rejection of invention patent application after publication