CN104966081B

CN104966081B - 书脊图像识别方法

Info

Publication number: CN104966081B
Application number: CN201510304343.1A
Authority: CN
Inventors: 吴蔚; 傅海海; 肖毅灵; 夏书予; 殷策
Original assignee: Guangzhou Meishi Information Technology Co Ltd
Current assignee: Guangzhou Meishi Information Technology Co Ltd
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2018-05-01
Anticipated expiration: 2035-06-04
Also published as: CN104966081A

Abstract

本发明公开了书脊图像识别方法，该方法首先切割书脊图像：检测书脊图像中的长线段，并找出其中的平行线段组作为矩形选定区域的一组平行长边；在一组平行长边固定的情况下，使用迭代算法确定矩形选定区域的另外两条短边，以所检测的由所述一组平行长边及两条短边组成的矩形选定区域作为书脊图像中书脊的切割结果；对切割后的书脊图像，使用特征提取算法，将书脊图像抽象成一组包含图像关键点主方向、尺度空间和Haar小波特征系数的描述符；通过所述描述符在书脊图像数据库中对书脊图像进行特征匹配，输出所待匹配书脊图像对应的几种可能书脊图像。解决了现有书脊图像识别技术准确率低，易受干扰，鲁棒性差的技术问题。

Description

书脊图像识别方法

技术领域

本发明涉及图像处理技术，具体涉及应用图像处理技术进行书脊图像识别的方法。

背景技术

传统的书脊识别技术通常使用HOUGH变换检测直线的方法对书脊进行切割，这种方法每次只能切割5～6本图书，并且当书本摆放不齐时，会造成切割失败。可见，传统书脊切割技术具有效率低、鲁棒性差的缺点。近年来，有人提出使用直线检测算法对书脊边缘进行检测，而在后续的迭代运算中却未使用所检测到的直线作为先验知识，造成计算的冗余，使算法的计算量大大增加，算法的计算时间过长，从而大大增加了算法在现实中的应用难度。另外，现有技术的一些书脊切割算法，仅仅考虑了书脊边缘的两条平行线来进行切割，当图像质量不高时，或纵向边缘模糊时，极易造成误判，准确率低。

另一方面，现有技术对书脊图像进行匹配时，一般使用传统的基于BoVW的匹配算法，该匹配算法虽然在小范围的图像匹配的准确率较高，但在大规模的数据库匹配中，明显具有速度慢以及抗干扰能力差等缺点。

发明内容

本发明提出一种书脊图像识别方法，以解决现有技术准确率低，易受干扰，鲁棒性差的技术问题。

本发明采用如下技术方案：书脊图像识别方法，包括以下步骤：

S1、切割书脊图像：检测书脊图像中的长线段，并找出其中的平行线段组作为矩形选定区域的一组平行长边；在一组平行长边固定的情况下，使用迭代算法确定矩形选定区域的另外两条短边，以所检测的由所述一组平行长边及两条短边组成的矩形选定区域作为书脊图像中书脊的切割结果；

S2、对切割后的书脊图像，使用特征提取算法，将书脊图像抽象成一组包含图像关键点主方向、尺度空间和Haar小波特征系数的描述符；

通过所述描述符在书脊图像数据库中对书脊图像进行特征匹配，输出所待匹配书脊图像对应的几种可能书脊图像。

优选地，所述书脊图像识别方法，还包括以下步骤：S3、对步骤S2所输出的几种可能书脊图像进行文字识别，输出ISBN库中根据每张书脊图片对应检索所得的书籍信息。

所述步骤S1对书脊图像进行切割，步骤如下：

S11、确定种子点及其初始方向：检测书脊图像的边缘线段，滤除长度不满足经验阈值T的短线段，保留长度大于或等于T的长线段；在距离长线段两侧若干像素点位置处，每隔几个像素点取一个种子点；设长线段方向为v，长线段法线方向为v_⊥，v和v_⊥为种子的初始方向；

S12、检测矩形：设初始种子点S(s_x，s_y)和该种子点的初始方向v、v_⊥，则矩形的四个顶点P₁₂、P₂₃、P₃₄和P₄₁由该种子点到矩形四条边的距离D₁、D₂、D₃和D₄确定；当矩形四条边e₁、e₂、e₃和e₄上的像素点e(p)与书脊图像中对应点的梯度▽I(p)的夹角积分小于经验阈值T₁时，即I表示当前待检测的书脊图像，|e|为矩形的对应边长，则矩形四条边e₁、e₂、e₃、e₄停止生长，完成对矩形的检测。

所述步骤S2包括以下粗匹配过程：

S21、特征提取：将训练图像用若干块patch表示，求取训练图像的SIFT关键点，每个关键点就是一个维数为n的特征向量patch；假设X表示一幅训练图像的特征向量，X_i(i＝1,2...m)表示第i个维数为n的特征向量patch，X_i＝[x_i1x_i2x_i3…x_in]；

S22、字典构建：假设共有M(X¹X²...X^M)幅训练图像，字典的大小为m；用K-means算法对所有特征向量patch进行聚类，当K-means算法收敛时，得到每一个聚类的最终质心，K-means算法中的K大小取值为m；该m个n维数的质心为字典W里的m个单词，即(W₁W₂…Wm)；

S23、字典表示：为每幅测试图像初始化一个维数为m，每一维值都为0的直方图；计算测试图像中每个特征向量patch(X′_i)与字典W中单词(W_i)的距离，与特征向量patch距离最近的单词，其对应直方图的d_i(i＝1,2…m)计数加1；将所有特征向量patch计算完毕后的直方图，即为测试图像的字典表示；假设X′表示一幅测试图像的特征向量，X′₁对应的m维初始值0的直方图为H；

d₁,d₂…d_m分别表示X′₁和W₁、W₂…W_m之间的m维欧式距离，d是d₁,d₂…d_m中的最小值，Dist(·)函数表示输入X′₁和W_i之间的n维欧式距离，当i＝1时，Dist(·)函数的计算公式为：

若d＝d₁，则H[d]＝H[d₁]对应的数值加1；

S24、图像检索：训练图像与测试图像都以m维向量表示，对每个待检索图像在字典中计算所有训练图像与其之间的距离，返回距离较近的若干训练图像。

所述步骤S2包括以下精匹配过程：

S25、提取关键点：对粗匹配所返回距离较近的训练图像I提取关键点，x表示图像I在(x,y)位置处的强度值，对图像I的每个像素点用海森矩阵检测关键点：

其中，L_xx(x,σ)、L_yy(x,σ)和L_xy(x,σ)表示高斯函数在x方向、y方向以及x和y方向的二阶导数，g(·)表示高斯函数；x在缩放比例为σ的海森矩阵为H(x,σ)，其行列式用det|H(x,σ)|表示；用det|H_approx|近似计算det|H(x,σ)|：

det(H_approx)＝D_xxD_yy-(0.9·D_xy)²

其中D_xx、D_yy和D_xy分别表示采用水平方向M_x、垂直方向M_y和对角方向M_xy模板进行高斯函数二阶差分运算所得的差分值；

S26、利用Haar小波在水平方向和垂直方向的特征系数估计关键点的主方向；在估计获取关键点主方向的前提下，利用关键点主方向正方形区域内像素点在水平方向和垂直方向的Haar小波的特征系数，生成SURF描述符；

S27、在书脊图像库中，通过两幅图像之间特征点的两两比较找出相互匹配的若干对特征点，建立书脊图像之间的对应关系。

步骤S26中利用Haar小波在水平方向和垂直方向的特征系数估计关键点的主方向为：首先，统计关键点的领域中，扇形内所有像素点在水平方向和垂直方向的Haar小波的特征系数总和；接着，所述扇形以固定的间隔旋转，每旋转一次计算一次扇形区域内所有像素点的Haar小波的特征系数的和；最后，将Haar小波的特征系数之和最大的那个扇形所指的方向作为关键点的主方向。

步骤26中所述关键点的领域为半径为6s的圆圈，正方形的边长为4s，s为关键点所在的尺度空间，将正方形区域划分为16个子区域，每个子区域统计25个像素点在水平方向和垂直方向的Haar小波的特征系数，包括水平方向值之和Σdx，水平方向绝对值之和Σd|x|，垂直方向之和Σdy和垂直方向绝对值之和Σd|y|；扇形为60°扇形。

步骤27匹配的过程为：采用双向FLANN算法找到最近距离的匹配点对，通过FLANN算法找到图像I₁某特征点m₁在图像I₂的最小距离对应点作为初始化匹配点对(m₁,m₂)，然后根据所有匹配点对的距离计算最小距离，设置阈值T₂，如果该匹配点对的最小距离小于T₂，则m₂作为m₁的候选匹配点；否则，进行图像I₁的下一个特征点的匹配，并剔除m₁，得到I₁到I₂的FLANN匹配点对；同理求得I₂到I₁的FLANN匹配点对；判断在I₂中与m₂匹配的候选点m₃，如果m₁＝m₃，则匹配成功，否则剔除；

采用SAC算法从匹配结果的特征点集中抽样获得和原始数据一致的基本子集，然后利用获得的基本子集估算出基础矩阵，最后利用基础矩阵剔除误差较大的匹配点对。

优选地，在所述步骤S1切割书脊图像前，首先将多层书架分割成单层书架，然后再对单层书架的书脊图像采用步骤S1进行切割；分割多层书架的步骤如下：

首先检测多层书架图像中的水平长线段，并且设置一个长度阈值检测出书架隔板的位置信息；再通过书架隔板为平行长线段这一先验知识，通过透视变换将多层书架分割成单层书架。

与现有技术相比，本发明具有如下技术效果：

1、本发明进行书脊切割时采用基于活动轮廓的算法：首先，检测出书脊图像中的长线段，并找出其中的平行线段组；在一组平行长边固定的情况下，使用迭代算法对矩形的另外两条短边进行迭代计算。从而能在保证切割准确率的情况下，大大减少迭代运算的计算量。

2、针对中文图书的书脊图像特征，即中文图书的书脊中大部分内容为中文字、少部分为图画，以及中文文字相对于英文文字的线条直角转折较多的先验知识，提出了将SURF(Speeded Up Robust Features)与特征点匹配相结合的视觉特征提取算法，提高了OCR文字识别和书脊视觉特征匹配的准确率与鲁棒性。

3、对大规模数据库的搜索和查找进行了优化，使用基于LIRE(Lucene ImageRetrieval)的大规模图像搜索引擎，提高了匹配算法查找速度；增加了机器学习算法，极大提高了数据库搜索的准确性，提高了算法的抗干扰能力。

附图说明

图1为本发明一种实施例的识别流程图；

图2为本发明一种实施例中种子点与长线段的相对位置关系示意图；

图3示意了矩形检测的几何图形；

图4示意了粗匹配中特征提取与字典构建之间的关系图；

图5为高斯函数二阶差分运算所采用的水平方向M_x、垂直方向M_y和对角方向M_xy模板的像素点分布图；

图6为书脊图像特征匹配过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的具体实施方式不局限于此。

实施例

参见图1，本实施例中，书脊图像识别方法的步骤如下：

一、获取书脊图像

可采用移动智能终端拍摄书脊，获得书脊图像；拍摄环境要求光照充足，无明显遮挡，每本书脊的像素数目不小于1000像素。

二、书脊图像分割

对书脊图像的识别，在本实施例中通过图像处理模块和识别匹配模块来完成。对书脊图像进行识别之前，首先是对书脊图像进行分割，然后对分割后的书脊图像进行书脊视觉特征提取，最后利用提取的书脊视觉特征信息，结合ISBN库和书脊图像库进行OCR文字识别和书脊视觉特征匹配。

对书脊图像切割时，本实施例中采用基于活动轮廓(active contour)的书脊切割算法：先检测出书脊图像中的长线段，并找出其中的平行线段组；在一组平行长边固定的情况下，使用迭代算法确定矩形的另外两条短边，以所述一组平行长边及所确定的两条短边所组成的矩形区域，作为书脊图像切割区域。在保证图像清晰度的前提下，基于活动轮廓的书脊切割算法能够对多层图书的书脊进行切割，从而极大的提高了书脊图像识别系统的效率，并且能克服拍摄角度和书本摆放等因素对书脊图像切割的影响，从而提高了系统的鲁棒性。对书脊图像切割前，首先对多层书架进行分割，然后再对单层书架书脊图像进行分割。

1.多层书架的分割

根据先验知识，书架的隔板通常为一组平行的长线段，或者为经过透视变换的平行的长线段，而且书架的隔板通常远远大于单本书脊的边缘长度。所以通过检测图像中的水平长线段，并且设置一个长度阈值就能够很好的检测出书架隔板的位置信息。再通过书架隔板为平行长线段这一先验知识，就能通过透视变换将多层书架分割成单层书架。

2.单层书架书脊图像的分割

根据先验知识，单本书的书脊图像为一个矩形图像，或者为经过透视变换的矩形图像。本实施例基于活动轮廓的书脊切割算法步骤如下所示：

①种子点及初始方向的确定

对单层书架的书脊图像使用LSWMS(Slice Sampling Weighted Mean-Shift)方法检测边缘线段，滤除长度不满足经验阈值T(例如T＝50)的短线段，保留长度大于或等于T的长线段。设长线段方向为v，长线段法线方向(即与长线段方向相垂直的方向)为v_⊥，v和v_⊥为矩形的初始方向。在距离长线段两侧若干(例如10个)像素点位置处，每隔几个(例如10个)像素点取一个种子点，如图2所示。种子点的初始方向与矩形的初始方向相同。

②矩形的检测

参见图3，给定一个初始种子点S(s_x，s_y)和该种子点的初始方向v、v_⊥，则矩形的四个顶点P₁₂、P₂₃、P₃₄和P₄₁由该种子点到矩形四条边的距离D₁、D₂、D₃和D₄确定。当矩形四条边e₁、e₂、e₃和e₄上的像素点e(p)与图像中对应点的梯度▽I(p)的夹角积分小于经验阈值T₁(例如T₁＝20)时，即I表示当前待检测单本书的书脊图像，|e|为矩形的对应边长，则矩形四条边e₁、e₂、e₃、e₄停止生长。当四条边都停止生长时，算法结束，完成对矩形的检测。

三、书脊视觉特征提取和书脊视觉特征匹配

书脊视觉特征指的是对切割后的书脊图像，使用特征提取算法，将书脊图像抽象成一组包含图像关键点主方向、尺度空间和Haar小波(Haar-wavelet)特征系数的描述符(Descriptor)；通过这组描述符能够对书脊图像进行特征匹配，这组描述符就是书脊视觉特征。

1.BOW(Bag of words)粗匹配

①特征提取

在训练阶段，将训练图像用若干“块(patch)”表示。以图像的SIFT(Scale-invariant Feature Transform)特征为例，求取训练图像的SIFT关键点，每个关键点就是一个维数为n的特征向量patch。假设X表示一幅训练图像的特征向量，X_i(i＝1,2...m)表示第i个维数为n的特征向量patch，X_i＝[x_i1x_i2x_i3…x_in]。

③字典构建

假设共有M(X¹X²...X^M)幅的训练图像，字典的大小为m。用K-means算法对所有的特征向量patch进行聚类，当K-means算法收敛时，将得到每一个聚类的最终质心，K-means算法中的K大小取值为m。这m个n维数的质心就是字典W里的m个单词，即(W₁W₂…W_m)，如图4所示，其中T表示矩阵向量的转置。

④字典表示

在测试阶段，为每幅测试图像初始化一个维数为m，每一维值都为0的直方图。计算测试图像中每个特征向量patch(X′_i)与字典W中单词(W_i)的距离，与特征向量patch距离最近的单词，其对应直方图的d_i(i＝1,2…m)计数加1。将所有特征向量patch计算完毕后的直方图，即为测试图像的字典表示。假设X′表示一幅测试图像的特征向量，以X′₁为例，其对应的m维初始值0的直方图为H。

d₁,d₂…d_m分别表示X′₁和W₁、W₂…W_m之间的m维欧式距离，d是d₁,d₂…d_m中的最小值。Dist(·)函数表示输入X′₁和W_i之间的n维欧式距离，当i＝1时，Dist(·)函数的计算公式为：

若d＝d₁，则H[d]＝H[d₁]对应的数值加1。

⑤图像检索

训练图像与测试图像都以m维向量表示，对每个待检索图像，只需在字典中计算所有训练图像与其距离，并返回距离从小到大排序后前10幅的训练图像即可。

其中，采用基于开源库LIRE的大规模图像搜索引擎对书脊图像库中图像进行检索，以提高匹配算法查找的速度。

2.SURF精匹配

粗匹配返回的前10幅训练图像作为精匹配的输入图像，精匹配输出的图像结合其OCR文字识别的结果，返回最终的书籍信息至移动智能终端。

①提取关键点

假设对粗匹配所返回距离较近的训练图像I提取关键点，x表示图像I在(x,y)位置处的强度值，对图像I的每个像素点用海森矩阵(Hessian matrix)检测关键点。

det(H_approx)＝D_xxD_yy-(0.9·D_xy)²

其中D_xx、D_yy和D_xy分别表示采用水平方向M_x、垂直方向M_y和对角方向M_xy模板进行高斯函数二阶差分运算所得的差分值，M_x、M_y和M_xy模板中，浅灰色的像素点设置为零，如图5所示。

②对关键点附加主方向、Haar小波的特征系数，生成SURF描述符

一方面，利用Haar小波在水平方向和垂直方向的特征系数估计关键点的主方向。首先，统计关键点的领域(如半径为6s的圆圈，s为关键点所在的尺度空间)中，60°(π/3)扇形内所有像素点在水平方向和垂直方向的Haar小波的特征系数总和。其中，Haar小波的边长为4s，s为关键点所在的尺度空间。接着，60°扇形以固定的间隔(比如60°)旋转，每旋转一次计算一次扇形区域内所有像素点的Haar小波的特征系数的和。最后，将Haar小波的特征系数之和最大的那个扇形所指的方向作为关键点的主方向。

另一方面，在估计获取关键点主方向的前提下，利用关键点主方向正方形区域内像素点在水平方向和垂直方向的Haar小波的特征系数，生成SURF描述符。其中，Haar小波的边长即正方形区域的边长为4s，s为关键点所在的尺度空间。将方形区域划分为16个子区域，每个子区域统计25个像素点在水平方向和垂直方向的Haar小波的特征系数，包括水平方向值之和Σdx，水平方向绝对值之和Σd|x|，垂直方向之和Σdy和垂直方向绝对值之和Σd|y|。

③在书脊图像库中，通过两幅图像之间特征点的两两比较找出相互匹配的若干对特征点，建立单本书的书脊图像之间的对应关系，如图6所示。本实施例采用图像匹配算法进行匹配：

1)采用双向FLANN算法找到最近距离的匹配点对。通过FLANN算法找到图像I₁某特征点m₁在图像I₂的最小距离对应点作为初始化匹配点对(m₁,m₂)，然后根据所有匹配点对的距离计算最小距离，设置阈值T₂，阈值T₂取值范围5～7。如果该匹配点对的最小距离小于T₂，则m₂作为m₁的候选匹配点；否则，进行图像I₁的下一个特征点的匹配，并剔除m₁，得到I₁到I₂的FLANN匹配点对。同理可以求得，I₂到I₁的FLANN匹配点对。对在I₂中与m₂匹配的候选点m₃进行判断。如果m₁＝m₃，则匹配成功；否则剔除。

2)采用PROSAC算法从匹配结果的特征点集中抽样获得和原始数据一致的基本子集，然后利用获得的基本子集估算出基础矩阵，最后利用基础矩阵剔除误差较大的匹配点对。

假设m,m’是左右图像中的一对正确匹配点对，则点m和点m’所对应的齐次坐标有如

下关系：m’^T·F·m＝0其中，F是3x3的基础矩阵。

书脊图像库预先通过图像采集设备(如单反相机)来采集建立，书脊图像库中包含了书籍的多张书脊图片以及书籍所对应的UUID(通用唯一标识码)。两个数据库通过UUID建立起书脊与其图书的结构化信息链接。通过书脊视觉特征提取和书脊图像库匹配步骤，输出所待匹配书脊图像对应的几种可能书脊图像和这些书脊图像相应的UUID。

四、书脊文字识别(OCR)

OCR是优化本发明书脊图像识别方法的步骤，即从书脊视觉特征匹配输出的几种可能的书脊图像中，结合它们各自的OCR识别结果，返回书脊对应的书籍信息到移动智能终端。

在线数据库除了书脊图像库，还包括ISBN库。ISBN库包含了所有书籍的基本信息，分别是：书名、ISBN号、作者名、出版社名、封面以及UUID。当移动终端提取到多张书脊图片后，即可通过ISBN库识别出每本书籍的书名、ISBN号、作者名、出版社名、封面。

本实施例中采用书脊文字识别技术，以便对根据书脊图像库的匹配输出结果进行整合，一方面，书脊视觉特征匹配输出的几种可能的书脊图像，它们都各自带有UUID；另一方面，将它们分别进行OCR文字识别的结果也都各自带有UUID。当它们其中一幅书脊图像的UUID和OCR文字识别输出的UUID一样时，则返回该书脊图像所对应的ISBN库中存储的书名、ISBN号、作者名、出版社名和封面等信息。

书脊文字识别的步骤为：

①、根据从书脊图像的分割中获取单本书的矩形书脊图片，利用Google Project开源项目Tesseract对矩形书脊图像进行文字识别，提取字符信息；

②、依据从矩形书脊图像中提取的字符信息，输出ISBN库中根据每张书脊图片对应检索所得的书籍信息，包括ISBN、作者名称和出版社名称等。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不限定于此，从事该领域的技术人员在未背离本发明精神和原则下所做的任何组合、替换、修改、改进，均包含在本发明的保护范围内。

Claims

1.书脊图像识别方法，其特征在于，包括以下步骤：

通过所述描述符在书脊图像数据库中对书脊图像进行特征匹配，输出所待匹配书脊图像对应的几种可能书脊图像；

所述步骤S1对书脊图像进行切割，步骤如下：

S12、检测矩形：设初始种子点S(s_x，s_y)和该种子点的初始方向v、v_⊥，则矩形的四个顶点P₁₂、P₂₃、P₃₄和P₄₁由该种子点到矩形四条边的距离D₁、D₂、D₃和D₄确定；当矩形四条边e₁、e₂、e₃和e₄上的像素点e(p)与书脊图像中对应点的梯度的夹角积分小于经验阈值T₁时，即I表示当前待检测的书脊图像，|e|为矩形的对应边长，则矩形四条边e₁、e₂、e₃、e₄停止生长，完成对矩形的检测。

2.根据权利要求1所述的书脊图像识别方法，其特征在于，还包括以下步骤：

S3、对步骤S2所输出的几种可能书脊图像进行文字识别，输出ISBN库中根据每张书脊图片对应检索所得的书籍信息。

3.根据权利要求1所述的书脊图像识别方法，其特征在于，所述步骤S2包括以下粗匹配过程：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>X</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msubsup> <mi>X</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <msubsup> <mi>X</mi> <mn>2</mn> <mo>&prime;</mo> </msubsup> <mo>...</mo> <msubsup> <mi>X</mi> <mi>m</mi> <mo>&prime;</mo> </msubsup> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msubsup> <mi>x</mi> <mn>11</mn> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <msubsup> <mi>x</mi> <mn>12</mn> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <msubsup> <mi>x</mi> <mn>13</mn> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msubsup> <mi>x</mi> <mrow> <mn>1</mn> <mi>n</mi> </mrow> <mo>&prime;</mo> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>x</mi> <mn>21</mn> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <msubsup> <mi>x</mi> <mn>22</mn> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <msubsup> <mi>x</mi> <mn>23</mn> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msubsup> <mi>x</mi> <mrow> <mn>2</mn> <mi>n</mi> </mrow> <mo>&prime;</mo> </msubsup> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>x</mi> <mrow> <mi>m</mi> <mn>1</mn> </mrow> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <msubsup> <mi>x</mi> <mrow> <mi>m</mi> <mn>2</mn> </mrow> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <msubsup> <mi>x</mi> <mrow> <mi>m</mi> <mn>3</mn> </mrow> <mo>&prime;</mo> </msubsup> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msubsup> <mi>x</mi> <mrow> <mi>m</mi> <mi>n</mi> </mrow> <mo>&prime;</mo> </msubsup> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> <mtd> <mrow> <mi>H</mi> <mo>=</mo> <mo>&lsqb;</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>...</mo> <mn>0</mn> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>d</mi> <mo>=</mo> <munder> <mi>min</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2...</mn> <mi>m</mi> </mrow> </munder> <mo>{</mo> <msub> <mi>d</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>d</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>d</mi> <mn>3</mn> </msub> <mo>...</mo> <msub> <mi>d</mi> <mi>m</mi> </msub> <mo>}</mo> <mo>=</mo> <munder> <mi>min</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2...</mn> <mi>m</mi> </mrow> </munder> <mo>{</mo> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <mo>,</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>X</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mo>&lsqb;</mo> <msubsup> <mi>x</mi> <mn>11</mn> <mo>&prime;</mo> </msubsup> <msubsup> <mi>x</mi> <mn>12</mn> <mo>&prime;</mo> </msubsup> <msubsup> <mi>x</mi> <mn>13</mn> <mo>&prime;</mo> </msubsup> <mo>...</mo> <msubsup> <mi>x</mi> <mrow> <mn>1</mn> <mi>n</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

W_i＝[w_i1w_i2w_i3…w_in]

<mrow> <msub> <mi>d</mi> <mn>1</mn> </msub> <mo>=</mo> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <mo>,</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>q</mi> <mi>r</mi> <mi>t</mi> <mrow> <mo>(</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>-</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>)</mo> </mrow> </mrow>

若d＝d₁，则H[d]＝H[d₁]对应的数值加1；

4.根据权利要求3所述的书脊图像识别方法，其特征在于，所述步骤S2包括以下精匹配过程：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>x</mi> <mi>x</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <msub> <mi>L</mi> <mrow> <mi>x</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>x</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <msub> <mi>L</mi> <mrow> <mi>y</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>x</mi> <mi>x</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mo>&part;</mo> <mn>2</mn> </msup> <mi>g</mi> <mrow> <mo>(</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msup> <mi>x</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>y</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mo>&part;</mo> <mn>2</mn> </msup> <mi>g</mi> <mrow> <mo>(</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mrow> <msub> <mi>L</mi> <mrow> <mi>x</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mo>&part;</mo> <mn>2</mn> </msup> <mi>g</mi> <mrow> <mo>(</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>x</mi> <mo>&part;</mo> <mi>y</mi> </mrow> </mfrac> </mrow>

det(H_approx)＝D_xxD_yy-(0.9·D_xy)²

5.根据权利要求4所述的书脊图像识别方法，其特征在于，步骤S26中利用Haar小波在水平方向和垂直方向的特征系数估计关键点的主方向为：

首先，统计关键点的领域中，扇形内所有像素点在水平方向和垂直方向的Haar小波的特征系数总和；接着，所述扇形以固定的间隔旋转，每旋转一次计算一次扇形区域内所有像素点的Haar小波的特征系数的和；最后，将Haar小波的特征系数之和最大的那个扇形所指的方向作为关键点的主方向。

6.根据权利要求5所述的书脊图像识别方法，其特征在于，步骤26中所述关键点的领域为半径为6s的圆圈，正方形的边长为4s，s为关键点所在的尺度空间，将正方形区域划分为16个子区域，每个子区域统计25个像素点在水平方向和垂直方向的Haar小波的特征系数，包括水平方向值之和∑dx，水平方向绝对值之和∑d|x|，垂直方向之和∑dy和垂直方向绝对值之和∑d|y|；扇形为60°扇形。

7.根据权利要求4所述的书脊图像识别方法，其特征在于，步骤27匹配的过程为：

采用双向FLANN算法找到最近距离的匹配点对，通过FLANN算法找到图像I₁某特征点m₁在图像I₂的最小距离对应点作为初始化匹配点对(m₁,m₂)，然后根据所有匹配点对的距离计算最小距离，设置阈值T₂，如果该匹配点对的最小距离小于T₂，则m₂作为m₁的候选匹配点；否则，进行图像I₁的下一个特征点的匹配，并剔除m₁，得到I₁到I₂的FLANN匹配点对；同理求得I₂到I₁的FLANN匹配点对；判断在I₂中与m₂匹配的候选点m₃，如果m₁＝m₃，则匹配成功，否则剔除；

采用PROSAC算法从匹配结果的特征点集中抽样获得和原始数据一致的基本子集，然后利用获得的基本子集估算出基础矩阵，最后利用基础矩阵剔除误差较大的匹配点对。

8.根据权利要求1所述的书脊图像识别方法，其特征在于，在所述步骤S1前，还包括步骤：移动智能终端拍摄书脊，获得书脊图像。

9.根据权利要求1所述的书脊图像识别方法，其特征在于，在所述步骤S1切割书脊图像前，首先将多层书架分割成单层书架，然后再对单层书架的书脊图像采用步骤S1进行切割；分割多层书架的步骤如下：