CN109344279A

CN109344279A - 基于哈希检索的手写英文单词智能识别方法

Info

Publication number: CN109344279A
Application number: CN201811519961.8A
Authority: CN
Inventors: 马磊; 陈义学; 陈霞; 张华英
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-02-15
Anticipated expiration: 2038-12-12
Also published as: CN109344279B

Abstract

本发明公开提供了一种基于哈希检索的手写英文单词智能识别方法，包括以下步骤：步骤(1)：提取数据库中每一张手写英文单词图像的视觉特征和标签信息，分别得到对应的视觉特征矩阵和标签信息矩阵；步骤(2)：根据标签信息矩阵计算数据库中图像两两之间的相似性，得到相似性矩阵；步骤(3)：利用视觉特征矩阵、标签信息矩阵和相似性矩阵，获得数据库中每一张手写英文单词图像的哈希码；步骤(4)：根据获得的哈希码，学习视觉特征到哈希码的映射，即哈希函数；步骤(5)：读取待检索的手写英文单词图像，利用哈希码检索数据库中图像的哈希码，完成图像识别。

Description

基于哈希检索的手写英文单词智能识别方法

技术领域

本发明涉及字符识别领域，具体涉及一种基于哈希检索的手写英文单词智能识别方法。

背景技术

随着信息技术的飞速发展，机器识别手写字符成为了研究的热门领域，字符识别技术涉及到图像处理、机器学习、模式识别等多个学科，并且广泛应用于手写文档电子化，减少人工录入成本，提高输入效率。

目前应用于脱机手写英文单词识别的主要方法有三类：结构方法、统计方法和神经网络方法。结构方法在实际应用中抗干扰能力差且复杂度高，这种技术已经逐渐衰弱。统计方法有很强的理论基础，其中基于隐马尔科夫模型的统计学方法具有很好的建模能力，对噪声和变形也都有较好的适应性，已经被广泛应用于脱机手写字符的识别中，并取得了不错的成果。近年来，深度学习发展迅速，由于神经网络有较强的学习能力和容错能力，很多基于神经网络的方法被提出，主要分为两大类：基于卷积神经网络的和基于递归神经网络的方法。基于卷积神经网络的方法一般用来做分类任务，利用卷积层提取图片的本质特征，用多层的全连接作为分类器；基于递归神经网络的方法利用递归神经网络考虑时间序列的优势，每一个时间戳生成一个字符，得到的字符序列就是识别结果。

但是，当前采用的脱机手写英文单词识别方法均存在手写单词形状严重变形等问题，脱机手写字符识别一直以来都是字符识别领域中的一个重点和难点。另外，基于检索的手写英文单词识别中需要对单词图库进行检索对比，而且数据量巨大，传统的检索方法往往难以保证实时性。

发明内容

针对以上问题，本发明的目的在于提供一种基于哈希检索的手写英文单词智能识别方法。基于哈希学习的检索在计算机视觉、机器学习、信息检索及相关领域已经得到了广泛的应用。哈希学习方法将文档、图片、视频或者其他类型的数据编码成二进制码，实际上是将数据从原始空间映射到海明空间中并且保持原始数据的相似性。有了二进制码，由于在同一空间中成对比较的高效性，最近邻搜索的任务可以在大规模数据集上进行。

本发明为实现上述目的，通过以下技术方案实现：一种基于哈希检索的手写英文单词智能识别方法，包括以下步骤：

步骤(1)：提取数据库中每一张手写英文单词图像的视觉特征和标签信息，分别得到对应的视觉特征矩阵和标签信息矩阵；

步骤(2)：根据标签信息矩阵计算数据库中图像两两之间的相似性，得到相似性矩阵；

步骤(3)：利用视觉特征矩阵、标签信息矩阵和相似性矩阵，获得数据库中每一张手写英文单词图像的哈希码；

步骤(4)：根据获得的哈希码，学习视觉特征到哈希码的映射，即哈希函数；

步骤(5)：读取待检索的手写英文单词图像，利用哈希码检索数据库中图像的哈希码，完成图像识别。

进一步，所述步骤(1)的具体过程为：

步骤(1.1)：假设有n幅手写英文单词图像，对每幅图像提取d维的视觉特征，使用了预训练好的VGG-19中conv5_4层的输出作为提取的图片特征，得到一个n×d视觉特征数据矩阵X＝[x₁，x₂，...，x_n]∈R^n×d，其中n表示实例的数量，d表示特征维度，c表示类别数；

步骤(1.2)：对n幅手写英文单词图像进行标注，得到标签信息矩阵L＝[l₁，l₂，...，l_n]∈R^n×c，其中n表示实例的数量，d表示特征维度，c表示类别数；具体包括：采取人工的方式对数据进行类别标注，然后对所标注的结果进行筛选和统一；假设标注后数据集的所有图像一共有c个标签，每个标签对应一个单词，每幅图像的监督信息可以表示为c维的向量；如果该手写英文单词图像属于某个标签，那么该标签向量中对应位置为1，否则为0。

进一步，所述步骤(3)包括：

步骤(3.1)：利用视觉特征矩阵、标签信息矩阵和相似性矩阵，设计哈希函数；

步骤(3.2)：根据哈希函数设计优化算法，获得数据库中每一张手写英文单词图像的哈希码。

进一步，步骤(3.1)具体包括：首先考虑哈希码是原始数据核化之后通过一个映射矩阵映射而来，即XW；其次考虑嵌入标签信息，即假设标签可以被映射成哈希码，即LG；目标哈希函数为：

s.t.B∈{-1，1}^n×r

其中S为相似性矩阵，L为标签矩阵，W和G都为映射矩阵，T为转置矩阵，B为最终要学习的哈希码，||·||_F表示Frobenius范数，γ为参数，μ、θ均为平衡参数。

进一步，所述步骤(3.2)具体包括：使用迭代算法，每一次迭代分成多步，每一步都固定其他参数更新一个参数，直到收敛或者达到最大迭代次数；其中：每一次迭代分为三个步骤：

步骤(3.2.1)：固定变量B和G，更新变量W；

步骤(3.2.2)：固定变量W和B，更新变量G；

步骤(3.2.3)：固定变量G和W，更新变量B。

进一步，所述步骤(3.2.1)中，当变量B和G固定时，目标哈希函数可以被改写成公式1：

可以通过求公式1导数为零的解得到公式1的闭式解，得到公式2：

W＝C^-1(AG+θX^TB)(G^TDG+θI_r×r)^-1

其中A＝X^TSL，C＝X^TX，D＝L^TL。

进一步，所述步骤(3.2.3)中，当变量G和W固定时，目标哈希函数可以被改写成公式3：

s.t.B∈{-1，1}^n×r.

对于公式3进行如下变换得到公式4：

s.t.B∈{-1，1}^n×r.

其中Tr(·)是迹，由于和是常数，公式4可以进一步简化为公式5：

s.t.B∈{-1，1}^n×r.

因此，B的闭式解如下：

B＝sgn(μLG+θXW)

其中sgn(·)是元素级别的符号函数。

进一步，所述步骤(4)具体包括：利用学得的哈希码学习哈希函数时，需要学习r个二值分类器，r为哈希码长度，每个分类器学习从原始数据到学得的哈希码上每一位的映射，所述二值分类器采用SVM分类器，r个SVM分类器组成了哈希函数。

进一步，所述步骤(5)包括：首先提取待检索的手写英文单词图像的深度视觉特征，使用步骤(4)中学得的哈希函数学得哈希码，检索数据库中的手写英文单词图像，其中海明距离最近的图像为检索结果，该图像对应的单词就是最终的识别结果。

对比现有技术，本发明有益效果在于：

(1)本发明在对数据进行二进制编码的时候充分考虑数据的相似性和标签信息。

(2)本发明提出的目标函数解决了离散优化问题。

(3)本发明提出的优化算法能学习到精确的哈希码并且整体算法收敛速度快，大大减少了训练时间。

(4)本发明将手写英文单词图像转化为哈希码，在保证有效的字符识别率的情况下，使用基于哈希方法的检索大大提升识别效率。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

附图1是本发明的方法流程图。

附图2是本发明的检索过程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做出说明。

如图1所示的一种基于哈希检索的手写英文单词智能识别方法，包括如下步骤：

步骤(1)：提取数据库中每一张手写英文单词图像的视觉特征和标签信息，分别得到对应的视觉特征矩阵和标签信息矩阵。

步骤(1)的具体过程包括：

步骤(1.2)：采取人工的方式对数据进行类别标注，即多人对数据集中的数据进行标注，然后对所标注的结果进行筛选和统一；假设标注后数据集的所有图像一共有c个标签，每个标签对应一个单词，每幅图像的监督信息可以表示为c维的向量。如果该手写英文单词图像属于某个标签，那么该标签向量中对应位置为1，否则为0。通过这种标注方法，得到标签信息矩阵L＝[l₁，l₂，...，l_n]∈R^n×c，其中n表示实例的数量，d表示特征维度，c表示类别数。

步骤(2)：根据标签信息矩阵计算数据库中图像两两之间的相似性，得到相似性矩阵。

所述步骤(2)中的相似性矩阵S∈{-1，1}^n×n定义如下：

当S_ij＝1时，图像i和图像j是相似的，即图像i和图像j有相同的标签；当S_ij＝-1时，图像i和图像j是不相似的，即图像i和图像j没有相同的标签。

步骤(3)：利用视觉特征矩阵、标签信息矩阵和相似性矩阵设计哈希函数。

所述步骤(3)的具体过程为：

对于监督哈希方法，希望得到的r位二进制码：B＝[b₁，b₂，…，b_n]∈{-1，1}^n×r能保持语义相似性，最常使用的目标函数是如式(1)所示用哈希码内积的平方损失来逼近语义相似度矩阵，内积越大说明哈希码的海明距离越小。

s.t.B∈{-1，1}^n×r (1)

其中||·||_F表示Frobenius范数，γ为参数，T为转置矩阵。

然而哈希码是离散的，目标函数(1)的优化是一个离散优化问题，难以解决。通过以下步骤解决离散优化的问题；

步骤(3.1)：考虑哈希码是原始数据核化之后通过一个映射矩阵映射而来，替换公式(1)中的第一个B为XW，其中W∈R^d×r表示映射矩阵；

步骤(3.2)：考虑嵌入标签信息，也就是标签可以被映射成哈希码，替换公式(1)中的第二个B为LG，G∈R^c×r表示映射矩阵。

所述步骤(3.1)中考虑哈希码是原始数据核化之后通过一个映射矩阵映射而来，因此通过定义一个平方损失来保证核化特征映射的质量：

s.t.B∈{-1，1}^n×r (2)

该步骤的目标函数为：

s.t.B∈{-1，1}^n×r (3)

所述步骤(3.2)中在设计目标函数的时候考虑嵌入标签信息，即假设标签可以被映射成哈希码，即LG。虽然相似性矩阵是由标签计算得来的，但是标签仍然保留着更多的信息。本发明哈希学习最终的目标函数为：

s.t.B∈{-1，1}^n×r (4)

步骤(4)：根据哈希函数设计优化算法，获得数据库中每一张手写英文单词图像的哈希码。

步骤(4)针对公式(4)设计了新的优化算法，具体过程如下：

在优化的过程中，本发明使用迭代算法，每一次迭代分成多步，每一步都固定其他参数更新一个参数，直到收敛或者达到最大迭代次数。每一次迭代分为三个步骤：

步骤(4.1)：固定变量B和G，更新变量W。

在步骤(4.1)中，当变量B和G固定时，公式(4)可以被改写成：

可以通过求公式(5)导数为零的解得到公式(5)的闭式解：

W＝C^-1(AG+θX^TB)(G^TDG+θI_r×r)^-1 (6)

其中A＝X^TSL，C＝X^TX，D＝L^TL。值得注意的是，A，C^-1和D是可以在优化之前计算好的。此外，引入中间项A∈R^m×c可以避免相似性矩阵S的直接计算，存储开销从O(n²)减少到O(mc)，其中n是数据量大小，m是特征维度，c是类别数，在实际情况下，mc＜＜n²。中间项是一个常数，可以在训练之前计算好，可以在优化的过程中避免大矩阵乘法和反复计算，提高优化算法的效率。

步骤(4.2)：固定变量W和B，更新变量G。

在步骤(4.2)中，当变量W和B固定时，公式(4)可以重新写作：

相似地，计算公式(7)导数为零的解，得到该问题的闭式解：

G＝D^-1(μL^TB+A^TW)(W^TCW+μI_r×r)^-1 (8)

与步骤(4.1)相似，A，C^-1和D是可以在优化之前计算好的，所以该解的计算也是高效的。

步骤(4.3)：固定变量G和W，更新变量B。

在步骤(4.3)中，当变量G和W固定时，公式(4)变成：

s.t.B∈{-1，1}^n×r. (9)

对于公式(9)进行如下变换：

s.t.B∈{-1，1}^n×r. (10)

其中Tr(·)是迹。由于和是常数，公式(10)可以进一步简化为：

s.t.B∈{-1，1}^n×r. (11)

因此，B的闭式解如下：

B＝sgn(μLG+θXW) (12)

其中sgn(·)是元素级别的符号函数。可以从公式(12)中看出在每次迭代中只需要一个步骤来同时学习所有二进制码。此外，整个优化算法每一步得到的都是闭式解，使得优化收敛速度快，大大提高了优化算法的效率。

步骤(5)：根据获得的哈希码，学习视觉特征到哈希码的映射，即哈希函数。

步骤(5)利用步骤(4)中学得的哈希码学习哈希函数，需要学习r个二值分类器，r为哈希码长度，每个分类器学习从原始数据到学得的哈希码上每一位的映射。在具体实施过程中，分类器的选择可以不同，常用的分类器，如线性分类器，SVM分类器等。

步骤(6)：读取待检索的手写英文单词图像，利用哈希码检索数据库中图像的哈希码，完成图像识别。

如图2所示的检索过程，对于待检索的手写英文单词图像，首先提取该图像的深度视觉特征，在具体实施过程中需要与步骤(1)中提取相同的视觉特征，使用步骤(5)中学得的哈希函数学得哈希码，检索数据库中的手写英文单词图像，其中海明距离最近的图像为检索结果，该图像对应的单词就是最终的识别结果。

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

Claims

1.一种基于哈希检索的手写英文单词智能识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(1)的具体过程为：

步骤(1.1)：假设有n幅手写英文单词图像，对每幅图像提取d维的视觉特征，使用了预训练好的VGG-19中conv54层的输出作为提取的图片特征，得到一个n×d视觉特征数据矩阵X＝[x₁，x₂，...，x_n]∈R^n×d，其中n表示实例的数量，d表示特征维度，c表示类别数；

3.如权利要求1所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(3)包括：

4.如权利要求3所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(3.1)具体包括：首先考虑哈希码是原始数据核化之后通过一个映射矩阵映射而来，即XW；其次考虑嵌入标签信息，即假设标签可以被映射成哈希码，即LG；目标哈希函数为：

s.t.B∈{-1，1}^n×r

其中S为相似性矩阵，L为标签矩阵，W和G都为映射矩阵，T为转置矩阵，B为最终要学习的哈希码，||·||_F表示Frobenius范数，γ为参数，μ、θ为平衡参数。

5.如权利要求3所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(3.2)具体包括：使用迭代算法，每一次迭代分成多步，每一步都固定其他参数更新一个参数，直到收敛或者达到最大迭代次数；其中：每一次迭代分为三个步骤：

步骤(3.2.1)：固定变量B和G，更新变量W；

步骤(3.2.2)：固定变量W和B，更新变量G；

步骤(3.2.3)：固定变量G和W，更新变量B。

6.如权利要求5所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(3.2.1)中，当变量B和G固定时，目标哈希函数可以被改写成公式1：

W＝C^-1(AG+θX^TB)(G^TDG+θI_r×r)^-1

其中A＝XSL，C＝X^TX，D＝L^TL。

7.如权利要求5所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(3.2.3)中，当变量G和W固定时，目标哈希函数可以被改写成公式3：

s.t.B∈{-1，1}^n×r.

对于公式3进行如下变换得到公式4：

s.t.B∈{-1，1}^n×r.

因此，B的闭式解如下：

B＝sgn(μLG+θXW)

其中sgn(·)是元素级别的符号函数。

8.如权利要求1所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(4)具体包括：利用学得的哈希码学习哈希函数时，需要学习r个二值分类器，r为哈希码长度，每个分类器学习从原始数据到学得的哈希码上每一位的映射，所述二值分类器采用SVM分类器，r个SVM分类器组成了哈希函数。

9.如权利要求1所述的一种基于哈希检索的手写英文单词智能识别方法，其特征在于，所述步骤(5)包括：首先提取待检索的手写英文单词图像的深度视觉特征，使用步骤(4)中学得的哈希函数学得哈希码，检索数据库中的手写英文单词图像，其中海明距离最近的图像为检索结果，该图像对应的单词就是最终的识别结果。