CN104504412A

CN104504412A - 一种手写体笔划特征提取和识别方法及系统

Info

Publication number: CN104504412A
Application number: CN201510027888.2A
Authority: CN
Inventors: 张召; 汪笑宇; 李凡长; 张莉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-11-28
Filing date: 2015-01-20
Publication date: 2015-04-08

Abstract

本发明公开了一种手写体笔划特征提取和识别方法，通过引入低秩矩阵恢复和稀疏投影，将手写体图像分解为低秩主成分笔划特征、显著笔划特征和笔划错误。通过凸优化技术，实现主成分特征编码、显著笔划特征提取和笔划自动纠错，并保持显著笔划特征的相似性。得到的稀疏投影不仅可以提取手写体训练样本的显著笔划特征，且可用于测试样本的嵌入和鉴别性特征提取，生成训练集和测试集，再输入最近邻分类器，根据测试样本与训练样本间的相似性和训练样本的类别，得到测试样本的类别信息，得到最准确的手写体识别结果。通过引入低秩和稀疏编码，在得到主成分笔划特征和具鉴别性的显著笔划特征的同时可检测错误的笔划，有效提高了手写体描述和识别能力。

Description

一种手写体笔划特征提取和识别方法及系统

本申请要求申请日为2014年11月28日、申请号为201410709992.5、发明名称为“一种手写体笔划特征提取和识别方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机视觉和图像识别技术领域，更具体的说，是涉及一种手写体笔划特征提取和识别方法及系统。

背景技术

随着计算机技术和智能化的不断发展，离线手写字符识别已经发展成为计算机视觉与模式识别中非常重要的一个研究课题。离线手写体识别通过计算机将纸质图像电子化，然后分析字符图像，获取字符的笔划属性，在办公自动化、机器翻译和笔迹鉴定等领域有着重大的意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。但是抽取笔划特征的过程具有一定难度，到目前为止，离线手写体(本发明中简称手写体)字符识别距实用要求还有一定距离。目前的大部分研究工作都集中在处理笔划特征提取问题，且也已取得一定的成果。但是真实世界中的图像(包括手写体图像)通常可用一个低秩子空间集合进行表征，且手写体图像通常包含破坏、丢失数据，或因书写习惯等原因造成的不规范笔划等问题，因此在考虑笔划特征提取的同时，如何有效修复笔划缺失或不规范的笔划，同时自动定位出错误的笔划也是需要深入探讨的问题。

近年来，一个最具代表性的低秩恢复方法RPCA(Robust PrincipalComponent Analysis)可对原始数据进行精确恢复。当数据缺陷很小时，RPCA可以很大程度地恢复数据，但它本质上是一种直推式(transductive)的方法，只能提取低秩主成分特征，但不能处理样本外数据，且无法解决在线计算问题。为了克服此缺点，RPCA的推广IRPCA(Inductive Robust PrincipalComponent Analysis)被提出。IRPCA目标是通过一个低秩的投影来去除或纠正样本数据中可能含有的错误，但计算低秩投影的过程并未考虑特征间的相似性保持问题。

因此，提供一种集成的手写体字符修复、显著笔划特征提取和识别方法及系统，实现自动定位与检测错误的或不规则的手写体笔划，同时提高手写体字符表征能力与识别的准确度，是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种手写体笔划特征提取和识别方法及系统，以克服现有技术中新数据输入时计算的复杂性及未考虑特征相似性保持的问题。

为实现上述目的，本发明提供如下技术方案：

一种手写体笔划特征提取和识别方法，包括：

对原始训练集中的手写体字符图像数据进行凸优化和特征学习，计算得到可保持相似性的稀疏投影矩阵，提取出训练样本集合的显著笔划特征，对所述低秩主成分特征进行编码，得到低秩主成分特征，同时利用所述笔划错误特征对数据中的笔划进行纠错；

利用所述稀疏投影矩阵，对原始的待识别测试样本集合的具鉴别性的显著性特征进行提取；

将提取出的所述训练样本与测试样本的显著笔划特征输入最近邻分类器模型进行分类，通过相似性比对，得到与测试样本最接近的训练样本，确定待识别的手写体测试样本的识别结果。

优选的，所述原始训练集为可能含有错误笔划的或不规范笔划的手写体向量集合其中，n是手写体样本的维度，N是样本的数量，其中包含有c个类别标签c>2的训练样本集和无任何标签的测试样本集且满足样本数量l+u＝N。

优选的，所述凸优化问题为：

(L^{*}, S^{*}, E^{*}) = \arg \min_{L, S, E} ((1 - β) {| | L | |}_{*} + β {| | S | |}_{1} + ξ \hat{f_{s}} (X) + λ {| | E | |}_{2,1})

s.t.X＝L+SX+E,其中，β∈[0,1]为低秩和稀疏编码的权衡参数，λ>0为依赖于错误或噪音级别的参数；及非负参数ξ表示每一步迭代中显著笔划特征相似性保持的正规化项；||·||_*为核范数，||·||₁为l¹范数，||·||_2,1为l^2,1范数，分别定义如下：

{| | L | |}_{*} = \underset{i}{Σ} σ_{i} (L), {| | S | |}_{1} = \underset{i, j}{Σ} | S_{i, j} |, {| | E | |}_{2,1} = Σ_{j = 1}^{N} \sqrt{Σ_{i = 1}^{N} {({[E]}_{i, j})}^{2}}

其中，∑_iσ_i(L)表示矩阵L的奇异值之和；正规化项定义如下：

\begin{matrix} \hat{f_{s}} (X) = \frac{1}{2} Σ_{i, j = 1}^{N} W_{i, j}^{(t)} d^{2} (\tilde{x_{i}}, \tilde{x_{j}}) = \frac{1}{2} Σ_{i, j = 1}^{N} W_{i, j}^{(t)} Tr (({Sx}_{i} - {Sx}_{j}) {({Sx}_{i} - {Sx}_{j})}^{T}) \\ = Tr (\underset{i}{Σ} {Sx}_{i} (\underset{i}{Σ} W_{i, j}^{(t)}) x_{i}^{T} S^{T} - \underset{i, j}{Σ} {Sx}_{i} W_{i, j}^{(t)} x_{j}^{T} S^{T}) \\ = Tr ({SG}^{(t)} S^{T}) \end{matrix}

其中，Tr(A)为矩阵A的迹，表示表示显著笔划特征Sx_i和Sx_j间的欧式距离平方，即||Sx_i-Sx_j||²；G^(t)＝X(Q^(t)-W^(t))X^T＝XF^(t)X^T是一个对称矩阵；||·||表示l²范数(即欧式距离)；其中采用余弦相似性表征手写体显著笔划特征之间的相似性，即

W_{i, j}^{(t)} = \exp (\cos (θ)),

其中，

\cos (θ) = x_{i}^{T} x_{j} / (| | x_{i} | | \cdot | | x_{j} | |) .

优选的，利用所述稀疏投影矩阵，对原始的待识别测试样本集合的具鉴别性的显著性特征进行提取的过程具体为：

首先将原始的样本数据集合划分为训练集和测试集，所述训练集中包含原始的训练样本，所述测试集中包含测试样本；

根据所述训练集的手写体训练样本进行优化，计算得到可保持特征数据相似性的稀疏投影矩阵

将所述训练样本和测试样本嵌入得到的稀疏投影空间，分别得到所述训练集和所述测试集的显著笔划特征。

优选的，所述将提取出的所述训练样本和测试样本的显著笔划特征使用最近邻法分类器进行分类的过程具体为：

将所述提取出的所述手写体训练样本和测试样本的显著笔划特征输入最近邻分类器模型；

根据经过投影嵌入后的训练样本与测试样本之间的内在关联进行相似性比对和分析，得到与测试样本最接近的训练样本；

结合所述训练样本的类别标签，获得与其最接近的测试样本的类别信息，得到待识别的手写体测试样本集合的识别结果。

优选的，所述最近邻分类算法为K-最近邻分类器，K＝1。

一种手写体笔划特征提取和识别的系统，包括：

训练模块，用于对原始训练集中的手写体字符图像数据进行凸优化和特征学习，计算得到可保持相似性的稀疏投影矩阵，提取出训练样本集合的显著笔划特征；对所述低秩主成分特征进行编码，得到低秩主成分特征，同时利用所述笔划错误特征对数据中的笔划进行纠错；

测试预处理模块，用于利用所述稀疏投影矩阵，对原始的待识别测试样本集合的具鉴别性的显著性特征进行提取；

测试模块，用于将提取出的所述训练样本与测试样本的显著笔划特征输入最近邻分类器模型进行分类，通过相似性比对，得到与测试样本最接近的训练样本，确定待识别的手写体测试样本的识别结果。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种手写体笔划特征提取和识别方法，通过对手写体训练样本通过所述方法进行优化，生成相应的用于显著笔划特征提取的可保持特征相似性的稀疏投影矩阵，进而利用得到的稀疏投影矩阵对训练样本和测试样本进行嵌入处理与描述，完成显著特征提取后，利用提取的样本的显著性特征使用最近邻分类器进行分类，根据训练样本与测试样本显著特征间的相似性，以及训练样本的类别标签，得到最准确的手写体字符识别结果。通过引入低秩恢复和稀疏投影的思想，克服了现有技术中新数据输入时计算的复杂性及未考虑特征相似性保持的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种手写体笔划特征提取和识别方法流程图；

图2为本发明实施例公开的一种手写体笔划特征提取和识别系统的结构图；

图3为本发明实施例公开的一种手写体笔划修复、显著特征提取和错误笔划检测示意图；

图4为本发明实施例公开的一种手写体识别预测示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种手写体笔划特征提取和识别方法，通过对手写体字符图像数据使用所述方法，生成相应的低秩主成分笔划恢复模型、稀疏投影矩阵和笔划错误；进而利用稀疏投影矩阵对训练样本和测试样本进行显著笔划特征提取，再将提取的样本特征输入最近邻法分类器进行分类，通过比较测试样本和训练样本的显著特征的相似性，利用训练样本的类别确定测试样本的类别归属，得到了最准确的手写体字符识别结果。通过引入低秩和稀疏编码技术，在编码得到经过修复的主成分笔划特征和可用于类间鉴别的显著笔划特征的同时，可自动定位笔划错误，有效提高了手写体描述和识别能力。

本发明在四个手写体数字的数据库进行了测试：MNIST、USPS、ORHD、CASIA-HWDB1.1。MNIST数据库共有60000个训练样本与10000个测试样本；USPS是美国邮政系统的手写数字数据库，包含9298个手写体数字0-9；ORHD是加州大学欧文分校(UCI)机器学习的数据库，包含5620个数字样本，每个样本中含有一个0-16范围内的整数；CASIA-HWDB1.1是中科院自动化所手写体数据库，包括3755个中文字符以及171个字母、数字或符号。这些数据库从多方面收集，因而测试结果具有普遍说明性。

请参阅附图1，为本发明实施例公开的一种手写体笔划特征提取和识别的方法流程图。本发明实施例公开的一种手写体笔划特征提取和识别的方法，具体实施步骤为：

步骤101：对原始训练集中的手写体字符图像数据进行凸优化处理和特征学习，计算得到稀疏投影矩阵，分析所述稀疏投影矩阵得到显著笔划特征与低秩主成分笔划特征及笔划错误特征，对所述低秩主成分笔划特征进行编码，对利用所述笔划错误特征对所述数据中的笔划进行纠错。

采用所述方法提取训练样本笔划特征(低秩主成分笔划特征和具鉴别性的显著笔划特征)并利用笔划错误特征自动检测笔划错误。

对于给定的一个可能含有错误笔划的或不规范笔划的手写体向量集合(其中，n是手写体样本的维度，N是样本的数量)，其中包含有标签的训练样本集和无任何标签的测试样本集且满足样本数量l+u＝N。所述根据原始训练集计算得到一个可保持特征相似性的稀疏投影矩阵并将X分解为一个低秩的主成分特征L(即笔划修复结果)，以及一个最具鉴别性的显著笔划特征编码SX和笔划错误E。所述解决以下凸优化问题：

(L^{*}, S^{*}, E^{*}) = \arg \min_{L, S, E} ((1 - β) {| | L | |}_{*} + β {| | S | |}_{1} + ξ \hat{f_{s}} (X) + λ {| | E | |}_{2,1})

{| | L | |}_{*} = \underset{i}{Σ} σ_{i} (L), {| | S | |}_{1} = \underset{i, j}{Σ} | S_{i, j} |, {| | E | |}_{2,1} = Σ_{j = 1}^{N} \sqrt{Σ_{i = 1}^{N} {({[E]}_{i, j})}^{2}}

其中，∑_iσ_i(L)表示矩阵L的奇异值之和。正规化项定义如下：

\begin{matrix} \hat{f_{s}} (X) = \frac{1}{2} Σ_{i, j = 1}^{N} W_{i, j}^{(t)} d^{2} (\tilde{x_{i}}, \tilde{x_{j}}) = \frac{1}{2} Σ_{i, j = 1}^{N} W_{i, j}^{(t)} Tr (({Sx}_{i} - {Sx}_{j}) {({Sx}_{i} - {Sx}_{j})}^{T}) \\ = Tr (\underset{i}{Σ} {Sx}_{i} (\underset{i}{Σ} W_{i, j}^{(t)}) x_{i}^{T} S^{T} - \underset{i, j}{Σ} {Sx}_{i} W_{i, j}^{(t)} x_{j}^{T} S^{T}) \\ = Tr ({SG}^{(t)} S^{T}) \end{matrix}

W_{i, j}^{(t)} = \exp (\cos (θ)),

其中，

\cos (θ) = x_{i}^{T} x_{j} / (| | x_{i} | | \cdot | | x_{j} | |)

计算时，本例采用拉格朗日乘子法进行优化和计算。首先将所述凸优化问题转化为如下等价式：

(L^{*}, W^{*}, S^{*}, E^{*}) = \arg \min_{L, W, S, E} ((1 - β) {| | L | |}_{*} + β {| | W | |}_{1} + ξTr ({SG}^{(t)} S^{T}) + λ {| | E | |}_{2,1})

subject to S＝W,X＝L+SX+E

其中Tr(·)是求矩阵迹的运算。基于相关变量的拉格朗日函数可定义为：

其中，Y₁、Y₂是拉格朗日乘子，μ是一个正参数，||·||_F是Frobenius范数。拉格朗日乘子法可通过迭代依次更新变量L,W,S,E以最小化函数值，具体公式如下：

Y₁ ^k+1＝Y₁ ^k+μ_k(S_k+1-W_k+1)

Y_{2}^{k + 1} = Y_{2}^{k} + μ_{k} (X - L_{k + 1} - S_{k + 1} X - E_{k + 1})

由于变量L,W,S,E都是相互依赖的，上述问题无法直接进行求解。本例中，当计算某个变量时固定其他变量，通过迭代地优化如下凸子问题，依次更新变量值完成求解：

该方法中每一步待优化的问题都是一个凸子问题，因此可以得到有效解决。考虑到计算效率问题，本例中采用Inexact Argument Lagrange Multiplier(Inexact ALM)方法，具体所述算法如下：

手写体低秩恢复和显著特征提取算法

输入：原始数据矩阵控制参数β,ξ,λ。

输出：稀疏投影矩阵(S^*←S_k+1)、低秩恢复矩阵(L^*←L_k+1)、稀疏噪声或错误矩阵(E^*←E_k+1)。

初始化：

k＝0,L_k＝0,W_k＝S_k＝0,E_k＝0,Y₁ ^k＝0,max_μ＝10¹⁰,μ₀＝2.3×10^-3,η＝1.12,ε＝10^-7

while还未收敛时do

修正其他变量并更新L_k+1：

修正其他变量并更新W_k+1：

\begin{matrix} W_{k + 1} = \arg \min_{W} (β / μ_{k}) {| | W | |}_{1} + (1 / 2) {| | W - (S_{k} + {Y_{1}}^{k} / μ_{k}) | |}_{F}^{2} \\ = Ψ_{β / μ_{k}} (S_{k} + {Y_{1}}^{k} / μ_{k}) \end{matrix}

修正其他变量并更新S_k+1：

S_{k + 1} = [W_{k + 1} + (X - L_{k + 1} - E_{k}) X^{T} + (Y_{2}^{k} X^{T} - {Y_{1}}^{k}) / μ_{k}] {(I + ξ G^{(t)} / μ_{k} + {XX}^{T})}^{- 1}

修正其他变量并更新E_k+1：

\begin{matrix} E_{k + 1} = \arg \min_{E} (λ / μ_{k}) {| | E | |}_{2,1} + (1 / 2) {| | E - (X - L_{k + 1} - S_{k + 1} X + Y_{2}^{k} / μ_{k}) | |}_{F}^{2} \\ = Ω_{λ / μ_{k}} (X - L_{k + 1} - S_{k + 1} X + Y_{2}^{k} / μ_{k}) \end{matrix}

更新乘子Y₁、Y₂：

Y₁ ^k+1＝Y₁ ^k+μ_k(S_k+1-W_k+1),

Y_{2}^{k + 1} = Y_{2}^{k} + μ_{k} (X - L_{k + 1} - S_{k + 1} X - E_{k + 1})

更新参数μ_k：

μ_k+1＝min(ημ_k,max_μ)

检查是否收敛：

若max(||W_k+1-S_k+1||_∞,||X-L_k+1-S_k+1X-E_k+1||_∞)<ε则停止；

否则k＝k+1

end while

算法第k+1步迭代中，E_k+1的第i列可通过如下公式计算得到：

其中，

\hat{Φ^{E}} = X - L_{k + 1} - S_{k + 1} X + Y_{2}^{k} / μ_{k},

是矩阵的第i列。

本算法中，主要计算在于L_k+1的计算，需要对矩阵进行奇异值分解，因此本算法的计算复杂度与基于RPCA的Inexact ALM方法相同。

本例中迭代初始值的选择：μ₀＝2.3×10^-3，η＝1.12。

由此，我们得到了显著笔划特征提取矩阵S以及笔划恢复矩阵L。则可以利用笔划恢复矩阵L修复主成分笔划特征，自动定位笔划错误，提高手写体描述和识别能力。

步骤102：利用所述稀疏投影矩阵，对手写体样本的显著特征进行提取。

在该过程中，利用优化得到的稀疏投影矩阵用于所述手写体训练样本与测试样本的嵌入与最具鉴别性的显著特征提取，具体为：

利用优化得到的稀疏投影矩阵，实现手写体训练样本和测试样本的有效嵌入与最具鉴别性的显著特征提取：首先将待识别的手写体样本集合划分为训练集和测试集，所述训练集中包含原始的训练样本，所述测试集中包含测试样本。

基于训练集，可通过步骤101计算得到可保持特征相似性的稀疏投影矩阵再将训练样本和测试样本嵌入得到的稀疏投影空间，完成具鉴别性的显著笔划特征提取。测试样本x_test的嵌入结果(即显著笔划特征)表达如下:其中为原始测试样本的显著笔划特征。

步骤103：将提取出的所述训练样本与测试样本的显著笔划特征使用最近邻分类器进行分类，通过相似性比对，分析与测试样本最接近的训练样本，根据训练样本的类别信息，确定待识别的手写体测试样本的识别结果。

具体为，将提取出的手写体训练样本和测试样本的显著特征输入最近邻分类器，根据经过投影嵌入后的训练样本与测试样本之间的内在关联进行相似性比对，得到与测试样本最接近的训练样本，结合所述训练样本的类别标签，获得与其最接近的测试样本的类别信息，得到待识别的手写体样本的识别结果。

将提取出的测试样本的显著笔划特征采用K-最近邻法(K＝1)进行分类，输出与测试数据欧式距离最近的训练集数据的类别信息，即作为该待识别的手写体测试样本的识别结果。具体如下：

通过步骤102计算得到原始训练集和测试集的显著笔划特征后，容易构造包含显著特征的手写体样本测试集和训练集其中对应每一个原始样本x_i的显著笔划特征。对于任意给定的两个手写体样本特征(和)，通过计算欧式距离可得：

d (\tilde{x_{i}}, \tilde{x_{j}}) = {| | \tilde{x_{i}} - \tilde{x_{j}} | |}_{2},

其中||·||₂为l₂-范数。

给定中的任意一个测试样本可通过下列分类准则确定测试样本的类别标签：

如果

d (\tilde{x_{test}}, \tilde{x_{t}}) = \min d (\tilde{x_{test}}, \tilde{x_{i}}), i = 1,2, . . ., l,

且的类别为lab∈{1,2,...,c}，则判定测试样本的类别也为lab，完成测试样本的分类过程。

本发明公开的一种手写体字符的笔划特征提取与识别的方法，通过引入低秩矩阵恢复和稀疏投影的思想，明确将手写体样本分解为低秩主成分特征、显著笔划特征和笔划错误(或噪音)，通过凸优化技术，实现主成分特征编码、最具鉴别性的显著笔划特征提取和笔划纠错，同时保持显著笔划特征在优化过程中的相似性。进而利用得到的稀疏投影矩阵进行手写训练样本和测试样本的嵌入与具鉴别性的显著笔划特征提取，生成训练集和测试集，再输入最近邻分类器，根据测试样本与训练样本间的相似性和训练样本的类别，得到测试样本的类别信息，得到最准确的手写体识别结果。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的系统实现，因此本发明还公开了一种系统，下面给出具体的实施例进行详细说明。

请参阅附图2，为本发明实施例公开的一种手写体笔划特征提取和识别的系统结构图。本发明公开了一种手写体笔划特征提取和识别的系统，该系统具体包括：

训练模块201，用于对原始训练集中的手写体字符图像数据进行凸优化和特征学习，计算得到可保持相似性的稀疏投影矩阵，提取出训练样本集合的显著笔划特征；对所述低秩主成分特征进行编码，得到低秩主成分特征，同时利用所述笔划错误特征对数据中的笔划进行纠错。

该模块实现对错误或不规范的手写体笔划进行恢复处理、训练样本显著特征提取和笔划错误自动检测，可用于对错误的手写体笔划进行恢复处理。

测试预处理模块202，用于利用所述稀疏投影矩阵，对原始的待识别测试样本集合的具鉴别性的显著性特征进行提取。

测试模块203，用于将提取出的所述训练样本与测试样本的显著笔划特征输入最近邻分类器模型进行分类，通过相似性比对，得到与测试样本最接近的训练样本，确定待识别的手写体测试样本的识别结果。

训练模块201主要完成对原始的手写体训练样本进行显著特征提取，构造新训练集，同时可完成训练样本的低秩主成分修复矩阵与错误的笔划检测。显著笔划特征提取过程通过计算一个稀疏投影矩阵实现。对于给定的可能含有错误笔划的或不规范笔划的手写体向量集合(其中，n是手写体样本的维度，N是样本的数量)，其中包含有标签的训练样本集和无任何标签的测试样本集且满足样本数量l+u＝N。所述根据原始训练集计算得到一个可保持特征相似性的稀疏投影矩阵并将X分解为一个低秩的主成分特征L(即笔划修复结果)，以及一个最具鉴别性的显著笔划特征编码SX和笔划错误E。

通过如下算法进行迭代得到：

手写体低秩恢复和显著特征提取算法

输入：原始数据矩阵控制参数β,ξ,λ。

初始化：

while还未收敛时do

修正其他变量并更新L_k+1：

修正其他变量并更新W_k+1：

\begin{matrix} W_{k + 1} = \arg \min_{W} (β / μ_{k}) {| | W | |}_{1} + (1 / 2) {| | W - (S_{k} + {Y_{1}}^{k} / μ_{k}) | |}_{F}^{2} \\ = Ψ_{β / μ_{k}} (S_{k} + {Y_{1}}^{k} / μ_{k}) \end{matrix}

修正其他变量并更新S_k+1：

S_{k + 1} = [W_{k + 1} + (X - L_{k + 1} - E_{k}) X^{T} + (Y_{2}^{k} X^{T} - {Y_{1}}^{k}) / μ_{k}] {(I + ξ G^{(t)} / μ_{k} + {XX}^{T})}^{- 1}

修正其他变量并更新E_k+1：

\begin{matrix} E_{k + 1} = \arg \min_{E} (λ / μ_{k}) {| | E | |}_{2,1} + (1 / 2) {| | E - (X - L_{k + 1} - S_{k + 1} X + Y_{2}^{k} / μ_{k}) | |}_{F}^{2} \\ = Ω_{λ / μ_{k}} (X - L_{k + 1} - S_{k + 1} X + Y_{2}^{k} / μ_{k}) \end{matrix}

更新乘子Y₁、Y₂：

Y₁ ^k+1＝Y₁ ^k+μ_k(S_k+1-W_k+1)，

Y_{2}^{k + 1} = Y_{2}^{k} + μ_{k} (X - L_{k + 1} - S_{k + 1} X - E_{k + 1})

更新参数μ_k：

μ_k+1＝min(ημ_k,max_μ)

检查是否收敛：

若max(||W_k+1-S_k+1||_∞,||X-L_k+1-S_k+1X-E_k+1||_∞)<ε则停止；

否则k＝k+1

end while

其中，||·||_*为核范数，||·||₁为l¹范数，||·||_∞为无穷范数。核范数、l¹范数、无穷范数分别定义如下：

{| | L | |}_{*} = \underset{i}{Σ} σ_{i} (L), {| | S | |}_{1} = \underset{i, j}{Σ} | S_{i, j} |, {| | W | |}_{\infty} = \max (| W_{i, j} |)

其中，表示矩阵L的奇异值之和。

算法第k+1步迭代中，E_k+1的第i列可通过如下公式计算得到：

其中，

\hat{Φ^{E}} = X - L_{k + 1} - S_{k + 1} X + Y_{2}^{k} / μ_{k},

是矩阵的第i列。

测试预处理模块202，主要用于对原始的手写体测试样本进行预处理，构造包含显著特征的新测试集，为测试模块做准备，具体为：

给定一个手写体样本集合，首先划分为训练集和测试集，分别包含原始的训练样本和测试样本。基于训练集，可通过训练模块得到可保持特征相似性的稀疏投影矩阵再将训练样本和测试样本嵌入得到的稀疏投影空间，完成具鉴别性的显著笔划特征提取，生成包含显著性特征的训练集和测试集。测试样本x_test的嵌入结果(即显著笔划特征)表达如下:其中为原始测试样本的显著笔划特征。

测试模块203主要用于待测手写体样本的识别与鉴别。将训练样本的测试样本的显著笔划特征采用K-最近邻(K＝1)分类器进行分类，输出与测试样本数据欧式距离最近的训练集数据的类别，即得到字符识别结果。具体过程如下：

通过测试预处理模块202计算得到原始训练集和测试集的显著笔划特征后，容易构造包含显著特征的手写体样本测试集和训练集其中对应每一个原始样本x_i的显著笔划特征。对于任意给定的两个手写体样本特征(和)，通过计算欧式距离可得：

d (\tilde{x_{i}}, \tilde{x_{j}}) = {| | \tilde{x_{i}} - \tilde{x_{j}} | |}_{2},

其中||·||₂为l₂-范数距离。

如果

d (\tilde{x_{test}}, \tilde{x_{t}}) = \min d (\tilde{x_{test}}, \tilde{x_{i}}), i = 1,2, . . ., l,

请参阅表1，为本发明方法和IRPCA(Inductive Robust PrincipalComponent Analysis)、PNMF(Projective Nonnegative Matrix Factorization)、LatLRR(Latent Low-Rank Representation)方法识别结果对比表，给出了各方法实验的平均和最高识别率。本例中，参与比较的IRPCA、LatLRR和PNMF方法(采用各文献中算法使用的默认参数)使用各自得到的投影矩阵用于测试样本的特征提取，且分类均采用K-最近邻(K＝1)分类器。

表1.本发明和IRPCA、LatLRR、PNMF方法识别结果对比

请参阅附图3，为本发明实施例公开的一种同时的手写体笔划的修复、显著特征提取及检测错误笔划的示意图。

通过三个真实数据集,即(a)USPS，(b)MNIST和(c)HWDB1.1-D，上的实例实验结果显示，本发明方法视觉上地可有效用于手写体的自动低秩主成分特征提取、显著笔划特征提取和自动笔划检错。

请参阅附图4，为本发明实施例公开的一种手写体特征提取及识别示意图。

通过实验结果我们可以看出本发明的手写体字符笔划特征提取及识别效果明显优于相关的IRPCA、LatLRR以及PNMF方法，且表现出了较强的稳定性，具有一定的优势。

综上所述：本发明公开了一种手写体笔划特征提取和识别新方法，通过引入当前流行的低秩矩阵恢复和稀疏投影的思想，明确将手写体样本分解为低秩主成分特征、显著笔划特征和笔划错误(或噪音)，通过凸优化技术，实现主成分特征编码、具鉴别性的显著笔划特征提取和笔划纠错，同时保持显著笔划特征在优化过程中的相似性。进而利用凸优化得到的稀疏投影矩阵将原始的训练样本和测试样本嵌入到稀疏编码空间，完成显著性特征提取过程，生成包含显著性笔划特征的训练集和测试集，再将得到的训练集和测试集输入最近邻分类器，进行相似性度量，并根据训练样本的类别标签，获得测试样本的类别信息，得到最准确的手写体识别结果。通过引入低秩恢复和稀疏投影，可通过编码得到经过修复的主成分笔划特征和可用于类间鉴别的显著笔划特征，同时可得到错误的笔划信息和噪音，有效提高了手写体的描述和识别能力。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手写体笔划特征提取和识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述原始训练集为可能含有错误笔划的或不规范笔划的手写体向量集合其中，n是手写体样本的维度，N是样本的数量，其中包含有c个类别标签c>2的训练样本集和无任何标签的测试样本集且满足样本数量l+u＝N。

3.根据权利要求2所述的方法，其特征在于，所述凸优化问题为：

(L^{*}, S^{*}, E^{*}) = \arg \min_{L, S, E} ((1 - β) {| | L | |}_{*} + β {| | S | |}_{1} + ξ {\hat{f}}_{s} (X) + λ {| | E | |}_{2,1})

{| | L | |}_{*} = \underset{i}{Σ} σ_{i} (L), {| | S | |}_{1} = \underset{i, j}{Σ} | S_{i, j} |, {| | E | |}_{2,1} = Σ_{j = 1}^{N} \sqrt{Σ_{i = 1}^{N} {({[E]}_{i, j})}^{2}}

W_{i, j}^{(t)} = \exp (\cos (θ)),

其中，

\cos (θ) = x_{i}^{T} x_{j} / (| | x_{i} | | \cdot {| | x}_{j} | |) .

4.根据权利要求1所述的方法，其特征在于，利用所述稀疏投影矩阵，对原始的待识别测试样本集合的具鉴别性的显著性特征进行提取的过程具体为：

5.根据权利要求4所述的方法，其特征在于，所述将提取出的所述训练样本和测试样本的显著笔划特征使用最近邻法分类器进行分类的过程具体为：

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述最近邻分类算法为K-最近邻分类器，K＝1。

7.一种手写体笔划特征提取和识别的系统，其特征在于，包括：