CN106845358B - 一种手写体字符图像特征识别的方法及系统 - Google Patents

一种手写体字符图像特征识别的方法及系统 Download PDF

Info

Publication number
CN106845358B
CN106845358B CN201611217910.0A CN201611217910A CN106845358B CN 106845358 B CN106845358 B CN 106845358B CN 201611217910 A CN201611217910 A CN 201611217910A CN 106845358 B CN106845358 B CN 106845358B
Authority
CN
China
Prior art keywords
matrix
character image
handwritten character
sample
soft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611217910.0A
Other languages
English (en)
Other versions
CN106845358A (zh
Inventor
张召
汪笑宇
李凡长
张莉
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201611217910.0A priority Critical patent/CN106845358B/zh
Publication of CN106845358A publication Critical patent/CN106845358A/zh
Application granted granted Critical
Publication of CN106845358B publication Critical patent/CN106845358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了手写体字符图像特征识别的方法及系统,在特征学习方面,目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据上进行局部保持特征提取;为了在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1‑范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升;基于比例的模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点且具有正交特性;样本外图像的归纳通过将测试样本向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。

Description

一种手写体字符图像特征识别的方法及系统
技术领域
本发明涉及计算机视觉和图像识别技术领域,特别涉及一种手写体字符图像特征识别的方法及系统。
背景技术
高维数据例如图像、音频等在日常生活中愈发普遍,因而可对其提取有用信息的特征学习方法显得尤为重要。离线手写体识别即是对其中某种高维信息进行特征提取并利用的一个实例。它通过电子专用设备将纸质手写文本电子化,得到计算机存储的字符图像,之后通过一系列特征学习的方法提取图像特征、分类等操作得到最终识别的字符。一旦得出高效准确识别字符的方法,可应用到办公自动化、机器翻译等领域,即可带来巨大的社会和经济效益。但是有效地抽取手写体图像特征的过程具有一定难度,到目前为止,离线手写体(简称手写体)字符识别距实用要求还有一定距离。目前的大部分研究工作都集中在处理手写体图像特征提取问题,且也已取得一定的成果。但是从真实世界中采集的图像通常存在包含噪声、数据缺失等问题,因此需要提出一种更鲁棒的算法来进行特征提取。
近年来,为解决图像噪声带来的特征提取偏差的问题,一些基于1-范数的算法被提出,例如基于1-范数的主成分分析算法(PCA-L1)、基于1-范数的线性判别分析法(LDA-L1)等。鉴于传统的基于距离即2-范数的算法对于噪声更加敏感,而通过使用已被证实对于噪声更加鲁棒的1-范数来衡量样本相似度。这些算法使得结果更加鲁棒于其相应的基于2-范数的算法,但由于目前只存在无监督与监督算法,无法充分利用有标签数据和无标签数据信息,因此特征提取的信息量还有很大的提升空间;另外,普通算法中的一些经验参数也非常难以确定。
因此,如何实现自动提取手写体字符图像特征,同时提高手写体字符图像表征能力与识别的准确度,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种手写体字符图像特征识别的方法及系统,以克服现有技术中仅使用有标签或无标签数据而没有充分利用现实中信息、对于噪声敏感的缺点。
为解决上述技术问题,本发明提供一种手写体字符图像特征识别的方法,所述方法包括:
输入手写体字符图像训练样本和手写体字符图像测试样本;
将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
可选的,将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵,包括:
根据所述手写体字符图像训练样本计算局部保持矩阵;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
可选的,根据所述手写体字符图像训练样本计算局部保持矩阵,包括:
利用公式
Figure BDA0001192187480000031
计算局部保持矩阵M;
其中,||·||为2-范数,xi为第i个样本。
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:
利用公式
Figure BDA0001192187480000032
计算软标签权值矩阵FS
其中,
Figure BDA0001192187480000033
是F矩阵的第i列;
Figure BDA0001192187480000034
是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,
Figure BDA0001192187480000035
是矩阵FT的第i行;D是一个对角矩阵,其中的元素
Figure BDA0001192187480000036
μi和ψ是相关权衡参数。
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:
利用公式
Figure BDA0001192187480000037
计算软标签各类均值矩阵μi
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签全样本均值矩阵,包括:
利用公式
Figure BDA0001192187480000038
计算软标签全样本均值矩阵μ。
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算权值矩阵,包括:
利用公式
Figure BDA0001192187480000039
计算权值矩阵
Figure BDA00011921874800000310
其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,软相似度矩阵
Figure BDA00011921874800000311
定义为:
Figure BDA00011921874800000312
可选的,利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集,包括:
将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。
本发明还提供一种手写体字符图像特征识别的系统,包括:
输入模块,用于输入手写体字符图像训练样本和手写体字符图像测试样本;
训练模块,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
测试预处理模块,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
测试模块,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
可选的,所述训练模块,包括:
第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;
第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
经由上述的技术方案可知,与现有技术相比,本发明提供的手写体字符图像特征识别的方法及系统,在特征学习方面,其目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据(即手写体字符图像训练样本)上进行局部保持特征提取。为了使得提出的方法及系统在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本(即手写体字符图像测试样本)向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的手写体字符图像特征识别的方法的流程图;
图2为本发明实施例所提供的手写体字符图像特征识别的系统的结构框图;
图3为本发明实施例所提供的一种手写体识别预测示意图。
具体实施方式
本发明的核心是提供一张手写体字符图像特征识别的方法及系统,以克服现有技术中仅使用有标签或无标签数据而没有充分利用现实中信息、对于噪声敏感的缺点。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例中手写体字符图像特征识别的类别c>2,本实施例在三个手写体字符图像数据库进行了测试:USPS、CASIA-HWDB1.1和MNIST。CASIA-HWDB1.1是中科院自动化所手写体数据库,包括3755个中文字符以及171个字母、数字或符号;USPS是美国邮政系统的手写数字数据库,包含9298个手写体数字0-9;MNIST数据库共有60000个训练样本与10000个测试样本。这些数据库从多方面收集,因而测试结果具有普遍说明性。具体请参考图1,手写体字符图像特征识别的方法,其特征在于,所述方法包括:
S100、输入手写体字符图像训练样本和手写体字符图像测试样本;
S110、将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
具体的,本实施例对手写体训练图像(即手写体字符图像训练样本)进行判别与几何结构保持学习,提出基于1-范数度量的鲁棒的软半监督判别手写体图像特征学习算法模型,优化输出一个可用于样本外测试图像特征提取的描述矩阵。
对于给定的一个可能存在噪声的手写体向量集合(即手写体字符图像训练样本)
Figure BDA0001192187480000061
(其中,n是手写体样本的维度,N是样本的数量),其中包含有类别标签(共c个类别,c>2)的样本集
Figure BDA0001192187480000062
和无任何标签的样本集
Figure BDA0001192187480000063
且满足样本数量l+u=N。设
Figure BDA0001192187480000064
为l个有标签样本的标签,且样本xi的标签为yi(i≤l)。所述根据原始训练集计算得到一个具有判别性特征与局部保持特征的投影矩阵也称为描述矩阵
Figure BDA0001192187480000065
需解决以下优化问题:
Figure BDA0001192187480000066
s.t.PTP=Id
其中||·||1为1-范数,即
Figure BDA0001192187480000071
其中Si,j表示S矩阵的第(i,j)号元素,
Figure BDA0001192187480000072
表示权值矩阵中第i行第j列的元素;
Figure BDA0001192187480000073
表示软标签权值矩阵中第i行第j列的元素;x表示样本。
即可选的,本实施例中将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵可以包括:
根据所述手写体字符图像训练样本计算局部保持矩阵;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
具体的,软标签权值矩阵FS可通过如下优化方式得到:
Figure BDA0001192187480000074
Figure BDA0001192187480000075
其中,
Figure BDA0001192187480000076
是F矩阵的第i列;
Figure BDA0001192187480000077
是样本xi的K近邻集合。W是一个正规化的对称相似性矩阵,Wi,j表示矩阵W中第i行第j列的元素,
Figure BDA0001192187480000078
是矩阵FT的第i行;D是一个对角矩阵,其中的元素
Figure BDA0001192187480000079
μi和ψ是相关权衡参数;
软标签各类均值矩阵μi、软标签全样本均值矩阵μ定义如下:
Figure BDA00011921874800000710
Figure BDA00011921874800000711
其中,c表示类别。
权值矩阵
Figure BDA00011921874800000712
定义为:
Figure BDA00011921874800000713
其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,M为局部保持矩阵。软相似度矩阵
Figure BDA00011921874800000714
定义如下:
Figure BDA00011921874800000715
局部保持矩阵M可通过求解以下优化问题得到:
Figure BDA0001192187480000081
其中,||·||为2-范数,即
Figure BDA0001192187480000082
Mi,j表示矩阵M中第i行第j列的元素。
下面具体说明1-范数优化求解过程。令极性函数q:
Figure BDA0001192187480000083
Figure BDA0001192187480000084
代入原优化函数H(p(t))得到:
Figure BDA0001192187480000085
再令增量δ(t)
Figure BDA0001192187480000086
之后更新p(t+1)=p(t)+βδ(t)。其中,β是一个很小的正数。如果H(p(t+1))的值增长不明显,则输出p*=p(t+1),否则一直迭代直到收敛。
上述说明的是降至1维即d=1的情况,以下进一步说明降至多维即d>1的情况。
首先设置p0=0,(xi)0=xi(i=1,2,...,N),(μ)0=μ,(μj)0=μj(j=1,2,...,c);之后每次迭代时计算:
Figure BDA0001192187480000087
以及对于i=1,2,...,N中的每一个i和j=1,2,...,c中的每一个j,计算如下公式:
Figure BDA0001192187480000088
Figure BDA0001192187480000089
将(xi)k,(μ)k,(μj)k代入前述迭代方法计算pk
具体算法如下:
软半监督判别手写体图像特征学习算法:
输入:原始数据矩阵
Figure BDA0001192187480000091
控制参数γ,β,d。
输出:投影矩阵P*
初始化:k=0,p0=0,(xi)0=xi,k=0,γ=0.2,β=0.01,ε=10-6
step1:求解并计算
Figure BDA0001192187480000092
step2:求解并计算相关软标签均值矩阵、权值矩阵:
Figure BDA0001192187480000093
Figure BDA0001192187480000094
Figure BDA0001192187480000095
Figure BDA0001192187480000096
Figure BDA0001192187480000097
step3:当k<d时,k←k+1,计算
Figure BDA0001192187480000098
以及对于i=1,2,...,N中的每一个i和j=1,2,...,c中的每一个j,计算如下公式:
Figure BDA0001192187480000099
否则输出P*=P
step4:令
Figure BDA00011921874800000910
(mi代表第i类样本的均值),并规范化
pk(0)=pk(0)/||pk(0)||
step5:while还未收敛时do
计算极性函数:
Figure BDA00011921874800000911
Figure BDA00011921874800000912
计算增量:
Figure BDA0001192187480000101
更新pk(t+1)=pk(t)+βδ(t)
检查是否收敛:若H(pk(t+1))-H(pk(t))<ε则停止,设置
P(:,k)=p(t+1);
否则t=t+1
end while
step6:继续执行step3。
迭代过程结束后可以得到手写体字符图像特征描述矩阵P。
本实施例中并不对参数的具体数据进行限定,上述过程中迭代初始值的选择:γ=0.2;β=0.01为初始值,迭代过程中不断减小。
S120、利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
具体的,将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。
例如,基于训练集,可通过步骤110得到局部保持的投影矩阵
Figure BDA0001192187480000102
再将训练样本和测试样本嵌入得到投影空间,完成手写体字符图像特征提取,生成特征提取后的训练集和测试集。训练样本xtrain及测试样本xtest的特征提取结果表达如下:
Figure BDA0001192187480000103
其中
Figure BDA0001192187480000104
分别为原始训练样本和测试样本的特征提取结果即新测试特征集。
S130、将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
具体的,通过步骤120提取得到原始训练图像和测试图像的特征即得到新测试特征集后,容易构造手写体样本特征测试集
Figure BDA0001192187480000105
和训练集
Figure BDA0001192187480000106
其中
Figure BDA0001192187480000107
对应每一个原始样本xi提取出的特征。对于任意给定的两个手写体样本特征
Figure BDA0001192187480000108
Figure BDA0001192187480000109
计算欧式距离
Figure BDA00011921874800001010
即:
Figure BDA0001192187480000111
其中||·||为2-范数,各实施例中·均表示任意字符,既可以理解为通配符的意思。
给定
Figure BDA0001192187480000112
中的任意一个测试样本
Figure BDA0001192187480000113
可通过下列分类准则确定测试样本
Figure BDA0001192187480000114
的类别标签:
Figure BDA0001192187480000115
Figure BDA0001192187480000116
的类别为lab(lab∈{1,2,...,c}),则判定测试样本
Figure BDA0001192187480000117
的类别也为lab,完成测试样本
Figure BDA0001192187480000118
的分类过程。
基于上述技术方案,本发明实施例提的手写体字符图像特征识别的方法,在特征学习方面,其目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据(即手写体字符图像训练样本)上进行局部保持特征提取。为了使得提出的方法及系统在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本(即手写体字符图像测试样本)向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。
下面对本发明实施例提供的手写体字符图像特征识别的系统进行介绍,下文描述的手写体字符图像特征识别的系统与上文描述的手写体字符图像特征识别的方法可相互对应参照。
请参考图2,图2为本发明实施例所提供的手写体字符图像特征识别的系统的结构框图;该系统可以包括:
输入模块100,用于输入手写体字符图像训练样本和手写体字符图像测试样本;
训练模块200,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
测试预处理模块300,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
测试模块400,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
具体的,训练模块200采用将1-范数度量应用于半监督手写体字符图像特征学习模型,用于对手写体训练图像进行相似性学习,构造加权相似图,通过比率模型在紧凑局部类内软标签散度和分离局部类间软标签散度的同时保持所有训练样本的局部特性。测试预处理模块300,用于将手写体字符图像数据采用所述方法进行特征提取,样本外图像的归纳主要通过将测试图像向描述矩阵进行映射。测试模块400,用于将降维后的手写体字符图像特征利用最近邻分类器完成测试,取对应欧式距离最小值的位置,进行测试图像的类别鉴定。
基于上述实施例,所述训练模块200可以包括:
第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;
第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
请参阅表1,为本实施例提供的方法和半监督的最大间距准则算法(SSMMC)、半监督的线性判别分析算法(SSLDA)、基于1-范数的判别性局部保持投影算法(DLPP-L1)方法,基于1-范数的主成分分析(PCA-L1)识别结果对比表,给出了各方法实验的平均识别率和最高识别率。本例中,参与比较的SSMMC、SSLDA、PCA-L1和DLPP-L1方法使用各自计算得到的投影矩阵用于测试样本的特征提取,且分类均采用最近邻分类器。
表1.本发明和SSMMC、SSLDA、DLPP-L1、PCA-L1方法识别结果对比
Figure BDA0001192187480000131
通过三个真实数据集,即(a)USPS,(b)CASIA-HWDB1.1和(c)MNIST上的实例实验结果显示,本发明方法可有效用于手写体的自动特征提取。
请参参考3,为本发明实施例公开的一种手写体识别预测示意图。
通过实验结果可以看出本发明的手写体字符图像特征提取及识别效果明显优于相关的SSMMC、SSLDA、PCA-L1以及DLPP-L1方法,且表现出了较强的稳定性,具有一定的优势。
基于上述技术方案,本发明实施例提的手写体字符图像特征识别的系统,特征学习方面,其在目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据上进行局部保持特征提取。为了使得提出的方法在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例的模型可通过一个迭代的方法得到投影矩阵,该矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的手写体字符图像特征识别的方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (3)

1.一种手写体字符图像特征识别的方法,其特征在于,所述方法包括:
输入手写体字符图像训练样本和手写体字符图像测试样本;
将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出;
将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵,包括:
根据所述手写体字符图像训练样本计算局部保持矩阵;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵;
根据所述手写体字符图像训练样本计算局部保持矩阵,包括:
利用公式
Figure FDA0002464950220000011
计算局部保持矩阵M;
其中,||·||为2-范数,xi为第i个样本;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:
利用公式
Figure FDA0002464950220000021
计算软标签权值矩阵FS
其中,
Figure FDA0002464950220000022
是F矩阵的第i列;
Figure FDA0002464950220000023
是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,
Figure FDA0002464950220000024
是矩阵FT的第i行;D是一个对角矩阵,其中的元素
Figure FDA0002464950220000025
μi和ψ是相关权衡参数;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:
利用公式
Figure FDA0002464950220000026
计算软标签各类均值矩阵
Figure FDA0002464950220000027
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签全样本均值矩阵,包括:
利用公式
Figure FDA0002464950220000028
计算软标签全样本均值矩阵
Figure FDA0002464950220000029
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算权值矩阵,包括:
利用公式
Figure FDA00024649502200000210
计算权值矩阵
Figure FDA00024649502200000211
其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,软相似度矩阵
Figure FDA00024649502200000212
定义为:
Figure FDA00024649502200000213
2.根据权利要求1所述的方法,其特征在于,利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集,包括:
将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。
3.一种手写体字符图像特征识别的系统,其特征在于,包括:
输入模块,用于输入手写体字符图像训练样本和手写体字符图像测试样本;
训练模块,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
测试预处理模块,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
测试模块,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出;
所述训练模块,包括:
第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;
第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵;
其中,根据所述手写体字符图像训练样本计算局部保持矩阵,包括:利用公式
Figure FDA0002464950220000031
计算局部保持矩阵M;其中,||·||为2-范数,xi为第i个样本;根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:利用公式
Figure FDA0002464950220000032
计算软标签权值矩阵FS;其中,
Figure FDA0002464950220000033
是F矩阵的第i列;
Figure FDA0002464950220000034
是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,
Figure FDA0002464950220000035
是矩阵FT的第i行;D是一个对角矩阵,其中的元素
Figure FDA0002464950220000036
μi和ψ是相关权衡参数;根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:利用公式
Figure FDA0002464950220000041
计算软标签各类均值矩阵
Figure FDA0002464950220000042
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签全样本均值矩阵,包括:利用公式
Figure FDA0002464950220000043
计算软标签全样本均值矩阵
Figure FDA0002464950220000044
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算权值矩阵,包括:利用公式
Figure FDA0002464950220000045
计算权值矩阵
Figure FDA0002464950220000046
其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,软相似度矩阵
Figure FDA0002464950220000047
定义为:
Figure FDA0002464950220000048
CN201611217910.0A 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及系统 Active CN106845358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611217910.0A CN106845358B (zh) 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611217910.0A CN106845358B (zh) 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及系统

Publications (2)

Publication Number Publication Date
CN106845358A CN106845358A (zh) 2017-06-13
CN106845358B true CN106845358B (zh) 2020-11-10

Family

ID=59135784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611217910.0A Active CN106845358B (zh) 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及系统

Country Status (1)

Country Link
CN (1) CN106845358B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451559A (zh) * 2017-07-31 2017-12-08 邱宇轩 基于机器学习的帕金森病人手写文字自动识别方法
CN108416355B (zh) * 2018-03-09 2021-07-30 浙江大学 一种基于机器视觉的工业现场生产数据的采集方法
CN108710907B (zh) * 2018-05-15 2022-05-17 苏州大学 手写体数据分类方法、模型训练方法、装置、设备及介质
CN109871910B (zh) * 2019-03-12 2021-06-22 成都工业学院 一种手写字符识别方法及装置
CN110163274B (zh) * 2019-05-15 2022-08-30 南京邮电大学 一种基于鬼成像和线性判别分析的物体分类方法
CN111274868A (zh) * 2020-01-07 2020-06-12 北京小米移动软件有限公司 笔记本书写信息处理方法及装置
CN111340033B (zh) * 2020-03-17 2023-05-02 北京工业大学 一种易混字符二次识别方法
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
CN117671704B (zh) * 2024-01-31 2024-04-26 常熟理工学院 一种手写体数字识别方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
CN104794489A (zh) * 2015-04-23 2015-07-22 苏州大学 一种基于深度标签预测的诱导式图像分类方法及系统
CN105335756A (zh) * 2015-10-30 2016-02-17 苏州大学 一种鲁棒学习模型与图像分类系统
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463202B (zh) * 2014-11-28 2017-09-19 苏州大学 一种多类图像半监督分类方法及系统
CN105989375A (zh) * 2015-01-30 2016-10-05 富士通株式会社 对手写字符图像进行分类的分类器、分类装置和分类方法
CN104992166B (zh) * 2015-07-28 2018-09-11 苏州大学 一种基于鲁棒度量的手写体识别方法与系统
CN105678260B (zh) * 2016-01-07 2020-04-14 浙江工贸职业技术学院 一种基于稀疏保持距离度量的人脸识别方法
CN105740912B (zh) * 2016-02-03 2019-07-19 苏州大学 基于核范数正则化的低秩图像特征提取的识别方法及系统
CN106022373B (zh) * 2016-05-18 2019-04-23 江南大学 一种基于广义均值典型相关分析的图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
CN104794489A (zh) * 2015-04-23 2015-07-22 苏州大学 一种基于深度标签预测的诱导式图像分类方法及系统
CN105335756A (zh) * 2015-10-30 2016-02-17 苏州大学 一种鲁棒学习模型与图像分类系统
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
New optimization scheme for L2-norm total variation semi-supervised image soft labeling;Chia-Liang Tsai,and etc;《2011 18th IEEE International Conference on Image Processing》;20111229;第3369-3372页 *
流形结构保持的传播半监督降维算法;王颖静等;《小型微型计算机系统》;20130108;第33卷(第11期);第2414-2417 *

Also Published As

Publication number Publication date
CN106845358A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106845358B (zh) 一种手写体字符图像特征识别的方法及系统
Wolf et al. Effective unconstrained face recognition by combining multiple descriptors and learned background statistics
WO2017016240A1 (zh) 一种钞票冠字号识别方法
Singh et al. A study of moment based features on handwritten digit recognition
EP2828793A1 (en) Rotation-free recognition of handwritten characters
US20170076152A1 (en) Determining a text string based on visual features of a shred
CN112149758B (zh) 一种基于欧式距离和深度学习的高光谱开放集分类方法
CN104992166B (zh) 一种基于鲁棒度量的手写体识别方法与系统
CN110046264A (zh) 一种面向手机文档的自动分类方法
Li et al. Online metric-weighted linear representations for robust visual tracking
US10891559B2 (en) Classifying test data based on a maximum margin classifier
Christlein Handwriting analysis with focus on writer identification and writer retrieval
CN111325275A (zh) 基于低秩二维局部鉴别图嵌入的鲁棒图像分类方法及装置
CN111178254A (zh) 一种签名识别方法及设备
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
Shayegan et al. A new dataset size reduction approach for PCA-based classification in OCR application
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN112200216A (zh) 汉字识别方法、装置、计算机设备和存储介质
Wei et al. Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents
CN110287973A (zh) 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
Sahay et al. An Enhanced Prototypical Network Architecture for Few-Shot Handwritten Urdu Character Recognition
Wang et al. Importance sampling based discriminative learning for large scale offline handwritten Chinese character recognition
Patil et al. Pattern recognition using genetic algorithm
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant