CN1571977A

CN1571977A - 字符识别

Info

Publication number: CN1571977A
Application number: CNA028204735A
Authority: CN
Inventors: 乔纳森·利·纳珀
Original assignee: Silverbrook Research Pty Ltd
Current assignee: Silverbrook Research Pty Ltd
Priority date: 2001-10-15
Filing date: 2002-10-15
Publication date: 2005-01-26
Anticipated expiration: 2022-10-15
Also published as: AUPR824401A0; DE60220537D1; CA2463098A1; US8019160B2; CA2463098C; US20100278429A1; DE60220537T2; US20090074295A1; US7760947B2; ZA200402929B; EP1444640A4; US7469062B2; IL161382A0; US20110299780A1; EP1444640B1; US7903879B2; ATE364208T1; US20110110593A1; WO2003034317A1; JP2005505866A

Abstract

本发明提供了一种修改分类系统(scheme)来分类手写字符以使得分类系统用户非独立的方法。所述分类系统包括了多个书写变体，每一书写变体代表了各字母的各自风格。所述方法包括获得至少一手写字符，随后选择一代表了字符的书写变体。随后根据选择修改一个或多个书写变体，从而反映与用户使用的字母风格相对应的事实和书写变体。

Description

说明书字符识别

技术领域

本发明涉及到一种修改分类系统的方法和装置。特别地，这种修改可以用来允许一个独立的用户分类系统被修改成一个非独立的用户分类系统。

背景技术

本说明书中所引用到的现有技术不是，也不应该被当作一个公知或任何形式上的现有技术组成公知知识部分的建议。

手写体识别系统通常被分成非独立书写者，意味着他们被训练来识别单独用户的特别手写风格，或者是独立的书写者，意味着他们被训练了可以识别任何用户的书写。由于非独立书写系统(writer-dependent)只需仿效单独书写者的风格，所以非独立书写系统通常可以产生比独立书写系统要准确得多的识别(对于特别用户)。

然而，他们通常要求用户要输入大量的训练信息来允许发生用户-特别训练。相反地，独立书写者系统并不要求用户—特别训练，因为他们通常是通过来自大量用户的训练数据文集发展来的。由于这些系统必须要迎合广泛的击键上风格迥异和字母信息，他们更倾向于在字符类别之间造成混淆。

书写者适应化就是将一独立书写者识别系统转换成一使用用户提供数据的非独立书写者系统的过程。适应性系统更具有吸引力，因为他们并不要求用户执行冗长输入训练数据的过程，而且随着时间的推移，可以达到非独立书写者系统的精确识别。除此之外，他们可以适应用户书写风格随时间发生的变化。

在自适应性系统发展过程中的一个困难就是要确保产生的适应性会改进识别作用。如果实施得不仔细，比如说，通过对被不正确地标记或者是应用了一个坏格式或模糊模式的原型进行概括，适应性过程将会降低特别用户的总识别率。因此，很多的自适应性系统就要求从书写者那得到执行适应性修改的指导，通过与用户之间的互相作用来确保用于进行适应性修改的数据是很好组成且被正确标记的。关于这一点的实施例在美国专利5,917,924，美国专利5,754,686，美国专利5,544,260，and美国专利5,550,930中有所描述。通过与用户的相互作用来确保改编(adaptation)中使用的数据的格式合格且被正确标记。

既然这可以减少衰减的适应性修改的发生，就要求用户陷入大量可能冗长而乏味的操作中。

适应性分类机必须要使用一定种类的学习过程来允许该系统接收用户特别风格。监督学习就是一个基于对一系列样品进行正确标记基础之上对分类机的行为进行修改的过程(也就是说要提供每一个样品正确的类别)。然而，这个信息如果没有与用户介入的话是无法用在适应性系统中的，因为唯一可得到的标记信息就是分类机本身的产物。或者无监督学习技术(也可以称为“自组织学习”)并不要求为学习过程的标记样品，所以在正确的结果未知之处，可以适用于适应性系统。

竞争性学习是一个无监督学习过程，该过程要求一个系统的元素在活动过程中相互之间进行竞争，正如C.von der Malsburg 1973年在《Kybernetik》的14：85-100“Self-Organisation of OrientationSensitive Cells in the Striate Cortex”中所列举的方向敏感神经细胞的自组织学习那样。同样地，K.Fukushima 1975年在《BiologicalCybernetics》的20：121-136“Cognitron：a Self-OrganisingMultilayered Neural Network”中也描述了多重神经网络的自组织称做认知机。有一些为竞争性学习技术解释理由的神经生物学，如在“J.Ambros-Ingerson、R.Granger，和G.Lynch所著的刊于《Science》1990年第247第1344-1348页的“Simulation of Paleocortex PerformsHierarchical Clustering”中所描述的那样。

这里将对关于技术说明的实施例进行进一步地描述。

V.Vuori、J.Laaksonen、E.Oja和J.Kangas在IEEE ComputerSociety于美国加利福尼亚州的洛杉矶举行的ICDAR′99的《Proceedingsof the Fifth International Conference on Document Analysis andRecognition》中的“On-line Adaptation In Recognition of HandwrittenAlphanumeric Characters”一文中描述了一个用于手写字母数字字符的用户-特别适应性系统，该系统包括各种由三个类别的组合。这包括增加基于一个K-NN搜索之上的原型，惰性化其出现总是坏处多于好处的原型，以及基于“学习-矢量-数字转换”对原型的再成型，该“学习-矢量-数字转换”在T.Kohonen著，Springer-Verlag 1997年出版的《Volume 30of Springer Series in Information Sciences》中的《Self OrganisingMaps》中有所描述。

该分类机是基于简单的“压缩最近邻居”原则之上，同时在训练期间应用半自动原型-聚类算法以压缩原型。使用各种点到点、点到线和区域度量的“动力时间-变形(Time-Warping)”被用于计算在输入和原型之间的相似度量。原型撤消的方法使用监督学习(“user-reportedmisclassifications are used to revise the system”在“J.Laaksonen、V.Vuori、E.Oja和J.Kangas”著的“Adaptation of Prototype SetsIn On-line Recognition Of Isolated Handwritten Latin Characters”中有所描述。该系统也由分类间混淆而不是特别的基于分类的书写变体辨别所促进来做出决定。该方法也是基于二元判定之上的，该二元判定有着“从一系列活跃原型上移开”的混淆性原型。

1993年7月4-7日巴黎的《Proceedings of the Sixth InternationalConference on Handwriting and Drawing》中第19-21页的Telecom部分，L.Schomaker、H.Teulings、E.Helsper和C.Abbink提出“Adaptive Recognition Of Online，Cursive Handwriting”，以及L.Schomaker、H.Teulings、G.Abbink和E.Helsper所著并由由美国桑尼布法罗CEDAR组织于1993年5月25-27日出版发行的IWFHR III中提供了验证的文章，即“Adaptive Recognition of On-lineConnected-cursive Script for use in Pen-based Notebook Computers”，其中描述了一种基于使用科候能自组织地图(Kohonen Self OrganisingMap(SOM))的原型击键群束基础上的草写体识别系统。所描述的过程，使用一个独立书写者击键-过度网络，用于对输入的书写进行识别。

如果任何上述识别机输出的前二十个字被发现是如字典所定义那样有效，在击键-转移网络中的值是“直到，或者目标字在字符输出表上部，或者实现了最多次数的重复的情况下，一较小的协调性增益”。适应性系统包括在击键-转移网络中的个体击键解释的用户-特别概率。

1998年L.Heutte、T.Paquet、A.Nosary和C.Hernoux在IEEEComputer Society的《Proceedings of the Fifth InternationalConference on Document Analysis and Recognition》中的“DefiningWriter’s Invariants To Adapt the Recognition Task”中使用形态学书写者-特别不变式来改进非在线字符识别(OCR)的识别系统。该技术要求探测和集中书写者-特别变异，该变异将会用于将上下文的知识结合在一起来消除识别过程中引起的歧义。

多个方法已经被提出，这些方法使用适应性技术来进行分类机的训练，比如1998年8月，在S.Connell和A.Jain著的，澳大利亚布里斯班的《Proceedings of the 14th International Conference on PatternRecognition》中，第182-184页的“Learning Prototypes For On-LineHandwritten Digits”，和G.Hinton、C.Williams和M.Revow所写的“Adaptive elastic models for character recognition”，以及加州圣马刁的摩根·考夫曼在其所写的《Advances in Neural InformationProcessing Systems 4》有所描述。

同理，S.Connell和A.K.Jain在1999年9月，印度班格洛尔的《Proc.5th International Conference on Document Analysis andRecognition》的第434-437页的“Writer Adaptation of OnlineHandwritten Models”中描述了一种书写者适应性修改，该适应性修改旨在基于对词素识别基础之上的、且在独立书写者模式之内建立一个用户-特别书写风格，同时使用该非独立书写者模式来再训练他们的分类机。由于该方法基于训练隐藏马克夫模式(Hidden Markov Model(HMM)，该改编技术可以被推测只为每一个书写者实施一次(归因于巨大的经常性要求再训练HMM系统)。没有这样的技术试图基于用户输入执行持续的用户-特别适应性修改。

美国专利6,038,343描述了一种将产生书写者-特别特征向量与一个独立用户“普遍识别字典”相结合来改进识别结果的方法。他们使用统计回归(statistical regression)“为来自输入字符中特征向量的每个多种选择的目录预测书写者-特别特征向量”。该方法通过将他们与书写者-特别特征向量相结合，来“纠正”独立书写者的特征向量，而该书写者-特别特征向量被再生地用于为未来用户输入向量特征预确定字符。

美国专利5,917,924使用一适应性权重来修改原型的可能性，该原型在识别过程中作为潜在的匹配对象，并且“仅仅使得权重值在改编模式中变得多样化”。也就是说，该方法仅根据用户的相互作用决定的结果使得原型的权重值(weighting values)发生变化。

美国专利5,754,686描述了一种方法，该方法使用了一用户-特别字典来存储非独立书写者模式。“如果识别的可靠性低的话，就要用到警告。作为对警告的反应，用户或者是操作者能够决定是否该字符模式应该在用户字典上进行登记。该模式将被自动评估，评估是为了判断是否适合被包括在用户字典中(据推测使用一个有着现存原型的模糊度量(metric)，但是并没有就如何将用户-特别字典原型在识别期间与现有独立书写者模式相结合提出权利要求。

美国专利6,256,410描述了一个标准系统，该标准系统用于训练一非独立书写者HMM的分类机，用户-特别训练数据分割使用独立书写者模式，同时一系列的字符-基础模式将会被重复地用训练数据进行训练。

美国专利5,319,721描述了一种方法，该方法用于在一个非独立书写者系列中逐步形成一系列的独立用户原型。如果输入的击键数据使得一个原型与一特定临界点以内的相匹配，则用户数据与现有的原型相结合，以产生一个非独立书写者原型和“一个或更多的与输入符号有相同标记的起始原型符号“被删除。如果击键数据并不与现有的原型相匹配，一个新的原型就被产生了，再次，一个或多个的同一标记的原型被删除。

美国专利5,544,260中描述了一种“使用在为了修改字符原型的错误纠正期间提供的信息”，也就是说，使用由用户所做来更新被错误识别的原型的纠错击键，美国专利5,550,930描述了一种存储识别结果的方法，并应用户的请求演示该结果，同时允许该用户选择输入和相应的用于分类训练的符号。

美国专利5,285,505描述了一种方法，该方法用于通过强调对于区别很关键字符部分和在字符之间相似的再强调部分“产生字符原型以改进相似形状字符的识别正确性”。该方法被明确地限定于解决两个类别的模糊不清，诸如“g”/“y”和“A”/“H”的混淆。

发明内容

在本发明的第一广度内，提供了一种手写字符分类的分类系统修改方法，因此使得分类系统的用户独立，分类系统包括多个书写变体，每一个书写变体代表了一种各字母的各自风格，所述方法包括：

a)获得至少一个手写字符；

b)选择一个书写变体代表字符；

c)按照选择修改一个或多个书写变体。

通常地，所述方法包括修改书写变体以反映所选择的与用户使用的各自字母风格相对应的书写变体。

分类系统包括若干个类别，每一类别代表了一个单独字母并包括一个或多个书写边体，所述方法包括：

a)选择一个类别代表字符以因此确定字符代表的字母；以及，

b)在各自类别中修改一个或多个书写边体。

每一个书写变体包括一个或多个原型，每一个原型代表了在各书写变体的多样性，所述方法包括：

a)至少原型中的一些，根据字符的相似性和各原型确定一个选择值(value)；并且，

b)根据确定的选择值(value)选择单独的一原型。

所述方法包括根据选择的原型选择类别。

所述方法包括根据选择的原型选择书写变体。

每个原型通常以一个原型向量代表，每一原型向量由多个值(value)组成，每个值定量各原型的独立特征，在这种情况下，所述确定一选择值的方法通常包括以下步骤：

a)确定一个代表字符的特征向量，所述特征向量由多个值所组成，每个值定量各原型的独立特征；并且，

b)确定一个代表特征向量和各原型向量之间距离的距离值。

每一原型包括一个关联权重，所述方法通常包括：

a)根据权重选择书写变体；

b)通过修改一个或多个书写变体的权重来修改书写变体。

或者，所述方法可以涉及简单移动用户不使用的书写变体，尽管可以这样理解，即这样通常会有较少的正确率。

通常根据距离值和各书写变体相关的权重确定选择值。

所述方法通常包括修改权重，至少包括被选择原型的书写变体的权重。

所述方法通常包括选择具有最低选择值的原型。

所述方法修改的权重至少包括下列的至少一个：

a)为包括被选择原型的书写变体降低权重；以及

b)为一个或更多的不包括被选择原型的书写变体增加权重。

所述方法通常包括通过预确定量增加或减少书写变体的权重。

或者该方法包括：

a)为每一个要修改的书写变体选择一个参考原型；

b)为每一个参考原型确定距离值；

c)确定一个确定的距离值的平均值；

d)根据各参考原型的距离值和平均距离值修改每一个书写变体的权重。

参考原型是对各书写变体具有最低距离值的原型。

所述方法使用处理系统来实施，处理系统包括：

a)一个存储代表书写变体的书写变体数据的存储器；

b)一个处理器，所述处理器用于：

i)获得手写字符

ii)选择书写变体；

iii)修改一个或更多的书写变体。

本发明的第二广度内提供了一种装置，用于修改类别系统以修改书手写字符因此使得分类系统用户变得依赖的装置，所述装置包括：

a)一个存储代表一定数量书写变体的书写变体数据的存储器，每一个书写变体代表了各个字母的各自风格；

b)一个处理器，所述处理器用于：

i)获得至少一个手写字符；

ii)选择一个代表字符的书写变体；

iii)修改书写变体数据，因此根据选择修改一个或多个书写变体。

在此情况中，书写变体数据包括一个与每个书写变体相关的权重，处理器用于通过修改权重修改书写变体数据。

所述存储器用于存储类别数据，类别数据代表了多个类别，每个类别代表了一个单独的字母且包括了一个或多个书写变体。

存储器可用于存储代表原型的原型数据，每个书写变体包含了一个或多个原型，每个原型代表了各书写变体中的多样性。

处理器更可以用于执行本发明中所有第一广度的方法。

在本发明第三广度中提供了一种使用一用户非独立分类系统修改手写字符的方法，所述分类系统包括多个书写变体，每一个书写变体代表了各字母的各风格，和各代表用户依赖性的权重，每个书写变体包括一个或多个原型，每个原型代表了各书写变体中的多样性，所述方法包括：

a)获得至少一个手写字符；

b)为至少一些原型，根据字符的相似性和各原型以确定一个选择值，书写变体的权重包括各原型；

c)根据确定的选择值选择一单独的原型；

d)根据被选择的原型分类字符。

每个以原型向量代表的原型，每个原型向量由多个值组成，每个值定量各原型的各向量，在这种情况下，确定选择值的方法通常包括：

a)确定一个特征向量代表字符，所述特征向量由多个值组成，每一个值定量字符的各特征；

b)确定一个代表特征向量与各原型向量之间距离的距离值；

c)根据确定的距离值和与各书写变体相关的权重确定选择值。

分类系统包括多个类别，每个类别代表了各字母并包括一个或多个书写变体，所述方法包括根据被选择原型选择类别以确定由字符代表的字母。

通常地，根据本发明第一广度中的方法对类别系统进行修改。

所述方法包括使用一个处理系统，处理系统包括：

a)存储器用于存储：

i)代表书写变体和相关权重的书写变体数据；

ii)代表原型的原型数据；以及

b)处理器，处理器用于：

i)获得手写字符；

ii)确定选择值；

iii)选择原型；

iv)分类字符。

本发明的第四广度提供了一种使用一用户非独立性分类系统分类手写字符的装置，所述装置包括：

a)存储器用于存储：

i)书写变体数据，代表了多个书写变体，每个书写变体代表了各字母的各风格，一个与各书写变体相关的权重，权重代表了书写变体的用户非独立性；

ii)原型数据代表了一个或多个原型，每个原型代表了各书写变体中的多样性；

b)处理器，处理器用于：

i)获得至少一个手写字符；

ii)为至少一个原型，根据字符的相似性和各原型确定一个选择值，书写变体的权重包括了各原型；

iii)根据被确定的选择值选择单独的一原型；

iv)根据被选择的原型选择分类字符。

在这种情况下，所述存储器用于存储代表一定数量类别的类别数据，每个类别代表单独的字母并包括一个或更多的书写变体。

处理器因此可以被用于执行本发明的第三广度的方法。

附图说明

通过下面对优选但不是仅有实施例的描述，本发明将会变得非常明显，说明将会结合附图来进行，包括：

附图1是一个适于执行本发明的一实施例的处理系统；

附图2是字母”a”的两个静态书写变体的实施例；

附图3是字母“a”的两个动态书写变体的实施例；

附图4是字母“a”和字母“d”的两个相似书写体实施例；

附图5是一个分类系统机构实施例的图表；

附图6是一个在分类机决定区域修改书写变体全中的实施例的原理图。

具体实施方式

下面的文字用来描述与所写说明书和附加权利要求书相适应的描述，目的在于提供一种对本发明主题更准确的理解。

现在根据附图1来描述一种适于实施本发明的装置，该附图中显示了一种适于执行书写识别的处理系统10。

特别地，处理系统10通常包括至少20个处理器，一个存储器21，一个输入装置22，诸如一个图形输入板和/或键盘，一个如图显示的通过总线24与输入装置22相联的输出装置23，诸如显示器。如图显示，还提供了一个外部界面25，以将处理系统与存储器11相联，诸如数据库。

在使用过程中，处理系统被吸收来接收并译解使用预见的分类系统的书写文字字符。最初的该分类系统是用户独立，然而，处理系统10也被用来修改系统，因此使得该系统用户成为非独立的，从而增加了字符识别的正确性。

从这点上，处理系统10可以是任何形式的处理系统，比如计算机，笔记本电脑，服务器，专门的硬件，或者其他相同的硬件，这些相同的硬件可以通过执行适当地应用存储在闪存单元21中的应用软件，被典型地用来执行这些技术。

为了实现这一点，处理系统10实施了一个分类系统，该分类系统使用书写变体来修改字母的各自风格。然后处理系统使用特别书写者所使用的字母书写变体的适应性学习。

字母书写变体(Letter allographs)仿效单独字符分类在书面上的迥异风格。也就是，它们代表了一个字符可以被描画的不同方式。书写变体可以被定义的，静态的，意味着字符的总形状将一个书写变体区别于另一个。字母“a”的静态书写变体实施例如附图2所示。

书写变体也可以是动态的，书写变体可能看起来是相似的，但是在动态击键信息上是不同的(也就是，构成字母的击键次序或方向)。字母“a”的动态书写变体实施例在附图3中有所显示。特别地，在这个实施例中，这两个字母有着相似的形状，但是在版本1中用单个的击键进行描绘，而版本2中是用两个击键进行描绘。由于书写变体能够有一个动态的和静态的意义，所以，对于书写变体-基础是有可能适于在在线或离线的状态下进行工作。

独立书写者系统必须仿效所有它也许会遇到的可能的书写变体。然而，用户在书写的时候通常对每个字母使用各自的书写变体。因此，某特别用户每一次将通常地以相同的风格书写给定的字母。

所以，独立书写系统将会包括大量的、用户所不要求的用于识别的书写变体。这些多余的书写变体将会降低系统的识别正确率，因为它们可与一个用户真正使用的不同类中的书写变体相类似。

如附图4中所示实施例。特别地，所有左边的书写变体代表了字母“a”，而右边的书写变体代表了字母“d”。很清楚地，在这两个书写变体之间还有大量的相似之处，带有明显的不正确识别的可能性。

这里显示的字母“a”书写变体极少地用于手写体中，而且在绝大多数的书写风格中也不需要用到。独立书写系统需要支持这个书写变体，然而，由于少数的书写者会使用这个风格，但是通过允许这个书写变体，对字母不正确的识别可能性增加了。

因而，特定人通常不以这样相似的方式书写字母“a”和“d”是比较好的，在附图4中所显示的两个书写变体未必在一个非独立用户识别系统中都被要求。

所以，处理系统适于学习书写者所使用的书写变体，并允许同一字母的其他书写变体被忽视，因此为各自的书写者改进字符识别。这因此允许处理系统能够以更高识别正确率支持广泛范围内的书写风格。

在使用过程中，处理系统10因而可以接收字符，并将所接收的字符、字母以及存储在数据库11中的书写变体进行比较。这就允许处理器来确定与字符所对应的字母和书写变体。

这通常可以通过比较字符与存储在数据库11中的原型来实现。该原型以单独的书写变体和字母进行组合。通常地，在书写变体与原型之间相似之处用语选择原型，该原型大部分的情况下与字符相匹配，因此允许字符被赋值于各字母或书写变体群组。

特别地，这通常可以通过根据特征向量定义字符来实现。在这种情况下，特征向量包括代表字母不同特征的值。原型被作为特征向量进行存储，允许特征向量和原型之间的距离在特征空间内被测量，因此允许确定最相近的原型。

然后处理器可以根据所选择的字母修改书写变体，因此表明了该书写变体是各用户使用的书写变体。这通常可以通过在每个书写变体上的赋予加权值来实现，同时处理器)可以用来修改书写变体的加权值。因此比如，用户所使用的书写变体的加权值是可以与其他书写变体的加权值一起增加或减少的。

现在对这些技术进行更为详细的描述。

特别地，下面是对用于手写字符书写变体的竞争性学习算法的说明。在本实施例中，将根据一个简单的样板-匹配分类来对该技术进行描述(特别地，一个欧几里得-距离的最近-邻居分类机)。然而，本领域的技术人员将会了解到：该过程能够被用于任何可支持将类别再分成基类的分类机，以及这些基类的随后的权重。

除此之外，权重更新过程在度量上是独立的(metric dependent)而仅仅依赖于一些原型相似性的一些数字指标。因此，该技术可以应用在距度量上，比如欧几里得-距离，动力时间-变形，等等)。

在初始阶段，处理器20将会收到输入的代表考虑中字符的符号。这通常从输入装置22中接收到，但是也可以从数据库的字符中检索到。在任何情况下，处理器20通过给输入的信号绘图来执行图案的分类，该输入信号将会被再处理以便执行一些类型的正常化，而变成多重尺寸的特征空间。该处理器因此分配数值以量化各预先确定的字母的特征，诸如字母的权重，宽度，击键的数据，最大的击键的长度，或者其他的。绘图用于产生一个特征向量。

然后，处理器20应用该特征向量于一系列的分类模式来确定哪个类别是最有可能产生了给定的特征。

样板-匹配分类器通过存储类别的原型样品(原型)来工作，并通过使用一些相似的度量将输入特征与原型进行比较的方式，执行分类。与输入特征向量最相近似的原型类别被假定为输入图案的类别。比如说，一个简单的欧几里得-距离最近邻居的分类器仅仅存储一系列训练样品的特征向量，并且利用与输入特征向量之间有着最小的欧几里得-距离的训练图案特征向量，来对输入图案进行标记。

非独立书写者的书写变体训练的时候会发生，独立书写者分类器必须要包括每一个原型的书写变体信息。这就意味着每一个训练样本都要用类别和书写变体进行标记。为了标记书写变体，存在多个半自动的过程。比如说，L.Vuurpijl和L.Schomaker所著的“Finding StructureIn Diversity：A Hierachical Clustering Method For theCategorization of Allographs In Handwriting，”，在1997年8月的ICDAR第387到393页的IEEE标准中描述了成团分级群聚的方法，该方法帮助选择和为各字母类别的书写变体进行标记。

通常地，分类系统的结构如附图5中所显示的那样。因此，一个单独的分类机将通常包括很多的字母。在这一点上，可以这样理解，单词的字母将会包括任意的字母数字字符、标点符号，或者是表意符号。那么，每一个书写变体将包括一个或多个的原型，每一个都代表了各个书写变体的不同。因此，比如说，原型将会被用于解释尺寸形状，角度和其他方面的变化。

因此，对于同一类别中的很多原型，有可能被识别成相同的书写变体，并且，书写变体仿效特别字母的特别书写风格，鉴于每个原型代表了那种书写风格的例子。比如，在一个最近-邻居分类机，通常使很多原型来代表同一个类别，这些原型之间有所区别，同时这些原型仿效在同一类别内特征的多样性(比如翻译，旋转，切断等等。)相似地，同一书写变体的很多原型可以仿效该书写变体书写中的多样化。因此，分类机支持很多的字母类别，一个类别支持很多的书写变体，而一个书写变体可以支持很多的原型。

在这个过程中，通过计算每一个原型向量之间的距离和在特征空间之间输入特征向量来进行分类。这个距离代表了特征向量和原型向量之间的相似性，因此也代表了字符和各原型之间的相似性。然后处理器20根据最小的距离确定原型的类别为输入数据的标志。因此，处理器20通过最小距离值确定与特征向量相分离的原型向量，并利用这点来确定字符所代表的字母。

为了支持书写者-特别的书写变体的确定，每一个原型的距离值与权重因子相乘，该权重因子取决于它的书写变体类别。因此，具有很高权重的书写变体更不可能相匹配，因为较高的权重将会增加距离度量，因此减少权重而增加书写变体相匹配的可能性将，增加了权重而减少了匹配的可能性。

初始地，对于相同的无-零值(比如例1)所有书写变体的权重都是被预设的表明了没有书写者-特别参考对于一个书写变体是给定的。在这一点上，分类的系统是独立的。

加上权重，该距离值是为了欧几里得-距离最近一邻居分类机而计算的，该计算列举如下：

δ (x) = {\arg \min}_{i = 1}^{n} (D_{i} (x))

D_i(x)＝W_i×‖x-y_i‖

其中，y_i就是原型i的特征向量。

W_i就是原型i.的共有的书写变体权重

p_i∈(R^d，Ω)，

x就是输入特征向量，这样x∈R^d，

δ(x)is就是分类机的决策函数，这样δ(x)：R^d→Ω：

Ω就是类别，这样Ω＝{ω₁，...，ω_n}

{p₁，...，p_m}就是原型。

权重被确定用来影响用户所使用的书写变体。因此，处理器20进行权重改编来修改书写变体的权重，并且给书写变体以参考，以使得书写者更可以使用它。

因此，为一个输入的信号选择一个最匹配的原型显示了书写者使用了原型的书写变体。通常地，在一个简单的方法中，处理器20通过减少包括通过少量η(学习速率)选择的匹配原型的书写变体的权重来改变权重。相似地，处理器20以一个相似的总量增加在各个类别中剩余的书写变体的权重。在非匹配类别中的书写变体权重是不被修改的。

因此，对于匹配类别中每一个书写变体i：

W_i＝W_i-η如果i＝c

＝W_i+η否则

其中，c就是匹配原型的书写变体数量，并且η就是学习速率参数。

可以这样理解，即分类机将不可能总是与正确的类别相匹配。

一个例子，一个坏格式的“a”可能与“d”相匹配，这样会导致对减少的权重进行更新，该权重是书写者可能不使用的、“d”的书写变体的权重。然而，随后书写者所使用的“d”书写变体的正确匹配将会增加未使用的书写变体权重并且减少正确性的书写变体。

随后权重的修改应该缓慢，以避免不正确的分类给不正确的书写变体以太多的权重。然而，学习速率越高，则将会发生改编更迅速，结果是更高的识别准确性。因此就有必要来为学习速率的大小找到一个平衡。

可以这样理解，这可以通过使得该学习速率的大小对于用户可调来实施。因此，一般地被存储在数据库11中的学习参数η可以被用户调节，以允许学习速率可以被调节。这就允许用户建立一个希望的学习水平，而这样的学习水平如果有太多的不正确发生的时候是可以被降低的。

确保权重不是太大或太小也是比较恰当的。如果一个书写权重太小，那么那个书写变体(因此有可能是类别)的判定边界就可能侵占一个周边的类别，而这可能会引发分类机做出不正确的类别确定。因此，如果该权重增加太多，特征向量未必会比与其中包括的原型相匹配。在该实施例中，这将会导致整个的书写变体被匹配程序排除在外，尽管这些有被偶尔使用的机会。

通常地，如果修改会推动上述的权重在上升临界点之上，或者在降低临界点之下，则通常为权重提供较高或较低的临界点，使得该权重是被掌控在临界点上的。再次，如果需要的话，可以做准备以允许用户调节临界点。

确保权重不要太大，如果用户在以后的日子里改变了他们的写作风格，允许书写变体优先增加。

分类机决定区域上的书写变体的权重修改的效果在附图6中有所显示。特别地，当类别3中的权重增加了，则这将会推动初始判定边界5(实线部分)靠近类别4，从而形成了一个新的判定边界6(虚线部分)，这就使得类别3和类别4的匹配具有更高的可能性。

上述简单权重修改过程可以承受一系列的问题。

特别地，一系列的书写变体可能会几乎完全匹配(也就是，在特征向量和不同的书写变体距离之间只有很小的区别)，表明没有强有力证据证明使用书写变体而不用其他的。相反地，在书写变体痕迹上有很大的区别，表明了一个书写变体风格优先于另一个。

在第一种情况下，权重更新应该小，反映出缺乏对正确的书写变体识别的信任。比较起来，在第二种情况下，权重更新应该大，以确保书写变体可以被迅速识别和再优先考虑。

因此，权重应该将书写变体群的最小距离进行比较(也就是，每一个书写变体的最匹配原型的距离)，以及成比例地更新这些值的权重。以这种方式，书写变体被制作来跟另一个进行竞争，因为每一个书写变体距离结果都对剩余书写变体的权重修改有影响。

为了实施这种权重更新，处理器20首先确定包括字符的类别。这是通过如上述将处理器20设置于与字符最相似的原型之上来实现的。一旦这实现了，处理器20将执行为该类别中每一个书写变体群确定最小距离的操作。这通过为每一个书写变体确定特征向量和最近似原型向量之间的距离来实现。

处理器20随后就将确定类别中书写变体的最小距离意义平均数，并且使用这个来更新每一个权重。特别地，为特定书写变体所做的权重修改是基于书写变体最小距离之间以及平均数距离之间的区别之上的。为了确保很大的距离不会对平均数产生很大的变化所有的距离将会被转换成一个指数的格式，格式列举如下：

对于每一个匹配的类别中书写变体i：

M_{i} = \arg \min_{j}^{n} (D_{j})

E_{i} = e^{- M_{i}}

\overset{&OverBar;}{E} = \frac{Σ_{i}^{n} E_{i}}{n}

w_i＝w_i+η×( E-E_i)，

其中，η是学习率参数。

使用该程序，具有低于平均距离的最小距离的书写变体将会有更大的E_i值(因为当x→∞时，e⁰＝1和1im e^-x→0)，导致书写变体权重的消极更新，因为平均数将会小于E_i.。E_i.高于平均数距离越大，权重更新将会越大。

因此，匹配很差的书写变体将会随着权重增值进行更新，该更新增值取决于与平均数相比较E_i有多小。进一步地，模糊结果(最小书写变体距离没有很重大的不同)将会产生非常小的权重更新，因为所有的距离将不会离平均数太远。

上述的程序是自动的，因此不要求用户的介入。特别地，因为该过程是不受控制的，在做出不正确判定的情况下，无法得到来自用户或另一个来源的反馈，以达到正确的字符识别。

然而，如果可得到输入信号的识别额外信息(比如，上下文一语言(contextual-language)模式)，在权重的适应性修改过程中可支持一些监督(supervision)。在这种情况下，权重更新会延迟直至所有的识别程序都被执行了，最后的结果将可以被用于修改或验证分类机的非最终相似性度量(similarity metrics)。

比如说，权重更新将只在分类机判定与识别机产生的最后判定相匹配的时候被执行。因此如果分类机选择了字母“d”做为最可能的匹配，但是后来处理概括了字母真正的是“a”，那么权重更新将不会发生。

或者，大多数的识别机系统为字母选择产生某些种类的置信水平，而这可以与权重更新过程合成一体，这样就会使得更新与对字母正确和明确识别的信任水平成比例。

而且，用户需要提供反馈，如果处理器20确定了错误的字母用户可以将一个正确字母的标示，允许处理器20相应地来调整书写变体的权重。

相应地，上述的过程提供了字母书写变体的竞争性学习过程。这个适应性的学习过程能够通过最小化特别用户不使用的字母书写变体识别的可能性来提高手写字符识别系统的正确率。

比较适当的是，在上述的硬件实施中，权重被存储在数据库11中。相应地，可以根据用户辨别机来存储权重。这就允许不同的系列的权重与不同的用户被存储。依次地，这允许处理系统10被用来为一定数量不同的用户分类书写。在这样的情况下，每次来自不同用户的书写被分析，辨别机被用来为字符的辨别和随后的权重修改选择合适的权重。

依次允许一个单独的中心处理器10被选择来辨别从一定数量用户的书写。这可以使用，比如在计算机网络上、基本环境，比如互联网，从而允许一个单独的处理系统通过一个网址或其他的来分析不同用户递交的书写。

本发明也可以说广泛地涉及到包括部分、元素和特征，或者在本申请文件的说明书中所单独地或集体地引用或显示的特征，在任何或者所述两个或更多部分、元素或特征的组合，以及这里提及的本领域中与本发明有关的已知等同的特别完整物，尽管是分别提出的，但仍然可以被认为是等同的。

尽管已经详细描述了优选实施例，但需要理解的是，对于熟悉本领域的人员而言，可在不背离本发明上文和下文权利要求中所主张保护范围内进行各种变化、替代以及修改。

因此比如，代替修改书写变体的权重，该方法可以解决简单地将用户不使用的书写变体移走。这可能在个案分析基础上，因此在使用一个使用过的书写变体被确定后，所有其他的将被从类别中排除。或者，这可以跟权重修改相结合，也就是，如果书写变体的权重被修改得超过预期数目，书写变体将被从分类系统上移走。

Claims

1、一种对手写字符进行分类使得分类系统的用户独立的的分类系统的修改方法，所述分类系统包括多个书写变体，每一个书写变体代表一种各字母的各自风格，所述方法包括：

a)获得至少一个手写字符；

b)选择一个代表所述字符的书写变体；

c)按照选择修改一个或多个所述书写变体。

2、如权利要求1所述的方法，包括修改书写变体以反映所选择的与用户使用的各自字母风格相对应的书写变体。

3、如权利要求1或2所述的方法，所述分类系统包括多个类别，每一个类别代表一个单独字母并包括一个或多个书写变体，所述方法包括：

a)选择一个代表所述字符的类别，以确定所述字符代表的字母；以及，

b)在各自类别中修改一个或多个书写变体。

4、如权利要求1或3所述的方法，每一个书写变体包括一个或多个原型，每一个原型代表在各书写变体的多样性，所述方法包括：

a)对至少原型中的一些，根据字符的相似性和各原型确定一个选择值；以及

b)根据确定的选择值选择单独的一个原型。

5、如权利要求4所述的方法，包括根据选择的原型选择类别。

6、如权利要求4或5所述的方法，包括根据选择的原型选择书写变体。

7、如权利要求4到6的任何一项所述的方法，每个原型表示为一个原型向量，每一个原型向量由多个值组成，每个值定量各原型的各特征，确定选择值的方法包括：

a)确定一个代表字符的特征向量，所述特征向量由多个值组成，每个值定量各字符的各特征；以及

b)确定一个代表特征向量和各原型向量之间距离的距离值。

8、如权利要求1到7的任何一项所述的方法，每一个书写变体都包括关联权重，所述方法包括：

a)根据权重选择书写变体；以及

b)通过修改一个或多个书写变体的权重来修改书写变体。

9、如权利要求7和8所述的方法，根据距离值和与各书写变体相关的权重确定选择值。

10、如权利要求8或9所述的方法，包括修改至少包括被选择原型的书写变体的权重。

11、如权利要求8到10的任何一项所述的方法，包括选择具有最低选择值的原型。

12、如权利要求8到11的任何一项所述的方法，所述修改权重的方法包括下列的至少一个：

a)为包括被选择原型的书写变体降低权重；以及

b)为一个或多个不包括被选择原型的书写变体增加权重。

13、如权利要求12所述的方法，包括通过预定量增加和/或减少书写变体的权重。

14、当权利要求12从属于权利要求7时，如权利要求12所述的方法，包括：

a)为每一个要修改的书写变体选择一个参考原型；

b)为每一个参考原型确定距离值；

c)确定所述确定距离值的平均值；

15、如权利要求14所述的方法，所述参考原型是对各书写变体具有最低距离值的原型。

16、如权利要求1到14的任何一项所述的方法，通过使用处理系统来实施，所述处理系统包括：

a)存储器，存储代表书写变体的书写变体数据

b)处理器，用于：

I)获得手写字符；

II)选择书写变体；以及

III)修改一个或多个书写变体。

17、一种用于修改类别系统以对书手写字符进行分类以使分类系统用户变得非独立的装置，包括：

a)存储器，存储代表多个书写变体的书写变体数据，每一个书写变体代表各个字母的各自风格；以及

b)处理器，用于：

i)获得至少一个手写字符；

ii)选择一个代表所述字符的书写变体；

iii)修改书写变体数据，以根据选择来修改一个或多个书写变体。

18、如权利要求17所述的装置，所述书写变体数据包括与每个书写变体相关的权重，所述处理器用于通过修改权重修改书写变体数据。

19、如权利要求17或18所述的装置，所述存储器用于存储类别数据，所述类别数据代表多个类别，每个类别代表一个单独的字母且包括了一个或多个书写变体。

20、如权利要求17到19的任何一项所述的装置，所述存储器用于存储代表原型的原型数据，每一个书写变体包括一个或多个原型，每一个原型代表各书写变体的变化。

21、如权利要求17到20的任何一项所述的装置，所述处理器用于执行权利要求1到16的任何一项所述的方法。

22、一种使用一个用户非独立分类系统对手写字符进行分类的方法，所述分类系统包括多个书写变体，每一个书写变体代表各字母的风格，且具有代表用户依赖性的权重，每个书写变体包括一个或多个原型，每个原型代表各书写变体中的变化，所述方法包括：

a)获得至少一个手写字符；

b)为至少一些原型，根据字符的相似性和各原型确定一个选择值，书写变体的权重包括各原型；

c)根据所述确定的选择值选择一单独的原型；以及

d)根据所述选择的原型对所述字符进行分类。

23、如权利要求22所述的方法，每个原型表示为一个原型向量，每一个原型向量由多个值组成，每个值定量各原型的各特征，确定选择值的方法包括：

b)确定一个代表特征向量和各原型向量之间距离的距离值；

24、如权利要求22或23所述的方法，所述分类系统包括多个类别，每个类别代表各字母且包括一个或多个书写变体，所述方法包括根据选择的原型选择类别以确定由字符代表的字母。

25、如权利要求22到24的任何一项所述的方法，根据权利要求1到15的任何一项所述的方法对类别系统进行修改。

26、如权利要求22到25的任何一项所述的方法，包括使用处理系统，所述处理系统包括：

a)存储器，用于存储：

i)代表书写变体和相关权重的书写变体数据；以及

ii)代表原型的原型数据；以及

b)处理器，用于：

i)获得手写字符；

ii)确定选择值；

iii)选择原型；以及

iv)对字符进行分类。

27、一种使用用户非独立性分类系统对手写字符进行的装置，包括：

a)存储器，用于存储：

i)代表多个书写变体的书写变体数据，每个书写变体代表各字母的各风格和一个与各书写变体相关的权重，所述权重代表书写变体的用户非独立性；以及

ii)原型数据代表一个或多个原型，每个原型代表各书写变体中的变化；

b)处理器，用于：

i)获得至少一个手写字符；

ii)对至少一些原型，根据字符的相似性和各原型确定一个选择值，所述书写变体的权重包括各原型；

iii)根据所述确定的选择值选择单独的一个原型；

iv)根据所述选择的原型选择对字符进行分类。

28、如权利要求27所述的装置，所述存储器用于存储代表多个类别的类别数据，每个类别代表单独的字母且包括一个或多个书写变体。

29、如权利要求27或28所述的装置，所述处理器用于执行权利要求22到26的任何一项所述的方法。