CN101496036B

CN101496036B - 两层文本识别系统和方法

Info

Publication number: CN101496036B
Application number: CN2007800284942A
Authority: CN
Inventors: A·A·阿布杜勒卡德
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-07-31
Filing date: 2007-06-28
Publication date: 2012-09-19
Anticipated expiration: 2027-06-28
Also published as: KR20090035541A; KR101312804B1; IL196017A; IL196017A0; EP2047409B1; EP2047409A1; CA2654893A1; CN101496036A; JP5211050B2; WO2008016454A1; US20080025610A1; EP2047409A4; JP2009545807A; US7724957B2; CA2654893C

Abstract

提供了利用语言手迹的独特特性(例如，阿拉伯语的条件联接规则)来启用两层文本识别的系统和方法。在这一两层系统中，一层可识别基于与文本相关联的语言的联接规则来连接的预定链接字母组，而另一层将这些链接字母剖析(并识别)为形成该预定链接字母组的相应构成字母。各种分类器和人工智能组件可进一步促进每一层的文本识别。

Description

两层文本识别系统和方法

背景

计算机技术(例如，微处理器速度、存储器容量、数据传输带宽、软件功能等)的进步一般有助于各行业中的计算机应用的增长。例如，基于计算机的决策支持系统常用于诸如光学字符识别(OCR)等识别系统及相关的文本识别应用程序。

通常，扫描仪或光学成像器最初被开发成“数字化”图片(例如，将图像输入到计算系统中)。随后，这些系统被应用于其他印刷和排版材料，并且OCR系统逐渐扩展到多个计算机应用。一般而言，OCR技术被调节成识别受限的或有限的对可能字体类型的选择。一般而言，这些系统可通过将字符与预先存在的字体的数据库进行比较来“识别”字符。如果一字体被认为是不相干的，则OCR技术返回无法辨认或不存在的字符以指示无法识别这一不相干的文本。

此外，手写识别已证明是甚至比文本识别更具挑战性的场景。一般而言，一个人的笔迹例示通过书法显示的个人主义风格。因此，笔迹图案就其根本性质而言展示出不同的形式，即使是对于相同的字符。显然，为一特定字符存储每一个想得到的手写形式是不可行的。

已经开发了各种方法以识别与这些手写字符相关联的图案。大多数手写识别系统采用基于神经网络、隐马尔可夫模型(HMM)或K个最近邻居(KNN)方法的识别器。一般而言，这些系统在基于字符的总体外观来对其进行分类的任务方面执行得相当好。例如，可通过生成图案之间的距离度量来确定相似性等级。

然而，通常被称为离线手写识别的对图像中的手写文本的识别仍然是一具有挑战性的任务。在可高效地构建在商业上大规模可行的系统之前仍然有大量的工作要做。这些问题被诸如阿拉伯语、波斯语等非拉丁语/手迹进一步放大，其中对于解决所涉及的相关联的识别问题分配了较少的研究工作。

通常，大多数对阿拉伯语离线识别的研究已涉及数字和单一字符识别。存在解决阿拉伯语单词的离线识别问题的少许示例。最近对标准的可公开获得的手写阿拉伯语文本图像的数据库(例如，IFN/INIT数据库)的构造慢慢激起了对这些手迹/语言的进一步研究活动。

相反，对于拉丁手迹而言，基于隐马尔可夫模型(HMM)的方法主宰了离线草写单词识别领域。在一典型的设置中，提供词典来约束识别器的输出。然后可对于词典中的每一个单词构建HMM并计算相应的可能性(数据由该模型生成的概率)。一般而言，最有可能的解释然后被假定为正确的一个。

在少许已报告的阿拉伯语文本识别方法中，通常已采用了如拉丁文本识别方法的类似方法。而且，所执行的各种修改预处理和特征提取阶段以适应阿拉伯语书写手迹的不同特性的尝试未证明是高效的。此外，这些尝试一般而言没有出于识别目的利用诸如条件联接规则等阿拉伯语手迹的独特特性。

概述

以下提出了简化概述以便提供对在此描述的某些方面的基本理解。本概述并不是对所要求保护的主题的全面综述。它既不旨在标识出所要求保护的主题的关键或重要的要素，也不描绘其范围。其唯一的目的是以简化的形式来介绍一些概念，作为稍后提出的更为详细的描述的序言。

本发明能够通过采用两层方法来识别文本，其中一层识别基于与文本相关联的语言的联接规则来连接的预定链接字母组(单词子组)，而另一层将这些链接字母剖析成各个(形成该预定链接字母组的)构成字母，以便识别这些链接字母。例如，一识别层最初可标识基于阿拉伯语的条件联接规则预定义的用户定义的阿拉伯语文本词典(例如，阿拉伯语单词的一部分-PAW)。在确定了最佳匹配的PAW之后，另一层将该识别过程引导至形成这一PAW的字母搜索。因此，这一分层方法提供了更高的识别字母的可能性，因为搜索被缩小至预定的字母组合(单词子组)。

因此，本发明可将识别方法分解成可并排执行的两个过程。第一个过程将搜索约束于基于与文本相关联的语言的联接规则来连接的预定链接字母组。在第二个过程中，该搜索被约束于形成该预定链接字母组的各个字母。例如，在阿拉伯语中，搜索的第一个过程(例如，层一)由字母到PAW词典来约束。在层二中，该搜索由PAW到单词词典来约束。引导这些搜索的是基于神经网络的PAW识别器。

在一相关方面，用于实现该两层方法的系统可采用标识预定链接字母组(例如，标识PAW)的基于神经网络的文本识别器组件。此外，训练组件可训练该识别器组件以标识作为该预定组的一部分的其他字母组(例如，由于最初未定义链接单词组而在最初未识别出的PAW；诸如，外国名字、拼写错误等)。还可使用各种人工智能组件来促进本发明的各不同方面。

以下描述和附图详细阐明了所要求保护的主题的某些说明性方面。然而，这些方面仅指示了可采用该主题的原理的各种方法中的几种，且所要求保护的主题旨在包括所有这些方面及其等效方面。结合附图阅读下面的详细描述，则其他优点和新颖特征将变得清楚。

附图简述

图1示出了根据本发明的一方面的执行两层文本识别系统的示例性系统的框图。

图2示出了对于基于与文本相关联的语言的联接规则来连接的预定链接字母组的示例性关系。

图3a和3b示出了涉及启用本发明的各方面的阿拉伯语文本识别的条件联接规则的特定方面。

图4示出了可根据本发明的一方面来缓解的阿拉伯语文本的示例性识别错误。

图5示出了根据本发明的一方面的相关的两层文本识别方法。

图6示出了根据本发明的特定方面的描述预处理、规范化、分段、识别和搜索动作的相关方法。

图7a、7b和7c示出了根据本发明的一方面的对单词子组的各种场景的示例性标记。

图8示出了帮助识别基于相关联的语言的联接规则来连接的预定链接字母组的系统。

图9示出了根据本发明的一特定方面的采用人工智能组件的阿拉伯语文本识别系统。

图10示出了用于实现本发明的各方面的示例性操作环境。

详细描述

现在将参考附图描述本发明的各个方面，全部附图中相同的标号指的是相同或相应的元素。然而，应理解，附图及其有关的详细描述不旨在将所要求保护的主题限于所公开的具体形式。相反，其意图是覆盖落在所要求保护的主题的精神和范围内的所有修改、等效和替换方案。

最初参考图1，示出了根据本发明的一方面的文本识别系统100。这一识别系统100还包括标识基于与文本相关联的语言的联接规则连接在一起的预定义链接字母组(单词子组)的识别器组件110。同样，识别器组件112可识别形成该预定链接字母组的各个字母。因此，本发明可将识别方法分解成可并排执行的两个过程。第一个过程将搜索约束于基于与文本相关联的语言的联接规则来连接的预定链接字母组。在第二个过程中，该搜索被约束于形成该预定链接字母组的各个字母。

例如，识别器组件110可处理传入文本信号103或“视觉图案”，并且将这些图案与存储早先可基于与这一文本相关联的语言的规则来预定义的预定字母分组的数据库105进行比较。例如，识别器组件110可包括特征提取层和分类器层(未示出)。由此，识别器组件110可接收文本输入103(例如，二维位图输入图案)并提供这一图案匹配存储在存储介质105中的预定义连接字母组的图案的概率。文本输入103的传入信号可直接在该系统处输入或可经由远程链路(例如，网络或通信链路)来接收。

可以理解，文本识别系统100还可用于执行手写图案识别和/或字符识别。例如，图案可来自扫描的文档和/或可以是笔或鼠标迹线的二维位图投影。同样，这样的接收到的数据可以是来自用户的手写的任何字符和/或输入。例如，各种计算设备和/或系统利用手写输入，诸如，但不限于，图形输入板、便携式数据助理(PDA)、移动通信设备、指示笔、识别笔、具有触摸屏能力的交互式显示设备等。

在一个示例性方面，文本识别系统100基于卷积神经网络(CNN)体系结构来操作，如早先所解释的，该体系结构还可包括特征提取层和分类器层。一般而言，“卷积层”指的是其中一组(例如，特征映射)在不同的位置采用基本上相同的一组系数或权重以修改接收到的输入的神经网络组件。各组(例如，各特征映射)使用不同的各组系数也是有可能的。因此，这些组(例如，特征映射)可从所接收到的输入中提取不同的特征。特征提取层的输出可连接至分类器层。因此，文本识别系统100可诸如利用互熵错误最小化来从输入训练数据中学习。例如，文本识别系统100可使用最小化互熵错误的随机梯度下降来训练。

此外，如果数据被识别器组件110和/或识别器组件112认为是有歧义的，则可采用利用用户专用后处理器技术来对字符和/或图像进行分类的“混淆规则”。因此，可在本发明中利用不同类型的后处理器分类，诸如MLLR(最大似然线性回归)自适应密度模型、直接密度模型和直接区别模型等。这一采用不同模型和分类器的灵活性允许本发明容易地与现有手写识别技术集成。由此，本发明可利用基于来自多个用户的整体观察的通用分类器和/或已通过除了本发明中的用户专用分类器之外的装置从通用分类器改装的用户专用分类器以增强手写识别系统标识来自特定用户的数据的能力。

图2示出了基于与文本相关联的语言的联接规则来连接的预定链接字母组的示例性说明200。例如，子组202、204、206、208(W₁到W_n，n是整数)涉及基于与这一文本的书写相关联的语言的联接规则链接在一起的一组联接字母(例如，单词子部分)。此外，还可采用概率方法来作为创建/定义这些链接字母202、204、206和208的准则，其中链接字母在其在书写样本中出现超过一预定频率的情况下被标识。

例如，阿拉伯语的字母表由28个基本字母组成，其中手迹是草写体并且所有主要字母都具有对于其字形的条件形式，这取决于它们在单词的开头、中间还是末尾。可展示一字母的多达四种不同的形式(词首、词中、词尾或隔离)。此外，只有六个字母，即：

具有或者隔离或者词尾形式并且不具有词首或词中形式。这些字母在后面跟随另一个字母的情况下通常不与之联接。因此，一般而言，下一个字母只可具有其词首或隔离形式，即使它不是单词的首字母。这一规则应用于数字和非阿拉伯字母，并且通常被称为条件联接。图3a和3b示出了阿拉伯语手迹中的示例性条件联接特性。图3a示出了跟随在一联接字母之后的词尾形式的字母。同样，图3b示出了跟随在一非联接字母之后的隔离的词尾形式的相同字母。这一条件联接特性允许定义阿拉伯语单词的一部分(PAW)，其中PAW是联接在一起的阿拉伯语字母序列。一般而言，任何阿拉伯语单词都可被确定性地分段成一个或多个PAW。

此外，给定阿拉伯语书写手迹的这一条件联接特性，单词可被视作由PAW序列组成。换言之，PAW可被认为是替换字母表。构成单词词典的唯一PAW 的数目可限于有限数目，例如，随着词典中的单词数量次线性增长。因此，根据本发明的一具体方面，阿拉伯语单词词典然后可被分解成两个词典。一个是PAW到字母词典，其按照字母表列出所有唯一PAW及其拼写。另一个是单词到PAW词典，其按照PAW字母表列出所有唯一单词及其拼写。

因此，找到对于图像的最佳匹配词典条目的方法可被分解成可同时执行的两个互相成对的(intertwined)过程。一个过程是找到由PAW到字母词典约束的从字符到PAW的最佳可能映射。另一个过程是找到由单词到PAW词典约束的从PAW到单词的最佳可能映射。

这一两层方法可缓解识别错误。例如，词典可约束识别过程的输出，并且多个字符识别错误也可在PAW识别阶段中解决。图4示出了可根据本发明的一方面来缓解的示例性识别错误。如图4所示，预期是

的第二个字母404不太可能被字符识别器如此标识/建议-假定它写得非常糟糕。因此，PAW 的图像可能与作为有效词典PAW的

相混淆，但能够容易地在例如识别阶段被挑选出。可以理解，PAW在单词中的出现概率以及各自的使用频率也可由PAW识别器组件用来偏爱更频繁地出现的PAW。这些先验概率通常可被视作驱动识别过程的语言上的n元语法字符模型。

图5示出了根据本发明的一个方面的相关方法500。虽然该示例性方法此处被示出并描述为表示各种事件和/或动作的一系列框，但本发明并不受所示出的这些框的排序的限制。例如，根据本发明，除了在此示出的次序之外，某些动作或事件可以按不同的次序发生和/或与其他动作或事件同时发生。此外，不是所有示出的框、事件或动作都是实施根据本发明的方法所必需的。此外，将会认识到根据本发明的该示例性方法和其他方法可以与在此图示并描述的方法相关联地实现，也可与未示出或描述的其他系统和装置相关联地实现。最初在510处，由本发明的文本识别系统来接收需要识别的文本输入。这一输入可经由直接在该系统处输入或经由远程链路(例如，网络或通信链路)接收的传入信号来接收。接着在520处，将所输入的图像与基于与该文本相关联的语言的联接规则来连接的预定链接字母组进行比较。在这一比较之后且在530处，然后选择最有可能的匹配。随后，作为本发明的另一识别层的一部分，将这一链接字母的最有可能的匹配与形成该预定链接字母组的构成字母进行比较。因此，这一分层方法提供了更高的识别字母的可能性，因为搜索被缩小至单词和字母的预定组合。

图6示出了根据本发明的一特定方面的描述预处理、规范化、分段、识别和搜索动作的相关方法600。在610处，接收到的图像通过图像二进制化、裁切、词划分、降噪等基本处理。随后在620处，可检测连接的单词子组(例如，基于与该文本相关联的语言的联接规则来连接的预定链接字母组)。例如，获得宽度和高度都低于特定阈值的连接的单词子组。框620可担当附加降噪。

连接的单词子组随后可基于其最右边的点从右到左排序。这使得本发明的搜索算法能够以近似书写次序的次序按顺序通过该单词子组。在630处，然后可标记连接的单词子组(例如，标记为“主要的”和“次要的”)。标记可通过检测连接的单词子组之间的相对水平重叠并且对单词子组应用安全阈值来执行，如图7所示的。

例如，每一个次要的连接子组都可与一主要的连接子组相关联，并且通常没有次要的分量可单独存在。在640处，为了650处的预定义单词子组(例如，PAW)的神经网络分类器识别可提取关于图像输入的特征。例如，可采用两个神经网络PAW分类器。第一个分类器可由卷积神经网络组成，其中缩放所输入的图像以适应固定大小的网格，同时维持其高宽比。因为PAW中的字母数量可从1到8变化，所以网格高宽比通常被选成足够宽以容纳最宽的可能PAW，并且仍然维持其清晰度。第二个分类器可基于从构成PAW的连接的字母(子单词组)的方向码中提取的特征。例如，对于阿拉伯语，这两个分类器中的每一个都可具有762个输出，这些输出都可用反映PAW在单词词典中的预定分布的训练集来训练。

如在上文中所详细解释的，本发明将单词词典分解成两个词典，即字母到PAW词典和PAW到单词词典。字母到PAW词典用于约束PAW识别器的输出，而PAW到单词识别器用于约束对最佳匹配单词的搜索。

此外，可结合本发明来使用试探功能(例如，最佳优先搜索、定向搜索)。例如，定向搜索可用于通过使用PAW识别器的输出作为搜索试探来找到对于图像的最佳匹配单词。该搜索按顺序通过连接的单词子组，并且考虑或者开始一新的PAW或者将该组添加到现有PAW。可保留由PAW识别器产生的可能PAW的列表及其相应的后验概率。不同的连接的子组单词到PAW的映射可被保存在可能分段的点阵中。在按顺序通过所有组之后，可评估最佳可能分段并将其选为获胜的假设。

例如，通常为了确保点阵中的分段概率不爆发，采用两个试探，其中可将每个PAW的连接的单词组的最大数量设限为例如4(基于训练数据根据经验确定的)。此外，在该点阵中的每一步骤处，然后可剪除具有比最有可能的分段低预定阈值的概率的分段概率。

图7a、7b和7c示出了根据本发明的一方面的对单词子组的各种场景的示例性标记。图7a示出了其中单词/连接的单词子组中的每一个702、704、706和708实际上都是PAW的情况。通常，这一场景占到阿拉伯语文本中的单词总数的将近65％。同样，图7b示出了其中PAW被分成两个组710、712的情况，其中这两个组710、712的组合可对应于单个PAW(例如，过度分段 (over-segmentation)情况)。这一场景通常在单词总数中出现30％左右。类似地，图7c示出了其中子组720实际上是互相接触的两个PAW的场景。一般而言，这些情况构成5％左右的情况。为了解决这一其中多于一个PAW被分段为一个连接的单词组720的分段不足(under-segmentation)的情况，可包括一附加动作并且在该点阵中的获胜分段路径的概率低于预定阈值的情况下触发该动作。因此，当触发时，可以对连接的单词子组的各个PAW识别结果执行维特比(Viterbi)搜索。在该搜索中计算PAW到单词词典中的每一个与识别结果之间的编辑距离。PAW插入和删除两者都被允许具有与各自相关联的惩罚。

现在转到图8，示出了根据本发明的一方面的利用经异形字训练的分类器来帮助识别与手写相关联的(基于语言的联接规则来连接的)预定链接字母组和/或字母的系统800。系统800可包括可用异形字数据来训练分类器(未示出)的个性化组件802，其中这一训练帮助识别手写字符。例如，异形字数据可以是关于手写风格的自动生成的和/或手动生成的数据。个性化组件802可经由接口组件804接收手写字符和/或关于手写样本的数据，并提供至少部分地基于在分类器的训练中对异形字数据的采用的优化的手写识别。例如，接收到的数据可以是任何字符和/或单词子组，如将在下文中详细描述的。例如，各种计算设备和/或系统利用手写输入，诸如图形输入板、便携式数据助理(PDA)、移动通信设备、指示笔、识别笔、具有触摸屏能力的交互式显示设备等。

个性化组件802可提供书写者自适应，其中书写者自适应可以是将通用(例如，书写者无关的)手写识别器转换为对于任何特定用户的具有改进的准确度的个性化的(例如，书写者相关的)识别器的过程。个性化组件802可以用来自特定用户的少许样本来实现该自适应技术。

异形字数据可以手动地、自动地和/或两者兼而有之地生成。例如，异形字数据可采用任何合适的聚类技术来自动生成。因此，可实现用于通过聚类来从手写字符中标识异形字(例如，字符形状和/或样式)的自动化方法。在另一示例中，异形字数据可利用手写专家来提供与手写相关联的类型和/或样式来手动提供。

此外，个性化组件802可用异形字数据来训练分类器并结合基于非异形字的分类器来实现这些结果，以便提供优化的手写识别。个性化组件802可无缝地与现有识别器(例如，手写字符识别器)集成并采用来自个体的新样本来对称地(equilaterally)改进它。例如，个性化组件802可将字母和/或字符与特定样式和/或异形字进行匹配，而不是简单地匹配字母。因此，个性化组件802可利用可在给定来自用户的书写样本和/或示例的情况下学习的映射技术和/或功能。个性化组件802可利用来自常规和/或传统分类器的输出来应用该映射功能和/或技术以提供每一个字母和/或字符的概率以便优化手写识别。

此外，系统800可包括任何合适的和/或必要的接口组件804，它提供了将个性化组件802集成到实际上任何操作和/或数据库系统中的各种适配器、连接器、通道、通信路径等。此外，接口组件804可以提供允许与个性化组件802、数据、手写数据、与优化的手写识别相关联的数据、以及优化的手写识别交互的各种适配器、连接器、通道、通信路径等。

图9示出了根据根发明的一方面的阿拉伯语文本识别系统900，其中这一系统利用阿拉伯语书写手迹中的字母的条件联接特性来将识别过程分解成可同时解决的两个识别过程。通过使用基于神经网络的PAW识别器，执行两层定向搜索以找到对于输入图像的最佳匹配单词。此外，可以使用人工智能(AI)组件902来促进识别过程。如此处所使用的，术语“推断”通常指的是根据经由事件和/或数据捕获的一组观察结果来推出或推断系统、环境、和/或用户状态的过程。例如，推断可用于标识特定的上下文或动作，或可生成状态的概率分布。推断可以是概率性的，即，基于对数据和事件的考虑计算所关注状态的概率分布。推断也可以指用于从一组事件和/或数据合成更高级事件的技术。这类推断导致从一组观察到的事件和/或储存的事件数据中构造新的事件或动作，而无论事件是否在相邻时间上相关，也无论事件和数据是来自一个还是若干个事件和数据源。

例如，如早先所解释的，识别PAW和/或各个构成字母的过程可经由自动分类器系统和过程来促进。分类器是将输入属性矢量x＝(x1，x2，x3，x4，xn)映射到该输入属于一个类的置信度的函数，即f(x)＝confidence(class)。这一分类可采用基于概率和/或基于统计的分析(例如，分解成分析效用和成本)来预测或推断用户期望自动执行的动作。

支持向量机(SVM)是可采用的分类器的一个示例。SVM通过找出可能输入空间中的超曲面来操作，其中，超曲面试图将触发准则从非触发事件中分离出来。直观上，这使得分类对于接近但不等同于训练数据的测试数据正确。可采用其它定向和非定向模型分类方法，包括，例如，朴素贝叶斯、贝叶斯网络、决策树、神经网络、模糊逻辑模型以及提供不同独立性模式的概率分类模型。此处所使用的分类也包括用于开发优先级模型的统计回归。

如从本说明书中可以容易地理解，本发明可以使用显式训练(例如，经由一般训练数据)以及隐式训练(例如，经由观察用户行为、接收外来信息)的分类器。例如，SVM经由分配器构造器和特征选择模块中的学习或训练阶段来配置。因此，可使用分类器来自动地学习和执行多个功能，包括但不限于根据预定准则来确定何时更新或细化先前推断的模式，基于正在处理的数据种类(例如，金融还是非金融、个人还是非个人)使关于推断算法的准则更严格，以及一天中何时实现更严格的准则控制(例如，在系统性能受到影响较小的晚上)。

参考图10，用于实现此处所公开的各方面的示例性环境1010包括计算机1012(例如，台式机、膝上型计算机、服务器、手持式、可编程消费或工业电子产品...)。计算机1012包括处理器单元1014、系统存储器1016和系统总线1018。系统总线1018将包括但不限于系统存储器1016的系统组件耦合到处理单元1014。处理单元1014可以是各种可用处理器中的任意一种。双微处理器和其它多处理器体系结构(例如，多核)也可用作处理单元1014。

系统总线1018可以是若干类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各种可用的总线体系结构中的任一种的局部总线，可用的总线体系结构包括，但不限于，11位总线、工业标准体系结构(ISA)、微通道体系结构(MCA)、扩展的ISA(EISA)、智能驱动器电子接口(IDE)、VESA局部总线(VLB)、外围部件互连(PCI)、通用串行总线(USB)、高级图形接口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)以及小型计算机系统接口(SCSI)。

系统存储器1016包括易失性存储器1020和非易失性存储器1022。基本输入/输出系统(BIOS)包含诸如在启动期间在计算机1012的元件之间传送信息的基本例程，其存储在非易失性存储器1022中。作为说明而非局限，非易失性存储器1022可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或者闪存。易失性存储器1020包括用作外部高速缓冲存储器的随机存取存储器(RAM)。

计算机1012还包括可移动/不可移动、易失性/非易失性计算机存储介质。例如，图10示出了大容量或辅助存储1024。大容量存储1024包括但不限于诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡、或者记忆棒之类的设备。此外，大容量存储1024可以包括独立的或者与其它存储介质结合的存储介质，其他存储介质包括但不限于诸如紧致盘ROM设备(CD-ROM)、可记录CD驱动器(CD-R驱动器)、可重写CD驱动器(CD-RW驱动器)或者数字多功能盘ROM驱动器(DVD-ROM)这样的光盘驱动器。为了便于将大容量存储设备1024连接到系统总线1018，通常使用诸如接口1026等可移动或不可移动接口。

可以理解，图10描述了用户与在合适的操作环境1010中描述的基本计算机资源之间担当中介的软件。这样的软件包括操作系统1028。可被存储在大容量存储1024并加载到系统存储器1016的操作系统1028用来控制和分配系统1012的资源。系统应用程序1030通过存储在系统存储器1016中或大容量存储1024上的程序模块1032和程序数据1034来利用操作系统1028对资源的管理。可以理解，本发明可用各种操作系统或操作系统的组合来实现。

用户通过输入设备1036把命令或信息输入到计算机1012中。输入设备1036包括但不限于诸如鼠标、跟踪球、指示笔、触摸垫等定点设备、键盘、话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、TV调谐卡、数码相机、数码摄像机、网络摄像头等等。这些以及其它输入设备通过系统总线1018经由接口端口1038连至处理单元1014。接口端口1038包括，例如串行端口、并行端口、游戏端口、以及通用串行总线(USB)。输出设备1040利用和输入设备1036相同类型的某些端口。因此，例如，USB端口可以用来向计算机1012提供输入，以及把来自计算机1012的信息输出到输出设备1040。提供输出适配器1042是为了说明除了输出设备1040之外还有一些像显示器(例如，平板、CRT、LCD、等离子...)、扬声器、以及打印机这样的需要专用适配器的输出设备1040。输出适配器1042包括，作为说明而非局限，提供输出设备1040和系统总线1018之间的连接手段的显卡和声卡。应该注意到，其它设备和/或设备系统提供了输入和输出能力，诸如远程计算机1044。

计算机1012可以使用至诸如远程计算机1044等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机1044可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或者其它常见的网络节点等，且通常包括相对于计算机1012所描述的很多或者全部元件。为了简明起见，对远程计算机1044仅示出了存储器存储设备1046。远程计算机1044经由网络接口1048被逻辑地连接到计算机1012，并且然后经由通信连接1050物理地连接(例如，有线或无线地)。网络接口1048涵盖诸如局域网(LAN)和广域网(WAN)这样的通信网络。

通信连接1050指的是用于把网络接口1048连接到总线1018的硬件/软件。虽然为了清楚地举例说明，通信连接1050被示为在计算机1016的内部，但其也可以在计算机1012的外部。连接至网络接口1048所需的硬件/软件仅为示例性目的包括内部和外部技术，诸如包括常规电话级调制解调器、电缆调制解调器、电源调制解调器和DSL调制解调器等调制解调器、ISDN适配器以及以太网卡或组件。

以上所已经描述的内容包括所要求保护的主题的各方面的例子。当然，出于描绘所要求保护的主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护的主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。而且，就在详细描述或权利要求书中使用术语“包含”、“具有”或“含有”或其形式的变型而言，这样的术语旨在以类似于术语“包括”在用作权利要求书中的过渡词时所解释的方式为包含性的。

Claims

1.一种帮助文本识别的系统，包括：

用于识别基于与所述文本相关联的语言的联接规则来预定义的单词组(202、204、206、208)的识别器组件(110)，所述联接规则定义阿拉伯语单词的一部分PAW，所述识别器组件通过检测连接的单词组之间的相对水平重叠并且对单词组应用安全阈值来标记连接的单词组，并且从所述文本提取特征以利用第一分类器和第二分类器来识别所述文本的单词组，所述第一分类器缩放所述文本以适应固定大小的网格同时维持所述文本的高宽比，所述第二分类器基于从构成PAW的单词组的方向码中提取的特征；以及

用于识别形成所述单词组(202、204、206、208)的构成字母的另一识别器组件(112)。

2.如权利要求1所述的系统，其特征在于，所述识别器组件和所述另一识别器组件是基于神经网络的。

3.如权利要求1所述的系统，其特征在于，还包括用异形字数据来训练相关联的分类器的个性化组件。

4.如权利要求3所述的系统，其特征在于，所述异形字数据表示手写风格。

5.如权利要求3所述的系统，其特征在于，所述个性化组件包括将书写者无关的手写转换成对于用户的个性化手写的自适应特征。

6.如权利要求1所述的系统，其特征在于，还包括进一步促进文本识别的人工智能组件。

7.如权利要求1所述的系统，其特征在于，所述识别器组件具有定向搜索能力。

8.如权利要求5所述的系统，其特征在于，所述个性化组件包括提供字母出现概率的映射特征。

9.一种识别文本的方法，包括：

将文本输入与基于所述文本的语言的联接规则来连接的预定义链接字母组(202、204、206、208)进行比较；

从所述预定义链接字母组(202、204、206、208)中选出可能的匹配(530)；

将可能的匹配与构成字母进行比较(540)；

通过检测所述文本的链接字母之间的相对水平重叠并且对单词组应用安全阈值来标记链接字母；以及

从所述文本中提取特征以利用第一分类器和第二分类器来识别所述文本的链接字母，所述第一分类器缩放所述文本以适应固定大小的网格同时维持所述文本的高宽比，所述第二分类器基于从所述链接字母的方向码中提取的特征。

10.如权利要求9所述的方法，其特征在于，还包括采用维特比搜索。

11.如权利要求10所述的方法，其特征在于，还包括确定过度分段的场景。

12.如权利要求10所述的方法，其特征在于，还包括基于异形字数据来训练分类器。

13.如权利要求12所述的方法，其特征在于，还包括基于所述训练动作来优化手写识别。

14.如权利要求13所述的方法，其特征在于，还包括将通用手写转换成个性化手写。

15.如权利要求14所述的方法，其特征在于，还包括基于字母到特定样式的映射来匹配字母。