CN1110002C - 提高单词辨识率系统与方法 - Google Patents

提高单词辨识率系统与方法 Download PDF

Info

Publication number
CN1110002C
CN1110002C CN 98119414 CN98119414A CN1110002C CN 1110002 C CN1110002 C CN 1110002C CN 98119414 CN98119414 CN 98119414 CN 98119414 A CN98119414 A CN 98119414A CN 1110002 C CN1110002 C CN 1110002C
Authority
CN
China
Prior art keywords
word
letter
identification result
identification
discrimination power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 98119414
Other languages
English (en)
Other versions
CN1249484A (zh
Inventor
何代水
蔡世光
潘卫军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN 98119414 priority Critical patent/CN1110002C/zh
Publication of CN1249484A publication Critical patent/CN1249484A/zh
Application granted granted Critical
Publication of CN1110002C publication Critical patent/CN1110002C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种提高单词辨识率的系统与方法,是在传统的单词辨识系统中增加一辨识数据储存装置,用以储存字形辨识与校正所需的相关数据。每一个输入单词所包含的字母皆利用字形比较的方式加以辨识,而当输入单词的辨识结果包含不存在的单词时,将对该辨识结果进行校正。该辨识结果所包含的单词将与校正规则索引表所储存的字形,以相似字母或字串取代的方式来进行校正,而每个单词所包含的字母,皆可在校正规则索引表中找出替代字串或字母以组成新单词,并由新单词中寻找一最可能的候选词并显示。

Description

提高单词辨识率系统与方法
本发明有关于一种用以提高单词辨识率的系统与方法,特别是指可在手写板输入单词或扫描器输入文件时,利用字形比较与相似字母取代的方式,来提高单词辨识率的辨识系统与其运作方法。
目前的电脑与电子相关产品已广泛地应用于各种产业以及人们的日常生活之中,而所有的使用者与电脑间的沟通媒介中,最重要亦为最基本的方法即利用键盘或鼠标来输入相关的指令或数据给电脑。此外,在文字输入方面,近来亦发展语音合成器,以及运用手写板或扫描器来作为另一种文字输入工具,因此手写辨识装置或光学符号辨识装置等文字辨识装置的辨识效率,便成为一极受关切的课题。
然而传统的单词辨识系统,诸如英文单词辨识系统等,其使用单词的拼音校正来辨识所输入的单词(例如输入“telefone”时,可辨识为“telephone”),或以输入单词的整体字形来取得一最相近的单词(例如“duta”将被辨识为“dute”),故所需的演算法不仅复杂,辨识速率慢且辨识率也不高。再者,由于每个人所手写的字形或扫描器品质的不同,将使输入的字形产生极大的差异性,所以利用拼音校正或整体字形来辨识所输入的单词,便不是一个合适的辨识方法。因此,需一种能够使用于手写辨识装置与光学符号辨识装置中,用以提高单字辨识率的系统与方法,用以克服传统技术所面临的问题。
鉴于上述发明背景中,传统的单词辨识系统使用字音的拼音或整体字形校正来辨识所输入的单词,不仅辨识速度慢且辨识率也不高,本发明即针对上述缺点,提出一用以提高单字辨识离的系统与方法,用以克服传统技术所面临的难题。
本发明所揭示的用以提高单词辨识率的系统与方法,在传统的单词辨识装置中增加一辨识数据储存装置,用以储存字形辨识与校正所需的相关数据。每一个输入单词的字母皆利用字形比较的方式进行辨识,而在需要对单词的辨识结果进行校正时,则将该单词与校正规则索引表所储存的字形,以相似字母或字串取代的方式来进行,而每个单词所包含的字母,皆可在校正规则索引表找出替代序列或字母以组成新单词,再由该新单词中寻找一最可能的候选单词并显示。
本发明的较佳实施例将于此后的说明文字中辅以下列附图做更详细的描述。
图1为本发明较佳实施例中,提高单词辨识率系统的结构方块图;
图2为一流程图,描述本发明所揭示的提高单词辨识率的方法;
图3描绘对单词进行校正的操作流程图;
图4描绘对单词进行单字母校正的操作流程图;
图5描绘对单词进行多字母校正的操作流程图;
图6为本发明较佳实施例中所使用的单字母校正规则索引表;
图7为本发明较佳实施例中所使用的多字母校正规则索引表;
图8A描绘在手写板输入一英文单字的情形;
图8B描绘以图8A为输入单词,于本发明较佳实施例中所产生的辨识结果;
图9为字母的辨识距离的示意图;
图10A描绘手写输入另一个英文单字时的情形;
图10B描绘以图10为输入单词,在本发明较佳实施例中所产生的辨识结果。
图1描绘本发明较佳实施例中,提高单词辨识系统的结构方块图,其以笔式输入装置102输入使用者的手写单词,所输入的单词被送往处理装置103中加以辨识处理,所需的辨识数据将由辨识信息储存装置105读出。当该辨识结果不须校正时,该辨识结果将被显示于显示装置104上。当辨识结果需要校正时,该辨识结果所需的校正数据,亦由辨识信息储存装置105读出,并送往处理装置103作处理,以产生校正结果,最后亦将该校正结果显示于显示装置104中。此外,处理装置103在辨识与校正过程中所产生的暂态信息则储存于存储装置101之中。
上述的存储装置101可以是随机存取存储器(RAM);笔式输入装置102可以是一物写板;处理装置103则包含一中央处理单元(CPU);辨识信息储存装置105则可以利用非挥发性存储器,诸如只读存储器(ROM)、可编程只读存储器(PROM)、可擦除编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、或快擦写存储器(Flash memory)来组成;显示装置104则可以是电脑的屏幕。此外,图1所示的结构方块图中,可以将笔式输入装置102与辨识信息储存装置105分别用一扫描输入装置与光学字符辨识装置来取代,用以由扫描器中扫描文件,并进行本发明所揭示的字形辨识程序。
图2为一流程图,描述本发明较佳实施例中,用以提高单词辨识率的方法,它运用手写板输入英文单词的方式来说明。当英文单词由手写板输入时(步骤201),该英文单词将先以字形比较的方式产生一辨识结果(步骤202)。若该辨识结果正确无误(步骤203),亦即可以在字库中找到该辨识结果所对应的英文单词时,将直接显示该对应的英文单词(步骤205);但是当该辨识结果有错误存在时(步骤203),则无法由该辨识结果得知所输入的英文单词为何,所以需要对该辨识结果加以校正(步骤204)。同样的,在校正辨识结果后亦将向使用者显示校正结果(步骤205)。
上述步骤202在输入单词中,对单词以逐字比较的方式进行,但是手写单词可能将两个字母写得太近或太开,因此将对辨识结果造成影响,为区别单词中两个字母是否为同一个字母,可定义一辨识距离来做区分。以图9为例,假设左半连的“ c”字的中心点为A,而右半边“l”字的中心点方B,则“c”与“l”的辨识距离将为线段AB的长度。因此,当线段AB的长度容差限度为大时,表示图9所示的为“c”与“l”两个分开的字母;而当线段AB的长度较容差限度为小时,表示图9所示的应为单一的“d”字母。
在本发明所揭示的方法中,当英文单词需要校正时,需执行单字母校正与多字母校正的程序,而图3、4和5则分别描述校正的的总观、以及单字母与多字母的校正流程。此外,由于每个人所写出的字体皆不相同,甚至每次书写的字体亦不尽相似,因此所产生的辨识结果亦有极大的变化。故本发明对所有手写单词所可能产生的字母组合加以分类,并进一步产生单字母校正表与多字母校正表的分类表。
以图6所描绘的英文字母的单字母校正表而言,每个在单字母校正表中的单字母皆至少包含一个相似字母,例如手写的字母“e”往往与字母“c”、“l”相近,所以在辨识时被辨识为“c”、“l”的机率就相对提高;同样的,字母“d”亦可能被辨识成“a”、“u”或“g”。此外,多字母校正表指与多字母字串相似的单字母,其形成原因即在于使用者往往把一个单字母写得较开,以致于被辨识为两个英文字母。以图7所描绘的英文字母的多字母校正表而言,所辨识的“cl”往往是将“d”、“a”、或“u”字写得太开的结果,所以在辨识时就可能被辨识为“cl”;同样的,辨识结果中的“cc”也有可能是“a”、“u”、或“d”。
图3描绘对英文单词进行校正的总体流程图。首先将在辨识结果中,依据字母相似度与前后字母的搭配产生单词序列(步骤301),接着再对该单词序列执行单字母校正(步骤302)与多字母校正(步骤303),再依照校正结果产生候选单词序列(步骤304),并于该候选单词中挑选机率最大的英文单词为候选字并输出(步骤305)。此外,步骤302与步骤303的单字母与多字母的校正流程,即分别运用描绘于图6与图7单字母与多字母校正表来产生新单词序列。
单字母校正流程利用图4来描述,该单字母校正流程对辨识结果以逐字校正的方式进行,一直到最后一个字母被校正为止(步骤401)。在步骤402中,除了计算每个字母的相似率,以决定该字母是否可能被辨识错误之外,亦将检查该字母是否与前后连接的字母产生不相符的情形。当然,若一字母的相似率高于一容差限度,而且该字母与前后字母的搭配皆符合文法规则时,将直接进行下一个字母的校正(步骤406)。而当相似率低于该容差限度或前后字母不搭配时,将查询一单字母校正表,以取出该字母的相似字母(步骤403),随后再利用该相似字母产生新单词(步骤404),并在除去不存在的单词后(步骤405),对下一个字母进行校正(步骤406)。
多字母校正流程利用图5来描述,首先将在辨识结果中找寻需校正的字串(步骤501),并将该字串以相对应的相似字串取代(步骤502),进而产生一些新单词(步骤503),随后并天新意识除去所有不存在的单词(步骤504)。
谨列举一些实施例以对上述流程做进一步的说明。以图8A为例,它是在手写板上输入“data”,但是第一个“a”字被写得有点象“d”,所以在步骤202极可能将“data”辨识为“ddta”,其为不存在的英文单词,所以需执行步骤204以对辨识结果“ddta”进行校正。首先进行的为图4所示的单字母校正程序,其将在步骤402中发现第二个“d”的辨识率较低,所以将以“d”的相似字母来产生新单词,由于“d”的相似字母有“a”、“u”或“q”,所以产生了“data”、“duta”、与“dqta”三个新单词,由于在上述三个新单词中仅“data”为真正存在的单词,所以校正结果即为“data”,并将校正结果“data”输出给使用者,正如图8B所示。
再者,若在手写板输入如图10A所描绘的“double”,但是“d”被写得较分开,因此在步骤202中所产生的辨识结果即为“clouble”。由于“clouble”不是个正确的英文单词,所以必须执行步骤204的校正程序。因为在单字母校正程序(即步骤302)中无法获得正确的校正结果,所以将以多字母校正程序(步骤303)所获得的校正程序为输出。在多字母校正过程中,由于“cl”可在图7中查得对应的相似字母“d”、“a”与“u”,故可产生“double”、“aouble”与“uouble”三个新单词,而在上述三个新单词中仅“double”为正确的单词,所以将输出“double”为校正后的结果,其显示图形如图10B所示。
明显地,在本发明中只需对图8A的手写单词进行三次字母替代步骤(vcb tjh et“a”、“u”或“q”),即可获得“data”的校正结果。再者,本发明能于图10A的手写输入下,仍可获得正确的校正结果“double”,故辨识放能大为提高。
综上所述,本发明所揭示的用以提高单词辨识率的装置与方法是利用字形比较与相似字母取代的方式来进行辨识与校正,当需对输入单词辨识结果进行校正时,将该输入单词与校正规则索引表所储存的字形进行比较,而每个输入单词所包含的字母,皆可在该校正规则索引表找出替代字串或字母以组成新单词,在判断所组成新单词的正确性后,再找出一最可能的候选单词,并显示。
以上所述仅为本发明的较佳实施例而已,并非用以限定本发明的保护范围;凡其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在下述权利要求范围内。

Claims (26)

1、一种提高辨识率的方法,该方法至少包含下列步骤:
输入一单词;
对该单词以字形比较的方式产生一辨识结果;
其特征在于,还包括:
当该辨识结果包含不存在的单词时,利用字形比较与相似字形取代的方式对该辨识结果进行校正,以产生一校正结果;及
显示该校正结果所包含的单词。
2、如权利要求1所述的方法,其特征在于,上述产生该辨识结果的步骤为对该单词所包含的字母,以逐字母比较的方式产生。
3、如权利要求1所述的方法,其特征在于,上述利用字形比较与相似字形取代方式对该辨识结果进行校正的步骤至少包含下列步骤:
利用单字母逐字取代的方式,对该辨识结果进行校正;及
利用单字母取代多字母字串的方式,对该辨识结果进行校正。
4、如权利要求2所述的方法,其特征在于,上述利用该单字母的逐取取代方式对该辨识结果进行校正的步骤,至少包含下列步骤:
当每个单字母的相似率高于一容差限度,而且该单字母与前后连接的该单字母并无不相符的情形时,输入该辨识结果的下一个单字母,以继续进行单字母的逐字取代对该辨识结果进行校正;
利用该单字母的相似字母取代该单字母,用以产生多个新单词;
除去该新单词中所有不存在的单词;及
对下一个单字母进行校正。
5、如权利要求3所述的方法,其特征在于,上述利用该单字母取代该多字母字串对该辨识结果进行校正的步骤至少包含下列步骤:
在该辨识结果中找寻需校正的多字母字串;
将多字母字串以单字母取代,以产生多个新单词;及
除去该新单词中所有不存在的单词。
6、如权利要求5所述的方法,其特征在于,上述用以取代多字母字串的单字母,当单字母被拆开成多个部分时,将成为该多字母字串的相似字串。
7、如权利要求1所述的方法,其特征在于,上述产生辨识结果的步骤包含当辨识结果是存在的单词时,显示该单词。
8、一种提高单词辨识率的方法,该方法至少包含下列步骤:
输入一单词;
对该单词以字形比较的方式产生一辨识结果;
其特征在于,还包括:
当该辨识结果包含存在的单词时,则在显示该存在的单词后结束该提高单词辨识率的方法;
利用单字母逐字取代的方式,对该辨识结果进行校正;
利用单字母取代多字母字串的方式,对该辨识结果进行校正;及
显示该校正结果所包含的单词。
9、如权利要求8所述的方法,其特征在于,上述产生该辨识结果的步骤为对该单词所包含的字母,以逐字母比较的方式产生。
10、如权利要求8所述的方法,其特征在于,上述利用该单字母的逐字取代该辨识结果进行校正的步骤至少包含下列步骤:
当每个该单字母的相似率高于一容差限度,而且该单字母与前后连接的该单字母并无不相符的情形时,输入该辨识结果的下一个单字母,以继续进行单字母的逐字取代对该辨识结果进行校正的步骤;
利用该单字母的相似字母取代该单字母,用以产生多个新单词;
除去该新单词中所有不存在的单词;及
对下一个单字母进行校正。
11、如权利要求8所述的方法,其特征在于,上述利用该单字母取代该多字母字串对该辨识结果进行校正的步骤至少包含下列步骤:
在该辨识结果中找寻需校正的多字母字串;
将多字母字串以单字母取代,以产生多个新单词;及
除去该新单词中所有不存在的单词。
12、如权利要求10所述的方法,其特征在于,上述用以取代多字母字串的单字母,当单字母被拆开成多个部分时,将成为该多字母字串的相似字串。
13、一种提高单词辨识率的装置,该提高单词辨识率装置至少包含:
输入装置,用以输入一单词;
辨识信息储存装置,用以储存辨识信息与校正信息;
处理装置,输入该单词与该辨识信息,以对该单词进行辨识以产生一辨识结果;
其特征在于,所述处理装置还利用输入该单词、该辨识结果与该校正信息以产生一校正结果;
所述提高单词辨识率的装置还包括:
显示装置,输入该辨识结果用以显示该辨识结果,以及输入该校正结果用以输入该校正结果。
14、如权利要求13所述的提高单词辨识率装置,其特征在于,上述辨识结果利用字形比较与相似字形取代的方式来产生。
15、如权利要求13所述的提高单词辨识率装置,其特征在于,上述校正结果是利用字形比较与相似字形取代的方式来产生。
16、如权利要求13所述的提高单词辨识率装置,其特征在于,上述校正结果是在该辨识结果包含不存在的单词时产生。
17、如权利要求13所述的提高单词辨识率装置,其特征在于,上述提高单词辨识率装置还包含一储存装置,用以储存该提高单词辨识率装置在辨识过程中产生的暂态信息。
18、如权利要求13所述的提高单词辨识率装置,其特征在于,上述输入装置包含一手写板。
19、如权利要求13所述的提高单词辨识率装置,其特征在于,上述输入装置包含一扫描器。
20、如权利要求13所述的提高单词辨识率装置,其特征在于,上述辨识信息储存装置由下列存储器之一所组成:
只读存储器;
可编程只读存储器;
可擦队可编程只读存储器;
电可擦除可编程只读存储器;及
快擦写存储器。
21、一种提高单词辨识率装置,至少包含:
输入装置,用以输入一单词;
辨识信息储存装置,用以储存辨识信息与校正信息;
处理装置,输入该单词与该辨识信息,利用字形比较与相似字形取代的方式对单词执行辨识,以产生一辨识结果;
其特征在于,所述处理装置还当该辨识结果包含不的的单词时,输入该单词、该辨识结果与该校正信息,产生一校正结果;
所述提高单词辨识率的装置还包括:
显示装置,输入该辨识结果用以显示该辨识结果,以及输入该校正结果用以输入该校正结果。
22、如权利要求21所述的提高单词辨识率装置,其特征在于,上述辨识结果利用字形比较与相似字形取代的方式来产生。
23、如权利要求21所述的提高单词辨识率装置,其特征在于,上述提高单词辨识率装置还包含一储存装置,用以储存该提高单词辨识率装置在辨识过程中产生的暂态信息。
24、如权利要求21所述的提高单词辨识率装置,其特征在于,上述输入装置包含一手写板。
25、如权利要求21所述的提高单词辨识率装置,其特征在于,上述输入装置包含一扫描器。
26、如权利要求13所述的提高单词辨识率装置,其特征在于,上述辨识信息储存装置由下列存储器之一所组成:
只读存储器;
可编程只读存储器;
可擦队可编程只读存储器;
电可擦除可编程只读存储器;及
快擦写存储器。
CN 98119414 1998-09-29 1998-09-29 提高单词辨识率系统与方法 Expired - Fee Related CN1110002C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 98119414 CN1110002C (zh) 1998-09-29 1998-09-29 提高单词辨识率系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 98119414 CN1110002C (zh) 1998-09-29 1998-09-29 提高单词辨识率系统与方法

Publications (2)

Publication Number Publication Date
CN1249484A CN1249484A (zh) 2000-04-05
CN1110002C true CN1110002C (zh) 2003-05-28

Family

ID=5226370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 98119414 Expired - Fee Related CN1110002C (zh) 1998-09-29 1998-09-29 提高单词辨识率系统与方法

Country Status (1)

Country Link
CN (1) CN1110002C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452048C (zh) * 2006-06-02 2009-01-14 凌阳科技股份有限公司 一种利用字母索引表查询电子词典单词的方法及其系统

Also Published As

Publication number Publication date
CN1249484A (zh) 2000-04-05

Similar Documents

Publication Publication Date Title
US20210034850A1 (en) System and method of character recognition using fully convolutional neural networks with attention
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
JP2726568B2 (ja) 文字認識方法及び装置
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
US20010051965A1 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
US20090317003A1 (en) Correcting segmentation errors in ocr
JP2013073439A (ja) 文字認識装置及び文字認識方法
Nasir et al. Mmu-ocr-21: Towards end-to-end urdu text recognition using deep learning
US7406201B2 (en) Correcting segmentation errors in OCR
US5909509A (en) Statistical-based recognition of similar characters
CN1110002C (zh) 提高单词辨识率系统与方法
JP2001084336A (ja) 文字認識装置及びその方法とプログラム記録媒体
KR940007345B1 (ko) 온라인 한글 필기체 문자의 인식방법
JPH1055409A (ja) 手書き入力情報処理装置
JP2001147990A (ja) 画像データ処理装置及び方法並びにこれに利用される記憶媒体
KR102550868B1 (ko) 교원 업적 검증 시스템
JPH09114926A (ja) オンライン文字認識における入力文字大分類方法および装置
JPH11120294A (ja) 文字認識装置および媒体
KR100258934B1 (ko) 군집화된 알파벳 추출에 의한 온라인 영문 단어 인식장치 및방법
JP3732546B2 (ja) 手書き文字認識辞書学習方法
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JP4148966B2 (ja) パターン照合装置及びそれを実現するためのプログラム、記録媒体
JPH04123185A (ja) 文書認識方式
Thakur et al. Offline Recognition of Image for content Based Retrieval
JP2931485B2 (ja) 文字切出し装置及び方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030528

Termination date: 20100929