CN1318784A - “一字加四笔”中文词语手写输入方法 - Google Patents

“一字加四笔”中文词语手写输入方法 Download PDF

Info

Publication number
CN1318784A
CN1318784A CN 00107104 CN00107104A CN1318784A CN 1318784 A CN1318784 A CN 1318784A CN 00107104 CN00107104 CN 00107104 CN 00107104 A CN00107104 A CN 00107104A CN 1318784 A CN1318784 A CN 1318784A
Authority
CN
China
Prior art keywords
word
strokes
district
write
lead
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00107104
Other languages
English (en)
Inventor
张吉善
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 00107104 priority Critical patent/CN1318784A/zh
Publication of CN1318784A publication Critical patent/CN1318784A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种中文词语手写输入方法,其人机界面由左右两个写字区、一个候选字词显示区和若干功能键构成。输入单字时总是在左写字区书写;输入词语时,左右两个写字区一起使用,按“一字加四笔”方案书写;也可以“借词入字”和在线组词。其对词语的快速准确辨认是靠首字有序词库、第二字有序词库、自定义词库、和四笔代码库来保证实现的。

Description

“一字加四笔”中文词语手写输入方法
在众多的汉字计算机输入方案中,手写输入占有特殊重要的地位。它比其它任何汉字输入方式都更直观、省脑子,常人不用任何培训就能使用。随着无线通讯和掌上型信息电器(如掌上型电脑记事本兼网络浏览器,掌上型电子字典,带电邮和上网功能的无线电话机及游戏机等等,在本申请文件中简称掌上机)的兴起,手写输入有可能取代键盘输入而成为最通用的汉字输入手段。
但是当前的汉字手写输入有个很大的缺陷就是速度不够快,为达到90%左右的一次输入准确率,使用者必须一笔一划按照汉字标准的笔顺很仔细地书写所有笔画。许多汉字有十几个笔画,输入速度自然很低,何况笔画多了笔顺写错的可能性更大一些,当计算机不能正确辨认的时候还得费时间进行修改。还有一点是当前掌上机的手写汉字输入都只认单字,不认词语,这也是手写输入速度低的原因之一。
本发明基于现代汉语的词语和单字在使用频度、总量、构成等方面所固有的统计规律,提出了“一字加四笔”中文词语手写输入方法。这套方案的核心思想是在建有一个快速检索词库和一个四笔代码数据库的基础上,使用者只需手写一个完整汉字,外加写出另一个汉字的前四个笔画,即可实现汉字词语和单字的高辨识成功率手写输入,大幅度提高汉字手写输入的速度。
本发明的中文词语手写输入方案,不仅适用于掌上型信息机,也适用于手写板与显示屏幕相分离的台式计算机。其中的快速检索词库也可以为拼音、五笔等其它输入方法所借鉴利用。
以下列举的是本发明所使用的关于汉语词语与单字的有关统计规律,以及其对中文输入的直接影响。
■词语使用频度:词语(本专利申请中对“词语”与“多字条目”含义的细微差别不加区分)在现代汉语中的使用频度很高,通常来说一篇文章中词语占的篇幅为单字所占篇幅的二倍以上。所以说词语输入的快速与否在很大程度上影响一种汉字输入方案的整体速度。
■词语总量:汉语词语常用的大约有五万个(其中多半是二字词语,多于四字的词语很少),而常用的汉语单字大约只有五、六千个(例如吴景龙主编,商务印书馆1986年版《汉英词典》共收录单字6000余个,多字条目50000余条)。这么多词语,必得建立特殊的词库以提高搜索速度,至少对于CPU功能不太强的掌上机来说是如此。
■多个词语其对应的首字或第二字笔画相同(但不是对应的起首二字笔画都相同)的几率:一个汉字作为起首字平均可以组成约10个词语,绝大多数汉字作为起首字能构成的词语少于50个,但也有二十来个汉字可以作为起首字构成多于100个的词语,上述《汉英词典》中以“不”为起首字的多字条目更是有350多个。一个汉字作为词语中的第二字,平均可以组成的词语也同样是10个左右,至于有没有哪个字作为第二字构成了两三百个词语,无法在字典中方便地查找,也许只有依靠计算机程序才能作出准确统计。但可以肯定的是会有不少汉字可以作为第二字构成20个以上的词语,例如在下文的例子中,“古”字在二十多个词语中作为第二字出现。所以说在手写输入时单凭一个完整汉字就让计算机列出有关的候选词语是不可行的--从好多页的候选字词中挑选出意中的词语很费时间。
■多个词语其对应首字和对应第二字笔画分别相同的几率:既然一个汉字作为起首字或第二字平均只能构成约10个词语,而常用汉字有五六千个,则任意两个汉字放在一起作为起首二字可以构成的词语的平均数量就不到一个了。实际上仅少数几个字组合到一起作为首字和第二字能构成10个以上的词语,例如上述《汉英词典》收录了以“不可”为起首两字的词语共18个。
■以上两条统计规律表明:在手写输入汉语词语时,要让计算机检索出适量的候选词语,最有效的方案是由使用者写入一个笔画完整的单字,外加另一个字的几个笔画(究竟需要外加几个笔画,下文将详细分析)。这个笔画完整的单字可以是词语的首字,也可以是第二字。按照汉字手写的自然习惯,这外加的几个笔画显然以一个字的顺序起首笔画为佳。
■上面说了《汉英词典》中绝大多数字作为起首字可以组成的多字条目少于50个,今在一个完整汉字的基础上额外输入另一个字的几个笔画,目标在于将候选词语的数量平均缩小到三到五个以内。由于没有方便直接的统计数据可以利用,现以“西”字为起首字的词语为例(在上述《汉英词典》中一共收录46个“西”字开头的二、三、四字的词语,就其组成的词语数量来说较为典型),使用者意中的词语是“西藏”。以下分析在写入完整的“西”之后,分别外加写入“藏”字的起首二、三、四个笔画对于缩小候选词语数量的作用。在这四个笔画之内,计算机程序不计较笔画之间的左右和上下位置,因为这样才能简化程序,提高检索速度。
1.一横一竖(二笔):完全合格的有西藏,西班牙,西葫芦,西药,西晋,西域;加上较易混淆的一横一瞥:西南,西南非洲,西夏,西西,西天;一横钩一竖瞥:西皮。候选的有12个词语,不符合要求。可见外加两笔不够用,更不要说只外加一笔了。
2.写入艹的一横一竖再一竖(三笔):完全合格的还剩下西藏,西葫芦,西药,西晋;加上较易混淆的一横一瞥一竖(撇):西南,西南非洲,西夏,西西;一横钩一瞥一竖:西皮。9个词语将列为候选,还是太多,故一字加三笔也嫌少。
3.写入艹之后再在下面加一横(四笔):完全合格的只剩下西藏,西葫芦;没有易混淆的其它词语;加上单字藏,葫,西(芦不出现,因为只罗列词语中的起首两字),总共只有5个条目,使用者可以很快完成意中字词的搜索定位,然后点触输入。
假如每写入一个笔画即平均把候选词语范围缩小一半(或三分之一),那么四个笔画输入能将候选词语的范围平均缩小到16分之一(对应与三分之一的为81分之一)。即使取很保守的加一笔缩小一半范围,一字加四笔也能在大多数情况下把候选词语数目压缩到合理程度。上面的“西藏”这一例子里,每一笔的限定作用平均介于二分之一与三分之一之间。
所以本发明决定用“一字加四笔”来实现词语的手写输入。但这里“一字”所指的“笔画完整”的手写汉字,只是人脑中的概念,计算机却没有能力知道这个是完整的字,那个字只有部分笔画。计算机能做的是针对两种情况(A为完整的字同时B是不完整的字,或相反)都检索一遍,所以实际上计算机平均将列出两倍数量的词语。何况除了列出候选词语之外还要列出一些单字供选择,所以上文才要压缩候选词语的数量到三至五个。
这里说“四笔”,指本发明推荐使用者在写入一个完整的单字之外,要再写入另一个字的起首四笔,计算机才能有较大把握提供适量的词语供选用。当然如果某字笔画少于四笔,计算机会自动填充“空码”。如果某字有四个以上的笔画但使用者在写了不足四笔时停笔,则如上例“西藏”中所分析的,计算机列出的候选词语范围有可能不够窄。反之如果使用者在写入四笔之后没有及时停笔,而接着写入第五笔或更多笔画乃至写完那个字,由于计算机只取前四笔检索已有词库,故计算机列出的候选词语与写入四笔时没有差别。但如果使用者写入的是一个超出计算机词库范围的自认的“词语”时(或有意进行在线组词),则写入两个笔画完整的单字是必须的,因为现在通行的单字辨识软件要求使用者写完全部笔画。单字的检索采用当前流行的计算机程序进行,本发明不作特别规定。以下结合附图1至附图8,具体说明使用本发明的“一字加四笔”方法在掌上机的感应显示屏上实现快速的汉字手写输入。
                    图1掌上机汉字手写输入的初始状态
该图中上端三分之一强的区域显示的是正在编辑输入的文本格式,视具体产品及应用软件而不同,在此只是作为一个例子。中部三分之一不到的区域是“候选字词显示区”,底部三分之一不到的区域是几个功能键和左右两个手写汉字输入区(以下简称“左区”和“右区”,或左写字区和右写字区)。输入单字时总是在左区书写;当输入词语时,左区写词语的起首字(或其起首四笔),右区写词语第二字的起首四笔(或整个字)。
本图中的功能键在很大程度上借鉴了本人今年早些时候提交的发明专利申请“显示于屏幕上的集约型中英文键盘”(以下简称“我的屏显键盘”)的格式,其中的向左删除、制表、空格、回车、向上翻页、向下翻页、简体和繁体等八个功能键与我的屏显键盘一样,这里不再赘述。带两个旋转形箭头的那个功能键用于关闭当前的手写输入方式,切换到其它输入方式。“清除”一键用于清除两个写字区的笔迹和候选字词区的汉字显示,回到图示的初始状态,为下一个汉字或词语的输入作准备。
本发明同样采用了我的屏显键盘的“汉字输入间歇”这一概念,也就是在一个汉字或词语的输入已经完成,下一轮字词输入尚未开始时,将阿拉伯数字、英文字母和一些标点符号显示于候选字符区内,使得数字、中英文可以混杂输入而无须浪费时间来回切换手写输入与其它输入方式。本图中候选字词区的3行各12格显示了阿拉伯数字0-9和英文大写字母A-Z,它们可以用点触笔直接输入到正在编辑的文本中。
           图2在两个汉字或词语输入的间歇列出:/@abc供选用
该图在候选字词区列出了一些互联网常用的符号和汉语常用标点符号,以及英文小写字母a-z。使用者在图1所示的屏幕上面点触向下翻页键就能得到本图的显示,而在本图所示的屏幕上点触向上翻页键即回到图1的显示。
               图3“一字加四笔”手写汉字输入流程图
该流程图已经颇为详尽,这里只做补充说明。
■流程图中为简洁起见而没有列入清除键的使用,实际上在整个流程中的几乎任何环节,使用者都可以用清除键终止正在进行的字词输入而回到初始状态A。
■候选字词区的三行显示,大体上是按如下原则使用:第一行显示左区词(显示不下的留到下一页),如果没有左区词则显示左区字;第二行显示右区词(显示不下的留到下一页),如果没有右区词则显示右区字;第三行用以显示单字,一行内显示不下的将被舍去(使用“在线组词”功能时例外)。
■本发明支持“在线组词”功能,以便使用者快速输入人名地名等通常没有收入汉语词典的多字条目。为支持“在线组词”功能,计算机在检索词语时,除了按“一字加四笔”规则检索首字有序词库和第二字有序词库之外,还将检索“自定义词库”中使用者自编的多字条目。
在流程图的环节B,使用者选中的两个单字在被输入到正在编辑的文本中的同时,这两个字的组合还被放到自定义词库长期存储。同样在流程图的环节B,使用者还可以不选中候选字词区的任何字词,却在左写字区内写入多字条目的第三字,甚至在完成第三字之后又在右写字区写入第四字。这种情况下,候选汉字区将只显示候选单字,而不显示候选词语。也就是说,候选字词区的第一、第二、第三行将分别显示手写输入的第一、第二、第三字的对应候选单字。如果使用者输入了第四字,其对应的候选单字放到下一页显示。然后使用者从这些候选单字中依序挑选意中字输入,计算机则即时将这些单字组成多字条目放到自定义词库作长期存储。
往后使用者欲要写入一个已经列入“自定义词库”的多字条目,则可以使用“一字加四笔”的方案快速输入。
               图4采用“一字加四笔”方法手写输入“西藏”
该例中使用者意欲输入词语“西藏”。他(她)在左区写入完整的“西”,而在右区仅写入一个“艹”再在下面加一横。掌上机按照图3的流程图,先假定左区为完整汉字而准确地辨识出“西”(它是仅有的候选字),再以“西”字和右区的四个笔画,利用首字有序词库和四笔代码库的信息,找到左区词“西藏”和“西葫芦”送候选字词区的第一行显示。
接下来掌上机假定右区为完整汉字进行字词搜索。草字头加一横对应的单字很多,本例假定第一候选字是“苦”。于是掌上机又以“苦”字和左区字“西”的起首四笔的代码,在第二字有序词库中找到了“劳苦”、“劳苦大众”、“劳苦功高”等三个右区词,显示于候选字词区的第二行。
对于候选单字在第三行的显示,按规则,“西”和“藏”、“葫”;以及“劳”和“苦”字都是一类中不足三个字,全部送第三行显示。这时第三行还有七个空余位置,于是右区字本来排在“苦”字之后的7个字也顺序显示出来。
此例子中,使用者只在右区写入四笔,就达到了输入笔画有17笔之多,难写难认的“藏”字,效率非常高。即使使用者单为输入“藏”字而借助“西藏”一词,算上“西”字的六笔,还能省下7个笔画。何况借助“西藏”一词输入“藏”字,掌上机的辨识成功率几乎为100%,而“藏”字单独写入的成功率可不高。
                   图5在掌上机感应屏幕上手写输入“蒙古”
在这个例子中使用者意欲输入“蒙古”一词,由于首字“蒙”笔画较多,使用者决定在左区写入它的前几笔,然后在右区写入完整的“古”字。实际操作中该使用者非常顺手地在左区写入了草字头加宝盖头,共有五个笔画,超过了本发明要求的四笔输入。但这对词库的检索并无负面影响。掌上机判得12个左区字和唯一的左区词“劳碌”(“碌”的第二笔“丿”与“古”的第二笔一竖形状相近,在“四笔代码”中用同一代码代表),按规则左区词放第一行显示。
接下来掌上机辨识右区字并检索右区词。“古”字很好认,掌上机准确辨识出唯一的候选字。右区词得到四个,全数放第二行显示。
对于第三行候选单字的显示,由于总数超过12个,第一步计算机只给每类单字各三个名额,于是“劳、芝、芒”;“碌”;“蒙”、“荒”;“古”都在第三行显示出来。这时有了多余名额,于是另外5个左区字也得以显示。
            图6 512KB的首字有序词库-以“西”为首字的部分词语
以上例子中中文词语的高辨识率手写输入方案,只有在不牺牲检索速度的前提下才有实用意义。这就要借助本发明提供的快速检索词库(图6的首字有序词库和图7的第二字有序词库)和四笔代码数据库(图8)才能得以实现。
假设某掌上机收录了8K(8192)个汉语单字,国标或大五码的代码范围是十六进制数1000至2FFF之间所有的编码(实际当中当然会有编码“跳跃”的情况,本发明为叙述要点而作适当简化)。再假设该掌上机同时收录了64K(65536)个词语(限二字、三字和四字),这些词语以首字有序词库和第二字有序词库两种版本存储。
为了实现最快速的词语检索,图6中的首字有序词库将所有的词语,无论是两个字三个字还是四个字,统一按四个字一个词语的格式存储,其中空置的存储单元以空码FFFF填充。由于每个汉字要用两个字节表示,该首字有序词库要占据64K×4×2=512K字节的存储空间(图中假设这个词库放在起首地址为?00000,终结地址为?7FFFF的一段存储单元内,?表示与要点叙述无关的数值)。
图6的首字有序词库的条目存储规则是:所有64K个词语,每一个词语占八个字节,其存储位置以首字代码的数值大小为准,按从小到大的顺序从0x?00000-?00007(首字代码最小的某个词语)一直排到0x?7FFF8-?7FFFF(首字代码最大的某个词语);对于首字相同的一批词语,则以这些词语第二字的笔画多少为准,第二字笔画多的排在前面,笔画少的排在后面。这样的升序存储与相应的升序搜索算法结合起来,保证能将首字相同的那些词语中第二字笔画多的词语先在候选字词区的第一页显示出来,便于使用者借用词语来输入笔画复杂的单字。
假定“西”字的标准代码是0x2789,图6中所有以“西”为起首字的词语一个挨一个存储于起始地址为0x?56F10的一个区段内。按上述规则,由于“藏”有17画而使“西藏”一词排在第二字笔画为16画的“西餐”一词之前。至于“藏”字的代码26A7与“餐”的代码2341(两者都是假定值)谁大谁小,并不是首字有序词库的排列依据。起首二字均相同的词语,二字的词语排在三字的词语前面,三字的词语又排在四字的词语之前。
有了这样一个首字有序词库,该掌上机在应用原有的单字辨识软件辨别出左区写入的单字“西”以后,运用对分法(或称折半法)至多只需要检索16次,即可以在包含64K条目的首字有序词库中检索到以“西”为起首字的一块存储区域。下一步拿这些以“西”为起首字的词语的第二字检索到对应的四笔代码(见下文图8),再与右区写入的汉字起首四笔的代码相比较,即可从这些词语中找出合乎要求的“左区词”。
如果某计算机原有的手写单字的辨识速度很快,CPU处理能力有较大富余量,则在应用本发明的“一字加四笔”输入方案时,可以单设专门收录二字、三字、四字甚至五字词语的多个首字有序词库。虽然多费一点检索时间(计算机必须逐一到几个词库搜索,而对分法的相对搜索速度在单一大词库时为高:例如在64K条目的二、三、四字混合词库中搜索以某字为起首字的存储区域至多只要16次,而搜索三个分别为58K二字条目、2K三字条目、4K四字条目的数据库则最多需16+11+12=29次),但可以达到节省存储空间(仅仅需要58×4+2×6+4×8=276KB的存储空间),压缩硬件成本的目的。这种替代方案对图7的第二字有序词库也同样适用。
             图7 512KB的第二字有序词库-以“古”为第二字的部分词语
图7的第二字有序词库的条目存储规则是:所有64K个词语,其存储位置以第二字代码的数值大小为准,按从小到大的顺序,第二字代码最小的某个词语占0x?80000至0x?80007八个字节,第二字代码最大的某个词语存储在0x?FFFF8-0x?FFFFF;对于第二字相同的一批词语,则以这些词语首字的笔画多少为准,首字笔画多的排在前面,笔画少的排在后面。该词库的搜索规则与首字有序词库非常相似,在图3的软件流程图中也有述及,在此不再重复。
本发明所提出的快速检索词库,要支持64K条目的词语,首字有序词库和第二字有序词库加在一起可能要占用多达1MB的存储空间(视速度与存储空间的折衷,有可能采用单立的二字、三字和四字词库而只用不到600KB)。但也应该考虑到现有的拼音输入(大部分掌上机在提供手写输入的同时也提供拼音输入)也使用某种形式的词库,而本发明的首字有序词库完全可以给拼音输入提供性能相同乃至更佳的词语检索,所以本发明所要求增加的词库存储空间只能折半计算。
如何利用本发明的首字有序词库在拼音输入方式下进行词语检索?现在假设某型号的计算机同时装置了本发明的汉字手写输入软件和我的屏显拼音键盘。当使用者输入两个完全拼音(如xi-yi-)时,计算机按常规方案以第一个拼音检索到M个汉语单字备用,同样以第二个拼音检索到N个单字备用。取M个单字的第一个,以其标准代码可以用对分法(64K条目只需不多于16次比较)到本发明的首字有序词库找到J个以该单字为起首字的词语;再在N个单字中取来第一个字,与J个词语的第二字逐一比较,相同者其所在的词语送候选字词区显示。如此重复,一共用M个循环可以完成所有合格词语的检索。平均看M和N约为10,J大约为8,以上词语检索过程大约要经过M*(16+N*J)=960次的比较,这点计算量对于现在的CPU来说只需百分之几秒的时间。
                   图8 8K汉字集当中一些字的四笔代码(共16KB)
图8中每一个笔画用半个字节(四个二进制数位)表达,这就意味着本发明的四笔代码只辨认16种基本笔画。理论上说,汉字的基本笔画有点横撇捺、横折、竖折、横勾、竖勾等等数十种之多,半个字节当然不够用。但在汉字手写输入时,点横撇捺并无严格的长短与角度限制,因此有些笔画实在很容易混淆,比如说许多人在手写“西”字的第二笔“丿”(竖撇)时把它写成一竖。所以在编制计算机程序时必须尊重现实,尽可能将各种合理的手写笔画变形考虑进去,方能够提高汉字辨识成功率。考虑到这个因素,本发明认为汉字笔画用半个字节就足够表达了。图8中将一竖,竖撇,点撇(“蒙”字的第四划),竖小折(“西”字第三划)都用代码2表示。如果某个字的笔画不到4个,则空余的半字节都用F表示。
这个四笔代码库也是个有序数据库。各单字的存储位置以该字的标准代码(如国标码或大五码)为准,图中代码小的放在低地址的存储单元,代码大的放高地址单元。由于在图6和图7中已经假定“古、蒙、藏、西”四字的标准代码分别为173A,1939,26A7和2789,本图中沿用这些代码,经过计算转换(假设8K单字占满1000至2FFF之间的所有代码),将这四字的四笔代码分别存储在图示的地址单元中。
由于是有序数据库,在已知一个汉字的标准代码情况下,计算机可以用对分法快速搜索,总共8K条目,在13次对分之内必能找到所需条目。再因为每一个汉字的起首四笔总共只用两个字节表达,对于当今较通行的16位机来说,比较一个字的四笔代码可以用短短的一条指令来实现。
综上所述,较之当前通行的汉语单字手写输入方案,本发明对于信息电器上手写汉字输入的速度提高是通过以下几方面来达到的:
■“一字加四笔”的词语写入方式,对词语输入来说比两个或多个单字的独立写入可以少写一些笔画。
■运用词语手写输入时,首字与第二字之间不需要设“时限”(Time-Out),而现行的单字输入不得不在每个字之后设时限以确认该字已经写完。
■由于可以“借词入字”,可以提高多笔画字的辨认准确率。当今市场上先进的手写汉字输入系统,单字辨认准确率在90%左右--也就是说有10%左右的汉字很难用手写输入。使用本发明的手写汉字输入方案,理论上来说将只有10%×10%(也就是说某个难认的字只能与另一个难认的字组成词语)=1%的字仍然难以手写输入。即使考虑某些字不能组成任何词语、使用者词汇不如计算机里的词库丰富等因素,使用本发明后达到97%的单字辨认准确率是比较现实的。
■在汉字输入间歇可以点触输入数字、英文字母和其它字符、标点符号,对于中英文和数字混合文本的输入非常方便,省去了来回切换输入方式的麻烦。
■如果在掌上机上连续较长时间进行手写输入,则采用本发明的输入方案由于所需写入笔画少而不易造成使用者双手的疲劳,同时又减轻由于计算机辨字失误给使用者情绪的影响。这些都有利于使用者持续保持手写笔画的规范,从而保持汉字手写输入的计算机辨识成功率。

Claims (8)

1.一种中文词语手写输入方法,其人机界面由左右两个写字区、一个候选字词显示区和若干功能键构成。输入单字时总是在左写字区书写,当输入词语时,左右两个写字区一起使用。其对词语的快速准确辨认是靠首字有序词库、第二字有序词库、自定义词库、和四笔代码库来保证实现的。
2.如权利要求1所述的中文词语手写输入方法,使用下列的“一字加四笔”方案进行词语和单字(“借词入字”)的手写输入:
■在左写字区写入词语首字的所有笔画,然后在右写字区写入该词语第二字的起首四个笔画(第二字笔画不足四划的写完为止)。
■或者,在左写字区写入词语首字的起首四个笔画(该字笔画不足四划的写完为止),然后在右写字区写入该词语第二字的全部笔画。
3.如权利要求1所述的中文词语手写输入方法,其候选字词区显示的候选词语由“左区词”和“右区词”组成,其候选单字由左区字、左区词的第二字、右区字、和右区词的首字所组成。
其左区字和左区词的辨识检索是这样进行的:第一步,假设左写字区的手写汉字是笔画完整的,计算机用当前通行的单字辨识算法得出一组不多于12个候选汉字(左区字);第二步,计算机取这些候选汉字中的第一名候选汉字,到首字有序词库和自定义词库找到以此字为首字组成的一批词语;第三步,取这些词语之中的一个,到四笔代码库检索到其第二字的四笔代码;第四步,计算机将右写字区内手写汉字的起首四个笔画用四笔代码表示,将此代码与第三步中那个词语第二字的四笔代码比较,相同则将此词语列为候选词;然后重复以上第三、四步,检索出所有合格的左区词。
其右区字和右区词的辨识检索过程大同小异,无非是在第一步中假设右写字区的手写汉字是笔画完整的,得出一组候选汉字(右区字);在第二步中要检索的是第二字有序词库和自定义词库;在第三步中要检索的是词语首字的四笔代码;在第四步中计算机将左写字区内手写汉字的起首四个笔画用四笔代码表示,然后与第三步中的那个词语首字的四笔代码相比较,检索出合格的右区词。
4.如权利要求1所述的中文词语手写输入方法,按以下规则进行在线组词:对于两个字的词语,使用者分别在左右写字区写入该词语首字和第二字的全部笔画,然后在候选字词区挑选两个意中的单字按正确的顺序输入;对于三个字的词语,使用者在左右写字区分别写入第一、第二字之后,回到左写字区写入该词语第三字的全部笔画,然后到候选字词区挑选出三个意中字输入;对于四个字的词语,使用者在写入三个字的基础上再在右写字区写入第四字的全部笔画,然后到候选字词区挑选出四个意中字输入。计算机在使用者挑选意中字输入的同时将它们组成新词,放到自定义词库中长期存储备查。
5.如权利要求1所述的中文词语手写输入方法,首字有序词库和第二字有序词库可以将二字、三字和四字的词语放在一起统一按8字节一个条目的格式存储,这种存储方案适用于对辨识检索的速度要求很高的应用;或者可以建立分别收录二字条目、三字条目、四字条目或五字条目的多个首字有序词库和第二字有序词库,这种存储方案适用于希望节省存储空间但对辨识检索的速度不苛求的应用。
6.如权利要求1所述的中文词语手写输入方法,其首字有序词库的条目在存储器内的存储位置,按照构成词语的首字的标准代码以升序或降序排列。当几个词语的首字相同时,按照它们第二字笔画的多寡而按升序或降序排列。
7.如权利要求1所述的中文词语手写输入方法,其第二字有序词库的条目在存储器内的存储位置,按照词语第二字的标准代码以升序或降序排列。当几个词语的第二字相同时,按照它们首字笔画的多寡而按升序或降序排列。
8.如权利要求1所述的中文词语手写输入方法,其四笔代码库的每一个条目存储一个中文字的起首四个笔画的代码,每个笔画用4个二进制数位代表(某些字不足4划,空余位置以空码填充)。一些在手写时较难区分的笔画,使用相同的代码。四笔代码库内的条目,按照对应汉字的标准代码以升序或降序排列存储位置。
CN 00107104 2000-04-17 2000-04-17 “一字加四笔”中文词语手写输入方法 Pending CN1318784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00107104 CN1318784A (zh) 2000-04-17 2000-04-17 “一字加四笔”中文词语手写输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 00107104 CN1318784A (zh) 2000-04-17 2000-04-17 “一字加四笔”中文词语手写输入方法

Publications (1)

Publication Number Publication Date
CN1318784A true CN1318784A (zh) 2001-10-24

Family

ID=4578458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00107104 Pending CN1318784A (zh) 2000-04-17 2000-04-17 “一字加四笔”中文词语手写输入方法

Country Status (1)

Country Link
CN (1) CN1318784A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727290A (zh) * 2010-02-25 2010-06-09 中兴通讯股份有限公司 一种手写输入方法和装置
CN102467245A (zh) * 2010-11-09 2012-05-23 邓桂成 一种字词分体交互入口汉字输入方法
CN102467319A (zh) * 2010-11-09 2012-05-23 邓桂成 手写汉字输入方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727290A (zh) * 2010-02-25 2010-06-09 中兴通讯股份有限公司 一种手写输入方法和装置
CN102467245A (zh) * 2010-11-09 2012-05-23 邓桂成 一种字词分体交互入口汉字输入方法
CN102467319A (zh) * 2010-11-09 2012-05-23 邓桂成 手写汉字输入方法和系统
CN102467319B (zh) * 2010-11-09 2013-09-11 邓桂成 手写汉字输入方法和系统

Similar Documents

Publication Publication Date Title
CN1156741C (zh) 手写汉字识别方法及装置
US5197810A (en) Method and system for inputting simplified form and/or original complex form of Chinese character
CN100472536C (zh) 一种中文输入法简拼实现方法和系统
CN1140868C (zh) 表意语言及非表意语言的文字输入系统
CN101751430A (zh) 电子词典模糊检索方法
CN1095560C (zh) 修改汉字转换结果的系统
CN1318786A (zh) 显示于屏幕上的集约型中英文键盘
CN1427325A (zh) 数字小键盘笔画王多功能汉字自然输入法
CN1318784A (zh) “一字加四笔”中文词语手写输入方法
CN1180858A (zh) 字符输入装置
CN1136496C (zh) 简化拼音-触摸屏鼠标式汉字输入方法
CN102346558A (zh) 笔画结构输入方法和系统
CN100476826C (zh) 中文字型排序检索方法和装置以及一种信息系统
CN1116647C (zh) 采用译码的汉字检索方法
CN1367420A (zh) 数码键盘中文输入方法及其键位例
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN102177511A (zh) 汉字排序检索方法
CN1384426A (zh) 电脑汉字典码输入方法
CN1018096B (zh) 藏文输入编码法及其键盘
CN1648829A (zh) 用于输入汉字的方法和系统
CN1265483A (zh) 汉字编码输入方法及输入装置
CN101034403A (zh) 一种小键盘电子字典的智能检索方法
CN1026626C (zh) 平面键整字输入颁式汉字键盘
CN1178344A (zh) 四声码汉字输入方法
CN1043381C (zh) 汉字四笔画数码输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication