CN1089375A

CN1089375A - 文字忆频环境输入法

Info

Publication number: CN1089375A
Application number: CN 92115338
Authority: CN
Inventors: 陈劲松
Original assignee: Individual
Current assignee: Individual
Priority date: 1992-12-31
Filing date: 1992-12-31
Publication date: 1994-07-13

Abstract

本发明开辟了计算机文字输入的一个崭新阶段，它采用了即时分类忆频统计的手段，使得无论连续文本还是间断文本都可以实现高速输入。连续文本输入小于1.2键/字，非连续文本小于0.8键/字。不仅输入速度超过现有任何方法，而且无需增加用户的任何负担，并对输入编码的类型没有限制。

Description

本发明涉及计算机的文字输入。

文字输入的宗旨是尽量以最少的时间输入计算机最多的信息。目前汉字键盘的输入速度可达200字/分钟以上。为了提高汉字键盘的输入速率，至今汉字的键盘输入已历经了三个阶段：字输入、词输入、句输入。但随着每个阶段对输入速度的提高，其每一阶段的输入适用范围却逐步缩小。如字输入输入速度最慢，但它可输入任何场合下的汉字;词输入速度较快，但它无法对单字或所有的词进行快速输入;句输入速度最快，可它只能对流动文本进行输入。也就是说，它们都只是部分地提高了汉字的键入速度，并未真正地提高汉字的输入速度。

本发明所述的“汉字忆频环境输入法”的发明目的在于，进一步提高汉字的输入速度，并且在提高输入速度的同时，做到不影响高速输入的适用范围，且无需改变用户的输入编码，不增加用户的额外负担。

本发明所述的“忆频环境输入法”，其发明核心在于，对编码输入的识别不再是针对一个固定不变的字库（如GB2312-80）和词库，而是针对一种全浮动式的、自学习性的词库进行编码识别。每一个不同环境下的词库都不相同。这种词库，其中只记录与输入环境有关的词语，而删去了与输入环境无关的词，因而这种词库比一般通用词库的词汇量小很多。针对该词库进行编码输入，自然所需码长较短，从而提高输入速度。即本发明采用根据具体输入环境减少词库词汇量，缩小输入判断范围的方法来减少输入所需信息量。

这个缩小输入判断范围的方法为即时分类忆频统计法。

即在输入的同时，对输入的词分类进行统计，记忆该词在分类中的使用频率。并按使用频率的高低对各分类中的词进行排序，建立成一个小词库。使得下一次在进行同一分类的输时，对输入编码的辨识能够在该词库中进行，对使用频率高的词优先认定。并且随时根据每一次的输入对小词库进行调整。

注：本发明对传统概念中的字、词、词组、段落，凡一次编码输入的，都不加以区别，而作为同样的一个数据输入单元，统称为词。

本发明所述的即时分类忆频统计法，是根据输入所处环境的环境名为关键字来进行分类的。如，对于连续本文，文章中的每一个输入词，都可以作为下一个输入词的环境名，以及每一段文章的开头，文章中的逗号、句号、分号、冒号、引号等都可能作为其后面输入词的分类环境名。也就是说，将每一个输入词后面可能出现的输入词都分别作为同一类进行统计，将每一段文章的开头可能出现的输入词都作为同一类进行统计，将逗号、句号、分号、冒号、引号可能出现的词都分别加以分类统计。对于间断本文，如数据库数据，可将“数据库名+数据项名”作为环境名，将同一个数据项中输入的数据作为同一类进行统计;对于某一语言的命令名、变量名名称，可以分别作为一类进行统计，其环境名为“该语言名+‘命令’”或“该语言名+‘变量’”;对于编写程序时需要书写的提示信息、字符串等等非连续文本，都可能作为同一类进行统计，其环境名可以是“编程提示信息”或“编程提示串”等等。

由于输入和统计是同时进行的，因此说对某一类进行统计，也就是说在该类小词库中进行输入。由于这样处理的每一分类小词库都比固定的词库或字库小，因此在用编码进行输入时，可以不用输入全码，只要输入简码即可。对于拼音码、笔划码之类重码率较高的编码，可以直接输入而不出现重码。对于输入小词库中尚未出现的词，可以再用原编码方法进行输入。

本发明所述的忆频统计法可分两种，一种为完全统计，一种为缩略统计完全统计是记录某一环境名下所有出现过的词汇及其出现频率。缩略统计只记录那些出现频率较高和新近出现的词汇。设常用的词汇有4000个，则在连续文本中需空出4000×4000×3（设每个词汇名和其使用频率共占3个BIT）＝48MBIT内存。这对于一般微机是承受不了的。这时可采用缩略记录的方法。假设每个小词库的容量平均控制在100个，则仅需内存4000×100×3＝1.2MBIT。一般PC286以上的机型皆可承受。

本发明设计了一种统计结构，可用作缩略统计。如附表，该结构将小词库分为三大部分：主存区、缓存区、暂存区。主存区约占总结构的80%，记录词汇名及其频率，按频率高低排列和淘汰;缓存区约占总结构10%，记录词汇名及其频率，按“先进先出”原则排列和淘汰;暂存区约占总结构的10%，只记录词汇名不记录其使用频率，按“先进先出”原则排列和淘汰。

主存区用来记录小词库中出现频率较高的词汇，暂存区主要用来记录最新出现的词汇，缓存区使得新出现、且使用频率较高的词汇能够进入主存区。

对照附表，一个词汇记录在该结构中的过程为：

1、当小词库未填满时，依次按主存区、缓存区、暂存区的顺序进行填充。

2、如果发现已记录在主存区，即将其使用频率加1，并按新频率重新调整其在主存区中的位置，对于频率相同的词，应按新旧顺序排列。

3、如果发现已记录在缓存区中，先将其频率加1，再将其频率与主存区中的词汇频率相比较，若超过或等于主存区中频率最低的词，则将其插入主存区。被挤出的原排列在主存区最后位的词移至缓存区的首位（附表B处），其频率照抄过去。

4、如果发现已记录在暂存区，则直接将其插至缓存区的首位（附表B处），并设定该词使用频率为2次，同时将从缓存区中被挤出的一词插入到暂存区的首位（附表A处），并不再记录其频率。

5、如果小词库中并未记录结构，则将该记号插入到暂存区的首位（附A处），挤去暂存区的末位记录。

该结构的优点是：将缩略统计和完全统计合为一体，当小词库容量很大时，即为完全统计;当小词库容量缩小到小于词汇使用量时，即为缩略统计，而且当小词库量固定后，对于某环境名下词汇使用量较小的情况下，如数据库某数据项，即为完全统计，对于某环境名下词汇使用量大到超过小词库容量的情况下，该结构自动作缩略统计，该结构的小词库容量和使用量还可分开，系统根据内存大小确定小词库统计词汇量的多少，并根据减少输入按键和重码率的原则控制编码辨识时所使用的小词库汇量的多少。如某小词库统计了100词汇，但仅针对前80个频率较高的词汇进行编码识别。

衡量本发明功效的两个重要参数是小词库的词汇统计量和词汇覆盖率。词汇统计量是指小词库中统计的词汇的数量，词汇覆盖率是指小词库中统计的词汇在该环境名下的总出现频率。完全统计的词汇覆盖率为1，缩略统计的词汇统计量越大，词汇覆盖率越大。一般来说，连续本文的缩略统计在统计量为500词左右时，词汇覆盖率可达96%以上。象数据库之类间断文本的小词库，一般都能在较小的统计量的情况下，达到近乎1的词汇覆盖率。越高的词汇覆盖率可使越少的词汇需用全码输入。而越小的统计量，即小词库词汇量越少，也使得每个词汇的所需编码码长越短。即在小统计量高词汇覆盖率的情况下能获得高速输入。

本发明的优点在于，使得编码输入的识别能够在适合输入环境的小范围词库中进行，减少了编码输入所需码长，大大提高编码输入速度。本发明的忆频统计法，是一种极其简单的方法，它可以适当地替代老式连续文本输入中复杂的语法判别法。本发明无论对于连续文本都可以高速输入，因此可以说，本发明开辟了汉字输入的一个崭新阶段-第四阶段，环境输入阶段。

本发明不仅适用于汉字输入，也同样适用于其它文字的缩略输入。并且同样的结构、原理不仅可用于键盘输入，也可以用于机器识别输入，可大大提高机器识别率。

本发明应用实例：

连续文本，设一小段落如下：

新华社消息，美国总统竞选已趋白热化，现任总统布什获胜希望不大。

输入过程：在“段落开始词汇集”的小词库中输入“新华社”，然后再以“新华社”为一环境名，找到一小词库，在该小词库中输入“消息”，再输入“，”，接着以“，”为环境名找到一统计逗号后面出现词汇的小词库，输入“美国总统”，再以“美国总统”为环境名找到一小词库，输入“竞选”……

设以上小词库平均容量为200个词汇，词汇覆盖率为90%，小词库中词汇输入2键/词，小词库外词汇输入4键/词，则总输入速度每词为2×90%+4×10%＝2.2键，每词平均词长为2.1字，则每字输入速度为小于1.05键/字。

间断文本，以数据库为例：

数据库名：教师档案，依次数据项名为姓名、性别、出生年月、籍贯、本人成份、职称、家庭住址。

某数据：王群义，男，1962年4月，江苏省南京市，学生，二级教师，合肥市大庆路4号。

输入过程：在小词库“教师档案姓名”（引号中为环境名）中输入“王群义”，在小词库“教师档案性别”中输入“男”，在小词库“教师档案出生年月”中输入“1962年4月”，在小词库“教师档案本人成分”中输入“学生”……

以上汉字的输入，姓名6键，性别1键，出生年月2键，籍贯4键，本人成份1键，职称1键，家庭住址5键，共输入汉字25个，则输入速度为20/25＝0.8键/字。

可以看出，以上的输入，特别是数据的输入，无论用何编码，都可以高速输入，且不增加输入者负担。

另外，本发明还可采取以下方法，使本发明更实用：

1、采用“滚雪球”法。以字为基础，系统定时把结合程度高的字组合成词，再由词到词组。使小词库中的词汇越来越长，越来越贴近使用环境，可更好地提高使用效率。

2、用大容量计算机摸拟用户工作环境进行完全统计，再将该小词库提供给用户，使得用户一开始就能进入较佳使用状态。

3、使用一段时间后，可以自由关闭小词库的动态统计调整功能，以利盲打。

4、小词库集可以像文件一样存储、选择、调用。以利用户根据不同工作环境选择合适的小词库，并使得相似工作环境下用户的小词库可以相互借用、相互合并。

5、对于连续文本中的“的”、“地”等之类虚词为环境名时，可以改用其前一词为环境名。如“美丽的花”可采用“美丽”作为“花”的环境名。

Claims

1、文字忆频环境输入法主要通过即时分类忆频统计手段建立动态小词库的方法来确定文字输入环境，缩小文字输入的辨识范围。

2、权利要求1所述忆频统计的分类是以文字输入所处环境的环境名为关键字来进行的。

3、权利要求2所述之环境名具体在连续文本输入中是与输入词有关的上、下文词汇的名称。

4、权利要求2所述之环境名具体在命令名称库、数据库等非连续文本输入中是库名、数据项名。

5、权利要求1所述的“即时”是指在输入的同时随时记录、统计输入词汇的出现频率。

6、权利要求1所述的“忆频统计”是指完全或缩略记录、统计各词汇在各分类项中的出现频率。

7、权利要求6所述的缩略统计的特征在于，只记录使用频率较高和最新使用的词，而忽略使用频率较低和以前使用的词。

8、权利要求6所述的忆频统计的一种具体结构，其特征在于，分用于记录频率较高词汇的主存区，用于记录最新出现词汇的暂存区，用于连接主存区和暂存区的缓存区三个部分。

9、权利要求8所述的“具体结构”，其特征在于，主存区记录词汇名及频率并按顺序高低排列，缓存区记录词汇名及其频率并按“先进先出”原则排列，暂存区只记录词汇名并按“先进先出”原则排列。