CN103970287A

CN103970287A - 字组字中文输入法及其字根键盘

Info

Publication number: CN103970287A
Application number: CN201410102346.2A
Authority: CN
Inventors: 刘伊翰
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2014-08-06
Anticipated expiration: 2034-03-19
Also published as: CN103970287B

Abstract

一种基于优化字根键盘的汉字输入法，为了克服现有输入法无法兼具易学性和高效性的难题，创造出一套识别字根的简便方法，并据之选取了522种字根，其中有5种笔划、84种偏旁、433种字中字，在拆字时按规则识别字根即可，用户无须专门背记字根或字根歌；每种字根都有简明键位映射线索(508种字根用拼音首字母输入、其余14种字根用形态近似的字母输入)，用户无须记忆字根键位图即可轻松掌握每个字根的输入键位；拆字规则直观、简便、统一，无需考虑翘舌音、韵母、笔形、笔画数、字型、键名等诸多繁琐因素；单字的平均编码长度<2.57位，词组的平均每字编码长度<1.71位；输入操作简捷，所有单字、词组均可免翻屏输入。

Description

字组字中文输入法及其字根键盘

第一部分：技术领域

“字组字输入法中文输入法及其字根键盘”(以下简称为“字组字输入法”)，涉及使用键盘输入中文所需的汉字编码技术及与之相配套的中文字根键盘技术。

第二部分：背景技术

据国家知识产权局在互联网上公开的数据显示，已经申请中国发明专利的汉字键盘输入法，多达近千种。由于汉字输入法编码工作是一个复杂的系统工程，尽管现时“输入法”的发明专利申请已很多，在某一方面表现出色的方案也不少，但始终未能有一种公认能令广大用户普遍满意的“易学好用”的输入法出现。

当前国内使用的汉字输入法大体可以分类为：语音识别输入、手写输入、扫描输入和键盘输入，其各自的现状如下：

一、语音识别输入法：

由于技术上的限制，现时的语音识别输入法无论在输入速度和输入准确率上都未远未能达到实用化水平，更无法在短期内超越键盘输入法的输入效率。

二、手写输入法：

手写输入法只能在配有触摸屏或书写版的设备上使用；只能逐字写入，最快也快不过自然的手写速度(相比之下，键盘编码输入法却可以用几个代码输入几十个汉字词句，输入效率可以得到极大的提高)；手写输入法难以杜绝机器识别错误，通常需要从近似的字表中选取所需汉字，实际输入效率往往比自然手写慢得多，更无法在短期内超越键盘输入法的效率。而且经常在智能手机触摸屏上手写聊天的朋友都知道，用手指在触摸屏上写字较多时，手指会感到很劳累而难受。

三、键盘输入法：

由于键盘输入具有成本低、速度高、随意性好、准确度高等优点，因此成为现时汉字输入的主流手段，它的编码方式主要分为五大类：序码(如：区位码)、声码(如：拼音输入法)、形码(如：五笔字型、表形码、根声码)、声形码(如：自然码、一根声码)、数码(如：五笔数码、数码汉字)。

序码的代表是“区位码”，它的优点是无重码、编码较简短(全部都是4位)、可以输入各种特殊符号、借助字码对应表，一般人可以马上就进行键盘输入操作。但它的局限性也是明显的，就是无法输入词组，而且该编码的记忆量非常巨大，常人根本不可能把它全部掌握，而只能把它用作辅助性的输入手段，通常只是用它来输入特殊的汉字或符号；

声码的代表是“拼音输入法”，它的优点是不用专门学习，借助于义务教育所普及的汉语拼音的知识，一般人可以马上就进行键盘拼音输入操作，即通常所说的“不学就会”，这是它的最大优点，但它的“不好用”也是明显的，主要有：1)输入编码冗长，输入一个字词，要键入十多位长的拼音字母编码，操作负担较繁重；2)字词“重码率”极高，几乎每个全拼输入编码都对应几十个甚至过百个字词，经常要反复十多次翻看输入法选字屏才能找到并输入一个字词，严重制约的汉字输入效率，加重了打字操作的负担；3)方言区用户由于难以区分卷舌音和平舌音等细微发音区别，经常要用退格键修改拼音编码才能输入所需汉字，由此带来较严重的不良使用体验，并大大降低了输入效率，“搜狗拼音输入法”之类输入法虽然可以通过设置忽略卷舌音，但却又会显著增加“翻屏率”而显著降低输入效率，对于很多方言区用户而言，拼音输入法并不易学；4)单纯依赖拼音输入汉字，会导致用户书写能力快速退化，让用户常常陷入“执笔忘字”的窘境，对汉字文化传承非常不利。

形码的代表是“五笔字型”输入法，它的优点是经过专门训练的用户的打字速度较快，但它也有较大局限性：字根多而又缺乏便利清晰的记忆条理，入门难而又较容易遗忘，拆字不直观、字型码判断规则复杂，单字重码多达500多个(数据来统计自五笔字型4.5版)；

声形码的代表是“一根声码”，它吸收了声码和形码的很多长处，但由于其编码思想并未超越原有的声码和形码的局限，因而其编码总体效果较之“五笔字型”并无显著的飞跃，该编码的6763个一、二级国标字的重码率仍有0.9％(据http：／／www.yigenma.net／该发明人的公开说明)。其词组重码率与五笔字型相当、其一级、二级简码字数也和五笔字型相近。此外，在吸收了声码和形码的长处的同时，该编码也同时受到声码和形码的束缚，每输入一个汉字，不仅要清楚知道它的形态，还要知道它的读法，严重限制了其实用性，对于不会读的字使用该编码就不能输入，而“五笔字型”对于不会读的字并不妨碍其输入；

“表形码”是一种利用字根形态与键盘符号的相似性定义键盘的纯形码，这是形码编码的一种有益尝试，但相对于中文字根形态的复杂性，二三十个键盘字母的形态资源就显得力不从心了，由此造成该编码的键盘定义歧义性较多，其中不少定义给人以牵强附会甚至强词夺理的感觉，加上键盘形态分布与字根使用频率分布存在难以调和的矛盾性，使其键盘中各键的利用率很不平衡，由此而形成了大量的重码，由于该编码方案自身的这些局限性，除了较“五笔字型”相对较容易入门，“表形码”的其余性能均不能优于“五笔字型”；

“根声码”是一种以字根拼音首字母定义键盘的纯形码，它将汉字无音字根赋予命名，用汉字字根的拼音首字母进行编码，这是一种既有“五笔”重码少、速度快，又有拼音输入好学易记，键盘记忆量少的计算机汉字输入法，是形码编码的一大进步，但由于其主要的编码思想仍未超越五笔字型的局限性，因而其编码总体效果较之五笔字型并无显著的改善，除了较五笔字型容易入门这一些外，其余性能与五笔字型相当，由于字根键位过多过散，其使用体验远逊于五笔字型输入法；

总体而言，现已公开的形码输入法技术(以下简称为“旧输入法”)存在诸多不足，主要有如下几点：

(一)、“字根”难学

“旧输入法”所选取的“字根”不符合汉字的固有组字规律和社会大众用户的既有认知现状，“字根”数量多却没有可视化的识别规律可循，只能逐个死记，给用户额外增加了沉重的学习负担，难以被社会大众快速掌握：

1.字根的选择偏重于考虑数理统计性能，脱离了汉字的固有组字规律和大众的公知常识

“旧输入法”为了优化输入法编码系统的数理统计性能(减少“字根”数量、缩短编码位长、消除“重码”等等)，往往偏重于根据数理统计和编码学原理选取“字根”集，而很少考虑“字根”是否易于被用户掌握和使用，由于“字根”的数理统计规律是看不见摸不着的东西，用户根本就无法掌握和加以利用，因此这样选出来的“字根”不是社会大众日常生产生活中常见常用的对象，脱离了社会大众的公知常识，逼使用户不得不经过较长时间专门重新学习才能逐个掌握大量的怪异字根，导致这类数理统计性能优异的输入法难以被用户接受，反而失去了为社会创造价值的机会；

很多汉字都是“形声字”、“意声字”，这是汉字的固有规律，也是人们的公知常识。但以“五笔字型”为代表的“旧输入法”不是根据汉字的这种固有规律把汉字拆为“形旁+声旁”、“意旁+声旁”，而是硬生生地把汉字拆分成支离破碎、毫无意义的怪异书写结构；不是充分发挥人们的公知常识、利用大量极易识别的“字中字”作为字根，而是强迫用户另行重新学习一套脱离日常生产生活知识的数量庞大、支离破碎、毫无意义的怪异书写结构作为“字根”集，这不仅让用户感到不直观和别扭，同时也令用户很难快速熟练掌握，只有经过长时间专门重新学习才能掌握，但由于这些“字根”在日常生活中见不到，无法得到日用接触的巩固，所以只要一段时间不用这些输入法，很快就会忘得七七八八，打字水平快速下降，甚至不得不从头学起，这好比有阳关大道不走，却偏偏要走崎岖山路，给用户带来了沉重的负担。

2.“字根”数量多而没有简便易行的视觉识别规律，难以被用户轻松识别和快速拆取

由于“旧输入法”偏重于根据数理统计原理选用的“字根”，缺乏形态上的可视化识别特征和规律，导致用户无法仅凭可视化的形态特征，快速判断在汉字内部存在的大量千变万化的书写结构之中，那些不是“字根”并加以组合或拆分为“字根”、那些是“字根”并直接加以拆取，这令用户在拆字过程中只能逐个对照“字根”集中的每个“字根”进行“排查”，直到查出与具体汉字匹配的“字根”，才能获得正确的拆字方案。

因此，这类输入法的用户只有在熟练掌握全部指定“字根”后，才有可能做到快速拆字，但这类输入法要专门记忆的的“字根”数量动辄二三百个，用户必须花费相当长时间的大量练习，逐个熟悉了所有“字根”(背熟“字根歌”、记熟“字根键位分布图”、做大量拆字编码练习题等等)后，其打字速度才有可能赶超“拼音输入法”新手的打字速度，这给用户学习这类“形码输入法”设置了较高的“门槛”，大多数用户因为过不了这道“门槛”而被迫使用拼音输入法这种最容易“入门”的输入法以应付紧迫的打字需要，这就是当今“拼音输入法”大行其道的主要原因。

3.“字根”缺乏繁简汉字通用性，简体字的“字根”只适用于简体字而不适用于繁体字

由于“旧输入法”的字根不是“字中字”这类大型直观“字根”，并且也不是按统一的视觉识别标准选取，而是全靠硬性指定，因此所选定的“字根”只能适用于特定的汉字系统(简体字适用则繁体字不适用，缺乏普通用性和可移植性)。

(二)、拆字规则繁琐而不统一(多有特例)：

1.“旧输入法”要区分是否是“键名字”采取不同的编码和输入方法；

2.“旧输入法”要按“字型”不同追加“字型尾码”；

3.“旧输入法”要根据汉字所含子字根数不同而采取不同的取根方法(例如在“五笔字型”输入法中，包含超过四个字根的汉字，必须拆完整个字才能编码)；

4.“旧输入法”要对特殊字采取特殊拆字规则(例如“活字码”对“赢蠃嬴羸”四个字的拆法与其他字不同)；

5.“旧输入法”要区分三种上包围结构(例如“活字码”中，要区分“空／穴／寨”三种类型的上包围结构)；

6.“旧输入法”拆字方式不尊重汉字内部书写结构的自然分立现实，不直观而又别扭难学

有很多汉字是形声字、意声字，这是汉字的固有规律，也是人们的公知常识。但以“五笔字型”为代表的“旧输入法”不是根据汉字的这种固有组字规律把汉字拆为“形旁+声旁”、“意旁+声旁”，而是出于数理统计性能方面的考虑，硬生生地把汉字拆分成支离破碎、毫无意义的怪异书写结构(例如在“五笔字型”中，明显单体的一个“字中字”却要拆为为多个“字根”)，这背离了用户公知的常识，让用户感到别扭，并且要耗费较大的努力才能适应过来，大大增加了这类输入法的“入门”难度。

(三)、缺乏把“字根”映射到键位的简便易行规则，用户无法快速掌握把“字根”转译成编码的技能，导致输入法难用：

“旧输入法”只是“不讲道理”地把字根硬性指定到键位上(因为那些数理统计道理看不见摸不着，就算讲给用户听了也很难被用户理解和加以有效利用)，无法给用户提供把“字根”指定到键位的简便易行规律，这让用户只能通过长时间的大量专门训练，才能掌握每个“字根”应该指定到那个具体的键位上，通常要死记硬性规定的“字根键位分布图”、反复背诵晦涩难懂甚至毫无语义的“字根歌”、牢牢记住几十个“一级简码字”、“键名字”、“特殊字”该用什么键位输入等等，在经过较长时间刻苦训练，才能基本掌握把“字根”转换成编码的技能，这越来越难以满足生活节奏越来越快的年轻新一代人的需求，试问在紧张沉重的生活重压下，有多少人能闲下心来苦练那些枯燥乏味的字根系统?

更糟糕的是，通过“字根键位图”查找“字根”对应键位的编码方式，和人们打字的自然操作流程正好相反(自然打字过程中需要用户快速确定每个具体的“字根”应放在那个具体的键位上，而“字根键位图”却只能显示每个具体的键位可以输入那些“字根”；前者的需求是从“字根”一对一指向键位，而后者的作用却是从键位一对多指向“字根”，两者的指向正好相反、数量也不能衔接)，新入门的用户常常要使从“字根键位图”中的几十个键位上逐一排查，千辛万苦地找出想输入的“字根”，然后才能对照图中的键位“按图索骥”实施输入，这就非常严重地降低了实际输入效率，足以把大部分新用户“吓走”。

(四)、编码冗长，增加了打字操作的负担

以五笔字型为代表的“旧输入法”，由于“字根”必须按照形态特征分区排序分布到对应的键位上，这导致“字根”键位分布缺乏调节弹性，键盘中各键位的使用率严重不均衡，导致“重码”多，编码冗长，为了避免“重码”，单个汉字的编码长达4位甚至更多，仍这样仍然无法避免“重码”的大量存在，面对大量的“重码”，输入一个汉字的击键次数超过5次也是常事(输入4位编码后还要用数字键选字)，这严重影响了输入效率，也加重了打字员的劳动强度。

(五)、妨碍了键盘中常用的符号键、功能键、数字键的通用功能

有些输入法把一部份“字根”指定到键盘固有的标点符号键、功能键、数字键上，改变了键盘的通用性能，用户不得不改变社会通行的键盘使用习惯，因而额外增加了输入法的学习成本，让用户难以适应和接受。

例如：“活字码”必须先按下[CapsLock]键后，才能输入标点符号；又如：在公开号CN258033A的“汉字字根输入法及其键盘”中，字根键盘占用了多达53个键位，妨碍了通用电脑键位的一部份正常默认功能(例如Tab、Shift、Ctrl、CapsLock、F1、Alt等等)。

(六)、缺乏在线帮助功能

“旧输入法”用户在遇到打字困难时就要人手查阅“五笔字型字码表”、“字根键位图”之类人手辅助工具，经过烦琐的手工翻资料查找后，才能得到低效的帮助。

(七)、缺乏容错性，用户易受挫折，损害使用体验，妨碍输入法的推广

输入法的存在价值是方便大众打字，因此，发明输入法的目的是要为大众提供简便高效的打字体验，而不是为了教训群众、惩罚群众(常常因为微少的“错误”而让用户打不出想要的汉字)。

但“旧输入法”拆字规则繁琐而又死板，缺乏容错性，由于不同人对拆字的理解和习惯往往会有不同程度的识知偏差，这就导致用户在打字过程中很容遭受挫折，这严重损害了用户使用输入法的体验，妨碍形码输入法的普及，由于使用“旧输入法”老是让人打不出想要的字，以致现在的年轻人宁愿用“搜狗拼音输入法”也不学“五笔字型”输入法。

例如：“万能五笔”的出现，正好说明五笔字型输入法的难用性，试想一种好用的输入法，单用一种就可以很好地解决所有汉字的输入问题了，无须搬来拼音输入法、笔划输入法、英汉输入法等一班“兄弟”，十八般武艺一齐上才能解决问题，这恰恰证明“五笔字型”不是一种好用的输入法，用户经常要不得不借用拼音、笔划、英文等其他各种输入法才能解决日常汉字的输入问题；

又如：“方旻五笔”、“念青五笔”等“五笔字型输入法”的后起之秀，之所以受到“五笔字型输入法”老用户的喜爱，主要得力于这些改进过的五笔字型输入法增加了一定数量的“容错码”，但这两种输入法并未完全领悟“容错码”的重要性，思想仍不解放，“容错码”仍然太少，仍然有不少字不容易打出来。留意各种版本的“五笔字型”用户的操作过程很容易就会发现，即使一些“五笔字型”的打字老手，在用“五笔字型输入法”打字时，也经常要反复使用“退格键”修改编码，才能打出那些为数不少的“易误汉字”，这造成“旧输入法”无法与“搜狗拼音输入法”之类的拼音输入法抗衡，不断丧失原有的优势，越来越被社会大众边缘化。

综上所述，长期以来，为社会所普遍认同的“易学好用”的输入法至今还未出现，现已公开的主要输入法技术存在诸多不足，有待进一步改进和完善。

第三部分：发明内容

第一节、本发明的目的

针对本说明书第二部分所列举的各种“旧输入法”技术的不足，本发明的目的是，通过一系列技术改进和创新措施，克服现有输入法存在的“易学的输入法打字不快、打字快的输入法难学”的难题，创造一种符合汉字的固有组字规律和社会大众的公知常识、用户运用其既有的知识储备而无须经过长时间训练就能掌握、只需输入简短的编码而又无须“翻屏”找字就能快速输入汉字的“直观易学、简便快捷、无须翻屏”的中文输入法及其键盘。

第二节、技术方案

“字组字输入法”通过一系列创新理念、优化技术和改良工艺措施，有目的、有系统、有步骤地克服了现有输入法的不足，创造出真正“易学好用”的汉字输入法及其键盘：

一、“字组字输入法”的基本术语和表达方式的说明

(一）、“分立”：汉字内部书写结构中不同部分之间没有相互接触的现象称为“分立”。

(二)、汉字内部分立书写结构的分类术语

1.“笔划”：是组成汉字的最基本书写结构单元，“字组字输入法”根据社会现行的约定俗成，归结为“点横竖撇折”五种笔划(丶一丨丿乙)。

2.“连笔体”：由不少于两个笔划组成，其内部没有分立结构的汉字书写结构。

3.“偏旁”：由不少于两个笔划组成，没有完整的字义，不能作为正式汉字在现代汉语的语句中使用，但可以在多个不同汉字内部用作构成组件的汉字内部书写结构(“偏旁”往往带有特定的模糊含义)。

5.“字中字”：由不少于两个笔划组成，有完整的字义，既可作为完整独立的汉字在现代汉语的语句中使用，也可以在其他汉字内部充当结构组件的书写结构。

6.“汉字嵌套分级”：根据汉字所包含“字中字”的层次不同，可以将汉字分为“基层字”(包括“①二笔字”、“②多笔底层字”、“③半底层层字”)、“④中层字”、“⑤高层字”几大类，越往上的汉字越复杂，越往下的汉字越简单，如下表所示：

7.“基层字”：由不少于两个笔划组成，其内部没有分立的多笔划“字中字”(如：“立辛水夏鬼敖非卬永”等等；所谓分立的多笔划“字中字”是指含不少于3个笔划，并在汉字中分立存在的“字中字”)。基层字包括上图所示的“①二笔字、②多笔底层字、③半底层字”，是“字组字输入法”中数量最多的“字根”形式；

8.“加点字”：由一个“基层字”加一个或多个分立的点“、”和或短撇“′”组成的“字中字”。(例如“鸟”字是“乌”字加上“、”而组成，在“鸡”字中充当“字中字”)

9.“字根字”：被输入法系统选定为“字根”的汉字，包括“基层字”和“加点字”；

10.“非根字”：未被输入法系统选定为“字根”的汉字。

(三)、在本说明书中，输入编码字母串的表示方法：

用方括号“[”和“]”括起来的符号串，表示输入的键盘编码串(编码字符串中不包含方括号“[”和“]”)。例如：“键入[abc]”是表示在键盘上按顺序敲击“abc”这三个键位，从而输入“abc”这三个字母组成的汉字输入编码。

(四)、输入法数理统计性能的主要指标术语

1.“重码”：不同字词使用相同输入编码的现象；

2.“同码字”：使用相同输入编码的不同单字；

3.“重码率”：在国家标准汉字字库指定的全部汉字之中，“同码字”所占的百分比；

4.“选字屏”：在显示屏上列出符合当前输入编码的字词，以供用户选取字词的小视窗；

5.“翻屏”：在输入汉字过程中，由于“同码字”超过汉字输入法“选字屏”满一屏的容量(10个)，用户为了查找所需的字词而不得不翻阅“选字屏”的操作过程；

6.“翻屏字”：在输入过程中，必须翻阅“选字屏”找字之后才能输入的汉字；

7.“翻屏率”：在国家标准汉字字库指定的全部汉字之中，“翻屏字”所占的百分比。

8.“一码字”：输入编码只有一位的汉字；

9.“二码字”：输入编码只有二位的汉字；

10.“三码字”：输入编码只有三位的汉字；

11.“容错码”：“用户使用带有小错误的编码仍能打出其所需汉字”的汉字输入编码。

二、“字组字输入法”改进发明设计理念，让发明朝着正确的方向合理调配资源

“字组字输入法”改进了发明设计理念，从“旧输入法”偏重于优化数理统计性能而片面“追求低重码率”理念，向“字组字输入法”兼顾优化数理统计性能和改善用户使用体验，让技术适应市场需求而“追求零翻屏率”的全新理念转变，以便简化操作流程、改良用户的键盘使用体验，创造的适应市场大众需求的“易学好用”的输入法。

现时“重码率”较低的各种“形码输入法”越来越少人问津，而以“重码率”居高不下而被人们不断诟骂的“拼音输入法”，却成了现时使用者最多的汉字输入法。大众对“拼音输入法”一边骂一边用的“自虐”现象表明，大众选择输入法的首要条件是容易入门，立竿见影，而不是低“重码率”或零“重码率”。

广大用户对“拼音输入法”的最大不满并不在于其存在“重码率”，而在于其每组“重码”的“同码字”太多。在使用拼音输入法打字时，经常会遇到一百几十个汉字的全拼输入编码完全相同的“壮观景象”，用户不得不经常把大量精力时间耗费在反复翻屏查找所需字词的过程上，在经过反复折腾、大费周章之后才能找到并输入所需的字词。

假如能把每一组“重码”的“同码字”的数量都控制在过10个以内，就能把这些“同码字”在输入法“选字屏”上一屏显示完毕而无须“翻屏”，用户在输入正确的编码后，只须根据“选字屏”上显示的数字序号，输入所需输入字词对应的数字序号就可以输入了(如果使用触摸屏的虚拟键盘，则只需要直接点击选字屏上的中文字词即可输入它们)，若可以无须“翻屏”就能输入汉字，则大部份用户就会感到“好用”了。

由此可见，“旧输入法”的“追求低重码率(甚至无重码）”的指导思想，是脱离大众实际核心需求，过度追求“完美”的“工程师情结”式错误理念，在这种错误理念指导下产生的技术发明，往往会因为“完美”得脱离实际需求而不受大众接纳，无法得到广泛应用，更无法造福于社会。

为此，“字组字输入法”发明人提出了不追求低“重码率”，转而追求低“翻屏率”的全新技术理念，容忍每组不超过10个“同码字”的无害“重码率”。

这就免除了对输入法数理统计性能的、脱离用户实际需求的完美主义过度要求，让“字组字输入法”无须为了过度降低“重码率”而刻意选用高频却不直观的怪异“字根”、无须为了过度降低“重码率”而刻意动用复杂繁琐的拆字编码流程、无须为了过度降低“重码率”而不得不加长输入编码、无须为了过度降低“重码率”而刻意占用标点符号键、数字键、功能键等非字母键来映射“字根”，就已经可以实现低“翻屏率”的“好用”效果。

正因为这样，“字组字输入法”得以实现相关理念的转变，并据此采取一系列适应用户实际核心需求的有效措施，让输入法变得“易学好用”。

三、“字组字输入法”采取一系列适应用户核心需求的有效措施，改善实用性能

1.选择“形码”作为单字的编码手段

汉字多达数十万个(种)，但汉字的基本发音组合只有328种(未分4声调)，异字同音的现象十分严重，一字多音的现象也不少，因此，汉字的读音特征的排它性较差，要开发出零“翻屏率”的纯拼音输入法是不可能的任务。然而，每一个汉字都有独一无二的书写形式，不存在异字同书的现象。因此，要创造零“翻屏率”的汉字输入法，就离不开在编码中对字形信息加以利用，所以“字组字输入法”选择“形码”作为单字编码手段。

2.改进优选“字根”的技术理念，尊重汉字的组字规律和大众的公知常识

“字根”是指一切能够组成其它字的字中字、偏旁、笔划。根据本发明人的统计，仅6763个国标汉字中，能够组成其它字的单字和偏旁就有1247个。选择什么类型的字根也会直接影响编码的总体效果，假如把这1247个字根统统采用，则对用户的识字水平提出了较高的要求，将会给普通用户形成较大的入门难度，难以服务大众；只选择结构简单的少笔划字根，会令编码不直观，而且因为单字拆件过多而编码简洁性较差；只选择结构复杂的多笔划字根，虽然编码比较直观，但无法解决简单结构的表达问题。

“旧输入法”为了优化输入法编码系统的数理统计性能(减少字根数量、缩短编码位长、降低重码率等等)，往往偏重于根据数理统计原理选取字根集，而很少考虑字根是否易于为用户掌握和使用，由于字根的数理统计规律是看不见摸不着的东西，用户根本就无法掌握和加以利用，因此这样选出来的字根不是社会大众日常生产生活中常见常用的对象，必须经过较长时间专门重新学习才能掌握，导致这类数理统计性能优异的输入法难以被用户接受，反而失去了为社会创造价值的机会。

为了解决字根选取中的诸多难题，“字组字输入法”独创了“按一套简易的视觉识别规律直观选定字根”以减少用户专门学习量的选根技术指导思想，具体为以下两项：

1)“字组字输入法”对字根的类型取向从旧输入法“根据数理统计原理选定高频字根”转变为“按一套简易视觉识别规律直观选定字根”，以求更加贴近大众的固有思维习惯和认知储备(参照拼音输入法广为流行的成功经验，汉字输入法只有充分利用社会大众既有的认知储备，尽可能减少用户使用输入法之前的额外专门学习量，才有可能被社会大众广泛采用)，同时，根据直观的形态特征规律选取字根，输入法更加直观易用；

2)“字组字输入法”对字根数量的控制从旧输入法“追求字根数量少”转变为“追求专门学习量少”，以便降低用户使用输入法的入门成本；“字组字输入法”根据一套简易的视觉识别规律，选出大众普遍熟悉的“字中字”、“偏旁”、“笔划”作为字根，而不刻意限制字根的数量，由于这些“字根”都是大众在日常生产生活中可以频繁接触、习以为常的对象，而且都符合一套简易的视觉识别规律，所以用户只要记住几条简易视觉识别规律，无须专门学习就能快速识别和拆取字根，故而实现“字根多而学习量少”。

“字组字输入法”的基本“字根”共有522个，全部都是大众熟悉的对象，其中包括：大众熟悉的5种笔划“点横竖撇折”(丶一丨丿乙)、大众熟悉的“字根字”433个(占83％，用户完全无须专门学习，仅仅根据视觉识别规律就可以识别拆取)、大众熟悉的84种“偏旁”(都是日常生活中常见的通行偏旁)。用户无须长时间专门学习，只须花半小时了解相关识别规则和浏览“偏旁字根表”，就可以马上使用“字组字输入法”快速输入汉字，实现了“字根多而专门学习量少”的良好效果。

3.调整键盘键位布局理念，充分尊重大众使用键盘的固有习惯

1868年，美国发明人Christopher Latham Sholes获打字机专利，公开了至今世人仍在广泛使用的“QWERTY”键盘。由于这种键盘的字母键位布局方式在实际使用中相当别扭和低效，所以在此后的一百多年里，世界上出现了多种试图改进打字键盘字母键位布局的发明，但其中没有任何一种新的字母键位布局方案能够取代“QWERTY”键盘的键位布局方案，因为这种键盘布局已经成为一项根深蒂固的大众文化习俗，形成了难以抗拒的巨大惯性。这是一个“低效产品”击败“高效产品”的著名实例。由此可见，任何打字技术，只有充分尊重和顺应大众使用键盘的固有习惯，才有可能被大众广泛接受而成为“有用”的打字技术，否则做得再好也很难有用武之地。

因此，“字组字输入法”对把字根映射到键盘各键位的键盘布局理念，从传统形码输入的法“追求高效利用全键盘(混合使用字母键、标点符号键、功能键、数字键作为字根键位用以输入汉字编码)”转变为“尊重大众使用键盘的固有习惯”(不改变键盘的通行键位布局，单纯使用26个字母键作为字根输入键位输入汉字编码)，以便社会大众更容易接受。

4.简化拆字流程，从“对照字根表拆字”转变为“优先根据书写结构分立直观拆字”

由于“旧输入法”偏重于根据数理统计原理选用的“字根”，缺乏形态上的可视化特征规律，导致用户无法根据可视化的形态特征，快速判断汉字内部存在的各种千变万化的书写结构之中有那些不是“字根”须加以拆分或组合成“字根”、又有那些是“字根” 可以直接加以拆取，这令用户在拆字过程中只能逐个对照“字根集”中的每个“字根”，直到找到与具体情况相匹配的“字根”，才能确定正确的拆字方案，此举大大增加了用户的入门难度，很难快速入门并进而有效使用这类输入法。

针对这一问题，“字组字输入法”首创了“根据书写结构分立直观拆字”的全新理念：根据一套简易的视觉识别规律，选出大众普遍熟悉的“字中字”、“偏旁”、“笔划”作为字根，而不刻意限制字根的数量，由于这些“字根”都是公众在日常生产生活中可以频繁接触并习以为常的直观对象，而且都符合一套简易的视觉识别规律，所以用户只要记住几条简易视觉识别规律而无须专门逐个“字根”进行学习，就能快速识别和拆取字根，故能达到“字根多而专门学习量少”的优良效果。

基于这种具有统一视觉识别规律的“字根”体系，用户无须象“旧输入法”那样“对照字根表拆字”，只要“根据书写结构分立和笔顺直观拆字”即可，用户无须预先熟记所有字根，就可以根据实时遇到的汉字内部书写结构的视觉识别特征和自然分立情况，拆取出符合视觉识别标准的“字根”了，可极大的降低用户使用“字组字输入法”的入门难度。

5.简化拆字流程，从“拆取头三根和尾一根”，简化为“只取前三个字根”

“旧输入法”为了最大限度降低“重码率”，不得不从每个汉字中尽可能多提取“字根”，以增加字与字之间的区别度，因此通常都要“拆取头三根和尾一根”共计四个字根，由于最后一个字根只有把整个汉字拆解完毕才能获得，这等于逼使用户把整个汉字拆解完毕，才能取齐所需字根，大大增加了拆字的工作量。

由于“字组字输入法”不追求最大限度降低“重码率”，所以无须拆取太多字根就能有效区分汉字并达到零“翻屏率”的目的，无论汉字的书写结构有多么复杂、包含了多少个“字根”，只要按笔顺拆取最前面的三个“字根”即可，无须理会第三个字根之后的所有字根，这就大大简化了拆字流程、显著减少了工作量，让“字组字输入法”更加“易学好用”。

6.简化字根编码规则，从根据“字根键位分布图”对字根进行键位编码、对不同的字实施不同的编码规则，转变为根据“简便映射规则”进行字根键位编码、对所有汉字都使用统一的编码规则。

“旧输入法”只是“毫无道理”地把“字根”硬性指定到键位上(因为字根背后的那些数理统计道理看不见摸不着，就算用户知道了也无法有效加以利用)，无法向用户提供把“字根”指定到键位的简便易行规律，这让用户只能通过长时间的大量专门训练，才能逐个掌握每个“字根”应该指定到那个具体的键位上，通常要死记硬性规定的“字根键位分布图”、反复背诵晦涩难懂甚至毫无语义的“字根歌”、牢牢记住数十个“一级简码字”和“键名字”该用什么键位输入等等，在经过较长时间刻苦训练，才能基本掌握把各个“字根”转换成对应编码的技能；

因此，“字组字输入法”把“字根”映射到键盘键位的方法简单便捷，只需按照两条规则：1)拼音首字母映射规则，按照“字根”读音的拼音首字母，指定到相应的字母输入键位上(适用于97.32％的字根，详见本说明书第23页之“字根表A”)；2)近形字母映射规则，按照形态相似的线索，把“字根”指定到形态与之相似的字母输入键位上(适用于2.68％的字根，详见本说明书第25页之“字根表B”)。

“字组字输入法”按照“全有理映射”的理念安排把字根映射到键盘键位的方案，借助用户的公知常识，按统一简便的规则把每个字根指定到对应的键位上，无须记忆任何“字根键位分布图”，无须经过专门重新学习。

1)“旧输入法”的拆字规则繁琐、不直观而又别扭，并且多有特例：

①“旧输入法”要区分是否是“键名字”而采取不同的编码和输入方法；

②“旧输入法”要按“字型”不同追加不同的“字型尾码”；

③“旧输入法”要拆完整个汉字的所有字根才能对其进行编码(例如在“五笔字型”输入法中，包含超过四个字根的汉字，必须拆完整个字以取得最后一个字根，才能获得头三根和尾一根并进行编码，又如在“活字码”中，要对汉字进行“二级拆字”)；

④“旧输入法”要对特殊字采取特殊拆字规则(例如“活字码”对“赢蠃嬴羸”四个字的拆法与其他字不同)；

⑤“旧输入法”要区分三种上包围结构(例如“活字码”要区分“空／穴／寨”三种类型的上包围结构)；

⑥“旧输入法”要区分口字旁“口”与方框儿“囗”两种四包围结构(例如“活字码”)；

⑦“旧输入法”拆字方式不尊重汉字内部书写结构的自然分立，不直观而又别扭(例如在某些“旧输入法”中，很多明显连体的“字中字”都要被支解成更细的“字根”)。

2)“字组字输入法”大大简化了拆字规则，直观自然，规则简单而统一：

①“字组字输入法”无“键名字”；

②“字组字输入法”无“字型码”，无“尾码”；

③“字组字输入法”对所有汉字全部统一拆取不超过前三个“字根”，无须“二级拆字”，也无须把全字拆解完毕(只要拆出前三个字根即可编码，后面更多的“字根”无须理会，大大简化了拆字流程)

④“字组字输入法”对所有汉字和偏旁的拆字、编码、输入规则都一样，无须区分；

⑤“字组字输入法”无须区分“三种上包围结构”，无须区分三种“易混字”；

⑥“字组字输入法”无须区分口字旁“口”与方框儿“囗”两种四包围结构，两者都用字母“o”输入；

⑦“字组字输入法”的拆字方式尊重汉字内部书写结构的自然分立，直观而且符合社会公知和习俗，“字中字”被拆解的情况极少。

7.显著缩短了单字的编码长度、实现字词输入零“翻屏率”

由于“字组字输入法”简化了拆字取根的流程，“只取前三根”，因此单字输入编码也相应地缩短为不超过3位，实现了“简便”的优化效果；

由于“字组字输入法”利用“偏旁”无确定读音的特点，通过反复调整“偏旁”的读音，从而调整指定到键位的映射方案，显著提高了编码的数理统计性能，GB2312字库中的汉字中，同码字数超过10个的汉字只有42组，其中同码字按字频排名位列本组同码字之中第10位以后的汉字只有175个(仅占总单字数量的2.57％，而且都是使用率极低的汉字)，这175个汉字按常规编码方式输入其编码后，需要翻屏1次才能上屏和输入，但本发明为这175个单字提供了额外并行的加速输入通道，让这175个字除了按常规编码方式翻屏输入之外，还可以通过输入单引号“加速尾码”而加速上屏，具体方法是，如果有任何单字在输入完了常规编码之后未能上屏，则再追加1个单引号[’]，即可上屏，通过这种方法，就连这175个单字也可以实现免翻屏输入，本发明通过这种方式，实现了GB2312字库中的全部汉字的免翻屏输入。而字组字输入提供的58279条词组中没有任何一组同码词超过10个的，所以所有词组全部都无须“翻屏”即可输入。因此，“字组字输入法”实现了全部单字和词组免“翻屏”输入的“好用”效果。

8.提供强大便捷的在线查码功能

“旧输入法”用户在遇到打字困难时就要人手查阅“字码对照表”、“字根键位图”之类人手辅助工具，经过烦琐的手工翻资料查找后，才能得到低效的帮助。

“字组字输入法”提供了强大的在线即时全拼查码功能、在线即时模糊查码功能。

1)全拼即时查码功能

在使用“字组字输入法”的过程中，当用户需要查询某个汉字的拆法和输入编码时，只要键入单引号查询键[′]加上该汉字的全拼字母串，就可以获得符合该读音的所有汉字的拆字方法和输入编码显示，十分方便：

例如：键入[′wo]就可显示下列内容。

......等等内容(后面的所有内容可以翻屏查看)

这种查询键[′]的设计并不会妨碍单引号(’)的输入，因为在“字组字输入法”中，只要键入[′]加击空格键，就可以输入一对全角单引号(‘’)，非常方便。

2)随时查阅各“字根”名称、读法和输入键位的功能

用户在使用“字组字输入法”的过程中，如想查询各种笔划、所有偏旁、罕见字中字的名称、读法和输入键位，只要键入查询键[′]就可以在输入法选字屏上翻阅所有“笔划”、“偏旁”、罕见“字根字”的读法和键位输入方法。

在使用“字组字输入法”的过程中，随时键入[′]，选字栏上就会显示以下内容：

1：‘’

2：字组字发明人：刘伊翰

3：ZY-ENGLISH.COM

4：一=笔划横=横heng″

5：丿=笔划竖=撇pie″

6：乙=笔划折=v(象形=乛乚乙)″

7：丶=笔划点=点dian″

8：丨=笔划竖=i(象形)″

9：口=口旁=o(象形)″

0：艹=艾头=艾ai(古字读ao3俗名草字头)″

击[PageDown]键，则显示以下内容：

1：氵=清水=清qin(俗名三点水)″

2：扌=控左=控kong(俗名提手旁)″

3：亻=单人=单dan″

4：钅=金旁=金jin″

5：丷=V头=v(象形)″

6：亠=文头=文wen″

7：宀=宝盖=盖gai(宝盖头)″

8：纟=绞丝=丝si″

9：讠=言旁=i(象形)″

0：阝=双耳=耳er″

再击一次[PageDown]键，则显示以下内容：

1：忄=竖心=心xin″

2：冖=秃盖=盖gai(秃宝盖)″

3：厶=台头=台tai(俗名私字旁)″

4：冂=上框=u(象形)″

5：=竹头=竹zhu″

6：疒=病旁=病bing″

7：囗=方框=o(象形)″

8：辶=之底=i(象形)″

9：勹=包头=包bao″

0：=年头=年nian″

......依此类推，即可查阅所有笔划和偏旁的名称、读法(输入键位)，非常方便。

3)随时查阅各字母上有那些偏旁、笔划“字根”及其名称、读法

用户在使用“字组字输入法”的过程中，如需查询某个字母键位上有那些“偏旁”、“笔划”时，键入查询键[′zg]加上相应的字母键，就可以显示该键上相应“偏旁”、“笔划”的清单，如下列表所示，等号左边是输入的查询编码，等号右边的是电脑显示的答案内容：

′zga=A艹(艾字头)

′zgb=B疒勹(病包卜)

′zgc=C镸歺車(春长舛餐车)

′zgd=D亻丶夂癶(单点冬大登)

′zge=E阝冫彐卩(耳二E厄耳)

′zgf=F饣犭攵(饭，反犬，反文，反头)

′zgg=G宀冖冎#G(盖盖共骨冓告官)

′zgh=H—虍彑(横虎韩互)

′zgi=I讠辶丨(近形=iiI)

′zgj=J钅廴丬旡丩叚(金建劲举卷将既叫，叚左)

′zgk=K扌丌丂(控开亏)

′zgl=L刂罒礻耂(利罗临礼老)

′zgm=M(免字头)

′zgn=N，廾(年头，弄底)

′zgo=O口囗(近形：口与囗，似O形)

′zgp=P丿灬，彡(撇烹，三撇儿)

′zgq=Q氵夬(清青缺)

′zgr=R彳(人=双立人)

′zgs=S纟，氺(丝，水)

′zgt=T厶丅(台T通)

′zgu=U冂凵匚](形拟字母U的四个框)

′zgv=V乙(折)丷(V头=字母V裂开)

′zgw=W亠(文字头)

′zgx=X忄衤覀(心袖西肖)，兴(头)，乂(X形)

′zgy=Y尢(尤字底)

′zgz=Z走(竹头，足旁，走底)

4)万能代根键模糊查码功能

用户在使用“字组字输入法”输入某个字词时，如果不能确定其编码中某些位置上的具体字母是什么时，可以用键盘左上角[ESC]键下方的[`]键输入“`”代替不清楚的字母(备注：[`]键的ASCII码值等于96，每个[`]顶替1个未知字母)，系统会启动模糊查询功能，显示所有可能符合用户需要的汉字及其编码供用户选择，用户可以从中翻阅选取并输入自己需要输入的汉字，并从中学会正确的编码，非常方便。

例如，键入[ab`]，则选字屏上将会出现以下内容：

1：苞abs 2：荜abs 3：苟abo 4：蒺abs 5：警abo

6：敬abo 7：菊abm 8：蒈abb 9：葩abb 0：葡abf

击翻页键，则显示下一页的内容如下：

1：擎abo 2：檠abo 3：萄abf 4：荀abr

用户可以从中选取自己想要的单字，并学习该汉字的正确编码，非常简便。

9.提供大量“容错码”

容错性是一种输入法是否容易入门的重要技术因素，大量用户的识字水平、写字习惯、拆字习惯是千差万别的，一种容易入门的打字方法，不会因为用户在打字过程中的一些微小的拆字编码“错误”而惩罚用户(令用户打不出想要的汉字)。

在使用某种输入法的过程中，假如用户按自己的想法经常打不出想要的汉字，就会让用户逐渐深陷挫败感而最终放弃学习这种输入法的努力，从而导致“入门”失败，这是很多输入法难以推广的重要原因，比如笔划输入法，看似很容易学，但实际上人们的写字习惯千差万别，很少有人能够完全按“规范笔顺”写字，结果是笔划输入法的用户们按照各自的习惯性书写笔顺输入汉字时，常常会打不出想要的汉字，导致笔划输入法这么“容易学”的输入法无法成为在大众中流行的输入法。

“字组字输入法”具有极强的容错性，提供“无微不至”的大量“容错码”(超过2000条)，兼容各层次用户的识字水平和拆字习惯，让“字组字输入法”成为“雅俗共赏”的“用户友好型”输入法，让各种层次的用户使用它时，都会感觉到似乎这种输入法是为自己而订造，似乎这种输入法知道自己心理在想要什么似的，从而让各层次的用户一旦试用“字组字输入法”就会爱不释手，不再“出门”。

“字组字输入法”独创全面容错的编码思想，提供包容各种用户识字水平和拆字习惯的大量“容错码”，其中主要有以下几大类：

1)照顾识字少的用户：默许拆分难认“字根字”的“容错码”

一些“字中字”，例如“卞缶爿酋冉乇屮蚩巛艮呙耒糸黾廿肀臬丕攴豕彖疋豸髟亍佥爻爰仄卮”等等，这些字符合“字根字”的视觉识别标准，并且是GB2312字库内的汉字，是“字组字输入法”的基本“字根字”，但这些“字中字”在日常生活中比较少用，因此有些普通用户很可能不识读其中或多或少的一些字，而不把它们当作“字根字”对待，往往会误将它们拆分成更小的“字根”，对此，“字组字输入法”提供把这些难认“字中字”拆分成更小“字根”的“容错码”，包容普通用户的这种小“错误”，让这类识字较少的普通用户沿用他们固有的认字习惯也能顺利打出包含这些相对“难认”的汉字(遇到不认识的“字中字”，把它拆细就可以了)。

2)照顾识字多的用户：默许把罕见“字中字”作为“字根”对待的“容错码”

一些“字中字”，例如而不限于：“帛臿蚩充朿弔市冓柬疌丏卌曰戉帀”等等，这些字虽然符合“字根字”的视觉识别标准，但由于不是GB2312字库内的汉字，所以并不是“字组字输入法”输入法的基本“字根字”，而且这些古文字在日常生活中很少会见到，因此大多数普通用户不会读它们，也不会把它们当作“字根字”对待，但一些识字较多的“文字工作者型用户”可能会认识这些字，并较容易误将它们当成基本“字根字”对待，对此，“字组字输入法”提供把这些字作为字中字字根的容错输入编码，包容用户的这种小“错误”，让这类“文字工作者型用户”沿用他们固有的认字习惯也能顺利打出包含这些古文字的汉字。

由于有古文“字中字”的容错码，“字组字输入法”实际上实现了任何符合“字根字”视觉识别规律的“字中字”，都以作为“字根”对待的实际应用效果，用户再也无需刻意分辨“字中字”是不是“标准”的“字根字”，使“字组字输入法”的易用性有了很大提高。

3)照顾喜欢拆细字根的用户：提供拆细字根容错码

一些学过“五笔字型输入法”和其他“拆细型字根输入法”的用户，习惯于把汉字拆分为细小的“字根”，“字组字输入法”也提供相应的容错码，保证用户的使用这些“错误”拆字编码方法也能输入该字。

10.词组编码，顺应语言思维习惯：

人类语言思维是一种与书写符号无任何必然关联的过程，人类语言思维过程中最重要而且必不可少的对象只有感知物象，首先是视象，其次是语音(但语音也不是必不可少的，聋哑人不用语音也能够有效地进行语言思维和交流)。众所周知，目不识丁的人并不会在语言思维过程中遇到任何困难，不会写字的“六祖”慧能和尚也能够创作出“菩提本无树，心镜亦非台，本来无一物，何处惹尘埃。”这样高妙的佛偈。

因此，“字组字输入法”发明人发现，在写作过程中过多的涉及象形符号的拆解，不仅对写作思维无任何帮助，反而容易干扰和打断思路，所以在词组编码过程中应当尽可能少涉及不必要的象形符号拆解过程。

要提高输入效率，关键在于提高词组编码的效率；要在提高编码效率的同时照顾思维过程的便利，最简捷的办法是拼音缩写。但是少字词的拼音缩写的重码率极高，不得不结合和利用字根形码进行辅助识别，以有效降低词组重码，实现词组输入零“翻屏率”。

“字组字输入法”对词组采用“以拼音缩写为主，辅以字根形码识别”的词组编码工艺，不仅编码更简便，而且更符合语言思维习惯，重码率也很低，实现了词组输入零“翻屏率”，完美地兼顾了提高效率、方便普及、适应用户思维习惯的需要。

第三节、本发明所取得的突破性成果

字组字输入法”利用汉字自身固有的组字规律、信息论的相关自然规律、人体工学的客观规律、公知计算机键盘的固有特点，结合公知的计算机系统及其公知的技术手段，对公知键盘的信息处理结构、信息输入功能及其操作方法进行独创性的改进，使本来不能输入中文的公知键盘增加了输入中文字符的功能，而且较之现有同类技术取得了显著的进步。

“字组字输入法”凝聚了发明人大量开拓性的艰辛创造、长期繁重的劳动、持续的技术积累，终于取得了突破性的进步，与“旧输入法”相比，“字组字输入法”具有如下极其显著的优点：

一、易学性

(一)字根易学

“字组字输入法”选取的522个字根，全部都是社会大众在日常生产生活过程中常见常用的对象，符合广大用户的既有认知实际，用户需要重新学习的知识量很少。

5种“笔划”与通行的定义一致，无须额外学习即可轻易识别，其中有3种“笔划”根据读音首字母(点=d、横=h、撇=p)、2种笔划根据形态相似性指定到键盘的对应键位上(竖=i、折=v)，无须背记“字根歌”、“字根键盘分布图”；

全部433种“字根字”可以根据简单可见的规则快速从汉字内部识别出来(无须专门记忆任何具体的“字根字”)，并根据“字中字”读音的拼音首字母指定到相应的字母输入键位上，会读“字中字”即会输入其键码(无须背记“字根歌”、“字根键盘分布图”)；

72种“偏旁”根据其所在的常用字确定读音(轻易即可识读)、根据其读音的拼音首字母指定到相应的字母输入键位上，会读常用字即会读其包含的“偏旁”，会读“偏旁”即会输入其键码(无须背记“字根歌”、“字根键盘分布图”)；

12种“偏旁”按照形态相似关系指定到相应的字母输入键位上，领会了“字根”形态与字母的相似性，即学会其输入键位(无须背记“字根歌”、“字根键盘分布图”)。

“字组字输入法”不仅专门记忆量少、规则简单直观，而且采用全有理编码：所有记忆内容(例如“字根”和“一级简码字”)都有简易的记忆条理，无须背“字根歌”、无须记“字根键盘分布图”，不仅易学，而且一经学会，终生不忘。

(二)拆字编码规则简单易学

1.拆字编码操作直观，符合用户的固有认知习惯

①符合汉字的认知心理习惯：

“字组字输入法”的拆字和编码方法，尊重汉字内部书写结构的自然分立，直观而且符合社会公知和习俗，符合汉字的认知规律，例如：在“字组字输入法”中，“张”字是“弓”加“长”，编码是“gc”；“刘”字是“文”加“刂”，编码是“wl”；“郑”字是“关”加“阝”，编码是“ge”；“斋”字的“文”加“而”，编码是“we”；“加”字的“力”加“口”，编码是“lo”；“四”字是方框“囗”加“儿”，编码是“oe”，这样简单的编码方式，只须告诉用户一次，就能终生不忘。

②符合汉字的书写习惯：

“字组字输入法”的编码方法，严格按照《多功能现代汉字应用字典》的书写规范对单字进行分析和分解。

③编码方法简明易行：

“字组字输入法”的编码方法，简单易行，对应精确，简明有理，易学易精。一个从来未接触过“字组字输入法”的人，只需三十分钟就可清楚理解“字组字输入法”的全部拆字和编码方法，马上就能用“字组字输入法”顺利打字。

④词汇编码符合语言思维习惯：

“字组字输入法”的词句编码方法，符合中国人语言思维的活动规律，采用以拼音缩写为主，以字根形码辅助识别的编码工艺，使编码十分直观而又简便，重码率也很低，全部词组都可免“翻屏”输入，同时兼顾了效率和普及的需要。

2.拆字编码规则简单统一，便于用户快速掌握

“字组字输入法”的拆字编码规则简单，只拆取不超过最前面的3个“字根”，极大地简化了拆字操作流程，便于用户快速掌握和方便运用；

“字组字输入法”的拆字编码规则统一，对所有汉字和偏旁的拆字、编码、输入规则都一样，无须加以区分；没有任何“特殊字”、“特殊词”、“特殊拆字编码规则”，不“因字而异”，不“因字根而异”、不“因是否容易混淆而异”，不“因字根重复与否而异”，不“因字型结构不同而异”，便于用户快速掌握。

①不用区分“键名字”与“非键名字”，“字组字输入法”没有“键名字”，其一级简码字被编成一个有意义的句子，每个一级简码字都有简捷的线索指定到其输入键位；

②不用区分“简码字”与“非简码字”，没有“二级简码字”和“三级简码字”，所有汉字都可以通过完全相同的拆字、编码规则正常输入，无须刻意区分(“一级简码字”既可用一键加空格输入，也可以按照一般字的拆分方式输入)；

③不用区分“字根字”与“非字根字”，两者的拆字、编码、输入方法无异；

④不用区分“单键字根”与“两键字根”，所有“字根”都只使用“单键输入”；

⑤不用区分“易混淆字根”与“非易混淆字根”，所有“字根”之间都有清晰明显的分别。

⑥不用区分“字型”，无“字型码”，无“尾码”；

⑦不用区分“三种上包围结构”；

⑧不用区分口字旁“口”与方框儿“囗”两种四包围结构字根，两者都用字母“o”输入；

3.拆字编码规则通用于任何汉字，便于不同地区用户快速掌握

“字组字输入法”大量采用社会公知的常见“字中字”和“偏旁”之类大型直观字根，不会出现繁简汉字“字根”不相兼容的问题，因为在简体字体系中可以用简体“字根字”和简体“偏旁”，在繁体字体系中则可以用繁体“字根字”和繁体“偏旁”，而无论简体汉字与繁体汉字，最基本的书写结构“笔划”都是一样的，繁简体汉字尽管具体的书写形式不同，但组字规律相同，都适用于“字组字输入法”选取“字根”所执行的统一视觉识别规则，又因为繁简“字根”读音一致，因而可以实现繁简通用的卓越效果。

二、高效性

(一)中文字词输入实现零“翻屏率”，单字输入编码明显缩短

1.GB2313字库全部6763个单字的编码长度不超过3位，“一码字”共计26个，“二码字”其计2851个，“三码字”共计3886个，单字平均输入编码长度不足2.57位；

2.GB2313字库中的6763个汉字中，同码字数超过10个的汉字只有42组，其中的同码字按字频排名位列本组同码字之中第10位以后的汉字只有175个(仅占总单字数量的2.57％，而且都是使用率极低的汉字)，这175个汉字按常规编码方式输入其编码后，需要翻屏1次才能上屏和输入，但本发明为这175个单字提供了额外并行的加速输入通道，让这175个字除了按常规编码方式翻屏输入之外，还可以通过输入单引号“加速尾码”而加速上屏，具体方法是，如果有任何单字在输入完了常规编码之后未能上屏，则再追加1个单引号[']，即可上屏，再输入对应的数字序号即可输入(如果使用触摸屏的虚拟键盘，则只需要直接点击选字屏上的中文字词即可输入它们)通过这种方法，就连这175个单字也可以实现免翻屏输入，本发明通过这种方式，实现了GB2312字库中的全部汉字的免翻屏输入；

3.58279条词组全部无须“翻屏”即可输入，在输入其正确编码后加1个数字序号即可输入(如果使用触摸屏的虚拟键盘，则只需要直接点击选字屏上的中文字词即可输入它们)，词组输入实现零“翻屏率”，词组编码长度不超过4位，词组输入平均每字编码长低于1.71键；

4.“字组字输入法”输入同等内容所需进行的击键次数减少，从而减少体力和脑力消耗、提高了汉字输入的效率，显著改善了用户的使用体验。

(二)不影响键盘的任何通行功能

“字组字输入法”不改变键盘的通行功能设置，在使用“字组字输入法”的过程中，用户只要按照其原有的操作习惯而无须作任何改变，即可如常使用数字键、功能键、编辑键、标点符号键等等所有键位的固有通行功能，如常输入数字、标点符号，如常进行各种编辑操作。

由于符合人体工学原理的键位布局，输入同等内容所需进行的击键的手指活动幅度和跨度低，从而减缓使用难度，减缓使用者的操作疲劳。

(三)特殊符号输入方便

“字组字输入法”能够十分方便地输入200多个特殊符号，只要键入[′fh]就能显示所有特殊符号供用户选择，包括：箭头符(↑↓←→♂♀丄⊙◎)、运算符(∥≠≡≯≮≥≤∈≌≈※∵∴∷∏∞∝∪∩∨∧∠∫∑∮√∩)、罗马数字(i ii iii iv v vi vii viii ixx I II III IV V VI VII VIII IX X XI XII)、圆圈数字(①②③④⑤⑥⑦⑧⑨⑩)、中文括号数字((一)(二)(三)(四)(五)(六)(七)(八)(九)(十))、带点数字(1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.)、计量单位(℃‰№)、音标符(ybf??)、希腊字母(xlzm?)、几何图型(△▲□■◇◆☆★○●)、“字组字输入法”收录的97种“偏旁”等等。

三、规范性：

1.“字组字输入法”清晰定位于现代社会主流汉字使用需求，符合国家相关规范

“字组字输入法”明确定位于优化现时社会通行的GB2312汉字库的6763个汉字的输入方法，因此针对性强，有利于取得突破性的进展(汉字实际输入同时克服了“旧输入法”中“翻屏率”过高与“易学性”不足两大难题)，同时由于符合社会的文字使用现状，因而实用性强。

2.“字组字输入法”选用的字根集完全符合主流规范人们的公知常识：

为了使“字组字输入法”容易被广大用户接受，“字组字输入法”在兼顾效率的情况下，沿用了符合汉字现行主流的偏旁部首用法(根据《现代汉语字典》)。

“字组字输入法”选取的“字根码元集”以“整字字根”为主体：所选用的522种字根中，有433种“整字字根”(占字根总量83％)，字根直观性优势显著。并且符合人们的日常认知习惯和社会主流用字规范，再从这433个“整字字根”中分解出其内部书写结构中的“偏旁字根”，形成以“整字字根”为主，“偏旁字根”为辅配的高效搭配，兼具直观性和精确性。

3.“字组字输入法”有利于更好地传承中华民族优秀语言文化传统

现时各种拼音输入法在华人市场独占鳌头，由此导致的恶果是大量用户的汉字书写能力严重退化，用户常常发现自己“执笔忘字”，忘记了日常使用的汉字的书写方法，长此以往，中华民族的优秀语言文化将面临消亡的危险，汉字是世界上唯一可以持续使用5000年以上的、最卓越的人类文化遗产，我们每个炎黄子孙都有责任把它传承下去。

“字组字输入法”这种易学好用的优秀形码输入法，把用户高效输入汉字的需求和汉字书写结构的知识有机结合在一起，凡是使用“字组字输入法”的用户，将不会再出现“执笔忘字”的困惑，此举将极大地有利于中华民族优秀汉字文化传统的传承。

4.“字组字输入法”符合社会通行键盘俗成布局和通行指法习惯

“字组字输入法”的26个中文输入键位，所有键位都和“ASDF”及“JKL；”八个基本指位紧密相邻，不跨行，不跨列，符合人体工学原则和通行电脑键盘打字指法，利于用户快速形成键盘记忆，完全不增加用户的学习和操作负担。

四、可扩展性：

1)通用性：“字组字输入法”的字根识别标准和拆字编码方法适用于任何中文字词。

2)预留空间：“字组字输入法”在保证零“翻屏率”的情况下，在二码字编码区预留了3909个位置供扩展GBK汉字及容错码的二码字使用(26*26*10总编码量-2851已用量=3909预留量)；在三码字编码区预留了171874个位置供扩展GBK汉字及容错码的三码字使用(26*26*26*10总编码量-3886已用量=171874预留量)；四位码区上预留了4511484个位置供扩展词组编码使用(26*26*26*26*10总编码量-58276已用量=4511484预留量)，保证了实用意义上几乎无限的扩展空间和扩展后“翻屏率”保持于超底水平。

3)由于“字组字输入法”具有近乎无限的扩展空间、“翻屏率”极低(58486词组零“翻屏率”)、多字词仅用拼音缩写等等宝贵的特性，可以在实用意义上无限量收录大量词组和语节^①并且直观地输入，可以极大地提高中文输入效率，将大大有助于使中文成为世界上输入效率最高的文字。(注①：语节是指单字和词组以外的多个单字的常用组合，例如“问题是”、“是指”、“换言之”、“也就是”、“以至于”等等)。

五、“字组字输入法”的技术性能取得全面而显著的进步(对照五笔字型)

如上表所示，“字组字输入法”的技术性能全面而显著地优于“旧输入法”。

第四部分、本发明的具体实施方式

第一节、选取“字根”的方式

“字组字输入法”根据一套简易的视觉识别规律，从GB2312字库中全部汉字的内部结构中，选出大众普遍熟悉的“字根字”、“偏旁”、“笔划”作为基本“字根”，“字组字输入法”选取基本“字根”的视觉识别规律具体有如下三种：

(一)选取“笔划”的视觉识别规律

根据社会现行的约定俗成归结出的“点横竖撇折”五种笔划(丶一丨丿乙)；

1.所有短小无折角的笔划、向左下延长无折角的笔划(捺)，都归为“点”(丶)；

2.所有向右上倾斜延长而无折的角笔划(提)、所有向右水平延长而无折角的笔划，都归为“横”(—)；

3.所有没有折角的垂直笔划、所有垂直向下然后后向左上折角的笔划(竖钩)，都归为“竖”(丨)；

4.除“竖钩”以外的所有在延长中途带有折角的笔划(如乛、乚、、、乙、弯钩等)一律归为“折”(乙)；

5.所有向左下方延长而无折角的笔划都归入“撇”(丿)。

(二)选取“偏旁”的视觉识别规律

“偏旁”的视觉识别规律是：由不少于两个笔划组成，没有完整的字义，不能作为完整独立的汉字在现代汉语的语句中使用，但可以在汉字内部用作构成组件的汉字内部书写结构(“偏旁”往往带有特定模糊含义；例如“钅”可以在“铀、钾、钠”等等多个不同汉字中存在，带有“金属”的含义，但“钅”不能单独作为文字使用于语句中)，“偏旁”可以根据其内部结构分立情况分为“散体偏旁”和“连体偏旁”两大类：

1.“散体偏旁”是指具有内部分立结构的偏旁(例如“冫氵钅疒讠”等等)；

2.“连体偏旁”是指没有内部分立结构的偏旁(例如“艹冖勹亻夂”等等)。

(三)选取“字根字”的视觉识别规律

GB6763字库中符合以下任意一项可见特征的“字中字”都是“字组字输入法”的“字根字”，在拆字时可作为“字根”拆出，而无须进一步拆分为更小的“字根”。

1.“基层字”：由不少于两个笔划组成，其内部不包含分立的多笔划“字中字”，例如而不限于“立辛水夏鬼敖非卬永”等等。

所谓分立的多笔划“字中字”是指笔划数不少于3个，并且在汉字中分立存在的“字中字”；正如“元”字，由“一兀”构成，其中的分立存在的“兀”字是个具有3个笔划的分立“字中字”，所以“元”字不是“基层字”；反如“亍”字，由“一丁”构成，其中分存在的“丁”是个具有2个笔划的汉字，所以“亍”是“基层字”；另如“果”字，包含了“日”字和“木”字这两个多笔划“字中字”，但这两个“字中字”相互交连，不是分立存在在，因此“果”字之中没有分立结构，所以“果”字是“字根字”。

2.“加点字”：由一个“基层字”加一个或多个分立的点“丶”和或短撇“′”组成的“字中字”。(例如“鸟”字是“乌”字加上“丶”而组成，在“鸡”字中充当“字中字”)

“字组字输入法”选定的基本“字根”共有522个(参阅本文第23页之“字根表A”、第25页之“字根表B”)，全部都是大众熟悉的对象，其中包括：大众熟悉的基本“字根字”433个(用户完全无须专门学习，仅仅根据视觉识别规律就可以识别拆取，并按其拼音首字母编码，占字根总量的83％(这是本输入法的主要特色，正是由于这个鲜明的特点，发明人才把本输入命名为“字组字输入法”)、大众熟悉的5种笔划“点横竖撇折”(丶一丨丿乙)、大众熟悉的84种基本“偏旁”(其中绝大部分是日常生活中常见的通行偏旁，占字根总量16％)。用户无须长时间专门学习，只须花半小时了解相关识别规律和浏览“字根表A、B”，就可以马上使用“字组字输入法”快速打字，实现了“字根多而学习量少”的良好效果。

第二节、拆字取根的方式

在拆字取根的过程中，对所有汉字统一遵循下列五项操作规则：

(一)、连笔字参照书写笔顺拆分：

对于没有内部分立部件的书写结构，参照书写笔划的先后顺序对其进行拆分；

例如“田”字拆为“冂土”而不拆为“囗十”，因为“田”字不是先写好“囗”然后写“十”，“申”字拆为“日丨”而不拆为“囗十”，因为“申”字不是先写好“囗”然后写“十”，而是先写了“日”字，最后才写“丨”；

又如：“王”字拆为“干一”而不拆为“三丨”，而“丰”字拆为“三丨”而不拆为“十二”。再如：“束”字拆为“一中八”而不拆为“木囗”，因为“束”字的书写顺序为“一囗丨八”。

(二)、散体字先组大根、后拆细根：

对于存在内部分立部件的汉字，不仅对其中分立的部件尽可能不作拆分，反而要尽可能把多个细碎的分立部件归入“字根字”、“偏旁”中拆出，实在不能归入“字根字”、“偏旁”的，才参照第一条规则拆分：

1.分立的“笔划”，能归入“字根字”的，归入“字根字”，不能归入“字根字”的归入“偏旁”，不能归入“偏旁”的，则作为单独“笔划”拆取。

例如“涝”字，拆为“氵”+“劳”，而不拆为“丶”+“丶”+“一”+“艹”+“冖”+“力”。因为“丶”+“丶”+“一”可归入散体偏旁“氵”，而“艹”+“冖”+“力”可归入字根字“劳”。又如“卵”字，应拆为“卯丶丶”而不拆为“丿V丶丿卩”，因为“丿V丿卩”可以归入分立的字根字“卯”之中。

2.分立的“连笔体”，能归入“字根字”的，归入“字根字”，不能归入“字根字”的归入“偏旁”，不能归入“偏旁”的，则按照第一条规则，参照连笔字的拆分规则拆分；例如“惠”字，拆为“一”+“申”+“一”+“丶”+“心”，这种需要拆分散体字内部分立“连笔体”部件的情况很少，只有不到5％的汉字需要进行这正处理。

(三)、取根个数以少优先、取根个体以大优先：

按照前两条规则，要尽可能把每个汉字拆为个数较少而个体较大的字根，而不要把汉字拆成数量多而个体较细的字根(所谓个体较大的字根是指笔划数较多的字根)。

因此，能拆为2个字根的不拆为3个字根，能拆为3个字根的不拆为4个字根；

在拆出字根数同等的前提下，优先拆出较多笔划“字根字”。能拆取较多笔划“字根字”的，不拆取较少笔划“字根字”；能拆取“字根字”的，不拆取“偏旁”或单一“笔划”；能拆取多笔划“偏旁”的，不拆取少笔划“偏旁”；能拆取“偏旁”的，不拆取单一“笔划”)。

例如：“敖”字拆为“万攵”而不拆为“丿V攵”，因为前者拆出的字根个数较少一些。同理，“歹”字拆为“一夕”而不拆为“厂乙丶”。

又如：“涝”字，拆为“；”+“劳”，而不拆为“丶”+“丶”+“一”+“艹”+“冖”+“力”。因为“丶”+“丶”+“一”可归入散体偏旁“氵”，而“艹”+“冖”+“力”可归入字根字“劳”。

再如：“克”字拆为“古儿”而不拆为“十兄”；又如“丰”字拆为“三丨”而不拆为“二十”，更不能不拆为“一一一丨”；再如“里”字拆为“甲二”而不拆为“日土”。再如：“束”字拆为“一中八”而不拆为“一囗丨八”。

再如：“丢”字拆为“丿去”而不拆为“壬厶”，因为尽管这两种拆法都是拆出两个字根，但前者最大的字根“去”比后者最大的字根“壬”更多笔划一些，更符合“字根个体求大”的原则，而且去字更加常见一些，更易被用户注意。

(四)、共用“横”、“竖”笔划可拆断：

按照前三条规则，单个的“笔划”，是汉字内部的最基本结构单元，因此在拆字过程中，一般不可以拆断“笔划”。但当有两个“字根”共用同一个“横”或“竖”时，如果把该共用“横”或“竖”从中断开，可以减少拆出的字根数量，则可以把共用的“横”、“竖”从中拆断。

例如“戊”字可以拆为“厂”+“戈”，而不拆为“厂”+“折”+“撇”+“点”，又如“裁”字可以拆为“土”+“衣”+“戈”，而不拆为“土”+“衣”+“折”+“撇”+“点”。

又如“熏”字中的“千”和“黑”共用一“竖”，所以把这一竖拆断就成了“千”+“黑”。

再如：“敖”字拆为“万攵”而不拆为“万攵”，因为“”和“万”共用的一横可以拆断，而前一种拆法所得字根的个体较大(笔划数较多)一些。

除了两根共用一“横”、“竖”这种特殊情况以外，其余单笔划都不可以拆断。

(五)、只取前3个字根、按书写笔顺排列：

按照前四条规则，可拆取“字根”数不超过3个的汉字，拆取全部“字根”；可拆取“字根”数超过3个的汉字，只拆取书写笔顺中的前3个“字根”。

所有从汉字中拆取的“字根”，参照其首笔划在汉字书写过程中出现的先后顺序排列。

第三节、把“字根”映射到键位的方式：

(一)“字组字输入法”把“字根”映射到键盘键位的方法简单便捷，总共只有两条规则：

1.拼音首字母映射规则：全部433种“字根字”、3种“笔划”(横、撇、点)、72种“偏旁”，共计508种“字根”(占字根总量97.32％)按照其读音的拼音首字母，指定到相应的字母输入键位上。符合本规则的具体“字根”及其映射方式参阅本文第23页之“字根表A”。

2.近形字母映射规则：2种“笔划”(竖、折)、12种“偏旁”，共计14种“字根”(占字根总量2.68％)，按照形态相似的线索指定到相应的字母输入键位上。符合本规则的具体“字根”及其具体映射方式参阅本文第25页之“字根表B”。

(二)利用“偏旁”无确定读音的特点，优化“偏旁”映射到键位的方案，实现免“翻屏”

由于“字根字”的读音已经有明确的社会规范，不能随意改变。所以在不违反社会公知用字规范的前提下，“字组字输入法”只能对未被社会明确规范读音的“偏旁”进行有理有据的读音规范创新，幸运的是，汉字的偏旁具有十分丰富的多音性，由此为“字组字输入法”根据优化编码需要而调整“偏旁”字根的具体映射方式提供了较大的操作空间。“字组字输入法”充分利用了汉字“偏旁”的多音性，通过数百次的反复调整测试，有理有据地开发出既有利于编码效率的提高，又不增加用户记忆负担的“偏旁”字根映射方案。

在可输入编码的键数固定、编码位数固定的前提下，假如使用率高的“字根”过度集中于少数繁忙的键上，而另一些空闲的键所负责输入的“字根”又极少或者“字根”的使用率很低，这种键盘各键使用率分布不均的状态，会使繁忙的键上因为拥挤而出现大量的“重码”而大大增加输入汉字过程中的“翻屏率”，而空闲的键上又有大量的编码空间得不到利用而被白白浪费掉。例如：有些字根，在编码前部的位置出现率较高，但在编码后部的位置出现率较低，而有些字根刚刚相反，在编码前部的位置出现率较低，但在编码后部的位置出现率较高；又如：有些字根，在编码最前和最后的位置出现率较高，但在编码中部的位置出现率较低，而有些字根刚刚相反，在编码中部的位置出现率较高，但在编码前后两头位置出现率较低。

针对这种现象，“字组字输入法”采用了“键盘使用频率均衡分配工艺”：就是在“字根”与键位的搭配过程中，尽可能使各个键位所承担的“字根”输入使用率接近所有键位的平均使用率水平。“字组字输入法”对前述的这些不同的“字根”进行互补性的搭配编组，通过选择“偏旁”的适当读音，把具有互补性的不同的“字根”放在同一个键位上输入，从而显著提高每个键位的编码空间的利用率，大大减少“重码率”、实现零“翻屏率”。

例如：“口”(口字旁)是一个使用率很高的字根，“口字旁”如果放在“o”键上输入，那么“o”键的使用率就已经高于a～z等26个键的平均使用率，因此“o”键上不适宜再安排“口字旁”以外的其他“字根”的输入，所以“字组字输入法”中“o”键上只有“口字旁”和“方框儿”这2个形态相同的全包围“字根”。

又如：“氵”俗称为“三点水”，按照“拼音首字母映射规则”，“氵”应当放在“s”键上输入，但由于“s”键上已经有很多“字根”，除了“氵”之外的己被归入“s”键上的“字根”总使用率已经超过各键的平均使用率，所以把“氵”改称为“清水旁”，把它放在使用率较低的“q”键上，这样“s”键和“q”键的使用率都趋于各键的平均使用率水平。

再如：“艹”俗称“草字头”而读作“cao”，输入符定义为“c”，也可以称为“艾字头”而读作“ai”，输入符定义为“a”。由于用“c”键输入的字根已经很多，“c”键的使用率本来就已经超过各输入键的平均使用率，再把“艹”放在“c”键上输入，势必造成大量的“重码”出现，而用“a”输入的“字根”却较少，“a”键的使用率远远低于各输入键的平均使用率水平，因此把“艹”改称为“艾字头”而读作“ai”，输入符定义为“a”，用“a”键输入。又如：“扌”俗称为“提手旁”而读作“ti”、输入符定义为“t”，也可以改称“控字旁”而读作“kong”，输入符定义为“k”，由于用“t”键输入的“字根”已经很多，“t”键的使用率已经超过各输入键的平均使用率水平，再把“扌”放在“t”键上输入，势必造成大量的“重码”出现，而用“k”输入的字根却较少，“k”键的使用率远低于各输入键的平均使用率水平，因此把高频字根“宀”称为“宁字头”而读作“kong”，映射到“k”键位上输入。

在“字组字输入法”中，类似上面列举的通过创新“偏旁”读音而优化“字根”映射方式的例子还有很多，无论对“字根”采取何种映射方案，全部都符合有理有据、直观易记的原则，并且除非效果十分显著，否则不轻易改变偏旁的流行读音，以免增加用户重新学习的负担，由此最终优化了“灬艹饣礻扌氵厶罒衤讠辶”这10个偏旁的映射方案(详细的方案参阅本文第23页之“字根表A”、第25页之“字根表B”)。

“字组字输入法”发明人在创立了前述的一系列新颖的编码思想后，深入运用微软公司的VFP9.0微电脑数据库语言的强大数据处理功能，建立了完整的编码数据库，并专门编写了一系列高效辅助分析处理程序，大大提高了编码开发的效率和可靠性，免除了大量不必要的重复手工劳动及由此而造成的失误，为反复多次逐步改选完善编码方案创造了可行的条件，为最终达到理想的编码效果提供了有力的保障：

1.建立了单字编码数据库，详细记录了6763个国标单字的直观拆解方案、编码方案，并建立了“字根”映射方案和“字根”使用率分布统计数据库，为利用电脑软件快速修改编码系统和及时掌握编码效率创造了必要的数据基础。

2.从所有可选“字根”中选出符合“字组字输入法”统一的视觉识别规律的“字根”集；

3.编写了“字根”映射方案自动替换程序：在修改了“字根”映射数据库相应“字根”映射方案后，用该程序能够在几秒钟内全部完成对6763个单字编码数据库的相应“字根”映射方案的更改，快速实施编码试验方案。

4.键码分布统计程序：用该程序能够在每次修改字根映射方案之前和之后，快速统计和显示各键位的使用频率及其在不同编码位置的分布状态，让开发工作知己知彼，有针对性地进行调整和改进，逐步摸索出最佳的键盘和“字根”映射方案。

5.“重码率”和“翻屏率”统计程序：用该程序能够在每次修改字根映射方案之前和之后，掌握该编码试验方案的“重码率”和“翻屏率”，协助发明人运用逐步逼近的方法，通过反复逐个修改“字根”映射方案，逐步减少“翻屏率”，最终消灭“翻屏率”。

(三)“字组字输入法”选用的522个基本“字根”及把“字根”映射到键位的具体方式

字根表说明：①“字根表A”中各“偏旁”的读音用带阴影的汉字注明于其右侧括号内，大部分“偏旁”与其所在的一个常见汉字的读音相同，其余少数“偏旁”与其通俗名称相同；②“字根表A”、“字根表B”中各个字母键位上的“字根”有多有少，但各键的使用率相近，因为“字根”数目多的键位上“字根”的使用率较低，而“字根”数目少的键位上“字根”的使用率较高。

1.字根表A.按照拼音首字母指定到字母键位上的508种基本“字根”的键位映射方案：

备注：1)表中各“偏旁”的读音用带阴影的汉字注明于其右侧括号内，部分“偏旁”与其所在的一个常见汉字的读音相同，其余“偏旁”与其通俗名称相同，2)字根字“人”与字根字“八”的区别在于，“人”字的2个笔划相互连接，“八”字的2个笔划相互脱。

2.字根表B.按象形线索映射指定到相应字母键位的14种基本“字根”的键位映射方案：

备注：1)带阴影的字根是笔划类字根，其余的都是偏旁字根；2)汉字内部的所有“口”字归入偏旁“口字旁”，“口字旁”与方框儿“囗”一起指定到“o”键上输入。

第四节、规则统一、简易直观的单字编码和输入方式：

“字组字输入法”，通过使用前述“第二节”中的单字拆解方法，把单字拆分成“字根”的组合，再根据前述“第三节”中的“字根”映射方式，把拆分单字所得的“字根”组合中的“字根”转译成键位字母输入符号，把“字根”的组合转换成键盘字母符号的组合，这种字母符号组合就是单字的输入编码；由于每个单字只取不超过3个字根，所以每个单字的输入编码的最大长度不超过3个键盘输入符号；在键盘上逐个输入这些编码，汉字就会出现在选字栏上，在实体键盘上输入选字栏上的数字序号、在触摸屏虚拟键盘可以直接点选输入选字栏上的汉字，就可以输入所需的汉字。

“字组字输入法”为进一步提高输入效率，指定26个最常用的单字，仅使用其拼音首字母或形似字母加空格即可输入，构成“一级简码字”。这26个“一级简码字”可以编成一句有完整语意的助记词：“有个人在为你而长发，他们要的不是我和小经，全口可以平安了”，其中指定到读音近似字母键位的有“u=有；v=为；i=以”；指定到形态相似字母键位的有“o=口”，其余全部都指定到其拼音首字母所在键位，具体如下表所示：

字

有

个

人

在

为

你

而

长

发

他

们

要

的

不

是

我

和

小

经

全

口

可

以

平

安

了

键

u

g

r

z

v

n

e

c

f

t

m

y

d

b

s

w

h

x

j

q

o

k

i

p

a

l

“字组字输入法”中的“一级简码字”，仅作为帮助用户进一步提高输入效率的可选辅助手段，用户可学可不学，可用可不用，并不影响任何汉字的正常输入，因为除了按上述方式输入这些“一级简码字”外，这些“一级简码字”也全都可以完全按一般字的方式拆分和输入。

除了上列“一级简码字”以外，“字组字输入法”没有其他任何专门指定的“简码”字词或特殊字词。用户对任何繁简汉字只要按照统一的拆字编码规则拆字编码即可，无须理会该汉字是否为“简码字”都能正常输入。

第五节、词组的编码和输入方法

(一)“字组字输入法”的词组编码原理

人类语言思维是一种与书写符号无关的过程，人类语言思维过程中最重要而且必不可少的对象是物象(主要是视觉物象，也可以是其他感官印象)，其次是语音(但语音也不是必不可少的，聋哑人不用语音也能够有效地进行思维和手语交流)。众所周知，目不识丁的人并不会在语言思维过程中遇到任何困难，不会写字的高僧“六祖”慧能，也能够创作出“菩提本无树，心镜亦非台，本来无一物，何处惹尘埃。”这样高深的佛偈。假如在写作过程中过多的涉及符号拆解，不仅对写作思维无任何帮助，反而容易干扰和打断思路。

要提高输入效率，关键在于提高词组编码的效率；要在提高编码效率的同时照顾思维过程，最简捷的办法是采用拼音缩写进行词组编码。但是少字词的拼音缩写的“重码率”极高(例如：拼音缩写是“hs”的词就有“滑水、混水、湖水、洪水、汗水、浑水、海水、活水、汉水”等等许多个)，因此不得不利用形码辅助识别。

“字组字输入法”对词组采用拼音缩写为主，辅以字根形码的工艺，不仅编码更简便，而且更符合语言思维习惯，重码率也很低，更实现了词组输入零“翻屏率”，完美的兼顾了提高效率、方便普及、适应思维习惯的需要。

(二)编码述语符号约定：

AP1：词组中的第一个字的全拼首字母；BP1：词组中的第二个字的全拼首字母；

CP1：词组中的第三个字的全拼首字母；DP1：词组中的第四个字的全拼首字母；

AG1：词组中的第一个字的第一个字根的键码；

BG1：词组中的第二个字的第一个字根的键码

(三)字组字输入法的通用词组全码编码方法：(词组全码共5位)

1.二字词：AP1+BP1+AG1+BG1

例如“喜好”一词的全码为“xhsn”(喜x+好h+士s+女n)。

2.三字词：AP1+BP1+CP1+AG1

例如“组织部”一词的全码为“zzbj”(组z+织z+部b+纟j)。

3.多字词：AP1+BP1+CP1+DP1

例如“皆大欢喜”的全码为“jdhx”(皆j+大d+欢h+喜x)。

又如“内蒙古自治区”的全码为“nmgz”(内n+蒙m+古g+自z)。

(四)字组字输入法的“自造词组”功能

由于不同行业的用户对词组有不同的需求，假如包罗万有地提供所有用户可能使用到的任意词组，那么所有用户都会变得不满意，因为要从大量与本行业无关的词组海洋中找出自己想要的词组，实在是一件令人厌烦的事，也浪费了电脑的资源，拖慢输入法系统的反应速度。为了方便不同行业用户对词组的不同需求，“字组字输入法”提供了十分方便的“自造词组”扩展功能。

“字组字输入法”追加自造词组编码的操作，可以在“字组字输入法”打开的状态下随时直接进行，无须另行进入其他专门的软件和界面，具体操作方法是：1)用鼠标右键点击“字组字输入法”设置窗；2)在弹出的菜单上点击“手工造词”，即可在系统弹出的造词窗口中开始输入新词；3)逐字输入要追加的新词、填入其字母编码；4)一个新词及其输入编码输入完毕后，点击“添加”后新词及其编码即可成功追加到输入法码表中，以后如需要使用该自造词组，按自定义词编码规则输入相应词组的编码即可；5)点击造词窗口右上角的关闭按钮即可结束造词。

(五)词组的输入方法：在键盘上逐个输入词组的编码，词组就会出现在选字栏上，在实体键盘上输入选字栏上的数字序号、在触摸屏虚拟键盘可以在直接点选输入选字栏上的词组，就可以输入所需的词组

第六节、提供在线帮助的方式

字组字输入法为用户提供了全方位、全天候在即时在线帮助功能，具体有以下四种方式：

1.提供输入“全拼输入法”编码而即时查看“字组字输入法”编码的功能

在使用“字组字输入法”的过程中，需要查询某个汉字的拆分方法和输入编码时，键入查询键[′]加上需要查码的汉字的全拼字母串，就可以获得所有该全拼读音汉字的拆字方法和字组字输入法编码显示，十分方便。

例如：键入[′wo]就可显示下列内容

......等等内容(后面的所有内容可以翻屏查看)

这种查询键[′]的设计并不会妨碍单引号(’)的输入，因为在“字组字输入法”中，只要键入[′]加击空格键，就可以输入一对单引号(‘')，非常方便。

2.提供万能代根键模糊查码、输入的功能

用户在使用“字组字输入法”输入某个字词时，如果不能确定其编码中某些位置上的具体字母是什么时，可以用键盘左上角[ESC]键下方的[`]键输入“`”代替不清楚的字母(备注：[`]键的ASCII码值等于96)，系统会启动模糊查询功能，显示所有可能符合条件的编码和汉字供用户选择，输入所需汉字并从中学会正确的编码，非常方便。

3.随时查看偏旁：随时查阅所有偏旁的名称、读法、输入键位：

用户在使用“字组字输入法”的过程中，如想查询各种笔划、所有偏旁、罕见字中字的名称、读法和输入键位，只要键入查询键[′]就可以在输入法选字屏上翻阅所有笔划、偏旁、罕见字根字的读法和键位输入方法：

1：‘’

2：字组字发明人：刘伊翰

3：ZY-ENGLISH.COM

4：一=笔划横=横heng″

5：丿=笔划竖=撇pie″

6：乙=笔划折=v(象形=乛乚乙)″

7：丶=笔划点=点dian″

8：丨=笔划竖=i(象形)″

9：口=口旁=o(象形)″

0：艹=艾头=艾ai(古字读ao3俗名草字头)″

击[PageDown]键，则显示以下阴影中的内容：

1：氵=清水=清qin(俗名三点水)″

2：扌=控左=控kong(俗名提手旁)″

3：亻=单人=单dan″

4：钅=金旁=金jin″

5：丷=V头=v(象形)″

6：亠=文头=文wen″

7：宀=宝盖=盖gai(宝盖头)″

8：纟=绞丝=丝si″

9：讠=言旁=i(象形)″

0：阝=双耳=耳er″

......依此类推，多次击[PageDown]键即可查阅所有笔划和偏旁的名称、读法(输入键位)，非常方便(注意：输入时字型须设为宋体，否则有些特殊偏旁可能不能显示)。

4.随时查根字典：即时查阅各键位上有那些“字根”

需要查询某个字母键位上有那些“偏旁”、“笔划”时，键入查询键[′zg]加上相应的字母键，就可以显示该键上相应“偏旁”、“笔划”的清单。

例如：键入[′zga]就可显示“A艹(艾字头)”表示A键上有“艹”一个偏旁字根。

如下列表所示，等号左边是输入的查询编码，等号右边的是电脑显示的答案内容：

第七节、提供容错和纠错提示功能的方式

容错性是一种输入法“好用”与否的重要技术指标，大量用户的识字水平、写字习惯、拆字习惯是千差万别的，一种“好用”的打字方法，不会因为用户在打字过程中的一些微小的拆字编码“错误”而惩罚用户(令用户打不出想要的汉字)。

假如用户按自己的想法经常打不出想要的汉字，就会让用户产生挫败感而放弃学习一种新输入法的努力，这是很多新输入法难以推广的重要原因，比如笔划输入法，看似很容易学，但实际上人们的写字习惯千差万别，很少有人能够完全按“规范笔顺”写字，结果是笔划输入法的用户按照各自习惯的书写顺序输入汉字时，常常会打不出想要的汉字，导致笔划输入法这么“容易学”的输入法无法成为主流输入法。

“字组字输入法”具有极强的“容错性”，提供了“无微不至”的大量“容错码”(超过2000条)，兼容各层次用户的识字水平和拆字习惯，让“字组字输入法“成为“雅俗共赏”的“用户友好型”强大输入法，让各种层次的用户使用它时，都会感觉到似乎这种输入法是为自己而订造，似乎这种输入法知道自己心理在想什么似的，从而让各层次的用户一旦试用“字组字输入法”总会爱不释手。

“字组字输入法”的正确编码和“容错”编码方式同时并行生效，使用其中任何一种方式都可以打出用户想打的汉字，但使用“正确”映射方式的汉字编码在“选字栏”中会被排在前面，而使用“容错”映射方式的汉字编码在“选字栏”会被排在后面，因此只有使用“正确”映射方式的汉字编码打字才能保证免“翻屏”输入所有汉字，而使用“容错”映射方式的汉字编码打字不能保证免“翻屏”输入所有汉字(总有一部份“容错码”必须“翻屏”输入)，前者的效率显著高于后者，因此，用户如想进一步提高打字效率，就不能长期依赖“容错码”，而必须逐步掌握正确的编码方法，掌握了正确的编码方法后，打字的效率和体验都会得到显著的改善。

“字组字输入法”的“容错码”主要有以下几大类：

一些“字中字”，例如“卞缶爿酋冉乇屮蚩巛艮呙耒糸黾廿肀臬丕攴豕彖疋豸髟亍佥爻爰仄卮”等等，这些字符合“字根字”的视觉识别标准，并且是GB2312字库内的汉字，是“字组字输入法”的基本“字根字”，但这些“字中字”汉字在日常生活中比较少用，因此有些普通用户很可能不识读其中或多或少的一些字，而不把它们当作“字根字”对待，往往会误将它们拆分成更小的“字根”，对此，“字组字输入法”提供把这些难认“字中字”拆分成更小“字根”的“容错码”，包容普通用户的这种小“错误”，让这类识字较少的普通用户沿用他们固有的认字习惯也能顺利打出包含这些相对“难认”的汉字(遇到不认识的“字中字”，把它拆细就可以了)，无须事先学习这些字也能顺利使用字组字输入法打字。

一些“字中字”，例如：“臿蚩朿弔市冓柬疌丏卌曰戉帀”等等，这些字虽然符合“字根字”的视觉识别标准，但由于不是GB2312字库内的汉字，所以并不是“字组字输入法”输入法的基本“字根字”，而且这些古文字在日常生活中很少会被用户见到，因此大多数普通用户不会读它们，也不会把它们当作“字根字”对待，但一些识字较多的“文

学型用户”可能会认识这些字，并较容易误将它们当成基本“字根字”对待，对此，“字组字输入法”提供把这些字作为“字根字”的容错输入编码，包容用户的这种小“错误”，让这类“文学型用户”沿用他们固有的认字习惯也能顺利打出包含这些古文字的汉字。

由于有古文“字中字”的容错码，“字组字输入法”实际上实现了任何符合“字根字”视觉识别规律的“字中字”，都可作为“字根”对待的实用效果，用户再也无需刻意分辨“字中字”是不是“标准”的“字根字”，使“字组字输入法”的易用性有了很大提高。

3)照顾喜欢拆细字根的用户：提供拆细字根容错码

一些学过“五笔字型输入法”和其他“拆细型字根输入法”的用户，习惯于把汉字拆分为细小的“字根”，“字组字输入法”也提供相应的容错码，力求方便用户的使用这些“错误”拆字编码方法也能输入该字。

对于第一个字根编码不正确的情况，字组字输入法除了提供容错输入方式外，还给出了纠错提示，在打入的汉字旁边会伴有1个“?”号，以提醒用户查询该字的正确编码方法。

第八节、“字组字输入法”投入最终用户实际使用的方式

“字组字输入法”投入最终用户实际使用的方式包括而不限于以下三种：

(一)“字组字输入法”可以利用公知电脑系统及其公知的惯用工具和方法实现实用化：

利用WINDOWS系列电脑系统软件配套的“输入法生成器”软件工具，可以在公知电脑系统上很容易加以实现本输入法，主要步骤为：

1.按“输入法生成器”规定的格式创建一个输入法码表文本，在码表文本中首先定义本输入法的名称、码位长度、键盘输入符号码元、输入法求助键、字词联想规则等内容；

2.按“输入法生成器”规定的格式、本发明的输入法拆字编码方法的规则编制GB2312字库中6763个汉字和所需5万多个词组的编码列表，追加到输入法码表文本中；

3.用“输入法生成器”导入编制好的码表，并在电脑系统中生成并安装新的输入法；

通过以上步骤，本发明所创造的全新输入法就可以很容易地投入到公知电脑系统中得到应用，而运行本输入法可以使公知的电脑系统增加输入汉字的功能，公知的电脑键盘就被模拟改造成适应本输入法的中文字根键盘。

(二)“字组字输入法”也可以也可以运用公知的软件技术生产出本输入法专用的安装软件

在本发明在国家专利局正式公布之后，发明人将制作并通过国际互联网发布本输入法专用的免费安装软件，在各大搜索引擎和众多软件网站上都可以下载这个“字组字输入法”安装程序，供广大用户使用于各种固定或移动的数码设备上。

(三)“字组字输入法”还可以通过公知的键盘生产技术手段，生产出本输入法专用的中文“字根”键盘而得到实现，并应用于各种固定或移动的数码电子设备上，以实体键盘、触摸屏虚拟键盘的方式投入实际应用。

因为本输入法键盘在物理技术上与公知键盘没有任何本质的不同，因此其硬件生产毫无疑问是可以使用公知技术生产和投入实际应用的，既可以是实体键盘，也可以是触摸屏上的虚拟键盘。

Claims

1.一种基于优化字根键盘的电脑汉字输入方法，其特征在于：

1.1优化字根键盘的键位组成和功能配置为：

包含不小于41个基本键位的实体键盘、包含不小于31个基本键位的触摸屏虚拟键盘，其中包括26个字母键用以映射中文字根并输入中文字词、1个退格键用以删改输入了的编码，实体键盘包含10个阿拉伯数字键用以从选字屏中选取用户需要输入的字词(触摸屏虚拟键盘不包含这10个阿拉伯数字键，只需直接在触摸屏上点击想要的字词即可将其输入)、1个上翻页键用以向前翻阅选字屏、1个下翻页键用以向后翻阅选字屏、1个单引号键[‘]用以输入单引号和查询汉字输入编码、1个[`]键(ASCII码值等于96)作为万能代根键，用以在中文输入过程中代替任意1个字根所对应的1位输入编码，

1.2优选522种字根作为汉字输入的基本码元，其中包括433种基本“字根字”、84种基本“偏旁”、5种“笔划”，其特征在于：

1.2.1基本“字根字”，其特征在于：GB6763字库之中符合以下2项中的任意1项特征的“字中字”(本文中所述的“字中字”，是指在其他汉字的内部书写结构中出现的汉字)，都是基本“字根字”，在拆字时可作为“字根”拆出，而无须进一步拆分为更小的“字根”，

1.2.1.1“基层字”，其特征在于：由不少于2个笔划组成，其内部不包含笔划数超过2个，并且在汉字内部分立存在的“字中字”，

1.2.1.2“加点字”：由1个“基层字”加一个或多个分立的点“丶”和或短撇“′”组成的“字中字”，

1.2.2基本“偏旁”，其特征在于：由不少于两个笔划组成，没有完整的字义，不能作为完整独立的汉字在现代汉语的语句中使用，但可以在汉字内部用作构成组件的汉字内部书写结构，

1.2.3“点横竖撇折”5种笔划，其特征在于：

1.2.3.1所有短小无折角的笔划、所有向右下延长无折角的笔划(捺)，都归为“点”(丶)，

1.2.3.2所有向右上方延长而无折的角笔划(提)、所有向右水平延长而无折角的笔划，都归为“横”(一)，

1.2.3.3所有无折角的垂直笔划、所有垂直向下延长然后向左上折角的笔划(竖钩)，都归为“竖”(丨)，

1.2.3.4除“竖钩”以外的所有在延长中途带有折角的笔划，都归为“折”(乙)，

1.2.3.5所有向左下方延长而无折角的笔划都归入“撇”(丿)。

2.按照权利要求1，字根及其与优化字根键盘上的相应键位之间的映射关系，其特征在于符合以下两条规则：

2.1拼音首字母映射规则：433种字根字、3种笔划(撇、横、点)、72种偏旁，共计508种字根，按照其读音的拼音首字母为映射线索，并参考其使用率分布的互补性分组指定到相应的字母键位上，详见[表1]，

[表1]按照拼音首字母指定到字母键位上的508种基本“字根”的键位映射优化方案：

注：1)[表1]之中各“偏旁”的读音用带阴影的汉字注明于其右侧括号内，部分“偏旁”与其所在的一个常见汉字的读音相同，其余“偏旁”与其通俗名称相同，2)字根字“人”与字根字“八”的区别在于，“人”字的2个笔划相互连接，“八”字的2个笔划相互脱离，

2.2近形字母映射规则：2种笔划(竖、折)、12种偏旁，共计14种字根按照形态相似的线索，指定到相应的字母输入键位上，详见[表2]，

[表2]按形态相似的线索指定到相应字母键位的14种字根的键位映射优化方案：

注：1)[表2]之中带阴影的两个字根是笔划类字根，其余的都是偏旁类字根，2)汉字内部的所有“口”字归入偏旁“口字旁”，“口字旁”与方框儿“囗”一起指定到“o”键上输入。

3.按照权利要求1，单字的输入步骤是，从每个单字中拆取不超过3个字根，根据字根与键位的映射对应关系，把拆出的字根转换成字根所在键位的字母符号的组合，并以之作为单字的输入编码，在键盘上逐个输入这些编码完毕后，汉字就会出现在选字屏上(少数汉字在输入完字母编码仍未上屏者，再追加1位单引号[‘]即可上屏)，然后，在实体键盘上输入选字屏上的数字序号、在触摸屏虚拟键盘直接点击输入选字屏上的汉字，就可以输入所需的汉字，每个单字的完整的输入编码长度不超过3个字母，对所有汉字的拆分过程遵循以下五项操作规则：

3.1连笔字参照书写笔顺拆分：对于没有内部分立部件的汉字，参照其中笔划书写的先后顺序对其进行拆分，

3.2散体字先组大根、后拆细根：对于存在内部分立部件的汉字，对其中分立的部件，首先要尽可能将其归入到“字根字”、“偏旁”中拆出，不能归入到“字根字”、“偏旁”的，则参照其中笔划书写的先后顺序对其进行拆分，

3.3取根个数以少优先、取根个体以大优先：按照前两条规则，要尽可能把每个汉字拆为个数较少而个笔划数较多的字根，而不要把汉字拆成数量多而笔划数较少的字根，

3.4共用“横”、“竖”笔划可拆断：按照前三条规则，当有两个“字根”共用同一个“横”或“竖”时，如果把该共用“横”或“竖”从中断开，可以减少拆出的字根数量，则可以把共用的“横”、“竖”从中拆断，

3.5只取前3个字根，按书写笔顺排列：按照前四条规则，可拆取“字根”数不超过3个的汉字，拆取全部“字根”，可拆取“字根”数超过3个的汉字，只拆取书写笔顺中居前的3个“字根”，而无须拆取第4个及其之后的字根，所有从汉字中拆取的“字根”，参照其首笔划在汉字书写过程中出现的先后顺序排列。

4.按照权利要求1，指定26个汉字为“一级简码字”，令这26个汉字除了可以按照一般汉字的统一输入方法输入外，额外并行提供一种按其拼音首字母、读音近似性指定到相应的字母键位上，只须输入1位该字母，在实体键盘上加空格、在触摸屏模拟键盘的选字屏上点击第1个汉字，即可输入该汉字的方法，详见[表3]：

[表3]指定到26个字母键位上的一级简码字及其对应输入键位：

字有个人在为你而长发他们要的不是我和小经全口可以平安了键 u g r z v n e c f t m y d b s w h x j q o k i p a l

备注：表中的26个汉字，除了可以按照一般汉字的统一输入方法输入外，也可以输入表中对应的1位字母加空格输入(触摸屏虚拟键盘可以直接点选输入选字屏上的汉字)。