CN1609765A - 活字码中文字根输入法及其键盘 - Google Patents
活字码中文字根输入法及其键盘 Download PDFInfo
- Publication number
- CN1609765A CN1609765A CN 200410027961 CN200410027961A CN1609765A CN 1609765 A CN1609765 A CN 1609765A CN 200410027961 CN200410027961 CN 200410027961 CN 200410027961 A CN200410027961 A CN 200410027961A CN 1609765 A CN1609765 A CN 1609765A
- Authority
- CN
- China
- Prior art keywords
- radical
- word
- dictionary
- key
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
活字码是一种计算机键盘汉字输入法,采用296个字根作为汉字单字的输入部件,其中大部分字根采用其拼音首字母作为输入符,少数字根采用与其书写形态相似的键盘符号作为输入符,词组采用拼音缩写加字根编码的方式编码,本编码无需考虑翘舌音、韵母、笔形、笔画数、结构、字义和识别码,单字无重码、词组极少重码、编码简洁、输入速度快、好学易记、符合汉字书写规范、规则简单。
Description
第一部分:技术领域
本发明涉及电脑汉字处理应用中的汉字键盘输入编码技术。
第二部分:背景技术
当前国内使用的汉字输入法大体可以分类为:语音输入、手写输入、扫描输入和键盘输入。由于键盘输入具有成本低、速度高、随意性好、准确度高等优点,因此成为现时汉字输入的主流手段,它的编码方式主要分为五大类:序码(如:区位码)、声码(如:全拼输入法)、形码(如:五笔字型、表形码、根声码)、声形码(如:自然码、一根声码)、数码(如:五笔数码、数码汉字)。
据国家知识产权局在互联网上公开的数据显示,已经获得中国发明专利的汉字键盘输入法编码方案,多达900多种。由于汉字输入法编码工作是一个复杂的系统工程,尽管现时“输入法”的发明专利已有近千种之多,在某一方面表现出色的方案也不少,但始终未能有一种公认的理想的输入法方案出现。
序码的代表是“区位码”,它的优点是无重码、编码较简短(全部都是4位)、可以输入各种特殊符号、借助字码对应表,一般人可以马上就进行键盘输入操作。但它的局限性也是明显的,就是无法输入词组,而且该编码的记忆量非常巨大,常人根本不可能把它全部掌握,而只能把它用作辅助性的输入手段,通常只是用它来输入特殊的汉字或符号;
声码的代表是“全拼输入法”,它的优点是不用专门学习,借助于义务教育所普及的汉语拼音的知识,一般人可以马上就进行键盘输入操作,即通常所说的“不学就会”,这是它的最大优点,但它的不足也是明显的,就是重码特别多、而且编码的简洁性较差(编码较长,最长的可多达12位),这使它的输入效率较低,操作强度较大,从而大大限制了它的使用价值;
形码的代表是“五笔字型”输入法,它的优点是输入的速度快,但它却有其自身的巨大局限性:字根多而又缺乏便利清晰的记忆条理,入门较难而又较容易遗忘,拆字不直观、字型码判断规则复杂,单字重码仍多达500多个(统计数据来源于五笔字型4.5版);
声形码的代表是“一根声码”,它吸收了声码和形码的很多长处,但由于其编码思想并未超越原有的声码和形码的局限,因而其编码总体效果较之“五笔字型”并无显著的飞跃,该编码的6763个一、二级国标字的重码率仍有0.9%(根据该发明人在http://www.yigenma.net/上的公开说明)。其词组重码率与五笔字型相当、其一级、二级简码字数也和五笔字型相近。此外,在吸收了声码和形码的长处的同时,该编码也同时受到声码和形码的束缚,每输入一个汉字,不仅要清楚知道它的形态,还要知道它的读法,在一定程度上限制了其使用范围,例如:对于不会读的字使用该编码就不能输入,而“五笔字型”对于不会读的字并不妨碍其输入;
“表形码”是一种利用字根形态与键盘符号的相似性定义键盘的纯形码,这是形码编码的一种有益尝试,但相对于中文字根形态的复杂性,二十几个键盘字母的形态资源就显得力不从心了,由此造成该编码的键盘定义歧义性较多,其中不少定义给人以牵强附会甚至强词夺理的感觉,加上键盘形态分布与字根使用频率分布存在难以调和的矛盾性,使其键盘中各键的利用率很不平衡,由此而形成了大量的重码,由于该编码方案自身的这些局限性,除了较“五笔字型”容易学一些,“表形码”的其余性能均不能优于“五笔字型”;
根声码是一种以字根拼音首字母定义键盘的纯形码,它将汉字无音字根赋予命名,用汉字字根的拼音首字母进行编码,这是一种既有“五笔”重码少、速度快,又有拼音输入好学易记,键盘记忆量少的计算机汉字输入法,是形码编码的一大进步,但由于其主要的编码思想仍未超越五笔字型的局限性,因而其编码总体效果较之五笔字型并无显著的改善,除了较为容易学这一点外,其余性能与五笔字型相当;
综上所述,长期以来,为社会所普遍认同的“既好学又好用”的理想的输入法至今还未出现。
第三部分:发明内容
第一节、本发明的目的:
在知识经济时代,信息的爆炸性增长使人们对汉字录入速度的要求不断提高,一种符合社会需求的理想的汉字输入法的出现,无疑会对社会发展进步作出巨大的贡献,因此,尽管已经有了数以千计的输入法发明,尽管输入法的发明能够在商业上取得成功的先例寥寥无几,尽管输入法研究是一项孤独而艰苦的差事,但是对于一个渴望对社会有所贡献的发明人而言,能够在这个伟大的时代里为中华民族的发展进步作出显著的贡献,这本身就是对发明人最大的奖赏,足以慰藉平生,因此本发明人也义无反顾的投入到汉字输入法的研究当中。
“汉字键盘输入法编码方案”(以下简称“输入法”)的本质是“建立一套科学的工艺和规范体系,运用键盘符号对中文单字和字符串的特征进行有效的描述”、所谓“有效的描述”主要体现在四个方面:精确性、实用性、简洁性、规范性(以下简称“四性”)。
精确性:也就是唯一对应性,精确性的理想境界就是一字对一码、无重码字,一词一对一码、无重码词。(注:“重码”是指二个或多个不同的单字或词组的编码完全相同而不能相互区分的现象)
实用性:实用性就是“易被用户接受、易掌握、易使用、易精通、易保持熟练状态、输入速度快、操作方便并且符合人体健康原则、易推广、易扩展”。
简洁性:就是编码的简短程度,它的总体评价标准是编码系统中平均每字的编码长度,它的具体评价标准还包括一级简码字、二级简码字、三级简码字、简码词的数量多少;在不牺牲精确性和实用性的前提下,平均每字码位长度越短越好,简码字越多越好,简码词越多越好。(注:“简码”是指不必输入完整的编码即可输入一个单字或词组的现象,例如在活字码输入“全”字只要键入“q”一个键,加空格确认即可,这就叫一级简码,“哥”字只要键入“kk”二个键,加空格确认即可输入,这就叫二级简码,“强”字只要键入“goc”三个键,加空格确认即可输入,这就叫三级简码,依此类推)
规范性:理想的编码应当符合现时社会文化的主流规范,对文化传统有良好的继承性。“输入法”编码是汉字的的第二种书写形式,它的使用可以等同于文字的使用,假如“输入法”无视社会文化的主流规范、漠视人们的使用习惯、抛弃对传统文化的继承,那么汉字的“书同文”将陷入支离破碎的困境,“输入法”也将失去社会文化的滋养而难以成长完善。
综上所述,发明“活字码”的目的在于:在继承传统文化精髓和吸取前人创造性思想精华的基础上,进一步改进和完善汉字输入编码技术,克服现有编码技术的诸多不足,
创造出 一种能够同时实现“精确性、实用性、简洁性、规范性”的理想的汉字输入法编码方案。
第二节、技术方案
“活字码中文字根输入法编码及其键盘”(以下简称“活字码”),是一套电脑键盘中文输入法编码方案及其键盘定义。“活字码”通过一系列创新性的编码技术和工艺,有系统、有步骤地完美实现了“输入法”的“四性”:
一、选择形码作为单字的表达手段:
汉字多达数十万个(种),但汉字的基本发音组合只有328种(未分4声调),异字同音的现象十分普遍,一字多音的现象也很多,因此,汉字的读音特征的排它性较差,不适用于单字的精确描述。然而,每一个汉字都有独一无二的书写形式,不存在异字同书的现象。因此,要建立一一对应的单字编码,就离不开对字形信息的描述,所以,活字码选择形码作为单字的编码表达手段。
二、形码字根选择:
“字根”是指一切能够组成其它字的单字、偏旁、笔画。根据本发明人的统计,仅6763个一级和二级国标字中,能够组成其它字的单字和偏旁就有1247个,假如一种编码方案全部采用这1247个字根,将会大大加重用户的记忆负担,而且也大大增加了编码系统的复杂性,不仅不利于推广,而且不利于输入效率的提高,因此,出于实用性考虑,全部采用这1247个单字和偏旁是不明智的;但由于汉字书写的复杂性,少量的字根不可能具备全面的代表性,假如只选择少数的字根,将会造成大量的汉字描述不清、大量的重码和编码简洁性差,因此,只能选择有代表性的适当数量的单字和偏旁作为字根,才能获得理想的效果。选择什么类型的字根也会直接影响编码的总体效果,只选择结构简单的少笔画字根,会令编码不直观,而且因为单字拆件过多而编码简洁性较差;只选择结构复杂的多笔画字根,虽然编码比较直观,但无法解决简单结构的表达问题,而且由于单字拆件较少,难以相互区分而导致重码率增高。
为了解决字根选取中的诸多难题,活字码独创了“择高录取、大小兼收、繁简互补、各键使用率均衡”的选根工艺,其实施步骤为:
(一)为确保字根的代表性和实用性,首先按照“择高录取”的原则,根据字根在6763个一二级国标字的构成中重复出现次数的多少,初选了其中重复出现的次数最多的300多个单字字根。然后运用“大小兼收、繁简互补”的选根工艺,通过对这300多个单字字根的拆解分析,初选了100多个高频偏旁,由此首批共初选出400多个字根,这样兼采结构复杂的多笔画字根和结构简单的少笔画字根,两类字根取长补短互相呼应,就可以协同对文字形态作出简洁有效的描述;
(二)在初选出首批400多个字根后,通过对这些字根与6763个一二级国标汉字的书写结构的对应关系所作的统计和试验发现,使用率最高的前276个字根,已经能够全部解决6763个一二级国标字的编码表达,如减少这其中的一部分字根,编码的简洁性就会变差,如增加别的新字根,则新字根的利用率较低,实际作用不大,却白白增加了用户的记忆量,因此,活字码选择了这276个字根作为建立初步编码方案的基本字根,除此以外,除非有利于显著提高编码系统的整体性能,否则不再随便增加字根数量;
(三)运用“各键使用率均衡”的选根工艺,通过对使用276个基本字根建立的初步编码方案进行的二十多次改进,共计增加了20个补充字根,并对部分偏旁字根的读音加以变通调整,以平衡键盘各键的使用率,提高键盘的总体使用效率,由此,活字码最终选定字根296个。
在活字码收录的296个字根中(详细列表见第四部份第三节的内容),在6763个一二级国标字的构成中重复出现次数在10次以上的字根共计276个,重复出现次数低于10次的字根只有20个,由此可见,活字码的字根系统是具有充份代表性的高频字根系统,符合人们对汉字直观认知的需要。
三、单字的拆解规范:
如何拆分单字和选用字根,直接影响到编码的总体效果,单字只拆为结构简单的少笔画字根会使拆字工艺不直观而且编码的简洁性差,只拆为结构复杂的多笔画字根虽然会使拆字工艺比较直观,但无法解决结构简单的单字和偏旁的拆分和表达问题,而且重码率会增高。因此,只有采取“大小兼用、繁简互补”的字根搭配使用原则,才有可能取得理想的编码效果,为此,活字码独创了一系列独特的拆字工艺:
(一)“先粗分,后细分、粗细互补、前后呼应”的“二级解剖拆字工艺”
按照直观的拆字方式,不少单字,仅由二到三个字根组成,例如:郑=关+阝、克=古+儿、邯=甘+阝、邝=广+阝、邗=干+阝,等等多个字都是由二个字根组成,按照活字码的基本编码思想,它们都可得出“ge”的基本编码,如果仅仅以此作为输入码,就无法实现“一字一码”和“无重码字”的理想标准。
为了解决这一难题,活字码首创了“先粗分,后细分、粗细互补、前后呼应”的“二级解剖拆字工艺”:首先对单字进行一次直观的拆解,假如拆出的子字根数不足4个,则对第一次拆解得出的子字根进行再次分解,取第一个子字根的第一个孙字根作为补充根,假如加上补充字根后的所得字根总数仍不足4个,则取第二个子字根的第一个孙字根作为补充根,即可补足4个字根。例如:“克”=“古”+“儿”,第一次拆解得出的字根只有2个,则加上“古”的第一个字根“十”,但仍不够4个,则再加上“儿”的第一个字根“丿”,至此得出“克”=“古”+“儿”+“十”+“丿”的4个字根,依此类推,郑、克、邯、邝、邗等等多个字就都可以拆成各自不同的四个字根,从而得到各自精确的描述和实现相互间清晰的区别,不再形成重码。通过这种工艺,使每个单字的描述粗细结合、精确区分,从编码的源头上消灭了大量的重码,详细的“二级解剖拆字工艺”请参阅本部分第四部分的内容。
(二)单字拆分中字根取舍的基本规范:
有些单字,根据不同人的书写习惯不同,可能出现多种不同的拆分方式,根据以下原则,即可避免拆分方案出现歧义性:
1.在总体拆字处理上,按书写顺序拆字取码,先写先拆、先到先得。
例如:“强”拆为“弓口虫”,而不拆为“弓虫口”或“虫弓口”或“口弓虫”等。
2.在单字拆字过程中的局部字根取舍上遵循以下三项原则(“局部字根取舍三项原则”)
1)取高舍低:活字码规定,笔画数多的字根的级别高于笔画数少的字根;为了体现
拆 字的直观性,在多种可选字根中,优先选取其中级别最高的字根。因此,有大字不取小字,有小字不取偏旁,有大偏旁不取小偏旁,有小偏旁不取单笔画;超过四个组件的字,最后一个字根有大取大,尽可能取更多的笔画结构而尽可能不取较少的笔画的字根或单笔画的字根。
例如:“鹿、广、
米”都是活字码承认的字根,“麋”字应拆为“鹿+米”而非“广+
+
+米”;“木”和“林”都是活字码承认的字根,“梵”字应拆为“林凡”而非“木木凡”;“丅”和“丨”都是活字码承认的字根,“隔”应字拆为“阝一口丅”而非“阝一口丨”,因为“丅”的笔画比“丨”多;又如,“丿”和“彡”都是活字码承认的字根,穆字拆为“禾白小彡”,而不拆为“禾白少丿”;因为“彡”是多笔画字根,而“丿”是单笔画字根,前一种拆法的字根总体级别较后者高,故选择前者。
2)取连舍断:活字码规定,连笔字根的级别高于散笔字根,对于连接的成字结构,取其中最大的连笔字,而不因局部的书写顺序的先后而拆散它。如:“禾、千、彐、八”都是活字码的字根,“秉”字应拆为“禾+彐”,而不拆为“千+彐+八”;同理,“天”字和“夫”字,都拆为“一大”,而不拆为“二人”,因为“二”字是散笔字,而“大”是连笔字,故优先取用有“大”字根的方案,同理,“干”字,拆为“一十”,而不拆为“二丨”;“或”字拆为“戈口一”,而不拆为“一口一丶”。
2)取少舍多:能够拆成较少个数的字根,不拆成较多个数的字根。例如:“秉”字拆为“禾+彐”,而不拆为“千+彐+八”;又如“董”字,拆为“艹千里”而不拆为“艹千日二”;“方”拆为“广乙”而不拆为“亠丿乙”。
3.局部服从整体:
当“局部字根取舍三项原则”与单字的书写顺序有矛盾时,字根在总体出现顺序上服从“先到先得”原则;在局部字根的选择上服从“局部字根取舍三项原则”(局部的书写顺序服从“局部取舍三项原则”)。
(三)单字拆分工艺的简化与优化规范
1.上包围结构(上盖)的简化规范:
由于汉字有很多种上包围结构,其结构往往比较复杂,不利于相互区分和简洁描述,因此活字码独创了对其进行简化的有效工艺:
1)三种典型上盖形式及其简化:
①“空”型盖:文字中含有“宀”,“宀”上面没有其他结构,“宀”下面没有八、井等结构,读作kong“空”盖头(就是传统上称为“宝盖头”的偏旁,例如:“宿宅宪宣定富”等字的上盖);
②“穴”型盖:凡上“宀”下“八”的上包围结构,全部合作一个“穴”对待(宀上面没有其他结构,例如:“空窜突容穿窄窥究穷窝窃窒”等字的上盖);例如“空”字拆为“穴工”。
③“寨”型盖:凡有“寨”字中木字以上部分的“宀井一八”上包围结构,“宀井一八”及其以上部分全部合为一个“寨”字头对待(读zhai)。如“塞”字拆为“寨土”,“骞”字拆为“寨马”。
2)二十多种非典型上盖形式及其简化:
凡带有“冖”的上包围结构,而不符合本条1)所列①②③三款情况的,例如而不限于“学亮_孛壳牵帚晏荸蒡带薨赍囊鬓薹睿崇璺爱管夤叠”等二十多种上包围结构;对这些上包围结构中的“冖”及其以上部分全部合为一个“盖”对待,键盘输入键符为“]”,以便简化复杂的上盖结构的输入,缩短编码并提高编码识别率。
2.囗和口的区别:
“囗”(方框儿)内部一定要有东西被完全包围着(被包围的东西全部在框内,不得有任何部分突出框外。例如“田、日”的外包围框就符合“囗”的定义要求),“囗”读作“fang”它的输入键是“f”;
“口”内完全没有东西被包围,或被包围的东西有一部分穿出框外或与框外的部分相连,例如:“曲、中、吕”中的封闭方框,“口”的键码是“o”。
3.四个特殊字:
“赢、羸、蠃、嬴”这四个字的拆字和编码只取前四个结构:“赢”字拆为“亡口月贝”、“羸”字拆为“亡口月羊”、“蠃”字拆为“亡口月女”、“嬴”字拆为“亡口月虫”。
4.戈字无点也作戈:(例如:“尧”字拆为“戈一儿”)
四、键盘规划(资源充分合理利用):
在一定的限度内、能够作为字根输入符使用的键盘符号越多,则编码空间越大、重码率越低、简码字越多、输入的效率越高,但这种正增益关系并不是绝对的,作为字根输入符使用的键盘符号过多,就会造成编码空间利用率下降、并会牺牲某些重要的键盘输入功能,而且由于键位过度分散,会大大增加手指在键盘输入操作中的活动跨度和幅度,因而不方便操作而容易疲劳,由此产生的种种不良后果会抵消编码空间增加所带来的好处,甚至得不偿失。
活字码采用26个字母键和7个标点符号键共计33个基本指位旁边的键作为输入键,除了“]”键与基本指位跨过1列外,所有键都和“ASDF”及“JKL;”八个基本指位紧密相邻,不跨行,不跨列,符合人体工学原则,利于快速形成键盘记忆,在不加重人体操作负担的前提下,显著扩大了编码空间。
五、字根互补性搭配工艺:
有些字根,在编码前部的位置出现率较高,但在编码后部的位置出现率较低,而有些字根刚刚相反,在编码前部的位置出现率较高,但在编码后部的位置出现率较低;
有些字根,在编码最前和最后的位置出现率较高,但在编码中部的位置出现率较低,而有些字根刚刚相反,在编码中部的位置出现率较高,但在编码前后两头位置出现率较低。
活字码对前述的这些不同的字根进行互补性的搭配编组,把具有互补性的不同字根放在同一个键上输入,从而显著提高了每一个键盘符号的编码空间的利用率,大大减少重码机会并使编码更为简洁,这就是活字码独创的“字根互补性搭配工艺”。
例如:以活字码的33个输入键符号在编码总表中的的平均出现率为100%计算,字根“十”在编码总表中的分布为:第1位21%,第2位35%,第3位162%、第4位256%;字根“木”在编码总表中的分布为:1位113%,2位32%,3位36%,4位17%。显然这两个字根在不同码位上的分布具有互补性。因此在活字码中这两个字根被安排在同一个键上,成为一对互补字根组,这个就键是“[”,因为“十”和“木”都是十字形的字根,如果用“+”号键有输入将会非常直观,但由于“+”号键在汉字输入通用习惯上具有负责翻屏的特殊作用,因此不能直接作为编码符号使用,而“[”键是“+”键的下方最近的键,所以就用“[”键输入这两个十字形的字根。象这样的字根搭配的例子很多,因为篇幅所限,不在此一一列举(详细的搭配结果可详见本文第四部分的内容)
六、字根表达和键盘定义:
(一)拼音首字母定义法:
活字码主要采用拼音首字母定义各字根的输入键,在活字码296个字根中,有281个字根是以拼音首字母方式定义各自的输入键的,例如:字根“尸”的输入键盘符是“s”、字根“广”的输入键盘符是“g”、字根“吉”的输入键盘符是“j”。通过这种定义方式,轻松地实现了“见根知键(拼音首字母)、见字知码”的简便效果,大大减少了用户学习活字码的记忆量和显著提高了活字码输入法编码的实用性。
(二)形母定义法:
活字码中有15个字根不是采用拼音首字母方式定义,对这15个非拼音首字母字根,活字码采用象形方式定义其字根键码,例如:一横“一”用“/”表示,一撇“丿”用“,”表示,一点“丶”用“.”表示,右框“]”用“]”表示,这种定义方式直观有理易学易记,而且记忆量很少(详见第四部分的内容)。
(三)字根助记歌:
活字码的单字字根多达210个,为了便于用户快速掌握活字码的单字字根,活字码独创了单字字根助记歌:《活字码字根歌》,把210个单字字根全部编成一篇工整有序、含义有趣、朗朗上口的诗词,极易理解和记忆(详见第四部分的内容)。
(四)键盘使用率均衡分配工艺
在有限的编码空间资源条件下(也就是在可输入编码的键数固定、编码长度位数固定的前提下)、假如使用率高的字根过份集中于少数繁忙的键盘符号上,而另一些空闲的键盘符号所负责输入的字根又极少或者字根的使用率很低,这种键盘各键使用率分布不均的状态,会使繁忙的键盘符号上因为拥挤而出现大量的重码,而空闲的键盘符号上又有大量的编码空间得不到利用而被白白浪费掉。
针对这种现象,活字码独创了“键盘使用频率均衡分配工艺”:就是在字根与键盘符号的搭配归类过程中,尽可能使各个键盘符号承担的字根输入使用率接近各个键盘符号的平均水平。
例如:“口”是一个使用率很高的字根,“口”字根如果放在“o”键上输入,那么“o”键的使用率就已经高于a~z和,./;’[]等33个键的平均使用率,因此“o”键上不适宜再安排“口”以外的其他字根的输入,所以活字码中“o”键上只有“口”一个字根。又如:“_”字根,通俗上称为“竹字头”,按照活字码的拼音首字母定义法,“_”字根应当放在“z”键上输入,但由于“z”键上已经有很多字根,除了“_”之外的已被归入“z”键的字根的使用率已经超过各键的平均使用率,所以活字码把“_”字根,改称为“篇字头”,把它放在使用率较低的“p”键上,这样“z”键和“p”键的使用率都趋于各键的平均使用率水平。象这样的调整在活字码中很多,因为篇幅所限,不便一一列举(最终的方案详见本文第四部分的“活字码的字根表”)。
七、综合运用一系列独创性的先进编码工艺和技术,实现单字编码的高效无重码:
(一)运用“先粗分,后细分、粗细互补、前后呼应”的“二级解剖拆字工艺”。使每个单字的描述先粗后细、粗中有细、前后呼应、粗细互补,实现了单字书写形态信息的精确区分描述,从编码的源头上消灭了大量的重码;
(二)运用“字根互补性搭配工艺”,把书写接近或读音接近,而在不同码位分布强弱互补的字根安排在同一个键上,显著提高了每一个键位的编码空间利用率,使活字码的简洁度得到了显著的提高(单字平均码长仅为3.034键,并且无重码);
(三)运用“键盘使用率均衡分配工艺”,在字根与键盘的定义搭配过程中,尽可能使各个键盘符号承担的字根输入量接近各个键的平均水平,合理分配和利用了键盘编码空间资源,避免了不必要的键码拥挤,大大减少了重码出现的机会;
(四)深入运用微电脑数据库技术实现各种独创性的编码思想
仅有强大的思想能力是不够的,还要有强大的实行能力,才能让创造性的思想化为实用性的成果,活字码发明人在创立了前述的一系列新颖的编码思想后,深入运用微电脑数据库语言的强大数据处理功能(Microsoft Visual Foxpro 6.0),建立了完整的编码数据库,并专门编写了一系列强大的辅助分析处理程序,大大提高了编码开发的效率和可靠性,免除了大量不必要的重复手工劳动及由此而造成的失误,为反复多次逐步改进完善编码方案创造了可行的条件,为最终达到理想的编码效果提供了有力的保障:
①建立了单字编码数据库,详细记录了6763个国标单字的拆解方案、编码方案,并建立了字根定义和字根使用率分布统计数据库,为利用电脑软件快速修改编码系统和及时掌握编码效果创造了必要的数据基础。
②编写了字根定义自动替换程序:在对字根定义数据库相应字根定义作出修改后,用该程序能够在几秒钟内全部完成对6763个单字编码数据库的相应字根定义的更改,快速实施编码试验方案。
③键码分布统计程序:用该程序能够在每次修改字根定义之前和之后,快速统计和显示各键盘符号的使用频率及其在不同编码位置的分布状态,让开发工作知己知彼,有针对性地进行调整和改进,逐步摸索出最佳的键盘和字根定义方案。
④重码率和简码率统计程序:用该程序能够在每次修改字根定义之前和之后,掌握该编码试验方案的重码率和简码率,协助发明人运用逐步逼近的方法,通过反复逐个修改字根定义,逐步减少重码率、提高简码率,最终消灭单字重码、实现简码最大化。
(由于有关数据库的创建、电脑程序的编写细节不属于本发明的技术领域,不在此罗列)
(五)利用偏旁的多音性灵活调整字根定义:
由于单字字根的读音规范是确定的,不能随意改变,所以在不违反社会公认的用字规范的前提下,只能对没有明确规范读音的偏旁进行有理有据的读音约定和规范创新,幸运的是,汉字的偏旁具有十分丰富的多音性,由此为活字码根据编码需要调整字根的输入符号定义提供了可行性,而活字码独创性地充分利用了汉字偏旁的这种多音性,有理有据地开发出既有利于编码效率的提高,又有利于快速记忆的偏旁定义方案。
例如:高频字根“艹”可以称为“草字头”而读作“cao”,输入符定义为“c”,也可以称为“艾字头”而读作“ai”,输入符定义为“a”。由于用“c”键输入的字根已经很多,“c”键的使用率本来就已经超过各输入键的平均使用率,再把“艹”放在“c”键上输入,势必造成大量的重码字出现,而用“a”输入的字根却很少,“a”键的使用率远远低于各输入键的平均使用率水平,因此活字码把高频字根“艹”称为“艾字头”而读作“ai”,输入符定义为“a”,用“a”键输入。又如:字根“宀”可以称为“宝盖头”而读作“bao”、输入符定义为“b”,也可以称为“空字头”而读作“kong”,输入符定义为“k”,由于用“b”键输入的字根已经很多,“b”键的使用率已经超过各输入键的平均使用率水平,再把“宀”放在“b”键上输入,势必造成大量的重码字出现,而用“k”输入的字根却较少,“k”键的使用率远远低于各输入键的平均使用率水平,因此活字码把高频字根“宀”称为“空字头”而读作“kong”,输入符定义为“k”,用“k”键输入。
在活字码中,象这样的偏旁读音创新定义的例子还有不少,活字码无论采取何种定义方案,全部都符合有理有据、直观易记的原则,因篇幅所限,不在此一一罗列(详细的方案详见本文第四部分的“活字码的字根表”)。
由于综合运用了上述这一系列系统性和独创性的技术和工艺,经过数百次的调整和改进,攻克了一个又一个编码难题,使活字码实现了较为理想的编码效果,不仅实现了单字无重码,而且二级简码字多达1046个,三级简码字多达4349个,同时也大大缩短了编码长度,6763个国标一二级单字平均码长仅为3.034键。
八、单字编码,直观简洁,规则简单:
活字码,通过使用前述“三、”中的“单字拆解规范”,把单字拆分成符合前述“二、”中所选字的字根的组合,再根据前述“六、”中的“字根表达和键盘定义”规范,把拆分单字所得的字根组合中的字根转换成键盘输入符号,使字根的组合转换成键盘输入符号的组合,这种输入符号组合就是单字的输入编码;每个单字的完整的输入编码长度为四个键盘输入符号;为进一步简化编码和提高输入效率,在不构成重码的前提下,部份常用单字仅使用输入编码的前2至3位,构成二级简码字和三级简码字;
九、词组编码,顺应语言思维习惯:
人类语言思维是一种与书写符号无任何必然关联的过程,人类语言思维过程中最重要而且必不可少的对象只有物象,其次是语音(但语音也不是必不可少的,聋哑人不用语音也能够有效地进行语言思维和交流)。众所周知,目不识丁的人并不会在语言思维过程中遇到任何困难,不会写字的“六祖”慧能和尚也能够创作出“菩提本无树,心镜亦非台,本来无一物,何处惹尘埃。”这样高妙的佛偈。因此,活字码发明人认为,在写作过程中过多的涉及象形符号的拆解,不仅对写作思维无任何帮助,反而容易干扰和打断思路,所以在词组编码过程中应当尽可能少涉及不必要的象形符号拆解过程。
要提高输入效率,关键在于提高词组编码的效率;要在提高编码效率的同时照顾思维过程的便利,最简捷的办法是拼音缩写。但是少字词的拼音缩写的重码率极高,不得不结合和利用字根形码进行辅助识别,以消除词组重码。
活字码首创了对词组采用“以拼音缩写为主,辅以字根形码识别”的词组编码工艺,不仅编码更简便,而且更符合语言思维习惯,重码率也很低,完美地兼顾了提高效率、方便普及、适应用户思维习惯的需要,活字码中只需三键输入的三级简码词多达9960多个(囊括了绝大部分常用词组),因此,活字码的词组编码已经成为一种实用的“词组速记输入工具”。
第三节、本发明所取得的突破性成果
“活字码”凝聚了发明人大量开拓性的艰辛创造和长期艰苦繁重的劳动,终于取得了突破性的进步,与现有的“输入法”相比,“活字码”具有如下极其显著的优点:
一、高效性:
(一)单字无重码,词组极少重码,简码字词多、编码简洁:
①6763个一二级国标单字无重码(四位编码),单字平均码长仅为3.034位;
②一级简码字共计33个;
③二级简码字共计1046个;
④三级简码字共计4349个;
⑤58486条词组中重码词仅有75条(词组重码率仅为0.128%);
⑥三级简码词共计9963条;
⑦四级简码词共计40677条;
⑧词组平均每字码长仅为1.58键。
(二)特殊符号输入方便:
活字码能够十分方便地输入200多个特殊符号,包括:箭头符(jtf??)、运算符(ysf??)、罗马数字(szlm?)、圆圈数字(szyc?)、中文数字(szzw?)、带点数字(szdd?)、计量单位(dwf??)、音标符(ybf??)、希腊字母(xlzm?)、几何图型(jht??)、偏旁(un???)、字根学习(zgxx?)等等。(详见第四部分的《特殊符号编码表》)
(三)标点符号输入自如:
活字码能够方便地输入各种标点符号,一般符号都可以直接输入;“
,。/;‘[]”七种符号,只要按一下“大写锁”
建后,便可以用相应的符号键直接输入,在大写锁状态下,所有标点符号均可直接输入。
二、易学性:
(一)活字码符合汉字的认知心理习惯:活字码的编码规范,直观性强,符合汉字的认知规律,例如:“劣”字是“少”加“力”,活字码是“sl”;“斋”字的“文”加“而”,活字码是“we”;;“加”字的“力”加“口”,活字码是“lo”;“四”字是方框“囗”加“儿”,活字码是“fe”,“郑”字是“关”加“阝”,活字码是“ge”。
(二)活字码符合汉字的书写习惯:活字码的编码规范,严格按照《多功能现代汉字应用字典》的书写规范对单字进行分析和分解。
(三)活字码的编码规范简明易行:活字码的编码规范,简单易行,对应精确,简明有理,易学易精。一个从来未接触过活字码的人,只需十五分钟就可清楚理解活字码的全部编码规范。
(四)活字码的记忆元素工整有序:活字码的单字字根全部被编成工整有趣、朗朗上口的诗词,极易理解和记忆,活字码的全部偏旁的定义都有简明清晰的记忆条理,过目几次就可以记住。一个从来未接触过活字码的人,只需三十分钟就可记住活字码的全部字根输入法定义。(详见第四部分的《活字码字根歌》、《活字码偏旁表》)
(五)活字码的词汇编码符合语言思维习惯:活字码的词句编码规范,符合中国人语言思维的活动规律,采用以拼音缩写为主,以字根形码辅助识别的编码工艺,使编码十分直观而又简便,重码率也很低,同时兼顾了效率和普及的需要。
(六)活字码易学难忘:活字码不仅记忆量少、规则简单直观,而且采用全有理编码:所有记忆内容(例如字根和一级简码字)都有简明清晰的记忆条理,不仅易学,一经学会,终生不忘。
三、活字码的技术性能取得全面而显著的进步(对照五笔字型)
序号 | 项目 | A)活字码1.0 | B)五笔字型V98 | (b/a)% |
字根 | 总量 | 296个,不用死记 | 257个,要死记 | A优于B |
成码键数 | 33 | 25 | A优于B | |
拆字直观性 | 直观 | 不直观 | A优于B | |
选根主要依据 | 字根频率 | (不清楚) | ||
字根表达依据 | 全有理(声母/近形) | 大多数无记忆条理 | A优于B | |
字根使用 | 精确对应 | 近似对应 | A优于B | |
单字 | 字数 | 6763国标字 | 6763个国标字 | 相当 |
一级简码字 | 33个 | 25个 | 76% | |
二级简码字 | 1046个 | 615个 | 59% | |
三级简码字 | 4349个 | 3948个 | 91% | |
四码字 | 1335个 | 2128个 | 159% | |
重码字 | 0个 | >500个 | A优于B | |
单字重码率 | 0 | 7.4% | A优于B | |
单字平均码长 | 3.034键 | 3.22键 | 106% | |
词组 | 词汇量 | 58486 | 15527 | 26.55% |
词组重码率 | 0.128% | 0.9% | 700% | |
二码词 | 1个 | 0个 | A优于B | |
三码词 | 9963个 | 0个 | A优于B | |
四码词 | 40677个 | 15527个 | 38.2% | |
五码词 | 7854个 | 0个 | -------- | |
词频分级 | 有 | 无 | A>B | |
词组平均每字码长 | 1.58 | 1.6226 | 103% | |
编码规范 | 总体规则 | 简单 | 复杂 | A优于B |
认知习惯 | 符合:ge关+阝=郑 | 不符合 | A优于B | |
字型区分 | 不分 | 多达15种情况选择,分析判断复杂,干扰打断写作思路 | A优于B | |
特殊“键名”字 | 无 | 有25个,增加负担 | A优于B | |
字根定义 | 成文易记、75%与汉字典规范一致 | 无意义、难记忆、易遗忘、不合汉字规范 | A优于B | |
键盘定义 | 按偏旁字根规范读音定义(少数按形像定义),无须死记硬背,半小时可学会,终生不忘 | 强行无理规定,必须专门死记硬背,如不使用短时间内就会遗忘。 | A优于B | |
一级简码 | 成文、成句、成意、朗朗上口,有趣易记 | 不成文、不成句、不成意,难记 | A优于B | |
词组编码规范 | 接近思维习惯和心理活动规律 | 不接近思维习惯;打断干扰写作思路 | A优于B | |
学习 | 入门时间 | 10~20分钟 | 3~5天 | 9600% |
熟悉时间 | 1~2小时 | 专攻一个月以上 | 24000% | |
遗忘时间 | 终生不忘 | 不运用一个月就忘 | A优于B |
四、规范性:
1)活字码总体上符合主流规范和传统用法:
为了使《活字码》容易被广大用户接受,《活字码》在兼顾效率的情况下,基本沿用了符合汉字现行主流的偏旁部首用法(根据《现代汉语字典》,以下简称《字典》),《字典》的部首目录中收录了214个字根,其中162个字根与活字码收录的字根相同,符合率达75%。
2)活字码对传统文化的继承、发扬、创新:
为了进一步提高活字码的输入效率,活字码在继承传统文化,顺应主流规范的同时,对字根形码进行了谨慎的有据的独创性扩充和完善,以适应电脑高速检索定位编码的需要。(详细内容,请参见第四部分的内容)
五、可扩展性:
1)通用性:活字码的编码规范适用于任何汉字和中文词语。
2)预留空间:活字码在二级码位上预留了45个位置供扩展GBK汉字的二级简码字词使用;在三级码位上预留了21800多个位置供扩展三级简码字词使用;四至五级码位上预留了3900多万个位置供扩展字词使用,保证了几乎无限的扩展空间和扩展后重码机会极少。
3)由于活字码具有几乎无限的扩展空间、重码率极低(58486词的重码率仅为0.128%)、多字词仅用拼音缩写等等宝贵的特性,可以在实用意义上无限量收录大量词组和语节①并且直观地输入,可以极大地提高中文输入效率,将大大有助于使中文成为世界上输入效率最高的文字。(注①:语节是指单字和词组以外的多个单字的常用组合,例如“问题是”、“是指”、“换言之”、“也就是”、“以至于”等等)。
第四部分、本发明的具体实施方式
第一节、活字码的单字拆分和编码规范
一、单字拆分和取根的基本规范
(一)述语约定:
A=对单字进行直接拆分得出的第一个
子字根;
B=对单字进行直接拆分得出的第二个
子字根;
C=对单字进行直接拆分得出的第三个
子字根;
D=对单字进行直接拆分得出的超过第三个的最后一个
子字根;
Aa=对
子字根A进行拆分得出的第一个
孙字根;
Ba=对
子字根B进行拆分得出的第一个
孙字根。
(二)中文字的三种类型及其拆分规范:
1)单笔画型:由“点横竖撇折”(丶一丨丿乙)五种笔画中的某一种单笔画字根组成的单字,不能拆分为更细体的字根,就是用该单笔重复四次表示(拆为A+A+A+A),如“一”(全码是“////”)、“乙”(全码是“vvvv”)。
2)二元型:可拆分出二个子字根A和B,不足四个子字根,用孙字根Aa和Ba补够四个,拆为(A+B+Aa+Ba);
3)三元型:可拆分出三个子字根A、B、C,不足四个子字根,用孙字根Aa补够四个,拆为(A+B+C+Aa);
4)四元型:可拆分出四个(或者多于四个)子字根A、B、C、D,拆为(A+B+C+D)。
(三)拆字取根的基本规范:
有些单字,根据不同人的书写习惯不同,可能出现多种不同的拆分方式,根据以下原则,即可避免拆分方案出现歧义性:
1.在总体拆字处理上,按书写顺序拆字取码,先写先拆、先到先得。
例如:“强”拆为“弓口虫”,而不拆为“弓虫口”或“虫弓口”或“口弓虫”等。
2.局部取舍三项原则
①取高舍低:活字码规定,笔画数多的字根的级别高于笔画数少的字根;为了体现
拆字 的直观性,在多种可选字根中,优先选取其中级别最高的字根。因此,有大字不取小字,有小字不取偏旁,有大偏旁不取小偏旁,有小偏旁不取单笔画;超过四个组件的字,最后一个字根有大取大,尽可能取更多的笔画结构而尽可能不取较少的笔画的字根或单笔画的字根。
例如:“鹿、广、
米”都是活字码承认的字根,“麋”字应拆为“鹿+米”而非“广+
+
+米”;“木”和“林”都是活字码承认的字根,“梵”字应拆为“林凡”而非“木木凡”;“丅”和“丨”都是活字码承认的字根,“隔”应字拆为“阝一口丅”而非“阝一口丨”,因为“丅”的笔画比“丨”多;又如,“丿”和“彡”都是活字码承认的字根,穆字拆为“禾白小彡”,而不拆为“禾白少丿”;因为“彡”是多笔画字根,而“丿”是单笔画字根,前一种拆法的字根总体级别较后者高,故选择前者。
②取连舍断:活字码规定,连笔字根的级别高于散笔字根,对于连接的成字结构,取其中最大的连笔字,而不因局部的书写顺序的先后而拆散它。如:“禾、千、彐、八”都是活字码的字根,“秉”字应拆为“禾+彐”,而不拆为“千+彐+八”;同理,“天”字和“夫”字,都拆为“一大”,而不拆为“二人”,因为“二”字是散笔字,而“大”是连笔字,故优先取用有“大”字根的方案,同理,“干”字,拆为“一十”,而不拆为“二丨”;“或”字拆为“戈口一”,而不拆为“一口一丶”。
③取少舍多:能够拆成较少个数的字根,不拆成较多个数的字根。例如:“秉”字拆为“禾+彐”,而不拆为“千+彐+八”;又如“董”字,拆为“艹千里”而不拆为“艹千日二”;“方”拆为“广乙”而不拆为“亠丿乙”。
3.局部原则与整体原则的协调:
当“局部字根取舍三项原则”与单字的书写顺序有矛盾时,字根在总体出现顺序上服从“先到先得”原则;在局部字根的选择上服从“局部字根取舍三项原则”(局部的书写顺序服从“局部取舍三项原则”)。
二、单字拆分的简化与优化规范
1.上包围结构(上盖)的简化规范:
由于汉字有很多种上包围结构,其结构往往比较复杂,不利于相互区分和简洁描述,因此活字码独创了对其进行简化的有效工艺:
1)三种典型上盖形式及其简化:
①“空”型盖:文字中含有“宀”,“宀”上面没有其他结构,“宀”下面没有八、井等结构,读作kong“空”盖头(就是传统上称为“宝盖头”的偏旁,例如:“宿宅宪宣定富”等字的上盖);
②“穴”型盖:凡上“宀”下“八”的上包围结构,全部合作一个“穴”对待(宀上面没有其他结构,例如:“空窜突容穿窄窥究穷窝窃窒”等字的上盖);例如“空”字拆为“穴工”。
③“寨”型盖:凡有“寨”字中木字以部分的“宀井一八”上包围结构,“宀井一八”及其以上部分全部合为一个“寨”字头对待(读zhai)。如“塞”字拆为“寨土”,“骞”字拆为“寨马”。
2)二十多种非典型上盖形式及其简化:
凡带有“冖”的上包围结构,而不符合本条1)所列①②③三款情况的,例如而不限于“学亮_孛壳牵帚晏荸蒡带薨赍囊鬓薹睿崇璺爱管夤叠”等二十多种上包围结构;对这些上包围结构中的“冖”及其以上部分全部合为一个“盖”对待,键盘输入键符为“]”,以便简化复杂的上盖结构的输入,缩短编码并提高编码识别率。
2.囗和口的区别:
“囗”(方框儿)的内部一定要有东西被完全包围着(被包围的东西全部在框内,不得有任何部分突出框外。例如“田、日”的外包围框就符合“囗”的定义要求),“囗”读作“fang”它的输入键是“f”;
“口”内完全没有东西被包围,或被包围的东西有一部分穿出框外或与框外的部分相连,例如:“曲、中、吕”中的封闭方框,“口”的键码是“o”。
3.四个特殊字:
“赢、羸、蠃、嬴”这四个字的拆字和编码只取前四个结构:“赢”字拆为“亡口月贝”、“羸”字拆为“亡口月羊”、“蠃”字拆为“亡口月女”、“嬴”字拆为“亡口月虫”。
4.戈字无点也作戈:(例如:“尧”字拆为“戈一儿”)
三、键盘的定义和字根的编码工艺:(单字全码共4位)
把拆出的四个子字根(和/或孙字根)按照其键定义转换成键符号(拼音字母或标点符号)即可。键盘的三分区和键定义如下:
1)键盘第一分区,四个象形字母键,所代表的字根对应关系如下表:
2)键盘第二分区,七个象形标点符号键,所代表的字根对应关系如下表:
3)键盘第三分区,22个拼音首字母键,所代表的字根对应关系如下表:
除了i、u、o、v四个象形字母键之外的22个拼音字母键,分别代表相应拼音拼音首字母的字根,例如:s代表“山”、g代表“广”、h代表“火”......,依此类推。
备注:表中各个字母键上的字根有多有少,但各键的使用率是相近的,因为字根数目多的键,其中字根的出现率较低,而字根数目少的键,其中字根的出现率较高。
四、单字的编码规范
活字码,通过使用前述“一、和二、”中的单字拆解规范,把单字拆分成符合前述“三、”中所选字的字根的组合,再根据前述“三、”中的键盘的定义和字根的编码工艺,把拆分单字所得的字根组合中的字根转换成键盘输入符号,使字根的组合转换成键盘输入符号的组合,这种输入符号组合就是单字的输入编码;每个单字的完整的输入编码长度为四个键盘输入符号:为进一步简化编码和提高输入效率,在不构成重码的前提下,部份常用单字仅使用输入编码的前2至3位,构成二级简码字和三级简码字。
五、简码字
由于活字码的编码空间很大,重码率极低,而且大部分常用字不必输入4位全码就已经可以和其它字区别,只要输入1到3个键加空格即可输入,这种现象就称为“简码字”,大量的无重码“简码字”能够极大地提高输入效率。
1.活字码的一级简码字:(共计33个,无重码)
①26个字母键一级简码字助记歌:有个人在为你而长发,他们要的不是我和小经,全口可以平安了!(u=有;v=为;i=以;o=口,其余为拼音首字母所在键分布)
字 | 有 | 个 | 人 | 在 | 为 | 你 | 而 | 长 | 发 | 他 | 们 | 要 | 的 | 不 | 是 | 我 | 和 | 小 | 经 | 全 | 口 | 可 | 以 | 平 | 安 | 了 |
键 | u | g | r | z | v | n | e | c | f | t | m | y | d | b | s | w | H | x | j | q | o | k | i | p | a | l |
②7个笔画键一级简码字助记歌:十年情已一主儿(按第一个子字根所在键符分布):
字 | 十 | 年 | 情 | 已 | 一 | 主 | 儿 |
键 | [ | ‘ | ; | ] | / | . | , |
2.活字码的二级简码字:(共计1044个,无重码)
例如:郑(ge)、把(k])、这(wi)、甜(sg)、苦(ag)等等。
3.活字码的三级简码字:(共计4326个,无重码)
例如:众(rrr)、品(loo)、新(l[j)、溜(.a.)、诚(icv)等等。
4.活字码的全码字:(共计1341个,无重码)
例如:励(ccvl)、振(kcew)、褫(xfxj)、萼(aook)、遍(huai)、巍(shng)等等。
六、特殊符号的编码:
1.活字码能够十分方便地输入200多个特殊符号,用特殊符号的分类和特征的拼音缩写就可以输入相应的特殊符号,例如:
②运算符(ysf??):例如“运算符不大”=ysfbd=“≯”。
⑧罗马数字(szlm?):例如“数字罗马二”=lmszb=“II”。
④圆圈数字(szyc?):例如“数字圆圈三”=szycc=“③”。
⑤中文数字(szzw?):例如“数字中文四”=szzwd=“(四)”。
⑥带点数字(szdd?):例如“数字带点五”=szdde=“5.”。
⑦计量单位(dwf??):例如“单位符KG”=dwfkg=“kg”。
⑧音标符号(ybfh?):例如“音标符号a”=ybtha=“α”。
⑨希腊字母(xlzm?):例如“希腊字母b”=xlzmb=“β”。
⑩几何图型(jht??):例如“几何图三”=shtsa=“▲”。
2.活字码能够十分方便地输入77个偏旁,输入“un”+偏旁的拆解码即可:
例如:un,=_ un;=丨 un.=丶 un/=匚 unv.=マ等等。
3.活字码能够十分方便地查询各键所代表的字根,输入“字根学习”四个字的拼音缩写“zgxx”加上想查的键符即可:
例如:输入“zgxxc”即打出“厂虫寸车巛此川舛充仓亍镸齿长”;输入“zgxx,”即打出“丿月”等等。
第二节、活字码的词组编码规范
一、活字码的通用词组编码规范
(一)活字码的通用词组编码原理
人类语言思维是一种与书写符号无关的过程,人类语言思维过程中最重要而且必不可少的对象是物象,其次是语音(但语音也不是必不可少的,聋哑人不用语音也能够有效地进行语言思维和交流)。众所周知,目不识丁的人并不会在语言思维过程中遇到任何困难,不会写字的慧能和尚也能够创作出“菩提本无树,心镜亦非台,本来无一物,何处惹尘埃。”这样高深的佛偈。假如在写作过程中过多的涉及符号拆解,不仅对写作思维无任何帮助,反而容易干扰和打断思路。
要提高输入效率,关键在于提高词组编码的效率;要在提高编码效率的同时照顾思维过程,最简捷的办法是拼音缩写。但是少字词的拼音缩写的重码率极高(例如:拼音缩写是“hs”的词就有“滑水、混水、湖水、洪水、汗水、浑水、海水、活水、汉水”等等许多个),因此不得不利用形码辅助识别。
活字码对词组采用拼音缩写为主,辅以字根形码的工艺,不仅编码更简便,而且更符合语言思维习惯,重码率也很低,完美的兼顾了提高效率、方便普及、适应思维习惯的需要。
(二)述语符号约定:
AP1:词组中的第一个字的全拼首字母;BP1:词组中的第二个字的全拼首字母;
CP1:词组中的第三个字的全拼首字母;DP1:词组中的第四个字的全拼首字母;
EP1:词组中的最后一个字的全拼首字母;
AG1:词组中的第一个字的第一个字根的键码;
BG1:词组中的第二个字的第一个字根的键码
BG2:词组中的第二个字的第二个字根的键码
(三)活字码的通用词组全码编码规范:(词组全码共5位)
①二字词:AP1+BP1+A1+B1+B2
例如“喜好”的全码为“xhjnz”(喜x好h吉j女n子z)。
②三字词:AP1+BP1+CP1+AG1+BG1
例如“组织部”的全码为“zzbjj”(组z织z部b纟j纟j)。
③四字词:AP1+BP1+CP1+DP1+AG1
例如“皆大欢喜”的全码为“jdhxb”(皆j大d欢h喜x比b)。
④多字词(五个或超过五个字):AP1+BP1+CP1+DP1+EP1
例如“内蒙古自治区”的全码为“nmgzq”(内蒙古自区)。
(四)简码词
由于活字码的词组编码空间很大,而且编码空间的利用率很高,所以词组重码率极低,而且大部分常用词不必输入5位全码,只要输入2到4个键加空格即可输入,这种现象就称为“简码词”,大量的无重码“简码词”能够极大地提高输入效率。
例如:“立刻”的简码为“lk”(立l刻k);“常用”的简码为“cy]”(常c用y盖]);“喜好”的简码为“xhjn”(喜x好h吉j女n);组织部”的简码为“zzbj”(组z织z部b纟j);“皆大欢喜”的简码为“jdhx”(皆j大d欢h喜x);“内蒙古自治区”的简码为“nmgz”(内蒙古自)。
二、活字码的“自定义词组”功能
(一)活字码的“自定义词组”编码原理
活字码的通用词组编码使用拼音缩写加形码识别的编码方式,由于前二位通常只使用了33个输入键中的23个拼音首字母键,所以其编码空间利用率=(23*23)/(33*33)=49%,因此活字码的通用词组编码只能利用全部编码空间中的49%,另有51%的词组编码空间被闲置,这是十分可惜的。另一方面,不同行业的用户对词组有不同的需求,假如包罗万有地提供所有用户可能使用到的任意词组,那么所有用户都会变得不满意,因为要从大量与本行业无关的词组海洋中找出自己想要的词组,这是一件令人厌烦的事,也浪费了电脑的资源。为了方便不同行业用户对词组的不同需求,也为了充分利用活字码的海量编码空间和减少自定义词组与通用词组发生重码的机会,活字码提供了十分方便的纯形码“自定义词组”扩展功能,其规则如下:
(二)述语符号约定:
AG1:词中第一个字的第一个字根的键码;AG2:词中第一个字的第二个字根的键码;
BG1:词中第二个字的第一个字根的键码;BG2:词中第二个字的第二个字根的键码;
CG1:词中第三个字的第一个字根的键码;CG2:词中第三个字的第二个字根的键码;
DG1:词中最后一个字的第一个字根的键码。
(三)活字码的自定义词组编码规范:(自定义词组编码全部统一为4位)
①二字词:AG1+AG2+BG1+BG2,如“重码”的自定义码为“qlsm”(千里石马)。
②三字词:AG1+BG1+CG1+CG2,如“重码率”的自定义码为“qswy”(千石亠幺)。
③多字词(包含四个或超过四个字的词组):AG1+BG1+CG1+DG1,例如“迪士尼乐园”的自定义码为“y[sf”(由十尸囗)
(四)活字码的自定义词组编码追加和调用方法:
活字码的自定义词组编码追加操作,可以在活字码输入法打开的状态下随时直接进行,无须另行进入专门的界面。具体操作方法是:1)同时按一下“Ctrl”键和“~”即可开始输入一个新词;2)逐字输入要追加的一个新词;3)一个新词输入完毕,同时按一下“Ctrl”键和“~”即可结束新词输入,点击“确认”后新词及其编码即可成功追加到输入法码表中,以后如需要使用该自定义词组,按自定义词编码规则输入相应的编码即可。
第三节、活字码的字根
活字码收选字根296个,其中单字字根210个(已经编成歌诀)、偏旁86个,详细定义参见如下各字根表:
一、活字码字根表一:《活字码字根歌》(210单字字根)
广州乃鱼米之乡白云区车水马龙长足虫非同小可甲骨尸大有文章 | 辟穴人言土里气立于青山比良田兆句肖乜吕卜韦门户己见执半目 | 手巾业力不由心分工厂瓦片又干俞此日羽耒者至昔止音夹合少亢 |
吉林鹿角皮毛衣五台千斤黑木耳豆束金果西瓜王关中丰尧雨亦奇 | 元夕召令乍仓氐匕皿欠了几支矛口舌牙齿充寸臼尤其而且吾告示 | 一二三四六七十弋佥禾尚敖亍酉(一至十十数全)(谐音:一签和尚熬出油) |
永世莫亡九幺八鬼子入屯占牛羊歹丁甫女豸犬走(谐音:逮丁俘女猪犬走)正方齐反矢弓刀 | 前圣单戈革辛亥内儿与友回古娄月火舛舟票曷石(谐音:越火穿州漂褐石)川贝鸟旦享它甘 | (注:活字码字根歌不重复,共30句210个字;) |
《活字码字根歌》中的单字字根,直接使用单字的拼音首字母作为输入符号,直观易用,只要读几遍就会有初步的印象,在使用中自然可以牢牢记住,无须死记硬背。
二、活字码字根表二:《活字码15个特殊单字字根一览表》
活字码的210个单字字根中,有6个是少用字,需要特别注意,另有9个特殊单字字根不是直接使用单字的拼音首字母作为输入符号,而是使用符号象形方式定义,详见下表:
编号 | 字根 | 拼音 | 键 | 来源 | 定义方式 | 说明 | 拆分规范 |
1. | 口 | kou | o | 字典 | 象形 | ***口字旁有点象字母o,所以记作o | 冂一 |
2. | 门 | men | u | 字典 | 象形 | ***门冂凵匚因为象大写拼音字母U按不同方向摆放,所以记为u | 丶丨乙 |
3. | 又 | you | v | 字典 | 象形 | ***由于“V”象中文的一折,所以用“V”代表两个折起的高频偏旁,分别是单笔折“乙”和又字旁“又” | 乙丶 |
4. | 豸 | zhi | z | 字典 | 字典 | 古代一种神兽名,也有制止之意,读zhi | 丿丷丿丿 |
5. | 幺 | yao | y | 字典 | 字典 | 表示“一”、“小”等含意,读作腰yao | 乙厶 |
6. | 月 | yue | , | 字典 | 起笔 | ****由于“,”有点象一撇,“,”号代表两个撇起的高频偏旁,分别是单笔撇“丿”和月字旁“月” | 冂二 |
7. | 一 | heng | / | 字典 | 象形 | ****“一”字就是一横,所以用“/”键输入一字或一横 | 一 |
8. | 十 | shi | [ | 字典 | 象形 | ****“+”号键下方的“[”键代表两个十字形的高频偏旁,分别是“十”字旁和“木”字旁 | 一丨 |
9. | 木 | mu | [ | 字典 | 象形 | 十八 | |
10. | 耒 | lei | l | 字典 | 字典 | 耒是一种农具,读垒音lei | 丰八 |
11. | 舛 | chuan | c | 新建 | 字典 | 两人相对而卧之意,读川音chuan | 夕匚丨 |
12. | 亍 | chu | c | 新建 | 字典 | 小步行走之意,读处音chu | 一丁 |
13. | 曷 | he | h | 新建 | 字典 | 什么之意=何,读作何he | 日勹人乙 |
14. | 乜 | mie | m | 新建 | 字典 | 广州方言“什么”的意思,读咩音mie | 乙乙 |
15. | 吕 | lv | l | 新建 | 字典 | 上下两口则成吕(上下两口不一定是对齐的,两口简可以有连线,例如:品、官、追、侣、宫等字中都有“吕”) | 口口 |
三、活字码字根表三:《活字码59个字典标准偏旁一览表》
(备注:这59个字典标准偏旁字根,在《现代汉语词典》的“部首目录”中已有收录。)
编号 | 符号 | 拼音 | 键 | 来源 | 定义方式 | 说明 | 拆分规范 |
1. | 艹 | ai | a | 字典 | 改约 | **艾草头,读作艾ai | 十丨 |
2. | 疒 | bing | b | 字典 | 字典 | 病字旁 | 广冫 |
3. | 巛 | chao | c | 字典 | 改约 | **巢字头,读作巢chuan(字典标准名称为“三拐儿”) | 乙乙乙 |
4. | 夂 | dong | d | 字典 | 字典 | 冬字头,读作冬dong | _丶 |
5. | 彳 | de | d | 字典 | 改约 | **得字旁,读作得de | 丿亻 |
6. | 疋 | dan | d | 字典 | 新约 | *蛋字头读作蛋dan | 乙卜人 |
7. | 阝 | er | e | 字典 | 字典 | 双耳旁,读作耳er | 乙丨 |
所以记为u | |||||||
42. | 钅 | jin | v | 字典 | 象形 | ***字母“V”象一个锋利的刀锋,因此用V代表“锋”字旁“钅” | _二乙 |
43. | 乙 | yi | v | 字典 | 象形 | ***由于“V”象中文的一折,所以用“V”代表两个折起的高频偏旁,分别是单笔折“乙”和又字旁“又” | 乙 |
44. | 亠 | wen | w | 字典 | 新约 | *文字头,读作文wen | 丶一 |
45. | 糸 | wen | w | 字典 | 新约 | *紊字底,读作紊wen | 幺小 |
46. | 隹 | wei | w | 字典 | 新约 | *唯字旁,读作唯wei | 亻丶王一 |
47. | _ | xiao | x | 字典 | 字典 | *当头三点象个倒立的小字,因此读作小xiao | 丨丷 |
48. | 衤 | xiu | x | 字典 | 改约 | **袖字旁,读袖xiu,(字典标准“衣字旁”) | 礻丶 |
49. | _ | xu | x | 字典 | 改约 | **虚字头,读作虚xu,(字典标准“虎字头”) | 卜厂七 |
50. | 尢 | you | y | 字典 | 字典 | 尤字底读尤you | ナ乙 |
51. | 丬 | zhuang | z | 字典 | 改约 | **状字旁,读作状zhuang(字典标准称为“将”字旁) | 冫丨 |
52. | 癶 | deng | d | 字典 | 字典 | 登字头,读作登deng | 乙丶丿八 |
53. | _ | juan | j | 字典 | 字典 | 卷字头,读作卷juan | K大 |
54. | 亻 | ren | , | 字典 | 起笔 | ****单引号’就象上方的一撇,因此代表两个上方一撇起笔的高频偏旁:单人旁“亻”、年字头“_” | 丿丨 |
55. | 丿 | pie | , | 字典 | 象形 | ****由于“,”有点象一撇,“,”号代表两个撇起的高频偏旁,分别是单笔撇“,”和月字旁“月” | 丿 |
56. | 丶 | dian | . | 字典 | 象形 | ****“.”号代表两个点起的高频偏旁,分别是单笔点“.”和三点水“氵”,因为“.”就是一点 | 丶 |
57. | 氵 | shui | . | 字典 | 起笔 | :一 | |
58. | 丨 | shu | ; | 字典 | 象形 | ****“;”键上的四个点排成一竖,所以用“;”键输入两个竖起的高频偏旁,分别是单笔竖“丨”和竖心旁“忄” | 丨 |
59. | 忄 | shuxin | ; | 字典 | 起笔 | 丨八 |
四、活字码字根表四:《活字码27个新建偏旁一览表》
Claims (6)
1.一种汉字电脑键盘输入法编码方案及其键盘使用规范,它包括:①一种把单字按其部件书写的先后顺序,拆分成相应字根组合的工艺规范(以下简称“拆字规范”)、②一套汉字字根形态特征和编码特征的规范(以下简称“字根规范”)、③一种把字根符号转换成电脑键盘符号的编码规范(以下简称“字根编码规范”)、④一种把汉字单字转换成电脑键盘符号的规范(以下简称“单字编码规范”)、⑤一种把汉字词组转换成键盘输入符号的规范(以下简称“词组编码规范”)、⑥一种把特殊文字符号转换成键盘输入符号的规范(以下简称“特殊符号编码规范”)、⑦6763个国标一二级汉字的键盘输入符号的一一对应编码方案(以下简称“单字编码方案”);其特征在于:
1)在前述①的“拆字规范”中,对单字的拆分实行“先粗分,后细分、粗细互补、前后呼应”的“二级解剖拆字工艺”:首先对单字进行一次直观的拆解,假如拆出的子字根数不足4个,则对第一次拆解得出的子字根进行再次分解,取第一个子字根的第一个孙字根作为补充根,假如加上补充字根后的所得字根数仍不足4个,则取第二个子字根的第一个孙字根作为补充根,即可补足4个字根;例如:“克”=“古”+“儿”,第一次拆解所得的字根不足4个(只有2个),则加上“古”的第一个字根“十”,但仍不够4个,则再加上“儿”的第一个字根“丿”,由此得出“克”=“古”+“儿”+“十”+“丿”4个字根;
2)在前述①的“拆字规范”中,对单字的拆分制定的实施规范为:
(1)述语约定:
A=对单字进行直接拆分得出的第一个
子字根;
B=对单字进行直接拆分得出的第二个
子字根;
C=对单字进行直接拆分得出的第三个
子字根;
D=对单字进行直接拆分得出的超过第三个的最后一个
子字根;
Aa=对
子字根A进行拆分得出的第一个
孙字根;
Ba=对
子字根B进行拆分得出的第一个
孙字根;
(2)中文字的三种类型及其拆分规范:
a)单笔画型:由“点横竖撇折”(丶一丨丿乙)五种笔画中的某一种单笔字根组成的单字,不能拆分为更细体的字根,就是用该单笔重复四次表示(拆为A+A+A+A),如“一”(全码是“////”)、“乙”(全码是“vvvv”);
b)二元型:可拆分出二个子字根A和B,不足四个子字根,用孙字根Aa和Ba补够四个,拆为(A+B+Aa+Ba);
c)三元型:可拆分出三个子字根A、B、C,不足四个子字根,用孙字根Aa补够四个,拆为(A+B+C+Aa);
d)四元型:可拆分出四个(或者多于四个)子字根A、B、C、D,拆为(A+B+C+D);
3)在前述①的“拆字规范”中,在单字拆分过程中的局部字根取舍上遵循三项原则:
(1)取高舍低:活字码规定,笔画数多的字根的级别高于笔画数少的字根;为了体现
拆字 的直观性,在多种可选字根中,优先选取其中级别最高的字根;因此,有大字不取小字,有小字不取偏旁,有大偏旁不取小偏旁,有小偏旁不取单笔画;超过四个组件的字,最后一个字根有大取大,尽可能取更多的笔画结构而尽可能不取较少的笔画的字根或单笔画的字,例如:“鹿、广、
米”都是活字码承认的字根,“麋”字应拆为“鹿+米”而非“广+
+
+米”;“木”和“林”都是活字码承认的字根,“梵”字应拆为“林凡”而非“木木凡”;“丅”和“丨”都是活字码承认的字根,“隔”应字拆为“阝一口丅”而非“阝一口丨”,因为“丅”的笔画比“丨”多;又如,“丿”和“彡”都是活字码承认的字根,穆字拆为“禾白小彡”,而不拆为“禾白少丿”;因为“彡”是多笔画字根,而“丿”是单笔画字根,前一种拆法的字根总体级别较后者高,故选择前者;
(2)取连舍断:活字码规定,连笔字根的级别高于散笔字根,对于连接的成字结构,取其中最大的连笔字,而不因局部的书写顺序的先后而拆散它;如:“禾、千、彐、八”都是活字码的字根,“秉”字应拆为“禾+彐”,而不拆为“千+彐+八”;同理,“天”字和“夫”字,都拆为“一大”,而不拆为“二人”,因为“二”字是散笔字,而“大”是连笔字,故优先取用有“大”字根的方案,同理,“干”字,拆为“一十”,而不拆为“二丨”;“或”字拆为“戈口一”,而不拆为“一口一丶”;
(3)取少舍多:能够拆成较少个数的字根,不拆成较多个数的字根;例如:“秉”字拆为“禾+彐”,而不拆为“千+彐+八”;又如“董”字,拆为“艹千里”而不拆为“艹千日二”;“方”拆为“广乙”而不拆为“亠丿乙”;
4)在前述①的“拆字规范”中,当“局部取舍三项原则”与单字的书写顺序有矛盾时,字根在的总体出现顺序上服从书写顺序;在局部字根的选择上服从“局部取舍三项原则”;
5)在前述①的“拆字规范”中,包含对汉字上包围结构的简化规范,
(1)三种典型上盖形式及其简化:
a)“空”型盖:文字中含有“宀”,“宀”上面没有其他结构,“宀”下面没有八、井等结构,读作kong“空”盖头(就是传统上称为“宝盖头”的偏旁,例如:“宿宅宪宣定富”等字的上盖);
b)“穴”型盖:凡上“宀”下“八”的上包围结构,全部合作一个“穴”对待(宀上面没有其他结构,例如:“空窜突容穿窄窥究穷窝窃窒”等字的上盖);例如“空”字拆为“穴工”;
c)“寨”型盖:凡有“寨”字中木字以上部分的“宀井一八”上包围结构,“宀井一八”及其以上部分全部合为一个“寨”字头对待(读zhai);如“塞”字拆为“寨土”,“骞”字拆为“寨马”;
(2)二十多种非典型上盖形式及其简化:凡带有“冖”的上包围结构,而不符合本条(1)所列a)b)c)三种情况的,例如而不限于“学亮
孛壳牵帚晏荸蒡带薨赍囊鬓薹睿崇璺爱管夤叠”等二十多种上包围结构;对这些上包围结构中的“冖”及其以上部分全部合为一个“盖”对待,键盘输入键符为“]”,以便简化复杂的上盖结构的输入,缩短编码并提高编码识别率;
6)在前述①的“拆字规范”中,对字根“囗”和字根“口”的区别定义为:“囗”内一定要有东西被完全包围着(被包围的东西全部在框内,不得有任何部分突出框外;例如“田、日”的外包围框就符合“囗”的定义要求),“囗”读作“fang”它的输入键是“f”(方框儿),“口”内完全没有东西被包围,或被包围的东西有一部分穿出框外或与框外的部分相连,例如:“曲、中、吕”中的封闭方框就符合“口”的定义要求,“口”的键码是“o”;
7)在前述①的“拆字规范”中,规定对“赢、羸、蠃、嬴”这四个字的拆字和编码只取前四个结构:“赢”字拆为“亡口月贝”、“羸”字拆为“亡口月羊”、“蠃”字拆为“亡口月女”、“嬴”字拆为“亡口月虫”;
8)在前述①的“拆字规范”中,规定不带右上一点,其余特征和“戈”相同的字根按与“戈”字根同等处理(例如:“尧”字拆为“戈一儿”);
9)在前述②的“字根规范”中,包含对296个字根的形态特征和编码特征的定义如下:
(1)“字根规范”包含210个单字字根,这些字根被编成工整的《活字码单字字根歌》
广州乃鱼米之乡白云区车水马龙长足虫非同小可甲骨尸大有文章
辟穴人言土里气立于青山比良田兆句肖乜吕卜韦门户己见执半目
手巾业力不由心分工厂瓦片又干俞此日羽耒者至昔止音夹合少亢
吉林鹿角皮毛衣五台千斤黑木耳豆束金果西瓜王关中丰尧雨亦奇
元夕召令乍仓氐匕皿欠了几支矛口舌牙齿充寸臼尤其而且吾告示
一二三四六七十弋佥禾尚敖亍酉(一至十,十数全)(谐音:一签和尚熬出油)
永世莫亡九幺八鬼子入屯占牛羊歹丁甫女豸犬走(谐音:逮丁俘女猪犬走)正方齐反矢弓刀
前圣单戈革辛亥内儿与友回古娄月火舛舟票曷石(谐音:越火穿州漂褐石)川贝鸟旦享它甘 (注:活字码字根歌不重复,共30句210个字;)
(2)“字根规范”所包含的210个单字字根中,有195个单字字根,直接使用单字的拼音首字母作为输入符号,直观易用;有6个是少用字,需要特别注意;另有9个特殊单字字根不是直接使用单字的拼音首字母作为输入符号,而是使用符号象形方式定义,详见下表:《活字码15个特殊单字字根一览表》
编号
字根
拼音
键
来源
定义方式
说明
拆分规范
1.
口
kou
o
字典
象形
***口字旁有点象字母o,所以记作o
冂一
2.
门
men
u
字典
象形
***门冂凵匚因为象大写拼音字母U按不同方向摆放,所以记为u
丶丨乙
3.
又
you
v
字典
象形
***由于“V”象中文的一折,所以用“V”代表两个折起的高频偏旁,分别是单笔折“乙”和又字旁“又”
乙丶
4.
豸
zhi
z
字典
字典
古代一种神兽名,也有制止之意,读zhi
丿丷丿丿
5.
幺
yao
y
字典
字典
表示“一”、“小”等含意,读作腰yao
乙厶
6.
月
yue
,
字典
起笔
****由于“,”有点象一撇,“,”号代表两个撇起的高频偏旁,分别是单笔撇“丿”和月字旁“月”
冂二
7.
一
heng
/
字典
象形
****“一”字就是一横,所以用“/”键输入一字或一横
一
8.
十
shi
[
字典
象形
****“+”号键下方的“[”键代表两个十字形的高频偏旁,分别是“十”字旁和“木”字旁
一丨
9.
木
mu
[
字典
象形
十八
10.
耒
lei
l
字典
字典
耒是一种农具,读垒音lei
丰八
11.
舛
chuan
c
新建
字典
两人相对而卧之意,读川音chuan
夕匚丨
12. 亍 chu c 新建 字典 小步行走之意,读处音chu
一丁
13.
曷
he
h
新建
字典
什么之意=何,读作何he
日勹人乙
14.
乜
mie
m
新建
字典
广州方言“什么”的意思,读咩音mie
乙乙
15. 吕 lv l 新建 字典
上下两口则成吕(上下两口不一定是对齐的,两口简可以有连线,例如:品、官、追、侣、宫等字中都有“吕”)
口口
(3)“字根规范”中有59个字根,在《现代汉语词典》的“部首目录”中已有收录:
编号
符号
拼音
键
来源
定义方式
说明
拆分规范
1.
艹
ai
a
字典
改约
**艾草头,读作艾ai
十丨
2.
疒
bing
b
字典
字典
病字旁
广冫
3.
巛
chao
c
字典
改约
**巢字头,读作巢chuan(字典标准名称为
乙乙乙
“三拐儿”)
4.
夂
dong
d
字典
字典
冬字头,读作冬dong
_丶
5.
彳
de
d
字典
改约
**得字旁,读作得de
丿亻
6.
疋
dan
d
字典
新约
*蛋字头读作蛋dan
乙卜人
7.
阝
er
e
字典
字典
双耳旁,读作耳er
乙丨
8.
彐
e
e
字典
象形
***雪字底,因为象个反置的拼音大写字母E,所以记作e
乙二
9.
_
e
e
字典
新约
*厄字底,读作厄e
乙乙
10.
饣
er
e
字典
改约
**饿字左旁读作饿e
_乙
11.
卩
er
e
字典
字典
单耳字旁,读作耳er
乙丨
12.
囗
fang
f
字典
字典
方匡儿,读作方面军fang
冂一
13.
攵
fan
f
字典
字典
反文旁,读作反fan
_义
14.
犭
fan
f
字典
字典
反犬旁读作反fan
丿乙丿
15.
髟
fa
f
字典
新约
*繁体字髪(发)的字头,读发fa
镸彡
16. 豕 hui h 字典
单字旁用
***“喙”字底,读作“hui”,记作h,(注:该字原意是一种家畜,原读shi)
厂乙丿八
17. 讠 i i 字典 象形 ****“讠”和“辶”在外形上象个拼音小写字母“i” 丶乙
18. 辶 i i 字典 象形 ****“讠”和“辶”在外形上象个拼音小写字母“i” 丶乙
19.
爫
i
i
字典
字母近音
****是爱字的头顶结构,因为字母i和汉语“爱”同音,所以记作i
丿丶丷
20. 纟 jiao j 字典
字典
绞丝旁
乙乙一
21. 廴 jian j 字典 字典
建字底,读作jian
乙丶
22.
扌
kong
k
字典
改约
**控字旁,读作控kong
十一
23.
宀
kong
k
字典
改约
**空字头,读作空kong,(字典标准名称为宝盖头)
丶盖
24.
刂
ke
k
字典
改约
**刻刀旁,读作刻ke
丨丨
25.
冫
liang
l
字典
字典
凉字旁/两点水(例如:次冷准),读作凉
丶一
26.
_
mian
m
字典
新约
*免字头读免mian
丿乙
27.
厶
neng
n
字典
改约
**能字头,读作能neng,(字典标准名称为私字旁)
乙丶
28.
廾
nong
n
字典
字典
弄字底,读作弄nong
ナ丨
29.
丷
pu
p
字典
新约
*普字头
丶丿
30.
勹
pu
p
字典
改约
**匋字头,读作匋pu(字典标准称为包字头)
丿乙
31.
_ pian p
字典
改约
**篇字头,读作篇pian(字典标准“竹字头”)
_丶_丶
32.
灬
peng
p
字典
改约
**烹字底,读作烹pang(字典标准“四点儿”)
丶丶丶丶
33. 彡 pie p 字典 字典 字典标准名“三撇儿”,读作撇pie 丿丿丿
34.
礻
qi q 字典 改约 *祈字旁读作qi 丶乙丨丶
35.
氺
qiu
q
字典
新约
*求字底读求qiu
丨 冫八
36.
缶
que
q
字典
改约
**缺字旁读缺que,(原字读fou3,一种有盖
_十凵
(4)“字根规范”中有27个新建偏旁字根,是《现代汉语词典》的“部首目录”未收录的:
10)在前述③的“字根编码规范”中,把字根符号转换成电脑键盘符号的编码规范为,把拆分每一个单字所得的四个字根按照其键定义转换成相应的键符号(拼音字母或标点符号)即可;键盘的分区和键定义如下:
(1)键盘第一分区,包含四个象形字母键,所代表的字根对应关系如下表:
(2)键盘第二分区,包含七个象形标点符号键,所代表的字根对应关系如下表:
(3)键盘第三分区,笔含22个拼音首字母键,所代表的字根对应关系如下表:
备注:除了I、U、O、V四个象形字母键之外的22个拼音字母键,分别代表相应拼音拼音首字母的字根,例如:S代表“山”、G代表“广”、H代表“火”…,依此类推;表中各个字母键上的字根有多有少,但各键的使用率是相近的,因为字根数目多的键,其中字根的出现率较低,而字根数目少的键,其中字根的出现率较高;
11)在前述④的“单字编码规范”中,通过使用前述④的“拆字规范”,把单字拆分成符合前述②的“字根规范”的字根组合,再根据前述③的“字根编码规范”,把拆分单字所得的字根组合中的字根转换成键盘输入符号,使字根组合转换成键盘输入符号组合,这种输入符号组合就是单字的输入编码;每个单字的完整的输入编码长度为四个键盘输入符号;为进一步简化编码和提高输入效率,在不构成重码的前提下,部份常用单字仅使用输入编码的前2至3位,构成二级简码字和三级简码字;
12)在前述⑤的“词组编码规范”中,对适用于各行各业的汉字通用词组,采用了“以拼音缩写为主,辅以字根形码识别”的词组编码工艺,其规范表述为:
(1)述语符号约定:
AP1:词组中的第一个字的全拼首字母;BP1:词组中的第二个字的全拼首字母;
CP1:词组中的第三个字的全拼首字母;DP1:词组中的第四个字的全拼首字母;
EP1:词组中的最后一个字的全拼首字母;
AG1:词组中的第一个字的第一个字根的键码;
BG1:词组中的第二个字的第一个字根的键码
BG2:词组中的第二个字的第二个字根的键码
(2)通用词组全码编码规范:(词组全码共5位)
①二字词:AP1+BP1+A1+B1+B2
例如“喜好”的全码为“xhjnz”(喜x好h吉j女n子z);
②三字词:AP1+BP1+CP1+AG1+BG1
例如“组织部”的全码为“zzbjj”(组z织z部b纟j纟j);
③四字词:AP1+BP1+CP1+DP1+AG1
例如“皆大欢喜”的全码为“jdhxb”(皆j大d欢h喜x比b);
④多字词(五个或超过五个字):AP1+BP1+CP1+DP1+EP1
例如“内蒙古自治区”的全码为“nmgzq”(内蒙古自区);
(3)通用简码词
完整的活字码通用词组编码包含5个键盘输入符号,为了简化编码和提高输入效率,在不增加重码的前提下,活字码有大量的常用词不必输入5位完整的输入编码,只要输入2到4个键加空格即可输入,这种现象就称为“简码词”,大量的无重码“简码词”能够极大地提高输入效率;
例如:“立刻”的简码为“lk”(立l刻k);“常用”的简码为“cy]”(常c用y盖]);“喜好”的简码为“xhjn”(喜x好h吉j女n);组织部”的简码为“zzbj”(组z织z部b纟j);“皆大欢喜”的简码为“jdhx”(皆j大d欢h喜x);“内蒙古自治区”的简码为“nmgz”(内蒙古自);
13)在前述⑤的“词组编码规范”中,对只适用于特定行业的汉字专用词组称为“自定义词组”,对“自定义词组”的编码规范为:
(1)述语符号约定:
AG1:词中第一个字的第一个字根的键码;AG2:词中第一个字的第二个字根的键码;
BG1:词中第二个字的第一个字根的键码;BG2:词中第二个字的第二个字根的键码;
CG1:词中第三个字的第一个字根的键码;CG2:词中第三个字的第二个字根的键码;
DG1:词中最后一个字的第一个字根的键码;
(2)活字码的自定义词组编码规范:(自定义词组编码全部统一为4位)
①二字词:AG1+AG2+BG1+BG2,如“重码”的自定义码为“qlsm”(千里石马);
②三字词:AG1+BG1+CG1+CG2,如“重码率”的自定义码为“qswy”(千石亠幺);
③多字词(包含四个或超过四个字的词组):AG1+BG1+CG1+DG1,例如“迪士尼乐园”的自定义码为“y[sf”(由十尸囗)
14)在前述⑥的“特殊符号编码规范”中,对箭头符、运算符、罗马数字、圆圈数字、中文数字、带点数字、计量单位、音标符号、希腊字母、几何图型等十类常用的非汉字符号的输入编码为:用特殊符号的分类和特征的拼音缩写即可输入相应的特殊符号,例如:
①箭头符(jtf??):例如“箭头符左上”=jtfzs=
②运算符(ysf??):例如“运算符不大”=ysfbd“≯”;
③罗马数字(szlm?):例如“数字罗马二”=lmszb=“II”;
④圆圈数字(szyc?):例如“数字圆圈三”=szycc=“③”;
⑤中文数字(szzw?):例如“数字中文四”=szzwd=“(四)”;
⑥带点数字(szdd?):例如“数字带点五”=szdde=“5.”;
⑦计量单位(dwf??):例如“单位符KG”=dwfkg=“kg”;
⑧音标符号(ybfh?):例如“音标符号q”=ybfhq=“θ”;
⑨希腊字母(xlzm?):例如“希腊字母b”=xlzmb=“β”;
⑩几何图型(jht??):例如“几何图三”=shtsa=“▲”;
15)在前述⑥的“特殊符号编码规范”中,对汉字偏旁符号的编码规范为:输入“un”+该偏旁的拆解码即可:例如:un,,,=彡、un;=丨、un.=丶、un/,=ナ、unv.=マ,等等;
16)在前述⑥的“特殊符号编码规范”中,能够十分方便地查询各键所代表的字根,输入“字根学习”四个字的拼音缩写“zgxx”加上想查的键符即可:例如:输入“zgxxc”即打出“厂虫寸车巛此川舛充仓亍镸齿长”;输入“zgxx,”即打出“丿月”等等;
2.根据权利要求1所述的“②一套汉字字根形态特征和编码特征的规范”(以下简称“字根规范”),其特征在于,“字根规范”所选用的字根,是运用“择高录取、大小兼收、繁简互补、各键使用率均衡”的选根工艺而选定,其实施步骤为:
1)为确保字根的代表性和实用性,首先按照“择高录取”的原则,根据字根在6763个一二级国标字的构成中重复出现次数的多少,初选了其中重复出现的次数最多的300个单字字根;然后运用“大小兼收、繁简互补”的选根工艺,通过对这300个单字字根的拆解分析,初选了100个高频偏旁,由此首批共初选出400个字根,这样兼采结构复杂的多笔画字根和结构简单的少笔画字根,两类字根取长补短互相呼应,就可以协同对文字形态作出简洁有效的描述;
2)在初选出首批400个字根后,通过对这些字根与6763个一二级国标汉字的书写结构的对应关系所作的统计和试验发现,使用率最高的前276个字根,已经能够全部解决6763个一二级国标字的编码表达,如减少这276个字根中的一部分字根,则编码的简洁性就会变差,如继续增加别的新字根,则新字根的利用率较低,实际作用不大,却白白增加了用户的记忆量,因此,活字码选择了这276个字根作为建立初步编码方案的基本字根,除此以外,除非有利于显著提高编码系统的整体性能,否则不再随便增加字根数量;
3)运用“各键使用率均衡”的选根工艺,通过对使用276个基本字根建立的初步编码方案进行的二十多次改进,共计增加了20个补充字根,并对部分字根的读音加以变通调整,以平衡键盘各键的使用率,提高键盘的总体利用效率,由此,活字码最终选定字根296个。
3.根据权利要求1所述的“③一种把字根符号转换成电脑键盘符号的编码规范”(以下简称“字根编码规范”),其特征在于,“字根编码规范”运用了“字根互补性搭配工艺”对不同的字根进行适当的互补性搭配编组,把在编码中的不同位置的出现率高低具有互补性的不同字根,放在同一个键上输入,从而显著提高了每一个键盘符号的编码空间的利用率,大大减少重码机会并使编码更为简洁;例如:以活字码的33个输入键符号在编码总表中的的平均出现率为100%计算,字根“十”在编码总表中的分布为:第1位21%,第2位35%,第3位162%、第4位256%;字根“木”在编码总表中的分布为:1位113%,2位32%,3位36%,4位17%;显然这两个字根在不同码位上的分布具有互补性;因此在活字码中这两个字根被安排在同一个键上,成为一对互补字根组,这个就键是“[”。
4.根据权利要求1所述的“③一种把字根符号转换成电脑键盘符号的编码规范”(以下简称“字根编码规范”),其特征在于,“字根编码规范”运用了“键盘使用频率均衡分配工艺”:就是在字根与键盘符号的搭配归类过程中,尽可能使各个键盘符号承担的字根输入使用率接近各个键盘符号的平均水平;例如:“口”是一个使用率很高的字根,“口”字根如果放在“o”键上输入,那么“o”键的使用率就已经高于a~z和,./;’[]等33个键的平均使用率,因此“o”键上不适宜再安排“口”以外的其他字根的输入,所以活字码中“o”键上只有“口”一个字根;又如:“_”字根,通俗上称为“竹字头”,按照活字码的拼音首字母定义法,“_”字根应当放在“z”键上输入,但由于“z”键上已经有很多字根,除了“_”之外的己被归入“z”键的字根的使用率已经超过各键的平均使用率,所以活字码把“_”字根,改称为“篇字头”,把它放在使用率较低的“p”键上,这样“z”键和“p”键的使用率都趋于各键的平均使用率水平。
5.根据权利要求1所述的“③一种把字根符号转换成电脑键盘符号的编码规范”(以下简称“字根编码规范”),其特征在于,“字根编码规范”利用了汉字偏旁的多音性灵活调整字根定义,合理有据地开发出既有利于编码效率的提高,又有利于快速记忆的偏旁编码定义方案;例如:高频字根“艹”可以称为“草字头”而读作“cao”,输入符定义为“c”,也可以称为“艾字头”而读作“ai”,输入符定义为“a”;由于用“c”键输入的字根已经很多,“c”键的使用率本来就已经超过各输入键的平均使用率,再把“艹”放在“c”键上输入,势必造成大量的重码字出现,而用“a”输入的字根却很少,“a”键的使用率远远低于各输入键的平均使用率水平,因此活字码把高频字根“艹”称为“艾字头”而读作“ai”,输入符定义为“a”,用“a”键输入。
6.根据权利要求1所述的“⑦6763个国标一二级汉字的键盘输入符号的一一对应编码方案”,其特征在于,它是遵照权利要求1所述的“④一种把汉字单字转换成电脑键盘符号的规范”而建立,包含6763个国标一二级汉字及其键盘输入符号编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410027961 CN1609765B (zh) | 2004-07-09 | 2004-07-09 | 活字码中文字根输入法及其键盘 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410027961 CN1609765B (zh) | 2004-07-09 | 2004-07-09 | 活字码中文字根输入法及其键盘 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1609765A true CN1609765A (zh) | 2005-04-27 |
CN1609765B CN1609765B (zh) | 2011-11-09 |
Family
ID=34763398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410027961 Expired - Fee Related CN1609765B (zh) | 2004-07-09 | 2004-07-09 | 活字码中文字根输入法及其键盘 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1609765B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100361055C (zh) * | 2006-01-13 | 2008-01-09 | 任典毅 | 一种汉字编码输入法 |
CN103970287B (zh) * | 2014-03-19 | 2018-08-31 | 刘伊翰 | 字组字中文输入法及其字根键盘 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1258033A (zh) * | 1998-12-24 | 2000-06-28 | 江毅 | 汉字字根键盘输入法及键盘 |
-
2004
- 2004-07-09 CN CN 200410027961 patent/CN1609765B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100361055C (zh) * | 2006-01-13 | 2008-01-09 | 任典毅 | 一种汉字编码输入法 |
CN103970287B (zh) * | 2014-03-19 | 2018-08-31 | 刘伊翰 | 字组字中文输入法及其字根键盘 |
Also Published As
Publication number | Publication date |
---|---|
CN1609765B (zh) | 2011-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN85101817A (zh) | 安子介式汉字笔形电脑编码法及其键盘 | |
CN1609765A (zh) | 活字码中文字根输入法及其键盘 | |
CN1031302C (zh) | 汉字部首分类编码输入方法 | |
CN1045021C (zh) | 中文数码电脑汉字输入法及其键盘 | |
CN100351754C (zh) | 计算机、掌上电脑、手机、电话机“线符五笔法”的输入方法 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1604017A (zh) | 基于一健一字的汉字特征定位编码复合输入方法 | |
CN1180337C (zh) | 计算机象形码汉字输入法 | |
CN1020052C (zh) | 形元汉字信息处理方法及其键盘 | |
CN1026197C (zh) | 一种英文字母编码的计算机汉字输入方法 | |
CN1081355C (zh) | 三音码计算机汉字输入方法及其键盘 | |
CN1073248C (zh) | 几何母根编码的计算机汉字输入方法 | |
CN1815418A (zh) | 基于中文字母方式描述汉字轮廓特征的多元编码方法 | |
CN1025896C (zh) | 新概念编码计算机汉字输入键盘 | |
CN1228705C (zh) | 按汉字构件定位取码的计算机汉字输入法 | |
CN1169040C (zh) | 一种电脑汉字输入法 | |
CN1054447C (zh) | 计算机汉字输入坐标码编码方法 | |
CN1417674A (zh) | 汉语音节双读方案和汉语键盘及其信息输入处理方法 | |
CN1043209A (zh) | 计算机汉字处理方法 | |
CN1081354C (zh) | 一笔字形字词无重码输入法 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1289078A (zh) | 拼音汉字无重声调码和键盘设计方法与方案 | |
CN1108774A (zh) | 以词为单位的音形意汉字编码及中西文兼容键盘 | |
CN1186976A (zh) | 计算机汉字八四码输入法及键盘 | |
CN1387106A (zh) | 一种汉字拼音语言文字编码方法及其键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice |
Addressee: Liu Yihan Document name: Notification of Approving Refund |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111109 Termination date: 20170709 |