CN1327187A

CN1327187A - 二级音码输入法

Info

Publication number: CN1327187A
Application number: CN 01115166
Authority: CN
Inventors: 张�林
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-07-25
Filing date: 2001-07-25
Publication date: 2001-12-19

Abstract

本发明是一种二级音码输入法,其特征在于将汉字按照汉字笔划组合的先后次序拆分为5种字根中的一种或一种以上,优先拆分出最先形成的笔划较多的字根,并且优先拆分出数量最少的字根;当字根数不足四个时,再取一级拆分中的末字根进行二级拆分补足4个字根,一级拆分中可以拆出4个以上(含4个)字根的,不再进行二级拆分;对选取的四个字根各取其发音的第一个声母(没有声母的取其第一个韵母)作为编码元,码位安排在与计算机键盘英文字母相同的键位上;它具有拆分汉字和词组符合汉字发音规律、书写顺序及拆分习惯,拆分出的字根为认识率极高的常用字,易学易记解决了初识汉字者因识汉字较少不能输入的问题,简繁体输入方便,重码率低,便于初识汉字者应用。

Description

二级音码输入法

技术领域

本发明属于汉字编码方案，特别是涉及可应用于计算机输入的汉字编码方案。

背景技术

经过许多专家的努力，以汉字拆分加拼音输入、汉字直接拼音输入、汉字智能拼音输入三种类型为主的音码输入法，以其易学易记受到人们的喜爱。但是，纵观比较流行的几种音码输入法，具有以下几种缺陷：一是有的重码较多，致使输入速度慢(如全拼输入法)。二是有的不识此字不能输入或输入困难，如输入“羲”字，要求首先或最后输入该字的第一个声母，起到的是识别码的作用，如果不识此字则不能输入。虽然有的输入法设计了万能码输入，但又造成了大量的重码产生。特别是面对两万多个汉字时，其缺陷是严重的(如声码输入法)。三是对生僻字界定、编码不科学。生僻字是指书面语言中不常用的字。但具体到哪一个字是生僻字，则因每个人的文化程度不同而有很大的差异。有的输入法要求对生僻字查字典解决(如声码输入法)；有的对大量的生僻字增加“次码”(如钱码输入法)，拆分和编码秩序混乱，难以掌握。四是拆分编码既取音又取字的结构，两种拆分编码方法混用，增加了记忆负担和编码难度(如太空码)。五是拆分不符合笔顺规范，集中表现在对有“口、戈、心、匚”的拆分上(如钱码)。

发明内容

本发明的目的是提供一种二级音码输入法，它具有拆分汉字和词组符合汉字发音规律、书写顺序及拆分习惯，拆分出的字根为认识率极高的常用字，易学易记，简繁体输入方便，重码率低，便于初识汉字者在计算机上应用。

本发明的目的是采用如下技术方案来实现：字或词的输入方式为四位码元组成，先将汉字拆分为字根(包括在GB18030——2000编码字符集基本集的扩充中的所有的字)，使拆分出的字根为输入者能认识的范围，然后用字根的拼音首个声母(或韵母)作为输入码元。其中拆分的字根划分为基本字根、常用字根、非常用字根、借音字根、变体字根5种类型。

1、基本字根是指基本笔划“一(横)、丨(直)、丿(撇)、丶(点)、乛(折)”及其变体；

2、常用字根是根据GB2312—80中对一级字和二级字的划分，把一级字中具有字根作用的字(包括下级字中的“乂、厶、豸、幺”4个字)规定为常用字根；

3、非常用字根是指除常用字根之外其它所有的具有字根作用的字(包括GB18030——2000中的字)；

4、借音字根是指对常用的偏旁部首借一个约定俗成或形象易记的字为其取音而形成的字根，共79个；

5、变体字根一是指笔划数目相同只是笔划长短或位置发生小的变化形成的直观性较强的字根，二是指16类特定的笔划数目相同但笔划发生较大变化形成的直观性较强的字根。

字或词组的拆分规则如下：

1、拆分要求：为“按笔顺拆分，取大优先，取少优先”。按照汉字笔划排列组合的先后次序，优先选取最先形成的笔划较多的字根，优先选取字根数量最少的拆分方案。字的拆分以取大和取少二者的最佳结合为正确。

2、拆分步骤：“先进行一级拆分再进行二级拆分”。一级拆分是指按照拆分规则对单字进行的首次拆分；二级拆分是指按照编码需要和拆分规则对一级拆分的末字根进行的再拆分。其中对单字在一级拆分中可以拆分出2—3个笔划最多的字根的，再取一级拆分中的末字根进行二级拆分；当一级拆分的字根数不足四个时，拆分出的末字根又是基本字根的，二级拆分中按此字根补足4个字根；当一级拆分中可以拆出4个以上(含4个)字根的，不再进行二级拆分。同时对含有“匚、必”字根的字设立容错拆分。

3、对非常用字根设计了两套拆分取码方案，一是按非常用字根整体取码，二是不按非常用字根对待，而是拆成输入者易识的其它字根后取码。

4、多音字根按其不同发音取码。

5、按照单字和词组选取4个字根的要求进行字根选取：单字取1、2、3、末字根；2字词组各取字的前2个字根；3字词组取第一字的前2个字根和2、3字的第一个字根；4字词组各取每字的第一个字根：4字以上词组取前3字和末字的第一个字根。

6、对选取的字根各取其发音的第一个声母(没有声母的取其第一个韵母)编码，其中对基本字根(笔划)“一”的编码为hhhh、“丨”的编码为ssss、“丿”的编码为pppp、“、”的编码为此dddd、“乛”的编码为zzzz。

7、设立学习(提示)栏，提示字、词输入，特别是重码的个别字、词可按提示输入编码或按数字键选择。利用学习(提示)栏，可以学习二级音码输入法。

8、码位安排在与计算机键盘英文字母相同的键位上。

本发明的优点是科学严谨，便于推广；它拆分汉字和词组规范、统一，符合汉字发音规律和书写顺序，符合日常生活中人们拆分汉字的习惯，使百分之八十以上的汉字(GB 18030-2000汉字编码字符集)可以在一级拆分中拆分出2至3个笔划最多的字根的实际情况，充分利用了一级拆分中末个字根在人们大脑中留下的信息，符合人们的记忆习惯，易学易记，解决了初识汉字者因识汉字较少不能输入的问题，适应文化程度不同人的需要，便于汉字在全球的推广使用；简繁体输入方便，也适应海内外华人的需要，输入速度快；重码率低，单字输入不超过百分之四，字词混输不超过百分之一，便于在计算机上推广。

具体实施方案一、字根

本输入法把字根划分为基本字根、常用字根、非常用字根、借音字根、变体字根五种类型。1、基本字根。汉字结构复杂，但都是由横(一、

)、竖(丨、亅)撇(丿、

丿)点(丶、)折(乛、

、、、、レ、ㄑ、

フ)5种基本笔划组成，其中向左方向运笔的“

”划入撇的范畴。我们把这五种基本笔划(包括变体)称为基本字根。

2、常用字根。我们把GB2312—80选取的一级汉字中能够作为字根使用的字(包括二级字中的“乂、厶、豸、幺”4个字)称为常用字根。虽然汉字的数量非常庞大，GB18030—2000收入汉字20900余个，但是在日常生活中，常用的汉字是有限的。《毛泽东选集》一至四卷，总字数超过10万字，用到的汉字数仅为2413个。在GB2312—80中，共选取6763个汉字，其中一级汉字3755个，二级汉字3008个。3755个一级汉字，是人们运用最广泛的汉字，累计使用频度达到了百分之九十九点九。在这些一级汉字中，能够作为字根使用的，绝大多数是初中文化程度的人完全能够掌握的。如人、口、山、丁、大等字。同时，我们把二级汉字中使用特别频繁的“乂、厶、豸、幺”4个字划入常用字根的范畴，这是需要特殊记忆的。

3、非常用字根。常用字根以外能够作为字根使用的汉字称之为非常用字根。由于非常用字根中的多数不经常使用，就绝大多数人而言，已经没有记忆的必要。但是具体到每一个人，认识的汉字数量差异是很大的。如廿、耒、亍、豕、圭等字，不对这些非常用字根作特殊处理，同样会对文化程度较高的人的汉字输入带来困难。

4、借音字根。根据《现代汉语词典》(1996年修订第3版)中的《汉语偏旁名称表》，优选部分常用的偏旁，增加部分使用频繁且不便拆分的偏旁，在约定俗成的发音或在形象易记的字中，借用一个发音字为其发音。我们称这样的偏旁为借音字根。共有79个：纟、糹(丝)

(水)饣、飠(食)礻(示)マ(厶)镸(肆)彐、

彑、

(山)衤、

(衣)讠(言)

(象)忄(心)灬、氵、

、冫、、丷、

(点) (段)癶(登)刂、

(刀)犭(犬)(青)艹(草)

(春)疒(病)勹(包)

(匕)(足)、

(竹)廴、辶(之)夂(条)扌(提)廾(弄)

(祭)

(卷)钅(金)丬、爿(将)冖、宀(盖)(光)(看)凵、匚、冂、コ、 、(框)攵、、亠(文) (卯) (母)亻、彳(人) (巴)卩、阝(耳)(虎)(皮) (反) (零)。

这些借音字根，多数是我们平时约定俗成的发音，需要记忆的很少。

5、变体字根。我们规定为两类：

一类是笔划数目相同只是笔划的长短、位置发生小的变化形成的直观性较强的变体字根。如：儿(规)、麻(摩)、樊(攀)、府(腐)、莫(幕)、(拜)、夂(发、处)、艹(其、甘)、扌(我)、日(日)、卩(卫、报)、廾(井、讲)、厶(瓜)、

(夕、欠、尔、你)，“框”类，包括身、凹、东、车、磷、亡、决等。

二类是以下16种笔划数目相同但是笔划发生较大变化形成的直观性较强的变体字根：

(1)“一”的变体。如：土(地)鱼(鲜)牛(物)二(北)

(2)“”的变体。如：己(改)屯(顿)亡(望)

(3)“又”的变体。如：邓、双

(4)“八”的变体。如：穴(空)八(兵、办)兴(誉)

(5)“人”的变体。如：从、丛、规

(6)“亦”的变体。如：变

(7)“井”的变体。如：赛、塞

(8)“儿”的变体。如：西(要)四(罢、黑、柬)

(9)“雨”的变体。如：霎、震

(10)“月”的变体。如：胃、骨

(11)“小”的变体。如：尘、敝、炒

(12)“几”的变体。如：朵、垛

(13)“习”的变体。如：羽(鰼)

(14)“看”的变体。如：看(着)

(15)“下”的变体。如：定、疑

(16)“斤”的变体。如：丘

对这些变体字根不用死记硬背，实践中注意观察掌握很快就会熟悉。

二、拆分规则

1、拆分要求：按笔顺拆分，取大优先，取少优先。

“按笔顺拆分”是指在汉字拆分时要按照《现代汉语通用字笔顺规范》的要求，按照汉字笔划组合的先后排序拆分；“取大优先”是指拆分时优先选取最先形成的笔划较多的常用字根、非常用字根、借音字根、变体字根；“取少优先”是指一个字的拆分方案是要优先选取数量最少的字根。需要特别指出的是，选取的字根在特殊的情况下不一定是笔划最多，还要符合取少的要求才行。在符合取少要求的条件下，要尽量拆出并选取最先形成的笔划较多的字根。正确的拆分方法是取大与取少的最佳结合。如在一级拆分中，“森”字，拆分为木、林，而非木、木、木；“广”字，拆分为亠、丿，而非、丶、厂；“魔”字，拆分为麻、鬼，而非广、林、鬼；“鸟”字，拆分为勺、ㄅ、一，而非乌、丶、；“聿”字，拆分为彐、二、丨，而非彐、一、十；“手”字拆分为丿、二、亅，而非丿、一、一、亅；“舍”字，拆分为人、干、口，而非人、一、古；“午”字，拆分为、十，而非丿、干；“缶”字，拆分为午、凵，而非丿、二、山。“言”字，拆分为亠、二、口，而非丶、三、口。“严”字，拆分为亚、丿，而非一、业、丿、“中”字，拆分为口、丨，而非冂、十。“卸”，拆分为、一、止、卩，而非午、一、丨、一、卩。

2、拆分步骤：首先进行一级拆分，再进行二级拆分。一级拆分是指按照拆分规则对单字进行的首次拆分；二级拆分是指按照编码需要和拆分规则对一级拆分的末字根进行的再拆分。如果单字在一级拆分中只能拆成4个以上(含4个)字根的，不再进行二级拆分；如果一级拆分中只能拆成2至3个字根的，则进行二级拆分，即选一级拆分中的末字根进行再拆分；如果一级拆分中的末字根只是一个基本字根的，二级拆分中按此字根补足4个字根。如：“胃”：一级拆分为田、月，二级拆分为冂、二；“票”：一级拆分为西、示，二级拆分为二、小；“超”：一级拆分为走、召，二级拆分为刀、口；“痈”：一级拆分为疒、用，二级拆分为冂、二、丨；“拜”：一级拆分为、三、十，二级拆分为一、丨；“笔”：一级拆分为竹、毛，二级拆分为丿、二、；“人”：一级拆分为丿、丶，二级拆分为、丶、；“制”：一级拆分为牛、冂、刂，二级拆分为丨、亅；“带”：一级拆分为艹、丨、冖、巾；“我”：一级拆分为丿、扌、戈

、丶、；“裁”：一级拆分为土、衣、戈

、丶；“卫”：一级拆分为卩、一，二级拆分为一、一。

3、对非常用字根的特殊拆分：一是把非常用字根作为独立的字根参加拆分。二是不把非常用字根作为独立的字根对待，而是拆整为散，使其拆分为其它输入者能认识的字根，如拆成基本字根、常用字根等；这样，在有非常用字根的字出现时就有了两种拆分结果，我们可同时采用，以适应不同文化层次人们的需要。如“决”：可拆分冫、夬、ユ、人；也可拆分为冫、ユ、人、丿、丶。“律”：可拆分为彳、聿、彐、二、丨；也可拆分为彳、彐、二、丨。“查”：可拆分为杳、一、一、一；也可拆分为木、旦、日、一。

4、对含有“匚、必”字根的字的容错拆分。考虑到许多人对含“匚、必”字根的部分字不能按笔顺拆分，特设容错拆分。即“必”字可容错拆分为心、丿；含“匚”的字如“区”可容错拆分为匚、乂、丿、丶、；含“必”的字如“秘”可容错拆分为禾、必、心、丿。正确拆分和容错拆分的两种结果我们同时采用。如“枢”可拆分为木、区、一、乂、；也可拆分为木、区、匚、乂。需要说明的是这些字根必须是二级拆分中需进行拆分的字根，不进行拆分的不能容错拆分。如“蜜”只能拆分为宀、必、虫、中、一、丶。

三、字根选取

每个汉字选取4个字根。分三种类型：

1、只进行一级拆分的，选取1、2、3、末共4个字根。如“黄”一级拆分为艹、一、由、八，全部选取即可，输入码为“chyb”；“假”：一级拆分为亻、コ、丨、二、コ、又，选取亻、コ、丨、又4个字根即可，输入码为“rksy”。

2、一级拆分中拆出两个字根的，全部选为字根，再选二级拆分中的1、末字根。如“嗓”：一级拆分为口、桑，二级拆分为又、双、木，共5个字根；选取口、桑、又、木4个字根，输入码为“ksym”。

3、一级拆分中拆出3个字根的，全部选为字根，再选二级拆分中的末个字根。如“塔”一级拆分为土、艹、合，二级拆分为人、一、口，选取土、艹、合、口4个字根，输入码为“tchk”。

四、编码规则

1、对选取的1、2、3、末个字根，取该字根的第一个声母编码，如果无声母则取其第一个韵母编码。如“嗳”的输入编码为“kapy”，其中“爱”字根的编码“a”，即是其第一个韵母为输入编码。如“大”的输入编码是“hrpd”，“夫”的编码是“erpd”。

2、对容错拆分的字和有非常用字根的字选取的两种(个别的字为两种以上)拆分结果，按照编码规则第一条的要求分别进行编码。如“决”的输入编码分别是“dgkr”或“dkrd”；“津”的输入编码为“dsrs”或“dyss”；“枢”的输入编码是“mqhz”或“mqky”。

3、对多音字根，按其不同发音分别编码。如“张”的输入编码分别是gzpd或gcpd。

4、对基本字根的编码：“一”：hhhh、“丨”：ssss、“丿”：pppp、“丶”：dddd、“乛”：zzzz。其中“一”的编码不要编为“yyyy”。

五、词组编码

1、2字词组各取第一、二字的前2码。如“肩负”的编码为hydb；“将军”的编码为jxgc。

2、3字词组先取第一字的前2码，再各取第二、三字的首码。如“煤炭部”的编码为hmsl。

3、4字词组各取每字的首码。如“拍手称快”的输入编码是“tphx”。

4、4字以上的词组取第一、二、三、末字的首码。如“经贸治谈会”的编码为“smdr”。

六、学习(提示)栏与重码选择

设立学习(提示)栏，对字、词的输入，特别是重码的个别字和词的输入，按提示输入或按数字键选择。

利用学习(提示)栏可以进行二级输入法的编码学习。方法：

一是对只识首码而对其他码拆不准的字，可输入首码翻页找到该字即可学到正确的编码。如“董”字，输入“艹”字根编码，翻页可找到“董”字，即可学到正确的编码。

二是对第一码拆分错误的独体字，可以试着输入首笔划查找。如“门”字，可以试着输入“丨”，找不到改为输入“丶”，即可查到正确的编码。

三是对难拆分的字尽量组合为合体字学习正确的拆分。如“九”字，可以通过组合“仇”字，查找“九”字的拆分组码。

七、码位安排

对汉字编码中选定的声韵母，安排在与计算机键盘上的英文字母相同的键码位上。

Claims

1、二级音码输入法，字或词的输入方式为四位码元组成，其特征在于将汉字按照汉字笔划组合的先后次序拆分为基本字根、常用字根、非常用字根、借音字根、变体字根5种字根中的一种或一种以上，优先拆分出最先形成的笔划较多的字根，并且优先拆分出数量最少的字根；当字根数不足四个时，再取一级拆分中的末字根进行二级拆分补足4个字根，一级拆分中可以拆出4个以上(含4个)字根的，不再进行二级拆分；对选取的四个字根各取其发音的第一个声母(没有声母的取其第一个韵母)作为编码元，码位安排在与计算机键盘英文字母相同的键位上。

2、根据权利要求1所述的二级音码输入法，其特征在于对非常用字根设计了两套拆分取码方案，一是按非常用字根整体取码，二是不按非常用字根对待，拆成其它易识的字根后取码。

3、根据权利要求1或2所述的二级音码输入法，其特征在于单字取1、2、3、末字根；2字词组各取字的前2个字根；3字词组取第一字的前2个字根和2、3字的第一个字根；4字词组各取每字的第一个字根：4字以上词组取前3字和末字的第一个字根。

4、根据权利要求1所述的二级音码输入法，其特征在于常用字根是根据GB2312—80中对一级字和二级字的划分，把一级字中具有字根作用的字(包括下级字中的“乂、厶、豸、幺”4个字)规定为常用字根。

5、根据权利要求1所述的二级音码输入法，其特征在于非常用字根是指除常用字根之外其它所有的具有字根作用的字(包括GB18030——2000中的字)。

6、根据权利要求1所述的二级音码输入法，其特征在于借音字根是指对常用的偏旁部首借一个约定俗成或形象易记的字为其取音而形成的字根，它们共79个，包括：纟、糹、、饣、飠、礻、マ、镸、彐、彑、

衤、、讠、、忄、灬、氵、、冫、

、丷、

癶、刂、

犭、、卄、

、疒、勹、

、、、

、廴、辶、夊、扌、廾、

钅、丬、爿、冖、宀、、、凵、匚、冂、、 、、攵、、亠、

亻、彳、彳、

、卩、阝、、、

7、根据权利要求1所述的二级音码输入法，其特征在于变体字根包括两类，一类是指笔划数目相同只是笔划长短或位置发生小的变化形成的直观性较强的字根，二类是指特定的笔划数目相同但笔划发生较大变化形成的直观性较强的字根。

8、根据权利要求7所述的二级音码输入法，其特征在于所说的笔划数目相同只是笔划长短或位置发生小的变化形成的直观性较强的字根包括：儿(规)、麻(摩)、樊(攀)、府(腐)、莫(幕)、(拜)、夊(发、处)、艹(其、甘)、扌(我)、曰(日)、卩(卫、报)、廾(井、讲)、厶(瓜)、

9、根据权利要求7所述的二级音码输入法，其特征在于所说的特定的笔划数目相同但笔划发生较大变化形成的直观性较强的字根包括：一、乚、又、八、人、亦、井、儿、雨、月、小、几、习、看、下、斤的变体。

10、根据权利要求1所述的二级音码输入法，其特征在于当一级拆分字根数不足四个时，拆分出的末字根又是基本字根的，二级拆分中按此字根补足4个字根。