CN110737340A

CN110737340A - 一种计算机和手机的汉字音形输入方法

Info

Publication number: CN110737340A
Application number: CN201910965560.3A
Authority: CN
Inventors: 周长河
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-01-31

Abstract

一种计算机和手机的汉字音形输入方法，解决了拼音输入法和五笔输入法的痛点：或相同编码的字、词语比率高，要频繁地在屏幕上选字选词语，或要记忆大量字根，学习难，遗忘快，且不能以输入词语为主，影响输入速度。技术方案要点是：一、不为字根专门设置代码，所用代码限制在字的拼音的第一个字母、成字组件(即“字中字”)独立成字时的拼音的第一个字母、预先设置的充当汉字各笔画类型“一”、

“丨”、“丿”、

Description

一种计算机和手机的汉字音形输入方法

一、技术领域

一种计算机和手机的汉字音形输入方法。

二、背景技术

当前计算机和手机的英文键盘汉字输入方法，最普遍使用，也是使用效果最好的是各类拼音输入法和五笔输入法。拼音输入法简单易学，缺点是相同编码的字、词语比率高，输入字、词语时要频繁地在屏幕上选择，速度慢；五笔输入法相同编码的字比率低，输入字时基本不用在屏幕上选字，缺点是需要记忆大量“字根”的代码，学习难，遗忘快，同时，五笔输入法不能以输入词语为主，阻碍了它输入速度的提高。汉语中常用词语的数量不是常用字可以相比的，五笔输入法如果在系统词语库中装入稍多的词语，会有大量词语的相同编码，输入时就得不断地在屏幕上选字选词语；五笔输入法如果在系统词语库中只装入少量的编码不相同的词语，输入时谁也不知道哪些词语能够输入，输入词语就更加麻烦；所以，五笔输入法实际上只能一个字一个字地输。究其原因，第一，五笔输入法字的全码编码是四个代码，词语的全码编码也是四个代码，使得字和词语的全码编码的代码组成结构差异化小，加上代码数量相同，容易重复；第二，五笔输入法词语的全码编码只四个代码，编码的空间不够，容易造成词语间编码相同；第三，五笔输入法在系统编码表中除了字的一个代码的简码编码外，并没有设置其余字和词语的简码编码，其余简码编码是由系统中的全码编码排序自然产生而让人得以用简码编码输入，这造成了几种简码编码属于同一个字或词语的现象(如98版五笔输入法的“经”字同时有三个编码，即二个简码编码“X”、“XCA”和一个全码编码“XCAG”)，影响了简码编码字、词语的数量，同时也造成了这种现象：在同类(前一个或前几个代码相同，或全码编码相同)的全码编码的字或词语中，比较常用的字或词语不能用简码编码输入，反而是不常用的字或词语能用简码编码输入。

我们需要发明这样的输入法，在英文键盘上输入汉字不用记忆字根的代码，字、词语基本没有相同编码，并以输入词语为主，输入汉语像输入英语一样方便、流畅。

三、发明内容

(一)解决的技术问题：本发明克服了现有技术中的不足，解决了目前计算机和手机的汉字键盘输入中存在的痛点，即：要么字、词语的相同编码多，输入字、词语时要频繁地在屏幕上选择，输入速度慢，要么需要记忆大量字根的代码，学习难，遗忘快，并且不能以输入词语为主，不能让输入速度进一步提高。

(二)解决技术问题采用的技术方案及有益效果

第一，不为字根专门设置代码，所用代码限制在字的拼音的第一个字母、成字笔画组件独立成字时的拼音的第一个字母、预先设置的充当汉字各笔画类型“一(横)”、“

(提)”、“丨(竖)”、“丿(撇)”、“

(捺)”、“丶(点)”、“乙(折——所有带转折弯钩的笔画)”代码的键名英文字母，其中各笔画类型“一”、

“丨”、“丿”、

“丶”、“乙”的代码尽量选择和其形状有共同特征点的键名英文字母，以便于记忆；这使本输入法几乎没有记忆要求；(注：“成字笔画组件”是独立时能成为一个字的笔画组件，即“字中字”；“笔画组件”以下简称“组件”。)第二，将汉字的各笔画类型“一”、

“丨”、“丿”、

“丶”、“乙”的代码设置成和汉语拼音中的声母不相同的键名英文字母，同时汉字中的一部分非成字组件的输入以非成字组件开头的笔画的代码为代码，使笔画和组件的代码不主要集中在和汉语拼音中的声母相同的键名英文字母上，而是得以分散到所有二十六个键名英文字母中，为减少字、词语的相同编码创造了条件；第三，本输入法字的全码编码为四个代码，词语的全码编码为六个代码，这使字和词语之间的全码编码不会产生相同编码，又加大了字和词语之间的全码编码代码组成结构的差异化，为词语的简码编码和字的编码不相同创造了条件，同时，词语的全码编码比字的全码编码多二个代码又大大增加了词语的编码容量，大大减少了词语的相同的全码编码；第四，把能改编成简码编码的字和词语的全码编码，都改编成简码编码，词语的简码编码区别字的编码，并且改编成简码编码的字和词语在系统编码表中只保留简码编码，让用户只用简码编码输入，这消除了大量编码的重复，减少了绝大部分编码的代码，也能让用户养成用简码编码输入的习惯，同时，改编时，在同类(前一个或前几个代码相同，或全码编码相同)的全码编码的字或词语中，把代码最少的简码编码分配给最常用的字或词语，以提高用户的输入速度；第五，对于少数的全码编码和别的字的全码编码相同的字(多是冷僻字)，本输入法用在字的全码编码后添加一个或二个和全码编码的最后一个代码一样的代码的方法，以和它们同编码的字区别，输入方便快捷。

本输入法收入《通用规范汉字表》中除了当今公众的计算机无法输入和显示的字以外的全部汉字，包括同形异音字，能做到所收汉字基本无相同的编码，绝大多数常用的字可以用简码编码输入(本说明的最后附上编码为9246字次的系统编码表，以供验证；另外，本输入法能做到十多万个系统词语基本没有相同编码且绝大多数词语能用简码编码输入，能让用户以词语为主输入汉语，只因篇幅关系没办法提供纸质词语系统编码表)。

四、具体实施方式

(一)给各笔画类型“一”、

“丨”、“丿”、

“丶”、“乙”设置代码

依据形状和键名字母的共同特征点，将各笔画类型“一”、

“丨”、“丿”、

“丶”、“乙”的代码设置成和汉语拼音中的声母不相同的键名英文字母：

(二)为汉字编制全码编码

每字的全码编码为四个代码。

1、字的全码编码的第一个代码的获取

字的全码编码的第一个代码取字的拼音的第一个字母。如“取”字的拼音的第一个字母是Q，Q就是“取”的全码编码的第一个代码。

2、字的全码编码的第二个代码的获取

字的全码编码的第二个代码的获取分三种情况：

(1)排列型字的第二个代码的获取

排列型字是指能够分列的字；字中只要是成字组件、独立的笔画(即不属于某个成字组件一部分的笔画——下同)、独立的非成字组件(即不属于某个成字组件一部分的非成字组件——下同)，处在从左到右排列中，都能成为排列型字的列；排列型字的列与列之间不存在按字的结构必须互相连接的笔画，按字的结构必须有笔画互相连接的两个组件不能拆分为列。如“临”字分为“丨”、“丨”、

三列；如“顺”字分为“川”、“页”二列，不能分为“丿”、“丨”、“丨”、“页”四列，因为“丿”、“丨”、“丨”不是独立的笔画，它们各是成字组件“川”的一部分；如“非”字只能分为

二列，不能分为“丨”、“丨”、

四列，因为

和“丨”、“丨”和

按字的结构必须笔画互相连接。

排列型字的第二个代码代表字的按笔顺最先书写的列(以下简称“最先书写列”)，其获取分三种情况：

(A)最先书写列是个成字组件或是个独立的笔画，就以这个成字组件或这个笔画的代码为字的第二个代码。如“取”字以最先书写列“耳”的代码“E”为第二个代码(“取”字中的“耳”是成字组件，它的代码是它独立成字时的拚音的第一个字母“E”——以下同类情况不再赘述)；如“小”字以最先书写列“亅”的代码为第二个代码。

(B)最先书写列是个独立的非成字组件，如果这个非成字组件的开头能拆分出一个成字组件来，就以拆分出的成字组件的代码代表整个最先书写列，作为字的第二个代码。如“跳”字的最先书写列“”是个独立的非成字组件，“”的开头能拆分出一个成字组件“口”来，就以“口”的代码代表“”，作为“跳”的第二个代码。

(C)最先书写列是个独立的非成字组件，如果这个非成字组件的开头不能拆分出一个成字组件来，就以这个非成字组件开头的笔画的代码代表整个最先书写列，作为字的第二个代码。如“针”字的最先书写列“钅”是个独立的非成字组件，“钅”的开头不能拆分出一个成字组件来，就以“钅”的开头的笔画“丿”的代码代表“钅”，作为“针”的第二个代码。

(2)层叠型字的第二个代码的获取

层叠型字是指能够分层的字；字中只要是成字组件、独立的笔画、独立的非成字组件，处在从上到下层叠中的，都能成为层叠型字的层；层叠型字的层与层之间有的存在按字的结构必须互相连接的笔画，有的不存在按字的结构必须互相连接的笔画。如“恋”字分为“丶”、“一”、

“心”四层；如“空”字只能分为“穴”、“工”二层，不能分为“丶”、“冖”、“八”、“工”四层，因为“丶”不是独立的笔画，“冖”不是独立的非成字组件，它们都是成字组件“穴”的一部分；又如，“天”字不能分为“一”、“大”二层，因为“一”不是独立的笔画，它是成字组件“二”的一部分，“生”字不能分为

“一”二层，因为“一”不是独立的笔画，它是成字组件“土”的一部分——“天”和“生”都不是层叠型字；又如，“上”字的第一层

和第二层“一”存在着必须互相连接的笔画，“旦”字的第一层“日”和第二层“一”不存在必须互相连接的笔画，“上”、“旦”都是层叠型字。

层叠型字的第二个代码代表字的按笔顺书写的第一层，其获取分三种情况：

(A)第一层是个成字组件或是个独立的笔画，就以这个成字组件或这个笔画的代码为字的第二个代码。如“叠”字以“又”的代码为第二个代码，如“充”字以“丶”的代码为第二个代码。

(B)第一层是个独立的非成字组件，如果这个非成字组件的开头能拆分出一个成字组件来，就以拆分出的成字组件的代码代表整个第一层，作为字的第二个代码。如“惠”字的第一层

是个独立的非成字组件，

的开头能拆分出一个成字组件“十”来，就以“十”的代码代表

，作为“惠”的第二个代码。

(C)第一层是个独立的非成字组件，如果这个非成字组件的开头不能拆分出一个成字组件来，就以这个非成字组件开头的笔画的代码代表整个第一层，作为字的第二个代码。如“前”字的第一层“丶丷”是个独立的非成字组件，“丷”的开头不能拆分出一个成字组件来，就以“丷”的开头的笔画“丶”的代码代表“丷”，作为“前”的第二个代码。

(3)独列独层型字的第二个代码的获取

独列独层型字是既不能左右分列，又不能上下分层的字。除了排列型字和层叠型字，其余汉字都是独列独层型字。

独列独层型字的辨识：第一，大多数语法上称之为“包围结构”、“半包围结构”的字，如“国”、“风”、“眉”、“匀”、“这”等字是独列独层型字，因为它们不能左右分列，也不能上下分层，但是，不是所有包围结构的字是独列独层型字，如“虎”字，可以分为和二层，是个二层层叠型字；第二，类似“年”、“欠”、“会”等字开头的“”、“”、“人”，只包住了字的下半部分的很小一部分，“年”、“欠”、“会”等字是二层层叠型字，不是独列独层型字，即它们分别以“”、“”、“人”为第一层；第三，很多语法上称之谓“独体字”的字是独列独层型字，如“马”、“牛”、“中”等，因为它们不能左右分列，也不能上下分层，但是，也有很多独体字不是独列独层型字，如“不”、“虫”、“丁”等字都是二层层叠型字；第四，镶嵌在其它组件中的笔画或组件不能成为一层，如“坐”字中的“从”是镶嵌在“土”中的，“半”中的“丷”是镶嵌在

中的，“束”中的“八”是镶嵌在

中的，它们不能成为一层，“坐”、“半”、“束”是独列独层型字。

独列独层型字的第二个代码的获取分三种情况：

(A)一般独列独层型字的第二个代码的获取

(a)如果字的开头能拆分出一个成字组件，就以拆分出的成字组件的代码为字的第二个代码。如“禾”字的开头能拆分出一个成字组件“千”，就以“千”的代码为“禾”的第二个代码。同理，“木”字以“十”的代码为第二个代码，“匆”字以“勿”的代码为第二个代码，等等。

(b)如果字的开头不能拆分出一个成字组件，就以字的开头的笔画的代码为字的第二个代码。如“句”字的开头不能拆分出一个成字组件，就以开头的笔画“丿”的代码为“句”的第二个代码。同理，“屯”字以“一”的代码为第二个代码，“国”字以“丨”的代码为第二个代码，等等。

(B)带有“辶”或“廴”的独列独层型字的第二个代码的获取

带有“辶”或“廴”的独列独层型字的第二个代码代表字的被“辶”或“廴”包围部分，其获取分三种情况：

(a)字的被“辶”或“廴”包围部分是个成字组件，就以这个成字组件的代码为字的第二个代码。如“达”字的被“辶”包围部分“大”是个成字组件，就以“大”的代码为“达”的第二个代码。

(b)字的被“辶”或“廴”包围部分是个非成字组件，如果这个非成字组件的开头能拆分出一个成字组件来，就以拆分出的成字组件的代码代表字的被“辶”或“廴”包围部分，作为字的第二个代码。如“遄”字的被“辶”包围部分“耑”是个非成字组件，“耑”的开头能拆分出一个成字组件“山”来，就以“山”的代码代表“耑”，作为“遄”的第二个代码。

(c)字的被“辶”或“廴”包围部分是个非成字组件，如果这个非成字组件的开头不能拆分出一个成字组件来，就以这个非成字组件开头的笔画的代码代表被“辶”或“廴”包围部分，作为字的第二个代码。如“迎”字的被“辶”包围部分“卬”是个非成字组件，“卬”的开头不能拆分出一个成字组件来，就以“卬”的开头的笔画“丿”的代码代表“卬”，作为“迎”的第二个代码。

(注：“卬”和前面的“耑”独立时是现代汉语弃用的古字，这类成字组件一律当作非成字组件输入——下面会讲到。)

(C)单笔画独列独层型字“一”和“乙”的第二个代码的获取

单笔画独列独层型字“一”和“乙”的第二个代码就是取它们笔画的代码，即“一”字的第二个代码取笔画“一(横)”的代码A，“乙”字的第二个代码取笔画“乙(横折弯钩)”的代码U。

3、字的全码编码的第三个代码的获取

字的全码编码的第三个代码的获取分三种情况：

(1)一般字的第三个代码的获取

一般字的第三个代码从减去第二个代码所指代的笔画或组件后字的剩余部分的开头获取，分三种情况：

(A)减去第二个代码所指代的笔画或组件后，字的剩余部分的开头如果是个成字组件，字的第三个代码就以这个成字组件的代码为代码。如“巅”字，减去第二个代码所指代的“山”，剩余部分是“颠”，“颠”开头的“真”是成字组件，“巅”的第三个代码就以“真”的代码为代码。

(B)减去第二个代码所指代的笔画或组件后，字的剩余部分的开头如果不是一个成字组件，但能拆分出一个成字组件来，字的第三个代码就以拆分出的成字组件的代码为代码。如“搜”字，减去第二个代码所指代的“扌”，剩余部分是“叟”，“叟”的开头不是成字组件，但能拆分出一个成字组件“臼”来，“搜”的第三个代码就以“臼”的代码为代码。

(C)减去第二个代码所指代的笔画或组件后，字的剩余部分的开头如果既不是成字组件，又不能拆分出一个成字组件来，字的第三个代码就以字的剩余部分开头的笔画的代码为代码。如“国”字，减去第二个代码所指代的“丨”，剩余部分是

的开头既不是成字组件，又不能拆分出一个成字组件来，“国”的第三个代码就以

开头的笔画

的代码为代码。

(2)减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第三个代码的获取

排列型字、层叠型字和独列独层型字都有减去第二个代码所指代的笔画或组件后只剩一个笔画的情况，如“扎”字减去第二个代码所指代的“扌”后只剩下“乚”，“艺”字减去第二个代码所指代的“卄”后只剩下“乙”，“十”字减去第二个代码所指代的“一”后只剩下“丨”。

减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第三个代码，是以这个剩下的笔画的代码为代码。如“扎”字，减去第二个代码所指代的“扌”后只剩下“乚”，“扎”的第三个代码就以“乚”的代码为代码。

(3)单笔画字“一”和“乙”的第三个代码的获取

单笔画字“一”和“乙”的第三个代码是重复第二个代码，即，“一”字的第三个代码和“一”字的第二个代码一样，是笔画“一(横)”的代码A，“乙”字的第三个代码和“乙”字的第二个代码一样，是笔画“乙(横折弯钩)”的代码U。

4、字的全码编码的第四个代码的获取

字的全码编码的第四个代码的获取分三种情况：

(1)一般字的第四个代码的获取

一般字的第四个代码从减去第二个代码所指代的笔画或组件后字的剩余部分的末尾获取，分三种情况：

(A)减去第二个代码所指代的笔画或组件后，字的剩余部分的末尾如果是一个成字组件，字的第四个代码就以这个成字组件的代码为代码。如“巅”字，减去第二个代码所指代的“山”，剩余部分是“颠”，“颠”末尾的“页”是成字组件，“巅”的第四个代码就以“页”的代码为代码。(注：“巅”的第四个代码为什么不取“人”，不取“贝”，而是取“页”，其原因后面会讲到。)

(B)减去第二个代码所指代的笔画或组件后，字的剩余部分的末尾如果不是成字组件，但能拆分出一个成字组件来，字的第四个代码就以拆分出的成字组件的代码为代码。如“笔”字，减去第二个代码所指代的“”，剩余部分是“毛”，“毛”的末尾不是成字组件，但能拆分出一个成字组件“七”来，“笔”的第四个代码就以“七”的代码为代码。

(C)减去第二个代码所指代的笔画或组件后，字的剩余部分的末尾如果既不是成字组件，又不能拆分出一个成字组件来，字的第四个代码就以字的剩余部分末尾的笔画的代码为代码。如“国”字，减去第二个代码所指代的“丨”，剩余部分是

的末尾既不是成字组件，又不能拆分出一个成字组件来，“国”的第四个代码就以

末尾的笔画“一”的代码为代码。

(2)减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第四个代码的获取

减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第四个代码，是以这个剩下的笔画的代码为代码。如“扎”字，减去第二个代码所指代的“扌”后只剩下“乚”，“扎”的第四个代码以“乚”的代码为代码。

(3)单笔画字“一”和“乙”的第四个代码的获取

单笔画字“一”和“乙”的第四个代码和第三个代码一样，是重复第二个代码，即，“一”字的第四个代码和“一”字的第二个代码、第三个代码一样，是笔画“一(横)”的代码A，“乙”字的第四个代码和“乙”字的第二个代码、第三个代码一样，是笔画“乙(横折弯钩)”的代码U。

(三)字的全码编码获取代码细则

1、成字组件最大化获取代码。如“真”字，第二个代码应取“直”，不应取“十”，因为“直”包含了“十”，“直”比“十”要“大”；同理，“里”字的第二个代码应取“甲”，不应取“日”；“彬”字的第二个代码应取“林”，不应取“木”；“得”字的第三个代码应取“旦”，不应取“日”。

2、按字的书写顺序获取笔画或组件的代码，对于书写时不是连续完成的成字组件，只要落笔在先，就先获取代码。如“重”字中的“千”、“共”字中的“二”、“柬”字中的“十”、“式”字中的“弋”、“兆”字中的“儿”、“幽”字中的“山”、“巫”字中的“工”等，这些成字组件在字的书写时比起字中的其它组件来不是最先完成的，但它们是最先落笔的，就最先获取代码。

3、在划分列获取代码时，中间的笔画或组件如果既可以和前面的笔画或组件组成成字组件，又可以和后面的笔画或组件组成成字组件，那么就让它和前面的笔画或组件组成成字组件，如“做”字，中间的“古”既可以和前面的“亻”组成成字组件“估”，也可以和后面的“攵”组成成字组件“故”，那么就让“古”和前面的“亻”组成“估”，“做”字划分为“估”、“攵”二列；在划分层获取代码时，中间的笔画或组件如果既可以和上面的笔画或组件组成成字组件，又可以和下面的笔画或组件组成成字组件，那么就让它和上面的笔画或组件组成成字组件，如“先”字，中间的“一”既可以和上面的“十”组成成字组件“土”，又可以和下面的“儿”组成成字组件“兀”，那么就让“一”和上面的“十”组成“土”，“先”字划分为

“儿”二层。

4、包含在已取过代码的组件中的笔画或组件，必须排除在后来获取代码的组件之外。如“重”字的第二个代码获取“千”的代码，重”字的第四个代码不能取“土”的代码，只能取“二”的代码，因“土”中的“丨”包含在已取过代码的“千”中。

5、“一”和“乙”充当其它字的部件时一律作为笔画获取代码，以它们笔画的代码作为代码，即“一”和“乙”在其它字中的代码分别是笔画“一(横)”的代码A和笔画“乙(横折弯钩)”的代码V。

6、没有同时贯穿左右两边的“一”不能作为字的一层获取代码。如，“口”字和“廿”字的最后一笔“一”没有贯穿左右两边，“寻”字中的“彐”的最后一笔“一”没有贯穿右边，它们都不能作为字的一层获取代码。

7、笔画长短和汉字“二”不一致的二横不能被当作成字组件“二”获取代码；笔画长短和汉字“三”不一致的三横不能被当作成字组件“三”获取代码。如“当”字、“日”字中的二横不能被当作成字组件“二”获取代码；“目”、“且”字中的三横和“非”字中的两组三横，不能被当作成字组件“三”获取代码。

8、里面没有其它组件或笔画的方框，如“叶”、“员”中的方框，或者有笔画从外面穿进的方框，如“中”、“黑”中的方框，以成字组件“口”获取代码；把其它组件或笔画全包围着的方框，如“国”、“面”、“罗”中的方框，以非成字组件获取代码。

9、如果一个字或组件的第一个笔画“一”被两个成字组件共有，就获取按书写顺序接着“一”应该写的字或组件的第二个笔画所在的成字组件的代码。如“青”的第一个笔画“一”被成字组件“三”和“十”共有，就获取按书写顺序接着“一”应该写的“青”的第二个笔画“一”所在的成字组件“三”的代码。又如“戊”的第一个笔画“一”被成字组件“厂”和“戈”共有，就获取按书写顺序接着“一”应该写的“戊”的第二个笔画“丿”所在的成字组件“厂”的代码。

10、以为字头的字，“友”、“有”、“灰”、“右”、“左”、“布”、“在”、“存”等，不管

中的“丿”的长短如何，统一作为独列独层型字获取代码。

11、如果一个成字组件独立成字时是个多音字，这个成字组件的代码就取它独立成字时比较常用的音的拼音的第一个字母。如“避”、“劈”等字中的成字组件“辟”，它独立成字时是个多音字，有时读pì，有时读bì，比较常用的是pì，我们就用pì的第一个字母P来作为它的代码。

12、为能让不同文字水平的人流畅地输入汉字，下列成字组件既作为成字组件获取代码，又当作非成字组件获取代码，即要对下列成字组件获取代码的字有二套编码(括号中为例字)：乂(仪)、廿(革)、壬(淫)、夭(乔)、巳(导巴)、兀(西)、弋(式)、殳(缎)、尹(君)、刍(皱)、氐(邸)、戋(盏)、戊(成)、舛(瞬)、缶(缸)、亘(揎)、艮(恳)、圭(街)、亥(刻)、攸(悠)、耒(耕)、囟(傻)、聿(健)、孚(乳)、佥(敛)、豕(逐)、呙(剐)、豸(豹)、孛(勃)、酉(醉)、宓(蜜)、杳(查)、隹(集)、曷(遏)、叚(遐)、彦(颜)、昭(照)、敖(遨)、皋(翱)、鬲(融)、堇(觐)、敕(整)、孰(熟)、庶(遮)、敫(邀)、翟(戳)、剌(瘌)。

13、为了让小学文字水平的人运用本输入法，下列成字组件在常用字中既作为成字组件获取代码，又当作非成字组件获取代码，即要对下列成字组件获取代码的常用字有二套编码 (括号中为例字)：勺(药)、幺(幼)、歹(列)、屯(顿)、勿(忽)、矢(短)、乍 (怎)、尧(翘)、甬(勇)、苟(敬)、邦(帮)、亦(迹)、兆(逃)、弗(费)、娄 (数)、咸(感)、尉(慰)、甫(博)、兹(慈)、酋(尊)、禺(遇)、臼(舅瘦)、玄(畜)、朔(塑)、樊(攀)。

14、如“卂(迅)”、“尢(尤)”、“卬(迎)”、“屰(逆)”、“耑(遄)”等等成字组件，独立成字时是现代汉语弃用的古字，一律当作非成字组件获取代码。(注：括号中为例字。)

15、某些汉字成为某类成字组件时会变形，如“子”字成为“孙”的最先书写列时成了“孑”，这种变形的成字组件，如果和它们独立成字时相比较变化不大的仍然按成字组件获取代码，变化大的按非成字组件获取代码。下面是这类成字组件获取代码的情况[注：“等于” (“＝”)某个成字组件，表示按某个成字组件获取代码；“不等于”(“≠”)某个成字组件，表示按非成字组件获取代码——括号中为例字]：

(助)＝且；

(顾)＝厄；

(顿)＝屯；

(辨)＝辛；

(舆)＝八；氺(黎)＝水；孑(孙)＝子；

(区)＝

(

也可以按非成字组件输入)；

(少隙)＝小；(哥) ＝可。

(着羚)≠羊；

(判)≠半；(看拜)≠手；朩(条)≠木；“覀”(要)≠西；罒(罗)≠四；

(恋)≠亦。

(四)根据字的全码编码编制字的简码编码

全码编码定义：包含了按照编写规则所应有的全部代码的编码叫全码编码。

简码编码定义：省略掉全码编码的后面一个或几个代码，只保留全码编码的前面一个或几个代码，以最少的代码区别其它编码的编码，叫简码编码。

本输入法把能改编成简码编码的字的全码编码，都改编成简码编码(注：通过WPS表格排序，统计，删除代码，进行改编)，并且改编成简码编码的汉字在系统编码表中只保留简码编码，让用户只用简码编码输入。

简码编码都是独一无二的编码。看一个字的全码编码能不能改编成简码编码，要看打算改编成的简码编码是否有别的更需要它的字。

把字的全码编码改编为简码编码的原则是：

(1)消除编码的重复，减少编码的代码。假如有三个字的全码编码相同，都是“LMOS”，如果能把其中的二个字分别改编成简码编码“LM”和“LMO”，那么，这三个字的编码就各不相同，只要改编成简码编码的二个字在系统编码表中只保留简码编码，用户输入三个字时就不用在屏幕上选字了，又，如果能把这三个字分别改编成不同的简码编码“L”、“LM”和“LMO”，只要这三个字在系统编码表中只保留简码编码，那么，这三个字就都能用简码编码输入且不用在屏幕上选字了；反之，如果三个字都没有改编成简码编码，只因系统编码排序让人得以用简码编码输入，那么当输入简码编码“L”、“LM”、“LMO”时出现在屏幕候选字、词语首位的都将是这三个字中编码排序在最前面的那个字，也就是是同一个字，其余二字仍然是相同的全码编码，输入这二个字时输入了全码编码后还要在屏幕上选字。

(2)在同类(前一个或前几个代码相同，或全码编码相同)的全码编码的字中，把代码最少的简码编码分配给最常用的字。如，在前一个代码都为“D”的全码编码的字中，把代码最少的简码编码“D”分配给最常用的“的”字；在前二个代码都为“DT”的全码编码的字中，把代码最少的简码编码“DT”分配给最常用的“地”字；在前三个代码都为“DAA”的全码编码的字中，把代码最少的简码编码“DAA”分配给最常用的“打”字。又如，假如有三个字的全码编码相同，都是LMOS，如果这三个字当中的任何二个能分别改编成简码编码“LM”和“LMO”，就把代码最少的简码编码“LM”分配给三个字中最常用的字，把代码较少的简码编码“LMO”分配给三个字中较常用的字，让三个字中最不常用的字保持全码编码。

(五)相同编码字的处理

把能改编的全码编码的字改编成简码编码后，剩下的全码编码的字中还有少量字存在着几个字共用一个相同的全码编码的情况。我们把共用一个不能改编为简码编码的全码编码的字，叫做相同编码字。

本输入法的相同编码字多是二字共用一个全码编码，少量是三字共用一个全码编码，极少是四字或四字以上共用一个全码编码。

本输入法对相同编码字的处理是：

1、二字相同编码的，在其中一个较不常用的字的编码后添加一个和编码的最后一个代码一样的代码，使二个字不成为相同编码字。如“渠”、“洓”是相同编码字，编码都是“QOSB”，我们就在较不常用的“洓”字的编码后添加一个和编码的最后一个代码一样的代码“B”，让“洓”字的编码变成“QOSBB”，使“洓”字和“渠”字不成为相同编码字。

2、三字相同编码的，让最常用的一个字的编码保持原状，在较常用的一个字的编码后添加一个和编码的最后一个代码一样的代码，在最不常用的一个字的编码后添加二个和编码的最后一个代码一样的代码，使三个字不成为相同编码字。如“囚”、“圊”、“囷”是相同编码字，编码都是“QIUA”，我们让最常用的“囚”字的编码保持原状，在较常用的“圊”字的编码后添加一个和编码的最后一个代码一样的代码A，让“圊”字的编码变成“QIUAA”，在最不常用的“囷”字的编码后添加二个和编码的最后一个代码一样的代码A，让“囷”字的编码变成“QIUAAA”，这样三个字就不是相同编码字了。

3、四字或四字以上相同编码的，让最常用的一个字的编码保持原状，在较常用的一个字的编码后添加一个和编码的最后一个代码一样的代码，在其余字的编码后添加二个和编码的最后一个代码一样的代码，这样，最常用的那个字和较常用的那个字就不是相同编码字了。

这样处理相同编码字的好处是，当用户要输入这些字时，输完了全码编码后只要再击一次或二次前面击过的最后一个键，绝大多数本来是相同编码字的字就会出现在屏幕候选字、词语的首位了，就不用选择了，十分方便快捷。

(六)词语的输入

1、为词语编制全码编码

每个词语的全码编码为六个代码，其取码方法如下：

(1)二字词语按顺序取每个字全码编码的第一、第二、第三个代码。如要给“但是”这个词语编制全码编码，“但”字的全码编码为“DVRA”，“是”字的全码编码为“SRAR”，“但是”的全码编码就是“但”字的全码编码的第一、第二、第三个代码D、V、R，加上“是”字的全码编码的第一、第二、第三个代码S、R、A，即“DVRSRA”。

(2)三字词语按顺序取每个字全码编码的第一、第二个代码。

(3)四字词语按顺序取前两个字每个字全码编码的第一个代码和后两个字每个字全码编码的第一、第二个代码。

(4)五字词语按顺序取前四个字全码编码的第一个代码和最后一个字全码编码的第一、第二个代码。

(5)六字词语按顺序取每个字全码编码的第一个代码。

(6)六字以上词语按顺序取前六个字每个字全码编码的第一个代码。

2、根据词语的全码编码编制词语的简码编码

本输入法把能改编成简码编码的词语的全码编码，都改编成简码编码，并且改编成简码编码的词语在系统编码表中只保留简码编码，让用户只用简码编码输入。

词语的简码编码不光要能区别其它词语的编码，还要能区别字的编码，即词语的简码编码不能和字的编码相同。

看一个词语的全码编码能不能改编成简码编码，要看打算改编成的简码编码是否有更需要它的字或更需要它的别的词语。

当词语的简码编码和字的编码有冲突时，一般把代码较少的编码让给字，只有当一边是极为冷僻的字，一边是较常用的词语时，才把代码较少的编码让给词语[注：用WPS表格把词语的全码编码和字的编码(包括字的简码编码和全码编码)放在一起排序，统计，删除或增加代码，进行改编]。

把词语的全码编码改编为简码编码的原则是：

(1)消除编码的重复，减少编码的代码。假如有四个词语的全码编码相同，都是“YYOYYO”，如果能把其中的三个词语分别编成简码编码“YYO”、“YYOY”、“YYOYY”，那么，这四个词语的编码就各不相同，只要改编成简码编码的三个词语在系统编码表中只保留简码编码，用户输入这四个词语时就不用在屏幕上选词语了，又，如果能把四个词语分别编成不同的简码编码“YY”、“YYO”、“YYOY”、“YYOYY”，只要这四个词语在系统编码表中只保留简码编码，那么，这四个词语就都能用简码编码输入且不用在屏幕上选词语了；反之，如果四个词语都没有改编成简码编码，只因系统编码排序让人得以用简码编码输入，那么输入简码编码“YY”、“YYO”、“YYOY”、“YYOYY”时出现在屏幕候选字、词语首位的都将是四个词语中编码排序在前的那个词语，也就是是同一个词语，其余三个词语仍然是相同的全码编码，输入这三个词语时输入了全码编码后还要在屏幕上选词语。

(2)在同类(前几个代码相同或全码编码相同)的全码编码的词语中，把代码最少的简码编码分配给最常用的词语。如，在前三个代码都为“RNI”的全码编码的词语中，把代码最少的简码编码“RNI”分配给最常用的词语“如果”；在前四个代码都为“DVRS”的全码编码的词语中，把代码最少的简码编码“DVRS”分配给最常用的词语“但是”。又如，假如有四个词语的全码编码相同，都是“YYOYYO”，如果这四个词语当中的任何三个能分别改编成简码编码“YYO”、“YYOY”、“YYOYY”，就把代码较少的编码分配给较常用的词语，把代码较多的编码分配给较不常用的词语。

五、汉字编码表

。

Claims

1.一种计算机和手机的汉字音形输入方法，将汉字的各笔画类型“一(横)”、“(提)”、“丨(竖)”、“丿(撇)”、“(捺)”、“丶(点)”、“乙(折——所有带转折弯钩的笔画)”的代码设置成英文键盘的键名英文字母，依据汉字音形特点给汉字编制英文字母编码，通过在英文键盘上输入编码以输入汉字，同时，利用汉字的全码编码给汉语词语编制编码，通过在英文键盘上输入编码以输入汉语词语，其特征在于，字的全码编码为四个代码，字的全码编码的第一个代码取字的拼音的第一个字母，字的全码编码的第二个代码的获取分为排列型字的第二个代码的获取和层叠型字的第二个代码的获取以及独列独层型字的第二个代码的获取，排列型字的第二个代码代表字的按笔顺最先书写的列(以下简称“最先书写列”)，其获取分三种情况，字的最先书写列是个成字笔画组件(“笔画组件”以下简称“组件”)或是个独立的笔画(即不属于某个成字组件一部分的笔画——下同)，就以这个成字组件或这个笔画的代码为字的第二个代码，字的最先书写列是个独立的非成字组件(即不属于某个成字组件一部分的非成字组件——下同)，如果这个非成字组件的开头能拆分出一个成字组件来，就以拆分出的成字组件的代码代表整个最先书写列，作为字的第二个代码，字的最先书写列是个独立的非成字组件，如果这个非成字组件的开头不能拆分出一个成字组件来，就以这个非成字组件开头的笔画的代码代表整个最先书写列，作为字的第二个代码，层叠型字的第二个代码代表字的按笔顺书写的第一层，其获取分三种情况，字的第一层是个成字组件或是个独立的笔画，就以这个成字组件或这个笔画的代码为字的第二个代码，字的第一层是个独立的非成字组件，如果这个非成字组件的开头能拆分出一个成字组件来，就以拆分出的成字组件的代码代表整个第一层，作为字的第二个代码，字的第一层是个独立的非成字组件，如果这个非成字组件的开头不能拆分出一个成字组件来，就以这个非成字组件开头的笔画的代码代表整个第一层，作为字的第二个代码，独列独层型字的第二个代码的获取分为一般独列独层型字的第二个代码的获取和带有“辶”或“廴”的独列独层型字的第二个代码的获取以及单笔画独列独层型字“一”和“乙”的第二个代码的获取，一般独列独层型字的第二个代码的获取分二种情况，如果字的开头能拆分出一个成字组件，就以拆分出的成字组件的代码为字的第二个代码，如果字的开头不能拆分出一个成字组件，就以字的开头的笔画的代码为字的第二个代码，带有“辶”或“廴”的独列独层型字的第二个代码的获取，是让第二个代码代表字的被“辶”或“廴”包围部分，分三种情况，字的被“辶”或“廴”包围部分是个成字组件，就以这个成字组件的代码为字的第二个代码，字的被“辶”或“廴”包围部分是个非成字组件，如果这个非成字组件的开头能拆分出一个成字组件来，就以拆分出的成字组件的代码代表被“辶”或“廴”包围部分，作为字的第二个代码，字的被“辶”或“廴”包围部分是个非成字组件，如果这个非成字组件的开头不能拆分出一个成字组件来，就以这个非成字组件开头的笔画的代码代表被“辶”或“廴”包围部分，作为字的第二个代码，单笔画独列独层型字“一”和“乙”的第二个代码是取它们笔画的代码，即“一”字的第二个代码取笔画“一(横)”的代码，“乙”字的第二个代码取笔画“乙(横折弯钩)”的代码，字的全码编码的第三个代码的获取分为一般字的第三个代码的获取和减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第三个代码的获取以及单笔画字“一”和“乙”的第三个代码的获取，一般字的第三个代码从减去第二个代码所指代的笔画或组件后字的剩余部分的开头获取，分三种情况，减去第二个代码所指代的笔画或组件后，字的剩余部分的开头如果是个成字组件，字的第三个代码就以这个成字组件的代码为代码，减去第二个代码所指代的笔画或组件后，字的剩余部分的开头如果不是一个成字组件，但能拆分出一个成字组件来，字的第三个代码就以拆分出的成字组件的代码为代码，减去第二个代码所指代的笔画或组件后，字的剩余部分的开头如果既不是一个成字组件，又不能拆分出一个成字组件来，字的第三个代码就以字的剩余部分开头的笔画的代码为代码，减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第三个代码，是以这个剩下的笔画的代码为代码，单笔画字“一”和“乙”的第三个代码是重复第二个代码，即，“一”字的第三个代码和“一”字的第二个代码一样，是笔画“一(横)”的代码，“乙”字的第三个代码和“乙”字的第二个代码一样，是笔画“乙(横折弯钩)”的代码，字的全码编码的第四个代码的获取分为一般字的第四个代码的获取和减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第四个代码的获取以及单笔画字“一”和“乙”的第四个代码的获取，一般字的第四个代码从减去第二个代码所指代的笔画或组件后字的剩余部分的末尾获取，分三种情况，减去第二个代码所指代的笔画或组件后，字的剩余部分的末尾如果是一个成字组件，字的第四个代码就以这个成字组件的代码为代码，减去第二个代码所指代的笔画或组件后，字的剩余部分的末尾如果不是一个成字组件，但能拆分出一个成字组件来，字的第四个代码就以拆分出的成字组件的代码为代码，减去第二个代码所指代的笔画或组件后，字的剩余部分的末尾如果既不是一个成字组件，又不能拆分出一个成字组件来，字的第四个代码就以字的剩余部分末尾的笔画的代码为代码，减去第二个代码所指代的笔画或组件后只剩下一个笔画的字的第四个代码，是以这个剩下的笔画的代码为代码，单笔画字“一”和“乙”的第四个代码和第三个代码一样，是重复第二个代码，即，“一”字的第四个代码和“一”字的第二个代码、第三个代码一样，是笔画“一(横)”的代码，“乙”字的第四个代码和“乙”字的第二个代码、第三个代码一样，是笔画“乙(横折弯钩)”的代码。

2.根据权利要求1所述的一种计算机和手机的汉字音形输入方法，其特征是，将汉字的各笔画类型“一”、

“丨”、“丿”、“丶”、“乙”的代码设置成和汉语拼音中的声母不相同的键名英文字母，具体为，将“一”和

的代码设置成A，将“丨”的代码设置成I，将“丿”和的代码设置成V，将“丶”的代码设置成0，将“乙”的代码设置成U。

3.根据权利要求1所述的一种计算机和手机的汉字音形输入方法，其特征是，所述给汉字编制英文字母编码，是把能编制成简码编码的汉字，都编制成简码编码，编制成简码编码的汉字在系统编码表中只保留简码编码，让用户只用简码编码输入。

4.根据权利要求1所述的一种计算机和手机的汉字音形输入方法，其特征是，所述给汉语词语编制编码，其全码编码为六个代码，二字词语按顺序取每个字全码编码的第一、第二、第三个代码，三字词语按顺序取每个字全码编码的第一、第二个代码，四字词语按顺序取前二个字每个字全码编码的第一个代码和后二个字每个字全码编码的第一、第二个代码，五字词语按顺序取前四个字全码编码的第一个代码和最后一个字全码编码的第一、第二个代码，六字词语按顺序取每个字全码编码的第一个代码，六字以上词语按顺序取前六个字每个字全码编码的第一个代码。

5.根据权利要求1所述的一种计算机和手机的汉字音形输入方法，其特征是，所述给汉语词语编制编码，是把能编制成简码编码的词语，都编制成简码编码，词语的简码编码不但能区别其它词语的编码，还能区别字的编码，编制成简码编码的词语在系统编码表中只保留简码编码，让用户只用简码编码输入。

6.根据权利要求1所述的一种计算机和手机的汉字音形输入方法，其特征是，对相同编码字的处理是，二字相同编码的，在其中一个字的编码后添加一个和编码的最后一个代码一样的代码，三字相同编码的，让一个字的编码保持原状，在一个字的编码后添加一个和编码的最后一个代码一样的代码，在另一个字的编码后添加二个和编码的最后一个代码一样的代码，四字或四字以上相同编码的，让一个字的编码保持原状，在一个字的编码后添加一个和编码的最后一个代码一样的代码，在其余字的编码后添加二个和编码的最后一个代码一样的代码。