CN1061294A - 拼音四角笔码和字元四角笔码汉字编码方案 - Google Patents
拼音四角笔码和字元四角笔码汉字编码方案 Download PDFInfo
- Publication number
- CN1061294A CN1061294A CN 91101998 CN91101998A CN1061294A CN 1061294 A CN1061294 A CN 1061294A CN 91101998 CN91101998 CN 91101998 CN 91101998 A CN91101998 A CN 91101998A CN 1061294 A CN1061294 A CN 1061294A
- Authority
- CN
- China
- Prior art keywords
- chinese
- stroke
- character
- word
- compound vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是用于中文信息领域里的一个新颖编码
方案。为了解决多字母韵母代换法中的可记性问题
和汉字同音字的分解离散问题,以及创建一种易学、
易大面积推广、普及,又能利用该汉字编码进行快速
中文信息处理的新颖编码。本方案采用了四角笔码
定字法和去四字母韵母、韵母顺序代换法。除iong、
uo、iang、uang外,其余基本根据排列顺序和相对应
排列顺序中的英文字母代换。在根据汉字声韵母得
出汉字双拼字母后,再在汉字四角取其笔码,以十分
简便易懂的方法最后确定该汉字的字母编码。
Description
本发明是用于中文信息处理领域里的一个新颖汉字编码方案。
汉语拼音韵母表中有35个韵母,要用26个英文字母键来代换35个韵母,势必有好多键要充当二个汉语拼音韵母键的作用。国内外绝大多数双拼编码方案都无法做到将35个韵母,有规律的按顺序安排到英文字母键上去,这样势必要造成中文信息处理操作人员,必须死记硬背英文字母键和所代表韵母的对应关系。汉语拼音经过三十多年的大力推广,在群众中有十分良好的基础,这一点对以汉字读音为基础的音码编码来说,确是得天独厚的优点,然而音码最大的缺点是汉字中存在着大量的同音字。为了分解、离散同音字,音码引进了形码之中十分难学难记的字元和部首,这样一来又大大增加了音形码的学习难度。
本发明的目的,主要是提出一个新颖的汉字编码。这个汉字编码既能充分发挥音码得天独厚的优势,又不象音形码那样由于增加了形码的成分而使学习难度增加,并且要实现韵母根据排列顺序,有规律地分布到英文字母键上去。使人们见到一个汉字就能十分简便、快速、自然而然地知道对应于这个汉字的一组编码字母符号,以便中文信息操作人员能更快、更好地进行中文信息处理。
本发明另一个目的是要使我国中文信息界,第一次获得一个有能力、有条件,在全国大面积推广、普及的优秀汉字编码方案。
本世纪二、三十年代,在我国发明并逐渐流行出来的四角号码检字法,之所以取汉字四角笔形作为查字依据,一个重要的原因就是汉字四角位置,在汉字之中特别醒目,所以四角笔形特别容易被确定。我国汉字编码技术中,现有一些颇有名气、颇有影响的汉字编码方案,不约而同地选择了首笔划和末笔划作为辅助信息,编入编码字母中。除了笔划构成简单外,还有一点是和四角号码检字法不谋而合的,就是首笔划大都集中在汉字的左上角,末笔划大都集中在汉字的右下角。正因为首末笔划大都在汉字特别醒目的部位,所以首末二笔划特别容易被确定。本发明注意到上述情况后,下决心将离散、分解同音字的突破点,放在四角笔划信息上。汉字共有三十种左右笔划,将全部笔划归一下类,大致可分为横、竖、撇、捺(点)、折五大类笔划。对于这五大类笔划,本发明分别用数字1、2、3、4、0来代表。汉字有第一、第二、第三、第四四角角码,本发明为了便于表明,规定分别用①②③④为四个角码的专用表示符号所取笔划用粗黑笔划表示。例如,“会”和“彗”二字,它们的读音都是hui,因为它们的读音相同,所以它们的双拼字母必定相同。根据去四字母韵母,韵母顺序代换法,韵母ui用字母y表示,所以“会”和“彗”二字的双拼字母是hy。接下去就取这二字的四角笔码①会 会② ③会 会④根据取码实例,“会”的四角笔划信息是撇、捺、折、点,进而取得四角笔码为3404,①彗 彗② ③彗 彗④根据取码实例,“彗”的四角笔划信息是竖、竖、横、折,进而取得四角笔码为2210。一个角有可能遇到五种笔划信息,①和②、③和④二个角合起来,共有可能遇到25种笔划信息,汉字中最常见的口也被算作一种信息,共有26种笔划信息,进而有可能取得26种笔码。将26种笔码,根据笔码顺序,以及对应关系同26个英文字母相代换。例如,笔码22由英文字母M代表;笔码10由英文字母F代表;笔码34由英文字母T代表,笔码04由英文字母E代表。于是“会”字,可以用HY3404代表,也可以用HYTE代表;“彗”字可以用HY2210代表,也可以用HYMF代表。这样“会”和“彗”不但二字有了区别,而且和所有读音为hui的汉字都区分开来了。
汉字编码分音码、形码、音形码三种类型。音码的缺点,是存在着大量的同音字。形码的缺点是形码通常有一百多个字元部首。使用者还必须记牢这一百多个部首字元和26个英文字母,无规则的对应关系。使用时再要考虑怎样拆分汉字的字元和部首,这些难学难记的部首和规则是广大非专业人员无法掌握的。音形码,增加了形码的成分,同时也增加了难学的程度。正因为三大类型汉字编码存在着不同程度的缺点。目前,我国现有的汉字编码都跳不出这三大类型汉字编码所属的范围。由此产生的结果是,中文信息处理技术长期以来无法大面积推广和普及,汉字编码这项作为我国推广计算机应用急需解决的课题长期攻而不克。本发明在汉字编码技术中自创流派,独树一帜,创造了一种音四笔汉字编码。YSB就是音四笔三字的首字母,YSB编码不要求人们记部件,不要求人们拆分汉字,不要求人们增加识别码。只要认准汉字四角五种笔划,四码中前二码一律为双拼字母,后二码一律为四角笔划。经过几小时学习就能掌握,一旦掌握就能以很快的速度,将汉字化成一行字母符号。音四笔码的这些优越特点是任何形码、音码、音形码无法比拟的。
要掌握去四字母韵母,韵母顺序代换法,只要记住以下口诀:
四字韵母靠边站,单字韵母原字配。
其余各字依次对,窝雍去首同喔轰。
后五韵母后五字,央韵紧跟翁韵后。
上浮四字即汪韵。
口诀第一句四字韵母靠边站。即在韵母排列顺序之中先将iong、iang、ueng、uang四个韵母去掉,使它们不参加韵母顺序排列;口诀第二句单字韵母原字配。即a、e、i、o、u这五个有单字母构成的韵母仍用单字母A、E、I、O、U来表示;口诀第三句,其余各字依次对。即去掉四字母韵母和单字韵母后,将其余26个韵母根据字母顺序排列出来。26个英文字母去掉需要原字配的A、E、I、O、U,其余21个英文字母根据顺序排列出来,于是就得到下面一张排列表。
口诀第四句窝雍去首同喔轰。即把uo(窝)和iong(雍)去掉一个首字母后和o(喔)、ong(轰)一样用英文字母O、S来表示;口诀第五句后五韵母后五字。就是将余下的七个韵母中的后五个韵母同英文字母最后五个字母相代换,于是我们列出下表。
口诀第六句央韵紧跟翁韵后。即iang排在ueng后面用英文字母V表示;最后一句上浮四字是汪韵。即V字母上面第四个字母R代换uang。
去四字母韵母,韵母顺序代换法全表
iong、uo虽然没有根据顺序排列,但把它们去掉首字母后同ong、o放在一起,应该说这是很自然很好记的。原来必须逐一记住的三十五个韵母,当有了顺序代换表后,只要记住iang、uang二个韵母就可以了。
四角笔码定字法
笔划代号对应表
四角定字法,每角有可能取得5种笔划信息,2角合起来有可能25种信息组合。字元“口”也算是一种信息组合,现将26种信息组合和二十六个英文字母一一对应如下;
笔码、英文字母对照表
定字方法:
(一)取角顺序:
1)左右结构汉字先取左上,次取左下角,再取右上角,后取右下角。
例:①②数③④
2)左中右结构的汉字,将其左中结构看成是一个左右结构汉字,然后依照左右结构来取。
例:鹕①②胡③④
3)左右、左中右结构以外的任何汉字,先取左上,次取右上,再取左下,后取右下。
例:①③单②④①③左②④
4)一笔划汉字,①②重复取该笔划;二笔划汉字①②取完二笔划后,取码就算完成。
例:①一 一②所以“一”的四角笔码为11。
①十 十②所以“十”的四角笔码为21。
5)只有三笔划的汉字,在取完三笔划后,④对该汉字重新取码。
例:土字①土 土② ③土 土④
所以土的四角笔码是2111。
(二)左右结构、左中右结构的汉字。当左结构是女、木、扌、亻、氵时。为了更多的选择汉字的其它笔划信息,所以这五大偏旁,在取①就将整个偏旁当作一个笔划全都取走了,这五大偏旁分别有数字0、1、2、3、4代表,左上角由于把整个偏旁都取走了,左下角就向右下角借笔码。
例:①杉②杉 杉③杉④所以杉的四角笔码为1333。
①仗②仗 仗③仗④所以仗的四角笔码为3431。
女、木、扌、亻、氵五大偏旁取笔码顺序为①杉③② ④
(三)上下结构、上中下结构的汉字中,上结构是部首艹,把整个部首艹取笔码为1,然后再取右上角、左下角、右下角。
例:荠字的取法为①荠 齐② ③荠 荠④
所以荠的笔码为1432。
(四)为了减少同码,在左右结构或左中右结构汉字中。当左结构是纟、钅、月、土四个偏旁时,左上角和左下角互为倒取。
例:坷字正常四角笔码为2112,铁字正常四角笔码为3234,但有了本条规定,坷字取码顺序变为②①坷③④,因此坷字四角笔码为1212,铁字四角笔码为2334。
(五)取汉字笔码时,上角优先取最高笔划,当汉字有几个笔划同属最高笔划时,左上角优先取拥有最高、最左点的笔划;右上角优先取拥有最高最右点的笔划。同理,下角优先取最低笔划,左下角优先取最底最左点的那个笔划,右下角优先取拥有最底最右的那个笔划。
例:王字①③王②④“王”字一横一竖同属最高笔划,但最高最左点在王字最上面的一横上,所以左上角①取一横,②取余下的一竖。因此“王”字的①②的笔码为12。
当最高最左点为二笔划共有时,优先取在最高处线段长的这一笔划。
例:“日”字中的竖和折,同属最高笔划,同时拥有最高最左点,而笔划(折),在最高处有一段距离线段,而笔划(竖)在最高处仅有一点是最高最左点,所以日字①取(折)①日。
(六)左角取码,一般不取汉字右边边缘的笔划。右角取码一般不取汉字左边边缘的笔划。但在笔划全都取完了,只剩下左边边缘笔划的情况下,才允许右角取汉字左边边缘笔划。
例:“日”字①日 因为②是右角码,所以无法取左边缘(竖)笔划。所以②只能日②,③取最下面一横③日,右下角④只余下左边边缘笔划(竖),于是日④。
(七)当中起笔的撇,下角有他笔的,优先取他笔;汉字右边边缘起笔的撇,旁边有他笔的,优先取他笔。
例:③衣③复③老②成④
但左边起笔的撇取撇笔作笔码。
例:②辟②尉
(八)除需要进行借码处理的,女、木、扌、亻、氵、艹几个偏旁外,其余汉字左右结构,左角在左结构上取笔码,右角在右结构上取笔码,上下结构汉字,上角在上结构上取,下角在下结构上取笔码。
例:佣字,①佣 佣②佣③③优先取了三面包围型的笔划。
(十)笔划从汉字最高部位起笔,到汉字最低部位止笔,这类笔划称作通长笔划。笔划上面只有一点,笔划到汉字最低部止笔,这种笔划称次通长笔划。笔形 丷同通长笔划,单独相处时取通长笔划,不单独相处取 的笔码。笔划同通长、次通长笔划,单独相处时取通长、次通长笔划。不单独相处时取为笔划。
例:“病”字。笔形;旁边的撇不是通长笔划,
所以③病。
所以①兆 兆②。
例:“沛”字。由于其中的一竖为通长笔划,所以沛②。
所以①鼗 鼗②。
(十一)当取四角笔码时,第1和第3码取到口,即以53代替口字形笔码,其它笔码继续取下去直到取满4位笔码为止。例:“跑”字①②③跑④,所以“跑”字四角笔码为5313。
但当②、④取到口时,由于前一码已被他笔取走,这时字元口只能取笔码53后面后一个3了。
例:“语”字④取53后面的一个3,“语”字四角笔码即为4013。
(十二)凡在竖笔和弯钩旁边的撇,一般不取码。即使取码,要等同高度的笔划取完后,才能取该笔。
例:“杲”字。四角笔码为0124,③不取撇取竖。
例:“木”字。四角笔码为2143,③不取撇取捺,④同高度笔划取完后才取竖笔旁边起笔的撇。
(十三)字元艹、一概作艹、十,除此其它笔形以印刷通用汉字字形为准。例:“真”字。作真取码,四角笔码为2134。
关于ZSB编码的说明:
ZSB也就是对不认识的汉字,先取其字元再取其四角笔码的一种编码方法。由于本方案要求对常用一级汉字应该都会写都会读,所以ZSB只对“GB2312-80”信息交换用汉字字符集中的二级常用汉字进行编码。ZSB对汉字拆分原则是:凡是相交的字元,一律不再拆分。例:“夫”不拆成二人。相接相离的字元可以拆分。例:“天”字,可拆成一大,早字可拆成日、十。ZSB选用了36个常见字元、部首。字元、部首表示符号即为该字元读法的声母。下面列出字元、部首和字母对应表。
注:攵是反文旁,反的声母为f,O为零声母,象“啊”一类汉字,拼音字母只有a代表,可以认为在a前面有一个零声母。双字母声母ch、sh、zh分别用字母A、I、U代表。
凡是只能取一个字元的汉字,取字元后再取该汉字的四角笔码。
例:“晡”字。只有字元日可取,四角笔码为0140,所以“晡”字编码为R0140。根据笔码字母对应表,笔码01由B代表,笔码40由U代表,所以“晡”字编码也可以写作RBU。
凡是能取二个字元的汉字,在取了二个字元后再取四角笔码。
例:“杲”字有二个字元可取,日取R,木取M。“杲”字的四角笔码为0124。
所以“杲”字的编码可写为RM0124。又笔码01和字母B对应,24同O对应,所以“杲”字的编码也可写作RMBO。
凡是能取三个字元的汉字,在取完三个字元后,再取该汉字前二位四角笔码。
例:“坨”字。土取T,宀取B,匕取B。①②为12,笔码12对应于字母H,所以“坨”字的编码为TBBH。
凡是取不到字元的汉字。例:“斛”字。先取字母V,字母V即代表该汉字无字元,部首可以取。再取该汉字的四角笔码。“斛”字四角笔码为3321(SL)所以“斛”字编码为VSL。
关于同码字和简码字之概况
本方案有60对同码,同码率占GB2312-80字集全部汉字的1.8%。由于同码字绝大部分是二级常用汉字,所以估计动态同码率绝对不会超过万分之四。即在文章中大约每2500个字有可能出现一次同码,同其它各类方案相比,本方案同码率应该说是很低的。
为了提高编码效率,本方案使用了438个简码字,简码字分以下三类:
一级简码字:
在特别高频字中选取26个字,分别用26个字母来代表。26个高频汉字如下:
A出、B不、C次、D的、E而、F分、G个、H和、I是、J机、K可、L了、M们、N年、O安、P者、Q起、R人、S所、T他、U用、V为、W我、X学、Y有、Z随。
二级简码字:一律以本字读音双拼字母作为简码编码,一字编为二码。如:
例:字 汉语拼音声母 汉拼韵母 双拼简码
千 q ian(L) QL
耐 n ai(B) NB
双 sh(I) uang(R) IR
本方案除一、二级简码外,为了减少同码,还设一些少量的特殊二级简码,以下18个汉字(边、甫、室、驰、籍、历、梁、漠、摸、砌、翘、芜、坞、削、厌、援、赢、萤)取其四角笔码为简码。
例:字 ①和②的笔码 ③和④的笔码 对应简码
甫 24(O) 20(K) OK
驰 00(A) 20(K) AK
芜 11(G) 30(P) GP
以下10个字(胞、膜、覆、肤、助、狮、烬、界、污、圬)先取其读音声母,再取其第一个字元的读音声母构成简码。
例:字 读音声母 第一字元读音声母 对应简码
胞 b y BY
界 j t JT
污 w s WS
关于声母:
本方案三个双字母声母ch、sh、zh分别用A、I、U代表。a、ai、o等只有韵母没有声母构成的音节,看作该韵母前存在着一个零声母。零声母用O表示,象汉字“啊”汉语拼音符号为a,双拼符号看作在a前面还有一个零声母,所以“啊”字的双拼符号为OA。音节是韵母er的汉字。就将该汉字看作声母是e,韵母是r的音节,i行的韵母前面没有声母时,由于它们是用yi、ya、ye、yao……来表示的,所以认为在i行韵母前存在着一个y声母。u行的韵母前面没有声母时写作wu、wa、wo……,所以可以认为在u行韵母前存在着一个w声母。
关于词语编码:
本方案将词语分为双字、三字、四字和四字以上四类。一个词语为四码。
1)双字词语编码:全为词语二个汉字的双拼音节编码。
例:应用,编码为YQYS 语言,编码为YUYC
2)三字词语的编码:先取每个字的声母加上最后一个字的韵母即成。
例:计算机,编码为JSJI 新华社,编码为XHIE
3)四字词语的编码:取每个字的声母为编码。
例:五讲四美,编码为WJSM 吉祥如意,编码为JXRY
4)五字和五字以上的词语编码:取前三个字的声母加上末一个字的声母。
例:中国人民银行,编码为UGRH
五讲四美三热爱,编码为WJSO
国家科学技术委员会,编码为GJKH
最后附上64对同码汉字
羼-孱,鸱-饬,鸨-孢,鹁-勃,缤-殡,
癫-癜,蝮-蚨,馥-鳆,祓-黻,皋-睾,
轱-牯,瑚-醐,笏-鹄,绱-殇,畿-亟,
笈-箕,鹣-湔,桕-厩,趄-掬,鞠-鞫,
暌-睽,雳-鹂,荔-励,疠-疬,躐-咧,
麋-縻,瞑-暝,弩-驽,芪-碛,蜞-歧,
謦-磬,蚯-蝤,阕-阙,驷-鸶,凇-竦,
慝-忑,峒-捅,胝-炙,踬-踯,豌-琬,
鼯-牾,曦-屐,蟋-螅,哮-啸,衙-伢,
郾-鄢,餍-赝,殷-筵,谳-阉,钥-铫,
场-圮,蚁-懿,铱-镱,癔-痍,逸-迤,
璎-楹,萦-瑛,瘀-瘐,仔-辎,
糊-祜-滹,鸲-劬-朐,巍-嵬-隗,毋-鹜-鹜,
膺-鹰-赢
Claims (2)
1、汉语拼音韵母表中的35个韵母,单字母韵母用原字母代换,四字母韵母暂不参加顺序代换iong、uo去首字母后和ong、o用同样的字母代换,iang和uang分别用字母V、R代换,其余韵母一律依照排列顺序和相对应排列顺序中的英文字母代换。
2、从汉字四角取笔划信息,进而取得四角笔码,使这四角笔码成为确定这个汉字所需多种信息之中的构成部分。(其它多种信息,它们有可能是汉字的声母、韵母、字义、字型、部首、字元、首笔划和末笔划等。)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 91101998 CN1072371C (zh) | 1991-03-29 | 1991-03-29 | 拼音四角笔码计算机汉字输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 91101998 CN1072371C (zh) | 1991-03-29 | 1991-03-29 | 拼音四角笔码计算机汉字输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1061294A true CN1061294A (zh) | 1992-05-20 |
CN1072371C CN1072371C (zh) | 2001-10-03 |
Family
ID=4905371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 91101998 Expired - Lifetime CN1072371C (zh) | 1991-03-29 | 1991-03-29 | 拼音四角笔码计算机汉字输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1072371C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870006A (zh) * | 2014-02-26 | 2014-06-18 | 韦有学 | 汉字无重码输入法 |
-
1991
- 1991-03-29 CN CN 91101998 patent/CN1072371C/zh not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870006A (zh) * | 2014-02-26 | 2014-06-18 | 韦有学 | 汉字无重码输入法 |
Also Published As
Publication number | Publication date |
---|---|
CN1072371C (zh) | 2001-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1061294A (zh) | 拼音四角笔码和字元四角笔码汉字编码方案 | |
CN1052200A (zh) | 音形义字词兼容编码系列及键盘 | |
CN1137432C (zh) | 快易码汉字输入法 | |
CN1285538A (zh) | 汉字结构化分区编码输入法及键盘 | |
CN1123817C (zh) | 一种汉字输入法 | |
CN1159642C (zh) | 简化汉字声形码输入方法 | |
CN1256644C (zh) | 一种偏旁部首汉字输入方法 | |
CN1056007C (zh) | 一种以汉字音角特征为信息元的计算机汉字输入方法 | |
CN1108551C (zh) | 优化赋音形码计算机汉字输入方法 | |
CN1190758A (zh) | 汉字声韵调三拼音形编码法 | |
CN1825254A (zh) | 汉字输入法及其所用的计算机键盘 | |
CN1052314C (zh) | 一种汉字二维数码的计算机键盘输入方法 | |
CN1195261C (zh) | 四韵两声汉字输入法 | |
CN1054445C (zh) | 一种计算机汉字编码输入方法及其键盘 | |
CN1215183A (zh) | 一种汉字辞书检索和微机输入法及键盘 | |
CN1366227A (zh) | 汉字免拆分快速输入法 | |
CN1388439A (zh) | 汉字纯部首编码计算机输入法 | |
CN1378127A (zh) | 声形合一单笔汉字输入法 | |
CN1031301C (zh) | 汉字偶体隐现键盘码及输入键盘 | |
CN1407435A (zh) | 模糊码输入计算机的方法 | |
CN1046401A (zh) | 汉字三笔字型编码输入法及输入键盘 | |
CN1104353A (zh) | 形声汉码输入法 | |
CN1379307A (zh) | 全息万能规范汉字编码及高速输入法 | |
CN1175722A (zh) | 计算机中文通用输入法 | |
CN1224280A (zh) | 汉字表形快码计算机输入方法及其键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C15 | Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993) | ||
OR01 | Other related matters | ||
AV01 | Patent right actively abandoned | ||
AV01 | Patent right actively abandoned | ||
C20 | Patent right or utility model deemed to be abandoned or is abandoned |