CN1271492C - 26104电脑汉字自动转换输入法 - Google Patents

26104电脑汉字自动转换输入法 Download PDF

Info

Publication number
CN1271492C
CN1271492C CN 02110553 CN02110553A CN1271492C CN 1271492 C CN1271492 C CN 1271492C CN 02110553 CN02110553 CN 02110553 CN 02110553 A CN02110553 A CN 02110553A CN 1271492 C CN1271492 C CN 1271492C
Authority
CN
China
Prior art keywords
chinese
word
chinese character
meaning
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 02110553
Other languages
English (en)
Other versions
CN1432896A (zh
Inventor
李公宜
李海飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 02110553 priority Critical patent/CN1271492C/zh
Publication of CN1432896A publication Critical patent/CN1432896A/zh
Application granted granted Critical
Publication of CN1271492C publication Critical patent/CN1271492C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及的既是一种新的高效拼音输入法,又是一种形、音、义一体化的、可以在电脑网络环境下进行交流的汉字拼音系统。它是根据形体国际化、表音声韵化、表意集约化、字词组合化的原则,在26个拉丁字母基础上扩充开发10个数字韵母及4个声调符号作为主要措施,建立完整表音体系,并利用本系统现有字符建立34个语义分类,从而形成形、音、义一体化的拼音汉字体系。本系统把汉字建立在语素化基础上,通过解决同音字从根本上解决同音词的问题。既继承了语素字的传统又确立了词的独立形态。本发明将为汉字拼音化开拓一条成功的工程实验之路。为我国语文现代化建设尽菲薄之力。

Description

26104电脑汉字自动转换输入法
26104电脑汉字既是一种新的高效拼音输入法,又是一种有音有意、可以阅读和交流信息的汉字系统。但只能在电脑网络的环境下和相互熟悉该系统的网友之间才能有效进行,所以称为电脑汉字。
在当前诸多的汉字编码输入方法中,拼音一直处于第一家族的位置,使用的人数最多。但它始终存在着一种不容忽视的缺点,即输入速度较慢,效率较低。无法与西方拼音文字的高速盲打相匹敌。为了改善这种被动状态,最近几年来,一些专家学者企图通过“纯拼音句输入自动转换系统”省去频繁的选字、选词操作,实践的结果并不理想,有的甚至还不如一般的汉字输入系统。主要原因有三:一是句输入本身有很大的局限性,只有文稿输入才能用句输入、选词、选字及歧义排除需要强大的数据库和语义分析软件的支持,智能化处理的满意度或准确性,当前仍处于较低的水平,特别是单音节词比例高的句子、夹杂着生字、生词的句子以及较长的句子,更容易出错,如果一个句子发生了一处错误,都必须回到手工纠错状态,纠正后再进入下一句的输入。纠错一多,操作员就会出现烦躁情绪,输入速度反而更慢了。二是即使在顺利状态下,按照汉拼全拼输入法,不标调、不分词、无纠错,平均需要3.2键/字,但这是不可能达到的。因为任何输入法都无法排除击键的错误。为了减少智能化处理的错误,通常需要标调和分词,就要增加相应的标调健和空格键,此外还要增加3%-5%同码选择键(这是目前句输入可能达到的较高水平),因此实际上可能达到的平均码长是3.8键/字-4.2键/字。效率与速率仍然较低。三是纯拼音句输入自动转换系统,本质上就是以汉语为目标的自然语言理解系统。它需要一个十分宠大的海量词语库,需要建立并能实时进行调整扩充的语法词典库,以及强有力的语义智能化判断软件等。开发这样一个系统的投资将是一个普通的汉字输入系统的几十倍、数百倍甚至更高。而其结果并不比一个普通的汉字输入系统高明多少。这样的系统,在市场经济中,是没有发展前途的。事实上现在人们广泛使用的只是一般的拼音输入法,并不是纯拼音句输入自动转换系统。
实践是检验真理的唯一标准,中国人向西方学习拼音文字的理论,已有一百多年的历史;以三纯(纯音素化、纯拉丁化、纯口语化)为指导原则的拼音化实践,也有七十来年了;作为法定的汉语拼音方案,在全国普遍推行,已快半个世纪;纯拼音汉字编码的试验也有二十多年了;现在又有了纯拼音句输入自动转换的试验。有哪一项试验可以证明,以三纯为指导原则的汉语拼音能作为文字使用吗?它能精密、快速、高效地表述汉语吗?事实上这样的质疑和挑战,在中国拼音文字理论的发展史上,自从确立了三纯的绝对权威以后,从来就没有停止过。而全面、系统和公开否定拉丁化纯拼音路线的是资深汉字学家袁晓园先生,并且提出了她所发明的民族化的拼音汉字方案。该方案在继承和发扬汉字本质特点上是一个很好的方案,但她显然忽视了方块字的固有缺点和文字形体国际化的重要性,造成了难以弥补的重大缺陷。方块字的形体已经使我们失去了一个文字机械化的时代。在信息化时代里,它又使我们背上了一个沉重而且无法卸掉的大包袱。在面对高速发展日新月异的软件和硬件资源纷至沓来时,永远无法与西方处于同一起跑线上,总是比人家迟后一到数拍,总是落在人家的屁股后头。不就是因为方框汉字这个大包袱的存在吗?方块字的另一重大缺陷是它严重束缚了词的独立形态的发展,影响了文字表述的精密度的提高,就是作为一个语素字,实行字母化和拼音化以后,也是有长有短的,有单个字母表示的,有两个、三个以至多个字母表示的(因为还有多音节的语素),怎么可以千篇一律地固定在面积相同的小方块里呢?第一个具有实用意义的电脑汉字输入法,是浙江大学张飞鹏先生发明的“汉语表意拼音输入法”(1999.9.29获得国家专利授权)。它以汉语拼音为基础,通过实词加意尾、虚字定型化的方法,有效地分化了大量同音词,使重码率下降到5%,平均码长达到3.6键/字。这个水平对于文字而言是不高的,根据统计分析,一个方块字相当于3.2个英文字符,这表明用张先生的输入法比英文的输入效率要低10%还多。如果考虑重码处理的影响,以及键位分布有利于英文输入而不利于中文输入等因素,实际的中文输入效率,还要低得更多。从阅读效率看,以汉语拼音为基础的表意拼音输入法,对相同内容的文章来说,它的篇幅比英文还要多10%以上,比方块字要多80%,其必然结果是使阅读效率最高的汉字反而不及英文的阅读效率了。汉字拼音化和现代化的根本目的是为了提高汉字的综合效率,要创立高效率的拼音汉字,就必须突破七十多年来纯音素化、纯拉丁化的汉语拼音路线强加在我们头上条条框框,用更加符合两千多年来切音的民族传统与汉语语音特点的声韵双拼取代西方音素化的全拼,将是我们在语文现代化的道路上面临的一个重大选择。
文字的形、音、义三要素,形是外壳,音是中介,义是内核,是联系万事万物的纽带。汉语的自然音节只有410多个,而所表达的语义却多达15000多项,平均每个音节有36个义项。如果以纯拼音为准则,就只能有四百多个可以相互区别的单音节形体,每个音节平均承担36个义项(多的甚至数以百计),当然无法建立音义之间的条件反射,也就谈不上精密、快速地表述语义。这一点与西方语言有着本质的区别,同样作为单音节,其形态却十分丰富,有单元音领头、双元音领头、单辅音领头、双辅音领头、三辅音领头等,相应的还有多种结尾形态,其单音节的发音是复杂多变的,对应纯拼音的音节结构一般都有四、五千之多,再加上双音节和多音节复杂多变词形结构,就足以建立起形音义高度一致的西方拼音文字体系。
中国文字改革只能走继承与创新相结合的路,也就是走汉字改革的路,走汉字现代化的路。而不是完全脱离汉字、否定汉字、斩断汉字的历史发展,按三纯原则以词为纲创建与汉字没有任何联系与汉语内在特点不相适应的纯拼音文字。字是中国文字大厦的基础,是形音义最小的统一体。它的单个语素的特征、音义共存的特征以及没有形变的特征等本质特点,必须得到继承和强化。同音异义的矛盾必须而且可能最大限度地以音意整合的方式在字的基础界面上取得突破。这是汉字拼音化和现代化进程获得完胜的关键。
在总结分析汉字拼音化理论与实践的基础上,26104电脑汉字系统的指导思想是:形体国际化、表音声韵化、表意集约化,以字为基、按词组串、通过试验、逐步完善。
26104电脑汉字系统的基本构架如下所述。
一、字母字
a 阿 b 不 c 出 d 的 e 而 f 发 g 工 h 和 i 一 j 及 k 看 l 了 m 们 n 能 o 我p 批 q 起 r 人 s 是 t 他 u 有 v 为 w 无 x 小 y 要 z 在
二、数字
0 ○ 1 一 2 二 3 三 4 四 5 五 6 六 7 七 8 八 9 九
三、声母
b p m f d t n l g k h j q x z(z,zh)c(c,ch)s(s,sh)r
四、零声母
w y a e i o u v
五、韵母
韵母通常是由下列单个字母或阿拉伯数字表示,
位于声母或零声母之后。
a(a,ia,ua) e(e,ie) i(i,uai) o(o,uo,üan) u(u,ü) v(ei,ui,üe) n(en,in)w(un,ün) y(u,ü,uan) 0(ong,iong,ueng) 1(iao,ao,uai) 2(ai,ie,uai) 3(an,ian)4(ang,iang) 5(ao) 6(iang,uang) 7(in,ing,eng) 8(ian,uan) 9(iu,ou)
有12个字使用双字母表示韵母,如lou(漏),diu(丢),dia(嗲)等。
六、调符
-表阴平,/表阳平,\表上声,`表去声。调符是电脑汉字固定形态的组成部分,不是可加可不加的机动符号。
调符通常置于韵母之后。也可位于声母之后直接表示一个略去了韵母(i或u,e)的带调音节。主要用于同音字大量集中的音节。
当零声母与调符连接时按带调韵母发音。如:a-,a/,a\,a`分别代表带不同声调的“啊”字。
七、双拼字
以单音节的声韵结构为主体,共1487字。其中又分为两类:
1.不带调符的双拼字,如:
ai(爱)an(安)ba(把)b2(百)c3(产)c4(长)d5(到)d7(定)ee(额)en(恩)f3(反)f4(方)ga(挂)gi(怪)h2(还)h6(黄)i3(烟)in(因)j2(解)jn(进)k0(空)k8(宽)ly(旅)l2(来)m7(民)mo(模)n8(年)n9(牛)ou(偶)oo(喔)pi(疲)pv(配)qe(且)qu(区)ru(如)re(热)s4(上)si(思)ta(它)t8(天)ue(约)un(云)v2(歪)va(挖)wa(瓦)w8(万)xi(西)xn(新)ya(牙)yo(原)z1(拽)z2(再)
2.带调符的双拼字,又可一分为二:
①省去韵母的声调结构,如:
b-(逼)b/(鼻)b\(比)b`(避)——省去韵母i;
k-(科)k/(咳)k\(可)k`(克)——省去韵母e;
f-(夫)f/(服)f\(辅)f`(负)——省去韵母u;
声调结构主要用于同音字高度集中的音节。
②完整的声韵调结构,共有849字,如:
ma-(吗)ma/(麻)ma\(码)ma`(骂)等。
除单音节双拼字外,还有双音节和多音节双拼字,如:
mada(马达),mahu(马虎),d0bula(冬不拉),x-l\hala(希里哗啦)等。
八、意符分类
a——表示事物处于急剧、强烈、激奋、亢进、显露、变化的状态;
b——表示生物肌体的衰老病死;
c——表示鱼类、鸟类、昆虫类、家禽类等以及各种低级动物;
e——表示事物处于缓慢、衰弱、潜隐、稳定、微变的状态;
f——表示纺织、皮革、缝纫及衣着类用品;
g——表示金属材料、制品、金融、经济;
h——表示声音、语言及口部之功能与动作;
i——表示事物的数、序、量、频关系;
j——表示工具、农具、刀具、量具及生产器具;
k——表示物体的空间形态、距离、方位与方向;
m——表示木、竹、类植物及其制品;
n——表示女性称谓及女性特征;
o——表示动作行为过程的产生、持续、发展、扩大、促进、加速和加强;
p——表示哺乳类动物及畜牧业;
q——表示气态物质、化合物及复合材料;
r——表示社会职业、身分及男性称谓;
s——表示水和液态物质及其特性;
t——表示地理、地质、地形、地貌和地域;
u——表示动作行为过程的收敛、减缓、调试、控制、阻扼、挫折或消失;
v——表示与手有关的动作;
w——表示文化、艺术、文字、文具、文言虚词及考古;
x——表示思想、意识、感情与情感;
y——表示生理、卫生、解剖及医药;
z——表示政治、法律、道德和宗教;
0——表示眼、耳、鼻、舌、身、足的功能与动作;
1——表示住房与建筑;
2——表示丑陋、狂暴、卑劣、灾祸、凶恶、危害、险患之性态;
3——表示家庭及个人生活用具、用品、器皿等;
4——表示饮食、烹饪、食品、炊具等;
5——表示军事、军队、装备、武器、弹药、战争等;
6——表示草本植物、农作物以及各种菌藻、苔藓低级植物;
7——表示天文、天体、天象、天时及宇宙自然之变化;
8——表示交通运输、道路设施、邮电通讯;
9——表示诚挚、善良、优美、吉利、祥和、平安、幸福之性态。
意符作为哑字符固定于音节之尾,即韵母或调符之后的第三个字符。对多音节语素字所加的意符,置于末音节之尾。两个均带意符的语素字连接时,在不发生歧义的条件下,一般省去第二个意符,如两意符相同则省去第一个字的意符。
九、音意字
单音节音意字有声、调、意和声、韵、意两类。共4312字。如:
f0a(丰)f`a(富)j3a(坚)y7a(硬);j/b(疾)b7b(病)s4b(伤)w4b(亡);
y/c(鱼)iac(鸭)sec(蛇)c0c(虫);p7e(贫)r0e(弱)q7e(轻)r9e(柔);
i-f(衣)m5f(帽)xef(鞋)waf(袜);jng(金)ing(银)teg(铁)t0g(铜);
s7h(声)inh(音)hah(话)y\h(语);j9i(九)s/i(十)bai(八)svi(岁);
d5j(刀)f\j(斧)18j(镰)l/j(犁);h9k(厚)bok(薄)jyk(巨)h0k(弘);
y4m(杨)19m(柳)g3m(柑)jum(橘);jen(姐)mvn(妹)s5n(嫂)i/n(姨);
b8o(编)b3o(搬)z`o(制)zoo(做);sup(鼠)n9p(牛)hup(虎)tup(兔);
q7q(氢)d3q(氮)i6q(氧)bnq(苯);bor(伯)z0r(仲)sur(叔)fyr(父);
j4s(江)hus(湖)c5s(潮)s/s(湿);s3t(山)s/t(石)t8t(田)ant(岸);
m8u(免)cuu(除)b`u(闭)seu(塞);hvv(挥)b5v(抱)j9v(揪)nev(捏);
qnw(琴)q/w(棋)suw(书)haw(画);bvx(悲)aix(哀)j7x(惊)xax(吓);
j-y(肌)f-y(肤)guy(骨)xvy(血);liz(吏)lyz(律)j3z(监)z7z(政);
f41(房)g01(宫)g81(馆)gel(阁);z22(灾)h22(害)i42(殃)ho2(祸);
p73(瓶)g83(罐)dn3(凳)zo3(桌);c54(炒)dw3(炖)y74(饮)h/4(喝);
g05(弓)j85(箭)q45(枪)p55(炮);ga6(瓜)c26(菜)d96(豆)he6(禾);
cw7(春)xa7(夏)q97(秋)d07(冬);x78(行)iu8(游)ja8(驾)bo8(舶);
189(廉)qn9(勤)q39(谦)m18(妙);f\0(俯)i60(仰)t10(跳)i10(跃);
此外还有少量的多音节音意字,如;
g313m(橄榄)p/pam(枇杷)nenu0(嗫嚅)等。
十、大写
专名的首字符要大写。如:
Afuh3`阿富汗B\lis/比利时S4h2s上海Bvj7t北京
当连字成词时,如后一个字的首字母与前一个字的末字母可能构成双拼声韵结构时,或可能误解为一个意符字时,则后一个字的首字母要大写。如:
h0(红)与r(人)连接为“红人”时,应写成″h0R″而不应写成″h0r″。
专名与通名组成词时,一般只是专名的首字母大写,如:
S4h2ss`t上海市J4sxis7t江西省xL\小李15L\老李daL\大李。
当通名在专名之后可能混淆时,通名的首字母要大写。如:
Z0goR中国人(不要写成Z0gor)IngoR英国人H3/goR韩国人。
专名字与专名字组成专名词时,两个专名字的首字母都要大写,如:
EuYa`dalutq1欧亚大陆桥J7tJ9iteglu京九铁路。
在财务票据方面对金额数据要大写,如:
I-iW8S3Q3L9iB2W\S/iE`Yog壹万叁仟陆佰伍拾贰圆。
连续的大写字母只能用于缩略词语的场合(包括外来语),如:
QM(千米),GJ(公斤),QK(千克),QW(千瓦),WTO,IBM等。
十一、数字的应用
本系统把阿拉伯数字拓展为汉字系统的一个组成部分,而其表达数值的功能,仍按国际通用的方式予以保留。同时强调指出,在不影响传统语义表述的条件下,可以适度地强化阿拉伯数字的表述功能。如:
“二○○一年十月三十一日”可记为:2001.10.31或2001n8 10yv 31ri;
“第二○八号”可记为:d`208 h5;
“星期一,…,星期六”可记为:x77q-1,…,x77q-6;
“一千三百五十八次”可表述为:1358ci。
“八时三十六分五十八秒”可表述为:8s/36fn 58mli。
在一般表述具体的数或序时,提倡用阿拉伯数字表示。而在一般词语中,如:“一般、一定、一致、一二、七零八落、五花八门、四面八方、三心二意、三教九流、三头六臂、三五成群”等等,不得用阿拉伯数字代替相应的拼音数字。
应当理解“1s/和is/(一时)”,“1q和iq(一起)”的区别,如:
1s/k2ce(一时开车);is/c0-d0(一时冲动);1q s`gy(一起事故);iq xvx/(一起学习)。大数或长数可用拼音数量单位字与阿拉伯数字相结合的方式,如:
13i`i 9000w8(十三亿九千万);9w8 9q3 9b2 9s/i9(九万九千九百九十九)。
如果全用拼音数字去表示一个由高位到低位的具体数值,其效果明显不及纯表意的阿拉伯数字。如:
99999这个数全用拼音字表示,就成了:j9iw8j9iq3j9ib2j9is/ij9i。其长度是前者的五倍。比方块数字“九万九千九百九十九”也长50%弱。
十二、按词组串连写
方块汉字是字挨字等距离排列的,没有分词,有时对理解句子可能出现歧义。如“人才是决定一切的因素”这个句子,不论是口语还是书面语,都含有两种不同的理解,一种是把“人”理解为“决定一切的因素”,而另一种是把“人才”理解为“决定一切的因素”。电脑汉字是由字母或字符组成字,由字组成词,再由词组成句子。在词与词之间,通常要用空格分开,使词的形态固定化。歧义减少了,文字表述语义的精密度提高了。例如对以上例句的两种理解,本系统将表述为:
r c2 s jvd7 iqe-d insy`(第一种理解);
rc2 s jvd7 iqe-d insy`(第二种理解)。
要正确处理d(的)的连与分。根据精确反映语义的原则,该分就分,该连就连。如“打我的小孩是张三”这句话,就可能有两种含义:
①“张三”与“小孩”是同一个人,就是“打我”的人。对此,本系统表述为:
da\o d xh2r s Z4s3.(o与d分写)
②“张三”打“小孩”,而“小孩”却是“我”的。对此,本系统则表述为:
da\od xh2r s Z4s3.(o与d连写)
要妥善处理1(了)的连与分。当在动词或形容词之后且动作、或状态已经实现,1(了)应连写;在动词或形容词之后,但动作或状态并未实现,只是表示一种愿望或趋势,则宜分写。如:
t z91(他走了)——表示动作已经完成
t y z9 1(他要走了)——表示一种愿望虽然动作、行为或状态已经实现,但它前面的字带有名词性质,也应分写。如:
t hv/ja 1(他回家了);t8 xay\7 1(天下雨了);xake`1(下课了)。
分词连写的根本目的,是为了精密表达汉语的语义。它的具体细则只能在实践中逐步完善。
十三、键位的调整与优化
语言不同,各个字母的使用频率的分布也就不同。现在的通用键盘主要是根据英文打字机的布局传承下来的。作为一种通用的硬资源,我们可以使用它,无权改动它。但是可以通过软件方式对它的布局进行调整,以适应输入中文的特殊需要。
调整的原则是:
1.考虑到声母数量与本系统用作韵母的数量基本相近,特将声母键置于左手控制之下,
韵母键位则置于右手控制之下,形成声、韵交替的格局;
2.考虑到声母发音近似的特点,可按bpmf,zcsr,dtln,jqxy,gkhw五列四排分置于左手的小指、无名指、中指、食指相应控制之下,并使频率高的声母键布置在击键效率最高的二、三两排键位上;
3.由于本系统已把十个数字键用于韵母,原来的单排顺序布置改为按数字小键盘的格局,使主键盘的数字键指法与小键盘的数字键指法统一起来;四个调符,去声`由左手控制,阴平-、阳平/、上声\由右手控制,键位不变。左、右手的击键频率接近平衡。
4.经过调整以后,可以达到“声韵交替、左右逢源、得心应手、提高效率”的目的,调整后的布局将如下图所示:
注:各个键位的上、下档符号的原有搭配关系不变。
十四、例文与比较1.S-s`n s/4 s-p s\w(施氏食狮史)
s/ts`1 s-ws`r S-s`n,s`x s-p,s`h s/4 10s-p.s`n s/s/s`8 s`t s`0 s-p,10s/,s`9 10s-ps`8 s`t.ss/,s`9 S-s`n s`8s`t.s`n s`0 10s-p,six s\5 s`a,s\s 10s-p s`bs`7,s`n s/v s10s-p s-y.s`8 s/ts`1.s/ts`1s/s,s`n s\s`5s`v s/ts`1.s/ts`1 s`v,s`n s\i s`u s/4 10s-ps-y.s/4s/,s\i s/x s 10s-p s-ys/a 10s/ts-p s-y.
石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市,氏视十狮,恃矢势,使是十狮逝世,氏拾是十狮尸,适石室,石室湿,氏使侍拭石室,石室拭,氏始试食十狮尸,食时,始识是十狮尸实十石狮尸。
注:此文乃语言大师赵元任先生所作,文中所有字词皆属同一音节,意在对主张拼音文字者们将一军,若能以拼音文字译出此文而无差错,赵将举双手赞同之。今26104电脑汉字虽可不辱其命,然译文之长,比原文大45%,论阅读效率,电脑汉字自愧弗如也。就听觉而言,因声调已全部标出,其精密正确决不逊于方块文。其实,这样的句子,只能看懂,无法听懂。它说明一个道理,文字所含的信息量,总是大于语音的信息量。
2.gogew gewc ih(国歌歌词)
q12!byo zoo nul ir d rm,ba omd xvyr9 zyoc7 wm xnd c4c7t.Z0ha/m7zur d51 zvveix8\ds/h9`,mv\g`r bvb-ze fc zvh9d h9s7h,q12!q12!!q12!!!om w8z0r ixny,m5`ze d/Rdp55ho\,q8jn!q8jn!q8jn!jn!
起来!不愿做奴隶的人们,把我们的血肉筑成我们新的长城。中华民族到了最危险的时候,每个人被逼着发出最后的吼声。起来!起来!!起来!!!我们万众一心,冒着敌人的炮火,前进!前进!前进!进!
译文包括空格和标点符号共181个字符,原文包括汉字与标点符号折合长度基本相当。译文使用的意符12个。平均每15个字符中含一个意符,即每七个汉字平均使用一个意符,这是比较简短的情况。更多的抽样检查表明,一个汉字相当于2.2个字符,平均是每五个汉字要用到一个意符,译文的长度平均比原文长10%,抽样动态重码率为○。这是比较稳定的一般情况。文字的精密度高于方块字。
根据以上的一般情况,可以对26104电脑汉字与方块汉字的基本性能作出如下的分析和比较:
(一)、电脑汉字与方块汉字具有相同的本质特点,都能正确地精密地表述汉语。作为文字交际工具,方块字可以完成的功能,电脑汉字也同样可以完成。包括表述不同形式的民族文学语言,从白话文到文言文,小说、散文、诗、词、歌、赋,成语、谚语、俗语、缩略词语、评弹、相声、剧词等等一切传统的的民族文艺都将得到继承。但也要指出,方块汉字所特有的书法艺术,与方块形体密不可分的特殊词语如“丁字尺、十字街、八字胡、八字还没有一撇”以及字谜等,将无法通过电脑汉字来继承。
(二)、电脑汉字与汉语的联系比方块汉字更紧密,它的拼音方法完全符合汉语语音的特点,比音素式汉语拼音更易学,从根本上改变了汉字表音落后的状态;其音意整合的表意体系,显得比单纯的表音和古朴而又庞杂的表意方式更有活力;它既强化了语素字的基础,又体现了词的相对独立形态,有效提高了表述汉语的精密性,使汉语与汉字的联系更加紧密。实现了拼形、拼音和拼意的三结合。因此,电脑汉字显然比方块字更易学,无论是对儿童、对成年文盲或对外国人都是如此。
(三)、它具有极高的技术性能。26104电脑汉字所采用的四十个基本字符,是全世界使用最广泛的通用字符,在文字信息技术性能的对比中,完全可以和任何西方文字处于同一起跑线上,而它所达到的平均一个汉字的语义信息只需要2.2个基本字符的水平,就足以使西方所有的拼音文字黯然失色。
①它将是世界上写得最快的文字,与英语比要快近50%,与方块字比快近60%,未来电脑发展的重要趋势是掌上电脑,而掌上电脑的文字输入方法主要是手写输入,电脑汉字之简短及其形体之简洁将最有利于手写输入,其效率非其它文字系统可比;
②通过键盘打字的方式输入仍然是一般文字快速输入的主要方式,26104电脑汉字由于特别简短而又可通过软件方式对键位分布进行优化组合,可实现“声韵交替、左右逢源、得心应手”快速盲打,其技术优势毋庸置疑;
③它的阅读效率除了在文言文方面低于方块字外,一般的书面文章,可与方块字持平。将继续保持汉字在扫读效率方面相对于西方拼音文字的领先地位。
④它一劳永逸地解决了汉字的排序问题,检索问题;
⑤它实现了汉字代码的文字化,彻底地解决了汉字进入计算机的瓶颈问题,在计算机及其网络的环境下,电脑汉字本身就承担着交换信息的义务,原则上不需要专门的中文操作系统或平台的支持,一切西文的字词处理软件,都可以直接用于电脑汉字。电脑汉字的信件、文章可以畅游国际网络,而成为传输效率最高的文字,从而真正实行“二十一世纪是汉字发挥强大威力的世纪”的期盼。
⑥电脑汉字将讨回一个汉字机械化的新时代,并以汉字信息化的强大动力推动我国实现语文的真正现代化和信息产业的高速发展。
⑦电脑汉字与方块汉字有相同的基因与血型,从电脑汉字转换到方块汉字,在自动转换软件的支持下,只是一键之劳。
⑧从电脑汉字到拼音汉字只是从多到一的关系,即从若干种相互竞争的电脑汉字,经过群众性的实践、检验和不断完善,逐渐形成一种公认的、最佳的、统一的拼音汉字,最后通过法定程序成为可以在社会上与方块汉字同样有效的汉语新文字。新老两种汉字由于具有相同的内在特点,完全可以相互掺用、相互替代。替代的过程将是缓慢的、平滑可导的、有序的。最终完成历史性的新老汉字的交替。拼音汉字是汉字的新生,而不是汉字的灭亡。拼音汉字将是未来世界最强有力的文字,技术性能最好和效率最高的文字,当然也是使用人口最多的文字,随着我国综合国力的增强和国际地位的提高以及国外学习新中文的人数的空前增多,拼音汉字将最终成为国际交往的首选文字。

Claims (1)

1.26104电脑汉字自动转换输入法,是在由26个拉丁字母,10个阿拉伯数字和4个用于表达声调的符号’_/\`’所构成的形音义一体化的电脑汉字系统的基础上,通过自动转换的方式,达到向电脑输入传承汉字的目的,电脑汉字的架构如下所述:
一、字母字
a阿 b不 c出 d的 e而 f发 g工 h和i-j及k看 l了 m们 n能 o我 p批 q起 r人 s是 t他 u有 v为 w无 x小 y要 z在
二、数字
1-2二3三4四5五6六7七8八9九0○
三、声母
b;p;m;f;d;t;n;l;g;k;h;j;q;x;z:z,zh;c:c,ch;s:s,sh;r;
四、零声母
a e i o u v w y
五、韵母
由单个字母或阿拉伯数字表示,位于声母或零声母之后:
a:a,ia,ua;e:e,ie;i:i,uai;o:o,uo,üan;u:u,ü;v:ei,ui,üe;n:en,in;w:un,ün;y:u,ü,uan;
O:ong,iong,ueng;1:iao,ao,i;2:ai,ie,uai;3:an,ian;4:ang,iang;5:ao;6:iang,uang;7:in,ing,eng;8:ian,uan 9:iu,ou
六、调符
_表阴平,/表阳平,\表上声,`表去声;
七、双拼字
以单音节的声韵结构为主体,分为两类:1.不带调符的双拼字;2.带调符的双拼字,又分为两类:(1)省去韵母的声调结构(2)完整的声韵调结构;还有双音节和多音节双拼字;
八、意符分类
a--表示事物处于急剧、强烈、激奋、亢进、显露、变化的状态;
b--表示生物机体的衰老病死;
c--表示鱼类、鸟类、昆虫类、家禽类及各种低级动物;
e--表示事物处于缓慢、衰弱、潜隐、稳定、微变状态;
f--表示纺织、皮革、缝纫以及衣着类用品;
g--表示金属材料、制品,经济、金融;
h--表示语言、声音及口部之功能与动作;
i--表示事物的数、序、量、频关系;
j--表示工具、农具、量具、刀具及生产器具;
k--表示物体的空间形态、距离、方位与方向;
m--表示木、竹、类植物及其制品;
n--表示女性称谓及女性特征;
o--表示动作行为过程的产生、持续、发展、扩大、促进、加速和加强;
p--表示哺乳类动物及畜牧业;
q--表示气态物质、化合物及复合材料;
r--表示社会职业、身份、男性称谓;
s--表示水和液态物质及其特性;
t--表示地理、地形、地貌、地质、地域;
u--表示动作行为过程的收敛、减缓、控制、调试、阻扼、挫折或消失:
v--表示与手有关的动作:
w--表示文化、艺术、文具、文字、文言虚词及考古:
x--表示思想、意识、感情与情感:
y--表示生理、卫生及解剖及医药:
z--表示政治、法律、宗教与道德:
0--表示与眼、耳、鼻、舌、身、足的功能与动作:
1--表示建筑与住房:
2--表示丑陋、狂暴、卑劣、灾祸、凶恶、危害、险患之性态:
3--表示个人及家庭生活的用品、用具、器皿:
4--表示饮食、烹饪、食品、炊具:
5--表示军事、军队、装备、武器、弹药、战争:
6--表示农作物、草本植物以及各种苔藓及菌藻低级植物:
7--表示天文、天象、天体、天时及宁宙自然之变化:
8--表示交通运输、道路设施、邮电通讯:
9--表示诚挚、善良、优美、吉利、祥和、平安、幸福之性态;
九、音意字
含有意类符号的电脑汉字
十、大写
专名的首字符要大写,当专名与通名组成专有名词时,也只是专名首字母大写;连续的大写字母只能用于缩略词语的场合;当连字成词时,如后一字的首字母与前一字的末字母构成拼合的音节而造成错误时,则后一字的首字母应该大写;
十一、数字的应用
把阿拉伯数字纳入电脑汉字的组成部分,既保留了国际通用的数值表达功能,又充当汉语数字使用;
十二、键位的调整
调整以后的键位布置,如下图所示:
Figure C021105530003C1
CN 02110553 2002-01-15 2002-01-15 26104电脑汉字自动转换输入法 Expired - Fee Related CN1271492C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 02110553 CN1271492C (zh) 2002-01-15 2002-01-15 26104电脑汉字自动转换输入法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 02110553 CN1271492C (zh) 2002-01-15 2002-01-15 26104电脑汉字自动转换输入法

Publications (2)

Publication Number Publication Date
CN1432896A CN1432896A (zh) 2003-07-30
CN1271492C true CN1271492C (zh) 2006-08-23

Family

ID=27628179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 02110553 Expired - Fee Related CN1271492C (zh) 2002-01-15 2002-01-15 26104电脑汉字自动转换输入法

Country Status (1)

Country Link
CN (1) CN1271492C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100339807C (zh) * 2004-07-26 2007-09-26 唐辉 汉语通信码简易输入法

Also Published As

Publication number Publication date
CN1432896A (zh) 2003-07-30

Similar Documents

Publication Publication Date Title
CN1896923A (zh) 英语巴蜀杆栏式汉字化词型翻译中间文本计算机输入方法
CN102053719A (zh) 华文汉字输入法
CN1271492C (zh) 26104电脑汉字自动转换输入法
CN1019424B (zh) 音形笔画综合编码汉字高速输入法及所用键盘
CN1110738C (zh) 笔记本电脑文字输入方法
CN1129058C (zh) 仿真拼音汉字输入法
CN101118464A (zh) 易捷系列汉语输入方法
CN1455358A (zh) 华语拼音统一方案及单拼输入与智能转换翻译
CN1045021C (zh) 中文数码电脑汉字输入法及其键盘
CN1033540C (zh) 简易音形码汉字输入法
CN1166997C (zh) 汉字免拆分快速输入法
CN1417674A (zh) 汉语音节双读方案和汉语键盘及其信息输入处理方法
CN1414453A (zh) 华语拼音、单拼输入统一方案及智能转换翻译
CN1103181A (zh) 多键并击式高速汉字输入方法及键盘装置
CN1123819C (zh) 计算机汉字键位码输入方法
CN1196989C (zh) 汉字形体示意输入法及其键盘
CN85100087A (zh) 《中文声数编码》方案及其实现方法
CN1357814A (zh) 计算机汉语键盘及其汉语信息的输入和处理方法
CN1054447C (zh) 计算机汉字输入坐标码编码方法
CN103186242B (zh) 中华键盘
CN1114146C (zh) 一种汉语语素编码计算机键盘输入法
CN1374577A (zh) 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘
CN1037043A (zh) 计算机汉字输入方法
CN1182235A (zh) 音素结构注音符号双拼及其加调双拼双打46键式输入法
CN1092185A (zh) 赋音形码汉字与词组编码方法及键盘

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee