CN1414453A - 华语拼音、单拼输入统一方案及智能转换翻译 - Google Patents
华语拼音、单拼输入统一方案及智能转换翻译 Download PDFInfo
- Publication number
- CN1414453A CN1414453A CN 02108930 CN02108930A CN1414453A CN 1414453 A CN1414453 A CN 1414453A CN 02108930 CN02108930 CN 02108930 CN 02108930 A CN02108930 A CN 02108930A CN 1414453 A CN1414453 A CN 1414453A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- words
- sound
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明为一种龚码华语拼音、单拼输入统一方案及拼音相关智能转换翻译。龚码华语拼音方案含专用标调字母在内不超出英文26个字母的范围,由汉语拼音的单音节最多6个音码减少到5个音码,音节之间界限分明,既可用于中文字音和声调的标注,又可独立形成与国际语言文字接轨具有法律准确度的拼音文字。字、音、码高度融合,可互显互转,可与中文语句与外文直接对译。龚码单拼充分利用第一键,实现了字字分流、字词分流、词词分流,许多字可一键输出,无需记部首即可快速输出。本发明可有效应用于各种涉及到中文的信息数字化输入、排序、传输、检索、识别、速记、平面与电子出版、计算机处理、机器翻译等。
Description
本发明涉及一种龚码华语拼音、单拼输入、译名统一方案及中文方块字与拼音文字、中文字编码之间的转换。本发明的龚码华语拼音方案在包括专用标调字母而不超出英文26个字母的范围内,既符合现行拼音方案的使用习惯,又全面接近英文的常规字音拼写规范,易学易记,拼式简单,由汉语拼音的单音节最多6个音码减少到5个音码,音节之间界限分明,既可用于中文字音和声调的标注,又可独立形成与国际语言文字接轨的拼音文字,字、音、码高度融合,可互显互转。经过分化定型、分词连写的全拉丁化龚码华语拼音文字是具有法律准确度的完备的拼音体系,是具有中国特色的简洁生动的拼音体系,可与中文方块字语句直接对译,形成“一语两文”的合理布局。龚码单拼科学合理,基于人们已有的知识储备,通过科学地选取22个音码和4个调码并有规律的组合,不用对中文字进行拆解分析,使所需的记忆量降到最低限度;龚码单拼充分利用第一键,实现了字字分流、字词分流、词词分流,许多字可一键输出,无需记部首即可快速输出,在降低重码率和平均击键次数的同时,通过建立码位与键位字母之间的自然关联,有效地解决中文字输入难学易忘的问题,给人们提供一种既规范又简捷、能即学即用、优于目前各种双拼输入的计算机中文字快速输入方法,可有效地结束目前中文字音输入“万码奔腾”的局面,让中文字输入进入一个有序的状态,并可同时用于中文方块字和拼音文字的快速输入。龚码译名方案可科学地统一简繁体字使用区的不同译名标准,并可反译回原外文名称的常规形式。
中文字是世界上最古老的文字之一,已有5000多年的历史,曾堪称是举世无双、独特而伟大的人类智慧展现。每一个字都有独立的形体、独自的生命,这种大体依形命意、以笔画为结构主体的方块字,具有其他拼音文字所没有的许多优点,如方正、整齐、稳定、灵活、优美、意涵丰富等等。中文字是中国发明的,然而其优点也为他国利用,日本借用了中文字的偏旁部首,韩国和朝鲜借用了中文字的间架结构。前者将音素字母排列成音节方块,后者则是由中文字笔划简约而来。据有关资料统计,目前世界上使用中文字的人口约占总人口的36%以上。除中国大陆、中国台湾、中国香港特区外,日本、韩国、朝鲜、新加坡、马来西亚、越南等华人社会,也都不同程度地正在使用或使用过中文字。
然而,在世界进入知识爆炸的当今时代,中文方块字却遇上了障碍。中文字的缺点是“三多五难”:字数多、笔画多、读音多,因而难认、难读、难写、难记、难用。著名教育家吕叔湘先生说:学生们用“十年的时间、2700多课时,用来学中国语文,却是大多数不过关”。一个人从小学到大学毕业,历时十五、六年,从形、音、义上基本掌握的中文字约为3500个“常用字和次常用字”,多者为4000多个字。这样平均每年只能认识二百多个字。《新华字典》选收一万一千多字,说是“供中等文化程度读者使用的”,但就是具有中文相关专业高级职称的专家、学者、教授,大多也认不全简、繁体中文字。过去一直说中文从古到今累计的字汇量为六万多字;后来出版的《中文字海》收录近九万字;近来又有学者为了证实中文字的宏博,提出数据说远超过十万字;有些机构还在“征求新字”。殊不知将中文字汇量说得越多,越容易吓跑某些想学中文的外国人。许多人求师学艺苦练中文“硬笔书法”,从幼年开始一直练到白发苍苍。一个民族把如此巨大的精力耗费在学会写字上,不能说不是对人的精力的一种浪费。如果把这么多中文学习使用者的这么多精力转用于学习研究现代科学知识上,将会创造“惊世的”难以衡量的价值。使用拉丁字母为拼音文字的国家基本上没有打字行业,因为根本不需要。以中国现有的情形来看,似乎知识水平越高的地方,打字员越多。今天的打字成为一种专业技能,打字行业及相关人员的人力浪费,可以看成是整个社会为中文方块字作为唯一文字形式所付出的成本。
古代罗马人所用文字为拉丁文,所用字母称拉丁字母,又称罗马字母。现在的英文、法文、西班牙文所用的是已加以补充的字母,也泛称拉丁字母。拉丁化的华语拼音文字,数百年来一直是中文现代化运动的一个伟大目标。中国自明朝末年海禁大开之后,欧西人士纷纷来华传教、经商或敦睦邦交;为便于学习中文,采用拉丁字母拼注中文读音。万历年间天主教耶稣会传教士利马窦著《泰西字母》,天启年间传教士金尼阁著《西儒耳目资》,系统渐趋完整。其中1859年清末英国驻华公使威妥玛(SirThomas Wade)在《语言自迩集》中所制订的罗马字译音流传尤广,曾被学习华语者竞相采用。现在繁体字使用区所采用的人地名译音,仍多为威妥玛拼法(其后由翟理斯[H.A.Giles]略加修订)。清末民初,中国的一些仁人志士也已开始研制出《拼音字谱》。1906年,朱文熊在其出版的《湘苏字母》中指出:“与其造世界未有之新字,不如采用世界所通行之字母。”这开始了中国人自觉地采用世界通行的拉丁字母来代表华语语言信息(语意信息和语音信息)的历史。后来有了中国人自己设计的华语拉丁化语音拼音方案:国语罗马字、拉丁化新文字方案,一直到现在的《汉语拼音方案》及中国台湾所试用的《通用拼音方案》。
现行《汉语拼音方案》是在二十世纪五十年代制订出来的,是在过去各种注音法的基础上发展起来的,是各种华语注音法的总结和发展。《汉语拼音方案》除了可以用来给中文方块字注音和推广普通话之外,还用来作为中国各少数民族创新和改革文字的共同基础,用来帮助外国人学习华语,用来音译人名、地名和科技术语等。在中国语言文字的发展进程中,尤其是在普及普通话方面,汉语拼音曾作出了卓越的贡献。
从五十年代起,许多文改专家开展汉语拼音文字的设计,时间长达数十年,投入了庞大的人力物力,设计的方案达六百余件,最后未能获得满意的结果,才宣告放弃。因此,华语拼音化的课题是众多专家未能突破的难题。今天,汉语拼音的许多不足之处逐步暴露出来。目前国际上使用较广泛的语言,除中文外,是英语等印欧语系语言。母语为非英语的人,通常第一外语也是选择英语。常用的计算机键盘按英文字母设计,当计算机没有中文操作系统或中文软件时,韵母ü及汉语拼音的声调没办法输入。有关方面后来曾规定:凡是汉语拼音方案规定可省略ü上两点的在通用键盘上用键位u表示;不能省略两点仍需写作ü的,在通用键盘上用v替代。但在国际流行语言中,v音与ü音相去较远。汉语拼音方案中,q、x、zh、ch、sh、ao等字母与英文的拼写发音差别较大。如x在英语中的字音为[ks];sh的字音为[∫],反而近似于汉语拼音的x(西);再如ch在英语中的字音为[t∫],近似于汉语拼音的q(期)。汉语拼音方案还有其他问题,如单音节拼式过长,标调不方便,拼写规则过于繁杂,分化不了同音字,不方便排序、检索、电子传输、信息处理等。目前,拼音方案只剩下为中文方块字标注字音的功能。
英国期刊《经济学家》的一篇文章把英语称作“语言帝国”。在全世界的60多亿人口中,3.8亿人的母语是英语,有大约2.5亿人的第二语言是英语,10亿人在学英语,20亿人接触英语。预测至2050年,世界上一半人口的英语将达到熟练程度。新加坡、日本等国采用中文字,曾使国人感到自豪。遗憾的是,新加坡等国学习中文的人数正逐年减少。与此形成鲜明对比的是,据最近中国教育部宣布的统计,在中国大陆有八千五百万基本不识字的人,并呈全国每年新增文盲大约五十万的趋势。其中九成分布在农村,五成在西部地区。在农村贫穷落后地区,因贫困产生文盲,又由文盲导致贫困,已形成恶性循环。由于近年辍学现象严重,全国约二百个县尚未普及小学教育,人口流动增加,老文盲未完全扫除,新文盲又不断产生。
澳大利亚的电视教育节目中耸人听闻地预计:在21世纪中英语的使用人口将从目前的三亿发展成十二亿,而华语的使用人口将从目前的十亿减少到三亿。有人认为,一名知识分子可以不懂华语,但不能不懂英语,因为英语文献的内容涵盖了所有的学术领域。因而有国际语言学家提出:如果华语能科学化,充分发挥其特长,世界语言学的中心将转移到中国,使全人类在信息的享受数量以及思维速度上进入一个崭新的阶段,掀起信息社会的一个本质上的革命。
由于软件技术的核心部分均以英语为背景产生的,英语成了软件的核心语言。时至今日,其他语言的软件都以英语为“内核”,其他语种只是外壳。因而在国际软件产业的竞争中,英语国家总量占有绝对的优势。印度的整体国力不如中国,但软件出口额远远大于中国,其主要原因就是占了语言优势。然而,软件产业是几乎所有国家在有能力时都给予足够重视的产业,因为它不仅是当前和今后国际经济中的一个长期存在的新型基础产业,而且软件产业的竞争能力本身即直接体现着一个国家的科技竞争能力。因而华语在国际范围内的推广,软件业对华语及华语文化的了解,直接关系到中文软件产品打进国际市场的能力,和与国外软件竞争和对接的能力。
外国人为了形容一件事很难,有时会说“像学中文一样难”(as difficult as learningchinese)。那么,中文究竟难在什么地方呢?
中文字和英文字母都是语言文字的最基本单位,用以构成词汇、句子,传达一定的信息,是信息的载体。为了对每一个中文字和英文字母所负载的信息进行量化分析,现代信息学用熵来衡量平均信息量,熵表示指定符号出现的不确定性。英文采用的拼音字母只有26个;华语以方块字为书写单位,字数成千上万,显然其随机出现的不确定程度比英文字母的不确定程度要大得多,由此而言每个中文字载荷的信息量远远大于一个英文字母的信息载荷量。但每个中文字出现的概率相差很大,生僻字出现的机率非常小,而每个英文字母出现的概率相差不大,因此用一种语言中各字符的出现概率为权数,求得所有字符的熵的加权平均值,来表示该种语言各个字符的平均信息载荷量,这个加权平均值称为零阶熵值。语言文字的另一种综合特征统计参数是冗余度,用它可以反映由于语言结构的原因造成的句子中冗余符号的所占比例。现代华语中的量词就是冗余的中文字。但冗余的字符并非全无用处,某些字去掉后句子就不符合语法规范,或者影响到语义的精确性,就像电报用语冗余度低,却容易产生歧义。以下将华语与英语作一些比较:
1.有语言学家经过统计计算,得出英语字母的零阶熵值为4.03比特,中文字的零阶熵值为9.71比特。这表明中文字的字义比英语字母的字义丰富。
2.以词为单位,可以计算词的零阶熵值。经计算英语词的零阶熵为10.00比特,华语词的零阶熵为11.46比特。这表明华语的词义也比英语丰富。
3.英语冗余度的上限为80%,下限为67%,平均值为73%;现代华语冗余度的上限为73%,下限为55%,平均值为63%。冗余度高的语言结构性好,语言信息精确,纠错能力强;冗余度低的语言则因为精炼原因有利于编码,易于信息传输,口头和文字表达都比较灵活。联合国使用的几种语言,同一份文件,需要几种版本的材料,中文版的材料比其他语言版本的材料薄得多,此一事实证明了华语的精炼性。
4.一般英美大学毕业生的英语词汇量在八千左右,而现代华语的常用词汇有四、五万,其中所蕴含的文化内涵可谓博大精深。英文中的词语义项具有名词、形容词、动词、副词多种词类形式,也就是说几个词语表达的是同一义项,只是语法功能不同而已,因而英文中常用的义项就更少了。
5.华语组词方便,用字与字的组合来造词十分方便,如电,电灯、电话、电视、电线、电扇、电脑、电池、电影、电流、电车、电报、电梯,易学易懂;就是生词,一见便能知其大意,也非常便于记忆。用英文表达上述各词,则互不相关,难以记忆。比如alto,华语译成“女低音”,一看便知其义,在英语中却必须解释为The lowest femalvoice。再如“肺炎”一词,一看便知是肺部发炎,而英语的肺炎是pneumonia,与肺lung毫无共同之处。
6.有观点认为华语比英语易生歧义,举出“父在母先亡”与“父在,母先亡”之类的例子。实际上英语更易产生歧义,如“Albert said the(that)boss is stupid.(艾伯特说老板很笨)”与“Albert,said the(that)boss,is stupid.(老板说艾伯特很笨)”之类的语句,在英语中比比皆是。“It’s a cock”,即便根据上下文,也有难说清的时候,因为“cock”作名词时,可理解为“公鸡、雄禽、雄龙虾、雄蟹、雄鲑、龙头、旋塞、阀门、击铁、风信鸡、风标、首领、老兄、伙计、目标、鸡鸣、黎明、阳具、草堆、粪堆”等数十种意思。再如“take care of”,既有“爱护、照料”,又有“对付、收拾”的矛盾义项。
由以上比较可知,简繁体中文字的形、音、义、词等多方面不统一及中文字形复杂是华语的普及速度缓慢的重要原因。除了中文的字形比英语的26个字母复杂,其他很多方面都不比英文逊色,甚至比英文更科学。英文并不是音标输入,因而并不是全表音文字,而是以表音为主的文字。中文字有许多超越英文等语言文字的优势,如精炼,言简意赅,冗余度低,以最少的符号表达最丰富的含义。每一种文字都有其强烈的民族特点,中文字的显著特点就是音节清晰分明,单字独立性强,组词位置灵活。那么,华语拼音与英文相比呢?
如果能在26个英文字母的范围内解决包括声调在内的问题,那么目前普遍认为,中文所形成的拼音文字,主要的难点是同音同调字词和阅读速度。而在同音同调字词的问题中,焦点又是同音同调双音节词。
以下本发明将解决上述各种问题。经过分化定型、分词连写的全拉丁化龚码华语拼音文字,将同时解决阅读速度问题。国际语言文字的发展,本来就是一个从形象向抽象演变的过程。
为了解决以上华语拼音和字音输入所遇上的各种问题,便于计算机“智能”统计、研究、分析,高效、快速处理华语拼音和字音输入等信息,使系列统一方案得到科学的完整的规范化的结果,本发明创造了“声频、韵频、调频、码位均布荷载、音码、调码、首码、单拼字、双拼字、双拼词、常拼带调、异拼略调”等概念,统计按综合字、词频和字、词频方向平均值的相应范围。
1.无调音频:华语不带声调的单音节出现的次数除以不带调单音节总出现次数后得到的百分比结果。
2.带调音频:华语带声调的单音节出现的次数除以带声调单音节总出现次数后得到的百分比结果。
3.声频:每一声母出现的次数除以声母总出现次数后得到的百分比结果。如声频较高的sr为7.7482%,d为7.7292%;声频较低的p只有1.3779%,ts为1.2715%。
4.韵频:每一韵母出现的次数除以韵母总出现次数后得到的百分比结果。如韵频较高的i为8.9289%,u为7.7292%;韵频较低的uai只有0.4220%,yun为0.3939%。
5.调频:每一声调出现的次数除以声调总出现次数后得到的百分比结果。阴平为21.528%,阳平为21.597%,上声为18.029%,去声为34.547%,轻声为4.299%。
6.码位均布荷载:由于在中文的语音输入方案中,声、韵母与英文键盘上的字母并非一一对应,且韵母种类超过英文键盘上的字母总数,为了有效减少重码,根据声频、韵频等对码位分布作合理调整,以达到统一和最佳化目的。
7.调码:在龚码华语拼音方案中,以q、v、x、z、’五个键位依序表示阴平、阳平、上声、去声、轻声五种声调,所用字符称为调码,所在键位称为调键。
8.音码:英文键盘的26个字母中,除开四个调键,其他22个字母用于字音拼写和输入,所用字符称为音码,所在键位称为音键。
9.首码:即龚码单拼输入方案的第一码。对于单拼字首码为唯一音码,对于双拼字首码为第一音码。如“玻”为单拼字,b为“玻”的首码也是唯一音码。“庄”为双拼字,w为“庄”的首码。
10.单拼字:首码即可完成字音输入的字,如富f、样l、月g等。若接着输入调码即为带调单拼字,如安kq。
11.双拼字:需两码完成字音输入的字,如黄hh、学cg、里li等。若接着输入调码即为带调双拼字,如城eav。
12.双拼词:两码完成词音输入的双字语词,由两个单拼字组成,如移植iw、世纪aj等。
13.三拼词:三码完成词音输入的双字和三字语词,其中双字语词由一个单拼字和一个双拼字组成,三字语词的首码与输入相符,如飘扬pml、中国心wgc等。
14.四拼词:四码完成词音输入的双字、多字(四字以上)语词,其中双字语词由两个双拼字组成,四字语词的首码与输入相符,四字以上语词的前三字与末字的首码与输入相符,如龚码gima、华语拼音hypo、千里之行始于足下olwc等。
15.常拼带调:带调的常规拼写方式,用于为中文方块字标注字音;也是龚码拼音文字所采用的基本形式。
16.异拼略调:在不改变拼音文字音节发音的前提下,合理改变拼写方式,以使拼音文字中易混淆的同声同调字词分化定型。
目前英语较常用的注音系统有四种:IPA,Oxford,KK及Webster。本发明提及的音标均采用IPA注音系统。另外需要说明的是,与任何一种自然形成的民族语言所严格吻合的注音系统,都不能准确标注另一种自然形成的民族语言的读音。因而,本发明所提及的国际音标与华语字音的对应只可视为“近似”。
一、龚码华语拼音方案(参看说明书附图图1至图3):
中国大陆使用的《汉语拼音方案》和中国台湾试用的《通用拼音方案》,二者的相似性高达85%以上,对照请参看附图图1《龚码华语拼音方案》。
1.有观点提出,既然法语、德语等能使用不同于英语的键盘,那么华语也可以使用特殊键盘,即可以使用26个英文字母之外的其他字母。但如此一来在国际上推广就会增大阻力,我们不可能要求海外所有想学华语的人都为此准备一个特殊键盘;并且也有语言学家提出法语、德语缩小与英语的距离,俄语采用拉丁字母的方案。因而龚码华语拼音的总体方案是音码和调码不超出26个英文字母和相关符号的范围。
2.从国际音标的清辅音、浊辅音及元音中找出与华语的声母或韵母发音最接近的对应关系;然后,找出选定国际音标与英语发音最接近的“出现频度最高的”英文常规拼写形式——因为同一国际音标在英文中有时有多种拼写形式,并且同一英文音节在国际音标中有时也有多种读音。如部分汉语拼音与龚码拼音的声、韵母对照:q→ch,x→sh,z→ds,c→ts,ao→au。
3.按照r在华语中的“日”音,将三个卷舌音声母调整为:zh→dr,ch→tr,sh→sr。
4.u在英语中有三种读音:[Λ]、[u]和[ju],华语全部采用[u]的读音。按照[u]的唯一读音,ong→ung。
5.英语中没有ü音,较接近的音标为[ju],其在音节起始端的对应形式为yu,在音节非起始端的对应形式为ju。当在音节非起始端时,英语中y的常规读音为[ai]。如nyu(女),英语的读音为[naju]。有方案用作iu,[i]和[u]两个元音字母组合音值较长,英语的常规读音为[ju:],不如y、j为半元音理想。按照“读音统一易记、约定俗成”的原则,龚码将ü音统一用作yu。
6.q,v,x,z四个字母拼写时不用,依序标示四声,轻声使用撇号’(注意不是‘),声调标于每个单音节的最后。除轻声排前外,计算机对同音字自动排序时可符合中文的四声标调原顺序。原符号标调的方式仍可用于龚码拼音标注方式(不用于龚码拼音文字方式),二者等效,逐步向字母标调方式过渡。
阴平 阳平 上声 去声 轻声
q v x z ’
7.因使用了专用的标调字母,音节之间界限分明。为了使拼式简单,所有的声母与韵母在读音不会混淆时都可独立形成音节,如yi→i,wu→u,yin→in,wen→un。在同一单音节中,当元音字母后紧接-ng共同为韵母时,省略为-g,这样规律易记且不会混淆,如ang→ag,eng→eg,ing→ig,ung→ug。
8.字母i与其他字母一样,只有唯一的一个发音“衣”,而普通话语音中并不存在zhi、chi、shi、ri、zi、ci、si音节,因而龚码华语拼音方案用作zhi→dr,chi→tr,shi→sr,ri→r,zi→ds,ci→ts,si→s。
9.每一个声母在单用时,都“视为”相当于其在华语字母表中的读音(表音),这样既不会影响华语的拼读,不会混淆(有专用标调字母分隔),也不会增加记忆量。因而b(波)、p(坡)、m(莫)三个声母视为已包括o音:bo→b,po→p,mo→m。声母f(弗)视为已包括u音:fu→f。d(德)、t(特)、n(呢)、l(勒)四个声母视为已包括e音:de→d,te→t,ne→n,le→l。g(哥)、k(科)、h(喝)三个声母视为已包括e音:ge→g,ke→k,he→h。J(机)、ch(其)、sh(西)三个声母视为已包括i音,如:ji→j,qi→ch,xi→sh,jia→ja,qian→chan,xiang→shag,jiao→jau,qie→che。
10.音节的界线发生混淆时,用符号(^)隔开。
11.为便于记忆,在声母表中将j、r、s可写作jh、rr、ss。于是声母表中即有jh、ch、sh、dr、tr、sr、rr、ds、ts、ss。
12.为了避免字音排序时,相同声韵母的音节由于声调字母的加入而被分开(如“niq妮”排于“niu牛”之前而“niz逆”排于“niu牛”之后),排序的主要关键字不考虑声调字符,次要关键字考虑声调字符。
以上的龚码华语拼音方案,在不超出英文26个字母的范围内,接近英文的常规拼写读音规范,并使用了专用的标调字母,规律易学易记,拼式简单,音节之间界限分明,可用于中文字音和声调的标注。学过印欧语系某种语言的人,只要花几个小时学习龚码华语拼音方案的读音规则,即可读出相近的字音。龚码华语拼音方案可广泛地应用于华语中文信息处理的各个方面,包括全方位建立中文国际信息资料库、字词句文排序与检索系统、图书排序检索系统、通用搜索引擎、文字与拼音智能转换系统、中文速记、文本自动翻译、语音识别系统、同声传译装置等,可以跨平台进行网络传输、收发、阅读国际中文E-mail。
中文文字龚码统一方案的字符集按龚码华语拼音方案标注字音和排序。《龚码字典》和《龚码词典》以龚码华语拼音标注字音。
二、龚码拼音文字:
拼音文字使用有限的字母(英文中使用26个),根据语言发音的特点,用字母将语音中的基本音素和音节按不同的拼法表达出来,并将字母表达的音素和音节再拼成单词。所有这些单词通过语音和字母的排序彼此有机地联系在一起,构成了一个“拼”出来的文字世界。这个“拼”的过程是完全符合自然界的由简入繁的发展规律,同时也符合人类学习语言和文字的过程,即先学说话后学认字,先易后难,先简单后复杂这样的学习过程。由于人类彼此主要是通过语言和文字来进行交流的,拼音文字自然有机地将两者联系在一起。拼音文字的特点就是“拼”,它不仅拼语音也拼出了字形和字义。
龚码华语拼音方案的实际运用形式,分为“龚码华语拼音标注方式”和“龚码华语拼音文字方式”。拼音标注方式除了用于为中文方块字标注字音、华语人地山河名译出或其他非段落文本形式的标注(如各类证件、图书报刊封面、路牌、生意招牌、商品标贴、华语互联网域名)等用途外,也作为初学者拼音读物和儿童拼音读物的拼写方式。拼音标注方式不使用异拼略调字词。以下若无特别说明,均指拼音文字方式。
1.龚码华语拼音的整体方案不采用单拼、双拼或简拼形式。历史的实践证明,与现实国际拼写规范距离太远的“天书式”的语言文字方案,无论其拼式如何简单,作为速记等特殊用途并无不妥,但作为一种语言文字全面推广通常很难。学习一种语言文字时,记忆量太大或无规律会加大难度,而需要“猜”的比重太高时,也会严重影响阅读速度。对于正式的出版品,平均每个人输入的工作量不到阅读量的1%;有时一篇文章输入后,更会有亿万人阅读。一种语言,首要考虑是易于学习、理解、读准、少歧义、记忆量小,符合国际拼写惯例,其次才是拼式简单。为了方便阅读者,顺利与国际语言文字接轨,龚码华语拼音的整体方案采用全拼形式。即便以龚码单拼方式输入,也是“输简显全”。
2.以声调全标为基础。不标声调会引起大量的同音词问题;部分标部分不标的困难是标不标的界限难掌握。不标声调的方法都是假设使用者对音很熟,并未设想海外华人和外国人学习时的情况。不标或部分标声调的方案是建立在读者都能讲一口标准的华语,并未考虑到学华语的外国人、海外华人子女以及国内众多讲不准或不会讲标准华语的成年人。比较而言,还是全标较好,虽繁琐一点,但有增加同音字词形体示差性的作用,方便阅读。在全部标调的基础上,能够省掉声调的字词(如异拼略调的高频字词)才“省掉”声调。
3.尽量按词分写。因为“词”是思维的基本单位,按词分写对同思维过程较为接近,对思维的干扰少。其次,按词分写可以大大减少同音单位,减少人工选择过程。凡本方案中未提及的分词拼写方式,基本上按《汉语拼音正词法基本规则》。对于词的划分有争议时,四字以内的按词分写。
4.不用意头或意尾。有些方案以特定字母作意头或意尾(或称语法性词头、词尾)区分词类,这样增加了学习记忆量,又加长了拼式。中文字是单音节,采用“尽量按词分写”的方式,以语词输入的几率远大于按字输入的几率,而按语词输入时许多字会自动成为“意头”或“意尾”,如“电脑、电影、电灯、电话、电车、电表、电动机,来电、通电、闪电、停电、无线电”,再如“花盆、花坛、花瓶、花丛、花农、花团锦簇,菊花、梅花、荷花、桂花、红花、金银花”,即相当于印欧语系的前缀和后缀。
5.采用略拼略调字。请参看附图图4“龚码异拼略调字示例”。对部分有必要分化定型的高频字,采用略拼形式。略拼略调字(部分只略调未略拼)单用或用于词尾时用略拼形式不标声调,用于词头或词中,其后无连字号(-)或(&)等符号时,用(^)标于单音节之后,以达到分化定型的目的。略拼略调字根据分化定型的必要性和综合字频确定,当综合字频相近时,根据字频方向平均值确定。为免混淆,每一种声、韵母的组合只能有一个略拼略调字。如mai音字,按综合字频依序为买、卖、麦、埋、脉、迈等,若考虑声调,在常用和次常用字中“买”没有同声同调字,“卖”则有“麦、脉、迈”,因而略调字安排“卖”。略拼略调字和略调字举例如下:
的d,得de,地di,了l,不b,片p,发f,我w,你n,他t,们m,个ge,可k,和h,及i,去ch,出tr,是sr,人r,日ri,在ds,次ts,所s,而e,有y,一i,二er,三san,四si,阿a,文u,于yu,因in,应ig,安an,恩en,文un,也ye,爱ai,为wei,这dr,那na,对dui,把ba,还hai,又you,大da,小shau,多duo,少srau,上srag,下sh,前chan,后hou,内nei,外wai,里li,国g,公gug,会hui,给gei,门men,没mei,山sran,张drag,吗ma,么me,着dre,学shue。
由于龚码轻声用(’)标示,因而不会与略拼略调字混淆。
龚码拼音未单独使用c作声母,特将其用作“中”的略拼略调字(英语里“中国China”和“中央centre”都是以字母c开始)。
6.采用全拼略调字和全拼带调字。对部分有必要分化定型的次高频字,采用单音节最多不超过五个音码的全拼形式。全拼略调字单用或用于词尾时用全拼形式不标声调,用于词头或词中,其后无(-)或(&)等符号时,用(^)标于单音节之后,以达到分化定型的目的。全拼带调字采用全拼带声调形式。全拼略调字和全拼带调字根据分化定型的必要性和综合字频确定,当综合字频相近时,根据字频方向平均值确定。为免混淆,每一种声、韵母的组合只能有一个全拼略调字和全拼带调字。根据综合字频等确定时,选择优先顺序为:略拼略调字—常拼略调字—全拼略调字—略拼带调字—全拼带调字—常拼带调字。例如全拼略调字,波bo,服fu,起chi,子dsi,以yi,务wu。
7.采用略拼略调词。对少数在简繁体字使用区无争议的高频词,采用统一的略拼形式。略拼词不标声调。每一种字母的组合只能有一个略拼略调词,并且不能与其他常拼音节混淆。普通名词的制订参考下述的龚码单拼输入方案,如:电话dh,传真nr,分机(转)fj,免费热线电话mfrd,公用电话gd,办公电话bd,住家电话jd,手提电话st,BB机bi,上午aw,中午cw,下午lw,早上ru,晚上wn,邮政信箱(P.O.Box)ynl,电子邮箱dyl,电子邮件dyj,网址wr。华语语法用词:名词m.,动词d.,形容词sh.,副词f.,代词db.,数词sr.,介词j.,连词l.,助词dr.,方位词fw.,叹词t.,拟声词ng.,量词lg.;主语dry.,谓语wy.,宾语by.,表语bmy.,状语why.。另一类的略拼略调词是由音节界线不会混淆的单字母音节自然形成的,例如:我们wm,你们nm,他们tm,人们rm,所有sy,中国人cgr。略拼略调专用名词只将每个字的声母列出,无声母的只用韵母的第一个字母。当声母有两个字母组成,并需要大写时,第二个字母小写。如专用名词中国→CG,长城→CrCr,万里长城→WLCrCr,长江→CrJ,黄河→HH,泰山→TSr。
8.量词前的数词为“一”并处于段首时用中文数字的拼音,其他情况一律使用阿拉伯数字,并与量词连写,如:四个人→4ge r,十三匹马→13piv ma,七十八台电脑→78taiv dianznau。成语和人地山河名中仍采用中文数字,如:三人成虎→san^r^tregvhux,八仙过海→baqshanqguo^hai,王五→Wa Ux,阿三→A San,十里堡→Srvli^puz,一点五米→1.5mi。
9.年月日、点分秒用略音字,与相关阿拉伯数字连写,如:二零零一年三月七日→2001n3y7ri,一九三一年八月→1931n8y,五月十三日→5y13ri,一九八二年→1982n,十一点43分→11d43f,七分二十一秒→7f21m,八点→8d。因在阿拉伯数字之后并连写,不会与其他略音字混淆。
10.序数词前若有“第”省略。序数词前加#(需要时按华语习惯读作“diz”),与其后阿拉伯数字和量词连写,如#7tianq(第七天),#4nian^jiv(四年级),#33jivtuan^jyun(三十三集团军)。
11.为了便于阅读和理解,并列关系用&(不发音),前后不空格。如fuz&nyux(父女),shug&diz(兄弟),wenz&dav(问答),gagq&tiex(钢铁),huanv&bauz(环保—环境保护),gugq&guanq(公关—公共关系)8&9tian(八九天),17&8suiz(十七八岁),r&jq duizhuaz(人机对话),dr&shau^shue(中小学)luz&haix&kugqjyun(陆海空军),chanqiyun&wanzma(千军万马)。
12.我们时而从外文的中译里读到译回的中文名,注有“(译音)”字样,却并不知何为原名的怪事。更有因原中文名不同而音译名相同,在国外过海关时被警察抓错的事发生。但如果在拉丁字母拼音中插入中文字,会破坏整个字母拼音文本的统一,显得不伦不类,违反人们的心理习惯。龚码拼音对需要加注的人地山河名和引用的古文字句等特定需要明确区分的专用字词,采用附加“码注”(按龚码字符集的内码标注)的方式处理,即注上特定字的编码。而编码可及时显示,方便查阅。码注的大小写和分词连写方式与标注的原拼音的每个单音节严格保持一致。中文姓名的拼写按中国人的习惯,姓在前,名在后,多字时连写。如拼音标注方式:Wagv Igq,Leiv Jigzsugq,Sqtuv Shouzhuav。为不影响词的书写和拼读连续性,词的码注全部在词后。选择码注时,双字词和三字词可以短横线区分,如(-D335),(-H556-)。有必要确认对应中文字时,可及时将光标置于编码上,利用互显功能查出中文字;也可利用编码表查阅。不需要时可略过。如龚学胜,龚码华语拼音标注方式加码注为Gugq Shjuevsregz(E119H224h456)。码注可广泛用于护照、其他各类身分证件及对外函件及出版品中。在龚码拼音文字方式中,已分化定型的字不必作码注。有必要加码注的同一字词,在拼音文字中通常只在首次出现时加注。
13.句首单词、诗歌各行及论文大纲中各项的首字母大写,人地山河、机构团体等专名首字母大写。
14.图书报刊、影视戏剧、文章诗歌及艺术品等名称用斜体,用于强调或例示的字词用斜体,法庭案例名称中的原被告姓名用斜体。
15.尽量采用英文标点符号和书写格式。正文中的首行一般不缩进,段落之间空行。
16.电话和传真号码等的区号数字或符号在括号内时,与前后括号之间不空格;括号与括号外的数字或符号之间空一格。连字号前后不空格。如:
Dh:(010)111-1111
Nr:(010)111-1112
Mfrd:1-800-111-1111
17.货币金额的华语大写数字(如支票上的大写)采用全拼带调形式,每十进位单位之间用连字号,每个大写数字和单位的音码不少于两个字母:壹yiq,贰erz,叁sanq,肆ssz,伍wux,陆liuz,柒chiq,捌baq,玖joux,拾srv,佰baix,仟chanq,万wanz,亿yiz,整dregx。如叁仟伍佰贰拾捌元柒角肆分,写作“Sanqchanq-wuxbaix-erzsrv-baqyuanv-chiqjaux-sszfenq”。
18.非华语的人地山河名,其拼写在原则上一律还原为原拉丁字母形式,非拉丁字母文字的人地山河名,按照该文字的拉丁字母转写法拼写,必要时将中文字读音以华语拼音加注于括号内。
三、对同音同调字词分化定型:
表意文字系统在向表音文字系统转化的过程中,必然出现一定数量的同音同调字词,有必要进行适度分化,使拼音中文字词所代表的方块中文字词的数目保持在一个合理的范围,不会引起使用上的混乱。同音同调词中比例较高的是双字词,三字词以上同音同调的几率很低。
1.声调分化。中文字拼音的声调分布不均衡,许多字音的某一声调有许多同调字,而另一声调可能一个字也没有。声调分化按照“原同音同调字词中高频字词保持原调,次高频字词转调,低频字词转用法;转音字词不会产生新的混淆”的原则处理。优先在平声或仄声内互转,如阴平与阳平互转,上声与去声互转。同音同调词中只转换其中一个易转字的声调。如最易混淆的同音同调字“他、她、它”与“在、再”。中文字中原只有“他”字。1920年,刘半农在英国伦敦《她字问题》的文章中表示,“把‘她’字假定为第三位的阴性代词……第三位除‘她’之外,应当再取一个‘它’字,以代无生物”。当初并未考虑到同调所会引起的问题。现在按以上原则,他字保留原调,将她字转为阳平,将它字转为去声。“在、再”二字,在字保留原调,将再字转为上声。这样,其相关高频词“他们、她们、它们”与“不在、不再”等也就不会重调了。前述的略调也是一种声调分化方法。
2.字音分化。当难以进行声调分化时,原同音同调字词中高频字词保持原音,次高频字词转音,低频字词转用法;优先在相近字音内互转;转音字词不会产生新的混淆。如相关卷舌音与平舌音互转,相关清音与浊音互转。在龚码华语拼音中,s与sr、b与p、in与ig、n与l都是相关音。如“琵琶”与“枇杷”为同音同调词,“琵琶”保留原音,将“枇杷”由pivpa’转为pivba’。
3.异拼略调分化。即前述的略拼、全拼和略调字词,并未改变字音,只是改变了拼写形式或省略了声调。在“每一种单音节不超过五个声码,拼写方式易读,无歧音”的原则下,龚码拼音对每一种音节安排了两种异拼形式,可对每一种单音节常拼带调之外的11个字分化定型,其中3个字为略调,8个字为带调。如ig(英)为常拼方式,其异拼方式为ing和yig;j(机)的异拼方式为ji和jh;shag(香)的异拼方式为shang和shiag。如有可能混淆的同声同调字“相shangz,向shiagz,象,像”。由于异拼方式会增大记忆量,因而只是在与其他同声同调字或相关语词产生混淆时才会使用。
4.换字词分化。当难以进行声调和字音分化时,原同音同调字词中高频字词保持原用,次高频和低频字词转用法;不易转字词保持原用,易转字词转用法;优先转换为现正使用的字词;转用字词不会产生新的混淆。如“期中”与“期终”易混淆,将“期终”用作“期末”。“出版”与“初版”易混,将“初版”用作“第一版”。“交代”与“胶带”,将“胶带”用作“塑胶带”。“狮子”与“虱子”不易混淆,不用分化。功课、攻克与公克,“攻克”用作“攻下”,“公克”用作“克”。“城市、程式、乘势、成事”,“城市”保留原用,“程式”按词义用作“程序”或“格式”,“乘势”用作“借势”;“成事”在“成事不足,败事有余”等成语、俗语中不会混淆,“成事后”改用“事成后”。
5.略字语词转完整语词分化。中文方块文字与拼音文字有一定差别。由于某些不同的方块字词在拼音字词中成了同音字词,在使用拼音文字时,要尽量避免使用语义不易理解的略字语词,改用完整语词。
6.略音略调字、全音略调字、全音带调字分化。由于龚码轻声用(’)标示(轻声的调频只有4.3%),不会与略调字混淆,而略调字都是高频字,可单用或用于词尾,所以能将大批的高频词分化。
7.综合采用多种方法复杂分化。
在同音语词“机理、肌理、激励、极力、吉利、蒺藜、几粒、祭礼”中,“机理”与“肌理”同调,“肌理”为低频词,用作“肌肤”。“极力”与“吉利”同调,但根据上下文不易混淆。
对于龚码基本字符集中已发现并且有必要分化定型的字词,《龚码词典》已全部进行了分化定型。对于以后新发现或新创造的语词,将继续分化定型。语言文字的功能是为了交流思想信息,不必刻意让人不懂以故作高深。只要拼音文字的撰文者都对其他读者负责,现代华语拼音文字的推行应当没有解决不了的问题。对于中文的古文,可仍使用方块文字。对于现代中文中引用古文,必要时可附加“码注”(按龚码字符集的内码标注)。在对中文方块字标注字音时,仍按龚码拼音的常拼带调。
经过分化定型、分词连写的拉丁化华语拼音文字,可以与中文字语句和英文等直接转换对译。拼音文字彻底避免了方块中文字的难学、难记、难写,可以直接用于扫盲、打字和电子传输,必将成为华语现代化的利器。以表意为主的龚码统一文字体系和以表音为主的龚码华语拼音体系双文并行,单拼输入,全拼显示,可全拼也可单拼输入,拼音与文字之间的及时转换与查阅。将人类所有的信息华语化,这是历史赋予华人的使命。
拼音文字是较优越的文字形式。借着几十个字母的各种排列组合,既能完整地表达出千变万化的语言,且随着语言的演化,要增加语词极为容易。龚码拼音系列方案的使用,能让使用者快意地奔驰在信息世界里,了无障碍。因此,推广使用龚码华语拼音文字能大幅提升国力。龚码华语拼音方案是全能化、固定化和国际化的通用文字处理系统,符合语言的国际化及数字化,能让中文的电子传输比英文还有效率。龚码拼音只采用26个英文字母,不添加或者改换其他符号,有利于中国分享世界最前沿的信息处理技术,有利于中外科学、文化、教育事业的交流。
四、拼音相关智能化互显互转互译:
为了使字词与拼音、编码能相互融合,即字(含词)中有音、码,音中有字、码,码中有字、音,首先要求三者互显。利用现有公知的编程技术,很容易能做到这一点。当需查寻某音节的字码信息时,把光标置于所选音节,即显示与该词拼音声调相符的字形、编码等信息,信息框可为固定形式或随光标移动形式,用户根据需要选择,并可点取上屏。有多个字词时,按频度排列。如“pianvdrq:胼胝(g530d137)”。反之,把光标置于所选字词,即显示与该字词相符的拼音、编码等信息。如“胼胝:pianvdrq(g530d137)”;“g530d137:胼胝(pianvdrq)”。用户可根据需要将此功能随时开启或关闭。
现代华语以多音节词为主,而同音词的问题并没有想象中那么严重;实行拼音化后,同音词的问题更可能在实践中得到解决。由于尽量按词输入,并对同音同调字词进行了有效的分化定型,因而中文的文字与拼音之间的转换,以及龚码拼音文本与外文之间的翻译将会非常容易,转换或翻译结果可根据上下文自动进行智能化检查、校对、修正,此功能可运用到智能同声传译装置。所有的中文文本均可转为龚码拼音并排序,在国际范围内供检索查阅;所有的外文文本也可轻易译为龚码拼音并排序,在国际范围内供检索查阅。
过去的国际语或世界语方案,大多以印欧语系语言作为母本,并未考虑到世界上使用人数最多的华语。如较流行的“世界语Esperanto”(原意为“希望者”),即是一种印欧语系的“普通话”,使用了28个字母(除q、w、x、y以外的22个英文字母,另有6个是在拉丁字母上另加符号),以印欧语系的较通用词根及前后缀整合规范而成。由于印欧语系的各种语言(包括使用斯拉夫字母的俄语)有70%以上的词根相近,因而以其为母语的人,只需要花几个小时学习Esperanto的语法规则,即能看懂一些Esperanto文本的意思;但华人学起来仍要下很大工夫。可以预期,龚码华语拼音方案和拼音文字若能推行,将会改善国际语言的生态环境,吸引中国的周边国家采用华语,并在世界范围内掀起学华语热潮。而将来的国际语或世界语即便不是纯粹以华语推行,也会以其作为重要的组成部分。一种最科学的语言,最终必定以最和平的方式统一世界。
五.龚码单拼輸入:
据有关报道,中国约有五十万人在研究中文输入法,已公开的有数千种,形成了“万码奔腾”的壮观局面。这种状况一方面浪费了研究者的精力,另一方面对使用者造成了困扰。不同的单拼输入法,使用不同的键盘对应方式。“万码奔腾”的输入法使得国人茫然无措,望“码”生畏。这个中文字输入法的瓶颈问题正严重地阻碍着现代华文信息时代的到来。有报刊载文:“中国已进入了全民研究、学习输入法的时代!”日本在七十年代也曾经历过万码奔腾的局面,但进入八十年代后便统一为拼音转化输入方式,万码奔腾的时期也遂告终止。有识之士疾呼:“此码与彼码,究竟有何本质不同?每当看到Windows里只有一种日文输入法的时候,我就认为我们每个中国人都应感到汗颜!”
为了避免这种状况的出现,龚码单拼使用简繁体字统一的键盘对应方式,请参看附图图5“龚码单拼键位对照表”。为了便于记忆,当龚码华语拼音方案中的声母或韵母只有一个字母时,优先采用与之相同的键盘字母,如声母b、p、m、f、d、t、n、l、g、k、h、j、r、s,韵母a、o、e、i、u。当声母或韵母超过一个字母时,全部简化为一个字母。为使键盘击键次数分布科学合理,根据龚码基本字符集中的用字,将每一个声母或韵母出现的次数加总,除以声韵母总次数,得出每一声韵母的特定音频百分比。在上述优先对应的键盘字母之外另增简化声韵母时,每一字母键的总击键次数应相对均衡(均布荷载),以有效减少重码。为强化声调功能,并将字词分流,专用声调字母保留原用。
龚码单拼使用了22个声母(不含零声母本为23个,w在单拼中未直接作为声母),33个韵母(不含零韵母);而英文键盘上有26个字母键,除去4个声调键(简称调键),剩下22个字母键(简称音键)供分配。为了均衡,每个字母键安排一个声母。每个字母键安排一至二个韵母。为了便于记忆,每个字母键上所对应的声母和韵母之间一般都能按华语拼音相拼。这样也可提高一部分字的输入速度,如“黄、非、听、亮”等字音,均可相同两音键输出。现代华语的词汇丰富,而词语可以进行整体输入,这就大大加快了输入速度。对词语进行整体输入是华语输入的一个巨大优势,利用词语、简码输入方式,可减少击键次数,提高输入速度。英文计算机键盘输入虽学习简便,但其在输入时词语的每一个字母、符号及词之间的空格都需要逐一录入,速度就慢得多了。华语的精炼特点也是其输入速度快于英文的一个原因,可以说,面对计算机输入,华语毫不逊色于其他语言。
(一)字词模式输入:
龚码单拼能将单拼字、双拼字、双拼双字语词、三拼双字语词、三拼三字语词、四拼双字语词及四拼多字语词区分得很清楚,并且键键有字。当输入调键时视为字的结束键。输入时不必拘泥于语法意义上的词或短语,尽量采用三字以上的词或短语、句子形式,长了重码少,平均击键少,即“能连则连,连多则快”。以下分步说明。
1.当输入首音码,视为输入了首码相关高频字(包括单拼字和双拼字),所有字将会按综合字频列出,每次显示二十个(不足部分可选择以首码相关高频字接后)。前十个用英文键盘前方的数字键选取,第一字也可用空格键选取;后十个用右方小键盘的数字键选取,未出现字词可按([)与(])键翻页。并会在第一行显示一个与此单拼字相关的高频双字语词(首字相符),用/键选取。如第一键为d(包括de和iou),包括de、iou单拼字和以d为声母的双拼高频字,提示行显示为:
1的2有3大4到5地6道7得8对9多0都 有的/
①当②又③动④但⑤点⑥定⑦等⑧打⑨电⑩第
2.当输入次音码,视为输入了双拼词(两个单拼字组成的双字语词),此字音的所有词将会按综合词频列出,每次显示二十个。并会显示一个与此二键相关的高频双拼词,用/键选取。缺省排列为双拼词在前,不足部分可选择以双拼字接后。如第一键为d(包括de和iou),第二键为i(包括i、ts和ug),第一行显示为(以下举例省略第二行):
l得以2得意3得益4有意5有益6优异7游艺8尤以9右翼0得此 友谊/
次码若为调码,视为完成了带调单拼字输入,这些字将会按综合字频列出,每次显示二十个(不足部分可选择相关高频字接后)。并会显示一个与此二码相关的高频双拼词(首字为相关带调单拼字),用/键选取。如首码为i(包括i、ts和ug),次码为调码z(去声),第一行显示为:
1意2次3义4议5易6异7艺8亿9益0刺 意思/
3.当输入第三音码,视为输入了三拼词(三拼双字、三字语词),所有相关词将会按综合词频列出,每次显示二十个(不足部分可选择以相关高频词接后)。并会显示一个与此三键相关的高频三字词(每字首码相符),用/键选取。如三键依序为d(包括de和iou)、y(包括y、yu和ou)、p(包括po和ian),第一行显示为:
1电影片2电影票3代用品4抵押品5陡坡 第一批/
第三键若为调键,视为完成了带调双拼字输入。此含调字音的所有字将会按综合字频列出,每次显示二十个(不足部分可选择以相关高频字接后)。并会显示一个与此三键相关的高频双字词(首字的音与调均相符),用/键选取。如前两键依序为1(包括l、ia和iag)、i(包括i、ts和ug),第三键为v(去声),组合产生的双拼带调字音为liv和lugv,第一行显示为:
1离2龙3隆4黎5笼6莉7拢8胧9梨0珑 离开/
4.当输入第四音码,视为输入了四拼词(四拼双字、多字语词),相关语词按综合词频列出,每次显示二十个(不足部分可选择以相关高频词接后)。如果有,会显示一个与此四键相关的高频四字词(每字首码相符),用/键选取。如四键依序为a(包括a、sr和eg)、j(包括j和ag)、w(包括dr和uan)、e(包括e、tr和uai),第一行显示为:
1伤者 世界之窗/
以上的龚码单拼中,为了提高输入速度,每一个输入步骤的缺省设定为只显示“完全符合条件”的字词,“不足部分可选择以相关高频字词接后”则由用户选择使用。用户可随时自造词、修改词,并可按类别分为各类词库,据需要选择挂接。龚码单拼输入法可自动调频,用户也可根据需要手动调频。输入时字可带调而词不带调。个别知形不知音的字可利用笔画查询。用户可充分利用每个首码字母对应的20个高频字,尽量做到“高频字不翻页”。有把握的高频字一键完成,其他单拼字带调两键输入,双拼字带调三键输入。双字词根据其所含字分为三种情况:两个单拼字两键输入,一单一双三键输入,两个双拼字四键输入。三字词三键、四字词四键,只输入首码。五字词以上输入前三字和末字的首码,共四键。
(二)龚码单拼拼音文字输入:
一方面,龚码拼音文字只采用了26个英文字母,没添加或者改换其他符号,可实现用英文键盘高速盲打。另一方面,若不计变音略调的情况,由于每种同声同调字只有一种音调形式,龚码单拼的拼音文字输入比方块字输入更容易,可作为输入的另一种选择。龚码单拼拼音文字输入时“输简显全”,即以单拼方式输入,显示完整结果。根据标点符号自动将句首的第一个字母大写,自动在单词之间加空格。华语拼音中没有的音节将不会显示。以下为龚码拼音文字方式。
1.当输入首音码,视为输入了单拼单音节,所有带调或略调音节将会按英文字母顺序列出,每次显示二十个。前十个用英文键盘前方的数字键选取,第一字也可用空格键选取;后十个用右方小键盘的数字键选取,未出现字词可按([)与(])键翻页。如第一键为d(包括de和iou),第一行显示为:
1dq 2dv 3dx 4dz 5youq 6youv 7youx 8youz
2.当输入次音码,视为输入了双拼双音节,所有带调音节将会按英文字母顺序列出,每次显示二十个。缺省排列为双拼双音节在前,不足部分可选择以双拼单音节接后。如第一键为d(包括de和iou),第二键为i(包括i、ts和ug),第一行显示为(以下举例省略第二行):
1de^iv 2de^i 3de^iz 4y^i 5y^iv 6youqiz 7youviz 8youvi 9youziz 0de^ds
以下步骤省略。
(三)智能语句模式输入:
龚码智能语句模式输入时,无需输入声调,将单拼字输入单码,双拼字输入双码即可。如输入:
yismudwhrhahaytsomttpdtbyj.
中文方块字显示为:
用我们的智慧和双手托起明天的太阳。
龚码拼音标注方式显示为:
Yugz woxmenv d’drzhuiz hv sruagqsroux tuoqchx migvtianv d’taizyagz.
龚码拼音文字方式显示为:
Yug wm d drzhuiz h sruagqsrou tuoqch mig^tian d tai^yag.
为了提高语句输入的准确率,用户可开启自学习功能,龚码智能语句模式会记住用户在输入过程中所作的各种修改,并调整相应字词的出现频率。语句模式也可智能学习用户指定的整篇文章的风格(文风学习),将原输入系统中没有的语词自动保存,即相当于自动造词。
龚码单拼可用于龚码华语拼音、汉语拼音、通用拼音、注音等各种拼注音体系形成的各种字符集。龚码单拼输入法改变了输入世界中长期以来“学习难度与输入速度成反比”的历史,优于现行的各种双拼输入法,真正实现了中文输入法的革命性飞跃,为中文信息计算机处理奠定了基础。龚码拼音输入法的出现,将有效结束“万码奔腾”的奇观,让中文信息软件等方面的研究、使用真正迈上科学实用的正确轨道。使用龚码单拼后,配合音、形、码的互显功能,由于输入时无需再去思考“形”,知识工作者从脑中构思再直接敲入计算机中,直接校正,之后立即可自行排版,从头到尾一气呵成,真正“指随意动,字随指出”,敲键盘成了思想的辅入,而非负担。而尽量按词输入的目的,是为了便于掌握概念,提高可读性,减少混淆的机会。
六.龚码统一译名方案
目前,简繁体字使用区采用不同的译名方案,因而国名、地名、人名等外文译名译成中文时(译进时)不统一。如中国大陆的译名“塞拉利昂共和国、波多诺伏、西哈努克”,中国台湾译作“獅子山共和國、新港、施漢諾”。再如加拿大现任总理的lastname是Chrétien,中国大陆译作克里斯蒂安、克雷蒂安,香港特区译作克里靖、克里田、克理廷、麥肯鍚金,中国台湾译作柯瑞松、克瑞強、柯瑞祥、柯提昂、柯雷提昂。
龚码标准译名法的准则是:
1.名从主人,被名称的拥有方认可的中文名称不翻译。如新加坡、日本、韩国等的人地山河名,再如外国人已有其本人认可的中文名。
2.无争议不重译。被繁简使用区共同认可、已经习惯且无争议的名称不重译。如德国、多伦多、牛顿等。
3.原文直译,不转译。如俄国人名,不通过英文转译。名称以所属国官方公布为准。
4.对应特定音节使用发音最接近的专用中文字,一个中文字只可对应一种音节;中文译名字音最接近原语言的标准音,标准音未定者按国际音标发音。
5.译名在三音节以上者原文的轻读音不译。
6.不同译者可据标准译名法译出相同结果。
7.根据中文译名可大致反推出原外文名称。
如前述加拿大现任总理的last name是Chrétien,属法文人名,按法语的最接近字音,龚码标准译名法译作“克瑞廷”。
为改善目前的译名不统一状况,《龚码词典》将列出外文国名与较有影响的人地山河名的中文译名统一规范形式。
目前世界已进入“地球村”的时代。面对国际社会全新的挑战,中华民族在语言文字方面已经没有犹豫的时间和退缩的借口。竞争是现实的,因为只许成功不许失败;改革是要勇气的,因为必须割舍原有的习性。无论如何,我们都必须尽早取得进入语言文字国际化入口的通行证。与其被国际潮流所“逼”不得不“全民学英语”,不如使自己的语言文字现代化和科学化,被国际社会广为认可和接受,吸引外国人学习中文,吸引周边国家采用中文,力争在世界范围内掀起学中文热潮。两相比较,后者更能提高民族自信心和民族凝聚力,及大大推进中国甚至整个世界的信息化进程。
目前中国大陆、新加坡等地使用中文简化字,中国台湾、中国香港特区和海外华人社会使用中文繁体字。简化字与繁体字之间某些字的字形、字义、字音不一样,甚而有复杂的对应关系;各个领域的用词用语、汉语语法与國語文法,标点符号用法,亲族师友、中外货币、度量衡、历史年表的称谓等,也都有很大差异。如简化字的“台”对应繁体字的“台、臺、檯、枱、颱;繁体字的“参”对应简化字的“叁、参”。简化字的laqjq(垃圾),繁体字读作lzsez;简化字的woqniuv(蜗牛),繁体字读作guaqniuv。再如以下龚码拼音标注的繁体字的字音,同简化字的字音有“一对多”和“多对多”的复杂对应关系:什srev,srv,srenv;馮pigv,fegv;和hanz,huv,huo’,huoz,hv,hz;瞿jyuz,chyuq,chyuv;艘sauq,souq;潦laux,lauz,liauv;沈trenv,srenx;啞ez,yax,yaq;圳trouv,dsunz,drenz;癌yanv,aiv;宿shoux,suz。
本发明配合在前发明《中文文字龚码统一方案》,是一组关于中文语言文字的系列方案。在前的中文文字龚码统一方案已实现中文方块字的字音、字义、用词用语、语法等多方面的统一。龚码简繁形同属一个内码,可视为只是字体不同,且简与繁不会出现在同一出版品中,因而字形已统一。龚码单拼输入法可“一码打尽天下中文”,那么配合龚码华语拼音统一方案,已实现了语同音,书同文,文同字,字同码,码同键,外同译。打造梦幻华语文字,引导当代国际潮流,是龚码华语文字系列方案的方向。在此基础上,将迎来中文和华语文化的伟大复兴,使中文全方位进入国际领域。
龚码华语拼音文字并不是力图全面取代现行中文方块字,只是希望成为中文与国际语言文字之间的一道桥梁,也就是一种功能较强、学习推广容易、使用方便的辅助文字。我们不必用复杂感情代替科学追求,缩小距离、逐步超越是科学的自然法则,而不是墨守陈规或试图另创新案、一步取代。拼音化的宗旨是立足当代、面向未来;没必要、也不应该去尝试将汗牛冲栋的古籍拼音化。对于古籍的保存、古文与古诗词的学习和欣赏,仍可以通过中文方块字。
另外,可以在海外华人后代的华语教育中,以学拼音标注启蒙,其后学拼音文字,有兴趣的再另外教授中文统一文字。与其因为中文方块字而割裂他们与中华文化的联系,不如在同他们之间架一座拼音文字的桥梁。毕竟,海外华人也是整个华人社会的一部份。外国人学华语也可按此顺序,即分为三步:龚码华语拼音标注→龚码华语拼音文字→龚码中文统一文字(只有六千多字),后一步为选择项。而国内儿童的识字期可提前一、两年,儿童的阅读期及其他各种学习也将相对提前,智力开发的成效将显著提升,全民的识字率将大幅提高。一旦学会26个字母之后,即使还没学会识方块字的人,也能把以华语拼音标注的店名、商品名,甚至电话簿上的人名拼出。
有语言文字学家的研究显示,只要对英语的拼写、读音和语法科学地加以变通和适当规范,学习者即可节省50%的时间。若龚码华语拼音方案和龚码中文文字统一方案等系列方案能得以推行,从理论上说,华语的平均学习时间将能降至现在的20%以内。如果海内外的华人把这些节省的时间拿来学习其他知识,或用于工作或研究,将能创造无法衡量的经济价值,大中华的综合国力、国际地位和国际发言权也将得到大幅提升。
以上概略地对本发明的龚码华语拼音、单拼输入统一方案及智能转换翻译作了描述。本发明相关领域的人员,可以不经创造性劳动就能对本发明作出各种各样的修改和改进。发明人认为,这种修改和改进都属于后面的权利要求书所定义的范围之内。
本发明可有效应用于中文和华语的信息数字化输入、传输、识别、计算机处理、机器翻译、排序、检索、速记、文字智能处理、语音识别系统、同声传译系统等,可用于涉及到中文的各种计算机软件(如操作系统、浏览器、文字处理、排版、光学OCR识别、翻译、校对等软件),国际互联网,平面(图书报刊等)、多媒体(CD、DVD光碟等)、电子(国际互联网页等)出版品,电子字典等,可支持所有平台,可用于主机Server端或客户Client端,可用于文件、电子邮件、页面。亦可用于中文字与中国方言文字、少数民族语言文字,及与日文、韩文等其他亚洲语言文字的输入、语音拼注及转换翻译。
附:龚码拼音文稿示例:
天地垂日月 斯人未云亡 ——张公祠游记Tian^di Truiv Ri^yue Sq R Weiz Yunv Wagv ——Drag^gug^tsv Youvjz
(1990年5月16日新华社电讯稿)
(1990n5y16ri Shinqhuavsrez dianzshyunz gaux)
·龚学胜·
·Gugq Shue^sregz·(E119 h456)
一个融融春日,我去瞻仰了张公祠。l^ge chigvlagx d trun^ri,w ch dranqyagxl Drag^gug^tsv(I334).
位于湖北省南漳县武镇北郊蟠龙、伏虎二山间的张公祠,是为纪念抗日战争中为国捐躯的张自忠将军而修建的。祠内一九五六年恢复了南漳县荩忱中学。祠的正门向南,门前是清流长碧的荩忱渠,渠水带着鄂西北父老乡亲的一片深情悠然东去。祠的东、西、北三面环山,青松挺拔。每每风过,松涛阵阵,似有进击的军号声和千军万马的嘶喊,给这多姿绰约的水光山色平添了一层壮严、肃穆的气氛。Weiz yu Huvbeix Sregx Nanvdragq Shanz Wuxdrenz beixjauq Panvlug Sran h Fuvhux Srandri^janq d Drag^gug^tsv,sr wei jznianz Kagzri-dran^dregq c wei g jyuanqchyuq d DragDszdrugq(D335d219)jag^jyun e shou^janz d.Tsv nei 1956n huiqfuzl Nanvdragq ShanzJinztrenv C^shue.Tsv d dreg^men shagz nanv,men chan sr chigqtrezjan^dix d JinztrenvChyuv,chyuvsrui daizdre Huvbeix shi^beixbu fuzlaushagqchin d 1p srenqchig youqrandugq ch.Tsv d dugq、shi、beix 3mian huanv sran,chigqsugq tigxbav.Meixdag feg guo,sugqtauq drenzdrenz,szhu y trug^fegq d jun^hauzsregq h chanqjun&wanzma d sqhanx,gei dr duo^dsqtruozyueq d srui^guag&sran^se pig^tianql 1tseg druagqyanv、suzmuz dchzfen’.
张公祠占地二十五公顷,芳草铺地,绿树长青。当年张自忠将军的三十三集团军总部就设在这里。祠中心有一面积约九十平方米的正方形陵园,其四周是高约二米的红砖花墙。陵园门前有两尊碑刻呈“八”字形立于石阶两侧。右侧石碑上是蒋中正先生的题词:气壮山河;左侧石碑上是冯玉祥将军的题词:万古不朽。我拾级而上,从拱形园门步入陵园,首先映入眼帘的是张自忠将军的衣冠冢。一九四零年将军殉国后,遗体由宜昌运往重庆,安葬在重庆北碚梅花山,这里留下了衣冠冢。衣冠冢呈二米方圆的圆形,高约一点五米,座落在陵园正中的鲜花丛中。浓密的青草将衣冠冢严严实实地覆盖住,朵朵小花点缀其间。冢前是两棵冬青树护卫的张将军的青石像,俊眉大眼,英武豪放。像下刻有张将军决心殉国的手书,狂草奔放,笔力强劲。将军那救国护民的赤肝义胆,那磊落坦荡的凛然正气,仿佛由酣畅的笔端脱颖而出,震撼着我的心弦。衣冠冢附近还有许多名人、要员的题词和挽联石碑。陵园四周有四个弧形花坛,每个花坛旁卧有一棵粗壮的雪松,宝塔似的树冠犹如在肃立默哀。Drag^gug^tsv dranzdi 25gug^chigx,fagqtsau puq di,lyuzsruz trag qigq.Dag^nian DragDszdrugq jag^jun d #33jvtuan^jyun dsug^bu jou srez ds dr^li.Tsv c^shin y i mian^j’yueq 90pig^fag^mi d dreg^fag^shigv ligvyuanv,chv s^drou sr gau yueq 2mi d hug^druanqhuaqchagv.Ligvyuanv men chan y liag^zun beiqkez trenv“baq”dsz shigv liz yu srvjeqliag^tsez.Youztsez srvbeiq srag sr Jagx C^dreg shanqsreg d tivtsv:Chzdruagzsran^hev;dsuoxtsez srvbeiq srag sr Fegv Yuzshagv jag^jun d tivtsv:Wanzguxb^shoux.W srvjve^srag,tsug gugxshigv yuanvmen buz ruz ligvyuanv,srouxshanqigz ruz yan^lianv d sr Drag Dszdrugq jag^jun d iqguanqdrugx.1940n jag^jun shyunzghou,ivti youv lvtragq yun wagx Trugvchigz,an^dsagz ds Trugvchigz Beixbeiz d MeivhuaqSran,dr^lix liuvsh^l iqguanqdrugx.lqguanqdrugx trenv 2mi fag^yuanv d yuanvshigv,gau yueq 1.5mi,zuozluo ds ligvyuanv dreg^c d shanqhuaq tsugv c.Nugvmiz d chigqtsaujag iqguanqdrugx yanvyanv-srvsrv di fuzgaiz druz,duoxduox shau^huaq dian^druizchvjanq.Drugx chan sr liag^kex dugqchigqsruz huzweiz d Dragjag^jun d chigqsrvshagz,junzmeiv&da^yan,igqwux hauvfagz.Shagz sha kez y Drag jag^junq jyuevshin shyunzgd srou^sru,kuagvtsaux benqfagz,bixliz chag^jinz.Jag^jun na jouzg huzmin dtrvdanx&drugqshin,na leixluo tanxdagz d linxran dreg^chz,fagxfo youv hanqtragz dbixduanq tuo^igxe^truq,drendranzdre w d shin^shanv.lqguanqdrugx fuzjinz haivyshyuxduo migvr、yau^yuan d tivtsv h wanxlianv srvbeiq.Ligvyuanv si^drou y si^ghuvshigv huaqtanv,meixge huaqtanv pag woz y lkeq tsuqdruagz d shyuexsugq,bauxtaxsrzd sruzguanz youvru ds suzliz mozaiq.
伫立在张自忠将军的衣冠冢前,仰慕英雄高风,我坠入了绵邈的遐思之中……Druzliz ds Drag dszdrugq jag^jyun d iqguanqdrugx chan,yagxmuz igqshugv d gau^sragzfeg^fanz,w druizruzl trag^trag d shavshag dri^c…
自忠将军字荩忱,一八九零年生于山东临清县。他自幼聪明好学,热情正直,后来投笔从戎,立志担负兴亡之责。一九一六年起历任营、团长,陆军师长、军长,察哈尔省政府主席,天津市市长,陆军上将第三十三集团军总司令等职。Dszdrugq jag^jun dsz Jinztrenv(F101i075),1890n sreg yu Sran^dugq Linvchigq Shanz.T dszyouz tsugqmig hau^shue, re^qig dreg^drv, hou^lai touvbix-tsug^rugv,lizdrizdanqfuz chi g^ja shigqwagv d zevren.1916n chi t lizren yigvdragx、tuan^dragx,luzjunsrqdragx、jun^dragx,Tsaqhaverx Sregx sregxdregzfux dru^shv,Tianqjinq Srz srzdragx,luzjun srag^jag #33jvtuan^jun dsug^sqligz deg driv.
一九四零年,侵华日军总头目冈村宁次在豫南、鄂北增援了七个师团的兵力,采用希特勒的闪电战术,大举进攻襄阳、南阳,张自忠将军率领所部将士誓死抵抗。五月十六日,日军集中兵力,在飞机掩护下从随县、钟祥两路反扑,张自忠率两千官兵在湖北宜城同万余日寇展开了血战。随行参谋和苏联顾问劝他迅速离开战场,他坚决不下火线。两军从清晨激战到中午,张自忠左臂负伤后仍疾呼督战。在身负六弹重伤倒下后,又嘱咐身边卫士:“对国家、对民族,良心平安,大家要杀敌报仇!”说完,壮烈牺牲在宜城南瓜店十里长山阵地上……1940n,chinq huav ri^jun dsug^tou^mu Gagqtsunqninvts ds Hvnanv nanvbu h Huvbeixbeixbu dsegqyuanvl 7ge srqtuan d bigqliz,tsaixyug Hitler(Shqt^lq)d sranxdianz-dran^sruz,da^jux jin^gugq Shagqyag、Nanvyag,Drag Dszdrugq jag^jun sruaizligjag^srzsrzsx dixkagz.5y16ri,ri^jun jvc bigqliz,ds feiqjq yanxhuz sha tsug Suivshanz、Drugqshagq liag^lu fan^puq, Drag Dszdrugq sruaiz liag^chanq guanqbigq ds Huvbeixlvtregv tug wanzyuv ri^kouz dranxkai^l shexdran.Sui^shig tsan^mouv h Suqlianvguzwenz chuanz t shyunzsuz livkai dran^tragx,t janqjyuev b^sha huoxshanz.Liag^juntsug chigqtrenv jqdran dau c^ux,Drag Dszdrugq dsuoxbiz fuzsragq hou reg drxhuiqdran^douz.Ds sren^fuz 6danz drugzsragq dauxsha hou,you druxfuz sren^bian weizsrz:“dui g^ja、dui min^dsuv,liagvxin pig^an,da^ja yau sra^div bau^trouv!”Sruowan,druagzliez shqsregq ds lvtregv Nanvguaqdianz Srivli-trag^sran drenzdi srag…
“天地垂日月,斯人未云亡。”伫立在张自忠将军的衣冠冢前,我被一股浩然正气激励着,胸中久久回荡着缅怀之情。蓦地,我不敢再挪步了,因为我脚下的每一寸土地,都浸透了烈士的鲜血,都展示着一段永不磨灭的历史。我深深意识到,真正伟大的生命进行曲是不会消亡的,即便被击倒,它也会在大地母亲的怀中继续歌唱。“Tian^di truiv ri^yue,Sq r weiz yunv wagv(G764 i567 j063 i526).” Druzliz ds DragDszdrugq jag^jun d iqguanqdrugx chan,w bei lgux hauzran dreg^chz jqlizdre,shugqcjouxjoux huivdagzdre mianxhuai dri chig.Mozdi,w b^ganx dsai dsou^dug l,in^wei wjauxsha d meix ltsunz tu^di,dou jinztouzl liezsrz d shanqshex,dou dranxsrzdre 1duanyugxb^movmie d lizsrx.W srenqsrenq izsr’dau,dren^dreg weixda d sreg^migzjin^shig^chyux sr b^hui shauqsrq d,jzbianz bei daxdaux,taz ye^hui ds da^di muxqind huai^c jzshyuz gqtragz.
琅琅的读书声,将我从沉思中唤醒。我想,在今曰海峡两岸的土地上,向着世界,向着未来,已经绘了许多既新又美的画图,谱了许多动听的乐曲。在“忠诚热忱”的荩忱精神勉励下,一批又一批的人才崭露头角。如果自忠将军的英灵得知,一定会含笑于九泉的,一定。Lagvlagv d duvsru sregq,jag w tsug trenvsq c huanzshigx.W shag,ds jinqri hai^shav-liag^anz dtu^di srag,shagzdre srzjez,shagzdre weizlai,ixjig huizl shyuxduo shinqigx h meixliz d tuvhuaz,puxl shyuxduo dug^tig d yuezchyux.Ds“Drugqtregv Re^trenv”d Jinztrenv Jigqsrenv mianxliz sha,lpiq you lpiq d r^tsai dranxlouztou^jaux.Ru^guox Dszdrugq jag^jun d igqligv de driq,i^dig huihanvshauz yu jouxchuanv d,i^dig.
Claims (6)
1.一种华语拼音统一方案,其特征在于:整体方案不超出26个英文字母和相关符号的范围;从国际音标的清辅音、浊辅音及元音中找出与华语的声母和韵母发音最接近的对应关系,然后,找出选定国际音标与英语发音最接近的“出现频度最高的”英文常规拼写形式,如以下汉语拼音与华语拼音的对照:q→ch,x→sh,z→ds,c→ts,ao→au,zh→dr,ch→tr,sh→sr,ong→ung,ü→yu;q,v,x,z四个字母依序专用作标示四声,轻声标为(’),声调标于每个单音节的最后;为了使拼式简单,所有的声母与韵母在读音不会混淆时都可独立形成音节,如yi→i,wu→u,yin→in,wen→un,zhi→dr,chi→tr,shi→sr,ri→r,zi→ds,ci→ts,si→s;在同一单音节中,当元音字母后紧接-ng共同组成韵母时,省略为-g,如ang→ag,eng→eg,ing→ig,ung→ug;每一个声母在单用时,都“视为”相当于其在华语字母表中的读音(表音),b(波)、p(坡)、m(莫)三个声母视为已包括o音,声母f(弗)视为已包括u音,d(德)、t(特)、n(呢)、l(勒)四个声母视为已包括e音,g(哥)、k(科)、h(喝)三个声母视为已包括e音,i(机)、ch(其)、sh(西)三个声母视为已包括i音;音节的界线发生混淆时,用符号(^)隔开;为了避免字音排序时,相同声韵母的音节由于声调字母的加入而被分开,排序的主要关键字不考虑声调字符,次要关键字考虑声调字符。
2.一种华语拼音文字统一方案,其特征在于:华语拼音方案的实际运用形式,分为“华语拼音标注方式”和“华语拼音文字方式”,拼音标注方式除了用于为中文方块字标注字音和华语人地山河名译出或其他非段落文本形式的标注外,也作为初学者拼音读物和儿童拼音读物的拼写方式;华语拼音的整体方案采用全拼形式,以单拼方式输入时“输简显全”,在全部标调的基础上,能够省掉声调的字词(如异拼略调字词)才“省略”声调,尽量按词输入,不用意头意尾;对部分有必要分化定型的高频字,采用略拼略调字(部分只略调未略拼),单用或用于词尾时用略拼形式不标声调,用于词头或词中,其后无(-)或(&)等符号时,用(^)标于单音节之后;略拼略调字根据分化定型的必要性和综合字频确定,当综合字频相近时,根据字频方向平均值确定;为免混淆,每一种声、韵母的组合只能有一个略拼略调字;对部分有必要分化定型的次高频字,采用单音节最多不超过五个音码的全拼形式;根据综合字频等确定时,选择优先顺序为:略拼略调字—常拼略调字—全拼略调字—略拼带调字—全拼带调字—常拼带调字;对少数在简繁体字使用区无争议的高频词,采用统一的略拼形式,略拼词不标声调,每一种字母的组合只能有一个略拼略调词,并且不能与其他常拼音节混淆;普通名词的略拼略调词制订参考龚码单拼输入方案;音节界线不会混淆的单字母音节可自然形成略拼略调词;略拼略调专用名词只将每个字的声母列出,无声母的只用韵母的第一个字母;当声母有两个字母组成,并需要大写时,第二个字母小写;量词前的数词为“一”并处于段首时用中文数字的拼音,其他情况一律使用阿拉伯数字,并与量词连写;年月日、点分秒用略音字,与相关阿拉伯数字连写;序数词前若有“第”省略;序数词前加#(需要时按华语习惯读作“diz”),与其后阿拉伯数字和量词连写;为了便于阅读和理解,并列关系用&(不发音),前后不空格;货币金额的华语大写数字(如支票上的大写)采用全拼带调形式,每十进位单位之间用连字号,每个大写数字和单位的音码不少于两个字母;对需要加注的人地山河名和引用的古文字句等需要明确区分的特定字词,采用附加“码注”(按有关编码的内码标注)的方式处理,即注上特定字的编码,而编码可及时显示,方便查阅,码注的大小写和分词连写方式与标注的原拼音的每个单音节严格保持一致,有必要确认对应中文字时,可及时将光标置于编码上,利用互显功能查出中文字;也可利用编码表查阅,不需要时可略过;句首单词、诗歌各行及论文大纲中各项的首字母大写,人地山河、机构团体等专名首字母大写;图书报刊、影视戏剧、文章诗歌及艺术品等名称用斜体,用于强调或例示的字词用斜体,法庭案例名称中的原被告姓名用斜体;外来词,包括非华语的人地山河名,其拼写在原则上一律还原为原拉丁字母形式,必要时将读音以华语拼音加注于括号内。
3.一种对同音同调字词分化定型的方法,其特征在于:按照“原同音同调字词中高频字词保持原调,次高频字词转调,低频字词转用法;转音字词不会产生新的混淆”的原则进行声调分化,优先在平声或仄声内互转,阴平与阳平互转,上声与去声互转,同音同调词中只转换其中易转字的声调;当难以进行声调分化时,原同音同调字词中高频字词保持原音,次高频字词转音,低频字词转用法,优先在相近字音内互转,转音字词不会产生新的混淆,相关卷舌音与平舌音互转,相关清音与浊音互转;采用全拼、略拼和略调字词方式,不改变字音,只改变拼写形式或省略声调,在“每一种单音节不超过五个音码,拼写方式易读,无歧音”的原则下,对每一种音节预安排两种异拼形式,可对每一种单音节常拼带调之外的11个字分化定型,在与其他同声同调字或相关语词产生混淆时才使用;当难以进行声调和字音分化时,原同音同调字词中高频字词保持原用,次高频和低频字词转用法,不易转字词保持原用,易转字词转用法,优先转换为现正使用的字词,转用字词不会产生新的混淆;由于某些不同的方块字词在拼音字词中成了同音字词,在使用拼音文字时,尽量避免使用语义不易理解的略字语词,改用完整语词;综合采用多种方法复杂分化;对中文方块字标注字音时,仍按华语拼音的常拼带调。
4.一种拼音相关智能化互显互转互译方法,其特征在于:为了使字词与拼音、编码能相互融合,即字(含词)中有音、码,音中有字、码,码中有字、音,首先要求三者互显;当需查寻某音节的字码信息时,把光标置于所选音节,即显示与该词拼音声调相符的字形、编码等信息,信息框可为固定形式或随光标移动形式,用户根据需要选择,并可点取上屏。有多个字词时,按频度排列;反之,把光标置于所选字词,即显示与该字词相符的拼音、编码等信息;用户可根据需要将此功能随时开启或关闭;;由于尽量按词输入,并对同音同调字词进行了有效的分化定型,因而中文的文字与拼音之间的转换,以及龚码拼音文本与外文之间的翻译将会非常容易,转换或翻译结果可根据上下文自动进行智能化检查、校对、修正;所有的中文文本均可转为纯字母方式并排序,在国际范围内供检索查阅,所有的外文文本也可轻易译为拼音文字并排序。
5.一种中文文字和华语拼音的字音输入统一方案,其特征在于:使用简繁体字统一的键盘对应方式;为了便于记忆,当华语拼音方案中的声母或韵母只有一个字母时,优先采用与之相同的键盘字母,如声母b、p、m、f、d、t、n、l、g、k、h、i、r、s,韵母a、o、e、i、u,当声母或韵母超过一个字母时,全部简化为一个字母;为使键盘击键次数分布科学合理,将所有用字的每一个声母或韵母出现的次数加总,除以声韵母总次数,得出每一声韵母的特定音频百分比;在上述优先对应的键盘字母之外另增简化声韵母时,每一字母键的总击键次数应相对均衡(均布荷载),以有效减少重码;为强化声调功能,并将字词分流,专用声调字母保留原用;明确区分单拼字、双拼字、双拼双字语词、三拼双字语词、三拼三字语词、四拼双字语词及四拼多字语词,并且键键有字,当输入调键时视为字输入的结束键;输入时不必拘泥于语法意义上的词或短语,尽量采用三字以上的词或短语、句子形式,长了重码少,平均击键少,即“能连则连,连多则快”;当输入首音码,视为输入了首码相关高频字(包括单拼字和双拼字),所有字将会按综合字频列出,每次显示二十个(不足部分可选择以首码相关高频字接后)。前十个用英文键盘前方的数字键选取,第一字也可用空格键选取,后十个用右方小键盘的数字键选取,未出现字词可按([)、(])键翻页,并会在第一行显示一个与此单拼字相关的高频双字语词(首字相符),用/键选取;当输入次音码,视为输入了双拼词(两个单拼字组成的双字语词),此字音的所有词将会按综合词频列出,每次显示二十个,并会显示一个与此二键相关的高频双拼词,用/键选取;次码若为调码,视为完成了带调单拼字输入,这些字将会按综合字频列出,每次显示二十个,并会显示一个与此二码相关的高频双拼词(首字为相关带调单拼字),用/键选取;当输入第三音码,视为输入了三拼词(三拼双字、三字语词),所有相关词将会按综合词频列出,每次显示二十个(不足部分可选择以相关高频词接后),并会显示一个与此三键相关的高频三字词(每字首码相符),用/键选取;第三键若为调键,视为完成了带调双拼字输入,此含调字音的所有字将会按综合字频列出,每次显示二十个,并会显示一个与此三键相关的高频双字词(首字的音与调均相符),用/键选取;当输入第四音码,视为输入了四拼词(四拼双字、多字语词),相关语词按综合词频列出,每次显示二十个(不足部分可选择以相关高频词接后);如果有,会显示一个与此四键相关的高频四字词(每字首码相符),用/键选取;以上的单拼输入中,为了提高输入速度,每一个输入步骤的缺省设定为只显示“完全符合条件”的字词,“不足部分可选择以相关高频字词接后”则由用户选择使用;单拼拼音文字输入时“输简显全”,即以单拼方式输入,显示常拼结果,根据标点符号自动将句首的第一个字母大写,自动在单词之间加空格,华语拼音中没有的音节将不会显示;充分利用每个首码字母对应的20个高频字,做到“高频字不翻页”,有把握的高频字一键完成,其他单拼字带调两键输入,双拼字带调三键输入;双字词若由两个单拼字组成两键输入,一单一双三键输入,两个双拼字四键输入;三字词三键、四字词四键,只输入首码;五字词以上输入前三字和末字的首码,共四键;智能语句模式输入时,无需输入声调,将单拼字输入单码,双拼字输入双码即可;用户可随时自造词、修改词,并可按类别分为各类词库,据需要选择挂接;单拼输入法可自动调频,用户也可根据需要手动调频;为了提高语句输入的准确率,用户可开启自学习功能;龚码智能语句模式会记住用户在输入过程中所作的各种修改,并调整相应字词的出现频率;语句模式也可智能学习用户指定的整篇文章的风格,将原输入系统中没有的语词自动保存,即相当于自动造词。
6.一种中文文字译名统一方案,其特征在于:外文的国名、人地山河名译进时采用在简繁体字使用区统一的标准译名法;标准译名法以国际音标的音节,搭配固定的与该音节发音最接近的中文用字;不同的译者将非中文的人地山河名用标准译名法译成中文后,能得到相同的结果;名从主人,被名称的拥有方认可的中文名称不翻译,外国人已有其本人认可中文名的就不再翻译;被繁简使用区共同认可、已经习惯且无争议的名称不重译;原文直译,不转译;名称以所属国官方公布为准;对应特定音节使用发音最接近的专用中文字,一个中文字只可对应一种音节;中文译名字音最接近原语言的标准音,标准音未定者按国际音标发音;译名在三音节以上者原文的轻读音不译;不同译者可据标准译名法译出相同结果;根据中文译名可反推出原外文名称的常规拼写形式;为改善译名不统一状况,统一方案相关词典列出外文国名与较有影响的人地山河名之中文译名统一规范形式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 02108930 CN1414453A (zh) | 2002-04-06 | 2002-04-06 | 华语拼音、单拼输入统一方案及智能转换翻译 |
CN 03108550 CN1455358A (zh) | 2002-04-06 | 2003-03-26 | 华语拼音统一方案及单拼输入与智能转换翻译 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 02108930 CN1414453A (zh) | 2002-04-06 | 2002-04-06 | 华语拼音、单拼输入统一方案及智能转换翻译 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1414453A true CN1414453A (zh) | 2003-04-30 |
Family
ID=4740410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 02108930 Pending CN1414453A (zh) | 2002-04-06 | 2002-04-06 | 华语拼音、单拼输入统一方案及智能转换翻译 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1414453A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007051246A1 (en) * | 2005-11-02 | 2007-05-10 | Listed Ventures Ltd | Method and system for encoding languages |
CN102339279A (zh) * | 2010-07-21 | 2012-02-01 | 英业达股份有限公司 | 具有声调的拼音翻译与拼音查询系统及其方法 |
CN103164391A (zh) * | 2011-12-12 | 2013-06-19 | 张家港市赫图阿拉信息技术有限公司 | 一种输入序数词的方法 |
CN107291840A (zh) * | 2017-05-31 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种用户属性预测模型构建方法和装置 |
CN111538817A (zh) * | 2019-01-18 | 2020-08-14 | 北京京东尚科信息技术有限公司 | 人机交互方法和装置 |
CN113657104A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 文本抽取方法、装置、计算机设备及存储介质 |
-
2002
- 2002-04-06 CN CN 02108930 patent/CN1414453A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007051246A1 (en) * | 2005-11-02 | 2007-05-10 | Listed Ventures Ltd | Method and system for encoding languages |
CN102339279A (zh) * | 2010-07-21 | 2012-02-01 | 英业达股份有限公司 | 具有声调的拼音翻译与拼音查询系统及其方法 |
CN103164391A (zh) * | 2011-12-12 | 2013-06-19 | 张家港市赫图阿拉信息技术有限公司 | 一种输入序数词的方法 |
CN107291840A (zh) * | 2017-05-31 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种用户属性预测模型构建方法和装置 |
CN107291840B (zh) * | 2017-05-31 | 2020-01-21 | 北京奇艺世纪科技有限公司 | 一种用户属性预测模型构建方法和装置 |
CN111538817A (zh) * | 2019-01-18 | 2020-08-14 | 北京京东尚科信息技术有限公司 | 人机交互方法和装置 |
CN113657104A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 文本抽取方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun | Chinese: A linguistic introduction | |
Maiden et al. | A reference grammar of modern Italian | |
Taylor et al. | Writing and literacy in Chinese, Korean and Japanese | |
Phan | Lacquered words: the evolution of Vietnamese under Sinitic influences from the 1st century BCE through the 17th century CE | |
Klöter | Written Taiwanese | |
Jenny | Burmese: A comprehensive grammar | |
Li | The Chinese writing system in Asia: An interdisciplinary perspective | |
Chen | Development and standardization of lexicon in modern written Chinese | |
Johnson | Translating Maya Hieroglyphs | |
Wei et al. | Language play in and with Chinese: Traditional genres and contemporary developments | |
Pae | Analyzing the Korean alphabet: The science of Hangul | |
CN1414453A (zh) | 华语拼音、单拼输入统一方案及智能转换翻译 | |
CN102053719A (zh) | 华文汉字输入法 | |
CN1455358A (zh) | 华语拼音统一方案及单拼输入与智能转换翻译 | |
Wiebusch et al. | Loanwords in Mandarin Chinese | |
Du | The Chinese language demystified | |
Koehler | Hangeul: Korea's unique alphabet | |
Kubler | Basic Mandarin Chinese-Reading & Writing Textbook: An Introduction to Written Chinese for Beginners (DVD Included) | |
Beckwith | On Zhangzhung and Bon | |
Chang | Tonal adaptation of loanwords in Mandarin: phonology and beyond | |
Van Hal | Early Modern views on language and languages (ca. 1450–1800) | |
CN1489122A (zh) | 拼音英语及学习机 | |
Sin-wai | The Dancer and the Dance: Essays in Translation Studies | |
Rahman | Urdu and the Muslim identity: Standardization of Urdu in the eighteenth and early nineteenth centuries | |
Lu | A phonological study on English loanwords in Mandarin Chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |