CN1316686A - 电子计算机汉字词语码编码技术 - Google Patents
电子计算机汉字词语码编码技术 Download PDFInfo
- Publication number
- CN1316686A CN1316686A CN 00106604 CN00106604A CN1316686A CN 1316686 A CN1316686 A CN 1316686A CN 00106604 CN00106604 CN 00106604 CN 00106604 A CN00106604 A CN 00106604A CN 1316686 A CN1316686 A CN 1316686A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- character
- characters
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明属电子计算机软件技术。以汉语言文字中能够独立存在和运用的双字词、三字词、四字词及五字以上词语、短语、成语和诗词等作为一个编码单位,采用反切相拼定音节,声母加形识末字的方法,使汉语因同音字、词太多而存在的大量重码得以识别,从而实现词语盲打;在汉字词语编码基础上改变后缀,可快速切换对应英语等外语词汇;用单位简称编码改变前缀或后缀,又可切换全称或对应外语名称。编码原理符合汉语言构词特性和发音逻辑思维,收词语广泛,易学易用,分普通版和科技版,适于各类人员录入中文,又可作各类电子词典的词语及汉英词典词条的检出,也可作新闻记者、文秘和学生的速记码。
Description
随着电子计算机技术的发展,计算机已在各种信息领域得到广泛应用。语言文字的处理是其重要内容。在我国现实生活中,大量的常规信息—报纸、刊物、书籍、科学技术文献、政府日常公务、商业贸易往来以及工农业生产和民众生活等等,都涉及到汉字的电子计算机处理。中国人口达12亿,加上国外会使用汉字的华人、华侨及周边国家和地区仍在继续使用汉字的人数几乎占全世界总入口的四分之一,因此,汉字的计算机编码技术,一直是汉字信息处理的关键,是中国汉语语言文字工作者及计算机编码人员研究和解决的重要课题。
八十年代初,王永明率先推出了“五笔字型输入法”,随后又相继推出各种拼音码(全拼、简拼和双拼等)、自然码、大众码等。迄今为止,已申请专利的汉字编码输入法已达数百种。其中,五笔字型输入法、拼音码和自然码等十多种较优秀的编码已得到广泛应用和推广,为中国的电子计算机汉字输入和信息处理作出了重要贡献。
然而,目前所有已推广应用的编码技术方案,多数仍停留在汉字特有的“单字”处理阶段。对此,国家语言文字工作委员会主任许嘉璐曾指出:我们要正视当前语言学和中文信息处理之间距离过大的现实,并且应当努力去改变它。他说:“目前,中文信息处理虽然已实现了‘字处理’,但这只是信息处理的初级阶段。要实现计算机中文信息的高速处理,做到计算机在全国乃至跟世界连网,就必须超越‘字处理’阶段,对(汉语)语言中的词、短语和句子以及语言的应用规律进行深入的研究,同时,在此基础上制定电子计算机所用的语言和文字规范与标准,并进行严格的管理”(见《科技日报》1997年12月1日第一版)。
尽管许多编码声称可以任意编码双字词、三字词、四字词和多字词,并在近期推出了许多组词更多、含多字词词语更广的新的编码,但在实际应用中,有的不仅需要进行繁杂的拆分组合(如形码),而且重码太多,所收汉语词语数量也并不广泛(如目前的各种拼音码、自然码等)。以最新版的“全拼”和“双拼”来看,虽然所收的词语增加较多,双字词组至七字八字词语或短语都有了,但其编码极不规范,例如,当键入“zhong”这个音节加声母“g”后,显示屏上即出现“忠告”、“重工业”、“中共中央”、“中国共产党”、“中国工商银行”、“中共中央总书记”以及“中共中央政治局常委”等64个并不直接相关的词组和词语,使用者必须在7次“翻页”中的数百个词语里去寻找所需要的那个词组或短语,即使按照拼音拼下去,由于汉语的同音字词太多,仍然有着大量重码。
实际上,目前已推广应用的以“五笔字型”为代表的“形码”和各类拼音码,除了编码是着眼于汉字单字的“字处理”外,编码本身依然存在着不可克服的缺点。首先,形码需将一个完整的字进行笔画拆分,且不说这种拆分是编制者人为规定的“形”,而且每个字的拆分过程就是一种新的组合。人们可以习惯地记住每一句话的发音和每个字的偏旁部首,却记不住每一个字的笔画需要按规定拆分3-4次;其次,拆分之后组合成一个完整的字或词的编码,还需去寻找规定的“反应部件键位”,只有拆分部件正确无误之后,才能寻找部件键位,再按规定键位击键,所需的那个字才能被检出。还有一个末笔字型交叉识别问题,即使是熟练的专业录入人员也常出错。相对于拼音码,五笔字型的单字检出重码较少。但是,录入者需经较长时间的专业训练,需记住许多规则、键盘和键位,否则,非专业人员很难记住所规定的拆分和键位,这就是五笔字型在非专业录入人员中难以推广和普及的原因。
五笔字型编码也编制了词汇码,其原理是以单字的代码为基础,完全依据组成词汇的每一个单字的笔画拆分以后再组成与单字代码码型一致的词汇编码。其规则是:双字词分别取两字的前两个字根代码共4码组成:三字词为前两字各取第一个字根码,最后一字取前两码,也是4码组成:四字词则每字各取第一码,仍然是4码组成:多字词按“1-2-3-末”字各取第一码的规则,依然是4码组成。这种对词组、词汇和词语的取码方法,又是一种新的拆分组合,且往往是在临用时才能进行拆分(因为使用者记不住那么多的词汇应该是何种组合),既费神,又费时。而且,每个字只取第一码的弊病是重码必然太多。因为第一字根笔画相同的汉字必然大大多于一个字拆3-4个字根的字。其结果必然是:扩展的词汇和词语越多,重码也将越多,尤其是多字词组成的词语,例如“国营企业”、“国营企事业”,“第十一世纪”、“第十二世纪”,“第十三世纪”、“第十五世纪”、“第十七世纪”等词语都只能是重码。而且,由于单字是4码,双字词是4码,三字词是4码,4字词和多字词也是4码,结果必然出现单字、双字词组、三字词组、四字词乃至多字词语同为一个编码的多重混乱状态,这些都是“形码”难以克服的弊病。从根本上说,形码是不能真正解决汉语中存在和使用的大量词组、词语和短句的编码的。
拼音码的优点是不必拆分组合,拼读符合人们的听想思维习惯,其编码反应直接,只需懂得拼音规则,上机即会,不用培训,不会忘记,正如英语国家的人用英语键盘录入一样。然而,由于汉语的发音仅限于418个音节,而汉字的单字常用字为4000个左右。国家标准总局公布的《信息交换用汉字编码字符集—基本集》(GB2312-80)1、2批,共6763个单字,其中,有1-5个单字的音节73个,218个单字。其余6545个单字分布于345个音节之中,平均每个音节有19个单字,最多的“ji”音节有110个单字,其次“yi”音节有105个,“yu”音节有96个等等,这就是汉字不同于其他拼音文字的“同音字”。由于同音字太多,拼音码在按下任一拼音组合的键位后,屏幕的提示行即出现大量的重码,不仅单字如此,词汇中的同音词组也如此。如“全拼”键入“shiji”和“双拼”键入“uiji”之后,这一词组发音相同的有“世纪”、“实际”、“时机”、“事迹”、“试剂”、“实绩”、“试机”、“史籍”、“食既”、“诗集”、“市集”、“师级”、“史记”、“食积”、“石鸡”等16个同音词组,类似的同音字词相当普遍,在三字词和四字词中同样有。还有一些拼音码如“简拼输入法”,其编码码长单字为2码,但是,双字词词组、三字词组乃至多字词词组和短语都一律规定为4码。双字词为声-韵-声-韵,3字词为声-声-声-韵,4字词为声-声-声-声,5字词以上为前三个字的声母加末字的声母。这种编码的重码,不仅同一个同音词组相重,如上述的“世纪”等16个词组相同,而且双字词与3字词,与4字、5字词以及多字词互相重码,如“世界纪录”为“ujjl”,那么,“省级纪录”、“射击纪录”、“时间距离”、“神经节律“受精机理”等都是重码。多字词中如“井水不犯河水”这一词语,按其编码规则应该为“jubu”,然而,这一编码在双字词中为“局部”、“拘捕”、“拒捕”、“举步”,在3字词中为“记事簿”、“几十步”、“既使不”等,所以,当键入“jubu”这一编码时,屏幕上将出现上述的多个双字词组、三字词组和词语。所以,在许多编码中,当键入某一个4码的编码时,屏幕上即出现大量的单字、双字词组、三字词乃至多字词或短语,录入者不得不反复地去按“翻页键”,去寻找那个自己需要的唯一词组。
还有就是许多编码都设置有的“联想”词组。如“全拼”码键入“zhong”和“双拼”码键入“vs”后,屏幕上除了出现“中、重、种、钟”等74个单字(含有繁体字)外,还出现双字词121个,三字词28个,四字词102个,五字词12个,六字词9个,七字词15个,八字词7个和九字词15个,若所需的词组是在最末一“页”,则需要“翻页”达30次之多。对于录入者来说,如此众多而又毫不相干的词语的出现,只能令人头脑发昏。因为录入者是按事先拟写好的文稿或思考成熟的字或词语一字一词地录入的,既不能出错,又不能随意改动,必须准确无误。录入者不是中小学生在学做文章,哪个词汇贴切优美就选那个。既使是直接用计算机在屏上写作的人,选词造句也已经事先在头脑里形成了。文字录入时,只能是要啥出啥,准确无误,百发百中。任何一种拼音码,包括新近推出的《联想拼音》、《微软拼音》和《语音识别系统》等,既使加上“四声”进行识别,也仍然不可避免地存在大量同音字和同音词组。
以上列举的以五笔字形为代表的形码,其实也不是汉字结构真正的形,而只是汉字结构的基本笔画“横、竖、撇、捺、折”,与汉字的特性相距甚远。各类拼音码虽然抓住了发声这一重要特征,但是,发声是任何一种语言都具有的特性。那么,汉字的特性是什么呢?
中国的汉字,从我国新石器时代晚期人类的刻画符号开始,历经了3000年左右,发展到殷商时期的甲骨文象形文字。其后又经钟鼎文(金文)时期,在象形文字的基础上发展演化而成为系统的汉字。汉字发展演化的方法,就是所谓“六书”。“六书”者,即象形、指事、会意、形声、假借和转注。“象形者,画成其物,随体诘诎”。“指事者,视而可识,查而可见”。“会意者,比类合谊,以见指撝”。“假借者,本无其字,依声托事”。“转注者,建类一首,同意相受”(许慎:《说文解字》序)。及至现代,汉字虽然几经改革和简化,使汉字的结构和数量发生了很大变化,但基本上仍然保留上述特点。
早在东汉时期,许慎就在其编篡的《说文解字》叙中说:“仓颉之初作书,盖依类象形,故谓之文。其后形声相益,即谓之字”。中国汉字虽非仓颉一人所能发明,但是,这段话已表明了汉字的形成是“依类象形”的。而“字”则是“形声相益”的,这已经指明了汉字的根本特性。所谓“形声相益”,就是汉字不仅具有“声”(即发音)的特性,而且还具有“形”的特性。根据汉语的发音特点,汉字被区分为418个音节。所有的汉字,无论是当代《新华字典》收入的8000余单字,还是国家标准局公布的《信息交换用汉字编码字符集》所收的6763个单字,抑或象《康熙字典》所收的42000余字,其发音都未能超出这418个音节,这就是汉字同音字-词多的根本所在。以汉字编码字符集公布的6763个字计算,平均每个音节有16个单字,最多的一个音节有110个单字同音(ji音节)。《康熙字典》则每个音节平均100个以上的单字。
在如此多的同音单字中,如何去区别每一个字的意义呢?这就得依靠每一个单字的“形”。这个“形”,一是由最早的(如甲骨文时期)原初字构成。其次是在原初字的基础上经指事、会意、形声、假借和转注等六书所衍生确立的偏旁部首。如一个“丁”字是最早的象形字,而现代语言中的“ding”这一音节共有22个单字(按《新华字典》),其中以“丁”这一原初象形字为发音基础再加不同的偏旁部首构成的不同意义但仍发“ding”音的单字就有16个(丁,叮,订,盯,顶,钉,町,玎,疔,订,仃,钉,酊,汀,钉,玎,靪),接着以“定”字加偏旁部首衍生的有5个(定,锭,腚,碇,啶)。再看一个“登”(deng)字,以“登”字为基本字形加不同部首衍生出12个发“deng”音的单字,占这一音节的80%。随便翻开一部以汉语拼音排列的字典,几乎每个音节中的单字都是如此构成。另一种就是从基本原初字如人字演变为部首“亻”双人和“人”旁共有311个单字,以“草”演变为“艹”头而发音不同的单字491个,以“木、氵”为偏旁的单字有992个发音不同的单字等等。所以,汉语的每一个单字只用一种特性如发音(各种拼音码)或“形”(包括象五笔字型等等的变型)都无法反映一个单字和同音词组的特性。可以说,“形声相益”是汉字在象形文字基础上演化和扩展的主要方法,现代的电子计算机汉字编码也应当以此作为最基本的识别方法和应当遵循的原则和途径。
在现代汉语中,描述各类事物并以文字作为信息传递而写成的文章,是由词组和短语(包括大量的成语和固定短句)构成的。实际上,在国家标准总局公布的6763个单字中,大约有1500个单字是不能单独用的,它们只是组词的单元,如“琵琶”、“枇杷”、“菝葜”、“荸荠”、“蚂蚁”、“蟋蟀”等。有些单字虽可单用,但组词以后就很少单用了,这类单字也有1000多个。这样,老是把研究的重点放在‘单字’的处理上,实在是有“画蛇添足”之嫌。本发明者随机统计分析了当代政治生活及生产活动中有代表性的报告、文章和一般性文稿,其中双字词组占41.74%(35.8-46.9%),三字词组占20.17%,四字词组占21.76%,五字以上多字词及短语占7.08%。单字仅占9.25%,包括最常用的虚词如“的”、“地”、“和”、“与”、“及”等,另外就是一些本身就具有词汇性质的单字如“金”、“银”、“铜”、“铁”、“煤”等。还有一类文章就是科技文献(科技论文、科学著作和科普作品),在这类文章中,除了普通词汇之外,还有大量的专业技术词汇和科技术语。本技术发明者在三种不同的科技论著(科技论文、著作和科普作品)中,随机统计了12397个字词(不包括标点、阿拉伯数字和拉丁字母),计有双字词4636个,占总字数的37.39%,比普通文章中的双字词数目略低。三字词2934个,占总字数的23.67%,比普通文章多。四字词1958个,占总字数的16.04%,大大高于普通文章中的5.25%。五字词至八字词或短语749个,占总字数的6.04%,普通文章中仅占1.51%。这个统计表明,在科技文章中,多字词语的使用频率要比普通文章高,而且,科学技术词语本身就是以多字词为主体的。统计了国家统一编订出版发行的《汉语主题词表》(“自然科学”增订本,1991年),其中“B”这个声母中16个音节共收入主题词3456个,其中双字词505个,三字词822个,四字词1017个,五字词567个,六字词290个,七字词139个,八字词以上116个。再看科技文章中双字词以上的普通词汇与科技词汇的比例:普通词汇与科技词汇之比为4624∶6249=1∶1.35。这个结果表明,对于广大科学技术工作者来说,既使普通汉语词语的编码问题完全解决了,他们在写作科技文章时,仍将有占全文一半以上的专业技术词语需一个单字一个单字地录入。此外,目前市场上大量上市的各类电子词典,包括《金山词霸2000》这样的超大型辞书,其汉字输入和汉英词典词条的检出,都只能一个个单字录入在显示屏上组合成词语后才能检出所需的词条和进行汉英翻译。当今科学技术的发展一日千里,如果汉字词语的编码忽视了科学技术词语的编制和研究,这仍然是一种不完全的编码技术。
从以上背景资料的分析不难看出,迄今为止所推广应用的多种汉字编码技术,都没有真正解决汉语汉字以词语为基础的编码技术,更谈不上科学技术专业词语的编码了。本技术发明的目的,就是针对目前各种汉字编码技术之不足,根据汉字“形声相益”的特性和现代汉语词语的应用范围,以现代汉语为主,参考《现代汉语辞典》(“中国社会科学院语言研究所”,1997年)和《汉英词典》(修定版),(北京外国语大学英语系词典组编,1995年第一版)所收的词语为普通汉语词语和一般科技词语版本(“汉英词典”含有一般科技词语),另外,收入中国成语中的6000余条成语词组,“毛泽东诗词”47首以及我国古代诗词、曲赋和名人名言中的一些名篇名句。科学技术版则以“科学技术文献出版社”出版的《汉语主题词表—自然科学版(增订本)》(1995年)所收的自然科学主题词(8万余词条)和“汉英生物学词汇”等。在上述文献的基础上,参考日常报刊杂志和科技文献中出现的新的政治、工农业生产、经济贸易和科学技术词语进行适当补充和增删,从而编制出的一种新型的、系统全面的而又易于操作应用的汉字词语电子计算机用编码。
本发明的技术方案,是以现代汉语固有的词语作为编码单位,即以汉字词组中的双字词、三字词、四字词、五字词、六字词、七字词、短语以及一些固定的简单句作为一个编码单位,包括普通词语、科学技术词语、成语、谚语、名人名言以及古今著名的诗词曲赋等。
编码方法,采用“反切相拼定音节,声母加形识末字”。“反切拼音”是我国宋朝即用于汉字注音的一种简洁明快的注音方法,为一字之声母与另一字之韵母快速相拼。“声母加形识末字”,即在双字词以上词组、短语的第一个字由“反切相拼”定其所在之音节,末字用其声母和部首加以识别。4字词以上则只需反切相拼定音节,以后各字用声母组合即可。短语或中间有停顿的固定短句在停顿处用后掇省略。由于许多单字具有词汇性质或有时可能单独用到,所以仍将这部分单字编码列出。文章中最常用到的虚词、连词、形容词和付词词尾用一键输入。要求保护的方案如下:
(1),汉字偏旁部首的调整和“0”部首的设置:本发明采用“反切相拼定音节,声母加形识末字”的方法,因为末字需要用部首进行识别,而我国传统习用的偏旁部首有50余部不规范,不仅难以识别,且计算机的键位也难以合理安排,所以对汉字的部首,在原来传统汉语字典部首设置的基础上进行了调整。将《新华字典》设置的213个部首,调整后保留规范的163部,废除50个不规范的部首(各类字典被列为“难检字”表中的单字),将这些废除的部首中的难检字绝大部分划为“零”部首,用键名“o”键代表,有些则归入相应的规范部首。
(2),单字的编码方案:应用本词语码编码录入文稿,已经很少用到单字了。但是,一些具有词汇性质及中国人的姓氏所涉及的单字仍然不少,因此仍将其编码列出。单字用3码,编码规则是,反切相拼定音节,重码部首来识别,例如“中”字,全拼为“zhong”,双拼为“vs”,当键入全拼的“zhong”或双拼的“vs”时,屏幕提示行出现“中,重,种,钟,肿,众,终,盅,忠,衷,踵,舯,螽,冢,塚”等同音字。本发明若需其中某字时,只需在“vs”后面加该字的部首即可检出。例中“中”字的部首不规范,因此加“o”为“vso”,“重”字横底加“/”为“vs/”,“种”字禾旁加“h”为“vsh”,“钟”字金字旁加“j”为“vsj”,“肿”字月旁加“y”为“vsy”,“众”字人旁加“r”为“vsr”,“终”字丝旁加“s”为“vss”,“盅”字为皿底加“m”为“vsm”,“忠”字心底加“x”为“vsx”,“衷”字点头加“′”为“vs′”,“踵”字足旁加“z”为“vsz”,“舯”字舟旁加“v”为“vsv”,“螽”字虫底加“i”为“vsi”,“冢”字豕底加“u”为“vsu”,“塚”字提土旁加“t”为“vst”等。这样,单字的重码就可以用各字所具有的部首区分开来。
(3),双字词的编码技术方案:双字词用4码,其规则是,反切相拼定音节,声母加形识末字。反切相拼定第一个字的音节,第二个字用声母加部首识别。如“实际”一词,先键入“ui”这一音节,接着键入“际”字的声母“j”,“际”字的部首为“耳”旁,其对应的声母发音为“e”,所以加“e”为“uije”。与“实际”同音的词组还有:“世纪”的“纪”为丝旁,加“s”为“uijs”,“时机”的“机”为木旁,加“m”为“uijm”,“事迹”的“迹”为走旁,加“z”为“uijz”,“试剂”的“剂”为刀旁,加“d”为“uijd”,“史记”的“记”为言旁,加“y”为“uijy”,“史籍”的“籍”为竹头,加“v”为“uijv”,“诗集”的“集”为“佳”上,加“j”为“uijj”,“石鸡”的“鸡”为鸟部加“n”为“uijn”,“实据”的“据”为提手加“t”为“uijt”,“诗句”的“句”为口部加“K”为“uijk”,“时局”的“局”为尸头加“u”为“uiju”,“市井”的“井”不规范加“o”为“uijo”。这样,本来发音相同而必然为重码的词组就切分开了。由于有的同音词组末字同形,也会出现少数重码,但从未超过6个,经再次拆分即可做到全无重码。
(4),三字词的编码技术方案:三字词用5码,其规则是,反切相拼定音节,声-声加形识末字。第一字反切相拼定准音节,第二字只用声母,第三字用声母加部首识别。例如:“中国人”为“vsgro”(“人”字不规范为“0”),“中国热”为“vsgrh”,“中国字”为“vsgzg”,“中国话”为“vsghy”,“中国画”为“vsgh/”;“第一班”为“diybw”,“第一版”为“diybp”,“第一榜”为“diybm”等等。
(5),四字词及四字以上词组或短语的编码技术方案:四字词编码用5码,五字词用6码,六字词用7码,七字词用8码,八字词用9码等。其规则是,四字词及四字以上词组、词语及中间无间断的短语,反切相拼定音节,其余声母来识别。第一字反切相拼定准音节,其余各字用其声母即可,例如:“中国人民”为“vsgrm”,“改革开放”为“glgkf”。五字词组如“人民解放军”为“rfmjfj”,“环境保护法”为“hrjbhf”。六字词组如“百闻不如一见”为“blwbryj”,“中国人民银行”为“vsgrmyh”。七字词如“不到长城非好汉”为“budiifhh”,“矮子里面拔将军”为“alzlmbjj”等等。
(6),固定短语和句子的编码技术方案:固定短语和句子多在成语或名人名言中出现,中间往往有停断,例如“不入虎穴,焉得虎子”,“仁者见仁,智者见智”,“横眉冷对千夫指,俯首甘为孺子牛”,“有朋自远方来,不亦乐乎”等等。编码规则:用前半句编码加后缀..。“不入虎穴,焉得虎子”为“burhx..”,“横眉冷对千夫指,俯首甘为孺子牛”为“hgmldqfv..”。如果只需要前半句,则前半句编码键入后不加后缀即出现于提示行。有两次停断者,全句为后缀加3点...,前两个半句加两点。如“不破不立,不塞不流,不止不行”为“bupbl...”。只需“不破不立,不塞不流”为“bupbl..”。
(7),诗词曲赋的编码技术方案:从“诗经”“楚词”开始的古体诗词曲赋,是我国文化艺术的瑰宝,由于其言简意赅、格律固定,用词优美,发声押韵,历来为人民所喜爱,常用于学习、咏颂、引用和分析。在现有的各种编码中,如果需要录入诗句时,只能一个单字一个单字地录入。本编码以一个完整诗句作为一个编码单位编码上半句,如需全句则加后缀..,例如“红军不怕远征难,万水千山只等闲”为“hsjbpyvn.”。若只需“红军不怕远征难”则不用加后缀..。对于四言、五言诗和词赋,则按自然语句录入,例如毛泽东的词“沁园春一雪”:“北国风光(bzgfg),千里冰封(qmlbf),万里雪飘(whlxp)。望长城内外(wjiinw),唯一茫茫(wzymm),大河上下(dahux),顿失滔滔(dputt).....江山如此多娇(jwurcdj),引无数英雄竟折腰(ybwuyxjvy)”等等。
(8),单位及机构名称编码技术方案 在新闻稿件及公务往来的文件中,经常涉及世界各国、国际组织、政府机构、高等院校、研究院所、新闻单位、金融财贸和工商企业等机构名称。对于这些机构名称,一般情况下又多用简称,正式场合如发表公报、签订条约等又须用全称。国家名称如“美国”为简称,“美利坚合众国”为全称。“法国”为简称,“法兰西共和国”为全称。“波黑”为简称,“波斯尼亚和黑塞哥维那共和国”为全称。“中共中央”为简称,“中国共产党中央委员会”为全称。“全国人大”为简称,“全国人民代表大会”为全称。“全国政协”为简称,“中国人民政治协商会议”为全称等等。编码方案:一律用简称编码,需全称时加后缀.q。如“mzgo”为“美国”,“mzgo.q”为“美利坚合众国”。“bohh”为“波黑”,“bohh.q”为“波斯尼亚和黑塞哥维那共和国”。“vsgvy”为“中共中央”,“vsgvy.q”为“中国共产党中央委员会”。“qmgrd”为“全国人大”,“qmgrd.q”为“全国人民代表大会”。“中国外交部”为“vsgwjb”,“vsgwjb.q”为“中华人民共和国外交部”。“lwnzv”为“粮农组织”,“lwnzv.q”为“联合国粮食和农业组织”。“vskye”为“中科院”,“vskye.q”为“中国科学院”(五字以内名称也可用全编码:vsgkxy),“vskydws”为“中科院动物所”,“vskydws.q”为“中国科学院动物研究所”。象“北大”,“清华”等简称和全称字数差异不大的单位,需用简称为“bzdo”,“qyhh”,需要全称为“bzjdx”,“qyhdx”,不必加后缀.q。
对于省、市、自治区党政机构,部门名称的编码技术方案,采用一、二级编码。一级为一次编码完成,如“bzjuvf”为“北京市政府”,“bzjuvf.q”为“北京市人民政府”,“hzljuvf”为“黑龙江省政府”,“hzljuvf.q”为“黑龙江省人民政府”(也可在“....省政府”前面加“人民”作二次录入),“xbjqvf”为“新疆区政府”,“xbjqvf.q”为“新疆维吾尔族自治区人民政府”等等。二级编码为省、市、自治区名和机构名分别单独编码,如“bzj’”为“北京”,“bzju’”为“北京市”,“ujh;”为“上海”,“ujhu’”为“上海市”。“ypno”为“云南”,“ypnuu”为“云南省”。若需“北京市人民政府”则再键入“rfmvf”—(“人民政府”),如需“北京市经济贸易委员会”,先录入“bzju’(“北京市”),再录入“jnmwh.q”(经贸委—经济贸易委员会”。自治区用简称编码,需全称则加后缀。如“gtxqo”为“广西区”,“gtxqo.q”为广西壮族自治区。“xbjqo”为“新疆区”,“xbjqo.q”为“新疆维吾尔族自治区”等。
上述国家、国际组织、政府、高校、研究院所以及所有单位、部门和机构名称的简称,必须按公知公用的简称,否则不能正确检出。
(9),中文汉字词语和机构名称切换英语、法语等及科技拉丁语的技术方案:中国改革开放以来,逐步扩大了与国外的交往,特别是科技文化、经济贸易和旅游事业的交流和发展,新闻媒体和各行各业都经常涉及外语的应用,各级各类学校进一步加强了外语的教学。科技工作者发表科技论文也需要外文写作或作外文摘要和关键词,或作注释和索引等。新闻记者在媒体传播中也常在文章中直接用英语词语陈述。尤其是各类电子词典中的汉英词典词条的检出等,都需要按中文词语原意译成英文。本编码设计了汉语词语(包括普通词语和科技词语)和机构名称英语、法语和科技拉丁语快速切换方法。编码方案为:在汉字词语和机构名称(简称)编码的基础上加后缀或改变后缀即可。英语加后缀.e,拉丁语加.l,法语加.f,德语加.g和西班牙语加.s等等(目前仅编制了英语和拉丁语)。先输入汉语词语,屏幕的提示行即出现该词语的汉字,若需该汉字词语则击空格键直接上屏,若需该词语的英语,则不击空格键而在其编码后加后缀.e。举例如下:
gojg—国家,gojg.e—country。rfmo—人民,rfmo.e—people。gsidx—共产党,gsidx.e—communist party。uehvy—社会主义,uehvy.e—socialism。uehvyju—社会主义建设,uehvyju.e—socalist construction。yiir—遗传,yiir.e—(1)heridity,(2)genetic。yiixx—遗传学,yiixx.e—genetics。yiigi—遗传工程,yiigi.e—genetic engineering。jiytb—基因突变,jiytb.e—gene mutation。
mzgo—美国,mzgo.q—美利坚合众国,mzgo.e—the United States,mzgo.eq—theUnited States of America。vsgo—中国,vsgo.q中华人民共和国,vsgo.eq—the people'sRepublic of China。yngo—英国,yngo.e—Britain,yngo.q大不列颠和北爱尔兰联合王国,yngo.eq—United Kingom of Great Britian and Northenr Ireland。bzys—北约,bzys.q—北大西洋公约组织,bzys.e—The North Atlantic Treaty Organization等等。
vsgvy—中共中央,vsgvy.q—中国共产党中央委员会,vsgvy.e—the Central Committeeof Communist Party of China。qmgrd—全国人大,qmgrd.q—全国人民代表大会,qmgrd.e—the National People's Congress of CHina。qmgrdiw—全国人大常委,qmgrdiw.q—全国人民代表大会常务委员会,qmgrdiw.e—Standihg Committee of the National People's Congress。vsgwjb—中国外交部,vsgwjb.q—中华人民共和国外交部,vsgwjb.e—the Ministry ofForeign Affairs of People's Republic of China。ougtr—欧共体,ougtr.q—欧洲经济共同体,ougtr.e。vskye—中科院,vskye.q—中国科学院,vskye.e—the Chinese Academy ofSciences。vskrgfzs—中科院高分子所,vskrgfzs.q—中国科学院高分子研究所,vskrgfzs.e—The Macromolecule Institute of the Chinese Academy of Sciences等等。
写作科技文章和著作,有时需要英语、拉丁语学名索引或注释同时出现,此时,只需在该词语的汉字编码后改变后缀即可。如:putai—普通鹌鹑,putai.e—common Quail(英语“普通鹌鹑”),putai.l—Coturnix coturnix(“普通鹌鹑”拉丁语学名)。ribai—日本鹌鹑,ribai.e—Japanese Quail(英语“日本鹌鹑”),ribai.l—Coturnix Japonica(“日本鹌鹑”拉丁语学名)。daxmq—大熊猫,daxmq.e—giant panda(英语“大熊猫”),daxmq.l—Ailuropda malanoleucus(“大熊猫”拉丁语学名)。mggym—蒙古野马,mggym.e—mongolia wild horse(英语“蒙古野马”),mggym.l—Equus przewalskii(“蒙古野马”拉丁语学名)等等。
(10),外语缩写作汉字词语的编码方案:在学术刊物、报章杂志、教材和科普文章中,经常使用简洁明快的英语缩写进行表述,如WTO(世界贸易组织),FAO(联合国粮农组织),DNA(去氧核糖核酸),RNA(核糖核酸),APEC(亚太经合组织),OPEC(石油输出国组织),TMD(战区导弹防御系统),NMD(国家导弹防御系统),SPF(无特定病源体动物),CCTV(中国中央电视台),CTPC(中国电视剧制作中心)等等。本发明设计了直接用外文缩写作编码的技术方案。
编码方法:用缩写原文加前缀和后缀构成。英语缩写前缀用e.,拉丁语缩写用l.,后缀则根据需要而变化。如e.FAO—粮农组织,e.FAO.q—联合国粮食和农业组织,e.FAO.e—food and agricultural organization of United Nations。e.apec—亚太经合组织,e.apec.q—亚洲和太平洋地区经济合作组织,e.apec.e—Asia and Pacific ocean area Economic Cooperteorganization。e.cctv—中国中央电视台,e.cctv.e—China Centre Televition。e.ctpc—中国电视剧制作中心。e.ctpc.e—China Televition play Preparative Centre。e.opec—石油输出国组织,e.opec.e—the Organnization of Petroleum Euporting Countries等等。
(11),汉字基数词与序数词的编码技术方案:在一般文稿中,汉字基数词大小写一、二、三、四、五、六、七、八、九、十、十一.....,壹、贰、叁、肆、伍、陆、柒、捌、玖、拾,序数词第一、第二、第三、第四、第五、第六、第七、第八、第九、第十.....等,尤其是在制定条约、条例、条款和合同等是经常应用而又不易输入的词语,本编码采用两种编码技术方案。一种是按常规词语编码,即一—yio,二—er/,三—sh/,四—sio,五—wu/,六—lq’,七—qio,八—bao,九—jqo,十—uio,十一—uijo,二十—eruo,二十一—eruyo;第一—diyo,第二—die/,第三—dis/,第四—diso,第五—diw/,第六—dil′,第七—diqo,第八—dibo,第九—dijo,第十—diuo,第十一—diuyo,第十二—diue/,第二十三—dieus,第一百—diyb/.,第一百0一—diybly,第一百三十八—diybsub等等。
第二种方法,基数词:一—u.1,二—u.2,三—u.3,四—u.4,五—u.5,六—u.6,七—u.7,九—u.9,十—u.10,十一—u.11,十二—u.12,十三—u.13,十四—u.14,十五—u.15,十六—u.16,十七—u.17,十八—u.18,二十—u.20,三十二—u.32,一0二—u.102;第一—d.1,第二—d.2,第三—d.3,第四—d.4,第五—d.5,第六—d.6,第七—d.7,第八—d.8,第九——d.9,第十—d.10,第十一—d11,第十二—d.12,第二十三—d.23,第一百—d.100,第一百0一d.101,第一百三十八—d.138等等。如订立条约或合同等需要,第一条—d.it,第二条—d.et,第五条—d.wt,第十一条—d.iit,第十七条—d.17t,第一百零七条—d.io7t。
(12),重码再拆分技术方案:本编码采用“反切相拼定音节,声母加形识末字”的方法,已经两次降低了同音词组的重码率。然而,由于汉字的同音字词太多,且有些词组的末字同形,所以仍有部分重码(主要是双字词),虽然一般没有超过6个,不必“翻页”,但是,要实现快速盲打,尤其是要将重码中的某一词语切换成英语等语种时,却带来不便。为此,特设计了重码再拆分的两种方法。
第一种方法,再用第一字的部首进行识别:例如,当键入“uiyo”时,屏幕提示行将出现“使用,2:实用,3:食用,4:适用,5:试用,6:施用”,末字都为同一或同形的字。若录入汉字文章需要“适用”一词时,只需选“4”即上屏。但若欲将其切换成英语时,“适用”一词的第一字部首为“z”,则在“uiyo”后加“z”(uiyoz)即为“适用”唯一,加.e(uiyoz.e)即为“适用”的对应英语“be suitable”。如是,“实用”为“uiyog.e”。“食用”为“uiyor.e。“试用”为“uiyoy.e”。“施用”为“uiyof.e”等。
第二种方法,有的重码不仅末字同形,且第一个字也同形或同部首,如“不用,不已,不予”等,这种情况,当键入“buyo”时,屏幕上即出现上述重码,汉字录入需要其中某词语时只需选项上屏。若需切换英语,就在编码后加后缀.2e、.3e,例中“不用”为第一个词不必加,以下“不已”为“buyo.2e”,“不予”为“buyo.3e”等等。
三字词和四字词也有少量重码,这类词语的相重不一定在末字,也不一定在第一字,其再拆分方法是:键入正常的编码出现重码时,若需中文可直接选项上屏,或在编码后加字母“o”为第二个重码唯一,加2个“o”为第三个重码唯一。若需切换英语,则在“o”后面加.e,如“gojcp”为“国家裁判、国际裁判”,“gojcpo”为“国际裁判”唯一,“gojcpo.e”为“国际裁判”的对应英语“international referee”。
本发明与现有已推广应用的汉字电子计算机编码技术比较,具有以下有益效果:
(1),现有已推广应用的以五笔字型为代表的形码和各类拼音码,都是以汉字的单字为出发点进行开发和研究的,其单字编码本身就存在许多不足,一旦扩展为词语编码之后,问题则更多。本发明是以汉语语言中固有的词组、词语和短语为出发点进行研究和开发的,即以汉语语言文字中能够独立存在、自由运用的语言单位作为一个编码单位,包括双字词、三字词、四字词和词组,五字词组、六字及七字以上词组、词语、固定短语,包括成语、谚语、短句和诗词曲赋等。由于汉字中大部分单字具有词的性质,因此也包括具有词性的单字。这样以词语为编码单位,符合我国人民和懂得汉语汉字的人的语言构词特性和语言发声的逻辑思维习惯,人们易于学习、理解、掌握和应用。
(2)本词语码编码规范,各类词组和词语固定其特定的码长。
本发明将单键键名设置为最常使用和出现频率最高的虚词,包括介词如“从、在、自、由”等,连词如“和、与、而”等,助词如“的、地、得、了”等以及副词等。
二码设置为汉语418个音节能代表每个音节准确发音的单字2-4个和该音节的标准汉语拼音。出现的单字既可直接上屏检出,更可为双字词以上词组、词语第一个字反切相拼的音节是否正确作出提示。
其余规范为:双字词4码,三字词和4字词5码,5字词语6码,6字词语7码,7字词语8码,8字词语9码和9字词语10码,10字及10字以上词语不多,录入10码即可检出。这样,各种词组、词语各行其道,不会造成混乱。本编码码长为10码加后缀2码共12码,即可全面涵盖汉语语言中的词汇、词语和短语等。而目前已推广应用的各种编码,全拼有的音节双字词即可达12码,其余编码为4码者则单字、双字及各种词语一起出现形成编码极大的混乱。
(3),本发明采用的“反切相拼定音节,声母加形识末字”,不仅与汉字形成的历史和汉字特有的“形声相益”相一致,而且可以二次降低同音字词的重码率,使同一音节中的重码率降低到最小限度。“反切相拼定音节”,其理论重码率仅仅是同一声母所有音节数之倒数,如“L”这一声母共有26个音节,反切相拼定音节之后,其理论重码率仅是只用声母者的二十六分之一。“声母加形识末字”,又使同一音节中的同音字词可能出现的重码率降为二十九分之一(即用29个部首键位又拆分了一次)。编码结果表明,双字词的重码最多为6个(不必翻页即可检出),经再次拆分后已无重码。例如本编码普通版中“B”这一声母16个音节共收词语6000余条,“C”这一声母包括“ch”共35个音节,收词语7000余条,结果出现重码最多的为5个(双字词),经再拆分后即无重码,可以做到词语和简单句的盲打,目前已推广应用的任何一种编码都不可能做到。
(4),编码的技术基础为中国人和学习汉语者所熟知且人人都会的拼音加部首,简单易学,只要上过中小学校以上的学生和学习过汉语拼音和部首的外国人,只需熟悉一下本编码的规则和要求,一学就会,一用就熟,一般不用举办培训班。
(5),本编码容词量大,收词组词语丰富、系统。单字除按国家标准总局公布的《信息交换用汉字编码字符集—基本集》(GB2312-80)中所收的6763个外,还收入了一批未被《基本集》收进的科技常用字词。词组词语收词范围广,普通词组词语10余万条(包括中国成语6000余条和诗词名篇名句),科技词语10余万条,目前已推广应用的其他编码是做不到的。
(6),本编码发明的世界各国国家名称、国际组织、政府机构、科研院所和各类部门、单位名称以公知公用的简称为基础按本编码规则进行编码,改变后缀即可快速切换全称及对应的外语简称或全称等,为目前任何一种编码所没有。
(7),本编码首创的在汉字词语编码基础上加前缀定位和加后缀快速切换英语、科技拉丁语和其他外语语种的方法,目前没有任何一种编码可以做到,因为其前提必须做到编码所收词语的重码很少或无重码。利用常见的外语缩写加前缀和后缀作汉语词语的编码且可以进行各种切换,也是为本编码所独创。
(8),本词语码不仅容词量大,无重码,而且平均码长短。根据本发明的编码规则随机进行文献统计,录入一篇普通文章,平均每个汉字击键1.83次。录入一篇科技文章,平均每个汉字击键次数仅1.69次(未包括全称用简称录入的词语),而且可实现词语、短语、名诗名句和常用简单短句的盲打。本编码不仅是一种先进的中文输入法,既可以录入文章,又可作为各类电子词典、辞书中文条目的检出,熟练之后还可作为新闻记者、文秘工作人员和学生等的速记代码,甚或可以用本编码直接发稿。试举新华社的二则电讯如下:
xnhuq tmj;10yeo8rio dmo jivr lijn vsgvy zsujy,gojvx jwzmo,vgvjiw.q,qmgvxvx,1999nmotmj;uitcjbs zuwhr mnyvr lirhw,jntxw z tmj;ynbgu tnqlo gojtwzj h tmjuw,uivfg gry/1999nmotmj;uijt ticjbs idbgz d hqbt,bnb jxjlo vsgo tict dlbto qrtiy.jwzmo qwty,ycx jiss zohgz,bat vec;vsyxsluo bhhn。
(新华社 天津10月8日电,记者李靖。中共中央总书记,国家主席江泽民,中共中央政治局常委,全国政协主席,1999年天津世界体操锦标赛组委会名誉主任李瑞环,今天下午在天津迎宾馆听取了国家体育总局和天津市委,市政府关于1999年天津世界体操锦标赛筹备工作的汇报,并接见了中国体操代表团全体成员。江泽民强调,要继续做好工作,把这次重要赛事办好)。共155个汉字,码长233,平均每个汉字1.5码。
再举一则国务院和中央军委发布的“公告”:
gowye.q vsyjw.q gsgk∷gfjt xmf,.q fuyo gowye.q vsyjw.q d uimr,yivh aomtqjbf.q gry/vsyrmvf fuzg l aomtq.q d fhwl d gwdg,wz'wzhgjdvq,tsyo h lntwv,bkit aomtq.q dwgdghfv,vsyvf.q plv;aomtq.q d bude,xmyo zujwi.jxfji.q vum aom′bude liuu vsyjw.qlbdy,jwy/1999nmo 12yxo 20rio qiz vfudf aomtq.q fhwl.jxfhi.q vum aom′bude bugy/aomtq.q d difuw.aomtqvf zlbyu,keyxk vsyrmvf qnq′vum aom′bude xxvl wziuhva h jqvlzirzh.vujry iue xuy zpug qrgxd falr wlx,hlxy zpug aomtq.q d falr.vujft yd vsyrmvffudt.xbhuq bzj′llyx10rio
(中华人民共和国国务院、中华人民共和国中央军事委员会公告根据《中华人民共和国宪法》赋予中国人民解放军的使命,依照《中华人民共和国澳门特别行政区基本法》关于中央人民政府负责管理澳门特别行政区的防务的规定,为维护国家的主权、统一和领土完整、保持澳门特别行政区的稳定和发展,中华人民共和国中央人民政府派驻澳门特别行政区的部队,现已组建完成。中国人民解放军驻澳门部队隶属中华人民共和国中央军事委员会领导,将于1999年12月20日起正式担负澳门特别行政区防务。中国人民解放军驻澳门部队不干预澳门特别行政区的地方事务。澳门特别行政区政府在必要时,可以向中央人民政府请求驻澳门部队协助维持社会治安和救助自然灾害。驻军人员除须遵守全国性的法律外,还须遵守澳门特别行政区的法律。驻军费用由中央人民政府负担。新华社北京11月10日电)
这则《公告》计有汉字335个,用本编码录入或检出仅需击键405次,平均每个汉字仅为1.2码,不仅快速,而且准确,无重码,可以实现盲打。
用本编码速记的文件,录入和记录十分容易,但人工读出则有困难,需在安装有本词语码的电子计算机上才能读出。在此基础上进一步开发研究,也许可以自动读出。
本词语码发明的基本原理,是源于我国汉字的起源、演化、发展和形成而沿用至今的拼音加每字的部首,即“形声相益”而实现的。反切相拼即声韵相拼,这是每一个学习汉语汉字的人都会的,部首识别单字重码及词组的末字更为人人所熟悉,因此,实现本发明是十分容易的。只要熟悉反切拼音规则和部首识别所安排的键盘键位即可逐步掌握。反切拼音是采用我国从北宋时期即已开始应用的一种简易的拼音方法,即取上一字之声母和下一字之韵母快速相拼,其优点是简洁明快,节省码长。其拼法与现代的“双拼”,“简拼”相似。但本编码在键盘键位的安排上与“简拼”、“双拼”等有所不同。汉语拼音按照国务院1955年公布的汉语拼音方案。汉语拼音方案中的声母ZH、CH、SH分别用V、I、U代替。键盘上的26个字母键位刚好满足26个声母(用大写字母表示)。由于反切相拼只需声韵相拼,因此,除了单韵母a、e、i、o、u外,复韵母均用一个键盘字母代替。在韵母键位位置的设置上,为了使用者方便记忆,计算机键盘的第一排字母键安排的是以“u”组合的复韵母(除单韵母e、u、i、o以外),第二排安排的是“o、e、a”组合的复韵母,第三排安排的是以“i”组合的复韵母。由于字母键不够安排所有的复韵母,所以将实际拼音不会重叠的2个复韵母安排在一起由一个键位代替,但使用时不会互相影响。
本编码的键位排列,将发音相近的韵母放在相邻位置,如uan、uang,en、eng,an、ang,in、ing,这样安排,对于发音不准的人,尤其是南方人拼读这几个音时容易混淆。紧靠一起,不仅容易记忆,而且击键认不准时可以先击一个,错了即换旁边一个,非此即彼,用不着费神思考再去反复寻找键位。
键盘图见下页:词语码反切拼音键盘图Q W E R T Y U I O Pui威 ua哇 e uan弯 uang汪 uai歪 sh ch uo窝 un晕iu忧 iang央 ue约 u i oA S D F G H J K L ;a ong轰 ou欧 en恩 eng亨 an安 ang昂 ao熬 ai哀
iong雍Z X C V B N M , . /ei诶 ie耶 iao腰 zh in因 ing英 ian烟ia呀 u迂
此外,了解和熟悉本编码单字、双字和三字词组末字用部首识别的部首键位安排。具体安排见下表:
词语码汉字部首键盘表A:山 B:白比贝疒鼻八C:艹廾采寸 D:刀刂大歹斗E:耳阝(左右阝)卩尔 F:方父风G:宀工广弓瓜骨革鬼戈弋光谷 H:灬火户禾黑虍I:厂车虫臣赤辰齿 J:斤巾金钅见角臼K:口克 L:老力立来龙鹿卢卤里M:木门马毛母毋目皿矛米麦麻 N:女牛鸟O:(不规范部首) P:片丬皮疋Q:犬犭礻气其欠青 R:亻(双亻)人日曰S:纟厶罒覀系 T:扌田土士U:饣石尸豕舌身矢食鼠手 V:舟止爪爫竹(竹头)W:王攵文瓦韦 X:忄心彐小夕夂西血辛Y:衤衣月羊业页又讠酉用鱼羽(雨头) Z:辶廴走足子自‘:亠丶 ;:冫氵水/:一
最后,印刷和出版“汉字词语码编码字典”,以便使用者及需要用本编码出版发行各类电子词典、辞书的软件生产厂家及计算机软件制造商有一个编码的准确依据。
Claims (15)
1,一种电子计算机汉字词语码编码技术,其特征在于以现代汉语中能独立存在、独立应用的双字词组、三字词组、四字及四字以上词组、词语、短语和固定短句(包括成语、诗词曲赋、名人名言、科技词汇等)作为一个编码单位,最大码长设定为12码。采用“反切相拼定音节,声母加形识末字”的方法,三次降低因汉字同音字、词太多而出现的大量重码。
2,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉字单字和双字词组、三字词组的末字需用部首识别,本发明将传统汉字检字习用的偏旁部首重新进行调整。其特征是,将《新华字典》设置的213个部首,调整后保留人们一见就知的规范部首163部,废除50个不规范的部首(各类字典中列为“难检字”表中的单字),将这些废除的部首中的绝大部分单字设置为“零”部首,用键名“o”键代表。
3,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉字单字用3码,其特征是,反切相拼定音节,重码部首来识别。如当键入“vs”(zhong)时,拼音码提示行即出现“中、重、种、钟、肿、众、终、盅、忠、衷、踵、舯、螽”等13个重码,本发明用部首将重码识别:“中”字部首不规范为“vso”、“重”字部首“底横”为“vs/”、“种”字部首“禾旁”为“vsh”、“钟”字部首“金旁”为“vsj”、“肿”字部首“月旁”为“vsy”、“众”字部首“人旁”为“vsr”、“终”字部首是“丝”旁为“vss”、“盅”字部首是“皿底”为“vsm”、“忠”字部首是“心底”为“vsx”、“衷”字部首“上点”为“vs′”、“踵”字部首“足旁”为“vsz”、“舯”字部首“舟旁”为“vsv”、“螽”字部首是“虫底”为“vsi”,这样,上述13个同音字即无一重码。
4,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉语双字词用4码,其特征是,反切相拼定音节,末字部首来识别。如“实际”一词,首先键入“ui”这一音节,接着键入“际”字的声母“j”,“际”字的部首为“耳”旁,其对应的声母发音为“e”,所以加“e”为“uije”。与“实际”同音重码的词组还有:“世纪”的“纪”字为丝旁,加“s”为“uijs”,“时机”的“机”字为木旁,加“m”为“uijm”,“事迹”的“迹”为走旁,加“z”为“uijz”,“试剂”的“剂”为刀旁,加“d”为“uijd”,“史记”的“记”字为言旁,加“y”为“uijy”, “史籍”的“籍”字为竹头,加“v”为“uijv”,“诗集”的“集”为“佳”上,加“j”为“uijj”,“石鸡”的“鸡”为鸟部加“n”为“uijn”,“实据”的“据”为提手加“t”为“uijt”,“诗句”的“句”为口部加“K”为“uijk”,“时局”的“局”字为尸头,加“u”为“uiju”,“市井”的“井”字不规范加“o”为“uijo”。这样,本来发音相同而必然为重码的13个词组就切分开了。
5,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉语三字词编码为5码。其特征是,反切相拼定音节,声-声加形识末字。第一字反切相拼定准音节,第二字只用声母,第三字用声母加部首识别。例如:“中国热”为“vsgrh”,“中国人”为“vsgro”(“人”字不规范为“0”),“中国字”为“vsgzg”,“中国话”为“vsghy”,“中国画”为“vsgh/”;“第一班”为“diybw”,“第一版”为“diybp”,“第一榜”为“diybm”,“第一瓣”为“diybx”等等。
6,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉语四字及四字以上词组或短语的编码技术方案为:四字词编码用5码,五字词用6码,六字词用7码,七字词用8码,八字词用9码等。其特征是,四字词及四字以上词组、词语,反切相拼定音节,其余声母来识别。中间无间断的短语,只需第一字反切相拼定准音节,其余各字用声母,如“中国人民”为“vsgrm”,“改革开放”为“glgkf”。五字词组如“人民解放军”为“rfmjfj”。六字词组如“百闻不如一见”为“blwbryj”,。七字词如“不到长城非好汉”为“budiifhh”等。
7,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉语固定短语和句子的编码技术方案:其特征是,固定短语和句子中间有停顿者,用前半句编码加后缀..,如:“不入虎穴,焉得虎子”为“burhx..”。如只需要前半句,则前半句编码键入后不加后缀即出现于提示行。有两次停顿者,全句为后缀加3点...,前两个半句加两点。例如“不破不立,不塞不流,不止不行”为“bupbl...”。如果只需“不破不立,不塞不流”只加两点为“bupbl..”。“bupbl”不加后缀为“不破不立”。
8,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,汉语诗词曲赋的编码技术方案,其特征是,以一个完整诗句作为一个编码单位编码上半句,如需全句则加后缀..,如“红军不怕远征难,万水千山只等闲”为“hsjbpyvn..”。若只需“红军不怕远征难”则不用加后缀。词赋中的长短句,按自然语句录入,如毛泽东词“沁园春—雪”:“北国风光(bzgfg),千里冰封(qmlbf),万里雪飘(wjlxp)。望长城内外(whiinw),唯一茫茫(wzymm),大河上下(dahux),顿失滔滔(dputt)”,“.....江山如此多娇(jwurcdj),引无数英雄竟折腰(ynwuyxjvy)”等等。
9,根据权利要求1所述的“反切相拼定音节,声母加形识末字”的方法,单位、部门及机构名称的编码技术方案,其特征是,用公知公用的简称编码,需全称时加后缀.q。例如:“mzgo”为“美国”,“mzgo.q”为“美利坚合众国”。“bohh”为“波黑”,“bohh.q”为“波斯尼亚和黑塞哥维那共和国”。“vsgvy”为“中共中央”,“vsgvy.q”为“中国共产党中央委员会”。“rfdiwh”为“人大常委会”,“rfdiwh.q”为“全国人民代表大会常务委员会”。五字以内名称因编码字数相同,可用全编码:如“北大”、“清华”需用简称时为“bzdo”、“qnhh”,需要全称为“bzjdx—北京大学”、“qnhdx—清华大学”等。
省、市、自治区党政机关、部门名称编码采用一、二级编码。一级编码为一次完成,如“bzjuvf”为“北京市政府”,“bzjuvf.q”为“北京市人民政府”,(也可在“...市政府”前面加“人民”),“xnjqvf”为“新疆区政府”,“xnjqv f.q”为“新疆维吾尔族自治区人民政府”等等。二级编码为省、市、自治区名称单独编码,例如“bzj’”为“北京”,“bzju’”为“北京市”。若需“北京市人民政府”,则再键入“rfmvf”—(“人民政府”),如果需要“北京市经济贸易委员会”,则先录入“bzju’”(北京市),再录入“jnmwh.q”(经贸委—经济贸易委员会”。民族自治区用简称编码,需要全称则加后缀。例如:“gtxqo”为“广西区”,“gdxqo.q”为“广西壮族自治区”。“xbjqo”为“新疆区”,“xbjqo.q”为“新疆维吾尔族自治区”等等。
10,一种电子计算机汉字词语和机构名称切换英语、法语等及科技拉丁语的编码技术,其特征是,在权利要求1-9所述汉字词语和机构名称简称编码基础上加后缀或改变后缀即可实现英语等外国语种的快速切换。英语加后缀.e,拉丁语加.l,法语加.f,德语加.g和西班牙语加.s等等。方法是先输入汉语词语编码,屏幕提示行即出现该词语的汉语词条,若只需该汉字词语,则击空格键直接上屏。若需该词语的英语,则在其编码后加后缀.e如:gojg—国家,gojg.e—country。gsdx—共产党,gsidx.e—communist party。uehvy—社会主义,uehvy.e—socialism。uehvyju—社会主义建设,uehvyju.e—socialistconstruction。yiigi—遗传工程,yiigi.e—genetic engineering。
mzgo—美国,mzgo.q—美利坚合众国,mzgo.e—the United States,mzgo.eq—theUnited States of America。vsgo—中国,vsgo.q—中华人民共和国,vsgo.eq—the people'sRepublic of China。yngo—英国,yngo.e—Britain,yngo.q—大不列颠和北爱尔兰联合王国,yngo.eq—United Kingom of Great Britian and Northern Ireland。bzys—北约,bzys.q—北大西洋公约组织,bzys.e—The North Atlantic Treaty Organization等等。
vsgvy—中共中央,vsgvy.q—中国共产党中央委员会,vsgvy.e—the Central Committeeof Communist Party of China。qmgrd—全国人大,qmgrd.q—全国人民代表大会,qmgrd.e—the National People′s Congress of China。qmgrdiw—全国人大常委,qmgrdiw.q—全国人民代表大会常务委员会,qmgrdiw.e—Standing Committee of the National People's Congress。vsgwjb.q—中华人民共和国外交部,vsgwjb.e—the Ministry of Foreign Affairs of People'sRepublic of China。ougtr—欧共体,ougtr.q—欧洲经济共同体,ougtr.e—the EuropeanEconomic Community。vskye—中科院,vskye.q—中国科学院,vskye.e—the ChineseAcademy of Sciences。vskrgfzs—中科院高分子所,vskrgfzs.q—中国科学院高分子研究所,vskrgfzs.e—The Macromolecule Institute of the Chinese Academy of Sciences等等。
科技论文、专著需要英语、拉丁语学名索引或注释同时出现时,在该词语的汉字编码后改变后缀。如:putai—普通鹌鹑,putai.e—common quail(英语“普通鹌鹑”),putai.l—Coturnix coturnix(“普通鹌鹑”拉丁语学名)。ribai—日本鹌鹑,ribai.e—Japanese quail(英语“日本鹌鹑”),ribai.1—Coturnix Japonica(“日本鹌鹑”拉丁语学名)。daxmq—大熊猫,daxmq.e—giant panda(英语“大熊猫”),daxmq.l—Ailuropdamalanoleucus(“大熊猫”拉丁语学名)。mggym—蒙古野马,mggym.e—mongolia wildhorse(英语“蒙古野马”),mggym.l—Equus przewalskii(“蒙古野马”拉丁语学名)等等。
11,一种利用常见习用外语缩写作汉字词语的编码技术,其特征是用外语缩写原文加前缀和后缀构成。英语缩写前缀用e.,拉丁语缩写用l.等,后缀则根据需要而变化。例如:e.FAO—粮农组织,e.FAO.q—联合国粮食和农业组织,e.FAO.e—food and agriculturalorganization of United Nations。e.apec—亚太经合组织,e.apec.q—亚洲和太平洋地区经济合作组织,e.apec.e—Asia and Pacific ocean area Economic Cooperte organization。e.cctv—中国中央电视台,e.cctv.e—China Centre Televition。e.opec—石油输出国组织,e.opec.e—the Organnization of Petroleum Euporting Countries等等。
12,一种电子计算机汉字大小写基数词与序数词编码技术,其特征是,基数词编码用u.后加所需之阿拉伯数字,如二—u.2,三—u.3,四—u.4,十一—u.11,十二—u.12,二十三—u.23,三十二—u.32,一百0一——u.101;序数词编码用d.后加所需之阿拉伯数字,如第一—d.1,第二—d.2,第三—d.3,第十—d.10,第二十三—d.23,第一百—d.100,第一百一十三—d.113,第一百三十八—d.138等。第一条—d.1t,第二条—d.2t,第五条—d.5t,第十一条—d.11t,第十七条—d.17t,第一百零七条—d.107t。
13,根据权利要求1-9所述之汉字词语码编码技术仍存在部分重码的再拆分技术,其特征是,双字词重码再用第一字的部首进行识别:如当键入“uiyo”时,屏幕提示行将出现“使用,2:实用,3:食用,4:适用,5:试用,6:施用”6个重码,末字都为同一或同形的字。若录入汉字文章需要“适用”一词时,只需选“4”上屏。若欲将其切换成英语时,“适用”的第一字部首为“z”,则在“uiyo”后加“z”(uiyoz)即为“适用”唯一,加.e(uiyoz.e)即为“适用”的对应英语“be suitable”。如此,“实用”为“uiyog.e”。“食用”为“uiyor.e。“试用”为“uiyoy.e”。“施用”为“uiyof.e”等。有少数重码不仅末字同形,且第一个字也同形或同部首,如“不用,不已,不予”等,这种情况,当键入“buyo”时,屏幕上即出现上述重码,汉字录入需要某词语时只需选项上屏。若需切换英语,在编码后加后缀.2e、.3e,例中“不用”为第一个词不必加,“不已”为“buyo.2e”,“不予”为“buyo.3e”等等。
14,根据权利要求1-9所述之汉字词语码编码技术仍存在部分重码的再拆分技术,三字词和四字词也有少量重码,但相重不一定在末字,也不一定在第一字,其再拆分方法是:键入正常的编码出现重码时,若需要中文时可直接选项上屏,或在编码后加字母键“o”为第二个重码唯一,加2个“o”为第三个重码唯一。若需切换英语,则在“o”后面加.e,如“gojcp”为“国家裁判、国际裁判”相重,“gojcpo”为“国际裁判”唯一,“gojcpo.e”则为“国际裁判”的对应英语“international referee”。也可以找出重码中发音不同的单字,用该字的韵母加在编码后,例如“国际裁判”的“际”为“i”,则在编码后加“i”为“gojcpi”。需切换成英语时为“gojcpi.e”。
15,权利要求1-14所述之汉字词语码编码技术方案同样适用于各种拼音码(双拼、简拼、全拼等)或形码词语同音字、词的识别及加前后缀切换外语的应用,本编码亦保留其发明权。本发明也同样适用于我国香港、澳门、台湾及国外华人华侨中仍在使用汉字繁体字的编码技术,汉字繁体字词语码的版本已另外编出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00106604 CN1316686A (zh) | 2000-04-04 | 2000-04-04 | 电子计算机汉字词语码编码技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00106604 CN1316686A (zh) | 2000-04-04 | 2000-04-04 | 电子计算机汉字词语码编码技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1316686A true CN1316686A (zh) | 2001-10-10 |
Family
ID=4578354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 00106604 Pending CN1316686A (zh) | 2000-04-04 | 2000-04-04 | 电子计算机汉字词语码编码技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1316686A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102566773A (zh) * | 2010-12-26 | 2012-07-11 | 上海量明科技发展有限公司 | 一种为序词提供数字选择的输入方法及系统 |
CN103164391A (zh) * | 2011-12-12 | 2013-06-19 | 张家港市赫图阿拉信息技术有限公司 | 一种输入序数词的方法 |
CN103164037A (zh) * | 2011-12-12 | 2013-06-19 | 张家港市赫图阿拉信息技术有限公司 | 一种输入量词的方法 |
CN113506559A (zh) * | 2021-07-21 | 2021-10-15 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
-
2000
- 2000-04-04 CN CN 00106604 patent/CN1316686A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102566773A (zh) * | 2010-12-26 | 2012-07-11 | 上海量明科技发展有限公司 | 一种为序词提供数字选择的输入方法及系统 |
CN103164391A (zh) * | 2011-12-12 | 2013-06-19 | 张家港市赫图阿拉信息技术有限公司 | 一种输入序数词的方法 |
CN103164037A (zh) * | 2011-12-12 | 2013-06-19 | 张家港市赫图阿拉信息技术有限公司 | 一种输入量词的方法 |
CN113506559A (zh) * | 2021-07-21 | 2021-10-15 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
CN113506559B (zh) * | 2021-07-21 | 2023-06-09 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hulbert | Dictionaries British and American | |
Drinka | Language contact in Europe: The periphrastic perfect through history | |
Bloch | Formation of the Marathi Language | |
Omar | Processing Malaysian indigenous languages: A focus on phonology and grammar | |
Lewis | Implementation of language planning in the Soviet Union | |
Zhao | Chinese character modernisation in the digital era: A historical perspective | |
CN102053719A (zh) | 华文汉字输入法 | |
CN1316686A (zh) | 电子计算机汉字词语码编码技术 | |
Jakobson | The twentieth century in European and American linguistics: Movements and continuity | |
Wei | An historical survey of modern Uighur writing since the 1950s in Xinjiang, China | |
Ning et al. | Contemporary Chinese Fiction and World Literature | |
Murray | Thirteenth Address of the President to the Philological Society: Delivered at the Anniversary Meeting, Friday, 16th May, 1884 | |
Abumalloh et al. | Building Arabic corpus applied to part-of-speech tagging | |
CN106959764B (zh) | 一种有助于正确书写汉字的形码输入法 | |
Cannon | Sir William Jones and the new Pluralism over languages and cultures | |
Ferguson | Individual and social in language change: Diachronic changes in politeness agreement in forms of address | |
CN101118464A (zh) | 易捷系列汉语输入方法 | |
Bashqaban et al. | A look at the orthographic challenges of Afghanistan's Uzbek language | |
Murphy | " Ulysses" in Chinese: the story of an elderly pair of translators and their unusual best seller | |
Mohinur | Theoritical Aspects of Comparative Linguistics | |
Omakayeva et al. | Collections of Kalmyk Texts in Gábor Bálint of Szentkatolna’s Manuscripts (1871–1872) | |
Kseniya et al. | Contemporary Turkish language: historical-cultural aspects | |
Das | ROLE OF MAHAPURUSHA SRIMANTA SANKARDEVA IN LANGUAGE, LITERATURE AND CULTURE OF ASSAM: A CRITICAL PERSPECTIVE | |
CN1108553C (zh) | 通用普及型音元形音汉字编码输入方法 | |
CN1125393C (zh) | 利用计算机键盘汉字编码输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |