CN1275732A - 汉语键盘输入系统及其应用技术 - Google Patents

汉语键盘输入系统及其应用技术 Download PDF

Info

Publication number
CN1275732A
CN1275732A CN 99108119 CN99108119A CN1275732A CN 1275732 A CN1275732 A CN 1275732A CN 99108119 CN99108119 CN 99108119 CN 99108119 A CN99108119 A CN 99108119A CN 1275732 A CN1275732 A CN 1275732A
Authority
CN
China
Prior art keywords
chinese
character
syllable
input
keyboard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 99108119
Other languages
English (en)
Inventor
梁晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 99108119 priority Critical patent/CN1275732A/zh
Publication of CN1275732A publication Critical patent/CN1275732A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种属于计算机键盘输入处理技术领域的汉语键盘输入系统及其应用技术,使用公知的计算机及其普通键盘,依次输入声介母和带调韵母即可输入一个汉语音节,进而输入汉字词语,设计出与汉字字符相互兼容并且字节数相等的音节字符及其代码,使汉语语音及其表音符号和汉字词语的键盘输入,显示和打印输出,相互变换处理,语音识别输入和合成输出处理等,在音节层次上相互统一,是使用汉语操作和应用计算机最全面和最彻底的解决方案。

Description

汉语键盘输入系统及其应用技术
本发明涉及计算机键盘输入处理技术领域的汉语键盘输入系统及其应用技术,尤其涉及汉语音节代码及其字符和汉字代码及其字符的键盘输入。
现有的汉语信息处理系统如图16所示,采用通用或专用计算机基本硬件及其DOS6.22中文版,UCDOS,SPDOS,Windows3.2/95/98中文版,Windows NT,外挂的中文之星,四通立方RichWin,以及COSA和COSIX等汉字操作系统10,在此基础上:(1).使用通用键盘装置4,键盘输入处理软件8,实现汉字信息的键盘输入处理;(2).使用显示输出处理软件9,和显示输出设备7实现字符和图形的显示输出处理;(3).使用图形扫描输入设备11,图形字符处理软件12实现字符和图形的输入处理;(4).使用打印输出处理软件13,和打印机类输出设备14,实现字符和图形的打印输出处理;(5).使用话筒等声音输入设备1,声卡2的模拟/数字转换器,“世音通”或IBM ViaVoice等汉语语音识别输入软件5,实现汉语语音识别输入处理;(6).使用“天音话王”等汉语语音合成输出软件6,声卡2的数字/模拟转换器和声音输出设备3例如扬声器实现汉语语音合成输出处理;(7).使用GB2312-80与BIG5码相互转换软件15,或者BIG5与GB13000.1-93码相互转换软件16,或者GB13000.1-93与其它汉字代码相互转换软件17,实现不同代码汉字的相互转换处理,使用汉字与汉语拼音相互转换软件18实现汉字与汉语拼音的相互变换处理。从而分别在公知的大、中、小、微型、便携、掌上型计算机,数字助理,网络计算机、终端机、工控机、单片机等各种计算机,中外文打印机、字幕机、室内外广告显示屏等文字处理设备,电报机、电传机、网络电话机等汉语通讯设备上,实现各种汉语信息的输入输出和相互变换处理。
其中的汉语键盘输入处理,把要输入的汉语音节符号和汉字词语等汉语信息,分解为汉语拼音的声母、韵母和声调,或注音符号的声母,介母,韵母和声调等输入要素,附加或单独使用汉字的笔画、部件、字根、字义、字序等字形信息的输入要素,相互合并和分组而成为输入码元,标记或映射在普通键盘或专用键盘的输入键位上,在汉字操作系统软件10上运行输入字符与目标汉语信息的对照转换软件,实现汉语信息的键盘输入处理。
目前已有近千种汉字编码输入法问世。其中全拼音输入法应用最广,但输入速度太慢;声韵双拼输入法很受欢迎,但同音字太多、不认识的字难以输入,速度很难提高,键盘布局也难以统一;“WPS文字处理系统”的双音双拼输入技术,利用双字词输入单字,简单易学,但不认识的字难以输入。汉字键盘输入公认的世界记录是由″声数码″于1992年创造的,简体连续文本的输入速度达到每分钟269.7字,其单字用汉字读音的声母,韵母,声调和排序号选字输入,非单字词用声韵双拼或声母编码输入,重码较多,难以记忆,至今难以广泛应用;专业打字员使用″五笔字型输入法″,一般人需要死记硬背几个月才能达到每分钟上百字的输入速度,一旦不用又容易忘记,并且只能看着材料输入,很难边听边输入或边写作边输入。香港和台湾等地,则采用注音符号和技术水平与大陆相当的形码编码输入法。计算机专业的华人主要使用英语操作计算机。因此,汉字键盘输入是华人使用计算机的一个“瓶颈”式障碍,能够快速输入汉字的人很少,使计算机的普及和应用受到限制。因此,社会上普遍存在着汉字输入“好学的打不快、打得快的不好学”等技术偏见。其实,这只是现有技术的概括和总结。
存在这些问题的原因是,键盘输入的目的只有汉字词语,忽略了汉语音节。汉语信息尤其是汉语音节信息的分析和研究没有适应汉语信息处理的发展需要。
法定《汉语拼音方案》的汉语音节由声母、韵母和声调组成,其双拼为声母+带调韵母。声母只有21个,带调韵母多达175个,只区分四声也有140个,分别映射在最多47个字符键的普通键盘上,声母偏少、韵母偏多,无法实现带调双拼输入,只好改成声母、韵母和声调的三拼输入方式,输入汉语音节的编码效率不足50%,三键一音不比平均三键一字的形码输入法效率高,所以通常采用声韵双拼。汉语注音符号的汉语音节,由声母,介母,韵母和声调组成,其中介母和韵母组成《汉语拼音方案》的韵母,其余相类似。总之,还没有一种汉语语音方案在普通键盘上非常规范地实现带调双拼,并且支持汉语拼音化。这是一切以字音为基础汉字编码输入法的局限性之根源。
形码编码输入法经过20多年的发展已经很成熟,各种各样的方法均有人进行了尝试。由于汉字的字根至少有600个,汉字总数多达数万个,组字规律千变万化,分别映射在最多47个字符键的键盘上很难记忆。汉字信息主要是读音其次才是字形,因此,所有的形码编码输入法,单字的平均动态码长均为3左右,很难再缩短,达到了极限,留给词码的编码空间又很少,因此形码的词输入并没有优势。而且,大字符集给形码增加了难度,″98规范王码″不得不使用5个键输入一个单字。
本发明人于1992年7月20日申请,并于1994年2月2日公开了“双拼汉语编码法及其键盘”(公开号CN1081523A),提出一种在普通键盘上击键两次即可输入一个汉语音节,从而实现汉语信息带调双拼输入的方案。但当时只找出一种方案,输入要素的选取及其键位布局很不合理,规律较少难以记忆,重码较多。本发明人于1997年4月27日又提出″全息汉语输入技术及其键盘和汉语计算机″(申请号97110633.9)的专利申请,并于1998年4月26日利用优先权提出改进的申请″汉语输入技术及其汉语键盘和汉语计算机″(申请号98107699.8)。本发明则是进一步的改进、创新、完善和提高。
1995年3月22日公开的发明专利申请″新拼音汉字输入法及其键盘设计″(公开号为CN1100538A),用52个声母及15个韵母拼写汉字,设计出44键的汉字输入方案。其键盘设计不尽完善,同一个韵母i却安排在不同的三列健位上,声调的布局没有考虑其实用频度的差别,其输入的目的也仅限于汉字。
《计算机研究与发展》1998年5月期刊登″大规模文本计算机音字相互转换技术的研究″一文,提出一种基于统计和分析方法相结合语言理解模型的计算机自动音字转换技术,已用于大词表非特定人孤立词语音识别系统和中文Windows95和98,Windows NT4.0的″微软拼音输入法″,使用英文字符组成拼音符号输入,可用数字标调。其实验测试的音字正确转换率平均为不带声调88.5%,带声调94.7%。实际使用发现,不区分声调的转换错误较多难以容忍;区分声调的转换错误明显减少,比较实用,但输入一个带调音节至少击键三次,没有明显的速度优势。
UCDOS等汉字软件实现的智能拼音输入技术比较成熟,其音节符号的键盘输入也是声韵双拼和全拼,对于词库中没有的词或任意汉字的组合,可以智能动态的生成新词,再出现时可以按词输入。
总之,现有的汉字键盘输入法问题较多。受欢迎的技术有:各种形码的单字编码输入,能够输入不认识的字;声韵双拼的词输入,按音输入非常简单;双音双拼的词带单字输入,无需记忆字根一学就会;智能拼音的动态造词输入,造词方便;拼音/汉字智能转换输入,通用词语的输入快捷简单。这些方法各有其优势,但尚未融合和统一。
现有的汉语语音合成输出技术,例如汉语声卡,“天音话王”等,均是面向汉字的,没有涉及汉语音节符号。现有汉语语音识别输入技术,美国IBM公司的ViaVoice最具有代表性,已经被多家公司采用,其识别的结果均为汉字字符,不支持汉语音节符号。对于识别不准的给出首选汉字,不易和其它汉字相区别而难以事后校对和修改。
现有汉字字符的显示输出技术,主要有DOS下16X16点阵的常规显示、24X24点阵的特殊显示,以及Windows下的所见即所得的汉字显示。而汉语音节符号只限于汉语拼音符号等常规音节符号的显示,实用价值有限。
现有的汉字字符的打印输出,主要有点阵字形,矢量字形和Windows的Truetype字形等,汉语音节符号只限于汉语拼音符号等常规音节符号的打印输出,实用价值也有限。
现有的手写体和印刷体汉字字符识别输入技术比较成熟,如美国Motorola公司的″慧笔″手写体识别输入,清华文通公司的″清华OCR″印刷体识别输入等产品,但汉语音节符号的字符识别只限于汉语拼音符号或汉语注音符号等常规音节符号。
现有的汉语音节符号和汉字符号的相互变换处理,主要用于汉语语音识别输入,如美国IBM公司的ViaVoice软件;或语音合成输出,如中国福建中银集团的“天音话王”等软件;或汉字键盘输入,如“微软拼音输入法”等。其中汉语音节代码一般使用英文字符的组合,不通用,不可读。
现有的汉语音节符号都是组合符号,没有整体符号,与汉字符号相比较,没有得到应有的重视,还不是汉语信息处理的主要对象。
总之,现有汉语信息的输入、输出和变换处理,一般仅限于单一的汉字。汉语语音音节符号及其代码的输入、输出和变换处理仅用作汉字处理的辅助手段,而不是直接处理对象。因此,无论是理论,还是实际产品,都称作汉字或中文处理系统,而忽略了汉语语音音节符号及其代码。至今还没有能够同时或交互式地处理汉字和音节的汉语处理系统出现。
计算机的应用操作已经从最初的DOS命令行一维界面,演变为目前的二维图形界面。然而,迄今为止,文字还是主要的信息处理对象。虽然有多媒体技术的外在支持,但语音和文字的信息处理并没有合而为一,口语和汉字读音的音节信息没有得到充分重视。文字符号都有代码,但音节符号有代码的并不多,例如英语就没有通用的音节代码。语言是从口语演变而来,先有口语后有文字,文字是语音的记录符号,可以没有文字,但不能没有口语。因此,口语的信息处理比文字更为重要。即使是汉语语音产品,也是把汉语语音转换为汉字,再利用汉字字符去操作计算机,如Dutty++中文语音导航系统,其汉语语音识别的输入操作就是通过汉字指令中转实现的,而且与汉字的键盘输入不相关联。其实,只使用音节符号,就足以支持语音操作功能。
由于地理,政治和历史等原因,导致汉字代码多种体系并存,有中国大陆的GB2312-80,GB13000.1-93,台湾的BIG5等,使不同代码的汉语信息难以相互交流。四通利方的RichWin软件,″东方快车″翻译软件,″汉神中文视窗″软件等,都提供不同汉字代码的文本转换工具,把汉字文本从一种代码,转换为另一种代码,并且能够自动识别和显示不同代码的汉字,甚至实现了不同代码汉字的同屏无缝显示。但汉字的键盘输入还没有突破代码体系的限制,一般仅限于同一代码体系内的汉字输入处理,难以超越汉字代码的限制。
本发明的目的分别为:
1.从汉语音节的键盘输入入手,总结出汉语音节的两元分解和两元合成规律,提出直接实现汉语音节带调双拼的“汉语语音方案”,利用计算机及其普通键盘,每击键两次即可输入一个汉语音节,从而设计出汉语键盘,可以直接输入两个单字节字符组成的汉语音节代码,根据需要转换为注音符号,汉语拼音符号,代音汉字,与汉字字符相互兼容并且字节数相等的″汉语音节字符″等汉语音节符号,使汉语音节的键盘输入相互统一。承认汉语音节在汉语信息处理中的独特地位和作用,承认可记录口语的汉语表音文字的实际存在,设计出与汉字字符字节数相等并且相互兼容的汉语音节字符及其代码,成为汉语语音的通用代码,使汉语的语音和文字两种媒介的信息,在汉语音节的层次上相互统一,便于相互变换和处理;
2.使用汉语键盘输入系统实现同音同义汉语音节符号的同步转换输入;
3.使用汉语键盘输入系统实现同音字的选择输入;
4.使用汉语键盘输入系统实现汉字词语的编码输入;
5.使用汉语键盘输入系统实现汉字词语整音节编码输入,以便与汉语语音识别输入相互兼容和相互补偿;
6.使用汉语键盘输入系统实现单个汉字的双音单字编码输入,简化单字的输入;
7.使用汉语键盘输入系统实现字形不同的同音同义汉字的同步转换输入,主要是简体汉字和繁体汉字的同步转换输入;
8.使用汉语键盘输入系统实现不同代码体系的同音同义汉字的同步转换输入;
9.使用汉语键盘输入系统实现同音同义的汉字/音节符号的同步转换输入;
10.使用汉语键盘输入系统,连续输入汉字语句读音的汉语音节符号,利用音节-汉字智能转换程序转换为汉字,简化汉字的键盘输入;
11.把音节/汉字智能转换输入与汉字词语编码输入结合起来,以便相互补偿,提高输入准确度;
12.在智能转换与字词编码输入相结合的基础上,增加新词自动生成功能,使连续两个或两个以上单个输入的汉字,以后再出现时用其读音自动转换输入;
13.使用汉语键盘输入系统,采用命令行方式的符合“规范汉语”的汉语语音指令及其音节符号指令和相应的汉字指令操作计算机,使汉语指令相互统一,构成汉语操作界面;
14.使用汉语键盘输入系统,把汉语信息的键盘输入与汉语语音识别输入结合起来,构成汉语输入处理系统;
15.在图形界面的基础上增加命令行方式的汉语语音指令及其音节符号指令和相应的汉字指令操作和应用计算机,构成汉语图形操作界面;
16.使用汉语键盘输入系统,把汉语信息的键盘输入与汉语语音合成输出结合起来;
17.使用汉语键盘输入系统,把汉语信息的键盘输入,汉语语音的识别输入和合成输出综合起来,使汉语音节符号和汉字词语在音节的层次上相互统一,构成完整的汉语处理系统;
汉语信息包括汉语语音声音信号及其音节符号和汉字词语两种媒介的多种信息。汉语语音含义很广,包括所有华人使用的各种方言,以下用汉语普通话为代表。汉语音节符号包括切音汉字,注音符号,代音汉字,表音类汉语盲文,汉语拼音,威妥玛式拼法,国际音标等,参见汉语拼音和威妥玛式拼法音节对照表,以及汉语拼音声母韵母和国际音标对照表(《汉英词典》第957-960页,商务印书馆,1980年10月第一版),均具有特定的表音功能,一般以汉语拼音为代表。汉字词语由于受到计算机信息处理和相互交换的限制,一般是指中国国家标准GB2312-80:《信息交换用汉字编码字符集-基本集》;或者国际标准ISO-10646和相应的中国国家标准GB13000.1-93:“信息技术通用多八位编码字符集(UCS)第一部分:体系结构与多文种平面”,包括GBK扩展国标字符代码和Unicode国际字符代码;以及台湾和香港等地的BIG5代码,或者其它国家或地区已经制订的以及将要制定的汉字代码标准,以下一律表述为汉字词语。
汉语信息的结构组成可以用公式表示:
汉语信息=语言信息(音节信号+音节符号)+文字信息(汉字符号+汉字读音)
        =音节信息(音节信号+汉字读音)+字符信息(音节符号+汉字符号)
其中,语言信息是汉语口语;文字信息是汉语书面语。音节符号包括汉语拼音,注音符号,代音汉字等。汉语的语言和文字两种媒介信息的共性是音节信息,其个性分别是语音信息和字符信息,有多种不同的语音和符号体系。用音节符号描述的汉语信息,是纯正的表音文字;而英语等表音文字,由于文字与其读音有一定的差别,并不是完全对应的,因此就其表音功能来说还不如汉语音节符号精确。所以,用汉语音节符号记录的汉语,是最纯粹的表音文字,最容易学习。
各种汉语信息共同的、本质的、和最基本的信息就是汉语音节,是所有汉语信息不可缺少的。所说的汉语音节是带有声调并实际存在的,不区分声调的只是音节的组合,对此不再另外说明。
音节和语义相同的汉语语音及其音节符号和汉字词语的信息处理,包含三个不同层次,可以合并处理而在整体上得到简化。由于声音信号与时间相关联且不可分离,需要话筒,声卡和扬声器等输入输出设备,其信息处理主要是数字化声音数据的实时处理及其与音节符号的相互变换,即汉语语音识别输入和语音合成输出,是汉语信息处理的第一个层次。声音信号虽然比较复杂,基本信息却是简单的汉语音节,可以用音节符号记录,分词之后也具有表义能力,是世界上最简单的表音文字,例如汉语速记,汉语盲文,汉语手指语和汉语旗语等。语音识别的结果和语音合成的对象以及语音记录符号都可以归结为汉语音节符号,这是汉语信息处理的第二个层次。第三个层次的汉字词语除具有读音的音节信息外,还具有字形和笔画信息,信息总量最为丰富,是汉语信息处理的主要对象,是世界上最复杂的文字,键盘输入也最难。其最接近的汉语信息就是汉语音节符号。所以,第二个层次的汉语音节符号是汉语语音和汉字词语的纽带,是汉语信息处理的关键。
为了表述方便,本发明以汉语拼音为主描述汉语音节,其结论并不限于汉语拼音。如果改成其它的汉语音节符号,例如注音符号,国际音标等,以及在本发明基础上制定的各种音节符号,其表音功能都是相同的。
本发明把汉语音节分解为声介母和带调韵母或带调介母,把《汉语拼音方案》中属于韵母的介母i、u、ü分离出来,与声母合并分别组成i介、u介、ü介声介母,无介母的声介母称作零介声介母。有几个韵母,in是ien的简化,ing是ieng的简化,iu是iou的简化,ui是uei的简化,un是uen的简化,不简化才能正确的分离出介母和韵母。韵母一律带调。介母i、u、ü单独用作韵母或单独构成音节时,既要分离出介母归入声介母,又要保留带调介母。不需要相互区分时,带调韵母和带调介母统称为带调韵母。声介母可称作“首音”,带调韵母和带调介母可称作“尾音”,能够组成几乎所有的汉语音节,称作“汉语音节要素”,由此形成“汉语语音方案”,与中国国家标准GB/T15720-1995:″中国盲文″的″汉语双拼盲文方案″较为接近,具体内容如下:
声介母(62个):
b,p,m,f,d,t,n,l,g,k,h,zh,ch,sh,r,z,c,s,零声母,计19个零介声介母;bi,pi,mi,di,ti,ni,li,ji,qi,xi,zhi,chi,shi,ri,zi,ci,si,yi,计18个i介声介母;bu,pu,mu,fu,du,tu,nu,lu,gu,ku,hu,zhu,chu,shu,ru,zu,cu,su,w,计19个u介声介母;ju,qu,xu,yu,nü,lü,计6个ü介声介母。其中声介母zhi,chi,shi,ri,zi,ci,si可以省略,声介母数量减少为55个。如果取消零声母,则声介母减少为54个;
带调韵母(52个)。
ā,á,ǎ,à,āi,ái,ǎi,ài,ān,án,ǎn,àn,āng,áng,ǎng,àng,āo,áo,ǎo,ào,ē,é,ě,è,ēi,éi,ěi,èi,ēn,én,ěn,èn,ēng,éng,ěng,èng,er,ér,ěr,èr,ō,ó,ǒ,ò,ōng,óng,ǒng,òng,ōu,óu,ǒu,òu,其中er是儿化音的标记符号,用以代替汉字″儿″;
带调介母(12个):
ī,í,ǐ,ì,ū,ú,ǔ,ù,ǖ,ǘ,ǚ,ǜ。
带调介母只能和含有相同介母的声介母组成音节:ī,í,ǐ,ì只能和i介声介母组成音节,ū,ú,ǔ,ù只能和u介声介母组成音节,ǖ,ǘ,ǚ,ǜ只能和ü介声介母组成音节。除声介母Y和W外,其它声介母与带调介母直接组合的音节符号,中间多出一个介母,原本是介母一分为二所致,应与带调介母合而为一,否则与拼音音节符号有所区别。但也可以接受。如果省略zhi,chi,shi,ri,zi,ci,si,则带调介母i可以直接与声母zh,ch,Sh,r,z,c,s组成带调音节。零介、i介,u介和o介声介母分别和带调韵母连读即可直接组成相应的零介,i介,u介和ü介音节。
轻声声调只有几十个,实用频度也不大,可以并入其它声调之中,例如并入阴平声调或去声声调。而m、n,ng等几个鼻韵母。一般可以省略,需要时可以特殊处理。有一个特殊音节“Fiào”,对应一个方言用字,需要时可以增加一个声介母“Fi”。
表1列出简化拼音,汉语拼音和注音符号的声介母对照表,表2列出简化拼音。汉语拼音和注音符号的带调韵母对照表,表1和表2可以称作“汉语音节要素表”。其中表1简拼的声介母Zhi,Chi,Shi,Ri,Zi,Ci,Si直接省略。
汉语音节的切分和合成规则是:把汉语音节在介母之后切分,介母在最后则切分出带调介母:声介母和同介母的带调介母,或声介母和带调韵母连读组成汉语音节。表3列出汉语音节的两元分解和两元组合表,表中使用代音汉字作为汉语音节符号。
汉语音节要素总计126个,可简化为119个,用数字代码表示,称作音节要素代码:用高位置1的单字节表示,则兼容高位置0的英文字符代码,但不兼容双字节的汉字代码;用高位置0的单字节表示,兼容高位置1的双字节汉字代码,但不兼容高位置0的单字节英文字符代码。是纯粹的汉语系统。从计算机的最底层支持汉语:介于中间的方案,直接兼容单字节英文字符代码和双字节汉字代码,用单字节字符表示音节要素代码,两个单字节字符的组合表示一个汉语音节,但必须区分声介母和带调韵母的先后顺序,否则前面删除奇数个单字节,后面的声介母和带调韵母会串位而产生错误,音节之间使用空格等分隔符号就可避免,但不容易识别和认读,显示或打印时需要转换为汉语音节符号。个别音节容易和两个字母的英文单词如“an”和“be”等混淆。使用双字节代码表示最多126个音节要素,几乎可以在任何一个汉字系统上利用其造字程序实现,其音节代码均为两个双字节组成的四个字节。其音节符号可以直接使用半角的英文字母构造,比较直观,容易推广,但比汉字符号的字节数多一倍,与汉字混合排版比较方便,仍有相互变换时的串位问题,比普通的汉语拼音符号更适合计算机处理.此外,代音汉字可直接作为双字节的音节代码。但与汉字难区分。
本发明设计出与汉字代码相互兼容并且字节数相等的汉语音节字符及其代码,是汉语音节的直接代表。也是一切汉语信息的共有信息,使汉语的语音和文字两种媒介信息,在汉语音节的层次上相互统一,便于相互变换和处理。由于中国国家标准GB2312-80还有1300多个空码位,GBl3000.1-93以及未来扩展的ISO/IEC-10646代码体系。都将保留一定数量的空码位,可以为汉语音节编码,按通用的音序排列。由于UniCode另有“oxe000-oxe760”总计1888个连续的字符编码空间空闲。可以为汉语音节编码。更便于排序和检索,但不能向下兼容GB2312-80的音节字符。在美国微软公司繁体版Windows95的BIG5汉字代码体系中,十六进制8100-a0fe的编码空间均空闲,可为汉语音节编码,如果与GB2312-80的音节代码分段落对应,使之只差几个常数,则便于信息交换。
依据《汉语拼音方案》,可以缩短拼式,用
Figure A9910811900061
代替Zh,用
Figure A9910811900062
代替Ch,用
Figure A9910811900063
代替Sh。用
Figure A9910811900064
代替ng,也可以直接用g代替ng而不会产生歧义,使每个音节的字母数不超过4个,从而设计出汉语音节的专用字符。称作“汉语音节字符”,既代表汉语语音音节,又代表汉字的读音音节。见表4:“汉语音节字符及其代码和代音汉字”。由于字母较多,每个音节字符至少需要24×24的点阵才能显示或打印。
音节字符必须简化才能使用16×16点阵的显示字形。把声介母ji,qi,xi,zhi,chi,shi,ri,zi,ci,si的介母i省略,视为隐含在声母中,则jang就是jiang,qeng就是qieng,而xong就是xjong,等等。可以减少新增字符的数量,但音节符号与汉语拼音有一定区别。可以简化介母i,u、ü,分别标在声母符号上,用一个点表示i,一个横表示u,两个点表示ü,拼音音节最多3个字母。注音符号音节最多2个字母。便可以用16×16点阵构造汉语音节字符。见表5:"简化汉语音节字符",缺点是需要特殊记忆。
上述两种字形的音节字符可以使用相同的代码,以便相互补偿。使用时,能用表4的汉语音节字符。就不用表5的简化汉语音节字符。对于DOS等软件,无论是低版本,还是高版本,由于使用16×16点阵的基本显示字形,所以,只能使用简化的汉语音节字符,除非支持24×24点阵的特殊显示;而Windows3.2/95/98中文版等汉字系统软件,两种音节字符均可使用,但需要重新造字。不同字形的音节字符可视为同一音节代码的不同字体。
表4和表5的音节字符是利用MSDOS6.22中文版的造字程序实现的。其中音节字符按十进制区号和16进制国标页号区分段落,中间用“区”字分开。表4的音节字符后面标出其十进制的位号和16进制位号。例如,音节“Hàn”处在13区ad的段落内,音节后的符号是20b4,因此其区位码为1320,而国标码为ADB4。表5只标出简化音节字符,可与表4对照查看。
还可以使用注音符号,国际音标等汉浯音节符号设计汉语音节字符,尽可能使用相同的音节代码而音节字符的字形可以不同,以便于信息交流。注音符号的音节一般只有3个字母,不需要改动就能直接用作注音符号的音节字符,需要压缩时把介母ㄧ,ㄨ,ㄩ简化为其前面声母符号上的“.”,“-”和“..”即可,相应的音节符号减少为两个字母。还可以利用国际音标设计音节字符。
汉语音节代码一定要统一,以便于信息交流。法定标准发布之前,希望实施者都采用本发明制定的标准。
除代音汉字和音节字符之外,其它音节符号都是单字节字符或双字节字符的组合符号,其整个音节符号与汉字字符不等长,不便于交互处理或相互变换处理,而代音汉字难以和普通汉字相区分,所以,本发明以音节字符为主。需要时利用相应的音节字符/音节符号转换软件,转换为其它的汉语音节符号。
表3比依据《汉语拼音方案》编制的汉浯音节表大为简化,所以才能简化键盘输入。汉语音节要素,印刷。成型或映射在普通键盘的字符键位上,首次输入声介母,再次输入带调介母或带调韵母,击键两次即可输入一个汉语音节,称作汉语键盘。由于一个键位一般设置两个音节要素,所输入的英文字符转换为汉语音节符号后才容易识读,所以,汉语键盘不能脱离计算机。计算机可以附带普通计算机键盘,通过运行汉语键盘输入软件而支持汉语键盘;此外,汉语键盘可以有专用的计算机。
图1-图15列出15种类型的汉语键盘,兼容英文键盘。声介母Zhi,chi,shi,ri,zi,ci,si省略,用声介母zh,ch,sh,r,z,c,s与带调介母ī,í,ǐ,ì分别组成相应的音节。轻声声调与阴平声调合并。声介母Fi与ào组成特殊音节“Fiào”,需要时把Fi作为声介母安排在声介母F键上。
依据表1和表2,图1-图15的键盘图,所标注的汉语拼音符号可以替换为注音符号,简化的汉语拼音符号等汉语音节符号,从而构成相应的汉语键盘实施例。
人名和地名等不标调的汉语拼音,是汉语译成外语的国际标准;音译的外国人名和地名等专有词,可以使用不标声调的音节字符代替汉字。因此,可以把音节字符的阴平声调并入轻声声调,如表5的阴平声调一律不标调,可以代表不区分声调的音节组即声韵双拼音节,用于不标调的场合。
使用汉语键盘,先输入声介母,再输入带调韵母或带调介母;但零声母音节的输入顺序相反,用带调韵母补加一个隔音符号“`”输入,可视为在带调韵母之后书写,或称作零声母音节的补位输入键,在图1-15中标注为“补位”。
实施汉语键盘的简单方法是采用联想汉字输入环境、DOS6.22中文版,Windows95,98中文版及其包含的DOS7.0中文版等软件,依据其码表规则编制汉语音节符号与英文字符的输入码对照表,即可通过简单编译,实现汉语音节符号的键盘编码输入。编制专用的输入法软件才能支持特殊的输入功能。
汉语键盘使用46个输入字符,而DOS6.22及DOS7.0中文版、Windows3.2中文版,UCDOS等软件,其原有设置限制个别字符的使用。例如符号健“-”和“=”用作重码的翻页键,可以改用Shift键或Alt键与PgUp,PgDn等键的组合键替代。最好与软件的开发商协商修改,有的软件经过分析也能自行修改,但其修改的后果有时难以预料,必须自行承担其责任。例如,对于MSDOS6.22和MSDOS7.0,使用PCTOOL工具软件修改键盘模块HZKBD,方法是:找到3b75改成3a75,找到2d75改成4075,找到3d74改成2374,找到3d0d2d0c改成2b0d5f0c,则47个字符都可用作输入字符。本方法只是一个实施例,是否可靠需经美国微软公司确认。
也可以不使用“-”和“=”。图1-15中,字符“-”的带调韵母ǎi用字符“\”替代,“-”键的声介母Xu则拆成Xu,Xuan,Xue,Xuen四个整体音节,补加带调韵母ǖ,ǘ,ǚ,ǜ输入。图1-15的圆括号“()”中分别标出代替“-”和“=”键的输入要素。
本发明的汉语键盘,其更为精确的定义就是汉语键盘输入系统,依赖于支持汉字字符的汉字处理系统,以及增加双字节或多字节汉语音节字符的汉语处理平台。图16汉字处理系统结构框图中,由通用键盘装置4,键盘输入处理软件8和计算机基本硬件及汉字操作系统软件10构成汉字键盘输入系统;图17的汉语处理系统结构框图中,增加独立的音节/汉字转换软件19构成汉语键盘输入系统。两种键盘输入系统均能输入常规汉语音节符号和汉字词语。留有至少1280个双字节或多字节空闲字符代码的汉字处理系统,增加音节字符的显示字库和打印字库,组成图17的″汉语音节代码及其音节字符支持平台21,才能处理音节字符。也有一些汉字处理系统例如希望汉字系统UCDOS等软件,不能支持双字节的1280个汉语音节字符,需要进行系统改造。
同音同义的汉语语音及其音节符号和汉字词语,都包含共同的汉语音节信息,在汉语音节的层次上相互统一:其中注音符号,汉语拼音,音节字符等音节符号的差别是字形不同,相互间一一对应;而汉字符号有多种代码体系,还有简,繁体之分,相互间基本一一对应;音节符号和汉字符号之间的对应关系较为复杂,需要音节/汉字或汉字/音节转换程序及其智能转换知识库的支持。可以概括地说,同音同义的汉语信息有汉语语音及其各种音节符号和各种代码体系的汉字词语,只要输入其中一种汉语信息,就可以利用同步转换程序,采用不同的提示行,同一个编辑窗口的不同编辑区域,或不同的编辑窗口,进行同步转换输入。所输入的不同代码可以分别保存在不同的文件中,从而形成对比文件。
同音同义汉语信息的同步转换输入包括:(1).同音同义的音节符号同步转换输入;(2).不同代码体系的同音同义汉字字符的同步转换输入;(3).同音同义的汉字字符及其音节符号的同步转换输入;(4).同音同义的音节符号及其汉字字符的同步转换输入。
1.使用汉语键盘输入汉语音节符号:
使用汉语键盘输入每个汉语音节的两个英文字符,称作输入字符,是最直接的汉语音节代码,补加空格等分隔标记适用于纯西文软件,但不容易认读;使用其识别转换程序则能转换为容易识读的汉语音节符号,类似英文制表符的识别转换。
汉语键盘的直接输入目标是注音符号,汉语拼音符号和汉语音节字符等汉语音节符号。利用输入字符与音节符号的编码对照表编制音节符号的键盘输入软件就能分别输入。
在GB2312-80标准及GB13000.1-93标准中,用双字节的字母组成一个汉语音节符号,汉语拼音需要1-6个,注音符号需要2-4个(必须补加标调符号),音节符号较长。可以利用126个双字节空闲字符编码设计双字节的声介母,带调韵母和带调介母符号,分别包含1-3个字母,其字形如表1和表2所示,两个双字节符号组成一个4字节的音节符号,其中Y和W之外的声介母与带调介母的组合,中间多一个介母i,u或ü,例如音节“Juǜ”,“Lií”等。韵母符号例如iu,ui,un,ing等不再简化,其余相同。与音节字符相比,占用字符编码少,容易实现,易推广,比原有符号简捷,能够直接发挥汉语键盘的输入优势,但字节数比汉字多一倍,相互变换时和排版时字符必然串位。可以用于不支持双字节音节字符的汉字系统,例如UCDOS。
把26个大写英文字母改为标调的a,o,e,i,u,ü符号,参见″汉神中文视窗软件″的字体,配合小写英文字母,可以组成规范的汉语拼音音节符号,但不能兼容大写的英文字母;除非使用1,2,3,4,5等符号分别表示阴平,阳平,上声,去声和轻声声调。
每个汉语音节中选取较常用的汉字称作代音汉字,如表3所示,可以直接利用现有的汉字系统资源,容易认读,但很难和普通汉字符号区分,需要长时间学习才能应用,而习惯用汉字的人又觉得别扭。
上述的汉语音节符号及其代码,可以直接记录汉语口语即汉语速记,组成汉语音节文本即口语文件,能够直接使用语音合成软件输出语音。音节符号与汉字字符混用,就是把汉语的语音和文字两种媒介的信息在字符层次上合而为一,有利于相互变换处理。日语把表音的假名和汉字混合使用,发挥了重要作用,并以假名的键盘输入为基础,通过假名-汉字转换程序实现日语汉字的键盘输入。
汉浯音节字符的键盘输入,可以作为汉字输入的一个中间环节,利用音节-汉字智能转换技术,动态实时,或静态一次性地。把“音节字符”文本转化为相应的汉字字符文本。那些难以自动转换的“音节字符”可以保留,以便以后进行手工替换性的转换。这比使用频度判据给出错误的汉字,在所有的汉字中寻找错误的汉字再进行人工修改明显优越。
采用图1-图15所示的任意一种汉语键盘,首次输入声介母、再次输入带调韵母或带调介母,击健两次即可输入一个汉语音节即“两键一音”,再利用输入字符与汉语音节符号对照表,由键盘输入处理模块把输入字符转换为所要输入的汉语音节符号。设定最大输入码长为2,个别有重码的使用声音告警,用数字键选择输入。
输入“HànYǔZhēnJīngQi”5个音节,首先拆分出“H、àn。Yü、ǚ,Zh、ēn,Ji、ēng。Qi、i”10个输入要素。在汉语键盘上找到相应的输入健位,依次击健即可。采用图1所示类型的汉语键盘,依次键入英文字符“hh.2;rjtq,”;或者采用图2所示类型的汉看键盘,依次键入英文字符“hh.2irjtq,”;或者采用图3所示类型的汉语键盘,依次键入英文字符“hh.2irjtq,”;或者采用图4所示类型的汉语键盘。依次键入英文字符“hh.2irjtq,”,或者采用图5所示类型的汉语键盘,依次键入英文字符“hh.2vvjtq,”,或者采用图6所示类型的汉语键盘,依次键入英文字符“hh.2arjtq,”,或者采用图7所示类型的汉语键盘,依次键入英文字符“hh.2irjtq,”,或者采用图8所示类型的汉语键盘,依次键入英文字符“hh.5iwjyq,”,或者采用图9所示类型的汉语键盘,依次键入英文字符“hf.5iyjwq,”。或者采用图10所示类型的汉语键盘。依次键入英文字符“hh.2;rjtqc”,或者采用图11所示类型的汉语键盘,依次键入英文字符“hh.2;rjtqc”。或者采用图12所示类型的汉语键盘,依次键入英文字符“hh.2irjtqc”,或者采用图13所示类型的汉语键盘,依次键入英文字符“hh.2irjtqc”,或者采用图14所示类型的汉语键盘,依次键入英文字符“hh.2;rjtqc”,或者采用图15所示类型的汉语键盘,依次键入英文字符“hh.2irjtqc”,都能输入这些汉语音节。
所输入的两个英文字符,可以分别转换为全角汉语拼音符号“HànYǚZhēnJīngQi”,4字节的汉语拼音音节符号“(H)(àn)(Y)(ǚ)(Zh)(ēn)(Ji)(ēng)(Qi)(i)”(括号内是一个双字节符号,以下同)。全角注音符号“ㄏ
Figure A9910811900082
ㄓㄣㄐ丨ㄥㄑ
Figure A9910811900083
”,4字节注音音节符号“(ㄏ)(
Figure A9910811900084
)(ㄩ)( )(ㄓ)(ㄣ)(ㄐㄧ)(ㄥ)(ㄑㄧ)(
Figure A9910811900086
)”依据注音符号设计的双字节音节字符“(ㄏ )(ㄩ
Figure A9910811900088
)(ㄓㄣ)(ㄐㄧㄥ)(ㄑ )”,表3的代音汉字“汉与真经其”。表4所示的汉语音节字符“(Hàn)(Yǚ)(
Figure A99108119000810
ēn)(Jiē
Figure A99108119000811
)(Qi)”表5所示的简化音节字符“(Hàn)( ǚ)(
Figure A99108119000813
ēn)(jē
Figure A99108119000814
)(Qi)”等汉语音节符号。具体的输入方法是:分别建立各种汉语音节符号与其输入字符对照表,编译出相应的键盘输入程序,即可分别输入各种汉语音节符号。其中双字节的音节字符需要图17中汉语音节代码及其音节字符支持平台21才能显示或打印,其它音节符号在普通的汉字系统上就能实现,其中4字节的音节符号需要使用造字程序造出相应的双字节音节要素符号组合而成。
使用汉语键盘能够输入各种类型的汉语音节代码或其音节符号,不管是单字节的组合代码或其符号,还是双字节。四字节或多字节的音节代码或其音节符号,甚至是加密的音节代码或其音节符号。其前提是提供一个汉语键盘的输入字符与目标音节代码或其音节符号的对照表。编译出相应的键盘输入程序即可输入。所有的音节代码或其音节符号,都可以归结为同一种类型的汉语音节信息。
与现有技术相比,输入一个汉语音节的击键次数由三次减少为两次。汉语音节的输入码长由3减少为2,输入效率提高50%。汉语音节的输入速度与汉语口语表达速度相接近,可达200个音节/分钟,最高可达300个音节/分钟,本身就是汉语电脑速记。汉语音节的编码效率由三键一音的42%(1300÷22÷35÷4),提高为两键一音的61%(1300÷46÷46)。汉语音节的重码率仅为千分之五,只有6对音节重码。在普通键盘上非常规范地实现了"两键一音",即汉语音节的带调双拼。与《汉语拼音方案》相比,161个音节要素减少为126个音节要素。可以进一步简化为119个;音节符号基本相同,用双字节即可编码,与汉字符号字节数相同并且相互兼容,能够混合使用。交互处理。从而改进为《汉语语音方案》。
汉语键盘输入要素的健位布局不同。其音节的具体输入健位也有所不同。为了表述方便,以下涉及音节的输入时。不再区分具体的键盘布局。因为每个键盘都能输入音节,输入的结果是相同的。
2.同音同义音节符号的同步转换输入:
同音同义的音节符号之间一一对应,输入其中一种符号,就可以同步地转换为其它的音节符号。除键盘的音节输入字符,代音汉字和音节字符为两个字节的符号之外。其它的音节符号均是多个字节,而且不等长。音节输入字符是键盘输入的基本字符,因为现有的汉字系统几乎都建立在英文系统之上,为了及时发现输入错误,音节输入字符一般作为提示符号显示,一个输入过程完成后即清除。
音节字符最有代表性,可以作为所有音节符号的同步转换输入的基础。建立音节输入字符与音节字符对照表,实现音节字符的键盘输入,再分别建立音节字符与汉语拼音,注音符号,代音汉字等汉语音节符号在同一个代码体系内或不同代码体系之间的代码对照表,在音节字符的输入过程中调用,即可同步转换输入其它的汉语音节符号。如果输入目标不是音节字符,则可以作为一个中间过渡符号无需显示,直接显示目标音节符号:如果输入目标是音节字符。其它的音节符号可以作为提示符号,以便使用输入者熟悉的音节符号输入不熟悉的音节字符。键盘输入的提示符号和目标符号还可以是任意的汉语音节符号,例如,输入注音符号时,可以使用汉语拼音符号提示。即使输入者不认识注音符号也能正确输入。因此,除具有输入字符的提示外,还可以增加相同或不同代码体系的各种音节符号的同步转换输入提示,其中后者需要使用现有的不同代码体系的同屏显示技术,能够利用输入者熟悉的音节符号,输入不熟悉的音节符号,熟悉一种音节符号,就能够输入任意的音节符号。
输入目标也不限于一个,可以选择同音同义的两个或多个音节符号同步转换输入,所输入的音节字符,可以相互对比排列在同一行上,例如“ㄊㄨ
Figure A9910811900091
/tóng/同_ㄅ
Figure A9910811900092
/bù/不_ㄓㄨ /zhuǎn/转_ㄏㄨ /huàn/换_ㄕㄨ/shū/书_ㄖ
Figure A9910811900095
/rù/入_ㄒㄧㄣ/xiēn/新_ㄐ /jì既_ㄕ
Figure A9910811900097
/shù/数”,其中的汉字是代音汉字,或者相互对比排列在上下对应的两行或多行上,例如:
“ㄊㄨ   ㄅ
Figure A9910811900099
   
Figure A99108119000910
Figure A99108119000911
  ㄏㄨ
Figure A99108119000912
 ㄕㄨ  ㄖ
Figure A99108119000913
  ㄒ ㄧ ㄣ  ㄐ   ㄕ
Figure A99108119000915
“tóng     bù         zhuǎn      huàn    shū       rù           xiēn      jì       shù”
“同       不       转       换      书    入        新      既    术”所输入的目标信息,可以是各种类型同音同义的汉语音节代码或其音节符号,甚至是随意加密的汉语音节代码或其音节符号,只要提供汉语键盘的音节输入字符与其汉语音节代码或其音节字符的对照表,就可以编译出同步转换的键盘输入程序而同步输入,即使是不能显示的音节代码,使用其它音节符号也能同步提示输入。
也可以把同音同义的两种或多种音节符号,同步转换地输入两个或多个相互对比的文件中。例如在分栏编辑的两个文件之中,分别输入汉语拼音符号和汉语音节字符,使输入过程相互同步,在一个文件中输入或修改,在另一个文件中自动地进行同样的输入或修改。只要其中一个文件的输入正确无误,其它同步转换输入的文件也一定正确无误,哪怕输入的音节符号属于其它的代码体系,不能在本代码体系内显示和打印,也能一次性的正确输入。例如,中国大陆的人可以在一个文件中输入汉语拼音的音节符号,进行必要的编辑和修改,在另一个文件中同步转换输入,同步编辑和同步修改为同音同义的台湾BIG5码的注音符号,甚至不需要显示,再利用电子邮件发给台湾人,对方不需要代码转换程序就能直接认读。如果使用不同代码体系的同屏显示技术,则可以进行不同代码体系的音节符号的同步转换输入和同屏对比的显示,编辑和修改,直接生成两个或多个相互对比的同音同义的音节符号文件。
这项技术使汉语音节的信息处理超越了不同代码体系的界限和简,繁体的字形差别,只要使用一种汉语音节符号,就能输入各种同音同义的汉语音节符号,或一次输入多个同音同义的音节符号文件,使输入效率明显提高,使汉语信息处理和华人之间的信息交流更加方便。
3.同音字选择输入:
汉语音节的输入字符替换成相应汉语音节的同音汉字,依据静态的或动态的字频顺序排列,最大输入码长为2,同音字选择输入,这是最基本的汉字输入方法,其前提是必须认识所要输入的汉字。对于支持音节字符的软件,例如图17所示的汉语处理系统,把音节字符也作为一种汉字,按同音字输入,以便代替汉语拼音记录汉语语音,直接音译外来语,或作为只知道读音却不知道具体汉字的语音记录符号,便于以后修改。
同音字通常依据字的统计频度按固定顺序静态排列,频度高的字排在前面,其中第一个字用其读音音节补加空格即可输入,定义为二级简码,可以直接使用表3所示的代音汉字。其它的字使用数字或上档字符选择输入。经常打字的人记住其固定顺序就不需要看提示行选字了。也可在此基础上进行动态调整,把刚刚用过的字作为最常用字,排在其它同音字的前面,因字的位置不固定,所以不适合经常打字的人,比较适合偶尔打字的人。把两者结合起来,以统计数据为基础,每个字都标注其频度值,以后出现一次频度加1,依据当前频度值由大到小的顺序排列同音字,则字的相对位置比较稳定,该调整时还能针对具体的使用者予以调整,可称作动态累频调序。此外,还可以辅助人工强行调序。
编制汉语音节的输入字符与多个同音汉字的编码对照表,利用一些汉字系统提供的汉字编码输入法编译程序,就可以实现汉字同音字的输入。设定最大输入码长为2,首次击健输入汉字读音的声介母,再次击健输入汉字读音的带调介母或带调韵母,同音汉字就显示在提示行上,用数字或上档字符等选择即可输入所要的字。动态累频调序的实施比较复杂,需要编制动态累频调序程序。
代音汉字与同音汉字的输入可以结合起来,设定最大输入码长为2,每输入一个音节之后,如果再输入一个音节,则前一个音节的代音汉字直接上屏,否则,输入一个空格或其它不用于编码的字符等标记进入刚刚输入音节的同音字选择状态,用数字或上档字符选择输入。
对于电脑速记等应用,音节的键盘输入和同音字的手工选择可以分开处理。现场记录时使用汉语音节符号,之后再利用软件逐个音节进行手工转换或校对。其中的音节符号使用″音节字符″或代音汉字较为适用;而其它音节符号不等长,有的还需要为某些音节补加分隔符号如空格等,选字后音节的字节数还可能变化而影响段落的整齐性。这是本发明设计″音节字符″的一个主要原因。
对于音节字符文本,可以一次性成批的选字,把光标自动或手动地移动到一个音节符号,自动打开同音字提示行,用数字或上档字符选字输入。支持整句拼音输入的″拼音王″软件就有类似的特色。
还可以使用单字的翻字键,设立一个向前顺序的翻字键和一个向后顺序的翻字键,例如使用成对的上下或左右光标键,依据上述同音字的顺序,把当前刚刚输入或光标所指的音节符号或其同音字,一个一个地依次更替,直至所要输入的字出现为止。
实施时,需要编制每个音节符号的同音字链表,音节符号及其同音字依据一定的顺序,一般是字的频度顺序排列,光标指向哪个音节符号或代音汉字或任何一个同音字,就调出哪个同音字链表,用数字或上档字符选择输入,或使用单个字的翻字键逐个选字输入。
例如,输入“汉语信息”四个字,分别输入音节“hàn”提示出“1汉2焊3罕4翰5撼6捍7旱8憾9汗0悍”选1或输入空格输入;输入音节“yǚ”提示出“1与2语3予4雨5隅6隅7虞8屿9字0禹”选2输入,或按一次正向翻字键而输入;输入音节“xièn”提示出“1信2芯3衅4囟”选1输入或输入空格输入;输入音节“xī”提示出“1西2息3希4析5吸6烯7昔8熙9硒0矽”选2输入或按一次正向翻字键输入。或者一次性输入“汉语信息”的4个音节字符:“(hàn)(yǚ)(xièn)(xī)”,以后再把光标移动到某个音节字符上,同时打开同音字提示行,用数字等选字符号输入汉字,或进入单个汉字的翻字状态,用成对的翻字键依次更替。
与现有技术相比,区分声调后同音字的字数仅是不区分声调的四分之一,同音字的选字范围明显减小,GB2312-80中,每个音节中最多的汉字数为60个,平均为6个,一般不需要翻页选字。
4.汉字词语编码输入:
两键一音,使汉字词语的编码输入大为简化。设定最大输入码长为4,双字词直接输入读音;三字词输入每个字读音的声介母,也可再补加第三个字的带调韵母;四字及四字以上词则输入第一,二,三,四或最后一字的声介母。单字的输入则复杂一些。
除独体字外,大部分汉字是两个或两个以上的字根组成,而字根几乎都有读音,用字根读音或其声介母和带调韵母为汉字编码,把单字看作由字根组成的词,按词的方式输入。还可以利用整字的读音代替那些难读、难记、或结构复杂难以拆分的字根。至于常用字,可以设计1300个一、二级简码,用一、两个输入字符加一个空格输入。表3的代音汉字也是依据汉语音节而选定的二级简码汉字,具体的输入健位取决于所用的汉语键盘。一级简码依据每个键位的声介母选定,选取每个健位的声介母中最常用的字。
现有的汉字编码输入法,使用单个健位定义常用字根,称作基本字根,一般为100个左右,其余的字根要拆成基本字根,往往违背汉字的结构规律。总计约600个字根,都必须直接或间接地标记或映射在几十个键位上,其难学、难记是不可避免的。而本发明只利用字根的读音即两个键位的组合来标记或映射在键位上,所以,对基本字根的数量没有限制,无需再拆分字根。把一个可拆的汉字看成字根组成的非单字词而按词输入,认识字根就足以输入,并不需要记住汉字的编码。这是人们日常生活中一贯采用的方法,有着悠久的历史,如“矢口否认”是“知”字拆成的“矢”和“口”,等等。除一些非单字字根或不常用的字根其读音不为人们所熟悉、需要特殊记忆之外,大部分字根都是人们认识的。这种方法对汉字的总量没有限制,对简体和繁体都适用。
汉字字根的制定和汉字的拆分方法取决于所用的字符集。对于GB2312-80和GB13000.1两个字符集而言,以《信息处理用GB13000.1字符集汉字部件规范》为基础,有明确读音的字根直接采用,没有读音的字根归入字形相近的字根,或者″放大″字根,采用包含该字根且有读音的字根。只能组成一,两个字又没有读音的字根,直接使用其所组成的字为字根,例如″可″字的外围字根只组成一个″可″字,所以直接使用″可″字为字根。由于字根位置的变化产生的笔画变形,其字根视为同一个。例如,处在左侧的字根,如果其最后一笔为“一”或“横弯勾”,则变形为“提”:“子”在左侧变形为“孑”,“己”在“改”字中的笔画变形都很明显;处在上下位置的字根也有变形,竖长形的字根变成扁形;有的字根是书写习惯所致,例如“丝”实际上不是三个字根组成,而是左右两个字根的联笔而成。此外,“印”字的左部分字根是“爪”字的变形;“奖”字的上半部分字根是“将”字简化而来,因此其字根应读“jiǎng”。与普通输入法不同的是,由于一、二级简码多达1300个,常用字一般人都认识,很多字都按词输入,所以,拆字输入的只是一小部分,只要是常用字,尽管很难拆分,也没必要象形码那样非拆不可,利用简码或同音字选字输入也很轻松。
制定一个数量最少的基本字根集,减轻初学者的字根记忆负担;再适当增加一些组合字根作为辅助字根,以便使用最大的字根拆分汉字。拆字的规则主要依据《信息处理用GB13000.1字符集汉字部件规范》的“《汉字基础部件表》使用规则”。
对于组字频度很高且读音相同的字根,采取一些特殊措施以便减少重码的数量。例如,字根″目″和″木″,可以把其中一个字根进一步拆分,把″目″拆成″口″和″二″,或把″木″拆成″十″和″八″。
拆分汉字时,尽可能拆成两个可读的字根,依据汉字的整体结构而不单纯依据笔画的书写顺序,否则容易偏离组字的本义。一般是先左后右,先上后下,先外后内,先左上角起笔后右下角末笔。例如,“讲”字先拆“讠”后拆“井”;“晨”字先拆“日”后拆“辰”;“国”字先拆“口”后拆“玉”;“这”字先拆“文”后拆“辶”。上下结构的“男”拆成“田、力”而不是“日、力”;“房”拆成“户、方”;品字结构的字则拆成2个或3个字根,“品”字拆成“口、口、口”,“众”字拆成“人,从”或“人,人,人”。难以拆分的字,整字又不认识的,可以用笔划的读音检索输入。例如用这些字的第一、二个笔划的读音,必要时使用第一,二,三,四或最后一个笔划读音的声介母检索输入。也可使用通配符,替代罕用的字根。
字根的输入,可以按其读音补加一个或两个未使用的字符而输入,例如图1-图15中的字符组合fj,或图1-图9中的字符组合dk等,均是未用的字符组合。
拆分汉字的原则是拆大不拆小,拆整不拆零,拆相离不拆相交。例如,“意”字应该拆成“音”和“心”而不是“立”,“日”和“心”;“哗”字拆成“口”和“华”而不是“口”,“化”和“十”;“元”字拆成“一”和“兀”而不是“二”和“儿”。
实施例如下:
设定最大输入码长为4,双字词和词组依次取其读音的音节直接输入;三字词和词组依次取第一、二、三个字读音的声介母补加空格或第三个字的带调韵母输入;四字及四字以上的词和词组依次取第一、二、三及末字读音的声介母编码输入;
单字的输入有几种方式:
首选声介母补加空格输入的一级简码:数字键,符号键补加空格键输入原符号的全角字符,但符号“/”补加空格输入顿号“、”,字母键补加空格输入其所表示声介母的音节中最常用汉字作为一级简码汉字,分别为:声介母Du-对,声介母B和Bu-不,声介母C-从,声介母D-的,声介母Di和Mu-地,声介母F-分,声介母G-个,声介母H-和,声介母Sh-是,声介母Ji-就,声介母K-可,声介母L-了,声介母M-每,声介母N-能,声介母Li-两,声介母P-派,声介母Qi-其,声介母R-人,声介母S-三,声介母T-他,声介母Hu和Nü-或,声介母Bi和Fu-并,声介母W-为,声介母Xi-下,声介母Y-一,声介母Z-在。
如果把每个输入字符补加一个键例如“=”而输入其全角字符,则数字键和符号键也可补加空格输入一级简码:声介母Tu-图,声介母Ti-条,声介母Zu-作,声介母Su-所,声介母Cu-村,声介母Qu和Ru-如,声介母Gu-过,声介母Ju和Nu-军,声介母Ni-年,声介母Ku-快,声介母Lu和Lü-路,声介母Yu-与,声介母Xu-学,声介母Pi和Pu-平,声介母Zh-中,声介母Zhu-住,声介母Ch-成,声介母Chu-出,声介母Shu-水,声介母Mi-面。
每个音节补加空格输入二级简码,例如采用表3中的代音汉字作为二级简码;
每个音节补加fj输入该音节的同音字,重码用数字键选择输入;
图1-图9所示的汉语键盘,每个音节补加dk,而图10-图15所示的汉语键盘则补加kd,输入该音节读音的字根,重码用数字选择输入;
表6列出字根读音表,包括″常用字根″,用于输入GB2312-80国标字符集的一级汉字;补加″非常用字根″,输入GB2312-80国标字符集的汉字;补加″扩充至大字符集简体字的字根″,输入GB13000.1-93国标大字符集简体汉字;补加″扩充至大字符集繁体字的字根″,输入GB13000.1-93国标大字符集的汉字。根据使用者的具体应用进行选择记忆。难以拆分的字列出难拆字表,用笔顺等字形信息排序,便于查找和输入。例如,根据一,丨,丿,丶,乙的笔画顺序分别排列难拆字,以便于检索和查找。
用每个字的字根读音为该字编码,编码方法与非单字词的编码相似,2个字根组成的字依次按其字根的读音音节输入,3个字根组成的字依次取字根读音的声介母补加空格或第3个字根的带调韵母输入,4个或4个以上字根组成的字依次取第1,2,3,4或末字根读音的声介母输入。
例如,输入“汉语”依次输入音节“hàn”,“yǚ”;输入“计算机”依次输入声介母“ji”,“su”,“ji”补加空格,或者依次输入声介母“ji”,“su”,“ji”补加第三个字“机”的带调韵母“ī”;输入“哈尔滨市”依次输入声介母“h”,“ěr”,“bi”,“shi”;输入“人民解放军”依次输入声介母“r”,“mi”,“ji”和“f”或“ju”;输入“人造地球卫星”依次输入声介母“r”,“z”,“di”和“qi”或“xi”;输入“第一次世界大战”依次输入声介母“di”,“y”,“ci”和“shi”或“zh”。输入单字“铁”拆成“钅”和“失”依次输入音节“jiēn”,“shī”;输入单字“众”拆成“人”,“人”,“入”依次输入声介母“r”,“r”,“r”补加空格或补加第三个字的带调韵母“én”;输入单字“除”拆成“阝”,“人”,“一”,“木”依次输入声介母“fu”,“r”,“h”,“mu”;输入单字“器”拆成“口”,“口”,“大”,“丶”,“口”,“口”依次输入声介母“k”,“k”,“d”,“k”。
标点符号和数字符号采用原符号补加空格输入,类似于一级简码。
这种输入方式,除单字拆成字根再按其读音输入外,非单字词取其全部或部分读音信息即可输入,再配合一级简码和一千二百多个二级简码,输入每个汉字的平均动态码长为2.1接近2这个极限;而现有技术,几乎无一例外地徘徊在平均动态码长为3的水平上,输入效率提高近50%。
汉语语音及其音节符号和汉字词语是汉语信息的不同表现形式,是本发明实现了这些不同形式汉语信息键盘输入上的统一,不仅输入键位相同,输入方法也基本相同,为汉语信息的综合应用和相互变换处理创造了条件。
5.汉字词语整音节编码输入:
把完整的汉语音节作为基本单元为汉字词语编码。不限定最大输入码长,以空格等字符作为结束标记,两字及两字以上的词和词组直接按其读音音节依次输入,单字拆成两个或两个以上的字根,也按其读音音节依次输入,用空格等字符完成一个词或字的输入。例如″张″拆成″弓″和″长″,″蚝″拆成″虫″和″毛″等分别输入。
采用本发明第3项汉字词语编码输入技术,不限定最大输入码长,每个汉字词语的键盘输入都以空格作为结束符号,就能直接实施本项发明。例如,输入“汉语”按其读音依次输入音节“hà n”,“yǚ”补加空格结束;输入“差不多”按其读音依次输入音节“chà”,“bù”,“duō”补加空格结束;输入“中华人民共和国”按其读音依次输入音节“zhōng”,“huó”,“rén”,“mién”,“gòng”,“hé”,“guó”补加空格结束;输入单字“钢”拆成“钅”和“冈”依次输入音节“jiēn”,“gāng”补加空格结束;输入单字“众”拆成基本字根“人”,“人”,“人”依次输入音节“rén”,“rén”,“rén”补加空格结束;或者拆成“人”,和“从”依次输入音节“rén”,“cóng”补加空格结束;输入单字“除”拆成基本字根“阝”,“人”,“一”,“木”依次输入音节“fù”,“rén”,“héng”,“mù”补加空格结束;或者拆成“阝”和“余”依次输入音节“fù”,“yǘ”补加空格结束;输入单字“器”拆成基本字根“口”,“口”,“大”,“丶”,“口”,“口”依次输入音节“kǒu”,“kǒu”,“dà”,“diǎn”,“kǒu”,“kǒu”补加空格结束;或者拆成字根“哭”和基本字根“口”,“口”依次输入音节“kū”,“kǒu”,“kǒu”补加空格结束。
标点符号按其读音音节输入,例如“,”号用“dòuhào”输入,“ㄍ”用“zuǒ shū mién ghào”输入。
这种输入方式不是最快的,但最小输入单位都是音节,和汉语语音识别输入相同,能够相互补偿各自的缺点,纳入到一个系统中交互处理,是本发明的特色之一。由于汉语语音识别输入的识别率有限,不认识的汉字和单字难以准确输入,可以采用键盘输入方法把汉字拆成几个字根读入,但需读入空格等结尾标记。
6.双音单字汉语键盘输入:
以汉字词语的键盘输入为基础,用双字词输入所含的单字,共有三种方法:
(1).把要输入的单字作为双字词的第一个字,输入双字词后再用退格键删除后一个字。实际上就是汉字词语编码输入方式,只是增加单字的双音输入技巧。例如,要输入单字″各″,可以输入″各个″一词,再用退格键删除单字″个″。
(2).把汉字词语输入作为常态,设置一个状态转换键,使用右Shift键或字符组合键,按一下就进入双音单字输入状态,键入双字词只输入第一个字,补加空格则输入第二个字,除非再按一下转换键返回词语输入状态,否则继续保持双音单字输入状态。例如,把汉字词语输入作为常态,用右Shift键作为状态转换键,按一下之后,再输入双音节词只输入第一个字,键入“我们”只输入“我”,再键入“来到”只输入“来”,若此时输入空格则输入“到”字。直到再按一次右Shift键回到正常的词语编码输入状态。适合非单字词比单字多的文本输入。
(3).把双音单字的输入状态作为常态,需要输入第二个字则补加一个空格,需要输入非单字词语则用右Shift键或字符组合键作为状态转换键切换,与输入方式(2)正好相反。例如,把双音单字输入作为常态,键入双字词只输入第一个单字,补加空格再输入第二个字,用组合键″Alt″+J等作为状态转换键,按一下进入汉字词语的编码输入状态,再按一下回到双音单字输入状态,适合单字比非单字词多的文本输入。
方法(2)和(3)可以纳入到一个系统中,增设状态转换键相互切换,例如使用“Ctrl+H”的组合键进行切换,以便适应不同的输入场合。
这种方法输入单字比较容易,不需要记忆字根的读音,容易学习,可以充分发挥本发明的技术优势。选取与单字词意义相同的双字词输入单字,能够促进汉语双音化,减少单字词的使用。此外,不管单字还是非单字词,其简体及其繁体的输入方法均是一致的,有利于海峡两岸及其海内外的文化交流,也便于古籍经典的整理和研究。
7.字形不同的同音同义汉字的同步转换输入:
前述的第3,4,5,6项,输入目标都是汉字,无论是简体汉字,还是繁体汉字,不管是GB2312-80字符集,还是GB13000.1-93字符集,或者是ISO/IEC10646字符集,以及BIG5字符集,只要有相应的汉字系统的支持,编写相应的汉字键盘输入程序就能直接输入。同音同义的简,繁体汉字或不同代码体系的汉字,其差别仅在于字形和代码,原则上是同一种汉语信息的不同表达形式,因此只要输入一种字形和代码的汉字,就能够利用固定的相互关系知识库,同步转换输入同音同义的其它字形的汉字代码。这种转换方式需要有简体和繁体相互兼容的字符集的支持,例如有Windows95中文版/98中文版的GBK字符集或WindowsNT的CJK字符集等的支持。
在GB13000.1-93字符集内,包含简,繁两种字体的汉字,可以依据其相互映射关系编制同音同义简体/繁体映射表和繁体/简体映射表,依据一种字体,就能转换出另一种字体。应用在键盘输入过程,就是简/繁体或繁/简体同步转换输入。除提示键盘的输入字符外,还可以提示相互对照的简,繁体汉字,以便同时输入相互对照的两个文件,或使用认识的汉字作为提示而输入并不认识的另一种字体的汉字。
由于简体汉字是从繁体汉字发展而来,繁体与简体是多对一,而简体到繁体是一对多,因此繁体到简体的转换比简体到繁体的转换简单和容易。把繁体作为基础,建立繁体词库等知识库,配合繁体/简体转换程序,就可以同时处理繁体和简体文字。
依据《国际标准汉字大字典》(电子工业出版社,1998年5月第一版),可以建立简体汉字/繁体汉字,以及繁体汉字/简体汉字的转换对照表,实现相互变换处理。
8.代码不同的同音同义汉字的同步转换输入:
同样,不同字符集的同一个汉字或简体和繁体字形不同的汉字,编制相互对照的同音同义汉字代码映射表,例如GB2312-80与BIG5,GB13000.1-93与BIG5等等,输入其中一种代码的汉字,就能同步转换为同音同义的另一种代码的汉字。
不同代码体系的汉字数量都有差别,例如GB2312-80和BIG5,汉字数分别为6763和1万3千多个,并非一一对应,但常用汉字基本上都包含了,因此相互间的代码转换一般是没问题的。需要有GB2312-80到BIG5的代码映射表,以及BIG5到GB2312-80的代码映射表,才能进行相互变换。只要输入其中一种代码,就可以同步地转换为另一种代码。在单一代码体系的汉字系统上,两者难以同时显示,除非利用“东方快车”或“汉神中文视窗”等不同代码汉字的同屏显示技术才能同时显示。
所输入的同音同义的不同代码的汉字,可以相互对比排列在同一行内,或者相互对比排列在上下对应的两行或多行上,或左右对应的两列或多列上。也可以把同音同义的不同代码的汉字,同步转换地输入相互对比的两个或多个文件中,每个文件输入一种代码的汉字。例如在分栏对比编辑的两个文件之中,在其中一个文件中输入简体或繁体汉字,相应的在另一个文件中输入同音同义的繁体或简体汉字;使输入过程相互同步,在一个文件中输入或修改,在另一个文件中自动地进行同样的输入或修改。只要其中一个文件的输入正确无误,同步转换输入的文件也一定正确无误,哪怕输入的汉字属于其它的代码体系,不能在本代码体系内显示和打印,也能一次性的正确输入。例如,中国大陆的人可以输入简体汉字,同步转换输入台湾的繁体汉字,直接用电子邮件发给台湾人,对方不需要代码转换程序就能直接认读。如果使用不同代码体系的同屏显示技术,则可以进行同音同义不同代码汉字的同屏对比输入提示和编辑,直接输入,编辑和生成两个或多个相互对比的文件。
这项技术使汉语信息处理超越了不同代码体系的界限和简,繁体的差别,只要使用一种代码的汉字,就能输入同音同义的各种代码汉字,一次输入多个对比文件,使输入效率明显提高,使汉语信息处理和华人之间的信息交流更加方便。此外,只要使用输入者熟悉的一种代码汉字,就能输入其它代码体系同音同义汉字的代码,便于相互交流。
9.同音同义的汉字和音节符号的同步转换输入:
现有的音节符号/汉字符号智能转换键盘输入,都包含音节符号和汉字符号的输入过程,只是把汉字作为唯一的输入目标而忽略了音节符号,原因之一就是普通音节符号的实用性较差。音节字符与汉字符号兼容而且字节数相等,就可以和汉字混合使用。
汉字的语音合成输出,汉字的自动注音等都需要利用汉字提取其读音信息。汉字包含其读音的音节信息,所以输入汉字能够同步转换输入其音节符号。
只有一个读音的汉字其汉字/音节转换很简单,有一个汉字/音节映射表即可;有多个读音的汉字,必须利用汉字的组词属性确定其读音,其汉字/音节转换较为复杂,需要汉字/音节词库和汉字/音节转换知识库。为了提高正确转换率,汉字/音节词库侧重于多音字的词。每个多音字都有一个常用读音,列入常用汉字读音表,其它的读音列入汉字/音节词库。进行汉字/音节转换,首先检索汉字/音节映射表,没有再检索汉字/音节词库和汉字/音节转换知识库,还没有则检索常用汉字读音表给出常用读音。转换的汉字读音可以直接使用汉语音节符号。使用音节字符较为理想,既能简化映射表,又便于使用音节字符/音节符号映射表转换为其它音节符号。
汉字/音节智能转换输入的主要用途是汉字及其音节符号对照文本的输入处理,主要用于汉语教学领域,儿童读物的编辑和出版。现有方法有手工注音,汉语自动分词注音等,需要专门的软件支持。本发明则利用图16的汉字/音节转换软件22,和音节代码与汉语拼音,注音符号,代音汉字等的转换软件18,19和20,分别实现汉字与音节字符,汉语拼音,注音符号,代音汉字等的转换处理。
这项技术能够同步地输入汉字及其拼音的对照文件,用于儿童出版物的编辑和排版,提高工作效率。例如,汉字及其读音的汉语拼音符号在上下两行对比排列,只要输入汉字,就可以利用汉字/汉语拼音转换程序,同步地转换出相应的汉语拼音,标在相应的汉字上面,从而同时输入,也可以同时编辑和修改。例如,以下只要输入汉字,利用汉字/音节转换就能同步地输入音节符号;或者只输入第一行的注音符号或第二行的汉语拼音,借助音节/汉字智能转换输入程序的支持就能同步地输入第三行的汉字及另一种音节符号:
“ㄊㄨ
Figure A9910811900131
  ㄅ   ㄓㄨ
Figure A9910811900133
  ㄏㄨ
Figure A9910811900134
  ㄕㄨ  ㄖ
Figure A9910811900135
  ㄒㄧㄣ  ㄐ
Figure A9910811900136
  ㄕ
Figure A9910811900137
“tóng     bù        zhuǎn     huàn     shū     rù           xiēn    jì         shù”
“同       步     转       换       输    入      新     技     术”
10.音节/汉字智能转换输入:
使用汉语键盘输入汉语音节,再采用比较成熟的音节-汉字智能转换技术,把所输入的音节转换为汉字词语,可以达到或接近两键一字的汉字输入极限,使汉字输入的难度极大的简化,便于全面的普及和应用。图16的汉字键盘输入处理系统,需要独立的音节-汉字智能转换输入软件;图17的汉语键盘输入处理系统,直接包含音节/汉字转换软件19。
把微软拼音输入法的输入键盘进行重新定义,使用本发明的汉语键盘,其汉语音节的表音符号由单字节的英文字母组成,其标调符号使用数字符号,即与微软拼音输入法相适应,就可以直接实施本项技术。
例如,输入″汉语键盘是一种新技术产品″,依次输入其读音的汉语音节,则整句转换的过程为:输入“hàn”转换为“汉”;输入“yǚ”转换为“汉语”;输入“jiàn”转换为“汉语建”;输入“pó n”转换为“汉语键盘”;输入“shì”转换为“汉语键盘是”;输入“yì”转换为“汉语键盘示意”;输入“zhǒng”转换为“汉语键盘是一种”;输入“xīn”转换为“汉语键盘是一种新”;输入“jì”转换为“汉语键盘是一种心迹”;输入“shù”转换为“汉语键盘是一种新技术”;输入“chǎn”转换为“汉语键盘是一种新技术产”;输入“piěn”转换为“汉语键盘是一种新技术产品”。
也可以把输入的音节用音节字符表示,则在整个句子输入完出现标点符号或其它非汉字字符之后,整个句子一次性转换为″汉语键盘是一种新技术产品″。
把音节字符作为一种汉字符号处理,那些不能确切转换或不需要转换的音节字符就可以直接保留,需要人工转换时自动查找音节字符,手工替换为汉字符号。例如用整句转换输入法输入″他的名字叫章英革″,直接转换为汉字且中间不增加修改过程的结果为″它的名字叫张应葛″,夹杂音节字符则结果为″(tā)的名字叫(zhāng)(yīng)(gě)″,其中括号内的拼音符号代表音节字符,如果不联系上下文,人也很难把这些音节转换为准确的汉字,因此不能过分要求计算机,所以,保留其音节字符是合理的。其后修改时,凡是遇到音节字符都调出其同音字选择输入,或者用查找与替换的方法替换成汉字。对于外来语转译回来的不常用的中国人名,地名等,以及外国人名,地名等专有名词,可以直接使用音节字符,没必要转换为汉字。
在音节的智能转换输入过程中,允许使用声介母补加空格输入一级简码甚至二级简码:如果第偶数次输入一个空格,则空格前面输入的视为声介母而输入一级简码汉字;如果第奇数次输入一个空格,则空格前面输入了完整的音节,该空格的作用可以是人工切分出一个短语,或者把刚刚输入的音节作为二级简码汉字处理,此时连续输入两个空格才能输入一个空格。
使用汉语键盘作为″微软拼音输入法″的输入键盘,由于直接区分声调,其输入的效果就会明显地提高,而且能够达到两键一字的汉字输入极限,是目前所有的汉字输入技术都无法实现的。由于本发明的特殊性,音节/汉字智能转换输入的效率能够进一步地提高。
11.音节-汉字智能转换,辅助汉字词语编码,一次性精确地输入汉字词语:
以音节-汉字智能转换为基础,系统支持的通用汉字词语按其读音的音节依次输入,出现非通用的汉字词语,例如人名,地名,单位名等难以智能转换的汉字或无序的及不认识的汉字,以及字数超过2的多字词等,先输入字符″\″等符号作为编码输入的引导符号,把刚刚输入的音节符号串智能转换为汉字串,随后编码输入单字或多字词,最大输入码长为4,重码选择输入。可以使用一级简码,二级简码,单字编码和词编码,补加空格或达到最大输入码长后,如果不再输入引导符号,就返回到智能转换输入状态。由于双字词只需输入音节,其数量最多,编码输入还需要引导符号,因此双字词编码输入意义不大;但同音双字词中不常用的词,用户自定义的新双字词,也可以使用编码方法输入。三字及三字以上的多字词,编码输入比音节符号的输入击键次数少,其词的字数越多越是明显,所以多字词的编码输入可以保留。有的单字拆分成字根之后,其字根的读音可能与某些通用词或词组相同而产生重码,使用引导符号就可以相互隔离而避免重码。编码输入的引导符号可以采用闲置的字符如“\”,上挡字符如大写的英文符号,“Tab”键和空格键等。如果使用空格,半角空格输入两次才能输入一个全角空格。还可设立一个状态转换键,在音节-汉字智能转换输入和辅助汉字词语编码输入的两个输入状态之间进行切换。
把本发明的汉字编码输入法和微软拼音输入法两项技术结合起来,就可以实施本项技术。例如,输入″他的名字叫章英革″,不能正确转换的音节(tā),(zhāng),(yīng),(gě),可以用编码输入汉字,用字符“\”作为编码输入的引导符号。其输入过程为:键入“\rényě”输入“他”,再键入“dē”,“míng”,“zì”,“jiào”转换为“的名字叫”,键入“\lìzǎo”输入“章”,键入“\cǎoyāng”输入“英”,“革”拆成“廿”,“口”和“十”,取每个字根的声介母键入“ni”,“k”,“sh”补加空格输入。
这种输入方式能够克服微软拼音输入法的缺点,而不单纯依赖音节-汉字智能转换输入。一般人不认识的字以及非词库中的词,还能利用汉字编码输入法拆字输入,能够正确的一次性完成整个输入过程,避免出现不能正确转换的错误。
12.智能转换,字词编码和动态造词相结合:
在上述音节-汉字智能转换和字词编码输入的基础上,再进一步,凡是用字词编码输入的连续排列的几个单字,只要是系统词库中没有的词,都智能动态的自动生成新词,临时或永久保留在新增词库中,其后一旦出现,输入各个单字的读音音节即可自动转换为汉字。新词还同时生成新词的键盘输入编码。
与现有智能拼音输入法不同,新词的输入编码与其各个单字的输入编码无关,只与其单字的读音有关。只有一个读音的单字直接使用其读音的音节或声介母为新词编码,有多个读音的单字,用其多个读音的音节或声介母为新词生成多个编码,第一次使用新词输入后,根据输入者使用的读音保留一个编码,其余的编码则取消。如果生成的新词不止一个读音,则需要不止一个新词的生成过程;也可以保留新词多个读音的多个输入编码,但会产生一些无用的输入码,可以人工或自动地定期删除。
例如,上述的“章英革”在第一次输入之后,用汉字/音节转换程序得出其音节词“(zhāng)(yēng)(gě)”,把音节字符与其汉字对等保存成为新词,再出现时输入三个连续的音节“(zhāng)(yēng)(gě)”就可以输入其相应的汉字词“章英革”。再利用音节字符与其汉语键盘的输入字符对照表,取这三个字读音的声介母“Zh”,“Y”,“G”补加空格或“革”字的带调韵母“ě”而生成新词的输入编码。以后直接利用其输入编码输入。
同样,用汉字编码连续输入“毕”和“升”两个字之后,计算机自动生成新词“毕升”并保存起来,以后再出现这个人名,输入“BìShēng”两个音节即可自动输入。
动态自动生成新词的方法是,把字词编码输入的连续排列的几个单字,利用汉字/音节转换程序转换为相应的音节字符,临时或永久地保存在一个附加的音节词-汉字词双向对照词库中,与通用词库一起使用,可以选择通用词库优先或新增词库优先。
13.汉语操作界面:
汉语操作界面包括汉字操作界面和汉语音节操作界面,是汉语信息处理的进一步深化。采用命令行方式的符合“规范汉语”的音节字符指令或相应的汉字指令操作和应用计算机,使音节字符指令和汉字指令以及语音指令相互统一,构成汉语操作界面。
在DOS操作系统基础上,一些汉字系统采用汉字指令代替英文指令操作和应用计算机,由于汉字的输入本来就比较困难,因此,阻碍了汉字指令的广泛应用,很多人不得不使用英文指令。实际上,操作和应用计算机的指令很少,充其量不过几千个词,但却难住了绝大多数华人。本发明使用汉语音节符号指令,尤其是音节字符指令,与汉语语音识别输入的语音指令相统一。其中音节符号指令适用于汉语的初学者,由于汉语的音节符号与汉语口语一一对应,所以只要具备一定的口语词汇就能使用,比以英语为母语的人学习英文指令还容易。
采用无重码的非单音词作为汉语音节字符指令,一一对应相应的汉字指令,具有相同的音节信息,根据需要进行选择,依据音节字符-汉字对照表相互转换,语音信号指令则转换为相应的汉语音节字符指令再执行,因此,汉语音节指令包含语音信号及其音节字符和相应的汉字三种类型,无重码的非单音词是确定汉语音节指令的规范,称作“汉语音节指令规范”。符合这一规范的汉语音节指令可以用作音节字符和汉字字符的键盘输入指令以及语音识别输入的语音指令。
无论使用键盘,还是使用语音识别输入装置操作计算机,或者使用字符编写汉语程序设计语言,都可以使用汉语音节指令代替英文指令,使计算机的应用和操作彻底汉语化。
相应于命令行的英文DOS指令,可以编制对等的汉语音节指令,既可以使用音节字符指令,又可以使用相应的汉字字符指令,配合语音识别输入装置,又能支持汉语语音指令。例如,英文指令dir是列目录的命令,可以使用汉语音节及其字符指令“mùlù”或相应的汉字指令“目录”代替。每个英文指令都有相应的汉语音节字符及其汉字指令对应,只使用汉语就可以操作计算机。
《汉语程序设计语言》(电子工业出版社,1994年5月出版),采用汉字作为汉语汇编语言和程序设计语言的基本指令,其汉字指令的键盘输入就比较困难。改成音节字符指令,难度就大为减小。
DOS命令行的字符指令可以使用图形界面操作替代,但语音指令是一维线性的与图形界面难以融合,难以替代.所以一维的汉语操作界面还有一定的使用价值。
采用符合“汉语音节指令规范”的汉语语音及其音节字符和相应的汉字字符指令,使汉语的语音和文字两种媒介信息的指令相互统一。使用一种指令实现的操作,使用另外两种指令也有效。汉语的初学者使用音节字符指令,一般人使用汉字字符指令,两者都能使用汉语语音指令,易于普及和推广。
14.汉语输入处理系统:
把汉语信息的键盘输入与汉语语音识别输入结合起来,可以交替地使用键盘或话筒输入汉语音节符号或汉字词语。其中,汉语语音音节的识别输入和音节符号的键盘输入相互等效,汉字词语的键盘编码输入和依据整音节汉字词语编码读入的汉字词语识别输入相等效。
图16中,由声音输入设备1输入声音信号,用声卡2转换为语音数据,再由语音识别输入软件5识别出汉字代码,组成现有的汉语语音识别输入系统,其实质总是包含汉语音节的识别输入和音节-汉字转换两个环节。由于不能直接接收键盘输入的汉语音节符号,所以难以结合成一个整体。
图17中,分离出独立的音节/汉字转换软件19,可以同时或分别交替地处理来自键盘输入处理软件8和语音识别输入软件5的汉语音节符号,使汉语语音识别输入和汉语信息的键盘输入相互统一,构成完整的汉语输入系统。
以汉语键盘输入为主,语音音节识别输入为辅,使用相同的音节符号及其代码,在同一个输入窗口或输入编辑区内进行输入处理。例如,输入“zhōnghuárénmíngònghé guó”,可以分别或交替地使用汉语键盘和汉语语音音节识别输入。
把汉字词语的键盘编码输入,应用于汉字词语的语音识别输入,能够提高语音识别输入的准确性和实用性。尤其是直接使用语音识别输入难以正确识别的单字词,不常用的汉字和不认识的汉字,可以把单字拆成两个或两个以上的音节读入。例如输入″汉斯″两个字,因为不是通用词,只能按单字输入,用语音识别按读音很难正确输入,可以使用键盘输入的拆字方法拆成“shuěi ò u”读入“汉”字,“qī jīn”读入“斯”字。
实施本项发明,在DOS环境下把语音识别输入的音节或汉字转换为音节符号或汉字字符,与键盘输入相互融合即可。由于语音识别对系统的要求较高,因此DOS下的语音识别一般采用较多的硬件支持,目前还没有统一的规范。
这类输入方法能够有选择的充分利用键盘输入的准确性,以及语音识别输入的简单方便性,使两者合而为一,在音节输入的层次上相互统一,优势互补。
15.汉语图形操作界面:
在图形操作界面的基础上增加上述命令行方式的汉语语音指令及其音节字符指令和相应的汉字指令操作和应用计算机,构成汉语图形操作界面。
现有的图形操作界面,虽然定义了各种形式的键盘操作快捷键,但与命令行的字符指令不同,都包含控制键,实际是用键盘直接操作。由于语音操作的逐渐介入,必须定义适当的语音指令。
Dutty++所实现的语音控制,和键盘输入的字符指令没有关联,因此不能实现键盘和语音指令的相互补偿和相互替代。以字符的键盘输入为基础,支持符合规范的音节字符指令和相应的汉字指令,就能实现汉语语音及其音节字符和相应汉字字符的指令操作。
在字符编辑状态使用汉语键盘,必须区别字符和字符指令两种输入状态:字符指令可以用回车键或“Tab”键等确认键输入,否则输入的就是字符。使用语音识别输入方式,需要区分语音指令识别输入和语音字符识别输入两个状态,可以用鼠标操作设置,或者用键盘输入操作设置,也可以直接使用语音指令设置,例如使用“打开语音控制”和“关闭语音控制”的语音指令,但其相应字符的识别输入必须与此相区别。
在Windows95中文版的图形操作界面上,利用键盘输入程序创建汉语操作界面,使用符合“汉语音节指令规范”的汉语音节字符指令,使汉语语音识别输入操作,汉语音节字符的键盘输入操作,汉字字符的键盘输入操作,在汉语音节的层次上通过汉语键盘输入程序相互统一。依据其汉字编码键盘输入程序的设计规范,以及本发明第1项的汉语音节符号输入方法,利用前述的双向音节-汉字对照词库进行相互变换,使用音节符号指令与汉语语音识别输入程序等应用程序相联接,就能够编制出符合标准IME格式的汉语键盘输入程序。
例如,用键盘或语音识别输入“GuānJī”的汉语语音指令及其音节字符指令或相应的汉字字符指令“关机”,计算机经过必要的提示和确认即查找相应的指令操作程序完成其操作而把计算机的电源切断。其中“关机”指令通过汉字/音节转换程序转换为音节字符指令,再查找并执行相应的应用程序。
16.汉语信息的键盘输入与汉语语音合成输出的结合:
汉语键盘输入的汉语音节符号或汉字词语,都具有读音的信息,可以使用语音合成输出程序输出语音,从而实现键盘输入的动态语音校对,不需要观看显示器即可判断当前的输入是否正确,从而把视线集中到打字的文稿上,提高打字速度和准确度。
语音合成输出包含汉字-音节转换和音节合成输出两个部分,现有技术通常忽略中间的音节,只采用音节代码而没有可读的音节符号,使音节的键盘输入和音节的合成输出难以融合。图17中,分离出独立的汉字/音节转换软件20,使语音合成输出软件6能够接收汉语键盘输入的音节符号而直接输出汉语语音,从而介入键盘输入过程。
在整音节汉字词语编码输入过程中,键盘的音节输入直接用语音合成输出,就可以进行语音校对,从而代替利用显示器的视力校对。例如,输入单字“国”,只要在键盘输入过程中同步地用语音合成输出“wéiyǜ”2个音节的声音,就能判断键盘输入是正确无误的,不再需要观看显示结果了。
汉语音节的键盘输入是本发明的基础,汉字词语的输入是通过汉语音节的输入实现的,所以,汉语音节的语音合成输出校对对于汉字词语的输入很有意义,不但在汉字输入之后能够进行校对,在汉字输入过程中也能进行校对,从而提高汉字输入的精确性,减少输入中观看显示器的次数,降低工作强度。
17.汉语处理系统:
把汉语信息的键盘输入,汉语语音识别输入和语音合成输出综合起来,使汉语音节符号和汉字词语在音节的层次上相互统一,构成完整的汉语处理系统,能够处理属于文字和声音两种不同媒介的汉语信息。
由于汉语信息=汉字信息+音节信息,所以汉语处理系统=汉字处理系统+音节处理系统。其中音节处理系统主要处理音节字符,包括汉语语音识别输入和语音合成输出,音节字符的键盘输入,手写体或印刷体识别输入,显示输出和打印输出等。由于汉语音节及其音节字符只有1300对,与汉字字符相互兼容,使两种字符的信息处理合而为一,所以其信息处理大为简化。
汉语语音声音信号的识别输入,把音节字符作为中间识别结果,与键盘输入使用相同的音节-汉字转换软件转换为汉字,从而简化系统开销,避免重复处理。
汉语语音合成输出,一改传统的汉字到语音的直接转换方式,利用汉字/音节转换软件把汉字转换为音节字符,然后再调用声音数据输出语音信号。这样,不管是音节文本,还是汉字文本,都能用语音合成输出。
图16是现有汉字处理系统的结构框图,处理的主要对象是汉字字符和英文字符。在公知的计算机基本硬件和汉字操作系统软件10的基础上:
声音输入设备1,声卡2上的模数/转换器和语音识别输入软件5构成的汉语语音识别输入系统,以及语音合成输出软件6,声卡2上的数字/模拟转换器,及声音输出设备3构成的汉语语音合成输出系统,其处理对象均是汉字字符和常规汉语音节符号,所用的汉语音节代码通常是过渡性临时代码,不能显示和识读。通用键盘装置4和键盘输入处理软件8构成的汉字键盘输入系统,显示输出处理软件9和显示输出设备7构成的汉字显示输出处理系统,图形扫描输入设备11和图形字符处理软件12构成的图形和汉字输入处理系统,打印输出处理软件13和打印机类输出设备14构成的图形及字符打印输出处理系统等,都是以汉字为主要的输入对象和输出结果,均不包含与汉字字符地位相等同的汉语音节字符的输入和输出处理;
图17是汉语处理系统的结构框图,是在图16的汉字处理系统基础上,使用汉语键盘输入汉语信息,增加与汉字字符相互兼容并且字节数相等的汉语音节字符及其代码的输入,输出及其变换处理。其中,声音输入设备1,声卡2上的模/数转换器和汉语语音识别输入软件5构成汉语语音识别输入系统;汉语语音合成输出软件6,声卡2上的数字/模拟转换器及声音输出设备3构成汉语语音合成输出系统;通用键盘装置4,键盘输入处理软件8和音节/汉字转换软件21构成汉语键盘输入处理系统;显示输出处理软件9和显示输出设备7构成图形和字符显示输出处理系统;图形扫描输入设备11和图形字符处理软件12构成图形和字符输入处理系统;打印输出处理软件13和打印机类输出设备14构成图形及字符打印输出处理系统;都是以汉语音节及其音节符号和汉字词语为主要的输入对象和输出结果。
图17与图16相比,增加独立的音节/汉字转换软件21,除处理来自语音识别输入软件5的汉字字符和音节字符外,还处理来自键盘输入处理软件8的音节字符;还增加独立的汉字/音节转换软件22,把来自于系统软件10和音节/汉字转换软件21的汉字直接转换为汉语音节字符或其它汉语音节符号,使语音合成输出软件只需处理音节符号,并且可以直接把键盘输入处理软件8和语音识别输入软件5输入的音节符号转换为语音信号输出,简化原有的汉字处理环节。
为了向下兼容,图17中可以选用包含音节/汉字转换过程的语音识别输入软件5,和包含汉字/音节转换过程的语音合成输出软件6.能够充分发挥图17汉语处理系统整体效率的方案则是使语音识别输入软件5不包含音节/汉字转换过程,而语音合成输出软件6则不包含汉字/音节转换过程。
汉语音节字符和汉字符号的相互变换处理,是汉语信息处理的一个关键环节,也是一个难点,难就难在汉语的口语和书面语的差别上。
汉语的语言和文字是同一语言的不同表现形式,其共性多于个性。每个汉字都有明确的读音,每个语音音节都有相应的汉字。不考虑字形的差别,只要是无重码的非单字词,两者就是等同的,可以一一对应和互换。单字词的差别就明显了,一音多字,一字多音比较普遍。因此,无重码的非单字词是汉语的语言和文字两种信息的交集,也是能够近似表达相同汉语意义的关键所在,可以称作“规范汉语”,与之对应的称作“不规范汉语”,两者的分界线就是“无重码的非单字词”,两者的组合就是汉语的全集。应用智能处理技术,“规范汉语”会越来越大,最终成为汉语全集。
汉语的双音化趋势使“规范汉语”的集合越来越大,而“不规范汉语”的集合越来越小。如果用汉语音节字符代表其所有的同音单字词,“规范汉语”与“不规范汉语”就合而为一了。就是说,音节字符也是一种汉字,其字义是同音字意义的总和。
使用“规范汉语”,更便于汉语尤其是口语的交流和理解,而且足以应付常规的汉语信息处理需要。因此其用途很广。
只有不加修改地处理现有的文字资料时,才需要使用“不规范汉语”,通常是专业打字员的工作;如果自己用计算机写文章,可以只使用“规范汉语”而回避“不规范汉语”;至于操作计算机,使用“规范汉语”已经足够了
可以用音节符号记录汉语口语,用空格分词。最小的语言表达单位,一般语言是词,汉语则是音节。汉字组词的属性是隐含的,但也是分词的,因为多音字在词中的读音却是明确的,只是汉语书面语没有分词断空的习惯。
用汉语音节符号分词表达,就是汉语的表音文字,是汉字改革的一个方向,适合汉语的初学者使用,是汉语教学的第一个学习内容。如果配合汉语音节自动分词技术,可以不需要人工分词,接近汉语口语的自然表达方式。
汉语音节的自动分词方法是:把具有分词标记的音节词和词组,按照一定的顺序如音序排列即构成音节词库,再增加分词知识库进行分词或组词:把词或词组的音节之间,用空格等分词标记分开;或者把组词的音节用组词标记如联字符号“-”等联接;对于具有分隔标记的音节串,在词或词组之间去除分隔标记。由于音节词库总是有限的,并且不断地增加新词,所以,对于具有分隔标记的音节串比较容易分词,词库中没有的词,音节之间保持分离状态。
符合“规范汉语”的音节文本和汉字文本的差别在于字形,利用音节-汉字双向词库就能相互变换。所述词库需要分词标记,或组词标记,音节词或汉字词分别按照相同的次序对等排列,还可单独用于汉语音节或汉字字符的自动分词。
不符合“规范汉语”的音节文本和汉字文本,其相互变换处理的难度大得多,除需要规范的音节-汉字词库的支持外,还需要智能转换知识库的支持。
必须指出,世界逐渐走向同一,汉字中夹杂一些英文字符已经习已为常,夹杂本民族的汉语音节字符也理所当然。本发明使汉语音节字符具有汉字一样的语言表达地位,是音节符号与汉字夹杂使用的一个基础。
把汉语信息键盘输入,汉语语音识别输入,汉语语音合成输出综合起来,把原有的键盘输入和语音识别输入以及音节文本到汉字文本转换的音节-汉字转换模块,以及原有的语音合成输出和汉字文本到音节文本的汉字-音节转换模块分离出来公用,从而组成汉语处理系统。其系统构成建立在前述各个分项技术基础之上,前述一些实施例的汇总就是本项技术的综合实施例:采用图1所示类型的汉语键盘,表4所示的汉语音节字符及其代码,本发明第1项的汉语音节符号输入技术实施例,第4项的汉字词语整音节编码输入技术实施例,第8项的智能转换,字词编码和动态造词相结合的汉字词语输入技术实施例,第9项汉语输入处理系统实施例,第10项汉语信息的键盘输入与汉语语音合成输出的结合实施例,就构成一个汉语处理系统实施例。
由于本发明确立出适应信息时代的汉语音节的分解和组合规则,设计出最能表现汉语特色的汉语音节字符,兼容汉字字符,使汉语语音及其音节符号和汉字词语的信息处理在音节的层次上相互统一,构成汉语计算机的基本符号体系,使具备汉语拼音基础知识的人就能使用计算机,而无需掌握足够多的汉字知识,使学习计算机的年龄由通常小学毕业以后提前为小学一年级以后。由此可以建立具有民族特色并且直接与汉语语音系统相互兼容的汉语处理系统,推进计算机的汉语应用和普及。
附图说明:
图1-图15是本发明设计的15种类型的汉语键盘图。每个键盘图上,除标注英文键盘的符号外,还标注与英文符号不同的汉语拼音形式的声介母,带调韵母和带调介母。其中声介母的第一个字母大写,以便与英文字符相适应,相应的音节符号也要大写,突出汉语的单音节特性。
       表1:简化拼音,汉语拼音和注音符号的声介母对照表
       表2:简化拼音,汉语拼音和注音符号的带调韵母对照表
Figure A9910811900172
       表3:汉语音节的两元分解和两元组合表
Figure A9910811900181
       表4:汉语音节字符及其代码和代音汉字
Figure A9910811900191
       表4:汉语音节字符及其代码和代音汉字(续1)
Figure A9910811900201
       表4:汉语音节字符及其代码和代音汉字(续2)
Figure A9910811900211
       表5:简化汉语音节字符
Figure A9910811900221
       表6  常用字根
                         续表6
Figure A9910811900241
                   续表6

Claims (17)

1.一种属于计算机键盘输入处理技术领域的汉语键盘输入系统及其应用技术,利用公知的各种类型计算机硬件设备及其软件系统,使用键盘输入软件,把汉语音节和汉字词语等汉语信息分解为声介母和带调韵母或声介母和带调介母,标记或映射在计算机键盘上,敲击相应的输入健位,实现汉语信息的键盘输入;本发明其特征是:
(1).所述声介母为b,p,m,f,d,t,n,l,g,k,h,zh,ch,sh,r,z,c,s,零声母计19个零介声介母;bi,pi,mi,di,ti,ni,li,ji,qi,xi,zhi,chi,shi,ri,zi,ci,si,y计18个i介声介母;bu,pu,mu,fu,du,tu,nu,lu,gu,ku,hu,zhu,chu,shu,ru,zu,cu,su,w计19个u介声介母;ju,qu,xu,yu,nü,lü计6个ü介声介母;所述带调韵母为ā,á,ǎ,à,ā i,ái,ǎi,ài,ān,án,ǎn,àn,āng,áng,ǎng,àng,āo,áo,ǎo,ào,ē,é,ě,è,ēi,éi,ěi,èi,ēn,én,ěn,èn,ēng,éng,ěng,èng,ér,ěr,èr,ō,ó,ǒ,ò,ōng,óng,ǒng,òng,ōu,óu,ǒu,òu;所述带调介母为ī,í,ǐ,ì,ū,ú,ǔ,ù,ǖ,ǘ,ǚ,ǜ;
(2).带调介母只能和含有相同介母的声介母组成音节,零介、i介、u介和ü介声介母分别和带调韵母连读即可组成相应的汉语音节;
(3)所述声介母,带调韵母和带调介母,分别标记或映射在计算机键盘的字符键上,从而组成图1,图2,图3,图4,图5,图6,图7,图8,图9,图10,图11,图12,图13,图14或图15所示类型的汉语键盘;
(4)首次击键输入声介母,再次击键输入带调介母或带调韵母,击键两次即可输入一对字符组成的汉语音节代码,补加空格等分隔标记即可代表一个汉语音节;或者直接转换成注音符号,简化的注音符号,汉语拼音符号,简化的汉语拼音符号,代音汉字,与汉字字符及其代码相互兼容并且字节数相等的汉语音节字符及其代码等任意一种汉语音节符号。
2.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:所述汉语键盘输入的任意一种汉语音节符号,根据输入需要可同步转换为同音同义的其它汉语音节符号。
3.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:首次输入汉字读音的声介母,再次输入汉字读音的带调介母或带调韵母,击键两次即可输入一组同音汉字,按照一定的顺序排列选择输入。
4.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:所输入的汉语信息是单个汉字、词和词组,最大输入码长为4,在所述汉语键盘的输入键位上,声介母补加空格输入一级简码单字词,每个汉语音节补加空格输入二级简码单字词,双字词或两个字根组成的汉字按其读音直接输入,三字词或三个字根组成的汉字依次按其读音的声介母补加空格或补加第3个读音的带调韵母输入,四字及四字以上词和词组或四个和四个以上字根组成的汉字分别取第1、2、3及最后一个读音的声介母输入。
5.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:不限定最大输入码长,每个汉语音节补加空格输入简码单字词,两字及两字以上的词和词组按其读音的音节依次输入,补加空格结束,单字拆成两个或两个以上的字根,也按其读音的汉语音节依次输入,补加空格结束。
6.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:最大输入码长为4,使用双字词读音的两个音节输入双字词的第一个字,补加空格再输入双字词的第二个字。
7.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:输入简体汉字或繁体汉字,使用简体-繁体或繁体-简体转换程序,同步地转换为同音同义的繁体汉字或简体汉字。
8.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:输入任意一种代码体系的汉字,使用相互转换程序,同步地转换为同音同义的其它代码体系的汉字。
9.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:输入汉字词语,使用汉字/读音转换程序,同步地转换为汉语音节符号。
10.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:连续输入汉字语句读音的汉语音节符号,使用音节-汉字智能转换程序转换为汉字。
11.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:对于通用汉字词语组成的短语,连续输入其读音的汉语音节符号,直至出现非通用的人名,地名,单位名,不常用和不认识的汉字等不能正确智能转换的汉字,先输入字符“\”等状态转换标记完成当前短语的输入,利用相应的音节-汉字智能转换程序把此前输入的音节符号转换为汉字,并切换为一个且仅限于一个汉字词语的编码输入状态,用汉字编码输入法输入汉字。
12.按照权利要求11所述的汉语键盘输入系统及其应用技术,其特征是:利用汉字编码输入的连续两个或两个以上的汉字,自动生成新词及其输入编码,再次出现时可以使用词的编码输入,或使用其读音的汉语音节符号智能转换输入。
13.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:采用命令行方式的汉语语音及其音节符号指令和相应的汉字指令操作计算机,使汉语语音指令及其音节符号指令和汉字指令在音节层次上相互统一,构成汉语操作界面。
14.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:把汉语信息的键盘输入与汉语语音识别输入结合起来,可以交替地使用键盘或话筒输入汉语音节符号或汉字词语,构成汉语输入系统。
15.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:在图形界面的基础上增加命令行方式的汉语语音指令及其音节符号指令和相应的汉字指令操作和应用计算机,构成汉语图形操作界面。
16.按照权利要求1所述的汉语键盘输入系统及其应用技术,其特征是:使用相同的汉语音节符号及其代码,把汉语键盘输入的汉语音节直接用汉语语音合成输出,汉字则通过汉字-音节转换程序转换为音节符号再进行语音合成输出。
17.按照权利要求15和权利要求16所述的汉语键盘输入系统及其应用技术,其特征是:使用相同的汉语音节符号及其代码,把汉语信息的键盘输入,汉语语音识别输入和语音合成输出综合起来,使汉语音节及其音节符号和汉字词语的信息处理在音节的层次上相互统一,构成汉语信息处理系统。
CN 99108119 1999-05-30 1999-05-30 汉语键盘输入系统及其应用技术 Pending CN1275732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 99108119 CN1275732A (zh) 1999-05-30 1999-05-30 汉语键盘输入系统及其应用技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 99108119 CN1275732A (zh) 1999-05-30 1999-05-30 汉语键盘输入系统及其应用技术

Publications (1)

Publication Number Publication Date
CN1275732A true CN1275732A (zh) 2000-12-06

Family

ID=5273140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 99108119 Pending CN1275732A (zh) 1999-05-30 1999-05-30 汉语键盘输入系统及其应用技术

Country Status (1)

Country Link
CN (1) CN1275732A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104262A1 (fr) * 2006-03-15 2007-09-20 Chen Liang Procede de saisie d'informations au moyen de lettres phonetiques chinoises
CN109858290A (zh) * 2019-01-15 2019-06-07 招银云创(深圳)信息技术有限公司 密码输入方法、装置、计算机设备和存储介质
CN110140101A (zh) * 2017-01-19 2019-08-16 梁晨 大小键盘声介调韵音串集输入法
CN110716654A (zh) * 2019-09-30 2020-01-21 韦松波 一种汉字输入法、语音合成方法、汉语普通话学习方法、汉字输入系统及键盘

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104262A1 (fr) * 2006-03-15 2007-09-20 Chen Liang Procede de saisie d'informations au moyen de lettres phonetiques chinoises
CN101310244B (zh) * 2006-03-15 2012-02-29 厦门华键信息技术有限公司 一种基于汉语音母的信息输入方法
CN110140101A (zh) * 2017-01-19 2019-08-16 梁晨 大小键盘声介调韵音串集输入法
CN109858290A (zh) * 2019-01-15 2019-06-07 招银云创(深圳)信息技术有限公司 密码输入方法、装置、计算机设备和存储介质
CN109858290B (zh) * 2019-01-15 2021-04-20 招银云创信息技术有限公司 密码输入方法、装置、计算机设备和存储介质
CN110716654A (zh) * 2019-09-30 2020-01-21 韦松波 一种汉字输入法、语音合成方法、汉语普通话学习方法、汉字输入系统及键盘
CN110716654B (zh) * 2019-09-30 2024-04-02 韦松波 一种汉字输入法、语音合成方法、汉字输入系统

Similar Documents

Publication Publication Date Title
CN1279426C (zh) 去多义性的简化键盘系统
CN1205573C (zh) 用于同步合成,显示及处理文本和图象文件的方法和设备
CN1218233C (zh) 依据歧异编码及方法而设计的可键入装置
CN1648828A (zh) 去多义性语音输入系统和方法
CN1040276A (zh) 简繁字根汉字输入技术及其键盘
CN1387639A (zh) 语言输入用户界面
CN101008864A (zh) 一种数字键盘多功能、多语种输入系统和方法
CN1577229A (zh) 输入音符串进入计算机及文句生产方法及其计算机与媒体
CN1586066A (zh) 在按键上输入字母字符的装置和方法
CN1280748C (zh) 使用计算机键入字母表中字母的方法
CN1694049A (zh) 一种基于五键的汉字输入系统
CN1896923A (zh) 英语巴蜀杆栏式汉字化词型翻译中间文本计算机输入方法
CN1275732A (zh) 汉语键盘输入系统及其应用技术
CN1048343C (zh) 自由组合码汉字输入方法及键盘
CN1241101C (zh) 一种基于汉语音节双读方案的信息输入方法
CN1258037A (zh) 中文键盘及汉字语音码输入方法
CN1472626A (zh) 嵌入式智能文字输入解决方法和装置
CN1045021C (zh) 中文数码电脑汉字输入法及其键盘
CN1129058C (zh) 仿真拼音汉字输入法
CN1026924C (zh) 汉字析音编码计算机汉字输入方法
CN1220127C (zh) 双分汉字与双分输入法及合成字模
CN1019527B (zh) 字符的图元输入方法及其键盘
CN1123819C (zh) 计算机汉字键位码输入方法
CN85100087A (zh) 《中文声数编码》方案及其实现方法
CN1050913C (zh) 中文部首代码编码输入的文书处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication