发明内容
本发明的目的在于提供一种声韵双拼汉字输入法及其虚拟键盘,用于解决上述汉字信息处理技术中因韵母难记而使双拼输入不能大规模应用的难题,适用于多种输入工具的汉字输入,还具有其它多种用途。
该目的是这样实现的:
一种声韵双拼汉字输入法,破除现用双拼将拼音的声韵母简单地对应到键盘特定键位的常规,将声韵母按传统分类有规律地对应到键盘的30个键位上(26个字母键和“;”、“,”、“.”、“/”4个符号键),使得声韵母、键盘键位和由键位行列序号所组成矩阵表的30组数字构成一张万能转换矩阵表,见表1,便于汉字取得统一化、单一化的声韵码和声韵母的数字化,实现汉字的双拼输入。其特征在于:取“a、y、w、v”分别为“开、齐、合、撮”四类韵母(以“a、o、e”开头的是开口呼韵母,以“i”开头的是齐齿呼韵母,以“u”开头的是合口呼韵母,以“ü”开头的是撮口呼韵母)自成音节时的零声码,取相邻字母“U、I、O”分别为“zh、ch、sh”的声码,其余单字母声母分别取为各自的声码;对于韵母,同类的对应在键盘的同行,介母不同的对应在键盘的同列,如齐齿呼分别取键盘第一行对应键位字母为韵码,开口呼分别取键盘第二行对应键位字母(含“;”)为韵码,合口呼、撮口呼同取键盘第三行对应键位字母(含“,”、“.”、“/”)为韵码;声韵母的数字码分别取其所在键位行列序号组成的两位数字,十位上的数字对应行的序号,个位上的数字对应列的序号。
表1:声韵母万能转换矩阵表
韵母“in、ing、ün”实际分别是“ien、ieng、üen”的略写,所以表1中的“ien=in,ieng=ing,üen=ün”。“iong”属撮口呼(北大《现代汉语》高教版78页),即“iong=üeng”,所以放在“eng”的同列。
统一化是指让每一个汉字都能统一取得“声、韵码”,缺少的统一补齐。拼音的开口呼韵母自成音节时没有声母,本双拼补“a”为其零声码,如音节“en”的双拼码取“A”+“L”,即“al”;拼音的齐齿呼、撮口呼韵母自成音节时,共用“y”为隔音符,本双拼改用“v”为撮口呼的零声码,如音节“üan”的双拼码取“V”+“C”,即“vc”;零声码有“a、y、w、v”四种,表1中“开零、齐零、合零、撮零”分别是取为零声码的简称,都是专符专用,统一不参与韵母的表音。将拼音的“y”分为“y、v”两种,还便于左右手交替操作键盘。
单一化是指声、韵母的声韵码都分别取单一的字符(表1表格左上角的26个字母和4种符号的简称)。取“y”单一做齐齿呼的零声码,取“v”单一做撮口呼的零声码;取单字母“U、I、O”分别做“zh、ch、sh”的声码,其余18个单字母声母分别取为各自的声码,声码共有25个,都是单一的字母。
韵母按汉语传统分类,有规律地分成30组,对应到现用字母大键盘3行10列的30个键位上(26个字母键以及“;”、“,”、“.”、“/”四个符号键),使得每一组韵母按表1对应键位也能取得一个单一字符的韵码。
1、齐齿呼“ia、iou、ian、iang、iao、ie、i、ien、ieng”9个韵母,分别对应在第一行的“Q、W、E、R、T、Y、I、O、P”9个键位上,如“ia”可取“q”为韵码。
2、开口呼“a、ai、an、ang、ao、e、o、ong、ei、en、eng”11个韵母,分别对应在第二行的“A、S、D、F、G、H、J、K、L、;”10个键位上,如“ang”可取“f”为韵码,“e”的韵码取“h”,“o、ong”的韵码同取“j”。仅“ou”例外,取“b”为韵码。
3、合口呼“ua、uai、uan、uang、uo、uei、uen、ueng”8个韵母,分别对应在第三行的“Z、X、C、V、M、,、.、/”8个键位上,如“ueng”可取“/”为韵码。仅韵母“u”仍保留在“U”键上,取“u”为韵码。
4、撮口呼仅有“üan、ü、üe、üen、iong”5个韵母,也分别迭加对应在第三行的“C、V、N、.、/”5个键位上,如“üan”可取“c”为韵码,“ü”取“v”为韵码(沿用了全拼输入法)。
上述单韵母的排列,破除了现用双拼将“e、o”直接对应到“E、O”键位的常规,就使得四类韵母与字母键盘按行建立了对应关系,如齐齿呼在第一行,开口呼在第二行,合口呼、撮口呼都在第三行。其中第二行的开口呼韵母是关键,将“a”开头的“a、ai、an、ang、ao”安排在左边,将“e”开头的“e、ei、en、eng”安排在右边,将“o”开头的“o、ong”插在其中,一旦记住了它们,凡前面有介母“i”的韵母,都在同列的上排;凡前面有介母“u”和“ü”的韵母都在同列的下排。也就是说介母不同的韵母与键位按列建立了对应关系,如“ia、a、ua”,“ian、an、uan、üan”,“ang、uang、iang”……都在键盘的同列。这种按行列排列韵母的规律,能使36个韵母的记忆量减少到现行双拼的四分之一,最大限度地方便了用户。如用户只要记住了左手中指输入“an”的韵码“d”,则“ian”肯定在同列的上排,“uan、üan”肯定在同列的下排,由于都是左中指输入,上下排的键位字母“e”和“c”不必死记。
“er”对应在“N”键,与“e”对应在“H”键,也存在列对应关系。
数字化是指按表1所示,将声韵母与键位数字矩阵表(表1表格的右下角)建立了对应关系,使得声韵母又可按所在键位的行列序号分别取得数字码。如音节“qi”,声母在1行1列,数字码是“11”,韵母在1行8列,数字码是“18”,音节“zhuang”,声母的数字码是“17”,韵母的数字码是“34”,音节“xiong”的数字码是“3230”。
表1中有6组韵母同在一个键位,所取得的韵码和数字码是相同的,如“o、ong”的韵码都是“j”,数字码都是“27”,“ueng、iong”的韵码都是“/”,数字码都是“30”。由于同键韵母不会与同一声母构成音节(“咯”例外,发“lo”音时,“o、ong”能与“l”构音节),所以不会因此增加重码。
综上所述,本发明按行列对应关系取得声韵编码,巧妙地解决了现用双拼的缺点和难点,实现了记忆量的最小化,如能普及使用,将产生巨大的社会效益和经济效益。
具体实施方式
一、字母大键盘上的双拼输入
1、一级简码字(共25个,“e”键留作简码输入词组用)
编码流程:声码+空格键
汉字:啊不从的发国和出几看了没能是平去人所他这用我小有在
声码:A B C D F G H I J K L M N O P Q R S T U V W X Y Z
2、其余汉字
编码流程:声码+韵码
汉字:把骗明风地庄成上要物爱欧鹅已五鱼
声母:B P M F D zh ch sh Y W Y W Y
韵母:a ian ing eng i uang eng ang iao u ai ou e i u ü
双拼:ba pe mp f;di uv i;of yt wu as ab ah yi wu vv
输入声韵码后,提示行的首字打空格键上屏,其余重码字,按相应数字键上屏。
整句输入时,提示行的首字无需按空格键,重码字也无需按数字键选择,可继续输入后面单字的声韵码,本发明的智能识别程序会根据前后文的情况,帮助选择合适的重码字,识别率约为96%。整句话输入完,显示在提示行的第一行中,按空格键上屏(或按逗号、句号、顿号、分号、单双引号,该句子连同标点上屏)。例如:输入“他正高高兴兴地上学去。”,声韵编码是“t◇u;ggggxpxpdiofxnq◇”。其中“他、去”是一简字,输入声码加空格;“正”的声韵码是“u ;”,“高高兴兴地”的声韵码是“ggggxpxpdi”,“上学”的声韵码是“ofxn”,输入每字声韵码后,都出现多个重码字,不选重码,整句输入完后,智能识别程序全部正确识别,再按“.”键,整句话连同“。”上屛。
如果整句中有某一错字,即智能识别没有正确选择重码字,可用鼠标点击提示行中的该错字,则提示行的第二行又重复提示多个重码字,按相应数字键选择,后按空格键,整句话上屏。
3、标点符号
本发明程序自动识别:奇数次输入“,”、“.”、“;”、“/”键,是中文的逗号、句号、分号、顿号直接上屏;偶数次输入它们,分别是作为韵码输入。其它标点符号输入与全拼相同。
3、常用多字词组的简拼输入
“e”是简拼词组与双拼单字的分界。本发明程序自动识别:奇数次输入“e”是检索词组,偶数次输入它,是作为“ian”的韵码输入。
三字词编码流程:e+首字声码+第二字声码+第三字声、韵码
多字词编码流程:e+首字声码+第二字声码+第三字声码+第四字声码
词组:安徽省高高兴兴中国共产党中华人民共和国
编码:eaho;eggxx euggi euhrm
词组都是五键输入(二字词没有设计简拼输入)。输入编码后,若没有重码,词组直接上屏,有重码时,数字键选择。
4、整句智能双拼简拼混合输入
“他正高高兴兴地上学去。”,其中“高高兴兴”是常用词组,若用“eggxx”简拼输入,还能减少击键次数,整句混合输入的编码是“t◇u;eggxxdiofxnq◇.”,平均每字1.67键,因此本双拼可大幅提高输入效率。
二、鼠标在虚拟软键盘上的双拼输入
用户选用本发明输入时,只要用鼠标点击其图标上的软键盘标志,表1就以虚拟软键盘形式显示在屏幕上。用户可用鼠标直接点击其上的声、韵母输入汉字;也可借助软键盘的提示,用手指击键,做到无需记忆声韵母就能输入汉字;会计行业的用户,数字输入量大,习惯用数字小键盘,可借助软键盘提示,切换输入状态用数字码输入汉字,既方便又无需记忆。软键盘可开可关,开关键用“Esc”键。
三、手机键盘上的双拼输入
在印有字母、数字的小键盘上,声韵母的数字码均可按表1转换的数字码输入汉字。
手机的用户量特大,为了直观地无需记忆地输入汉字,还可按表2印刷数字键盘,按大写字母提示声母、小写字母提示韵母的规则取得声韵母的数字码,见下表。
表2:手机输入键盘
1、声母的数字码:所在键位数+键位排序数
如“ABC”都在“2”键上,A所在键位数是“2”,键位排序数是“1”,则A的数字码为“21”,同理B的数字码为22,C的数字码为23,再如“WXYZ”都在“9”键上,W的数字码为91,X的数字码为92,Y的数字码为93,Z的数字码为94。零声母自成音节仍然用“A、Y、W、V”做声码,它们的数字码分别为“21、93、91、83”;卷舌声母“zh、ch、sh”的声码仍然是“U、I、O”,数字码分别为“82、43、63”。
2、韵母的数字码:所在行序数+所在键位数
如“i”在键面的第一行,行序数是“1”,所在键位数字是“8”,其数字码为“18”,“ei”在键面的第二行,行序数是“2”,所在键位数字是“8”,其数字码为“28”,同理“uei”的数字码为“38”。韵母按表2所得的数字码与表1转换的数字码是完全相同的。
汉字的数字编码举例:
汉字:把骗明风地庄成上
声码:B P M F D U I O
韵母:a ian ing eng i uang eng ang
数码:2221 7113 6110 3320 3118 8234 4320 6324
汉字:要物爱欧鹅已五鱼
声码:Y W A A A Y W V
韵母:iao u ai ou e i u ü
数字:9315 9117 2122 2135 2126 9318 9117 8334
本发明的拓展应用
一、用于汉语字词典的排序与检索
将汉字都按表1的对应关系编“声韵码”,再按音调“阴、阳、上、去、轻”分别编“1、2、3、4、0”的数字调码,则所有汉字都有了“声韵调”编码。多音字有几种发音就编几种编码,如“要”,就有“yt1”和“yt4”两种编码,“会”有“h,1”和“kx4”两种编码。
将2字词按“声韵+声韵”编码,3字词按“声+声+声韵”编码,4字与多字词按“前四字声码”编码,则汉语的词就有了4位字符编码。
将字词典的字词按上述编码排序印刷,将表1印刷在检索说明书的前页,则汉语的字词典就有了统一的字符排序,能简单而快速地按字符码检索字词。
将字词的声韵码都按表1的对应关系全部转换为数字码,音调的数字码放在其后,则汉字又有了“声韵调”的5位数码,词组则由4位字符码全部转换为8位数字码。全部字词按数字码排序印刷,中文的字词又能直接按数字编码去检索。
举例:
字词:要物欧鱼字典人民币狐假虎威中华人民共和国
编码:yt4 wu4 ab1 vv2 zide rmbi hjhw uhrm
数码:16184 12174 21351 34342 31182326 14373518 26272612 17261437
二、用于汉语的双拼注音
现行汉语拼音为汉语教学、普通话推广立下了汗马功劳,它的许多优势使今天的我们受益匪浅,但是它毕竟是上世纪的产物,也存在某些不足,不便于学习、掌握和使用。
1、韵母自成音节时,有的加隔音符,有的不加隔音符;有的隔音符专用,有的却共用。
2、隔音符有的发音,有的不发音。如ying、wu、yue等的y和w都不发音,但ya、yang等的y发i音,wa、wang等的w发u音。
3、韵母一音多形,如“忧:iou/you/iu、威:uei/ui/wei、温:uen/wen/un、汪:uang/wang、冤:üan/uan/yuan、晕:ün/un/yun”等。
4、声调标注规则多,如:a母出现a上标,没有a母找o、e;i、u并列标在后,i上标调把点抹;单个韵母头上画,轻声上面不标调。
5、拼音绝大多数使用字母串表示汉语的一个音节,多至5~6个字母,显得复杂、拖拉;在少儿读物中,为保持汉字与音节等宽,字间不得不留有多个空格,造成大量浪费。
6、已经有越来越多的教师认识到,汉语按音素教学,不利于语音的学习和掌握,而按声韵双拼教学,学生学得快、记得牢、发音准。如“庄”的拼音无论是用“zh、u、a、ng”4音素合拼,还是按“zh、u、ang”三拼,都不如用“zh、uang”的双拼易教易学。
现代化学既能分解出分子式中的每一种元素,又能逆向将元素合成出分子式所表示的化合物。欧美语音学家,仿化学理论创立了国际音标体系,虽然能将世界各民族的语音用音素符号表示,但是无论他们如何努力,所用仪器如何先进,至今却无法逆向将音素合成出准确的语音,合成的音节总是与实际语音有差别,即音节分得过细反而不利于合成,这或许是声韵双拼比音素合拼易学的原因。
拼音也应与时俱进,方能更好地为中文、汉语服务。若使用本双拼为汉字注音,能化解现行拼音中的缺点和难点,明晰汉语的发音特点,节约学习时间,增强学用效果。它的音节都用两个字符构成,声韵符都是半角字符,注音时能确保与汉字等宽,节省少儿读物中汉字间的许多空格,节约庞大的印刷费用。解放初期,之所以停用《注音符号》而改用《汉语拼音方案》,拉丁字母便于机械化处理是当时最重要的原因。历史辩证地看待问题,当时的举措无可厚非。然而,在计算机已经大量普及、世界上各民族的文字都能简单而快速地实行机械化、电子化处理的今天,尤其是朝韩使用谚文字母拼写本民族的语言,圈有圈的发音,块有块的读法,使谚文比使用拉丁字母的德文、英文、法文好学得多,一举成为世界上最容易学习和使用的文字,所以现代人再抱着唯拉丁字母独尊的观点就有点过时甚至是迂腐了。
下面说明本双拼注音“声、韵、调”符号的设置。
1、本注音声符的设置
将“a、y、w、v”分别设为“开口呼、齐齿呼、合口呼、撮口呼”自成音节时的零声符,将
分别设为“zh、ch、sh”的声符,18个单字母声母仍设为各自的声符,使得汉语的全部音节都有了声符,声符共有25个。
2、本注音韵符的设置
遵循“只有民族的才是世界的”格言,本发明设置了36个中文韵符,见表3。
表3:韵母与韵符对照表
开口呼中的“a、e、o”按汉字笔画写,就分别是韵符“
口”;“ai”取“开”的简化形
为韵符,开的韵母是“ai”;“厂”原本就有“an”的读音;韵符
近似方形,“方”的韵母是“ang”;韵符
取“凹”形,“凹”的韵母是“ao”;
取“飞”的简化形,“飞”的韵母是“ei”;“人”的韵母是“en”;“eng、ou”的韵符取自老注音符号“ㄥ、ㄡ”;“工”的韵母是“ong”。“i、u、
”单独做韵母时,韵符分别为“丨、ㄩ、v”,做介母时,分别浓缩为“丶、一、
”刀添加在韵符中。
只要熟悉了表3中排的11个开口呼韵符,在其中加上“丶”的都是齐齿呼韵符,在其下加了“一”的都是合口呼韵符,在左下加了
的都是撮口呼韵符。这种举措使得汉语的韵符既能用单一字符表示,又能使韵母的分类有明晰的标致,规律性极强,便于人们的“学、写、记、用”。表4是按汉语传统分类将韵母、注音符号、韵符的对应关系列出。
表4:韵母、注音符号、韵符对应表
3、本注音调符的设置
汉字有5种音调,对前4种略作修改,轻声音调增加一个符号,使得5个音调都有了各自的调符,新调符都是一笔写成,一律标在韵符的上面,特别简单易学。新老调符对应关系见表5。
表5:新老调符对应表
用拼音、注音、双拼为汉字注音举例:
本双拼注音需要一个补充显示子程序,并在字符库中增补44个半角注音符号(3个声符,36个韵符,5个调符),通过互联网免费为电脑用户添加这些符号(像更新病毒库那样去自动完成),即可方便地使用本双拼符号为汉字注音。
三、用于升华形声汉字
汉字系统中90%以上的是形声字,其表音用的声旁,如今已严重失职。
声旁称职的有“湖樟鲥”等,在普通话中,能准确注音的声旁仅占少数;
声旁谐音的有“讧恤墅”等,它们极易使初学者读白字;
声旁简化的有“鸡柜沈”等,它们已变成死记硬背的符号,不起注音作用;
声旁偏僻的有“蘩蘻虆藄”等,它们本身是生僻字,难起注音作用;
声旁省写的有“嶨壆澩燢”等,声旁都是“學”的省写,难起注音作用;
声旁藏匿的有“寰條衮嬴”等,声旁不易识别,难起注音作用;
声旁怪异的有“栽游襄”等,声旁的形与音在《新华字典》中都查不到;
形、声难辨的有“祋笃”等,“殳马”是形旁,“礻”才是声旁,难识别;
层层加码的有“甫、浦、溥、薄、礴”等,前一个字都是后一个字的声旁。
形声字的声旁时而略写、时而变形、时而藏匿、时而怪异,位置飘忽无定,读音与现代语音差距很大,也就是说大多数声旁丧失了准确注音的作用。而形声字数量庞大,仅在通用字中就有7000多个,必然造成汉字系统的形音严重脱节。再加上声旁本身的数量就多,又没有统一化、精简化、标准化的符号,任一汉字都可用来做另一汉字的声旁,导致做声旁的汉字和符号的数量至少有1000多个,自然又拖累汉字系统笔画繁多、部件庞杂、形体臃肿,难以信息化。
综上所述,形声字的声旁是汉字系统诸多弊病的罪魁祸首!用统一、精简、标准化的音符替换声旁,是根治汉字系统弊病的最佳手术方案。
本发明的“音符”含声、韵、调三种符号,能准确为汉字注音。其中的声符在普通手写体中,可直接按小写拉丁字母写,因为它们简单、易辨,多数能一笔连写,但在印刷体和手写艺术体中,为了传承汉字的体型美、艺术美,应将声符按汉字的传统,分成笔画书写,也就是说要将其汉化为中文字符,见表6。
表6:声符汉化对应表
汉化后的声符平均含2.2个笔画。由于零声母的韵母自成音节时都能准确表音,为了书写的方便性和字型显示的清晰性,其零声符能全部省略,所以这样的形声字笔画更少。
表3中的韵符和表5中的调符都是中文字符,均可直接沿用到形声字的音符中。含有“声韵调”符号又按中文笔画书写的音符,就可以用于替换形声字中失职的声旁了。
用音符替换形声字声旁举例:
上面6个汉字中,前4个的音符含声韵调符号,后两字省略了声符。
升华后的形声字具有多种优点:
1、约90%的汉字一举升华为“形音义”融为一体的理想文字。表音用的音符含“声韵调”三种信息,能准确注音,而声符和调符基本与拼音相同,人们仅需一两天的自学,重点去掌握11个开口呼韵符,再按加“丶、一、
”的规律熟悉其余25个韵符,则《康熙字典》上升华后的形声字可全部能够认读,保留的形旁还能帮助理解字义。
2、用音符(平均约为5.5笔)替换声旁,能大幅节省书写笔画,如上面的6个形声字,平均每字节省了11笔。
3、新字特别容易信息化:取形旁读音的声母为第一码;取声符为第二码;取韵符为第三码,取调符字型识别码(类似五笔的末笔字型识别码)为第四码,共有21×25×30×25=393750种编码,至少能保证10万个汉字的四键编码不重码。
4、对形声字来说,造字的字理不变,表意用的形旁甚至其位置都保持不变,仅用音符替换其失职的声旁,能全面传承汉字的优势。新字型之所以没有全部按从左到右的一维线性方式排列,是因为近几十年来,已有多位专家学者论证,平面排列的文字在快速阅读时优于线性排列的字母文字。例如用汉字书写的日文比用假名书写的日文易读,再如朝韩使用谚文字母拼合的平面文字已成为世界上最容易学习和使用的文字。汉字系统的升华应尽可能地汲取全人类的文字优势。
形声字升华后,我国的小学生能在两年半内轻松完成汉字的学习,有助于创新能力的提升,自然极有利于教育的改革;还能摘除汉语是最难学习的语言的帽子,便于中文的全球化和信息化。
形声字升华的策略:
1、在升华形声字前,可先将本发明的音符用于汉语的注音教学和汉字输入,在有了广泛的群众基础后再予以实施,便于达到循序渐进,水到渠成的效果。
2、全部保留象形、指事、会意三种汉字(在通用字中约有800个),全部保留经教育部、国家语委批准的《汉语国际教育用音节汉字词汇等级划分》中的一、二级汉字(1800个),由于前者的绝大多数都包含在后者中,所以两者合起来约有2000个。保留的这些字都是高频用字,在现代文本用字中约占98%的高比例;升华的形声字在通用字中虽然有6300多个,但由于它们都不是高频用字,所以在现代文本用字中仅占2%的小比例;这就使得人们看书读报时,阅读障碍极小,即使没有学过本发明音符的群众,通过中文语句上下文的联系和所保留的形旁的提示,仍能大致认读出升华的形声字,便于赢得亿万民众的支持。