CN1132364A - 汉语汉字信息的人机汉文编码处理方法及设备 - Google Patents

汉语汉字信息的人机汉文编码处理方法及设备 Download PDF

Info

Publication number
CN1132364A
CN1132364A CN 95103157 CN95103157A CN1132364A CN 1132364 A CN1132364 A CN 1132364A CN 95103157 CN95103157 CN 95103157 CN 95103157 A CN95103157 A CN 95103157A CN 1132364 A CN1132364 A CN 1132364A
Authority
CN
China
Prior art keywords
character
chinese
code
phrases
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 95103157
Other languages
English (en)
Inventor
刘觉滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 95103157 priority Critical patent/CN1132364A/zh
Publication of CN1132364A publication Critical patent/CN1132364A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种汉语汉字信息编码处理方法及设备。它以人机语言文字学为指导,通过有效继承和发展有关语言文字处理技术及汉语、汉字、拼音文字的语言文字学优点,能系统、简洁、规则地编码表达汉语汉字的音、调、义、形等信息,具有多个兼容互补的模块化编码系统、非线性键语词系统、音键并用输入法及相应的处理设备,能用一至二次按键操作规则地输入所有汉语音节和汉字的编码,可用于人和计算机系统的各种汉语汉字信息处理过程。

Description

汉语和汉字信息的人机汉文编码处理方法及设备
本发明涉及计算机语言信息处理科学,特别是关于汉语和汉字的信息编码处理方法和相应的处理设备。
汉语汉字信息编码处理是利用计算机来处理中文信息的关键之一,也是中文信息处理界面临的一个巨大难题。它不仅涉及计算机信息处理技术本身的问题,还涉及汉语语言文字文化的继承与发展等深层次的问题。
汉语和汉字信息编码的实质是人和计算机组成的人机系统的语言文字信息处理。理想的普及型编码系统也应是理想的人机语言文字,应具有突出的语言文字学优点。为使理想的汉语汉字编码研究具有更坚实的科学理论基础,本人曾提出了人机语言文字学的理论(见《中文信息》1994年第4期“语言信息处理与人机语言文字学”),同时,本人还提出研究出在人机语言文字学方面确实具有世界先进水平的汉语汉字编码系统及其计算机处理技术,从而使相应的汉语汉字编码系统能够达到甚至超过西方语言文字在相应国家的计算机应用上的普及程度和使用效率,是强调竞争与交流的信息时代中华民族文明发展的需要,也应是汉语汉字编码研究冲击的最高目标。
为了达到上述目标,首先必须系统地深入分析现有语言文字理论和所谓的先进语言文字及其文字信息电脑处理技术的局限性及其发展方向,并在此基础上分析、认识现有汉字编码研究的局限性,系统考虑人机系统的各种汉语汉字信息编码处理问题(输入、输出、存贮、传输、阅读、检索等等)。
以人机语言文字学为基础,可以系统地分析处理上述问题,有效地进行理想的汉语汉字信息编码处理研究。
人机语言文字学研究的对象是由语言文字及其相应的其它语言子系统与人、电脑及其语言文字处理技术等组成的大系统,其研究目的是科学地描述不同的语言信息载体形式系统及相互关系,找出适用于各种中外语言文字系统发展的一般规律,为更好地发展各种便于人机系统有效处理语言文字信息的语体系统提供科学的理论根据。
人机语言文字学把主要由人和计算机组成的语言文字信息处理系统称为人机系统,把人机系统处理的各种语言文字信息载体形式系统(如语音系统、文字系统、编码系统、计算机高级语言等)统称为人机语言文字系统,把对语言信息的形式载体(简称语体)的各种处理作为研究的核心问题。
人机语言文字学认为,语言文字及其处理技术研究的根本原则就是为了有利于更有效地满足人们对语言文字信息处理的系统需要而促进语言文字系统及其处理技术发展。根据语体与人机系统的关系、语体本身的特性和语体间的关系,可将其分为内语体和外语体、能量化语体和物质化语体、前语体和后语体。语音系统、文字系统和字符编码系统都是外语体。外语体系统的结构与功能都是为有效地系统处理语言信息而作的人为系统约定。某一语体系统的结构特征是由其处理子过程的处理需要所决定的,首先是由主要处理子过程的处理需要所决定的——这就是系统处理需要决定语体系统结构原理。语体系统的某一子系统要素具有的具体功能是其所在子系统决定的,而且这种系统决定的方式一般是非线性的,在特殊情况上才是线性的——这就是语体要素功能非线性系统决定原理。
以人机语言文字学为基础,可以系统地分析现有语言文字理论、文字系统和处理技术以及现有汉字编码研究的局限性,更好地进行理想的汉语汉字信息编码处理研究。
现有的西方语言文字理论认为,语言信息最初是用语音系统来表达的,文字是用来记录先于它出现的语音系统的。所以,能准确描述语音音素的拼音文字系统是理想的语言信息字符表达系统。许多语言的新造文字都是拼音文字,一些汉字编码也以成为电脑拼音中文为目标。
人机语言文字学的研究表明,片面地强调文字的表音作用的西方拼音文字理论,没有对文字的形、音、义作系统地深入分析,更没有对一般语言信息形式载体系统进行科学的抽象研究,不是一种全面研究语言文字的科学文字学理论,而只是语音学发展的一种“副产品”,它不可能揭示语音系统与文字系统的语言学本质差别对文字发展的影响。实际上,任何一种语言载体系统的本质功能都是用来表达交流语言信息的语义的。文字和语音一样是一种记录语义的外在语言信息形式载体(外语体)。两者不同的是:语音是一种能量化的载体形式系统,人在用语音表达交流时,总是具体而系统进行的。具体的人、具体的主题、具体的空间和时间等语境都会参与对语音子系统语义的系统决定;而文字是一种本质结构不同于语音的物质化形式载体系统,可脱离具体语境和语言信息发出者而跨越时空独自长期存在。因而,文字一般不能用文字系统以外的其它要素来帮助确定有关文字子系统的语义,一般文字系统的结构形式总比相应语音系统的要更复杂、更精确。实际上,所有的拼音文字系统无一不利用非拼音要素来表达语义信息,例如,字母的大写或小写常具有表音以外的语义表达能力,大数目通常用只表义的阿拉伯数字来表达,等等。人机语言文字学认为,未来的文字系统(包括计算机高级语言书面语)将向下述方向发展;它具有基本的语音记录形式子系统,对语音的记录是简洁明确的——并不要求以音素为表音基本单位,同时,它还具有不表示语音结构而直接表达某种语义的表义形式子系统。两个子系统既相对独立、又可有机结合在一起,从而可有效满足人们对语言信息文字处理的各种要求。汉字编码系统发展也应符合这一方向,许多编码系统仅以电脑拼音中文为目标是不适当的。
众所周知,现有的西方拼音文字系统大多数是用目前世界上应用最广泛的拉丁字母来拼写的。从拼音文字理论关于“文字是语音的记录”的传统观念和做法来看,西文系统是用了26个拉丁字母作为文字的基本字符单位。在为许多语言新造文字和在现有的汉字输入编码方案中,一般也沿用以26个拉丁字母为基本编码单位的做法。
然而,从“文字是表达语言信息的形式载体之一”的人机语言文字学观点来看,所有西文系统应该说是用了52个字符作文字基本字符单位。因为,大写字母和小写字母尽管在表音上没有区别,但在表达语义上是有区别的,在英文、德文等西文系统中均如此,在一些先进的计算机高级语言如C语言中也是如此。所以,严格地说,一个大写字母和相应的小写字母必须被看作是有语义区别的不同基本字符单位——字位。在计算机字符处理的基础之一——标准ASCII代码字符集里,大写字母与小写字母也是两个不同的基本字符单位。人机语言文字学的分析表明,长期认为只用26个字母来表示的先进西方拼者文字系统,实际用了几乎超过其所需要的一倍字母资源。换句话说,西文系统长期浪费了几乎与其实际所需相当的字符资源。试设想,如果我们对什么(如时间、人才、能源、材料等)都浪费掉实际所需的一倍,那将是怎样一种情况?如果我们能不浪费而多拥有实际所有的一倍,又将是怎样一种情况?
在现代信息化社会,正视西文系统严重浪费字符资源的传统用法的缺陷,主动开发、科学利用、充分发挥标准ASCII代码字符这一人机系统基本字符资源的作用,特别是充分发挥52个拉丁字符这一传统文字字符资源的作用,将是今后字符表达系统,包括语言文字系统及其编码,尤其是计算机高级语言文字系统发展的一个必然方向。当然,这一发展必须有相应配套的软、硬件支持,必须能与传统的用法高度兼容。但现有的汉字编码研究对此还缺乏足够的重视和有效地把握,多数沿用拉丁字母的传统用法。
键盘是人机系统处理语言文字信息的主要工具之一。现有的计算机标准键盘和古老的机械打字机的键盘一样,都是线性字符键盘,其按键被严格地分为字符按键(如字母键、数字键等)和功能按键(如Shift键、换行键等)两类,每个字符按键均可表示2个字符,各个字符按键之间相互独立、互不影响,整个键盘可表示的字符总数等于各个字符按键所表示的字符数之和。由键盘输入的按键操作是一个单字符线性键码转换系统,而不是一个与语音系统、文字系统、哑语系统类似的非线性语言信息载体系统。
人机语言文字学研究表明,利用现有计算机技术,完全可以使键盘的按键操作成为与语音系统、文字系统等类似的另一种非线性语体系统,相应的键盘可称为非线性键语词键盘——整个键盘可表示的字符子系统总数不等于各个字符按键各自表示的字符数之和。利用这种非线性键语词键盘,有利于充分发挥计算机的内在潜力,大大增加有限字符按键的字符表达能力,并可根据按键操作的难易对按键所表示的字符种类、数量进行相应的调整,从而有效改善计算机语言文字信息的键盘输入操作,提高键入速度。这特别适用于语言文字信息含量大的汉语、汉字的计算机键盘编码输入操作。然而现有汉字编码输入方案都在盲目地走传统西文线性字符键盘输入的老路,将计算机对键盘按键操作信息的处理能力视同为一台机械打字机。
人机语言文字学认为,理想的汉语和汉字编码系统应同时是汉语语音系统和汉字系统的后语体或称后文字系统。文字都离不开形音义,后文字系统的建立一定要能同时在这三个方面对相应前语体的——即原有语言文字文化的——精髓作出合理地系统分析、继承和发展。“分析”应是符合实际的、科学而系统的,应以语体的处理作为分析研究的出发点和核心问题,应对处理对象的物理、心理、文化特征、各种处理过程和处理要求等作系统地分析。“继承”应是全面的、系统的,不应是片面的、也不是全盘的;应是对传统文化和外来文化的语言文字学实质优点而言的,而不是仅对语言文字的外表形式而言的;应着眼于传统语言文化的发展,而不应仅着眼于语言文字系统形式的转写。“发展”一定要与继承传统语言文化相联系而不能打断这种联系;应有科学的一般语言文字学理论指导,要在有世界高水平的高起点上发展,而不能急功近利地、夜郎自大地盲目发展;应符合世界语言文字发展的总趋势而不能仅盲从于拼音文字系统的发展潮流。然而现有的汉字输入编码的研究都在某种程度上缺乏上面所述的系统分析、继承和发展。
设计汉语汉字编码系统,首先必须对具体语言文字的重要特性有全面的认识。汉字是具有悠久历史的汉语文化的重要载体。汉语文字经过几千年的雕琢磨炼,从单个字词到整个系统,都含有汉语文化的精髓。从人机语言文字学的角度看,汉字的后语体系统应继承的汉字的优点有:(1)语素形式简短,构词灵活、方便;(2)词形简明,个性突出,阅读效率高并能有效区别汉语的同音字;(3)音节划分明确,诗词文字形式能在一定程度上反映语言的结构美;(4)词形在语义上具有可理解性,可帮助学习、阅读。
同时,也应该正视,许多语言的拼音文字与方块汉字相比,具有任何新文字系统应该继承的如下优点:(1)能准确、规则、简洁地记录相应语言的语音特征;(2)基本字符量少且形态简明,易学易记易用,方便计算机处理,国际通用;(3)文字系统的开放性好,有利于吸收外来文化发展自己,也有利于输出自己的文化精髓促进世界文化发展。
要得到全面超过现有拼音文字的语言文字学水平的汉字编码系统——汉字后语体系统,就必须同时继承汉语、汉字和拼音文字的语言文字学优点。
特别值得强调的是,在语言文字信息处理计算机化的现代,文字系统的基本字符的多少和形态对文字信息的输入、输出、贮存、识别等计算机处理的难易、效率、经济性等都有很大影响。从这个角度上说,方块汉字的缺陷是相当明显的。尽管可以通过特殊处理来减轻、消除这种缺陷的某些不良影响。但是,在强调效率、交流、竞争的现代国际社会中,这些特殊处理的特殊性对计算机语言文字处理的效率、成本和适用范围的不利影响,将使相应语言文字的信息处理技术发展很难摆脱被动的地位。
人机语言文字学的深入分析还表明,汉字的语言文字学水平与汉语的是不相应的。相对汉字系统而言,汉语语音系统对语体要素功能非线性系统决定原理的利用水平要高得多。例如,构成汉字系统的基本要素是字,1990年出版的《汉字大字典》共收汉字单字54678个,而与单字相应的汉语音节仅约1330个,两者相差几十倍。直接构成汉语音节的语音要素集(声母、韵母、声调等约60个)也比构成汉字的字元集(部首、偏旁、笔形等1000个以上)要少得多。而且汉语语音系统的要素组合规则,也比汉字系统的字元组合规则要简洁明确得多。可以说,作为汉语语音系统的后语体,汉字系统没有很好地继承、发扬汉语语音系统的语言文字学优越性。
现有的汉字输入编码方案对上述种种问题均缺乏足够的认识和系统的解决办法。
人机语言文字学的分析表明,现有的几百种汉字编码方案,绝大多数仅是计算机汉字输入编码方案(简称输入编码),而不是人机系统的汉语汉字信息处理编码方案(简称处理编码)。这些汉字输入编码还普遍存在如下问题:
汉字输入编码仅着眼于汉字的计算机传统键盘输入方法改进,孤立地看待汉字字符形态的处理,而不是把它看作汉语语言文字的有机组成部分来处理;孤立地看待计算机汉字输入处理,而不是系统地考虑人机系统的汉语汉字的各种处理过程。它们都在不同程度上忽略了人机系统对语言文字及编码信息的各种处理过程的系统把握(如人或计算机对不同语音、文字、编码的输入、输出、存贮、转换、传输、阅读等等处理过程的系统把握),也没有对汉语、汉字和一般拼音文字的语言文字学优点及其继承、发展问题作系统考虑、系统处理,只能局限于使用特殊的软硬件对汉字信息进行特定的字—码转换处理,不可能作为一种新的语言文字让重视传统文化的广大中国民众所普遍接受,也不便利用国际通用的软硬件进行汉语汉字信息的各种编码处理(输入、输出、存贮、转换、传输,等等),从而无论怎么推广也不可能达到理想的普及程度,不利于在计算机技术发展浪潮的推动下取得汉语文字文化发展的新突破。不注意解决汉语文字系统发展而仅局限于解决方块汉字编码输入问题的研究,显然是权宜之计的或舍本求末的。这种缺乏正确的宏观战略指导思想和人机语言信息处理系统观念而作的具体汉字编码输入技术细节攻关所取得的成果,只可能获得很有限的成功,最终都将被大多数一般汉语文字使用者所抛弃。
现有的计算机汉字输入编码方案,都没有相对独立的键语词观念及非线性的键语词系统,均把汉字的字符编码与字符的按键输入这两个不同层次的问题不加区别地笼统处理,将计算机对键盘操作信息的处理能力视同为一台机械打字机,很不利于充分发挥计算机的内在潜力,不利于提高按键操作的语言信息表达能力和效率,不利于进一步提高字符的键盘输入速度。没有很好考虑键盘输入技术发展方向的汉字输入编码方案,其汉字输入速度等技术指标的先进性是很容易丧失的。
现有的汉字编码系统之所以存在种种问题,根本原因是由于其编码研究仅着眼于被动地适应计算机传统键盘输入方式来处理汉字信息,其研究基础是传统语言文字和现有的西方文字字符处理技术,其研究重点是汉字的表象结构分析及其在上述理论和技术框架中的代码形式设计。这种以计算机输入代码为中心、单纯为解决汉字计算机键盘输入问题而埋头进行的具体技术细节攻关,没有从人机语言文字学的高度系统处理设计一种新的人机文字系统必须正视的、人和计算机处理语言信息面临的各种问题,缺乏对由语言文字及其相关的其它语言子系统(如语音系统、外来语系统、语义系统、键语词系统等)与人和计算机及其各种语言文字处理技术等组成的大系统进行深入地研究,缺乏先进的、科学的一般语言文字处理理论——人机语言文字学——的支持,不能自觉避免前面所阐述的现有文字系统(包括西方系统和中文系统)、文字理论和文字处理技术等的局限性带来的不利影响,也不能有效而系统地继承、发展汉语、汉字和拼音文字的语言文字学优点。所以,相应的汉字编码系统难以达到人机语言文字学方面的世界高水平,也不可能达到西文系统在相应国家的计算机应用上的普及程度和使用效益——而达到甚至超过它,是强调竞争与交流的信息时代中华民族文明发展的需要,是汉字编码应冲击的最高目标。现有的汉字输入编码研究不可能达到这一目标。
综上所述,传统拼音文字理论和西方拼音文字系统及其文字处理技术都有明显的局限,方块汉字也有明显的缺陷,而以传统语言文字学和现有西方文字处理技术为基础、仅着眼于被动地适应计算机传统键盘输入方式来处理汉字信息的汉字输入编码研究也存在明显的不足。
本发明的目的是提供一种人与计算机系统能有效处理的汉语和汉字信息编码处理方法(简称人机汉文编码处理方法),并提供一种执行这种方法的计算机系统处理设备。人机汉文编码处理方法以一般人机语言文字学理论为指导来进行汉语汉字信息编码,自觉避免前面所述的西方拼音文字和现有汉字编码方案的局限性,充分利用一般西文系统和汉语汉字系统的构建规律,充分利用一般人机系统使用的ASCII代码字符,充分利用拉丁字母这一宝贵的世界性字符资源及语体要素功能非线性系统决定原理,有效继承和发展汉语、汉字的语言文字学优点和相应传统文化的精髓(尤其是汉语文字发展的两大里程碑——《说文解字》和《汉语拼音方案》——的合理内核),设计具有表达汉语汉字的音、调、义、形等信息的、语言文字学水平高的字符编码子系统和规则简单、可用盲打操作消除重码现象的消重码子系统,并为根据国情有区别地积极引进、消化外来语文化提供有特色的编码子系统;为更有效地利用标准ASCII代码字符,更好地利用、发展拉丁字母宝贵资源,设计了人机汉文字母子系统;还为某些特殊用户提供系统配套的初级或高级编码应用支持系统;为进一步提高按键操作对字符编码系统的表达能力,还设计了非线性键语词系统和相应键盘以及能有效输入汉语汉字信息的音键并用输入法。通过应用发展现有语言文字处理技术及设备(包括多媒体计算机技术),使人机系统的各种汉语汉字信息处理用户的系统需要都能得到有效地满足,从而有利于促进计算机汉语汉字信息处理技术能有效地、最大限度地普及应用,并促进一般语言文字理论和相关处理技术的发展。
根据本发明,一种计算机汉语和汉字信息编码处理方法——人机汉文编码处理方法(或称人机中文编码处理方法)由下述步骤组成:
第一步,该处理方法根据人机语言文字学理论,自觉系统运用语体要素功能非线性系统决定原理,采用标准ASCII代码字符作为编码基本字符来给汉语和汉字信息编码,构建人机汉文编码系统(简称汉文系统)。
也就是说,该处理方法的汉语汉字信息编码,不是一种从字符到字符的方块汉字输入编码(如字形编码),而是一种从原有语言文字到新型语文系统的汉语汉字编码——将汉语和汉字及其编码作为一个有机的语言信息载体系统来统一处理。该处理方法也不仅考虑方块汉字的计算机编码输入问题,而是系统地考虑汉语汉字信息的各种编码处理问题(输入处理仅是其中之一)。因此,该处理方法不仅只考虑传统语言文字学的拼音文字理论和汉字文字学理论,也不仅只考虑传统文字字符的机器编码输入技术,而是以人机语言文字学理论为根据,全面考虑与语言文字信息处理相关的各种语体系统和人、计算机及其语言文字处理技术等组成的大系统,系统考虑人和计算机的各种语言信息处理过程,以赶超西文系统的人机语言文字学水平、充分满足各种汉语、汉字使用者对继承、发展汉语汉字文化的系统需要为目标,来设计能有效表达汉语和汉字信息的编码字符系统。
根据人机语言文字学理论,考虑到人机系统对编码字符信息处理的各种过程的系统要求,人机汉文编码系统不是采用拉丁字母,而是采用标准ASCII代码字符(包括大写和小写拉丁字母、空格字符、数字等)作为汉语汉字编码的基本字符。这样做,有利于全盘解决中文信息计算机处理的各种特殊问题,也有利于探索解决一般语言文字系统(包括计算机高级语言书面语)发展的一些普遍问题。例如,汉语和汉字如何编码输入计算机?如何在计算机内部和计算机之间进行编码的存贮、交换、传输等处理?如何将机内代码转换成文字信息符号输出计算机?这种字符编码系统又如何能满足广大的、层次不同的中文信息处理者的系统需要?语言文字系统如何更充分有效地利用宝贵的而有限的字符资源?那样做,也就自然把26个拉丁字母的大写、小写形式分成为52个字符作为汉语汉字信息编码的基本字符——字位字符(在拉丁字母系统中,A和a表示同一字母;在ASCII代码字符集中,A和a是根本不同的两个基本字符)。因此,任一拉丁字母(如A)都包含两个不同的字符要素(如:a、A)。同一拉丁字母的大写和小写形式(如:A、a)成为两个不同的字位字符,可用于表示汉语、汉字的不同音、调、义、形信息。从而为更充分利用拉丁字母这一世界性宝贵字符资源来简洁、规则地进行汉语、汉字信息编码创造了较好的基础条件。
人机汉文系统在利用基本字位字符对汉语汉字信息进行编码时,还自觉地系统运用语体要素功能非线性系统决定原理,使任一编码系统的要素——编码字符对汉语汉字信息的具体表达功能是由该字符与其它相关字符组成的子系统按规则共同决定的。例如,字符“a”在声韵码子系统的简音节或繁音节中,分别表示韵母{a}(啊)和{an}(安)。本文中大括号{}内的为汉语拼音方案字符,中括号[]内的为国际音标字符。当字符“a”在字符“v”前时,还可分别按规则表示简音节韵母{ang}(昂)和繁音节韵母{uang}(汪);而当字符“a”在声调码子系统中还可用来表示音节的声调{—}(阴平)。利用语体要素功能非线性系统决定原理获得的人机汉文编码系统是一个非线性字符编码系统,其字符编码子系统具有的各种汉语、汉字信息表达功能大于组成该子系统的各个字符要素各自分别具有的汉语、汉字信息表达功能之和。例如:a、c、b、B、i、r六个字符要素在声韵码子系统中可各自分别表达的声母、韵母数量之和是5个(3个声母、2个韵母。但在由它们组成的声韵码子系统中,它们可以表示声母、韵母的读音数量是9个:3个声母、6个韵母,如bi{bī}逼,Bi{bin}宾,ba{ba}吧,Ba{ban}般,ci{ci}疵,ri{ri}日,其中每一个韵母字符的读音都是不同的。
人机汉文系统的汉语音节声韵信息编码子系统(简称声韵码子系统)的声韵码(γsy的基本码式是:
γsy=γsy,(1);
(1)式中,γsy表示音节声韵码;γs为音节声母信息编码——声母码,对零声母音节,声母码γs可以省略;γy为同一音节的韵母信息编码——韵母码;对零韵母音节(如{m}、{hm}、{n}、{n}等),韵母码可以省略。符号(/)表示其前后两个编码的要素的关系是“分子关系”——两个编码要素的先后次序是确定的,不能颠倒的(以下用法相同)。
例如,若声母{b}和韵母{a}的编码分别为:γs=b,γy=a,则音节{ba}(吧)的声韵码γsy=γsy=ba。
为了有效地系统运用语体要素功能非线性系统决定原理,增强编码字符与声母、韵母信息对应的规则性,声韵码子系统将编码字符分类并设立变读规则。首先将表达声韵码的编码字符分为两类:第一类是基本表音字符(如b、a等),它们可以单独用来表示声母或韵母信息的编码,并据此分为两种,一种主要用于韵母编码,被称为韵母字符,如a、e、i等,另一种主要用于声母编码,被称为声母字符,如b、c、d等。声母字符与韵母字符是互不相同的。第二类是变读字符,如v、w,它们一般不能单独用来表示声母或韵母信息的编码,必须和表音字符一起使用构成表音字符组合来作声母或韵母信息的编码。变读字符主要用于构成变读规则,按规则改变表音字符组合中基本表音字符的表音功能。
声韵码子系统设立变读规则是为了有规律地改变基本表音字符的表音作用,使一个韵母字符可按规则改变它所表示的读音以表示一个以上的韵母,或者使一个声母字符可按规则改变它所表示的声母读音甚至改变其后的韵母编码的读音,从而可用较少的韵母字符和声母字符来规则、简洁地表示较多的全部韵母和声母的读音。
人机汉文系统的变读规则可以用改变表音字母的大写、小写形式来表达,例如,可用字符a表示韵母{a},用字符A表示韵母{ao};也可以用在表音字符后附加变读字符的形式来表达,例如可用字符c表示声母{c},用字符组合cv表示声母{ch};还可以用表音字符的音节组合形式变化来表达,例如可用音节字符组合ba表示{ba},并用Ba或bba表示{ban}。
声韵码子系统的变读规则可分为字母变读规则、字组变读规则和音节变读规则。
字母变读规则指在声韵码系统中,同一字母的不同大写、小写形式,可以按规定表示不同的语音,如用a表示{a},用A表示{ao}。
字组变读规则指用含有基本声符或基本韵符的特定字符组合来表示与原声母字符或韵母字符读音不同的声母或韵母读音。例如,可用cv来表示与声母字符c的原读音{c}不同的声母{ch},用av来表示与字符a的原读音{a}不同的韵母{ang}。又如,在汉语拼音方案中字母e在{en}和{ie}中的读音也是互不相同的——前者的读{e},后者的读
Figure A9510315700181
音节变读规则指以音节为单位,根据音节字符组合的形式特征进行分类;在类型不同的音节中,同一编码字符的读音可有不同的系统规定。例如,可以规定当改变一个音节声韵码的声母字母的大写、小写形式时,该音节的类型也改变。在两种类型的音节中,声母字符的形式改变而读音不变,韵母字符形式不变但读音改变。如用ba表示{ba},而用Ba表示{ban}。这样,可以大大增加为数不多的韵母字符的表音能力。在汉语拼音方案中,也存在当音节的某一成分变化时,导致另一成分表音功能变化的音节变读现象。例如,在音节{bi}、{ci}、{ri}中,韵母字符i分别表示三种不同的语音。在英文中也有音节变读现象,元音字母在开音节和闭音节中的读音是不相同的。
应该指出,作为字符表音功能非线性系统决定的现象——字组变读和音节变读现象在西方拼音文字和汉语拼音方案中均有存在,但它们仅是作为一种被尽量消除的、违背理想拼音文字要求——字符要素与语音要素一一对应——的消极现象而存在。它们没有、也不可能上升为一种符合理想拼音文字要求而普遍应用的、形式严谨的规则。例如,在英文中类似have,give等违反开音节、闭音节规则的情况数不胜数,对多音节生词,更是不查字典,就很难肯定其正确的读音。在汉语拼音方案中,存在的字组变读和音节变读现象在很大程度上是一种不想用又不得不用的个别规定。但在本发明中,上述现象及其它类似现象已被抽象为一种普遍适用的原理——语体要素功能非线性系统决定原理,并对此原理加以自觉地、严格地、系统地运用,变成各种语体系统的基本构成规则之一,它不但被用于字符编码系统,而且也被用于按键操作的键语词系统等其它语体系统;不仅可用于声母和韵母信息的编码,而且可用于表示音节声调信息、汉字字形信息、语义信息的编码。
通过将声韵码编码字符分类和设立变读规则,就可以用较少的声母字符、韵母字符和变读字符来简洁、规则地表示数量较多的声母和韵母的编码,使所有汉语音节的声母、韵母信息编码均具有明确的、互不相同的表达形式,而且任一韵母编码和声母编码都具有确定的起止标志,并不会与相邻的其它汉语汉字信息编码相混淆。例如,可用6个元音字母a、e、i、o、u、y作韵母字母,那么利用字母变读规则,它们的12个大写、小写形式——韵母字符就可表示12个读音不同的韵母;进而利用字组变读规则并规定每个韵母字符与其后的变读字符v组成的字符组合可表示新的韵母读音,就可再得到12个新的韵母编码;再利用音节变读规则,只要规定有两类不同的音节声韵码形式,就可以用前面的24种韵母编码表达48种不同的读音。而汉语的韵母总数仅为34种。相似的,21个汉语声母编码只需用11个以上的辅音字母和一个变读字符v及相应的字组变读规则,就可以分别编码,而且每个声母编码都可以与韵母编码完全不同。采用类似方法,可以获得很多种声韵码的编码方案,而且完全可以满足下列要求:任一音节中声韵码的韵母编码和声母编码两者形式各不相同并都具有确定的起止标志,不会与相邻的其它编码相混淆。
人机汉文系统的汉语音节信息编码子系统(简称语音码子系统)的语音码γi的基本码式是:
γi=γsyd=γsyd,(2)。
(2)式中,γi为音节语音码,γsy为音节声韵码,γs为声母码,γy为韵母码,γd为音节声调信息编码——声调码。
利用汉语语音系统的结构特征和语体要素功能非线性系统决定原理,我们可以选用适当的字符来有效地构建声调码子系统。
在任何一种语言里,语音之间和词之间都有些组合或系列是不容许的。例如,在英语里,象mvaq、dvorn这样的组合是不可能有的。又如,在现代汉语中,韵母{ong}、{ê}不会单独构成一个音节,韵母{eng}在独自构成零声母音节时,一般不会与其它音节组合成词,韵母{o}、{ei}等独自构成零声母音节时,一般不会跟在其它音节后组合成词,等等。因此,我们可以利用不能跟在声韵码音节形式后形成正常汉语语流语音组合的韵母编码字符(或字符组合)来兼任声调码编码字符。
根据人机语言文字学理论,没有脱离汉语的汉字,汉字必然包括了对汉语的表达,现代的、科学的汉语文字必须包括对汉语的精确、规则地系统表达。另一方面,文字必有音、形、义。汉语文字编码不仅要解决汉语语音的科学表达问题,还要解决语音相同而语义、字形不同的汉字同音字的科学区分问题。因此,人机汉文系统将汉语语音编码系统作为汉字编码的基础,将给汉字语音编码附加汉字义形信息编码作为汉字编码的基本途径。即,人机汉文系统的汉字信息编码——汉字码γz——的基本码式是:
γz=γix,(3)。
(3)式中,γz为汉字码,γi为汉字语音码,γx为汉字义形信息编码——义形码。
考虑到汉字语音的声调也可看作区别同音字的一种信息,从而可与汉字义形信息放到一起考虑。这样,汉字码的基本码式也可表示为:
γz=γsyxd,(4)
(4)式中,γsy为汉字语音的声韵码,γxd为汉字的带有音节声调信息的义形码——带调义形码。建立汉字义形信息编码子系统——义形码子系统时,人机汉文系统将传统汉字常用部首(可称为表义部首)及汉字字形部首(可称为表形部首)作为汉字义形信息编码的主要对象,并且首先考虑尽量继承汉语文字发展的里程碑之一——《说文解字》的精髓:汉字部首的系统分类和使用。在汉语文字信息的表达中,一般不表音的汉字部首常有帮助表达语义及分化汉语同音字的作用,是方块汉字语义表达的主要信息源之一。同时,部首也是方块汉字字形的一个重要组成部分,考虑到汉字字形的系统处理需要,设立表示汉字字形的、必要的表形部首也是必要的。为此,人机汉文系统继承、发展了现代汉语字典、词典的常用查字法之一——四角号码查字法的精髓,在汉字义形码子系统中专门设立了汉字表形部首。其中有纯粹表示汉字字形轮廓的笔划结构的——轮廓笔形类,也有表示汉字某些字形字元和字形结构类型的——表形字元结构类。
在对汉字表义部首和表形部首(可统称义形部首)编码时,义形码子系统将所有被选用的义形部首分为若干类,每一类有一个类名并用一个字符作类名符γxl。例如,可把所有义形部首分为植物类、动物类、轮廓笔形类,等等,并用相应字符z、d、l等分别作为其类名符。在类之下再分为若干部,每一部也有一个部名并用一个字符作部名符γxd。例如,在植物类之下可分为“艹部、木部、竹部、禾部、瓜部、豆部”等部,并分别用c、m、z、h、g、d等字符作为其部名符。任一义形部首均可归为某类某部,并均可用两个字符组成的编码——义形码γx来表示。例如,部首“艹”可归为植物类,艹部,其义形码可写为“ZC”,“Z”为其类名符,“C”为其部名符。
为了获得简明的带调义形码,人机汉文系统规定,义形部首的类名符和部名符的字母的大写、小写形式变化不影响对义形信息的表达。但跟在声韵码后的汉字义形码的两个字符的大写、小写形式组合情况,可以表示其前声韵码的音节声调。例如,可用“Cz”和“cZ”来分别表示带声调{—}(阴平)和{/}(阳平)的部首“艹”的义形码。因此,按汉字码的基本码式(4):γz=γsyxd,汉字“芭”{bā}和“菝”{bá}的汉字码就可写“baCz”和“bacZ”。显然,这样的汉字编码既能准确表音又带有规则的字义信息编码字符,具有很好的可读性。
当一个汉字有两个以上的义形部首时,必须从中选出一个来编码。为此,必须制定义形码的取码规则。为增强义形码的表义作用和区别同音字的功能并使取码的规则简洁明确,义形码子系统根据义形部首与汉字字边结构的关系,对方块汉字进行结构分类:第一类是边结构汉字——至少有一个义形部首独自构成方块汉字四条字边的一边以上。相应的部首又称为字边部首。不能构成汉字字边而只能构成汉字字角的部首又称字角部首。边结构汉字又可分为两种:一种是分边结构汉字——有一个义形部首独自构成汉字的上(下)边或左(右)边,相应的汉字分别称为上下结构汉字或左右结构汉字,例如:芭、想、厅等,江、邓等;另一种是包边结构汉字——有一个义形部首(又称包边部首)独自构成汉字的两条字边以上并包住汉字的右上角或左下角,汉字的其余部分与该义形部首形成内外结构或框架结构。内外结构的包边部首与被包部分不相交,如:国、田、达、句、凶等,此时,包边部首又称外边义形部首,被包部分又称内部笔形部分。框架结构的被包部分至少有一个笔形与包边部首相交而由内侧延伸到外侧,例如:由、内、中、甲等,此时,包边部首又称为边框义形部首,另一部分称为叉架笔形部分,两部分一起构成框架结构。外边义形部首和边框义形部首统称包边部首,都作为字边部首优先于字角部首取码。内部笔形和叉架笔形则作为字角部首参加编码。
第二类是非边结构汉字(也叫复合结构汉字)——没有一个义形部首能独自构成方块汉字的一条字边。例如,器、舍官、疑、够、舒,等。
第三类是单部首结构汉字——汉字本身就是一个义形部首,如,木、禾、欠,等。
义形码子系统还设立特级部首类(又称后边优先部首),其中包含若干表义部首。例如:心,页,皿等。这些部首与其它表义部首同时出现在汉字字边时,即使特级部首位于后边(指下边或右边),也优先作为汉字的义形信息取码。
汉字义形码的取码规则可表达为:
A、先边后角:即对边结构汉字,首先对构成汉字字边的义形部首编码;当汉字没有字边部首时,才取构成汉字左上角的义形部首编码。例如,“垫”字应取构成字边的部首“土”来编码,而不应取仅构成字角的部首“扌”来编码;而“舍官”字则应取部首“人”来编码。坐字取“土”不取“人”。头字取“大”不取
Figure A9510315700211
。凶字取“凵”不取“乂”。
B、先义后形:当一个汉字的字边既有表义部首,又有表形部首时,应对表义部首编码;在没有字边表义部首时,才对字边表形部首编码。例如:“夭”字应取“大”来编码,而不取“ノ”;“旧”取“日”不取“丨”;而“亘”字则取“一”不取“日”;“再”字取“一”不取“土”。因为,其中的“日”和“土”不是字边部首。
C、先特级后一般:当一个汉字的两个字边都有表义部首时,应对特级部首取码;没有特级部首时,才对一般表义部首取码。例如,“思”字中“心”是特级部首,“田”是一般部首,因此,应取“心”为“思”字的义形码部首。
D、一般先取左边或上边,左右对称取中间,当一个汉字的字边有两个特级部首,或两个一般表义部首,或两个表形部首时,应对在左边或上边的部首取码。例如:“江”取“氵”不取“工”;“尖”取“小”不取“大”。当汉字为左中右结构且左右两边为两个对称的表义部首时,应对中间的义形部首取码,例如:“斑”和“辩”应分别取“文”和讠”编码。
E、取大不取小:当同一部位的汉字义形部首有几种取码的可能时,应取较大的(含笔划较多的)一种部首来编码。例如:“章”字取“音”不取“立”。
构建好人机汉文编码系统之后,人机汉文编码处理方法的第二步就是解决汉语汉字信息编码字符的计算机键盘输入的按键操作进行问题。
根据人机语言文字学理论和键盘的字符按键分布情况及可行的按键操作组合情况,充分利用语体要素功能非线性系统决定原理,可将人机汉文编码系统的字符有效地转写为相应的人机汉文键语词系统的键语词表达式。人机汉文编码字符的键语词表达式转写的实现是利用空键语词符、变量键语词表达式、常量键语词表达式、单字符键语词表、人机汉文编码字符串键语词表达式及相应的键语词素表等来进行的。
人机语言文字学认为,键盘的按键操作可看作是与编码字符类似的另一种人机系统的语言信息形式载体,即是另一种语体,人机汉文的字符编码系统是汉语和汉字系统的后语体,按键操作系统又是字符编码系统的后语体。字符编码系统和按键操作系统结构和功能的好坏都对汉语汉字信息计算机键盘输入的效率有很大影响。
为了有效提高按键操作对字符编码系统字符的表达能力,同样可以在设计按键操作系统时,利用能有效提高编码字符对汉语汉字信息表达能力的语体要素功能非线性系统决定原理。
在本发明中,作为人机汉文编码系统后语体的按键操作系统被称为键语词系统。该系统由键语词组成。一个键语词就是一次有确定“语义”的按键操作过程。
一个键语词的按键操作过程可以是按下并松开一个按键的操作过程,例如输入字符a的按键操作过程。一个键语词也可以是按下一个或若干个按键后不松开,继续按下其它不同按键,直到所有用于表达某个“语义”的按键全部处于按下状态后,再松开这些按键的整个操作过程。例如输入大写字符A的操作过程——先按下Shift键后,再按下a键,然后全部松开。又如计算机的“热启动”操作过程——按规则全部按下Alt键、Ctrl键和Del键后,再全部松开。但是,单一的Shift键的按键操作过程不是一个键语词——因为它不表示任何确定的“语言信息”。
人机汉文键语词系统的键语词的“语义”可以是键语词系统的前语体系统要素(例如:汉语语音、汉字的编码字符a、b、c、……等),也可以是键语词系统本身的“语法”规定——即键盘按键操作系统的状态规定(例如:大写字母锁定键(Caps Lock键)所具有的功能)。
键盘上的每个按键都有相应的键名,表示按键键名的字符或字符串被称为键名符,例如:a、b、Ctrl、Caps Lock(简称CL),Shift(简称∧),等等都是键名符,相应的按键可称为a键、b键、Ctrl键、CL键、∧键,等等。
一个按键的按键操作——又称单按键键语词,可以用键名符上加横线表示。例如:a键的一次按键操作可用( a)表示。对于状态转换开关键——也称锁定键:进入锁定的操作可用(键名符’)表示,退出锁定操作可用( 键名符”)表示。例如 CL’表示进入大写字母锁定状态的按键操作, CL”表示相应的退出按键操作。
键语词系统中任意两个相邻按键操作之间的操作关系可分为因子关系或分子关系,并分别用操作关系符(*)或(/)表示。
因子关系(*)指其前后的两个按键操作的顺序是任意的——两个按键操作的先后次序可以互换。因此 a* b表示操作 a和 b的顺序是可以互换的。
分子关系(/)指其前后的两个按键操作的先后顺序是确定的——必须按规定的次序进行相应的按键操作。因此, a/ b表示操作 a和 b的顺序是确定的,不能倒置。
用多个按键操作组成的一次按键操作过程来表达一个“语义”(如字符A)的多按键键语词,可以用上加横线的键名符和关系符组成的按键字符串来表示,例如, a*s、 ∧/a、Alt*Ctrl/Del。 a*s表示的按键操作过程——键语词结构是:全部按下 a键和 s键后(顺序不论),再全部松开。 ∧/a表示的键语词结构是:先按下前一键名(∧)标志的按键,并使其保持按下状态,然后再按下后一键名(a)标志的按键——两个按键的按下次序不能颠倒;当两个按键都按下后,再松开全部按键。 Alt*Ctrl/Del表示的键语词结构是:先按下Alt键和Ctrl键(顺序不论),然后再按下Del键;当全部按下后,再全部松开。
∧/a和 Alt*Ctrl/Del这两个键语词一般需用双手同时进行操作,故又称双手多按键键语词。相应的,把一般只需一个手的若干手指即可完成按键操作的键语词称为单手多按键键语词,如 a*s。
多按键键语词的各个按键操作又称为键语词素,记作
Figure A9510315700231
Figure A9510315700232
。一般
Figure A9510315700233
)表示用左手操作的键语词素,简称左键语词素;
Figure A9510315700234
表示用右手操作的键语词素,简称右键语词素。因此,
Figure A9510315700235
若干个键语词可以组成一个键语词子系统来表示一个“语义”。这样的键语词子系统一般用园括号()括起,并称为复合键语词。复合键语词中的各个键语词又称键语分词。例如,表达字符A和a的键语词子系统( CL’/ a)和( CL”/ a)就是两个复合键语词。
为了更好地描述作为后语体要素——键语词(如 a)与相应的前语体要素——键语词“语义”(如字符 a)之间的关系。我们引入语义关系符“:=”和“:!”,“::”和“:!:”。
a:=a或a=: a均表示键语词 a的语义为字符a。也就是说,在“:”一边的是后语体——键语词,在“=”或“!”一边的是前语体——键语词 a表示的字符a。当键语词的“语义”不是键语词的前语体要素(如编码字符),而是键语词系统本身的“语法”规定——即按键操作系统的状态规定时,可用带括号()的文字说明“语义”。例如: CL’:=(键盘进入锁定大写字母状态), CL”:=(键盘退出大写状态转回小写状态),
Figure A9510315700236
一般地,当一个语体要素 a的语义是a时,我们称 a是a的抽象(或称后映象、后语体),称a是 a的语义原象(或称前映象、前语体),并称 a与a“同象”,或说 a与a存在互为前、后映象关系,记作 a:=a。当一个语体要素 b的语义不是a时,我们就说a与 b“不同象”,a和 b不存在前、后映射关系,记作a!: b。
另外,当两个语体要素(如两个键语词)都表达同一个语义时(例如, ∧/a和( CL’/ a)都表达字符A),就称这两个语体要素(如键语词)“同义”,记作( CL’/ a):: ∧/a:=A,其中( CL’/ a):=A且 ∧/a:=A。
类似地,我们用 b:!: a表示 b和 a语义不同。
一般地,在描述后语体子系统和前语体子系统的语义关系时,都可采用上述语义关系符。例如:{ü}::{yu}:=[y],{wen}::{uen}::{un}:=[un],{wei}::{uei}::{ui}:=[uei]。(方括号内为国际音标所用字符)
“语义”是直接表达前语体要素的键语词叫键语实词,如 a:=a。否则叫键语虚词,例如CL’:=键盘进入锁定大写字母状态。若前语体要素为字符或字符串时,相应的键语实词又称字符键语词。当一个键语词只表示一个字符时,称为单字符键语词,如 a:=a, ∧/a:=A。当一个键语词可表示由一个以上的字符组成的字符串时,称为字符串键语词。
例如,
Figure A9510315700237
{bīng},其中
字符串键语词表示的字符串可分为若干个与有关键语词素对应的、被称为字符段的组成部分,字符段一般可分前字符段和后字符段,分别记作(α/)和(/β),其中,α、β为字符或字符组合,(/)为字符串分子关系符,表示某个字符或字符组合是一个字符段,而且它在构成字符串时,组合位置是相对确定的。(注意“/”用于键语词系统时(字符上有横线),是操作关系符,它表示其前后两个语体要素——按键操作之间的操作关系是分子关系)。
在上述具体键语词中,键名符均表示确定的、不变的按键,键语词也表示确定的按键操作,故又称常量键语词。
人机汉文键语词系统中,按键字符串可以是一个变量。这种键语词又称变量键语词,它表示的按键操作过程是可以变化的。例如, γ, α*β等,其中,γ、α、β可以根据具体条件的不同,表示不同的键名符或含有关系符的键名词组合。
用关系符将不同的常量键语词、变量键语词、键语词素和键语分词连接起来的式子,称为键语词表达式。一个常量或变量键语词也可看作一个表达式。全部由常量键语词组成的表达式称为常量键语词表达式。含有变量键语词的表达式,称为变量键语词表达式。
一个键语词表达式的“值”,就是它所代表的按键操作过程,也可说是这个键语词的具体结构。两个键语词表达式之间除可存在同义或不同义的关系外,还可存在等值或不等值的关系。为了更好描述键语词之间的结构(键值)关系,我们引入键值(结构)关系符(=)和(!=)。用键值关系符连接起来的式子也是表达式。当两个表达式
Figure A9510315700241
Figure A9510315700242
表示的按键操作过程相同时,就称
Figure A9510315700243
Figure A9510315700244
等值,是一对“同构词”。记作:
Figure A9510315700245
例如,
Figure A9510315700248
不等值时,记作 ,例如, β= ∧/a!= a。
特殊的,当一个键语词表达式的“值”表示没有任何按键操作时,就称其“值”为空键语词,并用空键语词符 Φ表示这个“值”。
应该指出,两个键值不同的键语词
Figure A95103157002410
Figure A95103157002411
,可以表达同一个语义。
例如,( CL’/ a)!= ∧/a,但( CL’/a):: ∧/a:=A。
键盘的按键可分为字符按键(如a键)和功能按键(如Ctrl键)。一个字符按键的单独操作就可输入相应字符,而任一功能按键的单独操作均不能直接输入字符。一个键语词只含有一个字符按键的按键操作时,称为单字符按键键语词;一个键语词含有两个以上字符按键的按键操作时,称为多字符按键键语词。
传统的线性标准键盘的按键操作,只能有单字符键语词和单字符按键键语词,如 a:=a,∧/a:=A,( CL’/ a):=A等都是单字符键语词,也都是单字符按键键语词。
利用语体要素功能非线性系统决定原理设计的人机汉文键语词系统,不仅有上述单字符键语词和单字符按键键语词,而且还可以有多字符按键键语词和字符串键语词。例如,在声韵码键语词中,可有键语词: a*s:=A, t*r*e:=T,
Figure A95103157002412
Figure A95103157002413
等都是多字符按键键语词,后两个还是字符串键语词——可以表达两个以上编码字符的一个键语词。
为特定语言的语音和文字系统的高效表达而设计的字符串键语词可称为语文字符串键语词。表达汉语、汉字信息编码字符系统的字符串键语词又称人机汉文字符串键语词。利用人机汉文字符串键语词表达式,可以有效地描述人机汉文编码字符的输入按键操作子系统。
键语词与其“值”的关系以及键语词与其语义的关系除可用相应的表达式和键值关系符、语义关系符来描述外,还可用键语词表、键语词素表来描述。例如,人机汉文键语词系统的单字符键语词的“值”及“语义”可用图5描述,声韵码和语音码的字符串键语词的“值”及“语义”可用图6、图7、图8来描述。汉字义形码字符串键语词的“值”及“语义”可用图9来描述。
利用上述各种键语词表达式和键语词表及键语词素表的规定,可以将任一汉语、汉字信息编码的字符有效地转写为相应的键语词表达式。
例如,“汉”字的汉字码编码字符为“Hats”。利用“图5常用单字符键语词表”,可得到如下表达式:
汉:=Hats:= ∧/h/ a/ t/ s
利用相应字符串键语词表达式和图6、图7、图8、图9等字符串键语词素表,可得到如下表达式:
汉:
其中:声母编码字符“H”的表达式可由图6得到:
Figure A9510315700252
      韵母编码字符“a”的表达式可由图7得到:
      带调义形码字符串“ts”的表达式可由图9得到:
Figure A9510315700254
人机汉文编码处理方法的第三步是操作人员根据人机汉文编码字符的键语词表达式,利用计算机汉语汉字信息编码处理设备,在键盘20上进行按键操作——输入相应的键语词信息。该键语词信息可被键盘20和键码转换器25转换为编码字符代码。操作人员也可根据需输入汉字的键语词表达式和相应的汉字读音,利用音键并用输入法向计算机处理设备输入有关汉字和汉语语音信息。即,在利用话筒30输入汉字音节语音的同时,在键盘20上输入相应汉字的非语音编码部分,输入的汉字音节语音经音码转换器35分析处理后转换为相应语音的、用标准ASCII代码表示的人机汉文编码字符代码——又称音源代码;而由键盘20输入经键码转换器25处理得到的编码字符代码相应的称为键源代码。一个汉字的音源代码和键源代码经混码器40处理后,可形成该汉字的完整的人机汉文编码字符代码。在音键并用输入状态下,单纯由话筒30输入的汉语音节语音,经音码转换器35处理后,被转换为与输入的音节语音相应的语音码的编码字符代码。在中央处理器10的控制下,上述各种编码字符代码可以被双向码字转换器45转换为相应的内码序列。利用这些内码序列,可在字库50中确定相应的汉字或字符。利用双向码字转换器45也可以将与汉字对应的内码序列转换为编码字符代码。利用音码转换器35也可以将语音码和汉字码的编码字符代码转换为相应音节语音的、可由扬声器90输出的电信号。利用中央处理器10、显示器60、打字机70、通信管理模块80、扬声器90等,可以对编码字符或汉字进行显示、打印、播音、存贮和传输等项操作。
设计音键并用输入法,同样是因为综合考虑了人机系统汉语汉字信息处理技术的现状和发展趋势。众所周知,语音输入是最自然有效的计算机语言信息输入方式之一。随着多媒体计算机技术的发展,汉语语音信息与汉语文字信息的综合处理是汉语汉字信息计算机处理技术的必然发展趋势。
汉语语音的特点是:音节结构简单,元音占优势,辅音和元音互相间隔,每个音节均带有声调,声调有辩义作用且在语音识别时具有较强的抗干扰能力。这些都使汉语音节节奏分明,音节之间的间隙明显,易于分割,易于辩别。因此,汉语音节相当便于计算机识别处理。随着多媒体计算机技术的发展,现已有多种较为成熟、实用的汉语音节识别技术。正因如此,一些专家认为汉语将成为声控计算机的第一语言。
汉语语音信息计算机处理尚未很好解决的难题主要存在于音节以上的层次中,如同音字的分化,语词的切分,句法分析,拼音—汉字的转换,等等。
但另一方面,采用计算机键盘输入技术恰好可以有效地解决汉语同音字分化、语词切分等问题。
因此,本发明设计的音键并用输入法可以扬长避短,采用优势互补的方式,能有效地综合利用话筒30输入汉语音节语音信息和键盘20输入同音字分化符号和语词切分符号的技术来解决汉语汉字信息计算机输入问题。在后面的实施例中可以看到使用音键并用输入法和人机汉文编码字符串键语词,一般输入一个汉字的平均按键次数小于1(包括空格键的按键操作)。这是现有的、仅着眼于适应传统键盘输入方式而没有很好考虑多媒体计算机技术发展的各种汉字输入编码方案所无法达到的。
本发明的人机汉文编码系统还可以带有一个盲打消重码子系统、一个简化标调子系统、一个外来语编码子系统、一个轮廓码子系统、一个简码子系统、一个人机汉文字母子系统和一个方块汉文子系统,相应计算机处理设备的字符输入键盘可以是一个有新型键面的线性电子键盘,也可以是一个新型的非线性键语词键盘,而且可采用音键并用输入法向计算机系统设备输入操作指令。
关于本发明的特征及其优点等详细情况,可以从附图和下面给出的较佳实施例中得到更清楚的了解。
本发明的附图说明:
图1声母字码读音规则表
图2韵母字码读音规则表
图3汉字常用义形部首编码表
图4轮廓笔形类部首编码详解表
图5常用单字符键语词表
图6声韵码字符串键语词的声母编码键语词素表
图7声韵码字符串键语词的韵母编码键语词素表
图8语音码字符串键语词的声调编码键语词素表
图9汉字义形码字符串键语词的编码字符键语词素表
图10汉语汉字信息编码处理设备框图
图11人机汉文编码处理设备的线性键盘
图12人机汉文编码处理设备的非线性键语词键盘
图13非线性键语词键盘设备框图
图14人机汉文编码处理系统结构框图
下面参照附图,详细介绍本发明的一个较佳实施例。
本发明采用标准ASCII代码字符(包括拉丁字母、空格字符、数字等)作为编码基本字符来给汉语汉字信息编码,根据国际上文字系统的字符使用惯例把拉丁字母和空格字符作为主要编码字符,还根据人机语言文字学理论将26个拉丁字母的大写、小写形式分化为52个字符来作为汉语汉字信息编码的基本字符——字位字符。
利用字位字符进行编码时,本发明自觉地系统运用语体要素功能非线性系统决定原理,使得任一编码系统的要素——字位字符对汉语汉字信息的具体表达功能是由该字符与其它相关字符共同组成的子系统按规则决定。为此,在给汉语音节声韵信息进行编码时,首先将声韵码子系统所用字符进行分类:把六个元音字母的12个元音字符a、e、i、o、u、y、A、B、I、O、U、Y作为韵母编码字符,并把b、c、d、f、g、h、j、k、l、m、n、p、q、r、s、t、x、z等18个小写辅音字符及其相应的大写辅音字符作为声母编码字符。上述韵母和声母编码字符统称基本表音字符。另外,把v、V、w、W4个字符作为变读字符。
在用声母字符和韵母字符来给汉语的声母、韵母信息编码时,人机汉文系统全面继承并扩展汉语拼音方案用单个字符来表示一个汉语声母和韵母的有关规定,即,继承用单个字符a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、x、z来分别表示相应汉语声母和韵母的规定,并扩展这一规定,用单个字符y来表示韵母{ü)——这一规定与国际音标的规定吻合。
变读字符一般不能单独用来表示语音,但可以用来构成变读规则改变表音字符的表音功能。由韵母字符与变读字符构成的字符组合称为韵母字组,韵母字符和韵母字组统称韵母字码。由声母字符与变读字符构成的字符组合称为声母字组,声母字符和声母字组统称声母字码。
声韵码子系统的变读规则的具体内容可以是:
——字母变读规则:元音字母的大写、小写形式分别表示语音不同的韵母,而辅音字母大写、小写形式的变化,不改变相应声母编码表示的语音。大写元音字母与其所表示的韵母关系可如表1所示。
表1
  大写元音字母     A     E     I     O     U     Y
    相应韵母     {ao}     {ei}     {ia}     {ou}     {ua}     {üe}
——字组变读规则:用基本表音字符后加变读字符v来表示按规则改变表音字符的原有读音而获得新的表音韵母字组。韵母字组与其所表示的韵母读音可如表2所示,声母字组与其所表示的声母读音可如表3所示。由表2、表3可知,变读字符v表示按规定改变其前表音字符的原有读音,变读字符v的作用类似于俄语中的软音字符b。
表2
    韵母字组    av   ev   iv   ov   uv    yv
    相应读音   {ang}   {eng}   {ing}   {ong}   {er}   {ê}
表3
    声母字组     cv   sv   zv   nv   jv   tv
    相应读音    {ch}   {sh}   {zh}   {ng}   {y}   {w}
汉语音节声韵码的基本码式为γsy=γsy,(1)。
(1)式中,γsy为音节声韵码,γs为音节声母码,γy为音节韵母码。对零声母音节,如{ān}、{èi}等,可省去声母码γs。对零韵母音节(如{}、{hm}、{ň}{}等),可省去韵母码γy
根据音节声韵码的字符组合形式特征,可将其分为两类:简音节声韵码和繁音节声韵码。
简音节声韵码的基本形式特征是:声母码γs的声母字符为单个小写形式;韵母码γy的韵母字符(或字组)为:a、e、i、o、u、A、E、I、O、U、Y、av、ev、iv、ov、uv、yu。对零声母音节,省去声母码γs即可。例如:ca、cva、svA、zav、e、E、iv等均是简音节声韵码。
繁音节声韵码的基本形式特征是:声母码γs的声母字符采用繁体形式——单个大写的声母字符或双写小写的声母字符(如D、F、dd、ff);声母码γs后的韵母码γy的韵母字符(或字组)与简音节声韵码的相同。对零声母音节,可省去声母码γs,同时,繁音节声韵码的韵母码应采用繁体形式——在简音节韵母码的形式后加音节变读字符w或在大写韵母字符后加变读字符v。例如:Ca、Cva、DE、ddA、qqiv、aw、Iw、Iv、Ev等均是繁音节声韵码。
声韵码子系统的音节变读规则可表达为:同一韵母字码在音节形式类型不同的音节中,按规定表示不同的韵母读音。在简音节声韵码中,韵母字码——韵母字符或字组——发其简音节读音;在繁音节声韵码中,韵母字码发相应的繁音节读音。而声母字码——声母字符或字组——在简音节或繁音节声韵码中,都表示同一种读音。
这一音节变读规则类似于英文的元音字母开、闭音节读音规则。
声母字码的读音可用如图1所示的声母字码读音规则表确定。
韵母字码的简音节读音和繁音节读音可用如图2所示的韵母字码简、繁音节读音规则表确定。
图1中,声母字码被分为简体和繁体两种形式,繁体形式可有两种写法。声母字码的简体形式和繁体形式可用于构成简音节声韵码和繁音节声韵码。繁体声母码的两种写法的作用相同可以互换。声母码的读音用汉语拼音方案的字符标注。声母码nv、jv、tv等一般只用于拼写外来语和拟声词(如jvo→{yo}唷)
韵母字码的简音节读音和繁音节读音如图2的韵母字码简、繁音节读音规则表所示。其中
(1)、韵母字码“i”在简音节声韵码中还可表示“知、蚩、诗、日、资、雌、思”等字的韵母读音。
(2)、韵母字码的繁体形式主要用于零声母的繁音节声韵码,即用作没有声母的繁音节韵母的编码。
(3)、在繁音节声韵码中,声母码后的韵母字符“u”可表示韵母{uan}或{üan},韵母字符“y”可表示韵母{uen}或{üen}。但在零声母的繁音节声韵码中,韵母{uan}、{üan}、{uen}、{üen}的韵母码应分别写作繁体形式uw、uW、yw、yW。
(4)、与韵母字码av、ev、iv、ov、yv相应的繁体形式都有两种,两种的用法相同。
(5)、图2实际包含了韵母字符的字母变读规则、字组变读规则和音节变读规则的有关内容。分析可知,这些声韵码子系统的韵母字符变读规则是相当有规律的。
韵母字符字母变读的规律是:简音节声韵码的大写元音字母的读音均由两个音素拼成,而且必定以相应小写元音字母表示的音素开头。
韵母字组变读的规律是:除uv、yv外,所有韵母字组的读音均由两个音素组成,而且是由字组的韵母字符表示的音素与音素{η}拼成。
韵母音节变读的规律是:除yv外,所有韵母字码的繁音节读音都与相应的简音节读音有密切联系——或者是简音节读音的音素反拼(如E(简){ei}→E(繁){ie},I(简){ia}→I(繁){ai}),或者是在简音节的读音音素上加拼1~2个音素(例如a(简){a}→a(繁){an},ov(简){ong}→ov(繁){iong})。
利用声韵码子系统的表音字符、变读字符和变读规则,可以按声韵码基本码式(1)给所有的汉语音节的声母和韵母分别编码表达。对《新华字典》所列的现代汉语全部400多个音节的声韵编码,平均每个音节编码字符数为2.3个,比汉语拼音方案的减少30%以上,同时由于字符的形式总数增加了一倍(由26个增加到52个),从而大大增加了不同音节在字符形式上的区别,可避免大量类似{zhong}、{zheng}、{zhang}、{zhuang}及{zhongzhong}(种种)和{chong-chong}(重重)等由5~6个以上字母组成的不同音节编码只有一个区别字母的现象,增强了语音编码之间的区别性能及可读性。
汉语音节声韵码拼写示范:音节{a}的声韵码是a(下面简写为{a}=:a),{ao}=:A,{iao}=:Aw,{ang}=:av,{ueng}=:Ev,{bi}=:bi,{bin}=:Bi,{qiang}=:Qiv,{kuang}=:Kav。
上述人机汉文编码系统的声韵码子系统的每一个韵母编码可以含有而且只含有一个韵母字符。一个韵母的编码可以是一个韵母字符或是一个韵母字符与变读字符(v、w、W)的组合,而且,所有的韵母编码均不含有声母字符;一个声母编码至少含有一个声母字符,它可以是一个声母字符或两个相同的小写声母字符,或者是声母字符与变读字符v的组合。所有的声母编码也不含有韵母字符。因此,任一韵母编码或声母编码都有明确的起止范围,并且两者的字符形式是互不相同的。声韵码子系统的上述结构特征是人机汉文编码系统成功设计的关键之一,它为进一步简洁明确、系统规则地构建汉语汉字声调码子系统、义形码子系统、消重码子系统、轮廓码子系统、简码子系统等创造了良好的条件。
汉语音节语音码的基本码式为:γi=γsyd=γsyd,(2)。
其中,γi为音节语音码,γsy为声韵码,γs为声母码,γy为韵母码,γd为声调码。
在现代汉语的正常话语语音组合中,下述语音一般不会在词中的其它韵母后紧跟着出现:{a}啊,{ei}欸,{o}喔,{eng}亨韵,{ong}翁韵,{ê}爷韵尾。因此,可以用表示这些语音的编码字符——韵母字码(a、E、o、ev、ov、yv)直接放在声韵码的韵母字符后表示各种音节声调,构成声调码子系统的音节声调码编码字符。此时,这些韵母字码被称为条件声调码。条件声调码与其所表示的声调之间的对应关系可以规定如下:
表4
   条件声调码    a(Va)    o(Vo)    E(VE)    ev(Ve)     yv(Vy)
表示的声调    {—}阴平    {/}阳平    {v}上声     {}去声 轻声
表4说明:
①括号()内的形式一般仅用于声韵码以辅音字母结尾时,如零韵母拟声词{}=:mVo,{ň}=:nVE。
②用于表示去声{\}声调的条件声调字符ev(Ve)一般可以省略,但对分词书写的单个音节及零声母或零韵母的拟声词(如:{éi}、{ň}等的语音码,声调码不能省略。
带有声调码的汉语音节语音码编码举例:{bīn}=:Bia,{iáo}=:Awo,{qiǎng}=:QivE,{kuàng}=:Kavev,{Hànzì}=:Hazi,{}=:nVe,{é}=:eo。
汉字码的基本码式是:γz=γix,(3)
                    或γz=γsyxd,(4)。
其中,γz为汉字码,γi为语音码,γx为义形码,γsy为声韵码,γxd为带调义形码。对零韵母的拟声母(如呣、嗯、哼等),只能用(3)式编码。
义形码子系统将所有被选用的义形部首分为18类,并用18个声母字符作为类名符,类名符一般为类名的第一个字的语音码首字母。每一类部首最多包含17个部,并且用17个声母作为部名符,部名符一般为部名的关键字语音码的首字母。任一部首的编码的义形码由该部首的类名符和部名符组成——第一个编码字符为部首的类名符γxl,第二个编码字符为部首的部名符γxd。即义形码的码式为:
γx=γxlxb
一个义形部首可以有一个或一个以上的义形码。一个义形码可以按规定表示若干个义形部首。
由上述方法得到的常用部首的义形码如图3所示,其中的部首包括最常用的《新华字典》所用的全部部首以及四角号码查字法所用的各种汉字轮廓笔形。
当跟在声韵码后的汉字义形码的两个字母的大写、小写形式变化时,不但不影响对义形信息的表达,而且还可表示其前声韵码的音节声调,形成带调义形码γxd。带调义形码的两个字母的大写、小写组合形式与其所表示的声调的对应关系如表4所示。
表5
   组合形式   大写/小写   小写/大写   大写/大写   小写/小写
   表示声调   {—}阴平    {/}阳平     {V}上声    {}去声
表5中“大写”表示大写字母,“小写”表示小写字母。第一个为类名符,第二个为部名符。
根据汉字码的基本码式(3)或(4)以及图1、图2、图3、表3、表4和前面关于汉字义形码的取码规则,我们就可给出每一个汉字的人机汉文编码。例如:
根据(3)式:滨=:Biats,抢=:QivEjt,矿=:Kavtk,饿=:ecb,鹅=:eosj;
根据(4)式:滨=:BiTs,抢=:QivJT,矿=:Kavtk,饿=:ecb,鹅=:esJ。
由上可知,用(4)式表达的汉字编码较为简洁,故较常用。汉字码的不同拼法还可用于分化常用重码字,例如,可规定:绩{jī}=:jiCs,而缉{jī}=:jiacs,从而可分离语音和义形部首都相同的汉字“绩”和“缉”的编码。
关于汉语话语及中文词句的编码表达:
语音码一般用于给汉语的话语语音编码。汉字码一般用于给中文的方块汉字编码。
汉语语句中没有停顿而连续发出的语音音节,相应的语音码一般可以不分词连写,语音音节之间的停顿可用空格或标点符号表示。对零声母或零韵母的拟声词(如{ā}啊,{ō}喔,{èi}欸,{}呣,{ń}嗯等)的语音码,应分词书写——用空格或标点符号将其与相邻的音节编码分隔开。
中文里不分词连写的汉字,其汉字码一般也可以不分词连写。对零声母或零韵母拟声词(啊、喔、呣、嗯等)应分词书写——用空格或标点符号将其与相邻的汉字码分隔开。
语音码子系统和汉字码子系统可以混合使用。但不同字词的编码之间一般应用空格或标点符号分隔开。
例如,对“汉语拼音方案”可以有:语音码γi=HayEPiaivafavaaw,汉字码γz=HatsyGJPiJ-tivGhfavXfawhm,混合码=HayE PiJtivGh favaaw。
对“汉字码系统”可以有:语音码γi=HazimaExitovE,汉字码γz=HatszifsmaTKx-icstovCS,混合码=HatszifsmaTK xitovE。
在人机汉文编码系统中,不分词而连写的语音码和汉字码的编码字符系统结构必有如下特征:
凡在韵母字码(元音字母或元音字母加变读字符v、w、W)后的a、o、E、ev、yv均为声调码。除去这些声调码,每个音节或每个汉字的编码定有且只有一个元音字母作韵母字符,它可与其后的变读字符v、w、W组合成韵母码。两个韵母码之间的声母字符(不包括v、w、W等变读字符)的个数为奇数时,最后一个声母字符即为后一韵母码音节的声母码。当连写的声母字符个数为偶数时,除最后两个相同的小写声母字符是声母码外,其它的声母字符都是前面一个汉字码的义形部首编码;若最后两个字符不是两个相同的小写声母字符,则后一韵母码音节没有声母码,是零声母音节。即,语音码子系统和汉字码子系统均具有自动划分各个汉语音节编码和汉字编码自组织功能特征;在不分词连写时,各个汉语音节或汉字的音、调、义、形信息编码也都保持各自的明确定义范围。相应编码系统的可读性强,容错性和可维护性好,可将编码处理时难以完全避免的人为错误的影响限制在最小范围内,便于查错和消除。
根据人机语言文字学理论,在前述步骤要点基础上构建的人机汉文编码系统,还具有以下人机语言文字学的特征:它不是拼音文字,但它能准确表达汉语语音,而且系统性更强——因为它对汉语语音系统的层次切分更科学,能规则地表达音节声调,它比理想的汉语拼音文字(汉语音素文字)能更全面地继承汉语语音系统的语言文字学优点:以声母、韵母和声调为音节子系统的构成要素,以韵母为音节核心,声韵双拼,音、调结合,音节表达规则简洁明确,音节划分形式自然分明。另一方面人机汉文编码系统不是表意文字,不同于方块汉字,但它能继承、发展汉字传统的直接表义功能,而且更系统、更规则。实际上,人机汉文系统的汉字码具有的不表语音的表义字符子系统,其表义功能比汉字的表义部首更规则、更开放而更易适应现代汉语词义表达的要求。人机汉文编码系统不是一种功能单一的计算机汉字输入编码方案,而是一种人和计算机系统的汉语汉字信息处理编码方案,它不仅能用于计算机汉语、汉字信息编码的字符键盘输入处理过程,而且能用于人机系统的其它多种语言文字信息处理过程,例如,编码使用者直接阅读、理解、修改汉语编码系统的语言信息处理过程,编码使用者用笔书写编码字符直接记录汉语、汉字的语言信息处理过程,人和计算机之间直接用编码字符进行人机对话交流的汉语语言信息处理过程,等等。
人机汉文编码系统可以带有一个盲打消重编码子系统(简称消重码子系统)。消重码子系统由汉字码重码字的盲打消重码组成。
盲打消重码的基本码式是:γc=γzxi(5)。
其中,γc为汉字盲打消重码,γz为带有义形码的汉字码,γxi为消重码。
消重码γxi的编码对象就是汉字的义形部首(含结构类型)。一个汉字的消重码γxi可以是一个义形部首(含汉字结构类型)的编码,也可以是若干个义形部首(含结构类型)的编码的有序集合。
盲打消重码子系统的使用方法(又称盲打消重法)是:在采用式(3)或(4)给汉字编汉字码向计算机系统输入时,若出现重码现象,计算机系统将发出相应的警示声音和屏幕显示。此时,就可使用盲打消重码子系统,按规则在汉字码后直接加消重码γxi用盲打操作(不看屏幕提示)消除重码现象。
消重码γxi的取码规则是:在完成重码字的汉字码编码后,去掉汉字已取码的义形部首,将剩下部分视为一个“汉字”,用义形码取码规则选取义形部首编码作为消重码。当该汉字的所有义形部首均已取过码时,就取汉字的结构类型——特殊的义形部首的编码作消重码。
消重码子系统的汉字义形部首(含结构类型)及其代码的规定参见图3汉字常用义形部首编码表。其中,义形部首和单部首结构汉字、左右结构汉字、上下结构汉字、内外结构汉字、复合结构汉字等汉字结构类型的定义与义形码子系统的规定都是相同的。
对一个汉字第一次使用消重码取码规则取得的消重码称为一级消重码。采用一级消重码,就可以规则而简易地大大减少重码现象。此时,国家标准(GB2312-80)《信息交换用汉字编码字符集·基本集》(以下简称《国标》)的3755个一级汉字,重码率为零。对《国标》基本汉字集的全部6763个汉字(包括一级汉字3755个,二级汉字3008个),静态重码率低于千分之二(实为1.487‰),动态重码率低于万分之一(实为0.0436‰)。动态重码率的计算,根据《汉字信息字典》(上海交通大学汉字编码组、上海汉语拼音文字研究组编著,科学出版社,1988年第一版)的汉字使用频率统计数据,取所有重码字的使用频率之和作为相应汉字集的动态重码率。
对采用一级消重码仍不能分离的极少数重码,可以反复使用消重码取码规则取一个汉字的消重码,直到能分离相应的重码字或该汉字的义形部首和结构类型的编码全部取完。对一个汉字第n次使用消重码取码规则取得的消重码,就称为该汉字的n级消重码。一级以上的消重码统称多级消重码,如此利用消重码取码规则,可以仅用一种规则就使现行规范汉字的重码率降为零。(包括《国标》未收而《现代汉语通用字表》收有的一千多个现行规范汉字)
一级盲打消重码的应用举例:
“例”和“俐”的盲打消重码为“lirtrd”和“lirtzh”(韵母字码后的第三个字母开始即为消重码字符,以下同);“竞”和“竟”的为“jivjlgk”和“jivjltr”;“怼”和“憝”的为“Dygxxs”和“Dygxdj”;“季、祭、稷”的为“jizhrz、jizhxj、jizhtl”;“屡”和“履”的为“lyFQcm”和“lyFQfx”;“阕”和“阙”为“qYfmxd”和“qYfmdh”;“欠”和“歉”为“QYvdhbd”和“QYvdhlg”;“嚣、哮、哓”的为“XAGkgk、XAGkxl、XAGkqr”。
多级盲打消重码应用举例:
“昒”和“曶”的盲打消重码为“huTrqgbz”和“huTrqgbs”(结尾的“bz”和“bs”均是汉字结构类型编码);“侍”和“僿”的为“svirttnxf”和“svirttnbh”。
本发明的人机汉文编码系统可以带有一个采用声调通假标调法来对汉语音节编码进行声调标记的简化标调子系统。声调通假标调法也就是在汉语语音码子系统和汉字码子系统中,只保留部分声调标记及相应音节声调而废除其它声调标记及相应音节声调,并按规定用所保留的标记及相应声调代表被废除的标记及相应声调。例如,可只保留一种声调标记而省略其它声调标记,并将所有的音节全部读为所保留的一种声调。这样得到的只有一种声调标记的语音码、汉字码子系统称为简化标调子系统。声调通假标调法所保留的声调,可以是去声声调。此时,又称为去声通假标调法。
设计简化标调子系统,主要出于下述考虑:现代汉语是音节带有声调的语言,作为汉语语言文字后语体的人机汉文编码系统必须有相应的声调字符编码形式系统。但是,在汉语声调编码表达中,我们必须正视两个方面的不同现象、不同的事实及观点,它们都带有一定的普遍性,必须给予认真地考虑和适当地处理。一方面,现有的汉语词、句的音节基本上总是带声调的,对不带声调的汉语表音字符形式,我们总觉得是少了某个要素的、不确定的语音编码而很难开口读出它所表示的语音——不论是对单词字符形式,还是对语句字符形式。因此,汉语语音编码子系统应有明确而系统的声调标记。另一方面,很多汉语使用者在讲汉语时,普遍存在声调不正确、不标准的现象,大多数人很难标出正确的汉语音节声调。另外,汉语声调可看作是有效区别同音词的多种手段之一,随着多音节词的发展,声调的这种作用将逐渐降低。因此,不带音节声调标记的汉语表音系统是一种合理的发展趋势。
人机汉文编码系统对这两种观点采取中庸之道,兼收并容,给出几种完全相互兼容的,能适应不同需要的标调方法。前面的语音码子系统和汉字码子系统给出了两种标调方法,它们主要体现了第一种观点,而简化标调子系统则主要体现第二种观点。简化标调子系统将汉语音节的几种声调简化为一种,并规定不带音节声调字符标记的编码系统就是在用这种声调代替(通假)其它声调来给没有特别声调标记的汉语音节标调——这种做法类似于汉字的通假造字法,因此,我们也可称其为声调通假标调法。应该指出,使用不带声调标记的声调通假标调法的语音编码系统与无声调的语音编码系统是不同的,前者的字词编码有确定的声调,后者的则没有。
实验研究表明,在某些语境确定的情况下,交际语句采用去声来作句中音节的通假声调——将句中一般音节全部读作去声声调——简称去声句读法,也可以进行相当有效地语言信息交流,我们把这种现象称为去声句读现象。因此,可以选用去声作为声调通假标调法的通假声调,并以此构建人机汉文编码简化标调子系统。例如,“用这种方法也可以进行汉语对话”,这句话的语音码和汉字码,在采用去声通假标调法的简化标调子系统中可以写成
语音码:“OvzvezvovfavfaEwkeiJixivHayDYhU。”
用这种方法也可以进行汉语对话。
汉字码:“OvdgzvelhzvovzhfavxffatsEwltkeljircJifhxivfxHatsygjDYxchUgj。”
用这种方法也可以进行汉语对话。
应该指出,在应用人机汉文编码系统时采用去声句读法的简化标调子系统主要用于语境确定、并以语句为单位的人机语言信息交流处理过程。
本发明的人机汉文编码系统可以含有一个方言和外来语(简称外来语)的专用编码子系统——简称外来语子系统。在当今世界,外来语言文化的消化吸收是任一民族文明发展的必然需要,也是一种语言发展的强大动力。尽管以继承、发展汉语传统语言文化为主要任务的语音码子系统、汉字码子系统和任一语言文字一样,可用于外来语言文化的编码表达。但是,考虑到外来语言文化的性质内容、形式特征、消化吸收过程及其利弊影响等因素,一些语言文字采用特殊的字符拼写形式来表达外来语的做法值得借鉴。例如,日文就采用特殊的拼法来表达外来语。为了便于对外来语言文化进行分类处理、学习、识别、选择、吸收,以有利于汉语文化的健康发展,人机汉文编码系统设有一个外来语专用编码子系统,该子系统与传统汉语汉字编码子系统相对独立、高度兼容,可以混用。
外来语子系统对人机汉文编码系统要表达的新外来语词汇,采用音译编码法或借字编码法来编码表达,其规则如下:
1.音译编码法一律用小写字母表达的汉语语音基本音素的拼音来对外来语词汇进行音译编码,而且,除用作音节韵母成分的声母字符l、m、n、nv外,其它声母字码后均应带有韵母字码。但音译编码法不使用声韵码子系统的字母变读规则和音节变读规则,也不采用声韵双拼,而是音素拼音。例如,{ao}用“ao”表示而不用“A”表示,{ban}的编码为“ban”而不是“Ba”。
2.借字编码法就是一个外来语词用标准的ASCII代码字符书写时,可直接借用外来语词的字母组合形式(一般保持字母的数量、次序不变,但字母的大写、小写形式可适当改变),作为该外来语词的人机汉文编码主体。相应的编码字符一般按声韵码子系统的读音规则发音,对编码中不能按声韵双拼规则与韵母字码相拼的声母字符一律读作《汉语拼音方案》中相应声母表注音字的读音,如“S”读思{sī},字母v、w读作《汉语拼音方案》中字母表的字母名称读音。借字编码法特别适用于外来语的缩写词、专业术语等的转写编码。
3.不论是音译编码法还是借字编码法,当外来语词的音节带有特定的声调并须标记时,均在相应音节后用五度制音高数值标调法(简称音高标调法)用两个以上的数字进行标调,例如,广州方言“冇”和“冚”的编码分别为:冇=:mou23;冚=:kem35。
4.所有的外来语词编码均应以词为单位分词书写——词前、词后有空格或标点符号,并且一般要在词首或词尾附加外来语标记。
——当外来语词音译编码以声母字符l、m、n、nv等结尾时,一般要双写这个辅音字母。如:cocaine(可卡因)=:keka’inn。
——当外来语词音译编码以元音字母结尾时,一般在词尾加一个不发音的小写字母“S”。如:logic(逻辑)=:lojis。
——当外来语词为专有名词时,一般应在音译编码码首加不发音的大写字母“V”,同时词尾不再交化。如:Eskimo(爱斯基摩人)=:Vaisijimo。
——采用借字编码法时,外来词标记可以不用附加字母而用附加非字母符号(称为借字符号)来表示。借字符号可以是附加在词首左上角的单撇号(’)。例如:UFO(不明飞行物)=:’ufo{ufo},UNESCO(联合国教科文组织)=:’uNESCo{uniesicuo}。
——当外来语编码带有声调标记数字时,不需再附加其它外来语标记。例如,广州方言的
Figure A9510315700342
的编码为
Figure A9510315700343
Figure A9510315700344
5.当外来语词编码中的相邻音节界限容易混淆时,可用一个非字母符号作隔音符号分隔音节。隔音符号可以用单撇号(’)兼任。例如:piano(钢琴)=:pi’einous。
6.外来语词编码中的不标明声调的音节一般均读作去声声调。
7.采用音高标调法标调的外来语词,可以直接在词尾附加义形码编码字符,例如:广州方言字
Figure A9510315700345
的编码可写为:“go35gk”。
有了汉字码子系统,就可以利用人机汉文编码处理设备有效地处理汉字信息。但考虑到某些特殊用户的需要,人机汉文编码系统还可带有一个初级编码应用支持子系统和一个高级编码应用支持子系统。
考虑到某些用户使用以语音子系统为基础的汉字码子系统的具体情况和困难(如在看汉字进行编码和键盘输入时,用户不熟悉汉字的正确读音等),人机汉文编码系统给出一个汉字轮廓笔形编码子系统(简称轮廓码子系统)作为初级编码应用支持系统。
考虑到有关专业人员对高速输入汉字的特别需要,人机汉文编码系统设计了简码子系统作为高级编码应用支持子系统。
轮廓码子系统的汉字编码要素——笔形——就是义形码子系统中的轮廓笔形类部首,也称表形部首。关于轮廓笔形类部首的更详细的说明见图4轮廓笔形类部首详解编码表。
图4中,笔形1~5主要为一笔划笔形,笔形6~11主要为二笔划笔形,笔形12~13主要为三笔划笔形,笔形14~17主要为边框笔形。凡不能满足由左到右、由上到下的书写规则用一笔写出的笔形就是由两个以上笔划构成的笔形。
在轮廓码子系统中,采用多个表形部首——轮廓笔形部首——来描述一个汉字的字形结构轮廓,并用这些轮廓笔形部首的编码作为相应汉字的编码。
轮廓码子系统根据汉字轮廓笔形在汉字结构中的位置将其划分为二个层次:主要轮廓笔形和辅助轮廓笔形。
——主要轮廓笔形指构成整个方块权字主要轮廓的编码笔形。
——辅助轮廓笔形指除掉方块汉字的主要轮廓笔形后剩下部分的编码轮廓笔形。
汉字轮廓码的编码规则如下:
(1)轮廓笔形码一般用声母字符表示。一个汉字的第一个轮廓笔形的编码采用相应的表形部首代码的全码,其后的轮廓笔形的编码只用相应表形部首的部名符而不用其类名符。即,一个汉字的轮廓笔形码一定以表形部首的类名符l开头,其后的每一个声母字符都是一种轮廓笔形结构所属的表形部首的部名符。例如:锅=:lrcks,艺=:ltz,内=:lfr,因=:lkcn,斑=:lhhmh,禾=:lscq。
(2)先拆分,后取码:由二个以上笔划组成的汉字都要先拆分为两个部分,一般应将一个汉字拆分为左边和右边、上边和下边、外边和内部、边框和叉架等两个部分。例如:“锅”拆分为(钅、呙)、艺(艹、乙)、因(囗、大)、内(冂、人)等。对左中右或上中下结构汉字,应将中部部分拆归右边或下边部分。例如:斑(王、
Figure A9510315700351
)、蓝(艹、监)等。对框架结构汉字,拆分时,叉架笔形就是边框内部(不包括边框)的笔形,例如,“甲”不应拆为(口、),而应拆为(口、十)。对单部首汉字一般也要根据编码规则拆分为二个部分,例如,尸(丿、
Figure A9510315700352
)、户(丶、尸)、禾(ノ、木)、州(小、
Figure A9510315700353
)。最后两个单体字,可看作由轮廓笔形组成的上中下结构汉字和左中右结构汉字。
(3)对拆分出的两个部分,按先上后下、先左后右、先外后内、先(边)框后(叉)架的顺序分别取汉字主要轮廓笔形码。对每一部分的轮廓笔形也按上述顺序取码,一个部分最多取两码。一般应取在整个汉字的字边或字角的笔划构成或参与构成的主要轮廓笔形码。对上中下、左中右和内外结构的汉字的中右、中下和内部部分,应取其最左(上)和最右(下)边角的笔划构成或参与构成的轮廓笔形来编码。例如,锅(、十、口、冂),斑(一、一、亠、一),因(囗、ナ、
Figure A9510315700354
Figure A9510315700355
),若(艹、ナ、口),禾(ノ、十、小),州(小、丨、丨)。
(4)前面编码用过的笔划一般不再重复取码,例如,“甲”取码笔形是(口、十),而不是(口、十、丨)。但前面编码用过的笔划可与后面没用过的笔划组成新的轮廓笔形编码,例如:“聿”取码笔形是(、十、)。
(5)在同一部位按前述规则取码时,能取较多笔划构成的规则轮廓笔形码,就不取较少笔划构成的笔形码。例如:文不取(丶、一、丿、),而取(亠、ㄨ),火不取(丶、ノ、丿、),而取(小、八)。
(6)每个汉字最多取四码,主要轮廓码不足四码时,可根据需要补取1个辅助轮廓笔形码,应优先选取接近最后主要轮廓笔形的、没用过的轮廓笔形作为辅助轮廓笔形码。例如:蓝(艹、
Figure A9510315700356
Figure A9510315700357
Figure A9510315700358
,廓(广、亠、阝、十)。
(7)相邻汉字的轮廓笔形码的编码字符可以连写而不用空格分隔开,其中每一个汉字的第一个轮廓笔形部首的类名符l字符均表示前一汉字的编码结束并开始后一汉字的编码。例如,革命=:lthkclrhkp,共产党=:lthglmgjlqfkg。
(8)轮廓笔形码子系统可以与其它汉语汉字编码子系统同时混合使用,但不同子系统的编码之间要用空格分隔开。例如,革命=:lthkc Mirc,汉字=:Hats lnfzc。其中,“命”和“汉”字的编码为汉字码。
高级编码应用支持子系统——即简码系统由单字简码子系统和词汇简码子系统组成。
简码系统的汉字字词简码的一般码式是:“前空格/字、词简码字符段(γjn)/后空格”。
其中,“前空格/”和“/后空格”分别是简码的前字符段和后字符段,它们是简码的重要组成部分。相邻汉字的字、词简码之间、简码与其它编码之间,一定要有空格分隔开。只有当一个简码前后已有空格或非字母和数字的标点符号时,才可以省略本简码的相应前、后空格。
“/字、词简码字符段(γjn)/”,可简写为“简码字符γjn”或“γjn”,其中,下标“n”变化时,可表示不同的字、词简码种类,例如,γj1为单字一级简码,γj4为词汇二级简码。“γjn”的编码规则为:
(1)单字一级简码的简码字符γj1为“单个字符”。
“单个字符”可以是任一拉丁字母的大写或小写形式。单字一级简码共有52个。例如,汉字“不{bù}”和把“{bǎ}”的一级简码的简码字符γj1分别为“b”和“B”(可简写为“不{bù}的γj1=b”和“把{bǎ}的γj1=B”,以下同)。
(2)单字二级简码的简码字符γj2为“单个汉字的声韵码”。
这里,作为简码字符γj2的声韵码都是不带声调码的,并可采用各种声韵码拼法,而且同一读音的不同声韵码拼法可规定为不同汉字的二级简码字符γj2。例如,可规定:“本{běn}的γj2=Be,而奔{bēn}的γj2=bbe。
单字二级简码可用于消除汉字重码现象。相应的简码称为消重二级简码。例如,“竟”和“竞”两字的语音和义形部首都相同,它们的汉字码是重码。为消除这一重码现象,可规定:“竟”字一般用二级简码输入,而“竞”字一般用汉字码输入。这样,“竟”字的二级简码就是一个消重二级简码。
γj2与汉语语音码γi的区别在于:γi一般带有声调码,特别是单个音节的、前后有空格的语音码γi一定带有声调码,而且相邻的γi要连写。例如,“革命”的γi=geoMi,它们的单字二级简码为
(3)词汇一级简码的简码字符γj3的形式为“词汇各个汉字的声韵码首字母”。
例如,“汉字”的γj3=hz;“形式”的γj3=xs。
注意,当词汇中有的汉字语音为零声母音节,或词汇的简码字符串含有“双写声母字符加韵母字符”的形式,相应词一级简码字符与单字二级简码或语音码、汉字码等其它编码结构相同时,应在简码字符尾部加数字码“7”——它表示其前字符串为词汇一级简码,其中,每个字母字符均为一个汉字的声韵码首字母。
例如,“公安”的γj3=ga7,“经营”的γj3=gi7,“文化馆”的γj3=yhg7,“可卡因”的γj3=kki7。但是“公安局”的γj3=gaj,“安全”的γj3=aq,因为这些简码不会与其它编码相混。
(4)词汇二级简码的简码字符γj4的形式为“相应词汇的一级简码字符γj3后加词尾汉字的声韵码除首字母外的其余部分”。
例如,“数字”的γj4=szi,“帮助”的γj4=bzvu。
注意,当词中有的汉字语音为零声母音节,或词汇简码字符含有“双写声母字符加韵母字符”的形式,相应的词汇二级简码字符与声韵码、汉字码等其它编码结构相同时,应在简码字符尾部加数字码“8”——它表示其前字符串为词汇二级简码。
例如,“摆布”的γj4=bbu8,“会议”的γj4=hi8。
(5)词汇三级简码的简码字符γj5的形式为“词汇二级简码字符γj4加词尾汉字的义形码”。
例如:“词汇”的γj5=CHYts;“声调”的γj5=sDAgd。
注意,当词中有的汉字语音为零声母音节等情况,相应的词汇三级简码字符与其它汉字编码结构相同,应在简码字符尾部加数字“9”——它表示其前字符串为词汇三级简码。
例如,“大衣”的γj5=dick9,“体温计”的γj5=tyjigd9,“安全帽”的γj5=aqmAcp9。
由上可知,词汇一、二、三级简码都是模块化结构的,后一级简码可以在前一级简码的基础上加挂一个模块来构成。利用这种模块化的简码,可以降低词汇简码的记忆难度,为提高初学者的词汇简码使用效率创造了较好的条件。对任一个不知其简码的常用汉语词汇,初学者都可以用逐次升级的简码进行试输入,其中的每一次输入都是有用的,后一次输入不需从头开始。这就使大量的常用汉语词都可以方便地用简码输入,从而使初学者也可有效地使用简码提高输入速度。
(6)一般词汇简码(简称词汇码)的简码字符γj6的形式为“词首汉字的汉字码加其它汉字的语音码”或者“非词尾汉字的语音码加词尾汉字的汉字码”。前者又称为“排字型词汇码”(因其有利于词汇按词首汉字排版、检索),后者又称为“仿字型词汇码”(因这种词汇码的义形码附加方法类似于单个汉字的——义形码加在整个编码的尾部),一般排字型词汇码较为常用。
例如:“明确”的γj6=mivtRQY=mivotrQY,“次序”的γj6=citsxy,“太空船”的γj6=TIko-vaCvufZ(仿字型词汇码)。
词汇一、二、三级简码的码长较短,但可读性也较差。因此主要用于汉字的快速输入处理过程。一般词汇简码的可读性好,可用于汉语信息的排版、检索、阅读、输出、传输等处理过程。
简码子系统的各种简码,可与其它各种汉语、汉字编码子系统同时使用,但不同子系统的编码之间要用空格分隔开。这些编码子系统分别具有各自的明显系统特征,同时各种编码的音节和字节划分都保持着自然、明确的特点。
人机汉文编码系统可以采用新型字母子系统(又称人机汉文字母子系统)来编码表达。
由于传统拉丁字母系统只有26个字位,同一字位的大写字符和小写字符是一个字位的两个变体。有些字位的两个变体的字形极为相似,例如:S和s、C和c、O和o、Z和z、P和p、W和w、V和v,等等。它们在某些字符处理过程中,容易相互混淆。例如,大写字符串“WOSC”与小写字符串“wosc”在手写体人、机阅读、识别时都较易混淆。
因此,以标准ASCII代码字符为基本编码字符,把26个拉丁字母的大写、小写形式分化为52个字位,就应该考虑从字形上有效地分化它们,形成新的人机汉文字母子系统,以利进一步提高人机系统的各种字符处理过程的效率。在现有的人机系统中,分化拉丁字母以设计人机汉文字母字形,应首先考虑基本编码字符——ASCII代码字符的变换使用的可能性和可行性。
为了充分有效地利用标准ASCII代码字符(简称标准字符)这一人机系统的基本字符资源,更好地满足现代人机系统对文字字符数量及处理性能的要求,人机汉文编码系统引进派生字母的概念。派生字母是标准字符按规定作一定空间变换后形成的新字符。与一个派生字母对应的标准字符称为该派生字母的原字符。派生字母包括倒转字母、反面字母和复变字母。倒转字母是将标准字符倒转一定角度后形成的新字符。例如,将原字符“F”顺时针倒转90°、180°、270°后可分别形成倒转字母“
Figure A9510315700371
”、“
Figure A9510315700372
”、“ ”。
反面字母是将标准字符所在平面翻转180°后形成的新字符,例如,原字符“F”的反面字母是“ ”。
复变字母是将标准字符经过倒转和翻转两次空间变换后形成的新字符,例如,原字符“F”的复变字母有
人机汉文字母子系统由标准字符(包括字母和非字母字符)和派生字母组成。标准字符和派生字母又统称人机汉文字母(或汉文字母)。所有的汉文字母均有各不相同的字母名。
人机汉文字母子系统将一些派生字母作为某些字母形式(称为旧字符)的变体字符。变体字符可以代替旧字符用于人机汉文编码系统。旧字符可以是一个字母,也可以是一个以上字母组成的字母组合。例如,可将原字符——大写字符A——的倒转字母“”作为旧字符——大写字符V——的变体字符,即,在人机汉文编码的系统中,可以用“”来代替“V”。也可用原字符“e”的倒转字母“”来代替旧字符“ev”。
因此,人机汉文编码字符可以包括52个拉丁字符和若干变体字符,一些变体字符与相应的旧字符和原字符的关系如下表所示:表6
Figure A9510315700381
上表中的原字符有大写字符也有小写字符;旧字符有单个字符也有双字符组合。一个旧字符可以有一个以上的变体字符,如旧字符U的两个变体字符是
考虑到分化拉丁字母大写和小写形式的做法在应用、推广过程中的一些具体问题,人机汉文字母子系统还设计了一种字母大小写形式转换处理方法,该方法是引进一个拉丁字符大写小写形式转换符号(简称转换符号),并规定当此转换符号用于指定的人机汉文编码子系统时(例如,用于声韵码、语音码、义形码、汉字码、消重码、轮廓码和简码等子系统时),可以表示将转换符号前的大写(或小写)字符转换为相应字母的小写(或大写)字符。该转换符号可以选用ASCII代码字符中任一结构简单、书写添加容易的标点符号担任。利用语体要素功能非线性系统决定原理,我们可以选用单撇号(’)来兼作非外来语子系统的转换符号(在外来语子系统中单撇号可用作借字符号或隔音符号)。这样,当转换符号(’)用于语音码、汉字码等非外来语子系统时,可以有:a’=A,A’=a,b’e=Be:={ben},hu’z’c=hUZc:=花。
由此还可知,利用单撇号(’)和小写拉丁字母,就可以写出所有人机汉文编码系统的任一汉语汉字编码。这样的人机汉文编码系统又称小写字母转换编码系统。实际上,几乎所有的拉丁化西文系统都可以容易地利用类似方法、用26个小写字母和一个转换符号,转写出原来用52个大、小写字符来表达的文字系统。所以说,西文系统对宝贵的字符资源的浪费是很大的。
在编码处理中,利用转换符号,也可以很容易地对字母大、小写形式弄错之处进行修改。
应该说明含有派生字母、变体字符和转换符号的人机汉文字母子系统的设计可为人机汉文编码系统发展提供多样化的选择,改善某些汉语汉字信息编码文本处理的条件,提高处理效率,但人机汉文字母子系统并不是人机汉文编码系统必不可少的部分。
实际上,人机汉文编码系统还允许用许多其它方式来使用派生字母给汉语汉字信息编码,例如,可以用派生字母
Figure A9510315700384
作为与字符a和
Figure A9510315700385
不同的新字位字符来取代声调码子系统的条件声调码“a”,给音节声调{—}(阴平)编码;还可以用派生字母“
Figure A9510315700386
”、“
Figure A9510315700387
”来给义形码子系统的义形部首“亻”编码,并表示该编码“
Figure A9510315700388
”带有与该义形部首“亻”的带调义形码“rt,Rt,rT,RT”不同的声调(如广州方言字“佢”的声调——调值为“23”),等等。
众所周知,字元(包括笔画、部首、偏旁等)非线性排列的方块汉字具有字元排列紧凑、文字单位面积信息含量大、文本篇幅短、阅读处理效率高且节约文字显示空间,可以横排也可竖排且读写均方便,文字的音节划分自然明确,诗词文字形式能在一定程度上反映语言的结构美等文字学优点。为更好地继承这些优点,人机汉文编码系统可以带有一个方块汉文子系统,方块汉文子系统将人机汉文编码系统的汉语、汉字编码字符采用方块字写法进行拼写,其规则如下:依次将一个汉语音节的语音码或一个汉字的汉字码的各个编码字符,严格按先上后下、先左后右的顺序写入一个装字方格中,使得一个装字方格中的各个编码字符书写先后次序明确无疑。这样得到的编码又称为方块汉文编码。例如:键{jian}=:Jyvtj=Jtj yv,盘{pán}=:PaqZ=qZ Pn,键盘=:Jtj yv qZ Pn
应该指出,只有在显示、打印、阅读等汉字信息处理过程中,应用方块汉文能有效提高信息处理效率、效益时,方才使用方块汉文。
人机汉文系统的汉语汉字编码字符可以用单字符键语词一个一个字符地表达,也可以用字符串键语词来表达;可以用表示传统线性字符键盘按键操作的单字符按键键语词来表达,也可以采用表示非线性键语词键盘按键操作的多字符按键键语词来表达。
单字符键语词的键值及相应语义可用图5所示的常用单字符键语词表来确定。
图5中的字符排列位置是参照计算机标准键盘的排列方式确定的。 α或 β一般表示左手或右手变量键语词,“ 具体键名符”表示相应键名符按键的常量键语词表达式,如 a表示对a键的按键操作; ∧/a表示先按下∧键(即shift键)不动,再按下a键,然后一起松开; a*s表示按下a键和s键(按下先后次序可以相反)使两者均处于按下状态后,再将这两个按键松开;g*f*d表示按下g键,f键和d键(次序可以变换)使三者均处于按下状态后,再将这三个键松开。
由图5可知,人机汉文键语词系统的单字符键语词可以是单字符按键键语词(如: a、 /a等),也可以是多字符按键键语词(如: a*s、 g*f*d等),一个编码字符可以有一个以上的键语词对应,例如:A=: /a,A=: a*s。
人机汉文编码字符也可以用非线性键语词键盘的字符串键语词来表达。
汉语音节声韵码字符串键语词的一般表达式为:
汉语音节语音码字符串键语词的一般表达式为:
Figure A9510315700392
在(6)式和(7)式中,γsy和γi分别为声韵码和语音码的字符串键语词;γs/、/γy和/γd分别为汉语音节编码字符串的声母码、韵母码和声调码的字符段;
Figure A9510315700393
表示第i排键的左键语词素;
为第n排键的左键语词素;
表示第j排键的右键语词素;
Figure A9510315700396
为第m排键的右键语词素;
i=1,2,3,4;  j=1,2;  i<n≤5; j<m≤4;
在具体按键操作中,n和m的取值可在规定的范围内,根据按键操作方便的需要而定。
Figure A9510315700397
可以是第i排键以下的、规定的范围内的任意一个左键语词素,
Figure A9510315700398
可以是第j排键以下规定范围的任意一个右键词词素。具体使用什么按键操作,可根据操作方便而定。
这里,我们把字符键盘最上一排的数字键键排称为第1排键,并依次把其下的Q键键排、a键键排、z键键排和空格键键排分别称为第2、3、4、5排键。
是声母编码字符的键语词素;
Figure A95103157003910
是韵母编码的键语词素,
Figure A95103157003911
则是表示声调信息的键语词素。
键语词素
Figure A95103157003912
的取值及相应的“语义”,可用图6、图7、图8等键语词素表来确定。
图6中, 表示开音节的零声母键语词素, 表示闭音节的零声母键语词素。
图7中,
Figure A95103157003915
是零韵母键语词素,限用于仅有声母而没有韵母的零韵母音节(如呣{},嗯{ń}等)的声韵码字符串键语词。
按图6、图7和(6)式,可以用一个键语词——一次按键操作——准确地表达任一个汉语音节的声母和韵母信息。
例如,对{xüen},其声韵码可写为Xy。由图6可知声符X的键语词素为 由图7可知韵母{üen}的键语词素为 因此,{xüen}可以用左键语词素 和右键语词素
Figure A9510315700404
组成的一个键语词来表达,即, ;类似的,
Figure A9510315700407
1*7*8*9*0,
Figure A9510315700408
图8中,
Figure A95103157004010
表示
Figure A95103157004011
是一个空键语词素,表示没有任何相应的按键操作;而
Figure A95103157004013
Figure A95103157004015
表示
Figure A95103157004016
Figure A95103157004017
不是一个空键语词素(“!=”念作“不等于”,相当于“≠”),在第n排左手键或第m排右手键上有一个相应的按键操作。
按图6、图7和图8及(7)式,可以用一个键语词准确地表达一个汉语音节的声母、韵母和声调信息。
1.对声调为阴平{—}的音节,由于
Figure A95103157004018
所以有:
Figure A95103157004019
例如,表达音节{mēng}时,可令n=2,则相应的按键操作可以是:
Figure A95103157004020
2.对声调为阳平{/}的音节,由于
Figure A95103157004021
所以有:
例如,对{méng},令m=2,于是,可有:
Figure A95103157004023
3.对声调为上声{V}的音节,由于
Figure A95103157004024
所以
Figure A95103157004025
例如,对{měng},可令n=4,m=3,可有:
4.对声调为去声{\}的音节,由于
Figure A95103157004027
所以:
Figure A95103157004028
例如,对{mèng},可有
汉字义形码字符串键语词的一般表达式可以是:
(8)式中,
Figure A95103157004031
为带声调的义形码字符串键语词。
“γxl/”和“/γxb”为义形码字符串的类名符字符段和部名符字符段。
Figure A95103157004032
为第k排的左键语词素,也是义形码字符串键语词的类名符键语词素,即:
Figure A95103157004033
Figure A95103157004034
分别为第l排和第h排的右键语词素。
Figure A95103157004035
是义形码字符串键语词的部名符键语词素,即
Figure A95103157004036
k=1,2,3,4;l=3,4;l<h≤5。
对任意的
Figure A95103157004037
一定有
Figure A95103157004038
即义形码键语词至少包含一个左键语词素和一个右键语词素。
恒为 Φ时,有
Figure A95103157004040
其中
Figure A95103157004041
为不带声调的义形码字符串键语词。
键语词素
Figure A95103157004042
的取值及相应的“语义”可用图9所示的键语词素表确定。
其中, 表示
Figure A9510315700412
是一个空键语词素,表示实际没有任何相应的按键操作;而 表示
Figure A9510315700414
不是一个空键语词素,在第h排键上有一个相应的右手按键操作,
Figure A9510315700415
可以是第1排键以下规定范围内的任意一个右键语词素。 的具体按键操作可根据操作方便而定。一般可以取空格键的按键操作作为 即:
例如,对汉字“依{i},仪{i},倚{ǐ},亿{ì}”,其汉字码可以分别是iRt、irT、iRT、irt。其中Rt、rT、RT、rt都是带声调的义形码γxd
根据图9,义形码字符串“Rt”的类名符γxl=R可用左键语词素
Figure A9510315700419
表示,部名符γxb=t可以用右键语词素: 表达(因
Figure A95103157004111
)。因此,可以有
类似的,
Figure A95103157004114
汉字码字符串键语词的一般表达式可以是:
γ ‾ z = γ ‾ sy / γ ‾ xd , - - - ( 10 ) γ ‾ z 1 = γ ‾ i / γ ‾ x , - - - ( 11 )
其中, 均为汉字码的字符串键语词,
Figure A95103157004121
为(6)式表达的汉字声韵码字符串键语词,
Figure A95103157004122
为(8)式所表达的带声调的义形码字符串键语词, 为(7)式所表达的汉字语音码字符串键语词,
Figure A95103157004124
为(9)式所表达的不带声调的义形码字符串键语词。
值得强调的是,汉字码字符串键语词是复合键语词,它们的两个键语分词一定按次序交替出现,缺一不可。
例如,“依{ī}”的汉字码可写为“iRt”或“iart”(a为声调码)。根据图6、图7、图8和(6)式、(7)式,其声韵码或语音码的键语词表达式可写作:
Figure A95103157004125
;(令n=5,
Figure A95103157004127
又因为, Rt = : γ ‾ xd = r * t * · ‾ rt = : γ ‾ x = r * · ‾
所以,按(10)式,依
Figure A95103157004130
按(11)式,依
Figure A95103157004131
考虑到汉字编码时,一般采用较简洁的字符形式,故(10)式较为常用。按(10)式,类似的有:
Figure A95103157004132
Figure A95103157004133
Figure A95103157004134
Figure A95103157004135
汉字盲打消重码的字符串键语词的一般表达式为: γ ‾ c = γ ‾ s / γ ‾ xi = γ ‾ sy / γ ‾ sd / γ ‾ x 1 / γ ‾ x 2 . . . / γ ‾ xn , - - - ( 12 )
其中,
Figure A95103157004138
为汉字盲打消重码的字符串键语词,
Figure A95103157004139
为(10)式表达的汉字码字符串键语词,
Figure A95103157004140
为消重码字符串键语词;
Figure A95103157004141
分别为用(9)式表达的第1,2,…,n级消重码的义形码字符串键语词。在多数情况下 均为 Φ,只有
Figure A95103157004143
值得强调的是,盲打消重码字符串键语词是复合键语词,其结构特征是一定含有且只含有一个汉字声韵码字符串键语词 ,并且
Figure A9510315700422
一定位于键语词首。
例如:“例”和“俐”的盲打消重码为“lirtrd”和“lirtzh”。按(12)式可得:
由以上人机汉文编码字符的键语词规定可知,任一汉语音节的编码字符串可用一次按键操作准确地、规则地完成键盘输入。例如: {qiáng}=:Qivo=:
Figure A9510315700426
除极少数重码字外,任一汉字的编码字符串一般可以用二次按键操作准确地、规则地完成键盘输入。例如:告{gào}=: g*7*8/s*n,诉{sù}=: s*u/ g*h。
对极少数重码字,也可以按统一的规则,直接在相应汉字码的按键操作后,附加盲打按键操作来分离重码字、准确输入所需的汉字,例如,例{lì}=: 2*i/ r*·/ r*j*k,
俐{lì}=: 2*i/ r*·/ z*h。其中的 r*j*k和 z*h就是相应汉字盲打消重码的输入按键操作。
考虑到大量常用汉字的单字及词汇一级简码的每个汉字的编码字符数一般小于2,可用1~2个单字符键语词表达,例如“中国共产党”的词汇一级简码的编码字符及键语词为:
平均每个汉字按键1.4次(包括空格键)。
因此,利用本发明准确输入任一汉字的按键次数一般小于2(包括空格键的按键操作)。
图10表示执行人机汉文编码处理方法的计算机系统设备框图,该设备由中央处理器(CPU)10、键盘20、键码转换器25、话筒30、音码转换器35、混码器40、双向码字转换器45、字库50、显示器60、打印机70、通信管理模块80、扬声器90等组成。
双向码字转换器45内建有一个能利用盲打消重码分离汉字码重码字的、可使汉字内码序列与汉字编码字符代码一一对应的装置。该代码的汉字编码字符是利用人机汉文编码处理方法将汉字予以编码而得到的。双向码字转换器45内还可建有将汉字编码字符中的旧字符转换为相应变体字符的装置。
操作人员根据汉语汉字编码字符的键语词表达式,在键盘20上输入汉语汉字编码的相应键语词代码信号,经键盘20和键码转换器25处理后转换为编码字符代码。在中央处理器10的控制下,双向码字转换器45可将汉字编码字符代码转换为汉字内码序列,也可将汉字编码字符中的旧字符代码转换为相应的变体字符代码。计算机系统处理装置可利用编码字符代码和汉字内码序列,进行编码字符或方块汉字信息的显示、打印、传输和存贮等项操作。
在上述计算机系统处理设备中,键盘20可以是一个线性标准英文字符电子键盘(简称线性键盘),也可以是一个非线性键语词电子键盘。
线性键盘的字符按键表面可采用如图11所示的设计,在有关字符按键上标有提示用户进行人机汉文编码字符输入按键操作的说明,每个字符按键的键面均标有与该按键操作有关的键语词结构说明符号及相应的前语体要素符号。
前语体要素符号可以是ASCII代码字符,也可以是汉语拼音方案的表音字符串,还可以是汉字的轮廓笔形部首或最常用的一级简码汉字。
前语体要素符号本身也表示一个它所在按键的键语词 γ或键语词素 例如,y键键面的(y)、(ü)、(uen)、(与)——括号内的前语体要素字符本身——均表示了一个y键键语词 y或键语词素
Figure A9510315700431
拉丁字母字符串前边或后边的非字母字符符号(—)、(.)、(,)、(’)——括号内的符号——都是键语词结构说明符号,它们表示在用该按键操作构成键语词表达相应前语体要素时,应配合使用的键语词素或键语分词。括号中的键语词结构说明符号(—)、(.)、(,)、(’)分别表示键语词(素)Λ
Figure A9510315700432
、 v、 w、 Λ/w。当这些配键说明符号组合使用时,每个符号表示一个键语词(素)。
例如,图11所示的y键键面的前语体要素符号和其后配键说明符号所表示的键语词结构及其语义关系如下:
不带配键说明符号的(y)和(ü)表示 y:=y:={ü},而且字符“y”可作汉字“与”的一级简码字符γj1
带有配键说明符号的(—Y)和(—üe)表示 Λ/y:=Y:={üe},而且字符Y可作汉字“为”的一级简码字符γj1;(ê.)表示( y/ v):=yv:{ê};(uen,)表示( y/ w):=yw:={uen};{üen’}表示( y/ Λ/w):=yW:={üen};(—uei,)表示( Λ/y/ w):=Yw:={uei},(—ian.)表示( Λ/y/ v):=Yv:={ian}。
又如,图11所示的t键键面的符号含义如下:
(t)表示 t:=t:={t},而且字符t可作汉字“他”的一级简码字符。
(—T)表示( Λ/t):=T:={t},而且T可作汉字“它”的一级简码字符。
()、(++)表示t或T跟在轮廓笔形类名符l或L之后时,可作轮廓笔形类部首()或(++)的部名符。
线性电子键盘的处理对象和传统机械打字机的键盘一样——是一个一个的字符,一般只能处理单字符键语词,不能处理字符串键语词,不利于提高按键操作系统的语言表达能力,也就是不利于提高语言文字系统的键盘输入效率。
为了更有效的处理人机汉文系统的各种字符串键语词,人机汉文编码处理设备键盘20可采用非线性键语词键盘。
图13表示非线性键语词键盘设备框图,该键盘由键盘信号发生器21、键位编码器22和键语词编码器23组成。
当按下按键γij(i和j分别为该按键的横坐标和纵坐标,例如,对六排101个键的增强型键盘的Q按键,可有γij=γ23=q键),键盘信号发生器(21)就产生一个相应键位的状态电信号γij 1(如q1)——我们称其为一个按键操作的首键素;当松开该按键γij后,键盘信号发生器(21)就产生另一个相应键位的状态电信号γij 11(如q11)——我们称其为一个按键操作的尾键素。实际上,尾键素γij 11可以是按键γij的按下状态电信号γij 1消失而恢复原有松开状态的电信号。一对有序的按键首键素和尾键素就构成非线性键语词键盘的一个完整的按键操作过程,即, γ ij 1 / γ ij 11 = γ ‾ ij , q 1 / q 11 = q ‾ .
键位状态电信号γij 1和γij 11经键位编码器22处理后,转换为与相应ASCII代码对应的电信号γij +和γij ++(如q+和q++)——γij ++实际上是γij +电信号消失的代码。然后,γij +和γij ++经键语词编码器(23)处理转换为由ASCII代码组成的键语词电信号
Figure A9510315700436
,并输出键盘。
带键语词编码器23的键盘以完整的按键操作作为键盘20输入、输出处理的基本子系统。当γij 1和γij 11及相应的γij +和γij ++不严格配对时,按键输入被认为是不完全的按键操作子系统。此时,键语词编码器23只对所接受的电信号作比较、存贮等处理,不作输出处理,因而没有电信号输出键盘20。
按键γij可以是一个按键,也可以是若干个按键的集合。γij 1和γij 11及γij +和γij ++可以是一个按键的操作构成的键语词(如 q)的按键操作电信号,也可以是一个多按键键语词(如 Λ/q、a*s、
Figure A9510315700441
等)的若干个按键的有序按键操作电信号的集合——此时,所有按键操作应符合一个键语词的按键操作规定。一个键语词的所有首键素γij 1均应位于所有尾键素γij 11之前,而且γij 1与γij 11要严格配对,否则键语词编码器23直接给出按键操作违法的电信号。键盘20输入的键语词代码
Figure A9510315700442
可以是一个ASCII码电信号表示的键语词代码(如 q的ASCII码),也可以是由若干个有序的ASCII电信号按键语词构成规则组成的子系统表示的一个键语词代码(如键语词 Λ/w、 q*w、 Ctrl*Alt/Del等的规定的ASCII码集合)。
因此,带有键语词编码器23的非线性键语词键盘,一般是以首键素和尾键素严格对应的完整按键操作(即键语词)作为键盘输入、输出处理的基本子系统,而不是仅以传统单字符按键操作作为输入、输出处理的基本单位。单字符按键操作仅是键语词系统的一种特殊按键操作形式。
在人机汉文编码处理设备中,非线性键语词键盘20输出的键语词代码电信号的“语义”——键语词所表达的前语体要素信息(语言、文字信息)——是由相应的电脑处理系统来解释的。
根据图5、图6、图7、图8可设计出如图12所示的非线性键语词键盘的按键表面。这是一种专用语言文字字符串键语词的键语词素按键键面。字符按键上主要标出提示用户进行人机汉文键语词输入操作的说明符号。每个字符按键的键面标有与该按键操作有关的键语词结构说明符号及相应的前语体要素符号。
前语体要素符号一般是表示声韵码或语音码、义形码等字符串所用的字符或字符段,其语义由相应的键语词表达式、键语词表或键语词素表确定。
前语体要素符号本身也表示一个它所在按键的键语词 γ或键语词素
Figure A9510315700443
例如,y键面的(y)、(Y)、(yW)等括号内的前语体要素符号本身均表示了一个y键的键语词 y或键语词素
Figure A9510315700444
由非字母字符符号担任的键语词结构说明符号附在上述前语体要素符号旁边,它们表示在用该按键操作构成人机汉文字符串键语词或键语词素以表达相应的字符或字符段时,应配合使用的键语词素。
左边或右边带斜杠符号的字母(简称带杠字母),表示相应字母是规定的字符串键语词表示的字符串的前字符段或后字符段。
带杠字母旁边(左或右或下边)的点号(·)、(··)等表示该键的按键操作要与其左边或右边的相邻按键或与其下排键的按键操作一起构成一个键语词素时,才能表达这个带杠的字符段。点号“·”的个数代表相应的按键个数。
例如,图12所示的u键键面的含义如下:(u)表示 u:=u,(·/U)表示 (/uv··)表示
又如,图12所示的数字5键键面中,(5)表示 5:=5,(h/)表示
Figure A9510315700447
表示
Figure A9510315700448
在图12所示的k键键面中, 表示 中字母下的点号表示k键的下排键中的任一按键操作。(·/d)表示
Figure A95103157004411
表示
Figure A95103157004412
根据前述人机汉文键语词素的有关规定,“ γ”或“
Figure A95103157004413
”均表示这仅是一个键语词素,使用时必须与其它键语词素一起构成一个键语词才能表达相应的语义。而“/γ”或“γ/”(如/U、h/)表示这仅是一个字符串键语词表达的字符串的后字符段或前字符段,一般要与规定的另一个前字符段或后字符段同时使用组成相应的字符,才可以表达汉语的语音信息或汉字信息。
例如, 其中
Figure A9510315700452
类似的
Figure A9510315700454
汉字“花{huā}”的编码为“hUZc”,相应的键语词表达式可写为:
Figure A9510315700455
Figure A9510315700456
hUZc:=hU/Zc= 5*y*u/z*x*m*,。
其中“Zc=Z/c”是义形码字符串,“Z”和“c”分别为“Zc”的前字符段和后字符段,可用图9所示的汉字义形码字符串键语词素表确定相应字符的键语词素结构。
在人机汉文编码处理设备中,键盘20输出的键语词代码电信号可被键码转换器25转换为编码字符代码。键码转换器25可以是建立在内存中的一个映射表,它能够将线性键盘或非线性键语词键盘20输出的键语词代码转换为该键语词代码所表示的编码字符(或字符串)代码,例如,可将键语词 q*w的代码转换为大写字符Q的代码。对以单个字符为主要处理对象的线性键盘20输出的字符代码,上述转换过程就简化为原字符代码的传递。
操作人员也可采用本发明的音键并用输入法向计算机系统设备输入汉字编码、汉语语音编码。操作人员可根据需输入汉字的键语词表达式和相应汉字的读音,在利用话筒30输入汉字音节语音的同时,在键盘20上输入相应汉字的非语音编码部分。输入的汉语音节语音被送入音码转换器35分析处理。音码转换器35可以是由语音库、语言代码库、语音分析模块、语音合成模块、音码转换控制模块等组成的装置,它能将由话筒30输入的汉语音节语音一一转换为相应的汉语音节语音编码字符(即语音码编码字符)的代码(即音源代码)。该音源代码是由标准ASCII代码组成的。例如,当由话筒30输入音节语音{gāng}时,音码转换器35可将其转换为语音码“gava”的编码字符的ASCII代码。由键盘20输入经键码转换器25处理得到的非语音编码字符代码——键源代码也是标准ASCII代码。音源代码和键源代码均被送入混码器40分析处理。混码器40带有一个可根据人机汉文编码系统的编码规则将音码转换器35输出的汉字音源代码和键码转换器25输出的相应汉字的键源代码组合成汉字的完整编码字符代码的装置。
例如,在用音键并用输入法输入汉字“钢{gāng}”时,由话筒30输入汉语音节语音{gāng},则音码转换器35会输出相应的语音{gāng}的语音码编码字符“gava”的音源代码;由键盘20输入汉字“钢”的义形部首“钅”的义形码编码字符“tj”的键语词,则键码转换器25会输出相应编码字符“tj”的键源代码;混码器40将按人机汉文编码系统的编码规则把“gava”的音源代码与“tj”的键源代码组合成汉字“钢{gāng}”的汉字码“gavatj”的编码字符代码。
类似地,在音键并用输入状态下,单纯由话筒30输入的汉语音节语音将被转换为相应的人机汉文编码系统的音节语音码的编码字符代码。此时,用规定的键盘20输入操作也可以获得标点符号等非语音编码和非汉字编码的人机汉文编码字符代码。例如,可用键盘输入操作可获得“空格符”的编码字符代码。
音键并用输入法还可用于词汇码的输入处理。在音键并用输入状态下,可分别用话筒30或键盘20,按规定顺序输入一个词汇码的汉字音节语音部分或非语音编码部分,即可得到该词汇码的编码字符代码。例如,输入中文“钢筋”的词汇码“gavatjJia凵”时,可以采用前述音键并用输入法输入“钢”的汉字码后,接着从话筒30输入“筋”字的语音,然后从键盘20输入空格键的按键操作,即可得到上述“钢筋”词汇码的编码字符代码,完成中文“钢筋”一词的输入。
在中央处理器10的控制下,各种编码字符代码可被双向码字转换器45转换为相应的汉字内码序列,也可将编码字符中的旧字符代码转换为相应的变体字符代码。利用该内码序列或变体字符代码,就可以在字库50中确定相应的方块汉字或汉文字母。
当输入码字转换器45的编码字符代码有多于一个的字库汉字对应(出现重码)或没有对应的汉字(出现空错码)时,可听到相应的警示声音和屏幕提示。此时,可根据提示在重码字中选择所需的汉字或重新输入正确的键语词;也可以采用盲打消重法来消除重码并输入所需的汉字,即,可以不看屏幕的重码显示而在听到重码警示声音后直接采用盲打方式在汉字码后输入该汉字的盲打消重码,就可以从重码字中选出相应的汉字;这尤其适用于盲人操作。
音键并用输入法还可用于向计算机输入操作指令以控制计算机的运行状态。例如,需向计算机输入“热启动”的指令时,可在按下键盘20的“Ctrl”键后,由话筒30输入“启动{qǐdòng}”的音节语音,则输入的音源代码和键源代码经混码器40处理后,向中央处理器10输入相当于键语词“ Ctrl*Alt/Del”对应的电信号代码,使计算机进入“热启动”状态。
利用中央处理器10、显示器60、打印机70和通信管理模块80、扬声器90等,可以对编码字符或汉字进行显示、打印、播音、存贮、传输等项操作。
利用双向码字转换器45,也可以将与汉字对应的内码序列转换为编码字符代码,也可将汉文字母的变体字符代码转换为旧字符代码——标准ASCII代码。从而可在世界任何地方利用任一国际通用字符处理设备进行汉语和汉字信息(不是方块汉字本身)的字符输入、显示、打印、传输等处理,并在有双向码字转换器45的汉字处理设备上,将上述汉字信息编码字符转换为方块汉字或汉文字母进行各种处理。
应该指出,使用音键并用输入法和人机汉文编码字符串键语词,输入单个汉字一般只需按一次按键即可(输入汉字义形码的字符串键语词);而输入一个多字词(含两个以上的汉字)一般只需按两次按键(一次键入词首汉字的义形码,一次输入词尾的后空格)。因此,考虑到存在大量三个以上汉字组成的多字词,一般输入一个汉字的按键平均次数小于1(包括空格键的按键操作)。这是现有的各种汉字输入编码方案所无法达到的。利用已有的计算机语音处理技术,采用音键并用输入法还可以有效地进行方言汉字的计算机输入,并大大降低对输入人员语音标准程度的要求。这是一般汉字拼音编码输入方案难以做到的。
在中央处理器10的控制下,音码转换器35也可将语音码和汉字码的编码字符代码转换为相应音节语音的、可由扬声器90播音输出的电信号。因此,汉语音节语音不仅可用于音键并用输入法向计算机系统设备输入汉语汉字信息;而且也可以作为计算机系统设备的输出信息反映计算机语言文字信息处理过程的结果,可以将由显示器60、打印机70输出的汉语汉字信息中的汉语音节语音信息同时用声音来表达。这特别适用于辅助汉语汉字信息编码的学习,适用于采用键盘盲打操作输入汉语汉字信息过程的监控。
由人机汉文编码处理方法和编码处理设备组成的人机汉文编码处理系统的系统结构框图如图14所示。其中人机编码系统的各个子系统都可作模块化处理。
以上说明了本发明的一个较佳实施方案。但本发明不仅局限于上面给出的方案。根据本发明的构思,本领域中的技术人员可以做出不脱离本发明本质的许多种变型方案。因此,本发明的保护范围应以本申请权利要求所限定的为准。

Claims (16)

1.一种计算机汉语汉字信息编码处理方法,其特征在于它由下述步骤组成:
1.1根据人机语言文字学理论,系统运用语体要素功能非线性系统决定原理,用标准ASCII代码字符作为编码基本字符,给汉语、汉字信息编码,构建人机汉文编码系统。
1.1.1.人机汉文系统,将标准ASCII代码字符作为编码的基本字符,并将26个拉丁字母的大写、小写形式分化为52个字位字符作为汉语、汉字信息编码的主要编码字符,即,任一拉丁字母(如A)包含两个字符要素(a,A),同一拉丁字母的大写和小写形式成为两个不同的字位字符,可用于表示汉语、汉字的不同音、调、义、形信息。
人机汉文系统对汉语、汉字信息的编码表示是自觉系统运用语体要素功能非线性系统决定原理进行的,即,任一编码系统的要素——编码字符——对汉语汉字信息的具体表达功能是由该字符与其它相关字符组成的子系统按规则决定的。人机汉文系统是一个非线性字符编码系统,其字符编码系统具有的各种汉语、汉字信息表达功能大于组成该系统的各个编码字符要素各自分别具有的汉语、汉字信息表达功能之和。
1.1.2.人机汉文系统的汉语音节声母、韵母信息编码子系统(简称声韵码子系统)的声韵码γsy基本码式是:
γsy=γsy,(1)。
其中γs和γy分别为声母和韵母信息编码,简称声母码和韵母码。对声母音节,声母码可以省略。对零韵韵母音节,韵母码可以省略。符号“/”表示其前后的两个要素的关系是分子关系——两个要素的先后次序是确定的、不能颠倒的(下同)。
1.1.2.1.声韵码子系统将表达声韵码的编码字符分作两类:第一类是基本表音字符,它们可以单独用来表示声母或韵母信息编码,并据此分为两种,一种主要用于韵母编码,称为韵母字符;另一种主要用于声母编码,称为声母字符。声母字符与韵母字符是互不相同的。第二类是变读字符,它们不能单独用来表示声母或韵母信息的编码,主要用于构成变读规则,按规则改变基本表音字符的表音功能。
1.1.2.2.声韵码子系统设立有变读规则,以便有规律地改变基本表音字符的表音功能,使得一个韵母字符可按规则改变读音以表示一个以上的韵母,或使一个声母字符可按规则改变它所表示的声母读音甚至改变其后韵母编码的读音,从而可用较少的韵母字符和声母字符来规则、简洁地表示数量较多的全部韵母和声母的读音。变读规则可以用改变表音字母的大写、小写形式来表达,也可以用在表音字符后附加变读字符的形式来表达,还可以用表音字符的组合形式变化来表达。
声韵码子系统的变读规则包括字母变读规则、字组变读规则和音节变读规则。
——字母变读规则指在声韵码子系统中,同一表音字母的不同大写、小写形式可以按规定表示不同的读音。
——字组变读规则指用含有声母字符或韵母字符的特定字符组合来表示与原声母字符或原韵母字符读音不同的声母、韵母读音。
——音节变读规则指以音节为单位,根据音节声韵码字符组合的形式特征进行分类;在类型不同的音节中,同一编码字符的读音可有不同的系统规定。
1.1.2.3.通过利用声韵码编码字符分类和设立变读规则,可使所有汉语音节的声母、韵母信息编码均具有明确的、互不相同的表达形式,而且任一声韵码音节中的韵母编码和声母编码都具有确定的起止标志,不会与相邻的其它汉语、汉字信息编码相混淆。
1.1.3.人机汉文系统的汉语音节语音信息编码子系统(简称语音码子系统)的语音码γi基本码式是:
γi=γsyd=γsyd,(2)。
其中γi为汉语音节语音码,γsy、γd分别为音节声韵码和声调码——声调信息编码,γs,γy分别为声母码和韵母码。
声调码的编码字符可以用不能跟在声韵码音节形式后形成正常汉语语流语音组合的韵母字符(或字符组合)担任。
1.1.4.人机汉文系统的汉字信息编码——汉字码γz——的基本码式是:
γz=γix,(3)  或γz=γsyxd,(4)
其中,γx为汉字义形信息编码——义形码,γxd为汉字的带有音节声调信息的义形码——带调义形码,γi和γsy分别为语音码和声韵码。
1.1.5.汉字义形信息编码子系统(称简义形码子系统)将传统汉字常用部首(称为表义部首)及汉字字形部首(称为表形部首)作为汉字义、形信息编码的主要对象,并将所有选用的表义部首和表形部首(统称义形部首)分为若干类,每一类有一个类名并用一编码字符作类名符γxl;在类之下再分为若干部,每一部也有一个部名并用一个编码字符作其部名符γxb;任一义形部首均可归为某类某部,并均可用两个字符组成的编码——义形码γx来表示。
1.1.5.1.跟在声韵码后的汉字义形码的两个字符的大写、小写组合形式,可以表示其前声韵码的音节声调。这种可表示声调的义形码就叫带调义形码。
1.1.5.2.当一个汉字有两个以上的表义部首或表形部首时,汉字义形码的取码规则是:
——先边后角:首先对构成汉字字边的义形部首编码;当汉字没有字边部首时,才对构成汉字左上角的义形部首编码。
——先义后形:当一个汉字的字边既有表义部首,又有表形部首时,应对表义部首取码;在没有字边表义部首时,才对字边表形部首编码。
——先特级后一般:当一个汉字的两个字边都有表义部首时,应对特级部首编码;没有特级部首时,才对一般表义部首取码。
——一般先取左边或上边,左右对称取中间:当一个汉字的字边有两个特级部首,或两个一般表义部首,或两个表形部首时,应对在左边或上边的部首编码。当汉字为左中右结构且左右两边为两个对称的表义部首时,应对中间的义形部首取码。
——取大不取小:同一部位的汉字义形部首有几种取码可能时,应取较大的(含笔划较多的)一种部首来编码。
1.2.根据人机语言文字学理论和字符键盘的按键分布情况及可行的按键操作组合情况,利用语体要素功能非线性系统决定原理,将前述汉语、汉字信息编码系统的字符——人机汉文编码系统的字符转写为相应的人机汉文键语词系统的键语词表达式。人机汉文编码字符的键语词表达式转写的实现是利用空键语词素、常量键语词表达式、变量键语词表达式、单字符键语词表、人机汉文编码字符串键语词表达式及相应的键语词素表等来进行的。
1.2.1.键语词系统由键语词组成。一个键语词就是一次完成有确定“语义”的按键操作过程。
1.2.2.一个键语词的按键操作过程可以是按下并松开一个按键的操作过程;也可以是按下一个或若干个按键后不松开,继续按下其它不同按键,直到所有用于表达某个“语义”的按键全部处于按下状态后,再松开这些按键的整个操作过程。
1.2.3.人机汉文键语词系统的键语词的语义可以是键语词系统的前语体系统要素,也可以是键语词系统本身的“语法”规定。
1.2.4.键语词系统中任意两个相邻按键操作之间的关系可分为因子关系或分子关系。因子关系指两个按键操作的先后顺序是任意的。分子关系指两个按键操作的先后顺序是确定的,不能互换的。
1.2.5.键语词可分为单按键语词和多按键键语词。多按键键语词的各个按键操作称为键语词素。多按键键语词还可分为单手多按键键语词和双手多按键键语词。双手多按键键语词的键语词素分别称为左键语词素和右键语词素。
1.2.6.若干个键语词可以组成一个键语词子系统来表达一个语义。这样的键语词子系统称为复合键语词。复合键语词中的各个键语词又称为键词分词。
1.2.7.用关系符将不同键语词、键语词素、键语分词连接起来的式子,称为键语词表达式(简称表达式),一个键语词也可看作一个表达式。
1.2.8.人机汉文键语词系统的键语词表达式还可分为键语实词、键语虚词、单字符键语词、字符串键语词、常量键语词、变量键语词、空键语词、单字符按键键语词、多字符按键键语词、人机汉文字符串键语词。
1.2.9.字符串键语词所表示的字符串可分为若干个与有关键语词素对应的字符段。字符段可用带有相应字符串分子关系符的字符或字符组合来表示。
1.2.10.一个键语词表达式所代表的按键操作过程称为这个键语词表达式的“值”。特殊地,当一个键词表达式的“值”表示没有任何按键操作时,就称其“值”为空键语词。
1.2.11.两个键语词表达式之间可存在等值或不等值、同义或不同义等关系。
1.2.12.键语词与其“值”的关系以及键语词与其语义的关系,除了可以用相应的表达式和键值关系符、语义关系符来描述外,还可以用键语词表、键语词素表来描述。
1.3.利用计算机汉语汉字信息编码处理设备,操作人员可根据人机汉文编码字符的键语词表达式在键盘20上进行按键操作——输入相应键语词信息。该键语词信息经键盘20和键码转换器25处理转换为编码字符代码。操作人员也可根据需输入汉字的键语词表达式和相应的汉字读音,利用音键并用输入法向计算机信息处理设备输入有关汉字和汉语语音信息。即,在利用话筒30输入汉字音节语音的同时,在键盘20上输入相应汉字的非语音编码部分,输入的语音经音码转换器35分析处理后转换为相应语音的、用标准ASCII代码表示的人机汉文编码字符代码——音源代码。音源代码与同时由键盘20输入经键码转换器35处理得到的编码字符代码——键源代码一起经混码器40处理后,形成相应汉字的完整的人机汉文编码字符代码。在音键并用输入状态下,单纯由话筒30输入的汉语音节语音,经音码转换器35处理将得到与输入语音相应的语音码的编码字符代码。在中央处理器10的控制下,上述各种编码字符代码可被双向码字转换器45转换为相应的内码序列。利用这些内码序列,就可以在字库50中确定相应的汉字。利用双向码字转换器45也可以将与汉字对应的内码序列转换为编码字符代码。利用音码转换器35也可以将语音码和汉字码的编码字符代码转换为相应音节语音的、可由扬声器90输出的电信号。利用中央处理器10、显示器60、打印机70、通信管理模块80、扬声器90等,可以对编码字符或汉字进行显示、打印、播音、存贮和传输等项操作。
2.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于人机汉文编码系统的有关子系统具体结构可具有如下特点:
2.1.声韵码子系统的韵母字符是a、e、i、o、u、y、A、E、I、O、U、Y,声母字符是如下18个辅音字母b、c、d、f、g、h、j、k、l、m、n、p、q、r、s、t、x、z的小写和大写形式,变读字符是v、V、w、W。韵母字符和声母字符统称基本表音字符。
2.2.声母编码和韵母编码继承汉语拼音方案中用单个字符a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、x、z来表示相应汉语声母和韵母的规定,并扩展这一规定,用单个字符y表示韵母{ü}。
2.3.声韵码子系统的变读规则的具体内容可以是:
——字母变读规则:元音字母的大写、小写形式分别表示读音不同的韵母编码;辅音字母大写、小写形式的变化,不改变相应声母编码表示的读音。
——字组变读规则:用表音字符后加变读字符v来表示按规则改变表音字符的原有读音而获得新的表音字组,而且,变读字符加韵母字符后构成的韵母字组表示一个新的韵母;变读字符加在声母字符后构成的声母字组表示一个新的声母。
——音节变读规则:将汉语声韵码音节形式分为两类:简音节声韵码和繁音节声韵码;同一韵母字码在音节形式类型不同的音节中,按规定表示不同的韵母读音。在简音节声韵码中,韵母字码——韵母字符或字组——发其简音节读音;在繁音节声韵码中,韵母字码发相应的繁音节读音。而声母字码——声母字符或字组——在简音节或繁音节声韵码中,都表示同一读音。
2.4.利用上述表音字符、变读字符和变读规则,可以按声韵码的基本码式(1),给所有汉语音节的声母和韵母分别编码表达。
2.5.声韵码子系统的每一个韵母编码可以含有而且只含有一个韵母字符。一个韵母的编码可以是一个韵母字符或是一个韵母字符与变读字符(v、w、W)的组合,而且,所有的韵母编码均不含有声母字符;一个声母编码至少含有一个声母字符,它可以是一个声母字符或两个相同的小写声母字符,或者是声母字符与变读字符v的组合。所有的声母编码也不含有韵母字符。任一韵母编码或声母编码都有明确的起止范围,并且两者的字符形式是互不相同的。
2.6.语音码子系统的音节声调码编码字符可以用表示韵母{a}、{ei}、{eng}、{e}、{o}、{ong}等的编码字符——韵母字码来担任。
2.7.在语音码中,担任去声声调的声调码字符一般可以省略。但对应分词书写的单个音节及零声母或零韵母的拟声词的音节语音码,声调码均不可省略。
2.8.义形码子系统将所有义形部首分为18类,并用18个声母字母作为类名符;每一类义形部首最多包含17个部,并且用17个声母字母作为部名符。任一义形部首的编码——义形码由该部首的类名符和部名符组成——第一个编码字符为部首的类名符γxl,第二个编码字符为部首的部名符γxb。一个义形部首可以有一个或一个以上的义形码。一个义形码可以按规定表示若干个义形部首。
2.9.带调义形码的两个字母的四种大写、小写组合形式(大写/小写、小写/大写、大写/大写、小写/小写)与汉语音节的四种声调(阴平、阳平、上声、去声)是一一对应的。
2.10.语音码用于给汉语话语的语音编码时,语句中的相邻语音码一般可以不分词连写。但对零声母或零韵母拟声词的语音码,应分词书写。
2.11.汉字码用于给中文语句的方块汉字编码时,中文里不分词连写的汉字,其汉字码一般也可以不分词连写。但对零声母或零韵母的拟声词的汉字码,应分词书写。
2.12.语音码子系统和汉字码子系统可以混合使用。但不同字词的编码之间一般应用空格或标点符号分隔开。
2.13.语音码子系统和汉字子系统均具有自动划分各个汉语音节编码和汉字编码的自组织功能特征;在不分词连写时,各个汉语音节或汉字的音、调、义、形信息编码也都保持各自的明确定义范围。
3.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于人机汉文编码系统可以带有一个盲打消重编码子系统(简称消重码子系统)。消重码子系统由汉字码重码字的盲打消重码组成。汉字盲打消重码的基本码式是:
γc=γzxi,(5)
其中,γc为汉字盲打消重码,γz为带有义形码的汉字码,γxi为消重码。
消重码γxi的编码对象就是汉字的义形部首(含结构类型)。一个汉字的消重码γxi可以是一个义形部首(含结构类型)的编码,也可是若干个义形部首(含结构类型)的编码的有序集合。
消重码γxi取码规则是:在完成重码字的汉字码编码后,去掉汉字已取码的义形部首,将剩下部分视为一个“汉字”,用义形码取码规则选取义形部首编码作为消重码。当该汉字的所有义形部首均已取过码时,就取该汉字的结构类型——特殊的义形部首的编码作消重码。
对一个重码字,可以反复使用上述规则取其消重码,直到能分离相应的重码字或该汉字的义形部首(含结构类型)的编码全部用完。
4.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于人机汉文编码系统可以带有一个采用声调通假标调法来对汉语汉字编码进行声调标记的简化标调子系统。该简化标调系统的汉语语音码子系统和汉字码子系统可只保留一种声调标记而省略其它声调标记,并将所有音节全部读为所保留的一种声调。采用声调通假标调法的简化标调系统所保留的声调可以是去声声调。
5.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于人机汉文编码系统可以含有一个外来语子系统。该外来语子系统对人机汉文编码系统要表达的新的外来语词汇,采用音译编码法或借字编码法来编码表达,其规则如下:
5.1.音译编码法一律用小写字母表示的汉语语音基本音素的拼音来对外来语词汇进行音译编码,且除用作音节韵母成分的声母字符l、m、n、nv外,其它声母字码后均应带韵母字码。
5.2.借字编码法就是当一个外来语词用标准的ASCII代码字符书写时,可直接借用外来语词的字母组合形式(一般保持原字母的数量、次序不变,但字母的大写、小写形式可适当改变),作为该外来语词的人机汉文编码主体。相应的编码字符一般按声韵码子系统的读音规则发音。对编码中不能按声韵相拼规则与韵母字码相拼的声母字符,一律读作《汉语拼音方案》中相应声母表注音字的读音,如“s”读“思[si]”。字母v、w读作《汉语拼音方案》中字母表的字母名称读音。
5.3.当外来语词的音节带有特定的声调并须标记时,一律在相应音节后用五度音高数值标调法(简称音高标调法)进行标调。
5.4.所有的外来语编码均应以词为单位分词书写——词前、词后有空格或标点符号,并且一般要在词首或词尾附加外来语标记:
——当外来语词音译编码以元音字母结尾时,一般在词尾加一个不发音的小写字母“s”。
——当外来语词音译编码以声母字符l、m、n、nv等结尾时,一般要双写这个辅音字母。
——当外来语词为专有名词时,一般应在音译编码词首加不发音的大写字母“V”,同时词尾不再变化。
——采用借字编码法时,外来语标记可以不用附加字母而用附加非字母符号(称为借字符号)来表示。借字符号可以是附加在词首左上角的单撇号(’)。
——当外来语词编码带有声调标记数字时,不需要再附加其它外来语标记。
5.5.当外来语词编码中的相邻音节界限容易混淆时,可用一个非字母符号作隔音符号分隔音节。隔音符号可以用单撇号(’)兼任。
5.6.外来语词编码中的音节一般均读作去声声调。
6.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于人机汉文编码系统可带有一个初级编码应用支持子系统——汉字轮廓码子系统。
6.1.轮廓码子系统的汉字编码要素就是义形码子系统的轮廓笔形类部首,也称表形部首。轮廓码子系统采用多个表形部首来描述一个汉字的字形结构轮廓,并编码表达。
6.2.轮廓码子系统根据汉字轮廓笔形在汉字结构中的位置将其分为主要轮廓笔形和辅助轮廓笔形。
——主要轮廓笔形指构成整个方块汉字轮廓的主要边或角的编码轮廓笔形。
——辅助轮廓笔形指除掉方块汉字的主要轮廓笔形后剩下部分的编码轮廓笔形。
6.3.轮廓码子系统的汉字轮廓码的编码规则是:
6.3.1.轮廓码一般用声母字符表示;一个汉字的第一个轮廓笔形的编码采用相应的表形部首代码的全码,其后的轮廓笔形的编码只用相应表形部首代码的部名符而不用其类名符。
6.3.2.先拆分,后取码:由二个以上笔划组成的汉字都要先拆分为两个部分,一般应将一个汉字拆分为左边和右边、上边和下边、外边和内部、边框和叉架等两个部分。对左中右或上中下结构汉字,应将中部部分拆归右边或下边部分。对框架结构汉字,拆分时,叉架笔形就是边框内部的笔形。对单部首字一般也要根据编码规则拆分二个部分。
6.3.3.对拆分出的两部分按先上后下、先左后右、先外后内、先(边)框后(叉)架的顺序分别取汉字主要轮廓笔形码。每部分最多取两码,一般应取在整个汉字的字边或字角的笔划构成或参与构成的主要轮廓笔形码。对上中下、左中右和内外结构的汉字的中右、中下和内部部分,应取其最左(上)和最右(下)边角的笔划构成或参与构成的轮廓笔形来编码。
6.3.4.前面编码用过的笔划一般不再重复取码。但前面编码用过的笔划可与后面没用过的笔划组成新的轮廓笔形码。
6.3.5.在同一部位按前述规则取码时,能取较多笔划构成的规则轮廓笔形码,就不取较少笔划构成的轮廓笔形码。
6.3.6.每个汉字最多取四码,主要轮廓码不是四码时,可根据需要补取1个辅助轮廓笔形码,应优先选取接近最后主要轮廓笔形的、没用过的轮廓笔形作为辅助轮廓笔形码。
6.3.7.相邻汉字的轮廓笔形码的编码字符可以连写而不用空格分隔开,其中每一个声母字符l均表示前一汉字的编码结束并开始后一汉字的编码。
6.4.轮廓码子系统可以与其它汉语汉字编码子系统同时使用,但不同子系统的编码之间要用空格分隔开。
7.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于人机汉文编码系统可含有一个高级编码应用支持子系统——简码子系统。
7.1.简码系统由单字简码子系统和词汇简码子系统组成。
7.2.简码子系统的字词简码的一般码式是:“前空格/字、词简码字符段(γjn)/后空格”
其中,“前空格/”和“/后空格”分别是简码的前字符段和后字符段,它们是简码的重要组成部分。只有当一个简码前后已有空格或非字母的数字和标点符号时,才可以省略本简码的前、后空格。“字词简码字符段γjn″的编码规则如下:
7.2.1.单字一级简码的简码字符段γj1为“单个字符”。单个字符可以是任一拉丁字母的大写或小写形式。
7.2.2.单字二级简码的简码字符串γj2为“单个汉字的声韵码”。读音相同的两个汉字可用不同拼法的声韵码字符串分别作它们的单字二级简码的简码字符γj2
7.2.3.词汇一级简码的简码字符γj3的码式为“词汇各个汉字的声韵码首字母”。当一个词汇的一级简码字符γj3形式与单字二级简码或语音码、汉字码等其它编码形式相同时,应在其简码字符尾部加数字码“7”。
7.2.4.词汇二级简码的简码字符串γj4的形式为“相应词汇的一级简码字符γj3后加词尾汉字的声韵码除首字母外的其余部分”。
当一个词汇的二级简码字符γj4与声韵码、汉字码等其它编码结构相同时,应在简码字符尾部加数字码“8”。
7.2.5.词汇三级简码的简码字符γj5的形式为“相应词汇的二级简码字符γj4后加词尾汉字的义形码”。
当一个词汇的三级简码γj5与其它汉字编码结构相同时,应在简码字符尾部加数字码“9”。
7.2.6.一般词汇简码(简称词汇码)的简码字符γj6的形式为“词首汉字的汉字码加其它汉字的语音码”或者“非词首汉字的语音码加词尾汉字的汉字码”。
7.3.简码子系统的各种简码,可与其它各种汉语、汉字编码子系统同时使用,但不同子系统的编码之间要用空格分隔开。
8.如权利要求1所述的计算机汉语汉字编码处理方法,其特征在于人机汉文编码系统可以采用人机汉文字母子系统来编码表达。
8.1.人机汉文字母子系统由标准字符和派生字母组成。派生字母是标准字符(又称原字符)按规定作一定空间变换后形成的新字符。
8.2.派生字母包括倒转字母、反面字母和复变字母。
8.2.1.倒转字母是将标准字符倒转一定角度后形成的新字符。
8.2.2.反面字母是将标准字符所在平面翻转180°后形成的新字符。
8.2.3.复变字母是将标准字符经过倒转和翻转两次空间变换后形成的新字符。
8.3.派生字母可以被指定为某些标准字符形式(简为旧字符)的变体字符,变体字符可以代替相应旧字符用于人机汉文编码系统;一个变体字符可以按规定代替一个或一个以上的旧字符。
8.4.人机汉文字母子系统可以含有一个拉丁字符大写小写形式转换符号(简称转换符号)。
8.4.1.转换符号用于指定的人机汉文编码子系统时,可以表示将其前的大写(或小写)字符转换为相应字母的小写(或大写)字符。
8.4.2.非外来语子系统的编码字符转换符号可用单撇号(’)兼任。
9.如权利要求1所述的计算机汉语汉字编码处理方法,其特征在于人机汉文编码系统可以带有一个方块汉文子系统,该子系统采用方块字写法拼写汉语汉字编码,拼写规则如下:依次将一个汉语音节的语音码或一个汉字的汉字码的各个编码字符,严格按先上后下、先左后右的顺序写入一个装字方块中,使得一个方格中的各个编码字符书写先后次序明确无疑。
10.如权利要求1所述的计算机汉语汉字编码处理方法,其特征在于人机汉文键语词系统具有如下特点:
10.1.人机汉文编码系统的汉语汉字编码字符可以用单字符键语词一个一个字符地表达,也可以用字符串键语词来表达;可以用表示传统线性字符键盘按键操作的单字符按键键语词来表达,也可以采用表示非线性键语词键盘按键操作的多字符按键键语词来表达。
10.2.人机汉文键语词系统的单字符键语词可以是单字符按键键语词,也可以是多字符按键键语词。一个编码字符可以有一个以上的键语词对应。单字符键语词的键值及相应语义可用单字符键语词表确定。
10.3.汉语音节声韵码字符串键语词的一般表达式为:
汉语音节语音码字符串键语词的一般表达式为:
在(6)式和(7)式中,
Figure A9510315700093
Figure A9510315700094
分别为声韵码和语音码的字符串键语词;γs/、/γy、/γd分别为汉语音节编码字符串的声母码、韵母码和声调码的字符段。 分别为第i排和第n排的左键语词素, 分别为第i排和第m排的右键语词素。
i=1,2,3,4;j=1,2;2≤n≤5且n>i;2≤m≤4且m>j。
第1排键指的是字符键盘的最上一排数字键所在键排,其下的Q键键排、a键键排、Z键键排和空格键键排分别是第2、3、4、5排键。
是声母字码的键词词素,
Figure A95103157000910
为韵母字码的键语词素,
Figure A95103157000911
为声调码的键语词素。
键语词素 的取值及相应语义可用键语词素表确定。
10.4.汉字义形码字符串键语词的一般表达式为:
Figure A95103157000913
Figure A95103157000914
其中, 为带声调义形码的字符串键语词;γxl/和/γxb分别为汉字义形码字符串的类名符字符段和部名符字符段。 为第k排的左键语词素,也是义形码字符串键语词的类名符键语词素,即 分别为第l排和第h排的右键语词素,
Figure A95103157000918
是义形码字符串键语词的部名符键语词素,即:
Figure A95103157000919
k=1,2,3,4;l=3,4;h=4,5且h>l。
键语词素 的取值及相应的“语义”可用键语词素表确定。
10.5.汉字码字符串键语词的一般表达式为 γ ‾ s = γ ‾ sy / γ ‾ xd , - - - ( 10 )
γ ‾ s 1 = γ ‾ i / γ ‾ x , - - - ( 11 )
(10)和(11)式中,
Figure A9510315700104
Figure A9510315700105
均为汉字码字符串键语词, 分别为(6)式、(7)式所表达的汉字声韵码、语音码字符串键语词,
Figure A9510315700108
Figure A9510315700109
分别为(8)式和(9)式所表达的带声调义形码字符串键语词和不带声调的义形码字符串键语词。
汉字码字符串键语词
Figure A95103157001011
都是复合键语词,它们的两个键语分词一定按次序交替出现,缺一不可。
10.6.汉字盲打消重码字符串键语词的一般表达式为: γ ‾ c = γ ‾ s / γ ‾ xi = γ ‾ sy / γ ‾ xd / γ ‾ x 1 / γ ‾ x 2 . . . / γ ‾ xn , - - - ( 12 )
其中, 为汉字盲打消重码的字符串键语词,
Figure A95103157001014
为(10)式表达的汉字码字符串键语词, 为消重码字符串语词;
Figure A95103157001016
分别为(9)式表达的、用作第1,2,…,n级消重码的义形码字符串键语词。
11.一种执行权利要求1所述的汉语汉字信息编码处理方法的计算机系统处理设备,该设备由中央处理器10、键盘20、键码转换器25、话筒30、音码转换器35、混码器40、双向码字转换器45、字库50、显示器60、打印机70、通信管理模块80、扬声器90组成,其特征在于双向码字转换器45内建有一个能利用盲打消重码分离汉字码重码字的、可使汉字内码序列与汉字编码字符代码一一对应的装置,该代码的汉字编码字符是利用人机汉文编码处理方法将汉字予以编码后得到的;双向码字转换器45内还可建有将汉字编码字符中的旧字符转换为相应变体字符的装置。
12.如权利要求11所述的计算机系统处理设备,其特征在于键盘20可以是一个线性标准英文字符电子键盘(简称线性键盘),也可以是一个非线性键语词键盘。
12.1.线性键盘的字符按键上标有提示用户进行人机汉文编码字符输入按键操作的说明。每个字符按键均标有与该按键操作有关的键语词结构说明符号和相应前语体要素符号。
前语体要素符号可以是ASCII代码字符,也可以是汉语拼音方案的表音字符串,还可以是汉字的轮廓笔形部首或最常用的一级简码汉字。由非字母字符担任的键语词结构说明符号附在前语体要素符号前边或后边,它们表示在用该按键操作构成键语词输入相应前语体要素时,应配合使用的键语分词或键语词素。
12.2.非线性键语词键盘20由键盘信号发生器21、键位编码器22和键语词编码器23组成。
非线性键语词键盘20的一个完整的按键操作由一对首键素和尾键素组成。首键素是按下按键的操作,尾键素是松开按键的操作。输入任一按键γij的首键素和尾键素,键盘信号发生器21就产生对应的键位状态电信号γji 1和γji 11。首键素γij 1和尾键素γij 11经键位编码器22处理后,转换为与相应ASCII代码对应的电信号γij +和γij +。然后再经键语词编码器23处理转换为由ASCII代码组成的键语词电信号
Figure A95103157001017
并输出键盘20。
首键素γij 1和尾键素γij 11可以是一个按键的操作构成的键语词(如 q)的按键操作电信号,也可以是一个多按键键语词(如 ∧/q, a*s, 等)的若干个按键的有序按键操作电信号的集合——此时,所有按键操作应符合一个键语词的按键操作规定。一个键语词的所有首键素γij 1均应位于所有尾键素γij 11之前,而且,γij 1与γij 11要严格配对。否则,键语词编码器23直接给出按键操作违法的电信号。
非线性键语词键盘20输出的键语词代码
Figure A9510315700111
可以是一个ASCII码电信号,也可以是由若干个有序的ASCII码电信号按键语词构成规则组成的子系统表示的一个键语词代码。
12.3.人机汉文编码处理设备的非线性键语词键盘20的字符按键上标有提示用户进行人机汉文键语词输入操作的说明符号。每个字符按键的键面标有与该按键操作有关的键语词结构说明符号及相应的前语体要素符号。
前语体要素符号一般是表示人机汉文编码系统的声韵码、语音码、义形码等字符串所用的字符或字符段。前语体要素符号本身也表示一个它所在按键的键语词或键语词素。由非字母字符符号担任的键语词结构说明符号附在上述前语体要素符号旁边,它们表示在用该按键操作构成人机汉文字符串键语词或键语词素以表达相应的字符或字符段时,应配合使用的键语词素。
13.如权利要求11所述的计算机系统处理设备,其特征在于键码转换器25可以是建立在内存中的一个映射表;它可以将键盘20输出的键语词代码转换为该键语词代码所表示的编码字符(或字符串)代码。当键盘20为线性键盘时,对线性键盘输出的字符代码,键码转换器25的相应转换过程就简化为原字符代码的传递。
14.如权利要求11所述的计算机系统处理设备,其特征在于音码转换器35可以是由语音库、语音代码库、语音分析模块、语音合成模块、音码转换控制模块等组成的装置,它能将由话筒30输入的汉语音节语音一一转换为相应的汉语音节语音码编码字符的代码。在中央处理器10的控制下,音码转换器35也可以将语音码和汉字码的编码字符代码转换为相应音节语音的、可由扬声器90播音输出的电信号。
15.如权利要求11所述的计算机系统处理设备,其特征在于混码器40带有一个可根据人机汉文编码规则将音码转换器35输出的汉字音源代码和键码转换器25输出的相应汉字的键源代码组合成汉字的完整编码字符代码的装置。
16.如权利要求1所述的计算机汉语汉字信息编码处理方法,其特征在于音码并用输入法还可用于词汇的输入处理,即可分别用话筒30或键盘20,按规定顺序输入一个词汇的汉字音节语音部分或非语音编码部分,就可以得到该词汇码的编码字符代码。
CN 95103157 1995-03-24 1995-03-24 汉语汉字信息的人机汉文编码处理方法及设备 Pending CN1132364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 95103157 CN1132364A (zh) 1995-03-24 1995-03-24 汉语汉字信息的人机汉文编码处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 95103157 CN1132364A (zh) 1995-03-24 1995-03-24 汉语汉字信息的人机汉文编码处理方法及设备

Publications (1)

Publication Number Publication Date
CN1132364A true CN1132364A (zh) 1996-10-02

Family

ID=5074621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 95103157 Pending CN1132364A (zh) 1995-03-24 1995-03-24 汉语汉字信息的人机汉文编码处理方法及设备

Country Status (1)

Country Link
CN (1) CN1132364A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
CN104916286A (zh) * 2014-10-13 2015-09-16 江苏华音信息科技有限公司 汉语语音全自动遥控驾驶汽车的控制器装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
CN104916286A (zh) * 2014-10-13 2015-09-16 江苏华音信息科技有限公司 汉语语音全自动遥控驾驶汽车的控制器装置

Similar Documents

Publication Publication Date Title
CN1218233C (zh) 依据歧异编码及方法而设计的可键入装置
CN1759593A (zh) 字母字符输入装置和方法
CN1648828A (zh) 去多义性语音输入系统和方法
CN1577229A (zh) 输入音符串进入计算机及文句生产方法及其计算机与媒体
CN1280748C (zh) 使用计算机键入字母表中字母的方法
CN1896923A (zh) 英语巴蜀杆栏式汉字化词型翻译中间文本计算机输入方法
CN1132364A (zh) 汉语汉字信息的人机汉文编码处理方法及设备
CN1048343C (zh) 自由组合码汉字输入方法及键盘
CN1241101C (zh) 一种基于汉语音节双读方案的信息输入方法
CN102681669B (zh) 一种双区键盘及其输入方法
CN1258037A (zh) 中文键盘及汉字语音码输入方法
CN1499357A (zh) 字词联体标注方法及其字模与字图
CN1026924C (zh) 汉字析音编码计算机汉字输入方法
CN1129058C (zh) 仿真拼音汉字输入法
CN1275732A (zh) 汉语键盘输入系统及其应用技术
CN1529219A (zh) 语言码输入法
CN85100087A (zh) 《中文声数编码》方案及其实现方法
CN1019527B (zh) 字符的图元输入方法及其键盘
CN1128371A (zh) 文字拆分编码的计算机输入方法及键盘
CN1110806A (zh) 智能五笔双拼码字—词链环式定位联想输入方法
CN1050913C (zh) 中文部首代码编码输入的文书处理装置
CN1172983A (zh) 拼音汉词编码及其键盘
CN1306369C (zh) 一种高速音码汉字的输入法
CN1102488A (zh) 中文数码电脑汉字输入法及其键盘
CN1069140C (zh) 拼音文字的高效输入方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication