CN1023917C - 汉语文字处理之方法 - Google Patents

汉语文字处理之方法 Download PDF

Info

Publication number
CN1023917C
CN1023917C CN 92100888 CN92100888A CN1023917C CN 1023917 C CN1023917 C CN 1023917C CN 92100888 CN92100888 CN 92100888 CN 92100888 A CN92100888 A CN 92100888A CN 1023917 C CN1023917 C CN 1023917C
Authority
CN
China
Prior art keywords
word
sound
chinese
words
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 92100888
Other languages
English (en)
Other versions
CN1064359A (zh
Inventor
林采芬
张廷诰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 92100888 priority Critical patent/CN1023917C/zh
Publication of CN1064359A publication Critical patent/CN1064359A/zh
Application granted granted Critical
Publication of CN1023917C publication Critical patent/CN1023917C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

汉语文字处理之方法属电算机领域,是一种单字、语词及语音输出入的方法。有声字以发音、声调、部首及笔划等音形多标准不论顺序任意组合的交集检字输入;无声字由分类字盘点字输入;缺字时线上造字并以无声字处理;语词用上法检字再以语词长度检出合格语词输入;并以音代字为语音处理的基础文字。本法使用图形技术,以屏幕显示字盘,使略知音形者皆能检字、输入字符、语词、档案或造修字而迅速编辑汉语、音代字、多文种文书、资料及数据。

Description

(一)发明名称:汉语文字处理之方法
(二)发明所属技术领域:
汉语文字处理之方法是一种单字及语词输出入的方法,属於电算机文字处理方法领域。
(三)发明的理解及现况:
中文为图形文字,常用文字在七千字以上(按中国国标GB    2312-80共收字符7445个,而臺湾BIG-5共收字符13053个;本发明以下的说明及分析以这两个字库的字符为基础)可谓数量庞大,其档案文书均以图形文字记载,书写体式多而差异大,电算机之发明使用並非为输入中文图形文字(中文与汉语同义,在下文中交替使用)而设计制造,因此汉语输入之使用电算机便有许多障碍。
中文是一种自然语言,含有许多“混淆”,诸如:很多中文字具有相同的发音(音同);很多中文字具有相同的部首、字根或笔形(形同);很多中文字的部首归类並不一致。由於上述的“混淆”,单以发音或以一个部首、字根或笔形(为说明之便,以“部首”一词代替“部首、字根及笔形”,因三者均为字形的要素)用来找一个想要用的字,几乎不可能一查即得。汉语拼音字母虽对应於英文字母,但基本上不同,英文字母为英文文书的表达文字,汉语拼音字母则不然,因为汉语拼音字尚须转换为中文图形文字,转换全由人工处理。不管用何种方法输入,当有许多同音字或同形字时,转换为中文图形文字便很费时费事。
现有不少的方法用来处理文字编辑文书的;一般的说,这些方法是:一为汉语拼音法:中国在1958年公布,使用abc等25个英文拼音字母(v未被採用),此方法为中文文字输入方法的主流,在中国大陆使用。二为注音符号法:使用ㄅ夂ㄇ等37个注音符号和5个基本声调法,此方法在中国的臺湾省及国外少数地区使用。三为部首法:部首(字根或笔形)是中文文字的共同部分,有很多方法(一般称为字根法或笔形法)可用来摘 取这些共同部分。由於这些部首的图形代表物不一定相同,归类不一致之故,因此这个方法有定义上的问题。
使用以上方法作为文字处理时有共同缺点:一为当使用电子媒体时,写作者被限於使用标準的101键(或更少些)的键盘输入设备去定义七千以上的中国字。当使用电脑终端机时,使用人平均需要按三、四下键才能定义一个中国字(汉语拼音下最长需按六次键才能定义字的音韵,而最短只需按一键)。这需要熟记按键的不同组合,非长期练习不可,因此电算机並非人人可用的。二为经常太多的合格字供给选用。从很多的合格字中,选取所要的一个字,是相当的费事,尤其大量的选取更是烦难。三为在现有方法的检字程序中,均假定使用人已知道所需用字的正确资料(字的声韵调或部首字形)。假如有不知道或混淆不清时,常常找不到字,需要一试再试。四为使用键盘为输入设备用来检字时,对无声字(符号及外国字母等非中文发音)除翻书查码并键入该无声字之代码外几乎无法可施。五为不论中文文字库的字数多寡在现有方法的检字程序中,有时也会找不到字。中国是文化古国,有大数量的古书籍,而且具有一定的参考价值,其中有很多文字是今日所不常用,如要兼顾,中文文字库的字数当在五万到十万个之数而犹感不足。又当中国开放之后,多文种文字输入愈形重要,缺字、无字或找不到字更形普遍。因此报章杂誌上经常看到印刷文物中常有手写文字参差其间。缺字、无字可用造字机以为补救;一般地,使用键盘为输入设备的造字功能极差,操作不易;造字需要编码或订其汉语拼音或注音符号,以做为下次输入之用。这些新码或汉语拼音或注音符号非常人所能记忆,必须翻阅背忘录查得编码始能操作。又因中国地域辽阔,人口众多,六族融合,南腔北调,音差极大,单以发音法(汉语拼音或注音符号法),有许多人口无法或困难输入中文;因此一般电算系统均提供多种输入法以补发音法之不足,部首法是其中的一种,但其个数多(约二百个),记忆困难使用不易,字根法、笔形法因此被採用,但背诵口诀,拆字解码,需要记忆及训练,欠缺政府教育支持不易推广,多种输入法的操作必然繁複,使用电算机的“技术恐惧感”因此而生。至今,对单 一文字的处理尚没有一套有效、易学、易用、免记忆的方法;不消说,複字(词语)的处理方法更不可得。
吾人知道,中文字是一字一形的,是由声母、韵母及声调构成其音调节,由部首及特殊笔形构成其图形文字,音形并用才能决定一个文字。所以决定一个文字(定字)的方法是:定音、定调、定形三者。目前中文字的处理如不是“定音法”(不定调)或“定音定调法”,就是“定形法”(如部首法、字根法,笔形法等是);但不论何种方法,仍然无法“定字”,因为在各个方法下,有许多的“同音字”或“同形字”,必须经人工的最后决选才能“定字”,“定字”之后才能储存、使用。有一个事实可以证明:有较多中国人会说国语而不会写字,可知“定字”的过程“定音”比“定形”简单,亦可见“定形”所费的记忆较多,较难学习。目前中文的处理,必需“定形定字”,才能储存、阅览、印刷或处理;这种“定形定字”的文字处理,时时行之但不知觉;就汉语拼音输入来说,用键盘输入拼音后,屏幕就列示该拼音的同音字及其序码,使用人再键入序码,便完成输入,键入序码前,使用人须要用视觉判断同音字中何字是所需要的,这种视觉判断的过程,就是“定调”及“定形”的定字程序,这种程序的潜在工作量是大量的,但不知觉。这种观念有待修正;因为“定形定字”的程序有时候是多馀的,根据“语词”前后文的发音,推断语意,已可“定字”;如果发音是“有音有调”的(即定音而且定调),当然表意明确没有“定字”问题;即使是“有音无调”的(即定音但不定调),也足可“定字”。由於使用人的需要改变,如语音输出,其要求之文字输出为语音,显然“定音”、“定调”已能满足需要,“定形”的定字程序成为多馀的、浪费的文字处理工作。如果能以“定音法”(不定调)或用“定音调法”来定字,一定比用“定音、定调、定形法”快速而有效率。因此,为快速处理及语音需要而设的“音节代表字”(以下简称为音代字)应该建立,目前尚无发明。
昔日的中文打字机,进行文字处理时,以大键盘输入,一字一键,整字输入,直观易行,唯一缺点是字盘过大,找字不易。目前输入键盘儘 求缩小,如要以一字一键“整字输入”的可能性不复存在。但科技发明,日新月异,输入设备的多样化、高解析度图形卡及高解析度屏幕显示器的发明,使整字输入的理想,成为可能。整字输入,直观易行合乎国人习惯外,以“整字”的码元储存较以“拼音字母”节省储存体的空间,“整字输入”的处理应值得提倡。
经验告诉我们:当编辑一篇文章时,其所使用的每一个字,我们并没有相同的“瞭解”;当然有些字的“音形”都很清楚,但是有的仅知其“声韵调”而不知其“形”,有的仅知其“形”而不知其“声韵调”的,不一而足;当然,吾人追求的中文的输入方法应具有“弹性的”(FUZZY)检字能力,以配合使用人对字的不同瞭解;亦需要兼顾“缺字”的造字能力;进一步要有高效率的“语词”或“音代字”输入功能。而目前中文文字处理欠缺一种“以使用人的文字瞭解及输出入需要为基础的整字输入的文字处理”方法。
(四)发明目的:
综合上述,本发明所欲解决的问题是:(1)配合使用人对字的不同瞭解採用具有弹性的检字法,一次搜寻即可检出所要用字;(2)无声字或符号等以分类的方法,整字输入;(3)以造字方法解决缺字、无字、找不到字及多文种文字输入;(4)“语词”输入,以加速处理文字;(5)“音节代表字”的创建使用,除加速处理大量文字输出入功能外,并给语音处理提供重要基础。吾人需要一套有效、易学、易用、免记忆编码的文字处理方法,因此本法结合数统方法、资料整理、中文文字学、人体工学、图形技术、电算系统等多种科学之知识,经过实证(本申请案的全部文字及图形处理是在本发明的方法下实践的),肯定的说,本发明是汉语文字处理整体的解决方案,在一个方法下,完全不需记忆或翻阅文字编码,使用屏幕显示字盘,使略知音形者皆能检字、输入语词或造字而迅速编辑多文种文书及资料。由於操作简易,人人便乐於使用,使文字处理成为赏心悦事,并藉电算机的普遍使用,大大提高全民的生产力。
(五)发明内容:
本发明是一种单字及语词输出入的方法,属於电算机领域。本发明将中文的文字处理范围分为:有字处理及无字处理两大项。有字处理是指处理电算系统内已存在的文字及符号而言,可定义为单字及複字两类:单字处理是指单一文字的处理,包括:有声字的检字及无声字的检字;複字处理是指两个文字以上的处理,在本发明称之为语词处理,语词以字数多寡分类,分为:二字成语、三字成语、四字成语、多字成语、俗谚、常用词彙、及文书档案等。无字处理是指电算系统内没有的文字及符号而言,“没有”是指不存在或找不到的文字及符号,需要造字才能处理。本发明之方法可适用於任何电算机系统,其输入设备则需要,键盘、光学点输入设备(Optical    Pointing    Device,如滑鼠、光笔、轨迹球、滑鼠笔等的任何一种均可)而语音输入设备则为选择性的(Optional)可有可无。以下说明,为方便计,以滑鼠解说。本发明使用图形技术,利用直观式屏幕键盘,使用人以滑鼠点字输入。有声单字是以发音、声调、部首及笔划等多种标準,可以不按顺序任意组合的交集,检出合格字,再由合格字点字输入;无声字(英文、多文种字母、符号、及新字等)迳由分类的萤幕键盘点字输入。无字或缺字的输入以线上(On    Line)造字,存入字库,以无声字(新字)处理方式输入。输入语词是以上述方法检出语词的第一字或语词最前面的几个字,然后按所要用的语词长度,点取对应的语词命令(包括二字成语、三字成语、四字成语、辞彙、俗谚及档案),检出合格成语词(第一字相同者),再由屏幕键盘点取合用的语词输入。本法採直观式屏幕键盘,以视觉操作,使用人不需训练或记忆代码;只要稍知文字音形之一部分,应用交集原理,一次即就可找到所要找的字;此法因具有线上(On    Line)造字的能力,即造即用,所以本法之下,无所谓的无字或缺字的问题,多文种输入的难题亦因此得到解决;本法具有语词输入能力,故输入效率高;音代字的建立及使用,可大量处理输入,自动替换,输入效率更高,请参考图21。上述本发明之流程,请参考图1。为进一步的说明,分五节说明其内容:(1)有声字的检字;(2)无声字的检字;(3)缺字的造字;(4)语词的输入;(5)音代字的建立应用及输出入;如下:
(1)有声字的检字:
音形为汉语有声字的定字要素,可分为:发音,部首(字根或笔形),声调,及笔划四标準(Criteria),参考图2。使用人在进行检字编辑文书时,让使用人表达(输入)所需文字的已知标準(发音,部首,声调,及笔划),利用这些标準与字库文字集所有文字的交集(Intersection),这样便可以排除“混淆”情况,通常一次就可正确检出所需用字,不需一试再试。根据研究汉语文字在各标準间的分配情况后,发现两个事实可用来解决问题:第一、中文文字在部首间的分配並不平均,参考图24及图25。第二、极少数的汉语文字具有同音及同形(部首、字根或笔形)的。利用这些特质,吾人可以在一个方法下,表达对各别文字的“已知”发音、部首、声调及笔划,经中文人工智慧搜寻判断,只有极少数的合格字在屏幕列示,再由这些“少数”合格字检字进行编辑。
有声字的定字输入法中的四个要素,详述如下:
①发音:汉语拼音下有两种屏幕的列示方法:一为声韵屏幕列示法:即按声母、韵母排列(参见图3);二为字母音代字法:即屏幕仅列字母,当字母被选之后,该字母所有音节(或音代字)由屏幕列示,再由使用人点取输入;如图4所示:以字母“a”被选为例,屏幕就列示“a”字母所有音节(或音代字),即“a”“ai”“an”“ang”“ao”或
Figure 921008880_IMG8
。当发音不详时,不详的拼音或声母或韵母均以“☆”替代。
②声调:声调有七个:即轻、一、二、三、四声,及轻一,二三合声,其符号为“·”“-”
Figure 921008880_IMG10
,参见图5。本法独创轻一合音其符号为“
Figure 921008880_IMG11
”,及二三合音其符号为“ ”,以补国人对轻声、一声难辨,二声、三声难分的缺点。其合音之效果相当於分别选择单独声调再将合格字合併供使用人选用,唯合音之输入效率较分别输入为高。
③部首:传统部首、字根、及笔形,三者均为字形的要素,以其中的任一种做为检字的标準钧有抑减合格字的作用,由於字根及笔形之法,不胜枚 举,故本发明以“部首”一词代替传统部首、字根、及笔形三者。由於传统部首数太多,使用困难;但利用图24的数据,可使用数个屏幕並按“重要性”列示,其法为“较重要部首列示而其馀部首概括以‘?’列示”,如图8之屏幕列示。据统计部首数为186个,其中重要性最高的23个部首约佔全中文字的54%,而其他的163个部首仅佔全数46%,本发明均衡部首之重要性及一般使用人辨字之速度,实验之结果发现以23个部首之效果颇佳,故本发明部首的第一屏幕以23个部首,配合一“其他部首”(可以“?”或任何图形表示)来代表全部字之部首,如此可减轻使用人眼力之负担,以达成有效迅速的输入。而列示之部首数可按需要酌量调整,其检字之有效性依然存在。效率较低的部首可置於第二屏幕以后列示,以备不时之需,或不使用。
④笔划:列示的方法两种:一为系统将所有笔划分为几个组,每个组给一个名称,使用人便以这个名称来选笔划,例如1到10划,称为“少笔”,11到18划,称为“中笔”,18划以上,称为“多笔”,使用人可以用“多笔”来检取18划以上的字;二为系统列示所有笔划数,例如1到30划,使用人可以用两个笔划数来定义所要的笔划范围,例如12到16划,笔划数列示表参见图7。当然笔划数及分组可随需要增减。
为兼顾臺湾省及少数海外地区使用ㄅ夂ㄇ37个注音符号的人士,其有声字的检字方法可调整为:使用人检字编辑文书时,可不按任何顺序任选(可以选用或不选用)本发明所列示的注音、部首、声调及笔划一个或一个以上;然后本发明利用交集的原理,选择合於标準的合格字,然后使用人再进行以选用或不选用这些合格字,如被选用,这些字就将加入编辑进行中的文书。注音的排列有两种方式:一为声韵屏幕列法:按声母、韵母排列(参见图9);二为字母音代字法;屏幕列示所有的注音符号,当其中的一个注音符号被选之后,该注音符号的所有音节(或音代字)由屏幕列示,以注音符号“ㄈ”被选为例,参见图10,“ㄈ”的所有音节(或音代字)由第二屏幕列示。声调计有七个:即轻、一、二、三、四声,及轻一,二三合声,其符号,参见图11。部首共有214个,按其所含字数多 寡,统计各个部首的重要性,参见图25。笔划的列示法两种:一为系统将所有笔划分为几个组,每个组给一个名称,使用人便以这个名称来选笔划,例如1到10划,称为“少笔”,11到18划,称为“中笔”,18划以上,称为“多笔”,使用人可以用“多笔”来选取18划以上的字;二为列示所有笔划数,例如1到30划,使用人可以用两个笔划数来定义所要的笔划范围,例如12到16划,笔划数列示表参见图7。由於部首数太多,但利用图25的数据,可使用数个屏幕並按“重要性”列示,其法为“较重要部首列示而其馀部首概括以‘?’列示”,如图13之屏幕列示。据统计部首数为214个,其中重要性最高的23个部首约佔全中文字的62%,而其他的191个部首仅佔全数38%,本发明均衡部首之重要性及一般使用人辨字之速度,实验之结果发现以23个部首之效果颇佳,故本发明部首的第一屏幕以23个部首,配合一“其他部首”(可以“?”或任何图形表示)来代表全部字之部首,如此可减轻使用人眼力之负担,以达成有效迅速的输入。而列示之部首数可按需要酌量调整,其检字之有效性依然存在。效率较低的部首可置於第二屏幕以后列示,以备不时之需,或根本不使用。以上注音、部首、声调及笔划的屏幕的列示方法,可以按需要弹性调整(各标準的屏幕的列示方法如有多种时,可取一种或多种),参见图13。
本法以发音,声调,部首及笔划数的多重标準(Criteria),使用人可以任何顺序,及任何组合(个别要素均为可有可无,依使用人对该字之瞭解而异),其组合之效果相当有效迅速,非其他输入法可相提並论的。以注音法为例,企图以仅有的4百多个发音由七千多个字中来选取一个字,其合格字往往太多,而造成使用人检字之困难。但若以部首来约束同音之字,其最后合格之字数将大大减少。类似的情形亦存於部首法,由於部首之分配不均,极大多数的字集中於少数的部首,而造成其合格字太多及使用人检字之困难,此外214个部首以超出一般人能一目了然的数目,因而加深使用人操作之困难。一般而言,使用人须熟知文字之资料才能顺利一次找到所要的字。本法改善了“多次检字”的现法,放宽使用人对文字的知识的要求,及语音的范围。本法不须强记,或解码,单凭直觉及一般人 所有的语言常识,即可迅速有效的输入中文及其他符号。本方法的有效性,以实例说明如下:
例一:以GB    2312-80字集,找“本”字。
1.输入:ben
合格字:贲奔锛苯本畚夯坌笨
2.输入:ben
合格字:苯本畚笨
3.输入:ben    木    -本发明之方法
合格字:本
例二:以BIG-5    常用字,找“利”字。常用字请参见图26。
1.输入:ㄌ-
合格字:力叻立吏利李里例戾俐俚哩娌栗浬狸荔鬲唳梨
犁理琍笠粒莉喱痢慄溧蜊裡漓蒞貍厉履犛璃锂
黎暦历澧罹励隶疠礼厘镉离鲤坜沥丽砺砾醴俪
蛎蠡郦欐逦雳籬骊
2.输入:ㄌ-
合格字:力叻立吏利例戾俐栗荔鬲唳琍笠粒莉痢慄溧蒞
厉暦历励隶疠镉坜沥丽砺砾俪蛎郦欐雳
3.输入:ㄌ-    刀    -本发明之方法
合格字:利
由上看出:本发明之方法产出的合格字极少,检字容易效率高。
(2)无声字的检字:
不属於有声字的检字,均属之。无声字的检字方法,其特徵为以分类字盘,由使用人点字输入。其字盘分类按实际需要而设,可分为:数字、英文、日文、俄文、希臘文、汉语拼音、汉语注音、汉语部首、常用符号、其他多文种字、新字等。其中数字、英文、日文、俄文、希臘文、汉语拼音、汉语注音、汉语部首字盘的无声字取自系统字库;新字字盘的无声字来自造修字机的造字;其他多文种字盘的无声字来自文书编辑器所编 辑的多文种档案;常用符号的无声字来自文书编辑器所编辑的常用符号档案。字盘以屏幕显示,其大小按实际需要而设,以视觉能力所能负荷为合适;以14吋屏幕为例,不超过百字为宜。使用人首筅选用适当分类字盘,屏幕显示该类字盘所有的字符,再由使用人点字输入。其流程请参见图1;以使用日文字盘为例,参见图16,使用人只需点取字盘中的日文字母,该字母就被输入到编辑中的文书。
(3)无字的造字:
造修字机(请参见图14)是无字、缺字、找不到字时均可使用,可造世界字(多文种文字或任何图形),其特徵为提供完全中文作业环境,使用人造字修字时,不须记忆任何字之代码或以键码的方式来指定所要参考之字,任何操作均可以点输入设备(滑鼠或光笔)完成,以提供使用人最方便及迅速的造字法。使用人可利用现有之字形,其来源包括经由多重标準交集检字法所检出之系统文字及符号,或由参考字盘中点取使用人已造之新字,利用现有之字形並配合系统提供之中文命令集(Command    Icon),包括:取点,单线,选区,擦线,清除,划方,反相,中空,转向,伸缩,对称,移动,暂存,取消等,将该字修饰为使用人所要之新字(或多文种文字)。使用人之屏幕工作区可在1∶1的实际字上(参考图14右下的工作区)或在选区后放大的工作区(参考图14左边的工作区,其倍数,按实际需要而定)。使用人依本身之需要选择造字或修字。使用人不须记忆新字之代号,也不须以键码的方式来指定所要修改之字。当使用人选取修字命令时,系统要求使用人由参考字盘中点取所要修改之新字,在使用人定义所要修改之字以后的一切操作步骤均与造字相同,当使用人点取存档时,系统将以使用人所创之新字替换使用人定义所要修改之字,系统将修改参考字盘中之新字以反应使用人选定的(字有不同的尺寸)新字字库之实际内容。
系统提供的修饰功能包括,取点,单线,选区,擦线,清除,划方,反相,中空,转向,伸缩,对称,移动,暂存,取消及还原等,供使用人能迅速有效地造字或修字,各功能之详细说明如下:
1.取点:使用人以滑鼠点取所要的点。
2.单线:使用人以滑鼠点取两点来定义单线。
3.选区;使用人以滑鼠点取一点(在图14右下的工作区上)来定义放大工作区的中心点(在图14左边的工作区上)。
4.擦线:使用人以滑鼠点取两点来擦掉其间所通过的点。
5.清除:使用人以滑鼠点取两点来定义所要清除的范围。
6.划方:使用人以滑鼠点取两点来定义方形。
7.反相:将全部的黑点改为白点同时将白点改为黑点而使该字黑白颠倒。
8.中空:将字之中心清除而留下字的外围。
9.转向:使用人以滑鼠点取一点来决定所要旋转之方向。
10.伸缩:用两点来定义要改变的范围,再以两点来定义要放置该图之范围。
11.对称:用两点来定义要复制的范围,再以另外一点来定义对称之轴。
12.移动:用两点来定义要移动的范围,再以另外一点来定义放置之位置。
13.暂存:将现有之字形存於暂存区,以增加工作空间。当需要时使用人可再把暂存之字形移回工作区。
14.取消:取消最后一个指令所发生的效果。
15.检字:利用本发明的多重标準交集检字法等,使用人可以检取欲参考之字符以加速造字或修字。
16.参考字:造字时参考字盘所列示之字为作为参考字之用;修字时,使用人必须由参考字盘中选取欲修改之字,使用人在选取欲修改之字后,参考字盘所列示之字恢复作为参考字之用途。
17.造字:使用人要求创造不同尺寸的新字时需定义字的尺寸(参见图18)。
18.修字:使用人要求修改已创之新字时需定义所要修改的字,再按 造字程序操作。
19.还原:放弃现有之字形,将工作区回复到未工作前的状况。
20.存档:将工作区中之字形写进使用人自创之新字库。如果使用人欲造新字,该字形则被加在档案之末,如果使用人欲修字,该字形则被用来替换使用人所指定之字。
21.出口:离开本造修字机。
造修字机的屏幕图示,参阅图14,其造字尺寸或倍数可自行设定,控制流程请参阅图18。
(4)语词的输入:
凡一字以上习用的汉字组合称为“语词”,“语词”输入的效果高於检字输入。其特徵为提供完全中文作业环境,以字数多寡将语词分为二、三、四、多字成语、俗谚、常用词彙、及文书档案等。输入“语词”以上述方法(有声字的检字:以发音、声调、部首及笔划等多标準任意组合的交集检字输入)检出第一字或语词最前面几个字再以语词长度检出合格语词,整词一次输入。二、三、四、多字成语、俗谚来自系统成语资料库,由各类成语书籍、词典搜集整理而得。常用词彙及文书档案来自文书档案库,由使用人自行建立,字数较少的语词置於常用词彙档内,字数较多的语词置於文书档案内,二者均随使用人需要可以用文书编辑器编辑。除文书档案以“中文档名”列示於屏幕外,其他语词均以语词之实际内容列示於屏幕,兹以有声字的检字法检出“金”字为例的四字成语屏幕图示(参阅图17)。因为电算机的操作系统为英文,不识中文,文书档案如以“中文档名”列示於屏幕其法如次:
档案管理及操作之特徵为提供中文的档案操作命令集(Icon),使用人不须使用键盘键入档名便可操作;系统提供档案控制表,其上载档案有关的资料(中英档名、建立日期、更新日期、尺寸及保护等)以中文列示,供使用人识别选用;档案控制表有两种处理方式:一为分散处理式,档案有关的资料於建档时写入各别的档案内,並给特定的档案识别码(Extention),以作为操作系统(OS)区别中文档案与英文档案之用,当档案操作影响 或改变档案有关的资料(中英档名、建立日期、更新日期、尺寸及保护等)时,操作系统(OS)就必须重建档案控制表,重建之法是利用档案识别码,开启(Open)所有识别码相同的档案,读取档案有关的资料並写入档案控制表中,以备下次取用。二为集中处理式,所有档案有关的资料(档名、建立日期、更新日期、尺寸及保护等)於建档时写入档案控制表内並有中英档名对照资料及存灭记载,当档案操作影响或改变档案有关的资料(中英档名、建立日期、更新日期、尺寸及保护等)时,就须根据存灭记载清除实体档案,並须更新档案控制表的内容,以备下次取用。以上两种处理方式均可达成档名中文化的目的,现就分散处理式说明施行步骤,如下:①假定中文档案是储存於TF目录中(Directory),中文档案的识别码(Extention)为chi。
②当建立新中文档案时,假定使用人定义中文档案名是“中国名人录”,系统就开一新档,经操作系统(OS)与应用软体介面,建立英文档案名是:c0000001.chi,所有档案有关的资料(中文档名,英文档名、建立日期、更新日期、尺寸及保护等)写入档案内。如有新建立中文档案时,步骤如前述,唯英文档名将为:c0000002.chi。使用人定义中文档案名是经多重标準交集输入法取得。此时,档案控制表尚未存在。
③假定使用人要求操作中文档案(经图形使用人介面“GUI”的任何命令,须要中文档案作为命令操作的对象),系统首筅检查档案控制表是否存在,如不存在,就重建档案控制表,重建之法是利用档案识别码(chi),开启所有识别码相同的档案,读取档案有关的资料並写入档案控制表中,以备取用。此时,档案控制表已存在。此后,档案控制表如非档案操作影响或改变档案有关的资料(中文档名,英文档名,建立日期、更新日期、尺寸及保护等),不需重建档案控制表。因为档案控制表中有中文档名及英文档名的对照,当GUI介面陈列档名时,以中文档名列示,所以英文档名可不列示。
④档案操作命令计有:阅览、印刷、改名、複制、删除、保护、配对、输出等,当档案操作影响或改变档案有关的资料(档名、建立日期、更新日 期、尺寸及保护等)时,系统就必须重建档案控制表,例如:当使用人要求操作删除档案时,GUI介面陈列档案控制表时,以中文档名列示,使用人点取所要档名后,系统根据档案控制表中文档名及英文档名的对照,即可找到英文档名而执行删除,並重建档案控制表,以备下次取用。
文书档案以中文档名列示於屏幕,兹以有声字的检字法检出“专”字为例的中文档名屏幕图示,参阅图15;使用人选用档名是将该档案之全部内容输入而非档名。档案之控制流程,参阅图19。
(5)音代字的建立应用及输出入:
①音代字的建立:
汉语有声字是汉字处理之大宗,为处理“难题”之所在,音代字为此而设计。汉字定字要素为定音(声,韵),定调,定形三者;为加速处理文字之需要,输入以定音(声,韵)或定音调(声,韵,调)输出入为最迅速。为定音,定调而设计之文字称为音节代表字,简称音代字。中文是单音节的文字,有声韵而带调的,这些声韵据统计(GB2312-80),在汉语拼音下共为441个声韵的不同组合,本发明设计了其文字的构造如图22,本图所列示为第一声的全套音代字,可依图20之原则,複制扩充为五个声调的音代字,其每个字的组成要件是这样设计实施的:
1.找出全部汉语的发音(音节,即声韵的不同组合);
2.由每个音节所含的文字中选出字形最易被辨认且不是破音字者,作为音代字之汉字部份。
3.再为各音节所选出的字中加声调符号‘·’、‘-’、‘
Figure 921008880_IMG15
’、‘ ’、‘
Figure 921008880_IMG17
’共5种。
4.再将每个音节所选出的字中加发音符号,如汉语拼音、注音符号等相等符号。(其式样参见图20)。
5.再将完成之音代字编码,与其馀汉字平行,共存於同一系统中,依使用之需要检出使用。
②音代字的应用及输出入:
汉语拼音下,见图8所示,当使用人决定以音代字输入时,有两种 模式(Mode)可以选择,一为定音,二为定音並定调。当模式确定后,部首、笔划或其他无关的标準(Criteria)成为无效的功能(Disable)。假定使用人选的是定音(定声韵)而不定调的模式,使用人利用输入设备(如滑鼠、光笔等)点取所要字之第一音,以“安”为例,其拼音为“an”,使用人点取“a”,(请见图4所示的第一屏幕),系统经由人工智慧判断,将全部可能的发音列於屏幕为第二屏幕,(请见图4所示的第二屏幕),其表达方式则由使用人依个人喜好由两种音代字中选择惯用的音代字,使用人点取“an”或“
Figure 921008880_IMG18
”时此音代字就被输入於编辑中之档案。上述音代字的输入过程只需两键,较拼音法的1至6键为少。假定使用人选的是定音(定声韵)並定调的模式,部首和笔划则成为无效的标準(Criteria),仅发音及声调为有效的标準,使用人之操作方法与上述的模式完全相同,其结果也是完全相同,只是第二种模式所输入的资料较第一种模式为更精确,系统语词替换的精确度提高,故能节省更多的人工校订程序。
以上是在汉语拼音下说明音代字的使用,在注音符号下之操作与上述完全相同,请参见图10及图13,惟此法下输出之音代字为繁体文字,其形态请参见图20。
使用人经上述操作便建立了音代字档案,这类档案可以直接作为输出之用,因为音代字本身具有可读性。
例如:汉字输出:我是中国人。
音代字输出:
Figure 921008880_IMG19
如果使用人想直接检出汉字(定形处理),请参见图21下半图所示。首筅经过系统自动语意判断(Sementics    Analysis)程序处理(Process),以适当的语词替换音代字码元(Code),这程序节省了大部分定形的输入工作,未被替换的音代字工作须由人工完成校订,完成后即可以汉字输出。如果以音代字作为输出之用亦无不可,因为音代字本身具有可读性,输出的形态亦有选择性,如图20所示或可以汉语拼音的形态作为输出。若为语音输出入时,其输出的形态则可为原音输出或转为标準音输出。当转换为标準音输出时,系统以标準音之数量化资料来替换使用人的发音资料。
音代字的发明,主旨在加速及处理文字的输出入,以上的说明是假定使用人没有语音输入设备的情况。当使用人使用语音输入设备时,其效果更佳,因为语音输入时,完全不需按键,系统全部自动处理,但实施时有一些条件存在:
1.系统必须有预储标準的音代字发音的语音资料库;
2.使用人须有个人预储的音代发音的语音资料库;
3.使用人输入时,应儘量与预储的发音相近;
以上语音输入的全部流程,请参见图21。
(六)发明与现有技术相比所具有的优点或积极效果:
中文的输入方法很多,但是没有一个方法不需文字编码而具有“同时”处理有声字、无声字、符号、缺字、无字、找不到字、多文种文字、及语词输入的能力;也没有一个方法具有“音节代表字”的创建及使用,以加速处理大量文字输入功能之外,并给语音处理提供重要基础。编辑文书中,没有一个方法能一次搜寻即可检出所要用的字,也没有一个方法能即时(On    Line)造字而解决缺字、无字、找不到字的问题。再以有声字的检字而言,声韵屏幕列示法或字母音代字法其按键数1~3下(以同质量的输出相比较),而音代字的输入过程只需两键,较拼音法的1至6键为少而且没有拼音的错误,这可校正键盘拼音输入常有拼音错误的缺点,如以语音输入则免按键,其输入速度甚快无可比较。本发明以使用人的文字瞭解及输出入需要为基础,提供了的整体的汉语文字处理方法,是一套有效、易学、易用、免记忆编码、没有技术恐惧感(Technical    Fear)的文字处理方法;经过实证(本申请案的全部文字及图形处理是在本发明的方法下实践的;文字处理包括不少新字的建立,没有一个手写文字夹杂在本申请案中;高倍造字机的功能,完成本案的全部图形处理,对中文的处理来说,本方法已经取得一定的成果),本方法不需记忆或翻阅文字编码,使用屏幕显示字盘,使略知音形者皆能检字、输入语词或造字而迅速编辑多文种文书及资料。清鬆自然的操作,人人必然乐於使用,文字处理成为赏心悦事,因而大大提高全民的生产力。
(七)图面说明:
图    1:汉语文字处理之方法流程图。上半图描述单字处理流程;下半图描述複字(语词)处理流程。虚线表示处理与资料之关係。
图    2:汉语的有声文字定字法。定音、定调、及定形是定字的三方法。图中没有阴影的部分为汉语拼音(中国大陆地区使用)下的定字法;而有阴影的部分为注音符号(臺湾地区使用)下的定字法。
图    3:汉语拼音下的声母韵母表。表中符号可用来表达汉语有声文字的声韵,是定音的一种方法。
图 4:汉语拼音下的字母、及两种音代字表。可用来表达汉语有声文字的声韵,是定音的一种方法。图中以“a”字母为例,列示其汉语拼音音代字(a,ai,an,ang,ao共5个)或汉语音代字( 共5个)於屏幕供选。一经检选,该字之声韵就此确定。
图    5:汉语拼音下的声调表。可用来决定汉语的有声文字的声韵,是一种定音方法。
图    6:汉语拼音下的部首表。可用来决定汉语有声文字的主要形状,是文字定形的一种方法。
图    7:汉语拼音及注音符号下的笔划表。是汉语的有声文字形状的一种特徵,是一种文字定形方法。图中有两种表示方式,第一种是系统提供几类(如图中的少笔、中笔、多笔),由使用人选用。第二种是系统提供笔划表(如图中的1~30),由使用人选用。选用笔划的方法是用两个笔划数定义笔划范围,图中假定这两个笔划数是12及16。
图    8:汉语拼音下的四个输入标準:发音,声调,部首,及笔划。发音标準的屏幕列示用图3或图4的方法均无不可;本图列示拼音字母,如有字母被选时,其字母的汉语拼音音代字或汉语音代字就列示於屏幕供选;如以图3的声韵母列示,使用人可以任意选用,声韵不定时,以“☆”代替。声调取自图5汉语拼音声调表的符号。部首取自图6汉语拼音部首表的符号,可按需要分为几个屏幕列示,按部首重要性排列,本图列示23个重要性最高的部首(佔第一级汉字及第二级汉字总字数的54%,参考图24),其 馀163部首以“?”代表。笔划标準取自图7的笔划表(表1或表2均可)。汉语文字合於四个标準的任意组合的交集(Intersection),对使用人来说,这就是合格字。
图    9:注音符号下的声母韵母表。表中符号可用来表达汉语有声文字的声韵,是定音的一种方法。
图 10:注音符号下的注音、及两种音代字表。可用来表达汉语有声文字的声韵,是定音的一种方法。图中以注音符号“ㄈ”为例,列示其注音符号音代字(ㄈㄚ ㄈㄛ ㄈㄟ ㄈㄡ ㄈㄢ ㄈㄣ ㄈㄤ ㄈㄥ ㄈㄨ共8个)或汉语音代字(
Figure 921008880_IMG21
共8个)於屏幕供选。一经检选,该字之声韵就此确定。
图    11:注音符号下的声调表。可以用来决定汉语的有声文字的声调,是一种定音方法。
图    12:注音符号下的部首表。可用来决定汉语有声文字的主要形状,是文字定形的方法。
图    13:注音符号下的四个输入标準:发音,声调,部首,及笔划。发音标準的屏幕列示用图9或图10的方法均无不可;本图列示注音符号,如有注音符号被选时,其音代字就列示於屏幕供选;如以图9的声韵母列示,使用人可以任意选用,声韵不定时,以“☆”代替。声调取自图11注音符号声调表的符号。部首取自图12注音符号部首表的符号,可按需要分为几个屏幕列示,按部首重要性排列,本图列示23个重要性最高的部首(佔常用字及次常用字总字数的62%,参考图25),其馀191部首以“?”代表。笔划标準取自图7的笔划表(表1或表2均可)。汉语文字合於四个标準的任意组合的交集(Intersection),对使用人来说,这就是合格字。
图    14:造修字机的屏幕图示,可造任合尺寸的文字或图形。
图    15:档案控制表的屏幕图示。图中以档名为“专利名称摘要”的内容输入。
图    16:多文种输入。图中以“日文”字盘输入日文。
图    17:语词输入。图中输入第一字为“金”的四字语词。
图    18:造修字控制流程。可造汉字、多文种文字及图形,其尺寸倍数使用人自定。图中处理1:造修字控制流程的起点;处理2:使用人设定所欲操作新字大小;处理3:显示造字机背景,即图14;处理4:检查使用人所设定新字库是否存在,並设定存字位置为字库之尾;处理5:使用人所设定新字库存在时,将使用人所设定新字库显示於自创字区中,即图14右上方;处理6:使用人输入操作命令,命令计有:造字、修字、修饰功能、参考字、还原、存档、出口等;处理7:如果操作命令是“造字”时,回处理2操作;处理8:如果操作命令是“修字”时,进行处理9的操作;处理9:使用人选取欲修的新字,然后进行处理10的操作;处理10:设定使用人所选的新字为存字的位置,然后回处理6操作;处理11:如果操作命令是“修饰功能”时,进行处理12的操作;处理12:照使用人所选的修饰功能修饰字形,然后回处理6操作;处理13:如果操作命令是“参考字”时,进行处理14的操作;处理14:使用人选取欲参考的字,将现有的字形与使用人选取的参考字合併(Or),然后回处理6操作;处理15:如果操作命令是“还原”时,进行处理16的操作;处理16:设定存字的位置为新字字库之尾,清除工作区,然后回处理6操作;处理17:如果操作命令是“存档”时,进行处理18的操作;处理18:将现有的字形存於所设定存字之位置,设定存字的位置为新字字库之尾,清除工作区,然后回处理6操作;处理19:如果操作命令是“出口”时,结束造修字程序;处理20:造修字控制流程的终点。
图    19:档案控制流程,提供使用人选取中文档案名作为输入之用。图中处理1:档案控制流程起点;处理2:检查档案录是否存在,当档案录不存在时,进行处理3的操作,当档案录存在时,进行处理7的操作;处理3:寻找所有的中文档案;处理4:检查中文档案是否存在;处理5:当系统中没有任何中文档案时,显示讯息並终止程序;处理6:当系统中有中文档案时,蒐集中文档案名並建立档案录;处理7:显示合乎寻找条件的中文档案於屏幕;处理8:使用人输入操作命令,计有:选取档名、换页、寻找、执行、出口等;处理9:判断输入命令是否为“选取档名”,当输入命令为“选取档名”时,进行处理10,当输入命令不是“选取档名”时,进行处理11;处理10:将使用人 所选取的档名存放於暂存区,並回处理8;处理11:判断输入命令是否为“换页”;处理12:当输入命令为“换页”时,显示使用人所选页次的内容,並回处理8;处理13:当输入命令不是“换页”时,判断输入命令是否为“寻找”;处理14:当输入命令是“寻找”时,找出所有符合条件的档名显示於屏幕,並回处理8;处理15:当输入命令不是“寻找”时,判断输入命令是否为“执行”;处理16:当输入命令为“执行”时,将暂存区中的档名送回呼叫程序,並回处理19;处理17:判断输入命令是否为“出口”;处理18:当输入命令为“出口”时,执行终止程序,並回处理19;处理19:档案控制流程终点。
图    20:汉语拼音及注音符号下各种形态的音代字。图中的音代字为放大体,字的外框仅表示其框内的所有图形为“单一”的文字,实际的音代字可参照图22,每个音代字可由两个8位元编码(2    bytes)所代表。
图    21:音代字在语音输入的使用流程。用来加速处理大量文字並可节省人工定字,本图以语音输入为例。
图    22:汉语拼音下第一声的音代字全表。可参照图20建立五个声调的所有音代字。
图    23:本发明之硬软件介面(Interfaces)及资料通道(Data    Path)。
图    24:汉语拼音下部首重要性统计表。本表根据中国国标    GB    2312-80共收字符7445个所做的统计分析。资料显示:前面的23个部首,佔全部文字的54%;前面的62个部首,佔全部文字的80%,其馀124个部首,佔全部文字的20%,为低效率部首。
图    25:注音符号下部首重要性统计表。本表根据臺湾    BIG-5共收字符13053个所做的统计分析。资料显示:前面的23个部首,佔全部文字的62%;前面的62个部首,佔全部文字的87%,其馀152个部首,佔全部文字的13%,为低效率部首。
图    26:汉语文字输出。图中以“汉语第一级汉字简繁体对照”输出。
(八)实施本发明的最好方式:
本发明之方法可适用於任何电算机系统,需结合电脑主机、监视器、图形卡、硬碟机、软碟机、印表机、图形的使用人介面(GUI),电脑作业系统(OS),而其输入设备则需要,键盘、光学点输入设备(Optical    Pointing    Device,如滑鼠、光笔、轨迹球、滑鼠笔等的任何一种均可),至於语音输出入设备及语音卡则为选择性的(Optional)可有可无。参阅图23。完全中文作业环境下,不需任何中文系统,利用图形技术,其流程参阅图1。其实施之步骤如下:
(1)判断输入之命令,执行有声字、无声字、造字、及语词处理;
(2)判断有声字文字输出入的形态,执行音代字或有声字、无声字、造字、及语词的输出入。
(3)判断无声字字盘的分类命令,执行数字、英文、日文、俄文、希臘字母、汉语拼音、汉语注音、汉语部首、常用符号、多文字盘、新字符号之处理;
(5)执行造字及图形之处理,当处理完毕,储存至自创字库档或其他档案中;
(4)判断语词之输入命令,执行二字成语、三字成语、四字成语、多字成语、俗谚、常用词彙、文书档案处理;
(5)判断执行上述屏幕图形有关之处理;
(6)判断档案输出的形态命令,执行语音,印刷,屏幕列示之处理;
本发明之实施在有声字的处理,可按图2所示,分汉语拼音(如图3~图7)及注音符号(如图7,图9~图12)为两个系统,分开执行而各别按使用需要转换“繁体”或“简体”中文;亦可将图3~图13之汉语拼音注音符号合併处理,为一个繁简並存中文系统,提供使用人有更多的选择;以上二者均是目前国人迫切需要的电算系统。

Claims (8)

1、一种使用图形技术、键盘输入和屏幕显示相结合,在即时编辑程序作业时,完全免用中文字码,以点输入设备(Pointing Device)对计算机进行汉语有声字、语词、无声字和档案进行输入输出,从而对汉语和多文种进行迅速编辑之系统,其特徵在於:
1.1本发明的操作介面系统包括语音输出入设备;
1.2本发明能进行音代字之语音处理;
1.3本发明能同时混合输出输入世界文字、符号和图形处理;
1.4本系统的具体处理步骤,包括:
1.4.1有声字的处理:
1.4.1.1对特定字不按顺序任意组合地输入已知所有的音形多标準並利用交集原理(Intersection),从字库中搜寻合於输入标準的合格字;所述的“音形多标準”包括:以汉语有声字之发音、声调、部首(即字形的共同部分,可为字典上的部首、字根或笔形等等)及笔划等多种标準(Criteria);所述的“不按顺序的任意组合”是指:“标準”的选用与否是随意的,“标準”的输入是不论顺序的,“标準”的输入是可以重複的;
1.4.1.2屏幕显示合格字及页数;
1.4.1.3若需再寻找时,输入已知特定字所具有的任一音形标準,系统执行再寻找並以屏幕显示合於再输入标準的特定字及页数;可重複地再寻找直到在屏幕上易於挑选或输入声韵标準为止;
1.4.1.4翻页寻找或直接输入特定字於编辑中的文书;
1.4.2複字(语词)的处理:
1.4.2.1将语词以字数之多寡可分为二、三、四、多字语词、俗谚及常用词彙等语词库,並预设合格语词屏幕显示之个数;
1.4.2.2複字(语词)的第一字(或前面几个字)是指:以编辑文书之游标(Cursor)前一字或以上述的有声字的处理方法检出的语词第一字;
1.4.2.3语词输入时,使用输入相对的语词命令,即二、三、四字、常用俗谚…等语词命令;
1.4.2.4系统执行交集程序,寻找第一字(或前面数个字,可调整设定)相同的合格语词;
1.4.2.5合格语词个数未超过预定合格语词屏幕显示之个数时,屏幕显示合格语词及页数;
1.4.2.6若需再寻找时,输入特定语词次一字的任一音形标準,系统执行再寻找並以屏幕显示合於再输入标準的语词及页数;可重複地再寻找直到在屏幕上易於挑选为止;
1.4.2.7翻页寻找或直接点取输入特定语词於编辑中的文书;
1.4.2.8常用词彙档案是使用文书编辑器编辑建立,或於编辑文书时,以存词(字)命令点取语词(字)范围(起点及终点),系统自动存入常用词彙(字)档,即存即用,为常用词(字)库的来源;
1.4.3无声字之处理:
1.4.3.1无声字符号放置於分类字盘,字盘按实际需要而设,可分:数字、英文、日文、俄文、希臘文、汉语拼音、汉语注音、汉语部首、常用符号、其他多文种字、新字、半字等,每一字盘内的字符系统设有於初值(Default),其中数字、英文、日文、俄文、希臘文、汉语拼音、汉语注音、汉语部首等字盘取自系统字库;新(半)字字盘取自造修字机的造字;多文字盘的字符取自多文档案;常用符号字盘取自常用符号档案;
1.4.3.2编辑文书时,可由控制字盘档案的档案控制表屏选任一分类字盘,经编辑程序以增、删字符,字盘命名或改名、或还原字盘的系统初值;或编辑文书时,可以“存字”功能点取编辑中文书的任一字符,存入指定的分类字盘,即存即用;
1.4.3.3符号输入时,不需码元,迳由分类字盘或由控制字盘档案的档案控制表屏选所要字盘,再点取所要字符,输入於编辑中的文书 ;
1.4.4造修字之处理:
1.4.4.1编辑文书时,无字、缺字、找不到字需要造修字时,使用造修字机,造修世界字,可造修任何尺寸的世界字符(多文种文字或任何图形),即造即用,其一倍字为新字库之字源,亦为分类字盘新字字盘的来源,其高倍字为图形档的来源;
1.4.4.2造字修字时,不须记忆任何字码或以键码的方式来指定所要参考之字,任何操作以点输入设备(Pointing Device)完成;
1.4.4.3造字修字时,利用现有之字形並配合系统提供的修饰功能,将该字修饰为所要之世界字符(多文种文字或任何图形);上述可利用现有之字形,包括:经由上述的有声字的处理方法检出的之字符,或由参考字盘中点取之新字符;
1.4.4.4造字修字时,屏幕工作区可在1∶1的实际字上或在选区后放大的工作区操作;造字或修字不须记忆新字之代号,也不须以键码的方式来指定所要修改之字;当选取修字命令时,系统要求由参考字盘中点取所要修改之新字,在选择所要修改之字以后的一切操作步骤均与造字相同;其具体实施方法则可按一倍造字机及高倍造字机分别执行造字(或制图)程序;上述之“一倍”是指一般文书的文字点数而言,其定义随文字输出品质的要求而变动,如:24×24,48×48,64×64等是,而“高倍”是指上述之“一倍”的若干倍而言的;
1.4.4.5造字即造图,一倍造字机可造修一倍字或半字,而高倍造字机可造修高倍字(或图形);造修字结果,产生一倍字、半字及高倍字,一倍字之输入是由新字字盘点字输入,半字之输入是由半字字盘点字输入,高倍字之输入是由高倍字(或图形)的档案控制表控制的,其档名以音形交集法点取输入的。
1.4.5档案之处理:
1.4.5.1当输入档案时,屏幕显示档案控制表;
1.4.5.2可直接选档或以音形多标準交集法检字检出中文档名的第一字或前数字;
1.4.5.3系统搜寻比对档案控制表,选取合格档名;
1.4.5.4屏幕以高亮度显示第一个合格档名为首页的档案控制表,以供输入;上述之中文档名不需键入,只需使用滑鼠点取或翻页选档即可输入;
1.4.6音代字之处理:
1.4.6.1为语音处理之目的,依据汉语音节和一定原则创建音代字文字系统;所述之汉语音节在汉语拼音下共有441个声韵的不同组合(如声韵的不同组合与441不同,以实际语言为準),可建第一声的全套音代字,如:“ ā”“安` āń”等,並依同样原则可複制扩充为五个声调的音代字,如:“ ā”“ ā”“ ᔓ ǎ”“ à”等;所述之一定原则,包括:(1)找出全部汉语的发音(音节,即声、韵的不同组合);(2)由每个音节所含的文字中选出字形最易被辨认且无同字异音字(破音字)者,做为音代字之文字部份;(3)再为各音节所选出的字中加声调符号:即‘·’、‘一’、‘ ’、‘√’、‘丶’共5种,其目的在易於识别其为音代字;(4)再将每个音节所选出的字中加发音符号,如汉语拼音、注音符号等相等符号,其式样如:汉语拼音的“ ā”或注音符号的“ Y”等;(5)再将完成之音代字编码,与其馀汉字平行,共存於同一系统中,依使用之需要检出使用;
1.4.6.2输入音代字的两种模式(Mode),可建立音代字的语音档案;所述之两种模式为定音(声,韵)法和定音调(声,韵,调)法;第一声的全套音代字适合定音(声,韵)法使用,五个声调的音代字适合定音调(声,韵,调)法使用;
1.4.6.3音代字是语音处理的输出入文字,其字形可依据所述的一定原则自由设计,目的在提高音代字的可读性,供直接输出入音代字或经编辑或语词替换后输出入汉语文书;
2、根据权利要求1所述之系统,其特徵在於所说的发音标準:有关发音标準的屏幕列示方法:在汉语拼音下有两种:一为声韵屏幕列示法:即按声母、韵母排列;二为字母音代字法:即屏幕仅列汉语字母,当一个字母被选之后,该字母所有音节(或音代字)由屏幕列示,再点取输入,以字母“a”被选为例,屏幕就列示“a”字母所有音节(或音代字);而在注音符号下,注音的排列有两种方式:一为声韵屏幕列示法:按声母、韵母排列;二为注音音代字法:屏幕列示所有的注音符号,当其中的一个注音符号被选之后,该注音符号的所有音节(或音代字)由屏幕列示;输入发音标準时,不详的拼音或声母或韵母可以输入“☆”符号以为替代。
3、根据权利要求1所述之系统,其特徵在於所说的部首标準:在汉语拼音或注音符号下,统计各部首所含文字数在所有文字数的百分比为数据,如百分比高该部首重要性就高,如百分比低该部首重要性就低,所有部首按其“重要性”为序由高到低排列並分为数个屏幕列示,其法为:『每个屏幕选列一些部首外而其馀未列部首(重要性较低)概括以‘?’或其他代表符号列示』,每个屏幕列示部首数按需要酌量调整,重要性较低的部首置於第二屏幕以后列示,或根本不使用。
4、根据权利要求1所述之系统,其特徵在於所说的声调标準:在汉语拼音下,声调有七个:即轻、一、二、三、四声,及“轻一合声”,“二三合声”,其符号为:“·”“-”“
Figure 921008880_IMG3
”“ ”“丶”“
Figure 921008880_IMG5
”“
Figure 921008880_IMG6
”;而在注音符号下,声调也有七个:即轻、一、二、三、四声,及轻一,二三合声,其符号为“·”“ ”
Figure 921008880_IMG7
5、根据权利要求1所述之系统,其特徵在於所说的笔划标準:列示的方法两种:一为系统将所有笔划分为几个笔划组,每个笔划组给一个代表名称,以这个代表名称来选笔划,例如分为“少笔”丶“中笔”及“多笔”三个笔划组,选用“多笔”笔划组来检取笔划较多的字;二为系统列示笔划数表,选用两个笔划数(上、下限)来定义所要的笔划范围;这两种笔划数标準可单独或合併使用,並且可随需要增减调整笔划数范围及笔划组数,完全用滑鼠操作,免用键盘。
6、根据权利要求1所述之系统,其特徵在於所说的档案控制表处理:档案控制表控制文书档案,可用相同之中文档名、无名档、或可用任何文字符号命名;当编辑新档並定义中文档名时,档名及建档日期等有关资料被写入档案头(File  Header)並以特定的档案的识别码(Extention)来表示其为中文档案。当校订旧档案或操作影响档案控制表有关资料时,系统便将所有识别码相同的档案头全部读出,便可以建立“档案控制表”(File  Control  List),然后,储存该控制表於记忆器,系统便设定第一个被选的档案为现时的操作档(Active  File),再将操作档所在页次的资料用直接接触列示记忆体的方法(Direct  Access  Display  Memory),显示於屏幕,编校档案时不需键入档名,只需使用滑鼠点取,或翻页选档,当“确认”命令被选定时,现时操作档档名就被送回呼叫的程序(Calling  Process)。
7、根据权利要求1所述之系统,其特徵在於所说的音代字处理的不同模式,是指:汉语拼音下以音代字输入时,有两种模式(Mode)可以选择,一为定音,二为定音並定调;如选用的是定音模式时,屏幕上的部首、笔划或声调的检字标準成为无效(Disabled)的功能,其输出为第一声的音代字;如选用的是定音(定声韵)並定调的模式,屏幕上的部首和笔划则成为无效的标準,其输出为有声调的音代字;在注音符号下,情形与上述完全相同,惟此法下输出之音代字为繁体文字;音代字本身具有可读性,其档案直接做为语音、列示、印刷及转换汉字等输出之用。
8、根据权利要求1所述之系统,其特徵在於所说的音代字处理步骤,分为预备操作及平常操作两部分,即:
(1).预备操作:
①系统必需有预储全部音代字标準发音的数量化语音资料库;
②操作员人需有其预储全部音代字发音的数量化语音资料库,並需预储与标準发音的数量化语音资料库保持对应关係的对照表;
③操作员以语音输入时,应儘可能与预储的发音相近;
④系统必需有数量化语音语词资料库;
(2).平常操作
①系统判定操作员已有其预储全部音代字发音的数量化语音资料库;
②选用输入模式(Mode):一为定音,二为定音並定调;定音法输入为第一音的音代字,定音並定调法输入为有“音”並带“调”的音代字。
③输入文书资料,有二法可行:一由点输入设备以音代字点字输入;二由语音输入设备接受读入文书资料;
④由点输入设备以音代字点字输入者,以音代字码存档;由语音输入设备接受读入文书资料者,需比对其预储音代字发音的数量化语音资料库,经判断处理並以音代字码存档;
⑤系统判断是否要以“形”定字;如是,经系统以自动语意判断处理程序(Sementics  Analysis  Process),並以汉语词替换音代字码元(Code),建立一般的文书档案(含或不含音代字),这种档案可以直接输出;如再经一般编校文书之程序,替换需要替换的文字,就可以建立通常的文书档案,不论这种档案含或不含音代字,其可读性更高,可以做为一般性输出;
⑥系统判断不以“形”定字而以音代字输出时:系统尚需判断有否要求“列示”或“印刷”;如是,则以屏幕“列示”或以印刷机“印刷”输出;如要求“语音”输出,系统尚需判断以“标準音”或“原音”输出;如以“标準音”输出,系统经原音标準音替换处理程序(当转换为标準音输出时,系统以标準音之数量化资料来替换操作员的发音资料),然后以“标準音”输出;如以“原音”输出,系统利用语音输出设备以“原音”输出;同理,可转换任何“地方音”输出。
CN 92100888 1992-02-08 1992-02-08 汉语文字处理之方法 Expired - Fee Related CN1023917C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 92100888 CN1023917C (zh) 1992-02-08 1992-02-08 汉语文字处理之方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 92100888 CN1023917C (zh) 1992-02-08 1992-02-08 汉语文字处理之方法

Publications (2)

Publication Number Publication Date
CN1064359A CN1064359A (zh) 1992-09-09
CN1023917C true CN1023917C (zh) 1994-03-02

Family

ID=4938848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 92100888 Expired - Fee Related CN1023917C (zh) 1992-02-08 1992-02-08 汉语文字处理之方法

Country Status (1)

Country Link
CN (1) CN1023917C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1107255C (zh) * 1997-08-06 2003-04-30 顾剑 无限有序字符集汉字全集方法和系统

Also Published As

Publication number Publication date
CN1064359A (zh) 1992-09-09

Similar Documents

Publication Publication Date Title
CN1023916C (zh) 简繁五笔字根汉字输入系统
CN86105610A (zh) 使用汉语拼音的汉字数据处理和字处理的方法和装置
CN1194703A (zh) 电子文件显示装置、其方法和记录媒体
CN1316689A (zh) 汉字输入装置和方法
CN1318786A (zh) 显示于屏幕上的集约型中英文键盘
CN1023917C (zh) 汉语文字处理之方法
CN1515988A (zh) 一类音形义汉字编码输入法
CN1084500C (zh) 汉字变换装置
CN1103181A (zh) 多键并击式高速汉字输入方法及键盘装置
CN1058342C (zh) 汉字编码的计算机输入方法
CN1026829C (zh) 中文头尾码输入法及其键盘装置
CN85100087A (zh) 《中文声数编码》方案及其实现方法
CN1037043A (zh) 计算机汉字输入方法
CN1220127C (zh) 双分汉字与双分输入法及合成字模
CN1175722A (zh) 计算机中文通用输入法
CN1038888A (zh) 音形义兼容与汉拼字联词编码系列及键盘
CN86102418A (zh) 汉语音节处理机及汉语音节处理方法
CN1108551C (zh) 优化赋音形码计算机汉字输入方法
CN1081773A (zh) “多声递推联想”汉语词字编码
CN1694046A (zh) 一种计算机编码汉字键盘输入方法及信息码
CN1056357A (zh) 中文输入法
CN1023843C (zh) 双位中文电脑键盘的中文输入技术
CN1088210C (zh) 六区五位汉语音节和汉字键盘输入方法
CN1050913C (zh) 中文部首代码编码输入的文书处理装置
CN1123818C (zh) 电拼汉字计算机输入法、所用键盘及其中文内码

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C15 Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993)
OR01 Other related matters
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee